CN114021564B - 一种针对社交文本的切分取词方法及系统 - Google Patents

一种针对社交文本的切分取词方法及系统 Download PDF

Info

Publication number
CN114021564B
CN114021564B CN202210008487.2A CN202210008487A CN114021564B CN 114021564 B CN114021564 B CN 114021564B CN 202210008487 A CN202210008487 A CN 202210008487A CN 114021564 B CN114021564 B CN 114021564B
Authority
CN
China
Prior art keywords
word
gram
character
character string
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210008487.2A
Other languages
English (en)
Other versions
CN114021564A (zh
Inventor
刘晓雪
王剑辉
伍仪洲
张瑞冬
童永鳌
朱鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu No Sugar Information Tech Co ltd
Original Assignee
Chengdu No Sugar Information Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu No Sugar Information Tech Co ltd filed Critical Chengdu No Sugar Information Tech Co ltd
Priority to CN202210008487.2A priority Critical patent/CN114021564B/zh
Publication of CN114021564A publication Critical patent/CN114021564A/zh
Application granted granted Critical
Publication of CN114021564B publication Critical patent/CN114021564B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Abstract

本发明公开了一种针对社交文本的切分取词方法及系统,属于社交文本处理技术领域,针对现有技术中存在的无法满足对从事网络诈骗的人员涉及的社交文本进行精准切分的问题,本发明包括文本预处理模块,N‑gram词库创建模块,分词函数模块和N‑gram词库更新模块,根据分词模块中的自定义分词函数对文本信息进行精准分词,且设置一定的更新周期,更新周期间产生的新数据对N‑gram词库进行更新,以便提升分词准确度,其目的为:针对上述关于从事网络诈骗的人员聊天信息强烈鲜明的语言风格,以及与传统聊天内容上的巨大差别,本发明根据不同类型的语料,形成有自身特点的文本识别和切分技术,对文本进行精准切分取词。

Description

一种针对社交文本的切分取词方法及系统
技术领域
本发明属于社交文本处理技术领域,具体涉及一种针对社交文本的切分取词方法及系统。
背景技术
随着互联网的进步与发展,涉嫌网络诈骗的情况越来越严峻,其网络诈骗的形式也层出不穷,这猖獗的背后是因为有庞大的产业为其提供帮助,使得网络诈骗各个环节独立运行,网络诈骗成本降低,网络诈骗数量不断突破新高。
现有技术中,从事网络诈骗的人员一般都会在匿名的各种通讯软件和暗网论坛进行交流和交易,交流中所用语言风格独特,常常带有只有内行才能看懂的黑话、暗语。
针对于此类文本信息,传统的文本切分方法及系统已经无法满足,需要基于大量此类信息数据,结合语言风格,建立黑话、暗语词库,开发一套能有效对其进行文本切分的方法及系统,以便能够更好的对网络诈骗情况进行监测。
发明内容
针对现有技术中存在的无法满足对从事网络诈骗的人员涉及的社交文本进行精准切分的问题,本发明提出了一种针对社交文本的切分取词方法及系统,其目的为:针对上述关于从事网络诈骗的人员聊天信息强烈鲜明的语言风格,以及与传统聊天内容上的巨大差别,本发明根据不同类型的语料,形成有自身特点的文本识别和切分技术,对文本进行精准切分取词。
为实现上述目的本发明所采用的技术方案是:提供一种针对社交文本的切分取词方法,包括
S1:采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据,并对原始文本数据进行清洗;
S2:使用N-gram模型构建N-gram词库,并通过互信息对清洗后的原始文本数据进行计算过滤,将保留的文本数据存入N-gram词库;
S3:利用N-gram词库并通过文本分词函数对文本数据进行分词;
S4:对分词结果进行复核,若存在错误分词结合则对其进行修复;
S5:设置固定的时间为N-gram词库的更新周期,对N-gram词库进行更新。
较优的,本发明S1中对原始文本数据的清洗具体为:
S1.1:通过正则表达式去除原始文本数据中的无效字符,包括:不可见字符、网址、数字、非中文、@字符串和无意义字符;
S1.2:判断是否存在敏感词分隔符,若存在则将其替换为空字字符:
S1.2.1:首先创建一个候选敏感词分隔符集合,将原始文本数据中所有的表情符号和标点分隔符号加入该候选敏感词分隔符集合,并作为候选敏感词分隔符;
S1.2.2:然后使用正则表达式提取所有的某一种候选敏感词分隔符加入到第一列表,然后提取所有该候选敏感词分隔符和其后带的代词字符加入到第二列表中;
S1.2.3:若第二列表中的字符长度最小值小于等于2,并且第一列表长度与第二列表长度相等,则认为该候选敏感词分隔符是敏感词分隔符;
S1.2.4:将敏感词分隔符替换为空字字符。
较优的,本发明所述N-gram词库包括已登录词典、处理完成的原始文本数据和自定义词典,S2具体为:
S2.1:将清洗后的原始文本数据,利用空格进行分隔形成列表,筛选长度大于1的字符串加入待处理列表中;
S2.2:将待处理列表中所有字符串取出,统计它的4gram和对应的词频,加入到N-gram字典中,并计算N-gram字典中字符串长度为1的词的数量,作为词的总数;
S2.3:根据N-gram字典中的词的字符串长度不同,设置不同的阈值,然后计算N-gram字典中每个词的互信息,保留互信息大于阈值的词作为输出集合存入N-gram词库。
较优的,本发明S3中文本分词函数具体为:
S3.1.1:首先依赖N-gram词库判断一个字符串是否需要进行切分,若一个字符串的4gram的四个词全部在N-gram词库中,则这个字符串为完整字符串,不需要进行切分;若一个字符串的4gram的四个词不全部在N-gram词库中,则在这个字符串处进行切分;
S3.1.2:对一个待进行分词切分的字符串,根据其字符串的长度l,赋值一个长度为l-1的全0数组,字符串的前两个字对应全0数组中的一个0,然后依次统计字符串S的首字、二字、三字、四字和五字是否在N-gram词库中,如果在,对应的数组位置就加1,一直遍历到该字符串所有的字统计完成;
S3.1.3:然后将数组对应的字符串进行判断切分,从0的部分切开,非0的部分连接起来,切分形成一个列表。
较优的,本发明通过所述文本分词函数对本分数据进行切分具体为:
S3.2.1:提取N-gram词库中的所有字符串,对字符串进行依次判断;
S3.2.2:若字符串是纯数字或字母或字符串的中文字符长度小于等于4,则将该字符串添加到result列表中;
对剩余的字符串通过文本切分函数进行切分,并对切分后的字符串列表中的每个字符串w进行判断;
S3.2.3:若字符串w是中文加数字,将数字替换为空字符串后添加到result列表中;
若字符串w是中文加非数字,将字符串w中的中文提取出来并赋值为r后继续判断:
S3.2.4:若字符串r小于5个字符,则将字符串w添加到result列表中;
若字符串r大于等于8个字符,使用结巴分词,并将结果添加到result列表中;
若字符串r大于等于5个字符且小于8个字符,判断结巴分词结果中单个字的数量,如果单个非停用字的数量大于0,说明结巴分词是错误切分,将字符串w添加到result列表中,否则,将结巴分词结果添加到result列表中。
较优的,本发明S4具体为:
对result列表中的词k进行遍历判断,如果词k是单个字,并且它的上一个词q也是单个字,若单字k和单字q都不在停用词中,且新词q+k在清洗后的文本中,那么修复该错误切分,拼接q+k成词。
较优的,本发明S5具体为:当对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,接着扩充当天的原始文本数据,对当天的原始文本数据中字符串文本长度大于5的进行清洗,并利用空格分隔,加入到待定的words集合中,将words集合中所有汉字带数字的字符串替换为纯汉字字符串,替换后提取集合中字符长度在2-5之间的字符串,并且过滤掉字符首尾两个字任意一个在停用词中的字符串,将剩下的字符串扩充到N-gram词库中。
本发明还包括一种针对社交文本的切分取词系统,包括:
文本预处理模块:采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据,并通过正则表达式对原始文本数据进行清洗,以及判断是否存在敏感词分隔符并替换为空字符串;
N-gram词库创建模块:由处理完成的原始文本数据、已登录词典和自定义词典组成,所述处理完成的原始文本数据即上个周期的原始文本数据经过4gram处理后入库的数据;
分词函数模块:利用文本分词函数对文本数据进行切分,对切分后的result列表进行拼接,并修复错误切分;
N-gram词库更新模块:每个周期对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,然后将这个周期内产生的原始文本数据通过文本预处理模块进行处理后,扩充到N-gram词库中。
较优的,本发明所述N-gram词库创建模块具体为:
步骤1:将清洗后的原始文本数据,利用空格进行分隔形成列表,筛选长度大于1的字符串加入待处理列表中;
步骤2:将待处理列表中所有字符串取出,统计它的4gram和对应的词频,加入到N-gram字典中,并计算N-gram字典中字符串长度为1的词的数量,作为词的总数;
步骤3:根据N-gram字典中的词的字符串长度不同,设置不同的阈值,然后计算N-gram字典中每个词的互信息,保留互信息大于阈值的词作为输出集合存入N-gram词库。
较优的,本发明所述N-gram词库更新模块具体为:
当对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,接着扩充当天的原始文本数据,对当天的原始文本数据中字符串文本长度大于5的进行清洗,并利用空格分隔,加入到待定的words集合中,将words集合中所有汉字带数字的字符串替换为纯汉字字符串,替换后提取集合中字符长度在2-5之间的字符串,并且过滤掉字符首尾两个字任意一个在停用词中的字符串,将剩下的字符串扩充到N-gram词库中。
相比现有技术,本发明的技术方案具有如下优点/有益效果:
1.本发明根据文本切分函数对文本数据进行切分,能够使切分结果更加精准。
2.本发明设置有更新周期,将周期时间内产生的新数据对N-gram词库进行周期性更新,使词库与时俱进,越来越丰富。
3.本发明的文本数据限制文本类型,可以对大多数文本数据进行切分。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明一种针对社交文本的切分取词方法及系统的流程示意图。
具体实施方式
为使本发明目的、技术方案和优点更加清楚,下面对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
实施例1:
如图1所示,提供一种针对社交文本的切分取词方法,包括
S1:采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据,并对原始文本数据进行清洗;具体为:
S1.1:通过正则表达式去除原始文本数据中的无效字符,包括:不可见字符、网址、数字、非中文、@字符串和无意义字符;
S1.2:判断是否存在敏感词分隔符,若存在则将其替换为空字字符:
S1.2.1:首先创建一个候选敏感词分隔符集合,将原始文本数据中所有的表情符号和标点分隔符号加入该候选敏感词分隔符集合,并作为候选敏感词分隔符;
S1.2.2:然后使用正则表达式提取所有的某一种候选敏感词分隔符加入到第一列表,然后提取所有该候选敏感词分隔符和其后带的代词字符加入到第二列表中;
S1.2.3:若第二列表中的字符长度最小值小于等于2,并且第一列表长度与第二列表长度相等,则认为该候选敏感词分隔符是敏感词分隔符;
S1.2.4:将敏感词分隔符替换为空字字符。
S2:使用N-gram模型构建N-gram词库,并通过互信息对清洗后的原始文本数据进行计算过滤,将保留的文本数据存入N-gram词库;
本发明所述N-gram词库包括已登录词典、处理完成的原始文本数据和自定义词典,S2具体为:
S2.1:将清洗后的原始文本数据,利用空格进行分隔形成列表,筛选长度大于1的字符串加入待处理列表中;
S2.2:将待处理列表中所有字符串取出,统计它的4gram(如字符串:新的一年,对应的4gram列表为[新,新的,新的一,新的一年,的,的一,的一年,一,一年,年])和对应的词频,加入到N-gram字典中,并计算N-gram字典中字符串长度为1的词的数量,作为词的总数;
S2.3:根据N-gram字典中的词的字符串长度不同,设置不同的阈值,然后计算N-gram字典中每个词的互信息,保留互信息大于阈值的词作为输出集合存入N-gram词库。
本发明的互信息计算方法:
二字词:I=(P(AB))/(P(A)×P(B))。
三字词:MIN{I=P(ABC)/(P(A)×P(BC) ),I=P(ABC)/(P(AB)×P(C) )}。
四字词:MIN{P(ABCD)/(P(A)×P(BCD) ),P(ABCD)/(P(AB)×P(CD) ),P(ABCD)/(P(ABC)×P(D))}。
其中,I表示互信息,P表示概率,MIN表示最小值,AB/ABC/ABCD表示两字词/三字词/四字词,(比如:葡萄(AB)/葡萄酸(ABC)/葡萄好酸(ABCD))。
S3:利用N-gram词库并通过文本分词函数对文本数据进行分词;
本发明S3中文本分词函数具体为:
S3.1.1:首先依赖N-gram词库判断一个字符串是否需要进行切分,若一个字符串的4gram的四个词全部在N-gram词库中,则这个字符串为完整字符串,不需要进行切分;若一个字符串的4gram的四个词不全部在N-gram词库中,则在这个字符串处进行切分;
S3.1.2:对一个待进行分词切分的字符串,根据其字符串的长度l,赋值一个长度为l-1的全0数组,由于成词至少是两个字,所以字符串S的前两个字对应数组的索引为0,后面的每一个字对应一个索引位置。(如字符串“国际短信”,对应的全0数组为array([0, 0,0]),第一个0对应“国际”,第二个0对应”短”,第三个0对应”信”)。然后依次统计字符串S的首字、二字、三字、四字和五字是否在N-gram词库中,如果在,对应的数组位置就加1,一直遍历到该字符串所有的字统计完成;
S3.1.3:然后将数组对应的字符串进行判断切分,从0的部分切开,非0的部分连接起来,切分形成一个列表。
通过所述文本分词函数对本分数据进行切分具体为:
S3.2.1:提取N-gram词库中的所有字符串,对字符串进行依次判断;
S3.2.2:若字符串是纯数字或字母或字符串的中文字符长度小于等于4,则将该字符串添加到result列表中;
对剩余的字符串通过文本切分函数进行切分,并对切分后的字符串列表中的每个字符串w进行判断;
S3.2.3:若字符串w是中文加数字,将数字替换为空字符串后添加到result列表中;
若字符串w是中文加非数字,将字符串w中的中文提取出来并赋值为r后继续判断:
S3.2.4:若字符串r小于5个字符,则将字符串w添加到result列表中;
若字符串r大于等于8个字符,使用结巴分词,并将结果添加到result列表中;
若字符串r大于等于5个字符且小于8个字符,判断结巴分词结果中单个字的数量,如果单个非停用字的数量大于0,说明结巴分词是错误切分,将字符串w添加到result列表中,否则,将结巴分词结果添加到result列表中。
S4:对分词结果进行复核,若存在错误分词结合则对其进行修复;S4具体为:
对result列表中的词k进行遍历判断,如果词k是单个字,并且它的上一个词q也是单个字,若单字k和单字q都不在停用词中,且新词q+k在清洗后的文本中,那么修复该错误切分,拼接q+k成词,除此之外,其他情况均直接添加词k。
S5:以一个月为N-gram词库的更新周期,对N-gram词库进行更新。S5具体为:
当对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,(已登录词典是收集的已经被识别出来的词语或者不常用词。自定义词典是人工自行添加的词语,这些词语可能是行业新词或者黑话,自定义词典因人工添加而更新。当对N-gram词库进行更新时,需要将已登录词典和最新自定义词典中的词添加到N-gram词库中。)接着扩充当天的原始文本数据,对当天的原始文本数据中字符串文本长度大于5的进行清洗,并利用空格分隔,加入到待定的words集合中,将words集合中所有汉字带数字的字符串替换为纯汉字字符串,替换后提取集合中字符长度在2-5之间的字符串,并且过滤掉字符首尾两个字任意一个在停用词中的字符串,将剩下的字符串扩充到N-gram词库中。
本发明还包括一种针对社交文本的切分取词系统,包括:
文本预处理模块:采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据,并通过正则表达式对原始文本数据进行清洗,以及判断是否存在敏感词分隔符并替换为空字符串;
N-gram词库创建模块:由处理完成的原始文本数据、已登录词典和自定义词典组成,所述处理完成的原始文本数据即上个周期的原始文本数据经过4gram处理后入库的数据;
分词函数模块:利用文本分词函数对文本数据进行切分,对切分后的result列表进行拼接,并修复错误切分;
N-gram词库更新模块:每个周期对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,然后将这个周期内产生的原始文本数据通过文本预处理模块进行处理后,扩充到N-gram词库中。
本发明所述N-gram词库创建模块具体为:
步骤1:将清洗后的原始文本数据,利用空格进行分隔形成列表,筛选长度大于1的字符串加入待处理列表中;
步骤2:将待处理列表中所有字符串取出,统计它的4gram和对应的词频,加入到N-gram字典中,并计算N-gram字典中字符串长度为1的词的数量,作为词的总数;
步骤3:根据N-gram字典中的词的字符串长度不同,设置不同的阈值,然后计算N-gram字典中每个词的互信息,保留互信息大于阈值的词作为输出集合存入N-gram词库。
本发明所述N-gram词库更新模块具体为:
当对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,接着扩充当天的原始文本数据,对当天的原始文本数据中字符串文本长度大于5的进行清洗,并利用空格分隔,加入到待定的words集合中,将words集合中所有汉字带数字的字符串替换为纯汉字字符串,替换后提取集合中字符长度在2-5之间的字符串,并且过滤掉字符首尾两个字任意一个在停用词中的字符串,将剩下的字符串扩充到N-gram词库中。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种针对社交文本的切分取词方法,其特征在于,包括
S1:采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据,并对原始文本数据进行清洗;S1中对原始文本数据的清洗具体为:
S1.1:通过正则表达式去除原始文本数据中的无效字符,包括:不可见字符、网址、数字、非中文、@字符串和无意义字符;
S1.2:判断是否存在敏感词分隔符,若存在则将其替换为空字字符:
S1.2.1:首先创建一个候选敏感词分隔符集合,将原始文本数据中所有的表情符号和标点分隔符号加入该候选敏感词分隔符集合,并作为候选敏感词分隔符;
S1.2.2:然后使用正则表达式提取所有的某一种候选敏感词分隔符加入到第一列表,然后提取所有该候选敏感词分隔符和其后带的代词字符加入到第二列表中;
S1.2.3:若第二列表中的字符长度最小值小于等于2,并且第一列表长度与第二列表长度相等,则认为该候选敏感词分隔符是敏感词分隔符;
S1.2.4:将敏感词分隔符替换为空字字符;
S2:使用N-gram模型构建N-gram词库,并通过互信息对清洗后的原始文本数据进行计算过滤,将保留的文本数据存入N-gram词库;
S3:利用N-gram词库并通过文本分词函数对文本数据进行分词,具体为:
S3.2.1:提取N-gram词库中的所有字符串,对字符串进行依次判断;
S3.2.2:若字符串是纯数字或字母或字符串的中文字符长度小于等于4,则将该字符串添加到result列表中;
对剩余的字符串通过文本切分函数进行切分,并对切分后的字符串列表中的每个字符串w进行判断;
S3.2.3:若字符串w是中文加数字,将数字替换为空字符串后添加到result列表中;
若字符串w是中文加非数字,将字符串w中的中文提取出来并赋值为r后继续判断:
S3.2.4:若字符串r小于5个字符,则将字符串w添加到result列表中;
若字符串r大于等于8个字符,使用结巴分词,并将结果添加到result列表中;
若字符串r大于等于5个字符且小于8个字符,判断结巴分词结果中单个字的数量,如果单个非停用字的数量大于0,说明结巴分词是错误切分,将字符串w添加到result列表中,否则,将结巴分词结果添加到result列表中;
S4:对分词结果进行复核,若存在错误分词结合则对其进行修复;
S5:设置固定的时间为N-gram词库的更新周期,对N-gram词库进行更新。
2.根据权利要求1所述的一种针对社交文本的切分取词方法,其特征在于,所述N-gram词库包括已登录词典、处理完成的原始文本数据和自定义词典,S2具体为:
S2.1:将清洗后的原始文本数据,利用空格进行分隔形成列表,筛选长度大于1的字符串加入待处理列表中;
S2.2:将待处理列表中所有字符串取出,统计它的4gram和对应的词频,加入到N-gram字典中,并计算N-gram字典中字符串长度为1的词的数量,作为词的总数;
S2.3:根据N-gram字典中的词的字符串长度不同,设置不同的阈值,然后计算N-gram字典中每个词的互信息,保留互信息大于阈值的词作为输出集合存入N-gram词库。
3.根据权利要求2所述的一种针对社交文本的切分取词方法,其特征在于,S3中文本分词函数具体为:
S3.1.1:首先依赖N-gram词库判断一个字符串是否需要进行切分,若一个字符串的4gram的四个词全部在N-gram词库中,则这个字符串为完整字符串,不需要进行切分;若一个字符串的4gram的四个词不全部在N-gram词库中,则在这个字符串处进行切分;
S3.1.2:对一个待进行分词切分的字符串,根据其字符串的长度l,赋值一个长度为l-1的全0数组,字符串的前两个字对应全0数组中的一个0,然后依次统计字符串S的首字、二字、三字、四字和五字是否在N-gram词库中,如果在,对应的数组位置就加1,一直遍历到该字符串所有的字统计完成;
S3.1.3:然后将数组对应的字符串进行判断切分,从0的部分切开,非0的部分连接起来,切分形成一个列表。
4.根据权利要求1所述的一种针对社交文本的切分取词方法,其特征在于,S4具体为:
对result列表中的词k进行遍历判断,如果词k是单个字,并且它的上一个词q也是单个字,若单字k和单字q都不在停用词中,且新词q+k在清洗后的文本中,那么修复该错误切分,拼接q+k成词。
5.根据权利要求4所述的一种针对社交文本的切分取词方法,其特征在于,S5具体为:当对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,接着扩充当天的原始文本数据,对当天的原始文本数据中字符串文本长度大于5的进行清洗,并利用空格分隔,加入到待定的words集合中,将words集合中所有汉字带数字的字符串替换为纯汉字字符串,替换后提取集合中字符长度在2-5之间的字符串,并且过滤掉字符首尾两个字任意一个在停用词中的字符串,将剩下的字符串扩充到N-gram词库中。
6.一种基于权利要求1的社交文本的切分取词方法的切分取词系统,其特征在于,包括:
文本预处理模块:采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据,并通过正则表达式对原始文本数据进行清洗,以及判断是否存在敏感词分隔符并替换为空字符串;
N-gram词库创建模块:由处理完成的原始文本数据、已登录词典和自定义词典组成,所述处理完成的原始文本数据即上个周期的原始文本数据经过4gram处理后入库的数据;
分词函数模块:利用文本分词函数对文本数据进行切分,对切分后的result列表进行拼接,并修复错误切分;
N-gram词库更新模块:每个周期对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,然后将这个周期内产生的原始文本数据通过文本预处理模块进行处理后,扩充到N-gram词库中。
7.根据权利要求6所述的切分取词系统,其特征在于,所述N-gram词库创建模块具体为:
步骤1:将清洗后的原始文本数据,利用空格进行分隔形成列表,筛选长度大于1的字符串加入待处理列表中;
步骤2:将待处理列表中所有字符串取出,统计它的4gram和对应的词频,加入到N-gram字典中,并计算N-gram字典中字符串长度为1的词的数量,作为词的总数;
步骤3:根据N-gram字典中的词的字符串长度不同,设置不同的阈值,然后计算N-gram字典中每个词的互信息,保留互信息大于阈值的词作为输出集合存入N-gram词库。
8.根据权利要求6所述的切分取词系统,其特征在于,所述N-gram词库更新模块具体为:
当对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,接着扩充当天的原始文本数据,对当天的原始文本数据中字符串文本长度大于5的进行清洗,并利用空格分隔,加入到待定的words集合中,将words集合中所有汉字带数字的字符串替换为纯汉字字符串,替换后提取集合中字符长度在2-5之间的字符串,并且过滤掉字符首尾两个字任意一个在停用词中的字符串,将剩下的字符串扩充到N-gram词库中。
CN202210008487.2A 2022-01-06 2022-01-06 一种针对社交文本的切分取词方法及系统 Active CN114021564B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210008487.2A CN114021564B (zh) 2022-01-06 2022-01-06 一种针对社交文本的切分取词方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210008487.2A CN114021564B (zh) 2022-01-06 2022-01-06 一种针对社交文本的切分取词方法及系统

Publications (2)

Publication Number Publication Date
CN114021564A CN114021564A (zh) 2022-02-08
CN114021564B true CN114021564B (zh) 2022-04-01

Family

ID=80069920

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210008487.2A Active CN114021564B (zh) 2022-01-06 2022-01-06 一种针对社交文本的切分取词方法及系统

Country Status (1)

Country Link
CN (1) CN114021564B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114065313B (zh) * 2022-01-18 2022-04-22 苏州浪潮智能科技有限公司 一种串口通信保护装置、串口通信装置及服务器

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071420A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种切分索引分词的方法及系统
CN103186524A (zh) * 2011-12-30 2013-07-03 高德软件有限公司 一种地名识别方法和装置
CN105373528A (zh) * 2015-08-18 2016-03-02 新华网股份有限公司 一种文本内容敏感性分析方法和装置
CN105574090A (zh) * 2015-12-10 2016-05-11 北京中科汇联科技股份有限公司 一种敏感词过滤方法及系统
CN107463666A (zh) * 2017-08-02 2017-12-12 成都德尔塔信息科技有限公司 一种基于文本内容的敏感词过滤方法
CN108717408A (zh) * 2018-05-11 2018-10-30 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN109933778A (zh) * 2017-12-18 2019-06-25 北京京东尚科信息技术有限公司 分词方法、装置以及计算机可读存储介质
CN110727880A (zh) * 2019-10-18 2020-01-24 西安电子科技大学 一种基于词库与词向量模型的敏感语料检测方法
CN111259151A (zh) * 2020-01-20 2020-06-09 广州多益网络股份有限公司 一种混合文本敏感词变体识别方法和装置
CN111669757A (zh) * 2020-06-15 2020-09-15 国家计算机网络与信息安全管理中心 一种基于通话文本词向量的终端诈骗电话识别方法
CN111831785A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 敏感词检测方法、装置、计算机设备及存储介质
CN113011156A (zh) * 2021-01-20 2021-06-22 腾讯科技(深圳)有限公司 审核文本的质检方法、装置、介质以及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI465950B (zh) * 2012-08-21 2014-12-21 Ind Tech Res Inst 發掘可疑帳號之分身群組的方法與系統

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101071420A (zh) * 2007-06-22 2007-11-14 腾讯科技(深圳)有限公司 一种切分索引分词的方法及系统
CN103186524A (zh) * 2011-12-30 2013-07-03 高德软件有限公司 一种地名识别方法和装置
CN105373528A (zh) * 2015-08-18 2016-03-02 新华网股份有限公司 一种文本内容敏感性分析方法和装置
CN105574090A (zh) * 2015-12-10 2016-05-11 北京中科汇联科技股份有限公司 一种敏感词过滤方法及系统
CN107463666A (zh) * 2017-08-02 2017-12-12 成都德尔塔信息科技有限公司 一种基于文本内容的敏感词过滤方法
CN109933778A (zh) * 2017-12-18 2019-06-25 北京京东尚科信息技术有限公司 分词方法、装置以及计算机可读存储介质
CN108717408A (zh) * 2018-05-11 2018-10-30 杭州排列科技有限公司 一种敏感词实时监控方法、电子设备、存储介质及系统
CN110727880A (zh) * 2019-10-18 2020-01-24 西安电子科技大学 一种基于词库与词向量模型的敏感语料检测方法
CN111259151A (zh) * 2020-01-20 2020-06-09 广州多益网络股份有限公司 一种混合文本敏感词变体识别方法和装置
CN111669757A (zh) * 2020-06-15 2020-09-15 国家计算机网络与信息安全管理中心 一种基于通话文本词向量的终端诈骗电话识别方法
CN111831785A (zh) * 2020-07-16 2020-10-27 平安科技(深圳)有限公司 敏感词检测方法、装置、计算机设备及存储介质
CN113011156A (zh) * 2021-01-20 2021-06-22 腾讯科技(深圳)有限公司 审核文本的质检方法、装置、介质以及电子设备

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
A Chinese Message Sensitive Words Filtering System based on DFA and Word2vec;Fei Wu等;《Procedia Computer Science》;20181230;293-298 *
N-gram详解分析;suibianshen2012;《csdn》;20171004;1-5 *
使用否定选择算法改进文本过滤;张红梅等;《计算机工程与科学》;20080815(第08期);61-64 *
电子商务搜索引擎中文分词算法分析;卢媛媛等;《信息网络安全》;20100810;52-54 *
网络内容安全中不良文本过滤研究;崔珊;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20180315(第03期);I138-2304 *

Also Published As

Publication number Publication date
CN114021564A (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN111723215B (zh) 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN101464898B (zh) 一种提取文本主题词的方法
US8280719B2 (en) Methods and systems relating to information extraction
CN111639489A (zh) 中文文本纠错系统、方法、装置及计算机可读存储介质
EP1214643B1 (en) System and method for parsing a document
JPS62229368A (ja) 文書処理装置
CN111897917B (zh) 基于多模态自然语言特征的轨道交通行业术语提取方法
CN112364628B (zh) 一种新词识别方法、装置、电子设备及存储介质
Zhang et al. Automatic detecting/correcting errors in Chinese text by an approximate word-matching algorithm
CN106383814A (zh) 一种英文社交媒体短文本分词方法
CN114021564B (zh) 一种针对社交文本的切分取词方法及系统
CN115269834A (zh) 一种基于bert的高精度文本分类方法及装置
Gupta Hybrid algorithm for multilingual summarization of Hindi and Punjabi documents
CN111339753B (zh) 一种自适应中文新词识别方法与系统
CN112560425A (zh) 模板生成方法、装置、电子设备及存储介质
Phyu et al. Burmese word segmentation with Character Clustering and CRFs
CN112668328A (zh) 媒体智能校对算法
CN115688748A (zh) 问句纠错方法、装置、电子设备及存储介质
CN114548113A (zh) 基于事件的指代消解系统、方法、终端及存储介质
Mijlad et al. Arabic text diacritization: Overview and solution
Naemi et al. Informal-to-formal word conversion for persian language using natural language processing techniques
CN113158669A (zh) 一种用工平台正负面评论识别的方法及系统
CN116257602B (zh) 一种基于公共词构建通用词库的方法、装置及电子设备
CN106611042A (zh) 一种新的文本特征词汇提取方法
Frank et al. Data preprocessing techniques for NLP in BI

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant