CN114021564A - 一种针对社交文本的切分取词方法及系统 - Google Patents
一种针对社交文本的切分取词方法及系统 Download PDFInfo
- Publication number
- CN114021564A CN114021564A CN202210008487.2A CN202210008487A CN114021564A CN 114021564 A CN114021564 A CN 114021564A CN 202210008487 A CN202210008487 A CN 202210008487A CN 114021564 A CN114021564 A CN 114021564A
- Authority
- CN
- China
- Prior art keywords
- word
- gram
- character
- character string
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种针对社交文本的切分取词方法及系统,属于社交文本处理技术领域,针对现有技术中存在的无法满足对从事网络诈骗的人员涉及的社交文本进行精准切分的问题,本发明包括文本预处理模块,N‑gram词库创建模块,分词函数模块和N‑gram词库更新模块,根据分词模块中的自定义分词函数对文本信息进行精准分词,且设置一定的更新周期,更新周期间产生的新数据对N‑gram词库进行更新,以便提升分词准确度,其目的为:针对上述关于从事网络诈骗的人员聊天信息强烈鲜明的语言风格,以及与传统聊天内容上的巨大差别,本发明根据不同类型的语料,形成有自身特点的文本识别和切分技术,对文本进行精准切分取词。
Description
技术领域
本发明属于社交文本处理技术领域,具体涉及一种针对社交文本的切分取词方法及系统。
背景技术
随着互联网的进步与发展,涉嫌网络诈骗的情况越来越严峻,其网络诈骗的形式也层出不穷,这猖獗的背后是因为有庞大的产业为其提供帮助,使得网络诈骗各个环节独立运行,网络诈骗成本降低,网络诈骗数量不断突破新高。
现有技术中,从事网络诈骗的人员一般都会在匿名的各种通讯软件和暗网论坛进行交流和交易,交流中所用语言风格独特,常常带有只有内行才能看懂的黑话、暗语。
针对于此类文本信息,传统的文本切分方法及系统已经无法满足,需要基于大量此类信息数据,结合语言风格,建立黑话、暗语词库,开发一套能有效对其进行文本切分的方法及系统,以便能够更好的对网络诈骗情况进行监测。
发明内容
针对现有技术中存在的无法满足对从事网络诈骗的人员涉及的社交文本进行精准切分的问题,本发明提出了一种针对社交文本的切分取词方法及系统,其目的为:针对上述关于从事网络诈骗的人员聊天信息强烈鲜明的语言风格,以及与传统聊天内容上的巨大差别,本发明根据不同类型的语料,形成有自身特点的文本识别和切分技术,对文本进行精准切分取词。
为实现上述目的本发明所采用的技术方案是:提供一种针对社交文本的切分取词方法,包括
S1:采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据,并对原始文本数据进行清洗;
S2:使用N-gram模型构建N-gram词库,并通过互信息对清洗后的原始文本数据进行计算过滤,将保留的文本数据存入N-gram词库;
S3:利用N-gram词库并通过文本分词函数对文本数据进行分词;
S4:对分词结果进行复核,若存在错误分词结合则对其进行修复;
S5:设置固定的时间为N-gram词库的更新周期,对N-gram词库进行更新。
较优的,本发明S1中对原始文本数据的清洗具体为:
S1.1:通过正则表达式去除原始文本数据中的无效字符,包括:不可见字符、网址、数字、非中文、@字符串和无意义字符;
S1.2:判断是否存在敏感词分隔符,若存在则将其替换为空字字符:
S1.2.1:首先创建一个候选敏感词分隔符集合,将原始文本数据中所有的表情符号和标点分割符号加入该候选敏感词分隔符集合,将他们都作为候选敏感词分隔符;
S1.2.2:然后使用正则表达式提取所有的某一种候选敏感词分隔符加入到第一列表,然后提取所有该候选敏感词分隔符和其后带的代词字符加入到第二列表中;
S1.2.3:若第二列表中的字符长度最小值小于等于2,并且第一列表长度与第二列表长度相等,则认为该候选敏感词分隔符是敏感词分隔符;
S1.2.4:将敏感词分隔符替换为空字字符。
较优的,本发明所述N-gram词库包括已登录词典、处理完成的原始文本数据和自定义词典,S2具体为:
S2.1:将清洗后的原始文本数据,利用空格进行分隔形成列表,筛选长度大于1的字符串加入待处理列表中;
S2.2:将待处理列表中所有字符串取出,统计它的4gram和对应的词频,加入到N-gram字典中,并计算N-gram字典中字符串长度为1的词的数量,作为词的总数;
S2.3:根据N-gram字典中的词的字符串长度不同,设置不同的阈值,然后计算N-gram字典中每个词的互信息,保留互信息大于阈值的词作为输出集合存入N-gram词库。
较优的,本发明S3中文本分词函数具体为:
S3.1.1:首先依赖N-gram词库判断一个字符串是否需要进行切分,若一个字符串的4gram的四个词全部在N-gram词库中,则这个字符串为完整字符串,不需要进行切分;若一个字符串的4gram的四个词不全部在N-gram词库中,则在这个字符串处进行切分;
S3.1.2:对一个待进行分词切分的字符串,根据其字符串的长度l,赋值一个长度为l-1的全0数组,字符串的前两个字对应全0数组中的一个0,然后依次统计字符串S的首字、二字、三字、四字和五字是否在N-gram词库中,如果在,对应的数组位置就加1,一直遍历到该字符串所有的字统计完成;
S3.1.3:然后将数组对应的字符串进行判断切分,从0的部分切开,非0的部分连接起来,切分形成一个列表。
较优的,本发明通过所述文本分词函数对本分数据进行切分具体为:
S3.2.1:提取N-gram词库中的所有字符串,对字符串进行依次判断;
S3.2.2:若字符串是纯数字或字母或字符串的中文字符长度小于等于4,则将该字符串添加到result列表中;
对剩余的字符串通过文本切分函数进行切分,并对切分后的字符串列表中的每个字符串w进行判断;
S3.2.3:若字符串w是中文加数字,将数字替换为空字符串后添加到result列表中;
若字符串w是中文加非数字,将字符串w中的中文提取出来并赋值为r后继续判断:
S3.2.4:若字符串r小于5个字符,则将字符串w添加到result列表中;
若字符串r大于等于8个字符,使用结巴分词,并将结果添加到result列表中;
若字符串r大于等于5个字符且小于8个字符,判断结巴分词结果中单个字的数量,如果单个非停用字的数量大于0,说明结巴分词是错误切分,将字符串w添加到result列表中,否则,将结巴分词结果添加到result列表中。
较优的,本发明S4具体为:
对result列表中的词k进行遍历判断,如果词k是单个字,并且它的上一个词q也是单个字,若单字k和单字q都不在停用词中,且新词q+k在清洗后的文本中,那么修复该错误切分,拼接q+k成词。
较优的,本发明S5具体为:当对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,接着扩充当天的原始文本数据,对当天的原始文本数据中字符串文本长度大于5的进行清洗,并利用空格分隔,加入到待定的words集合中,将words集合中所有汉字带数字的字符串替换为纯汉字字符串,替换后提取集合中字符长度在2-5之间的字符串,并且过滤掉字符首尾两个字任意一个在停用词中的字符串,将剩下的字符串扩充到N-gram词库中。
本发明还包括一种针对社交文本的切分取词系统,包括:
文本预处理模块:采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据,并通过正则表达式对原始文本数据进行清洗,以及判断是否存在敏感词分隔符并替换为空字符串;
N-gram词库创建模块:由处理完成的原始文本数据、已登录词典和自定义词典组成,所述处理完成的原始文本数据即上个周期的原始文本数据经过4gram处理后入库的数据;
分词函数模块:利用文本分词函数对文本数据进行切分,对切分后的result列表进行拼接,并修复错误切分;
N-gram词库更新模块:每个周期对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,然后将这个周期内产生的原始文本数据通过文本预处理模块进行处理后,扩充到N-gram词库中。
较优的,本发明所述N-gram词库创建模块具体为:
步骤1:将清洗后的原始文本数据,利用空格进行分隔形成列表,筛选长度大于1的字符串加入待处理列表中;
步骤2:将待处理列表中所有字符串取出,统计它的4gram和对应的词频,加入到N-gram字典中,并计算N-gram字典中字符串长度为1的词的数量,作为词的总数;
步骤3:根据N-gram字典中的词的字符串长度不同,设置不同的阈值,然后计算N-gram字典中每个词的互信息,保留互信息大于阈值的词作为输出集合存入N-gram词库。
较优的,本发明所述N-gram词库更新模块具体为:
当对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,接着扩充当天的原始文本数据,对当天的原始文本数据中字符串文本长度大于5的进行清洗,并利用空格分隔,加入到待定的words集合中,将words集合中所有汉字带数字的字符串替换为纯汉字字符串,替换后提取集合中字符长度在2-5之间的字符串,并且过滤掉字符首尾两个字任意一个在停用词中的字符串,将剩下的字符串扩充到N-gram词库中。
相比现有技术,本发明的技术方案具有如下优点/有益效果:
1.本发明根据文本切分函数对文本数据进行切分,能够使切分结果更加精准。
2.本发明设置有更新周期,将周期时间内产生的新数据对N-gram词库进行周期性更新,使词库与时俱进,越来越丰富。
3.本发明的文本数据限制文本类型,可以对大多数文本数据进行切分。
附图说明
为了更清楚地说明本发明实施方式的技术方案,下面将对实施方式中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本发明一种针对社交文本的切分取词方法及系统的流程示意图。
具体实施方式
为使本发明目的、技术方案和优点更加清楚,下面对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本发明的一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。因此,以下提供的本发明的实施方式的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施方式。
实施例1:
如图1所示,提供一种针对社交文本的切分取词方法,包括
S1:采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据,并对原始文本数据进行清洗;具体为:
S1.1:通过正则表达式去除原始文本数据中的无效字符,包括:不可见字符、网址、数字、非中文、@字符串和无意义字符;
S1.2:判断是否存在敏感词分隔符,若存在则将其替换为空字字符:
S1.2.1:首先创建一个候选敏感词分隔符集合,将原始文本数据中所有的表情符号和标点分割符号加入该候选敏感词分隔符集合,将他们都作为候选敏感词分隔符;
S1.2.2:然后使用正则表达式提取所有的某一种候选敏感词分隔符加入到第一列表,然后提取所有该候选敏感词分隔符和其后带的代词字符加入到第二列表中;
S1.2.3:若第二列表中的字符长度最小值小于等于2,并且第一列表长度与第二列表长度相等,则认为该候选敏感词分隔符是敏感词分隔符;
S1.2.4:将敏感词分隔符替换为空字字符。
S2:使用N-gram模型构建N-gram词库,并通过互信息对清洗后的原始文本数据进行计算过滤,将保留的文本数据存入N-gram词库;
本发明所述N-gram词库包括已登录词典、处理完成的原始文本数据和自定义词典,S2具体为:
S2.1:将清洗后的原始文本数据,利用空格进行分隔形成列表,筛选长度大于1的字符串加入待处理列表中;
S2.2:将待处理列表中所有字符串取出,统计它的4gram(如字符串:新的一年,对应的4gram列表为[新,新的,新的一,新的一年,的,的一,的一年,一,一年,年])和对应的词频,加入到N-gram字典中,并计算N-gram字典中字符串长度为1的词的数量,作为词的总数;
S2.3:根据N-gram字典中的词的字符串长度不同,设置不同的阈值,然后计算N-gram字典中每个词的互信息,保留互信息大于阈值的词作为输出集合存入N-gram词库。
本发明的互信息计算方法:
二字词:I=(P(AB))/(P(A)×P(B))。
三字词:MIN{I=P(ABC)/(P(A)×P(BC) ),I=P(ABC)/(P(AB)×P(C) )}。
四字词:MIN{P(ABCD)/(P(A)×P(BCD) ),P(ABCD)/(P(AB)×P(CD) ),P(ABCD)/(P(ABC)×P(D))}。
其中,I表示互信息,P表示概率,MIN表示最小值,AB/ABC/ABCD表示两字词/三字词/四字词,(比如:葡萄(AB)/葡萄酸(ABC)/葡萄好酸(ABCD))。
S3:利用N-gram词库并通过文本分词函数对文本数据进行分词;
本发明S3中文本分词函数具体为:
S3.1.1:首先依赖N-gram词库判断一个字符串是否需要进行切分,若一个字符串的4gram的四个词全部在N-gram词库中,则这个字符串为完整字符串,不需要进行切分;若一个字符串的4gram的四个词不全部在N-gram词库中,则在这个字符串处进行切分;
S3.1.2:对一个待进行分词切分的字符串,根据其字符串的长度l,赋值一个长度为l-1的全0数组,由于成词至少是两个字,所以字符串S的前两个字对应数组的索引为0,后面的每一个字对应一个索引位置。(如字符串“国际短信”,对应的全0数组为array([0, 0,0]),第一个0对应“国际”,第二个0对应”短”,第三个0对应”信”)。然后依次统计字符串S的首字、二字、三字、四字和五字是否在N-gram词库中,如果在,对应的数组位置就加1,一直遍历到该字符串所有的字统计完成;
S3.1.3:然后将数组对应的字符串进行判断切分,从0的部分切开,非0的部分连接起来,切分形成一个列表。
通过所述文本分词函数对本分数据进行切分具体为:
S3.2.1:提取N-gram词库中的所有字符串,对字符串进行依次判断;
S3.2.2:若字符串是纯数字或字母或字符串的中文字符长度小于等于4,则将该字符串添加到result列表中;
对剩余的字符串通过文本切分函数进行切分,并对切分后的字符串列表中的每个字符串w进行判断;
S3.2.3:若字符串w是中文加数字,将数字替换为空字符串后添加到result列表中;
若字符串w是中文加非数字,将字符串w中的中文提取出来并赋值为r后继续判断:
S3.2.4:若字符串r小于5个字符,则将字符串w添加到result列表中;
若字符串r大于等于8个字符,使用结巴分词,并将结果添加到result列表中;
若字符串r大于等于5个字符且小于8个字符,判断结巴分词结果中单个字的数量,如果单个非停用字的数量大于0,说明结巴分词是错误切分,将字符串w添加到result列表中,否则,将结巴分词结果添加到result列表中。
S4:对分词结果进行复核,若存在错误分词结合则对其进行修复;S4具体为:
对result列表中的词k进行遍历判断,如果词k是单个字,并且它的上一个词q也是单个字,若单字k和单字q都不在停用词中,且新词q+k在清洗后的文本中,那么修复该错误切分,拼接q+k成词,除此之外,其他情况均直接添加词k。
S5:以一个月为N-gram词库的更新周期,对N-gram词库进行更新。S5具体为:
当对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,(已登录词典是收集的已经被识别出来的词语或者不常用词。自定义词典是人工自行添加的词语,这些词语可能是行业新词或者黑话,自定义词典因人工添加而更新。当对N-gram词库进行更新时,需要将已登录词典和最新自定义词典中的词添加到N-gram词库中。)接着扩充当天的原始文本数据,对当天的原始文本数据中字符串文本长度大于5的进行清洗,并利用空格分隔,加入到待定的words集合中,将words集合中所有汉字带数字的字符串替换为纯汉字字符串,替换后提取集合中字符长度在2-5之间的字符串,并且过滤掉字符首尾两个字任意一个在停用词中的字符串,将剩下的字符串扩充到N-gram词库中。
本发明还包括一种针对社交文本的切分取词系统,包括:
文本预处理模块:采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据,并通过正则表达式对原始文本数据进行清洗,以及判断是否存在敏感词分隔符并替换为空字符串;
N-gram词库创建模块:由处理完成的原始文本数据、已登录词典和自定义词典组成,所述处理完成的原始文本数据即上个周期的原始文本数据经过4gram处理后入库的数据;
分词函数模块:利用文本分词函数对文本数据进行切分,对切分后的result列表进行拼接,并修复错误切分;
N-gram词库更新模块:每个周期对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,然后将这个周期内产生的原始文本数据通过文本预处理模块进行处理后,扩充到N-gram词库中。
本发明所述N-gram词库创建模块具体为:
步骤1:将清洗后的原始文本数据,利用空格进行分隔形成列表,筛选长度大于1的字符串加入待处理列表中;
步骤2:将待处理列表中所有字符串取出,统计它的4gram和对应的词频,加入到N-gram字典中,并计算N-gram字典中字符串长度为1的词的数量,作为词的总数;
步骤3:根据N-gram字典中的词的字符串长度不同,设置不同的阈值,然后计算N-gram字典中每个词的互信息,保留互信息大于阈值的词作为输出集合存入N-gram词库。
本发明所述N-gram词库更新模块具体为:
当对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,接着扩充当天的原始文本数据,对当天的原始文本数据中字符串文本长度大于5的进行清洗,并利用空格分隔,加入到待定的words集合中,将words集合中所有汉字带数字的字符串替换为纯汉字字符串,替换后提取集合中字符长度在2-5之间的字符串,并且过滤掉字符首尾两个字任意一个在停用词中的字符串,将剩下的字符串扩充到N-gram词库中。
以上仅是本发明的优选实施方式,应当指出的是,上述优选实施方式不应视为对本发明的限制,本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说,在不脱离本发明的精神和范围内,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种针对社交文本的切分取词方法,其特征在于,包括
S1:采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据,并对原始文本数据进行清洗;
S2:使用N-gram模型构建N-gram词库,并通过互信息对清洗后的原始文本数据进行计算过滤,将保留的文本数据存入N-gram词库;
S3:利用N-gram词库并通过文本分词函数对文本数据进行分词;
S4:对分词结果进行复核,若存在错误分词结合则对其进行修复;
S5:设置固定的时间为N-gram词库的更新周期,对N-gram词库进行更新。
2.根据权利要求1所述的一种针对社交文本的切分取词方法,其特征在于,S1中对原始文本数据的清洗具体为:
S1.1:通过正则表达式去除原始文本数据中的无效字符,包括:不可见字符、网址、数字、非中文、@字符串和无意义字符;
S1.2:判断是否存在敏感词分隔符,若存在则将其替换为空字字符:
S1.2.1:首先创建一个候选敏感词分隔符集合,将原始文本数据中所有的表情符号和标点分割符号加入该候选敏感词分隔符集合,将他们都作为候选敏感词分隔符;
S1.2.2:然后使用正则表达式提取所有的某一种候选敏感词分隔符加入到第一列表,然后提取所有该候选敏感词分隔符和其后带的代词字符加入到第二列表中;
S1.2.3:若第二列表中的字符长度最小值小于等于2,并且第一列表长度与第二列表长度相等,则认为该候选敏感词分隔符是敏感词分隔符;
S1.2.4:将敏感词分隔符替换为空字字符。
3.根据权利要求1所述的一种针对社交文本的切分取词方法,其特征在于,所述N-gram词库包括已登录词典、处理完成的原始文本数据和自定义词典,S2具体为:
S2.1:将清洗后的原始文本数据,利用空格进行分隔形成列表,筛选长度大于1的字符串加入待处理列表中;
S2.2:将待处理列表中所有字符串取出,统计它的4gram和对应的词频,加入到N-gram字典中,并计算N-gram字典中字符串长度为1的词的数量,作为词的总数;
S2.3:根据N-gram字典中的词的字符串长度不同,设置不同的阈值,然后计算N-gram字典中每个词的互信息,保留互信息大于阈值的词作为输出集合存入N-gram词库。
4.根据权利要求3所述的一种针对社交文本的切分取词方法,其特征在于,S3中文本分词函数具体为:
S3.1.1:首先依赖N-gram词库判断一个字符串是否需要进行切分,若一个字符串的4gram的四个词全部在N-gram词库中,则这个字符串为完整字符串,不需要进行切分;若一个字符串的4gram的四个词不全部在N-gram词库中,则在这个字符串处进行切分;
S3.1.2:对一个待进行分词切分的字符串,根据其字符串的长度l,赋值一个长度为l-1的全0数组,字符串的前两个字对应全0数组中的一个0,然后依次统计字符串S的首字、二字、三字、四字和五字是否在N-gram词库中,如果在,对应的数组位置就加1,一直遍历到该字符串所有的字统计完成;
S3.1.3:然后将数组对应的字符串进行判断切分,从0的部分切开,非0的部分连接起来,切分形成一个列表。
5.根据权利要求4所述的一种针对社交文本的切分取词方法,其特征在于,通过所述文本分词函数对本分数据进行切分具体为:
S3.2.1:提取N-gram词库中的所有字符串,对字符串进行依次判断;
S3.2.2:若字符串是纯数字或字母或字符串的中文字符长度小于等于4,则将该字符串添加到result列表中;
对剩余的字符串通过文本切分函数进行切分,并对切分后的字符串列表中的每个字符串w进行判断;
S3.2.3:若字符串w是中文加数字,将数字替换为空字符串后添加到result列表中;
若字符串w是中文加非数字,将字符串w中的中文提取出来并赋值为r后继续判断:
S3.2.4:若字符串r小于5个字符,则将字符串w添加到result列表中;
若字符串r大于等于8个字符,使用结巴分词,并将结果添加到result列表中;
若字符串r大于等于5个字符且小于8个字符,判断结巴分词结果中单个字的数量,如果单个非停用字的数量大于0,说明结巴分词是错误切分,将字符串w添加到result列表中,否则,将结巴分词结果添加到result列表中。
6.根据权利要求5所述的一种针对社交文本的切分取词方法,其特征在于,S4具体为:
对result列表中的词k进行遍历判断,如果词k是单个字,并且它的上一个词q也是单个字,若单字k和单字q都不在停用词中,且新词q+k在清洗后的文本中,那么修复该错误切分,拼接q+k成词。
7.根据权利要求6所述的一种针对社交文本的切分取词方法,其特征在于,S5具体为:当对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,接着扩充当天的原始文本数据,对当天的原始文本数据中字符串文本长度大于5的进行清洗,并利用空格分隔,加入到待定的words集合中,将words集合中所有汉字带数字的字符串替换为纯汉字字符串,替换后提取集合中字符长度在2-5之间的字符串,并且过滤掉字符首尾两个字任意一个在停用词中的字符串,将剩下的字符串扩充到N-gram词库中。
8.一种针对社交文本的切分取词系统,其特征在于,包括:
文本预处理模块:采集从事网络诈骗的人员最近一个月聊天信息的原始文本数据,并通过正则表达式对原始文本数据进行清洗,以及判断是否存在敏感词分隔符并替换为空字符串;
N-gram词库创建模块:由处理完成的原始文本数据、已登录词典和自定义词典组成,所述处理完成的原始文本数据即上个周期的原始文本数据经过4gram处理后入库的数据;
分词函数模块:利用文本分词函数对文本数据进行切分,对切分后的result列表进行拼接,并修复错误切分;
N-gram词库更新模块:每个周期对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,然后将这个周期内产生的原始文本数据通过文本预处理模块进行处理后,扩充到N-gram词库中。
9.根据权利要求8所述的一种针对社交文本的切分取词系统,其特征在于,所述N-gram词库创建模块具体为:
步骤1:将清洗后的原始文本数据,利用空格进行分隔形成列表,筛选长度大于1的字符串加入待处理列表中;
步骤2:将待处理列表中所有字符串取出,统计它的4gram和对应的词频,加入到N-gram字典中,并计算N-gram字典中字符串长度为1的词的数量,作为词的总数;
步骤3:根据N-gram字典中的词的字符串长度不同,设置不同的阈值,然后计算N-gram字典中每个词的互信息,保留互信息大于阈值的词作为输出集合存入N-gram词库。
10.根据权利要求8所述的一种针对社交文本的切分取词系统,其特征在于,所述N-gram词库更新模块具体为:
当对N-gram词库进行更新时,首先扩充已登录词典和自定义词典,接着扩充当天的原始文本数据,对当天的原始文本数据中字符串文本长度大于5的进行清洗,并利用空格分隔,加入到待定的words集合中,将words集合中所有汉字带数字的字符串替换为纯汉字字符串,替换后提取集合中字符长度在2-5之间的字符串,并且过滤掉字符首尾两个字任意一个在停用词中的字符串,将剩下的字符串扩充到N-gram词库中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210008487.2A CN114021564B (zh) | 2022-01-06 | 2022-01-06 | 一种针对社交文本的切分取词方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210008487.2A CN114021564B (zh) | 2022-01-06 | 2022-01-06 | 一种针对社交文本的切分取词方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114021564A true CN114021564A (zh) | 2022-02-08 |
CN114021564B CN114021564B (zh) | 2022-04-01 |
Family
ID=80069920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210008487.2A Active CN114021564B (zh) | 2022-01-06 | 2022-01-06 | 一种针对社交文本的切分取词方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114021564B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114065313A (zh) * | 2022-01-18 | 2022-02-18 | 苏州浪潮智能科技有限公司 | 一种串口通信保护装置、串口通信装置及服务器 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101071420A (zh) * | 2007-06-22 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 一种切分索引分词的方法及系统 |
CN103186524A (zh) * | 2011-12-30 | 2013-07-03 | 高德软件有限公司 | 一种地名识别方法和装置 |
US20140058723A1 (en) * | 2012-08-21 | 2014-02-27 | Industrial Technology Research Institute | Method and system for discovering suspicious account groups |
CN105373528A (zh) * | 2015-08-18 | 2016-03-02 | 新华网股份有限公司 | 一种文本内容敏感性分析方法和装置 |
CN105574090A (zh) * | 2015-12-10 | 2016-05-11 | 北京中科汇联科技股份有限公司 | 一种敏感词过滤方法及系统 |
CN107463666A (zh) * | 2017-08-02 | 2017-12-12 | 成都德尔塔信息科技有限公司 | 一种基于文本内容的敏感词过滤方法 |
CN108717408A (zh) * | 2018-05-11 | 2018-10-30 | 杭州排列科技有限公司 | 一种敏感词实时监控方法、电子设备、存储介质及系统 |
CN109933778A (zh) * | 2017-12-18 | 2019-06-25 | 北京京东尚科信息技术有限公司 | 分词方法、装置以及计算机可读存储介质 |
CN110727880A (zh) * | 2019-10-18 | 2020-01-24 | 西安电子科技大学 | 一种基于词库与词向量模型的敏感语料检测方法 |
CN111259151A (zh) * | 2020-01-20 | 2020-06-09 | 广州多益网络股份有限公司 | 一种混合文本敏感词变体识别方法和装置 |
CN111669757A (zh) * | 2020-06-15 | 2020-09-15 | 国家计算机网络与信息安全管理中心 | 一种基于通话文本词向量的终端诈骗电话识别方法 |
CN111831785A (zh) * | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 敏感词检测方法、装置、计算机设备及存储介质 |
CN113011156A (zh) * | 2021-01-20 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 审核文本的质检方法、装置、介质以及电子设备 |
-
2022
- 2022-01-06 CN CN202210008487.2A patent/CN114021564B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101071420A (zh) * | 2007-06-22 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 一种切分索引分词的方法及系统 |
CN103186524A (zh) * | 2011-12-30 | 2013-07-03 | 高德软件有限公司 | 一种地名识别方法和装置 |
US20140058723A1 (en) * | 2012-08-21 | 2014-02-27 | Industrial Technology Research Institute | Method and system for discovering suspicious account groups |
CN105373528A (zh) * | 2015-08-18 | 2016-03-02 | 新华网股份有限公司 | 一种文本内容敏感性分析方法和装置 |
CN105574090A (zh) * | 2015-12-10 | 2016-05-11 | 北京中科汇联科技股份有限公司 | 一种敏感词过滤方法及系统 |
CN107463666A (zh) * | 2017-08-02 | 2017-12-12 | 成都德尔塔信息科技有限公司 | 一种基于文本内容的敏感词过滤方法 |
CN109933778A (zh) * | 2017-12-18 | 2019-06-25 | 北京京东尚科信息技术有限公司 | 分词方法、装置以及计算机可读存储介质 |
CN108717408A (zh) * | 2018-05-11 | 2018-10-30 | 杭州排列科技有限公司 | 一种敏感词实时监控方法、电子设备、存储介质及系统 |
CN110727880A (zh) * | 2019-10-18 | 2020-01-24 | 西安电子科技大学 | 一种基于词库与词向量模型的敏感语料检测方法 |
CN111259151A (zh) * | 2020-01-20 | 2020-06-09 | 广州多益网络股份有限公司 | 一种混合文本敏感词变体识别方法和装置 |
CN111669757A (zh) * | 2020-06-15 | 2020-09-15 | 国家计算机网络与信息安全管理中心 | 一种基于通话文本词向量的终端诈骗电话识别方法 |
CN111831785A (zh) * | 2020-07-16 | 2020-10-27 | 平安科技(深圳)有限公司 | 敏感词检测方法、装置、计算机设备及存储介质 |
CN113011156A (zh) * | 2021-01-20 | 2021-06-22 | 腾讯科技(深圳)有限公司 | 审核文本的质检方法、装置、介质以及电子设备 |
Non-Patent Citations (5)
Title |
---|
FEI WU等: "A Chinese Message Sensitive Words Filtering System based on DFA and Word2vec", 《PROCEDIA COMPUTER SCIENCE》 * |
SUIBIANSHEN2012: "N-gram详解分析", 《CSDN》 * |
卢媛媛等: "电子商务搜索引擎中文分词算法分析", 《信息网络安全》 * |
崔珊: "网络内容安全中不良文本过滤研究", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 * |
张红梅等: "使用否定选择算法改进文本过滤", 《计算机工程与科学》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114065313A (zh) * | 2022-01-18 | 2022-02-18 | 苏州浪潮智能科技有限公司 | 一种串口通信保护装置、串口通信装置及服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN114021564B (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101464898B (zh) | 一种提取文本主题词的方法 | |
Tang et al. | Email data cleaning | |
CN111639489A (zh) | 中文文本纠错系统、方法、装置及计算机可读存储介质 | |
US20060253274A1 (en) | Methods and systems relating to information extraction | |
US20060277173A1 (en) | Extraction of information from documents | |
EP1214643B1 (en) | System and method for parsing a document | |
JPS62229368A (ja) | 文書処理装置 | |
CN112364628B (zh) | 一种新词识别方法、装置、电子设备及存储介质 | |
CN106611041A (zh) | 一种新的文本相似度求解方法 | |
CN106383814A (zh) | 一种英文社交媒体短文本分词方法 | |
Zhang et al. | Automatic detecting/correcting errors in Chinese text by an approximate word-matching algorithm | |
CN107688630A (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN114021564B (zh) | 一种针对社交文本的切分取词方法及系统 | |
CN111897917A (zh) | 基于多模态自然语言特征的轨道交通行业术语提取方法 | |
CN111339753B (zh) | 一种自适应中文新词识别方法与系统 | |
CN115269834A (zh) | 一种基于bert的高精度文本分类方法及装置 | |
Gupta | Hybrid algorithm for multilingual summarization of Hindi and Punjabi documents | |
Shafi et al. | UNLT: Urdu natural language toolkit | |
Phyu et al. | Burmese word segmentation with Character Clustering and CRFs | |
Naemi et al. | Informal-to-formal word conversion for persian language using natural language processing techniques | |
CN112668328A (zh) | 媒体智能校对算法 | |
CN115688748A (zh) | 问句纠错方法、装置、电子设备及存储介质 | |
CN114548113A (zh) | 基于事件的指代消解系统、方法、终端及存储介质 | |
Mijlad et al. | Arabic text diacritization: Overview and solution | |
CN113158669A (zh) | 一种用工平台正负面评论识别的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |