CN101324883A - 一种变异关键词的提取方法 - Google Patents

一种变异关键词的提取方法 Download PDF

Info

Publication number
CN101324883A
CN101324883A CNA200810045712XA CN200810045712A CN101324883A CN 101324883 A CN101324883 A CN 101324883A CN A200810045712X A CNA200810045712X A CN A200810045712XA CN 200810045712 A CN200810045712 A CN 200810045712A CN 101324883 A CN101324883 A CN 101324883A
Authority
CN
China
Prior art keywords
character
pixel
pen section
scanning
point
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200810045712XA
Other languages
English (en)
Other versions
CN100589098C (zh
Inventor
傅彦
陈安龙
周俊临
尚明生
史伟
王全礼
关娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN200810045712A priority Critical patent/CN100589098C/zh
Publication of CN101324883A publication Critical patent/CN101324883A/zh
Application granted granted Critical
Publication of CN100589098C publication Critical patent/CN100589098C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种变异关键词的提取方法,通过字符区位将噪音字符去除,提取出噪音字符的变异关键词;通过拼音文件将分词后文本和关键词转换为文本整数串,然后提取拼音替换、谐音替换的变异关键词;通过建立形近字库,比较分词后文本的每个汉字与关键词库中的关键词的每个汉字是否为同一组形近字,提取形近字替换的变异关键词,这样实行了变异关键词的正常提取。

Description

一种变异关键词的提取方法
技术领域
本发明涉及中文网络信息处理领域,具体来讲,涉及短信等文本信息中变异关键词的提取方法。
背景技术
当前的中文网络信息中,非法信息传递者为了逃过信息过滤系统的监管,对敏感词等关键词进行了变异,对电子邮件、短信息等进行分析,关键词变异主要集中在以下几方面:
1)、在关键词中键入一些无意义的与内容无关的非汉字噪音字符,例如:“哈+尔*滨”中的“+”和“*”号;
2)、对关键词进行谐音字替换,例如“哈尔滨”的“滨”字被写成了“宾”;
3)、对关键词进行拼音替换,例如“哈尔滨”的“滨”字被写成了“bin”;
4)、对关键词进行形近字替换,例如“哈尔滨”的“哈”字被写成了“冾”;
5)、利用上述手段进行组合变换,例如“哈尔滨”被写成了“冾尔*宾”或者“冾尔&滨”等。
对于一般的文本信息,我们可以对其进行分词处理,得到分词后文本,然后用常规关键词库匹配提取。但是如果对这些关键词进行了变异,则分词之后的文本用传统的几个连续的单字构成的关键词库来提取是不能够正确提取的。
发明内容
本发明的目的在于克服上述现有技术的不足,提供一种能够提取变异关键词的方法。
为实现上述目的,本发明的变异关键词的提取方法包括以下步骤:
(1)、如果分词后文本中有非汉字噪音符号,则将分词后文本中的01-09区内的特殊字符去掉,从而去除分词后文本中的非汉字噪音符号,然后进行下一步,否则,直接进行下一步;
(2)、建立关键词库,将分词后文本送到关键词库中进行匹配,如果匹配成功,则提取,否则,进行下一步;
(3)、建立一个拼音文件,将分词后文本中拼音相同的汉字和拼音转换成对应的整数,从而将其从字符串转换为文本整数串;将步骤(1)中的关键词库中的所有关键词通过拼音文件也转换关键词整数串;比较文本整数串和关键词整数串,如果相同,则提取,否则,进行下一步;
(4)、对汉字进行形近字分组,建立一个形近字库;将分词后文本的每一个汉字与关键词库中的关键词的每一个汉字根据该形近词库的汉字分组进行匹配,如果分词后文本的每一个汉字与关键词库中的关键词的每一个汉字属于同一组,则提取,否则,不是关键词。
本发明通过字符区位将噪音字符去除,提取出噪音字符的变异关键词;通过拼音文件将分词后文本和关键词转换为文本整数串,然后提取拼音替换、谐音替换的变异关键词;通过建立形近字库,比较分词后文本的每一个汉字与关键词库中的关键词的每一个汉字是否为同一组形近字,提取形近字替换的变异关键词,这样实行了变异关键词的正常提取。
附图说明
图1是本发明变异关键词的提取方法的流程图;
图2是本发明形近字库建立的一种具体实施方式流程图。
具体实施方式
下面对本发明的具体实施方式进行描述,需要特别提醒注意的是,在以下的描述中,当采用已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这儿将被忽略。
图1是本发明变异关键词的提取方法的流程图。图中,本发明的变异关键策的提取方法包括:
(1)、对分词后文本,首先对其进行噪音字符去除处理,可以通过在区位码中汉字与特殊字符,即噪音字符所占位置的不同来处理,01-09区为682个特殊字符,16~87区为汉字区,包含6763个汉字,通过判断它们的区位码很容易将01-09区内特殊字符去除掉,从而去除分词后文本中的非汉字噪音符号,然后进行下一步;如果没有噪音字符,则直接进行下一步;
(2)、对于常规关键词,即没有变异处理过的关键词或去除噪音字符的噪音字符的变异关键词,则建立关键词库,将分词后文本直接或去除噪音字符后送到关键词库中进行匹配,如果匹配成功,则提取,否则,进行下一步,看是否是拼音替换、谐音替换的变异关键词;
(3)、拼音替换、谐音替换的变异关键词,则建立一个拼音文件,将分词后文本中拼音相同的汉字和拼音转换成对应的整数,从而将其从字符串转换为文本整数串;将步骤(1)中的关键词库中的所有关键词通过拼音文件也转换关键词整数串;比较文本整数串和关键词整数串,如果相同,则提取,否则,进行下一步;比如对于关键词“一劳永逸”,经过这样的拼音的变换后,字符串被转换成了一个整数串“811825681”。在本步骤中,完成了字符串级别的模糊匹配到类串级别的精确匹配的变换,这样就可以借助经典的WM算法进行多模式的精确匹配;
(4)、对汉字进行形近字分组,建立一个形近字库;将分词后文本的每一个汉字与关键词库中的关键词的每一个汉字根据该形近词库的汉字分组进行匹配,如果分词后文本的每一个汉字与关键词库中的关键词的每一个汉字属于同一组,则提取,否则,不是关键词。
图2是本发明形近字库建立的一种具体实施方式流程图。
在本实施例中,对于两个汉字,即汉字A和汉字B,首先分别计算两个汉字A和B的笔段总数TotalA、TotalB,如果两个汉字的笔段总数相差大于某一数量,则认为两个汉字不是形近字,在本实施例中,数量为取3,效果最好,即不会将不太形近的字判断为形近字,也不会将形近字判断为非形近字,造成形近字替换的变异关键词不能提取出来。
如果,如果两个汉字的笔段总数相差小于或等于上述某一数量,例如上述最佳数量3,则进行如下处理,取笔段总数较少的汉字,在本实施例中设为汉字A作为基准,其笔段总数为MinTotal,对此汉字的所有笔段进行如下处理:如果使用点阵图像表示每一个汉字,且相邻像素点的距离为单位像素距;对于每一个笔段,计算它与汉字B中同种类型笔段的最小距离,把计算得到的最小距离累加得到累加距离TotalDistance,如果TotalDistance/MinTotal大于某一值,则认为不是形近字,否则为形近字。在24×24的字符点阵图像中,累加距离TotalDistance/MinTotal大于0.5像素距,则认为不是形近字,否则,为形近字。
在本实施例中,对于一级和二级汉字共6768个,依次用上述步骤进行归类,如果还没有和当前字形近的组,则重新建立一个新组。共构建了3900多个组,但是很多组只有一个汉字,这样的组没有实际的意义,只保留了含有二个汉字(含二个)以上的组,共600多组。构建形近字库后,在以后判断二个字是否为形近字,只需简单的查询这二个汉字在形近字库中是否在同一个组即可。
为得到汉字的笔段总数以及一个汉字每一个笔段与另一个汉字同种类型笔段最小距离,我们需要得到汉字每一笔段像素点的集合。在本实施例中,我们采用以下方法:
首先读取标准字库文件,得到一个N×N的字符点阵图像,二值图像表示,设P(i,j)表示图像中第i行第j列上的像素,则P(i,j)可表示为:
Figure A20081004571200081
根据上述定义,分别提取汉字横、竖、撇、捺笔段像素点的集合,具体步骤如下:
1、横笔段的提取
(a)、设集合S为N×N字符点阵所有P(x,y)=1的像素点组成的字符集合,如果字符集合S不为空,则在字符集合S中按从左到右,从上到下的顺序找到一个像素点,然后从该点出发沿0°角方向在N×N字符点阵中扫描,被扫描的点构成扫描集合T;
(b)、将扫描集合T从字符集合S中去掉;
(c)、计算扫描集合T的点数,如果大于一个最小值,则为横笔段,该扫描集合为横笔段像素点集合,存储该横笔段像素点集合;
(d)、如果字符集合S不为空转向步骤(a),否则,进行下一步;
(e)、对步骤(a)、(b)、(c)得到的任意两个扫描集合T1、T2,如果一个扫描集合中的像素点与另一个扫描集合中的像素点的最小距离Distance(T1,T2)小于等于1个像素点,则合并这两个集合T1,T2,把合并后的扫描集合T=Combine(T1,T2)作为新的横笔段像素点的集合,这样,最后得到的像素点的扫描集合便是汉字所有横笔段像素点的集合。
2、竖笔段的提取
竖笔段的提取与横笔段的提取方法是一致的,只是扫描方向变为90°,为了便于理解,详细步骤描述如下:
(a)、设集合S为N×N字符点阵所有P(x,y)=1的像素点组成的字符集合,如果字符集合S不为空,则在字符集合S中按从上到下,从左到右的顺序找到一个像素点,然后从该点出发沿90°角方向在N×N字符点阵中扫描,被扫描的点构成扫描集合T;
(b)、将扫描集合T从字符集合S中去掉;
(c)、计算集合T的点数,如果大于一个最小值,则为竖笔段,该扫描集合为竖笔段像素点集合,存储该竖笔段像素点集合;
(d)、如果字符集合S不为空转向步骤(a),否则,进行下一步;
(e)、对步骤(a)、(b)、(c)得到的任意两个扫描集合T1、T2,如果一个扫描集合中的像素点与另一个扫描集合中的像素点的最小距离Distance(T1,T2)小于等于1个像素点,则合并这两个集合T1,T2,把合并后的扫描集合T=Combine(T1,T2)作为新的竖笔段像素点的集合,这样,最后得到的像素点的扫描集合便是汉字所有竖笔段像素点的集合。
3、撇笔段的提取
(a)、设集合S为N×N字符点阵所有P(x,y)=1的像素点组成的字符集合,且集合中所有属于横笔段的像素点标记为“横点”,所有属于竖笔段的像素点标记为“竖点”。如果字符集合S不为空,则在字符集合S中按从上到下,从左到右的顺序找到一个像素点,从该点出发按90°、180°、135°度的方向在N×N字符点阵中扫描;如果该点被标记为“横点”,则扫描方向为90°、135°、180°;如果该点被标记为“竖点”,则扫描方向为180°、135°、90°;被扫描的点构成扫描集合T;
(b)、将扫描集合T从字符集合S中去掉;
(c)、如果扫描集合T中除去“横点”、“竖点”后包含元素的个数大于一个最小值,则为撇笔段,该扫描集合为撇笔段像素点集合,存储该撇笔段像素点集合;
(d)、如果字符集合S不为空转向步骤(a),否则,进行下一步;
(e)、对步骤(a)、(b)、(c)得到的任意两个集合T1、T2,如果一个集合中的像素点与另一个集合中的像素点的最小距离Distance(T1,T2)小于等于1个像素点或者任意一点属于集合T1,且属于T2的邻域,或者任意一点属于集合T2,且属于T1的邻域,则合并T1、T2,把合并后的扫描集合T=Combine(T1,T2)作为新撇笔段的集合,这样,最后得到的像素点的扫描集合便是汉字所有撇笔段像素点的集合。
4、捺笔段的提取
捺笔段的提取与撇笔段的提取方法是一致的,只是扫描方向有90°变化,为了便于理解,详细步骤描述如下:
(a)、设集合S为N×N字符点阵所有P(x,y)=1的像素点组成的字符集合,且集合中所有属于横笔段的像素点标记为“横点”,所有属于竖笔段的像素点标记为“竖点”。如果字符集合S不为空,则在字符集合S中按从上到下,从左到右的顺序找到一个像素点,从该点出发按90°、0°、45°度的方向在点阵中扫描;如果该点被标记为“横点”,则扫描方向为90°、45°、0°;如果该点被标记为“竖点”,则扫描方向为0°、45°、90°;被扫描的点构成扫描集合T;
(b)、将扫描集合T从字符集合S中去掉;
(c)、如果扫描集合T中除去“横点”、“竖点”后包含元素的个数大于一个最小值,则为捺笔段,存储该集合T;
(d)、如果字符集合S不为空转向步骤(a),否则,进行下一步;
(e)、对步骤(a)、(b)、(c)得到的任意两个扫描集合T1、T2,如果一个扫描集合中的像素点与另一个扫描集合中的像素点的最小距离Distance(T1,T2)小于等于1个像素点或者任意一点属于扫描集合T1,且属于扫描机和T2的邻域,或者任意一点属于扫描集合T2,且属于扫描机和T1的邻域,则合并扫描集合T1、T2,把合并后的扫描集合T=Combine(T1,T2)作为新捺笔段的集合,这样,最后得到的像素点的扫描集合便是汉字所有捺笔段像素点的集合。
至此,汉字的整个笔段提取结束,得到一个汉字的横、竖、撇、捺笔段的所有笔段的像素点集合。根据这些笔段像素点集合,可以汉字的笔段总数以及一个汉字每一个笔段与另一个汉字同种类型笔段最小距离,从而判断出两个汉字是否是形近字,由此建立汉字的形近字库。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化时显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (8)

1、一种变异关键词的提取方法,其特征在于,包括以下步骤:
(1)、如果分词后文本中有非汉字噪音符号,则将分词后文本中的01-09区内的特殊字符去掉,从而去除分词后文本中的非汉字噪音符号,然后进行下一步,否则,直接进行下一步;
(2)、建立关键词库,将分词后文本送到关键词库中进行匹配,如果匹配成功,则提取,否则,进行下一步;
(3)、建立一个拼音文件,将分词后文本中拼音相同的汉字和拼音转换成对应的整数,从而将其从字符串转换为文本整数串;将步骤(1)中的关键词库中的所有关键词通过拼音文件也转换关键词整数串;比较文本整数串和关键词整数串,如果相同,则提取,否则,进行下一步;
(4)、对汉字进行形近字分组,建立一个形近字库;将分词后文本的每一个汉字与关键词库中的关键词的每一个汉字根据该形近词库的汉字分组进行匹配,如果分词后文本的每一个汉字与关键词库中的关键词的每一个汉字属于同一组,则提取,否则,不是关键词。
2、根据权利要求1所述的变异关键词的提取方法,其特征在于,步骤(4)所述的建立一个形近字库,其步骤为:
首先分别计算两个汉字和的笔段总数,如果两个汉字的笔段总数相差大于某一数量,则认为两个汉字不是形近字;
如果,如果两个汉字的笔段总数相差小于或等于上述某一数量,则进行如下处理,取笔段总数较少的汉字的每一个笔段,计算它与另一汉字中同种类型笔段的最小距离,把计算得到的最小距离累加,如果累加距离除以笔段总数较少汉字的笔段数大于某一值,则认为不是形近字,否则为形近字;
将所有汉字按上述步骤进行比较归类分组,得到形近字库。
3、根据权利要求2所述的变异关键词的提取方法,其特征在于:所述的某一数量是3。
4、根据权利要求2所述的变异关键词的提取方法,其特征在于:所述的笔段为横、竖、撇、捺,汉字的笔段总数以及一个汉字每一个笔段与另一个汉字同种类型笔段最小距离通过它们的像素点集合得到。
5、根据权利要求4所述的变异关键词的提取方法,其特征在于:所述的横笔段像素点集合通过以下步骤获得:
(a)、如果汉字的字符集合不为空,则在字符集合中按从左到右,从上到下的顺序找到一个像素点,然后从该点出发沿0°角方向在字符点阵中扫描,被扫描的点构成扫描集合;
(b)、将扫描集合从字符集合中去掉;
(c)、计算扫描集合的点数,如果大于一个最小值,则为横笔段,该扫描集合为横笔段像素点集合,存储该横笔段像素点集合;
(d)、如果字符集合不为空转向步骤(a),否则,进行下一步;
(e)、对步骤(a)、(b)、(c)得到的任意两个扫描集合,如果一个集合中的像素点与另一个集合中的像素点的最小距离小于等于1个像素点,则合并该两个扫描集合,把合并后的扫描集合作为新的横笔段像素点的集合,这样,最后得到的像素点的集合便是汉字所有横笔段像素点的集合。
6、根据权利要求4所述的变异关键词的提取方法,其特征在于:所述的竖笔段像素点集合通过以下步骤获得:
(a)、如果汉字的字符集合不为空,则在字符集合中按从上到下,从左到右的顺序找到一个像素点,然后从该点出发沿90°角方向在字符点阵中扫描,被扫描的点构成扫描集合;
(b)、将扫描集合从字符集合中去掉;
(c)、计算扫描集合的点数,如果大于一个最小值,则为竖笔段,该扫描集合为竖笔段像素点集合,存储该竖笔段像素点集合;
(d)、如果字符集合S不为空转向步骤(a),否则,进行下一步;
(e)、对步骤(a)、(b)、(c)得到的任意两个扫描集合,如果一个集合中的像素点与另一个集合中的像素点的最小距离小于等于1个像素点,则合并该两个扫描集合,把合并后的扫描集合作为新的竖笔段像素点的集合,这样,最后得到的像素点的集合便是汉字所有竖笔段像素点的集合。
7、根据权利要求4所述的变异关键词的提取方法,其特征在于:所述的撇笔段像素点集合通过以下步骤获得:
(a)、在字符集合中所有属于横笔段的像素点标记为“横点”,所有属于竖笔段的像素点标记为“竖点”。如果字符集合不为空,则在字符集合中按从上到下,从左到右的顺序找到一个像素点,从该点出发按90°、180°、135°度的方向在字符点阵中扫描;如果该点被标记为“横点”,则扫描方向为90°、135°、180°;如果该点被标记为“竖点”,则扫描方向为180°、135°、90°;被扫描的点构成扫描集合;
(b)、将扫描集合从字符集合中去掉;
(c)、如果扫描集合中除去“横点”、“竖点”后包含元素的个数大于一个最小值,则为撇笔段,该扫描集合为撇笔段像素点集合,存储该撇笔段像素点集合;
(d)、如果字符集合不为空转向步骤(a),否则,进行下一步;
(e)、对步骤(a)、(b)、(c)得到的任意两个集合,如果一个集合中的像素点与另一个集合中的像素点的最小距离小于等于1个像素点或者任意一点属于一个集合,且属于另一个集合的邻域,则合并该两个扫描集合,把合并后的扫描集合作为新撇笔段的集合,这样,最后得到的像素点的集合便是汉字所有撇笔段像素点的集合。
8、根据权利要求4所述的变异关键词的提取方法,其特征在于:所述的捺笔段像素点集合通过以下步骤获得:
(a)、在字符集合中所有属于横笔段的像素点标记为“横点”,所有属于竖笔段的像素点标记为“竖点”。如果字符集合不为空,则在字符集合中按从上到下,从左到右的顺序找到一个像素点,从该点出发按90°、180°、135°度的方向在字符点阵中扫描;如果该点被标记为“横点”,则扫描方向为90°、135°、180°;如果该点被标记为“竖点”,则扫描方向为180°、135°、90°;被扫描的点构成扫描集合;
(b)、将扫描集合从字符集合中去掉;
(c)、如果扫描集合中除去“横点”、“竖点”后包含元素的个数大于一个最小值,则为捺笔段,该扫描集合为捺笔段像素点集合,存储该捺笔段像素点集合;
(d)、如果字符集合不为空转向步骤(a),否则,进行下一步;
(e)、对步骤(a)、(b)、(c)得到的任意两个集合,如果一个集合中的像素点与另一个集合中的像素点的最小距离小于等于1个像素点或者任意一点属于一个集合,且属于另一个集合的邻域,则合并该两个扫描集合,把合并后的扫描集合作为新捺笔段的集合,这样,最后得到的像素点的集合便是汉字所有捺笔段像素点的集合。
CN200810045712A 2008-07-31 2008-07-31 一种变异关键词的提取方法 Expired - Fee Related CN100589098C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200810045712A CN100589098C (zh) 2008-07-31 2008-07-31 一种变异关键词的提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810045712A CN100589098C (zh) 2008-07-31 2008-07-31 一种变异关键词的提取方法

Publications (2)

Publication Number Publication Date
CN101324883A true CN101324883A (zh) 2008-12-17
CN100589098C CN100589098C (zh) 2010-02-10

Family

ID=40188426

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810045712A Expired - Fee Related CN100589098C (zh) 2008-07-31 2008-07-31 一种变异关键词的提取方法

Country Status (1)

Country Link
CN (1) CN100589098C (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102595357A (zh) * 2011-11-30 2012-07-18 中兴通讯股份有限公司 一种短消息监控方法和系统
CN102609455A (zh) * 2012-01-12 2012-07-25 北京中科大洋科技发展股份有限公司 一种实现汉语同音字检索的方法
CN102750841A (zh) * 2011-04-20 2012-10-24 英业达股份有限公司 提供形似字以学习汉字的系统及其方法
CN103064928A (zh) * 2012-12-21 2013-04-24 北京二六三企业通信有限公司 基于关键词的垃圾文档过滤方法和装置
CN103294664A (zh) * 2013-07-04 2013-09-11 清华大学 开放领域新词发现的方法及系统
CN105956200A (zh) * 2016-06-24 2016-09-21 武汉斗鱼网络科技有限公司 一种基于过滤和转换的弹幕拦截方法及装置
CN106446889A (zh) * 2015-08-10 2017-02-22 Tcl集团股份有限公司 一种台标的本地识别方法和装置
CN106570058A (zh) * 2016-09-29 2017-04-19 山东浪潮商用系统有限公司 一种搜索方法和搜索引擎
CN106649254A (zh) * 2015-11-04 2017-05-10 北京国双科技有限公司 关键词的分析方法和装置
CN106844508A (zh) * 2016-12-27 2017-06-13 北京五八信息技术有限公司 变形词识别方法及装置
CN109918548A (zh) * 2019-04-08 2019-06-21 上海凡响网络科技有限公司 一种自动检测文档敏感信息的方法和应用
CN110266667A (zh) * 2019-06-06 2019-09-20 惠州学院 一种网络内容安全与风险防控系统及方法
CN110298020A (zh) * 2019-05-30 2019-10-01 北京百度网讯科技有限公司 文本反作弊变体还原方法及设备、文本反作弊方法及设备
CN111078827A (zh) * 2019-12-23 2020-04-28 上海米哈游天命科技有限公司 一种关键词判断方法、装置、设备和介质
CN112287684A (zh) * 2020-10-30 2021-01-29 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN113468856A (zh) * 2020-03-31 2021-10-01 阿里巴巴集团控股有限公司 变异文本的生成、翻译模型的训练、文本分类方法和装置
CN117592473A (zh) * 2024-01-18 2024-02-23 武汉杏仁桉科技有限公司 一种多中文词组的谐音拆分处理方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102547621B (zh) * 2010-12-23 2015-04-22 中国移动通信集团公司 一种垃圾短信监控与处理的系统、装置及方法

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750841A (zh) * 2011-04-20 2012-10-24 英业达股份有限公司 提供形似字以学习汉字的系统及其方法
CN102595357A (zh) * 2011-11-30 2012-07-18 中兴通讯股份有限公司 一种短消息监控方法和系统
WO2013078798A1 (zh) * 2011-11-30 2013-06-06 中兴通讯股份有限公司 一种短消息监控方法和系统
CN102609455A (zh) * 2012-01-12 2012-07-25 北京中科大洋科技发展股份有限公司 一种实现汉语同音字检索的方法
CN102609455B (zh) * 2012-01-12 2014-12-03 北京中科大洋科技发展股份有限公司 一种实现汉语同音字检索的方法
CN103064928A (zh) * 2012-12-21 2013-04-24 北京二六三企业通信有限公司 基于关键词的垃圾文档过滤方法和装置
CN103294664A (zh) * 2013-07-04 2013-09-11 清华大学 开放领域新词发现的方法及系统
CN106446889B (zh) * 2015-08-10 2019-09-17 Tcl集团股份有限公司 一种台标的本地识别方法和装置
CN106446889A (zh) * 2015-08-10 2017-02-22 Tcl集团股份有限公司 一种台标的本地识别方法和装置
CN106649254A (zh) * 2015-11-04 2017-05-10 北京国双科技有限公司 关键词的分析方法和装置
CN105956200A (zh) * 2016-06-24 2016-09-21 武汉斗鱼网络科技有限公司 一种基于过滤和转换的弹幕拦截方法及装置
CN106570058A (zh) * 2016-09-29 2017-04-19 山东浪潮商用系统有限公司 一种搜索方法和搜索引擎
CN106844508A (zh) * 2016-12-27 2017-06-13 北京五八信息技术有限公司 变形词识别方法及装置
CN109918548A (zh) * 2019-04-08 2019-06-21 上海凡响网络科技有限公司 一种自动检测文档敏感信息的方法和应用
CN110298020A (zh) * 2019-05-30 2019-10-01 北京百度网讯科技有限公司 文本反作弊变体还原方法及设备、文本反作弊方法及设备
CN110298020B (zh) * 2019-05-30 2023-05-16 北京百度网讯科技有限公司 文本反作弊变体还原方法及设备、文本反作弊方法及设备
CN110266667A (zh) * 2019-06-06 2019-09-20 惠州学院 一种网络内容安全与风险防控系统及方法
CN111078827A (zh) * 2019-12-23 2020-04-28 上海米哈游天命科技有限公司 一种关键词判断方法、装置、设备和介质
CN113468856A (zh) * 2020-03-31 2021-10-01 阿里巴巴集团控股有限公司 变异文本的生成、翻译模型的训练、文本分类方法和装置
CN112287684A (zh) * 2020-10-30 2021-01-29 中国科学院自动化研究所 融合变体词识别的短文本审核方法及装置
CN117592473A (zh) * 2024-01-18 2024-02-23 武汉杏仁桉科技有限公司 一种多中文词组的谐音拆分处理方法及装置
CN117592473B (zh) * 2024-01-18 2024-04-09 武汉杏仁桉科技有限公司 一种多中文词组的谐音拆分处理方法及装置

Also Published As

Publication number Publication date
CN100589098C (zh) 2010-02-10

Similar Documents

Publication Publication Date Title
CN100589098C (zh) 一种变异关键词的提取方法
CN107093172B (zh) 文字检测方法及系统
EP1598770B1 (en) Low resolution optical character recognition for camera acquired documents
TWI284288B (en) Text region recognition method, storage medium and system
Kumar et al. Segmentation of isolated and touching characters in offline handwritten Gurmukhi script recognition
CN111401353B (zh) 一种数学公式的识别方法、装置及设备
CN103577818A (zh) 一种图像文字识别的方法和装置
CN102915437A (zh) 文本信息识别方法及系统
CN101901484A (zh) 文档图像分割系统
CN103679678B (zh) 一种矩形文字特征碎纸片的半自动拼接复原方法
CN102375807A (zh) 文字校对方法和装置
WO2001054054A9 (en) Word recognition using silhouette bar codes
CN102184240B (zh) 基于移动通讯设备终端的网页页面排版方法及系统
CN101794378B (zh) 基于图片编码的垃圾图片过滤方法
CN106227808A (zh) 一种去除邮件干扰信息的方法以及垃圾邮件判定方法
CN106339481A (zh) 基于最大置信度的中文复合新词发现方法
Roy et al. A system for word-wise handwritten script identification for Indian postal automation
CN107463571A (zh) 网页消重方法
CN103839252A (zh) 图像处理装置
Tang et al. HRCenterNet: An anchorless approach to Chinese character segmentation in historical documents
CN109766893A (zh) 适于购物小票的图片文字识别方法
CN113780276A (zh) 一种结合文本分类的文本检测和识别方法及系统
CN101615255B (zh) 一种视频文字多帧融合的方法
Shinde et al. Shirorekha extraction in character segmentation for printed Devanagri text in document image processing
CN101673263A (zh) 视频内容的搜索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100210

Termination date: 20120731