CN102982011B - 一种用于识别失序文本的方法与设备 - Google Patents

一种用于识别失序文本的方法与设备 Download PDF

Info

Publication number
CN102982011B
CN102982011B CN201110264214.6A CN201110264214A CN102982011B CN 102982011 B CN102982011 B CN 102982011B CN 201110264214 A CN201110264214 A CN 201110264214A CN 102982011 B CN102982011 B CN 102982011B
Authority
CN
China
Prior art keywords
text
target text
word
target
statistical information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110264214.6A
Other languages
English (en)
Other versions
CN102982011A (zh
Inventor
李彦宏
舒迅
帅帅
王波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201110264214.6A priority Critical patent/CN102982011B/zh
Publication of CN102982011A publication Critical patent/CN102982011A/zh
Application granted granted Critical
Publication of CN102982011B publication Critical patent/CN102982011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明的目的是提供一种用于识别失序文本的方法与设备。其中,识别设备获取待识别的目标文本;根据所述目标文本,获得与所述目标文本相对应的统计信息;根据所述统计信息,识别所述目标文本是否为失序文本。与现有技术相比,本发明根据获得的与目标文本相对应的统计信息,识别该目标文本是否为失序文本,进而实现有效的文本内容管理。

Description

一种用于识别失序文本的方法与设备
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于识别失序文本的技术。
背景技术
互联网技术的发展与应用,向人们提供了更多相互沟通的平台和交流信息的方式,例如人们可以通过论坛、贴吧等沟通平台与他人分享趣闻、对所共同关注的事件发表意见,进而,在开放的交流平台上有效地管理文本内容的需求也日益增加。现有技术可以通过对正常排序的文字进行分析管理,但是对失序文本无法有效识别,从而当有恶意或违法信息以失序文本的形式通过网络沟通平台进行发布时,网络服务器等设备无法对其进行有效识别。
因此,如何有效地识别失序文本,成为本领域技术人员亟须解决的问题之一。
发明内容
本发明的目的是提供一种用于识别失序文本的方法与设备。
根据本发明的一个方面,提供了一种用于识别失序文本的方法,该方法包括以下步骤:
a获取待识别的目标文本;
b根据所述目标文本,获得与所述目标文本相对应的统计信息;
c根据所述统计信息,识别所述目标文本是否为失序文本。
根据本发明的另一方面,还提供了一种用于识别失序文本的设备,该设备包括:
文本获取装置,用于获取待识别的目标文本;
统计信息获取装置,用于根据所述目标文本,获得与所述目标文本相对应的统计信息;
识别装置,用于根据所述统计信息,识别所述目标文本是否为失序文本。
与现有技术相比,本发明根据获得的与目标文本相对应的统计信息,识别该目标文本是否为失序文本,进而实现有效的文本内容管理。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个方面用于识别失序文本的设备示意图;
图2示出根据本发明一个优选实施例的用于识别失序文本的设备示意图;
图3示出根据本发明另一个方面用于识别失序文本的方法流程图;
图4示出根据本发明一个优选实施例的用于识别失序文本的方法流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
图1示出根据本发明一个方面用于识别失序文本的设备示意图。识别设备1包括文本获取装置11、统计信息获取装置12和识别装置13。在此,识别设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
具体地,文本获取装置11获取待识别的目标文本。更具体地,文本获取装置11按预定周期或应事件触发实时地获取待处理的目标文本,例如通过实时监听用户通过用户设备提交的目标文本提交请求,以获取用户输入的目标文本,或者定期地通过约定的通信方式直接从第三方设备读取目标文本。例如,假设识别设备1为网络论坛服务器,用户通过用户设备在网络论坛网页的输入界面输入一段文本信息,然后,用户设备将该信息作为论坛发帖包装成http请求并通过http通信协议提交到识别设备1的文本获取装置11,接着,文本获取装置11通过实时监听用户消息,接收并解析该http请求,获取其中的文本信息并作为目标文本。再如,文本获取装置11按一定周期,定期地通过调用预定的应用编程接口(API)向第三方设备发送获取目标文本的请求,并接收该第三方设备基于该请求返回的目标文本的文档。本领域技术人员应能理解上述获取目标文本的方式仅为举例,其他现有的或今后可能出现的获取目标文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
随后,统计信息获取装置12根据所述目标文本,获得与所述目标文本相对应的统计信息。具体地,统计信息获取装置12根据文本获取装置11提供的目标文本,例如通过对该目标文本的每行进行字数统计,并计算获得该目标文本的行平均字数,以获取与该目标文本相对应的字数统计信息;或者通过对该目标文本进行分词处理,并统计获得分词处理后的分词处理结果中单字分词与多字分词的分布信息,如单字分词与多字分词的比例值,以获取与该目标文本相对应的统计信息。例如,统计信息获取装置12根据文本获取装置11提供的目标文本:
证速
件打
办电办
理话证
将该目标文本中的每行进行字数统计,即该目标文本从上到下各行字数分别为2、2、3、3,并计算获得该目标文本的行平均字数为2.5。
再如,统计信息获取装置12根据文本获取装置11提供的目标文本:
进竖失
行行序
分文文
词文本
处字举
理&例
对该目标文本的每行文字按照最大反向匹配法进行分词处理,以获得分词处理结果如下:
进/竖/失
行/行/序
分/文/文
词/文本
处/字/举
理/&/例
并计算该目标文本的分词处理结果中单字分词数量与多字分词数量的比例值为16∶1。本领域技术人员应能理解上述获得统计信息的方式仅为举例,其他现有的或今后可能出现的获得统计信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,识别装置13根据所述统计信息,识别所述目标文本是否为失序文本。具体地,识别装置13根据统计信息获取装置12获取的统计信息,例如若统计信息中包括该目标文本各行的平均字数,则将该各行的平均字数与预定的各行平均字数阈值进行比较,当该各行的平均字数小于预定的各行平均字数阈值时,识别该目标文本为失序文本;若统计信息中包括对该目标文本进行分词处理所获得的分词处理结果中单字分词与多字分词的分布信息,将该分词统计信息与预设的参考统计信息进行比较,识别该目标文本是否为失序文本。例如,假设统计信息获取装置12获取的统计信息为该目标文本各行的平均字数为2.5;识别装置13根据该目标文本各行的平均字数,将该各行的平均字数与预定的各行平均字数阈值6进行比较,即2.5<6,则据该比较结果识别该目标文本为失序文本。又如,假设统计信息获取装置12获取的统计信息为将目标文本进行分词处理后获得的分词处理结果中单字分词与多字分词的分布信息,该分布信息示出该分词处理结果中单字分词数量与多字分词数量的比例值为16∶1;识别装置13根据该单字分词与多字分词的分布信息,将该比例值与自然语言中单字分词数量与多字分词数量的比例阈值3∶5进行比较,即16∶1>3∶5,据此判断该目标文本为失序文本。本领域技术人员应能理解上述识别失序文本的方式仅为举例,其他现有的或今后可能出现的识别失序文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,文本获取装置11、统计信息获取装置12和识别装置13之间是持续不断地工作。具体地,文本获取装置11获取待识别的目标文本;随后,统计信息获取装置12根据所述目标文本,获得与所述目标文本相对应的统计信息;接着,识别装置13根据所述统计信息,识别所述目标文本是否为失序文本。在此,本领域技术人员应理解“持续”是指各装置分别按照设定的或实时调整的工作模式要求进行目标文本的获取、统计信息的获取、及失序文本的识别,直至文本获取装置11在较长时间内停止对待识别的目标文本的获取。
图2示出根据本发明一个优选实施例的用于识别失序文本的设备示意图,统计信息获取装置12’还包括分词处理单元121’和分布信息获取单元122’。具体地,分词处理单元121’对所述目标文本进行分词处理,以获得与所述目标文本相对应的分词处理结果;分布信息获取单元122’对所述分词处理结果进行统计分析,以获得与所述目标文本相对应的单字分词或多字分词的统计分布信息;识别装置13’还将所述统计分布信息与预设的参考分布信息进行比较,以识别所述目标文本是否为失序文本。在此,图2中所示装置11’与前面参照图1所描述的装置11的内容相同,为简明起见,以引用方式包含于此,而不做赘述。
更具体地,分词处理单元121’例如对文本获取装置11获取的目标文本的每行进行分词处理,或对该目标文本的各行中具有相同列数的文字组成的列文本进行分词处理,以获得与所述目标文本相对应的分词处理结果;其中,分词处理的方法包括但不限于:最大正向匹配法、最大反向匹配法、词典串匹配法;接着,分布信息获取单元122’对分词处理单元121’获取的分词处理结果进行统计分析,以获得该分词处理结果中单字分词或多字分词的统计分布信息,其中,该单字分词或多字分词的统计分布信息包括但不限于:单字分词数量与多字分词数量的比例值、单字分词数量与所有分词数量的比例值、多字分词数量与所有分词数量的比例值;随后,识别装置13’例如将分布信息获取单元122’获取的统计分布信息中单字分词数量与多字分词数量的比例值与预设的参考分布信息中单字分词数量与多字分词数量的参考比例阈值进行比较,判断该比例值与参考比例阈值的大小关系,以识别目标文本是否为失序文本。
例如,分词处理单元121’根据文本获取装置11’提供的目标文本:
行竖失
分行序
词文文
处文本
理字例
对该目标文本的每行文字按照最大正向匹配法进行分词处理,以获得第一行的分词处理结果为“行/竖/失”,第二行的分词处理结果为“分行/序”,第三行的分词处理结果为“词/文/文”,第四行的分词结果为“处/文本”,第五行的分词结果为“理/字/例”;接着,分布信息获取单元122’对分词处理单元121’提供的该目标文本的各行分词处理结果进行统计分析,以获得该目标文本所对应的统计分布信息,其示出该分词处理结果中单字分词数量与多字分词数量的比例为11∶2;随后,识别装置13’将该单字分词数量与多字分词数量的比例值与自然语言中单字分词数量与多字分词数量的参考比例阈值进行比较,即11∶2>2∶5,以识别目标文本为失序文本。
又例如,分词处理单元121’根据文本获取装置11’提供的目标文本:
行竖失
分行序
词文文
处文本
理字例
提取该目标文本的各行中具有相同列数的文字组成的列文本,即第一列文本为“行分词处理”,第二列文本为“竖行文文字”,第三列文本为“失序文本例”,对该三个列文本按照最大正向匹配法进行分词处理,以获得第一列文本的分词处理结果为“行/分词/处理”,第二列文本的分词处理结果为“竖行文/文字”,第三列文本的分词处理结果为“失序/文本/例”;接着,分布信息获取单元122’对分词处理单元121’提供的该目标文本的各行分词处理结果进行统计分析,以获得该目标文本所对应的统计分布信息,其示出该分词处理结果中单字分词数量与多字分词数量的比例为1∶3;随后,识别装置13’将该单字分词数量与多字分词数量的比例值与自然语言中单字分词数量与多字分词数量的参考比例阈值进行比较,即1∶3<2∶5,以识别目标文本为失序文本。本领域技术人员应能理解上述获取分词统计信息或获取分布信息或识别失序文本的方式仅为举例,其他现有的或今后可能出现的获取分词统计信息、获取分布信息和识别失序文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,参考分布信息包括以下至少任一项:
-基于自然语言的标准分布信息;
-与所述目标文本所对应的应用相关的分布信息。
具体地,参考分布信息包括但不限于基于自然语言的标准分布信息、与目标文本所对应的应用相关的分布信息。获得基于自然语言的标准分布信息的方式可为根据对自然语言中的海量文本进行分词处理,并对该海量分词处理的所有分词处理结果进行统计分析,以获得这些海量文本的分词处理结果中标准的单字分词或多字分词的分布信息;获得与目标文本所对应的应用相关的分布信息的方式可为根据目标文本所在的应用,如网络论坛、百度贴吧等,提取该应用中的大量正常文本,并对这些文本进行分词处理且对所有分词处理结果进行统计分析,以获得与目标文本所对应的应用相关的中单字分词或多字分词的分布信息。本领域技术人员应能理解上述参考分布信息仅为举例,其他现有的或今后可能出现的参考分布信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在另一个优选实施例中(参照图1),识别设备1还包括选取装置(未示出),具体地,选取装置按照预置的文本抽样规则,从所述目标文本中选取优选文本;统计信息获取装置12还根据所述优选文本,获得与所述优选文本相对应的统计信息。以下参照图1对该优选实施例进行详细描述,其中,文本获取装置11获取待识别的目标文本;识别装置13根据所述统计信息,识别所述目标文本是否为失序文本;其具体过程与前述参照图1所描述的实施例中文本获取装置11和识别装置13所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
更具体地,选取装置按照预置的文本抽样规则,从所述目标文本中选取优选文本,例如选取装置从目标文本中选取若干行作为优选文本;接着,统计信息获取装置12还根据选取装置选取的优选文本,例如通过对该优选文本的每行进行字数统计,并计算获得该优选文本的行平均字数,以获得与该优选文本相对应的字数统计信息。例如,选取装置根据文本获取装置11获取的目标文本:
各速
种打
证电办
件话证
办联*
理系&
按照预置的文本抽样规则,选取目标文本中的前三行,
各速
种打
证电办
作为优选文本;接着,统计信息获取装置12将该优选文本中的每行进行字数统计,即该优选文本从上到下各行字数分别为2、2、3,并计算获得该目标文本的行平均字数为2.3。本领域技术人员应能理解上述选取优选文本与获取统计信息的方式仅为举例,其他现有的或今后可能出现的选取优选文本或获取统计信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,所述文本抽样规则基于以下至少任一项来从所述目标文本中选取所述优选文本:
-选取所述目标文本中的若干行文本;
-选取所述目标文本的各行中具有相同列数的文字组成的列文本。
具体地,文本抽样规则基于选取目标文本中的若干行文本来从该目标文本中选取优选文本。例如,选取装置从目标文本中随机地选取若干行文本作为优选文本,或选取装置从目标文本中选取固定地若干行作为优选文本。文本抽样规则基于选取目标文本的各行中具有相同列数的文字组成的列文本来从该目标文本中选取优选文本,例如,假设目标文本为5行8列的文本,各行中具有相同列数的字符组成的字符序列构成一个列文本,如此获得与该目标文本相对应的8个列文本;选取装置可从该些列文本中选取固定若干列文本作为优选文本。优选地,选取装置还可以根据上述文本抽样规则的任意组合,从所述目标文本中选取优选文本。本领域技术人员应能理解上述文本抽样规则仅为举例,其他现有的或今后可能出现的文本抽样规则如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在又一个优选实施例中(参照图1),识别设备1还包括预处理装置(未示出)。以下参照图1对该优选实施例进行详细描述,其中,文本获取装置11获取待识别的目标文本;识别装置13根据所述统计信息,识别所述目标文本是否为失序文本;其具体过程与前述参照图1所描述的实施例中文本获取装置11和识别装置13所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,预处理装置对所述目标文本进行预处理,获得预处理文本;统计信息获取装置12还根据所述预处理文本,获得与所述预处理文本相对应的统计信息。更具体地,预处理装置对目标文本进行诸如滤除特定字符、将异型文字转化为正常文字等预处理,获得预处理文本;统计信息获取装置12根据预处理装置获得的预处理文本,例如通过对该预处理文本的每行进行字数统计,并计算获得该目标文本的行平均字数,以获取与该目标文本相对应的字数统计信息。例如,假设目标文本为:
矢預#
垿処#
呅理&
夲#&
预处理装置首先将该目标文本的每个字符在特定字符库中进行匹配查询,获得字符‘#’、‘&’为特定字符,然后预处理装置将字符从该失序文本中滤除,获得第一预处理结果:
矢預
垿処
呅理
接着,预处理装置将该第一预处理文本的每个字符在异型文字库中进行匹配查询,并据此将火星文字‘矢’转化为‘失’,‘垿’转化为‘序’,‘呅’转化为‘文’,‘夲’转化为‘本’,‘預’转化为‘预’,‘処’转化为‘处’从而获得第二预处理结果:
失预
序处
文理
并将该第二预处理结果作为预处理文本;然后,统计信息获取装置12根据预处理装置获得的预处理文本,将该预处理文本中的每行进行字数统计,即该预处理文本从上到下各行字数分别为2、2、2、1,并计算获得该目标文本的行平均字数为1.75。在此,所举实施例中的特定字符库用于存储预定义的特定字符,包括但不限于关系数据库,内存存储器,硬盘存储器等,所举实施例中的异型文字库用于存储诸如菊花体、火星文等异型文字及与其对应的正常文字的映射。在此,本领域技术人员应能理解,所述特定字符库既可以与所述异型文字库相互独立,也可以集成于所述异型文字库中。本领域技术人员应能理解上述目标文本预处理的方式仅为举例,其他现有的或今后可能出现的目标文本预处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,所述预处理操作包括以下至少任一项:
-滤除所述目标文本中的特定字符;
-将所述目标文本中的异型文字转化为正常文字。
具体地,预处理操作包括滤除目标文本中的特定字符,该特定字符包括但不限于^、*、|、◎、□、⊙、★等,其可存储在特定字符库中;预处理操作包括将目标文本中的异型文字转化为正常文字,该异型文字包括但不限于菊花文、火星文等,其可存储在异型文字库中。本领域技术人员应能理解,上述两项预处理规则不仅可以单独用于对目标文本进行预处理,还可以将两项结合用于对目标文本进行预处理。本领域技术人员应能理解上述预处理规则仅为举例,其他现有的或今后可能出现的预处理规则如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,所述预处理操作包括将所述目标文本中的异型文字转化为正常文字;其中,所述预处理装置将所述目标文本在异型文字库进行匹配映射,以使所述目标文本中的异型文字转化为正常文字。具体地,预处理装置将文本获取装置11获取的目标文本在异型文字库中进行匹配映射,若匹配成功,则将该字符串转化为其在异型文字库中匹配映射得到的正常文字,其中,匹配方式包括但不限于最大字符串匹配、正则表达式匹配。例如,假设目标文本中包括字符串“伱傃谁”,预处理装置将该字符串的第一个字符“伱”在异型文字库中进行匹配映射,匹配获得火星文“伱”与正常文字“你”相对应,接着,将该字符串的前两个字符“伱傃”在异型文字库中进行匹配映射,匹配获得火星文“伱傃”与正常文字“你是”相对应,随后,将该字符串“伱傃谁”在异型文字库中再次进行匹配映射,没有匹配到与其相对应的正常文字,则将“伱傃谁”的前两个字符转换为正常文字且保留第三个字符,获得转化后的文字为“你是谁”。又如,假设目标文本中包括数字字符串“I3955667788”,预处理装置根据将该数字字符串进行正则表达式匹配,获得“I39”与“139”相对应的正则表达式相匹配,将“I3955667788”转化为“13955667788”。本领域技术人员应能理解上述将异型文字转化为正常文字的方式仅为举例,其他现有的或今后可能出现的将异型文字转化为正常文字的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,所述异型文字包括以下至少任一项:
-火星文;
-菊花文。
具体地,异形文字包括但不限于火星文、菊花文。火星文由符号、繁体字、日文、韩文、冷僻字或汉字拆分后的部分等非正规化文字符号组合而成,如正常文字“国家大剧院”对应的火星文为“啯傢ナ劇院”;菊花文指在标准字符的前后加入一些特殊字符,如“失□序□文□字□”,其中,菊花文的符号“□”的ASCII码为1161。本领域技术人员应能理解上述异型文字仅为举例,其他现有的或今后可能出现的异型文字如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在再一个优选实施例中(参照图1),识别设备1还包括提供装置(未示出)。具体地,文本获取装置11获取用户通过用户设备提交的待识别的目标文本;提供装置将所述目标文本的识别结果提供给所述用户设备。以下参照图1对该优选实施例进行详细描述,其中,统计信息获取装置12根据所述目标文本,获得与所述目标文本相对应的统计信息;识别装置13根据所述统计信息,识别所述目标文本是否为失序文本;其具体过程与前述参照图1所描述的实施例中统计信息获取装置12和识别装置13所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
更具体地,用户通过与用户设备的交互方式,包括但不限于键盘、鼠标、遥控器、触摸板、或手写设备,在浏览器软件、应用程序或客户端软件中输入目标文本;以键盘为例,用户在应用程序的输入文本框完成目标文本的输入,并通过点击“提交”按钮或其他方式触发用户设备将该目标文本按照约定的通信协议经由网络发送到识别设备1,文本获取装置11通过监听用户消息,实时地接收该失序文本。在此,该用户设备可以是任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备进行人机交互的电子产品,包括但不限于计算机、智能手机、PDA、或IPTV等。识别设备1与用户设备之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。识别设备1与用户设备连接的网络包括但不限于:互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述获取目标文本的方式仅为举例,其他现有的或今后可能出现的获取目标文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
随后,提供装置根据识别装置13获取的目标文本的识别结果,例如识别结果是目标文本是否为失序文本,采用任何已知的计算机提供人可读信息的技术手段,例如屏幕显示、扬声器播放等,将该识别结果提供给用户设备。以屏幕显示为例,提供装置将目标文本的识别结果,利用页面技术,如JSP、ASP或PHP,按一定格式提供给用户设备,例如以链接、页面文本等形式提供给用户设备,供用户进行浏览。本领域技术人员应能理解上述对提供识别结果的方式仅为举例,其他现有的或今后可能出现的提供识别结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图3示出根据本发明一个方面用于识别失序文本的方法流程图。在此,识别设备1包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云。在此,云由基于云计算(Cloud Computing)的大量计算机或网络服务器构成,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。
具体地,在步骤S1中,识别设备1获取待识别的目标文本。更具体地,在步骤S1中,识别设备1按预定周期或应事件触发实时地获取待处理的目标文本,例如通过实时监听用户通过用户设备提交的目标文本提交请求,以获取用户输入的目标文本,或者定期地通过约定的通信方式直接从第三方设备读取目标文本。例如,假设识别设备1为网络论坛服务器,用户通过用户设备在网络论坛网页的输入界面输入一段文本信息,然后,用户设备将该信息作为论坛发帖包装成http请求并通过http通信协议提交到识别设备1,接着,识别设备1通过实时监听用户消息,接收并解析该http请求,获取其中的文本信息并作为目标文本。再如,在步骤S1中,识别设备1按一定周期,定期地通过调用预定的应用编程接口(API)向第三方设备发送获取目标文本的请求,并接收该第三方设备基于该请求返回的目标文本的文档。本领域技术人员应能理解上述获取目标文本的方式仅为举例,其他现有的或今后可能出现的获取目标文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
随后,在步骤S2中,识别设备1根据所述目标文本,获得与所述目标文本相对应的统计信息。具体地,在步骤S2中,识别设备1根据其在步骤S1中提供的目标文本,例如通过对该目标文本的每行进行字数统计,并计算获得该目标文本的行平均字数,以获取与该目标文本相对应的字数统计信息;或者通过对该目标文本进行分词处理,并统计获得分词处理后的分词处理结果中单字分词与多字分词的分布信息,如单字分词与多字分词的比例值,以获取与该目标文本相对应的统计信息。例如,在步骤S2中,识别设备1根据其在步骤S1中提供的目标文本:
证速
件打
办电办
理话证
将该目标文本中的每行进行字数统计,即该目标文本从上到下各行字数分别为2、2、3、3,并计算获得该目标文本的行平均字数为2.5。再如,在步骤S2中,识别设备1根据其在步骤S1中提供的目标文本:
进竖失
行行序
分文文
词文本
处字举
理&例
对该目标文本的每行文字按照最大反向匹配法进行分词处理,以获得分词处理结果如下:
选/竖/失
行/行/序
分/文/文
词/文本
处/字/举
理/&/例
并计算该目标文本的分词处理结果中单字分词数量与多字分词数量的比例值为16∶1。本领域技术人员应能理解上述获得统计信息的方式仅为举例,其他现有的或今后可能出现的获得统计信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
接着,在步骤S3中,识别设备1根据所述统计信息,识别所述目标文本是否为失序文本。具体地,在步骤S3中,识别设备1根据其在步骤S2中获取的统计信息,例如若统计信息中包括该目标文本各行的平均字数,则将该各行的平均字数与预定的各行平均字数阈值进行比较,当该各行的平均字数小于预定的各行平均字数阈值时,识别该目标文本为失序文本;若统计信息中包括对该目标文本进行分词处理所获得的分词处理结果中单字分词与多字分词的分布信息,将该分词统计信息与预设的参考统计信息进行比较,识别该目标文本是否为失序文本。例如,假设在步骤S2中,识别设备1获取的统计信息为该目标文本各行的平均字数为2.5;在步骤S3中,识别设备1根据该目标文本各行的平均字数,将该各行的平均字数与预定的各行平均字数阈值6进行比较,即2.5<6,则据该比较结果识别该目标文本为失序文本。又如,假设在步骤S2中,识别设备1获取的统计信息为将目标文本进行分词处理后获得的分词处理结果中单字分词与多字分词的分布信息,该分布信息示出该分词处理结果中单字分词数量与多字分词数量的比例值为16∶1;在步骤S3中,识别设备1根据该单字分词与多字分词的分布信息,将该比例值与自然语言中单字分词数量与多字分词数量的比例阈值3∶5进行比较,即16∶1>3∶5,据此判断该目标文本为失序文本。本领域技术人员应能理解上述识别失序文本的方式仅为举例,其他现有的或今后可能出现的识别失序文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,上述各步骤之间是持续不断地工作。具体地,在步骤S1中,识别设备1获取待识别的目标文本;随后,在步骤S2中,识别设备1根据所述目标文本,获得与所述目标文本相对应的统计信息;接着,在步骤S3中,识别设备1根据所述统计信息,识别所述目标文本是否为失序文本。在此,本领域技术人员应理解“持续”是指各步骤分别按照设定的或实时调整的工作模式要求进行目标文本的获取、统计信息的获取、及失序文本的识别,直至识别设备1在较长时间内停止对待识别的目标文本的获取。
图4示出根据本发明一个优选实施例的用于识别失序文本的方法流程图,步骤S2’还包括步骤S21’和步骤S22’。具体地,在步骤S21’中,识别设备1对所述目标文本进行分词处理,以获得与所述目标文本相对应的分词处理结果;在步骤S22’中,识别设备1对所述分词处理结果进行统计分析,以获得与所述目标文本相对应的单字分词或多字分词的统计分布信息;在步骤S3’中,识别设备1还将所述统计分布信息与预设的参考分布信息进行比较,以识别所述目标文本是否为失序文本。在此,图4中所示步骤S1’与前面参照图3所描述的步骤S1的内容相同,为简明起见,以引用方式包含于此,而不做赘述。
更具体地,在步骤S21’中,识别设备1例如对其在步骤S1’中获取的目标文本的每行进行分词处理,或对该目标文本的各行中具有相同列数的文字组成的列文本进行分词处理,以获得与所述目标文本相对应的分词处理结果;其中,分词处理的方法包括但不限于:最大正向匹配法、最大反向匹配法、词典串匹配法;接着,在步骤S22’中,识别设备1对其在步骤S21’中获取的分词处理结果进行统计分析,以获得该分词处理结果中单字分词或多字分词的统计分布信息,其中,该单字分词或多字分词的统计分布信息包括但不限于:单字分词数量与多字分词数量的比例值、单字分词数量与所有分词数量的比例值、多字分词数量与所有分词数量的比例值;随后,在步骤S3’中,识别设备1例如将其在步骤S22’中获取的统计分布信息中单字分词数量与多字分词数量的比例值与预设的参考分布信息中单字分词数量与多字分词数量的参考比例阈值进行比较,判断该比例值与参考比例阈值的大小关系,以识别目标文本是否为失序文本。
例如,在步骤S21’中,识别设备1根据其在步骤S1’中提供的目标文本:
行竖失
分行序
词文文
处文本
理字例
对该目标文本的每行文字按照最大正向匹配法进行分词处理,以获得第一行的分词处理结果为“行/竖/失”,第二行的分词处理结果为“分行/序”,第三行的分词处理结果为“词/文/文”,第四行的分词结果为“处/文本”,第五行的分词结果为“理/字/例”;接着,在步骤S22’中,识别设备1对其在步骤S21’中提供的该目标文本的各行分词处理结果进行统计分析,以获得该目标文本所对应的统计分布信息,其示出该分词处理结果中单字分词数量与多字分词数量的比例为11∶2;随后,在步骤S3’中,识别设备1将该单字分词数量与多字分词数量的比例值与自然语言中单字分词数量与多字分词数量的参考比例阈值进行比较,即11∶2>2∶5,以识别目标文本为失序文本。
又例如,在步骤S21’中,识别设备1根据其在步骤S1’中提供的目标文本:
行竖失
分行序
词文文
处文本
理字例
提取该目标文本的各行中具有相同列数的文字组成的列文本,即第一列文本为“行分词处理”,第二列文本为“竖行文文字”,第三列文本为“失序文本例”,对该三个列文本按照最大正向匹配法进行分词处理,以获得第一列文本的分词处理结果为“行/分词/处理”,第二列文本的分词处理结果为“竖行文/文字”,第三列文本的分词处理结果为“失序/文本/例”;接着,在步骤S22’中,识别设备1对其在步骤S21’中提供的该目标文本的各行分词处理结果进行统计分析,以获得该目标文本所对应的统计分布信息,其示出该分词处理结果中单字分词数量与多字分词数量的比例为1∶3;随后,在步骤S3’中,识别设备1将该单字分词数量与多字分词数量的比例值与自然语言中单字分词数量与多字分词数量的参考比例阈值进行比较,即1∶3<2∶5,以识别目标文本为失序文本。本领域技术人员应能理解上述获取分词统计信息或获取分布信息或识别失序文本的方式仅为举例,其他现有的或今后可能出现的获取分词统计信息、获取分布信息和识别失序文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,参考分布信息包括以下至少任一项:
-基于自然语言的标准分布信息;
-与所述目标文本所对应的应用相关的分布信息。
具体地,参考分布信息包括但不限于基于自然语言的标准分布信息、与目标文本所对应的应用相关的分布信息。获得基于自然语言的标准分布信息的方式可为根据对自然语言中的海量文本进行分词处理,并对该海量分词处理的所有分词处理结果进行统计分析,以获得这些海量文本的分词处理结果中标准的单字分词或多字分词的分布信息;获得与目标文本所对应的应用相关的分布信息的方式可为根据目标文本所在的应用,如网络论坛、百度贴吧等,提取该应用中的大量正常文本,并对这些文本进行分词处理且对所有分词处理结果进行统计分析,以获得与目标文本所对应的应用相关的中单字分词或多字分词的分布信息。本领域技术人员应能理解上述参考分布信息仅为举例,其他现有的或今后可能出现的参考分布信息如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在另一个优选实施例中(参照图3),该过程还包括步骤S4(未示出),具体地,在步骤S4中,识别设备1按照预置的文本抽样规则,从所述目标文本中选取优选文本;在步骤S2中,识别设备1还根据所述优选文本,获得与所述优选文本相对应的统计信息。以下参照图3对该优选实施例进行详细描述,其中,在步骤S1中,识别设备1获取待识别的目标文本;在步骤S3中,识别设备1根据所述统计信息,识别所述目标文本是否为失序文本;其具体过程与前述参照图3所描述的实施例中在步骤S1和步骤S3所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
更具体地,在步骤S4中,识别设备1按照预置的文本抽样规则,从所述目标文本中选取优选文本,例如在步骤S4中,识别设备1从目标文本中选取若干行作为优选文本;接着,在步骤S2中,识别设备1还根据其在步骤S4中选取的优选文本,例如通过对该优选文本的每行进行字数统计,并计算获得该优选文本的行平均字数,以获得与该优选文本相对应的字数统计信息。例如,在步骤S4中,识别设备1根据其在步骤S1中获取的目标文本:
各速
种打
证电办
件话证
办联*
理系&
按照预置的文本抽样规则,选取目标文本中的前三行,
各速
种打
证电办
作为优选文本;接着,在步骤S2中,识别设备1将该优选文本中的每行进行字数统计,即该优选文本从上到下各行字数分别为2、2、3,并计算获得该目标文本的行平均字数为2.3。本领域技术人员应能理解上述选取优选文本与获取统计信息的方式仅为举例,其他现有的或今后可能出现的选取优选文本或获取统计信息的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,所述文本抽样规则基于以下至少任一项来从所述目标文本中选取所述优选文本:
-选取所述目标文本中的若干行文本;
-选取所述目标文本的各行中具有相同列数的文字组成的列文本。
具体地,文本抽样规则基于选取目标文本中的若干行文本来从该目标文本中选取优选文本。例如,在步骤S4中,识别设备1从目标文本中随机地选取若干行文本作为优选文本,或从目标文本中选取固定地若干行作为优选文本。文本抽样规则基于选取目标文本的各行中具有相同列数的文字组成的列文本来从该目标文本中选取优选文本,例如,假设目标文本为5行8列的文本,各行中具有相同列数的字符组成的字符序列构成一个列文本,如此获得与该目标文本相对应的8个列文本;在步骤S4中,识别设备1可从该些列文本中选取固定若干列文本作为优选文本。优选地,在步骤S4中,识别设备1还可以根据上述文本抽样规则的任意组合,从所述目标文本中选取优选文本。本领域技术人员应能理解上述文本抽样规则仅为举例,其他现有的或今后可能出现的文本抽样规则如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在又一个优选实施例中(参照图3),该过程还包括步骤S5(未示出)。以下参照图3对该优选实施例进行详细描述,其中,在步骤S1中,识别设备1获取待识别的目标文本;在步骤S3中,识别设备1根据所述统计信息,识别所述目标文本是否为失序文本;其具体过程与前述参照图3所描述的实施例中步骤S1和S3所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
具体地,在步骤S5中,识别设备1对所述目标文本进行预处理,获得预处理文本;在步骤S2中,识别设备1还根据所述预处理文本,获得与所述预处理文本相对应的统计信息。更具体地,在步骤S5中,识别设备1对目标文本进行诸如滤除特定字符、将异型文字转化为正常文字等预处理,获得预处理文本;在步骤S2中,识别设备1根据其在步骤S5中获得的预处理文本,例如通过对该预处理文本的每行进行字数统计,并计算获得该目标文本的行平均字数,以获取与该目标文本相对应的字数统计信息。例如,假设目标文本为:
矢預#
垿処#
呅理&
夲#&
在步骤S5中,识别设备1首先将该目标文本的每个字符在特定字符库中进行匹配查询,获得字符‘#’、‘&’为特定字符,然后识别设备1将字符从该失序文本中滤除,获得第一预处理结果:
矢預
垿処
呅理
接着,在步骤S5中,识别设备1将该第一预处理文本的每个字符在异型文字库中进行匹配查询,并据此将火星文字‘矢’转化为‘失’,‘垿’转化为‘序’,‘呅’转化为‘文’,‘夲’转化为‘本’,‘預’转化为‘预’,‘処’转化为‘处’从而获得第二预处理结果:
失预
序处
文理
并将该第二预处理结果作为预处理文本;然后,在步骤S2中,识别设备1根据其在步骤S5中获得的预处理文本,将该预处理文本中的每行进行字数统计,即该预处理文本从上到下各行字数分别为2、2、2、1,并计算获得该目标文本的行平均字数为1.75。在此,所举实施例中的特定字符库用于存储预定义的特定字符,包括但不限于关系数据库,内存存储器,硬盘存储器等,所举实施例中的异型文字库用于存储诸如菊花体、火星文等异型文字及与其对应的正常文字的映射。在此,本领域技术人员应能理解,所述特定字符库既可以与所述异型文字库相互独立,也可以集成于所述异型文字库中。本领域技术人员应能理解上述目标文本预处理的方式仅为举例,其他现有的或今后可能出现的目标文本预处理的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,所述预处理操作包括以下至少任一项:
-滤除所述目标文本中的特定字符;
-将所述目标文本中的异型文字转化为正常文字。
具体地,预处理操作包括滤除目标文本中的特定字符,该特定字符包括但不限于^、*、|、◎、□、⊙、★等,其可存储在特定字符库中;预处理操作包括将目标文本中的异型文字转化为正常文字,该异型文字包括但不限于菊花文、火星文等,其可存储在异型文字库中。本领域技术人员应能理解,上述两项预处理规则不仅可以单独用于对目标文本进行预处理,还可以将两项结合用于对目标文本进行预处理。本领域技术人员应能理解上述预处理规则仅为举例,其他现有的或今后可能出现的预处理规则如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,所述预处理操作包括将所述目标文本中的异型文字转化为正常文字;其中,步骤S5中,识别设备1将所述目标文本在异型文字库进行匹配映射,以使所述目标文本中的异型文字转化为正常文字。具体地,在步骤S5中,识别设备1将其在步骤S1中获取的目标文本在异型文字库中进行匹配映射,若匹配成功,则将该字符串转化为其在异型文字库中匹配映射得到的正常文字,其中,匹配方式包括但不限于最大字符串匹配、正则表达式匹配。例如,假设目标文本中包括字符串“伱傃谁”,在步骤S5中,识别设备1将该字符串的第一个字符“伱”在异型文字库中进行匹配映射,匹配获得火星文“伱”与正常文字“你”相对应,接着,将该字符串的前两个字符“伱傃”在异型文字库中进行匹配映射,匹配获得火星文“伱傃”与正常文字“你是”相对应,随后,将该字符串“伱傃谁”在异型文字库中再次进行匹配映射,没有匹配到与其相对应的正常文字,则将“伱傃谁”的前两个字符转换为正常文字且保留第三个字符,获得转化后的文字为“你是谁”。又如,假设目标文本中包括数字字符串“I3955667788”,在步骤S5中,识别设备1根据将该数字字符串进行正则表达式匹配,获得“I39”与“139”相对应的正则表达式相匹配,将“I3955667788”转化为“13955667788”。本领域技术人员应能理解上述将异型文字转化为正常文字的方式仅为举例,其他现有的或今后可能出现的将异型文字转化为正常文字的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,所述异型文字包括以下至少任一项:
-火星文;
-菊花文。
具体地,异形文字包括但不限于火星文、菊花文。火星文由符号、繁体字、日文、韩文、冷僻字或汉字拆分后的部分等非正规化文字符号组合而成,如正常文字“国家大剧院”对应的火星文为“啯傢ナ劇院”;菊花文指在标准字符的前后加入一些特殊字符,如“失□序□文□字□”,其中,菊花文的符号“□”的ASCII码为1161。本领域技术人员应能理解上述异型文字仅为举例,其他现有的或今后可能出现的异型文字如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
在再一个优选实施例中(参照图3),该过程还包括步骤S6(未示出)。具体地,在步骤S 1中,识别设备1获取用户通过用户设备提交的待识别的目标文本;在步骤S6中,识别设备1将所述目标文本的识别结果提供给所述用户设备。以下参照图3对该优选实施例进行详细描述,其中,在步骤S2中,识别设备1根据所述目标文本,获得与所述目标文本相对应的统计信息;在步骤S3中,识别设备1根据所述统计信息,识别所述目标文本是否为失序文本;其具体过程与前述参照图3所描述的实施例中步骤S2和S3所执行的过程相同,为简明起见,以引用方式包含于此,而不做赘述。
更具体地,用户通过与用户设备的交互方式,包括但不限于键盘、鼠标、遥控器、触摸板、或手写设备,在浏览器软件、应用程序或客户端软件中输入目标文本;以键盘为例,用户在应用程序的输入文本框完成目标文本的输入,并通过点击“提交”按钮或其他方式触发用户设备将该目标文本按照约定的通信协议经由网络发送到识别设备1,在步骤S 1中,识别设备1通过监听用户消息,实时地接收该失序文本。在此,该用户设备可以是任何一种可与用户通过键盘、鼠标、遥控器、触摸板、或声控设备进行人机交互的电子产品,包括但不限于计算机、智能手机、PDA、或IPTV等。识别设备1与用户设备之间可通过任何通信方式实现通信,包括但不限于,基于3GPP、LTE、WIMAX的移动通信、基于TCP/IP、UDP协议的计算机网络通信以及基于蓝牙、红外传输标准的近距无线传输方式。识别设备1与用户设备连接的网络包括但不限于:互联网、广域网、城域网、局域网、VPN网络、无线自组织网络(Ad Hoc网络)等。本领域技术人员应能理解上述获取目标文本的方式仅为举例,其他现有的或今后可能出现的获取目标文本的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
随后,在步骤S6中,识别设备1根据其在步骤S3中获取的目标文本的识别结果,例如识别结果是目标文本是否为失序文本,采用任何已知的计算机提供人可读信息的技术手段,例如屏幕显示、扬声器播放等,将该识别结果提供给用户设备。以屏幕显示为例,在步骤S6中,识别设备1将目标文本的识别结果,利用页面技术,如JSP、ASP或PHP,按一定格式提供给用户设备,例如以链接、页面文本等形式提供给用户设备,供用户进行浏览。本领域技术人员应能理解上述对提供识别结果的方式仅为举例,其他现有的或今后可能出现的提供识别结果的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (20)

1.一种由计算机实现的用于识别失序文本的方法,该方法包括以下步骤:
a获取待识别的目标文本;
b根据所述目标文本,获得与所述目标文本相对应的统计信息,其中所述统计信息包括字数统计信息或分词统计信息;
c根据所述统计信息,识别所述目标文本是否为失序文本,其中所述识别所述目标文本是否为失序文本的步骤包括以下任一项:
-将各行的平均字数与预定的各行平均字数阈值进行比较,以识别所述目标文本是否为失序文本;
-将所述目标文本的单字分词或多字分词数量作为所述分词统计信息来与预设的参考统计信息进行比较,以识别所述目标文本是否为失序文本。
2.根据权利要求1所述的方法,其中,所述步骤b还包括:
-对所述目标文本进行分词处理,以获得与所述目标文本相对应的分词处理结果;
-对所述分词处理结果进行统计分析,以获得与所述目标文本相对应的单字分词或多字分词的统计分布信息;
其中,所述步骤c还包括:
-将所述统计分布信息与预设的参考分布信息进行比较,以识别所述目标文本是否为失序文本。
3.根据权利要求2所述的方法,其中,所述参考分布信息包括以下至少任一项:
-基于自然语言的标准分布信息;
-与所述目标文本所对应的应用相关的分布信息。
4.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:
-按照预置的文本抽样规则,从所述目标文本中选取优选文本;
其中,所述步骤b还包括:
-根据所述优选文本,获得与所述优选文本相对应的统计信息。
5.根据权利要求4所述的方法,其中,所述文本抽样规则基于以下至少任一项来从所述目标文本中选取所述优选文本:
-选取所述目标文本中的若干行文本;
-选取所述目标文本的各行中具有相同列数的文字组成的列文本。
6.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:
X对所述目标文本进行预处理,获得预处理文本;
其中,所述步骤b还包括:
-根据所述预处理文本,获得与所述预处理文本相对应的统计信息。
7.根据权利要求6所述的方法,其中,所述预处理操作包括以下至少任一项:
-滤除所述目标文本中的特定字符;
-将所述目标文本中的异型文字转化为正常文字。
8.根据权利要求7所述的方法,其中,所述预处理操作包括将所述目标文本中的异型文字转化为正常文字;其中,所述步骤X还包括:
-将所述目标文本在异型文字库进行匹配映射,以使所述目标文本中的异型文字转化为正常文字。
9.根据权利要求7或8所述的方法,其中,所述异型文字包括以下至少任一项:
-火星文;
-菊花文。
10.根据权利要求1至3中任一项所述的方法,其中,所述步骤a还包括:
-获取用户通过用户设备提交的待识别的目标文本;
其中,该方法还包括:
-将所述目标文本的识别结果提供给所述用户设备。
11.一种由计算机实现的用于识别失序文本的装置,该装置包括:
文本获取装置,用于获取待识别的目标文本;
统计信息获取装置,用于根据所述目标文本,获得与所述目标文本相对应的统计信息,其中所述统计信息包括字数统计信息或分词统计信息;
识别装置,用于根据所述统计信息,识别所述目标文本是否为失序文本,其中所述识别装置包括以下任一项:
-用于将各行的平均字数与预定的各行平均字数阈值进行比较,以识别所述目标文本是否为失序文本的装置;
-用于将所述目标文本的单字分词或多字分词数量作为所述分词统计信息来与预设的参考统计信息进行比较,以识别所述目标文本是否为失序文本的装置。
12.根据权利要求11所述的装置,其中,所述统计信息获取装置还包括:
分词处理单元,用于对所述目标文本进行分词处理,以获得与所述目标文本相对应的分词处理结果;
分布信息获取单元,用于对所述分词处理结果进行统计分析,以获得与所述目标文本相对应的单字分词或多字分词的统计分布信息;
其中,所述识别装置还用于将所述统计分布信息与预设的参考分布信息进行比较,以识别所述目标文本是否为失序文本。
13.根据权利要求12所述的装置,其中,所述参考分布信息包括以下至少任一项:
-基于自然语言的标准分布信息;
-与所述目标文本所对应的应用相关的分布信息。
14.根据权利要求11至13中任一项所述的装置,其中,该装置还包括:
选取装置,用于按照预置的文本抽样规则,从所述目标文本中选取优选文本;
其中,所述统计信息获取装置还用于根据所述优选文本,获得与所述优选文本相对应的统计信息。
15.根据权利要求14所述的装置,其中,所述文本抽样规则基于以下至少任一项来从所述目标文本中选取所述优选文本:
-选取所述目标文本中的若干行文本;
-选取所述目标文本的各行中具有相同列数的文字组成的列文本。
16.根据权利要求11至13中任一项所述的装置,其中,该装置还包括:
预处理装置,用于对所述目标文本进行预处理,获得预处理文本;
其中,所述统计信息获取装置还用于根据所述预处理文本,获得与所述预处理文本相对应的统计信息。
17.根据权利要求16所述的装置,其中,所述预处理操作包括以下至少任一项:
-滤除所述目标文本中的特定字符;
-将所述目标文本中的异型文字转化为正常文字。
18.根据权利要求17所述的装置,其中,所述预处理操作包括将所述目标文本中的异型文字转化为正常文字;其中,所述预处理装置还用于将所述目标文本在异型文字库进行匹配映射,以使所述目标文本中的异型文字转化为正常文字。
19.根据权利要求17或18所述的装置,其中,所述异型文字包括以下至少任一项:
-火星文;
-菊花文。
20.根据权利要求11至13中任一项所述的装置,其中,所述文本获取装置还用于获取用户通过用户设备提交的待识别的目标文本;
其中,该装置还包括:
提供装置,用于将所述目标文本的识别结果提供给所述用户设备。
CN201110264214.6A 2011-09-07 2011-09-07 一种用于识别失序文本的方法与设备 Active CN102982011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110264214.6A CN102982011B (zh) 2011-09-07 2011-09-07 一种用于识别失序文本的方法与设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110264214.6A CN102982011B (zh) 2011-09-07 2011-09-07 一种用于识别失序文本的方法与设备

Publications (2)

Publication Number Publication Date
CN102982011A CN102982011A (zh) 2013-03-20
CN102982011B true CN102982011B (zh) 2017-05-31

Family

ID=47856053

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110264214.6A Active CN102982011B (zh) 2011-09-07 2011-09-07 一种用于识别失序文本的方法与设备

Country Status (1)

Country Link
CN (1) CN102982011B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106815249B (zh) * 2015-11-30 2022-01-07 腾讯科技(深圳)有限公司 竖向文本广告过滤方法和装置
CN106919626B (zh) * 2015-12-28 2020-05-08 北京国双科技有限公司 数据处理方法和装置以及数据查询方法和装置
CN108573696B (zh) * 2017-03-10 2021-03-30 北京搜狗科技发展有限公司 一种语音识别方法、装置及设备
CN107832360A (zh) * 2017-10-24 2018-03-23 广东欧珀移动通信有限公司 评论处理方法及相关设备
CN110083839B (zh) * 2019-04-29 2023-08-22 珠海豹好玩科技有限公司 文本导入方法、装置及设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350067A (zh) * 2005-12-16 2009-01-21 富士通株式会社 行方向判定方法以及装置
CN101446970A (zh) * 2008-12-15 2009-06-03 腾讯科技(深圳)有限公司 一种对用户发布的文本内容审核处理的方法及其装置
CN101876968A (zh) * 2010-05-06 2010-11-03 复旦大学 对网络文本与手机短信进行不良内容识别的方法
CN101882215A (zh) * 2009-05-25 2010-11-10 汉王科技股份有限公司 判断文本区域排版方向的方法
CN104477544A (zh) * 2014-12-15 2015-04-01 广西大学 垃圾桶

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004013863A (ja) * 2002-06-12 2004-01-15 Dainippon Printing Co Ltd 文書検索用文字処理方法およびシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350067A (zh) * 2005-12-16 2009-01-21 富士通株式会社 行方向判定方法以及装置
CN101446970A (zh) * 2008-12-15 2009-06-03 腾讯科技(深圳)有限公司 一种对用户发布的文本内容审核处理的方法及其装置
CN101882215A (zh) * 2009-05-25 2010-11-10 汉王科技股份有限公司 判断文本区域排版方向的方法
CN101876968A (zh) * 2010-05-06 2010-11-03 复旦大学 对网络文本与手机短信进行不良内容识别的方法
CN104477544A (zh) * 2014-12-15 2015-04-01 广西大学 垃圾桶

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Web sensitive text filtering by combining semantics and statistics;Ou WU等;《Proceedings of 2005 IEEE International Conference on Natural Language Processing and Knowledge Engineering》;20051231;第663-667页 *
基于语义分析的网络不良信息过滤系统;吕滨等;《计算机应用与软件》;20100228;第27卷(第2期);第283-285页 *
网络不良信息过滤研究;林建;《中国优秀硕士学位论文全文数据库 信息科技辑》;20071015(第04期);第1-26、31-33页 *

Also Published As

Publication number Publication date
CN102982011A (zh) 2013-03-20

Similar Documents

Publication Publication Date Title
CN102982011B (zh) 一种用于识别失序文本的方法与设备
CN104573094B (zh) 网络账号识别匹配方法
US9811593B2 (en) Cooking recipe information providing device, cooking recipe information providing method, program, and information storage medium
CN107239725A (zh) 一种信息展示方法、装置及系统
CN103279515B (zh) 基于微群的推荐方法及微群推荐装置
CN107092639A (zh) 一种搜索引擎系统
CN107438083B (zh) 一种Android环境下钓鱼网站检测方法及其检测系统
Petherick Country by country
CN102982012B (zh) 一种用于获取失序文本中的目标字符串的方法与设备
CN109639750A (zh) 业务数据处理方法及设备
CN106506327A (zh) 一种垃圾邮件识别方法及装置
CN103678460B (zh) 用于识别适于在多语言环境中进行通信的非文本元素的方法和系统
CN104484449B (zh) 网页页面的正文提取方法和装置
CN103076894B (zh) 一种用于根据对象标识信息构建输入词条的方法与设备
CN105096023A (zh) 工作标准相关数据的推送系统和方法
CN109450867B (zh) 一种身份认证方法、装置及存储介质
CN106992975A (zh) 恶意网址识别方法及装置
CN110046293A (zh) 一种用户身份关联方法及装置
CN106302568B (zh) 一种用户行为评价方法、装置及系统
CN107436877A (zh) 热点话题推送方法和装置
CN107391748A (zh) 问答政管理方法、装置、系统及计算机可读存储介质
CN103064967B (zh) 一种用于建立用户二元关系库的方法与设备
CN103810191B (zh) 一种用于向用户提供呈现信息的方法和设备
CN111429288A (zh) 用户画像的构建方法及装置、计算机设备、存储介质
TWI683258B (zh) 一種條形碼的識別方法和裝置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant