CN109344396A - 文本识别方法、装置、及计算机设备 - Google Patents

文本识别方法、装置、及计算机设备 Download PDF

Info

Publication number
CN109344396A
CN109344396A CN201811011026.0A CN201811011026A CN109344396A CN 109344396 A CN109344396 A CN 109344396A CN 201811011026 A CN201811011026 A CN 201811011026A CN 109344396 A CN109344396 A CN 109344396A
Authority
CN
China
Prior art keywords
text
character string
probability
character
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811011026.0A
Other languages
English (en)
Inventor
向彪
周俊
李小龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811011026.0A priority Critical patent/CN109344396A/zh
Publication of CN109344396A publication Critical patent/CN109344396A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书的实施例公开了一种文本识别方法,包括:获得待识别文本,其中,待识别文本包含N个字符;从待识别文本中,提取若干个字符串;每个字符串均为在待识别文本中连续出现的字符串,若干个字符串至少包括:N‑k+1个长度为k的字符串,k为预设的提取长度;针对待识别文本中任一个字符串i,在预先确定的样本概率中查询该字符串i对应的概率:在前Li‑1个字符出现的条件下,字符串i出现的概率,Li为字符串i的长度,2≤Li≤k;计算各个字符串对应的概率之和,根据计算结果确定所述待识别文本是否异常。基于本说明书的实施例案,可以根据概率之和识别待识别文本是否异常,从而高效且准确地甄别异常文本,以免不法分子通过异常文本实现不法目的。

Description

文本识别方法、装置、及计算机设备
技术领域
本说明书实施例涉及文本识别技术领域,尤其涉及文本识别方法、装置、及计算机设备。
背景技术
为了实现不法目的,不法分子往往会注册大量的邮箱地址,用户名。由于需要用到很大数据量的文本,因此这些文本一般是通过计算机随机生成的。
为了防止不法目的的实现,需要一种方式对这些文本进行有效的甄别。
发明内容
针对上述技术问题,本说明书实施例提供文本识别方法、装置、及计算机设备。
根据本说明书实施例的第一方面,提供一种文本识别方法,该方法包括:
获得待识别文本,其中,所述待识别文本包含N个字符,N>1;
从所述待识别文本中,提取若干个字符串;每个字符串均为在所述待识别文本中连续出现的字符串,所述若干个字符串至少包括:N-k+1个长度为k的字符串,k为预设的提取长度;
针对所述待识别文本中任一个字符串i,在预先确定的样本概率中查询该字符串i对应的概率:在前Li-1个字符出现的条件下,字符串i出现的概率,Li为字符串i的长度,2≤Li≤k;
计算各个字符串对应的概率之和,根据计算结果确定所述待识别文本是否异常。
可选地,所述若干个字符串还包括:
k-2个字符串:第i个字符串由所述待识别文本中的前(i+1)个字符组成。
可选地,所述若干个字符串还包括:
所述待识别文本中第1个字符,其中,所述第一个字符对应的概率为所述第1个字符出现的概率。
可选地,所述样本概率通过以下方式预先确定:
采集多个样本文本;
针对任一个所述样本文本,从所述样本文本中,提取若干个字符串;每个字符串均为在所述样本文本中连续出现的字符串,所述若干个字符串至少包括:N-k+1个长度为k的字符串;
针对所述样本文本中任一个字符串j,计算该字符串j对应的样本概率:在前Lj-1个字符出现的条件下,字符串j出现的概率,Lj为字符串j的长度,2≤Lj≤k。
可选地,所述根据计算结果确定所述待识别文本是否异常包括:
计算所述概率之和与所述概率之和对应字符串的个数的商;
比较所述商与预设数值,若所述商小于所述预设数值,确定所述待识别文本异常。
可选地,所述预设数值通过以下方式预先确定:
计算各个字符串的样本概率之和与所述样本概率之和对应字符串的个数的商;
对所述多个样本文本对应的商从大到小排序;
在排序后的商中取预设分位点的商作为所述预设数值。
可选地,所述方法还包括:
若在预先确定的样本概率中未查询到该字符串i对应的概率,将该字符串i对应的概率设置为预设概率,其中,所述预设概率小于或等于所述样本概率中最小的概率。
可选地,所述计算各个字符串的概率之和包括:
针对各个字符串对应的概率取对数;
计算各个字符串对应的概率的对数之和。
根据本说明书实施例的第二方面,提供一种文本识别装置,该装置包括:
文本获取模块,用于获得待识别文本,其中,所述待识别文本包含N个字符,N>1;
字符串提取模块,用于从所述待识别文本中,提取若干个字符串;每个字符串均为在所述待识别文本中连续出现的字符串,所述若干个字符串至少包括:N-k+1个长度为k的字符串,k为预设的提取长度;
概率查询模块,用于针对所述待识别文本中任一个字符串i,在预先确定的样本概率中查询该字符串i对应的概率:在前Li-1个字符出现的条件下,字符串i出现的概率,Li为字符串i的长度,2≤Li≤k;
异常确定模块,用于计算各个字符串对应的概率之和,根据计算结果确定所述待识别文本是否异常。
可选地,所述若干个字符串还包括:
k-2个字符串:第i个字符串由所述待识别文本中的前(i+1)个字符组成。
可选地,所述若干个字符串还包括:
所述待识别文本中第1个字符,其中,所述第一个字符对应的概率为所述第1个字符出现的概率。
可选地,所述样本概率通过以下模块预先确定:
所述装置还包括:
文本采集模块,用于采集多个样本文本;
其中,所述字符串提取模块还用于针对任一个所述样本文本,从所述样本文本中,提取若干个字符串;每个字符串均为在所述样本文本中连续出现的字符串,所述若干个字符串至少包括:N-k+1个长度为k的字符串;
所述概率查询模块还用于针对所述样本文本中任一个字符串j,计算该字符串j对应的样本概率:在前Lj-1个字符出现的条件下,字符串j出现的概率,Lj为字符串j的长度,2≤Lj≤k。
可选地,所述异常确定模块包括:
商计算子模块,用于计算所述概率之和与所述概率之和对应字符串的个数的商;
数值比较子模块,用于比较所述商与预设数值,若所述商小于所述预设数值,确定所述待识别文本异常。
可选地,所述预设数值通过以下方式模块确定:
所述商计算子模块用于计算各个字符串的样本概率之和与所述样本概率之和对应字符串的个数的商;
所述装置还包括:
商排序模块,用于对所述多个样本文本对应的商从大到小排序;
分为点取值模块,用于在排序后的商中取预设分位点的商作为所述预设数值。
可选地,所述装置还包括:
概率设置模块,用于在预先确定的样本概率中未查询到该字符串i对应的概率的情况下,将该字符串i对应的概率设置为预设概率,其中,所述预设概率小于或等于所述样本概率中最小的概率。
可选地,所述异常确定模块包括:
对数计算子模块,用于针对各个字符串对应的概率取对数;
对数加和子模块,用于计算各个字符串对应的概率的对数之和。
根据本说明书实施例的第三方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如上述任一实施例所述的方法。
根据本说明书实施例所提供的技术方案,针对待识别文本中的字符串,可以计算各个字符串的概率之和,并根据计算结果确定所述待识别文本是否异常。概率之和较大,说明待识别文本中较多的字符串之间存在关联关系,那么待识别文本属于正常文本的概率越大;相应地,概率之和较小,说明待识别文本中较少的字符串之间存在关联关系,那么待识别文本属于异常文本的概率越大。据此,根据概率之和识别待识别文本是否异常,相对于人工识别的方式,可以高效且准确地甄别异常文本,以免不法分子通过异常文本实现不法目的。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书实施例。
此外,本说明书实施例中的任一实施例并不需要达到上述的全部效果。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是根据本说明书的实施例示出的一种文本识别方法的示意流程图;
图2是根据本说明书的实施例示出的一种预先样本概率的示意流程图;
图3是根据本说明书的实施例示出的一种根据计算结果确定所述待识别文本是否异常的示意流程图;
图4是根据本说明书的实施例示出的一种预先确定预设数值的示意流程图;
图5是根据本说明书的实施例示出的另一种文本识别方法的示意流程图;
图6是根据本说明书的实施例示出的一种计算各个字符串的概率之和的示意流程图;
图7是根据本说明书的实施例示出的一种文本识别装置的示意框图;
图8是根据本说明书的实施例示出的另一种文本识别装置的示意框图;
图9是根据本说明书的实施例示出的一种异常确定模块的示意框图;
图10是根据本说明书的实施例示出的又一种文本识别装置的示意框图;
图11是根据本说明书的实施例示出的又一种文本识别装置的示意框图;
图12是根据本说明书的实施例示出的另一种异常确定模块的示意框图;
图13示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图。
具体实施方式
为了使本领域技术人员更好地理解本说明书实施例中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行详细地描述,显然,所描述的实施例仅仅是本说明书的一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于保护的范围。
在相关技术中,主要通过人工识别计算机随机生成的文本,这种识别方式不仅效率低,而且需要人工分析大量字符的组合,识别出错的概率很高。其中,计算机随机生成的文本可以简称为机器文本,本说明书实施例为了区分,将这种计算机随机生成的文本称为异常文本,将不是计算机随机生成的文本称为正常文本。
图1是根据本说明书的实施例示出的一种文本识别方法的示意流程图。针对上述问题,本说明书实施例提供一种文本识别方法,参见图1所示,该方法可以包括以下步骤:
步骤S1,获得待识别文本,其中,所述待识别文本包含N个字符,N>1;
步骤S2,从所述待识别文本中,提取若干个字符串;每个字符串均为在所述待识别文本中连续出现的字符串,所述若干个字符串至少包括:N-k+1个长度为k的字符串,k为预设的提取长度(也即包含字符的数目);k可以根据需要确定,一般情况下可以设置3或4。
步骤S3,针对所述待识别文本中任一个字符串i,在预先确定的样本概率中查询该字符串i对应的概率:在前Li-1个字符出现的条件下,字符串i出现的概率,Li为字符串i的长度,2≤Li≤k;
步骤S4,计算各个字符串对应的概率之和,根据计算结果确定所述待识别文本是否异常。
在一个实施例中,异常文本包括计算机生成的文本、人工随机按键输入的文本等,这种文本往往是随机生成的,字符的排列没有规律,字符之间没有特定的关系。正常文本是指人工按照一定规律输入的文本。
以邮箱为例,正常文本一般会采用姓名全拼、手机号等字符,例如zhangsan、13412345678等,而异常文本则会采用随机的字符,例如stdklajg。
而正常文本中的字符串由于是人工按照一定规律输入的,对于文本中的某个字符串而言,该字符串和字符串中连续的字符是存在关系的,由于人们正常说话时是按照从前向后的顺序说的,正常文本一般也是按照从前向后的顺序生成的,所以字符串和字符串中连续的字符的关系主要体现在该字符串和比该字符串少一个末字符的字符串之间。
例如对于文本zhangsan中长度k=4个字符的字符串zhan,由于这个字符串是人工按照一定规律输入的,仔细观察可以发现该邮箱可能是人名“张三”的拼音,字符串zhan和这个字符串的前3个字符zha之间的关系可能是姓名对应的声母和韵母中的部分连续字符,并且这种关联关系并不限于该文本中,在其他正常文本中也可能存在这种关联关系,所以对于字符串zhan而言,在前Li-1个字符zha出现的条件下,字符串zhan的概率较大。
异常文本中的字符串由于是随机生成的,文本中字符串包含的字符是随机的,例如在stdklajg中提取长度k=4个字符的字符串stdk,由于这个字符串是随机生成的,字符串stdk和这个字符串的前3个字符std之间并没有关系,因此在其他异常文本中同时出现的概率很小,在正常文本中同时出现的概率也很小,也即对于字符串stdk而言,在前Li-1个字符std出现的条件下,字符串stdk出现的概率较小。
根据上述分析可知,对于正常文本中的字符串i而言,由于字符串i和字符串i的前Li-1个字符存在关系,在前Li-1个字符出现的条件下,字符串i出现的概率较大,对于异常文本中的字符串i而言,由于字符串i和字符串i的前Li-1个字符并没有关系,在前Li-1个字符出现的条件下,字符串i出现的概率较小。
在一个实施例中,对于待识别文本S=w1w2…wN而言,其中w1至wN表示第1个字符到第N个字符,那么在提取长度为k的字符串的情况下,基于待识别文本中至少所有长度为k的字符串对应的概率,可以相对准确地确定待识别文本是否为异常文本。其中,在待识别文本S中,共包括N-k+1个长度为k的字符串:w1w2…wk,w2w3…wk+1,…,wn-k+1wn-k+2…wn-1。在这种情况下,各个字符串对应的概率之和P(S)=P(w1w2…wk|w1w2…wk-1)+P(w2w3…wk+1|w2w3…wk)+…+P(wn-k+1wn-k+2…wn|wn-k+1wn-k+2…wn-1)。
在一个实施例中,在获得待识别文本之前,可以预先计算样本概率,样本概率用于表示对于字符串j而言,在前Lj-1个字符出现的条件下,字符串j出现的概率,Lj为字符串i的长度,2≤Lj≤k。字符串i可以包含于字符串j,也即字符串j对应的概率可以包括上述概率之和P(S)对应的N-k+1项概率,对于包含于字符串j的字符串i,可以在预先确定的样本概率中查询到字符串i对应的概率。
根据本说明书实施例,针对待识别文本中的字符串,可以计算各个字符串的概率之和,并根据计算结果确定所述待识别文本是否异常。概率之和较大,说明待识别文本中较多的字符串之间存在关联关系,那么待识别文本属于正常文本的概率越大;相应地,概率之和较小,说明待识别文本中较少的字符串之间存在关联关系,那么待识别文本属于异常文本的概率越大。据此,根据概率之和识别待识别文本是否异常,相对于人工识别的方式,可以高效且准确地甄别异常文本,以免不法分子通过异常文本实现不法目的。
可选地,所述若干个字符串还包括:
k-2个字符串:第i个字符串由所述待识别文本中的前(i+1)个字符组成。例如所述待识别文本中前2个字符,所述待识别文本中前3个字符,…,所述待识别文本中前k-1个字符。
在一个实施例中,由于字符串和字符串中连续的字符的关系主要体现在该字符串和比该字符串少一个末字符的字符串之间,而除了长度为k的字符串,在待识别文本中,从首字符开始的长度小于k的字符串对应的概率,也能较大程度上体现待识别文本是否为异常文本,因此,在待识别文本中提取的字符串除了N-k+1个长度为k的字符串,还可以包括k-2个字符串:所述待识别文本中前2个字符,所述待识别文本中前3个字符,…,所述待识别文本中前k-1个字符。例如对于待识别文本S=w1w2…wN而言,k-2个字符串包括w1w2,w1w2w3,…,w1w2…wk-1,据此,可以在待识别文本中提取出更多能够体现待识别文本是否为异常文本的字符串,便于提高确定待识别文本是否为异常文本的准确率。
可选地,所述若干个字符串还包括:
所述待识别文本中第1个字符,其中,所述第一个字符对应的概率为所述第1个字符出现的概率。
在一个实施例中,待识别文本中第1个字符出现的概率,也能够在较大程度上体现待识别文本是否为异常文本,例如越生僻的字符出现的概率越低,相应地,以生僻的字符作为第1个字符的待识别文本属于正常文本的概率也较低。据此,可以在待识别文本中提取出更多能够体现待识别文本是否为异常文本的字符串,便于提高确定待识别文本是否为异常文本的准确率。
图2是根据本说明书的实施例示出的一种预先样本概率的示意流程图。如图2所示,在图1所示实施例的基础上,所述样本概率可以通过以下方式预先确定:
步骤S5,采集多个样本文本;其中,样本文本可以是在实际网络中随机选取的文本,可以包括正常文本也可以异常文本。
步骤S6,针对任一个所述样本文本,从所述样本文本中,提取若干个字符串;每个字符串均为在所述样本文本中连续出现的字符串,所述若干个字符串至少包括:N-k+1个长度为k的字符串;
步骤S7,针对所述样本文本中任一个字符串j,计算该字符串j对应的样本概率:在前Lj-1个字符出现的条件下,字符串j出现的概率,Lj为字符串j的长度,2≤Lj≤k。
在一个实施例中,在获得待识别文本之前,可以采集多个样本文本,基于采集的多个样本文本,可以计算样本概率,样本概率用于表示对于字符串j而言,在前Lj-1个字符出现的条件下,字符串j出现的概率,Lj为字符串i的长度,2≤Lj≤k,例如在采集多个个样本文本中,500个文本中存在某个字符串j,在其中1000个文本中存在字符串j的前Lj-1个字符,那么对于字符串j而言,在前Lj-1个字符出现的条件下,字符串j出现的概率为50%。
字符串i可以包含于字符串j,也即字符串j对应的概率可以包括上述概率之和P(S)对应的N-k+1项概率,对于包含于字符串j的字符串i,可以在预先确定的样本概率中查询到字符串i对应的概率。
图3是根据本说明书的实施例示出的一种根据计算结果确定所述待识别文本是否异常的示意流程图。如图3所示,所述根据计算结果确定所述待识别文本是否异常包括:
步骤S401,计算所述概率之和与所述概率之和对应字符串的个数的商;
步骤S402,比较所述商与预设数值,若所述商小于所述预设数值,确定所述待识别文本异常。
在一个实施例中,由于所计算各个字符串对应的概率之和至少包括N-k+1个字符串对应的概率之和,基于N和k的不同,概率之和变化的范围较大,若通过直接比较概率之和与预设数值的大小,来确定待识别文本是否异常,难以合理地设置预设数值。而通过计算该概率之和与所述概率之和对应字符串的个数的商,然后比较所述商与预设数值,无论N和k如何变化,都能够通过将概率之和除以字符串的个数来一定程度上抵消N和k的变化,使得商保持在1以下变化,据此可以方便地设置预设数值与所述商进行比较来确定待识别文本是否异常。
图4是根据本说明书的实施例示出的一种预先确定预设数值的示意流程图。如图4所示,所述预设数值通过以下方式预先确定:
步骤S7,计算各个字符串的样本概率之和与所述样本概率之和对应字符串的个数的商;
步骤S8,对所述多个样本文本对应的商从大到小排序;
步骤S9,在排序后的商中取预设分位点的商作为所述预设数值。
在一个实施例中,对于多个样本文本中的每个样本文本,可以分别计算各个字符串的样本概率之和与所述样本概率之和对应字符串的个数的商,从而得到多个样本文本对应的多个商,由于在样本文本中也可能存在异常文本,也可能存在正常文本,因此所以得到的多个商可以是不同的,每个商可以体现对应字符串为正常文本的概率。
对于多个样本文本对应的商可以从大到小排序,对于排序后的商中可以取预设分位点的商作为所述预设数值,其中,预设分为点可以根据需要进行设置,例如可以取98%分位点对应的上作为所述预设数值。
图5是根据本说明书的实施例示出的另一种文本识别方法的示意流程图。如图5所示,所述文本识别方法还包括:
步骤S10,若在预先确定的样本概率中未查询到该字符串i对应的概率,将该字符串i对应的概率设置为预设概率,其中,所述预设概率小于或等于所述样本概率中最小的概率。
在一个实施例中,在某些情况下,针对待识别文本中的某个字符串而言,在样本概率对应的字符串中并不存在该个字符串,那么针对该个不存在的字符串,在预先确定的样本概率中就查询不到对应的概率,从而导致无法计算出概率之和。
为了克服上述问题,可以设置一个预设概率来表示该不存在的字符串对应的概率,而待识别文本中有越多个字符串在预先确定的样本概率中查询不到对应的概率,说明待识别文本中存在关联关系的字符就越少,各个字符串对应的概率之和应该较小,所以可以将预设概率设置的小于或等于所述样本概率中最小的概率,例如可以设置为0,也可以设置为等于样本概率中最小的概率。据此,针对待识别文本中的每个字符串,都可以计算对应的概率,从而可以计算查询到的样本概率和设置的预设概率的概率之和。
图6是根据本说明书的实施例示出的一种计算各个字符串的概率之和的示意流程图。如图6所示,所述计算各个字符串的概率之和包括:
步骤S403,针对各个字符串对应的概率取对数;
步骤S404,计算各个字符串对应的概率的对数之和。
在一个实施例中,在前Li-1个字符出现的条件下,字符串i出现的概率,实质上是一个后验概率,例如以P(B)表示前Li-1个字符出现的概率,以P(A)表示字符串i出现的概率,那么在前Li-1个字符出现的条件下,字符串i出现的概率概率就是P(A|B),基于贝叶斯公式,P(A|B)=P(B|A)*P(A)/P(B),其中,P(B|A)表示在字符串i出现的条件下,前Li-1个字符出现的概率,而字符串i包含前Li-1个字符,在字符串i出现的条件下,前Li-1个字符必然出现,因此P(B|A)=1,所以P(A|B)=P(A)/P(B)。
因此,针对每个字符串,计算对应的概率P(A|B),并将计算得到的概率加和即可得到概率之和。然而P(A|B)=P(A)/P(B)涉及除法,除法对于计算机而言运算起来较为复杂。基于本实施例,可以根据样本概率的对数之和确定所述识别模型,也即对每个样本概率取对数,并将计算所得的对数加和,其中,所取的对数的底可以根据需要设置,以底为10的对数为例,对P(A|B)取对数得到的是P(A)-P(B),也即将除法转换为减法,据此计算,有利于简化计算机的运算量。
与前述文本识别方法的实施例相对应地,本说明书还提出了有关文本识别装置的实施例。
图7是根据本说明书的实施例示出的一种文本识别装置的示意框图。如图7所示,所述装置包括:
文本获取模块1,用于获得待识别文本,其中,所述待识别文本包含N个字符,N>1;
字符串提取模块2,用于从所述待识别文本中,提取若干个字符串;每个字符串均为在所述待识别文本中连续出现的字符串,所述若干个字符串至少包括:N-k+1个长度为k的字符串,k为预设的提取长度;
概率查询模块3,用于针对所述待识别文本中任一个字符串i,在预先确定的样本概率中查询该字符串i对应的概率:在前Li-1个字符出现的条件下,字符串i出现的概率,Li为字符串i的长度,2≤Li≤k;
异常确定模块4,用于计算各个字符串对应的概率之和,根据计算结果确定所述待识别文本是否异常。
可选地,所述若干个字符串还包括:
k-2个字符串:第i个字符串由所述待识别文本中的前(i+1)个字符组成。
可选地,所述若干个字符串还包括:
所述待识别文本中第1个字符,其中,所述第一个字符对应的概率为所述第1个字符出现的概率。
图8是根据本说明书的实施例示出的另一种文本识别装置的示意框图。如图8所示,所述样本概率通过以下模块预先确定:
所述装置还包括:
文本采集模块5,用于采集多个样本文本;
其中,所述字符串提取模块2还用于针对任一个所述样本文本,从所述样本文本中,提取若干个字符串;每个字符串均为在所述样本文本中连续出现的字符串,所述若干个字符串至少包括:N-k+1个长度为k的字符串;
所述概率查询模块3还用于针对所述样本文本中任一个字符串j,计算该字符串j对应的样本概率:在前Lj-1个字符出现的条件下,字符串j出现的概率,Lj为字符串j的长度,2≤Lj≤k。
图9是根据本说明书的实施例示出的一种异常确定模块的示意框图。如图9所示,所述异常确定模块4包括:
商计算子模块401,用于计算所述概率之和与所述概率之和对应字符串的个数的商;
数值比较子模块402,用于比较所述商与预设数值,若所述商小于所述预设数值,确定所述待识别文本异常。
图10是根据本说明书的实施例示出的又一种文本识别装置的示意框图。如图10所示,所述预设数值通过以下方式模块确定:
所述商计算子模块401用于计算各个字符串的样本概率之和与所述样本概率之和对应字符串的个数的商;
所述装置还包括:
商排序模块6,用于对所述多个样本文本对应的商从大到小排序;
分为点取值模块7,用于在排序后的商中取预设分位点的商作为所述预设数值。
图11是根据本说明书的实施例示出的又一种文本识别装置的示意框图。如图11所示,所述装置还包括:
概率设置模块8,用于在预先确定的样本概率中未查询到该字符串i对应的概率的情况下,将该字符串i对应的概率设置为预设概率,其中,所述预设概率小于或等于所述样本概率中最小的概率。
图12是根据本说明书的实施例示出的另一种异常确定模块的示意框图。如图12所示,所述异常确定模块4包括:
对数计算子模块403,用于针对各个字符串对应的概率取对数;
对数加和子模块404,用于计算各个字符串对应的概率的对数之和。
上述装置中各个模块的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
本说明书实施例还提供一种计算机设备,其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现前述的文本识别方法。该方法至少包括以下步骤:
获得待识别文本,其中,所述待识别文本包含N个字符,N>1;
从所述待识别文本中,提取若干个字符串;每个字符串均为在所述待识别文本中连续出现的字符串,所述若干个字符串至少包括:N-k+1个长度为k的字符串,k为预设的提取长度;
针对所述待识别文本中任一个字符串i,在预先确定的样本概率中查询该字符串i对应的概率:在前Li-1个字符出现的条件下,字符串i出现的概率,Li为字符串i的长度,2≤Li≤k;
计算各个字符串对应的概率之和,根据计算结果确定所述待识别文本是否异常。
图13示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图,该设备可以包括:处理器1310、存储器1320、输入/输出接口1330、通信接口1340和总线1350。其中处理器1310、存储器1320、输入/输出接口1330和通信接口1340通过总线1350实现彼此之间在设备内部的通信连接。
处理器1310可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1320可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1320可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1320中,并由处理器1310来调用执行。
输入/输出接口1330用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1340用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1350包括一通路,在设备的各个组件(例如处理器1310、存储器1320、输入/输出接口1330和通信接口1340)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1310、存储器1320、输入/输出接口1330、通信接口1340以及总线1350,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前述的文本识别方法。该方法至少包括以下步骤:
获得待识别文本,其中,所述待识别文本包含N个字符,N>1;
从所述待识别文本中,提取若干个字符串;每个字符串均为在所述待识别文本中连续出现的字符串,所述若干个字符串至少包括:N-k+1个长度为k的字符串,k为预设的提取长度;
针对所述待识别文本中任一个字符串i,在预先确定的样本概率中查询该字符串i对应的概率:在前Li-1个字符出现的条件下,字符串i出现的概率,Li为字符串i的长度,2≤Li≤k;
计算各个字符串对应的概率之和,根据计算结果确定所述待识别文本是否异常。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
通过以上的实施方式的描述可知,针对待识别文本中的字符串,可以计算各个字符串的概率之和,并根据计算结果确定所述待识别文本是否异常。概率之和较大,说明待识别文本中较多的字符串之间存在关联关系,那么待识别文本属于正常文本的概率越大;相应地,概率之和较小,说明待识别文本中较少的字符串之间存在关联关系,那么待识别文本属于异常文本的概率越大。据此,根据概率之和识别待识别文本是否异常,相对于人工识别的方式,可以高效且准确地甄别异常文本,以免不法分子通过异常文本实现不法目的。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本说明书实施例的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本说明书实施例原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本说明书实施例的保护范围。

Claims (17)

1.一种文本识别方法,该方法包括:
获得待识别文本,其中,所述待识别文本包含N个字符,N>1;
从所述待识别文本中,提取若干个字符串;每个字符串均为在所述待识别文本中连续出现的字符串,所述若干个字符串至少包括:N-k+1个长度为k的字符串,k为预设的提取长度;
针对所述待识别文本中任一个字符串i,在预先确定的样本概率中查询该字符串i对应的概率:在前Li-1个字符出现的条件下,字符串i出现的概率,Li为字符串i的长度,2≤Li≤k;
计算各个字符串对应的概率之和,根据计算结果确定所述待识别文本是否异常。
2.根据权利要求1所述的方法,所述若干个字符串还包括:
k-2个字符串:第i个字符串由所述待识别文本中的前(i+1)个字符组成。
3.根据权利要求2的所述的方法,所述若干个字符串还包括:
所述待识别文本中第1个字符,其中,所述第一个字符对应的概率为所述第1个字符出现的概率。
4.根据权利要求1所述的方法,所述样本概率通过以下方式预先确定:
采集多个样本文本;
针对任一个所述样本文本,从所述样本文本中,提取若干个字符串;每个字符串均为在所述样本文本中连续出现的字符串,所述若干个字符串至少包括:N-k+1个长度为k的字符串;
针对所述样本文本中任一个字符串j,计算该字符串j对应的样本概率:在前Lj-1个字符出现的条件下,字符串j出现的概率,Lj为字符串j的长度,2≤Lj≤k。
5.根据权利要求4所述的方法,所述根据计算结果确定所述待识别文本是否异常包括:
计算所述概率之和与所述概率之和对应字符串的个数的商;
比较所述商与预设数值,若所述商小于所述预设数值,确定所述待识别文本异常。
6.根据权利要求5所述的方法,所述预设数值通过以下方式预先确定:
计算各个字符串的样本概率之和与所述样本概率之和对应字符串的个数的商;
对所述多个样本文本对应的商从大到小排序;
在排序后的商中取预设分位点的商作为所述预设数值。
7.根据权利要求1至6中任一项所述的方法,所述方法还包括:
若在预先确定的样本概率中未查询到该字符串i对应的概率,将该字符串i对应的概率设置为预设概率,其中,所述预设概率小于或等于所述样本概率中最小的概率。
8.根据权利要求1至6中任一项所述的方法,所述计算各个字符串的概率之和包括:
针对各个字符串对应的概率取对数;
计算各个字符串对应的概率的对数之和。
9.一种文本识别装置,该装置包括:
文本获取模块,用于获得待识别文本,其中,所述待识别文本包含N个字符,N>1;
字符串提取模块,用于从所述待识别文本中,提取若干个字符串;每个字符串均为在所述待识别文本中连续出现的字符串,所述若干个字符串至少包括:N-k+1个长度为k的字符串,k为预设的提取长度;
概率查询模块,用于针对所述待识别文本中任一个字符串i,在预先确定的样本概率中查询该字符串i对应的概率:在前Li-1个字符出现的条件下,字符串i出现的概率,Li为字符串i的长度,2≤Li≤k;
异常确定模块,用于计算各个字符串对应的概率之和,根据计算结果确定所述待识别文本是否异常。
10.根据权利要求9所述的装置,所述若干个字符串还包括:
k-2个字符串:第i个字符串由所述待识别文本中的前(i+1)个字符组成。
11.根据权利要求10的所述的装置,所述若干个字符串还包括:
所述待识别文本中第1个字符,其中,所述第一个字符对应的概率为所述第1个字符出现的概率。
12.根据权利要求9所述的装置,所述样本概率通过以下模块预先确定:
所述装置还包括:
文本采集模块,用于采集多个样本文本;
其中,所述字符串提取模块还用于针对任一个所述样本文本,从所述样本文本中,提取若干个字符串;每个字符串均为在所述样本文本中连续出现的字符串,所述若干个字符串至少包括:N-k+1个长度为k的字符串;
所述概率查询模块还用于针对所述样本文本中任一个字符串j,计算该字符串j对应的样本概率:在前Lj-1个字符出现的条件下,字符串j出现的概率,Lj为字符串j的长度,2≤Lj≤k。
13.根据权利要求12所述的装置,所述异常确定模块包括:
商计算子模块,用于计算所述概率之和与所述概率之和对应字符串的个数的商;
数值比较子模块,用于比较所述商与预设数值,若所述商小于所述预设数值,确定所述待识别文本异常。
14.根据权利要求13所述的装置,所述预设数值通过以下方式模块确定:
所述商计算子模块用于计算各个字符串的样本概率之和与所述样本概率之和对应字符串的个数的商;
所述装置还包括:
商排序模块,用于对所述多个样本文本对应的商从大到小排序;
分为点取值模块,用于在排序后的商中取预设分位点的商作为所述预设数值。
15.根据权利要求9至14中任一项所述的装置,所述装置还包括:
概率设置模块,用于在预先确定的样本概率中未查询到该字符串i对应的概率的情况下,将该字符串i对应的概率设置为预设概率,其中,所述预设概率小于或等于所述样本概率中最小的概率。
16.根据权利要求9至14中任一项所述的装置,所述异常确定模块包括:
对数计算子模块,用于针对各个字符串对应的概率取对数;
对数加和子模块,用于计算各个字符串对应的概率的对数之和。
17.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现如权利要求1至8任一项所述的方法。
CN201811011026.0A 2018-08-31 2018-08-31 文本识别方法、装置、及计算机设备 Pending CN109344396A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811011026.0A CN109344396A (zh) 2018-08-31 2018-08-31 文本识别方法、装置、及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811011026.0A CN109344396A (zh) 2018-08-31 2018-08-31 文本识别方法、装置、及计算机设备

Publications (1)

Publication Number Publication Date
CN109344396A true CN109344396A (zh) 2019-02-15

Family

ID=65292117

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811011026.0A Pending CN109344396A (zh) 2018-08-31 2018-08-31 文本识别方法、装置、及计算机设备

Country Status (1)

Country Link
CN (1) CN109344396A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353301A (zh) * 2020-02-24 2020-06-30 成都网安科技发展有限公司 辅助定密方法及装置
CN112215216A (zh) * 2020-09-10 2021-01-12 中国东方电气集团有限公司 一种图像识别结果的字符串模糊匹配系统及方法
CN112766236A (zh) * 2021-03-10 2021-05-07 拉扎斯网络科技(上海)有限公司 文本生成方法、装置、计算机设备及计算机可读存储介质
CN113420549A (zh) * 2021-07-02 2021-09-21 珠海金山网络游戏科技有限公司 异常字符串识别方法及装置
CN115048925A (zh) * 2022-08-15 2022-09-13 中科雨辰科技有限公司 一种确定异常文本的数据处理系统
CN116737871A (zh) * 2022-09-20 2023-09-12 荣耀终端有限公司 一种字符串的识别方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105589845A (zh) * 2015-12-18 2016-05-18 北京奇虎科技有限公司 垃圾文本识别方法、装置及系统
CN106599900A (zh) * 2015-10-20 2017-04-26 华中科技大学 一种识别图像中的字符串的方法和装置
CN107679401A (zh) * 2017-09-04 2018-02-09 北京知道未来信息技术有限公司 一种恶意网页识别方法和装置
CN108288078A (zh) * 2017-12-07 2018-07-17 腾讯科技(深圳)有限公司 一种图像中字符识别方法、装置和介质
US20180217979A1 (en) * 2016-02-18 2018-08-02 Tencent Technology (Shenzhen) Company Limited Text information processing method and apparatus

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599900A (zh) * 2015-10-20 2017-04-26 华中科技大学 一种识别图像中的字符串的方法和装置
CN105589845A (zh) * 2015-12-18 2016-05-18 北京奇虎科技有限公司 垃圾文本识别方法、装置及系统
US20180217979A1 (en) * 2016-02-18 2018-08-02 Tencent Technology (Shenzhen) Company Limited Text information processing method and apparatus
CN107679401A (zh) * 2017-09-04 2018-02-09 北京知道未来信息技术有限公司 一种恶意网页识别方法和装置
CN108288078A (zh) * 2017-12-07 2018-07-17 腾讯科技(深圳)有限公司 一种图像中字符识别方法、装置和介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353301A (zh) * 2020-02-24 2020-06-30 成都网安科技发展有限公司 辅助定密方法及装置
CN112215216A (zh) * 2020-09-10 2021-01-12 中国东方电气集团有限公司 一种图像识别结果的字符串模糊匹配系统及方法
CN112766236A (zh) * 2021-03-10 2021-05-07 拉扎斯网络科技(上海)有限公司 文本生成方法、装置、计算机设备及计算机可读存储介质
CN112766236B (zh) * 2021-03-10 2023-04-07 拉扎斯网络科技(上海)有限公司 文本生成方法、装置、计算机设备及计算机可读存储介质
CN113420549A (zh) * 2021-07-02 2021-09-21 珠海金山网络游戏科技有限公司 异常字符串识别方法及装置
CN113420549B (zh) * 2021-07-02 2023-06-13 珠海金山数字网络科技有限公司 异常字符串识别方法及装置
CN115048925A (zh) * 2022-08-15 2022-09-13 中科雨辰科技有限公司 一种确定异常文本的数据处理系统
CN116737871A (zh) * 2022-09-20 2023-09-12 荣耀终端有限公司 一种字符串的识别方法及系统
CN116737871B (zh) * 2022-09-20 2024-05-07 荣耀终端有限公司 一种字符串的识别方法及系统

Similar Documents

Publication Publication Date Title
CN109344396A (zh) 文本识别方法、装置、及计算机设备
EP3816812A1 (en) Question answering method and language model training method, apparatus, device, and storgage medium
WO2017215370A1 (zh) 构建决策模型的方法、装置、计算机设备及存储设备
US10803241B2 (en) System and method for text normalization in noisy channels
CN111143597B (zh) 图像检索方法、终端及存储装置
US9697819B2 (en) Method for building a speech feature library, and method, apparatus, device, and computer readable storage media for speech synthesis
CN107402945A (zh) 词库生成方法及装置、短文本检测方法及装置
US10318631B2 (en) Removable spell checker device
CN113033346A (zh) 文本检测方法、装置和电子设备
CN107729491B (zh) 提高题目答案搜索的准确率的方法、装置及设备
CN111062490B (zh) 一种包含隐私数据的网络数据的处理、识别方法及装置
CN110738056A (zh) 用于生成信息的方法和装置
CN110232156B (zh) 基于长文本的信息推荐方法及装置
CN109033224B (zh) 一种风险文本识别方法和装置
CN112784102B (zh) 视频检索方法、装置和电子设备
CN111179904B (zh) 混合文语转换方法及装置、终端和计算机可读存储介质
CN112148841A (zh) 一种对象分类以及分类模型构建方法和装置
CN111339776B (zh) 简历解析方法、装置、电子设备和计算机可读存储介质
CN112069797B (zh) 一种基于语义的语音质检方法和装置
CN103616962A (zh) 一种信息处理方法和装置
CN112817996A (zh) 一种违法关键词库的更新方法、装置、设备及存储介质
CN111382322B (zh) 字符串相似度的确定方法和装置
CN112309385A (zh) 一种语音识别方法、装置、电子设备及介质
CN111625636A (zh) 一种人机对话的拒绝识别方法、装置、设备、介质
JP2014038392A (ja) スパムアカウントスコア算出装置、スパムアカウントスコア算出方法、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190215