CN113837118B - 文本变异关系的获取方法和装置 - Google Patents

文本变异关系的获取方法和装置 Download PDF

Info

Publication number
CN113837118B
CN113837118B CN202111141052.7A CN202111141052A CN113837118B CN 113837118 B CN113837118 B CN 113837118B CN 202111141052 A CN202111141052 A CN 202111141052A CN 113837118 B CN113837118 B CN 113837118B
Authority
CN
China
Prior art keywords
text
character
image
characters
variant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111141052.7A
Other languages
English (en)
Other versions
CN113837118A (zh
Inventor
张睿
赵智源
祝慧佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202111141052.7A priority Critical patent/CN113837118B/zh
Publication of CN113837118A publication Critical patent/CN113837118A/zh
Application granted granted Critical
Publication of CN113837118B publication Critical patent/CN113837118B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06T3/18
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/40Scaling the whole image or part thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformation in the plane of the image
    • G06T3/60Rotation of a whole image or part thereof
    • G06T5/70

Abstract

本说明书实施例提供了一种文本变异关系的获取方法及装置以及真实文本的获取方法及装置。首先,得到变异文本字符;将该变异文本字符转换为第一图像;对转换出的第一图像进行图像变换处理,得到第二图像;对变换处理后得到的第二图像进行OCR识别,得到第二图像对应的OCR识别字符;将所述变异文本字符与所述第二图像对应的OCR识别字符的映射关系作为文本变异关系;根据文本变异关系得到待识别的第一文本字符串对应的第二文本字符串,根据第二文本字符串得到真实文本。本说明书实施例能够更为全面地得到文本变异关系并得到具有更加真实语义的真实文本。

Description

文本变异关系的获取方法和装置
技术领域
本说明书一个或多个实施例涉及网络通信技术,尤其涉及文本变异关系的获取方法和装置、真实文本的获取方法和装置。
背景技术
随着网络通信技术的日益发展,在很多业务场景中,会在网络中传输变异文本。比如在内容安全风险防控体系中,一些使用者为了突破防控体系,会尝试对文本进行各种形式的变异,如将文本中的一个原始字符变异为两个字符,从而让内容安全检查系统无法识别出文本的真实含义,躲避内容安全检查。
目前,通常是人为预先设定文本变异关系,即各原始字符与变异文本字符的映射关系。之后,当需要识别一个文本的真实语义时,可以根据该人为设定的文本变异关系识别出该文本中所包括的变异文本字符并还原成原始字符,得到具有真实语义的真实文本。但是人为设定文本变异关系的方式,使得获取到的文本变异关系不够全面,从而也导致获取的真实文本往往不具有真实语义。
发明内容
本说明书一个或多个实施例描述了文本变异关系的获取方法和装置、真实文本的获取方法和装置,能够更为全面地得到文本变异关系,并得到具有更加真实的语义的真实文本。
根据第一方面,提供了一种文本变异关系的获取方法,包括:
得到变异文本字符;
将该变异文本字符转换为第一图像;
对转换出的第一图像进行图像变换处理,得到第二图像;
对变换处理后得到的第二图像进行OCR识别,得到第二图像对应的OCR识别字符;
将所述变异文本字符与所述第二图像对应的OCR识别字符的映射关系作为文本变异关系。
所述得到变异文本字符包括:根据已有经验得到之前已经确定的变异文本字符;
和/或,
所述得到变异文本字符包括:
从网络中得到样本数据;
从样本数据中选取符合如下字符特点的字符,作为变异文本字符:
不属于汉语字符、英语字符或数字字符的单字符;和/或,在对所述样本数据进行分词后,在所述样本数据中无法成词的连续字符。
其中,所述从网络中得到样本数据包括:从各种UGC(User Generated Content)数据中提取出样本数据。
其中,所述对转换出的第一图像进行图像变换处理包括:对转换出的第一图像进行至少两种图像变换处理,得到至少两个第二图像;
则对至少两个第二图像分别进行OCR识别,得到至少两个第二图像对应的至少一个OCR识别字符;
则保存所述变异文本字符与所述至少一个OCR识别字符的映射关系。
进一步包括:
对所述第一图像进行OCR识别,得到第一图像对应的OCR识别字符;
将所述变异文本字符与所述第一图像对应的OCR识别字符的映射关系作为文本变异关系。
根据第二方面,提供了真实文本的获取方法,包括:
接收待识别的第一文本字符串;
对于待识别的第一文本字符串中的每一个字符,均执行:
在文本变异关系中查找当前字符;如果不能查找到,则在所述第一文本字符串中保留该当前字符;如果能查找到,则从文本变异关系中获取与当前字符对应的OCR识别字符,并用该OCR识别字符替换第一文本字符串中的当前字符;
根据执行完毕后得到的至少一个第二文本字符串,得到具有真实语义的真实文本。
其中,所述根据执行完毕后得到的至少一个第二文本字符串得到具有真实语义的真实文本,包括:
分别计算所述至少一个第二文本字符串的句子概率;
选择句子概率最大的文本字符串作为具有真实语义的真实文本。
其中,所述分别计算所述至少一个第二文本字符串的句子概率的步骤进一步包括:计算所述第一文本字符串的句子概率。
根据第三方面,提供了文本变异关系的获取装置,包括:
变异字符获取模块,配置为得到变异文本字符;
转换模块,配置为将该变异文本字符转换为第一图像;
图像变换模块,配置为对转换出的第一图像进行图像变换处理,得到第二图像;
OCR字符识别模块,配置为对变换处理后得到的第二图像进行OCR识别,得到第二图像对应的OCR识别字符;
映射模块,配置为将所述变异文本字符与所述第二图像对应的OCR识别字符的映射关系作为文本变异关系。
根据第四方面,提供了真实文本的获取装置,包括:
上述的文本变异关系获取装置;
输入模块,配置为接收待识别的第一文本字符串;
变异识别模块,配置为对于待识别的第一文本字符串中的每一个字符,均执行:在文本变异关系获取装置所获取的文本变异关系中查找当前字符;如果不能查找到,则在所述第一文本字符串中保留该当前字符;如果能查找到,则从文本变异关系中获取与当前字符对应的OCR识别字符,并用该OCR识别字符替换第一文本字符串中的当前字符;
真实文本确定模块,配置为根据变异识别模块执行完毕后得到的至少一个第二文本字符串,得到具有真实语义的真实文本。
根据第五方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现本说明书任一实施例所述的方法。
本说明书实施例提供的文本变异关系获取方法及装置,不是人为设定一个变异文本字符与一个原始字符的映射关系,而是通过对变异文本字符的一系列计算机处理来得到变异文本字符与OCR识别字符的映射关系,其中,OCR识别字符即代表了该变异文本字符所替代的原始字符,因此实现了计算机自动获取文本变异关系,解决了人工获取方式的一系列问题。比如,因为计算机处理时,可以进行海量运算,得到的文本变异关系覆盖范围更大,能够更为全面的得到文本变异关系;再如,通过计算机自动获取,可以实时获取最新的文本变异关系,具有自适应能力,对于涌现的新变种字符的泛化能力强。并且,本说明书实施例提供的真实文本获取方法及装置,基于文本变异关系则能得到具有更加真实的语义的真实文本。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书一个实施例所应用的业务场景的示意图。
图2是本说明书一个实施例中文本变异关系的获取方法的流程图。
图3是本说明书一个实施例中真实文本的获取方法的流程图。
图4是本说明书一个实施例中文本变异关系的获取装置的结构示意图。
图5是本说明书一个实施例中真实文本的获取装置的结构示意图。
具体实施方式
首先说明本说明书中涉及到的名词的概念:
变异文本:在本说明书中,变异文本是指将文本字符串中的至少一个原始字符进行变异(如使用文字的拼音或者对应英文字母等代表该文字)之后,得到的文本。比如原始文本为“微信号:123456”,变异文本为“V:123456”。
原始字符:在本说明书中,原始字符是指文本中被替代的字符,比如上述“微信号”就是原始字符;
变异文本字符:在本说明书中,变异文本字符是指在文本中替代原始字符的字符,比如上述“V”就是变异文本字符。
如前所述,在现有技术中人为设定文本变异关系。比如人为设定出如下变异关系:
1、特殊字符,如:“レ”->“V”,即变异文本字符“レ”对应原始字符“V”;
2、音标字母,如:“”->“n”,即变异文本字符“/>”对应原始字符“n”;
3、文本拆字,如:“力口”->“加”,即变异文本字符“力口”对应原始字符“加”;
4、文本倒置,如:“爿”->“片”,即变异文本字符“爿”对应原始字符为“片”;
5、表情符号,如:“”->“100”,即变异文本字符“”对应原始字符为“100”。
人为设定文本变异关系的方式会产生诸多问题。比如,由于人工穷举能力有限(如只能穷举出包括上述5种变异关系在内的100种变异关系),导致设定出的变异关系覆盖范围小,无法更为全面的得到文本变异关系;再如,人为设定的文本变异关系是固定的,缺乏自适应能力,对于涌现的新变种字符的泛化能力差。
下面结合附图,对本说明书提供的方案进行描述。
为了方便对本说明书的理解,首先对本说明书所应用的业务场景进行描述。如图1中所示,在本说明书提供的方法中,首先不是通过人为方式定义文本变异关系,而是通过系统自动处理的方式自动获取文本变异关系。此后,当需要识别一个文本字符串的真实语义时,在输入端会输入待识别的文本字符串,其中可能包括变异的字符即该待识别文本字符串可能是变异文本,通过本说明书提供的真实文本的获取方法,还原出反映该待识别文本字符串的具有更加真实的语义的真实文本,并在输出端输出该真实文本。
图2示出了本说明书一个实施例中文本变异关系的获取方法的流程图。该方法的执行主体为文本变异关系的获取装置。可以理解,该方法也可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。参见图2,该方法包括:
步骤201:得到变异文本字符;
步骤203:将该变异文本字符转换为第一图像;
步骤205:对转换出的第一图像进行图像变换处理,得到第二图像;
步骤207:对变换处理后得到的第二图像进行OCR识别,得到第二图像对应的OCR识别字符;
步骤209:将所述变异文本字符与所述第二图像对应的OCR识别字符的映射关系作为文本变异关系。
从图2所示的流程可以看出,在本说明书的一个实施例中,不是人为设定一个变异文本字符与一个原始字符的映射关系,而是通过对变异文本字符的一系列计算机处理来得到变异文本字符与OCR识别字符的映射关系,其中,OCR识别字符即代表了该变异文本字符所替代的原始字符,因此实现了计算机自动获取文本变异关系,解决了人工获取方式的一系列问题。比如,因为计算机处理时,可以进行海量运算,得到的文本变异关系覆盖范围更大,能够更为全面的得到文本变异关系;再如,通过计算机自动获取,可以实时获取最新的文本变异关系,具有自适应能力,对于涌现的新变种字符的泛化能力强。
下面则针对图2所示的每一个步骤分别进行说明。
首先在步骤201中得到变异文本字符。
变异文本字符指的是被用于替换原始字符的字符。比如一个平台的用户需要输入“微信号:XXXX”,但是由于平台规则中不允许该用户输入自己的微信号,会进行屏蔽处理,因此,该用户为了规避平台的监控,在输入时使用字母“V”代替“微信号”,那么该字母“V”就是变异文本字符,再如使用拼音“weixin”代替“微信号”,那么该拼音“weixin”就是变异文本字符。
本步骤201有两种实现方式:
方式一、根据已有经验得到之前已经确定的变异文本字符。
比如,根据已有经验已经确定“V”是“微信号”的变异,用于替换“微信号”,因此,本步骤201中,可以直接将字符“V”作为变异文本字符。
方式二、从网络中获取样本数据,通过对样本数据的分析得到变异文本字符。
该方式二因为没有局限于方式一的历史经验,因此,可以实现实时从网络中获取样本数据,从而实时得到最新的变异文本字符,使得后续确定的文本变异关系覆盖范围更全面,依此确定的真实文本也会更准确。
基于上述方式二,在本说明书一个实施例中,本步骤201的具体实现过程可以包括:
步骤2011:从网络中得到样本数据;
步骤2012:从样本数据中选取符合如下至少一种字符特点的字符,作为变异文本字符:
字符特点A、不属于汉语字符、英语字符或数字字符的单字符;
字符特点B、在对所述样本数据进行分词后,在所述样本数据中无法成词的连续字符。
对于上述字符特点A:
为了表达一个具体的文本语义,比如“加我微信:s123456”,通常输入的文本字符串是由汉语字符比如“我”、英语字符比如“s”以及数字字符比如“3”中的一种或多种组成的,通常不会包括其他字符比如“@”。反推可知,为了规避内容检查,用户通常会用不属于汉语字符、不属于英语字符或不属于数字字符的单字符来替换一个原始字符,比如用数学符号“+”替换原始字符“加”,“加我微信:s123456”则被替换成了“+我微信:s123456”因此,本步骤201中,如果样本数据中包括一个字符如字符1,其不属于汉语字符、英语字符或数字字符,那么则可以将该字符1确定为变异文本字符。
对于上述字符特点B:
为了表达一个具体的文本语义,比如“加我微信:s123456”,各个字符通常都可以与前/后字符形成有明确语义的词汇,比如“加我”、“微信”、“s123456”。反推可知,为了规避内容检查,用户使用的变异文本字符通常无法成词,因此,本步骤201中,可以首先对样本数据进行分词,如果样本数据比如“力口我微信:s123456”中存在无法成词的连续字符比如“力口”,那么则可以将该连续字符如“力口”确定为变异文本字符。
在本步骤201中,上述样本数据可以从网络中的各个服务器中获取。考虑到变异文本字符通常都是根据用户意愿生成的,也就是说,变异文本字符会更多地存在于UGC(UserGenerated Content,用户原创内容)数据中。比如在微博等允许用户上传自创作品的平台中,用户上传的UGC数据中经常会包括用户自创的各种变异文本字符。因此,本步骤201中,一种优选的方式是从各种UGC数据中提取出样本数据。
接下来,在步骤203中将变异文本字符转换为第一图像。
用户在对一个原始字符进行变异时,为了既实现变异以便规避内容检查,同时又能让其他用户看懂此种变异,往往会在形态上对原始字符进行变异,比如将文字“片”进行翻转得到“爿”,将文字“加”拆分为两个字“力口”等。因此,本步骤203中,将变异文本字符转换为图像格式,从而方便后续步骤中对图像格式的变异文本字符进行形态上的变异,得到更多的变异方式,符合用户变异的规律,也就是说,使得后续获取到的文本变异关系更为丰富。
接下来在步骤205中,对转换出的第一图像进行图像变换处理,得到第二图像。
不同的用户在对原始字符进行变异时,可能采用的变异方式不同。比如,用户A对一个原始字符变异时,是将该原始字符翻转100度(可以对应图像中的翻转方式),而用户B对一个原始字符变异时,是将该原始字符拆字(可以对应图像中的拉伸方式),因此,为了能够覆盖更多变异的可能性,使得无论用户采用何种变异方式都能确定变异文本字符所对应的原始字符,从而使得文本变异关系的覆盖范围更广,在本步骤205中,可以对第一图像进行至少两种比如10种图像变换处理,得到10个不同的第二图像。
在进行图像变换处理时,所采用的变换手段包括但不限于如下中的至少一项:放大、缩小、拉伸、翻转、增加扰动、去噪、增加不规则图形等。
接下来,在步骤207中,对变换处理后得到的第二图像进行OCR识别,得到第二图像对应的OCR识别字符。
在本说明书的一个实施例中,可以预先基于常规的汉语字符、英语字符、数字字符等,训练一个OCR(Optical Character Recognition,光学字符识别)字符识别模型。在本步骤207中,则可以将各第二图像输入该OCR字符识别模型中,得到该模型针对每一个第二图像所识别出的OCR识别字符,该OCR识别字符体现了每一个第二图像表征的变异文本字符所映射到的原始字符。
可见,在本说明书的实施例中,将OCR技术引入了文本变异的防控流程中,将OCR识别字符作为变异文本字符所替换的原始字符。虽然输入OCR字符识别模型中的图像是变异文本字符的图像,但是通过OCR的强大识别功能,也能大概率地正确识别出该变异文本字符所对应的OCR识别字符即原始字符。
如果在步骤205中,对第一图像进行了多种图像变换处理,比如10种,那么在本步骤207中是将该10种第二图像分别输入OCR字符识别模型中,从而得到了OCR字符识别模型针对该10种第二图像所输出的10个识别结果。无论有多少个第二图像,都是从同一个第一图像变换得到的,因此该10个识别结果对应至少一个OCR识别字符,也就是说,10个识别结果可能相同,为同一个OCR识别字符(即为同一个原始字符),或者,10个识别结果也可能部分相同,为3个OCR识别字符,当然,10个识别结果也可能都不相同,为10个OCR识别字符。因此,无论输入OCR字符识别模型的第二图像的数量有多少,该模型的输出结果都表征至少一个OCR识别字符。
接下来在步骤209中,将变异文本字符与第二图像对应的OCR识别字符的映射关系作为文本变异关系。
这里是将步骤201中得到的变异文本字符与步骤208中得到的至少一个OCR识别字符分别建立映射关系,比如步骤208中如果OCR字符识别模型得到了3个OCR识别字符,那么则建立一个变异文本字符与3个OCR识别字符的3个映射关系,将该3个映射关系作为文本变异关系。
在本说明书一个实施例中,为了能够覆盖更多变异的可能性,使得无论用户采用何种变异方式都能确定变异文本字符所对应的OCR识别字符,从而使得文本变异关系的覆盖范围更广,在上述步骤207中还可以进一步对第一图像(即未经过图像变换处理的变异文本字符的图像)进行OCR识别,得到第一图像对应的OCR识别字符;相应地,在步骤209中进一步将变异文本字符与第一图像对应的OCR识别字符的映射关系也作为文本变异关系。
至此,则得到了文本变异关系,即变异文本字符应该映射到的OCR识别字符。
此后,利用上述文本变异关系则可以在接收到一个文本时,即使该文本中包括了变异文本字符,也能获得该文本应该对应到的真实文本。参见图3,在本说明书的一个实施例中,真实文本的获取方法包括:
步骤301:获取待识别的第一文本字符串。
步骤303:对于待识别的第一文本字符串中的每一个字符,均执行如下步骤3031至步骤3035:
步骤3031:判断在文本变异关系中是否能查找到当前字符,如果不能查找到,则执行步骤3033,如果能查找到,则执行步骤3035;
本步骤3031中,文本变异关系是利用本说明书任意一个实施例所提出的文本变异关系获取方法所得到的。
步骤3033:在第一文本字符串中保留该当前字符,执行步骤305;
步骤3035:从文本变异关系中获取与当前字符对应的OCR识别字符,并用该OCR识别字符替换第一文本字符串中的当前字符,执行步骤305。
步骤305:根据步骤303得到的至少一个第二文本字符串,得到真实文本。
可见,在图3所示的真实文本的获取方法中,利用了本说明书实施例中获取的文本变异关系来逐个检测第一文本字符串中是否可能包括变异文本字符,并在包括时用OCR识别字符替换该变异文本字符,这样得到的第二文本字符串则更接近真实语义,根据第二文本字符串则可以得到具有更加真实的语义的真实文本,从而能够为网络通信提供更多的保障,比如更加有利于进行内容安全检查。
下面对图3中的每一个步骤分别进行说明。
首先在步骤301中,可以是获取在网络中传输的一个文本字符串,记为第一文本字符串。
比如,用户向微博或者抖音等平台上传了一段UGC数据,则可以针对该UGC数据来识别其真实文本,从而获取用户所需表达的真实语义。
接下来在步骤303中,则是用结合图2所示流程获取的文本变异关系来逐个检测第一文本字符串中是否可能包括变异文本字符,并在包括时,用OCR识别字符替换该变异文本字符,从而能够得到更接近真实语义的第二文本字符串。
在上述步骤209中,可能建立了一个变异文本字符与多个OCR识别字符的映射关系,因此,在步骤3035中,针对第一文本字符串中的一个变异文本字符,比如“V”,可能会从文本变异关系中获取到该变异文本字符“V”映射到的多个OCR识别字符,比如包括两个OCR识别字符“微信”及“胜利”,也就是说,用户在变异时,可能将原本希望表达的语义“微信”用“V”来替代,或者可能将原本希望表达的语义“胜利”用“V”来替代。从文本变异关系中查找到的OCR识别字符都有可能是被替代的原始字符,需要后续步骤进一步验证。
因为一个变异文本字符如“V”可能被替换为不同的OCR识别字符如“微信”及“胜利”,因此,在执行完步骤303之后,则可能会得到至少两个第二文本字符串。比如,第一文本字符串中包括3个文本字符,其中,第2、3个字符为变异文本字符,且第2个变异文本字符可以映射到2个OCR识别字符,第3个字符也可以映射到2个OCR识别字符,那么组合后,可以得到4个第二文本字符串。
接下来,在步骤305中,根据步骤303得到的至少一个第二文本字符串,得到真实文本。
在本说明书的一个实施例中,本步骤305的一种具体实现包括:分别计算上述至少一个第二文本字符串的句子概率;选择句子概率最大的文本字符串作为具有真实语义的真实文本。
如前所述,在执行完步骤303之后,可能会得到多个第二文本字符串比如上述的4个第二文本字符串,那么说明有4种可能性。这样,分别计算每一个文本字符串的句子概率后,句子概率最大的文本字符串更可能体现真实语义,因此,句子概率最大的文本字符串就可以确定为真实文本。
在本说明书的另一个实施例中,本步骤305的一种具体实现包括:分别计算第一文本字符串的句子概率以及上述至少一个第二文本字符串的句子概率;选择句子概率最大的文本字符串作为具有真实语义的真实文本。
在本说明书的一个实施例中,提供了一种文本变异关系的获取装置,参见图4,该装置400包括:
变异字符获取模块401,配置为得到变异文本字符;
转换模块402,配置为将该变异文本字符转换为第一图像;
图像变换模块403,配置为对转换出的第一图像进行图像变换处理,得到第二图像;
OCR字符识别模块404,配置为对变换处理后得到的第二图像进行OCR识别,得到第二图像对应的OCR识别字符;
映射模块405,配置为将所述变异文本字符与所述第二图像对应的OCR识别字符的映射关系作为文本变异关系。
在本说明书的文本变异关系获取装置的一个实施例中,变异字符获取模块401配置为执行:根据已有经验得到之前已经确定的变异文本字符。
在本说明书的文本变异关系获取装置的另一个实施例中,变异字符获取模块401配置为执行:
从网络中得到样本数据;
从样本数据中选取符合如下字符特点的字符,作为变异文本字符:
不属于汉语字符、英语字符或数字字符的单字符;和/或,在对所述样本数据进行分词后,在所述样本数据中无法成词的连续字符。
在本说明书的文本变异关系获取装置的一个实施例中,变异字符获取模块401配置为从各种UGC(User Generated Content)数据中提取出样本数据。
在本说明书的文本变异关系获取装置的一个实施例中,图像变换模块403对转换出的第一图像进行至少两种图像变换处理,得到至少两个第二图像;
则,OCR字符识别模块404配置为对至少两个第二图像分别进行OCR识别,得到至少两个第二图像对应的至少一个OCR识别字符;
则映射模块405配置为保存所述变异文本字符与至少一个OCR识别字符的映射关系。
在本说明书的文本变异关系获取装置的一个实施例中,OCR字符识别模块404进一步被配置为:对第一图像进行OCR识别,得到第一图像对应的OCR识别字符;
则映射模块405进一步被配置为将变异文本字符与第一图像对应的OCR识别字符的映射关系作为文本变异关系。
在本说明书的一个实施例中提出了一种真实文本的获取装置,参见图5,该装置500包括:
本说明书任一实施例中提出的文本变异关系获取装置400;
输入模块501,配置为获取识别的第一文本字符串;
变异识别模块502,配置为对于待识别的第一文本字符串中的每一个字符,均执行:在文本变异关系获取装置所获取的文本变异关系中查找当前字符;如果不能查找到,则在所述第一文本字符串中保留该当前字符;如果能查找到,则从文本变异关系中获取与当前字符对应的OCR识别字符,并用该OCR识别字符替换第一文本字符串中的当前字符;
真实文本确定模块503,配置为根据变异识别模块执行完毕后得到的至少一个第二文本字符串,得到具有真实语义的真实文本。
在本说明书的真实文本获取装置的一个实施例中,真实文本确定模块503被配置为分别计算所述至少一个第二文本字符串的句子概率;选择句子概率最大的文本字符串作为具有真实语义的真实文本。
在本说明书的真实文本获取装置的另一个实施例中,真实文本确定模块503被配置为分别计算第一文本字符串的句子概率以及上述至少一个第二文本字符串的句子概率;选择句子概率最大的文本字符串作为具有真实语义的真实文本。
本说明书一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行说明书中任一个实施例中的方法。
本说明书一个实施例提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现执行说明书中任一个实施例中的方法。
可以理解的是,本说明书实施例示意的结构并不构成对本说明书实施例的装置的具体限定。在说明书的另一些实施例中,上述装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
上述装置、系统内的各模块之间的信息交互、执行过程等内容,由于与本说明书方法实施例基于同一构思,具体内容可参见本说明书方法实施例中的叙述,此处不再赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、挂件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (9)

1.文本变异关系的获取方法,包括:
得到变异文本字符;
将该变异文本字符转换为第一图像;
对转换出的第一图像进行图像变换处理,得到第二图像;
对变换处理后得到的第二图像进行OCR识别,得到第二图像对应的OCR识别字符;
将所述变异文本字符与所述第二图像对应的OCR识别字符的映射关系作为文本变异关系;
其中,所述对转换出的第一图像进行图像变换处理包括:对转换出的第一图像进行至少两种图像变换处理,得到至少两个第二图像;
则对至少两个第二图像分别进行OCR识别,得到至少两个第二图像对应的至少一个OCR识别字符;
则保存所述变异文本字符与所述至少一个OCR识别字符的映射关系。
2.根据权利要求1所述的方法,其中,
所述得到变异文本字符包括:根据已有经验得到之前已经确定的变异文本字符;
和/或,
所述得到变异文本字符包括:
从网络中得到样本数据;
从样本数据中选取符合如下字符特点的字符,作为变异文本字符:
不属于汉语字符、英语字符或数字字符的单字符;和/或,在对所述样本数据进行分词后,在所述样本数据中无法成词的连续字符。
3.根据权利要求2所述的方法,其中,所述从网络中得到样本数据包括:从各种UGC(User Generated Content)数据中提取出样本数据。
4.根据权利要求1所述的方法,进一步包括:
对所述第一图像进行OCR识别,得到第一图像对应的OCR识别字符;
将所述变异文本字符与所述第一图像对应的OCR识别字符的映射关系作为文本变异关系。
5.真实文本的获取方法,包括:
接收待识别的第一文本字符串;
对于待识别的第一文本字符串中的每一个字符,均执行:
在文本变异关系中查找当前字符;其中,所述文本变异关系是利用权利要求1至4中任一所述方法得到的;如果不能查找到,则在所述第一文本字符串中保留该当前字符;如果能查找到,则从文本变异关系中获取与当前字符对应的OCR识别字符,并用该OCR识别字符替换第一文本字符串中的当前字符;
根据执行完毕后得到的至少一个第二文本字符串,得到具有真实语义的真实文本;
其中,所述根据执行完毕后得到的至少一个第二文本字符串得到具有真实语义的真实文本,包括:
分别计算所述至少一个第二文本字符串的句子概率;
选择句子概率最大的文本字符串作为具有真实语义的真实文本。
6.根据权利要求5所述的方法,其中,所述分别计算所述至少一个第二文本字符串的句子概率的步骤进一步包括:计算所述第一文本字符串的句子概率。
7.文本变异关系的获取装置,包括:
变异字符获取模块,配置为得到变异文本字符;
转换模块,配置为将该变异文本字符转换为第一图像;
图像变换模块,配置为对转换出的第一图像进行图像变换处理,得到第二图像;
OCR字符识别模块,配置为对变换处理后得到的第二图像进行OCR识别,得到第二图像对应的OCR识别字符;
映射模块,配置为将所述变异文本字符与所述第二图像对应的OCR识别字符的映射关系作为文本变异关系;
所述图像变换模块对转换出的第一图像进行至少两种图像变换处理,得到至少两个第二图像;
则,OCR字符识别模块配置为对至少两个第二图像分别进行OCR识别,得到至少两个第二图像对应的至少一个OCR识别字符;
则映射模块配置为保存所述变异文本字符与至少一个OCR识别字符的映射关系。
8.真实文本的获取装置,包括:
如权利要求7所述的文本变异关系获取装置;
输入模块,配置为接收待识别的第一文本字符串;
变异识别模块,配置为对于待识别的第一文本字符串中的每一个字符,均执行:在文本变异关系获取装置所获取的文本变异关系中查找当前字符;如果不能查找到,则在所述第一文本字符串中保留该当前字符;如果能查找到,则从文本变异关系中获取与当前字符对应的OCR识别字符,并用该OCR识别字符替换第一文本字符串中的当前字符;
真实文本确定模块,配置为根据变异识别模块执行完毕后得到的至少一个第二文本字符串,得到具有真实语义的真实文本;其中,真实文本确定模块被配置为分别计算所述至少一个第二文本字符串的句子概率;选择句子概率最大的文本字符串作为具有真实语义的真实文本。
9.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-6中任一项所述的方法。
CN202111141052.7A 2021-09-28 2021-09-28 文本变异关系的获取方法和装置 Active CN113837118B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111141052.7A CN113837118B (zh) 2021-09-28 2021-09-28 文本变异关系的获取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111141052.7A CN113837118B (zh) 2021-09-28 2021-09-28 文本变异关系的获取方法和装置

Publications (2)

Publication Number Publication Date
CN113837118A CN113837118A (zh) 2021-12-24
CN113837118B true CN113837118B (zh) 2024-04-26

Family

ID=78970845

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111141052.7A Active CN113837118B (zh) 2021-09-28 2021-09-28 文本变异关系的获取方法和装置

Country Status (1)

Country Link
CN (1) CN113837118B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225695A (ja) * 2007-03-09 2008-09-25 Fuji Xerox Co Ltd 文字認識誤り修正装置およびプログラム
CN101350870A (zh) * 2007-07-18 2009-01-21 英华达(上海)电子有限公司 一种图文转换的方法、移动终端和ocr服务器
CN101976253A (zh) * 2010-10-27 2011-02-16 重庆邮电大学 一种中文变异文本匹配识别方法
CN110807453A (zh) * 2018-08-06 2020-02-18 研祥智能科技股份有限公司 基于ocr的产品字符在线检测方法、装置及系统
CN110929477A (zh) * 2018-09-03 2020-03-27 阿里巴巴集团控股有限公司 关键词变体的确定方法和装置
CN111079768A (zh) * 2019-12-23 2020-04-28 北京爱医生智慧医疗科技有限公司 一种基于ocr的文字图像识别方法及装置
CN112052845A (zh) * 2020-10-14 2020-12-08 腾讯科技(深圳)有限公司 图像识别方法、装置、设备及存储介质
CN112364862A (zh) * 2020-12-08 2021-02-12 杭州电子科技大学 一种基于直方图相似度的扰动变形汉字图片匹配的方法
CN112528882A (zh) * 2020-12-15 2021-03-19 平安科技(深圳)有限公司 基于ocr识别房产证信息确定方法、装置、设备及介质
CN112528624A (zh) * 2019-09-03 2021-03-19 阿里巴巴集团控股有限公司 文本处理方法、装置、搜索方法以及处理器
CN113128241A (zh) * 2021-05-17 2021-07-16 口碑(上海)信息技术有限公司 文本识别方法、装置及设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008225695A (ja) * 2007-03-09 2008-09-25 Fuji Xerox Co Ltd 文字認識誤り修正装置およびプログラム
CN101350870A (zh) * 2007-07-18 2009-01-21 英华达(上海)电子有限公司 一种图文转换的方法、移动终端和ocr服务器
CN101976253A (zh) * 2010-10-27 2011-02-16 重庆邮电大学 一种中文变异文本匹配识别方法
CN110807453A (zh) * 2018-08-06 2020-02-18 研祥智能科技股份有限公司 基于ocr的产品字符在线检测方法、装置及系统
CN110929477A (zh) * 2018-09-03 2020-03-27 阿里巴巴集团控股有限公司 关键词变体的确定方法和装置
CN112528624A (zh) * 2019-09-03 2021-03-19 阿里巴巴集团控股有限公司 文本处理方法、装置、搜索方法以及处理器
CN111079768A (zh) * 2019-12-23 2020-04-28 北京爱医生智慧医疗科技有限公司 一种基于ocr的文字图像识别方法及装置
CN112052845A (zh) * 2020-10-14 2020-12-08 腾讯科技(深圳)有限公司 图像识别方法、装置、设备及存储介质
CN112364862A (zh) * 2020-12-08 2021-02-12 杭州电子科技大学 一种基于直方图相似度的扰动变形汉字图片匹配的方法
CN112528882A (zh) * 2020-12-15 2021-03-19 平安科技(深圳)有限公司 基于ocr识别房产证信息确定方法、装置、设备及介质
CN113128241A (zh) * 2021-05-17 2021-07-16 口碑(上海)信息技术有限公司 文本识别方法、装置及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
根据形状相似性的书法内容检索;章夏芬, 庄越挺, 鲁伟明, 吴飞;计算机辅助设计与图形学学报;20051120(第11期);全文 *

Also Published As

Publication number Publication date
CN113837118A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN108984530B (zh) 一种网络敏感内容的检测方法及检测系统
US11386271B2 (en) Mathematical processing method, apparatus and device for text problem, and storage medium
CN112115706B (zh) 文本处理方法、装置、电子设备及介质
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
AU2019264603A1 (en) Method and system for information extraction from document images using conversational interface and database querying
US20210390370A1 (en) Data processing method and apparatus, storage medium and electronic device
CN112926306B (zh) 文本纠错方法、装置、设备以及存储介质
CN112052331A (zh) 一种处理文本信息的方法及终端
CN111428474A (zh) 基于语言模型的纠错方法、装置、设备及存储介质
CN107291775B (zh) 错误样本的修复语料生成方法和装置
CN111401063B (zh) 一种基于多池化网络的文本处理方法、装置和相关设备
US20160132738A1 (en) Template Matching with Data Correction
CN116756564A (zh) 面向任务解决的生成式大语言模型的训练方法和使用方法
CN110738056B (zh) 用于生成信息的方法和装置
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN116569210A (zh) 归一化oct图像数据
US11875114B2 (en) Method and system for extracting information from a document
CN111488950B (zh) 分类模型信息输出方法及装置
CN113837118B (zh) 文本变异关系的获取方法和装置
CN110516125B (zh) 识别异常字符串的方法、装置、设备及可读存储介质
CN110555431B (zh) 一种图像识别的方法和装置
CN115455179B (zh) 敏感词汇检测方法、装置、设备及存储介质
CN115618843B (zh) 文本检测方法、装置、电子设备及存储介质
CN116340510B (zh) 一种文本分类变体召回的优化方法、系统、介质及设备
CN112347196B (zh) 基于神经网络的实体关系抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant