CN112766236A - 文本生成方法、装置、计算机设备及计算机可读存储介质 - Google Patents

文本生成方法、装置、计算机设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112766236A
CN112766236A CN202110259633.4A CN202110259633A CN112766236A CN 112766236 A CN112766236 A CN 112766236A CN 202110259633 A CN202110259633 A CN 202110259633A CN 112766236 A CN112766236 A CN 112766236A
Authority
CN
China
Prior art keywords
character
characters
similarity
candidate
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110259633.4A
Other languages
English (en)
Other versions
CN112766236B (zh
Inventor
贾伟
汪安辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rajax Network Technology Co Ltd
Original Assignee
Rajax Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rajax Network Technology Co Ltd filed Critical Rajax Network Technology Co Ltd
Priority to CN202110259633.4A priority Critical patent/CN112766236B/zh
Publication of CN112766236A publication Critical patent/CN112766236A/zh
Application granted granted Critical
Publication of CN112766236B publication Critical patent/CN112766236B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • G06V30/347Sampling; Contour coding; Stroke extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Abstract

本申请公开了一种文本生成方法、装置、计算机设备及计算机可读存储介质,涉及互联网技术领域,为待处理字符串的每个单字符确定音近、结构近、形近、笔画近的字符以及繁体字符作为候选字符,并计算相似度,选择变异单字符生成异常字符串,穷尽每个字符串的异常字符串,扩大文本监管范围,提升识别的准确性。所述方法包括:获取待处理字符串,划分为多个单字符;为多个单字符中每个单字符确定多个候选字符;计算每个单字符与候选字符的相似度,将相似度符合预设条件的候选字符作为变异单字符;按照多个单字符在待处理字符串中的排列顺序,对多个单字符以及多个单字符中每个单字符对应的变异单字符依次进行排列组合,得到待处理字符串的异常字符串。

Description

文本生成方法、装置、计算机设备及计算机可读存储介质
技术领域
本申请涉及互联网技术领域,特别是涉及一种文本生成方法、装置、计算机设备及计算机可读存储介质。
背景技术
随着互联网技术的不断发展,线上平台服务的用户量越来越多,很多线上的平台都会对用户输入的文本内容进行监管,而针对平台上不得出现与不正当言论、触底类文字等相关内容的规定,当下很多用户会使用变异文本内容来躲避防御。因此,很多平台会通过预设关键字文本、生成与关键字相似的文本内容等策略来扩大平台的防御范围,使对底线类文本内容的防御更加准确。
相关技术中,平台在对底线类文本内容进行防御时,通常由人工进行异常字符的选取,将人工选取的异常字符配置在平台中,基于这些异常字符形成防御范围,当识别到与异常字符相同的文本内容出现在平台时,执行防御操作。
在实现本申请的过程中,申请人发现相关技术至少存在以下问题:
在目前复杂多变的互联网环境下,为了躲避平台的防御而生成的变异文本层出不穷,这些变异文本超出了平台配置的异常字符形成的防御范围,令平台对底线类文本内容的监管范围狭窄,导致底线类文本内容的识别不够准确。
发明内容
有鉴于此,本申请提供了一种文本生成方法、装置、计算机设备及计算机可读存储介质,主要目的在于解决目前变异文本超出了平台配置的异常字符形成的防御范围,令平台对底线类文本内容的监管范围狭窄,导致底线类文本内容的识别不够准确的问题。
依据本申请第一方面,提供了一种文本生成方法,该方法包括:
获取待处理字符串,将所述待处理字符串划分为多个单字符;
为所述多个单字符中每个单字符确定多个候选字符,所述多个候选字符与相应单字符的拼音字符串一致,和/或与所述单字符的字符结构匹配,和/或与所述单字符的字符形状匹配,和/或与所述单字符的字符笔画匹配,和/或是所述单字符的繁体字符;
计算所述每个单字符与基于所述单字符确定的多个候选字符的相似度,将所述多个候选字符中相似度符合预设条件的候选字符作为所述单字符的变异单字符,得到所述每个单字符的变异单字符;
按照所述多个单字符在所述待处理字符串中的排列顺序,对所述多个单字符以及所述多个单字符中每个单字符对应的变异单字符依次进行排列组合,得到所述待处理字符串的异常字符串。
可选地,所述为所述多个单字符中每个单字符确定多个候选字符,包括:
确定所述每个单字符的拼音字符串,在预设字符库里提取拼音字符串与所述单字符的拼音字符串一致的所述多个候选字符;和/或,
确定所述每个单字符的字符结构,在所述预设字符库里提取字符结构与所述单字符的字符结构匹配的所述多个候选字符;和/或,
将所述每个单字符拆分为多个字符区域,在所述预设字符库中提取包括一个或一个以上所述字符区域的多个预设字符作为与所述单字符的字符形状匹配的多个候选字符;和/或,
统计所述每个单字符的字符笔画,基于第一笔画阈值和第二笔画阈值形成笔画区间,将所述预设字符库中字符笔画位于所述笔画区间的多个预设字符作为与所述单字符的字符笔画匹配的多个候选字符,所述第一笔画阈值等于所述字符笔画与第一预设系数的差值,所述第二笔画阈值等于所述字符笔画与第二预设系数的和值;和/或,
在所述预设字符库中查询所述每个单字符对应的繁体字符,将查询到的所述繁体字符作为所述单字符的多个候选字符。
可选地,所述计算所述每个单字符与基于所述单字符确定的多个候选字符的相似度,包括:
对于所述多个候选字符中每个候选字符,计算所述候选字符与所述单字符的读音相似度、结构相似度、形状相似度以及笔画相似度;
对所述读音相似度、所述结构相似度、所述形状相似度以及所述笔画相似度进行回归计算,得到所述候选字符与所述单字符的字符相似度;
分别为所述多个候选字符中每个候选字符计算与所述单字符的字符相似度,得到所述多个候选字符的相似度。
可选地,所述计算所述候选字符与所述单字符的读音相似度、结构相似度、形状相似度以及笔画相似度,包括:
统计所述候选字符的拼音字符串包括的拼音字符的第一数量以及所述单字符的目标拼音字符串包括的拼音字符的第二数量,计算所述第一数量与所述第二数量的第一差值,将所述第一差值与所述第一数量、所述第二数量进行比对,输出所述读音相似度;
将所述候选字符的字符结构与所述单字符的字符结构进行比对,将比对结果指示的预设相似度作为所述结构相似度;
创建所述候选字符的第一字符图片以及所述单字符的第二字符图片,计算所述第一字符图片与所述第二字符图片的像素重合度,将所述像素重合度作为所述形状相似度;
统计所述候选字符的第一笔画数以及所述单字符的第二笔画数,计算所述第一笔画数与所述第二笔画数的第二差值,将所述第二差值与所述第一笔画数、所述第二笔画数进行比对,输出所述笔画相似度。
可选地,所述创建所述候选字符的第一字符图片以及所述单字符的第二字符图片,包括:
创建第一底图和第二底图,在所述第一底图上确定第一位置点,在所述第二底图上确定第二位置点,所述第一底图和所述第二底图的图片尺寸一致,所述第一位置点相对于所述第一底图的位置与所述第二位置点相对于所述第二底图的位置一致;
将所述候选字符添加至所述第一底图,控制所述候选字符的字符中心与所述第一位置点重合,生成所述第一字符图片;
将所述单字符添加至所述第二底图,控制所述单字符的字符中心与所述第二位置点重合,生成所述第二字符图片。
可选地,所述计算所述第一字符图片与所述第二字符图片的像素重合度,包括:
将所述第一字符图片与所述第二字符图片叠加,控制所述第一字符图片与所述第二字符图片的图片中心重合;
统计叠加后的所述第一字符图片与所述第二字符图片之间重合的像素点的重合数量;
统计所述第二字符图片中包括的全部像素点的总数量;
计算所述重合数量与所述总数量的比值作为所述像素重合度。
可选地,所述方法还包括:
获取预设文本语料,在所述预设文本语料中查询所述待处理字符串的相关语料,所述相关语料是所述待处理字符串的同义词、近义词或相关词中的一种或多种;
将所述相关语料作为所述待处理字符串的所述异常字符串。
依据本申请第二方面,提供了一种文本生成装置,该装置包括:
划分模块,用于获取待处理字符串,将所述待处理字符串划分为多个单字符;
第一确定模块,用于为所述多个单字符中每个单字符确定多个候选字符,所述多个候选字符与相应单字符的拼音字符串一致,和/或与所述单字符的字符结构匹配,和/或与所述单字符的字符形状匹配,和/或与所述单字符的字符笔画匹配,和/或是所述单字符的繁体字符;
计算模块,用于计算所述每个单字符与基于所述单字符确定的多个候选字符的相似度,将所述多个候选字符中相似度符合预设条件的候选字符作为所述单字符的变异单字符,得到所述每个单字符的变异单字符;
组合模块,用于按照所述多个单字符在所述待处理字符串中的排列顺序,对所述多个单字符以及所述多个单字符中每个单字符对应的变异单字符依次进行排列组合,得到所述待处理字符串的异常字符串。
可选地,所述第一确定模块,用于确定所述每个单字符的拼音字符串,在预设字符库里提取拼音字符串与所述单字符的拼音字符串一致的所述多个候选字符;和/或,确定所述每个单字符的字符结构,在所述预设字符库里提取字符结构与所述单字符的字符结构匹配的所述多个候选字符;和/或,将所述每个单字符拆分为多个字符区域,在所述预设字符库中提取包括一个或一个以上所述字符区域的多个预设字符作为与所述单字符的字符形状匹配的多个候选字符;和/或,统计所述每个单字符的字符笔画,基于第一笔画阈值和第二笔画阈值形成笔画区间,将所述预设字符库中字符笔画位于所述笔画区间的多个预设字符作为与所述单字符的字符笔画匹配的多个候选字符,所述第一笔画阈值等于所述字符笔画与第一预设系数的差值,所述第二笔画阈值等于所述字符笔画与第二预设系数的和值;和/或,在所述预设字符库中查询所述每个单字符对应的繁体字符,将查询到的所述繁体字符作为所述单字符的多个候选字符。
可选地,所述计算模块,用于对于所述多个候选字符中每个候选字符,计算所述候选字符与所述单字符的读音相似度、结构相似度、形状相似度以及笔画相似度;对所述读音相似度、所述结构相似度、所述形状相似度以及所述笔画相似度进行回归计算,得到所述候选字符与所述单字符的字符相似度;分别为所述多个候选字符中每个候选字符计算与所述单字符的字符相似度,得到所述多个候选字符的相似度。
可选地,所述计算模块,用于统计所述候选字符的拼音字符串包括的拼音字符的第一数量以及所述单字符的目标拼音字符串包括的拼音字符的第二数量,计算所述第一数量与所述第二数量的第一差值,将所述第一差值与所述第一数量、所述第二数量进行比对,输出所述读音相似度;将所述候选字符的字符结构与所述单字符的字符结构进行比对,将比对结果指示的预设相似度作为所述结构相似度;创建所述候选字符的第一字符图片以及所述单字符的第二字符图片,计算所述第一字符图片与所述第二字符图片的像素重合度,将所述像素重合度作为所述形状相似度;统计所述候选字符的第一笔画数以及所述单字符的第二笔画数,计算所述第一笔画数与所述第二笔画数的第二差值,将所述第二差值与所述第一笔画数、所述第二笔画数进行比对,输出所述笔画相似度。
可选地,所述计算模块,用于创建第一底图和第二底图,在所述第一底图上确定第一位置点,在所述第二底图上确定第二位置点,所述第一底图和所述第二底图的图片尺寸一致,所述第一位置点相对于所述第一底图的位置与所述第二位置点相对于所述第二底图的位置一致;将所述候选字符添加至所述第一底图,控制所述候选字符的字符中心与所述第一位置点重合,生成所述第一字符图片;将所述单字符添加至所述第二底图,控制所述单字符的字符中心与所述第二位置点重合,生成所述第二字符图片。
可选地,所述计算模块,用于将所述第一字符图片与所述第二字符图片叠加,控制所述第一字符图片与所述第二字符图片的图片中心重合;统计叠加后的所述第一字符图片与所述第二字符图片之间重合的像素点的重合数量;统计所述第二字符图片中包括的全部像素点的总数量;计算所述重合数量与所述总数量的比值作为所述像素重合度。
可选地,所述装置还包括:
查询模块,用于获取预设文本语料,在所述预设文本语料中查询所述待处理字符串的相关语料,所述相关语料是所述待处理字符串的同义词、近义词或相关词中的一种或多种;
第二确定模块,用于将所述相关语料作为所述待处理字符串的所述异常字符串。
依据本申请第三方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。
依据本申请第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法的步骤。
借由上述技术方案,本申请提供的一种文本生成方法、装置、计算机设备及计算机可读存储介质,本申请将待处理字符串划分为多个单字符,为每个单字符确定音近、结构近、形近、笔画近的字符以及繁体字符作为多个候选字符,并计算每个单字符与其对应多个候选字符的相似度,将相似度符合预设条件的候选字符挑选出来作为单字符对应的变异单字符,进而按照多个单字符在待处理字符串中的排列顺序,将为每个单字符确定的变异单字符依次进行排列组合,从而得到与该待处理字符串相关的异常字符串,利用计算机的计算能力穷尽每个字符串可能演变成的异常字符串,将这些异常字符串也应用在底线类文本内容的识别过程中,扩大平台对底线类文本内容的监管范围,提升对底线类文本内容识别的准确性。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本申请实施例提供的一种文本生成方法流程示意图;
图2A示出了本申请实施例提供的一种文本生成方法流程示意图;
图2B示出了本申请实施例提供的一种文本生成方法流程示意图;
图3A示出了本申请实施例提供的一种文本生成装置的结构示意图;
图3B示出了本申请实施例提供的一种文本生成装置的结构示意图;
图4示出了本申请实施例提供的一种计算机设备的装置结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本申请实施例提供了一种文本生成方法,如图1所示,该方法包括:
101、获取待处理字符串,将待处理字符串划分为多个单字符。
102、为多个单字符中每个单字符确定多个候选字符,多个候选字符与相应单字符的拼音字符串一致,和/或与单字符的字符结构匹配,和/或与单字符的字符形状匹配,和/或与单字符的字符笔画匹配,和/或是单字符的繁体字符。
103、计算每个单字符与基于单字符确定的多个候选字符的相似度,将多个候选字符中相似度符合预设条件的候选字符作为单字符的变异单字符,得到每个单字符的变异单字符。
104、按照多个单字符在待处理字符串中的排列顺序,对多个单字符以及多个单字符中每个单字符对应的变异单字符依次进行排列组合,得到待处理字符串的异常字符串。
本申请实施例提供的方法,将待处理字符串划分为多个单字符,为每个单字符确定音近、结构近、形近、笔画近的字符以及繁体字符作为多个候选字符,并计算每个单字符与其对应多个候选字符的相似度,将相似度符合预设条件的候选字符挑选出来作为单字符对应的变异单字符,进而按照多个单字符在待处理字符串中的排列顺序,将为每个单字符确定的变异单字符依次进行排列组合,从而得到与该待处理字符串相关的异常字符串,利用计算机的计算能力穷尽每个字符串可能演变成的异常字符串,将这些异常字符串也应用在底线类文本内容的识别过程中,扩大平台对底线类文本内容的监管范围,提升对底线类文本内容识别的准确性。
本申请实施例提供了一种文本生成方法,如图2A所示,该方法包括:
201、获取待处理字符串,将待处理字符串划分为多个单字符。
随着互联网技术的不断发展,线上的平台提供的功能越来越多,人们可以基于平台实现与其他人之间的沟通,也可以在平台上发表自己的心情、言论等等,而为了对用户在平台上发表的内容进行监管,避免出现底线类文本内容,很多平台都设置了字符的防御范围,利用该防御范围识别用户输入到平台的内容是否属于底线类文本内容。目前,很多平台在设置防御范围时,通常由人工来标注哪些字符、字符串等等属于底线类文本内容,将标注的底线类文本内容配置在平台中,基于这些异常字符形成防御范围,当识别到与异常字符相同的文本内容出现在平台时,执行防御操作。但是,申请人认识到,有些用户为了躲避防御,会输入一些与底线类文本内容相关的变异文本来躲避防御,比如底线类文本内容的谐音字、形似字等等,且变异文本层出不穷,采用人工标注的方式为平台设置防御范围显得捉襟见肘,令平台对底线类文本内容的监管范围狭窄,导致底线类文本内容的识别不够准确。
因此,本申请提出一种文本生成方法,将待处理字符串划分为多个单字符,为每个单字符确定音近、结构近、形近、笔画近的字符以及繁体字符作为多个候选字符,并计算每个单字符与其对应多个候选字符的相似度,将相似度符合预设条件的候选字符挑选出来作为单字符对应的变异单字符,进而按照多个单字符在待处理字符串中的排列顺序,将为每个单字符确定的变异单字符依次进行排列组合,从而得到与该待处理字符串相关的异常字符串,利用计算机的计算能力穷尽每个字符串可能演变成的异常字符串,将这些异常字符串也应用在底线类文本内容的识别过程中,扩大平台对底线类文本内容的监管范围,提升对底线类文本内容识别的准确性。
其中,待处理字符串可以是用户输入的文本内容中的短语、词或者字。短语具体可以是三字、四字等符合语言逻辑的字符串,本申请实施例对待处理字符串的具体样式、具体内容以及包括的单字符的个数不进行具体限定。实际上对于任何一个待处理字符串来说,组成待处理字符串的每一个单字符都存在被演变的可能,比如假设待处理字符串“耳旁风”属于平台监管的底线类文本内容,则“耳”可能演变为“二”、“而”等等,旁可能演变为“庞”、“螃”等等,“风”可能演变为“峰”、“锋”等等,因此,在本申请实施例中,当需要生成待处理字符串的异常字符串时,平台会获取待处理字符串,将待处理字符串划分为多个单字符,进而在后续分别为每一个单字符确定其可能演变的变异单字符,保证为该待处理字符串穷尽其可能演变的异常字符串。在对待处理字符串进行划分时,可以直接确定组成该待处理字符串的全部单字符,将确定的全部单字符作为该待处理字符串划分得到的单字符即可。以待处理字符串为“耳旁风”为例,划分得到的多个单字符分别为“耳”、“旁”、“风”。需要说明的是,在本申请实施例中,为了便于说明,假设“耳旁风”为底线类文本内容,但实际应用的过程中,并不限制“耳旁风”一定为底线类文本内容,也不限制待处理字符串的具体内容。
202、为多个单字符中每个单字符确定多个候选字符。
在本申请实施例中,由于每个单字符进行演变的方式实际上有多种,比如采用音近、结构近、形近、笔画近以及繁体等方式进行演变,为了将这些方式均考虑在为单字符确定候选字符的过程中,对于每个单字符,平台会选取与单字符的拼音字符串一致,和/或与单字符的字符结构匹配,和/或与单字符的字符形状匹配,和/或与单字符的字符笔画匹配,和/或是单字符的繁体字符,将选取的字符都作为单字符的候选字符,进而保证后续为待处理字符串生成的变异字符串能够较大程度的覆盖到待处理字符串可能演变的内容。下面以多个单字符中任一单字符为例,依次说明采用音近、结构近、形近、笔画近以及繁体的方式为单字符确定多个候选字符的过程:
一、采用音近的方式为单字符确定多个候选字符。
具体地,平台会确定当前选中的单字符的拼音字符串,在预设字符库里提取拼音字符串与单字符的拼音字符串一致的多个候选字符。其中,预设字符库中包括大量的单字符,常用的单字符以及一些生僻字符均包括在内。在提取拼音字符串与单字符的拼音字符串一致的多个候选字符时,主要考虑拼音字符串的组成即可,拼音字符串的音调可以不计。比如,以单字符为“耳”为例,“耳”的拼音字符串为“er”,则预设字符库中的预设字符“而”、“儿”、“尔”等都可以作为与“耳”音近的候选字符。其中,虽然“儿”的音调为第二声,“耳”的音调为第三声,但是音调可以忽略不计,“儿”仍旧可以作为“耳”的候选字符。需要说明的是,本申请实施例在确定音近的候选字符时选取的候选字符的拼音字符串均与单字符的拼音字符串一致,但是实际应用的过程中,拼音字符串的声母与单字符的拼音字符串的声母一致,且拼音字符串的韵母与单字符的拼音字符串的韵母一致或者相差一位拼音字符的也可以作为与单字符音近的候选字符。比如,以单字符为“平”为例,“平”的拼音字符串为“ping”,预设字符“拼”的拼音字符串为“pin”,二者声母相同,韵母相差一位拼音字符“g”,则“拼”可以作为“平”的候选字符。本申请对确定音近的候选字符的方式不进行具体限定。
二、采用结构近的方式为单字符确定多个候选字符。
具体地,平台会确定每个单字符的字符结构,在预设字符库里提取字符结构与单字符的字符结构匹配的多个候选字符。其中,此处描述的字符结构匹配实际上包括两种情况,一种情况是候选字符的字符结构与单字符的字符结构完全一致,另一种情况是候选字符的字符结构在目前的汉字规范中指示与单字符的字符结构是相似的。比如,假设单字符为“国”,“国”的字符结构为全包围,就第一种情况而言,确定的候选字可以是“团”、“图”等等,而就第二种情况而言,汉字规范中指示与全包围的字符结构相似的字符结构是半包围,基于半包围确定的候选字还可以是“闭”、“闲”、“闰”等等,本申请对确定字符结构匹配的候选字符的方式不进行具体限定。
三、采用形近的方式为单字符确定多个候选字符。
具体地,平台会将每个单字符拆分为多个字符区域,在预设字符库中提取包括一个或一个以上字符区域的多个预设字符作为与单字符的字符形状匹配的多个候选字符。比如,假设单字符为“写”,“写”可以拆分为“冖”和“与”,则采用形近的方式为“写”确定的候选字符可以是“军”、“冗”等等。
需要说明的是,目前出现一种绘文字,通常应用在无线通信中,属于一种视觉情感符号,可用来代表多种表情,有些单字符也会存在这种绘文字,绘文字实际上也是与单字符形近的字符,因此,在本申请实施例中,为单字符确定的候选字符中还包括基于绘文字确定的字符,只要单字符存在对应的绘文字或者存在关联的绘文字,都可以作为该单字符的候选字符。
四、采用笔画近的方式为单字符确定多个候选字符。
具体地,平台会统计每个单字符的字符笔画,基于第一笔画阈值和第二笔画阈值形成笔画区间,将预设字符库中字符笔画位于笔画区间的多个预设字符作为与单字符的字符笔画匹配的多个候选字符。其中,第一笔画阈值等于字符笔画与第一预设系数的差值,第二笔画阈值等于字符笔画与第二预设系数的和值,第一预设系数与第二预设系数的取值可以相同也可以不同。例如,假设单字符为“民”第一预设系数为0,第二预设系数为4,“民”的笔画数为5划,则针对单字符“民”构建的笔画区间即为【9,5】,这样,“泯”、“抿”等预设字符都可以作为单字符“民”的候选字符。
五、采用繁体的方式为单字符确定多个候选字符。
具体地,平台会在预设字符库中查询每个单字符对应的繁体字符,将查询到的繁体字符作为单字符的多个候选字符。其中,每个单字符对应的繁体字符通常是固定的,比如单字符“龙”对应的繁体字符为“龍”,因此,直接在预设字符库中查询单字符对应的繁体字符作为候选字符即可。
需要说明的是,有些单字符并不存在对应的繁体字符,比如单字符“和”,并不存在繁体字符或者说其对应的繁体字符也是“和”,这种情况下,将确定繁体字符的操作忽略即可。
通过上述五部分内容,便可以为每个单字符确定与其或音近,或结构近,或形近,或笔画近,或是繁体的候选字符,并将确定的这些候选字符应用在后续的异常字符串生成的过程中。需要说明的是,上述五部分内容描述的是音近、结构近、形近、笔画近以及繁体的候选字符的方式,实际应用的过程中,有些单字符可能不存在结构近的候选字符,或者不存在形近的候选字符等等,因此,在本申请实施例中,并不限制一定要严格按照上述五部分内容确定候选字符,能够采用哪种方式为单字符确定候选字符便采用哪种方式,如果采用某种方式无法获取到单字符的候选字符,则略过即可。
另外,实际应用的过程中,平台的预设字符库中可以设置音近模块、形近模块、笔画模块、结构模块以及简转繁模块,这样,依次将多个单字符中每个单字符输入到预设字符库中并运行上述五个模块,可直接输出与每个单字符音近、结构近、形近、笔画近的字符以及繁体字符作为候选字符。
再有,步骤202中描述的是为单字符确定候选字符的过程,实际上每个单字符对应的候选字符都是固定的,为了便于这些候选字符能够直接在字符串的识别过程中利用,避免在每次的字符串识别过程中都执行候选字符的确定过程,在本申请实施例中,为单字符与其对应的多个候选字符之间建立了字符索引,通过字符索引可以直接获取到每个单字符对应的候选字符,提升识别效率。
203、计算每个单字符与基于单字符确定的多个候选字符的相似度。
在本申请实施例中,上述步骤202中确定的候选字符是与每个单字符音近、结构近、形近、笔画近的字符以及繁体字符,这些候选字符在整体上与相应的单字符的相似程度实际上是存在区别的,例如有些候选字符只在读音上与单字符相似,但是视觉上差别较大;而有些候选字符无论在读音还是视觉上都与单字符很接近。与单字符相似程度较高的候选字符较相似程度较低的候选字符来说很容易经常被用户想到,也会频繁的出现在用户输入的变异文本中,因此,为了减轻后续生成的异常字符串的计算量,同时也减少生成的异常字符串的数量,在本申请实施例中会计算每个单字符与基于单字符确定的多个候选字符的相似度,并在每个单字符的多个候选字符中选取相似度符合预设条件的候选字符用在异常字符串的生成过程中。
以任一单字符对应的多个候选字符中的任一候选字符为例,在计算该单字符与候选字符的相似度时,需要进行读音、结构、形状以及笔画的多维度考虑,因此,平台会计算候选字符与单字符的的读音相似度、结构相似度、形状相似度以及笔画相似度,下面分别对读音相似度、结构相似度、形状相似度以及笔画相似度的计算过程进行说明:
一、读音相似度。
具体地,平台统计候选字符的拼音字符串包括的拼音字符的第一数量以及单字符的目标拼音字符串包括的拼音字符的第二数量,计算第一数量与第二数量的第一差值,将第一差值与第一数量、第二数量进行比对,输出读音相似度。其中,在将第一差值与第一数量、第二数量进行比对时,可以将第一数量、第二数量中较大的一个作为目标数量,计算第一差值与目标数量的比值,将1与比值的差值作为读音相似度。需要说明的是,由于第一数量和第二数量中较大的一个是不确定的,有可能第一数量较大也有可能第二数量较大,而第一差值实际上只是为了后续确定两个拼音字符串之间的相似程度,第一差值是正数还是负数并不重要,因此,计算得到的第一差值如果为负数,则可直接取其相反数也即正数的第一差值,从而便于后续的计算。比如,假设候选字符的拼音字符的第一数量为5,单字符的目标拼音字符串的第二数量为8,则第一差值为3,第一数量和第二数量中较大的一个为8,计算的比值即为3/8,则输出的读音相似度即为1-3/8=5/8。
或者,平台中也可以预设差值与相似度之间的对应关系,查询第一差值在该对应关系中对应的相似度,将查询确定的相似度作为候选字符与单字符的读音相似度。例如,假设平台中设置的对应关系规定,差值大于等于0且小于3对应的相似度为90%,大于等于3且小于5对应的相似度为50%,这样,如果计算得到的第一差值为2,则确定的读音相似度即为90%。
二、结构相似度。
具体地,平台将候选字符的字符结构与单字符的字符结构进行比对,将比对结果指示的预设相似度作为结构相似度。其中,平台中可以预设字符结构之间的相似度,比如设置全包围字符结构与半包围字符结构的相似度为90%,左右字符结构与全包围字符结构的相似度为20%等等,这样,直接将候选字符的字符结构与单字符的字符结构进行比对,将比对结构指示的相似度作为结构相似度即可。
三、形状相似度。
其中,平台会创建候选字符的第一字符图片以及单字符的第二字符图片,也即第一字符图片中包括候选字符,第二字符图片中包括单字符,并计算第一字符图片与第二字符图片的像素重合度,将像素重合度作为形状相似度,具体计算像素重合度的过程如下:
首先,平台创建第一底图和第二底图,在第一底图上确定第一位置点,在第二底图上确定第二位置点。其中,第一底图和第二底图的图片尺寸一致,第一位置点相对于第一底图的位置与第二位置点相对于第二底图的位置一致。接下来,将候选字符添加至第一底图,控制候选字符的字符中心与第一位置点重合,生成第一字符图片,并将单字符添加至第二底图,控制单字符的字符中心与第二位置点重合,生成第二字符图片。采用这种方式生成第一字符图片以及第二字符图片的目的在于使两张图片的大小相同,且候选字符与单字符在图片中所处的位置一致,从而保证计算像素重合度的准确性。
随后,平台将第一字符图片与第二字符图片叠加,控制第一字符图片与第二字符图片的图片中心重合,统计叠加后的第一字符图片与第二字符图片之间重合的像素点的重合数量,并统计第二字符图片中包括的全部像素点的总数量,计算重合数量与总数量的比值作为像素重合度。例如,假设单字符的第二字符图片中包括的全部像素点的总数量为500,候选字符的第一字符图片与第二字符图片之间重合的像素点的重合数量为200,则计算得到的像素重合度即为200/500=40%。
四、笔画相似度。
具体地,平台会统计候选字符的第一笔画数以及单字符的第二笔画数,计算第一笔画数与第二笔画数的第二差值,将第二差值与第一笔画数、第二笔画数进行比对,输出笔画相似度。其中,进行第二差值与第一笔画数、第二笔画数进行比对输出笔画相似度的过程与上述第一部分输出读音相似度的过程同理,此处不再进行赘述。需要说明的是,第二差值与第一差值同理,也可能出现负数的情况,因此,直接取其相反数也即正数的第二差值即可。
通过上述四部分能够计算得到候选字符与单字符的读音相似度、结构相似度、形状相似度以及笔画相似度,随后平台会对读音相似度、结构相似度、形状相似度以及笔画相似度进行回归计算,得到候选字符与单字符的字符相似度。其中,进行回归计算可以利用诸如逻辑回归模型、XGB(Xtreme Gradient Boosting,软件梯度提升)模型等机器学习模型实现,将读音相似度、结构相似度、形状相似度以及笔画相似度输入到机器学习模型中,将机器学习模型输出的结果作为候选字符与单字符的字符相似度。平台重复执行上述计算字符相似度的过程,可分别为多个候选字符中每个候选字符计算与单字符的相似度,从而得到多个候选字符的相似度。
需要说明的是,平台中实际上可以设置一个相似度计算模块,将某个单字符与其对应的某一个候选字符同时输入到相似度计算模块中,由该相似度计算模块基于二者的笔画数、像素重合度、读音相似度以及结构相似度对二者进行综合的相似度计算,从而直接输出二者的相似度。
204、将多个候选字符中相似度符合预设条件的候选字符作为单字符的变异单字符,得到每个单字符的变异单字符。
在本申请实施例中,计算得到每个候选字符与相应的单字符之间的相似度后,由于相似度越高越容易在相应单字符的演变中出现,因此,平台会将多个候选字符中相似度符合预设条件的候选字符作为单字符的变异单字符,从而得到每个单字符的变异单字符。
具体地,该预设条件可以是预设的相似度阈值,比如90%、85%等等,这样,需要将相似度大于相似度阈值的候选字符作为相应单字符的变异单字符。或者,预设条件也可以是相似度最大的预设数目个的字符,比如相似度最大的5个字符,则假设为某个单字符确定的候选字符包括10个,相似度较大的5个字符分别A、B、C、D和E,则将A、B、C、D和E作为该单字符的变异单字符即可,本申请对预设条件规定的内容不进行具体限定。
205、按照多个单字符在待处理字符串中的排列顺序,对多个单字符以及多个单字符中每个单字符对应的变异单字符依次进行排列组合,得到待处理字符串的异常字符串。
在本申请实施例中,为每个单字符确定相应的变异单字符后,由于待处理字段是存在语言逻辑的,多个单字符是基于语言逻辑排序的,多个单字符的排列顺序是不能发生变化的,同理在进行字符的组合时,单字符对应的变异单字符所处的位置需要与相应的单字符所处的位置一致。因此,平台会按照多个单字符在待处理字符串中的排列顺序,对多个单字符以及多个单字符中每个单字符对应的变异单字符依次进行排列组合,得到待处理字符串的异常字符串。比如,假设待处理字符串为“耳旁风”,单字符“旁”的变异单字符为“螃”,则生成的异常字符串可为“耳螃风”。
另外,有些字符串是存在意义相近的字符串的,有些用户在日常的工作生活中会将意义相近的字符串混淆使用,比如字符串“耳旁风”和字符串“耳边风”便是意义相近的字符串。为了实现对用户输入的文本内容的多维度识别,提升识别的准确性,在本申请实施例中,平台还会获取预设文本语料,在预设文本语料中查询待处理字符串的相关语料,该相关语料是待处理字符串的同义词、近义词或相关词中的一种或多种,并将相关语料也作为待处理字符串的异常字符串。进一步地,平台中可以设置知识图谱模型,基于知识图谱模型进行语义特征的训练,从而利用知识图谱模型直接确定与待处理字符串语义相同或相近的字符串作为异常字符串。
进一步地,生成的异常字符串实际上是待处理字符串衍生出的相似字符串,实质上也是待处理字符串的变异字符串,可以用于对用户为了规避防御输入的变异文本。
综上所述,本申请中文本生成的过程总结如下:
参见图2B,平台确定待处理字符串包括的多个单字符,在预设字符库中分别为每个单字符确定其对应的多个候选字符。随后,平台对每个单字符与其对应的每个候选字符进行特征计算,输出二者的读音相似度、结构相似度、形状相似度以及笔画相似度。接下来,将二者的读音相似度、结构相似度、形状相似度以及笔画相似度输入到机器学习模型中进行回归计算,将输出的结果作为二者最终的相似度。最后,平台按照字符之间的相似度为每个单字符选取相似度符合预设条件的候选字符作为变异单字符,基于多个单字符以及确定的变异单字符进行排列组合,得出该待处理字符串的异常字符串,将这些异常字符串用于对变异文本的识别过程中。
本申请实施例提供的方法,将待处理字符串划分为多个单字符,为每个单字符确定音近、结构近、形近、笔画近的字符以及繁体字符作为多个候选字符,并计算每个单字符与其对应多个候选字符的相似度,将相似度符合预设条件的候选字符挑选出来作为单字符对应的变异单字符,进而按照多个单字符在待处理字符串中的排列顺序,将为每个单字符确定的变异单字符依次进行排列组合,从而得到与该待处理字符串相关的异常字符串,利用计算机的计算能力穷尽每个字符串可能演变成的异常字符串,将这些异常字符串也应用在底线类文本内容的识别过程中,扩大平台对底线类文本内容的监管范围,提升对底线类文本内容识别的准确性。
进一步地,作为图1所述方法的具体实现,本申请实施例提供了一种文本生成装置,如图3A所示,所述装置包括:划分模块301,第一确定模块302,计算模块303和组合模块304。
该划分模块301,用于获取待处理字符串,将所述待处理字符串划分为多个单字符;
该第一确定模块302,用于为所述多个单字符中每个单字符确定多个候选字符,所述多个候选字符与相应单字符的拼音字符串一致,和/或与所述单字符的字符结构匹配,和/或与所述单字符的字符形状匹配,和/或与所述单字符的字符笔画匹配,和/或是所述单字符的繁体字符;
该计算模块303,用于计算所述每个单字符与基于所述单字符确定的多个候选字符的相似度,将所述多个候选字符中相似度符合预设条件的候选字符作为所述单字符的变异单字符,得到所述每个单字符的变异单字符;
该组合模块304,用于按照所述多个单字符在所述待处理字符串中的排列顺序,对所述多个单字符以及所述多个单字符中每个单字符对应的变异单字符依次进行排列组合,得到所述待处理字符串的异常字符串。
在具体的应用场景中,该第一确定模块302,用于确定所述每个单字符的拼音字符串,在预设字符库里提取拼音字符串与所述单字符的拼音字符串一致的所述多个候选字符;和/或,确定所述每个单字符的字符结构,在所述预设字符库里提取字符结构与所述单字符的字符结构匹配的所述多个候选字符;和/或,将所述每个单字符拆分为多个字符区域,在所述预设字符库中提取包括一个或一个以上所述字符区域的多个预设字符作为与所述单字符的字符形状匹配的多个候选字符;和/或,统计所述每个单字符的字符笔画,基于第一笔画阈值和第二笔画阈值形成笔画区间,将所述预设字符库中字符笔画位于所述笔画区间的多个预设字符作为与所述单字符的字符笔画匹配的多个候选字符,所述第一笔画阈值等于所述字符笔画与第一预设系数的差值,所述第二笔画阈值等于所述字符笔画与第二预设系数的和值;和/或,在所述预设字符库中查询所述每个单字符对应的繁体字符,将查询到的所述繁体字符作为所述单字符的多个候选字符。
在具体的应用场景中,该计算模块303,用于对于所述多个候选字符中每个候选字符,计算所述候选字符与所述单字符的读音相似度、结构相似度、形状相似度以及笔画相似度;对所述读音相似度、所述结构相似度、所述形状相似度以及所述笔画相似度进行回归计算,得到所述候选字符与所述单字符的字符相似度;分别为所述多个候选字符中每个候选字符计算与所述单字符的字符相似度,得到所述多个候选字符的相似度。
在具体的应用场景中,该计算模块303,用于统计所述候选字符的拼音字符串包括的拼音字符的第一数量以及所述单字符的目标拼音字符串包括的拼音字符的第二数量,计算所述第一数量与所述第二数量的第一差值,将所述第一差值与所述第一数量、所述第二数量进行比对,输出所述读音相似度;将所述候选字符的字符结构与所述单字符的字符结构进行比对,将比对结果指示的预设相似度作为所述结构相似度;创建所述候选字符的第一字符图片以及所述单字符的第二字符图片,计算所述第一字符图片与所述第二字符图片的像素重合度,将所述像素重合度作为所述形状相似度;统计所述候选字符的第一笔画数以及所述单字符的第二笔画数,计算所述第一笔画数与所述第二笔画数的第二差值,将所述第二差值与所述第一笔画数、所述第二笔画数进行比对,输出所述笔画相似度。
在具体的应用场景中,该计算模块303,用于创建第一底图和第二底图,在所述第一底图上确定第一位置点,在所述第二底图上确定第二位置点,所述第一底图和所述第二底图的图片尺寸一致,所述第一位置点相对于所述第一底图的位置与所述第二位置点相对于所述第二底图的位置一致;将所述候选字符添加至所述第一底图,控制所述候选字符的字符中心与所述第一位置点重合,生成所述第一字符图片;将所述单字符添加至所述第二底图,控制所述单字符的字符中心与所述第二位置点重合,生成所述第二字符图片。
在具体的应用场景中,该计算模块303,用于将所述第一字符图片与所述第二字符图片叠加,控制所述第一字符图片与所述第二字符图片的图片中心重合;统计叠加后的所述第一字符图片与所述第二字符图片之间重合的像素点的重合数量;统计所述第二字符图片中包括的全部像素点的总数量;计算所述重合数量与所述总数量的比值作为所述像素重合度。
在具体的应用场景中,如图3B所示,该装置还包括:查询模块305和第二确定模块306。
该查询模块305,用于获取预设文本语料,在所述预设文本语料中查询所述待处理字符串的相关语料,所述相关语料是所述待处理字符串的同义词、近义词或相关词中的一种或多种;
该第二确定模块306,用于将所述相关语料作为所述待处理字符串的所述异常字符串。
本申请实施例提供的装置,将待处理字符串划分为多个单字符,为每个单字符确定音近、结构近、形近、笔画近的字符以及繁体字符作为多个候选字符,并计算每个单字符与其对应多个候选字符的相似度,将相似度符合预设条件的候选字符挑选出来作为单字符对应的变异单字符,进而按照多个单字符在待处理字符串中的排列顺序,将为每个单字符确定的变异单字符依次进行排列组合,从而得到与该待处理字符串相关的异常字符串,利用计算机的计算能力穷尽每个字符串可能演变成的异常字符串,将这些异常字符串也应用在底线类文本内容的识别过程中,扩大平台对底线类文本内容的监管范围,提升对底线类文本内容识别的准确性。
需要说明的是,本申请实施例提供的一种文本生成装置所涉及各功能单元的其他相应描述,可以参考图1和图2A至图2B中的对应描述,在此不再赘述。
在示例性实施例中,参见图4,还提供了一种设备,该设备包括通信总线、处理器、存储器和通信接口,还可以包括输入输出接口和显示设备,其中,各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序,处理器,用于执行存储器上所存放的程序,执行上述实施例中的文本生成方法。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述的文本生成方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以通过硬件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。
以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims (10)

1.一种文本生成方法,其特征在于,包括:
获取待处理字符串,将所述待处理字符串划分为多个单字符;
为所述多个单字符中每个单字符确定多个候选字符,所述多个候选字符与相应单字符的拼音字符串一致,和/或与所述单字符的字符结构匹配,和/或与所述单字符的字符形状匹配,和/或与所述单字符的字符笔画匹配,和/或是所述单字符的繁体字符;
计算所述每个单字符与基于所述单字符确定的多个候选字符的相似度,将所述多个候选字符中相似度符合预设条件的候选字符作为所述单字符的变异单字符,得到所述每个单字符的变异单字符;
按照所述多个单字符在所述待处理字符串中的排列顺序,对所述多个单字符以及所述多个单字符中每个单字符对应的变异单字符依次进行排列组合,得到所述待处理字符串的异常字符串。
2.根据权利要求1所述的方法,其特征在于,所述为所述多个单字符中每个单字符确定多个候选字符,包括:
确定所述每个单字符的拼音字符串,在预设字符库里提取拼音字符串与所述单字符的拼音字符串一致的所述多个候选字符;和/或,
确定所述每个单字符的字符结构,在所述预设字符库里提取字符结构与所述单字符的字符结构匹配的所述多个候选字符;和/或,
将所述每个单字符拆分为多个字符区域,在所述预设字符库中提取包括一个或一个以上所述字符区域的多个预设字符作为与所述单字符的字符形状匹配的多个候选字符;和/或,
统计所述每个单字符的字符笔画,基于第一笔画阈值和第二笔画阈值形成笔画区间,将所述预设字符库中字符笔画位于所述笔画区间的多个预设字符作为与所述单字符的字符笔画匹配的多个候选字符,所述第一笔画阈值等于所述字符笔画与第一预设系数的差值,所述第二笔画阈值等于所述字符笔画与第二预设系数的和值;和/或,
在所述预设字符库中查询所述每个单字符对应的繁体字符,将查询到的所述繁体字符作为所述单字符的多个候选字符。
3.根据权利要求1所述的方法,其特征在于,所述计算所述每个单字符与基于所述单字符确定的多个候选字符的相似度,包括:
对于所述多个候选字符中每个候选字符,计算所述候选字符与所述单字符的读音相似度、结构相似度、形状相似度以及笔画相似度;
对所述读音相似度、所述结构相似度、所述形状相似度以及所述笔画相似度进行回归计算,得到所述候选字符与所述单字符的字符相似度;
分别为所述多个候选字符中每个候选字符计算与所述单字符的字符相似度,得到所述多个候选字符的相似度。
4.根据权利要求3所述的方法,其特征在于,所述计算所述候选字符与所述单字符的读音相似度、结构相似度、形状相似度以及笔画相似度,包括:
统计所述候选字符的拼音字符串包括的拼音字符的第一数量以及所述单字符的目标拼音字符串包括的拼音字符的第二数量,计算所述第一数量与所述第二数量的第一差值,将所述第一差值与所述第一数量、所述第二数量进行比对,输出所述读音相似度;
将所述候选字符的字符结构与所述单字符的字符结构进行比对,将比对结果指示的预设相似度作为所述结构相似度;
创建所述候选字符的第一字符图片以及所述单字符的第二字符图片,计算所述第一字符图片与所述第二字符图片的像素重合度,将所述像素重合度作为所述形状相似度;
统计所述候选字符的第一笔画数以及所述单字符的第二笔画数,计算所述第一笔画数与所述第二笔画数的第二差值,将所述第二差值与所述第一笔画数、所述第二笔画数进行比对,输出所述笔画相似度。
5.根据权利要求4所述的方法,其特征在于,所述创建所述候选字符的第一字符图片以及所述单字符的第二字符图片,包括:
创建第一底图和第二底图,在所述第一底图上确定第一位置点,在所述第二底图上确定第二位置点,所述第一底图和所述第二底图的图片尺寸一致,所述第一位置点相对于所述第一底图的位置与所述第二位置点相对于所述第二底图的位置一致;
将所述候选字符添加至所述第一底图,控制所述候选字符的字符中心与所述第一位置点重合,生成所述第一字符图片;
将所述单字符添加至所述第二底图,控制所述单字符的字符中心与所述第二位置点重合,生成所述第二字符图片。
6.根据权利要求4所述的方法,其特征在于,所述计算所述第一字符图片与所述第二字符图片的像素重合度,包括:
将所述第一字符图片与所述第二字符图片叠加,控制所述第一字符图片与所述第二字符图片的图片中心重合;
统计叠加后的所述第一字符图片与所述第二字符图片之间重合的像素点的重合数量;
统计所述第二字符图片中包括的全部像素点的总数量;
计算所述重合数量与所述总数量的比值作为所述像素重合度。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取预设文本语料,在所述预设文本语料中查询所述待处理字符串的相关语料,所述相关语料是所述待处理字符串的同义词、近义词或相关词中的一种或多种;
将所述相关语料作为所述待处理字符串的所述异常字符串。
8.一种文本生成装置,其特征在于,包括:
划分模块,用于获取待处理字符串,将所述待处理字符串划分为多个单字符;
第一确定模块,用于为所述多个单字符中每个单字符确定多个候选字符,所述多个候选字符与相应单字符的拼音字符串一致,和/或与所述单字符的字符结构匹配,和/或与所述单字符的字符形状匹配,和/或与所述单字符的字符笔画匹配,和/或是所述单字符的繁体字符;
计算模块,用于计算所述每个单字符与基于所述单字符确定的多个候选字符的相似度,将所述多个候选字符中相似度符合预设条件的候选字符作为所述单字符的变异单字符,得到所述每个单字符的变异单字符;
组合模块,用于按照所述多个单字符在所述待处理字符串中的排列顺序,对所述多个单字符以及所述多个单字符中每个单字符对应的变异单字符依次进行排列组合,得到所述待处理字符串的异常字符串。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202110259633.4A 2021-03-10 2021-03-10 文本生成方法、装置、计算机设备及计算机可读存储介质 Active CN112766236B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110259633.4A CN112766236B (zh) 2021-03-10 2021-03-10 文本生成方法、装置、计算机设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110259633.4A CN112766236B (zh) 2021-03-10 2021-03-10 文本生成方法、装置、计算机设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN112766236A true CN112766236A (zh) 2021-05-07
CN112766236B CN112766236B (zh) 2023-04-07

Family

ID=75691035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110259633.4A Active CN112766236B (zh) 2021-03-10 2021-03-10 文本生成方法、装置、计算机设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112766236B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554012A (zh) * 2021-09-22 2021-10-26 江西博微新技术有限公司 三维工程中图元模型分类方法、系统、设备及存储介质
CN114821566A (zh) * 2022-05-13 2022-07-29 北京百度网讯科技有限公司 文本识别方法、装置、电子设备和存储介质

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1232204A (zh) * 1998-04-16 1999-10-20 国际商业机器公司 手写汉字识别方法及装置
US20160292499A1 (en) * 2015-04-03 2016-10-06 Fuji Xerox Co., Ltd. Character recognition apparatus, character recognition processing system, and non-transitory computer readable medium
CN106815197A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 文本相似度的确定方法和装置
CN106919681A (zh) * 2017-02-28 2017-07-04 东软集团股份有限公司 错别字的纠错方法和装置
CN109344396A (zh) * 2018-08-31 2019-02-15 阿里巴巴集团控股有限公司 文本识别方法、装置、及计算机设备
CN109918548A (zh) * 2019-04-08 2019-06-21 上海凡响网络科技有限公司 一种自动检测文档敏感信息的方法和应用
CN110097002A (zh) * 2019-04-30 2019-08-06 北京达佳互联信息技术有限公司 形近字确定方法、装置、计算机设备和存储介质
CN110610180A (zh) * 2019-09-16 2019-12-24 腾讯科技(深圳)有限公司 错别字词识别集的生成方法、装置、设备及存储介质
CN110929477A (zh) * 2018-09-03 2020-03-27 阿里巴巴集团控股有限公司 关键词变体的确定方法和装置
CN111159329A (zh) * 2019-12-24 2020-05-15 深圳市优必选科技股份有限公司 敏感词检测方法、装置、终端设备和计算机可读存储介质
CN111222590A (zh) * 2019-12-31 2020-06-02 咪咕文化科技有限公司 形近字确定方法、电子设备和计算机可读存储介质
CN111274785A (zh) * 2020-01-21 2020-06-12 北京字节跳动网络技术有限公司 一种文本纠错方法、装置、设备及介质
CN111783132A (zh) * 2020-05-27 2020-10-16 平安科技(深圳)有限公司 基于机器学习的sql语句安全检测方法、装置、设备及介质
CN111931489A (zh) * 2020-07-29 2020-11-13 中国工商银行股份有限公司 文本纠错方法、装置和设备
CN112052676A (zh) * 2020-08-31 2020-12-08 国网山东省电力公司荣成市供电公司 一种文本内容的处理方法、计算机设备及存储介质
CN112329390A (zh) * 2020-09-30 2021-02-05 海南大学 一种基于音形义的中文词相似度检测算法

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1232204A (zh) * 1998-04-16 1999-10-20 国际商业机器公司 手写汉字识别方法及装置
US20160292499A1 (en) * 2015-04-03 2016-10-06 Fuji Xerox Co., Ltd. Character recognition apparatus, character recognition processing system, and non-transitory computer readable medium
CN106815197A (zh) * 2015-11-27 2017-06-09 北京国双科技有限公司 文本相似度的确定方法和装置
CN106919681A (zh) * 2017-02-28 2017-07-04 东软集团股份有限公司 错别字的纠错方法和装置
CN109344396A (zh) * 2018-08-31 2019-02-15 阿里巴巴集团控股有限公司 文本识别方法、装置、及计算机设备
CN110929477A (zh) * 2018-09-03 2020-03-27 阿里巴巴集团控股有限公司 关键词变体的确定方法和装置
CN109918548A (zh) * 2019-04-08 2019-06-21 上海凡响网络科技有限公司 一种自动检测文档敏感信息的方法和应用
CN110097002A (zh) * 2019-04-30 2019-08-06 北京达佳互联信息技术有限公司 形近字确定方法、装置、计算机设备和存储介质
CN110610180A (zh) * 2019-09-16 2019-12-24 腾讯科技(深圳)有限公司 错别字词识别集的生成方法、装置、设备及存储介质
CN111159329A (zh) * 2019-12-24 2020-05-15 深圳市优必选科技股份有限公司 敏感词检测方法、装置、终端设备和计算机可读存储介质
CN111222590A (zh) * 2019-12-31 2020-06-02 咪咕文化科技有限公司 形近字确定方法、电子设备和计算机可读存储介质
CN111274785A (zh) * 2020-01-21 2020-06-12 北京字节跳动网络技术有限公司 一种文本纠错方法、装置、设备及介质
CN111783132A (zh) * 2020-05-27 2020-10-16 平安科技(深圳)有限公司 基于机器学习的sql语句安全检测方法、装置、设备及介质
CN111931489A (zh) * 2020-07-29 2020-11-13 中国工商银行股份有限公司 文本纠错方法、装置和设备
CN112052676A (zh) * 2020-08-31 2020-12-08 国网山东省电力公司荣成市供电公司 一种文本内容的处理方法、计算机设备及存储介质
CN112329390A (zh) * 2020-09-30 2021-02-05 海南大学 一种基于音形义的中文词相似度检测算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
郭瑞杰: "文本变异文本匹配识别技术研究", 《万方平台》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113554012A (zh) * 2021-09-22 2021-10-26 江西博微新技术有限公司 三维工程中图元模型分类方法、系统、设备及存储介质
CN114821566A (zh) * 2022-05-13 2022-07-29 北京百度网讯科技有限公司 文本识别方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112766236B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111259653B (zh) 基于实体关系消歧的知识图谱问答方法、系统以及终端
TWI690919B (zh) 語音關鍵字識別方法、裝置、終端、伺服器、電腦可讀儲存介質及電腦程式產品
CN111709243B (zh) 一种基于深度学习的知识抽取方法与装置
CN109271537B (zh) 一种基于蒸馏学习的文本到图像生成方法和系统
TWI662425B (zh) 一種自動生成語義相近句子樣本的方法
CN109522393A (zh) 智能问答方法、装置、计算机设备和存储介质
CN110781306B (zh) 一种英文文本的方面层情感分类方法及系统
CN112766236B (zh) 文本生成方法、装置、计算机设备及计算机可读存储介质
US11704487B2 (en) System and method for fashion attributes extraction
WO2020233131A1 (zh) 问答处理方法、装置、计算机设备和存储介质
CN106547737A (zh) 基于深度学习的自然语言处理中的序列标注方法
US11113335B2 (en) Dialogue system and computer program therefor
CN112417102A (zh) 一种语音查询方法、装置、服务器和可读存储介质
Rahimi et al. An overview on extractive text summarization
US20200279079A1 (en) Predicting probability of occurrence of a string using sequence of vectors
CN112183083A (zh) 文摘自动生成方法、装置、电子设备及存储介质
CN115062134B (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
KR20200087977A (ko) 멀티모달 문서 요약 시스템 및 방법
CN111125295A (zh) 一种基于lstm的获取食品安全问题答案的方法及系统
CN113806493A (zh) 一种用于互联网文本数据的实体关系联合抽取方法、装置
CN110263321B (zh) 一种情感词典构建方法及系统
CN110309252B (zh) 一种自然语言处理方法及装置
CN114138969A (zh) 文本处理方法及装置
JP2019082860A (ja) 生成プログラム、生成方法及び生成装置
CN117076636A (zh) 一种智能客服的信息查询方法、系统和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant