CN113962199A - 文本识别方法、装置、设备、存储介质及程序产品 - Google Patents

文本识别方法、装置、设备、存储介质及程序产品 Download PDF

Info

Publication number
CN113962199A
CN113962199A CN202111562047.3A CN202111562047A CN113962199A CN 113962199 A CN113962199 A CN 113962199A CN 202111562047 A CN202111562047 A CN 202111562047A CN 113962199 A CN113962199 A CN 113962199A
Authority
CN
China
Prior art keywords
picture
text
region
matching
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111562047.3A
Other languages
English (en)
Other versions
CN113962199B (zh
Inventor
张袁震宇
张西文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111562047.3A priority Critical patent/CN113962199B/zh
Publication of CN113962199A publication Critical patent/CN113962199A/zh
Application granted granted Critical
Publication of CN113962199B publication Critical patent/CN113962199B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种文本识别方法、装置、设备、存储介质及计算机程序产品;可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景;方法包括:对待识别文本进行图片转换,得到待识别文本对应的第一图片;对第一图片进行区域划分,得到第一图片包括的至少两个第一图片区域;针对每个第一图片区域,将第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度;结合至少两个第一图片区域所对应的匹配度,确定第一图片与各第二图片的图片匹配度;基于第一图片与各第二图片的图片匹配度,确定待识别文本归属于目标类型的文本的结果;通过本申请,能够扩大可识别文本的范围,提高文本类型识别的准确性。

Description

文本识别方法、装置、设备、存储介质及程序产品
技术领域
本申请涉及信息处理技术领域,尤其涉及一种文本识别方法、装置、设备、存储介质及计算机程序产品。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术广泛应用于文本处理领域。相关技术中,通常基于待识别文本和某类型的文本的文本相似度来进行文本类型的识别。但是,在面对形近文本、同音文本、增删字调整文本等变种文本时,虽然变种文本和某类型的文本之间的文本相似度很低,但是表达同一语义,属于该类型的文本。因此,基于文本相似度的文本类型识别方式,不仅能够识别的文本有限,准确性也低。
发明内容
本申请实施例提供一种文本识别方法、装置、设备、存储介质及计算机程序产品,能够扩大可识别文本的范围,提高文本类型识别的准确性。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种文本识别方法,包括:
对待识别文本进行图片转换,得到所述待识别文本对应的第一图片;
对所述第一图片进行区域划分,得到所述第一图片包括的至少两个第一图片区域;
针对每个所述第一图片区域,将所述第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度,其中,所述第二图片通过对目标类型的文本进行图片转换所得到;
结合所述至少两个第一图片区域所对应的匹配度,确定所述第一图片与各所述第二图片的图片匹配度;
基于所述第一图片与各所述第二图片的图片匹配度,确定所述待识别文本归属于所述目标类型的文本的结果。
上述方案中,所述对所述第一图片进行区域划分,得到所述图片包括的至少两个第一图片区域,包括:
对所述第一图片进行图片分割,得到所述第一图片包括的至少两个子图片;
将每个所述子图片对应的区域作为所述第一图片包括的第一图片区域,以得到所述第一图片包括的至少两个第一图片区域。
上述方案中,每个所述第二图片包括至少两个第二图片区域,所述第二图片区域的尺寸大小与所述第一图片区域的尺寸大小相同;
所述针对每个所述第一图片区域,将所述第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度,包括:
针对各所述第二图片,分别执行如下处理:
针对每个所述第一图片区域,将所述第一图片区域的内容与所述第二图片包括的各所述第二图片区域的内容进行相似度匹配,得到所述第一图片区域与各所述第二图片区域的匹配度;
所述结合所述至少两个第一图片区域所对应的匹配度,确定所述第一图片与各所述第二图片的图片匹配度,包括:
针对各所述第二图片,分别执行如下处理:
结合所述至少两个第一图片区域与各所述第二图片区域的匹配度,确定所述第一图片与各所述第二图片区域的区域匹配度;
基于所述第一图片与各所述第二图片区域的区域匹配度,确定所述第一图片与所述第二图片的图片匹配度。
上述方案中,所述基于所述第一图片与各所述第二图片区域的区域匹配度,确定所述第一图片与所述第二图片的图片匹配度,包括:
将所述第一图片与各所述第二图片区域的区域匹配度进行平均处理,并将处理得到的结果,确定为所述第一图片与所述第二图片的图片匹配度。
上述方案中,所述针对每个所述第一图片区域,将所述第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度,包括:
针对各所述第二图片,分别执行如下处理:
针对每个所述第一图片区域,对所述第一图片区域的内容进行特征提取,得到区域特征,并对所述第二图片的内容进行特征提取,得到图片特征;
确定所述区域特征和所述图片特征之间的特征相似度,并将所述特征相似度,确定为所述第一图片区域的内容与所述第二图片的内容的匹配度。
上述方案中,所述针对每个所述第一图片区域,将所述第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度,包括:
针对各所述第二图片,分别执行如下处理:
针对每个所述第一图片区域,将所述第一图片区域的内容进行向量转换,得到区域向量,并对所述第二图片的内容进行向量转换,得到图片向量;
确定所述区域向量和所述图片向量之间的向量距离,并将所述向量距离,确定为所述第一图片区域的内容与所述第二图片的内容的匹配度。
上述方案中,所述结合所述至少两个第一图片区域所对应的匹配度,确定所述第一图片与各所述第二图片的图片匹配度,包括:
针对各所述第二图片,分别执行如下处理:
当所述匹配度通过相似度表征时,从各所述第一图片区域与所述第二图片的相似度中,确定相似度最大值,并将所述相似度最大值确定为所述第一图片与所述第二图片的图片匹配度;
当所述匹配度通过距离表征时,从各所述第一图片区域与所述第二图片的距离中,确定距离最小值,并将所述距离最小值确定为所述第一图片与所述第二图片的图片匹配度。
上述方案中,所述对待识别文本进行图片转换,得到所述待识别文本对应的第一图片,包括:
确定所述待识别文本与所述目标类型的文本的文本相似度;
当所述文本相似度处于目标相似度区间时,对所述待识别文本进行图片转换,得到所述待识别文本对应的第一图片。
上述方案中,所述方法还包括:
当所述文本相似度低于所述目标相似度区间的最小值时,确定所述待识别文本不属于所述目标类型的文本;
当所述文本相似度高于所述目标相似度区间的最大值时,确定所述待识别文本属于所述目标类型的文本。
上述方案中,所述方法还包括:
获取多个候选文本,并对所述多个候选文本进行聚类处理,得到至少一个文本簇;
从所述至少一个文本簇中,确定归属于所述目标类型的目标文本簇、以及所述目标文本簇的簇中心文本;
对所述簇中心文本进行图片转换,得到所述至少一个第二图片。
上述方案中,所述方法还包括:
将所述至少一个第二图片存储至种子库中;
所述将所述第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度,包括:
从所述种子库中提取各所述第二图片,并将所述第一图片区域的内容与各所述第二图片的内容进行相似度匹配,得到相应的匹配度。
本申请实施例还提供一种文本识别装置,包括:
转换模块,用于对待识别文本进行图片转换,得到所述待识别文本对应的第一图片;
划分模块,用于对所述第一图片进行区域划分,得到所述第一图片包括的至少两个第一图片区域;
匹配模块,用于针对每个所述第一图片区域,将所述第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度,其中,所述第二图片通过对目标类型的文本进行图片转换所得到;
第一确定模块,用于结合所述至少两个第一图片区域所对应的匹配度,确定所述第一图片与各所述第二图片的图片匹配度;
第二确定模块,用于基于所述第一图片与各所述第二图片的图片匹配度,确定所述待识别文本归属于所述目标类型的文本的结果。
上述方案中,所述划分模块,还用于确定所述第一图片对应的具有目标尺寸大小的滑动窗口;
通过移动所述滑动窗口,对所述第一图片进行区域划分,得到所述第一图片包括的至少两个第一图片区域。
上述方案中,所述划分模块,还用于对所述第一图片进行图片分割,得到所述第一图片包括的至少两个子图片;
将每个所述子图片对应的区域作为所述第一图片包括的第一图片区域,以得到所述第一图片包括的至少两个第一图片区域。
上述方案中,每个所述第二图片包括至少两个第二图片区域,所述第二图片区域的尺寸大小与所述第一图片区域的尺寸大小相同;
所述匹配模块,还用于针对各所述第二图片,分别执行如下处理:
针对每个所述第一图片区域,将所述第一图片区域的内容与所述第二图片包括的各所述第二图片区域的内容进行相似度匹配,得到所述第一图片区域与各所述第二图片区域的匹配度;
所述第一确定模块,还用于针对各所述第二图片,分别执行如下处理:
结合所述至少两个第一图片区域与各所述第二图片区域的匹配度,确定所述第一图片与各所述第二图片区域的区域匹配度;
基于所述第一图片与各所述第二图片区域的区域匹配度,确定所述第一图片与所述第二图片的图片匹配度。
上述方案中,所述第一确定模块,还用于针对各所述第二图片区域,分别执行如下处理:
当所述匹配度通过相似度表征时,从各所述第一图片区域与所述第二图片区域的相似度中,确定相似度最大值,并将所述相似度最大值确定为所述第一图片与所述第二图片区域的区域匹配度;
当所述匹配度通过距离表征时,从各所述第一图片区域与所述第二图片区域的距离中,确定距离最小值,并将所述距离最小值确定为所述第一图片与所述第二图片区域的区域匹配度。
上述方案中,所述第一确定模块,还用于将所述第一图片与各所述第二图片区域的区域匹配度进行平均处理,并将处理得到的结果,确定为所述第一图片与所述第二图片的图片匹配度。
上述方案中,所述第一图片区域与所述第二图片区域中分别包括由至少一个像素构成的图片元素;
所述匹配模块,还用于针对各所述第二图片区域,分别执行如下处理:
针对所述第一图片区域中各第一图片元素,将所述第一图片元素与所述第二图片区域中相应位置处第二图片元素进行比较,得到比较结果;
基于所述比较结果,获取所述第一图片区域和所述第二图片区域中相同图片元素的第一数量;
获取所述第二图片区域包括的图片元素的第二数量,并将所述第一数量和所述第二数量的比值,确定为所述第一图片区域与所述第二图片区域的匹配度。
上述方案中,所述匹配模块,还用于针对各所述第二图片,分别执行如下处理:
针对每个所述第一图片区域,对所述第一图片区域的内容进行特征提取,得到区域特征,并对所述第二图片的内容进行特征提取,得到图片特征;
确定所述区域特征和所述图片特征之间的特征相似度,并将所述特征相似度,确定为所述第一图片区域的内容与所述第二图片的内容的匹配度。
上述方案中,所述匹配模块,还用于针对各所述第二图片,分别执行如下处理:
针对每个所述第一图片区域,将所述第一图片区域的内容进行向量转换,得到区域向量,并对所述第二图片的内容进行向量转换,得到图片向量;
确定所述区域向量和所述图片向量之间的向量距离,并将所述向量距离,确定为所述第一图片区域的内容与所述第二图片的内容的匹配度。
上述方案中,所述第一确定模块,还用于针对各所述第二图片,分别执行如下处理:
当所述匹配度通过相似度表征时,从各所述第一图片区域与所述第二图片的相似度中,确定相似度最大值,并将所述相似度最大值确定为所述第一图片与所述第二图片的图片匹配度;
当所述匹配度通过距离表征时,从各所述第一图片区域与所述第二图片的距离中,确定距离最小值,并将所述距离最小值确定为所述第一图片与所述第二图片的图片匹配度。
上述方案中,所述转换模块,还用于获取所述待识别文本对应的、具有目标尺寸大小的空白位图图片;
将所述空白位图图片中对应文本的目标像素置为1,并将所述空白位图图片中除所述目标像素之外的其他像素置为0,得到所述待识别文本对应的位图图片;
将所述位图图片作为所述待识别文本对应的第一图片。
上述方案中,所述第二确定模块,还用于当所述第一图片与各所述第二图片的图片匹配度中,存在超过匹配度阈值的图片匹配度时,确定所述待识别文本属于所述目标类型的文本;
当所述第一图片与各所述第二图片的图片匹配度中,不存在超过匹配度阈值的图片匹配度时,确定所述待识别文本不属于所述目标类型的文本。
上述方案中,所述转换模块,还用于将所述待识别文本,分别与至少一个所述目标类型的文本进行匹配,得到相应的匹配度;
当存在至少一个所述目标类型的文本与所述待识别文本的匹配度达到匹配度阈值时,对待识别文本进行图片转换,得到所述待识别文本对应的第一图片。
上述方案中,所述转换模块,还用于针对所述目标类型的各文本,分别执行如下处理:
确定所述待识别文本的第一最小哈希签名、以及所述目标类型的文本的第二最小哈希签名;
获取用于对最小哈希签名进行分段的签名分段方式;
按照所述签名分段方式对所述第一最小哈希签名进行分段,得到至少两个第一签名分段,并按照所述签名分段方式对所述第二最小哈希签名进行分段,得到至少两个第二签名分段;
获取与所述第一签名分段相同的第二签名分段的数量,并基于所述数量确定所述待识别文本与所述目标类型的文本的匹配度。
上述方案中,所述转换模块,还用于确定所述待识别文本与所述目标类型的文本的文本相似度;
当所述文本相似度处于目标相似度区间时,对所述待识别文本进行图片转换,得到所述待识别文本对应的第一图片。
上述方案中,所述第二确定模块,还用于当所述文本相似度低于所述目标相似度区间的最小值时,确定所述待识别文本不属于所述目标类型的文本;
当所述文本相似度高于所述目标相似度区间的最大值时,确定所述待识别文本属于所述目标类型的文本。
上述方案中,所述装置还包括:
聚类模块,用于获取多个候选文本,并对所述多个候选文本进行聚类处理,得到至少一个文本簇;
从所述至少一个文本簇中,确定归属于所述目标类型的目标文本簇、以及所述目标文本簇的簇中心文本;
对所述簇中心文本进行图片转换,得到所述至少一个第二图片。
上述方案中,所述聚类模块,还用于针对所述多个候选文本中的目标候选文本,执行如下处理:
获取多个处理进程的运行状态,并基于获取的运行状态,从所述多个处理进程中选取目标处理进程;
调用所述目标处理进程,对所述目标候选文本进行聚类处理,得到所述目标候选文本所归属的文本簇。
上述方案中,当存在至少一个原始文本簇时,所述聚类模块,还用于针对各所述候选文本,分别执行如下处理:
确定所述候选文本与各所述原始文本簇的簇中心文本的相似度;
当确定的多个相似度中的最大相似度超过相似度阈值时,将所述候选文本加入所述最大相似度对应的目标原始文本簇;
比较所述候选文本的长度和所述目标原始文本簇的簇中心文本的长度,当所述候选文本的长度小于所述目标原始文本簇的簇中心文本的长度时,更新所述目标原始文本簇的簇中心文本为所述候选文本;
当确定的多个相似度中的最大相似度未超过相似度阈值时,将所述候选文本作为新文本簇存在,并将所述候选文本作为所述新文本簇的簇中心文本。
上述方案中,所述聚类模块,还用于将所述至少一个第二图片存储至种子库中;
所述匹配模块,还用于从所述种子库中提取各所述第二图片,并将所述第一图片区域的内容与各所述第二图片的内容进行相似度匹配,得到相应的匹配度。
本申请实施例还提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的文本识别方法。
本申请实施例还提供一种计算机可读存储介质,存储有可执行指令,所述可执行指令被处理器执行时,实现本申请实施例提供的文本识别方法。
本申请实施例还提供一种计算机程序产品,包括计算机程序或指令,所述计算机程序或指令被处理器执行时,实现本申请实施例提供的文本识别方法。
本申请实施例具有以下有益效果:
在本申请实施例中,首先对待识别文本进行图片转换,并对图片转换得到的第一图片进行区域划分,得到第一图片包括的至少两个第一图片区域;然后针对每个第一图片区域,将第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度;再结合至少两个第一图片区域所对应的匹配度,确定第一图片与各第二图片的图片匹配度;从而基于第一图片与各第二图片的图片匹配度,确定待识别文本归属于目标类型的文本的结果。
如此,通过将待识别文本进行图片转换并基于图片匹配的方式,得到第一图片和第二图片的图片匹配度,由于该第二图片是通过对目标类型的文本进行图片转换得到的,使得可以基于该图片匹配度确定待识别文本归属于目标类型的结果。基于图片匹配不仅能够实现针对变种文本的类型识别,扩大可识别文本的范围;且采用对待处理文本的图片进行划分,并针对划分得到的每个图片区域进行相似度匹配的图片匹配方式,提高文本类型识别的准确性。
附图说明
图1是本申请实施例提供的文本识别系统100的架构示意图;
图2是本申请实施例提供的实施文本识别方法的电子设备500的结构示意图;
图3是本申请实施例提供的文本识别方法的流程示意图一;
图4是本申请实施例提供的文本识别方法的流程示意图二;
图5是本申请实施例提供的文本相似度计算模型的结构示意图;
图6是本申请实施例提供的通过滑动窗口对第一图片进行区域划分的示意图;
图7是本申请实施例提供的文本识别方法的流程示意图三;
图8是本申请实施例提供的待识别文本转换为图片的示意图;
图9是本申请实施例提供的文本识别方法的流程示意图四;
图10是本申请实施例提供的第一图片和第二图片进行匹配的示意图;
图11是本申请实施例提供的文本识别系统的架构示意图;
图12是本申请实施例提供的种子库的构建流程图;
图13是本申请实施例提供的文本聚类处理的流程示意图;
图14是本申请实施例提供的图片匹配的示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)客户端,终端中运行的用于提供各种服务的应用程序,例如即时通讯客户端、内容发布客户端。
2)响应于,用于表示所执行的操作所依赖的条件或者状态,当满足所依赖的条件或状态时,所执行的一个或多个操作可以是实时的,也可以具有设定的延迟;在没有特别说明的情况下,所执行的多个操作不存在执行先后顺序的限制。
本申请实施例提供一种文本识别方法、装置、设备、存储介质及计算机程序产品,能够扩大可识别文本的范围,提高文本类型识别的准确性。
下面说明本申请实施例提供的文本识别方法的实施场景。参见图1,图1是本申请实施例提供的文本识别系统100的架构示意图,为实现支撑一个示例性应用,终端400通过网络300连接服务器200,网络300可以是广域网或者局域网,又或者是二者的组合,使用无线或有线链路实现数据传输。
终端400,用于发送针对待识别文本归属于目标类型的文本的识别请求至服务器200;
服务器200,用于接收并响应于该识别请求,对待识别文本进行图片转换,得到待识别文本对应的第一图片;对第一图片进行区域划分,得到第一图片包括的至少两个第一图片区域;针对每个第一图片区域,将第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度,其中,第二图片通过对目标类型的文本进行图片转换所得到;结合至少两个第一图片区域所对应的匹配度,确定第一图片与各第二图片的图片匹配度;基于第一图片与各第二图片的图片匹配度,确定待识别文本归属于目标类型的文本的结果;并将待识别文本归属于目标类型的文本的结果返回至终端400;
终端400,用于显示待识别文本归属于目标类型的文本的结果。
在本申请实施例中,用户终端(例如终端400)包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。本申请实施例可应用于各种场景,包括但不限于云技术、人工智能、智慧交通、辅助驾驶等。
作为示例,终端400上可以设置有应用客户端,比如内容发布客户端、即时通讯客户端等。例如,终端400可以通过运行即时通讯客户端发送文本内容(比如即时通讯消息)至服务器200,以通过服务器200转发至其他终端,实现终端400与其他终端的即时通讯;再例如,终端400可以通过运行内容发布客户端发送文本内容(比如针对某个电影的影评内容)至服务器200,以通过服务器200转发至其他终端,以使得其他终端的用户能够看到终端400发布的文本内容,实现内容发布和分享的目的。当目标类型的文本为恶意文本时,若服务器200得到的结果表征待识别文本归属于目标类型的文本,即归属于恶意文本时,则对终端400发布的文本内容进行打击,比如对该文本内容进行屏蔽处理。若服务器200得到的结果表征待识别文本不归属于目标类型的文本,即不归属于恶意文本时,则将终端400发布的文本内容转发至其他终端。
作为示例,以按照文本类型进行文本分类的场景为例。当目标类型的文本为影评类型的文本时,若服务器200得到的结果表征待识别文本归属于目标类型的文本,即归属于影评类型的文本时,则将待识别文本分类至影评类型文本;当目标类型的文本为美食制作类型的文本时,若服务器200得到的结果表征待识别文本归属于目标类型的文本,即归属于美食制作类型的文本时,则将待识别文本分类至美食制作类型文本等。
在一些实施例中,本申请实施例提供的文本识别方法可以由各种电子设备实施,例如,可以由终端单独实施,也可以由服务器单独实施,也可以由终端和服务器协同实施。例如终端独自执行本申请实施例提供的文本识别方法,或者,终端向服务器发送文本识别请求,服务器根据接收的文本请求执行本申请实施例提供的文本识别方法。
在一些实施例中,本申请实施例提供的实施文本识别的电子设备可以是各种类型的终端设备或服务器,其中,服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能电视、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例对此不做限制。
在一些实施例中,终端或服务器可以通过运行计算机程序来实现本申请实施例提供的文本识别方法,举例来说,计算机程序可以是操作系统中的原生程序或软件模块;可以是本地(Native)应用程序(APP,Application),即需要在操作系统中安装才能运行的程序;也可以是小程序,即只需要下载到浏览器环境中就可以运行的程序;还可以是能够嵌入至任意APP中的小程序。总而言之,上述计算机程序可以是任意形式的应用程序、模块或插件。
在一些实施例中,多个服务器可组成为一区块链,而服务器为区块链上的节点,区块链中的每个节点之间可以存在信息连接,节点之间可以通过上述信息连接进行信息传输。其中,本申请实施例提供的文本识别方法所相关的数据(例如至少一个第二图片)可保存于区块链上。
下面说明本申请实施例提供的实施文本识别方法的电子设备。参见图2,图2是本申请实施例提供的实施文本识别方法的电子设备500的结构示意图。以电子设备500为图1所示的服务器为例,本申请实施例提供的实施文本识别方法的电子设备500包括:至少一个处理器510、存储器550、至少一个网络接口520和用户接口530。电子设备500中的各个组件通过总线系统540耦合在一起。可理解,总线系统540用于实现这些组件之间的连接通信。总线系统540除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统540。
处理器510可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口530包括使得能够呈现媒体内容的一个或多个输出装置531,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口530还包括一个或多个输入装置532,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器550可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器550可选地包括在物理位置上远离处理器510的一个或多个存储设备。
存储器550包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器550旨在包括任意适合类型的存储器。
在一些实施例中,存储器550能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统551,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块552,用于经由一个或多个(有线或无线)网络接口520到达其他计算设备,示例性的网络接口520包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
呈现模块553,用于经由一个或多个与用户接口530相关联的输出装置531(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块554,用于对一个或多个来自一个或多个输入装置532之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的文本识别装置可以采用软件方式实现,图2示出了存储在存储器550中的文本识别装置555,其可以是程序和插件等形式的软件,包括以下软件模块:转换模块5551、划分模块5552、匹配模块5553、第一确定模块5554和第二确定模块5555,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的文本识别装置可以采用软硬件结合的方式实现,作为示例,本申请实施例提供的文本识别装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的文本识别方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific IntegratedCircuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
下面说明本申请实施例提供的文本识别方法。在一些实施例中,本申请实施例提供的文本识别方法可以由各种电子设备实施,例如,可以由终端单独实施,也可以由服务器单独实施,也可以由终端和服务器协同实施。以服务器实施为例,参见图3,图3是本申请实施例提供的文本识别方法的流程示意图,本申请实施例提供的文本识别方法包括:
步骤101:服务器对待识别文本进行图片转换,得到待识别文本对应的第一图片。
这里,服务器对待识别文本进行识别,确定待识别文本归属于目标类型的文本的结果。在实际应用中,服务器首先对待识别文本进行图片转换,得到待识别文本对应的第一图片。在实际实施中,可以将待识别文本转换为二进制位图图片,也可以对待识别文本进行截图,得到截图图片。
在一些实施例中,服务器可通过如下方式对待识别文本进行图片转换,得到待识别文本对应的第一图片:将待识别文本,分别与至少一个目标类型的文本进行匹配,得到相应的匹配度;当存在至少一个目标类型的文本与待识别文本的匹配度达到匹配度阈值时,对待识别文本进行图片转换,得到待识别文本对应的第一图片。
这里,服务器在对待识别文本进行图片转换以基于图片匹配方式确定待识别文本归属于目标类型的结果时,可以在图片转换之前,先对待识别文本进行文本匹配,即,将待识别文本与目标类型的文本进行匹配,得到相应的匹配度。在实际实施时,将待识别文本与目标类型的文本进行匹配可以通过最小哈希算法(即MinHash算法)、或者基于正则表达式的匹配算法等方式来实现。
在实际应用中,将待识别文本与目标类型的文本进行匹配是一个模糊匹配的过程,即在进行图片匹配之前,首先通过文本匹配方式确定待识别文本归属于目标类型的结果,如果文本匹配方式可以确定待识别文本不归属于目标类型的结果,那么则无需执行后续的图片匹配过程,从而降低计算量,减少硬件处理资源的占用。当基于待识别文本与目标类型的文本的匹配度,确定存在至少一个目标类型的文本与待识别文本的匹配度达到匹配度阈值时,则认为该待识别文本可能归属于目标类型的文本,此时可以对待识别文本进行图片转换,得到待识别文本对应的第一图片,以基于图片匹配实现待识别文本的精确匹配。
在一些实施例中,服务器可通过如下方式将待识别文本,分别与目标类型的至少一个文本进行匹配,得到相应的匹配度:
针对目标类型的各文本,分别执行如下处理:确定待识别文本的第一最小哈希签名、以及目标类型的文本的第二最小哈希签名;获取用于对最小哈希签名进行分段的签名分段方式;按照签名分段方式对第一最小哈希签名进行分段,得到至少两个第一签名分段,并按照签名分段方式对第二最小哈希签名进行分段,得到至少两个第二签名分段;获取与第一签名分段相同的第二签名分段的数量,并基于数量确定待识别文本与目标类型的文本的匹配度。
在实际实施时,可以基于MinHash算法确定待识别文本的第一最小哈希签名、以及目标类型的文本的第二最小哈希签名。然后获取用于对最小哈希签名进行分段的签名分段方式,比如签名分段方式可以是按照签名分段为目标长度对最小哈希签名进行分段等。按照签名分段方式对第一最小哈希签名进行分段,得到至少两个第一签名分段,并按照签名分段方式对第二最小哈希签名进行分段,得到至少两个第二签名分段。获取与第一签名分段相同的第二签名分段的数量,并基于数量确定待识别文本与目标类型的文本的匹配度,具体地,可以获取第二签名分段的总数量,将与第一签名分段相同的第二签名分段的数量和第二签名分段的总数量的比值,确定为待识别文本与目标类型的文本的匹配度。
参见图4,图4是本申请实施例提供的文本识别方法的流程示意图,包括:步骤1011:服务器确定待识别文本的第一最小哈希签名、以及目标类型的各文本的第二最小哈希签名;步骤1012:获取用于对最小哈希签名进行分段的签名分段方式;步骤1013:按照签名分段方式对第一最小哈希签名进行分段,得到至少两个第一签名分段,并按照签名分段方式对各第二最小哈希签名进行分段,得到至少两个第二签名分段;步骤1014:获取与第一签名分段相同的第二签名分段的数量,并基于数量确定待识别文本与目标类型的各文本的匹配度;步骤1015:当存在至少一个目标类型的文本与待识别文本的匹配度达到匹配度阈值时,对待识别文本进行图片转换,得到待识别文本对应的第一图片。
在一些实施例中,服务器可通过如下方式对待识别文本进行图片转换,得到待识别文本对应的第一图片:确定待识别文本与目标类型的文本的文本相似度;当文本相似度处于目标相似度区间时,对待识别文本进行图片转换,得到待识别文本对应的第一图片;当文本相似度低于目标相似度区间的最小值时,确定待识别文本不属于目标类型的文本;当文本相似度高于目标相似度区间的最大值时,确定待识别文本属于目标类型的文本。
这里,服务器在对待识别文本进行图片转换以基于图片匹配方式确定待识别文本归属于目标类型的结果时,可以在图片转换之前,先对待识别文本进行文本匹配,即确定待识别文本与目标类型的文本的文本相似度。在实际实施时,文本相似度的确定可以通过文本关键词匹配、语义匹配等方式来实现。以通过Word2vec模型计算待识别文本和恶意文本(即目标类型的文本)的文本相似度计算为例,如图5所示,图5是本申请实施例提供的文本相似度计算模型的结构示意图。这里,该文本相似度计算模型为Word2vec模型,Word2vec模型通过全连接神经网络模型将文本(待识别文本、或者恶意文本)中各个词转换成词向量后,对词向量进行相加得到相应文本的特征向量;从而可以通过余弦距离来计算待识别文本的特征向量和恶意文本的特征向量的向量相似度,以得到待识别文本和恶意文本的文本相似度。
在实际应用中,将待识别文本与目标类型的文本进行文本匹配是一个模糊匹配的过程,即在进行图片匹配之前,首先通过文本匹配方式确定待识别文本归属于目标类型的结果,如果文本匹配方式可以确定待识别文本归属于目标类型的结果,那么则无需执行后续的图片匹配过程,从而降低计算量,减少硬件处理资源的占用。
因此,针对文本匹配方式需要设置对应的指示标准,以指示是否能够通过文本匹配方式确定待识别文本归属于目标类型的结果。在实际应用中,该指示标准,可以通过待识别文本与目标类型的文本的文本相似度是否处于目标相似度区间来表征。该目标相似度区间可以是预设的,比如[20%,80%]。
具体地,当文本相似度低于目标相似度区间的最小值时,则确定待识别文本不属于目标类型的文本;当文本相似度高于目标相似度区间的最大值时,则确定待识别文本属于目标类型的文本。即,文本相似度不处于目标相似度区间时,能够通过文本匹配方式确定待识别文本归属于目标类型的结果,则无需执行后续的图片匹配过程。相应的,当文本相似度处于目标相似度区间时,则需要执行后续的图片匹配过程以进行精确匹配,即首先对待识别文本进行图片转换,得到待识别文本对应的第一图片,以继续后续图片匹配过程。
步骤102:对第一图片进行区域划分,得到第一图片包括的至少两个第一图片区域。
这里,服务器得到待识别文本对应的第一图片后,对第一图片进行区域划分,得到第一图片包括的至少两个第一图片区域。在实际应用中,可以获取第一图片对应的图片划分方式,从而根据图片划分方式对第一图片进行区域划分,在实际实施时,该图片划分方式可以包括所要划分得到的每个第一图片区域的尺寸大小、所要划分得到的第一图片区域的总数量、是否通过滑动窗口进行区域划分、是否通过图片分割进行区域划分等等。
在一些实施例中,服务器可通过如下方式对第一图片进行区域划分,得到图片包括的至少两个第一图片区域:确定第一图片对应的具有目标尺寸大小的滑动窗口;通过移动滑动窗口,对第一图片进行区域划分,得到第一图片包括的至少两个第一图片区域。
这里,通过滑动窗口对第一图片进行区域划分。在实际应用中,首先确定第一图片对应的具有目标尺寸大小的滑动窗口,该目标尺寸大小可以是预先设置的,也可以是根据第一图片的尺寸大小所确定的;然后通过在第一图片上移动滑动窗口实现对第一图片的区域划分,得到第一图片包括的至少两个第一图片区域,在实际实施时,可以预先设置滑动窗口的起始位置、移动方向以及移动步长,该移动步长可以预先设置,也可以根据第一图片的长宽比和包含的字符型号大小所确定。
作为示例,参见图6,图6是本申请实施例提供的通过滑动窗口对第一图片进行区域划分的示意图。这里,每个方格代表1个字符,滑动窗口的目标尺寸大小为1个字符,起始位置为第一图片的最左端,移动方向是由左向右移动,移动步长为1个字符;如此,在滑动窗口从第一图片的最左端开始,按照每步1字符的步长向右移动,实现对第一图片的区域划分,得到第一图片包括的每个第一图片区域,即滑动窗口在每次移动后所覆盖的区域。
在一些实施例中,服务器可通过如下方式对第一图片进行区域划分,得到图片包括的至少两个第一图片区域:对第一图片进行图片分割,得到第一图片包括的至少两个子图片;将每个子图片对应的区域作为第一图片包括的第一图片区域,以得到第一图片包括的至少两个第一图片区域。
这里,通过图片分割对第一图片进行区域划分。在实际应用中,可以预先设置所要划分得到的第一图片区域的尺寸大小、所要划分得到的第一图片区域的数量。例如,可以设置所要划分得到的第一图片区域的数量,比如4个,那么则可以对第一图片进行4分割,得到4个子图片,可以是平均分割,也可以是非平均分割;或者设置所要划分得到的第一图片区域的尺寸大小,那么则可以按照该尺寸大小对第一图片进行图片分割,得到多个子图片,在实际实施时,针对剩余不足该尺寸大小的区域也同样作为子图片存在。如此,在得到第一图片包括的至少两个子图片后,将每个子图片对应的区域作为第一图片包括的第一图片区域,以得到第一图片包括的至少两个第一图片区域。
步骤103:针对每个第一图片区域,将第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度。
其中,第二图片通过对目标类型的文本进行图片转换所得到。
这里,通过将每个第一图片区域,分别与通过对目标类型的文本进行图片转换所得到的第二图片进行相似度匹配,来确定第一图片归属于目标类型的结果。作为示例,当本申请实施例提供的文本识别方法用于内容安全场景(比如直播场景、内容发布场景、消息通讯场景、地图场景(比如地图广告)等)时,该目标类型的文本可以为恶意文本、不符合规范(如网络安全规范)的文本等等,当识别到待识别文本为该目标类型的文本时,则可以对待识别文本进行打击,比如屏蔽处理,以使得用户终端不显示该目标类型的文本。作为示例,当本申请实施例提供的文本识别方法用于文本分类场景时,该目标类型的文本可以包括:评论文本、书籍文本、目标对象(比如电器、车辆)的说明文本等等,当识别到待识别文本为目标类型的文本时,则将待识别文本加入到相应的目标类型的文本中。
即,服务器得到第一图片包括的至少两个第一图片区域后,针对每个第一图片区域分别执行如下处理:将第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度。如此,得到每个第一图片区域分别和至少一个第二图片的匹配度。
在一些实施例中,服务器可通过如下方式针对每个第一图片区域,将第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度:针对各第二图片,分别执行如下处理:针对每个第一图片区域,对第一图片区域的内容进行特征提取,得到区域特征,并对第二图片的内容进行特征提取,得到图片特征;确定区域特征和图片特征之间的特征相似度,并将特征相似度,确定为第一图片区域的内容与第二图片的内容的匹配度。
这里,可通过特征相似度匹配的方式确定每个第一图片区域分别和至少一个第二图片的匹配度。在实际应用中,服务器可针对各第二图片分别执行如下处理:针对每个第一图片区域,首先,对第一图片区域的内容进行特征提取,得到区域特征,并对第二图片的内容进行特征提取,得到图片特征;在实际实施时,可以通过尺度不变特征变换(Scale-invariant feature transform,SIFT)特异点检测算法实现特征提取,还可以通过预训练的深度学习模型实现特征提取。然后,确定区域特征和图片特征之间的特征相似度,并将特征相似度确定为第一图片区域的内容与第二图片的内容的匹配度。
在一些实施例中,服务器可通过如下方式针对每个第一图片区域,将第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度:针对各第二图片,分别执行如下处理:针对每个第一图片区域,将第一图片区域的内容进行向量转换,得到区域向量,并对第二图片的内容进行向量转换,得到图片向量;确定区域向量和图片向量之间的向量距离,并将向量距离,确定为第一图片区域的内容与第二图片的内容的匹配度。
这里,可通过计算向量距离的方式确定每个第一图片区域分别和至少一个第二图片的匹配度。在实际应用中,服务器可针对各第二图片分别执行如下处理:针对每个第一图片区域,首先,对第一图片区域的内容进行向量转换,区域向量,并对第二图片的内容进行向量转换,得到图片向量。然后,确定区域向量和图片向量之间的向量距离,并将向量距离确定为第一图片区域的内容与第二图片的内容的匹配度;在实际实施时,可以计算区域向量和图片向量之间的欧式距离、切比雪夫距离、或者余弦距离等。
步骤104:结合至少两个第一图片区域所对应的匹配度,确定第一图片与各第二图片的图片匹配度。
这里,当服务器确定每个第一图片区域分别和至少一个第二图片的匹配度后,得到该至少两个图片区域所对应的匹配度,从而结合该至少两个第一图片区域所对应的匹配度,确定第一图片与各第二图片的图片匹配度。
在一些实施例中,服务器可通过如下方式结合至少两个第一图片区域所对应的匹配度,确定第一图片与各第二图片的图片匹配度:
针对各第二图片,分别执行如下处理:当匹配度通过相似度表征时,从各第一图片区域与第二图片的相似度中,确定相似度最大值,并将相似度最大值确定为第一图片与第二图片的图片匹配度;当匹配度通过距离表征时,从各第一图片区域与第二图片的距离中,确定距离最小值,并将距离最小值确定为第一图片与第二图片的图片匹配度。
这里,该图片匹配度可通过相似度表征,也可以通过距离表征。针对各第二图片,可分别执行如下处理,以确定第一图片与各第二图片的图片匹配度:
当匹配度通过相似度表征时,相似度和匹配度之间呈正相关关系,即相似度越高,匹配度越高,因此,可以从各第一图片区域与第二图片的相似度中确定相似度最大值,然后将相似度最大值确定为第一图片与第二图片的图片匹配度。当匹配度通过距离表征时,距离和匹配度之间呈负相关关系,即距离越小,匹配度越高,因此,可以从各第一图片区域与第二图片的距离中确定距离最小值,然后将距离最小值确定为第一图片与第二图片的图片匹配度。
在一些实施例中,每个第二图片包括至少两个第二图片区域,第二图片区域的尺寸大小与第一图片区域的尺寸大小相同;基于此,服务器可通过如下方式针对每个第一图片区域,将第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度:
针对各第二图片,分别执行如下处理:针对每个第一图片区域,将第一图片区域的内容与第二图片包括的各第二图片区域的内容进行相似度匹配,得到第一图片区域与各第二图片区域的匹配度;
相应的,服务器可通过如下方式结合至少两个第一图片区域所对应的匹配度,确定第一图片与各第二图片的图片匹配度:
针对各第二图片,分别执行如下处理:结合至少两个第一图片区域与各第二图片区域的匹配度,确定第一图片与各第二图片区域的区域匹配度;基于第一图片与各第二图片区域的区域匹配度,确定第一图片与第二图片的图片匹配度。
这里,每个第二图片也包括至少两个第二图片区域,该第二图片区域的尺寸大小与第一图片区域的尺寸大小相同。当将第一图片区域的内容与至少一个第二图片的内容进行相似度匹配时,可以将第一图片区域的内容与第二图片包括的各第二图片区域的内容进行相似度匹配,得到第一图片区域与各第二图片区域的匹配度。然后结合至少两个第一图片区域与各第二图片区域的匹配度,确定第一图片与各第二图片区域的区域匹配度。从而可以基于第一图片与各第二图片区域的区域匹配度,确定第一图片与第二图片的图片匹配度。
参见图7,图7是本申请实施例提供的文本识别方法的流程示意图。这里,包括:步骤1031:针对各第二图片,分别执行如下处理:针对每个第一图片区域,将第一图片区域的内容与第二图片包括的各第二图片区域的内容进行相似度匹配,得到第一图片区域与各第二图片区域的匹配度;步骤1041:针对各第二图片,分别执行如下处理:结合至少两个第一图片区域与各第二图片区域的匹配度,确定第一图片与各第二图片区域的区域匹配度;步骤1042:针对各第二图片,分别执行如下处理:基于第一图片与各第二图片区域的区域匹配度,确定第一图片与第二图片的图片匹配度。
在一些实施例中,服务器可通过如下方式对待识别文本进行图片转换,得到待识别文本对应的第一图片:获取待识别文本对应的、具有目标尺寸大小的空白位图图片;将空白位图图片中对应文本的目标像素置为1,并将空白位图图片中除目标像素之外的其他像素置为0,得到待识别文本对应的位图图片;将位图图片作为待识别文本对应的第一图片。
在本申请实施例中,对待识别文本进行图片转换时,是将待识别文本转换为二进制位图图片,该二进制位图图片中,对应文本的目标像素置为1,除目标像素之外的其他像素置为0。参见图8,图8是本申请实施例提供的待识别文本转换为图片的示意图。这里,对于待识别文本“今天”可以转换成第一图片,该第一图片为二进制位图图片,该二进制位图图片中对应文本的目标像素(也可称为图片元素)通过1表示,对应非文本的其他像素(即空白部分的图片元素)通过0表示。
在一些实施例中,第一图片区域与第二图片区域中分别包括由至少一个像素构成的图片元素;基于此,服务器可通过如下方式将第一图片区域的内容与第二图片包括的各第二图片区域的内容进行相似度匹配,得到第一图片区域与各第二图片区域的匹配度:
针对各第二图片区域,分别执行如下处理:针对第一图片区域中各第一图片元素,将第一图片元素与第二图片区域中相应位置处第二图片元素进行比较,得到比较结果;基于比较结果,获取第一图片区域和第二图片区域中相同图片元素的第一数量;获取第二图片区域包括的图片元素的第二数量,并将第一数量和第二数量的比值,确定为第一图片区域与第二图片区域的匹配度。
这里,将第一图片区域的内容与第二图片包括的各第二图片区域的内容进行相似度匹配时,可以进行像素的相似度匹配。具体地,第一图片区域与第二图片区域中分别包括由至少一个像素构成的图片元素;可以针对各第二图片区域,分别执行如下处理:针对第一图片区域中各第一图片元素,将第一图片元素与第二图片区域中相应位置处第二图片元素进行比较,得到比较结果,比如将位于第一图片区域左起第一个第一图片元素,与第二图片区域中左起第一个第二图片元素进行比较,得到比较结果。
然后,基于比较结果,获取第一图片区域和第二图片区域中相同图片元素的第一数量;获取第二图片区域包括的图片元素的第二数量,并将第一数量和第二数量的比值,确定为第一图片区域与第二图片区域的匹配度。
在一些实施例中,服务器可通过如下方式结合至少两个第一图片区域与各第二图片区域的匹配度,确定第一图片与各第二图片区域的区域匹配度:
针对各第二图片区域,分别执行如下处理:当匹配度通过相似度表征时,从各第一图片区域与第二图片区域的相似度中,确定相似度最大值,并将相似度最大值确定为第一图片与第二图片区域的区域匹配度;当匹配度通过距离表征时,从各第一图片区域与第二图片区域的距离中,确定距离最小值,并将距离最小值确定为第一图片与第二图片区域的区域匹配度。
这里,该区域匹配度可通过相似度表征,也可以通过距离表征。针对各第二图片区域,可分别执行如下处理,以确定第一图片与各第二图片区域的区域匹配度:
当匹配度通过相似度表征时,相似度和匹配度之间呈正相关关系,即相似度越高,匹配度越高,因此,可以从各第一图片区域与第二图片区域的相似度中确定相似度最大值,然后将相似度最大值确定为第一图片与第二图片区域的区域匹配度。当匹配度通过距离表征时,距离和匹配度之间呈负相关关系,即距离越小,匹配度越高,因此,可以从各第一图片区域与第二图片区域的距离中确定距离最小值,然后将距离最小值确定为第一图片与第二图片区域的图片匹配度。
在一些实施例中,服务器可通过如下方式基于第一图片与各第二图片区域的区域匹配度,确定第一图片与第二图片的图片匹配度:将第一图片与各第二图片区域的区域匹配度进行平均处理,并将处理得到的结果,确定为第一图片与第二图片的图片匹配度。
这里,针对各第二图片分别执行如下处理,以确定第一图片与各第二图片的图片匹配度:
上述实施例确定了第一图片分别与第二图片包括的各第二图片区域的区域匹配度,此时,则可以基于第一图片与第二图片包括的各第二图片区域的区域匹配度,来确定第一图片与第二图片的图片匹配度。在实际应用中,可以将第一图片与各第二图片区域的区域匹配度进行平均处理,然后将平均处理得到的结果,作为第一图片与第二图片的图片匹配度。具体地,将第一图片与各第二图片区域的区域匹配度进行加和,得到加和结果,然后获取第二图片区域的区域数量,然后将加和结果和区域数量之间的比值作为平均处理得到的结果。
步骤105:基于第一图片与各第二图片的图片匹配度,确定待识别文本归属于目标类型的文本的结果。
这里,服务器在确定第一图片和各第二图片的图片相似度之后,根据第一图片与各第二图片的图片匹配度,确定待识别文本归属于目标类型的文本的结果。在实际应用中,该待识别文本归属于目标类型的文本的结果可以包括:待识别文本归属于目标类型的文本、待识别文本不归属于目标类型的文本。
在一些实施例中,当本申请实施例提供的文本识别方法用于内容安全场景(比如直播场景、内容发布场景、消息通讯场景、地图场景等)时,该目标类型的文本可以为恶意文本、不符合规范(如网络安全规范)的文本等等,当某个用户发布内容或消息时,服务器识别到待识别文本(即发布的内容或消息)为该目标类型的文本时,则可以对待识别文本进行打击,比如屏蔽处理,以使得用户终端不显示该目标类型的文本,提高内容安全性。
在另一些实施例中,当本申请实施例提供的文本识别方法用于文本分类场景时,该目标类型的文本可以包括:评论文本、书籍文本、目标对象(比如电器)的说明文本等等,当服务器接收到用户终端的文本识别指令,并识别到待识别文本为目标类型的文本时,则将待识别文本加入到相应的目标类型的文本中。同时,还可以返回待识别文本为目标类型的文本的结果至用户终端并显示。
在一些实施例中,服务器可通过如下方式基于第一图片与各第二图片的图片匹配度,确定待识别文本归属于目标类型的文本的结果:当第一图片与各第二图片的图片匹配度中,存在超过匹配度阈值的图片匹配度时,确定待识别文本属于目标类型的文本;当第一图片与各第二图片的图片匹配度中,不存在超过匹配度阈值的图片匹配度时,确定待识别文本不属于目标类型的文本。
这里,可以预先设置匹配度阈值,如此,可以基于第一图片与各第二图片的图片匹配度是否超过匹配度阈值,来确定待识别文本归属于目标类型的文本的结果。当第一图片与各第二图片的图片匹配度中,存在超过匹配度阈值的图片匹配度时,则确定待识别文本属于目标类型的文本;当第一图片与各第二图片的图片匹配度中,不存在超过匹配度阈值的图片匹配度时,则确定待识别文本不属于目标类型的文本。
在实际应用中,当目标类型的文本为不符合内容安全规定的文本、且确定待识别文本属于目标类型的文本时,则可以对待识别文本进行打击处理,比如对待识别文本进行屏蔽处理、拦截处理等。
作为示例,参见图9,图9是本申请实施例提供的文本识别方法的流程示意图。这里,包括:
步骤201:服务器对待识别文本进行图片转换,得到待识别文本对应的第一图片;
步骤202:对第一图片进行区域划分,得到第一图片包括的至少两个第一图片区域。
步骤203:针对各第二图片区域,分别执行如下处理,以得到第一图片与各第二图片区域的区域匹配度:步骤2031:针对每个第一图片区域中各第一图片元素,将第一图片元素与第二图片区域中相应位置处第二图片元素进行比较,得到比较结果;步骤2032:基于比较结果,获取第一图片区域和第二图片区域中相同图片元素的第一数量;步骤2033:获取第二图片区域包括的图片元素的第二数量,并将第一数量和第二数量的比值,确定为第一图片区域与第二图片区域的匹配度;步骤2034:当匹配度通过距离表征时,从各第一图片区域与第二图片区域的距离中,确定距离最小值,并将距离最小值确定为第一图片与第二图片区域的区域匹配度。
参见图10,图10是本申请实施例提供的第一图片和第二图片进行匹配的示意图。这里,第一图片800包括3个第一图片区域:810、820和830,第二图片900也包括3个第二图片区域:910、920和930。第一图片的滑动窗口位于第一图片的最左端的第一图片区域810,移动方向是由左向右移动,移动步长为1个图片区域。第二图片的滑动窗口位于第二图片的最左端的第二图片区域910,移动方向是由左向右移动,移动步长为1个图片区域。
当第一图片的滑动窗口位于第一图片的最左端的第一图片区域810、第二图片的滑动窗口位于第二图片的最左端的第二图片区域910时,将810的内容与910的内容进行相似度匹配,得到810和910的匹配度;保持第一图片的滑动窗口不动,向右移动第二图片的滑动窗口依次经过920和930,将810的内容与920的内容进行相似度匹配,得到810和920的匹配度,将810的内容与930的内容进行相似度匹配,得到810和930的匹配度。如此,得到第一图片区域810与各第二图片区域(包括910、920和930)的匹配度。
向右移动第一图片的滑动窗口依次经过820和830,并重复上述810的匹配过程,得到820与各第二图片区域(包括910、920和930)的匹配度、以及得到830与各第二图片区域(包括910、920和930)的匹配度。如此,得到各第一图片区域(包括810、820和830)与各第二图片区域(包括910、920和930)的匹配度。
当匹配度通过距离表征时,针对各第二图片区域(包括910、920和930),分别执行如下处理:从各第一图片区域(包括810、820和830)与第二图片区域(比如910)的距离中选择距离最小值,将距离最小值作为第一图片800与第二图片区域(比如910)的匹配度。如此,得到第一图片与各第二图片区域(包括910、920和930)的匹配度。
步骤204:将第一图片与各第二图片区域的区域匹配度进行平均处理,并将处理得到的结果,确定为第一图片与第二图片的图片匹配度。
这里,继续地,将第一图片800与各第二图片区域(包括910、920和930)的匹配度进行平均处理,得到第一图片800和第二图片900的图片匹配度。
步骤205:基于第一图片与各第二图片的图片匹配度,确定待识别文本归属于目标类型的文本的结果。
下面说明上述至少一个第二图片的获取流程。在一些实施例中,服务器可通过如下方式获取至少一个第二图片:获取多个候选文本,并对多个候选文本进行聚类处理,得到至少一个文本簇;从至少一个文本簇中,确定归属于目标类型的目标文本簇、以及目标文本簇的簇中心文本;对簇中心文本进行图片转换,得到至少一个第二图片。
这里,上述至少一个第二图片可通过如下方式得到:获取多个候选文本,在实际应用中,该候选文本可以是业务场景(比如内容发布场景、直播场景、即时通信消息场景等)的历史文本。当获取到多个候选文本后,对该多个候选文本进行聚类处理,得到至少一个文本簇。在实际实施时,可以采用单程聚类算法(即SinglePass算法)、K均值聚类算法、基于密度的聚类算法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)或者基于神经网络模型的聚类方式来实现。
当对多个候选文本进行聚类处理,得到至少一个文本簇后,从至少一个文本簇中确定归属于目标类型的目标文本簇。在实际实施时,可以通过人工标注的方式确定归属于目标类型的目标文本簇,还可以通过预训练的神经网络模型来进行预测处理,以确定归属于目标类型的目标文本簇。
当确定归属于目标类型的目标文本簇后,确定目标文本簇的簇中心文本。在实际应用中,可以从目标文本簇所包含的各个文本中,选取字符(字词)含量最少(即文本长度最短)的文本作为簇中心文本,该簇中心文本为代表相应目标文本簇的典型文本。当确定目标文本簇的簇中心文本后,对簇中心文本进行图片转换,得到至少一个第二图片。
在一些实施例中,服务器可通过如下方式对多个候选文本进行聚类处理,得到至少一个文本簇:针对多个候选文本中的目标候选文本,执行如下处理:获取多个处理进程的运行状态,并基于获取的运行状态,从多个处理进程中选取目标处理进程;调用目标处理进程,对目标候选文本进行聚类处理,得到目标候选文本所归属的文本簇。
这里,可以采用多个处理进程对候选文本进行聚类处理。可以针对多个候选文本中的目标候选文本,执行如下处理,以对目标候选文本进行聚类处理,得到至少一个文本簇:首先获取多个处理进程的运行状态,该运行状态可以包括空闲状态和工作状态;然后基于获取的运行状态,从多个处理进程中选取目标处理进程,即从多个处理进程中选取运行状态为空闲状态的目标处理进程;最后调用目标处理进程,对目标候选文本进行聚类处理,得到目标候选文本所归属的文本簇,在实际实施时,可以将目标候选文本发送至目标处理进程,目标处理进程接收到该目标候选文本后,对目标候选文本进行聚类处理,确定目标候选文本所归属的文本簇,然后将该目标候选文本加入至该文本簇。
在实际应用中,上述多个候选文本中的目标候选文本,可以是从多个候选文本中随机选中的候选文本;上述多个候选文本中的目标候选文本,还可以是按照候选文本的聚类处理顺序所确定的候选文本,比如该多个候选文本可以构成文本队列,文本队列中每个候选文本对应设置有相应的聚类处理顺序,如此,则可以按照该聚类处理顺序,从多个候选文本中确定待处理的目标候选文本。
在另外一些实施例中,由于上述聚类过程是通过多个处理进程来实现的,因此还可以将多个处理进程聚类得到的多个文本簇进一步进行聚类。基于此,上述多个处理进程可以认为是子处理进程,对多个处理进程聚类得到的多个文本簇进一步进行聚类可以通过父处理进程来实现。即调用父处理进程,对多个子处理进程聚类得到的多个文本簇进一步进行聚类处理。
在实际应用中,上述聚类得到的多个文本簇可能数量较多,因此可以对文本簇进行筛选,从而对筛选后的文本簇中确定归属于目标类型的目标文本簇。在实际实施时,可以对多个文本簇进行排序,具体地,可以按照文本簇中包含的文本的数量进行降序排序;或者按照文本簇对应的生命周期(在聚类过程,如果某个文本簇中加入一个候选文本,即当前处理的候选文本确定属于该文本簇时,则对该文本簇的生命周期+1,依次类推)进行降序排序。基于此,则可以基于排序后的多个文本簇,选取排序靠前的目标数量的文本簇,然后从选取的目标数量的文本簇中确定归属于目标类型的目标文本簇。如此,可以减少从文本簇中确定归属于目标类型的目标文本簇时所需要的计算量,减少硬件资源占用;如果是通过人工标注的方式确定归属于目标类型的目标文本簇,则还可以减少人力资源的浪费,节约人力成本。
在一些实施例中,当存在至少一个原始文本簇时,服务器可通过如下方式对多个候选文本进行聚类处理,得到至少一个文本簇:
针对各候选文本,分别执行如下处理:确定候选文本与各原始文本簇的簇中心文本的相似度;当确定的多个相似度中的最大相似度超过相似度阈值时,将候选文本加入最大相似度对应的目标原始文本簇,并比较候选文本的长度和目标原始文本簇的簇中心文本的长度,当候选文本的长度小于目标原始文本簇的簇中心文本的长度时,更新目标原始文本簇的簇中心文本为候选文本;当确定的多个相似度中的最大相似度未超过相似度阈值时,将候选文本作为新文本簇存在,并将候选文本作为新文本簇的簇中心文本。
这里,确定候选文本与各原始文本簇的簇中心文本的相似度可以基于如下方式实现:确定候选文本与各原始文本簇的簇中心文本的文本相似度;或者,基于图片匹配方式,确定候选文本对应的图片与各原始文本簇的簇中心文本对应的图片的图片相似度;或者,先确定候选文本与各原始文本簇的簇中心文本的文本相似度,针对文本相似度达到相似度阈值的目标原始文本簇的簇中心文本,基于图片匹配方式,确定候选文本对应的图片与各目标原始文本簇的簇中心文本对应的图片的图片相似度。
在实际应用中,上述候选文本的长度可以通过候选文本所包含字符的数量确定。该簇中心文本可以作为相应文本簇的典型文本。
在一些实施例中,服务器可将至少一个第二图片存储至种子库中;相应的,服务器可通过如下方式将第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度:从种子库中提取各第二图片,并将第一图片区域的内容与各第二图片的内容进行相似度匹配,得到相应的匹配度。
这里,服务器在得到由目标类型的文本转换得到至少一个第二图片后,将该至少一个第二图片存储至种子库中。该种子库可以是基于数据库构建。当服务器需要将第一图片区域的内容与至少一个第二图片的内容进行相似度匹配时,则可以从种子库中提取各第二图片,然后将第一图片区域的内容与提取的各第二图片的内容进行相似度匹配,得到相应的匹配度。
在另外一些实施例中,上述由目标类型的文本转换得到至少一个第二图片还可以存储于区块链中。当服务器需要将第一图片区域的内容与至少一个第二图片的内容进行相似度匹配时,则可以生成用于获取至少一个第二图片的交易并将该交易发送至区块链;当区块链接收到该交易后,基于该交易返回至少一个第二图片至服务器,如此,服务器从区块链中获取到至少一个第二图片,然后将第一图片区域的内容与获取的各第二图片的内容进行相似度匹配,得到相应的匹配度。
应用本申请上述实施例,首先对待识别文本进行图片转换,并对图片转换得到的第一图片进行区域划分,得到第一图片包括的至少两个第一图片区域;然后针对每个第一图片区域,将第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度;再结合至少两个第一图片区域所对应的匹配度,确定第一图片与各第二图片的图片匹配度;从而基于第一图片与各第二图片的图片匹配度,确定待识别文本归属于目标类型的文本的结果。
如此,通过将待识别文本进行图片转换并基于图片匹配的方式,得到第一图片和第二图片的图片匹配度,由于该第二图片是通过对目标类型的文本进行图片转换得到的,使得可以基于该图片匹配度确定待识别文本归属于目标类型的结果。基于图片匹配不仅能够实现针对变种文本的类型识别,扩大可识别文本的范围;且采用对待处理文本的图片进行划分,并针对划分得到的每个图片区域进行相似度匹配的图片匹配方式,提高文本类型识别的准确性。
下面说明本申请实施例在一个实际的应用场景中的示例性应用。以目标类型的文本为恶意文本为例,本申请实施例提供一种文本识别方法,能够识别待识别文本是否为恶意文本。
相关技术中,在恶意文本识别时,通常基于如TEXT-CNN等深度模型的识别方案,该方案输入大量带标注的恶意训练数据来让模型拟合出能够识别出恶意文本的参数,消耗的计算性能非常大;或者通过规则比较等方案来进行恶意识别,比如基于人工编写的正则表达式。但是,恶意文本往往会采用各式各样的变种手段以绕过模型的检测,比如同音字、形似文本替换等,例如用“3
Figure 717938DEST_PATH_IMAGE001
”去替换“3”,用“徽”去替换“微”等,以此来混淆模型对其的理解,不仅计算开销大,恶意文本的识别精确度也低。
基于此,本申请实施例提供一种文本识别方法,能够识别待识别文本是否为恶意文本。在一些实施中,首先对待识别文本进行图片转换得到第一图片,然后将第一图片和由恶意文本转换得到的第二图片进行匹配,得到相应的图片匹配度,从而基于图片匹配度确定待处理文本是否归属于恶意文本;同时,在第一图片和第二图片进行匹配的过程中,通过滑动窗口的方式进行基于图片区域的相似度匹配。如此,不仅能够实现针对变种文本(比如形近文本、同音文本、通过增删字调整得到的文本)是否为恶意文本的识别,扩大可识别文本的范围,还能够提高恶意文本的识别准确性。
在一些实施例中,本申请实施例提供的文本识别方法可以应用于各种可能发布恶意文本(例如垃圾广告、恶意信息、违规信息、恶意域名、不良信息等)的文字场景,例如,直播场景、个人与个人之间的电子商务(customer to customer,C2C)消息场景、用户生成内容(User Generated Content,UGC)发布场景以及面对海量文本的大数据场景等。本申请实施例提供的文本识别方法能够作为恶意文本识别、保证业务安全的一环,净化内容社区的环境,有效提高用户在内容场景的体验。
第一,对本申请实施例提供的文本识别系统的架构进行说明。参见图11,图11是本申请实施例提供的文本识别系统的架构示意图。这里,1)在离线环境下,采集业务场景中出现的多个恶意文本,然后将恶意文本进行图片转换,得到恶意文本对应的恶意文本图片(即上述第二图片),并将恶意文本图片存储于种子库中。2)在线上实时环境中,当接收到请求方(比如内容发布者)发送的待识别文本时,首先将待识别文本进行图片转换,得到对应的待识别图片(即上述第一图片);然后通过滑动窗口的方式进行基于图片区域的图片匹配,基于匹配得到的待识别图片和恶意文本图片的匹配度(比如通过图片之间的距离表征),得到待识别文本是否归属于种子库中恶意文本的结果。在实际应用中,上述图片转换可以采用文本转二进制位图图片的方式;且通过滑动窗口的方式进行基于图片区域的图片匹配时,可以过滑动窗口比较待识别图片和恶意文本图片之间在像素位上的差异。
第二,对构建包含恶意文本对应的第二图片的种子库进行说明。参见图12,图12是本申请实施例提供的种子库的构建流程图。这里,种子库的构建流程包括:步骤301:获取候选文本。
在实际应用中,该候选文本可以是业务场景中的历史业务文本。
步骤302:对候选文本进行聚类处理,得到多个文本簇。
在实际应用中,在聚类处理时可以通过SinglePass聚类算法来实现,该多个文本簇包括图3所示的文本簇1到文本簇N。
步骤303:从得到的多个文本簇中筛选出目标数量的文本簇。
在实际应用中,为减少恶意文本标注时的成本(比如人力成本),可以将所有文本簇按照所包含文本的数量进行排序,然后从排序后的文本簇中,选择目标数量的文本簇进行恶意文本标注。
步骤304:对目标数量的文本簇进行标注,确定为恶意文本的目标文本簇。
在实际应用中,可以通过人工方式进行文本簇的恶意文本标注。
步骤305:对目标文本簇的簇中心文本进行图片转换,得到相应的第二图片,并将第二图片存储至种子库中。
1)下面对候选文本聚类处理的流程进行说明。参见图13,图13是本申请实施例提供的文本聚类处理的流程示意图。这里,文本聚类处理的流程包括:
步骤401:将候选文本中待聚类的目标候选文本,分配至目标子进程进行聚类处理。
在实际应用中,通过多个子进程对候选文本进行聚类处理。具体地,将候选文本中待聚类的目标候选文本(比如图13所示的候选文本1),随机分配至当前处于空闲状态的目标子进程(比如图13所示的将候选文本1分配至子进程1处理)。在实际实施时,各子进程中存储有簇比较队列,簇比较队列包括多个原有文本簇。
步骤402:目标子进程将目标候选文本分别与簇比较队列中的各原有文本簇进行相似度匹配,得到目标候选文本所归属的文本簇。
在实际应用中,当目标子进程接收到目标候选文本时,按照簇比较队列中原有文本簇对应的顺序,将目标候选文本与每个原有文本簇的簇中心文本进行相似度匹配。首先,将目标候选文本和每个簇中心文本进行粗略的相似度匹配,比如可以计算目标候选文本和簇中心文本的Jaccard相似度(即杰卡德系数)。
对于目标候选文本A和簇中心文本B而言,Jaccard相似度是基于A和B包含的相同字符(或词语)的数量、以及A和B包含的字符(或词语)的总数量计算得到,公式如下所示:
Figure 103920DEST_PATH_IMAGE002
其中,
Figure 244176DEST_PATH_IMAGE003
为目标候选文本A和簇中心文本B的Jaccard相似度。
在将目标候选文本和每个簇中心文本进行粗略的相似度匹配并得到相应的Jaccard相似度后,将Jaccard相似度大于相似度阈值的簇中心文本筛选出来,得到目标簇中心文本,然后将目标候选文本和目标簇中心文本作精确的相似度匹配。在实际应用中,该精确的相似度匹配过程,可以采用文本转图片并基于滑动窗口进行图片匹配的方式来实现。
基于上述粗略和精确的相似度匹配后,得到目标候选文本和每个目标簇中心文本的相似度。当目标候选文本和目标簇中心文本的最大相似度超过相似度阈值时,则将目标候选文本加入至最大相似度对应的目标簇中心文本所在的文本簇;同时,比较目标候选文本与最大相似度对应的目标簇中心文本的长度,将长度较小的文本作为相应文本簇的簇中心文本。而当目标候选文本和目标簇中心文本的最大相似度未超过相似度阈值时,则将目标候选文本作为一个单独的新文本簇存在,并将目标候选文本作为该新文本簇的簇中心文本。
当针对该目标候选文本匹配完成后,将最近一次匹配的文本簇置于子进程的簇比较队列的首位,当获取到下一个目标候选文本时,将该下一个目标候选文本优先与最近一次匹配的文本簇进行匹配。
当产生新文本簇时,则需要统计子进程中簇比较队列包含的文本簇的数量,如果文本簇的数量大于数量阈值时,则将排在队列最后的文本簇删除。同时将被删除的文本簇的簇中心文本、其对应的标签、以及文本簇包含的文本的数量存储在本地。
步骤403:通过父进程对子进程聚类得到的多个文本簇进行再次聚类,得到最终的文本簇。
在实际应用中,当通过子进程对所有候选文本处理完成后,将会在父进程中再做一次聚类处理,以将不同子进程中产生的零散的文本簇中相似的部分文本簇聚类成为一个文本簇。在实际实施时,同样可以采用SinglePass聚类方式进行处理,具体可以是将子进程产生的文本簇的簇中心文本和存储在父进程本地的文本簇的簇中心文本进行相似度匹配,从而实现文本簇的聚类。
在实际实施时,上述聚类处理的过程还可以采用K均值聚类算法、DBSCAN算法、或者基于深度神经网络模型的聚类方案来实现。
如此,基于所述步骤401-步骤403,实现了对采集的业务场景中的业务文本(即上述候选文本)的聚类处理,得到多个文本簇。继续地,将聚类得到的多个文本簇按照所包含文本的数量进行降序排序,如果采用人工标注的方式筛选恶意文本时,则可以根据人力成本情况将排序靠前的目标数量的文本簇的簇中心文本进行人工标注,然后将标注为恶意文本的簇中心文本进行图片转换,并将转换得到的多个第二图片作为恶意样本存入种子库中,同时也可以将标注为恶意文本的簇中心文本存入种子库中。
基于此,成功构建了用于恶意文本识别的、包括多个由恶意文本转换得到的第二图片的种子库。
第三,对待识别文本的模糊匹配进行说明。这里,在基于滑窗进行待识别图片和恶意图片的图片匹配之前,将待识别文本和恶意文本进行文本匹配,该文本匹配过程为模糊匹配,可以基于MinHash方式实现,匹配速度快,保证恶意文本识别的效率和实时性。
在实际应用中,1)基于种子库中包含的恶意文本所涉及的所有字符构建一个固定顺序的字表(或者词表)。设该字表的长度为M(即字表所包含字符的数量)。
2)将种子库中的恶意文本与字表进行互异处理,将恶意文本转换成长度为M的二进制向量。具体地,当字表中的第m个字在恶意文本中出现时,则恶意文本的二进制向量中对应的第m位为1,否则为0。例如,字表={a,b,c,d},种子库中包含恶意文本t1=“abc”,t2=“ca”,t3=“badc”,则各恶意文本对应的二进制向量构成的文本向量表如表1所示:
表1文本向量表
Figure 357495DEST_PATH_IMAGE004
继续地,3)针对上述文本向量表,将文本向量表中的行随机打乱,并在打乱后,对每个文本t1、t2和t3从上到下按字表顺序选取第一个“1”出现的行号,该行号即作为该恶意文本的最小哈希值。
4)若恶意文本的文本长度大小为N,则重复3)进行N次打乱,对每个恶意文本获得N个最小哈希值,将该N个最小哈希值确定为相应恶意文本的文本长度为N的MinHash签名。
5)采用同样的方法确定待识别文本的MinHash签名。
6)采用预设的分段方式,对待识别文本的MinHash签名进行分段,得到多个第一签名分段,并对恶意文本的MinHash签名进行分段,得到多个第二签名分段。
7)将待识别文本的多个第一签名分段,分别和恶意文本的多个第二签名分段进行匹配,当确定存在至少一个第二签名分段与第一签名分段相同时,则认为待识别文本和恶意文本相匹配。
这里,将文本的MinHash签名分成K段,每一段中包含L位(显而易见N=L
Figure 12947DEST_PATH_IMAGE005
K)。基于MinHash的原理,两个文本MinHash签名在不同位上相等的概率等于两个集合的Jaccard相似度,因此,当分段足够大时,两个相似文本在某一段上的有极大概率取值相同。因此,对每行的每段进行哈希映射,如果两个文本的某一段相同,他们的这一段便会被映射成相同的结果。记两个文本t1和t2的Minhash签名相同的概率为r=P(MinHash(t1)=MinHash(t2)),则它们至少有一段相同的概率为
Figure 569830DEST_PATH_IMAGE006
。当两段文本的Jaccard相似度为0.4时,若各自的MinHash签名长度为300,并且分成了100段,则至少一段相同的概率大于99.9%,即P=1-(1-0.43100
基于此,将待识别文本的多个第一签名分段,分别和恶意文本的多个第二签名分段进行匹配,当确定存在至少一个第二签名分段与第一签名分段相同时,则认为待识别文本和恶意文本相匹配。在实际应用中,还可预先存储恶意文本的MinHash签名(可以分段存储),可以对MinHash签名的每一段都进行哈希编码并存储,从而在匹配时可以通过哈希编码快速找到。在实际实施时,还可以结合随机投影森林来实现上述模糊匹配处理;或者,还可以通过SimHash算法、基于正则表达式的大规模匹配算法来实现上述模糊匹配处理。
如此,当基于模糊匹配确定待识别文本和恶意文本相匹配时,则可以对待识别文本和恶意文本进行精确匹配,即基于滑动窗口,对待识别文本的图片和恶意文本的图片进行图片匹配。接下来继续说明。
第四,对基于滑动窗口进行图片匹配的过程进行说明。这里,在对待识别文本和恶意文本进行模糊匹配之后,若待识别文本和恶意文本相匹配,则对识别文本和恶意文本进行精确匹配处理。
这里,对于待识别文本,首先对待识别文本进行图片转换,比如将待识别文本转换为长宽固定的二进制位图。该二进制位图实际上是一个二维的布尔矩阵,以0表示空白,以1表示字体填充的部分,可以参见图8。
当文本t1=“可以加你微X”是种子库中的恶意文本,恶意方在发现该文本被打击后,为了绕过打击手段,对t1加入了一部分干扰字符和字体变种后产生恶意文本t2=“可以茄泥徽X”。对于该t2文本,对于用户观察的角度而言,恶意文本t2所表达的含义和恶意文本t1是相同的,所以当进行恶意文本打击时,需要识别出t2=“可以茄泥徽X”为恶意文本。接下来以t2=“可以茄泥徽X号”为待识别文本,对基于滑动窗口进行图片匹配并确定待识别文本是否为恶意文本的过程进行说明。
这里,在将种子库中的恶意文本t1=“可以加你微X”转换成二进制图片pic1后,将待识别文本t2=“可以茄泥徽X”也转换为二进制图片pic2,然后在恶意文本的图片pic1上规定一个长宽固定的滑动窗口window1,在待识别文本的图片pic2上也规定一个与window1尺寸相同的滑动窗口window2,并执行如下处理,以进行待识别文本的图片和恶意文本的图片的匹配:
步骤1)首先,将window1置于pic1的最左端的起始位置,并将window2也置于pic2的最左端的起始位置。
然后,比较window1和window2中每一个元素中的值是否相同,如果相同,则取1,如果不同,则取0。这里,pic1和pic2可以转换成元素类型为二进制的二维矩阵,因此window1和window2的比较过程是滑窗矩阵之间进行与运算。
再,统计window1和window2中相同元素的个数
Figure 430338DEST_PATH_IMAGE007
(即统计比较过程中取1的个数),将window1和window2中相同元素的个数
Figure 52075DEST_PATH_IMAGE008
除以window1中元素为1的个数
Figure 111167DEST_PATH_IMAGE009
,作为window1和window2的相似度
Figure 573372DEST_PATH_IMAGE010
,公式如下所示:
Figure 422642DEST_PATH_IMAGE011
同时,计算window1和window2之间的距离
Figure 877763DEST_PATH_IMAGE012
步骤2)保持window1所处位置不变,向右移动滑窗window2,通常这个移动步长为半个字符的宽度(具体可以基于转换成的图片的长宽比与字符型号大小确定),基于步骤1)中的方式计算window1和window2的距离
Figure 496088DEST_PATH_IMAGE013
。当window2需要向右移动n次才能移动到最后一个字符处,则共计算得到n个距离,取n个距离中的距离最小值
Figure 394774DEST_PATH_IMAGE014
作为pic1的局部window1和pic2的距离。
这里,因为图像长宽固定,所以pic2中的文本长度有限,右侧可能会留有大量空白,因此判断window2何时达到文本的最右侧时,可以判断window2中的最大值是否为0(即window2是否存在元素1),即可判断window2是否已经超过pic2中的文本的内容进入pic2的右侧空白部分。
步骤3)向右移动滑窗window1,步长等于window1的长度(这里不采用半字符宽度是出于计算速度的考虑,两个文本中有一方采用半字符的短步长滑窗即可取得近似二者都采用半字符宽度步长的比较效果),对window1和pic2执行步骤1)和步骤2),计算得到距离
Figure 964295DEST_PATH_IMAGE015
步骤4)重复执行步骤3),直到window1移动到pic1的末尾。当window1到末尾时共移动了m次,则最终计算m个局部window1和pic2的距离
Figure 458993DEST_PATH_IMAGE016
,基于该m个局部window1和pic2的距离
Figure 695939DEST_PATH_IMAGE017
,通过如下公式,确定pic1和pic2的距离
Figure 499947DEST_PATH_IMAGE018
Figure 589388DEST_PATH_IMAGE019
这里,基于该m个局部window1和pic2的距离
Figure 386312DEST_PATH_IMAGE020
,计算m个局部window1和pic2的距离
Figure 979229DEST_PATH_IMAGE021
之和,并将计算得到的和除以pic1的滑窗数m,得到最终pic1和pic2的距离。如图14所示,图14是本申请实施例提供的图片匹配的示意图。这里,图14中A所示的是pic1的window1的部分“以加你微”,图14中B所示的是pic2中最接近window1的部分“以茄泥徽”,即pic2中、与pic1的window1的距离最小的window2所对应的部分。
步骤5)当pic1和pic2的距离
Figure 422980DEST_PATH_IMAGE018
低于距离阈值时,则确定t2=“可以茄泥徽X”为恶意文本,可以针对t2=“可以茄泥徽X”进行打击,比如对t2=“可以茄泥徽X”进行屏蔽处理。
当pic1和pic2的距离
Figure 91728DEST_PATH_IMAGE018
不低于距离阈值时,则确定t2=“可以茄泥徽X”不为恶意文本。
在实际应用中,可以采用卷积神经网络实现上述滑窗相似度匹配过程,能够进一步减少计算时间开销,提高计算速度。在实际实施时,可以首先将pic1包含的每个滑窗window1展开成一维向量,并将展开的结果拼接成一个二维矩阵;然后将待识别文本对应的图片pic2包含的每个滑窗window2同样展开成一维向量;最后将window2展开得到的一维向量并行地与二维矩阵中的每一行进行距离计算,并求出最小距离。
在实际应用中,上述图片局部滑窗匹配过程并不一定只能使用基于位运算的像素之间的比较,还可以通过SIFT特异点检测算法、或者预训练的深度神经网络模型等能够提取滑窗图像特征的算法来做滑窗图像之间的局部相似度计算。作为示例,可以基于EfficientNet神经网络模型来提取待处理文本的图片和恶意文本图片的滑窗图像特征作比较,比如基于EfficientNet神经网络模型可以发现“微”字与“徽”字在图像特征上是相似的,可表示在视觉上有相似的特征,尽管二者在统一码(即unicode)编码中是完全不同的两个字符。
应用本申请上述实施例,1)在内容风控领域通过将文字转换成图片并通过滑窗机制实现局部敏感的比较,有效的减少了恶意文本增删改字、同音字替换、形近字替换等变种文本对恶意文本识别导致的混淆效果,增强了文本识别系统运作时的鲁棒性,且降低了计算性能的消耗和人力运行开销;2)能够脱离机器识别文字的角度,将文字转换成图片后从视觉角度上比较文本之间的相似度,极大增强了在面对象形恶意文本时文本识别引擎的泛化能力;3)通过模糊匹配和图片滑窗精确匹配的组合识别方式,提高恶意文本识别的精确度,且有效压缩了计算开销和识别处理所消耗的时间;4)对计算开销、泛化能力和精确度三者都做到了较好的兼顾,使得恶意方需要对本申请实施例提供的文本识别方法进行突破时,在文本模式不做大变动的情况下,很难仅用低成本、低耗时的简单增删改字、同音字替换、形近字替换等方式快速绕过,具有较强的鲁棒性。
可以理解的是,在本申请实施例中,涉及到用户信息等相关的数据,当本申请实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
下面继续说明本申请实施例提供的文本识别装置555的实施为软件模块的示例性结构。在一些实施例中,如图2所示,存储在存储器550的文本识别装置555中的软件模块可以包括:
转换模块5551,用于对待识别文本进行图片转换,得到所述待识别文本对应的第一图片;
划分模块5552,用于对所述第一图片进行区域划分,得到所述第一图片包括的至少两个第一图片区域;
匹配模块5553,用于针对每个所述第一图片区域,将所述第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度,其中,所述第二图片通过对目标类型的文本进行图片转换所得到;
第一确定模块5554,用于结合所述至少两个第一图片区域所对应的匹配度,确定所述第一图片与各所述第二图片的图片匹配度;
第二确定模块5555,用于基于所述第一图片与各所述第二图片的图片匹配度,确定所述待识别文本归属于所述目标类型的文本的结果。
在一些实施例中,所述划分模块5552,还用于确定所述第一图片对应的具有目标尺寸大小的滑动窗口;
通过移动所述滑动窗口,对所述第一图片进行区域划分,得到所述第一图片包括的至少两个第一图片区域。
在一些实施例中,所述划分模块5552,还用于对所述第一图片进行图片分割,得到所述第一图片包括的至少两个子图片;
将每个所述子图片对应的区域作为所述第一图片包括的第一图片区域,以得到所述第一图片包括的至少两个第一图片区域。
在一些实施例中,每个所述第二图片包括至少两个第二图片区域,所述第二图片区域的尺寸大小与所述第一图片区域的尺寸大小相同;
所述匹配模块5553,还用于针对各所述第二图片,分别执行如下处理:
针对每个所述第一图片区域,将所述第一图片区域的内容与所述第二图片包括的各所述第二图片区域的内容进行相似度匹配,得到所述第一图片区域与各所述第二图片区域的匹配度;
所述第一确定模块5554,还用于针对各所述第二图片,分别执行如下处理:
结合所述至少两个第一图片区域与各所述第二图片区域的匹配度,确定所述第一图片与各所述第二图片区域的区域匹配度;
基于所述第一图片与各所述第二图片区域的区域匹配度,确定所述第一图片与所述第二图片的图片匹配度。
在一些实施例中,所述第一确定模块5554,还用于针对各所述第二图片区域,分别执行如下处理:
当所述匹配度通过相似度表征时,从各所述第一图片区域与所述第二图片区域的相似度中,确定相似度最大值,并将所述相似度最大值确定为所述第一图片与所述第二图片区域的区域匹配度;
当所述匹配度通过距离表征时,从各所述第一图片区域与所述第二图片区域的距离中,确定距离最小值,并将所述距离最小值确定为所述第一图片与所述第二图片区域的区域匹配度。
在一些实施例中,所述第一确定模块5554,还用于将所述第一图片与各所述第二图片区域的区域匹配度进行平均处理,并将处理得到的结果,确定为所述第一图片与所述第二图片的图片匹配度。
在一些实施例中,所述第一图片区域与所述第二图片区域中分别包括由至少一个像素构成的图片元素;
所述匹配模块5553,还用于针对各所述第二图片区域,分别执行如下处理:
针对所述第一图片区域中各第一图片元素,将所述第一图片元素与所述第二图片区域中相应位置处第二图片元素进行比较,得到比较结果;
基于所述比较结果,获取所述第一图片区域和所述第二图片区域中相同图片元素的第一数量;
获取所述第二图片区域包括的图片元素的第二数量,并将所述第一数量和所述第二数量的比值,确定为所述第一图片区域与所述第二图片区域的匹配度。
在一些实施例中,所述匹配模块5553,还用于针对各所述第二图片,分别执行如下处理:
针对每个所述第一图片区域,对所述第一图片区域的内容进行特征提取,得到区域特征,并对所述第二图片的内容进行特征提取,得到图片特征;
确定所述区域特征和所述图片特征之间的特征相似度,并将所述特征相似度,确定为所述第一图片区域的内容与所述第二图片的内容的匹配度。
在一些实施例中,所述匹配模块5553,还用于针对各所述第二图片,分别执行如下处理:
针对每个所述第一图片区域,将所述第一图片区域的内容进行向量转换,得到区域向量,并对所述第二图片的内容进行向量转换,得到图片向量;
确定所述区域向量和所述图片向量之间的向量距离,并将所述向量距离,确定为所述第一图片区域的内容与所述第二图片的内容的匹配度。
在一些实施例中,所述第一确定模块5554,还用于针对各所述第二图片,分别执行如下处理:
当所述匹配度通过相似度表征时,从各所述第一图片区域与所述第二图片的相似度中,确定相似度最大值,并将所述相似度最大值确定为所述第一图片与所述第二图片的图片匹配度;
当所述匹配度通过距离表征时,从各所述第一图片区域与所述第二图片的距离中,确定距离最小值,并将所述距离最小值确定为所述第一图片与所述第二图片的图片匹配度。
在一些实施例中,所述转换模块5551,还用于获取所述待识别文本对应的、具有目标尺寸大小的空白位图图片;
将所述空白位图图片中对应文本的目标像素置为1,并将所述空白位图图片中除所述目标像素之外的其他像素置为0,得到所述待识别文本对应的位图图片;
将所述位图图片作为所述待识别文本对应的第一图片。
在一些实施例中,所述第二确定模块5555,还用于当所述第一图片与各所述第二图片的图片匹配度中,存在超过匹配度阈值的图片匹配度时,确定所述待识别文本属于所述目标类型的文本;
当所述第一图片与各所述第二图片的图片匹配度中,不存在超过匹配度阈值的图片匹配度时,确定所述待识别文本不属于所述目标类型的文本。
在一些实施例中,所述转换模块5551,还用于将所述待识别文本,分别与至少一个所述目标类型的文本进行匹配,得到相应的匹配度;
当存在至少一个所述目标类型的文本与所述待识别文本的匹配度达到匹配度阈值时,对待识别文本进行图片转换,得到所述待识别文本对应的第一图片。
在一些实施例中,所述转换模块5551,还用于针对所述目标类型的各文本,分别执行如下处理:
确定所述待识别文本的第一最小哈希签名、以及所述目标类型的文本的第二最小哈希签名;
获取用于对最小哈希签名进行分段的签名分段方式;
按照所述签名分段方式对所述第一最小哈希签名进行分段,得到至少两个第一签名分段,并按照所述签名分段方式对所述第二最小哈希签名进行分段,得到至少两个第二签名分段;
获取与所述第一签名分段相同的第二签名分段的数量,并基于所述数量确定所述待识别文本与所述目标类型的文本的匹配度。
在一些实施例中,所述转换模块5551,还用于确定所述待识别文本与所述目标类型的文本的文本相似度;
当所述文本相似度处于目标相似度区间时,对所述待识别文本进行图片转换,得到所述待识别文本对应的第一图片。
在一些实施例中,所述第二确定模块5555,还用于当所述文本相似度低于所述目标相似度区间的最小值时,确定所述待识别文本不属于所述目标类型的文本;
当所述文本相似度高于所述目标相似度区间的最大值时,确定所述待识别文本属于所述目标类型的文本。
在一些实施例中,所述装置还包括:
聚类模块,用于获取多个候选文本,并对所述多个候选文本进行聚类处理,得到至少一个文本簇;
从所述至少一个文本簇中,确定归属于所述目标类型的目标文本簇、以及所述目标文本簇的簇中心文本;
对所述簇中心文本进行图片转换,得到所述至少一个第二图片。
在一些实施例中,所述聚类模块,还用于针对所述多个候选文本中的目标候选文本,执行如下处理:
获取多个处理进程的运行状态,并基于获取的运行状态,从所述多个处理进程中选取目标处理进程;
调用所述目标处理进程,对所述目标候选文本进行聚类处理,得到所述目标候选文本所归属的文本簇。
在一些实施例中,当存在至少一个原始文本簇时,所述聚类模块,还用于针对各所述候选文本,分别执行如下处理:
确定所述候选文本与各所述原始文本簇的簇中心文本的相似度;
当确定的多个相似度中的最大相似度超过相似度阈值时,将所述候选文本加入所述最大相似度对应的目标原始文本簇;
比较所述候选文本的长度和所述目标原始文本簇的簇中心文本的长度,当所述候选文本的长度小于所述目标原始文本簇的簇中心文本的长度时,更新所述目标原始文本簇的簇中心文本为所述候选文本;
当确定的多个相似度中的最大相似度未超过相似度阈值时,将所述候选文本作为新文本簇存在,并将所述候选文本作为所述新文本簇的簇中心文本。
在一些实施例中,所述聚类模块,还用于将所述至少一个第二图片存储至种子库中;
所述匹配模块5553,还用于从所述种子库中提取各所述第二图片,并将所述第一图片区域的内容与各所述第二图片的内容进行相似度匹配,得到相应的匹配度。
应用本申请上述实施例,首先对待识别文本进行图片转换,并对图片转换得到的第一图片进行区域划分,得到第一图片包括的至少两个第一图片区域;然后针对每个第一图片区域,将第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度;再结合至少两个第一图片区域所对应的匹配度,确定第一图片与各第二图片的图片匹配度;从而基于第一图片与各第二图片的图片匹配度,确定待识别文本归属于目标类型的文本的结果。
如此,通过将待识别文本进行图片转换并基于图片匹配的方式,得到第一图片和第二图片的图片匹配度,由于该第二图片是通过对目标类型的文本进行图片转换得到的,使得可以基于该图片匹配度确定待识别文本归属于目标类型的结果。基于图片匹配不仅能够实现针对变种文本的类型识别,扩大可识别文本的范围;且采用对待处理文本的图片进行划分,并针对划分得到的每个图片区域进行相似度匹配的图片匹配方式,提高文本类型识别的准确性。
本申请实施例还提供一种电子设备,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的文本识别方法。
本申请实施例还提供一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例提供的文本识别方法。
本申请实施例还提供一种计算机可读存储介质,存储有可执行指令,当可执行指令被处理器执行时,实现本申请实施例提供的文本识别方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种文本识别方法,其特征在于,所述方法包括:
对待识别文本进行图片转换,得到所述待识别文本对应的第一图片;
对所述第一图片进行区域划分,得到所述第一图片包括的至少两个第一图片区域;
针对每个所述第一图片区域,将所述第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度,其中,所述第二图片通过对目标类型的文本进行图片转换所得到;
结合所述至少两个第一图片区域所对应的匹配度,确定所述第一图片与各所述第二图片的图片匹配度;
基于所述第一图片与各所述第二图片的图片匹配度,确定所述待识别文本归属于所述目标类型的文本的结果。
2.如权利要求1所述的方法,其特征在于,所述对所述第一图片进行区域划分,得到所述图片包括的至少两个第一图片区域,包括:
确定所述第一图片对应的具有目标尺寸大小的滑动窗口;
通过移动所述滑动窗口,对所述第一图片进行区域划分,得到所述第一图片包括的至少两个第一图片区域。
3.如权利要求1所述的方法,其特征在于,每个所述第二图片包括至少两个第二图片区域,所述第二图片区域的尺寸大小与所述第一图片区域的尺寸大小相同;
所述针对每个所述第一图片区域,将所述第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度,包括:
针对各所述第二图片,分别执行如下处理:
针对每个所述第一图片区域,将所述第一图片区域的内容与所述第二图片包括的各所述第二图片区域的内容进行相似度匹配,得到所述第一图片区域与各所述第二图片区域的匹配度;
所述结合所述至少两个第一图片区域所对应的匹配度,确定所述第一图片与各所述第二图片的图片匹配度,包括:
针对各所述第二图片,分别执行如下处理:
结合所述至少两个第一图片区域与各所述第二图片区域的匹配度,确定所述第一图片与各所述第二图片区域的区域匹配度;
基于所述第一图片与各所述第二图片区域的区域匹配度,确定所述第一图片与所述第二图片的图片匹配度。
4.如权利要求3所述的方法,其特征在于,所述结合所述至少两个第一图片区域与各所述第二图片区域的匹配度,确定所述第一图片与各所述第二图片区域的区域匹配度,包括:
针对各所述第二图片区域,分别执行如下处理:
当所述匹配度通过相似度表征时,从各所述第一图片区域与所述第二图片区域的相似度中,确定相似度最大值,并将所述相似度最大值确定为所述第一图片与所述第二图片区域的区域匹配度;
当所述匹配度通过距离表征时,从各所述第一图片区域与所述第二图片区域的距离中,确定距离最小值,并将所述距离最小值确定为所述第一图片与所述第二图片区域的区域匹配度。
5.如权利要求3所述的方法,其特征在于,所述第一图片区域与所述第二图片区域中分别包括由至少一个像素构成的图片元素;
所述将所述第一图片区域的内容与所述第二图片包括的各所述第二图片区域的内容进行相似度匹配,得到所述第一图片区域与各所述第二图片区域的匹配度,包括:
针对各所述第二图片区域,分别执行如下处理:
针对所述第一图片区域中各第一图片元素,将所述第一图片元素与所述第二图片区域中相应位置处第二图片元素进行比较,得到比较结果;
基于所述比较结果,获取所述第一图片区域和所述第二图片区域中相同图片元素的第一数量;
获取所述第二图片区域包括的图片元素的第二数量,并将所述第一数量和所述第二数量的比值,确定为所述第一图片区域与所述第二图片区域的匹配度。
6.如权利要求1所述的方法,其特征在于,所述对待识别文本进行图片转换,得到所述待识别文本对应的第一图片,包括:
获取所述待识别文本对应的、具有目标尺寸大小的空白位图图片;
将所述空白位图图片中对应文本的目标像素置为1,并将所述空白位图图片中除所述目标像素之外的其他像素置为0,得到所述待识别文本对应的位图图片;
将所述位图图片作为所述待识别文本对应的第一图片。
7.如权利要求1所述的方法,其特征在于,所述基于所述第一图片与各所述第二图片的图片匹配度,确定所述待识别文本归属于所述目标类型的文本的结果,包括:
当所述第一图片与各所述第二图片的图片匹配度中,存在超过匹配度阈值的图片匹配度时,确定所述待识别文本属于所述目标类型的文本;
当所述第一图片与各所述第二图片的图片匹配度中,不存在超过匹配度阈值的图片匹配度时,确定所述待识别文本不属于所述目标类型的文本。
8.如权利要求1所述的方法,其特征在于,所述对待识别文本进行图片转换,得到所述待识别文本对应的第一图片,包括:
将所述待识别文本,分别与至少一个所述目标类型的文本进行匹配,得到相应的匹配度;
当存在至少一个所述目标类型的文本与所述待识别文本的匹配度达到匹配度阈值时,对待识别文本进行图片转换,得到所述待识别文本对应的第一图片。
9.如权利要求8所述的方法,其特征在于,所述将所述待识别文本,分别与所述目标类型的至少一个文本进行匹配,得到相应的匹配度,包括:
针对所述目标类型的各文本,分别执行如下处理:
确定所述待识别文本的第一最小哈希签名、以及所述目标类型的文本的第二最小哈希签名;
获取用于对最小哈希签名进行分段的签名分段方式;
按照所述签名分段方式对所述第一最小哈希签名进行分段,得到至少两个第一签名分段,并按照所述签名分段方式对所述第二最小哈希签名进行分段,得到至少两个第二签名分段;
获取与所述第一签名分段相同的第二签名分段的数量,并基于所述数量确定所述待识别文本与所述目标类型的文本的匹配度。
10.如权利要求1所述的方法,其特征在于,所述方法还包括:
获取多个候选文本,并对所述多个候选文本进行聚类处理,得到至少一个文本簇;
从所述至少一个文本簇中,确定归属于所述目标类型的目标文本簇、以及所述目标文本簇的簇中心文本;
对所述簇中心文本进行图片转换,得到所述至少一个第二图片。
11.如权利要求10所述的方法,其特征在于,当存在至少一个原始文本簇时,所述对所述多个候选文本进行聚类处理,得到至少一个文本簇,包括:
针对各所述候选文本,分别执行如下处理:
确定所述候选文本与各所述原始文本簇的簇中心文本的相似度;
当确定的多个相似度中的最大相似度超过相似度阈值时,将所述候选文本加入所述最大相似度对应的目标原始文本簇;
比较所述候选文本的长度和所述目标原始文本簇的簇中心文本的长度,当所述候选文本的长度小于所述目标原始文本簇的簇中心文本的长度时,更新所述目标原始文本簇的簇中心文本为所述候选文本;
当确定的多个相似度中的最大相似度未超过相似度阈值时,将所述候选文本作为新文本簇存在,并将所述候选文本作为所述新文本簇的簇中心文本。
12.如权利要求10所述的方法,其特征在于,所述对所述多个候选文本进行聚类处理,得到至少一个文本簇,包括:
针对所述多个候选文本中的目标候选文本,执行如下处理:
获取多个处理进程的运行状态,并基于获取的运行状态,从所述多个处理进程中选取目标处理进程;
调用所述目标处理进程,对所述目标候选文本进行聚类处理,得到所述目标候选文本所归属的文本簇。
13.一种文本识别装置,其特征在于,所述装置包括:
转换模块,用于对待识别文本进行图片转换,得到所述待识别文本对应的第一图片;
划分模块,用于对所述第一图片进行区域划分,得到所述第一图片包括的至少两个第一图片区域;
匹配模块,用于针对每个所述第一图片区域,将所述第一图片区域的内容与至少一个第二图片的内容进行相似度匹配,得到相应的匹配度,其中,所述第二图片通过对目标类型的文本进行图片转换所得到;
第一确定模块,用于结合所述至少两个第一图片区域所对应的匹配度,确定所述第一图片与各所述第二图片的图片匹配度;
第二确定模块,用于基于所述第一图片与各所述第二图片的图片匹配度,确定所述待识别文本归属于所述目标类型的文本的结果。
14.一种电子设备,其特征在于,所述电子设备包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至12任一项所述的文本识别方法。
15.一种计算机可读存储介质,存储有可执行指令,其特征在于,所述可执行指令被处理器执行时,实现权利要求1至12任一项所述的文本识别方法。
CN202111562047.3A 2021-12-20 2021-12-20 文本识别方法、装置、设备、存储介质及程序产品 Active CN113962199B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111562047.3A CN113962199B (zh) 2021-12-20 2021-12-20 文本识别方法、装置、设备、存储介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111562047.3A CN113962199B (zh) 2021-12-20 2021-12-20 文本识别方法、装置、设备、存储介质及程序产品

Publications (2)

Publication Number Publication Date
CN113962199A true CN113962199A (zh) 2022-01-21
CN113962199B CN113962199B (zh) 2022-04-08

Family

ID=79473390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111562047.3A Active CN113962199B (zh) 2021-12-20 2021-12-20 文本识别方法、装置、设备、存储介质及程序产品

Country Status (1)

Country Link
CN (1) CN113962199B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116522168A (zh) * 2023-07-04 2023-08-01 北京墨丘科技有限公司 一种跨模态的文本相似度比较方法、装置及电子设备
WO2023236246A1 (zh) * 2022-06-06 2023-12-14 青岛海尔科技有限公司 文本信息的识别方法和装置、存储介质和电子装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080019960A (ko) * 2006-08-29 2008-03-05 정창부 논문 문서영상의 그림영역에서 문자영역을 추출하는 방법
CN101364267A (zh) * 2007-08-09 2009-02-11 富士通株式会社 字符识别装置、字符识别方法及计算机产品
CN107330127A (zh) * 2017-07-21 2017-11-07 湘潭大学 一种基于文本图片检索的相似文本检测方法
CN110245606A (zh) * 2019-06-13 2019-09-17 广东小天才科技有限公司 一种文本识别方法、装置、设备及存储介质
CN111275038A (zh) * 2020-01-17 2020-06-12 平安医疗健康管理股份有限公司 图像文本识别方法、装置、计算机设备及计算机存储介质
CN111507350A (zh) * 2020-04-16 2020-08-07 腾讯科技(深圳)有限公司 一种文本识别方法和装置
CN112115936A (zh) * 2020-10-10 2020-12-22 京东方科技集团股份有限公司 一种用于文本的识别方法、装置、存储介质以及电子设备
CN112364862A (zh) * 2020-12-08 2021-02-12 杭州电子科技大学 一种基于直方图相似度的扰动变形汉字图片匹配的方法
CN112613506A (zh) * 2020-12-23 2021-04-06 金蝶软件(中国)有限公司 图像中的文本识别方法、装置、计算机设备和存储介质
CN113034421A (zh) * 2019-12-06 2021-06-25 腾讯科技(深圳)有限公司 一种图像检测方法、装置及存储介质
CN113255667A (zh) * 2021-06-16 2021-08-13 北京世纪好未来教育科技有限公司 文本图像相似度评估方法、装置、电子设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080019960A (ko) * 2006-08-29 2008-03-05 정창부 논문 문서영상의 그림영역에서 문자영역을 추출하는 방법
CN101364267A (zh) * 2007-08-09 2009-02-11 富士通株式会社 字符识别装置、字符识别方法及计算机产品
CN107330127A (zh) * 2017-07-21 2017-11-07 湘潭大学 一种基于文本图片检索的相似文本检测方法
CN110245606A (zh) * 2019-06-13 2019-09-17 广东小天才科技有限公司 一种文本识别方法、装置、设备及存储介质
CN113034421A (zh) * 2019-12-06 2021-06-25 腾讯科技(深圳)有限公司 一种图像检测方法、装置及存储介质
CN111275038A (zh) * 2020-01-17 2020-06-12 平安医疗健康管理股份有限公司 图像文本识别方法、装置、计算机设备及计算机存储介质
CN111507350A (zh) * 2020-04-16 2020-08-07 腾讯科技(深圳)有限公司 一种文本识别方法和装置
CN112115936A (zh) * 2020-10-10 2020-12-22 京东方科技集团股份有限公司 一种用于文本的识别方法、装置、存储介质以及电子设备
CN112364862A (zh) * 2020-12-08 2021-02-12 杭州电子科技大学 一种基于直方图相似度的扰动变形汉字图片匹配的方法
CN112613506A (zh) * 2020-12-23 2021-04-06 金蝶软件(中国)有限公司 图像中的文本识别方法、装置、计算机设备和存储介质
CN113255667A (zh) * 2021-06-16 2021-08-13 北京世纪好未来教育科技有限公司 文本图像相似度评估方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王新成: "《高级图像处理技术》", 31 December 2001 *
鲜翠琼: "一种图文组合相似度算法的设计与优化", 《软件工程》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023236246A1 (zh) * 2022-06-06 2023-12-14 青岛海尔科技有限公司 文本信息的识别方法和装置、存储介质和电子装置
CN116522168A (zh) * 2023-07-04 2023-08-01 北京墨丘科技有限公司 一种跨模态的文本相似度比较方法、装置及电子设备

Also Published As

Publication number Publication date
CN113962199B (zh) 2022-04-08

Similar Documents

Publication Publication Date Title
CN109271512B (zh) 舆情评论信息的情感分析方法、装置及存储介质
CN109471944B (zh) 文本分类模型的训练方法、装置及可读存储介质
CN110909725A (zh) 识别文本的方法、装置、设备及存储介质
CN113962199B (zh) 文本识别方法、装置、设备、存储介质及程序产品
CN109033261B (zh) 图像处理方法、装置、处理设备及其存储介质
CN110929203B (zh) 异常用户的识别方法、装置、设备及存储介质
CN110929145A (zh) 舆情分析方法、装置、计算机装置及存储介质
CN112052451A (zh) 一种webshell检测方法和装置
CN111914159A (zh) 一种信息推荐方法及终端
CN110647895B (zh) 一种基于登录框图像的钓鱼页面识别方法及相关设备
CN106815253B (zh) 一种基于混合数据类型数据的挖掘方法
JP5433396B2 (ja) マンガ画像からテキストを抽出するマンガ画像解析装置、プログラム、検索装置及び方法
CN116032741A (zh) 一种设备识别方法、装置、电子设备和计算机存储介质
CN107368923B (zh) 景点热度预测方法及装置
CN113965377A (zh) 一种攻击行为检测方法及装置
CN111488400B (zh) 数据分类方法、装置和计算机可读存储介质
CN111966946A (zh) 一种页面权威值的识别方法、装置、设备和存储介质
JP2020502710A (ja) ウェブページメイン画像認識方法及び装置
CN108170838B (zh) 话题演变的可视化展现方法、应用服务器及计算机可读存储介质
CN111401360A (zh) 优化车牌检测模型的方法及系统、车牌检测方法及系统
CN115880702A (zh) 数据处理方法、装置、设备、程序产品及存储介质
CN115168609A (zh) 一种文本匹配方法、装置、计算机设备和存储介质
CN113704623A (zh) 一种数据推荐方法、装置、设备及存储介质
CN109922444A (zh) 一种垃圾短信识别方法及装置
CN114528908A (zh) 网络请求数据分类模型训练方法、分类方法及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant