CN108985289A - 乱码检测方法及装置 - Google Patents

乱码检测方法及装置 Download PDF

Info

Publication number
CN108985289A
CN108985289A CN201810791080.5A CN201810791080A CN108985289A CN 108985289 A CN108985289 A CN 108985289A CN 201810791080 A CN201810791080 A CN 201810791080A CN 108985289 A CN108985289 A CN 108985289A
Authority
CN
China
Prior art keywords
text
content
messy code
word
text filed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810791080.5A
Other languages
English (en)
Inventor
项金鑫
尹飞
薛大伟
邢潘红
魏晨辉
张婷
柏馨
刘盼盼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu Online Network Technology Beijing Co Ltd
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810791080.5A priority Critical patent/CN108985289A/zh
Publication of CN108985289A publication Critical patent/CN108985289A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1475Inclination or skew detection or correction of characters or of image to be recognised
    • G06V30/1478Inclination or skew detection or correction of characters or of image to be recognised of characters or characters lines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提出一种乱码检测方法及装置,其中方法包括:获取待处理的图像;图像中包括:至少一个文本区域;文本区域为文本内容对应的区域;对文本区域进行识别,获取文本区域中的文本内容;文本内容中包括:至少一个字符;获取文本内容中各个字符的出现次数;若文本内容中存在对应的出现次数大于预设次数阈值的字符,则确定文本区域为乱码区域,由于针对文本区域中相同的字符,识别得到相同的结果,若文本区域中存在乱码字符,一般乱码字符为一连串的相同字符,因此,根据文本内容中字符的出现次数能够准确确定文本区域是否为乱码区域,从而提高了乱码识别效率。

Description

乱码检测方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种乱码检测方法及装置。
背景技术
目前,对页面截图进行乱码识别的方法主要为,从页面截图中获取文字的图像特征,将文字的图像特征与已知乱码文字的图像特征进行比对,确定文字的图像特征与已知乱码文字的图像特征的相似度,根据相似度来确定页面截图中是否存在乱码文字。然而上述方法中,已知乱码文字较少,难以覆盖大部分的乱码文字;且页面截图中文字识别的精度直接影响特征匹配的准确度,从而导致识别到的乱码文字不全,或者未识别出页面截图中的乱码文字,影响乱码识别效率。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种乱码检测方法,用于解决现有技术中乱码识别效率差的问题。
本发明的第二个目的在于提出一种乱码检测装置。
本发明的第三个目的在于提出一种电子设备。
本发明的第四个目的在于提出一种非临时性计算机可读存储介质。
本发明的第五个目的在于提出一种计算机程序产品。
为达上述目的,本发明第一方面实施例提出了一种乱码检测方法,包括:
获取待处理的图像;所述图像中包括:至少一个文本区域;所述文本区域为文本内容对应的区域;
对所述文本区域进行识别,获取所述文本区域中的文本内容;所述文本内容中包括:至少一个字符;
获取所述文本内容中各个字符的出现次数;
若所述文本内容中存在对应的出现次数大于预设次数阈值的字符,则确定所述文本区域为乱码区域。
进一步的,所述的方法还包括:
若所述文本内容中不存在对应的出现次数大于预设次数阈值的字符,则对所述文本内容进行切词,获取所述文本内容中的词语;
判断乱码库中是否存在与所述词语匹配的词语;
若所述乱码库中存在与所述词语匹配的词语,则确定所述文本区域为乱码区域。
进一步的,所述的方法还包括:
根据所述文本内容中的词语,确定所述文本内容的细碎粒度;
若所述细碎粒度大于预设粒度阈值,则确定所述文本区域为乱码区域。
进一步的,所述的方法还包括:
针对所述至少一个文本区域,获取所述文本区域的特征;
将所述文本区域的特征与预设的乱码区域的特征进行比对,获取所述文本区域与所述乱码区域的相似度;
若所述相似度大于预设相似度阈值,则确定所述文本区域为乱码区域。
进一步的,所述对所述文本区域进行识别,获取所述文本区域中的文本内容之前,还包括:
对所述图像进行控件区域识别,获取所述图像中的至少一个控件区域;
判断所述控件区域是否为文本区域;
若所述控件区域为非文本区域,则删除所述控件区域;
针对文本区域,若所述文本区域中存在不完整的字符,则删除所述不完整的字符。
进一步的,所述判断乱码库中是否存在与所述词语匹配的词语之前,还包括:
针对所述文本内容中的任意两个词语,判断所述两个词语是否符合预设聚合规则;所述预设聚合规则包括:专有名词规则和词性搭配规则;
若所述两个词语符合预设聚合规则,则对所述两个词语进行聚合。
本发明实施例的乱码检测方法,通过获取待处理的图像;图像中包括:至少一个文本区域;文本区域为文本内容对应的区域;对文本区域进行识别,获取文本区域中的文本内容;文本内容中包括:至少一个字符;获取文本内容中各个字符的出现次数;若文本内容中存在对应的出现次数大于预设次数阈值的字符,则确定文本区域为乱码区域,由于针对文本区域中相同的字符,识别得到相同的结果,若文本区域中存在乱码字符,一般乱码字符为一连串的相同字符,因此,根据文本内容中字符的出现次数能够准确确定文本区域是否为乱码区域,从而提高了乱码识别效率。
为达上述目的,本发明第二方面实施例提出了一种乱码检测装置,包括:
获取模块,用于获取待处理的图像;所述图像中包括:至少一个文本区域;所述文本区域为文本内容对应的区域;
识别模块,用于对所述文本区域进行识别,获取所述文本区域中的文本内容;所述文本内容中包括:至少一个字符;
所述获取模块,还用于获取所述文本内容中各个字符的出现次数;
确定模块,用于在所述文本内容中存在对应的出现次数大于预设次数阈值的字符时,确定所述文本区域为乱码区域。
进一步的,所述的装置还包括:切词模块和第一判断模块;
所述切词模块,用于在所述文本内容中不存在对应的出现次数大于预设次数阈值的字符时,对所述文本内容进行切词,获取所述文本内容中的词语;
所述第一判断模块,用于判断乱码库中是否存在与所述词语匹配的词语;
所述确定模块,还用于在所述乱码库中存在与所述词语匹配的词语时,确定所述文本区域为乱码区域。
进一步的,所述确定模块,还用于根据所述文本内容中的词语,确定所述文本内容的细碎粒度;
所述确定模块,还用于在所述细碎粒度大于预设粒度阈值时,确定所述文本区域为乱码区域。
进一步的,所述的装置还包括:比对模块;
所述获取模块,还用于针对所述至少一个文本区域,获取所述文本区域的特征;
所述比对模块,用于将所述文本区域的特征与预设的乱码区域的特征进行比对,获取所述文本区域与所述乱码区域的相似度;
所述确定模块,还用于在所述相似度大于预设相似度阈值时,确定所述文本区域为乱码区域。
进一步的,所述的装置还包括:第二判断模块和删除模块;
所述识别模块,还用于对所述图像进行控件区域识别,获取所述图像中的至少一个控件区域;
所述第二判断模块,用于判断所述控件区域是否为文本区域;
所述删除模块,用于在所述控件区域为非文本区域时,删除所述控件区域;
所述删除模块,还用于针对文本区域,若所述文本区域中存在不完整的字符,则删除所述不完整的字符。
进一步的,所述的装置还包括:聚合模块;
所述第一判断模块,还用于针对所述文本内容中的任意两个词语,判断所述两个词语是否符合预设聚合规则;所述预设聚合规则包括:专有名词规则和词性搭配规则;
所述聚合模块,用于在所述两个词语符合预设聚合规则时,对所述两个词语进行聚合。
本发明实施例的乱码检测装置,通过获取待处理的图像;图像中包括:至少一个文本区域;文本区域为文本内容对应的区域;对文本区域进行识别,获取文本区域中的文本内容;文本内容中包括:至少一个字符;获取文本内容中各个字符的出现次数;若文本内容中存在对应的出现次数大于预设次数阈值的字符,则确定文本区域为乱码区域,由于针对文本区域中相同的字符,识别得到相同的结果,若文本区域中存在乱码字符,一般乱码字符为一连串的相同字符,因此,根据文本内容中字符的出现次数能够准确确定文本区域是否为乱码区域,从而提高了乱码识别效率。
为达上述目的,本发明第三方面实施例提出了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如上所述的乱码检测方法。
为了实现上述目的,本发明第四方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的乱码检测方法。
为了实现上述目的,本发明第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的乱码检测方法。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例提供的一种乱码检测方法的流程示意图;
图2为页面截图的示意图;
图3为本发明实施例提供的另一种乱码检测方法的流程示意图;
图4为本发明实施例提供的一种乱码检测装置的结构示意图;
图5为本发明实施例提供的另一种乱码检测装置的结构示意图;
图6为本发明实施例提供的另一种乱码检测装置的结构示意图;
图7为本发明实施例提供的另一种乱码检测装置的结构示意图;
图8为本发明实施例提供的另一种乱码检测装置的结构示意图;
图9为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述本发明实施例的乱码检测方法及装置。
图1为本发明实施例提供的一种乱码检测方法的流程示意图。如图1所示,该乱码检测方法包括以下步骤:
S101、获取待处理的图像;图像中包括:至少一个文本区域;文本区域为文本内容对应的区域。
本发明提供的乱码检测方法的执行主体为乱码检测装置,乱码检测装置可以为终端设备、服务器等硬件设备,或者为硬件设备上安装的软件。本实施例中,待处理的图像例如可以为页面截图等。在图像为页面截图的情况下,图像中可以包括至少一个控件区域。控件区域可以为控件对应的区域,例如视频控件、图片控件、状态栏控件等。
进一步的,本实施例中,步骤101之后,步骤102之前,所述的方法还可以包括:对图像进行区域划分的过程。乱码检测装置对图像进行区域划分的过程具体可以为,对图像进行控件区域识别,获取图像中的至少一个控件区域;判断控件区域是否为文本区域;若控件区域为非文本区域,则删除控件区域;针对文本区域,若文本区域中存在不完整的字符,则删除不完整的字符。
本实施例中,乱码检测装置对图像进行控件区域识别的方式具体可以为,从上到下、从左到右扫描图像中连续的直线和闭合区域,确定可切割的行和列,然后对图像进行切割。本实施例中,乱码检测装置可以预先保存有可以删除的空间区域的长、宽等尺寸。例如,针对页面截图中常见的非文本区域,可以预先保存这些非文本区域的尺寸,当切割得到的某个区域具有所述尺寸时,则确定该区域为非文本区域。
另外,针对文本区域,乱码检测装置还可以识别文本区域中文本内容所在的位置以及空白区域,并删除空白区域。本实施例中,乱码检测装置识别空白区域的方式可以为,若文本区域中存在连续多个像素相同的区域,且像素值为预设像素值,则确定所述区域为空白区域。预设像素值例如可以为白色对应的像素值。
S102、对文本区域进行识别,获取文本区域中的文本内容;文本内容中包括:至少一个字符。
本实施例中,乱码检测装置还可以获取各个字符在文本区域上的位置信息,以便在确定字符为乱码时,可以确定乱码所在位置,进而对页面截图或者页面进行纠正。
S103、获取文本内容中各个字符的出现次数。
本实施例中,在某些情况下,例如文本内容中字符数量较少的情况下,各个字符的出现次数都较少,因此,根据出现次数可能不能准确的确定文本内容中的乱码字符,因此,可以将出现次数替换为出现频率,即根据字符的出现频率来确定文本内容中是否有乱码字符。其中,出现频率的计算公式可以如以下公式(1)所示。
freq=max{num(sj)}/n,j∈[1,n] (1)
其中,freq表示出现频率;num()函数用于计算字符的出现次数;sj表示第j个字符;n表示文本内容中字符的数量;max()函数用于求最大值。
S104、若文本内容中存在对应的出现次数大于预设次数阈值的字符,则确定文本区域为乱码区域。
进一步的,在上述实施例的基础上,所述的方法还可以包括以下步骤:若文本内容中不存在对应的出现次数大于预设次数阈值的字符,则对文本内容进行切词,获取文本内容中的词语;判断乱码库中是否存在与词语匹配的词语;若乱码库中存在与词语匹配的词语,则确定文本区域为乱码区域。其中,如图2所示,为页面截图的示意图,该页面截图中包括8个乱码区域。
本实施例中,切词过程中,可能将某些专业词语或者短语等切分开,影响切词效果,因此,乱码检测装置获取文本内容中的词语之后,还可以执行以下过程:针对文本内容中的任意两个词语,判断两个词语是否符合预设聚合规则;预设聚合规则包括:专有名词规则和词性搭配规则;若两个词语符合预设聚合规则,则对两个词语进行聚合。例如,若两个词语可以组成一个专有名词,则将该两个词语聚合成一个专有名词。
本实施例中,在根据字符的出现次数未确定乱码字符的情况下,可以将文本内容中的词语与乱码库中的词语进行匹配,若匹配成功,则确定文本内容中有乱码词语,从而结合字符的出现次数和将词语与乱码库进行比对,能够进一步准确的判断文本区域是否为乱码区域,进一步提高乱码识别效率。
进一步的,在上述实施例的基础上,乱码检测装置获取文本内容中的词语之后,还可以执行以下过程:根据文本内容中的词语,确定文本内容的细碎粒度;若细碎粒度大于预设粒度阈值,则确定文本区域为乱码区域。
另外,乱码检测装置根据文本内容中的词语,确定文本内容的细碎粒度的过程具体还可以为,将文本内容中的词语输入预设的细碎粒度打分模型,由细碎粒度打分模型计算文本内容的细碎粒度。其中,细碎粒度打分模型计算文本内容的细碎粒度的公式具体可以如以下公式(2)和公式(3)所示,
Lmin=min{len(subi)},i∈[1,Ltotal] (2)
seg=f(Lmin)/Ltotal (3)
其中,Ltotal表示文本内容中的词语数量;subi表示第i个词语;f()函数用于计算词语的长度;min()函数用于计算长度的最小值;num()函数用于计算相同长度单词的出现次数;seg表示文本内容的细碎粒度。其中,预设粒度阈值例如可以为0.8。
本实施例中,在根据字符的出现次数未确定乱码字符的情况下,可以将文本内容中的词语与乱码库中的词语进行匹配,若匹配成功,则确定文本内容中有乱码词语,或者若细碎粒度大于预设粒度阈值,则确定文本内容中有乱码词语,从而能够进一步准确的判断文本区域是否为乱码区域,进一步提高乱码识别效率。
本发明实施例的乱码检测方法,通过获取待处理的图像;图像中包括:至少一个文本区域;文本区域为文本内容对应的区域;对文本区域进行识别,获取文本区域中的文本内容;文本内容中包括:至少一个字符;获取文本内容中各个字符的出现次数;若文本内容中存在对应的出现次数大于预设次数阈值的字符,则确定文本区域为乱码区域,由于针对文本区域中相同的字符,识别得到相同的结果,若文本区域中存在乱码字符,一般乱码字符为一连串的相同字符,因此,根据文本内容中字符的出现次数能够准确确定文本区域是否为乱码区域,从而提高了乱码识别效率。
进一步的,结合参考图3,在图1所示实施例的基础上,所述的方法还可以包括以下步骤:
S105、针对至少一个文本区域,获取文本区域的特征。
本实施例中,文本区域的特征,指的是文本区域中的视觉特征,例如纹理等。
S106、将文本区域的特征与预设的乱码区域的特征进行比对,获取文本区域与乱码区域的相似度。
S107、若相似度大于预设相似度阈值,则确定文本区域为乱码区域。
本实施例中,针对每个文本区域,乱码检测装置可以将文本区域的特征与各个乱码区域的特征进行比对,获取文本区域与各个乱码区域的相似度;若文本区域与某个乱码区域的相似度大于预设相似度阈值,则确定文本区域为乱码区域;若文本区域与各个乱码区域的相似度都小于等于预设相似度阈值,则确定文本区域为非乱码区域。
图4为本发明实施例提供的一种乱码检测装置的结构示意图。如图4所示,包括:获取模块41、识别模块42和确定模块43。
其中,获取模块41,用于获取待处理的图像;所述图像中包括:至少一个文本区域;所述文本区域为文本内容对应的区域;
识别模块42,用于对所述文本区域进行识别,获取所述文本区域中的文本内容;所述文本内容中包括:至少一个字符;
所述获取模块41,还用于获取所述文本内容中各个字符的出现次数;
确定模块43,用于在所述文本内容中存在对应的出现次数大于预设次数阈值的字符时,确定所述文本区域为乱码区域。
本发明提供的乱码检测装置可以为终端设备、服务器等硬件设备,或者为硬件设备上安装的软件。本实施例中,待处理的图像例如可以为页面截图等。在图像为页面截图的情况下,图像中可以包括至少一个控件区域。控件区域可以为控件对应的区域,例如视频控件、图片控件、状态栏控件等。
本实施例中,乱码检测装置还可以获取各个字符在文本区域上的位置信息,以便在确定字符为乱码时,可以确定乱码所在位置,进而对页面截图或者页面进行纠正。
本实施例中,在某些情况下,例如文本内容中字符数量较少的情况下,各个字符的出现次数都较少,因此,根据出现次数可能不能准确的确定文本内容中的乱码字符,因此,可以将出现次数替换为出现频率,即根据字符的出现频率来确定文本内容中是否有乱码字符。其中,出现频率的计算公式可以如以下公式(1)所示。
freq=max{num(sj)}/n,j∈[1,n] (1)
其中,freq表示出现频率;num()函数用于计算字符的出现次数;sj表示第j个字符;n表示文本内容中字符的数量;max()函数用于求最大值。
进一步的,结合参考图5,在图4所示实施例的基础上,所述的装置还可以包括:第二判断模块44和删除模块45;
所述识别模块42,还用于对所述图像进行控件区域识别,获取所述图像中的至少一个控件区域;
所述第二判断模块44,用于判断所述控件区域是否为文本区域;
所述删除模块45,用于在所述控件区域为非文本区域时,删除所述控件区域;
所述删除模块45,还用于针对文本区域,若所述文本区域中存在不完整的字符,则删除所述不完整的字符。
本实施例中,乱码检测装置对图像进行控件区域识别的方式具体可以为,从上到下、从左到右扫描图像中连续的直线和闭合区域,确定可切割的行和列,然后对图像进行切割。本实施例中,乱码检测装置可以预先保存有可以删除的空间区域的长、宽等尺寸。例如,针对页面截图中常见的非文本区域,可以预先保存这些非文本区域的尺寸,当切割得到的某个区域具有所述尺寸时,则确定该区域为非文本区域。
另外,针对文本区域,乱码检测装置还可以识别文本区域中文本内容所在的位置以及空白区域,并删除空白区域。本实施例中,乱码检测装置识别空白区域的方式可以为,若文本区域中存在连续多个像素相同的区域,且像素值为预设像素值,则确定所述区域为空白区域。预设像素值例如可以为白色对应的像素值。
进一步的,结合参考图6,在图4所示实施例的基础上,所述的装置还可以包括:切词模块46和第一判断模块47;
所述切词模块46,用于在所述文本内容中不存在对应的出现次数大于预设次数阈值的字符时,对所述文本内容进行切词,获取所述文本内容中的词语;
所述第一判断模块47,用于判断乱码库中是否存在与所述词语匹配的词语;
所述确定模块43,还用于在所述乱码库中存在与所述词语匹配的词语时,确定所述文本区域为乱码区域。
进一步的,结合参考图7,在图6所示实施例的基础上,所述的装置还可以包括:聚合模块48,用于针对文本内容中的任意两个词语,判断两个词语是否符合预设聚合规则;预设聚合规则包括:专有名词规则和词性搭配规则;若两个词语符合预设聚合规则,则对两个词语进行聚合。例如,若两个词语可以组成一个专有名词,则将该两个词语聚合成一个专有名词。
本实施例中,在根据字符的出现次数未确定乱码字符的情况下,可以将文本内容中的词语与乱码库中的词语进行匹配,若匹配成功,则确定文本内容中有乱码词语,从而结合字符的出现次数和将词语与乱码库进行比对,能够进一步准确的判断文本区域是否为乱码区域,进一步提高乱码识别效率。
进一步的,在上述实施例的基础上,所述确定模块43,还用于根据所述文本内容中的词语,确定所述文本内容的细碎粒度;
所述确定模块43,还用于在所述细碎粒度大于预设粒度阈值时,确定所述文本区域为乱码区域。
其中,乱码检测装置根据文本内容中的词语,确定文本内容的细碎粒度的过程具体还可以为,将文本内容中的词语输入预设的细碎粒度打分模型,由细碎粒度打分模型计算文本内容的细碎粒度。
本实施例中,在根据字符的出现次数未确定乱码字符的情况下,可以将文本内容中的词语与乱码库中的词语进行匹配,若匹配成功,则确定文本内容中有乱码词语,或者若细碎粒度大于预设粒度阈值,则确定文本内容中有乱码词语,从而能够进一步准确的判断文本区域是否为乱码区域,进一步提高乱码识别效率。
本发明实施例的乱码检测装置,通过获取待处理的图像;图像中包括:至少一个文本区域;文本区域为文本内容对应的区域;对文本区域进行识别,获取文本区域中的文本内容;文本内容中包括:至少一个字符;获取文本内容中各个字符的出现次数;若文本内容中存在对应的出现次数大于预设次数阈值的字符,则确定文本区域为乱码区域,由于针对文本区域中相同的字符,识别得到相同的结果,若文本区域中存在乱码字符,一般乱码字符为一连串的相同字符,因此,根据文本内容中字符的出现次数能够准确确定文本区域是否为乱码区域,从而提高了乱码识别效率。
进一步的,结合参考图8,在图4所示实施例的基础上,所述的装置还可以包括:比对模块49;
所述获取模块41,还用于针对所述至少一个文本区域,获取所述文本区域的特征;
所述比对模块49,用于将所述文本区域的特征与预设的乱码区域的特征进行比对,获取所述文本区域与所述乱码区域的相似度;
所述确定模块43,还用于在所述相似度大于预设相似度阈值时,确定所述文本区域为乱码区域。
本实施例中,文本区域的特征,指的是文本区域中的视觉特征,例如纹理等。
本实施例中,针对每个文本区域,乱码检测装置可以将文本区域的特征与各个乱码区域的特征进行比对,获取文本区域与各个乱码区域的相似度;若文本区域与某个乱码区域的相似度大于预设相似度阈值,则确定文本区域为乱码区域;若文本区域与各个乱码区域的相似度都小于等于预设相似度阈值,则确定文本区域为非乱码区域。
图9为本发明实施例提供的一种电子设备的结构示意图。该电子设备包括:
存储器1001、处理器1002及存储在存储器1001上并可在处理器1002上运行的计算机程序。
处理器1002执行所述程序时实现上述实施例中提供的乱码检测方法。
进一步地,电子设备还包括:
通信接口1003,用于存储器1001和处理器1002之间的通信。
存储器1001,用于存放可在处理器1002上运行的计算机程序。
存储器1001可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器1002,用于执行所述程序时实现上述实施例所述的乱码检测方法。
如果存储器1001、处理器1002和通信接口1003独立实现,则通信接口1003、存储器1001和处理器1002可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(Industry Standard Architecture,简称为ISA)总线、外部设备互连(Peripheral Component,简称为PCI)总线或扩展工业标准体系结构(Extended IndustryStandard Architecture,简称为EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器1001、处理器1002及通信接口1003,集成在一块芯片上实现,则存储器1001、处理器1002及通信接口1003可以通过内部接口完成相互间的通信。
处理器1002可能是一个中央处理器(Central Processing Unit,简称为CPU),或者是特定集成电路(Application Specific Integrated Circuit,简称为ASIC),或者是被配置成实施本发明实施例的一个或多个集成电路。
本发明还提供一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的乱码检测方法。
本发明还提供一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如上所述的乱码检测方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (15)

1.一种乱码检测方法,其特征在于,包括:
获取待处理的图像;所述图像中包括:至少一个文本区域;所述文本区域为文本内容对应的区域;
对所述文本区域进行识别,获取所述文本区域中的文本内容;所述文本内容中包括:至少一个字符;
获取所述文本内容中各个字符的出现次数;
若所述文本内容中存在对应的出现次数大于预设次数阈值的字符,则确定所述文本区域为乱码区域。
2.根据权利要求1所述的方法,其特征在于,还包括:
若所述文本内容中不存在对应的出现次数大于预设次数阈值的字符,则对所述文本内容进行切词,获取所述文本内容中的词语;
判断乱码库中是否存在与所述词语匹配的词语;
若所述乱码库中存在与所述词语匹配的词语,则确定所述文本区域为乱码区域。
3.根据权利要求2所述的方法,其特征在于,还包括:
根据所述文本内容中的词语,确定所述文本内容的细碎粒度;
若所述细碎粒度大于预设粒度阈值,则确定所述文本区域为乱码区域。
4.根据权利要求1所述的方法,其特征在于,还包括:
针对所述至少一个文本区域,获取所述文本区域的特征;
将所述文本区域的特征与预设的乱码区域的特征进行比对,获取所述文本区域与所述乱码区域的相似度;
若所述相似度大于预设相似度阈值,则确定所述文本区域为乱码区域。
5.根据权利要求1所述的方法,其特征在于,所述对所述文本区域进行识别,获取所述文本区域中的文本内容之前,还包括:
对所述图像进行控件区域识别,获取所述图像中的至少一个控件区域;
判断所述控件区域是否为文本区域;
若所述控件区域为非文本区域,则删除所述控件区域;
针对文本区域,若所述文本区域中存在不完整的字符,则删除所述不完整的字符。
6.根据权利要求2所述的方法,其特征在于,所述判断乱码库中是否存在与所述词语匹配的词语之前,还包括:
针对所述文本内容中的任意两个词语,判断所述两个词语是否符合预设聚合规则;所述预设聚合规则包括:专有名词规则和词性搭配规则;
若所述两个词语符合预设聚合规则,则对所述两个词语进行聚合。
7.一种乱码检测装置,其特征在于,包括:
获取模块,用于获取待处理的图像;所述图像中包括:至少一个文本区域;所述文本区域为文本内容对应的区域;
识别模块,用于对所述文本区域进行识别,获取所述文本区域中的文本内容;所述文本内容中包括:至少一个字符;
所述获取模块,还用于获取所述文本内容中各个字符的出现次数;
确定模块,用于在所述文本内容中存在对应的出现次数大于预设次数阈值的字符时,确定所述文本区域为乱码区域。
8.根据权利要求7所述的装置,其特征在于,还包括:切词模块和第一判断模块;
所述切词模块,用于在所述文本内容中不存在对应的出现次数大于预设次数阈值的字符时,对所述文本内容进行切词,获取所述文本内容中的词语;
所述第一判断模块,用于判断乱码库中是否存在与所述词语匹配的词语;
所述确定模块,还用于在所述乱码库中存在与所述词语匹配的词语时,确定所述文本区域为乱码区域。
9.根据权利要求8所述的装置,其特征在于,
所述确定模块,还用于根据所述文本内容中的词语,确定所述文本内容的细碎粒度;
所述确定模块,还用于在所述细碎粒度大于预设粒度阈值时,确定所述文本区域为乱码区域。
10.根据权利要求7所述的装置,其特征在于,还包括:比对模块;
所述获取模块,还用于针对所述至少一个文本区域,获取所述文本区域的特征;
所述比对模块,用于将所述文本区域的特征与预设的乱码区域的特征进行比对,获取所述文本区域与所述乱码区域的相似度;
所述确定模块,还用于在所述相似度大于预设相似度阈值时,确定所述文本区域为乱码区域。
11.根据权利要求7所述的装置,其特征在于,还包括:第二判断模块和删除模块;
所述识别模块,还用于对所述图像进行控件区域识别,获取所述图像中的至少一个控件区域;
所述第二判断模块,用于判断所述控件区域是否为文本区域;
所述删除模块,用于在所述控件区域为非文本区域时,删除所述控件区域;
所述删除模块,还用于针对文本区域,若所述文本区域中存在不完整的字符,则删除所述不完整的字符。
12.根据权利要求8所述的装置,其特征在于,还包括:聚合模块;
所述第一判断模块,还用于针对所述文本内容中的任意两个词语,判断所述两个词语是否符合预设聚合规则;所述预设聚合规则包括:专有名词规则和词性搭配规则;
所述聚合模块,用于在所述两个词语符合预设聚合规则时,对所述两个词语进行聚合。
13.一种电子设备,其特征在于,包括:
存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的乱码检测方法。
14.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的乱码检测方法。
15.一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,实现如权利要求1-6中任一所述的乱码检测方法。
CN201810791080.5A 2018-07-18 2018-07-18 乱码检测方法及装置 Pending CN108985289A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810791080.5A CN108985289A (zh) 2018-07-18 2018-07-18 乱码检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810791080.5A CN108985289A (zh) 2018-07-18 2018-07-18 乱码检测方法及装置

Publications (1)

Publication Number Publication Date
CN108985289A true CN108985289A (zh) 2018-12-11

Family

ID=64549717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810791080.5A Pending CN108985289A (zh) 2018-07-18 2018-07-18 乱码检测方法及装置

Country Status (1)

Country Link
CN (1) CN108985289A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245231A (zh) * 2019-05-16 2019-09-17 阿里巴巴集团控股有限公司 一种针对乱码的训练样本特征提取方法、装置及设备
CN112329445A (zh) * 2020-11-19 2021-02-05 北京明略软件系统有限公司 乱码判断方法、系统、信息抽取方法及信息抽取系统
CN114077826A (zh) * 2021-10-27 2022-02-22 联想(北京)有限公司 一种数据处理的方法、装置及计算机可读介质
CN114629707A (zh) * 2022-03-16 2022-06-14 深信服科技股份有限公司 一种乱码检测方法、装置及电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8554769B1 (en) * 2008-06-17 2013-10-08 Google Inc. Identifying gibberish content in resources
CN103593463A (zh) * 2013-11-26 2014-02-19 蓝盾信息安全技术股份有限公司 一种判断html网页为非文本类型的方法
CN104424165A (zh) * 2013-09-06 2015-03-18 北大方正集团有限公司 一种文本文档乱码检测方法及系统
CN104732228A (zh) * 2015-04-16 2015-06-24 同方知网数字出版技术股份有限公司 一种pdf文档乱码的检测、校正的方法
CN106611176A (zh) * 2015-10-26 2017-05-03 北京国双科技有限公司 异常中文字符串的识别方法及装置
CN107145571A (zh) * 2017-05-05 2017-09-08 广东艾檬电子科技有限公司 一种搜索方法及装置
CN107844481A (zh) * 2017-11-21 2018-03-27 新疆科大讯飞信息科技有限责任公司 识别文本检错方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8554769B1 (en) * 2008-06-17 2013-10-08 Google Inc. Identifying gibberish content in resources
CN104424165A (zh) * 2013-09-06 2015-03-18 北大方正集团有限公司 一种文本文档乱码检测方法及系统
CN103593463A (zh) * 2013-11-26 2014-02-19 蓝盾信息安全技术股份有限公司 一种判断html网页为非文本类型的方法
CN104732228A (zh) * 2015-04-16 2015-06-24 同方知网数字出版技术股份有限公司 一种pdf文档乱码的检测、校正的方法
CN106611176A (zh) * 2015-10-26 2017-05-03 北京国双科技有限公司 异常中文字符串的识别方法及装置
CN107145571A (zh) * 2017-05-05 2017-09-08 广东艾檬电子科技有限公司 一种搜索方法及装置
CN107844481A (zh) * 2017-11-21 2018-03-27 新疆科大讯飞信息科技有限责任公司 识别文本检错方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245231A (zh) * 2019-05-16 2019-09-17 阿里巴巴集团控股有限公司 一种针对乱码的训练样本特征提取方法、装置及设备
CN112329445A (zh) * 2020-11-19 2021-02-05 北京明略软件系统有限公司 乱码判断方法、系统、信息抽取方法及信息抽取系统
CN114077826A (zh) * 2021-10-27 2022-02-22 联想(北京)有限公司 一种数据处理的方法、装置及计算机可读介质
CN114629707A (zh) * 2022-03-16 2022-06-14 深信服科技股份有限公司 一种乱码检测方法、装置及电子设备和存储介质
CN114629707B (zh) * 2022-03-16 2024-05-24 深信服科技股份有限公司 一种乱码检测方法、装置及电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN108985289A (zh) 乱码检测方法及装置
CN110163478B (zh) 一种合同条款的风险审查方法及装置
US8965127B2 (en) Method for segmenting text words in document images
CN108491529A (zh) 信息推荐方法及装置
CN110210021A (zh) 阅读理解方法及装置
CN107609098A (zh) 搜索方法及装置
CN112232346B (zh) 语义分割模型训练方法及装置、图像语义分割方法及装置
US11386897B2 (en) Method and system for extraction of key-terms and synonyms for the key-terms
CN109299269A (zh) 一种文本分类方法和装置
CN109492217B (zh) 一种基于机器学习的分词方法及终端设备
CN109033074B (zh) 新闻摘要生成方法、装置、设备及计算机可读介质
CN110738238B (zh) 一种证件信息的分类定位方法及装置
CN111368061B (zh) 短文本过滤方法、装置、介质及计算机设备
CN107748802A (zh) 文章聚合方法及装置
US10169650B1 (en) Identification of emphasized text in electronic documents
CN107291949A (zh) 信息搜索方法及装置
CN110866095A (zh) 一种文本相似度的确定方法及相关设备
CN111552837A (zh) 基于深度学习的动物视频标签自动生成方法、终端及介质
CN111177375A (zh) 一种电子文档分类方法及装置
US20180005248A1 (en) Product, operating system and topic based
CN115344805A (zh) 素材审核方法、计算设备及存储介质
CN107704520A (zh) 基于人脸识别的多文件检索方法和装置
CN109614478A (zh) 词向量模型的构建方法、关键词匹配方法及装置
US9104450B2 (en) Graphical user interface component classification
CN110796129A (zh) 一种文本行区域检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211