CN115410207B

CN115410207B - 一种针对竖排文本的检测方法及装置

Info

Publication number: CN115410207B
Application number: CN202110588830.0A
Authority: CN
Inventors: 贾云刚; 李超; 王勇; 赵淳璐; 梁睿琪; 孙捷; 高一骄; 孙海亮
Original assignee: Tianjin Branch Of National Computer Network And Information Security Management Center; Institute of Information Engineering of CAS
Current assignee: Tianjin Branch Of National Computer Network And Information Security Management Center; Institute of Information Engineering of CAS
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2023-08-29
Anticipated expiration: 2041-05-28
Also published as: CN115410207A

Abstract

本发明公开一种针对竖排文本的检测方法及装置，包括扫描待检测文本，确定换行符的位置，得到一个位置列表，并基于该位置列表，计算每行文字长度；截取连续t行中每行文字长度一致的文本，保留截取文本中的有效字符，得到保留文本；对保留文本进行分词，并根据得到第一分词结果，获取截取文本的初步检测结果；若初步检测结果判断截取文本为竖排文本，则将截取文本转换为二维的字符矩阵，并删除换行符，对该字符矩阵作转置，得到转置文本；对转置文本进行分词，并根据得到第二分词结果，获取截取文本的检测结果。本发明可确定竖排文字的区域，去除竖排文本中的干扰字符，并恢复成一般的横向文本，同时处理竖排文本中普遍存在的错别字现象。

Description

一种针对竖排文本的检测方法及装置

技术领域

本发明涉及一种针对竖排文本的检测方法及装置，可检测文本中是否存在竖排文字，如果存在，则恢复正常横排文字顺序，属于自然语言处理领域。

背景技术

人们在工作生活中遇到的绝大多数文本内容都是自上而下、从左到右的横排文字，同时也存在一些特殊场景，文字并不以常见的横排方式排列，比如对联、商店或机构单位的广告牌等，在互联网、短信等通信文本内容中，竖排排放的文字也比较常见。

竖排文字对于人来说并不难处理，人类的视觉可以极好的处理文字位置的信息，文字的顺序可以很好的被恢复，竖排排放的文字并不会对人类的阅读造成过多的困难。但对于计算机并不如此，文本数据被顺序排放存储，非顺序横排的文字难以处理，中文就变成独立的汉字而不是词汇，英文等其他语言则会变成独立的字母而不是单词，而对词汇的识别是许多自然语言处理的基础，文字的顺序错误使得文本匹配和文本理解等自动化的文本处理工作无从下手。人类视觉和计算机处理文字方式的区别也有一些常见的应用，比如用于人机识别，或者被用于某些场景下的敏感内容反监测。

对于竖排文字的识别和顺序恢复的研究多集中于OCR(optical characterrecognition)文字识别领域，从图片中自动识别出竖排文字。市场上也有多种成熟软件可以很好的实现这个功能，比如百度文字识别、腾讯云OCR等。光学字符识别技术已经得到了广泛应用，比如用于识别发票等纸质材料上的关键字样，或者从一般图片中识别文本信息。目前解决竖排文字识别的一种比较普遍的思路是基于旋转的框架，对自然场景中任意方向的文字进行检测辨认。使用深度神经网络生成倾斜的框架，同时还带有图像旋转角度的信息。之后，这些信息会适应边界框，从而能更精确地在不同方向上确定文本区域。

但基于图像信息的文本方向识别需要较高的计算复杂度，如果需要把文本信息先转化为图像再识别为文本信息也显得过于的冗余且低效率，同时，如果竖排文字之间没有明显的分隔符号或其他分割标志来帮助确定文字排列方向，基于图像信息的文本方向识别也会失效。综上所述，基于图像的竖排文字的监测识别计算复杂度比较高，难以用于处理文本形式的数据。

发明内容

为解决上述问题，本发明公开一种针对竖排文本的检测方法及装置，一方面，基于文本中的结构标志和文本的分词结果，判断文本中是否存在竖排文字，以及确定竖排文字的区域；另一方面，基于竖排文字的区域监测结果，恢复竖排文字的正常文本顺序。该方法需要依赖的算法基础主要包括中文自动分词(Chinese word segmentation)技术，结合其他基于统计和规则的方法，实现准确度高、计算复杂度低的竖排文字监测和顺序恢复功能。

为达到上述目的，本发明采用具体技术方案是：

一种针对竖排文本的检测方法，其步骤包括：

1)扫描待检测文本，确定换行符的位置，得到一个位置列表，并基于该位置列表，计算每行文字长度；

2)截取连续t行中每行文字长度一致的文本，保留截取文本中的有效字符，得到保留文本，其中t≥3；

3)对保留文本进行分词，并根据得到第一分词结果，获取截取文本的初步检测结果；

4)若初步检测结果判断截取文本为竖排文本，则将截取文本转换为二维的字符矩阵，并删除换行符，对该字符矩阵作转置，得到转置文本；

5)对转置文本进行分词，并根据得到第二分词结果，获取截取文本的检测结果。

进一步地，所述有效字符包括：汉字、大小写英文字母、阿拉伯数字和换行符。

进一步地，对保留文本进行分词的方法包括：Jieba、SnowNLP、PkuSeg、THULAC或HanLP开源分词工具。

进一步地，通过以下步骤获取截取文本的初步检测结果：

1)设定一阈值；

2)若第一分词结果中单字的数量大于所述阈值，则判断截取文本为竖排文本；否则，判断为横排文本。

进一步地，通过以下步骤得到二维的字符矩阵：

1)删除截取文本中的分隔字符；

2)将删除后的截取文本，转换为二维字符矩阵。

进一步地，通过以下步骤获取截取文本的检测结果：

1)将第二分词结果中词汇的数量与第一分词结果中词汇的数量进行对比；

2)若第二分词结果中词汇的数量大于第一分词结果中词汇的数量，则判断截取文本为竖排文本；否则，判断为横排文本。

进一步地，对判断为竖排文本的检测结果进行修正的方法包括：基于规则的文本纠错方法、基于深度学习模型的文本纠错方法、基于神经机器翻译的文本纠错方法、基于动态文本窗口和权重动态分配的文本纠错方法或基于word2vec的文本纠错方法。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述所述的方法。

一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机以执行上述所述的方法。

与现有技术相比，本发明的积极效果：

(1)基于竖排文本的格式特征，提出一种竖排文字的检测与定位方法，可用于确定文本中是否存在竖排文字，并确定竖排文字的区域；

(2)提出一种竖排文字的文本顺序恢复方法，可以去除竖排文本中的干扰字符，并恢复成一般的横向文本；

(3)结合基于n-gram模型的中文纠错算法，纠正竖排文本中的同音错别字或者错误词汇，处理了竖排文本中普遍存在的错别字现象。

附图说明

图1竖排文本检测与顺序恢复流程图。

图2竖排文本提取与判断示例图。

图3竖排文本顺序恢复示例图。

具体实施方式

为了使本技术领域的人员更好地理解本发明实施例中的技术方案，并使本发明的目的、特征和优点能够更加明显易懂，下面结合附图对本发明中技术核心作进一步详细的说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本发明的主要目的是提供一种针对竖排文字的检测与顺序恢复方法，基于文本格式的数据，一方面，检测文本中是否存在竖排文字，并确定竖排文字的区域范围；另一方面，恢复竖排文字的自然语序，将竖排文字恢复成正常的顺序文本。

根据本发明的第一个方面，基于文本数据检测是否存在竖排文字，并确定竖排文字的起始、终止位置。竖排文字往往在文本文件中只存在于局部区域，除部分古籍文献等特殊场景下是全篇竖排外，大部分竖排文本都只占据一小部分。为便于读者阅读，竖排文字必然需要在竖直方向上对齐文字，在某些情况下，会加入辅助字符，比如空格、“|”等，使得竖排文字可以被人更清晰的阅读。基于这两点基本特征，通过检查换行符和分割字符，可以检测竖排文字的区域，即起始和中止位置。同时，并不一定所有的列对齐文字都是竖排文字，比如某些广告语或者古诗，为了对仗工整，也会出现每行文字长短相同、竖直方向对齐的现象，所以在检测出可能存在竖排文字的区域后，需按行将文字作分词处理，若分词结果中两字以上的词汇较少，说明这段文字可能并不是按水平方向阅读，可以初步判断是竖排文字。

根据本发明的第二个方面，恢复竖排文字的正常文本顺序，并去除竖排文本中的干扰性字符。为恢复竖排文字的顺序，重新将其排列为可以正常阅读和处理的横向文本，首先需要删除辅助纵向阅读的分隔字符，或者是分隔字符串，分隔字符的特征是，除每行的行首和行末外，每两个有效字符中间均存在相同的字符和字符串，根据这个特征可以检查竖排文字中是否存在分隔字符、字符串，并直接去除。去除干扰的分隔字符后，只保留有效内容文本，确定每行的长度，按照纵向顺序恢复字符顺序即可，这一步中可以将竖排文本看作以单个字符作为元素的矩阵，由纵向恢复横向即取矩阵的转置。恢复顺序后，重新对文本进行分词，检查是否可以形成更多的包含两个字符以上的词汇。

根据本发明的第三个方面，若存在竖排文字与同音字替换共同存在的现象，基于词库与拼音匹配，修正同音字，恢复正确的词汇。竖排文字在编辑过程中，可能由于输入不便捷，普遍存在较多的同音“错别字”，恢复正常横向顺序后的文本由于“错别字”的存在，无法正常作分词、匹配等处理。对于这种情况，需要进一步处理，扫描文本中是否存在不合理的字词，并对文本作修正。

图1说明了竖排文字检测和顺序恢复的简要流程。首先根据竖排文本的格式和分词结果判断是否存在竖排文字，并准确定位；然后恢复竖排文本的正常横向文本顺序；最后对文本中存在的同音字错误进行纠正，得到正确的顺序文本。以下说明每个步骤的详细实施方式：

图2给出了一个竖排文本提取与判断的示例，首先，检测是否存在竖排文字并确定竖排文字的起始、终止位置。扫描文本，确定换行符(“\n”)的位置，得到一个位置列表，基于该位置列表，计算每两个相邻位置之间的差，即计算得到每行文字的长度。若存在连续三行及以上的文本每行的长度一致，截取该部分文字，这部分文字可能是竖排文字。如图2所示，文本的前四行长度相同，截取该部分文字。定义有效字符集为汉字、大小写英文字母、阿拉伯数字和换行符“\n”，保留截取文本中的有效字符(为了避免其他字符对分词造成干扰)，然后对保留的文本作中文分词，本示例中使用HanLP开源分词工具，若分词结果一半以上都是单字(即分词后的结果中长度为两个字以上的词汇较少)，则截取部分文本初步判断为竖排文字。如图2所示，分词结果中仅存在四个包含两个字符的词汇，其余皆是单字，则可以初步判断截取的这部分文字为竖排文字。

如图3所示，得到截取的竖排文本后，考察截取的文本中是否包含分隔字符，即每两个有效字符之间是否存在相同的字符或字符串，若存在，则删除这些分隔字符或字符串。删除后，将截取的文本转换为二维的字符矩阵，并删除换行符，对该矩阵作转置，即可恢复横向的正常语序的文本。恢复正常语序后，分词结果中有七个两字以上的词汇，比图2的分词结果更加合理，说明截取的这部分文字是竖排文字。

若竖排文字中存在音近字替换，在恢复正常横向文本顺序后，仍然存在“错别字”需要矫正。如实例中“山城”被错误的写作“山成”，基于规则的文本纠错方法(Xie W,HuangP,Zhang X,et al.Chinese Spelling Check System Based on N-gram Model[C]//2015Association for Computational Linguistics andAsian Federation ofNaturalLanguage Processing.2015)需要使用中文常用词词典，该方法中的常用词典包括中文词汇和对应的词频。矫正步骤如下：

步骤1：利用中文分词技术对给定句子进行切词。分词结果将作为下一步的基础。

步骤2：根据判断条件，系统收集句子中对应词的混淆集。

步骤3：对于这个句子中可以替换的每个字符(根据相应的条件)，系统将枚举其混淆集的每个词来替换原始词语。在这个步骤之后得到一个候选句子集。

步骤4：系统采用联合二元和三元文法语言模型(根据不同的条件使用二元文法和三元文法)计算每个候选句子的得分。使用CCL语料库和搜狗语料库来生成N元文法的频率。最后，选择最高得分的句子作为最终输出。

其它实施方式

在本发明的具体实施步骤中，中文分词可选用的工具有：Jieba,SnowNLP,PkuSeg,THULAC,HanLP等，可跟据具体开发应用情况进行选用。

在文本纠错步骤中，该方向已有较为充沛的研究，可替代的算法模型较多，具体可参考以下专利和文献：

[1]蒋倩雯,沈艺,许加书,张森,&张兵兵.(2020).基于深度学习模型的文本纠错方法及系统.CN111339758A.

[2]邓永康.(2019).基于神经机器翻译的中文文本纠错研究.(Doctoraldissertation,武汉大学).

[3]黄改娟,王匆匆,&张仰森.(2020).基于动态文本窗口和权重动态分配的中文文本纠错方法.郑州大学学报:理学版(3),9-14.

[4]张佳宁、严冬梅、王勇.(2020).基于word2vec的语音识别后文本纠错.计算机工程与设计,v.41；No.407(11),243-248.

实验数据

本发明所述方法在100,000条广告短信文本语料库中进行测试，对竖排文本的检测准确率可达到97％，召回率可达到92％。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体，但并不能因此理解为对本发明范围的限制。应当指出，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明的保护范围应当以所附权利要求为准。

Claims

1.一种针对竖排文本的检测方法，其步骤包括：

3)对保留文本进行分词，并根据得到第一分词结果，获取截取文本的初步检测结果；其中，所述根据得到第一分词结果，获取截取文本的初步检测结果，包括：

设定一阈值；

若第一分词结果中单字的数量大于所述阈值，则判断截取文本为竖排文本；否则，判断为横排文本；

5)对转置文本进行分词，并根据得到第二分词结果，获取截取文本的检测结果；其中，所述根据得到第二分词结果，获取截取文本的检测结果，包括：

将第二分词结果中词汇的数量与第一分词结果中词汇的数量进行对比；

若第二分词结果中词汇的数量大于第一分词结果中词汇的数量，则判断截取文本为竖排文本；否则，判断为横排文本。

2.如权利要求1所述的方法，其特征在于，所述有效字符包括：汉字、大小写英文字母、阿拉伯数字和换行符。

3.如权利要求1所述的方法，其特征在于，对保留文本进行分词的方法包括：Jieba、SnowNLP、PkuSeg、THULAC或HanLP开源分词工具。

4.如权利要求1所述的方法，其特征在于，通过以下步骤得到二维的字符矩阵：

1)删除截取文本中的分隔字符；

2)将删除后的截取文本，转换为二维字符矩阵。

5.如权利要求1所述的方法，其特征在于，对判断为竖排文本的检测结果进行修正的方法包括：基于规则的文本纠错方法、基于深度学习模型的文本纠错方法、基于神经机器翻译的文本纠错方法、基于动态文本窗口和权重动态分配的文本纠错方法或基于word2vec的文本纠错方法。

6.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-5中任一所述方法。

7.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-5中任一所述方法。