CN105677718B

CN105677718B - 文字检索方法及装置

Info

Publication number: CN105677718B
Application number: CN201511009801.5A
Authority: CN
Inventors: 王晓健; 江世盛
Original assignee: Beijing Hanvon Digital Technology Co Ltd
Current assignee: Wuhan Hanwang Data Technology Co ltd
Priority date: 2015-12-29
Filing date: 2015-12-29
Publication date: 2019-04-09
Anticipated expiration: 2035-12-29
Also published as: CN105677718A

Abstract

本发明涉及一种利用图像匹配进行文字检索的方法及装置。所述方法包括：输入待检索文字的表意文字描述序列；对所述待检索文字的表意文字描述序列进行文本匹配，若文本匹配失败则启动图像匹配方法；即解析所述待检索文字的表意文字描述序列，根据解析获得的表意文字描述符和CJK字符绘制第一文字图像；以及遍历文档中存在的表意文字描述序列，对每次遍历到的表意文字描述序列进行解析，根据解析获得的表意文字描述符和CJK字符绘制第二文字图像。最后，将所述第一文字图像与第二文字图像进行图像匹配，根据匹配结果确定检索结果。所述检索方法及装置能够避免因表意文字描述序列的歧义所导致的文字检索失败。

Description

文字检索方法及装置

技术领域

本发明涉及一种文字信息处理技术，尤其涉及一种利用图像匹配进行文字检索的方法及装置。

背景技术

随着计算机技术的发展，为实现计算机跨语言、跨平台的文本转换及处理，国际组织制定并公布了Unicode(万国码、统一码)编码系统，其中包括中日韩统一表意文字符号(CJK United Ideographs)。

然而，汉字的数量庞大，结构复杂，尽管Unicode标准已经包括了70000多个汉字符号，但是仍然有许多生僻字未被包括进来。这些未被编码的汉字可称其为“集外字”。虽然Unicode标准持续不断的对集外字进行分类编码，分配码位，但是汉字是一个开放的集合，可以预计根本不可能也没有必要穷尽所有的汉字。Unicode标准也认识到单纯依靠扩大收字量无法从根本上解决CJK(中日韩)文字的编码问题。

有鉴于此，Unicode标准定义了表意文字描述序列IDS(Ideographic DescriptionCharacters Sequence)和表意文字描述符IDC(Ideographic Description Characters)。表意文字描述(Ideographic Description)的算法依据是：理论上所有的汉字都可以拆分为更小的部件，而这些部件本身是表意文字。所以通过定义描述文字结构的表意文字描述符IDC，再配合已有编码的文字，即可描述绝大多数未被编码的集外字。

其中，表意文字描述符IDC共有12个，对应描述12种文字结构，码位区间从U+2FF0到U+2FFB，如表1所示。

表1.IDC编码表

因此，表意文字描述序列IDS由一系列的表意文字描述符IDC以及已有编码的文字组成，来描述未编码的集外字。表意文字描述序列IDS的语法比较简单，只要求三元IDC(U+2FF2和U+2FF3)后面必须有3个IDS，而二元IDC(U+2FF2和U+2FF3以外的其他IDC)后面必须有2个IDS，IDS中除了IDC以外必须是一元CJK字符。此外，IDS还有2个长度限制，即：①序列长度不可超过16个Unicode编码；②如果没有表意文字描述符作为间隔，构成序列的部件或者偏旁不能超过6个。

图6示出了一些表意文字描述序列IDS的例子。

如图6示，以字为例，其表意文字描述序列由两个IDC(2FF1)、(2FF0)以及已有编码的文字“鳥”(9CE5)、“龜”(9F9C)以及“火”(706B)构成。

表意文字描述序列IDS为集外字的描述提供了一种标准的文本交换机制。在制作电子文档时，尤其是在古籍电子化的过程中，可对文档中的集外字采用表意文字描述序列IDS来进行描述，同时收录该集外字的抠图。当使用阅读软件阅读该电子文档时，读者可看到集外字的抠图，还可在文本搜索框中输入IDS，来检索集外字。

然而，使用表意文字描述序列IDS描述集外字可能存在歧义性，即由于一个集外字可能用多种表意文字描述序列IDS来表示，因此，该表示方式易出现歧义。具体地，由于表意文字描述序列本身可以继续被分解，也由于在Unicode标准中有些构字部件重复出现。图7示出了的三种不同的IDS描述方法。如图7所示，该字可以分解为“井”+“蛙”结构(IDC)、“井”+“虫”+“圭”结构(IDC)的结构以及“井”+“虫”+“土”+“土”的结构(IDC)。

因此，在阅读软件中对集外字进行IDS检索时，遇到这类描述序列存在歧义性的集外字，往往会出现文档中存在待检索的集外字，但输入的IDS与文档中集外字的描述不一致，而检索不到该字的问题。

发明内容

本发明在考虑现有技术存在的缺陷的基础上，提供一种基于图像匹配的文字检索方法，能够避免因表意文字描述序列IDS描述的歧义性所导致的文字检索失败的问题。

根据本发明的一方面，提供一种文字检索方法，其特征在于，包括：

S1：输入待检索文字的表意文字描述序列；

S2：对所述待检索文字的表意文字描述序列进行文本匹配，若文本匹配失败，则执行S3；

S3：解析所述待检索文字的表意文字描述序列，根据解析获得的表意文字描述符和CJK字符绘制第一文字图像；

S4：遍历文档中存在的表意文字描述序列，对每次遍历到的表意文字描述序列进行解析，根据解析获得的表意文字描述符和CJK字符绘制第二文字图像；

S5：将所述第一文字图像与第二文字图像进行图像匹配，根据匹配结果确定检索结果。

进一步地，步骤S2中的文本匹配为利用构成表意文字描述序列的表意文字描述符和CJK字符实现的文本匹配。

进一步地，步骤S3中，所述解析包括：将表意文字描述序列拆分成多个组图动作，每个该组图动作包括一个表意文字描述符和一组文字部件。

进一步地，步骤S3中，所述绘制包括：准备各文字部件的图像；以及

按照每个组图动作中的表意文字描述符所描述的文字结构，从最内层动作开始，进行组图，其中表意文字描述序列中最右侧的表意文字描述符所在的动作为最内层动作，按照表意文字描述序列中表意文字描述符从右到左的顺序，最左侧的表意文字描述符所在的动作为最外层动作。按照由内层到外层的顺序，逐层进行组图。

进一步地，准备各文字部件的图像包括：对每个文字部件，利用预定字体渲染出预定像素大小的单个文字图像；以及勾勒出该预定大小的文字图像的文字轮廓。

进一步地，所述组图的具体方式为：

对于上下结构的文字，将各文字部件按照上下顺序逐个叠加，使得相邻文字部件之间的轮廓间的间距大于等于预定距离；

对于左右结构的文字，将各文字部件按照左右顺序逐个叠加，文字部件之间的轮廓间间距大于等于上述预定距离；

对于包围结构的文字，对被包围文字部件进行宽高等比例缩小，将缩小后的被包围文字部件与包围文字部件进行叠加，文字部件之间的轮廓间间距大于等于上述预定距离；以及

对于交叉结构的文字，将两个文字部件直接叠加。

进一步地，在步骤S4中，存储绘制的该第二文字图像，从而构建包括该第二文字图像的数据库。

进一步地，步骤S5中，所述根据匹配结果确定检索结果具体包括：

如果匹配的可信度达到阈值，则将匹配到的表意文字描述序列作为所述检索结果；否则返回上述步骤S4，继续遍历电子文档中的已有表意文字描述序列，绘制其第二文字图像，并与第一文字图像进行匹配；以及

直到完成整份电子文档中已有表意文字描述序列的遍历、文字图像描绘以及图像匹配，均匹配不成功，则认为待检索的表意文字描述序列不存在于此电子文档中，检索结束。

根据本发明的另一方面，提供一种文字检索装置，包括：

输入模块，输入待检索的表意文字描述序列；

文本匹配模块，对所述待检索文字的表意文字描述序列进行文本匹配；

解析及绘制模块，解析待检索表意文字描述序列，绘制出第一文字图像；

遍历模块，当文本匹配失败时，遍历电子文档中已有的表意文字描述序列，绘制出每个已有表意文字描述序列的第二文字图像；以及

图像匹配模块，将第一文字图像与第二文字图像进行匹配，根据匹配结果确定所述待检索表意文字描述序列的检索结果。

进一步地，所述解析及绘制模块包括解析模块，用于将表意文字描述序列拆分成多个组图动作，每个该组图动作包括一个表意文字描述符和一组文字部件。

根据本发明的上述检索装置及方法，由于引入了图像匹配技术，因此解决了表意文字描述序列的歧义性所导致的文字检索失败的问题，从而实现更加有效的检索。本发明的所述方法和装置尤其适合用于对古籍中或活体印刷体文字加工后的文字的检索。

以下结合附图及具体实施方式对本发明的方案进一步描述，从而本发明的有益效果将进一步明确。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，其说明用于解释本发明，并不构成对本发明的不当限定。

图1是根据本发明一优选实施例的检索方法流程图。

图2(a)、2(b)结合具体示例，示出了根据本发明所述的文字图像绘制过程中的准备文字图像的过程。

图3(a)-(d)结合具体示例，示出了根据本发明所述的文字绘制过程中的组图的过程。

图4示出了根据本发明的检索方法的一优选程序流程。

图5是根据本发明一优选实施例的检索装置结构框图。

图6示出了表意文字序列的例子。

图7示出了同一字的不同表意文字描述序列IDS表示方法。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据本发明所述的方法及装置，当用户使用阅读软件打开电子文档并需要对文档中的文字进行检索时，在软件的文本检索框中，输入待检索的集外字的表意文字描述序列IDS，以进行文本匹配。如果检索成功，则说明输入的IDS存在于该电子文档中。相反，如果检索失败，则利用图像匹配进行模糊检索。具体地，解析待检索的表意文字描述序列IDS，根据其中的IDC以及CJK字符，绘制出这个待检索的IDS所描述的文字图像，然后遍历电子文档中已有的表意文字描述序列IDS，将每个文档中已有的IDS也绘制出对应的文字图像，并与待检索的IDS所描述的文字图像逐个进行图像匹配。如果存在与该待检索的IDS所描述的文字图像匹配的可信度达到一定阈值的文字图像，则认为两个IDS所描述的文字图像十分相似，即匹配成功，并进一步将匹配到的IDS作为检索的结果。以下结合附图对本发明的检索方法及装置进行详细描述。

图1示出了根据本发明一优选实施例的所述IDS检索方法的流程图。如图1所示，所述方法包括：输入待检索文字的表意文字描述序列。对所述待检索文字的表意文字描述序列进行文本匹配，若文本匹配失败则启动图像匹配方法。即解析所述待检索文字的表意文字描述序列，根据解析获得的表意文字描述符和CJK字符绘制第一文字图像；以及遍历文档中存在的表意文字描述序列，对每次遍历到的表意文字描述序列进行解析，根据解析获得的表意文字描述符和CJK字符绘制第二文字图像。最后，将所述第一文字图像与第二文字图像进行图像匹配，根据匹配结果确定检索结果。

以下对上述各步骤逐一进行说明。

S1：输入待检索文字的表意文字描述序列IDS。具体地，例如，用户使用阅读软件打开电子文档，当需要对文档中的文字进行检索时，在阅读软件的文本检索框中，输入待检索的集外字的表意文字描述序列IDS。

S2：在电子文档中对待检索的表意文字描述序列IDS进行文本匹配，若判断文本匹配失败，则执行步骤S3。

具体地，Unicode标准所定义的表意文字描述序列IDS由IDC以及CJK字符组成，其中的表意文字描述符IDC为可见字符，因此，整个描述序列均为可见字符。因而，在阅读软件中使用通用的文字检索方法可实现IDS的文本匹配。若检索成功，阅读者也可辨认所检索到的IDS文本串。相反，如果确认检索失败，则开启图像匹配，继续进行如下步骤S3。

S3：解析待检索文字的表意文字描述序列IDS，绘制出这个IDS所描述的文字图像，即第一文字图像。

具体地，解析待检索的表意文字描述序列IDS，即，将表意文字描述序列IDS拆分成多个组图动作，每个该组图动作包含一个描述符IDC和一组文字部件，其中文字部件即为CJK字符。接下来，利用多个所述组图动作，绘制出该待检索IDS所描述的文字图像。

绘制文字图像的过程包括：准备各文字部件的图像；以及按照每个组图动作中的描述符IDC所描述的文字结构，从最内层动作开始，逐层进行组图。其中表意文字描述序列IDS中最右侧的描述符IDC所在的动作即为最内层动作，按照表意文字描述序列IDS中描述符IDC从右到左的顺序，最左侧的描述符IDC所在的动作即为最外层动作。按照由内层到外层的顺序，逐层进行组图。

优选地，准备各文字部件的图像包括：对每个文字部件，采用预定字体，例如宋体渲染出预定大小的单个文字图像，例如宽64像素、高64像素；以及对每个文字部件的图像，勾勒出文字轮廓。以上预定字体及大小均为举例性说明，不构成具体限定。

具体的组图过程根据文字结构的不同而不同。总的来说可以将上述描述符所表达的文字结构分为四类：即，第一类，上下结构，包括第二类，左右结构，包括第三类，包围结构，包括(半包围)和(全包围结构)；以及第四类，交叉结构，包括

则对于上下结构的文字，组图方式为：将各文字部件按照上下顺序逐个叠加，使得相邻文字部件之间同一列或同一行的轮廓间的间距大于等于预定距离，例如大于等于1个像素。此处，大于等于1个像素仅为举例性说明，以能实现组图后的文字能辨认文字各组成单字之间的辨识为准，以下各种结构的文字的组图间距同理。

对于左右结构的文字，组图方式为：将各文字部件按照左右顺序逐个叠加，同样要求文字部件之间的轮廓间间距大于等于上述预定距离。

对于包围结构的文字，组图方式为：对被包围文字部件进行宽高等比例缩小，将缩小后的被包围文字部件与包围文字部件按照描述符IDC所描述的结构叠加时，同样要求文字部件之间的轮廓间间距大于等于上述预定距离。

对于交叉结构的文字，组图方式为：将两个文字部件直接叠加。

进一步优选地，可以对最终得到的组图图像进行归一化，例如，图像大小统一缩放为宽64像素，高64像素。

以下结合附图举例说明所述的绘制文字图像的方式。

以集外字为例，其表意文字描述序列IDS为：亡口月馬凡。则该序列可以拆分为如下两个组图动作A和B：A动作“月馬凡”和B动作“亡口A”，其中，“亡”、“口”、“月”、“馬”、“凡”为文字部件，为描述符IDC。其中，该表意文字描述序列IDS最右侧的描述符IDC所描述的文字结构为最内层结构，其相应的组图动作A为最内层动作，最左侧的描述符IDC为最外层结构，其相应的组图动作B为最外层动作，则从最内层动作A到最外层动作B的顺序进行组图。

在组图前先准备单个文字部件的图像。如图2(a)所示，为上述表意文字描述序列IDS所包括的文字部件，图中各文字为宋体，黑色文字区域的宽度及高度均优选为64像素。接下来，勾勒各文字部件的文字轮廓，如图2(b)所示，图中各文字部件周围的方形框对应于图2(a)中黑色文字区域的边界。

从上述集外字的表意文字描述序列IDS的所述最内层开始，首先根据第一个组图动作A“月馬凡”进行组图，再根据第二个组图动作B“亡口A”进行组图。第一个组图动作A属于上文描述的左右结构，按照左右结构的文字的组图方式将“月”、“馬”和“凡”3个文字部件的图像按照左右顺序叠加，得到如图3(a)所示的文字图像。可以优选将组图得到的该文字图像缩小为64像素大小的图像。如此得到图3(b)所示的两个文字部件“亡”、“口”的图像和“月馬凡”的64像素大小的图像。

接下来根据第二个组图动作B进行组图。第二个组图动作B为上下结构，按照上下结构的文字组图方式叠加文字部件亡”、“口”的图像“和“月馬凡”的64像素大小的图像，得到如图3(c)所示的文字图像，即第一文字图像。进一步优选的，将图3(c)所示的文字图像的高度缩小为64像素，得到如图3(d)所示的文字图像。

S4：遍历电子文档中已有表意文字描述序列IDS，描绘出所述已有IDS所描述的文字图像。

具体地，遍历电子文档中已有IDS，参照步骤S3中绘制文字图像的方法，描绘出所述已有IDS所描述的文字图像，即第二文字图像。

此处，优选地，可以在每次完成对已有IDS的文字图像的绘制后，存储该文字图像，从而在该文档中建立存储有该第二文字图像的图像库，便于在下次检索时直接使用。

S5：将待检索IDS所描述的第一文字图像与已有IDS所描述的第二文字图像进行匹配，根据匹配结果确定检索结果。

具体地，将步骤S3中描绘出的第一文字图像与S4中描绘出的第二文字图像逐一进行图像匹配。如果出现匹配的可信度达到阈值的文字图像，则将匹配到的文字图像对应的IDS作为检索结果，认为图像匹配成功，从而完成检索。否则返回上述步骤S4，继续遍历电子文档中的已有IDS，绘制其文字图像，并继续与待检索IDS的文字图像进行匹配。直到完成整份电子文档中已有IDS的遍历、文字图像描绘以及图像匹配，均匹配不成功，则认为待检索的IDS不存在于此电子文档中，检索结束。其中，具体的图像匹配方法采用现有的图像匹配方法即可，不做具体限定，并且所述匹配可信度及所选阈值根据所采用的图像匹配方法而确定，亦不做限定。

图4示出了实现根据本发明的所述检索方法的程序流程。如图4所示，首先，用户在电子文档中对输入的待检索IDS进行文本匹配。判断所述文本匹配是否成功，若是，则结束检索。若否，则解析输入的所述待检索IDS，并绘制其文字图像SrcImg。接下来，遍历所述电子文档中的已有IDS，并判断遍历是否结束，是的话则结束检索。否的话则解析遍历到的已有IDS，并绘制其文字图像TmpImg。将文字图像SrcImg与文字图像TmpImg进行匹配，如果匹配的可信度达到上述阈值，则将该文字图像TmpImg对应的IDS作为检索结果。否则的话返回对电子文档中的已有IDS进行遍历的步骤，即继续对文档中的已有IDS进行遍历，并重复进行图像匹配的步骤。如果遍历了电子文档中的全部已有IDS均未匹配成功，则结束检索，表明该文档中不存在所述待检索IDS。

图5示出实现根据本发明的所述检索方法的一优选实施例的检索装置。如图5所示，所述装置包括：输入模块1，用于输入待检索表意文字描述序列；文字匹配模块2，用于对输入的待检索表意文字描述序列进行文本匹配；解析及绘制模块3，用于当文字匹配失败时，解析待检索IDS，根据其包括的IDC和CJK字符，绘制出第一文字图像；遍历模块4，用于遍历电子文档中已有IDS，根据其包括的IDC和CJK字符，描绘出每个已有IDS的第二文字图像；以及图像匹配模块5，将待检索IDS的第一文字图像与已有IDS的第二文字图像进行匹配，若匹配的可信度达到阈值，则将匹配到的IDS作为检索结果。

以上所述仅为本发明的实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.一种文字检索方法，其特征在于，包括：

S1：输入待检索文字的表意文字描述序列；

S4：遍历文档中存在的表意文字描述序列，对每次遍历到的表意文字描述序列进行解析，根据解析获得的表意文字描述符和CJK字符绘制第二文字图像；以及

2.如权利要求1所述的方法，其特征在于，其中

步骤S2中的文本匹配为利用构成表意文字描述序列的表意文字描述符和CJK字符实现的文本匹配。

3.如权利要求1或2所述的方法，其特征在于，其中

步骤S3中，所述解析包括：将表意文字描述序列拆分成多个组图动作，每个该组图动作包括一个表意文字描述符和一组文字部件。

4.如权利要求3所述的方法，其特征在于，其中

步骤S3中，所述绘制包括：

准备各文字部件的图像；以及

按照每个组图动作中的表意文字描述符所描述的文字结构，从最内层动作开始，进行组图，其中表意文字描述序列中最右侧的表意文字描述符所在的动作为最内层动作，按照表意文字描述序列中表意文字描述符从右到左的顺序，最左侧的表意文字描述符所在的动作为最外层动作，按照由内层到外层的顺序，逐层进行组图。

5.如权利要求4所述的方法，其特征在于，其中

准备各文字部件的图像包括：对每个文字部件，利用预定字体渲染出预定像素大小的单个文字图像；以及勾勒出该预定大小的文字图像的文字轮廓。

6.如权利要求5所述的方法，其特征在于，其中

所述组图的具体方式为：

对于交叉结构的文字，将两个文字部件直接叠加。

7.如权利要求1所述的方法，其特征在于，其中

在步骤S4中，存储绘制的该第二文字图像，从而构建包括该第二文字图像的数据库。

8.如权利要求1所述的方法，其特征在于，其中

步骤S5中，所述根据匹配结果确定检索结果具体包括：

如果匹配的可信度达到阈值，则将匹配到的表意文字描述序列作为所述检索结果；否则返回上述步骤S4，继续遍历文档中的已有表意文字描述序列，绘制其第二文字图像，并与第一文字图像进行匹配；以及

直到完成整份文档中已有表意文字描述序列的遍历、文字图像描绘以及图像匹配，均匹配不成功，则认为待检索的表意文字描述序列不存在于此文档中，检索结束。

9.一种文字检索装置，其特征在于，包括：

输入模块，输入待检索的表意文字描述序列；

10.如权利要求9所述的装置，其特征在于，其中

所述解析及绘制模块包括解析模块，用于将表意文字描述序列拆分成多个组图动作，每个该组图动作包括一个表意文字描述符和一组文字部件。