CN106649764B

CN106649764B - 文字检索方法及文字检索装置

Info

Publication number: CN106649764B
Application number: CN201611225709.7A
Authority: CN
Inventors: 王晓健; 江世盛
Original assignee: Beijing Hanvon Digital Technology Co ltd
Current assignee: Beijing Hanvon Digital Technology Co ltd
Priority date: 2016-12-27
Filing date: 2016-12-27
Publication date: 2020-04-17
Anticipated expiration: 2036-12-27
Also published as: CN106649764A

Abstract

本发明涉及文字检索方法及文字检索装置，该文字检索方法包括以下步骤：识别用户打开的电子文档中的表意文字描述序列；将所识别的表意文字描述序列转换为扩展表意文字描述序列，并基于所述扩展表意文字描述序列创建扩展表意文字描述序列库，其中，所述扩展表意文字描述序列由二元表意文字描述符和基本部件构成；判断所输入的待检索文字是否为表意文字描述序列，其中，当所述待检索文字为表意文字描述序列时，将所述待检索文字转换为扩展表意文字描述序列，并在所述扩展表意文字描述序列库中进行检索；当所述待检索文字不是表意文字描述序列时，在所述电子文档中检索所述待检索文字。

Description

文字检索方法及文字检索装置

技术领域

本发明涉及文字信息处理技术，尤其涉及一种能够对统一表意文字进行检索的文字检索方法及文字检索装置。

背景技术

随着计算机技术的发展，为实现计算机跨语言、跨平台的文本转换及处理，国际组织制定并公布了Unicode(万国码、统一码)编码系统，其中包括中日韩统一表意文字(CJKUnited Ideographs)。

然而，汉字的数量庞大，结构复杂，尽管Unicode标准已经包括了70000多个汉字符号，但是仍然有许多生僻字未被包括进来。这些未被编码的汉字可称其为“集外字”。虽然Unicode标准持续不断的对集外字进行分类编码，分配码位，但是汉字是一个开放的集合，可以预计根本不可能也没有必要穷尽所有的汉字。Unicode标准也认识到单纯依靠扩大收字量无法从根本上解决CJK(中日韩)文字的编码问题。

有鉴于此，Unicode标准定义了表意文字描述序列IDS(Ideographic DescriptionCharacters Sequence)和表意文字描述符IDC(Ideographic Description Characters)。表意文字描述的算法依据是：理论上所有的汉字都可以拆分为更小的部件，而这些部件本身是表意文字。所以通过定义描述文字结构的表意文字描述符IDC，再配合已有编码的文字，即可描述绝大多数未被编码的集外字。

在现有规则下，表意文字描述符IDC共有12个，对应描述12种文字结构，例如，左右结构、上下结构、左中右结构、上中下结构、全包围结构、上三包围结构、下三包围结构、左三包围结构、左上包围结构、右上包围结构、左下包围结构合交叉结构，码位区间从U+2FF0到U+2FFB，如表1所示。

表1.IDC编码表

表意文字描述序列IDS由一系列的IDC描述符以及已有编码的文字组成，来描述未编码的集外字。IDS的语法比较简单，只要求三元IDC(U+2FF2和U+2FF3)后面必须有3个IDS，二元IDC(U+2FF2和U+2FF3以外的其他IDC)后面必须有2个IDS，IDS中除了IDC以外必须是一元CJK字符。IDS还有2个长度限制，即：①序列长度不可超过16个Unicode编码；②如果没有表意文字描述符作为间隔，构成序列的部件或者偏旁不能超过6个。

图1是表意文字序列的示例。

如图1所示，以

字为例，其表意文字描述序列由两个IDC

(2FF1)、

(2FF0)以及已有编码的文字“鳥”(9CE5)、“龜”(9F9C)以及“灬”(706C)构成。

IDS为集外字的描述提供了一种标准的文本交换机制。在制作电子文档，尤其是在古籍电子化的过程中，可对文档中的集外字采用IDS描述，同时收录该集外字的抠图。当使用阅读软件阅读该电子文档时，读者可看到集外字的抠图，又可在文本搜索框中输入IDS描述，来检索集外字。

然而，使用IDS描述集外字存在歧义性，即一个集外字可能用多种IDS来表示。这是因为IDS本身可以继续被分解。

例如，参照图2，图2是集外字的多种IDS描述的示例。

如图2所示，所例举的集外字

有3种不同的IDS描述。

在这种情况下，如果用户在利用电子阅读设备阅读电子文档时需要对某个集外字进行IDS检索时，这种歧义性可能导致检索失败，即电子文档中存在待检索的集外字，但用户输入的IDS描述与该电子文档中的集外字的描述不一致，因此造成检索不到该集外字。

发明内容

为解决此问题，本发明提出了一种基于扩展IDS的文字检索方法及装置，能够避免因表意文字描述序列IDS描述的歧义性所导致的文字检索失败的问题。

本发明提供了一种文字检索方法，包括以下步骤：识别用户打开的电子文档中的表意文字描述序列；将所识别的表意文字描述序列转换为扩展表意文字描述序列，并基于所述扩展表意文字描述序列创建扩展表意文字描述序列库，其中，所述扩展表意文字描述序列由二元表意文字描述符和基本部件构成；判断所输入的待检索文字是否为表意文字描述序列，其中，当所述待检索文字为表意文字描述序列时，将所述待检索文字转换为扩展表意文字描述序列，并在所述扩展表意文字描述序列库中进行检索；当所述待检索文字不是表意文字描述序列时，在所述电子文档中检索所述待检索文字。

优选地，所述在所述扩展表意文字描述序列库中进行检索还包括判断检索是否成功，如果是，输出检索结果，如果否，在基于Unicode字符集预先创建的扩展表意文字描述序列字典中检索所述待检索文字对应的扩展表意文字描述序列，其中，当检索到与所述待检索文字相对应的编码字符时，在所述电子文档中进行检索，并输出检索结果；当没有检索到与所述待检索文字相对应的编码字符时，确定所述待检索文字并不存在于所述电子文档中，并输出检索结果。

优选地，所述在所述电子文档中检索所述待检索文字还包括：判断检索是否成功，如果是，则输出检索结果，如果否，在基于Unicode字符集预先创建的扩展表意文字描述序列字典中检索所述待检索文字对应的扩展表意文字描述序列，其中，当检索到与所述待检索文字相对应的扩展表意文字描述序列时，在所述扩展表意文字描述序列库中进行检索，并输出检索结果；当没有检索到与所述待检索文字相对应的扩展表意文字描述序列时，确定所述待检索文字未存在于所述电子文档中，并输出检索结果。

优选地，所述创建扩展表意文字描述序列库还包括通过将所述表意文字描述序列中的三元表意文字描述符替换为两个二元表意文字描述符来获得所述扩展表意文字描述序列。

优选地，所述创建扩展表意文字描述序列库进一步包括：如果所述扩展表意文字描述序列中相邻两个二元表意文字描述符相同，则将所述相邻两个二元表意文字描述符后的表意文字描述序列前移至所述相邻两个二元表意文字描述符之间。

优选地，在所述扩展表意文字描述序列中，文字按照从左到右、从上到下的顺序被依次拆分为由所述二元表意文字描述符和所述基本部件构成的表意文字描述序列。

优选地，所述扩展表意文字描述序列字典中不包括所述基本部件。

本发明还提供了一种文字检索装置，包括：识别单元，其识别用户打开的电子文档中的表意文字描述序列；转换单元，其将所识别的表意文字描述序列转换为扩展表意文字描述序列，并基于所述扩展表意文字描述序列创建扩展表意文字描述序列库，其中，所述扩展表意文字描述序列由二元表意文字描述符和基本部件构成；输入单元，其输入待检索文字；检索单元；控制单元，其判断通过所述输入单元所输入的待检索文字是否为表意文字描述序列，当所述待检索文字为表意文字描述序列时，控制所述转换单元将所述待检索文字转换为扩展表意文字描述序列，并控制检索单元在所述扩展表意文字描述序列库中进行检索；当所述待检索文字不是表意文字描述序列时，则控制所述检索单元在所述电子文档中检索所述待检索文字。

优选地，所述控制单元判断在所述扩展表意文字描述序列库中检索所述扩展表意文字描述序列是否成功，如果是，输出检索结果，如果否，则控制所述检索单元在基于Unicode字符集预先创建的扩展表意文字描述序列字典中检索所述待检索文字对应的扩展表意文字描述序列，当检索到与所述待检索文字相对应的编码字符时，在所述电子文档中进行检索，并输出检索结果；当没有检索到与所述待检索文字相对应的编码字符时，确定所述待检索文字并不存在于所述电子文档中，并输出检索结果。

优选地，所述控制单元判断在所述电子文档中检索所述待检索文字检索是否成功，如果是，则输出检索结果，如果否，则控制所述检索单元在基于Unicode字符集预先创建的扩展表意文字描述序列字典中检索所述待检索文字对应的扩展表意文字描述序列，当检索到与所述待检索文字相对应的扩展表意文字描述序列时，在所述扩展表意文字描述序列库中进行检索，并输出检索结果；当没有检索到与所述待检索文字相对应的扩展表意文字描述序列时，确定所述待检索文字未存在于所述电子文档中，并输出检索结果。

根据本发明的文字检索方法及文字检索装置，可以避免同一个汉字得到不同扩展IDS的结果，提高了文字检索的精度，消除了现有文字检索方法中由于IDS描述的歧义性造成的检索失败。

附图说明

附图与文字描述一起用来对本发明的实施方式作进一步的说明。其中：

图1是表意文字序列的示例。

图2是集外字的多种IDS描述的示例。

图3是本发明实施方式的文字检索方法的流程图。

图4是本发明实施方式的文字检索方法的进一步流程图。

图5是本发明实施方式的文字检索方法的进一步流程图。

图6是本发明实施方式的扩展IDS的描述规则。

图7是本发明实施方式的扩展IDS的描述规则。

图8是本发明实施方式的文字检索装置的框图。

具体实施方式

下面结合附图详细说明本发明的实施方式。在所有附图中，相同标号表示相同元件，并省略其重复说明。

【文字检索方法】

首先，参照图3对本发明的文字检索方法进行说明。

图3是本发明实施方式的文字检索方法的流程图。

如图3所示，本发明实施方式的文字检索方法包括以下步骤：识别用户打开的电子文档中的IDS(S100)；将所识别的IDS转换为扩展IDS，并基于所述扩展IDS创建扩展IDS库(S102)；输入待检索文字(S104)；判断待检索文字是否为IDS(S106)；如果在S106中判定为IDS，则执行步骤A，如果判定为非IDS，则执行步骤B。

下面参照图4-5具体说明本发明的文字检索方法中的步骤A和步骤B。

如图4所示，在确定待检索文字是IDS的情况下，首先将待检索文字的IDS转换为扩展IDS(步骤S400)，并在扩展IDS库中进行检索(步骤S402)。

然后，判断检索是否成功(步骤S404)。如果成功，则输出成功的检索结果(步骤S406)，如果失败，则在基于Unicode字符集预先创建的扩展IDS字典中检索待检索文字(步骤S408)，判断检索是否成功(步骤S410)。如果检索到该待检索文字对应的编码字符，则获得与该待检索文字相对应的编码字符(步骤S412)，并在电子文档中进行检索该编码字符(步骤S414)，输出检索结果(步骤S416)。如果没有检索到该待检索文字对应的编码字符，则确定待检索文字并不存在于电子文档中，并输出检索结果(步骤S418)。

如图5所示，在确定待检索文字不是IDS的情况下，首先，在用户打开的电子文档中检索该待检索文字(步骤S500)。然后，判断检索是否成功(步骤S502)。

如果成功，则输出检索结果(步骤S504)。如果失败，则在基于Unicode字符集预先创建的扩展表意文字描述序列字典中检索所述待检索文字(步骤S506)。判断检索是否成功(步骤S508)，如果检索到该待检索文字对应的扩展IDS，则获得与待检索文字相对应的扩展IDS(步骤S512)，在扩展IDS库中进行检索该扩展IDS(步骤S514)，并输出检索结果(步骤S516)；如果没有检索到该待检索文字对应的扩展IDS，则确定待检索文字并未存在于电子文档中，并输出检索结果(步骤S510)。

上述步骤只是为了更方便的表述清楚文字检索方法，并非固定的检索流程。针对已经检索过的文档，可以将之前检索中创建的扩展IDS库缓存在该文档中，下次再检索时，可以先判断文档中是否存在该库文件，如果存在，则不需要再执行上述S100和S102步骤。

下面参照图6-7具体说明本发明获得扩展IDS的规则。

通过将表意文字描述序列IDS中的三元表意文字描述符IDC替换为两个二元表意文字描述符IDC，并将两个二元表意文字描述符IDC后边紧接着一个的表意文字描述序列IDS前移至前两个二元表意文字描述符IDC之间，来获得扩展IDS。

其中需要去除IDS的2个长度限制，非IDC的字符必须拆分为基本部件，扩展IDS的总长度没有限制，并且表意文字描述符IDC之间的基本部件或者偏旁的个数也没有限制，要求将IDS中的非IDC的字符完全拆分为基本部件。从而确保每次拆分出的部件为基本部件。

图6是本发明实施方式的扩展IDS的描述规则。下面结合图6来说明本发明的扩展IDS的描述规则。

通过将表意文字描述序列中的三元表意文字描述符替换为两个二元表意文字描述符，并将两个二元表意文字描述符后的第一个表意文字描述序列前移至前两个二元表意文字描述符之间，来获得扩展IDS。

以汉字“树”为例，按照现有的Unicode标准，左中右结构的汉字“树”的IDS为“

木又寸”，如图4中的标号40所示。

如图6所示，首先将“树”的IDS 40“

木又寸”中的三元IDC

替换为两个二元IDC

此时，新的IDS 42表示为“

木又寸”。

然后，将两个二元IDC后面的IDS“木”前移至两个二元IDC之间。如图6所示，此时获得的IDS 44为“

木

又寸”。

因此，本发明的扩展IDS描述规则去除了三元IDC，仅包含二元IDC。

特别的，本发明的扩展IDS的描述规则还包括修正规则，下面参照图7对上述规则进行详细说明。

如图7所示，以左中右结构的汉字“湖”为例，在本发明的文字检索方法中的步骤S102中获得扩展IDS后，可能存在这样的情况：获得的扩展IDS 50为“

氵

十口月”。

这种扩展IDS的问题在于，首先拆分出左右结构的两个部件：沽和月，而“沽”不是基本部件，仍然可以再拆分。这时，需要对所获得的扩展IDS 50进行修正，修正规则为：如果扩展IDS中相邻的IDC描述符相同，例如上述第二种IDS中存在相邻的

则需要将后续的第一个基本部件，例如图7中的“氵”调序至2个相邻IDC之间，即调整为“

氵

”。这样，就得到了仅包含二元IDC和基本部件的扩展IDS 52“

氵

十口月”。

在图3的步骤S102中，需要重复检测电子文档中或者库文件中是否还存在相同IDC相邻的情况，存在则进行上述调整，直至对整个扩展IDS处理完为止。

在本发明的文字检索方法中，在扩展表意文字描述序列中，文字按照从左到右、从上到下的顺序被依次拆分为由二元表意文字描述符和基本部件构成的表意文字描述序列。

另外，优选地，在本发明的文字检索方法中，创建基于Unicode字符集的扩展IDS的字典。

我们将Unicode字符集分为2大部分。一部分字符被定义为基本部件，包括偏旁和不适合继续拆分的字符，例如木、又、寸、日等；其余字符则按照上述扩展IDS描述规则加工为扩展IDS，由IDC和基本部件来描述。我们将这些扩展IDS形成一份字典文件，字符的Unicode编码与其扩展IDS一一对应。基于Unicode字符集预先创建的扩展IDS字典中不包含基本部件，本实施所涉及的基本部件遵循Unicode标准中所给定的基本部件的含义，即基本部件为偏旁和不适于继续拆分的字符。

因此，通过本发明的扩展IDS规则，确保了每次拆分后IDS中的部件都是基本部件。另外，由于本发明的扩展IDS的规则明确定义了文字按照从左到右、从上到下的顺序被依次拆分，因此避免了同一个汉字得到不同扩展IDS的结果，提高了文字检索的精度，消除了现有文字检索方法中由于IDS描述的歧义性造成的检索失败。

【文字检索装置】

下面参照图8说明本发明的文字检索装置80。

图8是本发明实施方式的文本选择装置80的结构框图。

如图8所示，本发明的文本选择装置80包括：识别单元800，其识别用户打开的电子文档中的表意文字描述序列；转换单元802，将所识别的表意文字描述序列转换为扩展表意文字描述序列；扩展表意文字描述序列库804，其存储有基于所述扩展表意文字描述序列创建的扩展表意文字描述序列；输入单元806，其输入待检索文字的表意文字描述序列；检索单元808；和控制单元810。

在文本选择装置80中，控制单元810判断通过输入单元806所输入的待检索文字是否为IDS。

当所述待检索文字为表意文字描述序列时，控制所述转换单元将所述待检索文字转换为扩展表意文字描述序列，并控制检索单元在所述扩展表意文字描述序列库中进行检索；当所述待检索文字不是表意文字描述序列时，则控制所述检索单元在所述电子文档中检索所述待检索文字。

以上结合具体实施方式对本发明的目的、技术方案和有益效果进行了进一步详细说明。应理解的是，以上仅仅是出于例示的目的介绍了本发明的具体实施方式，并不是要限制本发明。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文字检索方法，包括：

识别用户打开的电子文档中的表意文字描述序列；

将所识别的表意文字描述序列转换为扩展表意文字描述序列，并基于所述扩展表意文字描述序列创建扩展表意文字描述序列库，其中，所述扩展表意文字描述序列由二元表意文字描述符和基本部件构成，所述基本部件包括偏旁和不适合继续拆分的字符；

判断所输入的待检索文字是否为表意文字描述序列，其中，

当所述待检索文字为表意文字描述序列时，将所述待检索文字转换为扩展表意文字描述序列，并在所述扩展表意文字描述序列库中进行检索；

当所述待检索文字不是表意文字描述序列时，在所述电子文档中检索所述待检索文字。

2.根据权利要求1所述的文字检索方法，所述在所述扩展表意文字描述序列库中进行检索还包括判断检索是否成功，如果是，输出检索结果，如果否，在基于Unicode字符集预先创建的扩展表意文字描述序列字典中检索所述待检索文字对应的扩展表意文字描述序列，其中，

所述基于Unicode字符集预先创建的扩展表意文字描述序列字典是扩展表意文字描述序列形成的字典文件，不包括基本部件，字符的Unicode编码与其扩展表意文字描述序列一一对应；

当检索到与所述待检索文字相对应的编码字符时，在所述电子文档中进行检索，并输出检索结果；

当没有检索到与所述待检索文字相对应的编码字符时，确定所述待检索文字并不存在于所述电子文档中，并输出检索结果。

3.根据权利要求1所述的文字检索方法，所述在所述电子文档中检索所述待检索文字还包括：判断检索是否成功，如果是，则输出检索结果，如果否，在基于Unicode字符集预先创建的扩展表意文字描述序列字典中检索所述待检索文字对应的扩展表意文字描述序列，其中，

当检索到与所述待检索文字相对应的扩展表意文字描述序列时，在所述扩展表意文字描述序列库中进行检索，并输出检索结果；

当没有检索到与所述待检索文字相对应的扩展表意文字描述序列时，确定所述待检索文字未存在于所述电子文档中，并输出检索结果。

4.根据权利要求1所述的文字检索方法，所述创建扩展表意文字描述序列库还包括通过将所述表意文字描述序列中的三元表意文字描述符替换为两个二元表意文字描述符来获得所述扩展表意文字描述序列。

5.根据权利要求4所述的文字检索方法，所述创建扩展表意文字描述序列库进一步包括：如果所述扩展表意文字描述序列中相邻两个二元表意文字描述符相同，则将所述相邻两个二元表意文字描述符后的表意文字描述序列前移至所述相邻两个二元表意文字描述符之间。

6.根据权利要求1-5任一项所述的文字检索方法，其中，在所述扩展表意文字描述序列中，文字按照从左到右、从上到下的顺序被依次拆分为由所述二元表意文字描述符和所述基本部件构成的表意文字描述序列。

7.根据权利要求2所述的文字检索方法，其中，所述扩展表意文字描述序列字典中不包括所述基本部件。

8.一种文字检索装置，包括：

识别单元，其识别用户打开的电子文档中的表意文字描述序列；

转换单元，其将所识别的表意文字描述序列转换为扩展表意文字描述序列，并基于所述扩展表意文字描述序列创建扩展表意文字描述序列库，其中，所述扩展表意文字描述序列由二元表意文字描述符和基本部件构成，所述基本部件包括偏旁和不适合继续拆分的字符；

输入单元，其输入待检索文字；

检索单元；

控制单元，判断所输入的待检索文字是否为表意文字描述序列，其中，

当所述待检索文字为表意文字描述序列时，控制所述转换单元将所述待检索文字转换为扩展表意文字描述序列，并控制检索单元在所述扩展表意文字描述序列库中进行检索；

当所述待检索文字不是表意文字描述序列时，则控制所述检索单元在所述电子文档中检索所述待检索文字。

9.根据权利要求8所述的文字检索装置，其中，所述控制单元，还包括，判断在所述扩展表意文字描述序列库中检索所述扩展表意文字描述序列是否成功，如果是，输出检索结果，如果否，则控制所述检索单元在基于Unicode字符集预先创建的扩展表意文字描述序列字典中检索所述待检索文字对应的扩展表意文字描述序列，其中，

10.根据权利要求8所述的文字检索装置，其中，所述控制单元，还包括，判断在所述电子文档中检索所述待检索文字检索是否成功，如果是，则输出检索结果，如果否，则控制所述检索单元在基于Unicode字符集预先创建的扩展表意文字描述序列字典中检索所述待检索文字对应的扩展表意文字描述序列，其中，