CN105069171B

CN105069171B - 汉字查询方法和系统

Info

Publication number: CN105069171B
Application number: CN201510549470.8A
Authority: CN
Inventors: 刘联东; 邵英杰; 刘晓波; 杨天行
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2015-08-31
Filing date: 2015-08-31
Publication date: 2018-07-13
Anticipated expiration: 2035-08-31
Also published as: CN105069171A

Abstract

本发明提出一种汉字查询方法和系统，该汉字查询方法包括：获取查询词，所述查询词中包含待查询的汉字的结构类信息；将所述查询词转换为预设格式的请求，所述预设格式的请求中包含如下的三元组信息：汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息；根据预先获取的汉字与汉字的结构类信息之间的对应关系，确定与所述预设格式的请求中包含的三元组信息对应的汉字；将确定的汉字作为查询结果展示给用户。该方法能够基于汉字的字根和字型结构完成汉字查询，提高查询结果的准确度和覆盖度，更好满足用户需求。

Description

汉字查询方法和系统

技术领域

本发明涉及信息搜索技术领域，尤其涉及一种汉字查询方法和系统。

背景技术

汉字的字型结构和字根组合是传统汉语学习和文字游戏中的重要参与元素。互联网搜索引擎出现后，文字输入方式是用户获取信息的主要方式，当用户遇到生僻字时用户可能根据字根和结构特征进行输入，比如“三个火念什么”，“两点水一个马念什么”，“口里一个女字猜一字”。另外，用户还会经常查询“五行属木的字”,“带有犬字的字有哪些”等。

现在技术中对这类查询依然采用的是通用的搜索方式，向用户提供的是自然搜索结果，但是，自然搜索结果不论在准确度以及覆盖度等方面都存在问题，难以很好满足用户需求。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本发明的一个目的在于提出一种汉字查询方法，该方法可以基于汉字的字根和字型结构完成汉字查询，提高查询结果的准确度和覆盖度，更好满足用户需求。

本发明的另一个目的在于提出一种汉字查询系统。

为达到上述目的，本发明第一方面实施例提出的汉字查询方法，包括：获取查询词，所述查询词中包含待查询的汉字的结构类信息；将所述查询词转换为预设格式的请求，所述预设格式的请求中包含如下的三元组信息：汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息；根据预先获取的汉字与汉字的结构类信息之间的对应关系，确定与所述预设格式的请求中包含的三元组信息对应的汉字；将确定的汉字作为查询结果展示给用户。

本发明第一方面实施例提出的汉字查询方法，通过将查询词转换为预设格式的请求，预设格式的请求中包含结构类的三元组信息，以及根据结构类信息与汉字的对应关系，可以基于汉字的字根和字型结构完成汉字查询，提高查询结果的准确度和覆盖度，更好满足用户需求。

为达到上述目的，本发明第二方面实施例提出的汉字查询系统，包括：获取模块，用于获取查询词，所述查询词中包含待查询的汉字的结构类信息；转换模块，用于将所述查询词转换为预设格式的请求，所述预设格式的请求中包含如下的三元组信息：汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息；查询模块，用于根据预先获取的汉字与汉字的结构类信息之间的对应关系，确定与所述预设格式的请求中包含的三元组信息对应的汉字；展示模块，用于将确定的汉字作为查询结果展示给用户。

本发明第二方面实施例提出的汉字查询系统，通过将查询词转换为预设格式的请求，预设格式的请求中包含结构类的三元组信息，以及根据结构类信息与汉字的对应关系，可以基于汉字的字根和字型结构完成汉字查询，提高查询结果的准确度和覆盖度，更好满足用户需求。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1是本发明一实施例提出的汉字查询方法的流程示意图；

图2是本发明另一实施例提出的汉字查询方法的流程示意图；

图3是本发明另一实施例提出的汉字查询系统的结构示意图；

图4是本发明另一实施例提出的汉字查询系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

图1是本发明一实施例提出的汉字查询方法的流程示意图，该方法包括：

S11：获取查询词，所述查询词中包含待查询的汉字的结构类信息。

其中，用户可以以文本、语音或者图像等方式输入查询词(query)。

汉字的结构类信息例如待查询的汉字的字根、字型结构等信息，如查询词是：“三个火念什么”、“带有犬字的字有哪些”。

S12：将所述查询词转换为预设格式的请求，所述预设格式的请求中包含如下的三元组信息：汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息。

例如，预设格式的请求具有如下格式：{{字根1、字根1的结构位置、字根1的数量}、{字根2、字根2的结构位置、字根2的数量}、…}。

当获取到查询词后，可以从查询词中提取字根和数量以及字型结构信息，再根据这些信息组成上述格式。

例如，查询词是“上X下Y(X和Y都是字根)”，则可以转换为：{{X、上、1}、{Y、下、1}}。

S13：根据预先获取的汉字与汉字的结构类信息之间的对应关系，确定与所述预设格式的请求中包含的三元组信息对应的汉字。

其中，汉字的结构类信息例如包括：汉字的字根和字型结构。

汉字与汉字的结构类信息之间的对应关系可以根据预先收集的样本汉字确定。例如，预先收集大量的汉字作为样本汉字，对应每个样本汉字进行拆分得到字根，并确定字型结构，之后可以建立该样本汉字与其字根、字型结构之间的对应关系，其余样本汉字也可以采用相同的方式建立相应的对应关系，从而多个样本汉字可以组成汉字与汉字的结构类信息之间的对应关系。

在获取该对应关系后，可以匹配三元组信息与对应关系中的结构类信息，从而确定出相应的汉字。例如，该对应关系中包括：汉字A对应汉字A的结构类信息(汉字A的字根和字型结构)、汉字B对应汉字B的结构类信息(汉字B的字根和字型结构)等，如果三元组信息与汉字A的结构类信息一致(或部分一致)，则可以确定与该三元组信息对应的汉字是汉字A。

S14：将确定出的汉字作为查询结果展示给用户。

例如，将汉字A展示给用户。

另外，用户可能不知道汉字怎么读，因此还可能需要拼音，因此，在确定汉字后，还可以获取汉字的拼音，并在展示汉字的同时将汉字的拼音也作为查询结果一起展示。在获取汉字的拼音时，例如还可以建立汉字与拼音的对应关系，从而根据汉字获取相应的拼音。

例如，查询词是“三个火念什么”，返回的查询结果是“炎[yàn]”，可以理解的是，还可以返回其他信息，如字义。

本实施例中，通过将查询词转换为预设格式的请求，预设格式的请求中包含结构类的三元组信息，以及根据结构类信息与汉字的对应关系，可以基于汉字的字根和字型结构完成汉字查询，提高查询结果的准确度和覆盖度，更好满足用户需求。

图2是本发明另一实施例提出的汉字查询方法的流程示意图，该方法包括：

S21：收集样本汉字。

例如，可以收集大量的汉字作为样本汉字，以提高覆盖率。

S22：获取样本汉字的字根和字型结构。

其中，每个字根是可打印可输入的独立汉字。

在拆分时，可以将样本汉字按照每个基本单元直接拆分为每个字根。例如，“赢”拆分为“亡、口、月、贝、凡”。

如果基本单元不能作为独立汉字，则可以对基本单元进行同义替换，用同义的汉字作为字根。例如，“衷”字拆分为“亠、中、衣”，“衣”属于同义替换。

另外，同一个汉字可以采用不同的拆分方式，从而得到不同的字根。例如，“想”字，可以拆分为“相、心”，也可以拆分为“木、目、心”。相应地，在后续流程记录对应关系时，同一个汉字可以对应多种字根。

另外，还可以确定汉字的字型结构，字型结构例如包括：左右结构(包括左中右)、上下结构(包括上中下)、包围结构(包括半包围)、独立结构(包括嵌套结构)。

S23：将多个样本汉字与样本汉字的字根和字型结构之间的对应关系组成汉字与汉字的结构类信息之间的对应关系。之后，可以将该对应关系保存在特征库中。

其中，多个样本汉字与其结构类信息可以组成一个集合，该集合可以称为汉字与汉字的结构类信息之间的对应关系。

例如，特征库中对应汉字“攀”可以记录：{攀，木××木大手，上中下}。

S24：构建查询词模板。之后可以将查询词模板保存在模板库内。

查询词模板用于将查询词转换为预设格式的请求。

查询词模板例如包括：{{字根1、字根1的结构位置、字根1的数量}、{字根2、字根2的结构位置、字根2的数量}、…}，从而可以将自然语言的查询词转换为查询词模板的格式。

例如，查询词是“上面两个木两个叉中间大下面手的字”，经过转换，可以转换为：{{大、上、2}、{×、上、2}、{大、中、1}、{手、下、1}}。

另外，如果查询词中一项或多项结构类信息没有明确指出，则在转换后，可以用通配符表示，例如，查询词是“心字底的字”，则可以转换为{心、下、？}，其中，“？”表示通配符，之后在匹配时，可以匹配到任意数量。

另外，在字根转换时，可以根据查询词中的字根信息转换为多种形式的字根，例如，查询词中包含“人”的信息，则经过转换后的字根可以包括：“人”字部、单人旁“亻”、双人旁“彳”。

可以理解的是，查询词模板可以有多个，不同的查询词模板可以具有不同的格式，可以根据预设规则选择相应的查询词模板。

可以理解的是，S21-S24可以是在线下预先完成的。

S25：获取查询词，所述查询词中包含要查询的汉字的结构类信息。

例如，查询词是“上面两个木两个叉中间大下面手的字”。

S26：从模板库内获取查询词模板，将所述查询词转换为预设格式的请求，所述预设格式的请求中包含如下的三元组信息：汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息。

例如，将上述的查询词转换为：{{大、上、2}、{×、上、2}、{大、中、1}、{手、下、1}}。

S27：从特征库内获取汉字与汉字的结构类信息之间的对应关系，根据该对应关系，确定与所述预设格式的请求中包含的三元组信息对应的汉字。

其中，可以分别将三元组信息与特征库中样本汉字的结构类信息进行匹配，得到匹配的汉字。

在匹配时，可以采用精确匹配或模糊匹配的方式。其中，精确匹配是指查询到的汉字的字型结构、字根以及字根数量与查询词的相应信息完全一致。模糊匹配是指查询到的汉字字型结构、字根以及字根数量与查询词中的相应信息可以完全一致，也可以部分一致另外部分不一致。

当确定出的汉字为多个时，还可以执行：

S28：根据确定出的汉字与三元组信息的匹配程度，对确定出的汉字进行打分，得到匹配分数，并根据匹配分数，对多个确定出的汉字进行排序。

例如，确定出的汉字包括汉字A、汉字B和汉字C，如果汉字A的字型结构、字根以及字根数量与查询词中的相应信息完全一致，汉字B的字型结构、字根以及字根数量与查询词中的相应信息大部分一致，汉字C的字型结构、字根以及字根数量与查询词中的相应信息小部分一致，则汉字A的分数大于汉字B的分数大于汉字C的分数。

S29：按序展示多个确定出的汉字。

例如，汉字A展示在最前面，其次是汉字B，汉字C排序在最后。

本实施例中，通过将查询词转换为预设格式的请求，预设格式的请求中包含结构类的三元组信息，以及根据结构类信息与汉字的对应关系，可以基于汉字的字根和字型结构完成汉字查询，提高查询结果的准确度和覆盖度，更好满足用户需求。通过在拆分字根时，用同义词替换或者拆分多种字根，以及，在转换字根时，同一个字根转换为多种形式，可以提高结果的召回率，提升用户体验。

图3是本发明另一实施例提出的汉字查询系统的结构示意图，该系统30包括：获取模块31、转换模块32、查询模块33和展示模块34。

获取模块31，用于获取查询词，所述查询词中包含待查询的汉字的结构类信息；

其中，用户可以以文本、语音或者图像等方式输入查询词(query)。相应的，获取模块31具体用于：获取用户以文本、语音或者图像形式输入的查询词。

转换模块32，用于将所述查询词转换为预设格式的请求，所述预设格式的请求中包含如下的三元组信息：汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息；

查询模块33，用于根据预先获取的汉字与汉字的结构类信息之间的对应关系，确定与所述预设格式的请求中包含的三元组信息对应的汉字；

展示模块34，用于将确定的汉字作为查询结果展示给用户。

例如，将汉字A展示给用户。

一些实施例中，所述查询模块33还用于：获取确定的汉字的其他信息；所述展示模块34还用于：将其他信息与所述确定的汉字一起作为查询结果展示给用户，其中，所述其他信息包括如下项中的一项或多项：拼音、字义。

例如，用户可能不知道汉字怎么读，因此还可能需要拼音，因此，在确定汉字后，还可以获取汉字的拼音，并在展示汉字的同时将汉字的拼音也作为查询结果一起展示。在获取汉字的拼音时，例如还可以建立汉字与拼音的对应关系，从而根据汉字获取相应的拼音。

图4是本发明另一实施例提出的汉字查询系统的结构示意图，该系统40包括：获取模块41、转换模块42、查询模块43和展示模块44。这四个模块的功能可以参见上一实施例。

进一步的，该系统还包括：排序模块45，用于根据确定出的汉字与三元组信息的匹配程度，对确定出的汉字进行打分，得到匹配分数；根据匹配分数，对多个确定出的汉字进行排序，以便按序展示多个确定出的汉字。

例如，确定出的汉字包括汉字A、汉字B和汉字C，如果汉字A的字型结构、字根以及字根数量与查询词中的相应信息完全一致，汉字B的字型结构、字根以及字根数量与查询词中的相应信息大部分一致，汉字C的字型结构、字根以及字根数量与查询词中的相应信息小部分一致，则汉字A的分数大于汉字B的分数大于汉字C的分数。之后，在展示时，汉字A展示在最前面，其次是汉字B，汉字C排序在最后。

一些实施例中，该系统还包括：预处理模块46，用于收集样本汉字；获取样本汉字的结构类信息，结构类信息包括：字根和字型结构；根据多个样本汉字与样本汉字的结构类信息之间的对应关系，组成所述汉字与汉字的结构类信息之间的对应关系。

例如，可以收集大量的汉字作为样本汉字，以提高覆盖率。

其中，每个字根是可打印可输入的独立汉字。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种汉字查询方法，其特征在于，包括：

获取查询词，所述查询词中包含待查询的汉字的结构类信息，其中，所述待查询的汉字的结构类信息包括所述待查询汉字的字根和字根结构；

将所述查询词转换为预设格式的请求，所述预设格式的请求中包含如下的三元组信息：汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息；

根据预先获取的汉字与汉字的结构类信息之间的对应关系，确定与所述预设格式的请求中包含的三元组信息对应的汉字；

将确定出的汉字作为查询结果展示给用户。

2.根据权利要求1所述的方法，其特征在于，还包括：

获取确定出的汉字的其他信息，并将其他信息与所述确定出的汉字一起作为查询结果展示给用户，其中，所述其他信息包括如下项中的一项或多项：拼音、字义。

3.根据权利要求1所述的方法，其特征在于，所述三元组信息中的字根信息包括一种或多种形式。

4.根据权利要求1所述的方法，其特征在于，当确定出的汉字为多个时，所述方法还包括：

根据确定出的汉字与三元组信息的匹配程度，对确定出的汉字进行打分，得到匹配分数，并根据匹配分数，对多个确定出的汉字进行排序，以便按序展示多个确定出的汉字。

5.根据权利要求1-4任一项所述的方法，其特征在于，还包括：

收集样本汉字；

获取样本汉字的结构类信息，结构类信息包括：字根和字型结构；

根据多个样本汉字与样本汉字的结构类信息之间的对应关系，组成所述汉字与汉字的结构类信息之间的对应关系。

6.根据权利要求5所述的方法，其特征在于，所述字根是可打印可输入的独立汉字。

7.根据权利要求5所述的方法，其特征在于，同一个样本汉字对应一种或多种字根。

8.根据权利要求1-4任一项所述的方法，其特征在于，所述获取查询词，包括：

获取用户以文本、语音或者图像形式输入的查询词。

9.一种汉字查询系统，其特征在于，包括：

获取模块，用于获取查询词，所述查询词中包含待查询的汉字的结构类信息，其中，所述待查询的汉字的结构类信息包括所述待查询汉字的字根和字根结构；

转换模块，用于将所述查询词转换为预设格式的请求，所述预设格式的请求中包含如下的三元组信息：汉字的字根信息、同一个字根的数量信息、汉字的字型结构信息；

查询模块，用于根据预先获取的汉字与汉字的结构类信息之间的对应关系，确定与所述预设格式的请求中包含的三元组信息对应的汉字；

展示模块，用于将确定的汉字作为查询结果展示给用户。

10.根据权利要求9所述的系统，其特征在于，

所述查询模块还用于：获取确定的汉字的其他信息；

所述展示模块还用于：将其他信息与所述确定的汉字一起作为查询结果展示给用户，其中，所述其他信息包括如下项中的一项或多项：拼音、字义。

11.根据权利要求9所述的系统，其特征在于，当确定出的汉字为多个时，所述系统还包括：

排序模块，用于根据确定出的汉字与三元组信息的匹配程度，对确定出的汉字进行打分，得到匹配分数；根据匹配分数，对多个确定出的汉字进行排序，以便按序展示多个确定出的汉字。

12.根据权利要求9-11任一项所述的系统，其特征在于，还包括：

预处理模块，用于收集样本汉字；获取样本汉字的结构类信息，结构类信息包括：字根和字型结构；根据多个样本汉字与样本汉字的结构类信息之间的对应关系，组成所述汉字与汉字的结构类信息之间的对应关系。

13.根据权利要求9-11任一项所述的系统，其特征在于，所述获取模块具体用于：

获取用户以文本、语音或者图像形式输入的查询词。