CN104573059B

CN104573059B - 基于xml动态生成近似关键字的方法

Info

Publication number: CN104573059B
Application number: CN201510033012.9A
Authority: CN
Inventors: 周夏成
Original assignee: Chengdu Zhuorui Technology Co Ltd
Current assignee: Chengdu Zhuorui Technology Co Ltd
Priority date: 2015-01-22
Filing date: 2015-01-22
Publication date: 2018-10-09
Anticipated expiration: 2035-01-22
Also published as: CN104573059A

Abstract

本发明涉及计算机软件技术领域，提供一种基于XML动态生成近似关键字的方法，以解决似关键字查询的代码重复利用率低的问题。该方法包括：创建XML基础字库；查找基础字库，得到关键字结合。本发明提出的技术方案解决了近似关键字查询的代码重复利用率低问题。

Description

基于XML动态生成近似关键字的方法

技术领域

本发明涉及计算机软件技术领域，特别涉及一种基于XML动态生成近似关键字的方法。

背景技术

XML数据库是一种支持对XML(可扩展标记语言)格式文档进行存储和查询等操作的数据管理系统。在系统中，开发人员可以对数据库中的XML文档进行查询、导出和指定格式的序列化。XML数据库是XML文档及其部件的集合，并通过一个具有能力管理和控制这个文档集合本身及其所表示信息的系统来维护。XML数据库不仅是结构化数据和半结构化数据的存储库，像管理其它数据一样，持久的XML数据管理包括数据的独立性、集成性、访问权限、视图、完备性、冗余性、一致性以及数据恢复等，这些文档是持久的并且是可以操作的。

目前，在软件开发过程中，很多系统中都需要查询近似关键字。对于软件开发者来说，新开发一个近似关键字查询功能，常常会花费大量的时间来编写代码，因此代码重复利用率低。

发明内容

【要解决的技术问题】

本发明的目的是提供一种基于XML动态生成近似关键字的方法，以解决近似关键字查询的代码重复利用率低问题。

【技术方案】

本发明是通过以下技术方案实现的。

本发明涉及一种基于XML动态生成近似关键字的方法，该方法包括如下步骤：

分别创建第一字库、第二字库、第三字库，所述第一字库、第二字库、第三字库均为XML数据库文件，其中第一字库用于存储读音相同的字，第二字库用于存储字形编码相同的字，第三字库用于存储繁体字；

获取外部输入的初始关键字并对初始关键字拆分得到匹配字和匹配字符串；

查找第一字库，得到与匹配字读音相同的同音字集合，分别将同音字集合中的每个字与匹配字符串组合成同音关键字，将所有的同音关键字保存至第一关键字集合；

查找第二字库，得到与匹配字字形相同的同形字集合，分别将同形字集合中的每个字与匹配字符串组合成同形关键字，将所有的同形关键字保存至第二关键字集合；

查找第三字库，得到匹配字对应的繁体字，将匹配字对应的繁体字与匹配字符串组合成繁体关键字，将该繁体关键字保存至第三关键字集合；

对所述初始关键字进行反向排序，得到第四关键字集合；

将所述第一关键字集合、第二关键字集合、第三关键字集合和第四关键字集合组合得到初始关键字的近似关键字集合。

作为一种优选的实施方式，所述字形编码的方式为五笔字形编码

作为另一种优选的实施方式，所述创建第一字库的方法为：通过查找标准汉字库得到读音相同的字，将读音相同的字批量添加到第一字库中。

作为另一种优选的实施方式，所述创建第二字库的方法为：通过查找标准汉字库得到字形编码相同的字，将字形编码相同的字批量添加到第二字库中。

作为另一种优选的实施方式，所述创建第三字库的方法为：通过查找标准汉字库得到繁体字，将繁体字批量添加到第三字库中。

【有益效果】

本发明提出的技术方案具有以下有益效果：

本发明实现了近似关键字的动态生成功能，本发明可以方便的移植到不同的系统，提高了代码的重复利用率。

附图说明

图1为本发明的实施例提供的基于XML动态生成近似关键字的方法。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图，对本发明的具体实施方式进行清楚、完整的描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例，也不是对本发明的限制。基于本发明的实施例，本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

图1为本发明实施例提供的基于XML动态生成近似关键字的方法。如图1所示，该方法包括步骤11至步骤17，下面分别对步骤11至步骤17进行详细说明。

步骤11：分别创建读音相同字库、字形编码相同字库、繁体字字库。

步骤11中，创建读音相同字库的方法为：通过查找标准汉字库得到读音相同的字，将读音相同的字批量添加到第一字库中。

创建字形编码相同字库的方法为：通过查找标准汉字库得到字形编码相同的字，将字形编码相同的字批量添加到第二字库中。

创建繁体字字库的方法为：通过查找标准汉字库得到繁体字，将繁体字批量添加到第三字库中。

步骤12：获取外部输入的初始关键字并对初始关键字拆分得到匹配字和匹配字符串。

本实施例中的初始关键字为“五粮液”，则将“五粮液”拆分为匹配字“五”和匹配字符串“粮液”。

步骤13：查找读音相同字库，获取同音字集合，得到同音关键字集合。

步骤13具体包括：查找读音相同字库，得到与匹配字读音相同的同音字集合，分别将同音字集合中的每个字与匹配字符串组合成同音关键字，将所有的同音关键字保存至同音关键字集合。

本实施例中，查找读音相同字库后，得到同音字集合“午、舞、武”，将同音字集合中的每个字与匹配字符串组合，得到同音关键字“午粮液”、“舞粮液”、“武粮液”，将将所有的同音关键字保存至同音关键字集合。需要说明，为了说明方便，仅仅给出了读音相同字库中的“午、舞、武”三个同音字，所有与“五”同音的字均包含在读音相同字库中。

步骤14：查找字形编码相同字库，获取同形字集合，得到同形关键字集合。

步骤14具体包括：查找字形编码相同字库，得到与匹配字字形相同的同形字集合，分别将同形字集合中的每个字与匹配字符串组合成同形关键字，将所有的同形关键字保存至同形关键字集合。

本实施例中，查找字形编码相同字库后，得到与匹配关键字“五”字形编码相同的同形字集合“玉、王”，将同形字集合中的每个字与匹配字符串组合，得到同形关键字“玉粮液”、“王粮液”，将所有的同形关键字保存至同形关键字集合。需要说明，为了说明方便，仅仅给出了字形编码相同字库中的“玉、王”两个字形编码相同的字，所有与“五”字形编码相同的字均包含在读音相同字库中。另外，判断字形编码是否相同的标准为五笔字形编码方式是否相同。

步骤15：查找繁体字字库，获取繁体关键字，得到繁体关键字集合。

本实施例中，查找繁体字字库，得到匹配字对应的繁体字“五”，将匹配字对应的繁体字与匹配字符串组合成繁体关键字“五粮液”。

步骤16：对初始关键字进行反向排序，得到反序关键字集合。

本实施例中，对初始关键字进行反向排序，得到反序关键字集合“液粮五”。

步骤17：组合得到初始关键字的近似关键字集合。

本实施例中，将同音关键字集合、同形关键字集合、繁体关键字集合和反序关键字集合组合得到初始关键字的近似关键字集合。

需要说明，上述步骤仅仅给出了将关键字“五粮液”拆分为匹配字“五”和匹配字符串“粮液”后，获取近似关键字的步骤，同样，也可以将关键字“五粮液”拆分为匹配字“粮”和匹配字符串“五液”，或者将关键字“五粮液”拆分为匹配字“液”和匹配字符串“五粮”，拆分后，采用相同的方法也可以得到其他的近似关键字集合。

从以上实施例可以看出，本发明实施例实现了近似关键字的动态生成功能，而且本发明实施例中的字库为XML数据库文件，可以方便的移植到不同的系统，因此提高了代码的重复利用率。

Claims

1.一种基于XML动态生成近似关键字的方法，用于近似检索，其特征在于包括如下步骤：

获取外部输入的初始关键字并对初始关键字拆分得到匹配字和匹配字符串,其中，所述匹配字为输入的初始关键字中的任一字，匹配字符串为初始关键字剔除所述匹配字之后剩下的字符串，所述字符串包含至少两个字符；

对所述初始关键字进行反向排序，得到第四关键字集合；

2.根据权利要求1所述的基于XML动态生成近似关键字的方法，其特征在于所述字形编码的方式为五笔字形编码。

3.根据权利要求1所述的基于XML动态生成近似关键字的方法，其特征在于所述创建第一字库的方法为：通过查找标准汉字库得到读音相同的字，将读音相同的字批量添加到第一字库中。

4.根据权利要求1所述的基于XML动态生成近似关键字的方法，其特征在于所述创建第二字库的方法为：通过查找标准汉字库得到字形编码相同的字，将字形编码相同的字批量添加到第二字库中。

5.根据权利要求1所述的基于XML动态生成近似关键字的方法，其特征在于所述创建第三字库的方法为：通过查找标准汉字库得到繁体字，将繁体字批量添加到第三字库中。