CN104573059B - 基于xml动态生成近似关键字的方法 - Google Patents

基于xml动态生成近似关键字的方法 Download PDF

Info

Publication number
CN104573059B
CN104573059B CN201510033012.9A CN201510033012A CN104573059B CN 104573059 B CN104573059 B CN 104573059B CN 201510033012 A CN201510033012 A CN 201510033012A CN 104573059 B CN104573059 B CN 104573059B
Authority
CN
China
Prior art keywords
word
keywords
character
character library
library
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510033012.9A
Other languages
English (en)
Other versions
CN104573059A (zh
Inventor
周夏成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Zhuorui Technology Co Ltd
Original Assignee
Chengdu Zhuorui Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Zhuorui Technology Co Ltd filed Critical Chengdu Zhuorui Technology Co Ltd
Priority to CN201510033012.9A priority Critical patent/CN104573059B/zh
Publication of CN104573059A publication Critical patent/CN104573059A/zh
Application granted granted Critical
Publication of CN104573059B publication Critical patent/CN104573059B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/832Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及计算机软件技术领域,提供一种基于XML动态生成近似关键字的方法,以解决似关键字查询的代码重复利用率低的问题。该方法包括:创建XML基础字库;查找基础字库,得到关键字结合。本发明提出的技术方案解决了近似关键字查询的代码重复利用率低问题。

Description

基于XML动态生成近似关键字的方法
技术领域
本发明涉及计算机软件技术领域,特别涉及一种基于XML动态生成近似关键字的方法。
背景技术
XML数据库是一种支持对XML(可扩展标记语言)格式文档进行存储和查询等操作的数据管理系统。在系统中,开发人员可以对数据库中的XML文档进行查询、导出和指定格式的序列化。XML数据库是XML文档及其部件的集合,并通过一个具有能力管理和控制这个文档集合本身及其所表示信息的系统来维护。XML数据库不仅是结构化数据和半结构化数据的存储库,像管理其它数据一样,持久的XML数据管理包括数据的独立性、集成性、访问权限、视图、完备性、冗余性、一致性以及数据恢复等,这些文档是持久的并且是可以操作的。
目前,在软件开发过程中,很多系统中都需要查询近似关键字。对于软件开发者来说,新开发一个近似关键字查询功能,常常会花费大量的时间来编写代码,因此代码重复利用率低。
发明内容
【要解决的技术问题】
本发明的目的是提供一种基于XML动态生成近似关键字的方法,以解决近似关键字查询的代码重复利用率低问题。
【技术方案】
本发明是通过以下技术方案实现的。
本发明涉及一种基于XML动态生成近似关键字的方法,该方法包括如下步骤:
分别创建第一字库、第二字库、第三字库,所述第一字库、第二字库、第三字库均为XML数据库文件,其中第一字库用于存储读音相同的字,第二字库用于存储字形编码相同的字,第三字库用于存储繁体字;
获取外部输入的初始关键字并对初始关键字拆分得到匹配字和匹配字符串;
查找第一字库,得到与匹配字读音相同的同音字集合,分别将同音字集合中的每个字与匹配字符串组合成同音关键字,将所有的同音关键字保存至第一关键字集合;
查找第二字库,得到与匹配字字形相同的同形字集合,分别将同形字集合中的每个字与匹配字符串组合成同形关键字,将所有的同形关键字保存至第二关键字集合;
查找第三字库,得到匹配字对应的繁体字,将匹配字对应的繁体字与匹配字符串组合成繁体关键字,将该繁体关键字保存至第三关键字集合;
对所述初始关键字进行反向排序,得到第四关键字集合;
将所述第一关键字集合、第二关键字集合、第三关键字集合和第四关键字集合组合得到初始关键字的近似关键字集合。
作为一种优选的实施方式,所述字形编码的方式为五笔字形编码
作为另一种优选的实施方式,所述创建第一字库的方法为:通过查找标准汉字库得到读音相同的字,将读音相同的字批量添加到第一字库中。
作为另一种优选的实施方式,所述创建第二字库的方法为:通过查找标准汉字库得到字形编码相同的字,将字形编码相同的字批量添加到第二字库中。
作为另一种优选的实施方式,所述创建第三字库的方法为:通过查找标准汉字库得到繁体字,将繁体字批量添加到第三字库中。
【有益效果】
本发明提出的技术方案具有以下有益效果:
本发明实现了近似关键字的动态生成功能,本发明可以方便的移植到不同的系统,提高了代码的重复利用率。
附图说明
图1为本发明的实施例提供的基于XML动态生成近似关键字的方法。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图,对本发明的具体实施方式进行清楚、完整的描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例,也不是对本发明的限制。基于本发明的实施例,本领域普通技术人员在不付出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
图1为本发明实施例提供的基于XML动态生成近似关键字的方法。如图1所示,该方法包括步骤11至步骤17,下面分别对步骤11至步骤17进行详细说明。
步骤11:分别创建读音相同字库、字形编码相同字库、繁体字字库。
步骤11中,创建读音相同字库的方法为:通过查找标准汉字库得到读音相同的字,将读音相同的字批量添加到第一字库中。
创建字形编码相同字库的方法为:通过查找标准汉字库得到字形编码相同的字,将字形编码相同的字批量添加到第二字库中。
创建繁体字字库的方法为:通过查找标准汉字库得到繁体字,将繁体字批量添加到第三字库中。
步骤12:获取外部输入的初始关键字并对初始关键字拆分得到匹配字和匹配字符串。
本实施例中的初始关键字为“五粮液”,则将“五粮液”拆分为匹配字“五”和匹配字符串“粮液”。
步骤13:查找读音相同字库,获取同音字集合,得到同音关键字集合。
步骤13具体包括:查找读音相同字库,得到与匹配字读音相同的同音字集合,分别将同音字集合中的每个字与匹配字符串组合成同音关键字,将所有的同音关键字保存至同音关键字集合。
本实施例中,查找读音相同字库后,得到同音字集合“午、舞、武”,将同音字集合中的每个字与匹配字符串组合,得到同音关键字“午粮液”、“舞粮液”、“武粮液”,将将所有的同音关键字保存至同音关键字集合。需要说明,为了说明方便,仅仅给出了读音相同字库中的“午、舞、武”三个同音字,所有与“五”同音的字均包含在读音相同字库中。
步骤14:查找字形编码相同字库,获取同形字集合,得到同形关键字集合。
步骤14具体包括:查找字形编码相同字库,得到与匹配字字形相同的同形字集合,分别将同形字集合中的每个字与匹配字符串组合成同形关键字,将所有的同形关键字保存至同形关键字集合。
本实施例中,查找字形编码相同字库后,得到与匹配关键字“五”字形编码相同的同形字集合“玉、王”,将同形字集合中的每个字与匹配字符串组合,得到同形关键字“玉粮液”、“王粮液”,将所有的同形关键字保存至同形关键字集合。需要说明,为了说明方便,仅仅给出了字形编码相同字库中的“玉、王”两个字形编码相同的字,所有与“五”字形编码相同的字均包含在读音相同字库中。另外,判断字形编码是否相同的标准为五笔字形编码方式是否相同。
步骤15:查找繁体字字库,获取繁体关键字,得到繁体关键字集合。
本实施例中,查找繁体字字库,得到匹配字对应的繁体字“五”,将匹配字对应的繁体字与匹配字符串组合成繁体关键字“五粮液”。
步骤16:对初始关键字进行反向排序,得到反序关键字集合。
本实施例中,对初始关键字进行反向排序,得到反序关键字集合“液粮五”。
步骤17:组合得到初始关键字的近似关键字集合。
本实施例中,将同音关键字集合、同形关键字集合、繁体关键字集合和反序关键字集合组合得到初始关键字的近似关键字集合。
需要说明,上述步骤仅仅给出了将关键字“五粮液”拆分为匹配字“五”和匹配字符串“粮液”后,获取近似关键字的步骤,同样,也可以将关键字“五粮液”拆分为匹配字“粮”和匹配字符串“五液”,或者将关键字“五粮液”拆分为匹配字“液”和匹配字符串“五粮”,拆分后,采用相同的方法也可以得到其他的近似关键字集合。
从以上实施例可以看出,本发明实施例实现了近似关键字的动态生成功能,而且本发明实施例中的字库为XML数据库文件,可以方便的移植到不同的系统,因此提高了代码的重复利用率。

Claims (5)

1.一种基于XML动态生成近似关键字的方法,用于近似检索,其特征在于包括如下步骤:
分别创建第一字库、第二字库、第三字库,所述第一字库、第二字库、第三字库均为XML数据库文件,其中第一字库用于存储读音相同的字,第二字库用于存储字形编码相同的字,第三字库用于存储繁体字;
获取外部输入的初始关键字并对初始关键字拆分得到匹配字和匹配字符串,其中,所述匹配字为输入的初始关键字中的任一字,匹配字符串为初始关键字剔除所述匹配字之后剩下的字符串,所述字符串包含至少两个字符;
查找第一字库,得到与匹配字读音相同的同音字集合,分别将同音字集合中的每个字与匹配字符串组合成同音关键字,将所有的同音关键字保存至第一关键字集合;
查找第二字库,得到与匹配字字形相同的同形字集合,分别将同形字集合中的每个字与匹配字符串组合成同形关键字,将所有的同形关键字保存至第二关键字集合;
查找第三字库,得到匹配字对应的繁体字,将匹配字对应的繁体字与匹配字符串组合成繁体关键字,将该繁体关键字保存至第三关键字集合;
对所述初始关键字进行反向排序,得到第四关键字集合;
将所述第一关键字集合、第二关键字集合、第三关键字集合和第四关键字集合组合得到初始关键字的近似关键字集合。
2.根据权利要求1所述的基于XML动态生成近似关键字的方法,其特征在于所述字形编码的方式为五笔字形编码。
3.根据权利要求1所述的基于XML动态生成近似关键字的方法,其特征在于所述创建第一字库的方法为:通过查找标准汉字库得到读音相同的字,将读音相同的字批量添加到第一字库中。
4.根据权利要求1所述的基于XML动态生成近似关键字的方法,其特征在于所述创建第二字库的方法为:通过查找标准汉字库得到字形编码相同的字,将字形编码相同的字批量添加到第二字库中。
5.根据权利要求1所述的基于XML动态生成近似关键字的方法,其特征在于所述创建第三字库的方法为:通过查找标准汉字库得到繁体字,将繁体字批量添加到第三字库中。
CN201510033012.9A 2015-01-22 2015-01-22 基于xml动态生成近似关键字的方法 Active CN104573059B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510033012.9A CN104573059B (zh) 2015-01-22 2015-01-22 基于xml动态生成近似关键字的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510033012.9A CN104573059B (zh) 2015-01-22 2015-01-22 基于xml动态生成近似关键字的方法

Publications (2)

Publication Number Publication Date
CN104573059A CN104573059A (zh) 2015-04-29
CN104573059B true CN104573059B (zh) 2018-10-09

Family

ID=53089121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510033012.9A Active CN104573059B (zh) 2015-01-22 2015-01-22 基于xml动态生成近似关键字的方法

Country Status (1)

Country Link
CN (1) CN104573059B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6697801B1 (en) * 2000-08-31 2004-02-24 Novell, Inc. Methods of hierarchically parsing and indexing text
CN102456001A (zh) * 2010-10-27 2012-05-16 北京四维图新科技股份有限公司 错别字的检查方法和装置
CN104050191A (zh) * 2013-03-14 2014-09-17 北京百度网讯科技有限公司 对推广信息进行监控的方法和设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6697801B1 (en) * 2000-08-31 2004-02-24 Novell, Inc. Methods of hierarchically parsing and indexing text
CN102456001A (zh) * 2010-10-27 2012-05-16 北京四维图新科技股份有限公司 错别字的检查方法和装置
CN104050191A (zh) * 2013-03-14 2014-09-17 北京百度网讯科技有限公司 对推广信息进行监控的方法和设备

Also Published As

Publication number Publication date
CN104573059A (zh) 2015-04-29

Similar Documents

Publication Publication Date Title
CN106575166B (zh) 手写输入字符的处理、数据拆分和合并及编解码处理方法
US20200210468A1 (en) Document recommendation method and device based on semantic tag
JP4986919B2 (ja) タグ付きデータを有する完全形式レキシコンおよびタグ付きデータを構成し使用する方法
US7523102B2 (en) Content search in complex language, such as Japanese
CN100435143C (zh) 带有嵌套表格的无模式数据映射系统和方法
WO2021135469A1 (zh) 基于机器学习的信息抽取方法、装置、计算机设备及介质
WO2015009297A1 (en) Systems and methods for extracting table information from documents
US8037083B2 (en) Lossless format-dependent analysis and modification of multi-document e-learning resources
US7366984B2 (en) Phonetic searching using multiple readings
EP2162838B1 (en) Phonetic search using normalized string
US20120109994A1 (en) Robust auto-correction for data retrieval
WO2011074942A1 (en) System and method of converting data from a multiple table structure into an edoc format
JP7160986B2 (ja) 検索モデルの訓練方法、装置、デバイス、コンピュータ記憶媒体、及びコンピュータプログラム
Ilic et al. Inverted index search in data mining
CN110717014B (zh) 一种本体知识库动态构建方法
US20100010973A1 (en) Vector Space Lightweight Directory Access Protocol Data Search
CN104573059B (zh) 基于xml动态生成近似关键字的方法
CN109255098B (zh) 一种基于重构约束的矩阵分解哈希方法
US20220083736A1 (en) Information processing apparatus and non-transitory computer readable medium
Li et al. Extraction and integration information in HTML tables
JP2018190030A (ja) 情報処理サーバ、その制御方法、及びプログラム、並びに、情報処理システム、その制御方法、及びプログラム
EP1605371A1 (en) Content search in complex language, such as japanese
CN111159421A (zh) 基于知识图谱的基金查询方法及装置
CN102375839A (zh) 从候选数据集获取目标数据集的方法和装置以及翻译机器
JP2016177627A (ja) 書換装置、処理方法とそのプログラム、および、情報処理装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant