CN108595584A - 一种基于数字标记的汉字输出方法和系统 - Google Patents
一种基于数字标记的汉字输出方法和系统 Download PDFInfo
- Publication number
- CN108595584A CN108595584A CN201810350334.XA CN201810350334A CN108595584A CN 108595584 A CN108595584 A CN 108595584A CN 201810350334 A CN201810350334 A CN 201810350334A CN 108595584 A CN108595584 A CN 108595584A
- Authority
- CN
- China
- Prior art keywords
- chinese character
- node
- index information
- numeric string
- mark
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种基于数字标记的汉字输出方法和系统,该步骤:赋予拼音字母一个数字标记;建立包括若干级节点的树结构;识别待检测汉字的字母串以输出对应的数字串,所述数字串的位数与节点级数对应;根据数字串遍历树结构以输出对应的汉字。系统包括:标记模块,用于赋予拼音字母一个数字标记;存储模块,用于建立包括若干级节点的树结构;识别模块,用于识别待检测汉字的字母串以输出对应的数字串,所述数字串的位数与节点级数对应;处理模块,用于根据数字串遍历树结构以输出对应的汉字。本发明通过转换拼音字母为数字,能够提高计算机语言的处理速度,通过多级节点的树结构进行汉字的存储,能够提高查找汉字的效率,降低查找时间。
Description
技术领域
本发明涉及汉字检索技术领域,尤其涉及一种基于数字标记的汉字输出方法和系统。
背景技术
现有汉字检索一般是通过汉字拼音、或拼音首字母或汉字本身开始位置检索,检索效率依赖与数据库索引;但索引机制无法支持任意位置检索,首字母也无法任意拼音补全检索。
随着智能设备的普及与智能设备操作系统的发展,汉字检索的使用场景越来越多,对于检索的精度和效率的要求也越来越高;根据使用体验研究,当检索时长超过100毫秒时用户会感觉到明显的延迟,当检索结果数量过多选择结果时存在一定难度,一般会再次输入关键字进行再次筛选。
传统的检索方法存在以下不足:检索结果过多,不准确;检索方式只支持从左至右的汉字拼音码或拼音首字母;检索匹配速度慢,体验差。
发明内容
为了解决上述问题,本发明提供一种基于数字标记的汉字输出方法和系统。
本发明采用的技术方案一方面为一种基于数字标记的汉字输出方法,包括步骤:赋予拼音字母一个数字标记;建立包括若干级节点的树结构;识别待检测汉字的字母串以输出对应的数字串,所述数字串的位数与节点级数对应;根据数字串遍历树结构以输出对应的汉字。
优选地,所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配并输出对应的汉字。
优选地,所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配出若干汉字,如果所述若干汉字的数量少于阈值则输出对应的汉字,如果多于阈值则根据数字串和下级节点列表检查下一个级节点以输出对应的汉字。
本发明采用的技术方案一方面为一种基于数字标记的汉字输出系统,包括:标记模块,用于赋予拼音字母一个数字标记;存储模块,用于建立包括若干级节点的树结构;识别模块,用于识别待检测汉字的字母串以输出对应的数字串,所述数字串的位数与节点级数对应;处理模块,用于根据数字串遍历树结构以输出对应的汉字。
优选地,所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配并输出对应的汉字。
优选地,所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配出若干汉字,如果所述若干汉字的数量少于阈值则输出对应的汉字,如果多于阈值则根据数字串和下级节点列表检查下一个级节点以输出对应的汉字。
本发明的有益效果为转换拼音字母为数字,能够提高计算机语言的处理速度,通过多级节点的树结构进行汉字的存储,能够提高查找汉字的效率,降低查找时间。
附图说明
图1所示为基于本发明实施例的一种基于数字标记的汉字输出方法的示意图;
图2所示为基于本发明实施例的检索流程示意图。
具体实施方式
以下结合实施例对本发明进行说明。
基于发明的实施例,如图1所示一种基于数字标记的汉字输出方法,包括步骤:赋予拼音字母一个数字标记;建立包括若干级节点的树结构;识别待检测汉字的字母串以输出对应的数字串,所述数字串的位数与节点级数对应;根据数字串遍历树结构以输出对应的汉字。
所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配并输出对应的汉字。
所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配出若干汉字,如果所述若干汉字的数量少于阈值则输出对应的汉字,如果多于阈值则根据数字串和下级节点列表检查下一个级节点以输出对应的汉字。
作为实施例的进一步改进,针对拼音字母进行对应的数字标记,例如以九宫格输入法的拼音字母对应的数字按键(即数字标记),输入王上易,则根据用户的习惯,可能出现的检索组合包括:
拼音键 | 数字键 | 拼音键 | 数字键 |
wangsy | 926479 | syi | 794 |
wangshangy | 9264742649 | sy | 79 |
wshangyi | 97426494 | wangs | 92647 |
wsyi | 9794 | ws | 97 |
wsy | 979 | shangyi | 7426494 |
在上述的情况下,实际的输入的字符串(即拼音键)有10种可能性,其对应的数字串(即数字键)也有10种,则设置最大级数为11级(wangshangyi的对应数位)的树结构,数位逐级对应每一级的树结构的节点,根据字符串对应的数字串遍历树结构,可知第一级(即节点级数的第一级)对应的拼音为w(对应的节点索引信息为9),显然以w开头的汉字会非常的多,则从第二级继续往下遍历,根据上述的表格可知,第二级(即节点级数的第二级)可能是a也可能是s,此时,从第二级a(对应的节点)、s(对应的节点)所存储的可能的(储存于关键字列表)汉字全部输出,当可供输出的汉字非常少的时候则认为是符合需要的汉字,否则继续逐级遍历以获取最终的结构,要点在于随着树结构的逐步查找,可供选择的符合拼音规则的汉字的数量会发生变化,当符合的汉字的数量少于一阈值时,则认为找到最合适的汉字。
如图2所示的检索流程示意图,遍历检测开始位置为0~N的树节点:判断检索到的内容(即数字串)是否匹配存在当前节点的Key(即汉字);搜索内容剩余部分是否包含在下级Key列表中(即检测是否存在下一级树节点,例如第五数位为9(对应的字母为w),但是从语法上不存在第五数位为w的拼音,则认为可能是输入错误或者存在未收录的新汉字);判断是否匹配完所有搜索内容,是则记录匹配到的数据(即汉字),判断数据是否达到限定结果数(即阈值),是就结束检索流程。
基于发明的实施例,一种基于数字标记的汉字输出系统,包括:标记模块,用于赋予拼音字母一个数字标记;存储模块,用于建立包括若干级节点的树结构;识别模块,用于识别待检测汉字的字母串以输出对应的数字串,所述数字串的位数与节点级数对应;处理模块,用于根据数字串遍历树结构以输出对应的汉字。
所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配并输出对应的汉字。
述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,所述上级节点索引信息包括节点级数和数字标记;基于所述上级节点索引信息从所述关键字列表中匹配出若干汉字,如果所述若干汉字的数量少于阈值则输出对应的汉字,如果多于阈值则根据数字串和下级节点列表检查下一个级节点以输出对应的汉字。
以上所述,只是本发明的较佳实施例而已,本发明并不局限于上述实施方式,只要其以相同的手段达到本发明的技术效果,都应属于本发明的保护范围。在本发明的保护范围内其技术方案和/或实施方式可以有各种不同的修改和变化。
Claims (6)
1.一种基于数字标记的汉字输出方法,其特征在于,包括步骤:
赋予拼音字母一个数字标记;
建立包括若干级节点的树结构;
识别待检测汉字的字母串以输出对应的数字串,所述数字串的位数与节点级数对应;
根据数字串遍历树结构以输出对应的汉字。
2.根据权利要求1所述的基于数字标记的汉字输出方法,其特征在于,所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,
所述上级节点索引信息包括节点级数和数字标记;
基于所述上级节点索引信息从所述关键字列表中匹配并输出对应的汉字。
3.根据权利要求2所述的基于数字标记的汉字输出方法,其特征在于,所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,
所述上级节点索引信息包括节点级数和数字标记;
基于所述上级节点索引信息从所述关键字列表中匹配出若干汉字,如果所述若干汉字的数量少于阈值则输出对应的汉字,如果多于阈值则根据数字串和下级节点列表检查下一个级节点以输出对应的汉字。
4.一种基于数字标记的汉字输出系统,其特征在于,包括:
标记模块,用于赋予拼音字母一个数字标记;
存储模块,用于建立包括若干级节点的树结构;
识别模块,用于识别待检测汉字的字母串以输出对应的数字串,所述数字串的位数与节点级数对应;
处理模块,用于根据数字串遍历树结构以输出对应的汉字。
5.根据权利要求4所述的一种基于数字标记的汉字输出系统,其特征在于,所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,
所述上级节点索引信息包括节点级数和数字标记;
基于所述上级节点索引信息从所述关键字列表中匹配并输出对应的汉字。
6.根据权利要求5所述的一种基于数字标记的汉字输出系统,其特征在于,所述节点用于存储上级节点索引信息、下级节点列表和关键字列表,其中,
所述上级节点索引信息包括节点级数和数字标记;
基于所述上级节点索引信息从所述关键字列表中匹配出若干汉字,如果所述若干汉字的数量少于阈值则输出对应的汉字,如果多于阈值则根据数字串和下级节点列表检查下一个级节点以输出对应的汉字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810350334.XA CN108595584B (zh) | 2018-04-18 | 2018-04-18 | 一种基于数字标记的汉字输出方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810350334.XA CN108595584B (zh) | 2018-04-18 | 2018-04-18 | 一种基于数字标记的汉字输出方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108595584A true CN108595584A (zh) | 2018-09-28 |
CN108595584B CN108595584B (zh) | 2022-06-07 |
Family
ID=63611185
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810350334.XA Active CN108595584B (zh) | 2018-04-18 | 2018-04-18 | 一种基于数字标记的汉字输出方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108595584B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115828918A (zh) * | 2022-12-09 | 2023-03-21 | 中国人民解放军国防科技大学 | 一种装备名称实体分辨方法 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1212404A (zh) * | 1997-09-19 | 1999-03-31 | 国际商业机器公司 | 在中文语音识别系统中识别字母/数字串的方法 |
AU4937099A (en) * | 1998-07-10 | 2000-02-01 | Excalibur Ip, Llc | A search system and method for retrieval of data, and the use thereof in a search engine |
US6389416B1 (en) * | 1999-02-19 | 2002-05-14 | International Business Machines Corporation | Depth first method for generating itemsets |
CN1588279A (zh) * | 2004-09-06 | 2005-03-02 | 梁启华 | 利用数字与字母对应关系实现中文信息快速检索的方法 |
US20070260595A1 (en) * | 2006-05-02 | 2007-11-08 | Microsoft Corporation | Fuzzy string matching using tree data structure |
CN102737105A (zh) * | 2012-03-31 | 2012-10-17 | 北京小米科技有限责任公司 | 一种字典树生成方法及搜索方法 |
CN103096154A (zh) * | 2012-12-20 | 2013-05-08 | 四川长虹电器股份有限公司 | 基于传统遥控器的拼音输入方法 |
WO2014191014A1 (en) * | 2013-05-27 | 2014-12-04 | Here Global B.V. | Method and apparatus for navigation |
CN104199541A (zh) * | 2014-08-08 | 2014-12-10 | 乐视网信息技术(北京)股份有限公司 | 基于笔画输入进行搜索的方法及装置 |
US20150339384A1 (en) * | 2012-06-26 | 2015-11-26 | Beijing Qihoo Technology Company Limited | Recommendation system and method for search input |
-
2018
- 2018-04-18 CN CN201810350334.XA patent/CN108595584B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1212404A (zh) * | 1997-09-19 | 1999-03-31 | 国际商业机器公司 | 在中文语音识别系统中识别字母/数字串的方法 |
AU4937099A (en) * | 1998-07-10 | 2000-02-01 | Excalibur Ip, Llc | A search system and method for retrieval of data, and the use thereof in a search engine |
US6389416B1 (en) * | 1999-02-19 | 2002-05-14 | International Business Machines Corporation | Depth first method for generating itemsets |
CN1588279A (zh) * | 2004-09-06 | 2005-03-02 | 梁启华 | 利用数字与字母对应关系实现中文信息快速检索的方法 |
US20070260595A1 (en) * | 2006-05-02 | 2007-11-08 | Microsoft Corporation | Fuzzy string matching using tree data structure |
CN102737105A (zh) * | 2012-03-31 | 2012-10-17 | 北京小米科技有限责任公司 | 一种字典树生成方法及搜索方法 |
US20150339384A1 (en) * | 2012-06-26 | 2015-11-26 | Beijing Qihoo Technology Company Limited | Recommendation system and method for search input |
CN103096154A (zh) * | 2012-12-20 | 2013-05-08 | 四川长虹电器股份有限公司 | 基于传统遥控器的拼音输入方法 |
WO2014191014A1 (en) * | 2013-05-27 | 2014-12-04 | Here Global B.V. | Method and apparatus for navigation |
CN104199541A (zh) * | 2014-08-08 | 2014-12-10 | 乐视网信息技术(北京)股份有限公司 | 基于笔画输入进行搜索的方法及装置 |
Non-Patent Citations (2)
Title |
---|
JEAHYUN PARK等: "Web-Based Document Classification Using a Trie-Based Index Structure", 《 2007 IEEE/WIC/ACM INTERNATIONAL CONFERENCES ON WEB INTELLIGENCE AND INTELLIGENT AGENT TECHNOLOGY - WORKSHOPS》 * |
钱钧等: "一种基于词袋模型的大规模图像层次化分组算法", 《应用光学》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115828918A (zh) * | 2022-12-09 | 2023-03-21 | 中国人民解放军国防科技大学 | 一种装备名称实体分辨方法 |
CN115828918B (zh) * | 2022-12-09 | 2024-02-02 | 中国人民解放军国防科技大学 | 一种装备名称实体分辨方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108595584B (zh) | 2022-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101464896B (zh) | 语音模糊检索方法及装置 | |
CN106598937B (zh) | 用于文本的语种识别方法、装置和电子设备 | |
CN101441649B (zh) | 声音数据检索系统 | |
CN108369582B (zh) | 一种地址纠错方法及终端 | |
CN105608218A (zh) | 智能问答知识库的建立方法、建立装置及建立系统 | |
CN107992633A (zh) | 基于关键词特征的电子文档自动分类方法及系统 | |
CN101950285A (zh) | 利用统计学方法对汉字的本国语读音串转换系统及其方法 | |
CN104239565B (zh) | 一种基于学术搜索的姓名自动提示方法 | |
CN109145260A (zh) | 一种文本信息自动提取方法 | |
CN102214166A (zh) | 基于句法分析和层次模型的机器翻译系统和方法 | |
CN103577989A (zh) | 一种基于产品识别的信息分类方法及信息分类系统 | |
CN110232923A (zh) | 一种语音控制指令生成方法、装置及电子设备 | |
CN104298365A (zh) | 字符输入设备以及字符输入方法 | |
US11520835B2 (en) | Learning system, learning method, and program | |
CN108345694B (zh) | 一种基于主题数据库的文献检索方法及系统 | |
CN112560450A (zh) | 一种文本纠错方法及装置 | |
CA2523992A1 (en) | Automatic segmentation of texts comprising chunks without separators | |
CN102314448A (zh) | 一种在文档中获得一个或多个关键元素的设备和方法 | |
CN104268176B (zh) | 一种基于搜索关键词的推荐方法 | |
CN109165331A (zh) | 一种英文地名的索引建立方法及其查询方法和装置 | |
CN105447104A (zh) | 一种知识地图生成方法及装置 | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
JP5056337B2 (ja) | 情報検索システム | |
CN108595584A (zh) | 一种基于数字标记的汉字输出方法和系统 | |
CN116756382A (zh) | 检测敏感字符串的方法、装置、设置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 518000 w601, Shenzhen Hong Kong industry university research base, 015 Gaoxin South 7th Road, high tech Zone community, Yuehai street, Nanshan District, Shenzhen City, Guangdong Province Applicant after: ASPIRE TECHNOLOGIES (SHENZHEN) LTD. Address before: 518000 south wing, 6th floor, west block, Shenzhen Hong Kong industry university research base building, South District, high tech Industrial Park, Nanshan District, Shenzhen City, Guangdong Province Applicant before: ASPIRE TECHNOLOGIES (SHENZHEN) LTD. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |