CN103164466A - 冷僻汉字的笔顺子字检索法 - Google Patents
冷僻汉字的笔顺子字检索法 Download PDFInfo
- Publication number
- CN103164466A CN103164466A CN2011104223255A CN201110422325A CN103164466A CN 103164466 A CN103164466 A CN 103164466A CN 2011104223255 A CN2011104223255 A CN 2011104223255A CN 201110422325 A CN201110422325 A CN 201110422325A CN 103164466 A CN103164466 A CN 103164466A
- Authority
- CN
- China
- Prior art keywords
- order
- word
- calligraphy
- chinese character
- strokes observed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种冷僻汉字的笔顺子字检索法,包括创建和检索;所述的创建是给含有冷僻汉字的数据库笔顺字段生成编码,按照写字的笔划顺序,“横竖撇捺折”分别用“12345”作为码值,将每个汉字的笔顺代码数据添加到笔顺字段里;所述的汉字检索方法是通过输入笔顺代码数据检索汉字。该方法适合于古文研究、图书馆、古籍文献的录入、内容查找等领域。首次采用将子字作为部件参与输入法,通过笔顺弥补子字不能涵盖全字所有部件的缺点,实现字根和笔顺的任意组合,相对于拆字法该发明不需要穷举所有的组合,支持模糊查询。
Description
技术领域
本发明涉及一种汉字检索方法,具体的说是一种冷僻汉字的笔顺子字检索法,该方法同样适用普通汉字检索。
背景技术
一、汉字检索和输入的时代背景和技术背景
我国历史悠久、文字发展时间漫长,所以文字存在数量巨大、字形多样、一字多音、简体与繁体共存、常用字与冷僻字共存等现象。每个人由于文化水平、工作领域不相同,而导致很多文字在遇到时不知道发音、不知道偏旁、当前输入法不识别该字等问题。
关于汉字检索和输入的现状是:汉字的显示问题初见解决,但检索和输入仍存在较多问题。近年来,计算机的处理已普及到了汉字处理的各个领域,纵观汉字汉库的发展史,我们发现可以分为两个阶段:最早大陆的GB2312(收录6763个常用简体汉字)和港澳台的BIG5码(收录13060个常用繁体汉字)同时出现,只解决了常见汉字的显示、和输入问题,但仍存在冷僻汉字无法显示、二者的互不兼容、输入法多样等问题;第二阶段是Unicode汉字,该字库收超过10万多国文字,可以显示绝大多数汉字,相比第一阶段,也只是解决了冷僻字的显示、中国大陆、港澳台、海外汉字之间的兼容问题,但随之而来未能解决的是其中汉字的输入。纵观该字库的特点,对于冷僻字的输入,如果照搬现有的输入法,存在如下问题:1、以汉字发音为主的拼音输入法将全面失效。作为中国人,都以能认识中国字为荣,但据不完全统计,汉字数量本身就近十万,即使这样,随着新的古籍的发现,仍有增加的可能,除非是汉文字专家,否则几乎没有几个人能认识半数以上,更谈不上某字的发音了,例如“籲、灪、龖”的发音。因此拼音输入法对冷僻字无法继续使用。2、以拆字为主的字型输入法将部分无效。当引入冷僻字后,这些输入法中存在的问题主要是会出现大量重码。以五笔字型为例,其输入法最大的优势就是重码少,可以实现盲打,但当随着收录编码汉字的增多,重码大大增加,使其优势尽失。
二、本发明的背景知识
1、笔顺:相对于发音和拆字,笔顺输入法就简单的多,只要知道笔顺就可以写字,而不必一定认识所检索和输入的字。汉字中有“五笔划”划分法,即将汉字的笔划划分为“横竖撇捺折”五种,其中:
笔划 | 笔划走势 | 笔划例子 |
横 | 从左到右 | 横、提 |
竖 | 从上到下 | 竖、竖提 |
撇 | 自右上到左下 | 撇 |
捺 | 自左上到右下 | 捺、点 |
折 | 出现转折 | 除竖提之外的任何转折 |
在本发明中,为了便于对“横竖撇捺折”进行输入,约定数字1~5与之对应等价。即横用1代替,竖用2代替,撇用3代替,捺用4代替,折用5代替。
当然,笔顺的缺点是:随着码长的增加,可以大大减少重码,但缺点就是码长太长,且不定长。
2、汉字的组成
汉字的特点是一个汉字通常由另一个或多个“结构相对简单”的部件组成,这些部件可能是笔顺、偏旁部首、字根,也可能就是一个完整的单字。为了与拆分前的汉字进行对比,下文称汉字为“母字”,拆后的单字为“子字”。分析几种部件的关系,可以发现,字根是子字中具有共性的那部分,如“俞”可以作为“愈”的子字,但不是字根;字根中那些可以用于检索用的部分是“偏旁部首”(偏旁、部首也有区别,但此处不做区分);偏旁部首又由笔划组成。因此几者的关系是:
很显然,子字中仍然有可能由结构更简单的子字组成,这时,一个汉字的拆法就存在多样性,如“愈”字,即可以拆成“俞心”,也可以拆成“人一月刂心”。而如果按字根拆则只能拆成“人一月刂心”,因为“俞”字不是字根。如果按偏旁部首折,则只有“心”字旁是偏旁、“俞”字单独不能处理。如果拆成笔顺,则为“撇捺横竖折横横竖竖撇折捺捺”(13划)。
由上图可见,采用子字的方式会使汉字拆分的部分变少。
由笔顺可见,对于某些无法拆成子字,或所拆的子字难以输入时,可以使用笔顺作为弥补。
发明内容
本发明针对冷僻汉字检索难的问题,提供一种冷僻汉字的笔顺子字检索法,该方法适合于古文研究、图书馆、古籍文献的录入、内容查找等领域。
本发明是通过以下技术方案实现的:一种冷僻汉字的笔顺子字检索法,包括创建和检索;所述的创建是给含有冷僻汉字的字库增加笔顺字段,按照写字的笔划顺序,“横竖撇捺折”分别用“12345”为码值,将每个汉字的笔顺代码添加到数据库笔顺字段里;所述的汉字检索方法是通过输入笔顺代码数据检索汉字。
为了减少检索汉字输入键值的数量,对于复杂字或者冷僻字称之为母字,对于母字采用两步检索,第一步是将母字按照写字的笔划顺序分成多个子字和不能独立成字笔顺,采用其它输入法检索到每个子字,提取每个子字的笔顺代码数据,将组成该母字各子字的笔顺代码数据和不能独立成字笔顺的笔顺代码数据合成该母字的笔顺代码数据;第二步是通过合成的该母字的笔顺代码数据检索到该母字。在数据库创建的时候,如果对于每个汉字都采用人工数出笔顺数,然后再输入的方法的话,不仅费工、费时,而且容易出错。所述的给含有冷僻汉字的数据库笔顺字段增加笔顺代码,采用如下步骤来实现:
(1)首先给冷僻汉字库少量汉字的笔顺字段手工录入笔顺代码数据;
(2)采用上述两步检索的方法形成该母字笔顺代码数据并检索该字;
(3)检索不到该母字证明是一个没有赋予笔顺代码数据的新字,通过其它检索方法检索到该母字,并将步骤(2)形成的笔顺代码数据赋予该母字的笔顺字段。
本发明的有益效果是:
一、首次采用将子字作为部件参与输入法
背景中已提到,由于汉字的特点,本发明首次提出“子字”的概念,并将子字参与检索,从而大大减少复杂汉字的输入量。
很显然,子字中仍然有可能由结构更简单的子字组成,这时,一个汉字的拆法就存在多样性,如“愈”字,即可以拆成“俞心”,也可以拆成“人一月刂心”。而如果按字根拆则只能拆成“人一月刂心”,因为“俞”字不是字根。如果按偏旁部首折,则只有“心”字旁是偏旁、“俞”字单独不能处理。如果拆成笔顺,则为“撇捺横竖折横横竖竖撇折捺捺”(13划)。
二、通过笔顺弥补子字不能涵盖全字所有部件的缺点
因为冷僻字多为复杂的子字组成,通过子字输入可以快速将冷僻字拆分为一些常见的子字。但有些字却在拆的时候感觉力不从心,如“炦”字,虽然我们很容易看到该字拆成“火”和“友”字,但剩下的那一点却很难处理。
而如果能将笔顺加入,则该问题就容易解决的多,此时“炦”字拆成“火”、“友”和“(捺)”。
三、实现字根和笔顺的任意组合
既然可以采用字根和笔顺,则笔顺的位置就不用限定,允许二者的自由组合。这对于一些被分拆的汉字很重要,例如“因”字,字形很简单,也很容易地认为该字由“口大”组成,但在书写过程(也就是笔顺)中,即看不出该字由“口大”组成,而是由“冂大一”组成,尤其是“冂”很难输入,而采用字根和笔顺组合的方式,可以将“冂”拆成“竖折”,转而变成“15”即可。
四、相对于拆字法,该发明不需要穷举所有的组合
曾经有过拆字法,即将汉字拆成几个字根组成的方式,大部分拆字输入法都是通过这种方式的,但这种拆字法有个缺点,就是针对每个汉字都要进行拆解,而有些汉字本身就具有多种拆解的方式,有些甚至很难穷举。例如“架”字,既能拆成“加木”,也能拆成“力口木”,甚至能拆成“力口一小”,而无论哪种拆法理论上都应该能找到该字,这就使得拆字法很难穷举所有可能。而采用本发明的方式,由于算法会将拆好的字再转成笔顺,则无论上述哪种拆法,最终的笔顺总和还是一样的,因此不存在拆法穷举的问题。
五、该方法即是一个汉字检索方法,也是一个原始数据库的创建办法
该发明的另一个特点就是,对所有的字列出笔顺后,可以利用这些结果做出汉字的检索和输入,但似乎这种列出所的汉字的笔顺本身工作量也不小,但实际上不需要这样。因为算法的基础是将复杂的汉字拆成子字,甚至是笔顺本身,那么输入一个复杂汉字,也同样可以采用这样的方法,由所拆的子字和笔顺本身“算出”该复杂汉字的笔顺。即首先录入一部分最基础的五个笔划、基本的字根、简单的汉字的笔顺。然后在录入复杂汉字的时候,将“检索”的功能转化为“创建”功能,即将组合出来的笔顺写入,而不是查找的数据库字段中,从而快速地创建原始的数据库。
六、支持模糊查询
本发明还有一个浅在的优点,就是汉字支持模糊查询,例如某一个冷僻的汉字,不是在某处看到的,而是想到的,但要检索的用户在大脑中有大体上的形象,却无法准确地写出全部完整的字形,那会他只需要将所清楚部分的子字即笔顺列出来即可。
例如某一个字左边是“衤”,右边是一个“虎”字,中间还有一个什么,但记不清了,那么可以在支持模糊检索的双输入框中,一个输入“45234”(由于“衤”易认不易输入,所以采用笔顺法),另一个输入“虎”经过查找,得到两个汉字“裭”及“褫”,经排查,可知应该是后一个,从而完成模糊搜索。
具体实施方式
一种冷僻汉字的笔顺子字检索法,包括创建和检索;所述的创建是给含有冷僻汉字的字库增加笔顺字段,按照写字的笔划顺序,“横竖撇捺折”分别用“12345”为码值,将每个汉字的笔顺代码数据添加到笔顺字段里;所述的汉字检索方法是通过输入笔顺代码数据检索汉字。如“李”字的笔顺为“1234521”
为了减少检索汉字输入键值的数量,对于复杂字或者冷僻字称之为母字,对于母字采用两步检索,第一步是将母字按照写字的笔划顺序分成多个子字和不能独立成字笔顺,采用其它输入法检索到每个子字,提取每个子字的笔顺代码数据,将组成该母字各子字的笔顺代码数据和不能独立成字笔顺的笔顺代码数据合成该母字的笔顺代码数据;第二步是通过合成的该母字的笔顺代码数据检索到该母字。如“炦”字拆成“火”、“友”和“(捺)”,所以输入“火友4”即可。程序在接到“火友4”以后,对其中的子字部分,在数据库中查找子字(因为子字也是汉字)的笔顺,并将之取代;对于数字部分不予处理。如查到火的笔顺是“4334”,“友”的笔顺是“1354”,到代之后变成“433413544”,然后再在数据库中查询笔顺为“433413544”的汉字,最终可以查到“炦”字。如果符合条件的字有多个时,则多个一同列出。
在数据库创建的时候,如果对于每个汉字都采用人工数出笔顺数,然后再输入的方法的话,不仅费工、费时,而且容易出错。本发明所述的给含有冷僻汉字的字库增加笔顺字段,采用如下步骤来实现:
(1)首先给冷僻汉字库少量汉字的笔顺字段手工录入笔顺代码数据;
(2)采用上述两步检索的方法形成该母字笔顺代码数据并检索该字;
(3)检索不到该母字证明是一个没有赋予笔顺代码数据的新字,通过其它检索方法检索到该母字,并将步骤(2)形成的笔顺代码数据赋予该母字的笔顺字段。
同样如“炦”字,当输入“火友4”后,程序用上述相同的方法最后得到笔顺为“433413544”的汉字,然后将该笔顺填入笔顺字段。
Claims (3)
1.一种冷僻汉字的笔顺子字检索法,包括创建和检索;所述的创建是给含有冷僻汉字的字库增加笔顺字段,按照写字的笔划顺序,“横竖撇捺折”分别用“12345”为码值,将每个汉字的笔顺代码数据添加到笔顺字段里;所述的汉字检索方法是通过输入笔顺代码数据检索汉字。
2.根据权利要求1所述的冷僻汉字的笔顺子字检索法,其特征在于:对于复杂字或者冷僻字称之为母字,对于母字采用两步检索,第一步是将母字按照写字的笔划顺序分成多个子字和不能独立成字笔顺,采用其它输入法检索到每个子字,提取每个子字的笔顺代码数据,将组成该母字各子字的笔顺代码数据和不能独立成字笔顺的笔顺代码数据合成该母字的笔顺代码数据;第二步是通过合成的该母字的笔顺代码数据检索到该母字。
3.根据权利要求1所述的冷僻汉字的笔顺子字检索法,其特征在于:所述的给含有冷僻汉字的数据库笔顺字段增加笔顺代码,采用如下步骤来实现:
(1)首先给冷僻汉字库少量汉字的笔顺字段手工录入笔顺代码数据;
(2)采用上述两步检索的方法形成该母字笔顺代码数据并检索该字;
(3)检索不到该母字证明是一个没有赋予笔顺代码数据的新字,通过其它检索方法检索到该母字,并将步骤(2)形成的笔顺代码数据赋予该母字的笔顺字段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110422325.5A CN103164466B (zh) | 2011-12-16 | 2011-12-16 | 冷僻汉字的笔顺子字检索法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110422325.5A CN103164466B (zh) | 2011-12-16 | 2011-12-16 | 冷僻汉字的笔顺子字检索法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103164466A true CN103164466A (zh) | 2013-06-19 |
CN103164466B CN103164466B (zh) | 2016-08-31 |
Family
ID=48587560
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110422325.5A Expired - Fee Related CN103164466B (zh) | 2011-12-16 | 2011-12-16 | 冷僻汉字的笔顺子字检索法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103164466B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107329584A (zh) * | 2017-06-20 | 2017-11-07 | 努比亚技术有限公司 | 一种文字输入处理方法、移动终端以及计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1420422A (zh) * | 2001-11-20 | 2003-05-28 | 侯朋太 | 码元用笔划集合数表示法及用途 |
CN101021843A (zh) * | 2006-11-10 | 2007-08-22 | 王占森 | 笔画笔顺数码汉字检索、输入法 |
CN101694601A (zh) * | 2009-09-30 | 2010-04-14 | 张仁平 | 零记忆汉字编码输入法 |
CN102262683A (zh) * | 2011-08-18 | 2011-11-30 | 何瑞芳 | 一种汉字信息处理方法及汉字拆分存储方法 |
-
2011
- 2011-12-16 CN CN201110422325.5A patent/CN103164466B/zh not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1420422A (zh) * | 2001-11-20 | 2003-05-28 | 侯朋太 | 码元用笔划集合数表示法及用途 |
CN101021843A (zh) * | 2006-11-10 | 2007-08-22 | 王占森 | 笔画笔顺数码汉字检索、输入法 |
CN101694601A (zh) * | 2009-09-30 | 2010-04-14 | 张仁平 | 零记忆汉字编码输入法 |
CN102262683A (zh) * | 2011-08-18 | 2011-11-30 | 何瑞芳 | 一种汉字信息处理方法及汉字拆分存储方法 |
Non-Patent Citations (1)
Title |
---|
李瑞民,等。: "复杂汉字信息智能检索系统研究", 《计算机工程与设计》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107329584A (zh) * | 2017-06-20 | 2017-11-07 | 努比亚技术有限公司 | 一种文字输入处理方法、移动终端以及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN103164466B (zh) | 2016-08-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shuttleworth | Polysystem theory | |
Alvarez-Melis et al. | Topic modeling in twitter: Aggregating tweets by conversations | |
CN107562824B (zh) | 一种文本相似度检测方法 | |
Knowlton | Maya creation myths: Words and worlds of the Chilam Balam | |
EP3522029A1 (en) | Natural language search results for intent queries | |
CN101382844A (zh) | 一种输入间隔分词的方法 | |
CN103164466B (zh) | 冷僻汉字的笔顺子字检索法 | |
Cole-Turner | New Perspectives on Human Origins: Three Challenges for Christian Theology | |
Asghari et al. | Developing bilingual plagiarism detection corpus using sentence aligned parallel corpus | |
CN101882386A (zh) | 稀有字拆字组字法 | |
US11636144B2 (en) | Cluster analysis method, cluster analysis system, and cluster analysis program | |
Klein et al. | Finding Inexact Quotations Within a Tibetan Buddhist Corpus. | |
Carsenat et al. | Onomastics to measure cultural bias in medical research | |
CN101625598A (zh) | 一种符合文字理据的汉字编码及键盘输入技术 | |
Oakes et al. | Computational Stylometry of Wittgenstein’s “Diktat für Schlick”. | |
He | Late Qing Multilingualism and National Linguistic Practice in the Qing Borderlands | |
Zifonun et al. | Ritual change and social transformation in migrant societies | |
CN103207685A (zh) | T形汉字码输入法 | |
CN103970287B (zh) | 字组字中文输入法及其字根键盘 | |
Kochumon | CULTURE OF INDIA ON LANGUAGES AND LINGUISTICS | |
Ratnapriya et al. | Machine learning approaches to identify genes related to Age-related Macular Degeneration | |
Moore | The Fascist Effect: Japan and Italy, 1915–1952 | |
CN100356303C (zh) | 一种基于简化笔画的计算机汉字输入法及键盘 | |
Wei-lan | Intelligent input software of Tibetan | |
CN1158593C (zh) | 汉字及多国文字的计算机双笔六笔画输入方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160831 Termination date: 20171216 |