CN1504864A - 一种智能的拼音输入方法 - Google Patents

一种智能的拼音输入方法 Download PDF

Info

Publication number
CN1504864A
CN1504864A CNA021535841A CN02153584A CN1504864A CN 1504864 A CN1504864 A CN 1504864A CN A021535841 A CNA021535841 A CN A021535841A CN 02153584 A CN02153584 A CN 02153584A CN 1504864 A CN1504864 A CN 1504864A
Authority
CN
China
Prior art keywords
data
input method
vocabulary
intelligence
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA021535841A
Other languages
English (en)
Inventor
张炎竹
黄志佳
林家成
蔡荣华
孙贵明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MAISHIWEI SCIENCE AND TECHNOLOGY Co Ltd SHENZHEN
Original Assignee
MAISHIWEI SCIENCE AND TECHNOLOGY Co Ltd SHENZHEN
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MAISHIWEI SCIENCE AND TECHNOLOGY Co Ltd SHENZHEN filed Critical MAISHIWEI SCIENCE AND TECHNOLOGY Co Ltd SHENZHEN
Priority to CNA021535841A priority Critical patent/CN1504864A/zh
Publication of CN1504864A publication Critical patent/CN1504864A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明涉及针对专业词汇数据库的汉字的拼音输入方法。其包含存储文字信息的数据库,以及对应的输入、查询数据方式,特征在于将经常使用的专业词汇或者特殊用语作为固定词汇编码,并录入到数据库中;同时采用输入汉字拼音的声母(英文的辅音字母)作为检索途径。该方法能够针对经常使用的专业词汇和特殊词汇通过简单的方式迅速输入、查询,并反馈回来。

Description

一种智能的拼音输入方法
技术领域
本发明涉及文字的输入方法,尤其是针对专业词汇数据库的汉字的拼音输入方法。
背景技术
目前,现有的一些输入法有很多,从拼音这个角度来看有全拼,双拼和智能ABC拼音输入法等等。这些输入法实际上也是建立在字码匹配技术基础上的,而且它们使用的是都是静态的数据库(即之前已经构造了一个大型的词库供查询)。其应用主要是针对文案信息的录入,如打印文件、稿件等,所以针对日常使用的情况,平时经常使用的词汇可以预先存储在数据库中,其它的内容则需要全文录入才可能找到需要的文字,其优点是因为输入法的词库中涵盖了多个领域的一些专有名词,并且在输入的方式上多种多样,所以在通常应用的输入工作中带来了不少方便。并且在输入的过程中,它还运用某些技巧使输入进一步的简化和快捷。
比如智能ABC输入法中采用了分割接近式的输入方式,可以将用户输入的一串字符串分开来识别以达到匹配多个词组的目的。并且还有自动记忆新词组的功能,在用户对一个新词组输入三次后就会将其记录到系统的数据库中,方便了用户的再次输入。还有就是词频的调整,也就是原来的优先级在经过用户一段时间的输入之后根据用户对某些词的使用频率进行调整,加快下次用户的输入和选择速度。
其缺点是:考虑了输入法应用的通用性,所以使用面很广,存储的词很多,需要比较大的存储空间和较多检索运算,如果应用在嵌入式的平台(如WINCE)中可能就会显得过于臃肿。因为这些大量的词汇可能对于我们的应用来说是没有用的,尤其是涉及到比较专业的应用情况(此时涉及的词汇专业化,而且量小,使用频率高),所以会造成存储空间的浪费,当然也会影响检索的速度了。
在比较专业的输入查询系统中,对于输入查询的基本要求:一是输入简单;二是查询速度快。这种情况下,需要查询的很多专有名词对于通用词汇来说可能根本就不能算是一个词组,所以用通用的系统输入法会造成诸多不方便,很多的名称输入都只能通过单字的方式来输入,这样的效率是很慢的。
发明内容
本发明的目的在于提供一种能够用于专业词汇数据库的汉字的拼音输入方法,该方法能够针对经常使用的专业词汇和特殊词汇通过简单的方式迅速输入、查询,并反馈回来。
本发明的另一个目的是提供一种能够用于专业词汇数据库的汉字的拼音输入方法,该方法能够充分利用专业资料库的信息,使用时节省资料占用空间,冗余数据少。
为此,本发明是这样实现的:
一种智能的拼音输入方法,其包含存储文字信息的数据库,以及对应的输入、查询数据方式,其特征在于将经常使用的专业词汇或者特殊用语作为固定词汇编码,并录入到数据库中;同时采用输入汉字拼音的声母(英文的辅音字母)作为检索途径。
由于所存储信息的数据库对于常用的或者特殊的词汇是专门记录的,所以可以按照汉字的拼音声母(英文的辅音字母)的方式输入内容,减少了大量的韵母的输入,输入快捷,可以大大地提升输入速度,减少输入的时间,方便查询。
进行输入时,只输入词汇的单个第一位的辅音字母,词汇或者词组构成这些单个辅音字母的组合,符合条件的词汇字码已经存储在数据库中,可以很快地被读取出来。
专业词汇或者特殊用语作为固定词汇编码是利用现有的文字与字码的对应关系,将专业词汇或者特殊用语作为固定词汇根据上述的对应关系编制成新的字码,并预先存储到数据库中。
以上所描绘的就是片语码。片语码即是词组码,是指通过拼音字码串与专用词组之间的匹配技术,通过片语码,我们把一些拼音的字码串查询到其在数据库中的中文词组,并反馈回来。
具体的实现方式,举例说明如下:
假设用户输入sg,那传统的输入法可能的输出就是:
     1、时光
     2、水果
     :……\
但是本发明可能就是用户希望的本地建筑物的名称
     1、赛格广场(sggc)
     2、赛格天桥(sgtq)
     :……
对此,我们说明一下本发明的原理。参见图1。
如图所示,单字码的匹配技术使我们能够继承传统拼音输入法的单字输入方法,而且也继承了其它一些以传统全拼为基础的输入法的特性,比如象智能ABC输入法等。而我们独特的片语码匹配技术却是能够配合我们自身的各种系统进行运用,对我们需要输入的内容起到智能的目的。这种技术主要是加入了针对专门资料的考虑,将传统的输入方法和特殊的需要考虑在一起,起到了独特的智能效果。并且输入法的模块中有部分的接口是允许用户进行扩充的,也就是提供了二次开发的接口,方便用户加强功能和根据需要做适当的修改。
需要注意的,输入法中输入的词组都是特定的,而不可能是任意的词组,因为这些词组最终都是从我们的数据库中来的。
数据库的资料组织,主要是针对资料存储格式方面的技术,不但包括静态的资料(存储在永久介质中的),也包括动态的资料(内存中临时使用的)。为了提高速度,提高效率,我们组织资料必须符合高效和易用的原则。
具体会使用建立良好的数据库索引、限定资料检索范围、建立中间缓冲区来优化资料的存储。
索引的设置,主要是针对拼音字母的顺序对整体数据进行位置的索引。利用索引之后,可以加快查找处在位置编排比较靠后的资料,而不需要遍历大量的资料记录才能找到需要的资料。按照索引排列则可以通过简单的移动记录的指针就能够查询到临近的记录,便于翻页查询等操作。
缓冲区其实是一块内存区域,但这块内存区域并不是一直被占用,当检索完毕时便可释放出来,当被检索的资料量很大时,并不需要在第一次时就检索出所有符合条件的记录,而是先取出其中的一部份将其放入缓冲区中,如果此时缓冲区中已存有使用者所要的资料,则将该资料递交给使用者,然后再将后续检索得到的记录放入缓冲区中,这样就能加快每次取出记录的速度,所有的检索操作都会针对这个缓冲区中已置入的记录进行查核,如果要检索的资料尚不存在缓冲区中时,就必须重新对数据库做一次完整的检索,并将检索得到的资料依序置入缓冲区。另外由于检索的信息内容为文本型资料,实际上的检索结果所占用的字节数并不是很多,所以缓冲区对内存的占用并不是很多。当缓冲区占用内存到一定程度时,为了防止它过度的膨胀,必须要处理缓冲区的刷新,回收没有使用内存或可能不会使用的内存。
本发明的特点总体是一种分层结合的设计,资料和算法分离,他们之间通过特定的接口进行沟通。
所述的接口,就是管理数据模块的接口,或者是借助于辅助表格之后达到共同的外部访问接口。接口的设计要根据实际情况的需要,考虑数据的总体结构和系统的各种需要后定出,并且要做到尽量简洁高效,避免冗余。
本发明一般可应用与嵌入式平台操作系统,也可以应用于PC机等的使用情况,这取决于使用时的条件和环境。
本发明所需要的资料库是由专门的需要而构成的信息组成的,并且数据存储的方式与通常的输入法中应用的数据并不相同,通常输入法的对照数据是建立在文件对照表的基础上的,而本发明的对照数据是建立在数据库和词组码匹配技术的基础之上的。
比如在导航系统中,专门的资料就是一些路名、街道名,如“深南大道”、“滨海路”等,又如在图书查询系统中,专门资料就是一些书籍的名称,如“钢铁是怎样炼成的”、“鲁迅文集”等,再如一些超市的导购系统当中,专门资料就是一些商品的名称,虽然商品非常多,但是在里面我们不会发现有“深南大道”或是“滨海路”这样的数据,因此实际使用的过程中能够较快地找到我们所需的数据,比如“多功能健身器”、“MP3播放器”等。而通用的输入法就不能做到这样了,它里面的词组也是很丰富,但多是一些日常的使用语,所以在专用系统的使用上不如我们的输入法快捷方便。
因此,本发明能够:
a、节约资料空间:
词组拼音码匹配技术中使用的资料都是在原有的数据库,与数据库中的词组资料是按某种方式结合在一起的,在本发明(如导航系统)中,我们需要查询的一些资料如道路,建筑物等都是特定于某一个地区某一种类型的,一般每个城市都不一样,都不能重复的使用,所以没有象通用的输入法那样预先将需要用到的词组都抽取出来,和拼音对照码一起按特定格式结合起来存储,而是利用了原有的资料空间,这样即利用了原有的资料,又可以利用数据库的引擎来帮助输入法的匹配工作。
b、冗余数据少:
通用输入法当中的冗余数据是非常非常多的,一般的用户用到的文字只是其中的一小部分,但为了通用,它却必须包含众多的大多数用户都用不上的资料,包括单字和词组。而对与我们的这个输入法来说,也是存在一定的冗余性的,单字里面肯定会有一些是我们几乎不会用到的,而词组方面,虽然全部都是从资料中来,但是实际使用过程并不可能都被查询,从这个角度来说那些没被查到的或是几乎很少被查到的资料都是冗余的,但是很明显,因为所有词组都从实际资料中来,所以冗余数据并不会太多。
c、继承性好,符合用户习惯:
本发明继承了一些传统的输入法的特性,所以用户在输入的过程中可以沿用一些旧的输入方式和输入习惯。比如习惯了ABC输入法的用户,他可能在输入词组的时候第一个字只输入第一个字母,而第二个字则输入全部的字母,这样我们的输入法也是能够将其正确的辨认出来的。还有就是一些声母连续输入的问题,因为考虑了一般情况下都不会出现声母连续的拼音,所以在匹配的过程中一般都能够正确的识别出来并转入下一个汉字的匹配。
附图说明
图1为本发明的片语码原理说明图,
图2为本发明的构造片语码匹配资料的过程示意图。
具体实施方式
如图2所示,首先读取数据库中指定位置的词组数据,取得词组数据后,取其前面的最多四个字或者少于四字(少于四字的词组)进行下面的动作,将每个字应用单字匹配技术获得其拼音字码串,并取出头一个字母保存起来。这样进行循环后,就取得了这个词组数据对应的字码串(1到4个字母),图中例子就是abcd,然后将次字码串保存到此词组数据在数据库中对应的特定位置。进行这样的一个大的循环过程后,便可以建立了数据库中所有的词组对应的匹配资料。
由于输入法的特性,很明显,只要是有针对特定资料查询或检索的系统都可以使用我们的智能输入法,下面可以看几个应用例子。
1、汽车自主导航系统
在汽车自主导航系统当中,如果我们需要实时找到当地的一些酒店的所在位置,直接从电子地图上移动查找是比较费时的事情,但是如果我们进入搜索模块,启动本智能输入法,只要在输入栏输入“酒店”全部拼音中的两个声母“jd”,那车辆位置所在地附近酒店的名称就都会列举出来供使用者参考和选择,这时使用者就可以很快知道所要去的酒店位置,再透过汽车自主导航系统的路径推荐与路径导引的功能,便可让使用者藉由导引而到达目的地,而智能输入法则使得这样的操作变得更为简便。
2、图书管理系统
在图书管理系统当中,一般是让使用者输入书名或书名中的几个关键词,然后由图书管理系统进行所有藏书书名的全文检索,而如果将本智能输入法应用到图书管理系统中,则若使用者要查询的一本书只记得后面的几个字如“历险记”,便可以在输入法中输入“1×j”,则“XXX历险记、XX历险记。。。”等等都会一并列出来,让使用者对图书的查找更为简便。
3、购物商场商品位置查询
在购物商场中,如果要找到消费者所想要的商品,必须一边在购物商场中行走,一边查看吊挂于上方的分类指示牌,以便找到所要商品的陈列区域,到达陈列区域后,还须在货架上一一找寻所要的商品,但若在商场中有货品位置查询系统,并将本智能输入法应用在查询系统软件上,则若消费者需要的商品叫“多功能豪华型天天健身器”,使用者只要输入“jsq”(健身器三个字拼音中的三个声母),则所有牌子健身器的名字就能列出来供使选择,再搭配上购物商场的平面图,那么就能很快速的找到所要购买的商品的确切区域与货架上摆放的位置,免除了走遍整个商场才能买齐所要物品甚至找不到所要购买物品的困扰。
上面所述的方式,仅是对本发明所列举的具体例子,并不是对本发明的具体限定,凡是与本发明采取的方式类似,并达到相同目的和效果的,都应该在本发明的保护范围内。

Claims (9)

1一种智能的拼音输入方法,其包含存储文字信息的数据库,以及对应的输入、查询数据方式,其特征在于将经常使用的专业词汇或者特殊用语作为固定词汇编码,并录入到数据库中;同时采用输入汉字拼音的声母(英文的辅音字母)作为检索途径。
2如权利要求1所述的智能的拼音输入方法,其特征在于进行输入时,只输入词汇的单个第一位的辅音字母,词汇或者词组构成这些单个辅音字母的组合,符合条件的词汇字码已经存储在数据库中,可以很快地被读取出来。
3如权利要求1所述的智能的拼音输入方法,其特征在于专业词汇或者特殊用语作为固定词汇编码是利用现有的文字与字码的对应关系,将专业词汇或者特殊用语作为固定词汇根据上述的对应关系编制成新的字码,并预先存储到数据库中。
4如权利要求1所述的智能的拼音输入方法,其特征在于可以使用建立数据库索引、限定资料检索范围、建立中间缓冲区来优化资料的存储。
5如权利要求4所述的智能的拼音输入方法,其特征在于索引的设置,主要是针对拼音字母的顺序对整体数据进行位置的索引。
6如权利要求4所述的智能的拼音输入方法,其特征在于当被检索的资料量很大时,并不需要在第一次时就检索出所有符合条件的记录,而是先取出其中的一部份将其放入缓冲区中,如果此时缓冲区中已存有使用者所要的资料,则将该资料递交给使用者,然后再将后续检索得到的记录放入缓冲区中,这样就能加快每次取出记录的速度,所有的检索操作都会针对这个缓冲区中已置入的记录进行查核。
7如权利要求1所述的智能的拼音输入方法,其特征在于存储资料的数据库和检索的算法分离,他们之间通过特定的接口进行沟通。
8如权利要求7所述的智能的拼音输入方法,其特征在于所述的接口,就是管理数据模块的接口,或者是借助于辅助表格之后达到共同的外部访问接口。
9如权利要求8所述的智能的拼音输入方法,其特征在于接口是允许用户进行扩充的。
CNA021535841A 2002-11-28 2002-11-28 一种智能的拼音输入方法 Pending CN1504864A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA021535841A CN1504864A (zh) 2002-11-28 2002-11-28 一种智能的拼音输入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA021535841A CN1504864A (zh) 2002-11-28 2002-11-28 一种智能的拼音输入方法

Publications (1)

Publication Number Publication Date
CN1504864A true CN1504864A (zh) 2004-06-16

Family

ID=34235207

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA021535841A Pending CN1504864A (zh) 2002-11-28 2002-11-28 一种智能的拼音输入方法

Country Status (1)

Country Link
CN (1) CN1504864A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105607757A (zh) * 2015-12-28 2016-05-25 北京搜狗科技发展有限公司 一种输入方法和装置、一种用于输入的装置
CN106959970A (zh) * 2016-01-12 2017-07-18 北京搜狗科技发展有限公司 词库、词库的处理方法、装置和用于处理词库的装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105607757A (zh) * 2015-12-28 2016-05-25 北京搜狗科技发展有限公司 一种输入方法和装置、一种用于输入的装置
CN106959970A (zh) * 2016-01-12 2017-07-18 北京搜狗科技发展有限公司 词库、词库的处理方法、装置和用于处理词库的装置

Similar Documents

Publication Publication Date Title
CN101388012B (zh) 带有易混淆音识别的拼音检查系统和方法
US8117026B2 (en) String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method
US8473501B2 (en) Methods, computer systems, software and storage media for handling many data elements for search and annotation
US20030074183A1 (en) Method and system for encoding and accessing linguistic frequency data
CN101019121A (zh) 对存储在数据库中的文档编制索引和进行检索的方法和系统
WO2002027563A1 (en) Method and system for query reformation
CN1871605A (zh) 问答式文献检索系统和方法
RU2010107150A (ru) Идентификация семантических отношений в косвенной речи
WO2001042981A3 (en) Natural english language search and retrieval system and method
CN101894160B (zh) 一种智能检索方法
CN102831224A (zh) 一种数据索引库的建立方法、搜索建议生成方法和装置
EP2783308B1 (en) Full text search based on interwoven string tokens
CN101539433A (zh) 导航系统中拼音首字母加声调检索的方法及装置
CN102385597B (zh) 一种poi的容错搜索方法
CN101122905A (zh) 一种支持四字节的典籍数据库与历史地理信息系统关联的方法
CN1134568A (zh) 中文简繁体字文件转换装置
CN101739142A (zh) 五笔输入系统及方法
CN1504864A (zh) 一种智能的拼音输入方法
RU2000129197A (ru) Способ упорядочения данных, представленных в текстовых информационных блоках данных
CN101539428A (zh) 导航系统中拼音加声调检索的方法及装置
Malki Comprehensive study and comparison of information retrieval indexing techniques
US9842104B2 (en) Textual geographic location processing
JP2588261B2 (ja) Ocrによる住所データベース検索装置
CN1121655C (zh) 实现不规则片语快速查找的方法
Maurel et al. Enrichment of Renaissance texts with proper names

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication