CN1372186A - 具智能联想中文输入方法 - Google Patents

具智能联想中文输入方法 Download PDF

Info

Publication number
CN1372186A
CN1372186A CN 01106763 CN01106763A CN1372186A CN 1372186 A CN1372186 A CN 1372186A CN 01106763 CN01106763 CN 01106763 CN 01106763 A CN01106763 A CN 01106763A CN 1372186 A CN1372186 A CN 1372186A
Authority
CN
China
Prior art keywords
phrase
chinese
database
processor
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 01106763
Other languages
English (en)
Inventor
陈淮琰
刘长春
李慨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Besta Xian Co Ltd
Original Assignee
Inventec Besta Xian Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Besta Xian Co Ltd filed Critical Inventec Besta Xian Co Ltd
Priority to CN 01106763 priority Critical patent/CN1372186A/zh
Publication of CN1372186A publication Critical patent/CN1372186A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明是一种具智能联想中文输入方法,该方法是预先将所有的中文词组储存在一数据库中,再将这些词组每一个在词首的中文字在数据库的起始位置,储存在该数据库的地址表中,当处理器接收到通过输入装置所输入的中文字时,该处理器可通过地址表找到该中文字在数据库的起始位置,而至该数据库中,搜寻以该字为词首所有组成的词组,再通过显示装置将所有搜寻到的词组显示出来,供使用者选择,如此不仅减少输入的时间,且减少处理器辨识文字的过程,具有运用简便,节省时间的优点。

Description

具智能联想中文输入方法
本发明是关于一种在个人数字助理及掌上型计算机等平台上,实现简便、快速输入中文词组的中文输入方法,该方法是在使用者通过任一种输入法输入一个单字时,处理器可根据该单字在数据库的位置,将在数据库中以该单字为词首的所有词组,通过显示装置显示出来,供使用者选择,而达到快速输入的目的,如此,可减少输入次数及辨识时间50%以上,进而大大提高输入速度。
在现今消费者对电子装置的需求,朝小型化、多功能化及简便易用的前提下,使各种掌上型电子装置凭借其轻便、超薄、精巧等特色,可在今日众多科技电子产品中脱颖而出,且在众多的掌上型电子装置中,又以掌上型计算机(Hand-held PersonalComputer,以下简称HPC)最受瞩目。
为了方便掌上型计算机与使用者的沟通,在掌上型计算机中搭配各种中文输入法(中文手写输入法、注音输入法、自然输入法、仓颉输入法等输入法),已成为掌上型计算机不可或缺的标准配置,而上述几种中文输入法中,又以中文手写输入法及注音输入法两种输入法的使用最为普遍,因此现在就该两种中文输入法的输入方式说明如下。
首先,就手写输入法而言:
请参阅图1及图2所示可知,其主要是令处理器接收到通过输入装置10所输入的中文字型后,送至辨识系统核心11中,经采样得到一中文字型资料(200)后,再通过辨识系统核心11中的预处理模块111,将该中文字型资料去除噪声等成为标准化的二进制数值(201),再对该二进制数值进行滤波处理(202),再利用辨识系统核心11中的模式表达模块112,对该二进制数值进行特征抽取或基元分割识别的动作(203)后,通过辨识系统核心11中的判别模块113,将其与先前存储在数据库中已知的标准中文字偏旁表达形式,进行匹配判别(204),再进一步,将其与存储在辨识系统核心11中的字典114(特征模板或句法规则集合)中已知的标准中文字表达形式,进行判别(分类或句法分析)(205)后,就可识别出该输入的字形是那一个中文字(206)。
另就注音输入法而言:其是以汉语拼音为基础,将注音字母对应于相应键盘英文字母,通过键盘英文字母的点击达到拼音输入的目的,进一步查找中文汉字拼音对照表完成汉字的输入工作。
请参照图3及图4所示,进一步而言,该注音输入法是以汉语拼音为基础,按注音与英文的对照表,由键盘读键(300)上将键盘英文字母转换为拼音字母(301),令使用者可通过点击键盘的方式,将所需的注音输入计算机中,进而找出与该输入注音所对应的中文字序列(302),并将该中文字序列显示出来(303)供使用者选择。
但无论是利用中文手写输入法,或者是注音等输入法作为输入中文字的方法,在使用上皆具有相当多缺点。
首先,就注音输入法而言,即有下列的缺点:
1.每输入一个中文字时,均需将组成该中文字的每个注音,通过使用者键击与其相对应的按键,因此,每个中文字的输入,平均按键次数要在三次以上。
2.第二,每个词组中所有的单字,皆需通过键盘逐一输入计算机中,才能使该词组完整显示出来,所以,输入速度非常缓慢。
3.不但词组提供不足,且使用者亦不能将自己常用的词组加入其中。
另中文手写输入法则有下列的缺点:
(1).首先,因每个要输入的字皆要书写,且每个字的书写及辨识过程皆需要一定的时间,进而使其输入的速度受到限制。
(2).另外,手写辨识系统安装于于掌上型计算机时,均会占用掌上型计算机中的内存相当空间,例如:一般含有15000字左右的中文手写辨识系统,大约需占用内存1M空间,如此,不但会增加成本,且随着字符集的膨胀,辨识系统的辨识速度、辨识率亦会渐趋缓慢。
因此,如果能在不增加较大资料空间,及不更动现有的注音、手写辨识等输入法的情形下,提出一种只需输入词组内容的第一个中文字,即可使整个词组显示出来的方法,不但可减少按键及书写的次数,且可以提高输入中文字的速度,进而解决上述输入法大部份的缺点。然而该新方法的发展前提,是该新方法的处理步骤必须非常单纯,才不至于增加系统负担,同时该新方法处理步骤必须充分符合一般数字数据处理的模式,如此才更容易应用于掌上型计算机(HPC)的领域上。
有鉴于上述输入方法的缺点,本发明特提供一种具有智能联想输入中文方法,其主要目的,在于提供一种在使用者利用任意一输入法输入第一字时,处理器即自动至数据库中,搜索以该字为首所组成的词组,并输出给使用者选择,从而提升使用者输入速度。
根据上述的目的,本发明首先提供一数据库,该数据库存中储存有以任意一中文字为首的所有中文词组,并将这些词组在数据库中的起始位置储存在一地址表中,令处理器在接收到该输入的中文字时,先根据该中文字的内码,再通过地址表至数据库中,找出以该字为首的所有词组,并使这些词组显示出来,供使用者选择。
为使本发明的上述目的、特征和优点能更明显易懂,以下将参阅所附的图示,对本发明的设计与操作原理,作一详细说明,以对本发明的特征作更进一步的了解。
图1为手写识别原理的方块示意图;
图2为图1所示的手写识别处理流程的示意图;
图3为键盘的声母及韵母键配置图;
图4为注音输入法的流程示意图;
图5为本发明数据结构的示意图;
图6为本发明手写辨识联想输入法流程图。
图7A为本发明输入方法实现过程的实施例图一。
图7B为本发明输入方法实现过程的实施例图二。
图7C为本发明输入方法实现过程的实施例图三。
图8为本发明硬件装置逻辑结构示意图。
主要组件的图号说明:
处理器         10    显示装置    40
可擦写内存     20    输入装置    50
暂存装置       30
本发明是一种具智能联想中文输入方法,其是一种具智能联想且适用于个人数字助理(Personal Design Assistant,简称PDA)、掌上型计算机(Hand-held Personal Computer,简称HPC)等平台上的中文输入法。
本发明首先包含一预先将以任意一中文字为首的所有中文词组储存在计算机中的数据库,请参照图5所示,该数据库主要是由文件头601,地址表602及实际资料603等三部份组成;其中文件头601主要是提供说明性文字及版本信息,而地址表602主要提供以任意一中文字为首的词组,在数据库中的起始位置,另外,实际资料603是存储所有中文字组成的词组,且这些词组的各个词组的组成如下:第一个字节指词组的字数;第二个字节相同字数词组的个数;其后跟着则是实际联想词组;如果为00表示本字联想词组结束。
现在将本发明的方法,应用于任何一计算机系统时的流程,配合图8说明如下:
首先,在计算机中设置一处理器10,该处理器10并与可擦写内存20(ROM)、暂存装置30(如RAM等)、显示装置40(如屏幕)及输入装置50(如手写板)等相连接在一起,当作动时,可通过处理器10驱动可擦写内存20、存取装置30、显示装置40及输入装置50动作。
再令上述储存有所有中文词组的数据库,存放在该计算机的暂存装置30中,令处理器10在接收到通过输入装置50输入的中文字时,该处理器10可根据该输入中文字的内码(701),计算出该中文字的内码的序列号(即在中文字库中的排列位置)(702),再根据该序列号在地址表的位置,通过该地址表至数据库中去读出该字联想词组在数据库中的起始位置(703),并判断该位置是否存在(704),如果该位置为空,表示该中文字无联想词组,则退出;反之,如果该位置存在,则根据该起始位置去读出与其关的联想词组。
承上所述,当处理器10根据该起始位置,进行读取的动作时,该处理器10会先去读取该词组的长度(705),并判断该词组长度是否为0(706),如是,则结束;如否,则进一步读出该词组的字数,再去搜寻与该词组字数相同字数的联想词组(707,并根据这些所组成联想词组的总数,以循环的方式,将该组的联想词组逐一读出(708),直至所有的词组个数及联想词组的总数,皆至为“0”为止(709),如此,即可将所有以该被输入的中文字为首的词组读出,且当处理器10将所有词组读出时,可通过显示装置40将这些词组显示出来(710),以供使用者选择。
为了能更容易理解本发明上述的原理,现在以“一”为例并配合图示及表一说明如下:
请参照图7A、7B、7C所示:首先在手写板上输入一中文字“一”,经计算机的辨识系统核心辨识后,根据该中文字“一”的内码(A440)计算出“一”在字库中的序列号为0,再根据序列号通过地址表,至数据库中找出,该中文字“一”在数据库中的起始位置是为36C4后,再根据该起始位置找到以该字为首的联想词组在数据库中的位置后,请参照表一所示,先读出第一组的词组字的个数(在本实施例为“1”),再读出该组词组的总数(在本实施例为1B个)后,根据该词组的总数,将该组所有的联想词组读出后,再依照相同的方式,依序读出字长为“2”及“3”的各联想词组,直至字长为0时,即表示所有与该字相关的词组已读完。
如下列表一所示:
    Besta Lx databasever 1.0     C436     5237  ………
1 1B 个般些定直起切样点半旦边律贯面手生再阵举一度行致时道向口心同连齐味共旁早瞬概色
2 9 会儿连点儿窝蜂溜烟部分刀切口气系列
3 8 般说来如既往丝不苟视同仁应俱全目了然模一样朝一夕    00
以上所叙述仅为本发明的较佳实施例,凡依据本发明权利要求书所做的等效变化或修正,皆应属于本发明专利的保护范围。

Claims (5)

1.一种具智能联想中文输入方法,其是一种预先将所有的中文词组储存在一数据库中,再将这些词组每一个在词首的中文字在数据库的起始位置,储存在该数据库的地址表中,当处理器接收到通过输入装置所输入的中文字时,该处理器会根据该输入中文字的内码,计算出该中文字的内码的序列号,再根据该序列号在地址表的位置,通过该地址表,直接至数据库中以该字为首的词组的起始位置上,并判断该位置是否为空,如否,则处理器会根据该起始位置,读出与其关的联想词组。
2.根据权利要求第1项所述的具智能联想中文输入方法,当处理器判断以输入的中字为首的词组起始位置上时,如处理器判断该位置为空时,表示该中文字无联想词组,则处理器会退出该数据库。
3.根据权利要求第1项所述的具智能联想中文输入方法,当处理器根据该起始位置去数据库中,读出与输入的中文字相关的词组时,处理器会去读取该词组的长度,并判断该词组长度是否为0,如是,则结束退出;
如否,则再读出该组词组所有联想词组的总数后,根据该数循环读出该组中所有的联想词组,直至该组联想词组的字数为0为止。
4.根据权利要求第1项所述的具智能联想中文输入方法,其数据库是由文件头,地址表及实际资料等三部份组成,其中文件头主要提供说明性文字及版本信息,而地址表主要提供以任意一中文字为首的词组,在数据库中的起始位置,另外,实际资料则是存储所有中文字组成的词组。
5.根据权利要求第4项所述的具智能联想中文输入方法,其实际资料的每个词组包含:
一第一个字节,其是指词组的字数;
一第二个字节,其是指相同字数词组的总数;
以及实际的联想词组。
CN 01106763 2001-02-23 2001-02-23 具智能联想中文输入方法 Pending CN1372186A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 01106763 CN1372186A (zh) 2001-02-23 2001-02-23 具智能联想中文输入方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 01106763 CN1372186A (zh) 2001-02-23 2001-02-23 具智能联想中文输入方法

Publications (1)

Publication Number Publication Date
CN1372186A true CN1372186A (zh) 2002-10-02

Family

ID=4655737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 01106763 Pending CN1372186A (zh) 2001-02-23 2001-02-23 具智能联想中文输入方法

Country Status (1)

Country Link
CN (1) CN1372186A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100416593C (zh) * 2004-05-04 2008-09-03 诺基亚有限公司 用于手写识别的装置和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100416593C (zh) * 2004-05-04 2008-09-03 诺基亚有限公司 用于手写识别的装置和方法

Similar Documents

Publication Publication Date Title
Hussain et al. A comprehensive survey of handwritten document benchmarks: structure, usage and evaluation
JP2726568B2 (ja) 文字認識方法及び装置
CN1008016B (zh) 输入处理系统
CN110609998A (zh) 一种电子文档信息的数据提取方法、电子设备及存储介质
Chen et al. Template detection for large scale search engines
CN101075251A (zh) 一种基于数据挖掘的文本搜索方法
CN101751430A (zh) 电子词典模糊检索方法
CN102789464A (zh) 基于语意识别的自然语言处理方法、装置和系统
CN109885641B (zh) 一种数据库中文全文检索的方法及系统
CN114090736A (zh) 一种基于文本相似度的企业行业识别系统及识别方法
CN1464430A (zh) 区分亚洲语言写入系统中组织名称的系统
JPH0782504B2 (ja) 情報検索処理方式および検索ファイル作成装置
Nobata et al. Comparison between tagged corpora for the named entity task
Hazem et al. Hierarchical text segmentation for medieval manuscripts
Ma et al. A new database for online handwritten Mongolian word recognition
Song et al. POSBIOTM-NER: a machine learning approach for bio-named entity recognition
CN1372186A (zh) 具智能联想中文输入方法
Aref et al. Ink as a first-class datatype in multimedia databases
Bataineh A Printed PAW Image Database of Arabic Language for Document Analysis and Recognition.
CN102207947B (zh) 一种直接引语素材库的生成方法
CN1105985C (zh) 手写读音中文输入装置和方法
CN1218212A (zh) 以手写文字符号辨认执行操作捷径的方法和装置
CN1269542A (zh) 联想汉字输入系统
CN102103610A (zh) 一种检索信息、信息处理的方法及装置
Kefali et al. A Semi-Automatic Approach of old Arabic Documents Indexing.

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication