CN1259707A - 拼字检查的衍生词处理方法 - Google Patents

拼字检查的衍生词处理方法 Download PDF

Info

Publication number
CN1259707A
CN1259707A CN 98123795 CN98123795A CN1259707A CN 1259707 A CN1259707 A CN 1259707A CN 98123795 CN98123795 CN 98123795 CN 98123795 A CN98123795 A CN 98123795A CN 1259707 A CN1259707 A CN 1259707A
Authority
CN
China
Prior art keywords
word
deriving
speech
rule
sequence number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 98123795
Other languages
English (en)
Other versions
CN1122932C (zh
Inventor
陈淮琰
王逸杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yingyeda Co Ltd (Shanghai)
Original Assignee
ELECTRONIC TECHNOLOGY CO Ltd (XIAN) OF YINGYEDA GROUP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ELECTRONIC TECHNOLOGY CO Ltd (XIAN) OF YINGYEDA GROUP filed Critical ELECTRONIC TECHNOLOGY CO Ltd (XIAN) OF YINGYEDA GROUP
Priority to CN 98123795 priority Critical patent/CN1122932C/zh
Publication of CN1259707A publication Critical patent/CN1259707A/zh
Application granted granted Critical
Publication of CN1122932C publication Critical patent/CN1122932C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种拼字检查的衍生词处理方法,是将所输入的单词经过单词变形处理,可以使用较小的存储器空间,而能对大量的单词进行正确迅速的查询,用以识别单词的拼写是否正确。首先,使用者输入一查询单词后,根据一预设的缀词处理规则,处理输入单词,以得到一可能的根词。接着,于一预设的字典数据库中,查询与可能根词相对应的至少一个编码,其中此预设的字典数据库为一种根词与编码对应关系的数据库。最后,对于编码中的每一个编码,根据一预设的衍生规则,处理可能根词以得到相对应的至少一个衍生词。

Description

拼字检查的衍生词处理方法
本发明涉及一种拼字检查的衍生词处理方法。
英文拼字检查为一般电脑内处理英文文字资料的应用软件中不可缺点少的一项重要功能,可将输入至电脑中的英文单字经检查而判定其英文单字的拼法是否有误,这些处理英文文字资料的应用软件除字处理软件(Word Processor)外,还包括数据库及试算表等,藉以使撰写的英文文稿或数据库中的英文文字资料中的单字拼法不致有误。
一般的拼写检查软件是将每个可能的单词收录在单词数据库内。例如对于单词book来说,其相关的单词至少就有下列衍生词:
books;
booked;
booking;
bookings;
booker;
bookers。
传统拼写检查软件在判断输入单词的拼写是否正确时,仅能就收录在数据库内的单词及其衍生词作查对。如果将所有衍生词均收录,将会影响查询辨识的速度。再者,由于大部分的查询装置(例如一般的电子辞典)受到存储空间的限制,无法将每一单词的所有衍生词均收录在数据库中,因此常常导致拼写检查不能正确辨识。例如,当输入下列单词时,传统拼写检查软件一般均无法识别,交以“查无资料”作为查询辨识的结果。
tomatoes,longer,fastest,airmen,potatoes,taller,shortest,airwomen,chiefs,fatter,biggest,barmen,thinner,wettest,barwomen。
因此,亟需提出一种新的查询辨识方法,以达到查询速度快,占有存储器小,且能够辨识大量英文单词的目的。
鉴于上述发明背景中,传统的拼写检查软件所产生的诸多缺点,本发明的主要目的在于提供一种新的拼字检查方法,用以处理衍生词。此方法可以将所输入的单词经过单词变形处理,使用较小的存储空间,而能对大量的单词进行正确迅速的查询,用以识别单词的拼写是否正确。
根据本发明其中一实施例,首先依照一预设的衍生规则,对于数据库中的每一个单词的衍生词加以编码,因而产生编码组,其中此衍生词至少包含根词及一缀词。接着,对于每一编码组使其对应一衍生序号,再根据单词、编码组及衍生序号产生一根词-序号的字典数据库,用以对应单词及衍生序号。在使用者输入一查询单词后,根据一预设的缀词处理规则,处理此输入单词,以得到一可能根词。在根据-序号的字典数据库中,查询可能根词的衍生序号,再根据衍生序号以得到编码组。对于编码组中的每一个编码,根据预设的衍生规则,处理可能根词以得到相对应的衍生词,因而得到数个衍生词。最后,如果输入单词能与数个衍生词其中之一匹配,则为识别成功。
图1显示了拼字检查系统的方块图。
图2显示了图1的拼字检查系统的流程。
图3显示了本实施例的流程图。
图4显示了由衍生词以得到根词的详细流程。
图5显示根据衍生编码以产生衍生词表的详细流程。
图1显示一拼字检测系统10的方块图,其至少包含通配符查询(Wildcard search)部分102、单词辨识部分(verification)104及更正部分(crrection)106。通配符查询部分102可以让只记得部分拼法的使用者以*或?符号代替不确定的部分,以查询所有与输入部分匹配的单词;单词识别部分104用以确定输入单词是否正确,且如果输入者为衍生单词,还要输出其根词;更正程序部分106则用于在识别失败时,将可能的拼法找出并显示出来,供使用者参考。图1的拼字检查系统10的流程图显示于图2。
本发明主要是提出一种新的单词辨识部分104,因此,对于上述拼字检测系统10的通配符查询部分102和单词校正部分106两部分将不再作进一步的描述。至于单词辨识部分104则详细描述如下。
首先,必须处理字典中的单词,以建立拼写检查所需的单词数据库。找出字典中每一单词的衍生词,并根据这些衍生词设计出一套英文单词的衍生规则。在本实施例中,我们总结出26个基本缀词,列示如下:
-s,-ed,-ing,-ings,-er,-ers,-est,-less,-ly,-ment,-ments,-or,-ors,-ist,-ists,-able,-al,-ally,-ic,-ity,-ities,-ism,-isms,-ness,-ation,-men。
在本实施例中,总共有30个衍生规则,下面举其中几个衍生规则:
衍生规则01
    规则内容                        加S
(A)规则变化直接加S(B)以S、X、CH、SH结尾,加ES(C)以O结尾,加S(D)以Y结尾,Y前是辅音字母,去Y,加IES,或Y前为元音字母,直接加S(E)以F或FE结尾,去F或FE,加VES
衍生规则04
    规则内容     加ED(特殊)
(A)以重读闭音节结尾,双写最后字母,加ED
衍生规则06
    规则内容     加ING(特殊)
(A)以重读闭音节结尾,双写最后字母,加ING
值得注意的是,本发明并不限定于英文的拼写检查,其它文字的拼写检查也可以根据本发明的方法,同样可以达到减小存储空间,对大量的单词进行正确迅速查询的目的。再者,根据不同的使用情形及产品成本,衍生规则及缀词的数目及内容并不限定于本发明的实施例。
下面,根据所订出的衍生规则,对每一根词进行编码。下面举一例子说明编码的方法。对单词refer,其处理过程如下:
    衍生词     衍生规则 衍生编码
 Refers 衍生规则1之A:规则变化直接加S     01
 Referred 衍生规则4:双写最后字母,加ED     04
 Referring 衍生规则6,双写最后字母,加ING     06
                    衍生编码组 (01,04,06)
经由上表所示的方法,可得到单词refer的编码组为(01,04,06)。其它字典中的字词也是以上述的方法一一得到其编码组,因而可以完成整个字典的编码。
接着,给第一种编码组分配一衍生序号,并将编码组按照衍生序号(或称为编码序号)记录在电脑的存储器中。其存储方式如下:
0 无操作
1 (01,03,05) 加s,加ed,加ing
2 (01,03) 加s,加ed
3 (01,04,06) 加s,加ed(特殊),加ing(特殊)
4 (01,03,05,08) 加s,加ed,加ing,加er
5 (02) 加s(特殊)
根据上述的编码组及序号,形成一个根词和序号对应的数据结构。下面的数据结构显示产生数据库的一部分:
    单词     衍生序号
    A     0
    A-bomb     74
    a.d.     105
    Ab     107
    Aba     0
    Aback     105
    …     …
当此字典数据库形成之后,则开始对输入电脑的单词进行识别。图3示出了本实施例的流程图。首先,输入一单词(步骤30),再对此输入单词加以处理以得到可能的根词(步骤31)。对于每一个缀词,均有相对应的缀词处理规则;此缀词处理规则主要是由前述的衍生规则所得到。如同衍生规则的情形,此缀词处理规则的数目及内容并不限定于本发明的实施例。下面将以缀词ed为例,举例说明缀词的处理方法。
缀词ed的处理规则:
(1)输入词去d(2)生成词去e
(3)生成词去双写(4)生成词去i加y
以此缀词ed的处理规则对单词looded、faced、bugged及verified进行处理,得到下表所示的结果(其详细步骤请参照图4的流程):
处理步骤 Looked Faced  Bugged  Verified
输入词去d Looked Face  Bugge  Verifie
(2)生成词去e Look Fac  Bugg  Verifi
(3)生成词去以双写  Bug
(4)生成词去i加y  Verify
上表中的生成词代表其前一步骤所形成的单词,如果前一步骤没有执行,则表示再前一步骤执行后所形成的单词。再者,上表中的粗体字表示所得到的根词。
接着,由所得到的根词,依据其衍生编码序号(步骤32)及编码组织对应表,得到其编码组(步骤33)。以输入单词operation为例,可以得到如下表所示的编码组:
    可能根词     衍生编码组
    Oper     无
    Opere     无
    Operate   (01,03,05,18,28)
最后,根据衍生编码以产生衍生词表(步骤34),其详细流程则显示于图5中。接续上述的例子(单词opeate),可得到下表所示的各个步骤及产生结果。
衍生编码 编码对应衍生规则(步骤340) 产生的衍生词(步骤342)
01 据规则01(A):规则变化直接加S Operates
03 据规则03(B):最后字母是E则直接加D Operated
05 据规则05(B):最后字母是E,E前是辅音字母,去E加ING Operating
18 据规则18(B):最后字母是E,去E,加OR和ORS Operator,Operators
28 据规则28(A):最后字母是ATE, Operation
去ATE,加ATION
最后,根据上表可以得到衍生词表的内容为:
 OperateOperatedOperatingOperatorOperatorsOperation
根据所产生的衍生词表以判断所输入的单词是否为正确单词(步骤35,16,37)。至少,输入单词operation在根词operate的衍生词表中;亦即,单词operation的辨识成功。经由本发明的方法,可以查询识别远远超出原数据库的单词数目,使字典所含的单词数得到扩充,提高单词的拼写检查功能。例如,一个字典数据库的词汇数目原本为76024条,经使用本发明方法后,可以识别的词汇可达到155194条。亦即,可识别的单词数目是原字典单词数的二倍以上。再者,通过衍生规则对字典中所含的单词进行处理,能够对字典所含单词的各种复杂衍生变化迅速识别,大大提高识别速度,且节省存储空间。
以上所述仅为本发明的较佳实施例而已,并非用以限定本发明的保护范围;凡其它未脱离本发明所揭示的精神下所完成的等效改变或修饰,均应包含在下述的权利要求范围内。

Claims (14)

1、一种拼字检查的衍生词处理方法,其特征在于,至少包含:
依照一预设的衍生规则,对于数据库的一每一单词的衍生词加以编码,因而产生该每一单词的编码组,该衍生词至少包含该根词及一缀词;
对于每一该编码组使其对应一衍生序号;
根据该单词、该编码组及该衍生序号产生一根词-序号的字典数据库,用以对应该单词及该衍生序号;
输入一查询单词;
根据一预设的缀词处理规则,处理该输入单词,以得到一可能根词;
于该根词-序号的字典数据库中,查询该可能根词的衍生序号;
根据该衍生序号以得到该编码组;
对于该编码组中的每一个编码,根据该预设的衍生规则,处理该可能根词以得到相对应的衍生词,因而得到多个衍生词;及
如果该输入单词匹配于这多个衍生词其中之一,则为识别成功。
2、如权利要求1所述的方法,其特征在于,上述数据库中的所有该单词为英文字典的一部分。
3、如权利要求2所述的方法,其特征在于,上述预高的衍生规则依照英文单词的后缀字规则所形成。
4、如权利要求3所述的方法,其特征在于,上述缀字至少包含-s,-ed,-ing,-ings,-er,-ers,-est,-less,-ly,-ment,-ments,-or,-ors,-ist,-ists,-able,-al,-ally,-ic,-ity,-ities,-ism,-isms,-ness,-ation及-men。
5、如权利要求3所述的方法,其特征在于,上述预设的缀词处理规则根据该预设的衍生规则所形成。
6、发种拼字检查的衍生词处理方法,其特征在于,至少包含:
输入一查询单词;
根据一预设的缀词处理规则,处理该输入单词,以得到一可能根词;
在一预设的字典数据库中,查询与该可能根词相对应的至少一个编码,该预设的字典数据库为一种根词与编码对应关系的数据库;及
对于该至少一编码中的每一个编码,根据一预设的衍生规则,处理该可能根词以得到相对应一至少一衍生词。
7、如权利要求6所述的方法,其特征在于,还包含下列步骤:如果该输入单词匹配于该衍生词其中之一,则为识别成功。
8、如权利要求6所述的方法,其特征在于,在输入该查询单词之前,还包含依照该预设的衍生规则,对于数据库的每一个单词的衍生词加以编码,因而产生该每一单词的编码组,该衍生词至少包含该根词及一缀词。
9、如权利要求8所述的方法,其特征在于,还包含对于每一该编码组使其对应一衍生序号,其中该衍生序号对应于所有该编码。
10、如权利要求9所述的方法,其特征在于,还包含根据该单词、该编码组及该衍生序号产生该预设的字典数据库,用以对应该单词及该衍生序号。
11、如权利要求10所述的方法,其特征在于,上述数据库中的所有该单词为英文字典的一部分。
12、如权利要求11所述的方法,其特征在于,上述预高的衍生规则依照英文单词的后缀字规则所形成。
13、如权利要求12所述的方法,其特征在于,上述缀字至少包含-s,-ed,-ing,-ings,-er,-ers,-est,-less,-ly,-ment,-ments,-or,-ors,-ist,-ists,-able,-al,-ally,-ic,-ity,-ities,-ism,-isms,-ness,-ation及-men。
14、如权利要求12所述的方法,其特征在于,上述预设的缀词处理规则根据该预设的衍生规则所形成。
CN 98123795 1998-11-02 1998-11-02 拼字检查的衍生词处理方法 Expired - Fee Related CN1122932C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 98123795 CN1122932C (zh) 1998-11-02 1998-11-02 拼字检查的衍生词处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 98123795 CN1122932C (zh) 1998-11-02 1998-11-02 拼字检查的衍生词处理方法

Publications (2)

Publication Number Publication Date
CN1259707A true CN1259707A (zh) 2000-07-12
CN1122932C CN1122932C (zh) 2003-10-01

Family

ID=5228359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 98123795 Expired - Fee Related CN1122932C (zh) 1998-11-02 1998-11-02 拼字检查的衍生词处理方法

Country Status (1)

Country Link
CN (1) CN1122932C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010051674A1 (zh) * 2008-11-07 2010-05-14 广东国笔科技股份有限公司 一种派生词生成方法及系统
CN102033907A (zh) * 2009-09-30 2011-04-27 卡西欧计算机株式会社 具备词典功能的电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010051674A1 (zh) * 2008-11-07 2010-05-14 广东国笔科技股份有限公司 一种派生词生成方法及系统
CN102033907A (zh) * 2009-09-30 2011-04-27 卡西欧计算机株式会社 具备词典功能的电子设备
CN102033907B (zh) * 2009-09-30 2013-04-10 卡西欧计算机株式会社 具备词典功能的电子设备

Also Published As

Publication number Publication date
CN1122932C (zh) 2003-10-01

Similar Documents

Publication Publication Date Title
JP2726568B2 (ja) 文字認識方法及び装置
Brixtel et al. Language-independent clone detection applied to plagiarism detection
US5615378A (en) Dictionary retrieval device
Pollock et al. Automatic spelling correction in scientific and scholarly text
US6618697B1 (en) Method for rule-based correction of spelling and grammar errors
CN1172992A (zh) 在自然语言解析器中识别和解析常混词的方法和系统
US20050251381A1 (en) Tokenizer for a natural language processing system
WO2006035402A1 (en) Automatic text correction
US5349526A (en) System and method for converting sentence elements unrecognizable by a computer system into base language elements recognizable by the computer system
Carrasco An open-source OCR evaluation tool
US8583415B2 (en) Phonetic search using normalized string
CN111401012B (zh) 文本纠错方法、电子设备及计算机可读存储介质
CN111797217A (zh) 基于faq匹配模型的信息查询方法、及其相关设备
CN1122932C (zh) 拼字检查的衍生词处理方法
CN1667614A (zh) 语言数据日志的压缩
JP3812818B2 (ja) データベース生成装置、データベース生成方法及びデータベース生成処理プログラム
WO2007109019A2 (en) Method for processing sensor data within a particle stream by a kstore
JPH01250184A (ja) 文字認識方法及び文字の回転角度判定方法
KR102550868B1 (ko) 교원 업적 검증 시스템
JP2599973B2 (ja) 日本文訂正候補文字抽出装置
Jabbar et al. PWMStem: A Corpus-Based Suffix Identification and Stripping Algorithm for Multi-lingual Stemming
JP2875678B2 (ja) 文字認識結果の後処理方法
Segert et al. A Computer Program for Analysis of Words According to Their Meaning (Conceptual analysis of Latin equivalents for the comparative dictionary of Semitic languages)
Mostafa et al. A novel approach for detecting and correcting segmentation and recognition errors in Arabic OCR systems
Beckman-Davies Finding program differences based on syntactic tree structure

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: YINGYEDA( SHANGHAI ) CO., LTD.

Free format text: FORMER OWNER: NONE WUDI TECHNOLOGY (XI AN) CO., LTD.

Effective date: 20030926

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20030926

Address after: 200233 No. 1295, Shanghai, Yishan Road

Patentee after: Yingyeda Co Ltd (Shanghai)

Address before: 2, building 710000, building F-2B, West high tech Industrial Development Zone, Xi'an, Shaanxi

Patentee before: Wudi Science and Technology Co., Ltd. (Xian)

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20031001

Termination date: 20111102