CN101114292A - 一种编码组合语言词语存储及动态派生方法 - Google Patents

一种编码组合语言词语存储及动态派生方法 Download PDF

Info

Publication number
CN101114292A
CN101114292A CNA2007100299742A CN200710029974A CN101114292A CN 101114292 A CN101114292 A CN 101114292A CN A2007100299742 A CNA2007100299742 A CN A2007100299742A CN 200710029974 A CN200710029974 A CN 200710029974A CN 101114292 A CN101114292 A CN 101114292A
Authority
CN
China
Prior art keywords
stem
suffix
prefix
index
combined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007100299742A
Other languages
English (en)
Other versions
CN101114292B (zh
Inventor
严春莲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou jiubang century science and Technology Co Ltd
Original Assignee
严春莲
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 严春莲 filed Critical 严春莲
Priority to CN 200710029974 priority Critical patent/CN101114292B/zh
Publication of CN101114292A publication Critical patent/CN101114292A/zh
Application granted granted Critical
Publication of CN101114292B publication Critical patent/CN101114292B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

一种编码组合语言词语存储及动态派生方法,其特征在于:将线性总词表分拆为基本词干表、前缀表、后缀表分别在嵌入式设备储存元件中进行存储;通过前缀表、后缀表分别对应相应的索引获取对应前缀后缀组合索引;在输入引擎中加入相应的数据结构算法,操作键盘输入的内容搜索词干表和前后缀组合索引,词干与前后缀组合产生词干自动变形结构,派生出该词干不同时态、性、数的词组合的结果集;在显示终端上进行完整词输出。本发明采用了更为合理的词数据存储结构,有效的压缩存储空间;提高了数据检索效率。应用在随身携带的嵌入式设备中,可以减低制造成本,减少体积和重量,同时提升了人们使用时的操作速度,具有广阔的应用前景。

Description

一种编码组合语言词语存储及动态派生方法
技术领域
本发明涉及语言文字信息处理技术领域,具体为一种编码组合语言词语存储及动态派生方法。
背景技术
在信息经济时代,随着手机、PDA(个人数字助理)、掌上游戏机等个人移动娱乐设备的普及,让嵌入式设备在人们的生活中扮演着越来越重要的角色。由于人与人之间信息沟通的需要,推进着嵌入式文字输入技术不断的提高和发展。现有嵌入式输入软件,一般包括输入引擎部份与词数据库部份,词数据库部份的词一般是通过线性总词表的方式来储存。这种储存方式需要占用大量的储存空间,同时运算效率相对低下,所以嵌入式设备普遍存在运算速度低、数据存储量小等方面的缺点、将严重制约了嵌入式设备成本、能耗的降低以及体积的减小等多方面的发展。
经研究发现,由字母节组成的外文语种,很多单词都是由一个词干(stem)派生衍化出来的,拉丁语系和斯拉夫语系的语种都存在这一特点,如英语、西班牙语、俄语、匈牙利语等。在西班牙语中,一个有二十多万条有效词数据,其实是由三万多条词干派生衍化而成,词干派生比例达到1∶7;在匈牙利语中,有些单词词干最高可以衍化出几十乃至上百个派生词。由此可见,如果采用传统的完整派生词表存储方式,把每个派生词都作为一个单词词条来进行数据线性存储的话,对于存储空间的浪费是相当大的。
发明内容
本发明的目的是针对以上所述的现有嵌入式语言存储以及运算速度存在的不足,提出利用更为合理的词数据库存储结构,可以节省存储空间,提高数据检索效率的一种编码组合语言词语存储及动态派生方法。
本发明是这样实现的:一种编码组合语言词语存储及动态派生方法,将线性总词表分拆为基本词干表、前缀表、后缀表分别在嵌入式设备储存元件中进行存储;通过前缀表、后缀表分别对应相应的索引获取对应前缀后缀组合索引;在输入引擎中加入相应的数据结构算法,操作键盘输入的内容仅搜索词干表,获取相应的词干索引和前后缀组合索引,词干与前后缀组合产生词干自动变形结构,派生出该词干不同时态、性、数的词组合的结果集;在显示终端上进行完整词输出。
本发明是针对由字母节组成的外文语种,包括拉丁语系和斯拉夫语系中的英语、西班牙语、俄语、匈牙利语等,很多单词都是由一个词干(stem)派生衍化出来的这一特点。采用了更为合理的词数据存储结构,可以在同样的词条数下面,更为有效的压缩存储空间;利用多重索引的检索技术,可以提高数据检索效率。应用在随身携带的嵌入式设备等中,可以降低制造成本,减少体积和重量,同时提升了人们使用时的操作速度,具有广阔的应用前景。
附图说明
图1为本发明一种编码组合语言词语存储及动态派生方法的语言派生流程图;
图2为本发明一种编码组合语言词语存储及动态派生方法的联结关系示意图;
图3为本发明一种编码组合语言词语存储及动态派生方法的总词拆分示意表。
具体实施方式
以下结合附图和具体实施例对本发明一种编码组合语言词语存储及动态派生方法进行详细的说明。
首先对本发明涉及的名词进行定义说明。
词干(stem):是未经过时态、性、数改变的原形词,也就是通常字典可查到的原形词条。
词缀(affix):可以分为前缀和后缀,指的是词干的前后缀变化,是各个词性的词在不同时态,不同性数情况下规则性的前后缀变化。
词干自动派生变形结构(Stem-deriving-structure):是通过总结性变化,自动派生成词干的前后缀形式,从而达到节省存储空间,提升数据检索的目的。在数据库中保存的是词干词条,前后缀是通过引擎对语法的归纳直接调用到词干之后,生成正确的词形变化。
本发明是针对由字母节组成的外文语种,包括拉丁语系和斯拉夫语系中的英语、西班牙语、俄语、匈牙利语等,很多单词都是由一个词干(stem)派生衍化出来的这一特点。将一种相应的语言的线性总词表分拆为基本词干表、前缀表、后缀表,分别在嵌入式设备储存元件中进行存储;通过相应的数据结构算法,前缀表、后缀表分别对应相应的索引获取对应前缀后缀组合表;前缀后缀组合表对应相应的前后缀组合索引;通过相应的数据结构算法,操作键盘输入的内容仅需搜索词量较少的在词干表,获得相应的词干索引和前后缀组合索引,词干与前后缀组合产生词干自动变形结构,派生出该词干不同时态、性、数的词组合的结果集;在显示终端上进行完整词输出,以供用户进行选择。
具体词干派生正确的派生词的具体的方法如图1所示,在嵌入式终端输入所需输入的内容,系统自动搜索词干表,在词表中取得一行,获得词干索引和前缀后缀组合索引,同时清空设备输出终端派生结果集;根据词干索引,把词干加入派生结果集中,系统调用前后缀组合索引,如果前后缀组合索引为0,也就是没有前后缀,派生词为词干的本身,直接将派生结果生成,派生结束,在终端设备上直接输出。如果前后缀组合索引不为0,将获取对应的前后缀组合表对应行数数据,放入前后缀索引数组,如果数组已为空,将词干为派生词生成派生结果集。如果数组不为空,从数组中取得一对前缀后缀元素,临时派生设置为词干。如果前缀索引为0,将直接判断后缀结果是否为0,如果后缀索引为0,生成的临时派生词为基本词干,加入派生词结果集中,如果数组已为空,则将生成的派生结果集在输出终端上输出。如果前缀索引不为0,临时派生词添加对应的前缀,然后判断后缀索引是否为0,如果为0,临时派生词加入派生词结果集中。如果后缀索引不为0,临时派生词添加对应后缀后临时派生词加入派生结果集中。派生结果集再次判断前后缀数组为空,如果是空,派生词结果集生成,在相应的嵌入式设备终端的显示元件中进行输出,供使用者进行选择。
实施例1
以下以英语为例,对本发明进行详细的说明。如图3所示,英语的总词表进行拆分处理,这样总词表就可以通过生成技术分为四个分词表。四个分词表的联结关系如图2所示,图中的圆角方框110内为语言数据,方框111内为数据表索引;圆角黑体方框内为后缀语言数据,带箭头的线条为相互关联的指向。前缀处理表101内圆角方框对应的是前缀语言数据,旁边的顺序数字编号是前缀索引106。后缀处理表102内圆角黑体方框对应的是前缀语言数据,旁边的顺序数字编号是后缀索引107。通过相应的数据结构算法,前缀索引和后缀索引生成前后缀组合表103,前后缀索引组合表103旁边的顺序数字编号为前后缀组合索引109。词干表104的词干语言数据旁边的顺序编号为词干索引108。词干索引108与前后缀组合索引109派生出所需的所有单词的词表105。
依照以上的方法,对生成的分词表数据,在输入引擎中加入如下数据结构算法,以达到对分词表进行联结派生。
1、词干表:存放所有的词干
{
“a”,词干索引:1
“an”,词干索引:2
 “ant”,词干索引:3
   ......
 “expect”,词干索引:2345
   ......
 “lock”,词干索引表:12345
    }
2、前缀处理表:
{
 “re”,前缀处理索引:1
 “un”,前缀处理索引:2
 “dis”,前缀处理索引:3
   ......
}
3、后缀处理表:
{
 “er”,后缀处理表索引:1
 “est”,后缀处理表索引:2
 “ing”,后缀处理表索引:3
 “s”,  后缀处理表索引:4
 “ed”,后缀处理表索引:5
   ......
}
4、前后缀组合表:词语可能的前缀处理+后缀处理生成的排列组合表
{
{{2,0}{0,5}{2,5}{0,3}{2,3}}代表{{“un”,“”},{“”,“ed”},{“un”,“ed”},{“”,“ing”},{“un”,“ing”}},前后缀组合索引:1
......
{{0,5}{0,2}};代表{{“”,“ed”},{“”,“est”}},  前后缀组合索引:23
......
}
5、词表:词干索引+前缀后缀组合索引,包含与词干相同数目的数据
{
1+0,对应的是a;
2+0,对应的是an;
3+0,对应的是ant;
......
2345+1,对应的是expect,unexpect,expected,unexpected,expecting,unexpecting;
......
12345+1,对应的是lock,unlock,locked,unlocked,locking,unlocking;
}
动态的派生的详细过程如下:
以2345+1为例:
1、由词干索引:2345,查词干表取得:“expect”;
2、由前缀后缀组合索引:1查前缀后缀组合表取得:{{2,0}{0,5}{2,5}{0,3}{2,3}},如果为0表示没有前缀或后缀。
3、从每个包含前缀处理表:取得前缀,如果为0表示没有前缀;查后缀处理表:取得后缀,如果为0表示没有后缀;结合以上结果与expect产生expec词干自动派生变形结构,派生出所需的词。
4、派生词组合完成,在相应的显示屏幕上输出供选择。
实施例2
用英语单词为例,在嵌入式设备应用中进行详细的说明:
动词:work,数据库中保存了work这一词条,但是在实际发送短信或者Email中,work的原形形式用法不是很多,动词会根据时态以及主语的不同的变位形式。
具体规则如:
I worked very late last night。
如过去时过去分词词尾加-ed。
I am working right now。
现在进行时、现在分词词尾加-ing。
He works very hard。
第三人称单数现在时词尾加-s。
由于大部分动词具有和work单词相同的时态性数的变化,所以在设备中运用本发明方法,可以在同样的存储空间下存放更多的单词词性,并有利于提高数据检索效率。
以上仅以英语为例,对本发明进行说明,本发明的保护范围不仅限于英语,所有包括拉丁语系或斯拉夫语系等,如西班牙语、俄语、匈牙利语等,单词符合都是由一个词干(stem)派生衍化出来这一特点的,具有一定的单词的前后缀变化规律的其它外语也可以应用本方法,只是存在规则的复杂程度各异而已。

Claims (1)

1.一种编码组合语言词语存储及动态派生方法,其特征在于:将线性总词表分拆为基本词干表、前缀表、后缀表分别在嵌入式设备储存元件中进行存储;通过前缀表、后缀表分别对应相应的索引获取对应前缀后缀组合索引;在输入引擎中加入相应的数据结构算法,操作键盘输入的内容仅搜索词干表,获取相应的词干索引和前后缀组合索引,词干与前后缀组合产生词干自动变形结构,派生出该词干不同时态、性、数的词组合的结果集;在显示终端上进行完整词输出。
CN 200710029974 2007-08-29 2007-08-29 一种编码组合语言词语存储及动态派生方法 Active CN101114292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200710029974 CN101114292B (zh) 2007-08-29 2007-08-29 一种编码组合语言词语存储及动态派生方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710029974 CN101114292B (zh) 2007-08-29 2007-08-29 一种编码组合语言词语存储及动态派生方法

Publications (2)

Publication Number Publication Date
CN101114292A true CN101114292A (zh) 2008-01-30
CN101114292B CN101114292B (zh) 2011-06-22

Family

ID=39022638

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710029974 Active CN101114292B (zh) 2007-08-29 2007-08-29 一种编码组合语言词语存储及动态派生方法

Country Status (1)

Country Link
CN (1) CN101114292B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010051674A1 (zh) * 2008-11-07 2010-05-14 广东国笔科技股份有限公司 一种派生词生成方法及系统
CN102609107A (zh) * 2012-01-20 2012-07-25 邓申义 计算机英文输入法
CN109284273A (zh) * 2018-09-27 2019-01-29 中山大学 一种采用后缀数组索引的海量小文件查询方法及系统
CN109739948A (zh) * 2018-12-28 2019-05-10 北京金山安全软件有限公司 词表的存储管理方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1069420C (zh) * 1995-05-26 2001-08-08 戴石灵 文字式音形汉字输入方法
CN1335555A (zh) * 2001-08-01 2002-02-13 付好 三位一体汉字输入方法
JP4619046B2 (ja) * 2004-06-07 2011-01-26 株式会社エヌ・ティ・ティ・ドコモ オリジナルコンテンツ生成装置及び派生コンテンツ生成装置

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010051674A1 (zh) * 2008-11-07 2010-05-14 广东国笔科技股份有限公司 一种派生词生成方法及系统
CN101533403B (zh) * 2008-11-07 2010-12-01 广东国笔科技股份有限公司 一种派生词生成方法及系统
CN102609107A (zh) * 2012-01-20 2012-07-25 邓申义 计算机英文输入法
CN102609107B (zh) * 2012-01-20 2015-08-19 邓申义 计算机英文输入法
CN109284273A (zh) * 2018-09-27 2019-01-29 中山大学 一种采用后缀数组索引的海量小文件查询方法及系统
CN109739948A (zh) * 2018-12-28 2019-05-10 北京金山安全软件有限公司 词表的存储管理方法、装置、电子设备及存储介质
CN109739948B (zh) * 2018-12-28 2021-08-03 北京金山安全软件有限公司 词表的存储管理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN101114292B (zh) 2011-06-22

Similar Documents

Publication Publication Date Title
CN101093478B (zh) 一种根据实体的汉语简称识别汉语全称的方法及系统
CN100595760C (zh) 一种获取口语词条的方法、装置以及一种输入法系统
CN102110174B (zh) 一种基于关键词的web服务器扩展检索方法
CN101114292B (zh) 一种编码组合语言词语存储及动态派生方法
CN106776562A (zh) 一种关键词提取方法和提取系统
CN106055623A (zh) 一种跨语言推荐方法和系统
CN103324626A (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN102169591B (zh) 一种制图中文本注记分行方法以及绘制方法
CN106776548A (zh) 一种文本的相似度计算的方法和装置
CN107092675B (zh) 一种基于统计和浅层语言分析的维吾尔文语义串抽取方法
CN105005554A (zh) 一种词汇语义相关度的计算方法
CN102253972A (zh) 基于网络爬虫的地名数据库维护方法
CN101216819A (zh) 基于领域本体的名片信息中译英自动翻译方法
CN103513778A (zh) 一种针对人名的输入方法及装置
CN101751386A (zh) 一种未登录词的识别方法
CN108920482A (zh) 基于词汇链特征扩展和lda模型的微博短文本分类方法
CN106095912A (zh) 用于生成扩展查询词的方法和装置
CN108830779A (zh) 三维模型数据的处理方法、装置、电子设备及存储介质
CN100451926C (zh) 基于笔画和汉字基本部件的汉字输入法
CN103838794A (zh) 一种适用于专业搜索引擎的分词方法
CN101499056A (zh) 倒排参考句型语言分析方法
CN103294662B (zh) 一致性判断装置及一致性判断方法
CN101719020A (zh) 一种获取新的字词组的方法和装置
CN104063500A (zh) 信息处理设备以及信息处理方法
CN1221906A (zh) 一种用“自由写”方法输入汉字的键盘

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20090116

Address after: Room 206, room 242, Tianhe East Road, Guangzhou, Guangdong: 510620

Applicant after: Guangzhou Jixun Digital Technology Co., Ltd.

Address before: Guangzhou, Guangdong province Panyu District blessing village spring 6 7 street, zip code: 511400

Applicant before: Yan Chunlian

ASS Succession or assignment of patent right

Owner name: GUANGZHOU JIXUN DIGITAL TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: YAN CHUNLIAN

Effective date: 20090116

ASS Succession or assignment of patent right

Owner name: GUANGZHOU JIUBANG DIGITAL TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: GUANGZHOU JIXUN DIGITAL TECHNOLOGY CO., LTD.

Effective date: 20100901

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 510620 ROOM 206, NO.242, TIANHE EAST ROAD, GUANGZHOU CITY, GUANGDONG PROVINCE TO: 510055 16-17/F, TOWER A, ZHONGHUA INTERNATIONAL CENTER, NO.33, ZHONGSHAN ROAD 3, GUANGZHOU CITY

TA01 Transfer of patent application right

Effective date of registration: 20100901

Address after: 510055, A, 16-17, block 33, Zhonghua International Center, No. three, No. 3, Guangzhou, Zhongshan

Applicant after: Guangzhou Jiubang Digital Technology Co., Ltd.

Address before: 510620 room 242, Tianhe East Road, Guangzhou, Guangdong, 206

Applicant before: Guangzhou Jixun Digital Technology Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20171116

Address after: 510055, tower 17, A tower, Zhonghua International Center, No. three, 33 Zhongshan Road, Yuexiu District, Guangdong, Guangzhou, China

Patentee after: Guangzhou jiubang century science and Technology Co Ltd

Address before: 510055 A, block 16-17, China International Center, No. three, Zhongshan Road, Guangzhou, Guangdong, China

Patentee before: Guangzhou Jiubang Digital Technology Co., Ltd.

TR01 Transfer of patent right