CN103885940A - 基于网络服务的多语种词典翻译方法 - Google Patents

基于网络服务的多语种词典翻译方法 Download PDF

Info

Publication number
CN103885940A
CN103885940A CN201210553918.XA CN201210553918A CN103885940A CN 103885940 A CN103885940 A CN 103885940A CN 201210553918 A CN201210553918 A CN 201210553918A CN 103885940 A CN103885940 A CN 103885940A
Authority
CN
China
Prior art keywords
language
word
dictionary
input
strategy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201210553918.XA
Other languages
English (en)
Inventor
塔拉甫·加盘
王天军
邹帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XINJIANG INFORMATION INDUSTRY Co Ltd
Original Assignee
XINJIANG INFORMATION INDUSTRY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XINJIANG INFORMATION INDUSTRY Co Ltd filed Critical XINJIANG INFORMATION INDUSTRY Co Ltd
Priority to CN201210553918.XA priority Critical patent/CN103885940A/zh
Publication of CN103885940A publication Critical patent/CN103885940A/zh
Pending legal-status Critical Current

Links

Images

Abstract

本发明公开了基于网络服务的多语种词典翻译方法,策略1:通过Unicode编码判断,输入单词的语言类型,然后在把该语言作为输入语言的所有的词典中查找,把多个查找结果组合起来给出结果;策略2:不判断单词的语言类型,组合所有得到成功的查找结果,给出结果。本发明翻译效率和智能化程度高。

Description

基于网络服务的多语种词典翻译方法
技术领域
本发明涉及语言信息处理技术,特别是基于网络服务的多语种词典翻译方法。
背景技术
近年来,随着IT技术的发展越来越多的信息资源在网络上被共享,大大促进了资源的使用效率,同时为更广大的用户提供方便。在新疆的少数民族语言的信息资源也快速积累,但是网络上的应用,共享资源还需要大力推进。比如:目前为止几个电子辞典软件上市,翻译方向基本覆盖该地区和国际上使用几种语言,但是没有网络电子辞典。为了补充这方面的空白,基于WCF的多语种电子辞典提出了。为网络用户提供方便的单词查询功能,需要设计词库构造简单,查询速度快,运行经快的电子辞典。主要性能包括:启动快,启动速度,占内存少,辞典结构和查找不针对某个特定的语言,采取通用的结构,多种语言单词查询时,只为每一种语言构造独立的词库文件,但采用相同的词库文件结构和查询方法。尽量包括丰富的内容,只提供简单的单词翻译以外,还提供了例子句子,同义词等等尽量多的信息。WCF服务中嵌入容易,几乎不需要任何修改,实现网络上共享。
发明内容
本发明的目的在于提供一种基于网络服务的多语种词典翻译方法,翻译效率和智能化程度高。
本发明的目的是这样实现的:一种基于网络服务的多语种词典翻译方法,模式1:输入单词同时,给予该单词所属的语言和期望的目标语言;模式2:给予输入单词,但却不知道该单词所属的语言和期望的目标语言;模式3:给予输入单词,只给出该单词所属的语言类型,但不知道期望的目标语言;模式1的查找方法:每个词库索引部分中同时存储该词库的输入语言和目标语言,根据给予的输入数据,多个词典里确定所进行查找的词典,进行折半查找,给出结果;模式2的查找方法:输入单词,但该单词所属的语言和目标语言都不知道,则运用如下策略:策略1:通过Unicode编码判断,输入单词的语言类型,然后在把该语言作为输入语言的所有的词典中查找,把多个查找结果组合起来给出结果;策略2:不判断单词的语言类型,在所有的词典中进行查找,组合所有得到成功的查找结果,给出结果;模式3的查找方法:输入单词的语言类型已给予,但目标语言不知道,这时候采取模式2的策略1类似的方法,在包含输入单词语言类型的所有词典中进行查找,组合所有成功的查找结果,给出结果。
本发明的特点如下:
1.      辞典设计
       电子辞典设计由数据域和操作域组成,其中数据域如下:
单词实体:指某个单词,意思,类型,形式,例子句子,句子意思,同义词等等
单词实体集:由词典包含的所有单词实体构成。
操作域由建立词库和查询操作组成,操作如下:
单词实体的获取:根据已有的数据,设计了专门的数据提取和整理程序,这里不介绍。
词库结构由索引域和实体集组成,获取数据以后根据设计的思路,对实体集进行排序,计算索引并写入到特定的文件结构中。该文件结构的定义依赖于设计的需求,比如安全程度,容量要求等等。
查找方法多,但根据词库一建立基本上不修改,删除的考虑,进行折半查找是比较理想的,因此建立词库时,首先对实体集进行递增的顺序排序,其中实体的单词为关键字。
 
2. 多个词典管理
很自然,可能需要查找多语种查询,比如维吾尔语-汉语,汉语-英语等等。其中每一方向作为一个词库,所有词典由管理类负责相应的查找。
已有多个词典,这时候查找可能分类三个模式,
模式1:输入单词同时,给予该单词所属的语言和期望的目标语言。
模式2:给予输入单词,但却不知道该单词所属的语言和期望的目标语言。
模式3:给予输入单词,只给出该单词所属的语言类型,但不知道期望的目标语言。
模式1的查找方法:是最简单的,易于管理的情况,因为每个词库索引部分中同时存储该词库的输入语言和目标语言。根据给予的输入数据,多个词典里确定所进行查找的词典,进行折半查找,给出结果。
模式2的查找方法:输入单词,该单词所属的语言,和目标语言都不知道。这时候可以选择2种策略,
策略1:通过Unicode编码判断,输入单词的语言类型,然后把该语言作为输入语言的所有的词典中查找,把多个查找结果组合起来给出结果。
策略2:不判断单词的语言类型,在所有的词典中进行查找,组合所有得到成功的查找结果,给出结果。
在一般词典数量不是很多,每个词典包含的实体数量不是很多的时后策略2是可行的,但不如策略1.
模式3的查找方法:输入单词的语言类型已给予,但目标语言不知道,这时候采取模式2的策略1类似的方法。在包含输入单词语言类型的所有词典中进行查找,组合所有成功的查找结果,给出结果。
3.WCF中实现多语种电子辞典服务
       简单地讲WCF中电子辞典的服务化的目的是资源的共享,这里资源是电子辞典,共享方是连接到该服务的终端。每个终端只能连接服务就能在本地使用一样利用服务资源,这样客户端应用程序是相当简单,运行速度快。因为其中运行慢,占内存的,计算量大的部分放在服务器作为服务。
主要性能如下:
1.在局域网内提供服务。辅助翻译软件的客户是专门进行翻译的工作的单位,公司等等。显然只为在其内的人员提供服务。
2.为多个用户同时提供服务。
3.对单词翻译服务来说,反应时间不得超过人能接受的时间间隔。
本发明翻译效率和智能化程度高。
附图说明
下面将结合附图对本发明作进一步说明。
       图1为本发明的电子辞典词库结构图。
       图2为本发明多个辞典管理的流程图。
       图3是本发明WCF服务框架上提供多辞典翻译服务的描述图。
具体实施方式
    一种基于网络服务的多语种词典翻译方法,模式1:输入单词同时,给予该单词所属的语言和期望的目标语言;模式2:给予输入单词,但却不知道该单词所属的语言和期望的目标语言;模式3:给予输入单词,只给出该单词所属的语言类型,但不知道期望的目标语言;模式1的查找方法:每个词库索引部分中同时存储该词库的输入语言和目标语言,根据给予的输入数据,多个词典里确定所进行查找的词典,进行折半查找,给出结果;模式2的查找方法:输入单词,但该单词所属的语言和目标语言都不知道,则运用如下策略:策略1:通过Unicode编码判断,输入单词的语言类型,然后在把该语言作为输入语言的所有的词典中查找,把多个查找结果组合起来给出结果;策略2:不判断单词的语言类型,在所有的词典中进行查找,组合所有得到成功的查找结果,给出结果;模式3的查找方法:输入单词的语言类型已给予,但目标语言不知道,这时候采取模式2的策略1类似的方法,在包含输入单词语言类型的所有词典中进行查找,组合所有成功的查找结果,给出结果。
如图1所示,词库主要由索引区和实体集区构成。其中索引区包括两想内容。第一项是词库文件信息,包括语言信息,词库版本等等。第二想包括实体集中的每一个实体在词库文件中的开始和结束位置,这样根据此信息可以读取任何一个实体。实体集区是一个实体集合,其中每一个实体是单词,该单词的翻译单词,同义词,例子句子等等信息。
如图2所示,辞典多个,但输入不针对任何特定辞典。首先输入个单词,同时考虑查询模式和单词所属于的语言,选择一个或者多个对应的辞典,然后逐步多辞典中得到查询结果并输出结果。
如图3所示,多个客户端通过网络媒体跟服务进行通讯。比如:其中某个客户端发送某个单词查询请求时,服务器上WCF服务结构从服务点接受该请求,然后调用多辞典管理程序来得到查询结果并发送给发送请求的客户。

Claims (1)

1.一种基于网络服务的多语种词典翻译方法,其方法为:此模式1:输入单词同时,给予该单词所属的语言和期望的目标语言;模式2:给予输入单词,但却不知道该单词所属的语言和期望的目标语言;模式3:给予输入单词,只给出该单词所属的语言类型,但不知道期望的目标语言;模式1的查找方法:每个词库索引部分中同时存储该词库的输入语言和目标语言,根据给予的输入数据,多个词典里确定所进行查找的词典,进行折半查找,给出结果;模式2的查找方法:输入单词,但该单词所属的语言和目标语言都不知道,则运用如下策略:策略1:通过Unicode编码判断,输入单词的语言类型,然后在把该语言作为输入语言的所有的词典中查找,把多个查找结果组合起来给出结果;策略2:不判断单词的语言类型,在所有的词典中进行查找,组合所有得到成功的查找结果,给出结果;模式3的查找方法:输入单词的语言类型已给予,但目标语言不知道,这时候采取模式2的策略1类似的方法,在包含输入单词语言类型的所有词典中进行查找,组合所有成功的查找结果,给出结果。
CN201210553918.XA 2012-12-19 2012-12-19 基于网络服务的多语种词典翻译方法 Pending CN103885940A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210553918.XA CN103885940A (zh) 2012-12-19 2012-12-19 基于网络服务的多语种词典翻译方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210553918.XA CN103885940A (zh) 2012-12-19 2012-12-19 基于网络服务的多语种词典翻译方法

Publications (1)

Publication Number Publication Date
CN103885940A true CN103885940A (zh) 2014-06-25

Family

ID=50954835

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210553918.XA Pending CN103885940A (zh) 2012-12-19 2012-12-19 基于网络服务的多语种词典翻译方法

Country Status (1)

Country Link
CN (1) CN103885940A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537066A (zh) * 2014-12-30 2015-04-22 郑州市中业科技有限公司 基于多语言翻译的近义词关联方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3356536B2 (ja) * 1994-04-13 2002-12-16 松下電器産業株式会社 機械翻訳装置
CN1428721A (zh) * 2001-12-27 2003-07-09 高庆狮 基于语义的机器翻译系统及方法
CN101339547A (zh) * 2007-07-03 2009-01-07 株式会社东芝 用于机器翻译的装置和方法
US20090024599A1 (en) * 2007-07-19 2009-01-22 Giovanni Tata Method for multi-lingual search and data mining
CN102214167A (zh) * 2010-04-09 2011-10-12 倪劲松 一种即时翻译系统、终端及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3356536B2 (ja) * 1994-04-13 2002-12-16 松下電器産業株式会社 機械翻訳装置
CN1428721A (zh) * 2001-12-27 2003-07-09 高庆狮 基于语义的机器翻译系统及方法
CN101339547A (zh) * 2007-07-03 2009-01-07 株式会社东芝 用于机器翻译的装置和方法
US20090024599A1 (en) * 2007-07-19 2009-01-22 Giovanni Tata Method for multi-lingual search and data mining
CN102214167A (zh) * 2010-04-09 2011-10-12 倪劲松 一种即时翻译系统、终端及方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
赛依旦·阿不力米提: "基于WCF的维汉词典及机器翻译系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537066A (zh) * 2014-12-30 2015-04-22 郑州市中业科技有限公司 基于多语言翻译的近义词关联方法
CN104537066B (zh) * 2014-12-30 2017-10-03 郑州中业科技股份有限公司 基于多语言翻译的近义词关联方法

Similar Documents

Publication Publication Date Title
CN102831253B (zh) 一种分布式全文检索系统
CN101350013A (zh) 一种地理信息的搜索方法和系统
CN104375992A (zh) 一种地址匹配的方法和装置
CN101576929B (zh) 一种快速词条提示的实现方法
CN103902535A (zh) 获取联想词的方法、装置及系统
CN101154228A (zh) 一种分段模式匹配方法及其装置
CN104820717A (zh) 一种海量小文件存储及管理方法和系统
CN106407201A (zh) 一种数据处理方法及装置
CN103226597A (zh) 基于自然语义的关键词广告匹配方法
CN101150489A (zh) 基于分布式哈希表的资源共享方法
CN105404693B (zh) 一种基于需求语义的服务聚类方法
CN102262670A (zh) 一种基于移动可视设备的跨媒体信息检索系统及方法
CN103092943A (zh) 一种广告调度的方法和广告调度服务器
Sun et al. A simple hash-based early exiting approach for language understanding and generation
CN103064842A (zh) 信息订阅处理装置和信息订阅处理方法
Lopez et al. Scaling up question-answering to linked data
CN109542930A (zh) 一种基于ElasticSearch的数据高效检索方法
CN100456293C (zh) 一种信息快捷搜索客户端、系统及方法
CN102156749B (zh) 一种地图网站的自动搜索判别方法、系统及其分布式服务器系统
CN106156262A (zh) 一种搜索信息处理方法及系统
KR20120082620A (ko) 온톨로지 정렬 방법 및 이를 적용한 온톨로지 정렬 시스템
CN101859318A (zh) 一种基于服务网络的服务发现工具的建立方法
Poomagal et al. K-means for search results clustering using url and tag contents
CN103885940A (zh) 基于网络服务的多语种词典翻译方法
CN103514214B (zh) 数据查询方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20140625