CN103885940A - 基于网络服务的多语种词典翻译方法 - Google Patents
基于网络服务的多语种词典翻译方法 Download PDFInfo
- Publication number
- CN103885940A CN103885940A CN201210553918.XA CN201210553918A CN103885940A CN 103885940 A CN103885940 A CN 103885940A CN 201210553918 A CN201210553918 A CN 201210553918A CN 103885940 A CN103885940 A CN 103885940A
- Authority
- CN
- China
- Prior art keywords
- language
- word
- dictionary
- input
- strategy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
本发明公开了基于网络服务的多语种词典翻译方法,策略1:通过Unicode编码判断,输入单词的语言类型,然后在把该语言作为输入语言的所有的词典中查找,把多个查找结果组合起来给出结果;策略2:不判断单词的语言类型,组合所有得到成功的查找结果,给出结果。本发明翻译效率和智能化程度高。
Description
技术领域
本发明涉及语言信息处理技术,特别是基于网络服务的多语种词典翻译方法。
背景技术
近年来,随着IT技术的发展越来越多的信息资源在网络上被共享,大大促进了资源的使用效率,同时为更广大的用户提供方便。在新疆的少数民族语言的信息资源也快速积累,但是网络上的应用,共享资源还需要大力推进。比如:目前为止几个电子辞典软件上市,翻译方向基本覆盖该地区和国际上使用几种语言,但是没有网络电子辞典。为了补充这方面的空白,基于WCF的多语种电子辞典提出了。为网络用户提供方便的单词查询功能,需要设计词库构造简单,查询速度快,运行经快的电子辞典。主要性能包括:启动快,启动速度,占内存少,辞典结构和查找不针对某个特定的语言,采取通用的结构,多种语言单词查询时,只为每一种语言构造独立的词库文件,但采用相同的词库文件结构和查询方法。尽量包括丰富的内容,只提供简单的单词翻译以外,还提供了例子句子,同义词等等尽量多的信息。WCF服务中嵌入容易,几乎不需要任何修改,实现网络上共享。
发明内容
本发明的目的在于提供一种基于网络服务的多语种词典翻译方法,翻译效率和智能化程度高。
本发明的目的是这样实现的:一种基于网络服务的多语种词典翻译方法,模式1:输入单词同时,给予该单词所属的语言和期望的目标语言;模式2:给予输入单词,但却不知道该单词所属的语言和期望的目标语言;模式3:给予输入单词,只给出该单词所属的语言类型,但不知道期望的目标语言;模式1的查找方法:每个词库索引部分中同时存储该词库的输入语言和目标语言,根据给予的输入数据,多个词典里确定所进行查找的词典,进行折半查找,给出结果;模式2的查找方法:输入单词,但该单词所属的语言和目标语言都不知道,则运用如下策略:策略1:通过Unicode编码判断,输入单词的语言类型,然后在把该语言作为输入语言的所有的词典中查找,把多个查找结果组合起来给出结果;策略2:不判断单词的语言类型,在所有的词典中进行查找,组合所有得到成功的查找结果,给出结果;模式3的查找方法:输入单词的语言类型已给予,但目标语言不知道,这时候采取模式2的策略1类似的方法,在包含输入单词语言类型的所有词典中进行查找,组合所有成功的查找结果,给出结果。
本发明的特点如下:
1. 辞典设计
电子辞典设计由数据域和操作域组成,其中数据域如下:
单词实体:指某个单词,意思,类型,形式,例子句子,句子意思,同义词等等
单词实体集:由词典包含的所有单词实体构成。
操作域由建立词库和查询操作组成,操作如下:
单词实体的获取:根据已有的数据,设计了专门的数据提取和整理程序,这里不介绍。
词库结构由索引域和实体集组成,获取数据以后根据设计的思路,对实体集进行排序,计算索引并写入到特定的文件结构中。该文件结构的定义依赖于设计的需求,比如安全程度,容量要求等等。
查找方法多,但根据词库一建立基本上不修改,删除的考虑,进行折半查找是比较理想的,因此建立词库时,首先对实体集进行递增的顺序排序,其中实体的单词为关键字。
2. 多个词典管理
很自然,可能需要查找多语种查询,比如维吾尔语-汉语,汉语-英语等等。其中每一方向作为一个词库,所有词典由管理类负责相应的查找。
已有多个词典,这时候查找可能分类三个模式,
模式1:输入单词同时,给予该单词所属的语言和期望的目标语言。
模式2:给予输入单词,但却不知道该单词所属的语言和期望的目标语言。
模式3:给予输入单词,只给出该单词所属的语言类型,但不知道期望的目标语言。
模式1的查找方法:是最简单的,易于管理的情况,因为每个词库索引部分中同时存储该词库的输入语言和目标语言。根据给予的输入数据,多个词典里确定所进行查找的词典,进行折半查找,给出结果。
模式2的查找方法:输入单词,该单词所属的语言,和目标语言都不知道。这时候可以选择2种策略,
策略1:通过Unicode编码判断,输入单词的语言类型,然后把该语言作为输入语言的所有的词典中查找,把多个查找结果组合起来给出结果。
策略2:不判断单词的语言类型,在所有的词典中进行查找,组合所有得到成功的查找结果,给出结果。
在一般词典数量不是很多,每个词典包含的实体数量不是很多的时后策略2是可行的,但不如策略1.
模式3的查找方法:输入单词的语言类型已给予,但目标语言不知道,这时候采取模式2的策略1类似的方法。在包含输入单词语言类型的所有词典中进行查找,组合所有成功的查找结果,给出结果。
3.WCF中实现多语种电子辞典服务
简单地讲WCF中电子辞典的服务化的目的是资源的共享,这里资源是电子辞典,共享方是连接到该服务的终端。每个终端只能连接服务就能在本地使用一样利用服务资源,这样客户端应用程序是相当简单,运行速度快。因为其中运行慢,占内存的,计算量大的部分放在服务器作为服务。
主要性能如下:
1.在局域网内提供服务。辅助翻译软件的客户是专门进行翻译的工作的单位,公司等等。显然只为在其内的人员提供服务。
2.为多个用户同时提供服务。
3.对单词翻译服务来说,反应时间不得超过人能接受的时间间隔。
本发明翻译效率和智能化程度高。
附图说明
下面将结合附图对本发明作进一步说明。
图1为本发明的电子辞典词库结构图。
图2为本发明多个辞典管理的流程图。
图3是本发明WCF服务框架上提供多辞典翻译服务的描述图。
具体实施方式
一种基于网络服务的多语种词典翻译方法,模式1:输入单词同时,给予该单词所属的语言和期望的目标语言;模式2:给予输入单词,但却不知道该单词所属的语言和期望的目标语言;模式3:给予输入单词,只给出该单词所属的语言类型,但不知道期望的目标语言;模式1的查找方法:每个词库索引部分中同时存储该词库的输入语言和目标语言,根据给予的输入数据,多个词典里确定所进行查找的词典,进行折半查找,给出结果;模式2的查找方法:输入单词,但该单词所属的语言和目标语言都不知道,则运用如下策略:策略1:通过Unicode编码判断,输入单词的语言类型,然后在把该语言作为输入语言的所有的词典中查找,把多个查找结果组合起来给出结果;策略2:不判断单词的语言类型,在所有的词典中进行查找,组合所有得到成功的查找结果,给出结果;模式3的查找方法:输入单词的语言类型已给予,但目标语言不知道,这时候采取模式2的策略1类似的方法,在包含输入单词语言类型的所有词典中进行查找,组合所有成功的查找结果,给出结果。
如图1所示,词库主要由索引区和实体集区构成。其中索引区包括两想内容。第一项是词库文件信息,包括语言信息,词库版本等等。第二想包括实体集中的每一个实体在词库文件中的开始和结束位置,这样根据此信息可以读取任何一个实体。实体集区是一个实体集合,其中每一个实体是单词,该单词的翻译单词,同义词,例子句子等等信息。
如图2所示,辞典多个,但输入不针对任何特定辞典。首先输入个单词,同时考虑查询模式和单词所属于的语言,选择一个或者多个对应的辞典,然后逐步多辞典中得到查询结果并输出结果。
如图3所示,多个客户端通过网络媒体跟服务进行通讯。比如:其中某个客户端发送某个单词查询请求时,服务器上WCF服务结构从服务点接受该请求,然后调用多辞典管理程序来得到查询结果并发送给发送请求的客户。
Claims (1)
1.一种基于网络服务的多语种词典翻译方法,其方法为:此模式1:输入单词同时,给予该单词所属的语言和期望的目标语言;模式2:给予输入单词,但却不知道该单词所属的语言和期望的目标语言;模式3:给予输入单词,只给出该单词所属的语言类型,但不知道期望的目标语言;模式1的查找方法:每个词库索引部分中同时存储该词库的输入语言和目标语言,根据给予的输入数据,多个词典里确定所进行查找的词典,进行折半查找,给出结果;模式2的查找方法:输入单词,但该单词所属的语言和目标语言都不知道,则运用如下策略:策略1:通过Unicode编码判断,输入单词的语言类型,然后在把该语言作为输入语言的所有的词典中查找,把多个查找结果组合起来给出结果;策略2:不判断单词的语言类型,在所有的词典中进行查找,组合所有得到成功的查找结果,给出结果;模式3的查找方法:输入单词的语言类型已给予,但目标语言不知道,这时候采取模式2的策略1类似的方法,在包含输入单词语言类型的所有词典中进行查找,组合所有成功的查找结果,给出结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210553918.XA CN103885940A (zh) | 2012-12-19 | 2012-12-19 | 基于网络服务的多语种词典翻译方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210553918.XA CN103885940A (zh) | 2012-12-19 | 2012-12-19 | 基于网络服务的多语种词典翻译方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103885940A true CN103885940A (zh) | 2014-06-25 |
Family
ID=50954835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210553918.XA Pending CN103885940A (zh) | 2012-12-19 | 2012-12-19 | 基于网络服务的多语种词典翻译方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103885940A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537066A (zh) * | 2014-12-30 | 2015-04-22 | 郑州市中业科技有限公司 | 基于多语言翻译的近义词关联方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3356536B2 (ja) * | 1994-04-13 | 2002-12-16 | 松下電器産業株式会社 | 機械翻訳装置 |
CN1428721A (zh) * | 2001-12-27 | 2003-07-09 | 高庆狮 | 基于语义的机器翻译系统及方法 |
CN101339547A (zh) * | 2007-07-03 | 2009-01-07 | 株式会社东芝 | 用于机器翻译的装置和方法 |
US20090024599A1 (en) * | 2007-07-19 | 2009-01-22 | Giovanni Tata | Method for multi-lingual search and data mining |
CN102214167A (zh) * | 2010-04-09 | 2011-10-12 | 倪劲松 | 一种即时翻译系统、终端及方法 |
-
2012
- 2012-12-19 CN CN201210553918.XA patent/CN103885940A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3356536B2 (ja) * | 1994-04-13 | 2002-12-16 | 松下電器産業株式会社 | 機械翻訳装置 |
CN1428721A (zh) * | 2001-12-27 | 2003-07-09 | 高庆狮 | 基于语义的机器翻译系统及方法 |
CN101339547A (zh) * | 2007-07-03 | 2009-01-07 | 株式会社东芝 | 用于机器翻译的装置和方法 |
US20090024599A1 (en) * | 2007-07-19 | 2009-01-22 | Giovanni Tata | Method for multi-lingual search and data mining |
CN102214167A (zh) * | 2010-04-09 | 2011-10-12 | 倪劲松 | 一种即时翻译系统、终端及方法 |
Non-Patent Citations (1)
Title |
---|
赛依旦·阿不力米提: "基于WCF的维汉词典及机器翻译系统的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537066A (zh) * | 2014-12-30 | 2015-04-22 | 郑州市中业科技有限公司 | 基于多语言翻译的近义词关联方法 |
CN104537066B (zh) * | 2014-12-30 | 2017-10-03 | 郑州中业科技股份有限公司 | 基于多语言翻译的近义词关联方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102831253B (zh) | 一种分布式全文检索系统 | |
CN101350013A (zh) | 一种地理信息的搜索方法和系统 | |
CN104375992A (zh) | 一种地址匹配的方法和装置 | |
CN101576929B (zh) | 一种快速词条提示的实现方法 | |
CN103902535A (zh) | 获取联想词的方法、装置及系统 | |
CN101154228A (zh) | 一种分段模式匹配方法及其装置 | |
CN104820717A (zh) | 一种海量小文件存储及管理方法和系统 | |
CN106407201A (zh) | 一种数据处理方法及装置 | |
CN103226597A (zh) | 基于自然语义的关键词广告匹配方法 | |
CN101150489A (zh) | 基于分布式哈希表的资源共享方法 | |
CN105404693B (zh) | 一种基于需求语义的服务聚类方法 | |
CN102262670A (zh) | 一种基于移动可视设备的跨媒体信息检索系统及方法 | |
CN103092943A (zh) | 一种广告调度的方法和广告调度服务器 | |
Sun et al. | A simple hash-based early exiting approach for language understanding and generation | |
CN103064842A (zh) | 信息订阅处理装置和信息订阅处理方法 | |
Lopez et al. | Scaling up question-answering to linked data | |
CN109542930A (zh) | 一种基于ElasticSearch的数据高效检索方法 | |
CN100456293C (zh) | 一种信息快捷搜索客户端、系统及方法 | |
CN102156749B (zh) | 一种地图网站的自动搜索判别方法、系统及其分布式服务器系统 | |
CN106156262A (zh) | 一种搜索信息处理方法及系统 | |
KR20120082620A (ko) | 온톨로지 정렬 방법 및 이를 적용한 온톨로지 정렬 시스템 | |
CN101859318A (zh) | 一种基于服务网络的服务发现工具的建立方法 | |
Poomagal et al. | K-means for search results clustering using url and tag contents | |
CN103885940A (zh) | 基于网络服务的多语种词典翻译方法 | |
CN103514214B (zh) | 数据查询方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140625 |