发明内容
本发明的目的在于提供一种准确度高的翻译库构建方法。
相应地,本发明的目的还在于提供一种应用上述方法的翻译库构建系统。
为实现上述发明目的之一,本发明采用的技术方案如下:一种翻译库的构建方法,该方法包括构建专业句典,所述构建专业句典包括以下步骤:
S1、提取双语网站上的文本内容;
S2、将所述文本内容以句子为单元进行拆分;
S3、将文本内容中的原始语句和相对应的翻译语句相关联,形成专业句典,存储于翻译库。
作为本发明的进一步改进,在S3步骤后,还包括:
提取电子行业产品及技术资料的英文内容;
将所述英文内容以英文句子为单元进行拆分;
将拆分后的英文句子与所述翻译库中句典进行匹配,若匹配到,则通过所述翻译库中句典对所述英文句子进行翻译;若匹配不到,则在所述翻译库中调取与所述英文句子中关键词最大相似度的句典,并参考所述句典对所述英文句子进行翻译后,以新句典存储于所述翻译库。
作为本发明的进一步改进,在所述“将所述英文内容以英文句子为单元进行拆分”步骤后,还包括:对所述英文句子按照出现于所述产品及技术资料中的频率进行排序。
作为本发明的进一步改进,该方法还包括建立专业词典,所述构建专业词典包括以下步骤:
抓取行业内各网站上指定区域的网页信息;
提取所述网页信息中的文本信息;
对所述文本信息进行分词,以获取若干词条;
判断所述词条是否为本行业的专业词条,若是,将该词条存储于词库中;若否,对该词条进行剔除;
将所述专业词条查找专业词典或者人工翻译,以获取相应的翻译词条;
将所述专业词条与所述翻译词条关联。
作为本发明的进一步改进,在“对所述文本信息进行分词,以获取若干词条”步骤后,还包括:
查询专业英语词库,判断所述专业英语词库中是否已存在该词条,若是,剔除该词条;若否,保存该词条;
统计所述词条在所述网站上的使用频率,并根据所述使用频率对所述词条进行排序。
相应地,为实现上述另一发明目的,本发明提供的一种翻译库的构建系统,该系统用于专业句典的构建,该系统包括:
文本提取单元、用于提取双语网站上的文本内容;
分句单元、用于将所述文本内容以句子为单元进行拆分;
句典生成单元、用于将文本内容中的原始语句和相对应的翻译语句相关联,形成专业句典,存储于翻译库。
作为本发明的进一步改进,该系统还用于:
提取电子行业产品及技术资料的英文内容;
将所述英文内容以英文句子为单元进行拆分;
将拆分后的英文句子与所述翻译库中句典进行匹配,若匹配到,则通过所述翻译库中句典对所述英文句子进行翻译;若匹配不到,则在所述翻译库中调取与所述英文句子中关键词最大相似度的句典,并参考所述句典对所述英文句子进行翻译后,以新句典存储于所述翻译库。
作为本发明的进一步改进,该系统还具体用于:对所述英文句子按照出现于所述产品及技术资料中的频率进行排序。
作为本发明的进一步改进,该系统还用于建立专业词典,其包括如下单元:
网页抓取单元、用于抓取电子行业网站上的网页信息;
文本提取单元、用于提取所述网页信息中的文本信息;
分词单元、用于对所述文本信息进行分词,以获取若干词条;
筛选单元、用于判断所述词条是否为本行业的专业词条,若是,将该词条存储于专业英语词库中;若否,对该词条进行剔除。
翻译单元、用于将所述专业词条查找专业词典或者人工翻译,以获取相应的翻译词条;
专业词典生成单元、用于将所述专业词条与所述翻译词条关联。
作为本发明的进一步改进,该系统还具体用于:
查询专业英语词库,判断所述专业英语词库中是否已存在该词条,若是,剔除该词条;若否,保存该词条;
统计所述词条在所述网站上的使用频率,并根据所述使用频率对所述词条进行排序。
与现有技术相比,本发明通过构建专业句典,使得专业领域内文献的翻译效率及准确度更高。
具体实施方式
以下将结合附图所示的具体实施方式对本发明进行详细描述。但这些实施方式并不限制本发明,本领域的普通技术人员根据这些实施方式所做出的结构、方法、或功能上的变换均包含在本发明的保护范围内。
参图1至图3所示,为本发明翻译库的构建方法的一具体实施方式。其中,该方法包括构建专业句典和构建专业词典,如图2所示,所述构建专业句典包括以下步骤:
S1、提取双语网站上的文本内容;所述双语网站可为电子行业内各主要厂商的官方网站,主要是针对中英双语网站的提取。
S2、将所述文本内容以句子为单元进行拆分;
S3、将文本内容中的原始语句和相对应的翻译语句相关联,形成专业句典,存储于翻译库。优选地,原始语句可为中文句子,翻译语句可为当前此中文句子的意思相对应的英文句子。通过将互相翻译对应的中英文句子进行一一映射,并存储于翻译库中,从而形成可供专业人员翻译专业文献使用的专业句典。
参图3所示,优选地,在本实施方式中,在S3步骤后,本方法还包括如下步骤:
S51、提取电子行业产品及技术资料的英文内容;电子行业的专业人员将待翻译的文献输入到翻译系统,翻译系统提取这些待翻译文献的英文内容,以利用上述构建好的句典作翻译。
S52、将所述英文内容以英文句子为单元进行拆分;
S53、将拆分后的英文句子与所述翻译库中句典进行匹配,此处匹配的方式为完全相似匹配,即将标的英文句子与翻译库中保存的句子进行一一比对,并且在匹配到完全一样的句子时停止匹配。
S54、判断匹配是否成功,若匹配到,则通过所述翻译库中句典对所述英文句子进行翻译(S55);若匹配不到,则在所述翻译库中调取与所述英文句子中关键词最大相似度的句典(S56),并参考所述句典对所述英文句子进行翻译后(S57),以新句典存储于所述翻译库(S58)。
优选地,本实施方式中,在所述S52步骤后,还包括:对所述英文句子按照出现于所述产品及技术资料中的频率进行排序。因句子出现频度高,也就意味着它被使用的概率大,那么必然在库中已经存储的概率也就更大,所以对英文句子按照出现频度从高到低的次序进行排序的,那高频度的句子就被匹配到的概率就非常大,从而对句典翻译带了更高的效率。
参照图4所示,以下以本发明优选的实施方式的专业词典的构建进行详尽描述。专业句典的构建方法,包括如下:
S41、抓取电子行业网站上的网页信息;优选地,电子行业网站主要包括德州仪器等国外各大电子厂商官方网站。本发明中,网页信息抓取器通过特定的优先策略从上述网站上进行特定区域的网页信息抓取动作,其中,优先策略包括链接欢迎度、或者链接重要度、或者平均链接的深度等。
S42、提取所述网页信息中的文本信息;于本发明中,所述网页信息中可能包括图片、链接、文字等信息,从抓取到的网页信息中解析出我们需要的字段信息,并按照指定的格式进行信息的存放和加工处理。
S43、对所述文本信息进行分词,以获取若干词条;因为是全英文网站,所以提取的文本信息中包括多个英文词汇,这其中包括电子类专业词条、非专业词条(其他行业的专业词条)以及一些通用的词条。所以,本实施方式中,需要将所以提取到的文本信息分词为多个词条。
S44、判断所述词条是否为本行业的专业词条,若是,将该词条存储于专业英语词库中;若否,对该词条进行剔除。优选地,通过滤除词条中非专业词条、和通用词条,以实现专业词条的获取。
S45、将所述专业词条查找专业词典(google翻译,金山词霸等)或者人工翻译(专业翻译人员),以获取相应的翻译词条(中文);
S46、将所述专业词条(英文)与所述翻译词条(中文)关联。如此,可构建电子行业比较健全的中英文对照词典。
优选地,在本实施方式中,在S43步骤后,还包括:
查询专业英语词库,判断所述专业英语词库中是否已存在该词条,若是,剔除该词条;若否,保存该词条;该步骤首先确保库中不存在重复收集的词条,也进一步提高英文信息库的建立效率。
统计所述词条在所述网站上的使用频率,并根据所述使用频率对所述词条进行排序。将文本信息分词后,统计出所有搜集到的词条,因一段文字中可能多次出现某词条,于是,本发明通过统计出各词条在所有提取的文体中出现过的总次数,并按照这样的出现次数的高度进行排序 ,从而在判断词条是否为专业词条时更加方便。众所周知,一般地,此类专业电子网站上出现频度最高的是通用词条(is、all、the等),而电子行业的专业词条往往是出现频度次于上述通用词条的,出现频度再低一些的词条可能就是其他行业的词条。
值得一提的是,本发明构建的专业词典,可供专业翻译人员进行特定句子的参考翻译时,作为部分词汇的翻译参考。
接下来,请参图5所示,为本发明翻译库的构建系统的一具体实施方式。因该系统应用上述方法,所以在具体技术特征上沿用上述方法。其中,该系统同样包括构建专业句典功能和构建专业词典功能,在本实施方式中,构建专业句典功能通过以下单元:
文本提取单元10、用于提取双语网站上的文本内容;所述双语网站可为电子行业内各主要厂商的官方网站,主要是针对中英双语网站的提取。
分句单元20、用于将所述文本内容以句子为单元进行拆分;
句典生成单元30、用于将文本内容中的原始语句和相对应的翻译语句相关联,形成专业句典,存储于翻译库。优选地,原始语句可为中文句子,翻译语句可为当前此中文句子的意思相对应的英文句子。通过将互相翻译对应的中英文句子进行一一映射,并存储于翻译库中,从而形成可供专业人员翻译专业文献使用的专业句典。
优选地,在本实施方式中,,本系统还用于:
提取电子行业产品及技术资料的英文内容;电子行业的专业人员将待翻译的文献输入到翻译系统,翻译系统提取这些待翻译文献的英文内容,以利用上述构建好的句典作翻译。
将所述英文内容以英文句子为单元进行拆分;
将拆分后的英文句子与所述翻译库中句典进行匹配,此处匹配的方式为完全相似匹配,即将标的英文句子与翻译库中保存的句子进行一一比对,并且在匹配到完全一样的句子时停止匹配。
判断匹配是否成功,若匹配到,则通过所述翻译库中句典对所述英文句子进行翻译;若匹配不到,则在所述翻译库中调取与所述英文句子中关键词最大相似度的句典,并参考所述句典对所述英文句子进行翻译后,以新句典存储于所述翻译库。
优选地,本实施方式中,上述系统还用于:对所述英文句子按照出现于所述产品及技术资料中的频率进行排序。因句子出现频度高,也就意味着它被使用的概率大,那么必然在库中已经存储的概率也就更大,所以对英文句子按照出现频度从高到低的次序进行排序的,那高频度的句子就被匹配到的概率就非常大,从而对句典翻译带了更高的效率。
以下以本发明优选的实施方式的该系统中专业词典的构建进行详尽描述。其包括如下如下单元:
网页抓取单元40、用于抓取电子行业网站上的网页信息;优选地,电子行业网站主要包括德州仪器等国外各大电子厂商官方网站。本发明中,网页信息抓取器通过特定的优先策略从上述网站上进行特定区域的网页信息抓取动作,其中,优先策略包括链接欢迎度、或者链接重要度、或者平均链接的深度等。
文本提取单元50、用于提取所述网页信息中的文本信息;于本发明中,所述网页信息中可能包括图片、链接、文字等信息,从抓取到的网页信息中解析出我们需要的字段信息,并按照指定的格式进行信息的存放和加工处理。
分词单元60、用于对所述文本信息进行分词,以获取若干词条;因为是全英文网站,所以提取的文本信息中包括多个英文词汇,这其中包括电子类专业词条、非专业词条(其他行业的专业词条)以及一些通用的词条。所以,本实施方式中,需要将所以提取到的文本信息分词为多个词条。
筛选单元70、用于判断所述词条是否为本行业的专业词条,若是,将该词条存储于专业英语词库中;若否,对该词条进行剔除。优选地,通过滤除词条中非专业词条、和通用词条,以实现专业词条的获取。
翻译单元80、用于将所述专业词条查找专业词典(google翻译,金山词霸等)或者人工翻译(专业翻译人员),以获取相应的翻译词条(中文);
专业词典生成单元90、用于将所述专业词条(英文)与所述翻译词条(中文)关联。如此,可构建电子行业比较健全的中英文对照词典。
优选地,在本实施方式中,该系统还用于:
查询专业英语词库,判断所述专业英语词库中是否已存在该词条,若是,剔除该词条;若否,保存该词条;该步骤首先确保库中不存在重复收集的词条,也进一步提高英文信息库的建立效率。
统计所述词条在所述网站上的使用频率,并根据所述使用频率对所述词条进行排序。将文本信息分词后,统计出所有搜集到的词条,因一段文字中可能多次出现某词条,于是,本发明通过统计出各词条在所有提取的文体中出现过的总次数,并按照这样的出现次数的高度进行排序 ,从而在判断词条是否为专业词条时更加方便。众所周知,一般地,此类专业电子网站上出现频度最高的是通用词条(is、all、the等),而电子行业的专业词条往往是出现频度次于上述通用词条的,出现频度再低一些的词条可能就是其他行业的词条。
综上所述,本发明主要通过构建行业内的专业句典以及专业词典的专业翻译库,通过在使用专业句典对行业内专业文献进行翻译,并在此过程中不断完善和更新翻译库,使得专业领域内文献的翻译效率及准确度更高。不仅如此,本发明通过建立这样的专业翻译库,可避免使用在线翻译工具的过程中,所带来的翻译效率不高的问题,本发明的翻译方法,通过优化搜索引擎,将库中包括的句典和词典按照使用频度进行排序,从而减小搜索引擎的负担,进而提升专业文献的翻译效率,提高行业效益。
应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施方式中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明,它们并非用以限制本发明的保护范围,凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。