CN108427672A - 文字翻译的方法及终端设备 - Google Patents
文字翻译的方法及终端设备 Download PDFInfo
- Publication number
- CN108427672A CN108427672A CN201810121444.9A CN201810121444A CN108427672A CN 108427672 A CN108427672 A CN 108427672A CN 201810121444 A CN201810121444 A CN 201810121444A CN 108427672 A CN108427672 A CN 108427672A
- Authority
- CN
- China
- Prior art keywords
- languages
- text object
- local
- principal component
- mother tongue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明适用于人工智能技术领域,提供了一种文字翻译的方法及终端设备,通过获取母语语种,并根据预设的地理位置与本地语种的对应关系,确定所述用户位置对应的本地语种,在本地语种不为母语语种时,开启翻译功能,并在翻译功能开启后,检测文字对象所属的语种,若文字对象不属于所述母语语种,而且不属于所述本地语种,则通过预设算法识别文字对象,以得到对象语种,并将所述文字对象翻译为所述母语语种,使得用户无需手动选择本地语种,并且无需手动输入待翻译的文字,就可以在陌生的环境下对文字进行翻译,提高了自动翻译的便捷性。
Description
技术领域
本发明属于人工智能领域,尤其涉及一种文字翻译的方法及终端设备。
背景技术
随着经济发展,越来越多的人走出国门到语言陌生的环境去旅游和工作。然而人们在异国他乡经常会遇到语言文字不通的情况,这给人们的生活和工作带来了极大的不便。例如,当人们在日本走进一家餐厅,会因为看不懂菜谱而无从点菜,当我们在法国的博物馆参观,也可能因为看不懂艺术品的介绍而影响参访效果。
为了解决在语言陌生环境下的阅读障碍问题,人们往往需要通过电子词典对当地的语言文字进行翻译,然而电子词典需要人手动输入待翻译的文字以及手动对当地语言以及母语进行选择,之后才可以进行翻译。
由此可见,当前的翻译过程需要人手动操作,而且步骤非常比较繁杂,耗时也非常的长,因此当前的文字翻译技术存在用户便捷性差,处理效率低等问题。
发明内容
有鉴于此,本发明实施例提供了一种文字翻译的方法及终端设备,以解决现有技术在陌生环境进行文字翻译时存在的用户便捷性差,而且处理效率低的问题。
本发明实施例的第一方面提供了一种文字翻译的方法,包括:
获取用户输入的母语语种,并检测用户位置,根据预设的地理位置与本地语种的对应关系,确定所述用户位置对应的本地语种;
若所述本地语种不为所述母语语种,则开启翻译功能;
在所述翻译功能开启后,检测文字对象,并判断所述文字对象是否属于所述母语语种或者所述本地语种;
若所述文字对象不属于所述母语语种,而且不属于所述本地语种,则获取一个以上语种的分类超平面;采用主成分分析法对所述文字对象进行降维处理,生成所述文字对象的主成分矩阵,再通过高斯核函数将所述文字对象的主成分矩阵映射到高维特征空间,以生成所述文字对象的测试参数;
计算所述文字对象的测试参数与各个所述语种的分类超平面的欧式距离,作为各个语种对应的欧式距离,将欧式距离最小的语种,确定为对象语种,并将所述文字对象翻译为所述母语语种。
本发明实施例的第二方面提供了一种终端设备,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如下步骤:
获取用户输入的母语语种,并检测用户位置,根据预设的地理位置与本地语种的对应关系,确定所述用户位置对应的本地语种;
若所述本地语种不为所述母语语种,则开启翻译功能;
在所述翻译功能开启后,检测文字对象,并判断所述文字对象是否属于所述母语语种或者所述本地语种;
若所述文字对象不属于所述母语语种,而且不属于所述本地语种,则获取一个以上语种的分类超平面;采用主成分分析法对所述文字对象进行降维处理,生成所述文字对象的主成分矩阵,再通过高斯核函数将所述文字对象的主成分矩阵映射到高维特征空间,以生成所述文字对象的测试参数;
计算所述文字对象的测试参数与各个所述语种的分类超平面的欧式距离,作为各个语种对应的欧式距离,将欧式距离最小的语种,确定为对象语种,并将所述文字对象翻译为所述母语语种。
本发明实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如下步骤:
获取用户输入的母语语种,并检测用户位置,根据预设的地理位置与本地语种的对应关系,确定所述用户位置对应的本地语种;若所述本地语种不为所述母语语种,则开启翻译功能;在所述翻译功能开启后,检测文字对象,并判断所述文字对象是否属于所述母语语种或者所述本地语种;若所述文字对象不属于所述母语语种,而且不属于所述本地语种,则获取一个以上语种的分类超平面;采用主成分分析法对所述文字对象进行降维处理,生成所述文字对象的主成分矩阵,再通过高斯核函数将所述文字对象的主成分矩阵映射到高维特征空间,以生成所述文字对象的测试参数;计算所述文字对象的测试参数与各个所述语种的分类超平面的欧式距离,作为各个语种对应的欧式距离,将欧式距离最小的语种,确定为对象语种,并将所述文字对象翻译为所述母语语种。
进一步地,在所述获取用户输入的母语语种,并检测用户位置,根据预设的地理位置与语种的对应关系,将所述用户位置对应的语种作为本地语种之前,还包括:统计多个用户输入的本地语种,并检测各个用户输入本地语种时的位置坐标;设定单位面积,并将地图中的一个所述单位面积内本地语种比例最高的语种确定为所述单位面积内所有位置坐标对应的本地语种,以生成所述地理位置与本地语种的对应关系。
进一步地,所述检测文字对象,并判断所述文字对象是否属于所述母语语种或者所述本地语种,包括:
检测所述文字对象中的空隙间隔,并根据所述空隙间隔将所述文字对象分为多个文字字符;选取预设个数的所述文字字符,并提取所述文字字符的主成分;调取所述母语语种的字符主成分数据库以及所述本地语种的字符主成分数据库,并计算所述预设个数的所述文字字符的主成分存在于所述母语语种的字符主成分数据库的比例,作为第一比例,计算所述预设个数的所述文字字符的主成分存在于所述本地语种的字符主成分数据库的比例,作为第二比例;若所述第一比例大于或等于预设的比例阈值,而所述第二比例小于所述预设的比例阈值,则所述文字对象属于所述母语语种;若所述第二比例大于或等于所述预设的比例阈值,而所述第一比例小于所述预设的比例阈值,则所述文字对象属于所述本地语种;若所述第一比例小于所述预设的比例阈值,而且所述第二比例小于所述预设的比例阈值,则所述文字对象不属于所述母语语种,而且不属于所述本地语种。
进一步地,在所述若所述文字对象不属于所述母语语种,而且不属于所述本地语种,则获取一个以上语种的分类超平面;采用主成分分析法对所述文字对象进行降维处理,生成所述文字对象的主成分矩阵,再通过高斯核函数将所述文字对象的主成分矩阵映射到高维特征空间,以生成所述文字对象的测试参数之前,还包括:选取一个以上的候选语种,并获取所述候选语种的一个以上的语种数据库;采用主成分分析法对各个所述语种数据库进行降维处理,生成各个所述候选语种的主成分矩阵;通过高斯核函数将所述各个所述候选语种的主成分矩阵映射到高维特征空间,以生成各个所述候选语种的训练参数;反复执行从一个以上的所述候选语种中选择一个语种作为被选语种,将所述被选语种对应的训练参数组成正向训练集,将所述被选语种以外的语种对应的训练参数组成负向训练集,并根据所述正向训练集以及所述负向训练集计算出分类超平面,直至计算出全部候选语种的分类超平面。
进一步地,还包括:若所述文字对象属于所述母语语种,则将所述文字对象翻译为所述本地语种;若所述文字对象属于所述本地语种,则将所述文字对象翻译为所述母语语种。
在本发明实施例中,通过获取母语语种,并根据预设的地理位置与本地语种的对应关系,确定所述用户位置对应的本地语种,在本地语种不为母语语种时,开启翻译功能,并在翻译功能开启后,检测文字对象所属的语种,若文字对象不属于所述母语语种,而且不属于所述本地语种,则通过预设算法识别文字对象,以得到对象语种,并将所述文字对象翻译为所述母语语种,使得用户无需手动选择本地语种,并且无需手动输入待翻译的文字,就可以在陌生的环境下对文字进行翻译,提高了自动翻译的便捷性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文字翻译的方法的实现流程图;
图2是本发明实施例提供的文字翻译的方法S105的具体实现流程图;
图3是本发明实施例提供的计算语种的分类超平面的具体实现流程图;
图4是本发明实施例提供的文字翻译的装置的结构框图;
图5是本发明实施例提供的终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本发明实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1示出了本发明实施例提供的文字翻译的方法的实现流程,该方法流程包括步骤S101至S105。各步骤的具体实现原理如下。
S101:获取用户输入的母语语种,并检测用户位置,根据预设的地理位置与本地语种的对应关系,确定所述用户位置对应的本地语种。
当用户处于一个需要翻译文字的环境下,本发明实施例所涉及的方法需要首先获取用户输入的母语语种,例如中文语种、英语语种以及日语语种等。可以理解地,由于一款终端设备的使用者往往只有一个人,即使使用者存在多个人,但是多个使用一款终端设备的使用者往往对应的是一个母语语种,所以使用者并不需要每次都输入母语语种,在正常情况下,一般只需要在第一次使用本发明实施例所涉及的方法进行翻译时,才需要手动的输入母语语种。
此外,本发明实施例需要检测用户位置,可选地,可以通过采集用户的GPS坐标以检测用户位置。
在本发明实施例中,预先设定了多组地理位置与本地语种的对应关系,例如,在西经73度至西经125度,北纬25度至北纬49度的范围内,对应的本地语种为英语语种;在东经139度至东经142度,北纬35度至北纬40度的范围内,对应的本地语种为日语语种。
可以理解地,通过上述的地理位置与本地语种的对应关系,可以确定检测到的用户位置对应的本地语种。
进一步地,由于在本发明实施例中,地理位置与本地语种的对应关系是预设的,所以也并不需要用户在每一次希望对文字进行翻译时输入本地语种,本发明实施例可以通过用户位置自动确定本地语种。此外,本发明实施例还提供了在所述获取用户输入的母语语种,并检测用户位置,根据预设的地理位置与语种的对应关系,将所述用户位置对应的语种作为本地语种之前,建立地理位置与本地语种的对应关系的方法,该方法包括:
首先,统计多个用户输入的本地语种,并检测各个用户输入本地语种时的位置坐标。
可以理解地,由于在一个大的地理范围内,可能存在一个小的地理范围的本地语种与其所在的大的地理范围的本地语种不同的情况,而这些小的区域对应的本地语种往往是很难直接确定的。例如,加拿大作为一个大的地理范围,其官方的本地语种应该是英语语种,然而在加拿大这个大的地理范围内,存在一个魁北克地区,二魁北克地区作为一个小的地理范围,其官方的本地语种是法语语种,在魁北克地区内例如博物馆中的介绍、餐馆的菜谱以及指示牌等文字,大多是由法语书写的。所以为了使得本发明实施例所自动确定的本地语种更加贴合实际情况,本发明实施例可以接收用户对于本地语种的选择。
可以理解地,虽然如上文所述,用户为了翻译文字并不需要每次都手动输入本地语种,可以通过用户位置自动确定本地语种,但是并不意味着不可以接收用户手动输入本地语种的。在很多情况下,例如用户发现自动确定的本地语种与真实情况不符合,或者发现无法通过用户位置确定本地语种时,用户都可以通过手动输入的方式,确定本地语种。本发明实施例在接收到用户输入的本地语种后,会确定并记录当前的位置坐标,并以此作为后续生成或修改地理位置与本地语种的对应关系的参考数据。
其次,设定单位面积,并将地图中的一个所述单位面积内本地语种比例最高的语种确定为所述单位面积内所有位置坐标对应的本地语种,以生成所述地理位置与本地语种的对应关系。
可选地,在一个世界地图上划设多个区域,每个区域都为一个矩形,而且每个区域的面积设定为单位面积,例如,将世界地图分为多个面积为1平方公里的正方形区域。
可以理解地,由于在上述步骤中,统计了多个用户输入的本地语种,所以可以在本步骤中计算出各个区域内用户输入的本地语种的比例,例如:在某个区域内,一共接收到100名用户输入的本地语种,其中有90名用户输入的本地语种是英语语种,有8名用户输入的本地语种是法语语种,有2名用户输入的本地语种是西班牙语语种,则确定该区域内所有位置坐标对应的本地语种都是英语语种。
在本发明实施例中,通过检测用户位置,智能地确定本地语种,从而减少用户手动选择语种的步骤次数,提高了操作效率。
S102:判断所述本地语种是否为母语语种。
在本发明实施例中,由于考虑到节省CPU处理资源以及电量的原因,文字翻译功能并不是持续开启的,而只有在本地语种与母语语种不相同时,翻译功能才会自动开启。所以需要首先对根据上述步骤确定的母语语种以及本地语种是否一致做出判断。
S103,若所述本地语种为所述母语语种,则不自动开启翻译功能。
S104,若所述本地语种不为所述母语语种,则开启翻译功能。
值得注意地,虽然在本发明实施例中,只有在本地语种不为所述母语语种时会自动开启翻译功能,但是并不代表只有在这种情况下翻译功能才会开启,因为翻译功能还可以被用户手动开启,例如在本地语种为母语语种时,如果用户手动输入翻译开启指令,翻译功能依然会开启。
S105:在所述翻译功能开启后,检测文字对象,并判断所述文字对象是否属于所述母语语种或者所述本地语种。
可以理解地,当翻译功能开启后,通过终端设备的摄像头就可以检测待翻译的文字对象,以进一步判断所述文字对象是否属于母语语种或者本地语种。
作为本发明的一个实施例,如图2所示,上述S105包括:
S1051:检测所述文字对象中的空隙间隔,并根据所述空隙间隔将所述文字对象分为多个文字字符。
具体地,由于一个文字对象可能是由多个文字字符构成的,所以通过检测文字对象的空隙间隔,将文字对象分为多个部分,通过现有的图像识别技术可以识别出每个部分对应的文字字符。
S1052:选取预设个数的所述文字字符,并提取所述文字字符的主成分。
可选地,在本发明实施例中,可以通过主成分分析算法(Principal ComponentAnalysis,PCA)提取出各个文字字符的主成分,从而减少后续计算的计算量。
S1053:调取所述母语语种的字符主成分数据库以及所述本地语种的字符主成分数据库,并计算所述预设个数的所述文字字符的主成分存在于所述母语语种的字符主成分数据库的比例,作为第一比例,计算所述预设个数的所述文字字符的主成分存在于所述本地语种的字符主成分数据库的比例,作为第二比例。
可以理解地,由于根据上文所述的方法已经确定了母语语种以及本地语种,所以在本步骤中,可以调用母语语种的字符主成分数据库以及所述本地语种的字符主成分数据库,而且上述两个数据库中分别包含了大量的母语语种的字符主成分以及大量的本地语种的字符主成分,所以可以依次将预设个数的文字字符的主成分在母语语种的字符主成分数据库以及所述本地语种的字符主成分数据库中进行查找,以确定预设个数的文字字符的主成分存在于母语语种的字符主成分数据库的比例,作为第一比例,计算预设个数的文字字符的主成分存在于本地语种的字符主成分数据库的比例,作为第二比例。
S1054,若所述第一比例大于或等于预设的比例阈值,而所述第二比例小于所述预设的比例阈值,则所述文字对象属于所述母语语种;
S1055,若所述第二比例大于或等于所述预设的比例阈值,而所述第一比例小于所述预设的比例阈值,则所述文字对象属于所述本地语种;
S1056,若所述第一比例小于所述预设的比例阈值,而且所述第二比例小于所述预设的比例阈值,则所述文字对象不属于所述母语语种,而且不属于所述本地语种。
在本发明实施例中,通过对文字对象中的文字字符的主成分出现在母语语种的字符主成分数据库的概率以及出现在所述本地语种的字符主成分数据库的概率,判断文字对象是否属于所述母语语种或者本地语种。此外,由于用户待翻译的文字对象有很大的概率是属于用户的母语语种或者本地语种的,而针对两个语种的判别过程所需要的计算量要远远小于将文字对象通过模式识别的方式计算对应的语种的计算量,所以本步骤的判别过程,有利于减小数据处理量,提高自动操作的速率。
S106:若所述文字对象不属于所述母语语种,而且不属于所述本地语种,则获取一个以上语种的分类超平面;采用主成分分析法对所述文字对象进行降维处理,生成所述文字对象的主成分矩阵,再通过高斯核函数将所述文字对象的主成分矩阵映射到高维特征空间,以生成所述文字对象的测试参数。
可以理解地,由于文字对象最可能的所属语种为母语语种或者本地语种,所以在上述的步骤中首先对文字对象是否属于母语语种或者本地语种进行判断,如果文字对象属于母语语种或者本地语种,就可以直接调用对应的词典对文字对象中的字符进行翻译,从而减少翻译的计算量。然而,存在一种可能,即文字对象既不属于母语语种也不属于本地语种,则本发明实施例会采用一种模式识别的方法识别出文字对象所属的语种。
在本发明实施例中,事先训练出多个语种的分类超平面,例如德语语种的分类超平面、韩语语种的分类超平面以及英语语种的分类超平面,并进一步基于这些分类超平面判断文字对象所属的语种,具体的判断过程将在下文详述,在此首先描述在所述若所述文字对象不属于所述母语语种,而且不属于所述本地语种,则获取一个以上语种的分类超平面;采用主成分分析法对所述文字对象进行降维处理,生成所述文字对象的主成分矩阵,再通过高斯核函数将所述文字对象的主成分矩阵映射到高维特征空间,以生成所述文字对象的测试参数之前,还包括的一个计算语种的分类超平面的流程。
作为本发明的一个实施例,图3示出了本发明实施例提供的计算语种的分类超平面的具体实现流程,详述如下:
S201:选取一个以上的候选语种,并获取所述候选语种的一个以上的语种数据库。
在本发明实施例中,需要将多个常用的语种作为候选语种,例如:法语、英语、日语等等,并调取这些候选语种的语种数据库,这些语种数据库类似是这些语种的字典,但与普通的字典相比,这些语种数据库可以更加简洁,可以不包含单词的解释,而只收录各个单词本身。
S202:采用主成分分析法对各个所述语种数据库进行降维处理,生成各个所述候选语种的主成分矩阵。
在本发明实施例中,由于考虑到一个语种对应的数据库转换成矩阵形式后,维度过大,不利于后续的计算速度,而且一个语种的单词往往都是有共同的写法上的特点,所以可以通过PCA算法提取各个候选语种的主成分,以生成各个候选语种的主成分矩阵。
S203:通过高斯核函数将所述各个所述候选语种的主成分矩阵映射到高维特征空间,以生成各个所述候选语种的训练参数。
可选地,计算所有候选语种的主成分矩阵的平均值,生成平均主成分矩阵,并通过公式计算各个候选语种的训练参数,其中,Pi表示候选语种i的训练参数,Xi表示候选语种的i的主成分矩阵,X’表示平均主成分矩阵,δ表示Xi与X’的协方差矩阵。
S204,反复执行从一个以上的所述候选语种中选择一个语种作为被选语种,将所述被选语种对应的训练参数组成正向训练集,将所述被选语种以外的语种对应的训练参数组成负向训练集,并根据所述正向训练集以及所述负向训练集计算出分类超平面,直至计算出全部候选语种的分类超平面。
可选地,可以将一个候选语种对应的正向训练集以及负向训练集一起输入支持向量机模型中,计算出该候选语种的分类超平面。
值得注意地,上述分类超平面的计算过程可以在检测文字对象之前进行,即多个语种对应的分类超平面可以是预先计算,并存储在移动终端中,当移动终端需要对文字对象进行识别时,对多个语种的分类超平面进行调用即可。可以理解地,由于多个语种的分类超平面是可以预先存储的,本发明实施例也可以不通过上述方法计算分类超平面,通过其他方法只要可以计算出多个语种的分类超平面并存储于移动终端,均可以实现后续的计算过程。
在本发明实施例中,可以通过PCA算法提取文字对象的主成分,以生成文字对象的主成分矩阵。进一步地,通过高斯核函数将所述文字对象的主成分矩阵映射到高维特征空间,以生成所述文字对象的测试参数,具体的计算方式与计算候选语种的训练参数的计算方式相同,所以不在此赘述。
S107,计算所述文字对象的测试参数与各个所述语种的分类超平面的欧式距离,作为各个语种对应的欧式距离,将欧式距离最小的语种,确定为对象语种,并将所述文字对象翻译为所述母语语种。
可以理解地,通过欧式距离公式可以计算出测试参数到各个语种的分类超平面的欧式距离,而欧式距离越小证明测试参数与分类超平面的差距越小,进而证明测试参数与该分类超平面对应的语种最相似,所以在本发明实施例中,将欧式距离最小的语种,确定为对象语种。
进一步地,在确定了文字对象对应的对象语种之后,将文字对象翻译为母语语种。
S108,若所述文字对象属于所述母语语种,则将所述文字对象翻译为所述本地语种;
S109,若所述文字对象属于所述本地语种,则将所述文字对象翻译为所述母语语种。
在本发明实施例中,通过获取母语语种,并根据预设的地理位置与本地语种的对应关系,确定所述用户位置对应的本地语种,在本地语种不为母语语种时,开启翻译功能,并在翻译功能开启后,检测文字对象所属的语种,若文字对象不属于所述母语语种,而且不属于所述本地语种,则通过预设算法识别文字对象,以得到对象语种,并将所述文字对象翻译为所述母语语种,使得用户无需手动选择本地语种,并且无需手动输入待翻译的文字,就可以在陌生的环境下对文字进行翻译,提高了自动翻译的便捷性。
对应于上文实施例所述的文字翻译的方法,图4示出了本发明实施例提供的文字翻译的装置的结构框图,为了便于说明,仅示出了与本发明实施例相关的部分。
参照图4,该装置包括:
获取模块401,用于获取用户输入的母语语种,并检测用户位置,根据预设的地理位置与本地语种的对应关系,确定所述用户位置对应的本地语种;
开启模块402,用于若所述本地语种不为所述母语语种,则开启翻译功能;
判断模块403,用于在所述翻译功能开启后,检测文字对象,并判断所述文字对象是否属于所述母语语种或者所述本地语种;
生成模块404,用于若所述文字对象不属于所述母语语种,而且不属于所述本地语种,则获取一个以上语种的分类超平面;采用主成分分析法对所述文字对象进行降维处理,生成所述文字对象的主成分矩阵,再通过高斯核函数将所述文字对象的主成分矩阵映射到高维特征空间,以生成所述文字对象的测试参数;
第一翻译模块405,用于计算所述文字对象的测试参数与各个所述语种的分类超平面的欧式距离,作为各个语种对应的欧式距离,将欧式距离最小的语种,确定为对象语种,并将所述文字对象翻译为所述母语语种。
可选地,所述装置还包括:
统计模块,用于统计多个用户输入的本地语种,并检测各个用户输入本地语种时的位置坐标;
对应模块,用于设定单位面积,并将地图中的一个所述单位面积内本地语种比例最高的语种确定为所述单位面积内所有位置坐标对应的本地语种,以生成所述地理位置与本地语种的对应关系。
可选地,所述判断模块403包括:
检测子模块,用于检测所述文字对象中的空隙间隔,并根据所述空隙间隔将所述文字对象分为多个文字字符;
选取子模块,用于选取预设个数的所述文字字符,并提取所述文字字符的主成分;
计算子模块,用于调取所述母语语种的字符主成分数据库以及所述本地语种的字符主成分数据库,并计算所述预设个数的所述文字字符的主成分存在于所述母语语种的字符主成分数据库的比例,作为第一比例,计算所述预设个数的所述文字字符的主成分存在于所述本地语种的字符主成分数据库的比例,作为第二比例;
第一判定子模块,用于若所述第一比例大于或等于预设的比例阈值,而所述第二比例小于所述预设的比例阈值,则所述文字对象属于所述母语语种;
第二判定子模块,用于若所述第二比例大于或等于所述预设的比例阈值,而所述第一比例小于所述预设的比例阈值,则所述文字对象属于所述本地语种;
第三判定子模块,用于若所述第一比例小于所述预设的比例阈值,而且所述第二比例小于所述预设的比例阈值,则所述文字对象不属于所述母语语种,而且不属于所述本地语种。
可选地,所述装置还包括:
选取一个以上的候选语种,并获取所述候选语种的一个以上的语种数据库;
采用主成分分析法对各个所述语种数据库进行降维处理,生成各个所述候选语种的主成分矩阵;
通过高斯核函数将所述各个所述候选语种的主成分矩阵映射到高维特征空间,以生成各个所述候选语种的训练参数;
反复执行从一个以上的所述候选语种中选择一个语种作为被选语种,将所述被选语种对应的训练参数组成正向训练集,将所述被选语种以外的语种对应的训练参数组成负向训练集,并根据所述正向训练集以及所述负向训练集计算出分类超平面,直至计算出全部候选语种的分类超平面。
可选地,所述装置还包括:
第二翻译模块,用于若所述文字对象属于所述母语语种,则将所述文字对象翻译为所述本地语种;
第三翻译模块,用于若所述文字对象属于所述本地语种,则将所述文字对象翻译为所述母语语种。
在本发明实施例中,通过获取母语语种,并根据预设的地理位置与本地语种的对应关系,确定所述用户位置对应的本地语种,在本地语种不为母语语种时,开启翻译功能,并在翻译功能开启后,检测文字对象所属的语种,若文字对象不属于所述母语语种,而且不属于所述本地语种,则通过预设算法识别文字对象,以得到对象语种,并将所述文字对象翻译为所述母语语种,使得用户无需手动选择本地语种,并且无需手动输入待翻译的文字,就可以在陌生的环境下对文字进行翻译,提高了自动翻译的便捷性。
图5是本发明一实施例提供的终端设备的示意图。如图5所示,该实施例的终端设备5包括:处理器50、存储器51以及存储在所述存储器51中并可在所述处理器50上运行的计算机程序52,例如文字翻译的程序。所述处理器50执行所述计算机程序52时实现上述各个文字翻译的方法实施例中的步骤,例如图1所示的步骤101至109。或者,所述处理器50执行所述计算机程序52时实现上述各装置实施例中各模块/单元的功能,例如图4所示单元401至409的功能。
示例性的,所述计算机程序52可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器51中,并由所述处理器50执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序52在所述终端设备5中的执行过程。
所述终端设备5可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器50、存储器51。本领域技术人员可以理解,图5仅仅是终端设备5的示例,并不构成对终端设备5的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器50可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器51可以是所述终端设备5的内部存储单元,例如终端设备5的硬盘或内存。所述存储器51也可以是所述终端设备5的外部存储设备,例如所述终端设备5上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器51还可以既包括所述终端设备5的内部存储单元也包括外部存储设备。所述存储器51用于存储所述计算机程序以及所述终端设备所需的其他程序和数据。所述存储器51还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种文字翻译的方法,其特征在于,包括:
获取用户输入的母语语种,并检测用户位置,根据预设的地理位置与本地语种的对应关系,确定所述用户位置对应的本地语种;
若所述本地语种不为所述母语语种,则开启翻译功能;
在所述翻译功能开启后,检测文字对象,并判断所述文字对象是否属于所述母语语种或者所述本地语种;
若所述文字对象不属于所述母语语种,而且不属于所述本地语种,则获取一个以上语种的分类超平面;采用主成分分析法对所述文字对象进行降维处理,生成所述文字对象的主成分矩阵,再通过高斯核函数将所述文字对象的主成分矩阵映射到高维特征空间,以生成所述文字对象的测试参数;
计算所述文字对象的测试参数与各个所述语种的分类超平面的欧式距离,作为各个语种对应的欧式距离,将欧式距离最小的语种,确定为对象语种,并将所述文字对象翻译为所述母语语种。
2.如权利要求1所述的文字翻译的方法,其特征在于,在所述获取用户输入的母语语种,并检测用户位置,根据预设的地理位置与语种的对应关系,将所述用户位置对应的语种作为本地语种之前,还包括:
统计多个用户输入的本地语种,并检测各个用户输入本地语种时的位置坐标;
设定单位面积,并将地图中的一个所述单位面积内本地语种比例最高的语种确定为所述单位面积内所有位置坐标对应的本地语种,以生成所述地理位置与本地语种的对应关系。
3.如权利要求1所述的文字翻译的方法,其特征在于,所述检测文字对象,并判断所述文字对象是否属于所述母语语种或者所述本地语种,包括:
检测所述文字对象中的空隙间隔,并根据所述空隙间隔将所述文字对象分为多个文字字符;
选取预设个数的所述文字字符,并提取所述文字字符的主成分;
调取所述母语语种的字符主成分数据库以及所述本地语种的字符主成分数据库,并计算所述预设个数的所述文字字符的主成分存在于所述母语语种的字符主成分数据库的比例,作为第一比例,计算所述预设个数的所述文字字符的主成分存在于所述本地语种的字符主成分数据库的比例,作为第二比例;
若所述第一比例大于或等于预设的比例阈值,而所述第二比例小于所述预设的比例阈值,则所述文字对象属于所述母语语种;
若所述第二比例大于或等于所述预设的比例阈值,而所述第一比例小于所述预设的比例阈值,则所述文字对象属于所述本地语种;
若所述第一比例小于所述预设的比例阈值,而且所述第二比例小于所述预设的比例阈值,则所述文字对象不属于所述母语语种,而且不属于所述本地语种。
4.如权利要求1所述的文字翻译的方法,其特征在于,在所述若所述文字对象不属于所述母语语种,而且不属于所述本地语种,则获取一个以上语种的分类超平面;采用主成分分析法对所述文字对象进行降维处理,生成所述文字对象的主成分矩阵,再通过高斯核函数将所述文字对象的主成分矩阵映射到高维特征空间,以生成所述文字对象的测试参数之前,还包括:
选取一个以上的候选语种,并获取所述候选语种的一个以上的语种数据库;
采用主成分分析法对各个所述语种数据库进行降维处理,生成各个所述候选语种的主成分矩阵;
通过高斯核函数将所述各个所述候选语种的主成分矩阵映射到高维特征空间,以生成各个所述候选语种的训练参数;
反复执行从一个以上的所述候选语种中选择一个语种作为被选语种,将所述被选语种对应的训练参数组成正向训练集,将所述被选语种以外的语种对应的训练参数组成负向训练集,并根据所述正向训练集以及所述负向训练集计算出分类超平面,直至计算出全部候选语种的分类超平面。
5.如权利要求1所述的文字翻译的方法,其特征在于,还包括:
若所述文字对象属于所述母语语种,则将所述文字对象翻译为所述本地语种;
若所述文字对象属于所述本地语种,则将所述文字对象翻译为所述母语语种。
6.一种终端设备,包括存储器以及处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现如下步骤:
获取用户输入的母语语种,并检测用户位置,根据预设的地理位置与本地语种的对应关系,确定所述用户位置对应的本地语种;
若所述本地语种不为所述母语语种,则开启翻译功能;
在所述翻译功能开启后,检测文字对象,并判断所述文字对象是否属于所述母语语种或者所述本地语种;
若所述文字对象不属于所述母语语种,而且不属于所述本地语种,则获取一个以上语种的分类超平面;采用主成分分析法对所述文字对象进行降维处理,生成所述文字对象的主成分矩阵,再通过高斯核函数将所述文字对象的主成分矩阵映射到高维特征空间,以生成所述文字对象的测试参数;
计算所述文字对象的测试参数与各个所述语种的分类超平面的欧式距离,作为各个语种对应的欧式距离,将欧式距离最小的语种,确定为对象语种,并将所述文字对象翻译为所述母语语种。
7.如权利要求6所述的终端设备,其特征在于,在所述获取用户输入的母语语种,并检测用户位置,根据预设的地理位置与语种的对应关系,将所述用户位置对应的语种作为本地语种之前,还包括:
统计多个用户输入的本地语种,并检测各个用户输入本地语种时的位置坐标;
设定单位面积,并将地图中的一个所述单位面积内本地语种比例最高的语种确定为所述单位面积内所有位置坐标对应的本地语种,以生成所述地理位置与本地语种的对应关系。
8.如权利要求6所述的终端设备,其特征在于,所述检测文字对象,并判断所述文字对象是否属于所述母语语种或者所述本地语种,具体包括:
检测所述文字对象中的空隙间隔,并根据所述空隙间隔将所述文字对象分为多个文字字符;
选取预设个数的所述文字字符,并提取所述文字字符的主成分;
调取所述母语语种的字符主成分数据库以及所述本地语种的字符主成分数据库,并计算所述预设个数的所述文字字符的主成分存在于所述母语语种的字符主成分数据库的比例,作为第一比例,计算所述预设个数的所述文字字符的主成分存在于所述本地语种的字符主成分数据库的比例,作为第二比例;
若所述第一比例大于或等于预设的比例阈值,而所述第二比例小于所述预设的比例阈值,则所述文字对象属于所述母语语种;
若所述第二比例大于或等于所述预设的比例阈值,而所述第一比例小于所述预设的比例阈值,则所述文字对象属于所述本地语种;
若所述第一比例小于所述预设的比例阈值,而且所述第二比例小于所述预设的比例阈值,则所述文字对象不属于所述母语语种,而且不属于所述本地语种。
9.如权利要求6所述的终端设备,其特征在于,在所述若所述文字对象不属于所述母语语种,而且不属于所述本地语种,则获取一个以上语种的分类超平面;采用主成分分析法对所述文字对象进行降维处理,生成所述文字对象的主成分矩阵,再通过高斯核函数将所述文字对象的主成分矩阵映射到高维特征空间,以生成所述文字对象的测试参数之前,还包括:
选取一个以上的候选语种,并获取所述候选语种的一个以上的语种数据库;
采用主成分分析法对各个所述语种数据库进行降维处理,生成各个所述候选语种的主成分矩阵;
通过高斯核函数将所述各个所述候选语种的主成分矩阵映射到高维特征空间,以生成各个所述候选语种的训练参数;
反复执行从一个以上的所述候选语种中选择一个语种作为被选语种,将所述被选语种对应的训练参数组成正向训练集,将所述被选语种以外的语种对应的训练参数组成负向训练集,并根据所述正向训练集以及所述负向训练集计算出分类超平面,直至计算出全部所述候选语种的分类超平面。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810121444.9A CN108427672B (zh) | 2018-02-07 | 2018-02-07 | 文字翻译的方法、终端设备及计算机可读存储介质 |
PCT/CN2018/082606 WO2019153480A1 (zh) | 2018-02-07 | 2018-04-11 | 一种文字翻译的方法、装置、服务器及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810121444.9A CN108427672B (zh) | 2018-02-07 | 2018-02-07 | 文字翻译的方法、终端设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108427672A true CN108427672A (zh) | 2018-08-21 |
CN108427672B CN108427672B (zh) | 2019-05-07 |
Family
ID=63156752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810121444.9A Active CN108427672B (zh) | 2018-02-07 | 2018-02-07 | 文字翻译的方法、终端设备及计算机可读存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN108427672B (zh) |
WO (1) | WO2019153480A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108427672B (zh) * | 2018-02-07 | 2019-05-07 | 平安科技(深圳)有限公司 | 文字翻译的方法、终端设备及计算机可读存储介质 |
CN114841177A (zh) * | 2022-05-24 | 2022-08-02 | 北京字跳网络技术有限公司 | 实现会话翻译的方法、装置、设备及计算机可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1494695A (zh) * | 2001-03-06 | 2004-05-05 | 无疏漏翻译系统 | |
CN101520777A (zh) * | 2008-02-28 | 2009-09-02 | 株式会社东芝 | 用于机器翻译的设备和方法 |
CN102650987A (zh) * | 2011-02-25 | 2012-08-29 | 北京百度网讯科技有限公司 | 一种基于源语言复述资源的机器翻译方法及装置 |
CN104239516A (zh) * | 2014-09-17 | 2014-12-24 | 南京大学 | 一种不平衡数据分类方法 |
CN105320644A (zh) * | 2015-09-23 | 2016-02-10 | 陕西中医药大学 | 一种基于规则的自动汉语句法分析方法 |
CN105632485A (zh) * | 2015-12-28 | 2016-06-01 | 浙江大学 | 一种基于语种识别系统的语言距离关系的获取方法 |
US20170308526A1 (en) * | 2016-04-21 | 2017-10-26 | National Institute Of Information And Communications Technology | Compcuter Implemented machine translation apparatus and machine translation method |
CN107357568A (zh) * | 2017-06-12 | 2017-11-17 | 北京天健通泰科技有限公司 | 一种基于多国语标签的原语言替换方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8843359B2 (en) * | 2009-02-27 | 2014-09-23 | Andrew Nelthropp Lauder | Language translation employing a combination of machine and human translations |
CN101702314B (zh) * | 2009-10-13 | 2011-11-09 | 清华大学 | 基于语种对的鉴别式语种识别模型建立方法 |
US9569429B2 (en) * | 2012-02-03 | 2017-02-14 | Google Inc. | Translated news |
CN206639220U (zh) * | 2017-01-05 | 2017-11-14 | 陈伯妤 | 一种便携式同传设备 |
CN108427672B (zh) * | 2018-02-07 | 2019-05-07 | 平安科技(深圳)有限公司 | 文字翻译的方法、终端设备及计算机可读存储介质 |
-
2018
- 2018-02-07 CN CN201810121444.9A patent/CN108427672B/zh active Active
- 2018-04-11 WO PCT/CN2018/082606 patent/WO2019153480A1/zh active Application Filing
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1494695A (zh) * | 2001-03-06 | 2004-05-05 | 无疏漏翻译系统 | |
CN101520777A (zh) * | 2008-02-28 | 2009-09-02 | 株式会社东芝 | 用于机器翻译的设备和方法 |
CN102650987A (zh) * | 2011-02-25 | 2012-08-29 | 北京百度网讯科技有限公司 | 一种基于源语言复述资源的机器翻译方法及装置 |
CN104239516A (zh) * | 2014-09-17 | 2014-12-24 | 南京大学 | 一种不平衡数据分类方法 |
CN105320644A (zh) * | 2015-09-23 | 2016-02-10 | 陕西中医药大学 | 一种基于规则的自动汉语句法分析方法 |
CN105632485A (zh) * | 2015-12-28 | 2016-06-01 | 浙江大学 | 一种基于语种识别系统的语言距离关系的获取方法 |
US20170308526A1 (en) * | 2016-04-21 | 2017-10-26 | National Institute Of Information And Communications Technology | Compcuter Implemented machine translation apparatus and machine translation method |
CN107357568A (zh) * | 2017-06-12 | 2017-11-17 | 北京天健通泰科技有限公司 | 一种基于多国语标签的原语言替换方法 |
Non-Patent Citations (1)
Title |
---|
刘伟伟 等: "基于区分性Model Pushing的语种识别方法", 《计算机技术与应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108427672B (zh) * | 2018-02-07 | 2019-05-07 | 平安科技(深圳)有限公司 | 文字翻译的方法、终端设备及计算机可读存储介质 |
CN114841177A (zh) * | 2022-05-24 | 2022-08-02 | 北京字跳网络技术有限公司 | 实现会话翻译的方法、装置、设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108427672B (zh) | 2019-05-07 |
WO2019153480A1 (zh) | 2019-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dai et al. | Progressive contour regression for arbitrary-shape scene text detection | |
TWI682302B (zh) | 風險地址識別方法、裝置以及電子設備 | |
WO2022116537A1 (zh) | 一种资讯推荐方法、装置、电子设备和存储介质 | |
CN110363049B (zh) | 图形元素检测识别和类别确定的方法及装置 | |
Wang et al. | A Real‐Time Object Detector for Autonomous Vehicles Based on YOLOv4 | |
CN109800749A (zh) | 一种文字识别方法及装置 | |
CN111522838B (zh) | 地址相似度计算方法及装置 | |
CN106257495A (zh) | 一种数字识别方法及装置 | |
Huang et al. | Isolated Handwritten Pashto Character Recognition Using a K‐NN Classification Tool based on Zoning and HOG Feature Extraction Techniques | |
CN112699775A (zh) | 基于深度学习的证件识别方法、装置、设备及存储介质 | |
CN110472652A (zh) | 基于语义引导的少量样本分类方法 | |
CN114972947B (zh) | 一种基于模糊语义建模的深度场景文本检测方法和装置 | |
Chen et al. | Integrated content and context analysis for mobile landmark recognition | |
CN107315984B (zh) | 一种行人检索的方法及装置 | |
CN108427672B (zh) | 文字翻译的方法、终端设备及计算机可读存储介质 | |
CN108304381B (zh) | 基于人工智能的实体建边方法、装置、设备及存储介质 | |
Yu | Accurate recognition method of human body movement blurred image gait features using graph neural network | |
CN117830701A (zh) | 基于注意力机制的多尺度特征融合星图识别方法和装置 | |
CN115641573B (zh) | 一种文本排序方法、装置、电子设备和存储介质 | |
CN111738290A (zh) | 图像检测方法、模型构建和训练方法、装置、设备和介质 | |
Jänicke et al. | Automatic detection and visualization of distinctive structures in 3d unsteady multi‐fields | |
Zhou et al. | Self-supervised saliency estimation for pixel embedding in road detection | |
Ji et al. | Research on indoor scene classification mechanism based on multiple descriptors fusion | |
CN115907159A (zh) | 一种相似路径台风的确定方法、装置、设备及介质 | |
CN109376602A (zh) | 一种指静脉识别方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |