发明内容
本发明在于提供一种信息碎片的翻译方法及系统,以解决现有技术中的对各个语言的信息碎片无法直接查看的问题。
本发明公开了一种信息碎片的翻译方法,包括:
识别用户选取的信息碎片的文本内容,确定所述信息碎片的翻译方向,将所述信息碎片的文本内容按照确定的所述翻译方向进行翻译,获得所述信息碎片的译文;
以用户选定的文档格式将所述信息碎片的文本内容和译文对照显示。
优选地,通过用户设定的目标语言,确定所述信息碎片的翻译方向。
优选地,通过识别用户常用语言,并将所述用户常用语言作为目标语言,确定所述信息碎片的翻译方向。
优选地,所述识别用户常用语言的过程包括:
识别用户所在地域,将该地域的母语作为所述用户常用语言;或
识别用户的数字终端的系统语言,将所述数字终端的系统语言作为所述用户常用语言。
优选地,还包括:在用户选取所述信息碎片时,识别该信息碎片的信息来源;
将所述信息碎片的文本内容和信息来源分别放入相应的数据库中进行归集存储;
在显示所述信息碎片的文本内容和译文的同时,显示该信息碎片的信息来源。
优选地,还包括:
为所述归集存储的所有信息碎片建立索引目录;
等待用户在所述索引目录中选择其所需的信息碎片后,以用户选定的文档格式将选择的信息碎片的文本内容、译文和信息来源进行显示。
优选地,还包括:在识别用户选取的多个信息碎片的文本内容后,确定每个信息碎片的文本内容中的关键字,将得到的所述关键字作为该信息碎片在所述索引目录中的摘要显示。
优选地,所述信息碎片包括:文本格式和图片格式;
还包括:
通过用户触发相应的全局热键,调用出相应的选取功能,选取所述文本格式或图片格式的所述信息碎片。
本发明公开了一种信息碎片的翻译系统,包括:信息识别模块,用于识别用户选取的信息碎片的文本内容和信息来源,并将所述信息碎片的文本内容发送给翻译处理模块进行翻译,将所述信息碎片的文本内容、译文和信息来源分别放入相应的数据库中进行归集存储;
所述翻译处理模块,用于确定所述信息碎片的翻译方向,并根据确定的翻译方向对所述信息碎片的文本内容进行翻译;
文档输出模块,用于以用户选定的文档格式将归集存储的所述信息碎片的文本内容、译文和信息来源进行显示。
优选地,还包括:解析模块,用于识别用户触发的全局热键,将识别出的全局热键映射的控制指令发送给相应的选取模块,提供用户相应的选取功能。
目录索引模块,用于为所述数据库中的所有信息碎片建立索引目录,供用户选择;
与现有技术相比,本发明包括以下优点:
1、将识别后的文本内容直接翻译,并将得到的文本内容和译文进行存储,用户可以随时地、直接地查看信息碎片;
2、可连续收集碎片,提高了效率;
3、自动识别用户的翻译方向,简化了翻译流程;
4、通过触发全局热键的方式,可以在不影响用户操作的过程中对信息碎片进行收集。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,本发明公开了一个信息碎片的翻译系统,包括:
解析模块1、文本选取模块2、图片选取模块3、信息识别模块4、翻译处理模块5、目录索引模块9和文档输出模块10;
解析模块,用于识别用户触发的全局热键,并将识别出的全局热键映射的控制指令发送给相应的选取模块,提供用户相应的选取功能;
全局热键可以是一个单独的按键,也可以是由多个单独的按键的组合。
其中,用户在对所需要的信息碎片进行选取时,信息碎片不仅仅是可以进行选择的文字,还包括不可选择文字和包含有碎片信息的图片;
解析模块识别出用户触发的第一全局热键后,解析模块将第一全局热键映射的控制指令发送给文本选取模块;
文本选取模块接收到解析模块发送的第一全局热键映射的控制指令后,提供用户直接选取文本格式的信息碎片的功能;
解析模块识别出用户触发的第二全局热键后,解析模块将第二全局热键映射的控制指令发送给图片选取模块;
图片选取模块接收到解析模块发送的第二全局热键映射的控制指令后,提供用户截图选取图片格式的信息碎片的功能。
在用户对信息碎片选取后,系统自动将选取的信息碎片发送给信息识别模块;
信息识别模块,用于接收用户所选取的信息碎片,并识别出该信息碎片的文本内容和信息来源;
其中,对于本地的资源,信息来源为信息碎片的本地存储地址,例c:\1\2\3\信息碎片所在文档;其中,信息碎片所在文档可以为各种文档格式,例:各种office文档,记事本、用于编译代码的文档等;对于网络的资源,信息来源为信息碎片的网络地址,例如:
http://wenku.baidu.com/link?url=yKLV9Z1UyA3SCZqcZkDM0miWl5LWLgEJvOh_cY-iPQRIOP23sWg2sNgP_2-is2h_32e2Cr_u3HjVmraorpLEpt8v9J5VGTKEC9dVPi8-Fle;
通过信息碎片的信息来源,可以快速的找到该信息碎片所在的文档,方便用户查看、调用和选取更多的关于该信息碎片在其所在文档中其他部分。
翻译处理模块,包括:翻译方向识别模块、语言匹配模块和翻译模块;
翻译方向识别模块,用于识别信息碎片的文本内容的源语言和翻译的目标语言;
其中,翻译的目标语言用于通过识别将用户设定或通过将用户常用语言作为目标语言;
其中,用户常用语言通过如下方式获取:
识别用户所在地域,将用户所在地域的母语作为用户常用语言;或识别用户的安装有本系统的数字终端的系统语言,将该数字终端的系统语言作为用户常用语言。
匹配模块,用于检测信息碎片的源语言和翻译的目标语言是否相一致;
在源语言和目标语言相一致的情况下;信息识别模块将信息碎片的文本内容和信息来源分别放入相应的数据库中进行归集存储;
在源语言和目标语言不一致的情况下,将该信息碎片的文本内容送入翻译模块按照所述目标语言进行翻译处理,获取信息碎片的译文,之后信息识别模块将信息碎片的文本内容、译文和信息来源分别放入相应的数据库中进行归集存储。
数据库包括:其中,数据库包括:第一数据库8、第二数据库6和第三数据库7;
第一数据库中用于存储信息碎片的文本内容;
第二数据库中用于存储信息碎片的信息来源;
第三数据库中用于存储信息碎片的译文;
并且,同一个信息碎片的文本内容、译文和信息来源在三个数据库中具有映射关系。
可以通过分别根据文本内容、译文和信息来源在相应的数据库中进行检索,找到用户检索词匹配的信息碎片,通过文档输出模块输出显示。
文档输出模块,用于将所述信息碎片的文本内容和信息来源,以用户选定的文档格式显示;
在该信息碎片存在译文的情况下,同时显示该信息碎片译文;
信息碎片的文本内容和译文为对照显示。
其中,也可以将多个信息碎片的文本内容整合到一个文档中显示。
目录索引模块,用于为数据库中的信息碎片建立索引目录;
其中,该索引目录中的名称可以是按照一定顺序排列的编号,例如:通过信息碎片的长短、大小或信息碎片的获取时间的前后进行排列后的逻辑编号;
也可以是用户自行编译的名称或用户在信息碎片中标记的词语显示;对于图片格式个信息碎片,标记的方式为在该图片中通过截图选取词语,在信息识别模块识别后,将其作为索引目录的名称使用;
进一步的,用户在信息碎片中确定关键字,其中,该关键字可以为一个或者多个,确定关键字的过程为:用户自行编译的词语或用户在信息碎片中标记的词语;
确定信息碎片的关键字后,将该关键字与该信息碎片对应的索引目录的名称一同显示,作为该信息碎片的摘要显示,提供用户更加清楚、明确的确定信息碎片。
将用户在索引目录中选取的所需的信息碎片,通过文档输出模块输出显示。
信息关联模块,在数据库中找到每两个信息碎片的文本内容进行相似度计算;对于一个信息碎片来说,根据设定的阈值筛选出与该信息碎片相似度在预先设定的阈值范围内的其他信息碎片进行关联;
通过信息关联模块关联后的数据库中的信息碎片,在通过文档输出模块输出后,同时显示该信息碎片相关联的信息碎片的文本内容和信息来源。
其中,相似度计算具体包括:
选取所述信息碎片中的第一信息碎片D1和第二信息碎片Dz;
根据所述第一信息碎片的文本内容和第二信息碎片的文本内容,分别确定词频高于预先设定的第二阀值的关键字/词作为特征项;
建立所述第一信息碎片的第一特征集,如下:
D1={T11,W11,T12,W12;......,T1n,W1n};
其中,T1n为D1的所述特征项,W1n为根据T1n的词频确定的权重,n为第一特征集中特征项的序号;
建立所述第二信息碎片的第二特征集,如下:
D2={T21,W21,T22,W22;......,T2m,W2m};
其中,T1m为D2的所述特征项,W1m为根据T1m的词频确定的权重,m为第二特征集中特征项的序号;
利用余弦公式计算得到两个所述信息碎片的所述相似度,所述余弦公式如下:
Cosine:
其中,所述Sim(D1,D2)为两个所述信息碎片的所述相似度,k为特征项的序号。
用向量空间模型表示碎片文本D1和D2,计算如下:
通过上述计算得到每一个信息碎片与其他信息碎片的相似度;
选取与该信息碎片相似度大小在阀值(low,high)内的所有信息碎片,与该信息碎片关联,建立关联表:
该关联表中包含有信息碎片相关联的的其他信息碎片信息,并且其他信息碎片的信息在关联表中按照相似度从大到小的顺序进行排序;
在用户选取要查看的信息碎片后,建立文档显示该信息碎片的文本内容,在该信息碎片的文本内容下方按照关联表中的信息碎片的排列排列顺序显示其他信息碎片的文本内容。
如图2所示,本发明还公开了一种信息碎片翻译方法,包括:
S11、识别用户选取的信息碎片的文本内容和文本内容的源语言,并确定翻译的目标语言;
S12、在所述文本内容的源语言与所述翻译的目标语言不一致的情况下,将所述信息碎片的文本内容按照所述目标语言进行翻译,获得所述信息碎片的译文;
S13、以用户选定的文档格式将所述信息碎片的文本内容和译文对照显示。
基于本发明提供了一个优选地实施例,包括:
S21、碎片收集;
等待用户通过触发特定的全局热键,调取相应的选取功能提供给用户,对相应格式的信息碎片进行选取;
S22、碎片识别;
在用户选取了信息碎片后,对选取的信息碎片进行识别,识别出信息碎片的文本内容;
进一步的,还可以识别出该信息碎片的信息来源;
S23、碎片翻译;
确定识别得到的信息碎片的文本内容的源语言和需要进行翻译的目标语言;
在信息碎片的文本内容不一致的情况下,将信息碎片的文本内容按照目标语言进行翻译,得到信息碎片的译文;
S24、归集存储处理;
将信息碎片的文本内容、译文和信息来源分离,分别存入相应的数据库中进行归集存储。
S25、建立目录;
为数据库中的信息碎片建立索引目录;
其中,还包括:确定信息碎片的关键字;
将关键字在索引目录中作为摘要显示。
S26、选取碎片;
用户根据关键字在索引目录中选取其所需要的信息碎片;或
在数据库中根据信息碎片的文本内容或信息来源作为检索词,在数据库中进行检索,获取检索到的信息碎片;
S27、输出碎片;
将用户在索引目录中选取的信息碎片或通过在数据库中检索得到的信息碎片,以用户选定的文档格式统一在一篇文档中显示,供用户查看。
其中,显示信息碎片的文本内容和信息来源;在该信息碎片存在译文的情况下,同时显示该信息碎片的译文;并且信息碎片的文本内容和译文对照显示。
以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。