CN112686028A - 基于相似词的文本翻译方法、计算设备及计算机存储介质 - Google Patents

基于相似词的文本翻译方法、计算设备及计算机存储介质 Download PDF

Info

Publication number
CN112686028A
CN112686028A CN202011567514.7A CN202011567514A CN112686028A CN 112686028 A CN112686028 A CN 112686028A CN 202011567514 A CN202011567514 A CN 202011567514A CN 112686028 A CN112686028 A CN 112686028A
Authority
CN
China
Prior art keywords
character string
string
text content
translation
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011567514.7A
Other languages
English (en)
Other versions
CN112686028B (zh
Inventor
李铭瀚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhangyue Animation Technology Co ltd
Original Assignee
Ireader Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ireader Technology Co Ltd filed Critical Ireader Technology Co Ltd
Priority to CN202011567514.7A priority Critical patent/CN112686028B/zh
Publication of CN112686028A publication Critical patent/CN112686028A/zh
Application granted granted Critical
Publication of CN112686028B publication Critical patent/CN112686028B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明公开了一种基于相似词的文本翻译方法、计算设备及计算机存储介质。其中,该方法包括:识别确定待翻译文本内容包含的拆分标记;基于拆分标记对待翻译文本内容进行分割处理,得到至少一个第一字符串;针对各个第一字符串,基于第一字符串查询预先建立的第一字符串库,得到与第一字符串相似的至少一个第二字符串;显示至少一个第二字符串及对应的翻译文本内容。本发明提供的方案,通过显示与第一字符串相似的至少一个第二字符串及其对应的翻译文本内容,能够给翻译用户以提示,使得翻译用户在对第一字符串进行文本翻译时可以参考相似词语的翻译文本内容,从而有效提升了翻译用户的翻译效率,缩短了翻译工作所需时长。

Description

基于相似词的文本翻译方法、计算设备及计算机存储介质
技术领域
本发明涉及计算机技术领域,具体涉及一种基于相似词的文本翻译方法、计算设备及计算机存储介质。
背景技术
在日常的生活工作中,人们经常会有翻译文本的需求,即将一种语言的文本内容翻译成其他语言,例如,需要将中文的文本内容翻译成英文的文本。
针对于文本内容中一些术语词,现有技术为了保证这些术语词的翻译结果的一致性以及提升翻译效率,会向翻译用户提示术语词对应的翻译文本内容,使得翻译用户能够根据所提示的翻译文本内容进行术语词的翻译,而对于除术语词外的其他文本内容,则需要翻译用户自己翻译,导致翻译用户的翻译效率低,翻译所需时间长。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于相似词的文本翻译方法、计算设备及计算机存储介质。
根据本发明的一个方面,提供了一种基于相似词的文本翻译方法,包括:
识别确定待翻译文本内容包含的拆分标记;
基于拆分标记对待翻译文本内容进行分割处理,得到至少一个第一字符串;
针对各个第一字符串,基于第一字符串查询预先建立的第一字符串库,得到与第一字符串相似的至少一个第二字符串;
显示至少一个第二字符串及对应的翻译文本内容。
根据本发明的另一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行以下操作:
识别确定待翻译文本内容包含的拆分标记;
基于拆分标记对待翻译文本内容进行分割处理,得到至少一个第一字符串;
针对各个第一字符串,基于第一字符串查询预先建立的第一字符串库,得到与第一字符串相似的至少一个第二字符串;
显示至少一个第二字符串及对应的翻译文本内容。
根据本发明的又一方面,提供了一种计算机存储介质,存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述基于相似词的文本翻译方法对应的操作。
根据本发明提供的方案,识别确定待翻译文本内容包含的拆分标记;基于拆分标记对待翻译文本内容进行分割处理,得到至少一个第一字符串;针对各个第一字符串,基于第一字符串查询预先建立的第一字符串库,得到与第一字符串相似的至少一个第二字符串;显示至少一个第二字符串及对应的翻译文本内容。本发明提供的方案,通过显示与第一字符串相似的至少一个第二字符串及其对应的翻译文本内容,能够给翻译用户以提示,使得翻译用户在对第一字符串进行文本翻译时可以参考相似词语的翻译文本内容,从而有效提升了翻译用户的翻译效率,缩短了翻译工作所需时长。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的基于相似词的文本翻译方法的流程示意图;
图2示出了根据本发明另一个实施例的基于相似词的文本翻译方法的流程示意图;
图3示出了根据本发明一个实施例的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的基于相似词的文本翻译方法的流程示意图。该方法可由任意具有数据处理能力的设备来执行,如图1所示,该方法包括以下步骤:
步骤S101,识别确定待翻译文本内容包含的拆分标记。
为了能够在翻译用户进行翻译工作时给翻译用户以提示,需要查询确定与待翻译文本内容相似的词语,然而,本实施例并不是基于待翻译文本内容直接查询第一字符串库,而是先进行了如下处理:识别确定待翻译文本内容包含的拆分标记,其中,拆分标记用于后续步骤中对待翻译文本内容进行分割处理,通过识别确定待翻译文本内容中所包含的拆分标记,方便确定相似词查询时的参考对象。
步骤S102,基于拆分标记对待翻译文本内容进行分割处理,得到至少一个第一字符串。
在根据步骤S101识别确定出待翻译文本内容中所包含的拆分标记后,可以基于拆分标记对待翻译文本内容进行分割处理,例如,基于拆分标记确定对待翻译文本内容进行分割处理时所依据的分割点,比如,将拆分标记的前方位置和/或后方位置作为分割点,然后,基于所确定的分割点来对待翻译文本内容进行分割处理,通过分割处理将待翻译文本内容隔断,待翻译文本内容被分割为至少两部分,其中,至少两部分包含拆分标记及至少一个第一字符串。
举例说明,待翻译文本内容为“BBBAAAXXX”,拆分标记为“AAA”,那么可以确定分割点为“B”和“A”之间,以及“A”和“X”之间,依据所确定的分割点对待翻译文本内容做如下分割“BBB∣AAA∣XXX”,分割后得到第一字符串“BBB”和“XXX”。这里仅是举例说明,不具有任何限定作用。
步骤S103,针对各个第一字符串,基于第一字符串查询预先建立的第一字符串库,得到与第一字符串相似的至少一个第二字符串。
在本实施例中,预先建立有第一字符串库,这里的第一字符串库中关联存储了多个第二字符串及其对应的翻译文本内容,例如,不同的翻译用户可以上报第二字符串及其对应的翻译文本内容,通过积累建立第一字符串库。
在分割得到至少一个第一字符串后,针对各个第一字符串,基于第一字符串查询预先建立的第一字符串库,例如,将第一字符串所包含的字符与第一字符串库中第二字符串所包含的字符进行匹配,得到与第一字符串相似的至少一个第二字符串,其中,这里的相似指第二字符串与第一字符串具有相同的字符。
步骤S104,显示至少一个第二字符串及对应的翻译文本内容。
在得到与第一字符串相似的至少一个第二字符串之后,可以显示与第一字符串相似的至少一个第二字符串及其对应的翻译文本内容,例如,以列表形式显示至少一个第二字符串及对应的翻译文本内容。通过显示至少一个第二字符串及其对应的翻译文本内容,能够给翻译用户以提示,使得翻译用户在进行文本翻译时可以参考相似词语对应的翻译文本内容,从而有效提升了翻译用户的翻译效率,缩短了翻译工作所需时间。
根据本发明上述实施例提供的方法,识别确定待翻译文本内容包含的拆分标记;基于拆分标记对待翻译文本内容进行分割处理,得到至少一个第一字符串;针对各个第一字符串,基于第一字符串查询预先建立的第一字符串库,得到与第一字符串相似的至少一个第二字符串;显示至少一个第二字符串及对应的翻译文本内容。本发明提供的方案,通过显示与第一字符串相似的至少一个第二字符串及其对应的翻译文本内容,能够给翻译用户以提示,使得翻译用户在对第一字符串进行文本翻译时可以参考相似词语的翻译文本内容,从而有效提升了翻译用户的翻译效率,缩短了翻译工作所需时间。
图2示出了根据本发明另一个实施例的基于相似词的文本翻译方法的流程示意图。如图2所示,该方法包括以下步骤:
步骤S201,基于待翻译文本内容查询预先建立的第二字符串库,将待翻译文本内容内与第二字符串库中的字符串相匹配的字符串作为拆分标记。
在本实施例中,预先建立了第二字符串库,第二字符串库中存储了多个能够作为拆分标记的字符串,其中,拆分标记用于对待翻译文本内容进行分割处理,能够作为拆分标记的字符串可以是术语词、标点符号等。其中,术语词可以是人名、地名等专有词语,标点符号可以包含“,”、“。”、“;”等。
具体地,基于待翻译文本内容查询预先建立的第二字符串库,例如,将待翻译文本内容与第二字符串库中的字符串进行匹配,若待翻译文本内容内存在与第二字符串库中的字符串相匹配的字符串,则将待翻译文本内容相应的字符串作为拆分标记,举例说明,待翻译文本内容为“BBBAAAXXX”,第二字符串库中存储有字符串“AAA”,基于待翻译文本内容“BBBAAAXXX”查询预先建立的第二字符串库,发现待翻译文本内容中字符串“AAA”与第二字符串库中存储的字符串“AAA”相匹配,则将字符串“AAA”确定为拆分标记。
步骤S202,基于拆分标记对待翻译文本内容进行分割处理,得到至少一个第一字符串。
在根据步骤S201识别确定出待翻译文本内容中所包含的拆分标记后,可以基于拆分标记对待翻译文本内容进行分割处理,例如,基于拆分标记确定对待翻译文本内容进行分割处理时所依据的分割点,比如,将拆分标记的前方位置和/或后方位置作为分割点,然后,基于所确定的分割点来对待翻译文本内容进行分割处理,通过分割处理将待翻译文本内容隔断,待翻译文本内容被分割为至少两部分,其中,至少两部分包含拆分标记及至少一个第一字符串。
举例说明,待翻译文本内容为“BBBAAAXXX”,拆分标记为“AAA”,那么可以确定分割点为“B”和“A”之间,以及“A”和“X”之间,依据所确定的分割点对待翻译文本内容做如下分割“BBB∣AAA∣XXX”,分割后得到第一字符串“BBB”和“XXX”。这里仅是举例说明,不具有任何限定作用。本实施例基于拆分标记对待翻译文本内容进行分割处理,是为了确定进行相似词查询的查询对象,以便于查询确定出对应的相似词及其翻译文本内容给翻译用户以提示。
步骤S203,针对各个第一字符串,基于第一字符串查询预先建立的第一字符串库,得到包含第一字符串中的至少部分字符的至少一个第二字符串。
在本实施例中,预先建立有第一字符串库,这里的第一字符串库中关联存储了多个第二字符串及其对应的翻译文本内容,例如,不同的翻译用户可以上报第二字符串及其对应的翻译文本内容,通过积累建立第一字符串库。在分割得到至少一个第一字符串后,针对各个第一字符串,基于第一字符串查询预先建立的第一字符串库,例如,将第一字符串所包含的字符与第一字符串库中第二字符串所包含的字符进行匹配,得到包含第一字符串中的至少部分字符的至少一个第二字符串,例如,得到包含第一字符串全部字符或者部分字符的至少一个第二字符串。
为了能够有效帮助翻译用户进行翻译工作,本实施例对包含第一字符串中的至少部分字符的至少一个第二字符串做了进一步地筛选,例如,可以通过计算第一字符串与各个第二字符串之间的相似度,基于相似度进行筛选,具体参见步骤S204-步骤S206;
步骤S204,计算第一字符串与各个第二字符串之间的编辑距离。
编辑距离是指第一字符串与第二字符串之间,由一个字符串转成另一个字符串所需的最少编辑操作次数,其中,许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个字符串的相似度越大。
在得到包含第一字符串中的至少部分字符的至少一个第二字符串之后,在本步骤中,可以参照如下方法来计算第一字符串与各个第二字符串之间的编辑距离:
设计一个二维表格,表格行数为第一字符串的长度加1,列数为第二字符串的长度加1。
表格的1列按照行,自上往下,依序填充0,1,2,...第一字符串的长度n;
表格的第1行按照列,自左往右,依序填充0,1,2,...第二字符串的长度m;
然后自第2行,第2列开始,自左往右,填充数据,填充数据的规则是:如果两个字符串对应位置的字符相同,则取左上角单元格的值;如果不同,则取该单元格左方、左上方、上方的三个但单元格的值的最小值+1。重复上述操作,直到填满最后一个单元格,最后一个单元格中的数字就是第一字符串与各个第二字符串之间的编辑距离。
为了便于理解,表1以第一字符串为“相视一笑”,第二字符串为“相顾一笑”为例,示意性说明计算第一字符串与第二字符串之间的编辑距离的过程:
表1:
0 1 2 3 4
1 0 1 2 3
2 1 1 2 3
3 2 2 1 2
4 3 3 2 1
因此,第一字符串“相视一笑”与第二字符串“相顾一笑”之间的编辑举例为1。
步骤S205,依据编辑距离,计算第一字符串与各个第二字符串之间的相似度。
在计算得到第一字符串与各个第二字符串之间的编辑距离,依据编辑距离,计算第一字符串与各个第二字符串之间的相似度,例如,可以采用如下公式(1)来计算相似度:
相似度=1-编辑距离/max(第一字符串长度,第二字符串长度) 公式(1)
继续上面举例,第一字符串“相视一笑”与第二字符串“相顾一笑”之间的编辑距离为1,第一字符串长度和第二字符串长度均为4,max(第一字符串长度,第二字符串长度)则为4,因此,第一字符串“相视一笑”与第二字符串“相顾一笑”之间的相似度=1-1/4=0.75。
当然,本实施例并不限于基于编辑距离来计算第一字符串与第二字符串之间的相似度,还可以通过其它方式来计算相似度,例如,余弦相似度等。其中,余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度,例如,确定第一字符串文本向量及第二字符串文本向量,基于第一字符串文本向量与第二字符串文本向量,计算第一字符串文本向量与第二字符串文本向量的相似度;基于相似度确定第一字符串与第二字符串之间的相似度。
步骤S206,将相似度大于或等于预设相似度阈值的第二字符串作为与第一字符串相似的至少一个第二字符串。
在计算得到第一字符串与各个第二字符串之间的相似度后,为了有效帮助翻译用户筛选可参考的相似词,本实施例对包含第一字符串中至少部分字符的第二字符串做了进一步地筛选,例如,预先设置了相似度阈值,将计算得到的相似度与预设相似度阈值进行比较,从中筛选出相似度大于或等于预设相似度阈值的第二字符串,将相似度大于或等于预设相似度阈值的第二字符串作为与第一字符串相似的至少一个第二字符串,从而避免了将与第一字符串相似度低的第二字符串显示给翻译用户,有效减少了翻译用户筛选时间,其中,本领域技术人员可以根据经验而设定相似度阈值,例如,设置为0.65或0.7等。
步骤S207,显示至少一个第二字符串及对应的翻译文本内容。
在得到与第一字符串相似的至少一个第二字符串之后,可以显示与第一字符串相似的至少一个第二字符串及其对应的翻译文本内容,例如,以列表形式显示至少一个第二字符串及对应的翻译文本内容,如表2所示,需要说明的是,表2仅是示意性说明,不具有任何限定作用。通过显示至少一个第二字符串及其对应的翻译文本内容,能够给翻译用户以提示,使得翻译用户在进行文本翻译时可以参考相似词语的翻译文本内容,从而有效提升了翻译用户的翻译效率。
表2:
Figure BDA0002861388790000091
具体地,可以先根据相似度对至少一个第二字符串进行排序,例如,按照相似度由大至小的顺序进行排序,显示排序后的至少一个第二字符串及对应的翻译文本内容。
在本发明一种可选实施方式中,在得到至少一个第一字符串后,可以利用如下方法来确定与各个第一字符串相似的至少一个第二字符串:
针对各个第一字符串,对第一字符串进行分词处理,得到至少一个第三字符串;针对各个第三字符串,基于第三字符串查询预先建立的第一字符串库,得到与第三字符串相似的至少一个第二字符串。
分词处理就是将连续的字符序列按照一定的规范重新组合成词序列的过程,该步骤中,可利用预设分词算法对所得到的各个第一字符串进行分词处理,得到至少一个第三字符串。例如,可以基于字符串匹配的分词方法,基于理解的分词方法和基于统计的分词方法等对第一字符串进行分词处理。本领域技术人员能够根据需求进行选取,或是综合使用多种方法。
其中,得到与第三字符串相似的至少一个第二字符串的方式可以与上面介绍的得到与第一字符串相似的至少一个第二字符串的方式类似,这里不再赘述。
在本发明一种可选实施方式中,为了减少查询工作量,提升查询效率,在得到至少一个第三字符串后,针对各个第三字符串,将第三字符串与停用词词库进行匹配,判断停用词词库中是否存在与第三字符串相匹配的词语,若存在与该第三字符串相匹配的词语,则确定该第三字符串是停用词,删除第三字符串;若不存在与该第三字符串相匹配的词语,则确定该第三字符串不是停用词,保留第三字符串。最后针对各个所保留的第三字符串,基于第三字符串查询预先建立的第一字符串库,得到与第三字符串相似的至少一个第二字符串。其中,停用词是一些无意义的词语,例如,的、地、在等词语。其中,得到与第三字符串相似的至少一个第二字符串的方式可以与上面介绍的得到与第一字符串相似的至少一个第二字符串的方式类似,这里不再赘述。
根据本发明上述实施例提供的方法,通过显示与第一字符串相似的至少一个第二字符串及其对应的翻译文本内容,能够给翻译用户以提示,使得翻译用户在对第一字符串进行文本翻译时可以参考相似词语的翻译文本内容,从而有效提升了翻译用户的翻译效率,缩短了翻译工作所需时间;通过显示相似度大于或等于预设相似度阈值的第二字符串及其对应的翻译文本内容,能够有效减少翻译用户筛选时间,进一步提升翻译效率。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于相似词的文本翻译方法。
可执行指令具体可以用于使得处理器执行以下操作:
识别确定待翻译文本内容包含的拆分标记;
基于拆分标记对待翻译文本内容进行分割处理,得到至少一个第一字符串;
针对各个第一字符串,基于第一字符串查询预先建立的第一字符串库,得到与第一字符串相似的至少一个第二字符串;
显示至少一个第二字符串及对应的翻译文本内容。
在一种可选的方式中,可执行指令进一步使处理器执行以下操作:
针对各个第一字符串,基于第一字符串查询预先建立的第一字符串库,得到包含第一字符串中的至少部分字符的至少一个第二字符串;
计算第一字符串与各个第二字符串之间的相似度;
将相似度大于或等于预设相似度阈值的第二字符串作为与第一字符串相似的至少一个第二字符串。
在一种可选的方式中,可执行指令进一步使处理器执行以下操作:
计算第一字符串与各个第二字符串之间的编辑距离;
依据编辑距离,计算第一字符串与各个第二字符串之间的相似度。
在一种可选的方式中,可执行指令进一步使处理器执行以下操作:
针对各个第一字符串,对第一字符串进行分词处理,得到至少一个第三字符串;
针对各个第三字符串,基于第三字符串查询预先建立的第一字符串库,得到与第三字符串相似的至少一个第二字符串。
在一种可选的方式中,可执行指令还使处理器执行以下操作:
将至少一个第三字符串与停用词词库进行匹配;
若第三字符串与停用词库中的词语相匹配,则删除第三字符串。
在一种可选的方式中,可执行指令进一步使处理器执行以下操作:
基于待翻译文本内容查询预先建立的第二字符串库,将待翻译文本内容内与第二字符串库中的字符串相匹配的字符串作为拆分标记。
在一种可选的方式中,拆分标记包含:术语词、标点符号。
图3示出了根据本发明一个实施例的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图3所示,该计算设备可以包括:处理器(processor)302、通信接口(Communications Interface)304、存储器(memory)306、以及通信总线308。
其中:处理器302、通信接口304、以及存储器306通过通信总线308完成相互间的通信。
通信接口304,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器302,用于执行程序310,具体可以执行上述基于相似词的文本翻译方法实施例中的相关步骤。
具体地,程序310可以包括程序代码,该程序代码包括计算机操作指令。
处理器302可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器306,用于存放程序310。存储器306可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序310具体可以用于使得处理器302执行以下操作:
识别确定待翻译文本内容包含的拆分标记;
基于拆分标记对待翻译文本内容进行分割处理,得到至少一个第一字符串;
针对各个第一字符串,基于第一字符串查询预先建立的第一字符串库,得到与第一字符串相似的至少一个第二字符串;
显示至少一个第二字符串及对应的翻译文本内容。
在一种可选的方式中,程序310进一步使处理器302执行以下操作:
针对各个第一字符串,基于第一字符串查询预先建立的第一字符串库,得到包含第一字符串中的至少部分字符的至少一个第二字符串;
计算第一字符串与各个第二字符串之间的相似度;
将相似度大于或等于预设相似度阈值的第二字符串作为与第一字符串相似的至少一个第二字符串。
在一种可选的方式中,程序310进一步使处理器302执行以下操作:
计算第一字符串与各个第二字符串之间的编辑距离;
依据编辑距离,计算第一字符串与各个第二字符串之间的相似度。
在一种可选的方式中,程序310进一步使处理器302执行以下操作:
针对各个第一字符串,对第一字符串进行分词处理,得到至少一个第三字符串;
针对各个第三字符串,基于第三字符串查询预先建立的第一字符串库,得到与第三字符串相似的至少一个第二字符串。
在一种可选的方式中,程序310还使处理器302执行以下操作:
将至少一个第三字符串与停用词词库进行匹配;
若第三字符串与停用词库中的词语相匹配,则删除第三字符串。
在一种可选的方式中,程序310进一步使处理器302执行以下操作:
基于待翻译文本内容查询预先建立的第二字符串库,将待翻译文本内容内与第二字符串库中的字符串相匹配的字符串作为拆分标记。
在一种可选的方式中,拆分标记包含:术语词、标点符号。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。
本发明公开了:A1.一种基于相似词的文本翻译方法,包括:
识别确定待翻译文本内容包含的拆分标记;
基于所述拆分标记对所述待翻译文本内容进行分割处理,得到至少一个第一字符串;
针对各个第一字符串,基于所述第一字符串查询预先建立的第一字符串库,得到与所述第一字符串相似的至少一个第二字符串;
显示至少一个第二字符串及对应的翻译文本内容。
A2.根据A1所述的方法,其中,所述针对各个第一字符串,基于所述第一字符串查询预先建立的第一字符串库,得到与所述第一字符串相似的至少一个第二字符串进一步包括:
针对各个第一字符串,基于所述第一字符串查询预先建立的第一字符串库,得到包含所述第一字符串中的至少部分字符的至少一个第二字符串;
计算所述第一字符串与各个第二字符串之间的相似度;
将相似度大于或等于预设相似度阈值的第二字符串作为与所述第一字符串相似的至少一个第二字符串。
A3.根据A2所述的方法,其中,所述计算第一字符串与各个第二字符串之间的相似度进一步包括:
计算所述第一字符串与各个第二字符串之间的编辑距离;
依据所述编辑距离,计算所述第一字符串与各个第二字符串之间的相似度。
A4.根据A1-A3中任一项所述的方法,其中,所述针对各个第一字符串,基于所述第一字符串查询预先建立的第一字符串库,得到与所述第一字符串相似的至少一个第二字符串进一步包括:
针对各个第一字符串,对所述第一字符串进行分词处理,得到至少一个第三字符串;
针对各个第三字符串,基于所述第三字符串查询预先建立的第一字符串库,得到与所述第三字符串相似的至少一个第二字符串。
A5.根据A4所述的方法,其中,在得到至少一个第三字符串后,所述方法还包括:
将至少一个第三字符串与停用词词库进行匹配;
若所述第三字符串与停用词库中的词语相匹配,则删除所述第三字符串。
A6.根据A1-A5中任一项所述的方法,其中,所述识别确定待翻译文本内容包含的拆分标记进一步包括:
基于所述待翻译文本内容查询预先建立的第二字符串库,将所述待翻译文本内容内与所述第二字符串库中的字符串相匹配的字符串作为拆分标记。
A7.根据A1-A6中任一项所述的方法,其中,所述拆分标记包含:术语词、标点符号。
B8.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
识别确定待翻译文本内容包含的拆分标记;
基于所述拆分标记对所述待翻译文本内容进行分割处理,得到至少一个第一字符串;
针对各个第一字符串,基于所述第一字符串查询预先建立的第一字符串库,得到与所述第一字符串相似的至少一个第二字符串;
显示至少一个第二字符串及对应的翻译文本内容。
B9.根据B8所述的计算设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
针对各个第一字符串,基于所述第一字符串查询预先建立的第一字符串库,得到包含所述第一字符串中的至少部分字符的至少一个第二字符串;
计算所述第一字符串与各个第二字符串之间的相似度;
将相似度大于或等于预设相似度阈值的第二字符串作为与所述第一字符串相似的至少一个第二字符串。
B10.根据B9所述的计算设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
计算所述第一字符串与各个第二字符串之间的编辑距离;
依据所述编辑距离,计算所述第一字符串与各个第二字符串之间的相似度。
B11.根据B8-B10中任一项所述的计算设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
针对各个第一字符串,对所述第一字符串进行分词处理,得到至少一个第三字符串;
针对各个第三字符串,基于所述第三字符串查询预先建立的第一字符串库,得到与所述第三字符串相似的至少一个第二字符串。
B12.根据B11所述的计算设备,其中,所述可执行指令还使所述处理器执行以下操作:
将至少一个第三字符串与停用词词库进行匹配;
若所述第三字符串与停用词库中的词语相匹配,则删除所述第三字符串。
B13.根据B8-B12中任一项所述的计算设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
基于所述待翻译文本内容查询预先建立的第二字符串库,将所述待翻译文本内容内与所述第二字符串库中的字符串相匹配的字符串作为拆分标记。
B14.根据B8-B13中任一项所述的计算设备,其中,所述拆分标记包含:术语词、标点符号。
C15.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如A1-A7中任一项所述的基于相似词的文本翻译方法对应的操作。

Claims (10)

1.一种基于相似词的文本翻译方法,包括:
识别确定待翻译文本内容包含的拆分标记;
基于所述拆分标记对所述待翻译文本内容进行分割处理,得到至少一个第一字符串;
针对各个第一字符串,基于所述第一字符串查询预先建立的第一字符串库,得到与所述第一字符串相似的至少一个第二字符串;
显示至少一个第二字符串及对应的翻译文本内容。
2.根据权利要求1所述的方法,其中,所述针对各个第一字符串,基于所述第一字符串查询预先建立的第一字符串库,得到与所述第一字符串相似的至少一个第二字符串进一步包括:
针对各个第一字符串,基于所述第一字符串查询预先建立的第一字符串库,得到包含所述第一字符串中的至少部分字符的至少一个第二字符串;
计算所述第一字符串与各个第二字符串之间的相似度;
将相似度大于或等于预设相似度阈值的第二字符串作为与所述第一字符串相似的至少一个第二字符串。
3.根据权利要求2所述的方法,其中,所述计算第一字符串与各个第二字符串之间的相似度进一步包括:
计算所述第一字符串与各个第二字符串之间的编辑距离;
依据所述编辑距离,计算所述第一字符串与各个第二字符串之间的相似度。
4.根据权利要求1-3中任一项所述的方法,其中,所述针对各个第一字符串,基于所述第一字符串查询预先建立的第一字符串库,得到与所述第一字符串相似的至少一个第二字符串进一步包括:
针对各个第一字符串,对所述第一字符串进行分词处理,得到至少一个第三字符串;
针对各个第三字符串,基于所述第三字符串查询预先建立的第一字符串库,得到与所述第三字符串相似的至少一个第二字符串。
5.根据权利要求4所述的方法,其中,在得到至少一个第三字符串后,所述方法还包括:
将至少一个第三字符串与停用词词库进行匹配;
若所述第三字符串与停用词库中的词语相匹配,则删除所述第三字符串。
6.根据权利要求1-5中任一项所述的方法,其中,所述识别确定待翻译文本内容包含的拆分标记进一步包括:
基于所述待翻译文本内容查询预先建立的第二字符串库,将所述待翻译文本内容内与所述第二字符串库中的字符串相匹配的字符串作为拆分标记。
7.根据权利要求1-6中任一项所述的方法,其中,所述拆分标记包含:术语词、标点符号。
8.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行以下操作:
识别确定待翻译文本内容包含的拆分标记;
基于所述拆分标记对所述待翻译文本内容进行分割处理,得到至少一个第一字符串;
针对各个第一字符串,基于所述第一字符串查询预先建立的第一字符串库,得到与所述第一字符串相似的至少一个第二字符串;
显示至少一个第二字符串及对应的翻译文本内容。
9.根据权利要求8所述的计算设备,其中,所述可执行指令进一步使所述处理器执行以下操作:
针对各个第一字符串,基于所述第一字符串查询预先建立的第一字符串库,得到包含所述第一字符串中的至少部分字符的至少一个第二字符串;
计算所述第一字符串与各个第二字符串之间的相似度;
将相似度大于或等于预设相似度阈值的第二字符串作为与所述第一字符串相似的至少一个第二字符串。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的基于相似词的文本翻译方法对应的操作。
CN202011567514.7A 2020-12-25 2020-12-25 基于相似词的文本翻译方法、计算设备及计算机存储介质 Active CN112686028B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011567514.7A CN112686028B (zh) 2020-12-25 2020-12-25 基于相似词的文本翻译方法、计算设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011567514.7A CN112686028B (zh) 2020-12-25 2020-12-25 基于相似词的文本翻译方法、计算设备及计算机存储介质

Publications (2)

Publication Number Publication Date
CN112686028A true CN112686028A (zh) 2021-04-20
CN112686028B CN112686028B (zh) 2021-09-03

Family

ID=75453409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011567514.7A Active CN112686028B (zh) 2020-12-25 2020-12-25 基于相似词的文本翻译方法、计算设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN112686028B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153311A1 (en) * 2002-12-30 2004-08-05 International Business Machines Corporation Building concept knowledge from machine-readable dictionary
CN106897950A (zh) * 2017-01-16 2017-06-27 北京师范大学 一种基于单词认知状态模型适应性学习系统及方法
US20170337180A1 (en) * 2016-05-23 2017-11-23 Lishan Wang Recognition method and system of natural language for machine thinking
CN107729324A (zh) * 2016-08-10 2018-02-23 三星电子株式会社 基于并行处理的翻译方法和设备
CN110334197A (zh) * 2019-06-28 2019-10-15 科大讯飞股份有限公司 语料处理方法及相关装置
US10701054B2 (en) * 2018-01-31 2020-06-30 Salesforce.Com, Inc. Systems, methods, and apparatuses for implementing super community and community sidechains with consent management for distributed ledger technologies in a cloud based computing environment
US10719668B2 (en) * 2015-03-15 2020-07-21 Graham MOREHEAD System for machine translation
CN111680520A (zh) * 2020-04-30 2020-09-18 昆明理工大学 基于同义词数据增强的汉越神经机器翻译方法
CN111738025A (zh) * 2020-08-20 2020-10-02 腾讯科技(深圳)有限公司 基于人工智能的翻译方法、装置、电子设备和存储介质
CN112101040A (zh) * 2020-08-20 2020-12-18 淮阴工学院 一种基于知识图谱的古代诗词语义检索方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153311A1 (en) * 2002-12-30 2004-08-05 International Business Machines Corporation Building concept knowledge from machine-readable dictionary
US10719668B2 (en) * 2015-03-15 2020-07-21 Graham MOREHEAD System for machine translation
US20170337180A1 (en) * 2016-05-23 2017-11-23 Lishan Wang Recognition method and system of natural language for machine thinking
CN107729324A (zh) * 2016-08-10 2018-02-23 三星电子株式会社 基于并行处理的翻译方法和设备
CN106897950A (zh) * 2017-01-16 2017-06-27 北京师范大学 一种基于单词认知状态模型适应性学习系统及方法
US10701054B2 (en) * 2018-01-31 2020-06-30 Salesforce.Com, Inc. Systems, methods, and apparatuses for implementing super community and community sidechains with consent management for distributed ledger technologies in a cloud based computing environment
CN110334197A (zh) * 2019-06-28 2019-10-15 科大讯飞股份有限公司 语料处理方法及相关装置
CN111680520A (zh) * 2020-04-30 2020-09-18 昆明理工大学 基于同义词数据增强的汉越神经机器翻译方法
CN111738025A (zh) * 2020-08-20 2020-10-02 腾讯科技(深圳)有限公司 基于人工智能的翻译方法、装置、电子设备和存储介质
CN112101040A (zh) * 2020-08-20 2020-12-18 淮阴工学院 一种基于知识图谱的古代诗词语义检索方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SHUQIONG WU 等: ""Synonym Coordination in English Legislative Texts and Its Translation"", 《STUDIES IN LITERATURE AND LANGUAGE》 *
王璐: ""同义词的认知思考及其翻译"", 《科技信息》 *

Also Published As

Publication number Publication date
CN112686028B (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
CN107704512B (zh) 基于社交数据的金融产品推荐方法、电子装置及介质
CN110569335B (zh) 基于人工智能的三元组校验方法、装置及存储介质
CN103885608A (zh) 一种输入方法及系统
CN112633000B (zh) 一种文本中实体的关联方法、装置、电子设备及存储介质
JP6912488B2 (ja) 文字列距離計算方法及び装置
JP6543922B2 (ja) インデックス生成プログラム
US10180940B2 (en) Method and system of performing a translation
CN111597297A (zh) 物品召回方法、系统、电子设备及可读存储介质
EP2862104A1 (en) Search method and apparatus
US9330075B2 (en) Method and apparatus for identifying garbage template article
CN111831920A (zh) 用户需求分析方法、装置、计算机设备及存储介质
CN111522938A (zh) 一种人才业绩文档的筛选方法、装置和设备
CN112686028B (zh) 基于相似词的文本翻译方法、计算设备及计算机存储介质
CN109614494B (zh) 一种文本分类方法及相关装置
EP2916238A1 (en) Corpus generating device, corpus generating method, and corpus generating program
CN111475600A (zh) 数据治理方法、装置及计算机可读存储介质
CN113177391B (zh) 在流式界面中操作光标重定向方法、计算设备及存储介质
CN106776531B (zh) 语料处理方法及装置
CN111310442B (zh) 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
CN113177392A (zh) 校对界面中行段信息同步方法、计算设备及存储介质
CN110543622A (zh) 文本相似度检测方法、装置、电子设备及可读存储介质
CN106598936B (zh) 字母词的提取方法及装置
CN111046629B (zh) 大纲显示方法、装置及设备
CN110471901B (zh) 数据导入方法及终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220829

Address after: 518054-13098, 13th floor, main tower of marine center, No. 59, Linhai Avenue, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong

Patentee after: Shenzhen ZhangYue Animation Technology Co.,Ltd.

Address before: 100124 2029e, Sihui building, Chaoyang District, Beijing

Patentee before: ZHANGYUE TECHNOLOGY Co.,Ltd.