CN116522966B - 基于多语言词条的文本翻译方法及系统 - Google Patents
基于多语言词条的文本翻译方法及系统 Download PDFInfo
- Publication number
- CN116522966B CN116522966B CN202310790221.2A CN202310790221A CN116522966B CN 116522966 B CN116522966 B CN 116522966B CN 202310790221 A CN202310790221 A CN 202310790221A CN 116522966 B CN116522966 B CN 116522966B
- Authority
- CN
- China
- Prior art keywords
- key value
- target
- document
- character strings
- entry
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 title claims abstract description 39
- 238000004458 analytical method Methods 0.000 claims abstract description 77
- 238000012545 processing Methods 0.000 claims abstract description 54
- 230000011218 segmentation Effects 0.000 claims abstract description 28
- 238000006243 chemical reaction Methods 0.000 claims abstract description 21
- 238000012937 correction Methods 0.000 claims abstract description 18
- 239000013598 vector Substances 0.000 claims description 58
- 230000014509 gene expression Effects 0.000 claims description 20
- 238000013075 data extraction Methods 0.000 claims description 11
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 description 8
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 244000141359 Malus pumila Species 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及数据处理领域,公开了一种基于多语言词条的文本翻译方法及系统,用于提高对多语言词条进行文本翻译时的效率以及准确率。方法包括:获取多语言文档,并对多语言文档进行字符串提取,得到目标字符串;对目标字符串进行字符串分割处理,得到多个词条并进行数据提取,得到每个词条的键值以及每个词条的内容值并进行键值对匹配,得到多组键值对;对每组键值对进行数值匹配分析,得到数值匹配分析结果并对多组键值对进行修正处理,得到多组目标键值对;对多组目标键值对进行字符串生成,得到多个目标键值字符串,将多个目标键值字符串进行格式转换,得到待翻译文档;通过语言翻译模型对待翻译文档进行文档翻译,得到目标文档。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于多语言词条的文本翻译方法及系统。
背景技术
随着互联网技术的不断发展,现在App的国际化越来越普及,这就需要App支持多语言,普通的iOS开发都采用的苹果提供的多语言文本进行配置,一般的开发流程都是先做单语言版本的App,单语言上线之后,如果有多语言需求的话,需要开发人员导出需要翻译的多语言词条excel文档,经过翻译后,根据翻译提供的excel文档。
但是,在单语言的基础上添加其他的多语言文档,添加其他语种的过程需要经过查询、复制、粘贴,需要一个一个词条的操作,耗时长而且工作流程枯燥乏味,导致对多语言词条进行文本翻译时效率以及准确率较低。
发明内容
有鉴于此,本发明实施例提供了一种基于多语言词条的文本翻译方法及系统,解决了对多语言词条进行文本翻译时效率以及准确率较低的技术问题。
本发明提供了一种基于多语言词条的文本翻译方法,包括:获取多语言文档,同时,对所述多语言文档进行字符串提取,得到目标字符串;对所述目标字符串进行字符串分割处理,得到多个词条,同时,对多个所述词条进行数据提取,得到每个所述词条对应的键值以及每个所述词条对应的内容值;对每个所述词条对应的键值以及每个所述词条对应的内容值进行键值对匹配,得到多组键值对;对每组所述键值对进行数值匹配分析,得到数值匹配分析结果,并通过所述数值匹配分析结果对多组所述键值对进行修正处理,得到多组目标键值对;对所述多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档;通过语言翻译模型对所述待翻译文档进行文档翻译,得到目标文档。
在本发明中,所述对所述目标字符串进行字符串分割处理,得到多个词条,同时,对多个所述词条进行数据提取,得到每个所述词条对应的键值以及每个所述词条对应的内容值步骤,包括:通过第一正则表达式对所述目标字符串进行分割处理,得到多个词条;通过第二正则表达式对多个所述词条进行键值提取,得到每个所述词条对应的键值;通过第三正则表达式对多个所述词条进行内容值提取,得到每个所述词条对应的内容值。
在本发明中,所述对每个所述词条对应的键值以及每个所述词条对应的内容值进行键值对匹配,得到多组键值对步骤,包括:对每个所述词条对应的键值进行编码处理,得到每个所述词条对应的编码信息;基于每个所述词条对应的编码信息进行内容值映射,得到每个所述词条对应的待匹配内容值集合;通过每个所述词条对应的待匹配内容值集合对每个所述词条对应的内容值进行键值对匹配,得到多组键值对。
在本发明中,所述对每组所述键值对进行数值匹配分析,得到数值匹配分析结果,并通过所述数值匹配分析结果对多组所述键值对进行修正处理,得到多组目标键值对步骤,包括:对多组所述键值对进行语法分析,确定对应的语法分析结果,并通过所述语法分析结果对多组所述键值对进行第一修正处理,得到多组候选键值对;对每个所述词条对应的键值对进行字符串长度分析,确定对应的长度分析结果;基于所述长度分析结果,通过预设的字符串长度阈值对多组所述候选键值对进行第二修正处理,得到多组目标键值对。
在本发明中,所述对所述多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档步骤,包括:对所述多组目标键值对进行内容字符串提取,得到多个内容字符串;对多个所述内容字符串进行标准化处理,得到多个标准化内容字符串,并通过多个所述标准化内容字符串以及多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档。
在本发明中,所述通过语言翻译模型对所述待翻译文档进行文档翻译,得到目标文档步骤,包括:对所述待翻译文档进行文本清洗处理,得到候选文档;构建目标字典,并通过所述目标字典对所述候选文档进行分词处理,得到多个目标分词;多个所述目标分词进行特征向量转换,得到多个目标特征向量;将多个所述目标特征向量输入所述语言翻译模型对所述待翻译文档进行文档翻译,得到目标文档。
在本发明中,所述将多个所述目标特征向量输入所述语言翻译模型对所述待翻译文档进行文档翻译,得到目标文档步骤,包括:将多个所述目标特征向量输入所述语言翻译模型,通过所述语言翻译模型对多个所述目标特征向量进行加权平均处理,得到目标文档向量;对所述目标文档向量进行语义特征提取,得到语义特征向量;通过所述语言翻译模型对所述语义特征向量进行归一化处理,得到归一化向量;基于所述归一化向量,通过所述语言翻译模型对所述待翻译文档进行文档翻译,得到目标文档。
本发明还提供了一种基于多语言词条的文本翻译系统,包括:
获取模块,用于获取多语言文档,同时,对所述多语言文档进行字符串提取,得到目标字符串;
分割模块,用于对所述目标字符串进行字符串分割处理,得到多个词条,同时,对多个所述词条进行数据提取,得到每个所述词条对应的键值以及每个所述词条对应的内容值;
匹配模块,用于对每个所述词条对应的键值以及每个所述词条对应的内容值进行键值对匹配,得到多组键值对;
分析模块,用于对每组所述键值对进行数值匹配分析,得到数值匹配分析结果,并通过所述数值匹配分析结果对多组所述键值对进行修正处理,得到多组目标键值对;
生成模块,用于对所述多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档;
翻译模块,用于通过语言翻译模型对所述待翻译文档进行文档翻译,得到目标文档。
本发明提供的技术方案中,获取多语言文档,同时,对多语言文档进行字符串提取,得到目标字符串;对目标字符串进行字符串分割处理,得到多个词条,同时,对多个词条进行数据提取,得到每个词条对应的键值以及每个词条对应的内容值;对每个词条对应的键值以及每个词条对应的内容值进行键值对匹配,得到多组键值对;对每组键值对进行数值匹配分析,得到数值匹配分析结果,并通过数值匹配分析结果对多组键值对进行修正处理,得到多组目标键值对;对多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档;通过语言翻译模型对待翻译文档进行文档翻译,得到目标文档。通过对通过数值匹配分析结果对多组键值对进行修正处理,得到多组目标键值对;对多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档,可以避免人工处理时的错误,并且通过语言翻译模型对待翻译文档进行文档翻译,得到目标文档,可以有效避免人工翻译时效率较低的问题,以进一步提升对多语言词条进行文本翻译时的效率及准确率。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中基于多语言词条的文本翻译方法的流程图。
图2为本发明实施例中对多组目标键值对进行字符串生成的流程图。
图3为本发明实施例中基于多语言词条的文本翻译系统的示意图。
附图标记:
301、获取模块;302、分割模块;303、匹配模块;304、分析模块;305、生成模块;306、翻译模块。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,图1是本发明实施例的基于多语言词条的文本翻译方法的流程图,如图1所示,包括以下步骤:
S101、获取多语言文档,同时,对多语言文档进行字符串提取,得到目标字符串;
具体的,将程序中的string格式的多语言文档复制到工具读取的地址,读取string文件中的所有字符串,需要说明的是,对于字符串提取,在本发明实施例中,通过正则表达式,根据目标字符串的特征进行提取,此外,在进行多语言文档的字符串提取时,还需要考虑不同语言之间可能存在的差异,以免出现翻译误差或者格式不一致等问题。
S102、对目标字符串进行字符串分割处理,得到多个词条,同时,对多个词条进行数据提取,得到每个词条对应的键值以及每个词条对应的内容值;
具体的,在进行字符串分割及解析前,首先确定每个词条之间使用的分隔符,例如逗号、冒号、制表符等等,根据所选定的分隔符,使用相应的字符串操作函数或正则表达式对目标字符串进行分割,得到多个词条。在分割字符串时需要注意,如果有多个分隔符连续出现,可能导致分割后存在空白词条或者异常情况,需要进行特殊处理,需要说明的是,对于每个词条,通常都会有一个键值对应的结构,即key和value。在提取这些数据时,需要再次使用字符串操作函数或正则表达式等方式从词条内容中提取出key和value。
S103、对每个词条对应的键值以及每个词条对应的内容值进行键值对匹配,得到多组键值对;
具体的,对每个词条对应的键值以及每个词条对应的内容值进行键值对匹配,其中,首先遍历所有词条的key和value,对于每一组key和value,进行匹配和组合,形成一个键值对(key-value pair),将每个键值对存储在一个新的数组或哈希表中,在进行匹配时,需要根据具体的情况来确定匹配的方式,例如完全匹配、部分匹配、不区分大小写匹配等等。在进行匹配时,还需要考虑到可能存在的特殊情况,例如有多个key值相同但value值不同的词条,具体的,对于每个key值,在所有key数组或哈希表中查找是否存在相应的key,如果找到了相应的key,就需要比较相应的value值,以确定是否符合匹配条件,如果匹配成功,则表示该词条中的key和value可以组合成一个键值对。
S104、对每组键值对进行数值匹配分析,得到数值匹配分析结果,并通过数值匹配分析结果对多组键值对进行修正处理,得到多组目标键值对;
具体的,对每组键值对进行数值匹配分析的过程,通常需要先确定要匹配的数值类型和匹配规则。在进行数值匹配分析时,可能会出现以下情况:如果两个value值相匹配,则该键值对是有效的,并可以直接使用。如果两个value值不匹配,需要考虑是否需要将其修正或标记为无效。如果有多个key值相同但value值不同的字符串,需要对它们进行去重复处理,根据以上情况,对于匹配成功的键值对,可以直接存储或使用,无需进行其他操作,对于匹配失败的键值对,需要选择合适的方法进行修正或标记。如果某个键值对无法修正或者无效,可以将其从数据集中删除或者标记为无效,对于有多个key值匹配但value值不同的词条,需要进行去重复处理。可以采用哈希表等数据结构,将所有key值相同的词条存储在同一个桶中,然后对每个桶内的词条字符串进行比较和修正处理。在进行value校对时,可以采用字符串相似度算法(如Levenshtein距离),如果两个value值不匹配,可以通过转换为标准格式、添加缺失信息或者标记为无效进行处理。
S105、对多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档;
具体的,首先需要遍历所有的键值对,这可以通过循环等方式实现。对于每个键值对,将其key和value拼接成一个字符串,并按照特定格式进行排列和拼接。例如,可以采用XML、JSON、CSV等格式进行排列和拼接。将每个生成的目标字符串存储在一个新的数组或哈希表中,将格式转换后的目标字符串拼接成待翻译文档,可以采用标准文本文件格式(如TXT、CSV等)或者专门的翻译工具支持的格式(如XLIFF、PO等)进行拼接和生成。首先确定生成目标字符串的排列方式,即key和value的顺序和拼接方式。
需要说明的是,对于每个键值对,将其key和value拼接成一个字符串,为了区分不同的键值对,需要在每个键值对之间添加特定的分隔符,例如逗号、分号、制表符等,如果某个键值对中包含特殊字符(如空格、引号等),需要对其进行引号包裹,以避免解析错误。
S106、通过语言翻译模型对待翻译文档进行文档翻译,得到目标文档。
具体的,对文档进行分段、分句、去除无用标签处理,根据原始文档的语言和目标文档的语言,确定翻译方向。例如,如果原始文档是英文,目标文档是中文,则需要将文档从英文翻译为中文,针对待翻译文档进行文档翻译,得到目标文档。
通过执行上述步骤,获取多语言文档,同时,对多语言文档进行字符串提取,得到目标字符串;对目标字符串进行字符串分割处理,得到多个词条,同时,对多个词条进行数据提取,得到每个词条对应的键值以及每个词条对应的内容值;对每个词条对应的键值以及每个词条对应的内容值进行键值对匹配,得到多组键值对;对每组键值对进行数值匹配分析,得到数值匹配分析结果,并通过数值匹配分析结果对多组键值对进行修正处理,得到多组目标键值对;对多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档;通过语言翻译模型对待翻译文档进行文档翻译,得到目标文档。通过对通过数值匹配分析结果对多组键值对进行修正处理,得到多组目标键值对;对多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档,可以避免人工处理时的错误,并且通过语言翻译模型对待翻译文档进行文档翻译,得到目标文档,可以有效避免人工翻译时效率较低的问题,以进一步提升对多语言词条进行文本翻译时的效率及准确率。
在一具体实施例中,执行步骤S102的过程可以具体包括如下步骤:
(1)通过第一正则表达式对目标字符串进行分割处理,得到多个词条;
(2)通过第二正则表达式对多个词条进行键值提取,得到每个词条对应的键值;
(3)通过第三正则表达式对多个词条进行内容值提取,得到每个词条对应的内容值。
具体的,根据目标字符串的格式和规律,定义三个正则表达式,分别用于分割、键值提取和内容值提取,使用第一正则表达式对目标字符串进行分割,得到多个词条。其中,该第一正则表达式为"",得到一个包含多个字符串的列表或数组。针对每个词条,使用第二正则表达式提取其对应的键值。例如,通过查找并提取匹配的字符串片段,然后从结果中提取出键值信息,针对每个词条,使用第三正则表达式提取其对应的内容值。例如,通过来查找并提取匹配的字符串片段,然后从结果中提取出内容值信息。
在一具体实施例中,执行步骤S103的过程可以具体包括如下步骤:
(1)对每个词条对应的键值进行编码处理,得到每个词条对应的编码信息;
(2)基于每个词条对应的编码信息进行内容值映射,得到每个词条对应的待匹配内容值集合;
(3)通过每个词条对应的待匹配内容值集合对每个词条对应的内容值进行键值对匹配,得到多组键值对。
具体的,对每个词条对应的键值进行编码处理,得到每个词条对应的编码信息,具体的,通过URL编码方式进行编码时,首先确定需要进行编码的字符串,可以是整个URL地址、查询参数、表单数据等,针对每个需要编码的字符,转换成ASCII码,并使用百分号加上两个十六进制数字进行表示,例如空格字符会被表示为%20,URL地址中有些字符被保留作为特殊用途,例如/、?、&等,需要对其进行编码处理,以避免出现混淆和解析错误。将每个字符的编码结果按原顺序拼接起来,得到完整的URL编码结果。将生成的URL编码结果作为查询参数或表单数据提交到数据处理终端,针对每个词条,使用其对应的编码信息作为键值,在哈希表中查找并添加其对应的待匹配内容值集合。如果哈希表中已经存在该键值,则将待匹配内容值添加到对应的集合中,具体的,首先确定需要进行内容值映射的词条,并获取其对应的编码信息和待匹配内容值,创建一个新的哈希表,用于存储每个词条对应的待匹配内容值集合。针对每个词条,使用其对应的编码信息作为键值,在哈希表中查找并添加其对应的待匹配内容值集合。如果哈希表中已经存在该键值,则将待匹配内容值添加到对应的集合中。例如,可以使用Python中的字典(dict)和列表(list)来实现哈希表和集合。针对每个待匹配内容值,遍历其包含的所有键值对信息,并依次与目标词条的键值对信息进行比较。对所有待匹配内容值进行匹配操作,直到遍历完所有内容值集合,最终,得到多组键值对。
在一具体实施例中,执行步骤S104的过程可以具体包括如下步骤:
(1)对多组键值对进行语法分析,确定对应的语法分析结果,并通过语法分析结果对多组键值对进行第一修正处理,得到多组候选键值对;
(2)对每个词条对应的键值对进行字符串长度分析,确定对应的长度分析结果;
(3)基于长度分析结果,通过预设的字符串长度阈值对多组候选键值对进行第二修正处理,得到多组目标键值对。
具体的,建立语法规则,将多组键值对作为输入,通过语法规则进行语法分析,并得到对应的语法分析结果。通过语法分析结果进行第一修正处理:根据语法分析结果,对多组键值对进行第一修正处理,剔除非法的键值对信息,并生成多组候选键值对。首先确定需要进行长度分析的词条,并获取其对应的键值对信息。获取键值对中字符串的长度:针对每个键值对,获取其包含的字符串类型键值的长度,统计字符串长度分布情况:将所有键值对中字符串的长度进行统计和分析,得到字符串长度分布情况,例如使用直方图、散点图等方式进行可视化展示。通过分析字符串长度分布情况,可以确定相应的长度分析结果,例如平均长度、最大长度、最小长度等,确定预设的字符串长度阈值,其中,根据具体的APP应用类型,确定需要保留的键值对信息和筛选标准。例如,如果需要提取某一特定字段的信息,则可以根据该字段的特点和长度来确定字符串长度阈值,在确定预设的字符串长度阈值之前,应进行相应的长度分析,以了解数据中字符串类型键值的长度分布情况,并作为设置阈值的参考依据。对预设的字符串长度阈值进行调整和优化。例如,如果数据中存在异常值或极端情况,可以适当调整阈值的范围;如果需要更精细的处理,则可以采用动态调整阈值的方法,针对每个候选键值对,判断其包含的字符串类型键值的长度是否符合预设的字符串长度阈值。如果不符合,则将该键值对剔除;如果符合,则将该键值对加入到目标键值对集合中,最终得到多组目标键值对。
在一具体实施例中,如图2所示,执行步骤S105的过程可以具体包括如下步骤:
S201、对多组目标键值对进行内容字符串提取,得到多个内容字符串;
S202、对多个内容字符串进行标准化处理,得到多个标准化内容字符串,并通过多个标准化内容字符串以及多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档。
具体的,对多组目标键值对进行内容字符串提取,得到多个内容字符串,例如,对于一个日期类型的参数,可以从中提取出年、月、日等信息对应的字符串。进而对多个内容字符串进行标准化处理,得到多个标准化内容字符串,并通过多个标准化内容字符串以及多组目标键值对进行字符串生成,得到多个目标键值字符串。需要说明的是,对于文本内容,去除其中的空格、制表符、回车符等非文本字符,以及一些特定的单词或短语,如停用词等,对于涉及到多种字符编码的文本内容,将其统一转换为目标编码。例完成内容字符串的标准化处理之后,将多个标准化内容字符串和多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档。
在一具体实施例中,执行步骤S106的过程可以具体包括如下步骤:
(1)对待翻译文档进行文本清洗处理,得到候选文档;
(2)构建目标字典,并通过目标字典对候选文档进行分词处理,得到多个目标分词;
(3)多个目标分词进行特征向量转换,得到多个目标特征向量;
(4)将多个目标特征向量输入语言翻译模型对待翻译文档进行文档翻译,得到目标文档。
具体的,在对待翻译文档进行分析和处理之前,需要对其进行文本清洗。文本清洗包括去除多余空格、特殊符号等非文本字符以及一些无意义的单词或短语,如停用词等,为了将待翻译文档转化为一个个有意义的语段,采用分词处理技术。对于英文文本,可以直接按空格、标点符号等进行划分;而对于中文文本,则需要采用中文分词器(如jieba)进行分词处理,以便后续的分析和处理,在完成文本清洗和分词处理之后,通过构建目标字典来实现文本分类和翻译功能。将目标分词转换为数值型特征向量,采用基于词频统计或基于TF-IDF等方法进行特征向量转换,通过将目标特征向量输入到已经训练好的语言翻译模型中,实现待翻译文档的自动翻译。
在一具体实施例中,执行将多个目标特征向量输入语言翻译模型对待翻译文档进行文档翻译,得到目标文档步骤的过程,包括如下步骤:
(1)将多个目标特征向量输入语言翻译模型,通过语言翻译模型对多个目标特征向量进行加权平均处理,得到目标文档向量;
(2)对目标文档向量进行语义特征提取,得到语义特征向量;
(3)通过语言翻译模型对语义特征向量进行归一化处理,得到归一化向量;
(4)基于归一化向量,通过语言翻译模型对待翻译文档进行文档翻译,得到目标文档。
具体的,将多个目标特征向量输入到语言翻译模型中,并通过加权平均的方式获得目标文档向量。在获得目标文档向量之后,可以通过一些自然语言处理技术(如主题模型、词向量等)来提取文档的语义特征向量。在完成语义特征提取之后,需要对语义特征向量进行归一化处理,以保证各个语义特征向量之间的权重相等。可以采用标准化、最大最小值归一化等方法进行归一化处理。根据归一化向量,通过语言翻译模型对待翻译文档进行翻译,并输出目标文档的翻译结果。
本发明实施例还提供了一种基于多语言词条的文本翻译系统,如图3所示,该基于多语言词条的文本翻译系统具体包括:
获取模块301,用于获取多语言文档,同时,对所述多语言文档进行字符串提取,得到目标字符串;
分割模块302,用于对所述目标字符串进行字符串分割处理,得到多个词条,同时,对多个所述词条进行数据提取,得到每个所述词条对应的键值以及每个所述词条对应的内容值;
匹配模块303,用于对每个所述词条对应的键值以及每个所述词条对应的内容值进行键值对匹配,得到多组键值对;
分析模块304,用于对每组所述键值对进行数值匹配分析,得到数值匹配分析结果,并通过所述数值匹配分析结果对多组所述键值对进行修正处理,得到多组目标键值对;
生成模块305,用于对所述多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档;
翻译模块306,用于通过语言翻译模型对所述待翻译文档进行文档翻译,得到目标文档。
可选的,所述分割模块302具体用于:通过第一正则表达式对所述目标字符串进行分割处理,得到多个词条;通过第二正则表达式对多个所述词条进行键值提取,得到每个所述词条对应的键值;通过第三正则表达式对多个所述词条进行内容值提取,得到每个所述词条对应的内容值。
可选的,所述匹配模块303具体用于:对每个所述词条对应的键值进行编码处理,得到每个所述词条对应的编码信息;基于每个所述词条对应的编码信息进行内容值映射,得到每个所述词条对应的待匹配内容值集合;通过每个所述词条对应的待匹配内容值集合对每个所述词条对应的内容值进行键值对匹配,得到多组键值对。
可选的,所述分析模块304具体用于:对多组所述键值对进行语法分析,确定对应的语法分析结果,并通过所述语法分析结果对多组所述键值对进行第一修正处理,得到多组候选键值对;对每个所述词条对应的键值对进行字符串长度分析,确定对应的长度分析结果;基于所述长度分析结果,通过预设的字符串长度阈值对多组所述候选键值对进行第二修正处理,得到多组目标键值对。
可选的,所述生成模块305具体用于:对所述多组目标键值对进行内容字符串提取,得到多个内容字符串;对多个所述内容字符串进行标准化处理,得到多个标准化内容字符串,并通过多个所述标准化内容字符串以及多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档。
可选的,所述翻译模块306具体包括:
清洗单元,用于对所述待翻译文档进行文本清洗处理,得到候选文档;
构建单元,用于构建目标字典,并通过所述目标字典对所述候选文档进行分词处理,得到多个目标分词;
转换单元,用于多个所述目标分词进行特征向量转换,得到多个目标特征向量;
翻译单元,用于将多个所述目标特征向量输入所述语言翻译模型对所述待翻译文档进行文档翻译,得到目标文档。
可选的,所述翻译单元具体用于:将多个所述目标特征向量输入所述语言翻译模型,通过所述语言翻译模型对多个所述目标特征向量进行加权平均处理,得到目标文档向量;对所述目标文档向量进行语义特征提取,得到语义特征向量;通过所述语言翻译模型对所述语义特征向量进行归一化处理,得到归一化向量;基于所述归一化向量,通过所述语言翻译模型对所述待翻译文档进行文档翻译,得到目标文档。
通过上述各个模块的协同合作,获取多语言文档,同时,对多语言文档进行字符串提取,得到目标字符串;对目标字符串进行字符串分割处理,得到多个词条,同时,对多个词条进行数据提取,得到每个词条对应的键值以及每个词条对应的内容值;对每个词条对应的键值以及每个词条对应的内容值进行键值对匹配,得到多组键值对;对每组键值对进行数值匹配分析,得到数值匹配分析结果,并通过数值匹配分析结果对多组键值对进行修正处理,得到多组目标键值对;对多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档;通过语言翻译模型对待翻译文档进行文档翻译,得到目标文档。通过对通过数值匹配分析结果对多组键值对进行修正处理,得到多组目标键值对;对多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档,可以避免人工处理时的错误,并且通过语言翻译模型对待翻译文档进行文档翻译,得到目标文档,可以有效避免人工翻译时效率较低的问题,以进一步提升对多语言词条进行文本翻译时的效率及准确率。
以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求范围当中。
Claims (8)
1.一种基于多语言词条的文本翻译方法,其特征在于,方法包括:
获取多语言文档,同时,对所述多语言文档进行字符串提取,得到目标字符串;
对所述目标字符串进行字符串分割处理,得到多个词条,同时,对多个所述词条进行数据提取,得到每个所述词条对应的键值以及每个所述词条对应的内容值;
对每个所述词条对应的键值以及每个所述词条对应的内容值进行键值对匹配,得到多组键值对;
对每组所述键值对进行数值匹配分析,得到数值匹配分析结果,并通过所述数值匹配分析结果对多组所述键值对进行修正处理,得到多组目标键值对;
对所述多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档;
通过语言翻译模型对所述待翻译文档进行文档翻译,得到目标文档。
2.根据权利要求1所述的基于多语言词条的文本翻译方法,其特征在于,所述对所述目标字符串进行字符串分割处理,得到多个词条,同时,对多个所述词条进行数据提取,得到每个所述词条对应的键值以及每个所述词条对应的内容值步骤,包括:
通过第一正则表达式对所述目标字符串进行分割处理,得到多个词条;
通过第二正则表达式对多个所述词条进行键值提取,得到每个所述词条对应的键值;
通过第三正则表达式对多个所述词条进行内容值提取,得到每个所述词条对应的内容值。
3.根据权利要求1所述的基于多语言词条的文本翻译方法,其特征在于,所述对每个所述词条对应的键值以及每个所述词条对应的内容值进行键值对匹配,得到多组键值对步骤,包括:
对每个所述词条对应的键值进行编码处理,得到每个所述词条对应的编码信息;
基于每个所述词条对应的编码信息进行内容值映射,得到每个所述词条对应的待匹配内容值集合;
通过每个所述词条对应的待匹配内容值集合对每个所述词条对应的内容值进行键值对匹配,得到多组键值对。
4.根据权利要求1所述的基于多语言词条的文本翻译方法,其特征在于,所述对每组所述键值对进行数值匹配分析,得到数值匹配分析结果,并通过所述数值匹配分析结果对多组所述键值对进行修正处理,得到多组目标键值对步骤,包括:
对多组所述键值对进行语法分析,确定对应的语法分析结果,并通过所述语法分析结果对多组所述键值对进行第一修正处理,得到多组候选键值对;
对每个所述词条对应的键值对进行字符串长度分析,确定对应的长度分析结果;
基于所述长度分析结果,通过预设的字符串长度阈值对多组所述候选键值对进行第二修正处理,得到多组目标键值对。
5.根据权利要求1所述的基于多语言词条的文本翻译方法,其特征在于,所述对所述多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档步骤,包括:
对所述多组目标键值对进行内容字符串提取,得到多个内容字符串;
对多个所述内容字符串进行标准化处理,得到多个标准化内容字符串,并通过多个所述标准化内容字符串以及多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档。
6.根据权利要求1所述的基于多语言词条的文本翻译方法,其特征在于,所述通过语言翻译模型对所述待翻译文档进行文档翻译,得到目标文档步骤,包括:
对所述待翻译文档进行文本清洗处理,得到候选文档;
构建目标字典,并通过所述目标字典对所述候选文档进行分词处理,得到多个目标分词;
多个所述目标分词进行特征向量转换,得到多个目标特征向量;
将多个所述目标特征向量输入所述语言翻译模型对所述待翻译文档进行文档翻译,得到目标文档。
7.根据权利要求6所述的基于多语言词条的文本翻译方法,其特征在于,所述将多个所述目标特征向量输入所述语言翻译模型对所述待翻译文档进行文档翻译,得到目标文档步骤,包括:
将多个所述目标特征向量输入所述语言翻译模型,通过所述语言翻译模型对多个所述目标特征向量进行加权平均处理,得到目标文档向量;
对所述目标文档向量进行语义特征提取,得到语义特征向量;
通过所述语言翻译模型对所述语义特征向量进行归一化处理,得到归一化向量;
基于所述归一化向量,通过所述语言翻译模型对所述待翻译文档进行文档翻译,得到目标文档。
8.一种基于多语言词条的文本翻译系统,用以执行如权利要求1至7任一项所述的基于多语言词条的文本翻译方法,其特征在于,包括:
获取模块,用于获取多语言文档,同时,对所述多语言文档进行字符串提取,得到目标字符串;
分割模块,用于对所述目标字符串进行字符串分割处理,得到多个词条,同时,对多个所述词条进行数据提取,得到每个所述词条对应的键值以及每个所述词条对应的内容值;
匹配模块,用于对每个所述词条对应的键值以及每个所述词条对应的内容值进行键值对匹配,得到多组键值对;
分析模块,用于对每组所述键值对进行数值匹配分析,得到数值匹配分析结果,并通过所述数值匹配分析结果对多组所述键值对进行修正处理,得到多组目标键值对;
生成模块,用于对所述多组目标键值对进行字符串生成,得到多个目标键值字符串,并将多个目标键值字符串进行格式转换,得到待翻译文档;
翻译模块,用于通过语言翻译模型对所述待翻译文档进行文档翻译,得到目标文档。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310790221.2A CN116522966B (zh) | 2023-06-30 | 2023-06-30 | 基于多语言词条的文本翻译方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310790221.2A CN116522966B (zh) | 2023-06-30 | 2023-06-30 | 基于多语言词条的文本翻译方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116522966A CN116522966A (zh) | 2023-08-01 |
CN116522966B true CN116522966B (zh) | 2023-09-15 |
Family
ID=87399753
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310790221.2A Active CN116522966B (zh) | 2023-06-30 | 2023-06-30 | 基于多语言词条的文本翻译方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116522966B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139390A (zh) * | 2020-01-17 | 2021-07-20 | 北京沃东天骏信息技术有限公司 | 一种应用于代码字符串的语言转换方法和装置 |
CN113961300A (zh) * | 2021-12-16 | 2022-01-21 | 杭州行至云起科技有限公司 | 一种iOS APP字符串资源文件翻译方法及系统 |
CN114462430A (zh) * | 2022-01-18 | 2022-05-10 | 北京星辰天合科技股份有限公司 | 词条提取方法及装置 |
CN114492473A (zh) * | 2022-01-13 | 2022-05-13 | 深圳Tcl新技术有限公司 | 语言字符串的翻译方法、装置、计算机设备及存储介质 |
CN115408088A (zh) * | 2022-08-22 | 2022-11-29 | 多点生活(成都)科技有限公司 | 一种软件系统语言国际化全流程自动化方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8706474B2 (en) * | 2008-02-23 | 2014-04-22 | Fair Isaac Corporation | Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names |
JP2019537103A (ja) * | 2016-09-28 | 2019-12-19 | シストラン インターナショナル カンパニー.,リミテッド.Systran International Co.,Ltd. | 文字を翻訳する方法及びその装置 |
-
2023
- 2023-06-30 CN CN202310790221.2A patent/CN116522966B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113139390A (zh) * | 2020-01-17 | 2021-07-20 | 北京沃东天骏信息技术有限公司 | 一种应用于代码字符串的语言转换方法和装置 |
CN113961300A (zh) * | 2021-12-16 | 2022-01-21 | 杭州行至云起科技有限公司 | 一种iOS APP字符串资源文件翻译方法及系统 |
CN114492473A (zh) * | 2022-01-13 | 2022-05-13 | 深圳Tcl新技术有限公司 | 语言字符串的翻译方法、装置、计算机设备及存储介质 |
CN114462430A (zh) * | 2022-01-18 | 2022-05-10 | 北京星辰天合科技股份有限公司 | 词条提取方法及装置 |
CN115408088A (zh) * | 2022-08-22 | 2022-11-29 | 多点生活(成都)科技有限公司 | 一种软件系统语言国际化全流程自动化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116522966A (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108959242B (zh) | 一种基于中文字符词性特征的目标实体识别方法及装置 | |
US7983903B2 (en) | Mining bilingual dictionaries from monolingual web pages | |
CN107038158B (zh) | 对译语料库制作方法、装置、记录介质以及机器翻译系统 | |
CN111177184A (zh) | 基于自然语言的结构化查询语言转换方法、及其相关设备 | |
CN106598959B (zh) | 一种确定双语语句对互译关系方法及系统 | |
KR101266361B1 (ko) | 구조화된 번역 메모리 기반의 자동 번역 시스템 및 자동 번역 방법 | |
CN110110334B (zh) | 一种基于自然语言处理的远程会诊记录文本纠错方法 | |
CN110457715B (zh) | 融入分类词典的汉越神经机器翻译集外词处理方法 | |
CN111613214A (zh) | 一种用于提升语音识别能力的语言模型纠错方法 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN106372053B (zh) | 句法分析的方法和装置 | |
CN104679735A (zh) | 语用机器翻译方法 | |
CN113159969A (zh) | 一种金融长文本复核系统 | |
CN111178061A (zh) | 一种基于编码转换的多国语分词方法 | |
US8335681B2 (en) | Machine-translation apparatus using multi-stage verbal-phrase patterns, methods for applying and extracting multi-stage verbal-phrase patterns | |
CN114266256A (zh) | 一种领域新词的提取方法及系统 | |
CN115618883A (zh) | 一种业务语义识别方法及装置 | |
EP4276677A1 (en) | Cross-language data enhancement-based word segmentation method and apparatus | |
CN114595661A (zh) | 用于评审投标文件的方法、设备和介质 | |
CN114510925A (zh) | 一种中文文本纠错方法、系统、终端设备及存储介质 | |
CN109344389B (zh) | 一种汉盲对照双语语料库的构建方法和系统 | |
CN112287657A (zh) | 基于文本相似度的信息匹配系统 | |
Saloot et al. | Toward tweets normalization using maximum entropy | |
CN116522966B (zh) | 基于多语言词条的文本翻译方法及系统 | |
Anik et al. | An approach towards multilingual translation by semantic-based verb identification and root word analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |