CN111611813B - 文档翻译方法、装置、电子设备及存储介质 - Google Patents
文档翻译方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111611813B CN111611813B CN202010356148.4A CN202010356148A CN111611813B CN 111611813 B CN111611813 B CN 111611813B CN 202010356148 A CN202010356148 A CN 202010356148A CN 111611813 B CN111611813 B CN 111611813B
- Authority
- CN
- China
- Prior art keywords
- translated
- unit
- translation
- document
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013519 translation Methods 0.000 title claims abstract description 173
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000003860 storage Methods 0.000 title claims abstract description 15
- 230000014616 translation Effects 0.000 claims abstract description 173
- 238000004590 computer program Methods 0.000 claims description 21
- 235000019580 granularity Nutrition 0.000 description 22
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例适用于计算机技术领域,提供了一种文档翻译方法、装置、电子设备及存储介质,其中,文档翻译方法包括:基于设定的颗粒度将待翻译文档中的文本进行拆分,得到至少两个第一待翻译单元;所述颗粒度表征所述第一待翻译单元的长度;将所述至少两个第一待翻译单元的每个第一待翻译单元在设定数据库中进行匹配;所述设定数据库中存储有至少一个第二待翻译单元和对应的译文;在第一待翻译单元在设定数据库中匹配到第二待翻译单元的情况下,将匹配到的第二待翻译单元对应的译文确定为第一待翻译单元的译文;基于确定出的第一待翻译单元的译文,确定所述待翻译文档对应的翻译文档。
Description
技术领域
本发明属于计算机技术领域,尤其涉及一种文档翻译方法、装置、电子设备及存储介质。
背景技术
文档作为产品的技术说明文件,当产品进入其他国家时,产品的文档也需要翻译成其他语种。然而,目前文档的翻译工作一般由人工翻译完成,人工翻译虽然准确,但是不同的译员翻译出的文档不一致,如果不同产品的文档中有相同的内容,则可能导致相同内容的翻译结果不相同。
发明内容
有鉴于此,本发明实施例提供一种文档翻译方法、装置、电子设备及存储介质,以至少解决相关技术中针对不同文档的相同内容的翻译结果不相同的问题。
本发明实施例的技术方案是这样实现的:
第一方面,本发明实施例提供了一种文档翻译方法,该方法包括:
基于设定的颗粒度将待翻译文档中的文本进行拆分,得到至少两个第一待翻译单元;所述颗粒度表征所述第一待翻译单元的长度;
将所述至少两个第一待翻译单元的每个第一待翻译单元在设定数据库中进行匹配;所述设定数据库中存储有至少一个第二待翻译单元和对应的译文;
在第一待翻译单元在设定数据库中匹配到第二待翻译单元的情况下,将匹配到的第二待翻译单元对应的译文确定为第一待翻译单元的译文;
基于确定出的第一待翻译单元的译文,确定所述待翻译文档对应的翻译文档。
上述方案中,所述将所述至少两个第一待翻译单元的每个第一待翻译单元在设定数据库中进行匹配,包括:
确定第一待翻译单元和所述第二待翻译单元的相似度;
在所述相似度大于设定值时,在所述相似度大于设定值时,确定第一待翻译单元在设定数据库中匹配到第二待翻译单元。
上述方案中,所述方法还包括:
基于所述设定的颗粒度确定所述设定值。
上述方案中,所述在第一待翻译单元在设定数据库中匹配到第二待翻译单元的情况下,将匹配到的第二待翻译单元对应的译文确定为第一待翻译单元的译文,包括:
确定所述待翻译文档的源语种和目标语种;
在第一待翻译单元在所述设定数据库中匹配到所述源语种的第二待翻译单元的情况下,确定匹配到的第二待翻译单元对应的译文的语种是否包括所述目标语种;
在匹配到的第二待翻译单元的译文的语种包括所述目标语种的情况下,将匹配到的第二待翻译单元对应所述目标语种的译文确定为第一待翻译单元的译文。
上述方案中,在确定出第一待翻译单元的译文后,所述方法还包括:
确定所述第一待翻译单元在所述待翻译文档中的第一文本格式;
基于所述第一文本格式,转换所述第一待翻译单元的译文的文本格式。
上述方案中,所述方法还包括:
在第一待翻译单元在所述设定数据库中未匹配到第二待翻译单元的情况下,获取用户输入的关于所述第一待翻译单元的译文;
将所述第一待翻译单元和所述用户输入的所述第一待翻译单元的译文写入所述设定数据库。
上述方案中,所述将所述至少两个第一待翻译单元的每个第一待翻译单元在设定数据库中进行匹配,包括:
确定所述待翻译文档的类别;
基于所述类别,确定所述设定数据库的匹配范围;
将所述第一待翻译单元在所述设定数据库的匹配范围中进行匹配
第二方面,本发明实施例提供了一种文档翻译装置,该装置包括:
拆分模块,用于基于设定的颗粒度将待翻译文档中的文本进行拆分,得到至少两个第一待翻译单元;所述颗粒度表征所述第一待翻译单元的长度;
匹配模块,用于将所述至少两个第一待翻译单元的每个第一待翻译单元在设定数据库中进行匹配;所述设定数据库中存储有至少一个第二待翻译单元和对应的译文;
第一确定模块,用于在第一待翻译单元在设定数据库中匹配到第二待翻译单元的情况下,将匹配到的第二待翻译单元对应的译文确定为第一待翻译单元的译文;
第二确定模块,用于基于确定出的第一待翻译单元的译文,确定所述待翻译文档对应的翻译文档。
第三方面,本发明实施例提供了一种电子设备,包括处理器和存储器,所述处理器和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行本发明实施例第一方面提供的文档翻译方法的步骤。
第四方面,本发明实施例提供了一种计算机可读存储介质,包括:所述计算机可读存储介质存储有计算机程序。所述计算机程序被处理器执行时实现如本发明实施例第一方面提供的文档翻译方法的步骤。
本发明实施例基于设定的颗粒度将待翻译文档中的文本进行拆分,得到至少两个第一待翻译单元;将至少两个第一待翻译单元的每个第一待翻译单元在设定数据库中进行匹配;设定数据库中存储有至少一个第二待翻译单元和对应的译文。在第一待翻译单元在设定数据库中匹配到第二待翻译单元的情况下,将匹配到的第二待翻译单元对应的译文确定为第一待翻译单元的译文;基于确定出的第一待翻译单元的译文,确定所述待翻译文档对应的翻译文档。本发明实施例将待翻译文档进行拆分后,在已存有译文的设定数据库中进行匹配,可以尽可能地减少人工翻译,提高文档的翻译效率;将匹配到的第二待翻译单元对应的译文确定为第一待翻译单元的译文,这样针对不同文档中的相同内容,都可以匹配到相同的第二待翻译单元,从而确保对不同文档中同一内容翻译的一致性。
附图说明
图1是本发明实施例提供的一种文档翻译方法的实现流程示意图;
图2是本发明实施例提供的另一种文档翻译方法的实现流程示意图;
图3是本发明实施例提供的另一种文档翻译方法的实现流程示意图;
图4是本发明实施例提供的另一种文档翻译方法的实现流程示意图;
图5是本发明实施例提供的另一种文档翻译方法的实现流程示意图;
图6是本发明实施例提供的另一种文档翻译方法的实现流程示意图;
图7是本发明实施例提供的一种设定数据库的示意图;
图8是本发明实施例提供的一种文档翻译装置的结构框图;
图9是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
需要说明的是,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
另外,在本发明实施例中,“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
不同的产品中有许多相同的模块,例如,不同的手机中,有许多模块是相同的,例如定位模块、蓝牙模块等,这些相同的模块在产品文档中的内容应该是相同的。在对产品文档进行翻译时,由于人工翻译的不一致,会导致不同产品的文档中对相同模块的翻译内容不相同。
针对上述相关技术对不同产品的文档中相同模块的翻译内容不相同的缺点,本发明实施例提供了一种文档翻译方法,能够确保对不同文档中同一内容翻译的一致性。为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
图1是本发明实施例提供的一种文档翻译方法的实现流程示意图,该方法执行主体可以为手机、平板、服务器等电子设备。参照图1,文档翻译方法包括:
S101,基于设定的颗粒度将待翻译文档中的文本进行拆分,得到至少两个第一待翻译单元;所述颗粒度表征所述第一待翻译单元的长度。
例如,如果以句子为颗粒度,将文本按照句子进行拆分,则文本中每两个句号之间的文本对应一个第一待翻译单元。
在实际应用中,由于产品文档是由产品各个模块对应的文本内容组合而成的,因此,可以将待翻译文档按照产品的模块进行划分,待翻译文档中一个模块对应的文本内容为一个第一待翻译单元。
S102,将所述至少两个第一待翻译单元的每个第一待翻译单元在设定数据库中进行匹配;所述设定数据库中存储有至少一个第二待翻译单元和对应的译文。
设定数据库中存储有至少一个第二待翻译单元和对应的译文,在实际应用中,可以预先将已完成翻译的源语种文档和对应的目标语种文档进行拆分,得到第二待翻译单元和对应的译文,将第二待翻译单元和对应的译文写入设定数据库。这里,源语种文档为翻译之前的文档,目标语种文档为完成翻译之后的文档,例如,将文档从中文翻译成英文,则源语种为中文,目标语种为英文。应理解,需要按照拆分源语言文档的颗粒度来拆分目标语言文档。还应理解,第二待翻译单元的译文的语种包括第一待翻译单元的译文的语种。
在实际应用中,在配置设定数据库时,可以对源语种文档和目标语种文档进行拆分,按照不同的颗粒度,将每份源语种文档拆分成多种不同颗粒度的第二待翻译单元,并保存对应的译文,这样可以扩大设定数据库的数据量,增加第一待翻译单元在设定数据库中匹配到第二待翻译单元的概率。
参考图2,在一实施例中,所述将所述至少两个第一待翻译单元的每个第一待翻译单元在设定数据库中进行匹配,包括:
S201,确定第一待翻译单元和所述第二待翻译单元的相似度。
在实际应用中,可以采用余弦相似度法来计算第一待翻译单元和第二待翻译单元的相似度,余弦相似度法就是将文档量化,然后通过余弦定理计算相似度。相似度的取值范围为0-1,相似度越高,说明第一待翻译单元与第二待翻译单元越相似,在相似度为1时,说明第一待翻译单元与第二待翻译单元完全相同。
例如,假设第一待翻译单元为“这件衣服号码大了,那个号码合适。”第二待翻译单元为“这件衣服号码不小,那个更合适。”则通过余弦相似度法来计算第一待翻译单元和第二待翻译单元的相似度,具体包括以下步骤:
步骤一,将第一待翻译单元和第二待翻译单元进行分词,第一待翻译单元包括:“这件/衣服/号码/大了,那个/号码/合适”;第二待翻译单元包括:“这件/衣服/号码/不/小,那个/更/合适”。
步骤二,列出所有词,构成词集。词集为“这件,衣服,号码,大了,那个,更,合适,不,小”。
步骤三,计算词频,词频为词出现的次数。
第一待翻译单元的词频为:这件1,衣服1,号码2,大了1,那个1,更0,合适1,不0,小0。第二待翻译单元的词频为:这件1,衣服1,号码1,大了0,那个1,更1,合适1,不1,小1。
步骤四,词频向量化。
第一待翻译单元的向量为:(1,1,2,1,1,0,1,0,0)。
第二待翻译单元的向量为:(1,1,1,0,1,1,1,1,1)。
步骤五,向量带入计算公式计算相似度。
其中,a为第一待翻译单元的向量,b为第二待翻译单元的向量,根据上述计算公式求得第一待翻译单元和第二待翻译单元的相似度为0.71。
S202,在所述相似度大于设定值时,确定第一待翻译单元在设定数据库中匹配到第二待翻译单元。
可以预先设置一个设定值,在相似度大于设定值时,确定第一待翻译单元在设定数据库中匹配到第二待翻译单元。例如,假设设定值为0.8,当相似度大于0.8时,确定第一待翻译单元在设定数据库中匹配到第二待翻译单元,即认为第一待翻译单元与第二待翻译单元相似。
进一步的,文档翻译方法还包括:
基于所述设定的颗粒度确定所述设定值。
在一实施例中,颗粒度越粗,则设定值越小;颗粒度越细,则设定值越大。在实际应用中,可以预先将颗粒度与设定值的对应关系写入数据表中,根据设定的颗粒度查询数据表,得到对应的设定值。
参考图3,在一实施例中,所述将所述至少两个第一待翻译单元的每个第一待翻译单元在设定数据库中进行匹配,包括:
S301,确定所述待翻译文档的类别。
在实际应用中,可以通过产品的产品编号来确定待翻译文档的类别。产商在生产产品时,会按照某种规则生成每个产品的产品编号。例如,按照“公司名称代号+生产线代号+产品类别代号+生产日期”生成产品编号,假设某件产品的产品编号为ST-JPZ-SJ-20200425,说明该产品是ST公司在JPZ生产线上生产出来的产品,产品类别为手机,生产日期为2020年04月25日。通过读取该产品编号,可以确定该产品的待翻译文档的类别为手机。
S302,基于所述类别,确定所述设定数据库的匹配范围。
基于待翻译文档的类别,将设定数据库中与待翻译文档的类别无关的数据删除或屏蔽,只保留与待翻译文档的类别相关的数据,将与待翻译文档的类别相关的数据作为第一待翻译单元在设定数据库中的匹配范围。在实际应用中,可以预先为设定数据库中的每一个第二待翻译单元添加类别,一个第二待翻译单元可以具有多个类别。
S303,将所述第一待翻译单元在所述设定数据库的匹配范围中进行匹配。
将第一待翻译单元在设定数据库的匹配范围中进行匹配,可以减小设定数据库的数据量,提升匹配速度。
S103,在第一待翻译单元在设定数据库中匹配到第二待翻译单元的情况下,将匹配到的第二待翻译单元对应的译文确定为第一待翻译单元的译文。
如果第一待翻译单元与设定数据库中的第二待翻译单元的相似度大于设定值,则认为第一待翻译单元在设定数据库中匹配到第二待翻译单元。在实际应用中,如果设定数据库中与第一待翻译单元的相似度大于设定值的第二待翻译单元有多个,可以选定其中相似度最高的第二待翻译单元。
第一待翻译单元在设定数据库中匹配到第二待翻译单元的情况下,将设定数据库中匹配到的第二待翻译单元对应的译文确定为第一待翻译单元的译文。
在实际应用中,如果匹配到的第二待翻译单元对应的译文的语种有多种,则将其中语种为目标语种的第二待翻译单元的译文确定为第一待翻译单元的译文。
参考图4,在一实施例中,所述在第一待翻译单元在设定数据库中匹配到第二待翻译单元的情况下,将匹配到的第二待翻译单元对应的译文确定为第一待翻译单元的译文,包括:
S401,确定所述待翻译文档的源语种和目标语种。
例如,如果待翻译文档是中文文档,需要将待翻译文档从中文翻译成英文,则源语种为中文,目标语种为英文。
S402,在第一待翻译单元在所述设定数据库中匹配到所述源语种的第二待翻译单元的情况下,确定匹配到的第二待翻译单元对应的译文的语种是否包括所述目标语种。
例如,如果第一待翻译单元为中文,如果第一待翻译单元在设定数据库中匹配到了中文的第二待翻译单元,则确定匹配到的第二待翻译单元的译文的语种是否包含目标语种。例如,假设第一待翻译单元的源语种为中文,目标语种为英文,如果匹配到的第二待翻译单元的译文有英文、法文和俄文3种语种,由于译文的语种包括英文,则确定第二待翻译单元的译文的语种包含目标语种。
S403,在匹配到的第二待翻译单元的译文的语种包括所述目标语种的情况下,将匹配到的第二待翻译单元对应所述目标语种的译文确定为第一待翻译单元的译文。
例如,假设第一待翻译单元的源语种为中文,目标语种为英文,如果设定数据库中第二待翻译单元的译文有英文、法文和俄文,则将其中第二待翻译单元的英文译文确定为第一待翻译单元的译文。
在匹配到的第二待翻译单元对应的译文具有至少两个版本时,将设定版本号对应的译文确定为第一待翻译单元的译文;所述设定数据库中第二待翻译单元的每个版本的译文分别对应一个版本号。
在实际应用中,可以对设定数据库中的数据进行更新,在每次更新数据时,并不删除更新前的数据,而是在需要更新的数据之后添加新增的数据,并在设定数据库中为新增的数据添加版本号。例如,在更新第二待翻译单元的译文时,如果设定数据库中第二待翻译单元的译文的版本号为1,则在设定数据库中为第二待翻译单元新增译文,并为新增的译文添加版本号1.1。在确定第一待翻译单元的译文时,选择最新版本号的第二待翻译单元的译文作为第一待翻译单元的译文。
参考图5,在一实施例中,在确定出第一待翻译单元的译文后,所述方法还包括:
S501,确定所述第一待翻译单元在所述待翻译文档中的第一文本格式。
在实际应用中,第一待翻译单元的第一文本格式包括:字体、间距、行距、文档标题、图题注、表格题注、公式题注、正文、表头、页眉、页脚、目录、交叉引用等。例如,如果第一待翻译单元在待翻译文档中为一级标题,字体大小为4号字。则第一待翻译单元在待翻译文档中的第一文本格式为:一级标题、4号字体。
S502,基于所述第一文本格式,转换所述第一待翻译单元的译文的文本格式。
在确定出第一待翻译单元的译文后,第一待翻译单元的译文是没有文本格式的,或者是系统默认生成的文本格式,为了翻译文档的美观和阅读性,需要设置第一待翻译单元的译文在翻译文档中的文本格式。例如,如果第一待翻译单元的第一文本格式为一级标题、4号字体,则对应将第一待翻译单元的译文的文本格式转换为第一文本格式。在实际应用中,由于不同语种的字体在文本中的显示效果不同,所以并不一定要将第一待翻译单元的译文的文本格式完全转换为第一格式,可以适当修改其中的某些文本格式。例如,如果文档由中文翻译成英文,则第一格式包括段前空两行。而英文要求段前不空格,则可以将第一待翻译单元的译文的文本格式转换为段前不空格。
进一步的,参考图6,在一实施例中,所述文档翻译方法还包括:
S601,在第一待翻译单元在所述设定数据库中未匹配到第二待翻译单元的情况下,获取用户输入的关于所述第一待翻译单元的译文。
如果第一待翻译单元在设定数据库中没有匹配到第二待翻译单元,也就是说第一待翻译单元与设定数据库中第二待翻译单元的相似度小于设定值,设定数据库中没有与第一待翻译单元相似的数据。此时,获取用户输入的第一待翻译单元的译文。在实际应用中,可以将第一待翻译单元输入翻译软件中进行翻译,得到第一待翻译单元的译文,或者电子设备提示用户对第一待翻译单元进行翻译,接收用户输入的第一待翻译单元的译文。
S602,将所述第一待翻译单元和所述用户输入的所述第一待翻译单元的译文写入所述设定数据库。
将用户输入的第一待翻译单元和对应的译文写入设定数据库,扩充设定数据库的数据量,以使下次再将第一待翻译单元在设定数据库中进行匹配时,能够得到匹配结果,避免进行人工翻译。
S104,基于确定出的第一待翻译单元的译文,确定所述待翻译文档对应的翻译文档。
将确定出的所有第一待翻译单元的译文进行组合,得到待翻译文档对应的翻译文档,翻译文档也就是目标语种文档。
本发明实施例基于设定的颗粒度将待翻译文档中的文本进行拆分,得到至少两个第一待翻译单元;将至少两个第一待翻译单元的每个第一待翻译单元在设定数据库中进行匹配;述设定数据库中存储有至少一个第二待翻译单元和对应的译文。在第一待翻译单元在设定数据库中匹配到第二待翻译单元的情况下,将匹配到的第二待翻译单元对应的译文确定为第一待翻译单元的译文;基于确定出的第一待翻译单元的译文,确定所述待翻译文档对应的翻译文档。本发明实施例将待翻译文档进行拆分后,在已存有译文的设定数据库中进行匹配,可以尽可能地减少人工翻译,提高文档的翻译效率;将匹配到的第二待翻译单元对应的译文确定为第一待翻译单元的译文,这样针对不同文档中的相同内容,都可以匹配到相同的第二待翻译单元,从而确保对不同文档中同一内容翻译的一致性。尤其在产品文档中,针对不同产品的相同模块的翻译是一致的,从而不会出现一个模块有多种翻译结果,确保产品文档中同一模块翻译的唯一性。
参考图7,图7是本发明应用实施例提供的一种设定数据库的示意图。所述设定数据库中存储有第二待翻译单元和对应的译文。其中,每个第二待翻译单元包括多个语种的译文。在设定数据库中,每个第二待翻译单元的译文包括译文的文本内容、颗粒度、语种、版本和文本格式。
,应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
参考图8,图8是本发明实施例提供的一种文档翻译装置的示意图,如图8所示,该装置包括:拆分模块、匹配模块、第一确定模块和第二确定模块。
拆分模块,用于基于设定的颗粒度将待翻译文档中的文本进行拆分,得到至少两个第一待翻译单元;所述颗粒度表征所述第一待翻译单元的长度;
匹配模块,用于将所述至少两个第一待翻译单元的每个第一待翻译单元在设定数据库中进行匹配;所述设定数据库中存储有至少一个第二待翻译单元和对应的译文;
第一确定模块,用于在第一待翻译单元在设定数据库中匹配到第二待翻译单元的情况下,将匹配到的第二待翻译单元对应的译文确定为第一待翻译单元的译文;
第二确定模块,用于基于确定出的第一待翻译单元的译文,确定所述待翻译文档对应的翻译文档。
所述匹配模块具体用于:
确定第一待翻译单元和所述第二待翻译单元的相似度;
在所述相似度大于设定值时,确定第一待翻译单元在设定数据库中匹配到第二待翻译单元。
所述装置还包括:
第三确定模块,用于基于所述设定的颗粒度确定所述设定值。
第一确定模块具体用于:
确定所述待翻译文档的源语种和目标语种;
在第一待翻译单元在所述设定数据库中匹配到所述源语种的第二待翻译单元的情况下,确定匹配到的第二待翻译单元对应的译文的语种是否包括所述目标语种;
在匹配到的第二待翻译单元的译文的语种包括所述目标语种的情况下,将匹配到的第二待翻译单元对应所述目标语种的译文确定为第一待翻译单元的译文。
所述装置还包括:
第四确定模块,用于确定所述第一待翻译单元在所述待翻译文档中的第一文本格式;
转换模块,用于基于所述第一文本格式,转换所述第一待翻译单元的译文的文本格式。
所述装置还包括:
获取模块,用于在第一待翻译单元在所述设定数据库中未匹配到第二待翻译单元的情况下,获取用户输入的关于所述第一待翻译单元的译文;
写入模块,用于将所述第一待翻译单元和所述用户输入的所述第一待翻译单元的译文写入所述设定数据库。
所述匹配模块具体用于:
确定所述待翻译文档的类别;
基于所述类别,确定所述设定数据库的匹配范围;
将所述第一待翻译单元在所述设定数据库的匹配范围中进行匹配。
需要说明的是:上述实施例提供的文档翻译装置在进行文档翻译时,仅以上述各模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的模块完成,即将装置的内部结构划分成不同的模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的文档翻译装置与文档翻译方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图9是本发明一实施例提供的电子设备的示意图。所述电子设备包括:手机、平板、服务器等。如图9所示,该实施例的电子设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤,例如图1所示的步骤101至104。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块的功能,例如图8所示拆分模块、匹配模块、第一确定模块和第二确定模块的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述电子设备中的执行过程。
所述电子设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,图9仅仅是电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器可以是所述电子设备的内部存储单元,例如电子设备的硬盘或内存。所述存储器也可以是所述电子设备的外部存储设备,例如所述电子设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述电子设备的内部存储单元也包括外部存储设备。所述存储器用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的实施例中,应该理解到,所揭露的装置/电子设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/电子设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (9)
1.一种文档翻译方法,其特征在于,包括:
基于设定的颗粒度将待翻译文档中的文本进行拆分,得到至少两个第一待翻译单元;所述颗粒度表征所述第一待翻译单元的长度;
将所述至少两个第一待翻译单元的每个第一待翻译单元在设定数据库中进行匹配;所述设定数据库中存储有至少一个第二待翻译单元和对应的译文;
在第一待翻译单元在设定数据库中匹配到第二待翻译单元的情况下,将匹配到的第二待翻译单元对应的译文确定为第一待翻译单元的译文;
基于确定出的第一待翻译单元的译文,确定所述待翻译文档对应的翻译文档;其中,
所述将所述至少两个第一待翻译单元的每个第一待翻译单元在设定数据库中进行匹配,包括:
确定所述待翻译文档的类别;
基于所述类别,确定所述设定数据库的匹配范围;
将所述第一待翻译单元在所述设定数据库的匹配范围中进行匹配。
2.根据权利要求1所述的方法,其特征在于,所述将所述至少两个第一待翻译单元的每个第一待翻译单元在设定数据库中进行匹配,包括:
确定第一待翻译单元和所述第二待翻译单元的相似度;
在所述相似度大于设定值时,确定第一待翻译单元在设定数据库中匹配到第二待翻译单元。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
基于所述设定的颗粒度确定所述设定值。
4.根据权利要求1所述的方法,其特征在于,所述在第一待翻译单元在设定数据库中匹配到第二待翻译单元的情况下,将匹配到的第二待翻译单元对应的译文确定为第一待翻译单元的译文,包括:
确定所述待翻译文档的源语种和目标语种;
在第一待翻译单元在所述设定数据库中匹配到所述源语种的第二待翻译单元的情况下,确定匹配到的第二待翻译单元对应的译文的语种是否包括所述目标语种;
在匹配到的第二待翻译单元的译文的语种包括所述目标语种的情况下,将匹配到的第二待翻译单元对应所述目标语种的译文确定为第一待翻译单元的译文。
5.根据权利要求1所述的方法,其特征在于,在确定出第一待翻译单元的译文后,所述方法还包括:
确定所述第一待翻译单元在所述待翻译文档中的第一文本格式;
基于所述第一文本格式,转换所述第一待翻译单元的译文的文本格式。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在第一待翻译单元在所述设定数据库中未匹配到第二待翻译单元的情况下,获取用户输入的关于所述第一待翻译单元的译文;
将所述第一待翻译单元和所述用户输入的所述第一待翻译单元的译文写入所述设定数据库。
7.一种文档翻译装置,其特征在于,包括:
拆分模块,用于基于设定的颗粒度将待翻译文档中的文本进行拆分,得到至少两个第一待翻译单元;所述颗粒度表征所述第一待翻译单元的长度;
匹配模块,用于将所述至少两个第一待翻译单元的每个第一待翻译单元在设定数据库中进行匹配;所述设定数据库中存储有至少一个第二待翻译单元和对应的译文;
第一确定模块,用于在第一待翻译单元在设定数据库中匹配到第二待翻译单元的情况下,将匹配到的第二待翻译单元对应的译文确定为第一待翻译单元的译文;
第二确定模块,用于基于确定出的第一待翻译单元的译文,确定所述待翻译文档对应的翻译文档;其中,
所述匹配模块具体用于:
确定所述待翻译文档的类别;
基于所述类别,确定所述设定数据库的匹配范围;
将所述第一待翻译单元在所述设定数据库的匹配范围中进行匹配。
8.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的文档翻译方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1至6任一项所述的文档翻译方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010356148.4A CN111611813B (zh) | 2020-04-29 | 2020-04-29 | 文档翻译方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010356148.4A CN111611813B (zh) | 2020-04-29 | 2020-04-29 | 文档翻译方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111611813A CN111611813A (zh) | 2020-09-01 |
CN111611813B true CN111611813B (zh) | 2023-09-08 |
Family
ID=72198383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010356148.4A Active CN111611813B (zh) | 2020-04-29 | 2020-04-29 | 文档翻译方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111611813B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052648B (zh) * | 2020-09-02 | 2021-11-16 | 文思海辉智科科技有限公司 | 一种字串翻译方法、装置、电子设备及存储介质 |
CN112115726A (zh) * | 2020-09-18 | 2020-12-22 | 北京嘀嘀无限科技发展有限公司 | 机器翻译方法、装置、电子设备和可读存储介质 |
CN112633015A (zh) * | 2020-12-30 | 2021-04-09 | 语联网(武汉)信息技术有限公司 | 文档翻译方法、装置、电子设备及存储介质 |
CN112784613A (zh) * | 2021-01-29 | 2021-05-11 | 语联网(武汉)信息技术有限公司 | 文档批量翻译方法、装置、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033093A (zh) * | 2018-07-01 | 2018-12-18 | 东莞市华睿电子科技有限公司 | 一种基于相似度匹配的文本翻译方法 |
-
2020
- 2020-04-29 CN CN202010356148.4A patent/CN111611813B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033093A (zh) * | 2018-07-01 | 2018-12-18 | 东莞市华睿电子科技有限公司 | 一种基于相似度匹配的文本翻译方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111611813A (zh) | 2020-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111611813B (zh) | 文档翻译方法、装置、电子设备及存储介质 | |
CN110659527B (zh) | 电子表单中的表格检测 | |
CN111177184A (zh) | 基于自然语言的结构化查询语言转换方法、及其相关设备 | |
CN108108342B (zh) | 结构化文本的生成方法、检索方法及装置 | |
CN108334609B (zh) | Oracle中实现JSON格式数据存取的方法、装置、设备及存储介质 | |
CN108536745B (zh) | 基于Shell的数据表提取方法、终端、设备及存储介质 | |
CN108829884B (zh) | 数据映射方法及装置 | |
CN112035480A (zh) | 数据表管理方法、装置、设备及存储介质 | |
CN109471893B (zh) | 网络数据的查询方法、设备及计算机可读存储介质 | |
US20130007598A1 (en) | Techniques for applying cultural settings to documents during localization | |
JP2019522847A (ja) | データを抽出するための方法、デバイス及び端末デバイス | |
CN111858581B (zh) | 一种分页查询的方法、装置、存储介质和电子设备 | |
CN111046636B (zh) | 筛选pdf文件信息的方法、装置、计算机设备及存储介质 | |
CN111142871A (zh) | 一种前端页面开发系统、方法、设备、介质 | |
CN116467372A (zh) | 一种数据库自动转换方法、装置、电子设备及存储介质 | |
US11687735B2 (en) | Method, apparatus, device and storage medium for outputting information | |
CN114417850A (zh) | 信息抽取方法、装置、存储介质及电子设备 | |
CN112307070A (zh) | 掩码数据查询方法、装置及设备 | |
CN114296561A (zh) | 用户词库的获取方法、候选词的生成方法及装置 | |
CN114490510A (zh) | 文本流归档方法、装置、计算机设备及存储介质 | |
CN113296827A (zh) | 不同语言的转换方法、装置及终端设备 | |
US20110270874A1 (en) | Apparatus and method for searching information | |
CN115114280A (zh) | 报表生成处理方法、装置及设备 | |
CN113609128B (zh) | 生成数据库实体类的方法、装置、终端设备及存储介质 | |
CN112214509A (zh) | 数据检索方法、系统、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |