CN114638241A - 数据匹配方法、装置、设备及存储介质 - Google Patents

数据匹配方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114638241A
CN114638241A CN202210323005.2A CN202210323005A CN114638241A CN 114638241 A CN114638241 A CN 114638241A CN 202210323005 A CN202210323005 A CN 202210323005A CN 114638241 A CN114638241 A CN 114638241A
Authority
CN
China
Prior art keywords
original text
translated
text
standard
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210323005.2A
Other languages
English (en)
Inventor
徐浩广
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202210323005.2A priority Critical patent/CN114638241A/zh
Publication of CN114638241A publication Critical patent/CN114638241A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供了一种数据匹配方法、装置、设备及存储介质。数据匹配方法包括:获取翻译记忆库,翻译记忆库中包含由标准原文和对应译文组成的句对组;标准原文为对初始原文进行预处理操作得到的,其中,预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;预设字符为不影响语义完整性的字符;获取待翻译原文,并对待翻译原文执行预处理操作,得到处理后待翻译原文;从标准原文中确定与处理后待翻译原文匹配的匹配标准原文,并将匹配标准原文对应的译文确定为待翻译原文的翻译结果。本申请实施例可以有效提升数据匹配过程中的召回率。

Description

数据匹配方法、装置、设备及存储介质
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种数据匹配方法、装置、设备及存储介质。
背景技术
智能扫描翻译类产品中,通常配置有翻译记忆库和翻译模型,其中,翻译记忆库中包含有大量由标准原文和对应译文组成的句对组;翻译模型用于对通过扫描及OCR(Optical Character Recognition,光学字符识别)获得的待翻译原文进行翻译。
为了提高翻译效率和翻译质量,在获取到待翻译原文之后,通常先将待翻译原文与翻译记忆库中的标准原文进行匹配,当匹配成功时,则输出对应的译文作为翻译结果;若匹配失败,则通过翻译模型完成待翻译原文的翻译任务并输出翻译结果。
受书写习惯(如,不同的大小写书写习惯等)以及扫描操作(如空格遗漏、字母重复、跨行扫描)等方面因素影响,即使含义相同,获得的待翻译原文和标准原文在表现形式上也可能存在较大差异,因此,如何进行待翻译原文和标准原文的匹配,以准确地获取待翻译原文的译文,是一个亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供一种数据匹配方法、装置、设备及存储介质,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种数据匹配方法,包括:
获取翻译记忆库,所述翻译记忆库中包含由标准原文和对应译文组成的句对组;所述标准原文为对初始原文进行预处理操作得到的,其中,所述预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;所述预设字符为不影响语义完整性的字符;
获取待翻译原文,并对所述待翻译原文执行所述预处理操作,得到处理后待翻译原文;
从所述标准原文中确定与所述处理后待翻译原文匹配的匹配标准原文,并将所述匹配标准原文对应的译文确定为所述待翻译原文的翻译结果。
根据本申请实施例的第二方面,提供了另一种数据匹配方法,应用于扫读笔,包括:
接收用于指示进行文本翻译的指令;并根据所述指令,对包含待翻译原文的目标区域进行扫描,得到目标图像;
对所述目标图像进行文本识别,得到待翻译原文;
对所述待翻译原文执行预处理操作,得到处理后待翻译原文;其中,所述预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;所述预设字符为不影响语义完整性的字符;
获取翻译记忆库;所述翻译记忆库中包含由标准原文和对应译文组成的句对组;所述标准原文为对初始原文进行所述预处理操作得到的;
从所述标准原文中确定与所述处理后待翻译原文匹配的匹配标准原文,并输出所述匹配标准原文对应的译文作为所述待翻译原文的翻译结果。
根据本申请实施例的第三方面,提供了一种数据匹配装置,包括:
第一记忆库获取模块,用于获取翻译记忆库,所述翻译记忆库中包含由标准原文和对应译文组成的句对组;所述标准原文为对初始原文进行预处理操作得到的,其中,所述预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;所述预设字符为不影响语义完整性的字符;
待翻译原文获取模块,用于获取待翻译原文,并对所述待翻译原文执行所述预处理操作,得到处理后待翻译原文;
翻译结果确定模块,用于从所述标准原文中确定与所述处理后待翻译原文匹配的匹配标准原文,并将所述匹配标准原文对应的译文确定为所述待翻译原文的翻译结果。
根据本申请实施例的第四方面,提供了另一种数据匹配装置,位于扫读笔,包括:
指令接收模块,用于接收用于指示进行文本翻译的指令;并根据所述指令,对包含待翻译原文的目标区域进行扫描,得到目标图像;
文本识别模块,用于对所述目标图像进行文本识别,得到待翻译原文;
预处理模块,用于对所述待翻译原文执行预处理操作,得到处理后待翻译原文;其中,所述预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;所述预设字符为不影响语义完整性的字符;
第二记忆库获取模块,用于获取翻译记忆库;所述翻译记忆库中包含由标准原文和对应译文组成的句对组;所述标准原文为对初始原文进行所述预处理操作得到的;
结果输出模块,用于从所述标准原文中确定与所述处理后待翻译原文匹配的匹配标准原文,并输出所述匹配标准原文对应的译文作为所述待翻译原文的翻译结果。
根据本申请实施例的第五方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面或者第二方面所述的数据匹配方法对应的操作。
根据本申请实施例的第六方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的数据匹配方法。
根据本申请实施例提供的数据匹配方法,翻译记忆库中存储的标准原文是对原始的原文经字符编码格式统一化处理,和/或预设字符(不影响语义完整性的字符)消除处理之后得到的,对应地,在获取到待翻译原文之后,对获取到的待翻译原文也执行了上述相同的预处理操作(容错操作)。上述预处理操作,可以有效消除因书写习惯以及扫描操作等因素导致的相同含义字符在表现形式上的差异,使得具有相同含义的处理后待翻译原文和标准原文在表现形式上尽可能地相似或者相同,这样,若待翻译原文与标准原文具有相同含义,则在对上述处理后待翻译原文和标准原文进行匹配时,可以有效避免匹配失败(本应该能够确定出,但实际却未能确定出匹配标准原文)的情况,因此,本申请实施例可以有效提升数据匹配过程中的召回率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为根据本申请实施例一的一种数据匹配方法的步骤流程图;
图2为图1所示实施例中的一种场景示例的示意图;
图3为根据本申请实施例二的一种数据匹配方法的步骤流程图;
图4为根据本申请实施例二提供的数据匹配流程的示意图;
图5为根据本申请实施例三的一种数据匹配方法的步骤流程图;
图6为根据本申请实施例四的一种数据匹配装置的结构框图;
图7为根据本申请实施例五的一种数据匹配装置的结构框图;
图8为根据本申请实施例六的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
实施例一
参照图1,图1为根据本申请实施例一的一种数据匹配方法的步骤流程图。具体地,本实施例提供的数据匹配方法包括以下步骤:
步骤102,获取翻译记忆库,翻译记忆库中包含由标准原文和对应译文组成的句对组;标准原文为对初始原文进行预处理操作得到的。
其中,预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;预设字符为不影响语义完整性的字符。
翻译记忆库通常可以为预先收集好的,主要用于提高翻译速度以及弥补翻译模型实时翻译结果不精准的缺点。本申请实施例中,翻译记忆库中包含的原文及译文,可以是通用场景下经常会涉及到的内容,例如:名人名言的原文和对应的译文、古诗词原文和对应译文、网络热词原文和对应译文等等,也可以是符合具体场景的内容,如:医疗场景中通常会涉及到的专业术语的原文及译文、教育场景中通常会涉及到的原文及译文,等等。
本领域技术人员可以理解:翻译记忆库中包含的句对组数量越多,最终从翻译记忆库中匹配到翻译结果的可能性也越高,翻译的准确性和速度则也越高。另外,为保证翻译准确性以及数据匹配的准确性,一般待翻译原文的长度较小,因此,对应地,翻译记忆库中的内容通常也是比较精简的翻译句对。
初始原文可以为直接收集得到的、未经本申请中的预处理操作的原文,例如:就英文格式的名人名言而言,其初始原文可以为包含有标点符号、空格符号、回车符号,并且,同时包含大写字母和小写字母的字符串。
本申请实施例中的字符编码格式统一化处理,可以指将初始原文中的字符(所有字符或者部分预设字符)统一为预设的字符编码格式。例如:将初始原文中的所有标点符号均统一为英文字符编码格式(如:将初始原文的中文格式的问号“?”统一为英文格式的问号“?”;将初始原文的中文格式的句号“。”统一为英文格式的句号“.”);又如,将初始原文中的所有大写字符符号均统一小写字符符号,等等。
预设字符消除处理,可以指将初始原文中包含的不影响原文的语义完整性的字符删除的操作,进一步地,上述不影响原文的语义完整性的字符,可以包括如下至少一项:断句符号(如逗号、句号、感叹号、双引号等等)、空字符以及回车符。
本申请实施例中,初始原文与标准原文采用同一种语言来表达,译文则采用另一种语言来表达。例如:在汉译英的需求场景下,初始原文与标准原文可以为汉语,译文可以为英语;在日译韩的需求场景下,始原文与标准原文可以为日语,译文可以为韩语,等等。本申请实施例中,对于原文(初始原文与标准原文)和对应译文的具体语言形式不做限定。
步骤104,获取待翻译原文,并对待翻译原文执行预处理操作,得到处理后待翻译原文。
本申请实施例中,对于获取待翻译原文的具体方式不做限定,例如:可以是用户直接输入的字符串,也可以为通过对图片进行文本识别(OCR)得到的,而上述图片则可以为对包含待翻译原文的目标区域进行光学扫描或者图像采集得到的。
本申请实施例中,为了保证匹配结果的准确性,在获取到待翻译原文之后,对上述待翻译执行的预处理操作,与步骤102中对初始原文执行的预处理操作为相同的操作,具体可以包括:字符编码格式统一化处理和/或预设字符消除处理;预设字符为不影响语义完整性的字符。
步骤106,从标准原文中确定与处理后待翻译原文匹配的匹配标准原文,并将匹配标准原文对应的译文确定为待翻译原文的翻译结果。
具体地,为了简化操作流程,可以从翻译记忆库中查找是否存在与处理后待翻译原文完全相同的标准原文,若存在,则可以将上述完全匹配(完全相同)的标准原文确定为匹配标准原文,进而将匹配标准原文对应的译文确定为待翻译原文的翻译结果。
另外,由于翻译记忆库通常是预先收集的,而收集过程需要花费大量的经济和时间成本,因此,可以在对初始原文进行上述预处理操作之后,再进行加密处理(编码处理),从而得到标准原文,对应地,对上述处理后待翻译原文也进行对应的加密处理(编码处理),然后,再将标准原文与加密处理后的待翻译原文进行对比,将与加密处理后的待翻译原文完全相同的标准原文确定为匹配标准原文,进而将匹配标准原文对应的译文确定为待翻译原文的翻译结果。
本申请实施例中,对于具体的加密处理(编码处理)方式不做限定,例如:可以对标准原文进行倒序处理(也就是说,将原文中各字符倒置,如:可以将“ABC”倒置为“CBA”);也可以按照预设插入原则,在原文中插入预设数量个字符;还可以采用任意的自定义编码方式进行编码,等等。
参见图2,图2为本申请实施例一对应的场景示意图,以下,将参考图2所示的示意图,以一个具体场景示例,对本申请实施例进行说明:
获取翻译记忆库,其中,翻译记忆库中包含有多个由标准原文和对应译文组成的句对组,标准原文为对初始原文进行预处理操作(字符编码格式统一化处理和/或预设字符消除处理;预设字符为不影响语义完整性的字符)得到的。具体地,包括:句对组1,其中包括标准原文:字符串a和译文:字符串A;句对组2,其中包括标准原文:字符串b,译文:字符串B、……;获取待翻译原文:字符串a’,并对a’执行同样的预处理操作,从而得到处理后待翻译原文a;从翻译记忆库包含的各标准原文中确定与a完全相同的匹配标准原文a,则可以将匹配标准原文a对应的译文A确定为待翻译原文a’的翻译结果。
本申请实施例中,翻译记忆库内存储的标准原文是对原始的原文经字符编码格式统一化处理,和/或预设字符(不影响语义完整性的字符)消除处理之后得到的,对应地,在获取到待翻译原文之后,对获取到的待翻译原文也执行了上述相同的预处理操作(容错操作)。上述预处理操作,可以有效消除因书写习惯以及扫描操作等因素导致的相同含义字符在表现形式上的差异,使得具有相同含义的处理后待翻译原文和标准原文在表现形式上尽可能地相似或者相同,这样,若待翻译原文与标准原文具有相同含义,则在对上述处理后待翻译原文和标准原文进行匹配时,可以有效避免匹配失败(本应该能够确定出,但实际却未能确定出匹配标准原文)的情况,因此,本申请实施例可以有效提升数据匹配过程中的召回率。
本实施例的数据匹配方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例二
参照图3,图3为根据本申请实施例二的一种数据匹配方法的步骤流程图。具体地,本实施例提供的数据匹配方法包括以下步骤:
步骤302,获取翻译记忆库,翻译记忆库中包含由标准原文和对应译文组成的句对组;标准原文为对初始原文进行预处理操作以及预设编码操作后得到的。
其中,预处理操作包括:字符编码格式统一化处理和预设字符消除处理;预设字符为不影响语义完整性的字符。可选地,预设字符可以包括如下至少一项:断句符号、空字符以及回车符。
本申请实施例中,获取的翻译记忆库中的标准原文,是在对初始原文进行与实施例一种步骤102相同的预处理操作的基础上,再进行预设编码操作后得到的。
如上所述,由于翻译记忆库通常是预先收集的,而收集过程需要花费大量的经济和时间成本,因此,可以在对初始原文进行上述预处理操作之后,再进行编码操作,从而得到标准原文。这样,可以提高翻译记忆库的安全性,以避免翻译记忆库泄露的风险。
本申请实施例中,对于预设编码操作的具体内容不做限定,例如:可以为进行倒序处理;也可以按照预设插入原则,插入预设数量个字符;还可以采用任意的自定义编码方式进行编码,等等。
可选的,在其中一些实施例中,预设编码操作可以为采用信息摘要算法(Message-Digest Algorithm 5,MD5)进行的编码操作,也就是说,进行MD5操作,将原始原文最终转换为MD5值,从而实现数据加密,提高数据安全性的目的。另外,由于MD5值通常仅包含较少的位数(如32位等),也就是说,可以将任意的不定长度的原始原文均转换为32位的MD5值,因此,可以有效节省存储空间。
另外,由于翻译记忆库通常包含有大量的句对组,为了便于后续的数据匹配,提高数据查找(匹配)效率,还可以对各句对组基于标准原文(也就是MD5值)进行排序,后续,则可以采用二分查找的方式,从多个标准原文中确定匹配标准原文。
步骤304,获取待翻译原文。
本申请实施例中,对于获取待翻译原文的具体方式不做限定,例如:可以是用户直接输入的字符串,也可以为通过对图片进行文本识别(OCR)得到的,而上述图片则可以为对包含待翻译原文的目标区域进行光学扫描或者图像采集得到的。
步骤306,消除待翻译原文中的预设字符,得到第一原文。
具体地,与步骤302对应地,本申请实施例中的预设字符为不影响语义完整性的字符。可选地,预设字符可以包括如下至少一项:断句符号、空字符以及回车符。
其中,断句符号可以包括:逗号、句号、感叹号、双引号等等。
参见表1,表1为对初始原文进行断句符号消除的对比示例:
表1
Figure BDA0003572448080000061
其中,在第一行的例子中,消除了初始原文“天道酬勤!”中的断句符号“!”;在第二行的例子中,消除了初始原文中的断句符号:逗号和双引号。
参见下表2,表2为对初始原文进行空字符以及回车符消除的对比示例:
表2
Figure BDA0003572448080000071
其中,在第一行的例子中,消除了初始原文中的空字符;在第二行的例子中,消除了初始原文中的回车符,从而将原本占用两行的原始原文,转换成了仅占用一行的标准原文。
步骤308,根据预设的标点符号编码格式和数字字符编码格式,调整第一原文中的标点符号和数字字符,得到第二原文。
具体地,例如,可以将第一原文中的所有标点符号均统一为英文字符编码格式。例如:将初始原文的中文格式的问号“?”统一为英文格式的问号“?”;将初始原文的中文格式的句号“。”统一为英文格式的句号“.”,等等。
就数字字符编码格式而言,例如:可以将第一原文中所有的数字字符统一某一具体的数字字符编码格式,如:阿拉伯数字,或者罗马数字,等等。
参见下表3,表3为对第一原文进行标点符号编码格式调整的对比示例:
表3
Figure BDA0003572448080000072
其中,在第一行的例子中,将中文格式的问号“?”调整为了英文格式的问号“?”;在第二行的例子中,将中文格式的省略号“。。。”调整为了英文格式的省略号“...”。
步骤310,将第二原文中的字母统一为预设字母格式,以得到处理后待翻译原文;其中,预设字母格式为大写格式或者小写格式。
参见下表4,表4为对第二原文进行字母格式调整的对比示例:
表4
Figure BDA0003572448080000073
Figure BDA0003572448080000081
其中,在第一行的例子中,将大写的“COOL”调整为了小写的“cool”;在第二行的例子中,将大写字母“P”调整为了小写字母“p”。
需要说明的是,本申请实施例中,对于步骤306-步骤310的执行顺序不做限定,可以根据需要设定。也就是说,本申请实施例中,可以先执行预设字符消除的预处理,也可以先执行字符编码格式调整的预处理,还可以先执行大小写字母格式统一的预处理,上述三种预处理方式的顺序不限,可以根据实际需要设定。
较优地,为了提高预处理效率,可先执行预设字符消除的预处理,再执行字符编码格式调整的预处理,这样,可以有效减少待进行编码格式调整的字符的数量,从而提高整个预处理操作的速度。
步骤312,对处理后待翻译原文执行预设编码操作,得到编码后待翻译原文。
与步骤302对应地,本步骤中,对于预设编码操作的具体内容也不做限定,可以为与步骤302中相同的任意编码操作。例如:可以为进行倒序处理;也可以按照预设插入原则,插入预设数量个字符;还可以采用任意的自定义编码方式进行编码,等等。
可选的,在其中一些实施例中,预设编码操作可以为采用信息摘要算法(Message-Digest Algorithm 5,MD5)进行的编码操作。
具体地,所述对所述处理后待翻译原文执行所述预设编码操作,得到编码后待翻译原文,则可以包括:采用信息摘要算法,对所述处理后待翻译原文进行编码,得到编码后待翻译原文。
步骤314,将与编码后待翻译原文完全相同的标准原文,确定为匹配标准原文,并将匹配标准原文对应的译文确定为待翻译原文的翻译结果。
参见图4,图4为根据本申请实施例二提供的数据匹配流程的示意图。以下结合图4对本申请实施例二提供的数据匹配流程进行简要说明,主要包括:
第一步:记忆库数据收集和用户扫描输入。其中,记忆库数据收集也即:步骤302中初始原文及对应译文的收集过程。具体地:可以先结合具体的应用场景收集该场景下常用的较为简短的初始原文和对应译文。用户扫描输入,可以为用户通过扫描以及文本识别的方式获取到待翻译原文。
第二步:断句符号消除。具体地:可以分别对收集到的各初始原文进行断句符号消除、对获取到的待翻译原文进行断句符号消除。
第三步:符号编码统一。具体地:可以分别对经断句符号消除的初始原文进行符号编码的统一处理、对经断句符号消除的待翻译原文进行符号编码的统一处理。其中,符号编码的统一处理也就是,根据预设的标点符号编码格式和数字字符编码格式,调整经断句符号消除的初始原文(或者经断句符号消除的待翻译原文)中的标点符号和数字字符。
第四步:大小写统一。具体地:分别将经符号编码统一的初始原文进行字母符号的统一化,将经符号编码统一的待翻译原文进行字母符号的统一化。具体地,字母符号的统一化,可以为:将所有字母同一为大写格式,或者,将所有字母同一为小写格式。
第五步:空字符及回车符消除。具体地:分别消除经第四步处理后的初始原文中的空字符和回车符;消除经第四步处理后的待翻译原文中的空字符和回车符,得到处理后待翻译原文。
第六步:MD5压缩。具体的:对经第五步处理后的初始原文进行MD5压缩,得到标准原文,从而基于各标准原文和对应译文,得到翻译记忆库;对处理后待翻译原文进行MD5压缩,得到编码后待翻译原文。
第七步:匹配。具体地:将编码后待翻译原文与翻译记忆库中的各标准原文进行匹配,从而得到与编码后待翻译原文完全相同的匹配标准原文,进而将匹配标准原文对应的译文作为翻译结果返回。
通常,现有的数据匹配过程,通常是基于翻译记忆库中的标准原文与待翻译原文之间的相似度进行的,具体地:如单词维度或者字符维度的相似度,也就是说,当标准原文与待翻译原文包含有相同的单词或字符,或者包含的相同单词或字符的数量较多时,则认为标准原文与待翻译原文相匹配。
上述匹配方式存在较大误差,例如:相单词组在组成句子时单词顺序不一样可能导致的意思完全不一样,但是相似度却可能很高,同时有些相似度很高的两个句子,可能因为存在个别字母或者大小写不一样,对应的译文会大相径庭,但相似度却很高。也就是说,上述匹配方式,匹配准确率往往较低,并不能保证在满足相似度阈值的前提下,从翻译记忆库中匹配到的标准原文对应的译文就是待翻译原文正确的译文。
而本申请实施例中,则是在经过对初始原文和待翻译原文进行相同的预处理(容错处理)以及编码操作的情况下,当两者的编码结果完全相同时,才确定匹配成功,从而将匹配标准原文对应的译文作为待翻译原文的翻译结果,因此,可以有效提升数据匹配过程中的召回率。
本实施例的数据匹配方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、移动终端(如手机、PAD等)和PC机等。
实施例三
参照图5,图5为根据本申请实施例三的一种数据匹配方法的步骤流程图。该实施例的应用场景可以是:用户通过离线式的扫读设备(如扫读笔等),对包含待翻译原文的区域进行扫描,以获取待翻译原文的翻译结果。
具体地,本实施例提供的数据匹配方法,应用于扫读笔,包括以下步骤:
步骤502,接收用于指示进行文本翻译的指令;并根据指令,对包含待翻译原文的目标区域进行扫描,得到目标图像。
步骤504,对目标图像进行文本识别,得到待翻译原文。
本申请实施例中,对于得到待翻译原文时所采用的具体文本识别方式不做限定,可以根据实际需要选用现有的任意的文本识别方法进行识别。
步骤506,对待翻译原文执行预处理操作,得到处理后待翻译原文;其中,预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;预设字符为不影响语义完整性的字符。
步骤508,获取翻译记忆库;翻译记忆库中包含由标准原文和对应译文组成的句对组;标准原文为对初始原文进行预处理操作得到的。
步骤510,从标准原文中确定与处理后待翻译原文匹配的匹配标准原文,并输出匹配标准原文对应的译文作为待翻译原文的翻译结果。
本申请实施例中,由于获取的翻译记忆库中存储的标准原文是对原始的原文经字符编码格式统一化处理,和/或预设字符(不影响语义完整性的字符)消除处理之后得到的,对应地,在通过扫描及文本识别获取到待翻译原文之后,对获取到的待翻译原文也执行了上述相同的预处理操作(容错操作)。上述预处理操作,可以有效消除因书写习惯以及扫描操作等因素导致的相同含义字符在表现形式上的差异,使得具有相同含义的处理后待翻译原文和标准原文在表现形式上尽可能地相似或者相同,这样,若待翻译原文与标准原文具有相同含义,则在对上述处理后待翻译原文和标准原文进行匹配时,可以有效避免匹配失败(本应该能够确定出,但实际却未能确定出匹配标准原文)的情况,因此,本申请实施例可以有效提升数据匹配过程中的召回率。
实施例四
参见图6,图6为根据本申请实施例四的一种数据匹配装置的结构框图。本申请实施例提供的数据匹配装置包括:
第一记忆库获取模块602,用于获取翻译记忆库,翻译记忆库中包含由标准原文和对应译文组成的句对组;标准原文为对初始原文进行预处理操作得到的,其中,预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;预设字符为不影响语义完整性的字符;
待翻译原文获取模块604,用于获取待翻译原文,并对待翻译原文执行预处理操作,得到处理后待翻译原文;
翻译结果确定模块606,用于从标准原文中确定与处理后待翻译原文匹配的匹配标准原文,并将匹配标准原文对应的译文确定为待翻译原文的翻译结果。
可选地,在其中一些实施例中,翻译记忆库中的标准原文为对初始原文进行预处理操作以及预设编码操作后得到的;
装置还包括:
编码模块,用于在对待翻译原文执行预处理操作,得到处理后待翻译原文之后,对处理后待翻译原文执行预设编码操作,得到编码后待翻译原文;
翻译结果确定模块606,在执行从标准原文中确定与处理后待翻译原文匹配的匹配标准原文的步骤时,具体用于:将与编码后待翻译原文完全相同的标准原文,确定为匹配标准原文。
可选地,在其中一些实施例中,预设编码操作为采用信息摘要算法进行的编码操作;
编码模块,具体用于在对待翻译原文执行预处理操作,得到处理后待翻译原文之后,采用信息摘要算法,对处理后待翻译原文进行编码,得到编码后待翻译原文。
可选地,在其中一些实施例中,预处理操作包括:字符编码格式统一化处理和预设字符消除处理;待翻译原文获取模块604,在执行对待翻译原文执行预处理操作,得到处理后待翻译原文的步骤时,具体用于:
消除待翻译原文中的预设字符,得到第一原文;
根据预设的标点符号编码格式和数字字符编码格式,调整第一原文中的标点符号和数字字符,得到处理后待翻译原文。
可选地,在其中一些实施例中,若待翻译原文中包含字母,待翻译原文获取模块604,在执行根据预设的标点符号编码格式和数字字符编码格式,调整第一原文中的标点符号和数字字符,得到处理后待翻译原文的步骤时,具体用于:
根据预设的标点符号编码格式和数字字符编码格式,调整第一原文中的标点符号和数字字符,得到第二原文;
将第二原文中的字母统一为预设字母格式,以得到处理后待翻译原文;其中,预设字母格式为大写格式或者小写格式。
可选地,在其中一些实施例中,预设字符包括如下至少一项:断句符号、空字符以及回车符。
本申请实施例的数据匹配装置用于实现前述方法实施例一或实施例二中相应的数据匹配方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本申请实施例的数据匹配装置中的各个模块的功能实现均可参照前述方法实施例一或实施例二中的相应部分的描述,在此亦不再赘述。
实施例五
参照图7,图7为根据本申请实施例五的一种数据匹配装置的结构框图。本申请实施例提供的数据匹配装置,位于扫读笔,包括:
指令接收模块702,用于接收用于指示进行文本翻译的指令;并根据指令,对包含待翻译原文的目标区域进行扫描,得到目标图像;
文本识别模块704,用于对目标图像进行文本识别,得到待翻译原文;
预处理模块706,用于对待翻译原文执行预处理操作,得到处理后待翻译原文;其中,预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;预设字符为不影响语义完整性的字符;
第二记忆库获取模块708,用于获取翻译记忆库;翻译记忆库中包含由标准原文和对应译文组成的句对组;标准原文为对初始原文进行预处理操作得到的;
结果输出模块710,用于从标准原文中确定与处理后待翻译原文匹配的匹配标准原文,并输出匹配标准原文对应的译文作为待翻译原文的翻译结果。
本申请实施例的数据匹配装置用于实现前述方法实施例三中相应的数据匹配方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本申请实施例的数据匹配装置中的各个模块的功能实现均可参照前述方法实施例三中的相应部分的描述,在此亦不再赘述。
实施例六
参照图8,示出了根据本申请实施例六的一种电子设备的结构示意图,本申请具体实施例并不对电子设备的具体实现做限定。
如图8所示,该电子设备可以包括:处理器(processor)802、通信接口(Communications Interface)804、存储器(memory)806、以及通信总线808。
其中:
处理器802、通信接口804、以及存储器806通过通信总线808完成相互间的通信。
通信接口804,用于与其它电子设备或服务器进行通信。
处理器802,用于执行程序810,具体可以执行上述数据匹配方法实施例中的相关步骤。
具体地,程序810可以包括程序代码,该程序代码包括计算机操作指令。
处理器802可能是CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器806,用于存放程序810。存储器806可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序810具体可以用于使得处理器802执行以下操作:获取翻译记忆库,翻译记忆库中包含由标准原文和对应译文组成的句对组;标准原文为对初始原文进行预处理操作得到的,其中,预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;预设字符为不影响语义完整性的字符;获取待翻译原文,并对待翻译原文执行预处理操作,得到处理后待翻译原文;从标准原文中确定与处理后待翻译原文匹配的匹配标准原文,并将匹配标准原文对应的译文确定为待翻译原文的翻译结果。
或者,程序810具体可以用于使得处理器802执行以下操作:接收用于指示进行文本翻译的指令;并根据指令,对包含待翻译原文的目标区域进行扫描,得到目标图像;对目标图像进行文本识别,得到待翻译原文;对待翻译原文执行预处理操作,得到处理后待翻译原文;其中,预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;预设字符为不影响语义完整性的字符;获取翻译记忆库;翻译记忆库中包含由标准原文和对应译文组成的句对组;标准原文为对初始原文进行预处理操作得到的;从标准原文中确定与处理后待翻译原文匹配的匹配标准原文,并输出匹配标准原文对应的译文作为待翻译原文的翻译结果。
程序810中各步骤的具体实现可以参见上述数据匹配方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,翻译记忆库中存储的标准原文是对原始的原文经字符编码格式统一化处理,和/或预设字符(不影响语义完整性的字符)消除处理之后得到的,对应地,在获取到待翻译原文之后,对获取到的待翻译原文也执行了上述相同的预处理操作(容错操作)。上述预处理操作,可以有效消除因书写习惯以及扫描操作等因素导致的相同含义字符在表现形式上的差异,使得具有相同含义的处理后待翻译原文和标准原文在表现形式上尽可能地相似或者相同,这样,若待翻译原文与标准原文具有相同含义,则在对上述处理后待翻译原文和标准原文进行匹配时,可以有效避免匹配失败(本应该能够确定出,但实际却未能确定出匹配标准原文)的情况,因此,本申请实施例可以有效提高数据匹配的正确率。
本申请实施例还提供了一种计算机程序产品,包括计算机指令,该计算机指令指示计算设备执行上述多个方法实施例中的任一数据匹配方法对应的操作。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的数据匹配方法。此外,当通用计算机访问用于实现在此示出的数据匹配方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的数据匹配方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。

Claims (12)

1.一种数据匹配方法,包括:
获取翻译记忆库,所述翻译记忆库中包含由标准原文和对应译文组成的句对组;所述标准原文为对初始原文进行预处理操作得到的,其中,所述预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;所述预设字符为不影响语义完整性的字符;
获取待翻译原文,并对所述待翻译原文执行所述预处理操作,得到处理后待翻译原文;
从所述标准原文中确定与所述处理后待翻译原文匹配的匹配标准原文,并将所述匹配标准原文对应的译文确定为所述待翻译原文的翻译结果。
2.根据权利要求1所述的方法,其中,所述翻译记忆库中的标准原文为对初始原文进行预处理操作以及预设编码操作后得到的;
在所述对所述待翻译原文执行所述预处理操作,得到处理后待翻译原文之后,所述方法还包括:
对所述处理后待翻译原文执行所述预设编码操作,得到编码后待翻译原文;
所述从所述标准原文中确定与所述处理后待翻译原文匹配的匹配标准原文,包括:
将与所述编码后待翻译原文完全相同的标准原文,确定为匹配标准原文。
3.根据权利要求2所述的方法,其中,所述预设编码操作为采用信息摘要算法进行的编码操作;
所述对所述处理后待翻译原文执行所述预设编码操作,得到编码后待翻译原文,包括:
采用信息摘要算法,对所述处理后待翻译原文进行编码,得到编码后待翻译原文。
4.根据权利要求1所述的方法,其中,所述预处理操作包括:字符编码格式统一化处理和预设字符消除处理;
所述对所述待翻译原文执行所述预处理操作,得到处理后待翻译原文,包括:
消除所述待翻译原文中的预设字符,得到第一原文;
根据预设的标点符号编码格式和数字字符编码格式,调整所述第一原文中的标点符号和数字字符,得到处理后待翻译原文。
5.根据权利要求4所述的方法,其中,若所述待翻译原文中包含字母,所述根据预设的标点符号编码格式和数字字符编码格式,调整所述第一原文中的标点符号和数字字符,得到处理后待翻译原文,包括:
根据预设的标点符号编码格式和数字字符编码格式,调整所述第一原文中的标点符号和数字字符,得到第二原文;
将所述第二原文中的字母统一为预设字母格式,以得到处理后待翻译原文;其中,预设字母格式为大写格式或者小写格式。
6.根据权利要求1所述的方法,其中,所述预设字符包括如下至少一项:断句符号、空字符以及回车符。
7.一种数据匹配方法,应用于扫读笔,包括:
接收用于指示进行文本翻译的指令;并根据所述指令,对包含待翻译原文的目标区域进行扫描,得到目标图像;
对所述目标图像进行文本识别,得到待翻译原文;
对所述待翻译原文执行预处理操作,得到处理后待翻译原文;其中,所述预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;所述预设字符为不影响语义完整性的字符;
获取翻译记忆库;所述翻译记忆库中包含由标准原文和对应译文组成的句对组;所述标准原文为对初始原文进行所述预处理操作得到的;
从所述标准原文中确定与所述处理后待翻译原文匹配的匹配标准原文,并输出所述匹配标准原文对应的译文作为所述待翻译原文的翻译结果。
8.一种数据匹配装置,包括:
第一记忆库获取模块,用于获取翻译记忆库,所述翻译记忆库中包含由标准原文和对应译文组成的句对组;所述标准原文为对初始原文进行预处理操作得到的,其中,所述预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;所述预设字符为不影响语义完整性的字符;
待翻译原文获取模块,用于获取待翻译原文,并对所述待翻译原文执行所述预处理操作,得到处理后待翻译原文;
翻译结果确定模块,用于从所述标准原文中确定与所述处理后待翻译原文匹配的匹配标准原文,并将所述匹配标准原文对应的译文确定为所述待翻译原文的翻译结果。
9.一种数据匹配装置,位于扫读笔,包括:
指令接收模块,用于接收用于指示进行文本翻译的指令;并根据所述指令,对包含待翻译原文的目标区域进行扫描,得到目标图像;
文本识别模块,用于对所述目标图像进行文本识别,得到待翻译原文;
预处理模块,用于对所述待翻译原文执行预处理操作,得到处理后待翻译原文;其中,所述预处理操作包括:字符编码格式统一化处理和/或预设字符消除处理;所述预设字符为不影响语义完整性的字符;
第二记忆库获取模块,用于获取翻译记忆库;所述翻译记忆库中包含由标准原文和对应译文组成的句对组;所述标准原文为对初始原文进行所述预处理操作得到的;
结果输出模块,用于从所述标准原文中确定与所述处理后待翻译原文匹配的匹配标准原文,并输出所述匹配标准原文对应的译文作为所述待翻译原文的翻译结果。
10.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-6中任一项所述的数据匹配方法对应的操作,或者,执行如权利要求7所述的数据匹配方法对应的操作。
11.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-6中任一所述的数据匹配方法,或者,实现如权利要求7所述的数据匹配方法。
12.一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如权利要求1-6中任一所述的数据匹配方法对应的操作,或者,执行如权利要求7所述的数据匹配方法对应的操作。
CN202210323005.2A 2022-03-30 2022-03-30 数据匹配方法、装置、设备及存储介质 Pending CN114638241A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210323005.2A CN114638241A (zh) 2022-03-30 2022-03-30 数据匹配方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210323005.2A CN114638241A (zh) 2022-03-30 2022-03-30 数据匹配方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114638241A true CN114638241A (zh) 2022-06-17

Family

ID=81950985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210323005.2A Pending CN114638241A (zh) 2022-03-30 2022-03-30 数据匹配方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114638241A (zh)

Similar Documents

Publication Publication Date Title
JP2713622B2 (ja) 表形式文書読取装置
GB2422709A (en) Correcting errors in OCR of electronic document using common prefixes or suffixes
KR20150128921A (ko) 고정 서식 문서에서의 동아시아 레이아웃 특징들의 검출 및 재구성
JPH0798765A (ja) 方向検出方法および画像解析装置
CN112070649B (zh) 一种去除特定字符串水印的方法及系统
CN110610180A (zh) 错别字词识别集的生成方法、装置、设备及存储介质
Drobac et al. OCR and post-correction of historical Finnish texts
JPH04195692A (ja) 文書読取装置
CN110516125B (zh) 识别异常字符串的方法、装置、设备及可读存储介质
RU2625533C1 (ru) Устройства и способы, которые строят иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN117235546B (zh) 多版本文件比对方法、装置、系统及存储介质
CN114419636A (zh) 文本识别方法、装置、设备以及存储介质
CN102467664B (zh) 辅助光学字符识别的方法和装置
CN105677718A (zh) 文字检索方法及装置
CN114579796B (zh) 机器阅读理解方法及装置
CN114638241A (zh) 数据匹配方法、装置、设备及存储介质
CN116384344A (zh) 一种文档转换方法、装置及存储介质
CN110781185B (zh) 一种文本文件内容像素化转换及还原方法
JP6575116B2 (ja) 文字認識装置、文字認識処理システム、およびプログラム
CN113553852B (zh) 一种基于神经网络的合同信息提取方法、系统和存储介质
Tsimpiris et al. Open-source OCR engine integration with Greek dictionary
Agamamidi et al. Extraction of textual information from images using mobile devices
CN116721431A (zh) 还原图像中字符排版的方法
CN117010333A (zh) 用于处理版式文档乱码字体的方法及装置、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination