CN109992790B - 数据处理方法和装置、用于数据处理的装置 - Google Patents

数据处理方法和装置、用于数据处理的装置 Download PDF

Info

Publication number
CN109992790B
CN109992790B CN201711474512.1A CN201711474512A CN109992790B CN 109992790 B CN109992790 B CN 109992790B CN 201711474512 A CN201711474512 A CN 201711474512A CN 109992790 B CN109992790 B CN 109992790B
Authority
CN
China
Prior art keywords
data
target
target data
data unit
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711474512.1A
Other languages
English (en)
Other versions
CN109992790A (zh
Inventor
姜里羊
王宇光
阳家俊
施亮亮
卫林钰
陈伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201711474512.1A priority Critical patent/CN109992790B/zh
Publication of CN109992790A publication Critical patent/CN109992790A/zh
Application granted granted Critical
Publication of CN109992790B publication Critical patent/CN109992790B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供了一种数据处理方法和装置、用于数据处理的装置,其中的方法具体包括:依据需要翻译的源语言文本,确定需要访问的目标数据;其中,所述目标数据为翻译记忆库的数据,所述翻译记忆库的数据被划分为多个数据单元;依据数据单元与数据之间的映射关系,确定所述目标数据对应的目标数据单元;加载所述目标数据单元,以通过加载后的所述目标数据单元实现对于所述目标数据的访问。本发明实施例可以降低对于内存空间的占用,进而可以提高设备的运行速度;以及可以提高数据单元的加载速度。

Description

数据处理方法和装置、用于数据处理的装置
技术领域
本发明涉及翻译技术领域,特别是涉及一种数据处理方法和装置、以及一种用于数据处理的装置。
背景技术
翻译技术是指利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的技术。
现有的一种翻译方法,可以依据已有的互为翻译的平行语料得到翻译记忆库,并在机器翻译的过程中,通过对于上述翻译记忆库的搜索和匹配技术,将源语言文本翻译为上述翻译记忆库中记录的目标语言文本。
然而,在实际应用中,翻译记忆库的数据量通常很大,这样,在机器翻译的过程中,将翻译记忆库加载到设备的内存中,需要占用大量的内存空间;而设备的内存容量往往是有限的,对于移动设备而言这种情况尤其明显,内存空间的大量占用意味着执行多任务工作时运行速度会更缓慢,也即影响设备的运行速度。并且,将翻译记忆库加载到设备的内存中,需要花费较长的加载时间。
发明内容
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的数据处理方法、数据处理装置、用于数据处理的装置,本发明实施例可以降低对于内存空间的占用,进而可以提高设备的运行速度;以及可以提高数据单元的加载速度。
为了解决上述问题,本发明实施例公开了一种数据处理方法,包括:
依据需要翻译的源语言文本,确定需要访问的目标数据;其中,所述目标数据为翻译记忆库的数据,所述翻译记忆库的数据被划分为多个数据单元;
依据数据单元与数据之间的映射关系,确定所述目标数据对应的目标数据单元;
加载所述目标数据单元,以通过加载后的所述目标数据单元实现对于所述目标数据的访问。
可选地,通过映射函数表征所述数据单元与数据之间的映射关系;所述确定所述目标数据对应的目标数据单元,包括:
通过所述映射函数,将所述目标数据的关键字转换为所述目标数据所对应目标数据单元的信息。
可选地,所述目标数据单元的信息包括如下信息中任一项或多项:标识信息、存储地址信息。
可选地,一个所述数据单元对应的数据量在预设数据量范围内,和/或,所述数据单元的数量在预设数量范围内。
可选地,所述数据单元的类型包括如下信息中任一项或多项:文件类型、数据库类型。
可选地,所述翻译记忆库的数据包括:互为翻译的双语对;所述双语对包括:第一语言文本和第二语言文本。
可选地,所述方法应用于移动设备,所述多个数据单元被存储于所述移动设备的闪存,所述加载所述目标数据单元,包括:
从所述移动设备的闪存读取所述目标数据单元对应的数据,并将读取的数据存储于所述移动设备的运行内存。
另一方面,本发明实施例公开了一种数据处理方法,包括:
将翻译记忆库的数据划分为多个数据单元;其中,一个所述数据单元与其对应的数据之间具有映射关系;
对所述多个数据单元进行存储。
可选地,通过映射函数表征所述数据单元与数据之间的映射关系,所述将翻译记忆库的数据划分为多个数据单元,包括:
通过所述映射函数,将所述数据的关键字转换为目标字符串;
将所述目标字符串与数据单元的信息进行匹配,以得到所述数据对应的数据单元。
可选地,所述数据单元的信息包括如下信息中任一项或多项:标识信息、存储地址信息。
可选地,一个所述数据单元对应的数据量在预设数据量范围内,和/或,所述数据单元的数量在预设数量范围内。
可选地,所述方法应用于移动设备,所述对所述多个数据单元进行存储,包括:
将所述多个数据单元存储至所述移动设备的闪存。
再一方面,本发明实施例公开了一种数据处理装置,包括:
目标数据确定模块,用于依据需要翻译的源语言文本,确定需要访问的目标数据;其中,所述目标数据为翻译记忆库的数据,所述翻译记忆库的数据被划分为多个数据单元;
目标数据单元确定模块,用于依据数据单元与数据之间的映射关系,确定所述目标数据对应的目标数据单元;以及
目标数据单元加载模块,用于加载所述目标数据单元,以通过加载后的所述目标数据单元实现对于所述目标数据的访问。
可选地,通过映射函数表征所述数据单元与数据之间的映射关系,所述目标数据单元确定模块包括:
转换子模块,用于通过所述映射函数,将所述目标数据的关键字转换为所述目标数据所对应目标数据单元的信息。
可选地,所述目标数据单元的信息包括如下信息中任一项或多项:标识信息、或者存储地址信息。
可选地,一个所述数据单元对应的数据量在预设数据量范围内,和/或,所述数据单元的数量在预设数量范围内。
可选地,所述数据单元的类型包括如下信息中任一项或多项:文件类型、数据库类型。
可选地,所述翻译记忆库的数据包括:互为翻译的双语对,所述双语对包括:第一语言文本和第二语言文本。
可选地,所述装置应用于移动设备,所述多个数据单元被存储于所述移动设备的闪存,所述目标数据单元加载模块包括:
读取存储子模块,用于从所述移动设备的闪存读取所述目标数据单元对应的数据,并将读取的数据存储于所述移动设备的运行内存。
另一方面,本发明实施例公开了一种数据处理装置,包括:
划分模块,用于将翻译记忆库的数据划分为多个数据单元;其中,一个所述数据单元与其对应的数据之间具有映射关系;以及
存储模块,用于对所述多个数据单元进行存储。
可选地,通过映射函数表征所述数据单元与数据之间的映射关系,所述划分模块包括:
转换子模块,用于通过所述映射函数,将所述数据的关键字转换为目标字符串;以及
匹配子模块,用于将所述目标字符串与数据单元的信息进行匹配,以得到所述数据对应的数据单元。
可选地,所述数据单元的信息包括如下信息中任一项或多项:标识信息、或者存储地址信息。
可选地,一个所述数据单元对应的数据量在预设数据量范围内,和/或,所述数据单元的数量在预设数量范围内。
可选地,所述装置应用于移动设备,所述存储模块包括:
存储子模块,用于将所述多个数据单元存储至所述移动设备的闪存。
再一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据需要翻译的源语言文本,确定需要访问的目标数据;其中,所述目标数据为翻译记忆库的数据,所述翻译记忆库的数据被划分为多个数据单元;
依据数据单元与数据之间的映射关系,确定所述目标数据对应的目标数据单元;
加载所述目标数据单元,以通过加载后的所述目标数据单元实现对于所述目标数据的访问。
又一方面,本发明实施例公开了一种用于数据处理的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
将翻译记忆库的数据划分为多个数据单元;其中,一个所述数据单元与其对应的数据之间具有映射关系;
对所述多个数据单元进行存储。
又一方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行前述的数据处理方法。
本发明实施例包括以下优点:
本发明实施例的一个所述数据单元与其对应的数据之间可以具有映射关系,这样,可以在翻译过程中根据需要访问的目标数据和该映射关系,加载对应的目标数据单元。本发明实施例在需要访问目标数据的情况下,加载该目标数据对应的目标数据单元,由于可以不加载不需要访问的数据对应的数据单元,因此相对于现有方案加载翻译记忆库的全部数据,本发明实施例可以降低对于内存空间的占用,进而可以提高设备的运行速度;以及可以提高数据单元的加载速度。
附图说明
图1是本发明实施例的一种数据处理方法的应用环境的示意图;
图2是本发明实施例的一种数据处理方法的步骤流程图;
图3是本发明实施例的另一种数据处理方法的步骤流程图;
图4是本发明实施例的一种数据处理装置的结构框图;
图5是本发明实施例的另一种数据处理装置的结构框图;
图6是根据一示例性实施例示出的一种用于数据处理的装置作为终端时的框图;及
图7是根据一示例性实施例示出的一种用于数据处理的装置作为服务器时的框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例提供了一种数据处理方案,该方案可以将翻译记忆库的数据划分为多个数据单元,并对所述多个数据单元进行存储。
其中,一个所述数据单元与其对应的数据之间可以具有映射关系,这样,可以在翻译过程中根据需要访问的目标数据和该映射关系,加载对应的目标数据单元。本发明实施例在需要访问目标数据的情况下,加载该目标数据对应的目标数据单元,由于可以不加载不需要访问的数据对应的数据单元,因此相对于现有方案加载翻译记忆库的全部数据,本发明实施例可以降低对于内存空间的占用,进而可以提高设备的运行速度。
本发明实施例提供的数据处理方法可应用于翻译场景中。在翻译场景中,可以依据用户的历史翻译行为数据的积累构建翻译记忆库,具体地,该翻译记忆库的数据可以包括:互为翻译的双语对,所述双语对可以源自用户的历史翻译行为数据。具体地,该双语对可以包括:第一语言文本和第二语言文本。
假设用户的历史翻译行为数据表明,用户曾经将第一语言文本A1翻译为第二语言文本B1,则该双语对可以包括第一语言文本A1和第二语言文本B1,例如,A1为“我们要相信我们有克服所有的困难的决心。”,B1“We must be convinced that we have thedetermination to overcome all difficulties”。或者,用户曾经将第二语言文本B2翻译为第一语言文本A2,则该双语对可以包括第一语言文本A2和第二语言文本B2。这里的用户可以包括:互联网内的一个用户或者多个用户,在实际应用中,可以通过网站或者应用程序采集用户的历史翻译行为数据,并依据用户的历史翻译行为数据的积累构建翻译记忆库。
可以理解,该翻译记忆库可以随着历史翻译行为数据的更新而更新,本领域技术人员可以根据用户的历史翻译行为数据,在该翻译记忆库中增加、删除或者更新对应的数据。并且,可以理解,该翻译记忆库可以包括:M条数据,其中,M为自然数,M通常为较大的数值,当然本发明实施例对于M的具体数值不加以限制。
本发明实施例中,第一语言和第二语言可以为不同种类的任意语言。例如,第一语言和第二语言可以为中文、日文、韩文、英文、法文、德文、意大利文、西班牙文、俄罗斯文和非洲文中的任意两者。
本发明实施例利用翻译记忆库进行翻译的原理可以为:依据需要翻译的源语言文本,在翻译记忆库中进行查找,以得到翻译记忆库中记录的与所述源语言文本相匹配的第一语言文本,并将与第一语言文本互为翻译的第二语言文本,作为所述源语言文本对应的目标语言文本。其中,源语言文本与第一语言文本相匹配,具体可以包括:源语言文本与第一语言文本相同,或者,源语言文本与第一语言文本之间的相似度超过相似度阈值等。
本发明实施例提供的数据处理方法可应用于图1所示的应用环境中,如图1所示,客户端100与服务器200位于有线或无线网络中,通过该有线或无线网络,客户端100与服务器200进行数据交互。
其中,客户端100可以运行在终端上。上述终端可以包括但不限于:智能手机、平板电脑、膝上型便携计算机、车载电脑、台式计算机、智能电视机、可穿戴设备等等。
上述服务器200可以为云服务器或者普通服务器,用于向客户端提供服务。例如,上述服务器200可以收集用户的历史翻译行为数据,依据用户的历史翻译行为数据构建翻译记忆库,并向客户端100下发构建的翻译记忆库。
本发明实施例的数据处理方法可由客户端100和服务器200中的任一或者组合执行。
根据一种实施例,客户端100可以对翻译记忆库进行存储,相应的存储过程可以包括:将翻译记忆库的数据划分为多个数据单元,并对所述多个数据单元进行存储。并且,客户端100可以利用存储的翻译记忆库进行翻译,相应的翻译过程可以包括:依据需要翻译的源语言文本,确定需要访问的目标数据;依据数据单元与数据之间的映射关系,确定所述目标数据对应的目标数据单元;并加载所述目标数据单元,以通过加载后的所述目标数据单元实现对于所述目标数据的访问。
根据另一种实施例,服务器200可以对翻译记忆库进行存储,并利用存储的翻译记忆库进行翻译。
方法实施例一
参照图2,示出了本发明实施例的一种数据处理方法的步骤流程图,具体可以包括如下步骤:
步骤201、将翻译记忆库的数据划分为多个数据单元;其中,一个所述数据单元与其对应的数据之间可以具有映射关系;
步骤202、对所述多个数据单元进行存储。
本发明实施例中,翻译记忆库可以为依据用户的历史翻译行为数据得到。可选地,该翻译记忆库的数据可以包括:互为翻译的双语对,所述双语对可以包括:第一语言文本和第二语言文本。例如,用户曾经将第一语言文本A1翻译为第二语言文本B1,则该双语对可以包括第一语言文本A1和第二语言文本B1。
步骤201可由客户端或者服务器执行。在步骤201由客户端执行的情况下,翻译记忆库的数据可以源自服务器。在步骤201由服务器执行的情况下,翻译记忆库的数据可以为依据用户的历史翻译行为数据得到。可以理解,本发明实施例对于翻译记忆库的具体数据、以及翻译记忆库的数据的具体来源不加以限制。
本发明实施例将翻译记忆库的数据划分为多个数据单元,具体地,假设该翻译记忆库包括M条数据,假设数据单元的数量为N,则可以将M条数据中的每一条数据划分到N个数据单元中的每一个数据单元,也即,可以建立每一条数据到每一个数据单元之间的映射关系。
在本发明的一种可选实施例中,可以依据数据的特征,确定所述数据对应的数据单元,由此可以建立数据单元与数据之间的映射关系。本领域技术人员可以根据实际应用需求,确定所述数据的特征。例如,所述数据的特征可以包括:数据中第一语言文本的特征、或者数据中第二语言文本的特征等。例如,数据中第一语言文本的特征具体可以为数据中第一语言文本的前缀字符串、后缀字符串或者所有字符串对应的二进制值等,可以理解,本发明实施例对于数据的具体的特征不加以限制。
在本发明的另一种可选实施例中,可以通过数据的关键字表征数据的特征,可以通过映射函数表征所述数据单元与数据之间的映射关系,所述将翻译记忆库的数据划分为多个数据单元的过程,具体可以包括:通过所述映射函数,将所述数据的关键字转换为目标字符串;将所述目标字符串与数据单元的信息进行匹配,以得到所述数据对应的数据单元。
本发明实施例中,散列函数是在数据对应的数据单元和数据的关键字key之间建立一个确定的映射关系f,使得每个关键字key对应一个数据单元f(key)。查找时,根据这个确定的映射关系找到给定值key的映射f(key)。
上述映射函数的例子可以包括:哈希函数,其中,哈希函数可以将任意长度的二进制值映射为固定长度的较小二进制值,这个教小二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式。
当然,上述哈希函数只是作为映射函数的示例,实际上,本领域技术人员可以根据实际应用需求,采用所需的映射函数,如DES(数据加密标准,Data Encryption Standard)函数、或者人工设置的映射函数等,其中,人工设置的映射函数可以依据数据的特征,对数据进行分类,并将同一类别的数据划分到对应的数据单元,数据的特征可以包括但不限于:数据的编号、数据的首字符(如love的首字符为l)或者数据发音的首字符(如“搜狗”发音的首字符为“s”)、数据的类别、或者数据对应字符串的长度等,本发明实施例对于具体的映射函数不加以限制。
本发明实施例中,所述数据单元的信息可以包括如下信息中任一项或多项:标识信息、存储地址信息。标识信息的例子可以包括:编号等,其中,标识信息与存储地址信息之间可以具备映射关系,也即可以根据该映射关系,确定标识信息对应的存储地址信息。
通常一个所述数据单元对应的数据量越小,则对应的加载速度越快。因此,在本发明的一种可选实施例中,一个所述数据单元对应的数据量可以在预设数据量范围内,由此可以实现一个所述数据单元的快速加载,也即可以提高一个所述数据单元的加载速度。可选地,上述预设数据量范围可以为:1MB~10MB,可以理解,本领域技术人员可以根据实际应用需求,确定上述预设数据量范围,本发明实施例对于具体的预设数据量范围不加以限制。
通常,N的数量越大则多个数据单元的维护难度越大。因此,在本发明的另一种可选实施例中,所述数据单元的数量N可以在预设数量范围内,由此可以控制多个数据单元的维护难度。可选地,上述预设数量范围可以为:2~1000,可以理解,本领域技术人员可以根据实际应用需求,确定上述预设数量范围,本发明实施例对于具体的预设数量范围不加以限制。
本发明实施例中,所述数据单元的类型可以包括如下信息中任一项或多项:文件类型、数据库类型。也即,本发明实施例的数据单元可以作为文件被存储,这样,可以通过加载文件实现对于数据单元的加载。或者,本发明实施例的数据单元可以作为数据库被存储,这样,可以通过加载数据库实现对于数据单元的加载。
在本发明的一种实施例中,本发明实施例的方法可以应用于移动设备,所述对所述多个数据单元进行存储的过程,可以包括:将所述多个数据单元存储至所述移动设备的闪存。
移动设备的存储装置通常包括:运行内存和非运行内存。其中,移动设备的运行内存相当于非移动设备的内存,即RAM(随机存取存储器,random access memory)。而移动设备的非运行内存相当于非移动设备的硬盘,也即ROM(只读存储器,Read-Only Memory)。通常RAM越大,移动设备能运行多个程序且流畅;ROM越大,移动设备能存放更多的数据。
闪存为移动设备的非运行内存的示例,其用于存储移动设备的数据,且在断电情况下仍能保存数据。目前主流的闪存规格主要有两种,一种由MMC(多媒体卡,MutimediaCard)制定的存储规格,简称为eMMC(内嵌多媒体卡,Embedded Multi Media Card);另外一种是UFS(通用闪存存储,Universal Flash Storage),是一种基于UNIX文件系统的简称。
在本发明的另一种实施例中,本发明实施例的方法可以应用于非移动设备,所述对所述多个数据单元进行存储的过程,可以包括:将所述多个数据单元存储至所述非移动设备的硬盘。
当然,上述将所述多个数据单元存储至所述移动设备的闪存、或者所述非移动设备的硬盘只是作为示例,实际上本领域技术人员可以根据实际应用需求,将所述多个数据单元存储至任意的存储装置,如U盘(Universal Serial Bus USB Mass Storage Device)、或者移动硬盘等移动存储装置等。
在本发明实施例的一种应用示例中,假设翻译记忆库的数据可以包括:互为翻译的中文文本和英文文本,假设翻译记忆库至少包括如下5条数据:
小明Xiaoming
小红Xiaohong
搜狗Sougo
首席执行官CEO
首席财务官CFO
假设N=2,则可以通过哈希函数建立5条数据到2个数据单元的映射关系,具体地,可以首先分别依据哈希函数,将每条数据中中文文本的关键字转换为hash值;例如,hash(小明)=0,hash(小红)=1,hash(搜狗)=1,hash(首席执行官)=0,hash(首席财务官)=0,其中,hash()表示哈希函数;然后,将所述hash值与数据单元的标识信息进行匹配,以得到所述数据对应的数据单元。这样,可以将翻译记忆库划分成2个数据单元的文件存放在闪存中,文件编号为对应的hash值。
可选地,可以将数据文件的数量N设置为一个较为合理的值,比如翻译记忆库的数据量为10G,则可以将N设置为1000,此种情况下,一个数据单元的数据量为10MB,将一个数据单元载入内存将会占用10MB的内存,且可以降低加载速度。
综上,本发明实施例的数据处理方法,一个所述数据单元与其对应的数据之间可以具有映射关系,这样,可以在翻译过程中根据需要访问的目标数据和该映射关系,加载对应的目标数据单元。本发明实施例在需要访问目标数据的情况下,加载该目标数据对应的目标数据单元,由于可以不加载不需要访问的数据对应的数据单元,因此相对于现有方案加载翻译记忆库的全部数据,本发明实施例可以降低对于内存空间的占用,进而可以提高设备的运行速度;以及可以提高数据单元的加载速度。
方法实施例二
参照图3,示出了本发明实施例的另一种数据处理方法的步骤流程图,具体可以包括如下步骤:
步骤301、依据需要翻译的源语言文本,确定需要访问的目标数据;其中,所述目标数据可以为翻译记忆库的数据,所述翻译记忆库的数据被划分为多个数据单元;
步骤302、依据数据单元与数据之间的映射关系,确定所述目标数据对应的目标数据单元;
步骤303、加载所述目标数据单元,以通过加载后的所述目标数据单元实现对于所述目标数据的访问。
步骤301中,需要翻译的源语言文本可以源自用户的输入。例如,在普通翻译场景下,用户可以直接输入源语言文本,例如,用户可以通过上传文件、粘贴或者按键等方式输入源语言文本,其中,可以从上传的文件中提取语言单元作为源语言文本,上述语言单元可以包括但不限于:句子或者分句或者短语或者词组或者词汇等。又如,在语音翻译场景下,用户可以输入语音,则可以对该语音进行语音识别,以得到该语音对应的文本,作为源语言文本。再如,在拍照翻译场景下,用户可以输入图片(如菜单的图片),则可以对该图片进行字符识别,以得到该图片对应的字符,作为源语言文本。可以理解,本领域技术人员可以针对不同的翻译场景,确定需要翻译的源语言文本,本发明实施例对于需要翻译的源语言文本对应的具体确定方式不加以限制。
本发明实施例中,所述翻译记忆库的数据可以包括:互为翻译的双语对,所述双语对包括:第一语言文本和第二语言文本。
步骤301依据需要翻译的源语言文本,确定需要访问的目标数据的过程,可以包括:将源语言文本作为需要访问的目标数据对应的第一语言文本,或者,从源语言文本中提取语言单元,将提取得到的语言单元作为需要访问的目标数据对应的第一语言文本等等,可以理解,本发明实施例对于确定需要访问的目标数据的具体过程不加以限制。例如,翻译记忆库的数据包括:中文文本和英文文本,需要翻译的源语言文本对应的语言为中文,则可以将源语言文本作为需要访问的目标数据对应的中文文本,并依据该翻译记忆库查找该中文文本对应的英文文本。
步骤302中,可以依据数据单元与数据之间的映射关系,确定所述目标数据对应的目标数据单元,进而可以对该目标数据单元进行加载。
在本发明的一种可选实施例中,可以通过映射函数表征所述数据单元与数据之间的映射关系,所述确定所述目标数据对应的目标数据单元的过程,可以包括:通过所述映射函数,将所述目标数据的关键字转换为所述目标数据所对应目标数据单元的信息。
本发明实施例中,所述目标数据单元的信息可以包括如下信息中任一项或多项:标识信息、存储地址信息。假设目标数据的关键字为“搜狗”,假设hash(搜狗)=1,则可以认为目标数据单元的编号为1,故可以加载编号为1的目标数据单元,再将其对应的翻译“Sougo”取出并返回。
在本发明的一种可选实施例中,一个所述数据单元对应的数据量可以在预设数据量范围内,和/或,所述数据单元的数量N可以在预设数量范围内。
在本发明的另一种可选实施例中,所述数据单元的类型可以包括如下信息中任一项或多项:文件类型、数据库类型。也即,本发明实施例的数据单元可以作为文件被存储,这样,可以通过加载文件实现对于数据单元的加载。或者,本发明实施例的数据单元可以作为数据库被存储,这样,可以通过加载数据库实现对于数据单元的加载。
在本发明的一种实施例中,所述方法可以应用于移动设备,则所述多个数据单元被存储于所述移动设备的闪存,所述步骤303加载所述目标数据单元的过程,具体可以包括:从所述移动设备的闪存读取所述目标数据单元对应的数据,并将读取的数据存储于所述移动设备的运行内存。由于可以不加载不需要访问的数据对应的数据单元,因此相对于现有方案加载翻译记忆库的全部数据,本发明实施例可以降低对于移动设备的运行内存的占用,进而可以提高移动设备的运行速度;以及可以提高数据单元的加载速度。
当然,上述从所述移动设备的闪存读取所述目标数据单元对应的数据,并将读取的数据存储于所述移动设备的运行内存,只是作为可选实施例,实际上,在本发明的另一种实施例中,还可以从移动存储装置读取所述目标数据单元对应的数据,并将读取的数据存储于所述移动设备的运行内存;或者,还可以从非移动设备的硬盘读取所述目标数据单元对应的数据,并将读取的数据存储于所述非移动设备的内存等。
综上,本发明实施例的数据处理方法,在需要访问目标数据的情况下,加载该目标数据对应的目标数据单元,由于可以不加载不需要访问的数据对应的数据单元,因此相对于现有方案加载翻译记忆库的全部数据,本发明实施例可以降低对于内存空间的占用,进而可以提高设备的运行速度;以及可以提高数据单元的加载速度。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。
装置实施例
参照图4,示出了本发明的一种数据处理装置实施例的结构框图,具体可以可以包括:
划分模块401,用于将翻译记忆库的数据划分为多个数据单元;其中,一个所述数据单元与其对应的数据之间具有映射关系;以及
存储模块402,用于对所述多个数据单元进行存储。
可选地,通过映射函数表征所述数据单元与数据之间的映射关系,所述划分模块可以包括:
转换子模块,用于通过所述映射函数,将所述数据的关键字转换为目标字符串;以及
匹配子模块,用于将所述目标字符串与数据单元的信息进行匹配,以得到所述数据对应的数据单元。
可选地,所述数据单元的信息可以包括如下信息中任一项或多项:标识信息、存储地址信息。
可选地,一个所述数据单元对应的数据量在预设数据量范围内,和/或,所述数据单元的数量在预设数量范围内。
可选地,所述装置应用于移动设备,所述存储模块可以包括:
存储子模块,用于将所述多个数据单元存储至所述移动设备的闪存。
参照图5,示出了本发明的另一种数据处理装置实施例的结构框图,具体可以可以包括:
目标数据确定模块501,用于依据需要翻译的源语言文本,确定需要访问的目标数据;其中,所述目标数据为翻译记忆库的数据,所述翻译记忆库的数据被划分为多个数据单元;
目标数据单元确定模块502,用于依据数据单元与数据之间的映射关系,确定所述目标数据对应的目标数据单元;以及
目标数据单元加载模块503,用于加载所述目标数据单元,以通过加载后的所述目标数据单元实现对于所述目标数据的访问。
可选地,通过映射函数表征所述数据单元与数据之间的映射关系,所述目标数据单元确定模块可以包括:
转换子模块,用于通过所述映射函数,将所述目标数据的关键字转换为所述目标数据所对应目标数据单元的信息。
可选地,所述目标数据单元的信息可以包括如下信息中任一项或多项:标识信息、存储地址信息。
可选地,一个所述数据单元对应的数据量在预设数据量范围内,和/或,所述数据单元的数量在预设数量范围内。
可选地,所述数据单元的类型可以包括如下信息中任一项或多项:文件类型、数据库类型。
可选地,所述翻译记忆库的数据可以包括:互为翻译的双语对,所述双语对可以包括:第一语言文本和第二语言文本。
可选地,所述装置应用于移动设备,所述多个数据单元被存储于所述移动设备的闪存,所述目标数据单元加载模块可以包括:
读取存储子模块,用于从所述移动设备的闪存读取所述目标数据单元对应的数据,并将读取的数据存储于所述移动设备的运行内存。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本发明实施例还提供了一种数据处理装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:依据需要翻译的源语言文本,确定需要访问的目标数据;其中,所述目标数据为翻译记忆库的数据,所述翻译记忆库的数据被划分为多个数据单元;依据数据单元与数据之间的映射关系,确定所述目标数据对应的目标数据单元;加载所述目标数据单元,以通过加载后的所述目标数据单元实现对于所述目标数据的访问。
可选地,通过映射函数表征所述数据单元与数据之间的映射关系;所述确定所述目标数据对应的目标数据单元,包括:
通过所述映射函数,将所述目标数据的关键字转换为所述目标数据所对应目标数据单元的信息。
可选地,所述目标数据单元的信息包括如下信息中任一项或多项:标识信息、存储地址信息。
可选地,一个所述数据单元对应的数据量在预设数据量范围内,和/或,所述数据单元的数量在预设数量范围内。
可选地,所述数据单元的类型包括如下信息中任一项或多项:文件类型、数据库类型。
可选地,所述翻译记忆库的数据包括:互为翻译的双语对;所述双语对包括:第一语言文本和第二语言文本。
可选地,所述方法应用于移动设备,所述多个数据单元被存储于所述移动设备的闪存,所述加载所述目标数据单元,包括:
从所述移动设备的闪存读取所述目标数据单元对应的数据,并将读取的数据存储于所述移动设备的运行内存。
本发明实施例还提供了一种数据处理装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:将翻译记忆库的数据划分为多个数据单元;其中,一个所述数据单元与其对应的数据之间具有映射关系;对所述多个数据单元进行存储。
可选地,通过映射函数表征所述数据单元与数据之间的映射关系,所述将翻译记忆库的数据划分为多个数据单元,包括:
通过所述映射函数,将所述数据的关键字转换为目标字符串;
将所述目标字符串与数据单元的信息进行匹配,以得到所述数据对应的数据单元。
可选地,所述数据单元的信息包括如下信息中任一项或多项:标识信息、存储地址信息。
可选地,一个所述数据单元对应的数据量在预设数据量范围内,和/或,所述数据单元的数量在预设数量范围内。
可选地,所述方法应用于移动设备,所述对所述多个数据单元进行存储,包括:
将所述多个数据单元存储至所述移动设备的闪存。
图6是根据一示例性实施例示出的一种用于数据处理的装置作为终端时的框图。例如,终端900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图6,终端900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制终端900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理组件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在终端900的操作。这些数据的示例包括用于在终端900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件906为终端900的各种组件提供电力。电源组件906可以包括电源管理系统,一个或多个电源,及其他与为终端900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述终端900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当终端900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当终端900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为终端900提供各个方面的状态评估。例如,传感器组件914可以检测到终端900的打开/关闭状态,组件的相对定位,例如所述组件为终端900的显示器和小键盘,传感器组件914还可以检测终端900或终端900一个组件的位置改变,用户与终端900接触的存在或不存在,终端900方位或加速/减速和终端900的温度变化。传感器组件914可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于终端900和其他设备之间有线或无线方式的通信。终端900可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,终端900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由终端900的处理器920执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图7是根据一示例性实施例示出的一种用于数据处理的装置作为服务器时的框图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。
服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器1932,上述指令可由服务器1900的处理器执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行图2或图3所述的方法。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行一种数据处理方法,所述方法包括:依据需要翻译的源语言文本,确定需要访问的目标数据;其中,所述目标数据为翻译记忆库的数据,所述翻译记忆库的数据被划分为多个数据单元;依据数据单元与数据之间的映射关系,确定所述目标数据对应的目标数据单元;加载所述目标数据单元,以通过加载后的所述目标数据单元实现对于所述目标数据的访问。
一种非临时性计算机可读存储介质,当所述存储介质中的指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行一种数据处理方法,所述方法包括:将翻译记忆库的数据划分为多个数据单元;其中,一个所述数据单元与其对应的数据之间具有映射关系;对所述多个数据单元进行存储。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
以上对本发明所提供的一种数据处理方法、一种数据处理装置、以及一种用于数据处理的装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (26)

1.一种数据处理方法,其特征在于,应用于客户端,包括:
依据需要翻译的源语言文本,确定需要访问的目标数据;其中,所述目标数据为翻译记忆库的数据,所述翻译记忆库包括多条数据,所述翻译记忆库的多条数据被所述客户端基于预设的映射函数划分为多个数据单元进行存储,每个所述数据单元存储所述翻译记忆库中的至少一条数据;所述映射函数用于依据数据的特征建立每条数据到每个所述数据单元之间的映射关系;每个所述数据单元对应的数据量在预设数据量范围内,和/或,所述数据单元的数量在预设数量范围内;
依据数据单元与数据之间的所述映射关系以及所述目标数据的特征,确定所述目标数据对应的目标数据单元,包括:通过所述映射函数,将所述目标数据的关键字转换为所述目标数据所对应目标数据单元的信息,所述目标数据的特征包括所述目标数据的关键字;
加载所述目标数据单元对应的数据到所述客户端所在设备的运行内存,以通过加载后的所述目标数据单元实现对于所述目标数据的访问。
2.根据权利要求1所述的方法,其特征在于,所述目标数据单元的信息包括如下信息中任一项或多项:标识信息、存储地址信息。
3.根据权利要求1或2所述的方法,其特征在于,所述数据单元的类型包括如下信息中任一项或多项:文件类型、数据库类型。
4.根据权利要求1或2所述的方法,其特征在于,所述翻译记忆库的数据包括:互为翻译的双语对;所述双语对包括:第一语言文本和第二语言文本。
5.根据权利要求1或2所述的方法,其特征在于,所述客户端所在设备为移动设备,所述多个数据单元被存储于所述移动设备的闪存,所述加载所述目标数据单元对应的数据到所述客户端所在设备的运行内存,包括:
从所述移动设备的闪存读取所述目标数据单元对应的数据,并将读取的数据存储于所述移动设备的运行内存。
6.一种数据处理方法,其特征在于,应用于客户端,包括:
将翻译记忆库的数据基于预设的映射函数划分为多个数据单元,包括:通过所述映射函数,将所述数据的关键字转换为目标字符串;将所述目标字符串与数据单元的信息进行匹配,以得到所述数据对应的数据单元;其中,所述翻译记忆库包括多条数据,所述映射函数用于依据数据的特征建立每条数据到每个所述数据单元之间的映射关系,所述数据的特征包括所述数据的关键字;每个所述数据单元对应的数据量在预设数据量范围内,和/或,所述数据单元的数量在预设数量范围内;
对所述多个数据单元进行存储,以使得在需要访问目标数据时,由所述客户端加载所述目标数据对应的目标数据单元到所述客户端所在设备的运行内存,每个所述数据单元包括所述翻译记忆库中的至少一条数据。
7.根据权利要求6所述的方法,其特征在于,所述数据单元的信息包括如下信息中任一项或多项:标识信息、存储地址信息。
8.根据权利要求6或7所述的方法,其特征在于,所述客户端所在设备为移动设备,所述对所述多个数据单元进行存储,包括:
将所述多个数据单元存储至所述移动设备的闪存。
9.一种数据处理装置,其特征在于,应用于客户端,包括:
目标数据确定模块,用于依据需要翻译的源语言文本,确定需要访问的目标数据;其中,所述目标数据为翻译记忆库的数据,所述翻译记忆库包括多条数据,所述翻译记忆库的多条数据被所述客户端基于预设的映射函数划分为多个数据单元进行存储,每个所述数据单元存储所述翻译记忆库中的至少一条数据;所述映射函数用于依据数据的特征建立每条数据到每个所述数据单元之间的映射关系;每个所述数据单元对应的数据量在预设数据量范围内,和/或,所述数据单元的数量在预设数量范围内;
目标数据单元确定模块,用于依据数据单元与数据之间的所述映射关系以及所述目标数据的特征,确定所述目标数据对应的目标数据单元;以及
目标数据单元加载模块,用于加载所述目标数据单元对应的数据到所述客户端所在设备的运行内存,以通过加载后的所述目标数据单元实现对于所述目标数据的访问;
所述目标数据单元确定模块包括:
转换子模块,用于通过所述映射函数,将所述目标数据的关键字转换为所述目标数据所对应目标数据单元的信息,所述目标数据的特征包括所述目标数据的关键字。
10.根据权利要求9所述的装置,其特征在于,所述目标数据单元的信息包括如下信息中任一项或多项:标识信息、存储地址信息。
11.根据权利要求9或10所述的装置,其特征在于,所述数据单元的类型包括如下信息中任一项或多项:文件类型、数据库类型。
12.根据权利要求9或10所述的装置,其特征在于,所述翻译记忆库的数据包括:互为翻译的双语对,所述双语对包括:第一语言文本和第二语言文本。
13.根据权利要求9或10所述的装置,其特征在于,所述客户端所在设备为移动设备,所述多个数据单元被存储于所述移动设备的闪存,所述目标数据单元加载模块包括:
读取存储子模块,用于从所述移动设备的闪存读取所述目标数据单元对应的数据,并将读取的数据存储于所述移动设备的运行内存。
14.一种数据处理装置,其特征在于,应用于客户端,包括:
划分模块,用于将翻译记忆库的数据基于预设的映射函数划分为多个数据单元;其中,所述翻译记忆库包括多条数据,所述映射函数用于依据数据的特征建立每条数据到每个所述数据单元之间的映射关系;每个所述数据单元对应的数据量在预设数据量范围内,和/或,所述数据单元的数量在预设数量范围内;以及
存储模块,用于对所述多个数据单元进行存储,以使得在需要访问目标数据时,由所述客户端加载所述目标数据对应的目标数据单元到所述客户端所在设备的运行内存,每个所述数据单元包括所述翻译记忆库中的至少一条数据;
所述数据的特征包括所述数据的关键字,所述划分模块包括:
转换子模块,用于通过所述映射函数,将所述数据的关键字转换为目标字符串;以及
匹配子模块,用于将所述目标字符串与数据单元的信息进行匹配,以得到所述数据对应的数据单元。
15.根据权利要求14所述的装置,其特征在于,所述数据单元的信息包括如下信息中任一项或多项:标识信息、存储地址信息。
16.根据权利要求14或15所述的装置,其特征在于,所述客户端所在设备为移动设备,所述存储模块包括:
存储子模块,用于将所述多个数据单元存储至所述移动设备的闪存。
17.一种用于数据处理的装置,其特征在于,应用于客户端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
依据需要翻译的源语言文本,确定需要访问的目标数据;其中,所述目标数据为翻译记忆库的数据,所述翻译记忆库包括多条数据,所述翻译记忆库的多条数据被客户端基于预设的映射函数划分为多个数据单元进行存储,每个所述数据单元存储所述翻译记忆库中的至少一条数据;所述映射函数用于依据数据的特征建立每条数据到每个所述数据单元之间的映射关系;每个所述数据单元对应的数据量在预设数据量范围内,和/或,所述数据单元的数量在预设数量范围内;
依据数据单元与数据之间的所述映射关系以及所述目标数据的特征,确定所述目标数据对应的目标数据单元,包括:通过所述映射函数,将所述目标数据的关键字转换为所述目标数据所对应目标数据单元的信息,所述目标数据的特征包括所述目标数据的关键字;
加载所述目标数据单元对应的数据到所述客户端所在设备的运行内存,以通过加载后的所述目标数据单元实现对于所述目标数据的访问。
18.根据权利要求17所述的装置,其特征在于,所述目标数据单元的信息包括如下信息中任一项或多项:标识信息、存储地址信息。
19.根据权利要求17或18所述的装置,其特征在于,所述数据单元的类型包括如下信息中任一项或多项:文件类型、数据库类型。
20.根据权利要求17或18所述的装置,其特征在于,所述翻译记忆库的数据包括:互为翻译的双语对;所述双语对包括:第一语言文本和第二语言文本。
21.根据权利要求17或18所述的装置,其特征在于,所述客户端所在设备为移动设备,所述多个数据单元被存储于所述移动设备的闪存,所述加载所述目标数据单元对应的数据到所述客户端所在设备的运行内存,包括:
从所述移动设备的闪存读取所述目标数据单元对应的数据,并将读取的数据存储于所述移动设备的运行内存。
22.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求1至5中一个或多个所述的数据处理方法。
23.一种用于数据处理的装置,其特征在于,应用于客户端,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:
将翻译记忆库的数据基于预设的映射函数划分为多个数据单元,包括:通过所述映射函数,将所述数据的关键字转换为目标字符串;将所述目标字符串与数据单元的信息进行匹配,以得到所述数据对应的数据单元;其中,所述翻译记忆库包括多条数据,所述映射函数用于依据数据的特征建立每条数据到每个所述数据单元之间的映射关系,所述数据的特征包括所述数据的关键字;每个所述数据单元对应的数据量在预设数据量范围内,和/或,所述数据单元的数量在预设数量范围内;
对所述多个数据单元进行存储,以使得在需要访问目标数据时,由所述客户端加载所述目标数据对应的目标数据单元到所述客户端所在设备的运行内存,每个所述数据单元包括所述翻译记忆库中的至少一条数据。
24.根据权利要求23所述的装置,其特征在于,所述数据单元的信息包括如下信息中任一项或多项:标识信息、存储地址信息。
25.根据权利要求23或24所述的装置,其特征在于,所述客户端所在设备为移动设备,所述对所述多个数据单元进行存储,包括:
将所述多个数据单元存储至所述移动设备的闪存。
26.一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行如权利要求6至8中一个或多个所述的数据处理方法。
CN201711474512.1A 2017-12-29 2017-12-29 数据处理方法和装置、用于数据处理的装置 Active CN109992790B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711474512.1A CN109992790B (zh) 2017-12-29 2017-12-29 数据处理方法和装置、用于数据处理的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711474512.1A CN109992790B (zh) 2017-12-29 2017-12-29 数据处理方法和装置、用于数据处理的装置

Publications (2)

Publication Number Publication Date
CN109992790A CN109992790A (zh) 2019-07-09
CN109992790B true CN109992790B (zh) 2023-09-29

Family

ID=67109517

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711474512.1A Active CN109992790B (zh) 2017-12-29 2017-12-29 数据处理方法和装置、用于数据处理的装置

Country Status (1)

Country Link
CN (1) CN109992790B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110807334B (zh) * 2019-10-29 2023-07-21 网易有道信息技术(北京)有限公司 文本处理方法、装置、介质和计算设备
CN113076554B (zh) * 2021-03-12 2022-10-11 广西东信易联科技有限公司 一种基于区块链的体检数据安全存储方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880602A (zh) * 2012-10-12 2013-01-16 国电南瑞科技股份有限公司 一种变电站监控系统中多语言动态切换方法
CN103793322A (zh) * 2012-11-05 2014-05-14 深圳中兴网信科技有限公司 一种针对软件本地化测试中翻译问题的检测方法及系统
CN104424263A (zh) * 2013-08-29 2015-03-18 腾讯科技(深圳)有限公司 一种数据记录的处理方法及装置
JP2015210683A (ja) * 2014-04-25 2015-11-24 株式会社リコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
CN107423291A (zh) * 2017-05-05 2017-12-01 腾讯科技(深圳)有限公司 一种数据翻译方法以及客户端设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102880602A (zh) * 2012-10-12 2013-01-16 国电南瑞科技股份有限公司 一种变电站监控系统中多语言动态切换方法
CN103793322A (zh) * 2012-11-05 2014-05-14 深圳中兴网信科技有限公司 一种针对软件本地化测试中翻译问题的检测方法及系统
CN104424263A (zh) * 2013-08-29 2015-03-18 腾讯科技(深圳)有限公司 一种数据记录的处理方法及装置
JP2015210683A (ja) * 2014-04-25 2015-11-24 株式会社リコー 情報処理システム、情報処理装置、情報処理方法およびプログラム
CN107423291A (zh) * 2017-05-05 2017-12-01 腾讯科技(深圳)有限公司 一种数据翻译方法以及客户端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗磊.医学英汉互译技巧与实践.2004,第319页. *

Also Published As

Publication number Publication date
CN109992790A (zh) 2019-07-09

Similar Documents

Publication Publication Date Title
CN108304412B (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN110391966B (zh) 一种消息处理方法、装置和用于消息处理的装置
WO2019109663A1 (zh) 一种跨语言搜索方法和装置、一种用于跨语言搜索的装置
CN110633017A (zh) 一种输入方法、装置和用于输入的装置
CN109783244B (zh) 处理方法和装置、用于处理的装置
CN109521888B (zh) 一种输入方法、装置和介质
CN109992790B (zh) 数据处理方法和装置、用于数据处理的装置
CN113987128A (zh) 相关文章搜索方法、装置、电子设备和存储介质
CN111090998A (zh) 一种手语转换方法、装置和用于手语转换的装置
CN108628461B (zh) 一种输入方法和装置、一种更新词库的方法和装置
CN107784037B (zh) 信息处理方法和装置、用于信息处理的装置
CN111381685B (zh) 一种句联想方法和装置
CN111324214B (zh) 一种语句纠错方法和装置
CN108108356B (zh) 一种文字翻译方法、装置及设备
CN113010768B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN111736752B (zh) 一种内容推荐方法及装置
CN110110292B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN110399177B (zh) 基于输入法的数据处理方法、装置和用于数据处理的装置
CN108345590B (zh) 一种翻译方法、装置、电子设备以及存储介质
CN109388328B (zh) 一种输入方法、装置和介质
CN108073566B (zh) 分词方法和装置、用于分词的装置
CN112905023A (zh) 一种输入纠错方法、装置和用于输入纠错的装置
CN111460836B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN110096693B (zh) 一种数据处理方法、装置和用于数据处理的装置
CN110765338A (zh) 一种数据处理方法、装置和用于数据处理的装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant