CN110298017A - 一种编码数据处理方法、装置及计算机存储介质 - Google Patents

一种编码数据处理方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN110298017A
CN110298017A CN201810235399.XA CN201810235399A CN110298017A CN 110298017 A CN110298017 A CN 110298017A CN 201810235399 A CN201810235399 A CN 201810235399A CN 110298017 A CN110298017 A CN 110298017A
Authority
CN
China
Prior art keywords
coded data
sub
character
coding
coding standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810235399.XA
Other languages
English (en)
Other versions
CN110298017B (zh
Inventor
郑喆铭
吴振东
蔡磊
张蔚巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810235399.XA priority Critical patent/CN110298017B/zh
Publication of CN110298017A publication Critical patent/CN110298017A/zh
Application granted granted Critical
Publication of CN110298017B publication Critical patent/CN110298017B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Abstract

本发明实施例公开了一种编码数据处理方法、装置及计算机存储介质,其中方法包括:获取以第一编码标准进行存储的目标编码数据;基于第二编码标准,对目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对目标编码数据中第二子编码数据进行解析,得到第二字符;第一子编码数据是指目标编码数据中属于第二编码标准所覆盖的总编码范围的子编码数据;第二子编码数据是指目标编码数据中除了第一子编码数据以外的子编码数据;按照目标编码数据中每个子编码数据的顺序,对第一字符和第二字符进行顺序组合并显示。采用本发明实施例,可以避免对大量编码数据进行转码,以降低设备功耗。

Description

一种编码数据处理方法、装置及计算机存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种编码数据处理方法、装置及计算机存储介质。
背景技术
Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。
而对于缅甸地区的用户通常使用Zawgyi-One(Zawgyi-One是一种缅甸文的字符编码标准)来编码缅甸文。因此,若使用Unicode标准对基于Zawgyi-One 的编码数据进行解析,则势必会生成乱码。目前的解决方式通常为,将所有基于Zawgyi-One的编码数据转换为基于Unicode的编码数据,但是在缅甸地区,基于Zawgyi-One的编码数据的量可能会非常大,所以若对所有基于Zawgyi-One 的编码数据都进行转换,则会因大量的转码操作而导致设备功耗过高。
发明内容
本发明实施例提供一种编码数据处理方法、装置及计算机存储介质,可以避免对大量编码数据进行转码,以降低设备功耗。
本发明实施例一方面提供了一种编码数据处理方法,包括:
获取以第一编码标准进行存储的目标编码数据;
基于第二编码标准,对所述目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对所述目标编码数据中第二子编码数据进行解析,得到第二字符;所述第一子编码数据是指所述目标编码数据中属于第二编码标准所覆盖的总编码范围的子编码数据;所述第二子编码数据是指所述目标编码数据中除了所述第一子编码数据以外的子编码数据;
按照所述目标编码数据中每个子编码数据的顺序,对所述第一字符和所述第二字符进行顺序组合并显示。
本发明实施例一方面提供了一种编码数据处理装置,包括:
获取模块,用于获取以第一编码标准进行存储的目标编码数据;
解析模块,用于基于第二编码标准,对所述目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对所述目标编码数据中第二子编码数据进行解析,得到第二字符;所述第一子编码数据是指所述目标编码数据中属于第二编码标准所覆盖的总编码范围的子编码数据;所述第二子编码数据是指所述目标编码数据中除了所述第一子编码数据以外的子编码数据;
组合显示模块,用于按照所述目标编码数据中每个子编码数据的顺序,对所述第一字符和所述第二字符进行顺序组合并显示。
本发明实施例一方面提供了一种编码数据处理装置,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如本发明实施例中一方面中的方法。
本发明实施例一方面提供了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如本发明实施例中一方面中的方法。
本发明实施例通过获取以第一编码标准进行存储的目标编码数据,并基于第二编码标准,对目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对目标编码数据中第二子编码数据进行解析,得到第二字符,并按照目标编码数据中每个子编码数据的顺序,对第一字符和第二字符进行顺序组合并显示;其中,第一子编码数据是指目标编码数据中属于第二编码标准所覆盖的总编码范围的子编码数据;第二子编码数据是指目标编码数据中除了第一子编码数据以外的子编码数据。由此可见,目标编码数据可以同时包含两种编码标准对应的子编码数据,然后基于Unicode编码标准对基于Unicode的子编码数据进行解析,并基于Zawgyi-One编码标准对基于 Zawgyi-One的子编码数据进行解析,因此,无需将所有基于Zawgyi-One的编码数据都转换为基于Unicode的编码数据,从而可以降低设备功耗。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的一种网络架构的示意图;
图1b是本发明实施例提供的一种Unicode编码表的示意图;
图1c是本发明实施例提供的一种Zawgyi-One编码表的示意图;
图1d是本发明实施例提供的一种编码数据处理方法的场景示意图;
图1e是本发明实施例提供的另一种编码数据处理方法的场景示意图;
图1f是本发明实施例提供的另一种编码数据处理方法的场景示意图;
图2是本发明实施例提供的一种编码数据处理方法的流程示意图;
图3是本发明实施例提供的另一种编码数据处理方法的流程示意图;
图3a是本发明实施例提供的一种解析编码数据的场景示意图;
图4是本发明实施例提供的又一种编码数据处理方法的流程示意图;
图4a是本发明实施例提供的另一种解析编码数据的场景示意图;
图5是本发明实施例提供的一种编码数据处理装置的结构示意图;
图6是本发明实施例提供的另一种编码数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1a,是本发明实施例提供的一种网络架构的示意图。如图1a所示,该网络架构可以包括服务器100、内容提供设备200a、内容提供设备200b、用户终端300a、用户终端300b、用户终端300c;内容提供设备200a、内容提供设备200b、用户终端300a、用户终端300b、用户终端300c均可以通过网络连接到服务器100。服务器100可以是用于存储编码数据、且可以用于解析编码数据的服务器,该编码数据可以是基于Unicode的编码数据,或者也可以是基于Zawgyi-One的编码数据。内容提供设备200a、内容提供设备200b可以是指内容提供商侧的服务器,内容提供设备200a可以用于提供文字内容对应的字符编码数据,图1a仅以两个内容提供设备为例,这里不对内容提供设备的数量进行限定。用户终端300a、用户终端300b、用户终端300c均可以用于解析编码数据并显示解析后所得到的字符,或者也可以只用于显示字符(如服务器100可以解析编码数据并将解析后所得到的字符发送到某用户终端)。用户终端300a、用户终端300b、用户终端300c均可以包括与服务器100进行连接通信的产品访问入口,该产品访问入口可以用于对编码数据进行解析,并用于显示解析后的字符,并用于收发编码数据,图1a仅以3个用户终端为例,这里不对用户终端的数量进行限定。
其中,Unicode标准可以用4个字节的数字(即数字0至0x10FFFF)来映射字符。Unicode标准中共有1114112个码位,码位就是可以分配给字符的数字。在Unicode标准里面,一个码位代表一个唯一的字符。一般书写某个字符的码位,通常会用“U+”然后紧接着一组十六进制的数字来表示这一个字符。比如,“字”的码位是U+5B57。进一步的,请一并参见图1b,是本发明实施例提供的一种Unicode编码表的示意图,如图1b所示,Unicode编码表中的码位包括 U+0000至U+10FFFF,且该Unicode编码表包括码位(U+0000至U+0FFF)所映射的字符400a、码位(U+1000至U+109F)所映射的字符400b、码位(U+10A0 至U+10FFFF)所映射的字符400c。其中,码位(U+1000至U+109F)所映射的字符400b包括缅甸文字符以及若干小语种字符。
其中,Zawgyi-One标准也可以用4个字节的数字(即数字0x1000至0x109F) 来映射字符,Zawgyi-One标准中的字符均属于缅甸文,即Zawgyi-One标准中的所有码位(U+1000至U+109F)与缅甸文字符映射。进一步的,请一并参见图 1c,是本发明实施例提供的一种Zawgyi-One编码表的示意图,如图1c所示, Zawgyi-One编码表中的码位包括U+1000至U+109F,且该Zawgyi-One编码表包括码位(U+1000至U+109F)所映射的字符500a。可见,Zawgyi-One标准中的所有码位,与Unicode标准中与缅甸文字符以及若干小语种字符映射的码位相同。
进一步的,请一并参见图1d,是本发明实施例提供的一种编码数据处理方法的场景示意图。在图1d中,以上述图1a中的服务器100、内容提供设备200a、用户终端300b为例,对三端设备之间的交互过程进行说明。内容提供设备200a 可以将目标编码数据10a、目标编码数据10b、目标编码数据10c都发送到服务器100,3份目标编码数据均可以包括基于Unicode的多个子编码数据(这里将一个码位称之为一个子编码数据,以下均将码位称之为子编码数据),或包括基于Zawgyi-One的多个子编码数据,或同时包含上述两种编码标准的多个子编码数据,基于Unicode的一个子编码数据可以是指Unicode中的一个字符对应的码位,基于Zawgyi-One的一个子编码数据可以是指Zawgyi-One中的一个字符对应的码位。其中,如上述图1c所示,Zawgyi-One所覆盖的总编码范围是U+1000 至U+109F的区间;其中,目标编码数据可以包括处于U+1000至U+109F范围以外的基于Unicode的子编码数据,和/或处于U+1000至U+109F范围内的基于 Zawgyi-One的子编码数据。若目标编码数据中还包括处于U+1000至U+109F 范围内的基于Unicode的子编码数据,则服务器100可以将这部分子编码数据转码为基于Zawgyi-One的子编码数据。服务器100可以将3份目标编码数据均默认为Unicode编码数据,以进行存储,因此,无需改变服务器100的架构。当用户终端300b向服务器100请求目标编码数据10a的内容时,服务器100可以将目标编码数据10a发送至用户终端300b。若目标编码数据10a既包含处于 U+1000至U+109F范围内的基于Zawgyi-One的子编码数据,也包含处于U+1000 至U+109F范围以外的基于Unicode的子编码数据,则用户终端300b可以先基于Zawgyi-One对处于U+1000至U+109F范围内的子编码数据进行解析(即不再使用Unicode对处于U+1000至U+109F范围内的子编码数据进行解析),再基于Unicode对还未解析的子编码数据进行解析。用户终端300b再按照目标编码数据10a中每个子编码数据的顺序,对所解析出的所有字符进行重新排序,得到排序后的字符20a,并在终端界面显示排序后的字符20a。
进一步的,请一并参见图1e,是本发明实施例提供的另一种编码数据处理方法的场景示意图。在图1e中,以上述图1a中的服务器100、内容提供设备200a、用户终端300b为例,对三端设备之间的交互过程进行说明。内容提供设备200a 可以将目标编码数据10a、目标编码数据10b、目标编码数据10c(可以具体参见上述图1d中的目标编码数据10a、目标编码数据10b、目标编码数据10c)都发送到服务器100。服务器100可以将3份目标编码数据均默认为Unicode编码数据,以进行存储,因此,无需改变服务器100的架构。若用户终端300b向服务器100请求目标编码数据10a的内容,且目标编码数据10a既包含处于U+1000 至U+109F范围内的基于Zawgyi-One的子编码数据,也包含处于U+1000至 U+109F范围以外的基于Unicode的子编码数据,则服务器100可以先基于 Zawgyi-One对处于U+1000至U+109F范围内的子编码数据进行解析(即不再使用Unicode对处于U+1000至U+109F范围内的子编码数据进行解析),再基于Unicode对还未解析的子编码数据进行解析。服务器100再按照目标编码数据 10a中每个子编码数据的顺序,对所解析出的所有字符进行重新排序,得到排序后的字符20a,并将字符20a发送至用户终端300b,用户终端300b获取到字符 20a后,可以直接在终端界面显示字符20a。
进一步的,请一并参见图1f,是本发明实施例提供的另一种编码数据处理方法的场景示意图。在图1f中,以上述图1a中的用户终端300b为例,若用户终端300b预先获取到目标编码数据10a、目标编码数据10b、目标编码数据10c (可以具体参见上述图1d中的目标编码数据10a、目标编码数据10b、目标编码数据10c),则用户终端300b可以将3份目标编码数据均默认为Unicode编码数据,以进行存储。若用户终端300b检测到目标编码数据10a对应的显示请求,且目标编码数据10a既包含处于U+1000至U+109F范围内的基于Zawgyi-One 的子编码数据,也包含处于U+1000至U+109F范围以外的基于Unicode的子编码数据,则用户终端300b可以先基于Zawgyi-One对处于U+1000至U+109F范围内的子编码数据进行解析(即不再使用Unicode对处于U+1000至U+109F范围内的子编码数据进行解析),再基于Unicode对还未解析的子编码数据进行解析。用户终端300b再按照目标编码数据10a中每个子编码数据的顺序,对所解析出的所有字符进行重新排序,得到排序后的字符20a,并在终端界面显示字符 20a。
由此可见,本发明实施例中的用户终端和服务器均可以对目标编码数据进 行存储和解析,且用户终端还可以对解析后的目标编码数据所对应的字符进行 显示。其中,对目标编码数据进行转码和存储的具体实现过程、对目标编码数 据进行解析的具体实现过程,可以通过以下图2至图6对应的实施例进行详细 说明。
请参见图2,是本发明实施例提供的一种编码数据处理方法的流程示意图,所述方法可以包括:
S201,获取以第一编码标准进行存储的目标编码数据;
具体的,编码数据处理装置可以获取以第一编码标准进行存储的目标编码数据,编码数据处理装置可以应用于上述图1a实施例中的服务器100或任意一个用户终端。编码数据处理装置可以从内容供应设备获取目标编码数据,内容供应设备可以为内容供应商侧所提供的设备,内容供应设备可以用于提供文字内容对应字符编码数据。该目标编码数据可以包括基于第一编码标准的多个子编码数据(这里可以将上述图1b和图1c中的一个码位称之为一个子编码数据,以下均将码位称之为子编码数据),或包括基于第二编码标准的多个子编码数据,或同时包含两种编码标准的多个子编码数据,其中,第一编码标准可以是指Unicode编码标准,第二编码标准可以是指Zawgyi-One编码标准或其它语种的编码标准;基于第一编码标准的一个子编码数据可以是指Unicode编码标准中的一个字符对应的码位,基于第二编码标准的一个子编码数据可以是指 Zawgyi-One编码标准中的一个字符对应的码位。例如,在Unicode编码标准中,字符“习”对应的子编码数据为“U+4e60”,字符“丁”对应的子编码数据为“U+4e01”。无论内容供应设备提供的目标编码数据包含了哪一种编码标准对应的子编码数据,编码数据处理装置都可以按照第一编码标准来存储目标编码数据,即编码数据处理装置可以将目标编码数据当作是Unicode编码数据来存储,这样对于用于存储Unicode编码数据的编码数据处理装置而言,可以无需改变编码数据处理装置的架构,编码数据处理装置无需识别目标编码数据中包含哪种编码标准的子编码数据,编码数据处理装置可以按照以往的存储方式将目标编码数据默认为是Unicode编码数据,以进行存储。
若编码数据处理装置应用于用户终端,则编码数据处理装置可以通过浏览器中的与服务器对应的产品访问入口,向服务器请求任意一个目标编码数据(服务器中可以存储有多个目标编码数据),服务器在接收到请求后,可以向编码数据处理装置发送所请求的目标编码数据。或者,若编码数据处理装置应用于用户终端,且编码数据处理装置中已存储多个目标编码数据,则编码数据处理装置可以根据用户请求从本地提取所请求的目标编码数据。或者,若编码数据处理装置应用于服务器,则编码数据处理装置在接收到用户终端的用户请求后,可以根据用户请求从本地提取所请求的目标编码数据。
其中,编码数据处理装置接收内容供应设备发送的目标编码数据的具体过程可以为:编码数据处理装置首先获取内容供应设备发送的初始编码数据,若所述初始编码数据中不存在目标初始子编码数据,则将所述初始编码数据确定为所述目标编码数据,所述目标初始子编码数据是指基于所述第一编码标准的子编码数据、且属于所述第二编码标准所覆盖的总编码范围,即目标初始子编码数据可以是属于Unicode标准中U+1000至U+109F中的码位;若所述初始编码数据中存所述目标初始子编码数据,则将所述目标初始子编码数据转换为基于所述第二编码标准的子编码数据,并将编码转换后的初始编码数据确定为所述目标编码数据。即所述目标编码数据包括基于第一编码标准的子编码数据和基于第二编码标准的子编码数据,且所述目标编码数据中的基于第一编码标准的子编码数据不属于第二编码标准所覆盖的总编码范围。
其中,第二编码标准(即Zawgyi-One)所覆盖的总编码范围是U+1000至 U+109F的区间,即目标编码数据可以包括U+1000至U+109F范围内的基于 Zawgyi-One的子编码数据,以及U+1000至U+109F范围以外的基于Unicode 的子编码数据。为了保证后续对目标编码数据进行解析时不会出错,内容提供商可以预先告诉编码数据处理装置侧,初始编码数据中有哪些处于U+1000至 U+109F范围的子编码数据是属于Unicode编码标准的,并预先将处于U+1000 至U+109F范围的基于Unicode的子编码数据,转码为基于Zawgyi-One的子编码数据,并将转码后的初始编码数据作为目标编码数据以进行存储。而且在缅甸地区,由于大部分用户使用的是Zawgyi-One编码标准,所以内容提供商所提供的编码数据中属于Unicode中的缅甸文的编码数据并不多(这部分数据即为 Unicode编码标准中处于U+1000至U+109F范围的子编码数据),因此,对这部分数据进行转码并不会使设备产生过多的功耗。
S202,基于第二编码标准,对所述目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对所述目标编码数据中第二子编码数据进行解析,得到第二字符;
具体的,编码数据处理装置可以先基于第二编码标准对获取到的目标编码数据中的第一子编码数据进行解析,所述第一子编码数据是指所述目标编码数据中属于第二编码标准所覆盖的总编码范围的子编码数据,由于编码数据处理装置预先将目标编码数据中的基于所述第一编码标准且属于所述第二编码标准所覆盖的总编码范围的子编码数据,都转码为基于第二编码标准的子编码数据,所以编码数据处理装置可以保证基于第二编码标准先进行解析的第一子编码数据都是属于基于第二编码标准的子编码数据,而目标编码数据中第二子编码数据(第二子编码数据可以是指属于第二编码标准所覆盖的总编码范围以外的子编码数据,即所述第二子编码数据也可以是指所述目标编码数据中除了所述第一子编码数据以外的子编码数据)是无法基于第二编码标准进行解析的,所以先使用第二编码标准进行解析所得到的字符并不会产生乱码。在具体的应用场景中,即先使用Zawgyi-One对目标编码数据中处于U+1000至U+109F范围的子编码数据进行解析,得到对应的字符,并将基于第二编码标准所得到的字符称之为第一字符。
编码数据处理装置再基于第一编码标准对目标编码数据中的第二子编码数据进行解析,其中,第二子编码数据是属于目标编码数据中处于U+1000至 U+109F范围以外的子编码数据,第二子编码数据是无法被第二编码标准(即 Zawgyi-One)所解析,即第二子编码数据需要通过第一编码标准(即Unicode) 进行解析,得到对应的字符,并将基于第一编码标准所得到的字符称之为第二字符。
由于在对目标编码数据进行解析的整个过程中,始终使用Zawgyi-One对处于U+1000至U+109F范围的子编码数据进行解析,并使用Unicode对处于 U+1000至U+109F范围以外的子编码数据进行解析,所以本发明在以 Zawgyi-One为主导的场景中,不再使用Unicode对处于U+1000至U+109F范围的子编码数据进行解析,即本发明是使用Zawgyi-One来替代Unicode中对缅甸语的编码,由于U+1000至U+109F范围已被Zawgyi-One所占用,所以还需牺牲Unicode中的U+1000至U+109F范围内对Shan/Mon/Sanskrit and Pali/S'gawKaren/Western Pwo Karen/Eastern Pwo Karen/Geba Karen/Kayah/Rumai Palaung等小语种的支持,虽然牺牲了对一些小语种的支持,但是却能大幅提高以Zawgyi-One为主的编码数据的解码效率。换言之,本发明可以在Unicode的总编码范围内同时存储有Zawgyi-One编码的缅甸文内容以及Unicode编码的除了缅甸文以外的其他语言内容。
S203,按照所述目标编码数据中每个子编码数据的顺序,对所述第一字符和所述第二字符进行顺序组合并显示;
具体的,由于首先基于第二编码标准解析得到的第一字符,并不是按照顺序解析的,即有可能会先跳过不属于U+1000至U+109F范围的子编码数据,并对排在后面的属于U+1000至U+109F范围的子编码数据先进行解析,所以在得到第一字符和第二字符后,按照所述目标编码数据中每个子编码数据的顺序,对第一字符和第二字符进行重新顺序组合,并显示顺序组合后的第一字符和第二字符,使用户可以正确理解字符含义。例如,目标编码数据为a\b\c\d\e\,其中,a、b、c、d、e分别为子编码数据,且a、c以及d均为属于U+1000至 U+109F范围内的子编码数据,因此,首先基于Zawgyi-One对a、c以及d进行解析,得到a对应的第一字符k1,c对应的第一字符k2,d对应的第一字符k3;再基于Unicode对b和e进行解析,得到b对应的第二字符x1,e对应的第二字符x2,再按照a\b\c\d\e\的顺序,对第一字符和第二字符进行顺序组合,得到顺序排列的k1、x1、k2、k3、x2,并对k1、x1、k2、k3、x2进行显示。若编码数据处理装置应用于服务器,则编码数据处理装置可以将顺序组合后的字符发送到用户终端,以使用户终端对其进行显示;或者,若编码数据处理装置应用于服务器,则编码数据处理装置也可以通过与服务器配套的显示设备,对顺序组合后的字符进行显示;或者,若编码数据处理装置应用于用户终端,则编码数据处理装置可以直接通过终端显示界面,对顺序组合后的字符进行显示。
本发明实施例通过获取以第一编码标准进行存储的目标编码数据,并基于第二编码标准,对目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对目标编码数据中第二子编码数据进行解析,得到第二字符,并按照目标编码数据中每个子编码数据的顺序,对第一字符和第二字符进行顺序组合并显示;其中,第一子编码数据是指目标编码数据中属于第二编码标准所覆盖的总编码范围的子编码数据;第二子编码数据是指目标编码数据中除了第一子编码数据以外的子编码数据。由此可见,目标编码数据可以同时包含两种编码标准对应的子编码数据,然后基于Unicode编码标准对基于Unicode的子编码数据进行解析,并基于Zawgyi-One编码标准对基于 Zawgyi-One的子编码数据进行解析,因此,无需将所有基于Zawgyi-One的编码数据都转换为基于Unicode的编码数据,从而可以降低设备功耗。
请参见图3,是本发明实施例提供的另一种编码数据处理方法的流程示意图,所述方法可以包括:
S301,获取内容供应设备发送的初始编码数据;
具体的,内容供应商可以通过内容供应设备向编码数据处理装置(具体可以为上述图2对应实施例中的编码数据处理装置)发送初始编码数据,初始编码数据可以包括基于第一编码标准的多个子编码数据(这里将上述图1b和图1c 中的一个码位称之为一个子编码数据,以下均将码位称之为子编码数据),或包括基于第二编码标准的多个子编码数据,或同时包含两种编码标准的多个子编码数据,其中,第一编码标准可以是指Unicode编码标准,第二编码标准可以是指Zawgyi-One编码标准或其它语种的编码标准;基于第一编码标准的一个子编码数据可以是指Unicode编码标准中的一个字符对应的码位,基于第二编码标准的一个子编码数据可以是指Zawgyi-One编码标准中的一个字符对应的码位。例如,在Unicode编码标准中,字符“习”对应的子编码数据为“U+4e60”,字符“丁”对应的子编码数据为“U+4e01”。
S302,若所述初始编码数据中不存在目标初始子编码数据,则将所述初始编码数据确定为所述目标编码数据,并以第一编码标准存储目标编码数据;
具体的,本发明实施例以第一编码标准为Unicode,第二编码标准为 Zawgyi-One为例进行说明,其中,Zawgyi-One所覆盖的总编码范围是U+1000 至U+109F的区间。编码数据处理装置接收到初始编码数据后,若初始编码数据中不存在目标初始子编码数据,所述目标初始子编码数据是指基于所述第一编码标准的子编码数据、且属于所述第二编码标准所覆盖的总编码范围,即初始编码数据中的基于Unicode的子编码数据均不属于U+1000至U+109F范围,则无需再对初始编码数据进行编码转换,即编码数据处理装置可以将所述初始编码数据确定为所述目标编码数据,并可以按照第一编码标准来存储目标编码数据,即编码数据处理装置可以将目标编码数据当作是Unicode编码数据来存储,这样对于用于存储Unicode编码数据的编码数据处理装置而言,可以无需改变编码数据处理装置的架构,编码数据处理装置无需识别目标编码数据中包含哪种编码标准的子编码数据,编码数据处理装置可以按照以往的存储方式将目标编码数据默认为是Unicode编码数据,以进行存储。由此可见,编码数据处理装置所存储的目标编码数据可以包括基于第二编码标准的子编码数据、以及基于第一编码标准的且不属于U+1000至U+109F范围的子编码数据。
可选的,若初始编码数据中的所有子编码数据都为基于第二编码标准的子编码数据,则也可以将初始编码数据确定为目标编码数据,并以第一编码标准来存储目标编码数据。
可选的,若初始编码数据中的所有子编码数据都为基于第一编码标准的且不属于U+1000至U+109F范围的子编码数据,则也可以将初始编码数据确定为目标编码数据,并以第一编码标准来存储目标编码数据。
S303,若所述初始编码数据中存在所述目标初始子编码数据,则将所述目标初始子编码数据转换为基于所述第二编码标准的子编码数据,并将编码转换后的初始编码数据确定为所述目标编码数据,并以第一编码标准存储目标编码数据;
具体的,编码数据处理装置接收到初始编码数据后,若检测出初始编码数据中存在所述目标初始子编码数据,所述目标初始子编码数据是指基于所述第一编码标准且属于U+1000至U+109F范围的子编码数据,则编码数据处理装置可以将所述目标初始子编码数据转码为基于第二编码标准的子编码数据,并将编码转换后的初始编码数据确定为所述目标编码数据,并以第一编码标准存储目标编码数据。例如,初始编码数据为a\b\c\d\e\,其中,a、b、c、d、e分别为子编码数据,且a、c均为基于Unicode且属于U+1000至U+109F范围内的子编码数据(即a、c为目标初始子编码数据),b、d、e均为基于Zawgyi-One的子编码数据,因此,可以将a转码为基于Zawgyi-One的子编码数据x,并将c 转码为基于Zawgyi-One的子编码数据y,进而可以将x\b\y\d\e\确定为目标编码数据,并按照Unicode存储x\b\y\d\e\。
为了保证后续对目标编码数据进行解析时不会出错,内容提供商可以预先告诉编码数据处理装置侧,初始编码数据中有哪些处于U+1000至U+109F范围的子编码数据是属于Unicode编码标准的,并预先将处于U+1000至U+109F范围的基于Unicode的子编码数据,转码为基于Zawgyi-One的子编码数据,并将转码后的初始编码数据作为目标编码数据以进行存储。而且在缅甸地区,由于大部分用户使用的是Zawgyi-One编码标准,所以内容提供商所提供的编码数据中属于Unicode中的缅甸文的编码数据并不多(这部分数据即为Unicode编码标准中处于U+1000至U+109F范围的子编码数据),因此,对这部分数据进行转码并不会使设备产生过多的功耗。
S304,获取以第一编码标准进行存储的目标编码数据;
具体的,若编码数据处理装置应用于用户终端,则编码数据处理装置可以通过浏览器中的与服务器对应的产品访问入口,向服务器请求任意一个目标编码数据(服务器中可以存储有多个目标编码数据),服务器在接收到请求后,可以向编码数据处理装置发送所请求的目标编码数据。或者,若编码数据处理装置应用于用户终端,且编码数据处理装置中已存储多个目标编码数据,则编码数据处理装置可以根据用户请求从本地提取所请求的目标编码数据。或者,若编码数据处理装置应用于服务器,则编码数据处理装置在接收到用户终端的用户请求后,可以根据用户请求从本地提取所请求的目标编码数据。
S305,从与所述第二编码标准相关联的字符映射表中,获取与所述第一子编码数据具有映射关系的字符,作为第一字符;
具体的,编码数据处理装置可以将目标编码数据中处于U+1000至U+109F 范围的子编码数据,确定为第一子编码数据,并从与所述第二编码标准相关联的字符映射表(该字符映射表可以为上述图1c实施例中的Zawgyi-One编码表) 中,获取与所述第一子编码数据具有映射关系的字符,作为第一字符。其中,与所述第二编码标准相关联的字符映射表包括所述第二编码标准所覆盖的总编码范围中的每个子编码数据所映射的字符,即与所述第二编码标准相关联的字符映射表可以是指基于Zawgyi-One的字体包,即该字符映射表可以包括 Zawgyi-One所覆盖的每个子编码数据以及每个子编码数据分别对应的缅甸文字符,该字符映射表对应的编码范围为U+1000至U+109F,因此,可以通过该字符映射表找到目标编码数据中处于U+1000至U+109F范围的子编码数据所映射的缅甸文字符(即第一字符);对于目标编码数据中不处于U+1000至U+109F 范围的子编码数据,则无法通过该字符映射表找到所映射的缅甸文字符,即基于Zawgyi-One是无法对目标编码数据中除了第一子编码数据以外的子编码数据进行解析。
S306,从与所述第一编码标准相关联的字符映射表中,获取与所述第二子编码数据具有映射关系的字符,作为第二字符;
具体的,编码数据处理装置可以将所述目标编码数据中除了所述第一字符对应的子编码数据以外的子编码数据,确定为第二子编码数据,第二子编码数据是无法通过Zawgyi-One进行解析的,因此,编码数据处理装置可以从与所述第一编码标准相关联的字符映射表(该字符映射表可以为上述图1b实施例中的 Unicode编码表)中,获取与所述第二子编码数据具有映射关系的字符,作为第二字符;其中,与所述第一编码标准相关联的字符映射表包括所述第一编码标准所覆盖的总编码范围中的每个子编码数据所映射的字符,即与Unicode相关联的字符映射表可以包括Unicode所覆盖的每个子编码数据以及每个子编码数据分别对应的字符,即通过该字符映射表可以查找到每个第二子编码数据分别对应的字符(即第二字符)。
由于在对目标编码数据进行解析的整个过程中,始终使用Zawgyi-One对处于U+1000至U+109F范围的子编码数据进行解析,并使用Unicode对处于 U+1000至U+109F范围以外的子编码数据进行解析,所以本发明在以 Zawgyi-One为主导的场景中,不再使用Unicode对处于U+1000至U+109F范围的子编码数据进行解析,即本发明是使用Zawgyi-One来替代Unicode中对缅甸语的编码,由于U+1000至U+109F范围已被Zawgyi-One所占用,所以还需牺牲Unicode中的U+1000至U+109F范围内对Shan/Mon/Sanskrit and Pali/S'gawKaren/Western Pwo Karen/Eastern Pwo Karen/Geba Karen/Kayah/Rumai Palaung等小语种的支持,虽然牺牲了对一些小语种的支持,但是却能大幅提高以Zawgyi-One为主的编码数据的解码效率。换言之,本发明可以在Unicode的总编码范围内同时存储有Zawgyi-One编码的缅甸文内容以及Unicode编码的除了缅甸文以外的其他语言内容。
可选的,若要保持对Unicode中处于U+1000至U+109F范围内的小语种(即非缅甸文语言)的支持,则可以对Unicode中处于U+1000至U+109F范围内的非缅甸文字符以及对应的子编码数据,进行单独裁剪保存,并将所保存的内容称之为小语种字符映射表。因此,编码数据处理装置在接收到初始编码数据后,可以无需对初始编码数据中处于U+1000至U+109F范围内且基于Unicode的非缅甸文字符对应的子编码数据进行转码,从而可以避免无法转码的情况发生。之后,编码数据处理装置在对目标编码数据进行解析的时候,可以先通过小语种字符映射表,对处于U+1000至U+109F范围内且基于Unicode的非缅甸文字符对应的子编码数据进行解析(对于不属于该范围和该类型的子编码数据,是无法通过小语种字符映射表进行解析得到),然后再基于Zawgyi-One对剩余的子编码数据进行解析,最后再基于Unicode对仍然剩余的子编码数据进行解析,从而可以顺利地解析出目标编码数据中的每个子编码数据分别对应的字符。
S307,按照所述目标编码数据中每个子编码数据的顺序,对所述第一字符和所述第二字符进行顺序组合并显示;
具体的,由于首先基于第二编码标准解析得到的第一字符,并不是按照顺序解析的,即有可能会先跳过不属于U+1000至U+109F范围的子编码数据,并对排在后面的属于U+1000至U+109F范围的子编码数据先进行解析,所以在得到第一字符和第二字符后,按照所述目标编码数据中每个子编码数据的顺序,对第一字符和第二字符进行重新顺序组合,并显示顺序组合后的第一字符和第二字符,使用户可以正确理解字符含义。
进一步的,请一并参见图3a,是本发明实施例提供的一种解析编码数据的场景示意图。如图3a所示,以上述图1a对应实施例中的用户终端300b为例进行说明,用户终端300b将对目标编码数据10a进行解析,目标编码数据10a为 a\b\c\d\e\,其中,a、b、c、d、e分别为子编码数据,且a、c以及d均为属于 U+1000至U+109F范围内的子编码数据,b和e为属于U+1000至U+109F范围以外的子编码数据,因此,首先用户终端300b通过与Zawgyi-One相关联的字符映射表30a对a、c以及d进行解析,得到a对应的第一字符k1,c对应的第一字符k2,d对应的第一字符k3。因此,对目标编码数据10a进行第一轮解析后,得到剩余编码数据11a,该剩余编码数据11a包括还未被解析的b和e,用户终端300b可以进一步通过与Unicode相关联的字符映射表40a对该剩余编码数据11a中的b和e进行解析,得到b对应的第二字符x1,e对应的第二字符 x2,再按照a\b\c\d\e\的顺序,对第一字符和第二字符进行顺序组合,得到顺序排列的k1、x1、k2、k3、x2,并对k1、x1、k2、k3、x2进行显示。
S308,获取用户编码数据,并以所述第一编码标准对所述用户编码数据进行存储;
具体的,当用户想发送编码数据到编码数据处理装置时,用户可以通过用户终端中的产品访问入口输入文字内容,产品访问入口可以生成所输入的文字内容对应的用户编码数据,编码数据处理装置通过产品访问入口获取用户编码数据。若该文字内容包括缅甸文字符,则这部分缅甸文字符对应的编码数据可以为基于Zawgyi-One的子编码数据;若该文字内容还包括非缅甸文的字符,则这部分字符对应的编码数据可以为基于Unicode的子编码数据,因此,产品访问入口所生成的用户编码数据可以包括基于所述第二编码标准的子编码数据,和/ 或基于所述第一编码标准且属于局部编码范围的子编码数据;所述局部编码范围是指所述第一编码标准所覆盖的总编码范围中除了所述第二编码标准所覆盖的总编码范围以外的编码范围。即用户编码数据可以包括基于Unicode的多个子编码数据,或包括基于Zawgyi-One的多个子编码数据,或同时包含两种编码标准的多个子编码数据,若用户编码数据包括基于Unicode的多个子编码数据,则这些基于Unicode的多个子编码数据是属于U+1000至U+109F范围以外的子编码数据。
编码数据处理装置依然可以以所述第一编码标准对所述用户编码数据进行存储,由于用户编码数据的组成结构与目标编码数据的组成结构相同,所以编码数据处理装置可以将用户编码数据确定为目标编码数据,以便于后续可以通过上述S305-S307的方法对该用户编码数据(即目标编码数据)进行解析,得到相应的字符。因此,无论是内容提供设备还是用户终端向编码数据处理装置提供的编码数据,编码数据处理装置都可以将其默认为Unicode编码数据进行存储。
本发明实施例通过获取以第一编码标准进行存储的目标编码数据,并基于第二编码标准,对目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对目标编码数据中第二子编码数据进行解析,得到第二字符,并按照目标编码数据中每个子编码数据的顺序,对第一字符和第二字符进行顺序组合并显示;其中,第一子编码数据是指目标编码数据中属于第二编码标准所覆盖的总编码范围的子编码数据;第二子编码数据是指目标编码数据中除了第一子编码数据以外的子编码数据。由此可见,目标编码数据可以同时包含两种编码标准对应的子编码数据,然后基于Unicode编码标准对基于Unicode的子编码数据进行解析,并基于Zawgyi-One编码标准对基于 Zawgyi-One的子编码数据进行解析,因此,无需将所有基于Zawgyi-One的编码数据都转换为基于Unicode的编码数据,从而可以降低设备功耗。
请参见图4,是本发明实施例提供的又一种编码数据处理方法的流程示意图,所述方法可以包括:
S401,获取内容供应设备发送的初始编码数据;
S402,若所述初始编码数据中不存在目标初始子编码数据,则将所述初始编码数据确定为所述目标编码数据,并以第一编码标准存储目标编码数据;
S403,若所述初始编码数据中存在所述目标初始子编码数据,则将所述目标初始子编码数据转换为基于所述第二编码标准的子编码数据,并将编码转换后的初始编码数据确定为所述目标编码数据,并以第一编码标准存储目标编码数据;
S404,获取以第一编码标准进行存储的目标编码数据;
其中,S401-S404步骤的具体实现方式可以参见上述图3对应实施例中的 S301-S304,这里不再进行赘述。
S405,在编码兼容字符映射表中,按序获取所述目标编码数据中的每个子编码数据所对应的字符;
具体的,编码兼容字符映射表可以包括所述第二编码标准所覆盖的总编码范围中的每个子编码数据所映射的字符,以及所述第一编码标准所覆盖的局部编码范围中的每个子编码数据所映射的字符;所述局部编码范围是指所述第一编码标准所覆盖的总编码范围中除了所述第二编码标准所覆盖的总编码范围以外的编码范围。生成编码兼容字符映射表的过程可以为:将与所述第一编码标准相关联的字符映射表中,与所述第二编码标准所覆盖的总编码范围相同的编码范围中的每个子编码数据所映射的字符,替换为与所述第二编码标准相关联的字符映射表中的每个子编码数据所映射的字符,并将替换后的与所述第一编码标准相关联的字符映射表确定为编码兼容字符映射表(其中,与所述第一编码标准相关联的字符映射表、与所述第二编码标准相关联的字符映射表的具体含义可以参见上述图3对应实施例中的S305-S306中对字符映射表的描述)。即编码兼容字符映射表可以同时存储有Zawgyi-One编码的缅甸文内容以及 Unicode编码的除了缅甸文以外的其他语言内容,即编码兼容字符映射表可以是一种重新构建的字体包;即编码兼容字符映射表中的U+1000至U+109F范围内所存储的内容是基于Zawgyi-One的子编码数据以及对应的字符、U+1000至U+109F范围以外所存储的内容是基于Unicode的子编码数据以及对应的字符。由于目标编码数据只会包含属于U+1000至U+109F范围内且基于Zawgyi-One 的子编码数据,以及属于U+1000至U+109F范围以外且基于Unicode的子编码数据,所以通过编码兼容字符映射表可以查找出目标编码数据中的每一个子编码数据对应的字符,因此,可以按照目标编码数据中每个子编码数据的顺序,逐一对目标编码数据中的每个子编码数据进行解析。以上述图1b和图1c中的 Unicode编码表和Zawgyi-One编码表为例,编码兼容字符映射表可以包括:Unicode编码表中码位(U+0000至U+0FFF)所映射的字符400a、Zawgyi-One 编码表中码位(U+1000至U+109F)所映射的字符500a、Unicode编码表中码位(U+10A0至U+10FFFF)所映射的字符400c。
S406,在所获取到的所有字符中,将所述第一子编码数据所对应的字符确定为第一字符,并将所述第二子编码数据所对应的字符确定为第二字符;
其中,由于在对目标编码数据进行解析的整个过程中,始终使用Zawgyi-One 对处于U+1000至U+109F范围的子编码数据进行解析,并使用Unicode对处于 U+1000至U+109F范围以外的子编码数据进行解析,所以本发明在以 Zawgyi-One为主导的场景中,不再使用Unicode对处于U+1000至U+109F范围的子编码数据进行解析,即本发明是使用Zawgyi-One来替代Unicode中对缅甸语的编码,由于U+1000至U+109F范围已被Zawgyi-One所占用,所以还需牺牲Unicode中的U+1000至U+109F范围内对Shan/Mon/Sanskrit and Pali/S'gawKaren/Western Pwo Karen/Eastern Pwo Karen/Geba Karen/Kayah/Rumai Palaung等小语种的支持,虽然牺牲了对一些小语种的支持,但是却能大幅提高以Zawgyi-One为主的编码数据的解码效率。
可选的,若要保持对Unicode中处于U+1000至U+109F范围内的小语种(即非缅甸文语言)的支持,则可以对Unicode中处于U+1000至U+109F范围内的非缅甸文字符以及对应的子编码数据,进行单独裁剪保存,并将所保存的内容称之为小语种字符映射表。因此,编码数据处理装置在接收到初始编码数据后,可以无需对初始编码数据中处于U+1000至U+109F范围内且基于Unicode的非缅甸文字符对应的子编码数据进行转码,从而可以避免无法转码的情况发生。之后,编码数据处理装置在对目标编码数据进行解析的时候,可以先通过小语种字符映射表,对处于U+1000至U+109F范围内且基于Unicode的非缅甸文字符对应的子编码数据进行解析(对于不属于该范围和该类型的子编码数据,是无法通过小语种字符映射表进行解析得到),然后再通过编码兼容字符映射表对剩余的子编码数据进行解析,从而可以顺利地解析出目标编码数据中的每个子编码数据分别对应的字符。
S407,按照所述目标编码数据中每个子编码数据的顺序,对所述第一字符和所述第二字符进行顺序组合并显示;
具体的,按照解析子编码数据的顺序(与目标编码数据中每个子编码数据的顺序相同),对第一字符和第二字符进行顺序组合,即可得到正确的语义。换言之,用户终端无需对第一字符和第二字符进行重新排列,即直接按照解析的顺序显示解析出的第一字符和第二字符即可。
请一并参见图4a,是本发明实施例提供的另一种解析编码数据的场景示意图。如图4a所示,以上述图1a对应实施例中的用户终端300b为例进行说明,用户终端300b将对目标编码数据10a进行解析,目标编码数据10a为a\b\c\d\e\,其中,a、b、c、d、e分别为子编码数据,且a、c以及d均为属于U+1000至 U+109F范围内的子编码数据,b和e为属于U+1000至U+109F范围以外的子编码数据,因此,用户终端300b通过编码兼容字符映射表50a可以查找出a对应的第一字符k1,再查找出b对应的第二字符x1,再查找出c对应的第一字符k2,再查找出d对应的第一字符k3,再查找出e对应的第二字符x2,因此,解析字符的顺序为k1、x1、k2、k3、x2,进而无需再对第一字符和第二字符进行重新排列,直接对k1、x1、k2、k3、x2进行显示即可。
S408,获取用户编码数据,并以所述第一编码标准对所述用户编码数据进行存储;
其中,S408步骤的具体实现方式可以参见上述图3对应实施例中的S308,这里不再进行赘述。
本发明实施例通过获取以第一编码标准进行存储的目标编码数据,并基于第二编码标准,对目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对目标编码数据中第二子编码数据进行解析,得到第二字符,并按照目标编码数据中每个子编码数据的顺序,对第一字符和第二字符进行顺序组合并显示;其中,第一子编码数据是指目标编码数据中属于第二编码标准所覆盖的总编码范围的子编码数据;第二子编码数据是指目标编码数据中除了第一子编码数据以外的子编码数据。由此可见,目标编码数据可以同时包含两种编码标准对应的子编码数据,然后基于Unicode编码标准对基于Unicode的子编码数据进行解析,并基于Zawgyi-One编码标准对基于 Zawgyi-One的子编码数据进行解析,因此,无需将所有基于Zawgyi-One的编码数据都转换为基于Unicode的编码数据,从而可以降低设备功耗。
请参见图5,是本发明实施例提供的一种编码数据处理装置的结构示意图。编码数据处理装置1可以应用于上述图1a实施例中的服务器100或任意一个用户终端,如图5所示,编码数据处理装置1可以包括:获取模块11、解析模块 12、组合显示模块13;
获取模块11,用于获取以第一编码标准进行存储的目标编码数据;
解析模块12,用于基于第二编码标准,对所述目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对所述目标编码数据中第二子编码数据进行解析,得到第二字符;所述第一子编码数据是指所述目标编码数据中属于第二编码标准所覆盖的总编码范围的子编码数据;所述第二子编码数据是指所述目标编码数据中除了所述第一子编码数据以外的子编码数据;
组合显示模块13,用于按照所述目标编码数据中每个子编码数据的顺序,对所述第一字符和所述第二字符进行顺序组合并显示。
其中,获取模块11、解析模块12、组合显示模块13的具体功能实现方式可以参见上述图2对应实施例中的S201-S203,这里不再进行赘述。
如图5所示,该解析模块12可以包括:第一字符获取单元121、第二字符获取单元122、第三字符获取单元123、确定单元124;
第一字符获取单元121,用于从与所述第二编码标准相关联的字符映射表中,获取与所述第一子编码数据具有映射关系的字符,作为第一字符;
第二字符获取单元122,用于从与所述第一编码标准相关联的字符映射表中,获取与所述第二子编码数据具有映射关系的字符,作为第二字符;
其中,与所述第二编码标准相关联的字符映射表包括所述第二编码标准所覆盖的总编码范围中的每个子编码数据所映射的字符;与所述第一编码标准相关联的字符映射表包括所述第一编码标准所覆盖的总编码范围中的每个子编码数据所映射的字符。
第三字符获取单元123,用于在编码兼容字符映射表中,按序获取所述目标编码数据中的每个子编码数据所对应的字符;
确定单元124,用于在所获取到的所有字符中,将所述第一子编码数据所对应的字符确定为第一字符,并将所述第二子编码数据所对应的字符确定为第二字符;
其中,所述编码兼容字符映射表包括所述第二编码标准所覆盖的总编码范围中的每个子编码数据所映射的字符,以及所述第一编码标准所覆盖的局部编码范围中的每个子编码数据所映射的字符;所述局部编码范围是指所述第一编码标准所覆盖的总编码范围中除了所述第二编码标准所覆盖的总编码范围以外的编码范围。
其中,第一字符获取单元121、第二字符获取单元122的具体功能实现方式可以参见上述图3对应实施例中的S305-S306,这里不再进行赘述。第三字符获取单元123、确定单元124的具体功能实现方式可以参见上述图4对应实施例中的S405-S406,这里不再进行赘述。其中,针对同一个目标编码数据,可以通过第一字符获取单元121、第二字符获取单元122解析出对应的字符,或者也可以通过第三字符获取单元123、确定单元124解析出对应的字符。
如图5所示,编码数据处理装置1还可以包括:映射表创建模块14、确定模块15、转码模块16;
映射表创建模块14,用于将与所述第一编码标准相关联的字符映射表中,与所述第二编码标准所覆盖的总编码范围相同的编码范围中的每个子编码数据所映射的字符,替换为与所述第二编码标准相关联的字符映射表中的每个子编码数据所映射的字符,并将替换后的与所述第一编码标准相关联的字符映射表确定为编码兼容字符映射表。
其中,映射表创建模块14的具体功能实现方式可以参见上述图4对应实施例中的S405,这里不再进行赘述。
所述获取模块11,还用于获取内容供应设备发送的初始编码数据;
确定模块15,用于若所述初始编码数据中不存在目标初始子编码数据,则将所述初始编码数据确定为所述目标编码数据;所述目标初始子编码数据是指基于所述第一编码标准的子编码数据、且属于所述第二编码标准所覆盖的总编码范围;
转码模块16,用于若所述初始编码数据中存在所述目标初始子编码数据,则将所述目标初始子编码数据转换为基于所述第二编码标准的子编码数据,并将编码转换后的初始编码数据确定为所述目标编码数据。
其中,确定模块15、转码模块16的具体功能实现方式可以参见上述图3对应实施例中的S302-S303,这里不再进行赘述。
可选的,所述获取模块11,还用于获取用户编码数据,并以所述第一编码标准对所述用户编码数据进行存储;所述用户编码数据包括基于所述第二编码标准的子编码数据,和/或基于所述第一编码标准且属于局部编码范围的子编码数据;所述局部编码范围是指所述第一编码标准所覆盖的总编码范围中除了所述第二编码标准所覆盖的总编码范围以外的编码范围。
其中,所述获取模块11用于获取用户编码数据,并以所述第一编码标准对所述用户编码数据进行存储的具体实现过程,可以参见上述图3对应实施例中的S308,这里不再进行赘述。
本发明实施例通过获取以第一编码标准进行存储的目标编码数据,并基于第二编码标准,对目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对目标编码数据中第二子编码数据进行解析,得到第二字符,并按照目标编码数据中每个子编码数据的顺序,对第一字符和第二字符进行顺序组合并显示;其中,第一子编码数据是指目标编码数据中属于第二编码标准所覆盖的总编码范围的子编码数据;第二子编码数据是指目标编码数据中除了第一子编码数据以外的子编码数据。由此可见,目标编码数据可以同时包含两种编码标准对应的子编码数据,然后基于Unicode编码标准对基于Unicode的子编码数据进行解析,并基于Zawgyi-One编码标准对基于 Zawgyi-One的子编码数据进行解析,因此,无需将所有基于Zawgyi-One的编码数据都转换为基于Unicode的编码数据,从而可以降低设备功耗。
请参见图6,是本发明实施例提供的另一种编码数据处理装置的结构示意图。如图6所示,编码数据处理装置可以应用于上述图1a实施例中的服务器100或任意一个用户终端。所述编码数据处理装置1000可以包括:处理器1001和存储器1005,此外,所述编码数据处理装置1000还可以包括:网络接口1004,用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图6所示的编码数据处理装置1000中,网络接口1004可以与服务器或内容提供设备或用户终端进行通信;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取以第一编码标准进行存储的目标编码数据;
基于第二编码标准,对所述目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对所述目标编码数据中第二子编码数据进行解析,得到第二字符;所述第一子编码数据是指所述目标编码数据中属于第二编码标准所覆盖的总编码范围的子编码数据;所述第二子编码数据是指所述目标编码数据中除了所述第一子编码数据以外的子编码数据;
按照所述目标编码数据中每个子编码数据的顺序,对所述第一字符和所述第二字符进行顺序组合并显示。
在一个实施例中,处理器1001在执行基于第二编码标准,对所述目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对所述目标编码数据中第二子编码数据进行解析,得到第二字符时,具体执行以下步骤:
从与所述第二编码标准相关联的字符映射表中,获取与所述第一子编码数据具有映射关系的字符,作为第一字符;
从与所述第一编码标准相关联的字符映射表中,获取与所述第二子编码数据具有映射关系的字符,作为第二字符;
其中,与所述第二编码标准相关联的字符映射表包括所述第二编码标准所覆盖的总编码范围中的每个子编码数据所映射的字符;与所述第一编码标准相关联的字符映射表包括所述第一编码标准所覆盖的总编码范围中的每个子编码数据所映射的字符。
在一个实施例中,处理器1001在执行基于第二编码标准,对所述目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对所述目标编码数据中第二子编码数据进行解析,得到第二字符时,具体执行以下步骤:
在编码兼容字符映射表中,按序获取所述目标编码数据中的每个子编码数据所对应的字符;
在所获取到的所有字符中,将所述第一子编码数据所对应的字符确定为第一字符,并将所述第二子编码数据所对应的字符确定为第二字符;
其中,所述编码兼容字符映射表包括所述第二编码标准所覆盖的总编码范围中的每个子编码数据所映射的字符,以及所述第一编码标准所覆盖的局部编码范围中的每个子编码数据所映射的字符;所述局部编码范围是指所述第一编码标准所覆盖的总编码范围中除了所述第二编码标准所覆盖的总编码范围以外的编码范围。
在一个实施例中,处理器1001还可以执行以下步骤:
将与所述第一编码标准相关联的字符映射表中,与所述第二编码标准所覆盖的总编码范围相同的编码范围中的每个子编码数据所映射的字符,替换为与所述第二编码标准相关联的字符映射表中的每个子编码数据所映射的字符,并将替换后的与所述第一编码标准相关联的字符映射表确定为编码兼容字符映射表。
在一个实施例中,处理器1001还可以执行以下步骤:
获取内容供应设备发送的初始编码数据;
若所述初始编码数据中不存在目标初始子编码数据,则将所述初始编码数据确定为所述目标编码数据;所述目标初始子编码数据是指基于所述第一编码标准的子编码数据、且属于所述第二编码标准所覆盖的总编码范围;
若所述初始编码数据中存在所述目标初始子编码数据,则将所述目标初始子编码数据转换为基于所述第二编码标准的子编码数据,并将编码转换后的初始编码数据确定为所述目标编码数据。
在一个实施例中,处理器1001还可以执行以下步骤:
获取用户编码数据,并以所述第一编码标准对所述用户编码数据进行存储;所述用户编码数据包括基于所述第二编码标准的子编码数据,和/或基于所述第一编码标准且属于局部编码范围的子编码数据;所述局部编码范围是指所述第一编码标准所覆盖的总编码范围中除了所述第二编码标准所覆盖的总编码范围以外的编码范围。
本发明实施例通过获取以第一编码标准进行存储的目标编码数据,并基于第二编码标准,对目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对目标编码数据中第二子编码数据进行解析,得到第二字符,并按照目标编码数据中每个子编码数据的顺序,对第一字符和第二字符进行顺序组合并显示;其中,第一子编码数据是指目标编码数据中属于第二编码标准所覆盖的总编码范围的子编码数据;第二子编码数据是指目标编码数据中除了第一子编码数据以外的子编码数据。由此可见,目标编码数据可以同时包含两种编码标准对应的子编码数据,然后基于Unicode编码标准对基于Unicode的子编码数据进行解析,并基于Zawgyi-One编码标准对基于 Zawgyi-One的子编码数据进行解析,因此,无需将所有基于Zawgyi-One的编码数据都转换为基于Unicode的编码数据,从而可以降低设备功耗。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的编码数据处理装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图2至图4所对应实施例中对所述编码数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory, ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明可选实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (14)

1.一种编码数据处理方法,其特征在于,包括:
获取以第一编码标准进行存储的目标编码数据;
基于第二编码标准,对所述目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对所述目标编码数据中第二子编码数据进行解析,得到第二字符;所述第一子编码数据是指所述目标编码数据中属于第二编码标准所覆盖的总编码范围的子编码数据;所述第二子编码数据是指所述目标编码数据中除了所述第一子编码数据以外的子编码数据;
按照所述目标编码数据中每个子编码数据的顺序,对所述第一字符和所述第二字符进行顺序组合并显示。
2.如权利要求1所述的方法,其特征在于,所述基于第二编码标准,对所述目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对所述目标编码数据中第二子编码数据进行解析,得到第二字符,包括:
从与所述第二编码标准相关联的字符映射表中,获取与所述第一子编码数据具有映射关系的字符,作为第一字符;
从与所述第一编码标准相关联的字符映射表中,获取与所述第二子编码数据具有映射关系的字符,作为第二字符;
其中,与所述第二编码标准相关联的字符映射表包括所述第二编码标准所覆盖的总编码范围中的每个子编码数据所映射的字符;与所述第一编码标准相关联的字符映射表包括所述第一编码标准所覆盖的总编码范围中的每个子编码数据所映射的字符。
3.如权利要求1所述的方法,其特征在于,所述基于第二编码标准,对所述目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对所述目标编码数据中第二子编码数据进行解析,得到第二字符,包括:
在编码兼容字符映射表中,按序获取所述目标编码数据中的每个子编码数据所对应的字符;
在所获取到的所有字符中,将所述第一子编码数据所对应的字符确定为第一字符,并将所述第二子编码数据所对应的字符确定为第二字符;
其中,所述编码兼容字符映射表包括所述第二编码标准所覆盖的总编码范围中的每个子编码数据所映射的字符,以及所述第一编码标准所覆盖的局部编码范围中的每个子编码数据所映射的字符;所述局部编码范围是指所述第一编码标准所覆盖的总编码范围中除了所述第二编码标准所覆盖的总编码范围以外的编码范围。
4.如权利要求3所述的方法,其特征在于,还包括:
将与所述第一编码标准相关联的字符映射表中,与所述第二编码标准所覆盖的总编码范围相同的编码范围中的每个子编码数据所映射的字符,替换为与所述第二编码标准相关联的字符映射表中的每个子编码数据所映射的字符,并将替换后的与所述第一编码标准相关联的字符映射表确定为编码兼容字符映射表。
5.如权利要求1所述的方法,其特征在于,还包括:
获取内容供应设备发送的初始编码数据;
若所述初始编码数据中不存在目标初始子编码数据,则将所述初始编码数据确定为所述目标编码数据;所述目标初始子编码数据是指基于所述第一编码标准的子编码数据、且属于所述第二编码标准所覆盖的总编码范围;
若所述初始编码数据中存在所述目标初始子编码数据,则将所述目标初始子编码数据转换为基于所述第二编码标准的子编码数据,并将编码转换后的初始编码数据确定为所述目标编码数据。
6.如权利要求1所述的方法,其特征在于,还包括:
获取用户编码数据,并以所述第一编码标准对所述用户编码数据进行存储;所述用户编码数据包括基于所述第二编码标准的子编码数据,和/或基于所述第一编码标准且属于局部编码范围的子编码数据;所述局部编码范围是指所述第一编码标准所覆盖的总编码范围中除了所述第二编码标准所覆盖的总编码范围以外的编码范围。
7.一种编码数据处理装置,其特征在于,包括:
获取模块,用于获取以第一编码标准进行存储的目标编码数据;
解析模块,用于基于第二编码标准,对所述目标编码数据中第一子编码数据进行解析,得到第一字符,并基于第一编码标准,对所述目标编码数据中第二子编码数据进行解析,得到第二字符;所述第一子编码数据是指所述目标编码数据中属于第二编码标准所覆盖的总编码范围的子编码数据;所述第二子编码数据是指所述目标编码数据中除了所述第一子编码数据以外的子编码数据;
组合显示模块,用于按照所述目标编码数据中每个子编码数据的顺序,对所述第一字符和所述第二字符进行顺序组合并显示。
8.如权利要求7所述的装置,其特征在于,所述解析模块包括:
第一字符获取单元,用于从与所述第二编码标准相关联的字符映射表中,获取与所述第一子编码数据具有映射关系的字符,作为第一字符;
第二字符获取单元,用于从与所述第一编码标准相关联的字符映射表中,获取与所述第二子编码数据具有映射关系的字符,作为第二字符;
其中,与所述第二编码标准相关联的字符映射表包括所述第二编码标准所覆盖的总编码范围中的每个子编码数据所映射的字符;与所述第一编码标准相关联的字符映射表包括所述第一编码标准所覆盖的总编码范围中的每个子编码数据所映射的字符。
9.如权利要求7所述的装置,其特征在于,所述解析模块包括:
第三字符获取单元,用于在编码兼容字符映射表中,按序获取所述目标编码数据中的每个子编码数据所对应的字符;
确定单元,用于在所获取到的所有字符中,将所述第一子编码数据所对应的字符确定为第一字符,并将所述第二子编码数据所对应的字符确定为第二字符;
其中,所述编码兼容字符映射表包括所述第二编码标准所覆盖的总编码范围中的每个子编码数据所映射的字符,以及所述第一编码标准所覆盖的局部编码范围中的每个子编码数据所映射的字符;所述局部编码范围是指所述第一编码标准所覆盖的总编码范围中除了所述第二编码标准所覆盖的总编码范围以外的编码范围。
10.如权利要求9所述的装置,其特征在于,还包括:
映射表创建模块,用于将与所述第一编码标准相关联的字符映射表中,与所述第二编码标准所覆盖的总编码范围相同的编码范围中的每个子编码数据所映射的字符,替换为与所述第二编码标准相关联的字符映射表中的每个子编码数据所映射的字符,并将替换后的与所述第一编码标准相关联的字符映射表确定为编码兼容字符映射表。
11.如权利要求7所述的装置,其特征在于,还包括:
所述获取模块,还用于获取内容供应设备发送的初始编码数据;
确定模块,用于若所述初始编码数据中不存在目标初始子编码数据,则将所述初始编码数据确定为所述目标编码数据;所述目标初始子编码数据是指基于所述第一编码标准的子编码数据、且属于所述第二编码标准所覆盖的总编码范围;
转码模块,用于若所述初始编码数据中存在所述目标初始子编码数据,则将所述目标初始子编码数据转换为基于所述第二编码标准的子编码数据,并将编码转换后的初始编码数据确定为所述目标编码数据。
12.如权利要求7所述的装置,其特征在于,
所述获取模块,还用于获取用户编码数据,并以所述第一编码标准对所述用户编码数据进行存储;所述用户编码数据包括基于所述第二编码标准的子编码数据,和/或基于所述第一编码标准且属于局部编码范围的子编码数据;所述局部编码范围是指所述第一编码标准所覆盖的总编码范围中除了所述第二编码标准所覆盖的总编码范围以外的编码范围。
13.一种编码数据处理装置,其特征在于,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行如权利要求1-6任一项所述的方法。
14.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时,执行如权利要求1-6任一项所述的方法。
CN201810235399.XA 2018-03-21 2018-03-21 一种编码数据处理方法、装置及计算机存储介质 Active CN110298017B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810235399.XA CN110298017B (zh) 2018-03-21 2018-03-21 一种编码数据处理方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810235399.XA CN110298017B (zh) 2018-03-21 2018-03-21 一种编码数据处理方法、装置及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110298017A true CN110298017A (zh) 2019-10-01
CN110298017B CN110298017B (zh) 2023-04-18

Family

ID=68025414

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810235399.XA Active CN110298017B (zh) 2018-03-21 2018-03-21 一种编码数据处理方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110298017B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113709510A (zh) * 2021-08-06 2021-11-26 联想(北京)有限公司 高速率数据实时传输方法及装置、设备、存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106059681A (zh) * 2016-05-25 2016-10-26 努比亚技术有限公司 一种信息传输方法及移动终端
US20160364532A1 (en) * 2015-06-12 2016-12-15 Nuance Communications, Inc. Search tools for medical coding
CN106649217A (zh) * 2016-10-28 2017-05-10 东软集团股份有限公司 数据的匹配方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160364532A1 (en) * 2015-06-12 2016-12-15 Nuance Communications, Inc. Search tools for medical coding
CN106059681A (zh) * 2016-05-25 2016-10-26 努比亚技术有限公司 一种信息传输方法及移动终端
CN106649217A (zh) * 2016-10-28 2017-05-10 东软集团股份有限公司 数据的匹配方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113709510A (zh) * 2021-08-06 2021-11-26 联想(北京)有限公司 高速率数据实时传输方法及装置、设备、存储介质

Also Published As

Publication number Publication date
CN110298017B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
CN101661494A (zh) 一种分布式中间件与数据库数据交互方法
CN110990358B (zh) 一种解压缩方法、电子设备及计算机可读存储介质
CN106294421A (zh) 一种数据写入、读取方法及装置
CN106503008B (zh) 文件存储方法和装置及文件查询方法和装置
CN104123364A (zh) 一种移动终端发送和接收数据的方法及装置
CN108509514A (zh) 一种基于区块链的大数据分析方法及系统
CN107561564A (zh) 一种北斗卫星信息传输的压缩实现方法
CN109120477A (zh) 基于modbus协议的动态解析方法、装置、服务器及存储介质
CN106027512B (zh) 一种基于可见字符的网络协议格式及其编解码方法、系统
CN101807205A (zh) 用于处理xml数据的处理模块、设备和方法
CN101794318A (zh) Url解析方法及设备
CN109413131A (zh) 一种日志解析的方法及装置
CN104978325B (zh) 一种网页处理方法、装置及用户终端
CN110298017A (zh) 一种编码数据处理方法、装置及计算机存储介质
CN106803841A (zh) 消息队列数据的读取方法、装置及分布式数据存储系统
CN107169100A (zh) 一种电动汽车远程监控通信服务系统及方法
CN103843292B (zh) 网络组件和移动设备
CN102468902B (zh) LTE系统Turbo编码速率匹配/解速率匹配的方法
CN115438114A (zh) 存储格式转换方法、系统、装置、电子设备及存储介质
CN103929404B (zh) 一种解析HTTP chunked编码数据的方法
CN105045752B (zh) 一种基于宽口sram存储的高速ad数据pxi总线传输解析方法
CN103729379B (zh) 结构化查询语言程序的计算方法、调整方法和服务器
CN112015425A (zh) 数据存储方法、读取方法、装置、电子设备及存储介质
CN111428441A (zh) 面向信息系统跨平台应用的汉字编码转换方法及设备
CN113254476B (zh) 请求的处理方法和装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant