CN116303888A - 一种生僻字处理方法、装置、存储介质及电子设备 - Google Patents
一种生僻字处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN116303888A CN116303888A CN202310096069.8A CN202310096069A CN116303888A CN 116303888 A CN116303888 A CN 116303888A CN 202310096069 A CN202310096069 A CN 202310096069A CN 116303888 A CN116303888 A CN 116303888A
- Authority
- CN
- China
- Prior art keywords
- character
- uncommon
- rarely
- coding
- object name
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title description 10
- 238000012545 processing Methods 0.000 claims abstract description 73
- 238000000034 method Methods 0.000 claims abstract description 68
- 238000001514 detection method Methods 0.000 claims description 115
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004891 communication Methods 0.000 description 14
- 238000010586 diagram Methods 0.000 description 13
- 238000007726 management method Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 101000695861 Arabidopsis thaliana Brefeldin A-inhibited guanine nucleotide-exchange protein 5 Proteins 0.000 description 1
- 235000009470 Theobroma cacao Nutrition 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 244000240602 cacao Species 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Character Discrimination (AREA)
Abstract
本说明书公开了一种生僻字处理方法、装置、存储介质及电子设备,其中,方法包括:通过检测所输入的对象名称是否存在生僻字符,在对象名称存在生僻字符的情形下,获取针对对象名称的目标生僻编码类型并确定对象名称对应的参考生僻编码类型的参考生僻编码字符,基于多编码生僻字库和目标生僻编码类型对对象名称中的参考生僻编码字符进行字符更新处理,得到目标对象名称。
Description
技术领域
本说明书涉及计算机技术领域,尤其涉及一种生僻字处理方法、装置、存储介质及电子设备。
背景技术
随着通信技术的快速发展,逐步迈入业务处理的信息化时代,对应的姓名、地名、住址等信息逐步摆脱了纸质记录和存储原始方式,效率得到极大提升。由于我国汉字历史源远流长,到目前为止还存在比较多的冷僻字、异体字、地方特有字等特殊生僻字符继续使用。
发明内容
本说明书提供了一种生僻字处理方法、装置、存储介质及电子设备,所述技术方案如下:
第一方面,本说明书提供了一种生僻字处理方法,所述方法包括:
获取所输入的对象名称,检测所述对象名称是否存在生僻字符;
若所述对象名称存在生僻字符,则获取针对所述对象名称的目标生僻编码类型,并确定所述对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符;
基于多编码生僻字库和所述目标生僻编码类型,对所述对象名称中的所述参考生僻编码字符进行字符更新处理,得到目标对象名称。
第二方面,本说明书提供了一种生僻字处理装置,所述装置包括:
名称检测模块,用于获取所输入的对象名称,检测所述对象名称是否存在生僻字符;
编码处理模块,用于若所述对象名称存在生僻字符,则获取针对所述对象名称的目标生僻编码类型,并确定所述对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符;
字符更新模块,用于基于多编码生僻字库和所述目标生僻编码类型,对所述对象名称中的所述参考生僻编码字符进行字符更新处理,得到目标对象名称。
第三方面,本说明书提供一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行本说明书一个或多个实施例的方法步骤。
第四方面,本说明书提供一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行本说明书一个或多个实施例的方法步骤。
第五方法,本说明书提供一种计算机程序产品,所述至少一条指令由处理器加载并执行本说明书一个或多个实施例的方法步骤。
本说明书一些实施例提供的技术方案带来的有益效果至少包括:
在本说明书一个或多个实施例中,电子设备通过检测所输入的对象名称是否存在生僻字符,在对象名称存在生僻字符的情形下,基于用户的实际事务场景获取针对对象名称的目标生僻编码类型,并确定对象名称对应的参考生僻编码类型的参考生僻编码字符,基于多编码生僻字库和目标生僻编码类型对对象名称中的参考生僻编码字符进行字符更新处理从而得到目标对象名称。字符更新后的目标对象名称可以满足用户在日常事务下的生僻字事务兼容需求,通过生僻字自动识别并基于多编码生僻字库实现了目标生僻编码类型的自动转码,可以避免直接基于用户输入对象名称在日常事务下无法识别生僻字符语义的情形,方便了生僻字需求用户在日常事务场景下的便捷性。
附图说明
为了更清楚地说明本说明书或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书提供的一种生僻字处理系统的场景示意图;
图2是本说明书提供的一种生僻字处理方法的流程示意图;
图3是本说明书提供的一种字符检测过程的流程示意图;
图4是本说明书提供的一种生僻编码字符确定过程的流程示意图;
图5是本说明书提供的一种字符更新过程的流程示意图;
图6是本说明书提供的一种生僻字处理装置的结构示意图;
图7是本说明书提供的一种电子设备的结构示意图;
图8是本说明书提供的操作系统和用户空间的结构示意图;
图9是图8中安卓操作系统的架构图;
图10是图8中IOS操作系统的架构图。
具体实施方式
下面将结合本说明书中的附图,对本说明书中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
在本说明书的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本说明书的描述中,需要说明的是,除非另有明确的规定和限定,“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本说明书中的具体含义。此外,在本说明书的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
在相关技术中,使用一些诸如全大写拼音、首字母大写拼音、小写拼音、带全角括号拼音等生僻字符编码方式对生僻字符进行生僻字符编码,来满足存在生僻字符需求的用户,然而在实际应用中,不同事务场景(如用户信息认证、金融账户认证、资源信息处理)下事务服务端所支持的生僻字符编码方式存在很大的区别,事务服务端存在诸如成本因素、资源消耗等客观因素难以支持所有的生僻字编码方式,可见相关技术中的生僻字编码处理方式存在较大的局限性。
下面结合具体的实施例对本说明书进行详细说明。
请参见图1,为本说明书提供的一种生僻字处理系统的场景示意图。如图1所示,所述生僻字处理系统至少可以包括用户端集群和服务平台100。
所述用户端集群可以包括至少一个用户端,如图1所示,具体包括用户1对应的用户端1、用户2对应的用户端2、…、用户n对应的用户端n,n为大于0的整数。
用户端集群中的各用户端可以是具备通信功能的电子设备,该电子设备包括但不限于:可穿戴设备、手持设备、个人电脑、平板电脑、车载设备、智能手机、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中电子设备可以叫做不同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant,PDA)、5G网络或未来演进网络中的电子设备等。
所述服务平台100可以是单独的服务器设备,例如:机架式、刀片、塔式、或者机柜式的服务器设备,或采用工作站、大型计算机等具备较强计算能力硬件设备;也可以是采用多个服务器组成的服务器集群,所述服务集群中的各服务器可以是以对称方式组成的,其中每台服务器在事务链路中功能等价、地位等价,各服务器均可单独对外提供服务,所述单独提供服务可以理解为无需另外的服务器的辅助。
在本说明书的一个或多个实施例中,服务平台100与用户端集群中的至少一个用户端可建立通信连接,基于该通信连接完成生僻字处理过程中数据的交互;
示意性的,服务平台100可基于本说明书的生僻字处理方法,获取用户端的用户所输入的对象名称(如用户端可以在用户输入对象名称时,将对象名称发送至服务平台100),服务平台100检测对象名称是否存在生僻字符,若对象名称存在生僻字符,则服务平台100获取针对所述对象名称的目标生僻编码类型,并确定所述对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符,然后基于多编码生僻字库和目标生僻编码类型,对对象名称中的参考生僻编码字符进行字符更新处理,得到目标对象名称。可选的,服务平台100可将目标对象名称发送至用户端以将其向用户端的用户进行展示。
示意性的,服务平台100可基于本说明书的生僻字处理方法,将用于生僻字处理的相关数据(如多编码生僻字库)发送至用户端,由用户端获取用户所输入的对象名称,检测对象名称是否存在生僻字符,若对象名称存在生僻字符,则用户端获取针对所述对象名称的目标生僻编码类型,并确定所述对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符,然后基于多编码生僻字库和目标生僻编码类型,对对象名称中的参考生僻编码字符进行字符更新处理,得到目标对象名称。可选的,基于实际处理事务,用户端可以将字符更新后的目标对象名称发送至服务平台进行事务处理,如基于服务平台进行认证等等。
需要说明的是,服务平台100与用户端集群中的至少一个用户端通过网络建立通信连接进行交互通信,其中,网络可以是无线网络,也可以是有线网络,无线网络包括但不限于蜂窝网络、无线局域网、红外网络或蓝牙网络,有线网络包括但不限于以太网、通用串行总线(universal serial bus,USB)或控制器局域网络。在说明书一个或多个实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible Markup Language,XML)等的技术和/或格式来代表通过网络交换的数据(如目标压缩包)。此外还可以使用诸如安全套接字层(Secure Socket Layer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(Virtual Private Network,VPN)、网际协议安全(Internet Protocol Security,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。
本说明书所提供的生僻字处理系统实施例与一个或多个实施例中的所述生僻字处理方法属于同一构思,在说明书一个或多个实施例涉及的所述生僻字处理方法对应的执行主体可以是电子设备,电子设备可以是上述服务平台100;在说明书一个或多个实施例涉及的所述生僻字处理方法对应的执行主体也可以是用户端所对应的电子设备,具体基于实际应用环境确定。生僻字处理系统实施例其体现实现过程可详见下述的方法实施例,这里不再赘述。
基于图1所示的场景示意图,下面对本说明书一个或多个实施例提供的生僻字处理方法进行详细介绍。
请参见图2,为本说明书一个或多个实施例提供了一种生僻字处理方法的流程示意图,该方法可依赖于计算机程序实现,可运行于基于冯诺依曼体系的生僻字处理装置上。该计算机程序可集成在应用中,也可作为独立的工具类应用运行。所述生僻字处理装置可以为电子设备。
具体的,该生僻字处理方法包括:
S102:获取所输入的对象名称,检测所述对象名称是否存在生僻字符;
所述对象名称可以是用户名称(如姓名)、账户名称、地理名称、住址名称等等。
所述对象名称由若干名称字符组成,名称字符可理解为各种文字和符号的统称,包括各国家文字、标点符号、图形符号、数字等;
可以理解的,在日常生活中,一些用户会存在生僻字需求,存在生僻字需求的用户所输入的对象名称可能存在生僻字符;
可以理解的,在实际事务场景下,基于实际事务需求用户可通过用户端的字符输入组件输入对象名称,电子设备可以获取到用户所输入的对象名称,然后可以检测对象名称是否存在生僻字符;
可以理解的,用户端的用户所输入的用对象名称会存在生僻字符的情况,生僻字符可分为个体不认识的“生僻字符”与信息系统不识别的“生僻字符”是两个概念,在本说明书一个或多个实施例中,生僻字(符)多指目前无法在机构业务系统、个人电脑、手机终端等设备上正常输入、存储、显示的字符(如汉字字符)。在一些场景下,这些生僻字(符)可理解为一些为用户提供事务服务(如实名认证事务、金融处理事务、网上购物事务、账户验证事务)的设备所支持的字符集中不存在的字(符),此时事务服务端就会无法识别这些不在所支持的字符集中的生僻字(符);
在一些实施场景中,生僻字(符)主要是指不在常用字符编码集范围内的字符,例如,不在常用GBK字符(编码)集库范围内的字符可视作生僻(符),通常常见设备均支持GBK字符(编码)集库;
在本说明书一个或多个实施例中,可以基于诸如GBK字符(编码)集等常用字符编码库来检测对象名称中是否存在生僻字符,可以是检测对象名称中的每个字符是否为常用字符编码库的字符,若存在至少一个字符不为常用字符编码库的字符,则可以确定对象名称存在生僻字符,如对象名称中的所有字符均为常用字符编码库中的字符,则可以确定对象名称不含生僻字;
S104:若所述对象名称存在生僻字符,则获取针对所述对象名称的目标生僻编码类型,并确定所述对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符;
所述目标生僻编码类型用于指示将对象名称中的生僻字符转码为何种生僻编码类型的生僻字符,在实际应用中,目标生僻编码类型为用户在所需输入对象名称的目标事务场景下,目标事务服务端所支持的生僻编码类型,如实名认证事务场景下,实名认证服务端通常支持的目标生僻编码类型为人口信息原字编码类型,只有将对象名称中的所涉及的一种或多种其他生僻编码类型的生僻字符更新为人口信息原字编码类型的生僻字符,才能够被目标事务服务端所识别,进而才能够基于识别到的对象名称进行下一步事务处理。
示意性的,人口信息原字编码类型:在Unicode(字符编码)中,人口信息原字编码对应一个码点使用区,码点使用区包含一系列代码点,根据定义,Unicode联盟不会为其分配字符,在Unicode(字符编码)中定义了三个码点使用区:一个位于基本多语言平面(U+E000–U+F8FF),一个位于并几乎覆盖平面15和16(U+F0000–U+FFFFD,U+100000–U+10FFFD)。这些区域中的代码点不能被视为Unicode本身的标准化字符,也即非常用字符的码点。
示意性的,人口信息原字对应的人口信息字库(RKXX)相关户籍部门为了解决历史上手写的汉字人名、地名问题,使用了人口信息原字编码区编码,且不与Unicode同步更新。
在本说明书一个或多个实施例中,目标生僻编码类型基于用户在输入对象名称时所对应的目标事务场景确定,通过获取或确定目标事务场景所对应目标事务服务端所支持的生僻编码类型作为针对对象名称的目标生僻编码类型。
示意性的,一些事务服务端为了实现生僻字符识别,采用一些在常用字符集基础上拟合生僻编码方式实现生僻字符的识别,事务服务端所支持的生僻编码方式包括但不限于可以是“全大写拼音”编码方式、“首字母大写拼音”编码方式、“小写拼音”编码方式、“带全角括号拼音”编码方式、“带半角括号拼音”编码方式、“带方括号拼音”编码方式、“带/不带声调拼音”编码方式、“一字拆多字”编码方式、“人口信息原字”编码方式等等;
在实际应用中,用户在用户端上输入对象名称的参考生僻编码方式可能存在一种或多种,也即存在采用至少一种参考生僻编码方式输入对象名称的情形,电子设备可以通过确定对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符;例如,对象名称同时采用了“小写拼音”编码方式、“带全角括号拼音”编码方式、“一字拆多字”编码方式来输入对象名称中的生僻字符,电子设备可以确定对象名称中一种或多种参考生僻编码类型的参考生僻编码字符,如可以确定前述中采用“小写拼音”编码方式的参考生僻编码字符A,可以确定前述中采用带全角括号拼音”编码方式的参考生僻编码字符B、可以确定前述中采用“一字拆多字”编码方式的参考生僻编码字符C;
S106:基于多编码生僻字库和所述目标生僻编码类型,对所述对象名称中的所述参考生僻编码字符进行字符更新处理,得到目标对象名称。
可选的,电子设备可以预先维护多编码生僻字库,多编码生僻字库由若干生僻字对象、每个生僻字对象对应的多种可生僻编码的生僻编码方式、生僻字对象在每个生僻编码方式下的生僻字符组成;
示意性的,通过预先获取实际环境下所实际使用的多种生僻编码方式,然后针对若干生僻字对象确定每一生僻编码方式下的生僻字符从而构建多编码生僻字库,并对多编码生僻字库进行更新维护,同一生僻字对象对应的不同生僻编码方式下的生僻字符不同。通过多编码生僻字库在本说明书一个或多个实施例可以快速实现生僻字识别、生僻字更新处理,提高转码效率。
在本说明书一个或多个实施例中,对对象名称进行字符更新处理可以是在多编码生僻字库中查询参考生僻编码字符对应的生僻字对象,获取生僻字对象对应的目标生僻编码类型的目标生僻字符,然后使用目标生僻字符对对象名称中的参考生僻编码字符进行更新,可以理解的,在参考生僻编码字符类型乃至数量为多个的情况下,可以参照前述方式完成对多个参考生僻编码字符的更新过程,从而完成对所述对象名称中的所述参考生僻编码字符进行字符更新处理过程,得到目标对象名称;
可选的,电子设备得到目标对象名称后,可基于实际事务场景下输入对象名称的用户事务需求,将目标对象名称请求相应事务服务端进行事务处理。例如,在信息认证场景下,可以将对象名称发送至信息认证事务服务端进行信息认证。
在本说明书一个或多个实施例中,电子设备通过检测所输入的对象名称是否存在生僻字符,在对象名称存在生僻字符的情形下,基于用户的实际事务场景获取针对对象名称的目标生僻编码类型,并确定对象名称对应的参考生僻编码类型的参考生僻编码字符,基于多编码生僻字库和目标生僻编码类型对对象名称中的参考生僻编码字符进行字符更新处理从而得到目标对象名称。字符更新后的目标对象名称可以满足用户在日常事务下的生僻字事务兼容需求,通过生僻字自动识别并基于多编码生僻字库实现了目标生僻编码类型的自动转码,可以避免直接基于用户输入对象名称在日常事务下无法识别生僻字符语义的情形,方便了生僻字需求用户在日常事务场景下的便捷性。
示例性的,在本说明书一个或多个实施例中,图3涉及一种示例性的字符检测过程的流程示意图。可选的,基于上述一个或多个实施例,所述检测所述对象名称是否存在生僻字符,包括以下方案:
S1022:检测所述对象名称的每个名称字符是否属于常用字符编码库的常用字符;
在本说明书一个或多个实施例中,字符编码也即Unicode,也称字集码,是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。常见字符编码:ASCII、GB2312编码、GBK编码、GB18030编码、UTF8、UTF16等;
常用字符编码库是多个字符的集合,常用字符编码库种类较多,每个常用字符编码库包含的字符个数不同,常见字符编码库诸如可以是:ASCII字符编码库、GB2312字符编码库、BIG5字符编码库、GB18030字符编码库、Unicode字符编码库、GBK字符(编码)编码库等。
示意性的,常用字符编码库可基于实际应用环境确定,常用字符编码诸如可以是GBK字符(编码)编码库;
所述常用字符可以理解为常用字符编码库的字符;
可以理解的,对象名称由若干名称字符组成,通过检测对象名称的每个名称字符是否属于常用字符编码库的常用字符,可以确定对象名称是否存在生僻字符;
在一种可行的实施方式中,可以通过构建或获取针对常用字符编码库进行常用字符检测的常用字符识别正则式,实现“检测所述对象名称的每个名称字符是否属于所述常用字符编码库的常用字符”,具体实施中,电子设备可以获取针对常用字符编码库的常用字符识别正则式,然后采用常用字符识别正则式检测所述对象名称的每个名称字符是否属于所述常用字符编码库对应的常用字符码点范围。
示意性的,常用字符识别正则式为一种用于检测常用字符的正则式,基于常用字符识别正则式可检测名称字符是否属于常用字符编码库对应的常用字符码点范围内,通常名称字符属于常用字符码点范围则该名称字符属于常用字符,名称字符不属于常用字符码点范围则该名称字符可能是生僻字符;
例如,可以采用下述常用字符识别正则式涉及的部分伪代码如下,来检测对象名称中的每个名称字符是否全部是常用字符编码库内的常用字符;
/***GBK汉字正则*/
"[\u4e00-\u9fa5]"
其中,“\u”是unicode码点,4e00指unicode正则的起始码点,9fa5指unicode正则的终止码点;起始码点与终止码点就构成了针对常用字符编码库的字符码点范围,通过常用字符识别正则式来检测名称字符对应的码点是否属于常用字符码点范围,以此来检测名称字符是否为常用字符编码库的常用字符。
S1024:若每个所述名称字符均属于所述常用字符编码库的常用字符,则确定所述对象名称不存在生僻字符;
可以理解的,通过对每个名称字符进行前述常用字符检测过程,若每个所述名称字符均属于所述常用字符编码库的常用字符,则电子设备可以确定对象名称不存在生僻字符;
S1026:若存在至少一个所述名称字符不属于所述常用字符编码库的常用字符,则确定所述对象名称存在生僻字符。
可以理解的,通过对每个名称字符进行前述常用字符检测过程,若存在至少一个所述名称字符不属于所述常用字符编码库的常用字符,则电子设备可以确定对象名称存在生僻字符;
在本说明书一个或多个实施例中,通过针对常用字符编码库的常用字符识别正则式较之于逐字符与名称字符比对可快速实现常用字符检测,提升字符处理效率。
示例性的,在本说明书一个或多个实施例中,图4涉及一种示例性的生僻编码字符确定过程的流程示意图。可选的,基于上述一个或多个实施例,所述定所述对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符,包括以下方案:
S2002:获取针对所述对象名称的至少一种参考生僻编码检测方式;
可以理解的,不同的生僻编码类型对应不同的生僻编码检测类型,可以针对生僻编码检测类型设置参考生僻编码检测方式;
所述生僻编码检测类型与生僻编码类型相对应,生僻编码检测类型可以理解为针对生僻编码类型所划分的编码检测类型,不同的生僻编码类型对应不同的编码特性,基于此,在针对不同的生僻编码类型的编码检测方式上可划分不同的编码检测类型,采用相应的生僻编码检测方式。
例如,生僻编码类型为unicode生僻编码类型,则可获取或确定unicode生僻编码类型对应的unicode生僻编码检测类型的unicode生僻编码检测方式;
例如,生僻编码类型为拼音生僻字编码类型,则可获取或确定拼音生僻字编码类型对应的拼音生僻字编码检测类型的拼音生僻字编码检测方式;
例如,生僻编码类型为一字拆多字生僻编码类型,则可获取或确定一字拆多字生僻编码类型对应的一字拆多字生僻编码检测类型的一字拆多字生僻编码检测方式;
可以理解的,实际应用中,对象名称可能存在生僻字符,且生僻字符为多个的情况下,可能会采用多种生僻编码类型用户来输入相应生僻编码类型的生僻字。因此,可设置若干针对所述对象名称的一种或多种参考生僻编码检测方式,然后采用这些参考生僻编码检测方式对对象名称进行至少一种类型的参考生僻编码字符检测。
S2004:采用所述参考生僻编码检测方式对所述对象名称进行参考生僻编码字符检测,得到参考检测结果;
所述参考检测结果可以包括对象名称中是否包括参考生僻编码字符、参考生僻编码字符数据、参考生僻编码字符的数量等结果数据;
可以理解的,参考生僻编码检测方式可以有多种,采用多种参考生僻编码检测方式对对象名称进行参考生僻编码字符检测,可以通过得到的参考检测结果来确定对象名称中是否包括相应类型的参考生僻编码字符等信息。
在一种可行的实施方式中,可以从参考生僻编码方式的编码码点特性来进行检测,不同的参考生僻编码方式常可能使用unicode编码的码点来建立与生僻字符对象的码点映射关系,基于此不同的参考生僻编码方式实际是会对应不同unicode编码的一个或多个码点范围,如人口信息原字编码方式使用一个码点区域,会对应一个unicode编码人口信息原字区域的码点范围,如unicode生僻编码方式会对应一个unicode生僻字编码的码点范围;如拼音生僻编码方式会采用多个字母表征生僻字,则拼音生僻编码方式可对应一个字母字符范围,等等;这些字母字符范围、unicode生僻码点范围、原字区域的码点范围、声调字符范围等可结合正则式实现生僻编码检测,进一步的,前述字母字符范围、unicode生僻码点范围、原字区域的码点范围、声调字符范围等作为参考字符正则范围,
示意性的,参考生僻编码检测方式可以是挖掘相应生僻编码类型的参考字符正则范围,然后通过建立针对参考字符正则范围的参考生僻字符识别正则式,来实现对对象名称的参考生僻编码字符检测,得到参考检测结果;采用参考字符正则范围和参考生僻字符识别正则式的形式进行生僻字符检测可不需要比对生僻字形从而降低计算资源消耗,简化生僻字符检测的处理流程。
可选的,电子设备执行所述采用所述参考生僻编码检测方式对所述对象名称进行参考生僻编码字符检测,得到参考检测结果,可以是:
电子设备确定所述参考生僻编码检测方式对应的参考字符正则范围,基于所述参考字符正则范围确定参考生僻字符识别正则式,采用所述参考生僻字符识别正则式对所述对象名称进行参考生僻编码字符检测,得到参考检测结果;
所述参考字符正则范围基于相应参考生僻编码类型的编码码点特性来设置,例如前述字母字符范围、unicode生僻码点范围、原字区域的码点范围、声调字符范围等均可作为参考字符正则范围;
可以理解的,在确定参考字符正则范围后采用正则表达式即可构建基于参考生僻字符识别正则式,后续可采用参考生僻字符识别正则式来检测对象名称的生僻字符码点,以确定是否满足参考生僻字符识别正则式,从而可以确定生僻字符码点对应的饿生僻字符是否属于当前的参考字符编码类型、参考生僻编码字符数据、参考生僻编码字符的数量等结果数据,也即可生成参考检测结果。
参考生僻字符识别正则式为一种用于检测识别某种参考生僻编码类型的参考生僻字符的正则式,基于参考生僻字符识别正则式可检测名称字符中的生僻字符是否属于某个参考字符编码类型字符的参考字符正则范围内,通常名称字符中的生僻字符属于参考字符正则范围则该名称字符属于该参考生僻字符类型下的参考生僻字符,名称字符中的生僻字符不属于参考字符正则范围则该名称字符不属于该类型下的参考生僻字符;
例如,以针对人口信息原字生僻编码类型的参考生僻编码检测方式为例,可以采用下述参考生僻字符识别正则式涉及的部分伪代码如下,来检测对象名称中的生僻字符是否该生僻编码类型下的参考生僻字符;
通过参考生僻字符识别正则式正则判断对象名称是否含人口信息原字范围生僻字,经正则判断后得到参考检测结果。
示意性的:对象名称中只有要一个字符在这个范围,就是原字生僻字类型下的参考生僻字符,伪代码如下:
/***人口信息原字生僻字正则*/
"[\ue000-\ufad9]"
e000指unicode正则的起始码点,ufad9指unicode正则的终止码点;起始码点与终止码点就构成了参考字符正则范围,需要说明的是,前述起始码点和终止码点仅仅是为了更好的理解本实施例,实际应用阶段起始码点和终止码点也可以是其他的码点数据,此处不做具体码点数据进行限定。
又例如,以针对unicode生僻字编码类型的参考生僻编码检测方式为例,可以采用下述参考生僻字符识别正则式涉及的部分伪代码如下,来检测对象名称中的生僻字符是否该生僻编码类型下的参考生僻字符;
通过参考生僻字符识别正则式正则判断对象名称是否含unicode生僻码点范围的生僻字,经正则判断后得到参考检测结果;
示意性的:对象名称中只有要一个字符在这个范围,就是unicode生僻字类型下的参考生僻字符,伪代码如下:
/***unicode生僻字正则*/
"([\u9fa6-\u9fef]|[\u3400-\u4dff]|[\\x{20000}-\\x{2FFFD}]|[\\x{30000}-\\x{3FF FD}])"
“\u”是unicode码点,“\x”表示十六进制的编码,上述示意出了多个参考字符正则范围(区间),由起始码点与终止码点构成了针对常用字符编码库的字符码点范围区间,通过常用字符识别正则式来检测名称字符对应的码点是否属于unicode生僻字符码点范围,需要说明的是,前述起始码点和终止码点仅仅是为了更好的理解本实施例,实际应用阶段起始码点和终止码点也可以是其他的码点数据,此处不做具体码点数据进行限定。
又例如,以针对拼音生僻编码类型的参考生僻编码检测方式为例,可以采用下述参考生僻字符识别正则式涉及的部分伪代码如下,来检测对象名称中的生僻字符是否该生僻编码类型下的参考生僻字符;
通过参考生僻字符识别正则式正则判断对象名称是否含拼音生僻字形式对应的字母字符范围,经正则判断后得到参考检测结果;
示意性的:对象名称中只有要一个字符含字母,就是拼音生僻字姓名/***包含字母正则*/
"[a-z A-Z]"
示意性的,“a-z”表示小写字母表示的字符范围区间,“A-Z”表示大写字母表示的字符范围区间;
在一种可行的实施方式中,可以结合多编码生僻字库实现相关参考生僻编码字符的检测,通过基于多编码生僻字库中生僻字对象的多编码关系,可以进行相应参考生僻编码类型下参考生僻字符的检索,电子设备执行所述采用所述参考生僻编码检测方式对所述对象名称进行参考生僻编码字符检测,得到参考检测结果,可以是:
电子设备基于多编码生僻字库对对象名称进行至少一种所述参考生僻编码检测方式的参考生僻编码字符检测,得到参考检测结果。
电子设备基于多编码生僻字库对对象名称中的生僻字符进行一种或多种参考生僻编码的查询,也即将对象名称中的生僻字符与多编码生僻字库中的一种或多种参考生僻编码字符进行匹配,以生成参考检测结果,参考检测结果可以反馈对象名称中的生僻字符所属的参考生僻编码类型,参考生僻字符数据、字符位置等检测结果。
可以理解的,基于多编码字库所表征的多编码映射实现了生僻字识别服务能力,可显著提升一种或多种生僻字识别的准确性。
在一种可行的实施方式中,电子设备可以采用所述参考生僻编码检测方式对所述对象名称进行参考生僻编码字符检测,得到参考检测结果之后,基于所述参考检测结果记录所述对象名称中的参考生僻编码类型的参考生僻编码字符。
示意性的,在每采用参考生僻编码检测方式对对象名称中的生僻字符进行参考生僻编码字符检测得到参考检测结果后,若参考检测结果指示对象名称中的某个生僻字符为该参考生僻编码类别下的参考生僻字符,则记录该参考生僻字符在对象名称中的位置;以便于后续对该参考生僻字符进行目标生僻编码类型的字符的转码;
示例性的,对象名称可能存在用户采用多种生僻编码类型输入生僻字符,在每采用参考生僻编码检测方式对对象名称中的生僻字符进行参考生僻编码字符检测后,基于参考检测结果直接记录该参考生僻字符在对象名称中的位置,可避免后续进行字符转码时的误识别情形,同时也可优化生僻字处理过程,实现生僻字符准确字符更新。
例如,以针对一字拆多字生僻编码类型的参考生僻编码检测方式为例,可以通过查多编码生僻字库的“一字拆多字生僻”映射来逐一比对对象名称中的拆字生僻字符实现“一字拆多字生僻”编码字符检测得到参考检测结果,参考检测结果可反馈对象名称中的某个生僻字符为该“一字拆多字生僻”类型下的参考生僻字符、参考生僻字符数据(如字符字形)等结果数据。
在本说明书一个或多个实施例中,在每采用参考生僻编码检测方式对对象名称中的生僻字符进行参考生僻编码字符检测得到参考检测结果后,电子设备采用至少一个生僻字符标识对所述对象名称中参考生僻编码类型的参考生僻编码字符进行位置标记;
示意性的,电子设备可以确定对象名称中参考生僻编码类型的参考生僻编码字符的名称位置,记录该名称位置;
示意性的,电子设备执行所述采用至少一个生僻字符标识对所述对象名称中参考生僻编码类型的参考生僻编码字符进行位置标记,可以是:确定各所述参考生僻编码类型分别对应的生僻字符标识;采用各所述生僻字符标识对所述对象名称中所述参考生僻编码类型的参考生僻编码字符进行位置标记。
所述生僻字符标识可以是以任意标识记号作为一种生僻字符标识,例如以“#”、“¥”、“!”等作为一种生僻字符标识,可以理解的不同参考生僻编码类型对应不同的生僻字符标识;
例如,生僻字符标识“#”可以表征unicode生僻编码类型,生僻字符标识“¥”可以表征“一字拆多字”生僻编码类型,“!”可以表征拼音生僻编码类型;
可以理解的,采用不同的参考生僻编码类型对应的参考生僻编码字符来区分开原对象名称中的各个不同类型的生僻字符,这样可在后续字符更新阶段降低由于客观语义导致的误转码概率,客观语义导致的误转码概率可以理解为在多种生僻编码类型同时存在的情况下,不同生僻字符组合会有可能产生一定的语义歧义,从而造成生僻字符对象识别机器理解错误,进而查询到错误字符导致更新错误。
S2006:基于各所述参考检测结果确定所述对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符。
在本说明书一个或多个实施例中,电子设备通过检测所输入的对象名称是否存在生僻字符,在对象名称存在生僻字符的情形下,基于用户的实际事务场景获取针对对象名称的目标生僻编码类型,并确定对象名称对应的参考生僻编码类型的参考生僻编码字符,基于多编码生僻字库和目标生僻编码类型对对象名称中的参考生僻编码字符进行字符更新处理从而得到目标对象名称。字符更新后的目标对象名称可以满足用户在日常事务下的生僻字事务兼容需求,通过生僻字自动识别并基于多编码生僻字库实现了目标生僻编码类型的自动转码,可以避免直接基于用户输入对象名称在日常事务下无法识别生僻字符语义的情形,方便了生僻字需求用户在日常事务场景下的便捷性。
示例性的,在本说明书一个或多个实施例中,图5涉及一种示例性的字符更新过程的流程示意图。可选的,基于上述一个或多个实施例,所述基于多编码生僻字库和所述目标生僻编码类型,对所述对象名称中的所述参考生僻编码字符进行字符更新处理,得到目标对象名称,包括以下方案:
S3004:在多编码生僻字库中查询针对所述参考生僻编码字符的所述目标生僻编码类型的目标生僻编码字符;
可以理解的,电子设备基于参考检测结果确定对象名称对应的一种或多种参考生僻编码类型的参考生僻编码字符,然后可以在多编码生僻字库中查询针对参考生僻编码字符的目标生僻编码类型的目标生僻编码字符;
在本说明书一个或多个实施例中,电子设备在每采用参考生僻编码检测方式对对象名称中的生僻字符进行参考生僻编码字符检测得到参考检测结果后,电子设备采用至少一个生僻字符标识对所述对象名称中参考生僻编码类型的参考生僻编码字符进行了位置标记,电子设备基于各参考检测结果确定对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符后,可以基于每个生僻字符标识在多编码生僻字库中分别查询针对所述参考生僻编码字符的所述目标生僻编码类型的目标生僻编码字符。
可以理解的,前述提及采用不同的参考生僻编码类型对应的参考生僻编码字符来区分开原对象名称中的各个不同类型的生僻字符,这样可在字符更新阶段降低由于客观语义导致的误转码概率,电子设备通过每个生僻字符标识在多编码生僻字库中分别查询生僻字符标识标记的参考生僻字符在目标生僻编码类型下的目标生僻编码字符,由于不同类型的参考生僻字符采用不同生僻字符标识,可以避免不同生僻字符组合客观产生的语义歧义,从而避免生僻字符对象识别机器理解错误;
例如对象名称是“张xin”,“/>”是采用unicode生僻编码类型,“xin”采用拼音生僻编码类型,则采用生僻字符标识“#”来记录“/>”的生僻字名称位置,采用“!”记录“xin”生僻字位置,电子设备可以直接检测对象名称中相应用生僻字符标识的位置乃至标识数量,通过逐个针对生僻字符标识在多编码生僻字库中分别查询生僻字符标识标记的参考生僻字符在目标生僻编码类型下的目标生僻编码字符;示意性的,采用生僻字符标识“#”来记录“/>”的生僻字名称位置,采用“!”记录“xin”生僻字位置,可以是直接采用生僻字符标识替换对象名称中的生僻字符,并建立生僻字符标识与生僻字符的映射,如对象名称“张/>xin”替换后为“张#!”,然后对对象名称中的每个生僻字符标识逐个在多编码生僻字库中查询生僻字符标识标记的参考生僻字符在目标生僻编码类型下的目标生僻编码字符。
S3006:基于所述目标生僻编码字符对所述对象名称中的所述参考生僻编码类型的参考生僻编码字符进行字符更新处理,得到目标对象名称。
示意性的,在多编码生僻字库中查询到参考生僻编码字符对应的生僻字对象,获取生僻字对象对应的目标生僻编码类型的目标生僻字符,然后使用目标生僻字符对对象名称中的参考生僻编码字符进行更新替换,从而得到目标对象名称;可以理解的,在参考生僻编码字符类型乃至数量为多个的情况下,可以参照前述方式完成对多个参考生僻编码字符的更新过程,从而完成对对象名称中的参考生僻编码字符进行字符更新处理过程,得到目标对象名称;
在本说明书一个或多个实施例中,电子设备通过检测所输入的对象名称是否存在生僻字符,在对象名称存在生僻字符的情形下,基于用户的实际事务场景获取针对对象名称的目标生僻编码类型,并确定对象名称对应的参考生僻编码类型的参考生僻编码字符,基于多编码生僻字库和目标生僻编码类型对对象名称中的参考生僻编码字符进行字符更新处理从而得到目标对象名称。字符更新后的目标对象名称可以满足用户在日常事务下的生僻字事务兼容需求,通过生僻字自动识别并基于多编码生僻字库实现了目标生僻编码类型的自动转码,可以避免直接基于用户输入对象名称在日常事务下无法识别生僻字符语义的情形,方便了生僻字需求用户在日常事务场景下的便捷性。
下面将结合图6,对本说明书提供的生僻字处理装置进行详细介绍。需要说明的是,图6所示的生僻字处理装置,用于执行本说明书图1~图5所示实施例的方法,为了便于说明,仅示出了与本说明书相关的部分,具体技术细节未揭示的,请参照本说明书图1~图5所示的实施例。
请参见图6,其示出本说明书的生僻字处理装置的结构示意图。该生僻字处理装置1可以通过软件、硬件或者两者的结合实现成为用户终端的全部或一部分。根据一些实施例,该生僻字处理装置1包括生僻字处理模块11、生僻字处理模块12和生僻字处理模块13,具体用于:
名称检测模块11,用于获取所输入的对象名称,检测所述对象名称是否存在生僻字符;
编码处理模块12,用于若所述对象名称存在生僻字符,则获取针对所述对象名称的目标生僻编码类型,并确定所述对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符;
字符更新模块13,用于基于多编码生僻字库和所述目标生僻编码类型,对所述对象名称中的所述参考生僻编码字符进行字符更新处理,得到目标对象名称。
可选的,所述名称检测模块11,用于:
检测所述对象名称的每个名称字符是否属于常用字符编码库的常用字符;
若每个所述名称字符均属于所述常用字符编码库的常用字符,则确定所述对象名称不存在生僻字符;
若存在至少一个所述名称字符不属于所述常用字符编码库的常用字符,则确定所述对象名称存在生僻字符。
可选的,所述名称检测模块11,用于:
获取针对所述常用字符编码库的常用字符识别正则式;
采用所述常用字符识别正则式检测所述对象名称的每个名称字符是否属于所述常用字符编码库对应的常用字符码点范围。
可选的,所述编码处理模块12,用于:
获取针对所述对象名称的至少一种参考生僻编码检测方式;
采用所述参考生僻编码检测方式对所述对象名称进行参考生僻编码字符检测,得到参考检测结果;
基于各所述参考检测结果确定所述对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符。
可选的,所述编码处理模块12,用于:确定所述参考生僻编码检测方式对应的参考字符正则范围,基于所述参考字符正则范围确定参考生僻字符识别正则式,采用所述参考生僻字符识别正则式对所述对象名称进行参考生僻编码字符检测,得到参考检测结果;和/或,
基于多编码生僻字库对所述对象名称进行至少一种所述参考生僻编码检测方式的参考生僻编码字符检测,得到参考检测结果。
可选的,所述编码处理模块12,用于:基于所述参考检测结果记录所述对象名称中的参考生僻编码类型的参考生僻编码字符。
可选的,所述字符更新模块13,用于:在多编码生僻字库中查询针对所述参考生僻编码字符的所述目标生僻编码类型的目标生僻编码字符;
基于所述目标生僻编码字符对所述对象名称中的所述参考生僻编码类型的参考生僻编码字符进行字符更新处理,得到目标对象名称。
可选的,所述字符更新模块13,用于:采用至少一个生僻字符标识对所述对象名称中参考生僻编码类型的参考生僻编码字符进行位置标记;
所述在多编码生僻字库中查询针对所述参考生僻编码字符的所述目标生僻编码类型的目标生僻编码字符,包括:
基于每个所述生僻字符标识在多编码生僻字库中分别查询针对所述参考生僻编码字符的所述目标生僻编码类型的目标生僻编码字符。
可选的,所述字符更新模块13,用于:确定各所述参考生僻编码类型分别对应的生僻字符标识;
采用各所述生僻字符标识对所述对象名称中所述参考生僻编码类型的参考生僻编码字符进行位置标记。
需要说明的是,上述实施例提供的生僻字处理装置在执行生僻字处理方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的生僻字处理装置与生僻字处理方法实施例属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
上述本说明书序号仅仅为了描述,不代表实施例的优劣。
在本说明书一个或多个实施例中,电子设备通过检测所输入的对象名称是否存在生僻字符,在对象名称存在生僻字符的情形下,基于用户的实际事务场景获取针对对象名称的目标生僻编码类型,并确定对象名称对应的参考生僻编码类型的参考生僻编码字符,基于多编码生僻字库和目标生僻编码类型对对象名称中的参考生僻编码字符进行字符更新处理从而得到目标对象名称。字符更新后的目标对象名称可以满足用户在日常事务下的生僻字事务兼容需求,通过生僻字自动识别并基于多编码生僻字库实现了目标生僻编码类型的自动转码,可以避免直接基于用户输入对象名称在日常事务下无法识别生僻字符语义的情形,方便了生僻字需求用户在日常事务场景下的便捷性。
本说明书还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1~图5所示实施例的所述生僻字处理方法,具体执行过程可以参见图1~图5所示实施例的具体说明,在此不进行赘述。
本说明书还提供了一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由所述处理器加载并执行如上述图1~图5所示实施例的所述生僻字处理方法,具体执行过程可以参见图1~图5所示实施例的具体说明,在此不进行赘述。
请参考图7,其示出了本说明书一个示例性实施例提供的电子设备的结构方框图。本说明书中的电子设备可以包括一个或多个如下部件:处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。
处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个电子设备内的各个部分,通过运行或执行存储在存储器120内的指令、程序、代码集或指令集,以及调用存储在存储器120内的数据,执行电子设备100的各种功能和处理数据。可选地,处理器110可以采用数字信号处理(digital signal processing,DSP)、现场可编程门阵列(field-programmable gate array,FPGA)、可编程逻辑阵列(programmable logicArray,PLA)中的至少一种硬件形式来实现。处理器110可集成中心处理器(centralprocessing unit,CPU)、图像处理器(graphics processing unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器110中,单独通过一块通信芯片进行实现。
存储器120可以包括随机存储器(random Access Memory,RAM),也可以包括只读存储器(read-only memory,ROM)。可选地,该存储器120包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等,该操作系统可以是安卓(Android)系统,包括基于Android系统深度开发的系统、苹果公司开发的IOS系统,包括基于IOS系统深度开发的系统或其它系统。存储数据区还可以存储电子设备在使用中所创建的数据比如电话本、音视频数据、聊天记录数据,等。
参见图8所示,存储器120可分为操作系统空间和用户空间,操作系统即运行于操作系统空间,原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果,操作系统针对不同第三方应用程序为其分配相应的系统资源。然而,同一第三方应用程序中不同应用场景对系统资源的需求也存在差异,比如,在本地资源加载场景下,第三方应用程序对磁盘读取速度的要求较高;在动画渲染场景下,第三方应用程序则对GPU性能的要求较高。而操作系统与第三方应用程序之间相互独立,操作系统往往不能及时感知第三方应用程序当前的应用场景,导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。
为了使操作系统能够区分第三方应用程序的具体应用场景,需要打通第三方应用程序与操作系统之间的数据通信,使得操作系统能够随时获取第三方应用程序当前的场景信息,进而基于当前场景进行针对性的系统资源适配。
以操作系统为Android系统为例,存储器120中存储的程序和数据如图9所示,存储器120中可存储有Linux内核层320、系统运行时库层340、应用框架层360和应用层380,其中,Linux内核层320、系统运行库层340和应用框架层360属于操作系统空间,应用层380属于用户空间。Linux内核层320为电子设备的各种硬件提供了底层的驱动,如显示驱动、音频驱动、摄像头驱动、蓝牙驱动、Wi-Fi驱动、电源管理等。系统运行库层340通过一些C/C++库来为Android系统提供了主要的特性支持。如SQLite库提供了数据库的支持,OpenGL/ES库提供了3D绘图的支持,Webkit库提供了浏览器内核的支持等。在系统运行时库层340中还提供有安卓运行时库(Android runtime),它主要提供了一些核心库,能够允许开发者使用Java语言来编写Android应用。应用框架层360提供了构建应用程序时可能用到的各种API,开发者也可以通过使用这些API来构建自己的应用程序,比如活动管理、窗口管理、视图管理、通知管理、内容提供者、包管理、通话管理、资源管理、定位管理。应用层380中运行有至少一个应用程序,这些应用程序可以是操作系统自带的原生应用程序,比如联系人程序、短信程序、时钟程序、相机应用等;也可以是第三方开发者所开发的第三方应用程序,比如游戏类应用程序、即时通信程序、相片美化程序等。
以操作系统为IOS系统为例,存储器120中存储的程序和数据如图10所示,IOS系统包括:核心操作系统层420(Core OS layer)、核心服务层440(Core Services layer)、媒体层460(Media layer)、可触摸层480(Cocoa Touch Layer)。核心操作系统层420包括了操作系统内核、驱动程序以及底层程序框架,这些底层程序框架提供更接近硬件的功能,以供位于核心服务层440的程序框架所使用。核心服务层440提供给应用程序所需要的系统服务和/或程序框架,比如基础(Foundation)框架、账户框架、广告框架、数据存储框架、网络连接框架、地理位置框架、运动框架等等。媒体层460为应用程序提供有关视听方面的接口,如图形图像相关的接口、音频技术相关的接口、视频技术相关的接口、音视频传输技术的无线播放(AirPlay)接口等。可触摸层480为应用程序开发提供了各种常用的界面相关的框架,可触摸层480负责用户在电子设备上的触摸交互操作。比如本地通知服务、远程推送服务、广告框架、游戏工具框架、消息用户界面接口(User Interface,UI)框架、用户界面UIKit框架、地图框架等等。
在图10所示出的框架中,与大部分应用程序有关的框架包括但不限于:核心服务层440中的基础框架和可触摸层480中的UIKit框架。基础框架提供许多基本的对象类和数据类型,为所有应用程序提供最基本的系统服务,和UI无关。而UIKit框架提供的类是基础的UI类库,用于创建基于触摸的用户界面,iOS应用程序可以基于UIKit框架来提供UI,所以它提供了应用程序的基础架构,用于构建用户界面,绘图、处理和用户交互事件,响应手势等等。
其中,在IOS系统中实现第三方应用程序与操作系统数据通信的方式以及原理可参考Android系统,本说明书在此不再赘述。
其中,输入装置130用于接收输入的指令或数据,输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据,输出装置140包括但不限于显示设备和扬声器等。在一个示例中,输入装置130和输出装置140可以合设,输入装置130和输出装置140为触摸显示屏,该触摸显示屏用于接收用户使用手指、触摸笔等任何适合的物体在其上或附近的触摸操作,以及显示各个应用程序的用户界面。触摸显示屏通常设置在电子设备的前面板。触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合,异型屏与曲面屏的结合,本说明书对此不加以限定。
除此之外,本领域技术人员可以理解,上述附图所示出的电子设备的结构并不构成对电子设备的限定,电子设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。比如,电子设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(wireless fidelity,WiFi)模块、电源、蓝牙模块等部件,在此不再赘述。
在本说明书中,各步骤的执行主体可以是上文介绍的电子设备。可选地,各步骤的执行主体为电子设备的操作系统。操作系统可以是安卓系统,也可以是IOS系统,或者其它操作系统,本说明书对此不作限定。
本说明书的电子设备,其上还可以安装有显示设备,显示设备可以是各种能实现显示功能的设备,例如:阴极射线管显示器(cathode ray tubedisplay,简称CR)、发光二极管显示器(light-emitting diode display,简称LED)、电子墨水屏、液晶显示屏(liquidcrystal display,简称LCD)、等离子显示面板(plasma display panel,简称PDP)等。用户可以利用电子设备101上的显示设备,来查看显示的文字、图像、视频等信息。所述电子设备可以是智能手机、平板电脑、游戏设备、AR(Augmented Reality,增强现实)设备、汽车、数据存储装置、音频播放装置、视频播放装置、笔记本、桌面计算设备、可穿戴设备诸如电子手表、电子眼镜、电子头盔、电子手链、电子项链、电子衣物等设备。
在图7所示的电子设备中,处理器110可以用于调用存储器120中存储的应用程序,并具体执行以下操作:
获取所输入的对象名称,检测所述对象名称是否存在生僻字符;
若所述对象名称存在生僻字符,则获取针对所述对象名称的目标生僻编码类型,并确定所述对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符;
基于多编码生僻字库和所述目标生僻编码类型,对所述对象名称中的所述参考生僻编码字符进行字符更新处理,得到目标对象名称。
在一个实施例中,所述处理器110在执行所述检测所述对象名称是否存在生僻字符,执行以下步骤:
检测所述对象名称的每个名称字符是否属于常用字符编码库的常用字符;
若每个所述名称字符均属于所述常用字符编码库的常用字符,则确定所述对象名称不存在生僻字符;
若存在至少一个所述名称字符不属于所述常用字符编码库的常用字符,则确定所述对象名称存在生僻字符。
在一个实施例中,所述处理器110在执行所述检测所述对象名称的每个名称字符是否属于所述常用字符编码库的常用字符,执行以下步骤:
获取针对所述常用字符编码库的常用字符识别正则式;
采用所述常用字符识别正则式检测所述对象名称的每个名称字符是否属于所述常用字符编码库对应的常用字符码点范围。
在一个实施例中,所述处理器110在执行所述确定所述对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符,执行以下步骤:
获取针对所述对象名称的至少一种参考生僻编码检测方式;
采用所述参考生僻编码检测方式对所述对象名称进行参考生僻编码字符检测,得到参考检测结果;
基于各所述参考检测结果确定所述对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符。
在一个实施例中,所述处理器110在执行所述采用所述参考生僻编码检测方式对所述对象名称进行参考生僻编码字符检测,得到参考检测结果,执行以下步骤:
确定所述参考生僻编码检测方式对应的参考字符正则范围,基于所述参考字符正则范围确定参考生僻字符识别正则式,采用所述参考生僻字符识别正则式对所述对象名称进行参考生僻编码字符检测,得到参考检测结果;和/或,
基于多编码生僻字库对所述对象名称进行至少一种所述参考生僻编码检测方式的参考生僻编码字符检测,得到参考检测结果。
在一个实施例中,所述处理器110在执行所述采用所述参考生僻编码检测方式对所述对象名称进行参考生僻编码字符检测,得到参考检测结果之后,还执行以下步骤:
基于所述参考检测结果记录所述对象名称中的参考生僻编码类型的参考生僻编码字符。
在一个实施例中,所述处理器110在执行所述基于多编码生僻字库和所述目标生僻编码类型,对所述对象名称中的所述参考生僻编码字符进行字符更新处理,得到目标对象名称,执行以下步骤:
在多编码生僻字库中查询针对所述参考生僻编码字符的所述目标生僻编码类型的目标生僻编码字符;
基于所述目标生僻编码字符对所述对象名称中的所述参考生僻编码类型的参考生僻编码字符进行字符更新处理,得到目标对象名称。
在一个实施例中,所述处理器110在执行所述生僻字处理方法还执行以下步骤:
采用至少一个生僻字符标识对所述对象名称中参考生僻编码类型的参考生僻编码字符进行位置标记;
所述在多编码生僻字库中查询针对所述参考生僻编码字符的所述目标生僻编码类型的目标生僻编码字符,执行以下步骤:
基于每个所述生僻字符标识在多编码生僻字库中分别查询针对所述参考生僻编码字符的所述目标生僻编码类型的目标生僻编码字符。
在一个实施例中,所述处理器110在执行所述采用至少一个生僻字符标识对所述对象名称中参考生僻编码类型的参考生僻编码字符进行位置标记,包括:
确定各所述参考生僻编码类型分别对应的生僻字符标识;
采用各所述生僻字符标识对所述对象名称中所述参考生僻编码类型的参考生僻编码字符进行位置标记。
在本说明书一个或多个实施例中,电子设备通过检测所输入的对象名称是否存在生僻字符,在对象名称存在生僻字符的情形下,基于用户的实际事务场景获取针对对象名称的目标生僻编码类型,并确定对象名称对应的参考生僻编码类型的参考生僻编码字符,基于多编码生僻字库和目标生僻编码类型对对象名称中的参考生僻编码字符进行字符更新处理从而得到目标对象名称。字符更新后的目标对象名称可以满足用户在日常事务下的生僻字事务兼容需求,通过生僻字自动识别并基于多编码生僻字库实现了目标生僻编码类型的自动转码,可以避免直接基于用户输入对象名称在日常事务下无法识别生僻字符语义的情形,方便了生僻字需求用户在日常事务场景下的便捷性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。
需要说明的是,本说明书实施例所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。例如,本说明书中涉及的对象名称、生僻字等都是在充分授权的情况下获取的。
以上所揭露的仅为本说明书较佳实施例而已,当然不能以此来限定本说明书之权利范围,因此依本说明书权利要求所作的等同变化,仍属本说明书所涵盖的范围。
Claims (13)
1.一种生僻字处理方法,所述方法包括:
获取所输入的对象名称,检测所述对象名称是否存在生僻字符;
若所述对象名称存在生僻字符,则获取针对所述对象名称的目标生僻编码类型,并确定所述对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符;
基于多编码生僻字库和所述目标生僻编码类型,对所述对象名称中的所述参考生僻编码字符进行字符更新处理,得到目标对象名称。
2.根据权利要求1所述的方法,所述检测所述对象名称是否存在生僻字符,包括:
检测所述对象名称的每个名称字符是否属于常用字符编码库的常用字符;
若每个所述名称字符均属于所述常用字符编码库的常用字符,则确定所述对象名称不存在生僻字符;
若存在至少一个所述名称字符不属于所述常用字符编码库的常用字符,则确定所述对象名称存在生僻字符。
3.根据权利要求2所述的方法,所述检测所述对象名称的每个名称字符是否属于所述常用字符编码库的常用字符,包括:
获取针对所述常用字符编码库的常用字符识别正则式;
采用所述常用字符识别正则式检测所述对象名称的每个名称字符是否属于所述常用字符编码库对应的常用字符码点范围。
4.根据权利要1所述的方法,所述确定所述对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符,包括:
获取针对所述对象名称的至少一种参考生僻编码检测方式;
采用所述参考生僻编码检测方式对所述对象名称进行参考生僻编码字符检测,得到参考检测结果;
基于各所述参考检测结果确定所述对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符。
5.根据权利要4所述的方法,所述采用所述参考生僻编码检测方式对所述对象名称进行参考生僻编码字符检测,得到参考检测结果,包括:
确定所述参考生僻编码检测方式对应的参考字符正则范围,基于所述参考字符正则范围确定参考生僻字符识别正则式,采用所述参考生僻字符识别正则式对所述对象名称进行参考生僻编码字符检测,得到参考检测结果;和/或,
基于多编码生僻字库对所述对象名称进行至少一种所述参考生僻编码检测方式的参考生僻编码字符检测,得到参考检测结果。
6.根据权利要4所述的方法,所述采用所述参考生僻编码检测方式对所述对象名称进行参考生僻编码字符检测,得到参考检测结果之后,还包括:
基于所述参考检测结果记录所述对象名称中的参考生僻编码类型的参考生僻编码字符。
7.根据权利要1所述的方法,所述基于多编码生僻字库和所述目标生僻编码类型,对所述对象名称中的所述参考生僻编码字符进行字符更新处理,得到目标对象名称,包括:
在多编码生僻字库中查询针对所述参考生僻编码字符的所述目标生僻编码类型的目标生僻编码字符;
基于所述目标生僻编码字符对所述对象名称中的所述参考生僻编码类型的参考生僻编码字符进行字符更新处理,得到目标对象名称。
8.根据权利要7所述的方法,所述方法还包括:
采用至少一个生僻字符标识对所述对象名称中参考生僻编码类型的参考生僻编码字符进行位置标记;
所述在多编码生僻字库中查询针对所述参考生僻编码字符的所述目标生僻编码类型的目标生僻编码字符,包括:
基于每个所述生僻字符标识在多编码生僻字库中分别查询针对所述参考生僻编码字符的所述目标生僻编码类型的目标生僻编码字符。
9.根据权利要8所述的方法,所述采用至少一个生僻字符标识对所述对象名称中参考生僻编码类型的参考生僻编码字符进行位置标记,包括:
确定各所述参考生僻编码类型分别对应的生僻字符标识;
采用各所述生僻字符标识对所述对象名称中所述参考生僻编码类型的参考生僻编码字符进行位置标记。
10.一种生僻字处理装置,所述装置包括:
名称检测模块,用于获取所输入的对象名称,检测所述对象名称是否存在生僻字符;
编码处理模块,用于若所述对象名称存在生僻字符,则获取针对所述对象名称的目标生僻编码类型,并确定所述对象名称对应的至少一种参考生僻编码类型的参考生僻编码字符;
字符更新模块,用于基于多编码生僻字库和所述目标生僻编码类型,对所述对象名称中的所述参考生僻编码字符进行字符更新处理,得到目标对象名称。
11.一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~9任意一项的方法步骤。
12.一种计算机程序产品,该计算机程序产品存储有至少一条指令,所述至少一条指令由处理器加载并执行如权利要求1~9任意一项的方法步骤。
13.一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~9任意一项的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310096069.8A CN116303888A (zh) | 2023-01-31 | 2023-01-31 | 一种生僻字处理方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310096069.8A CN116303888A (zh) | 2023-01-31 | 2023-01-31 | 一种生僻字处理方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116303888A true CN116303888A (zh) | 2023-06-23 |
Family
ID=86784199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310096069.8A Pending CN116303888A (zh) | 2023-01-31 | 2023-01-31 | 一种生僻字处理方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116303888A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151041A (zh) * | 2023-10-27 | 2023-12-01 | 成方金融科技有限公司 | 兼容生僻字的pdf生成方法、装置、设备和存储介质 |
-
2023
- 2023-01-31 CN CN202310096069.8A patent/CN116303888A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117151041A (zh) * | 2023-10-27 | 2023-12-01 | 成方金融科技有限公司 | 兼容生僻字的pdf生成方法、装置、设备和存储介质 |
CN117151041B (zh) * | 2023-10-27 | 2024-02-27 | 成方金融科技有限公司 | 兼容生僻字的pdf生成方法、装置、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109947512B (zh) | 一种文本适配显示方法、装置、服务器及存储介质 | |
CN107889070B (zh) | 图片处理方法、装置、终端及计算机可读存储介质 | |
US10795629B2 (en) | Text and custom format information processing method, client, server, and computer-readable storage medium | |
CN109978629B (zh) | 一种广告投放方法、装置、电子设备及存储介质 | |
US12045251B2 (en) | Method and system for automatically generating data acquisition module | |
CN108804469B (zh) | 一种网页识别方法以及电子设备 | |
US20230316792A1 (en) | Automated generation of training data comprising document images and associated label data | |
CN116757157A (zh) | 使用压缩机制来获取字体部分 | |
CN110413347A (zh) | 应用程序中广告的处理方法、装置、存储介质及终端 | |
CN111787154A (zh) | 一种信息处理方法及电子设备 | |
US20190370314A1 (en) | Method, device, and system for transmitting information | |
CN116303888A (zh) | 一种生僻字处理方法、装置、存储介质及电子设备 | |
CN117576388A (zh) | 一种图像处理方法、装置、存储介质及电子设备 | |
US11531814B2 (en) | Method and device for generating modified statement | |
CN109683726B (zh) | 字符输入方法、装置、电子设备及存储介质 | |
CN113378895B (zh) | 一种分类模型生成方法、装置、存储介质及电子设备 | |
CN115858556A (zh) | 一种数据处理方法、装置、存储介质及电子设备 | |
CN110881001B (zh) | 一种电子红包检测方法、系统及终端设备 | |
CN113849249A (zh) | 文本信息显示方法、装置、存储介质及电子设备 | |
CN111008006A (zh) | Rfc文件的修改方法、装置、存储介质及终端 | |
CN111859999A (zh) | 消息翻译方法、装置、存储介质及电子设备 | |
CN116204538A (zh) | 一种生僻字处理方法、装置、存储介质及电子设备 | |
WO2014161425A1 (zh) | 二维码处理方法及移动终端 | |
CN113778386B (zh) | 组件生成方法、装置、存储介质及电子设备 | |
CN116204605A (zh) | 一种生僻字处理方法、装置、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |