CN113536734A - 一种生僻字标准化的处理方法、系统及相关产品 - Google Patents

一种生僻字标准化的处理方法、系统及相关产品 Download PDF

Info

Publication number
CN113536734A
CN113536734A CN202110763287.3A CN202110763287A CN113536734A CN 113536734 A CN113536734 A CN 113536734A CN 202110763287 A CN202110763287 A CN 202110763287A CN 113536734 A CN113536734 A CN 113536734A
Authority
CN
China
Prior art keywords
rarely
font
character
word
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110763287.3A
Other languages
English (en)
Other versions
CN113536734B (zh
Inventor
夏东山
翁雷
刘春香
张伟鑫
孔家顺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Haolinhui Information Technology Co ltd
Original Assignee
Shanghai Haolinhui Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Haolinhui Information Technology Co ltd filed Critical Shanghai Haolinhui Information Technology Co ltd
Priority to CN202110763287.3A priority Critical patent/CN113536734B/zh
Publication of CN113536734A publication Critical patent/CN113536734A/zh
Application granted granted Critical
Publication of CN113536734B publication Critical patent/CN113536734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/109Font handling; Temporal or kinetic typography
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种生僻字标准化的处理方法、系统及相关产品,本方案通过云端配置并加载标准字库;云端接收文字信息并进一步与云端的标准字库进行动态检测、智能纠错匹配、应用处理及信息反馈;根据应用场景要求可实现与常规字一样的生僻字的输出、显示、打印带字体文件的标准化文本信息,以适应与具体设备的无关性。本发明采用基于文字编码标准化,提高了文字信息的规范性、可靠性和可信性。本发明所述方法通过对生僻字按常规文字编码的标准化智能识别、动态匹配和自动处理,使得生僻字可支持多端传输、显示和打印等常规应用,具有标准、规范、可靠、简单实用、应用设备无关性、使用范围广等特点,极具广泛的推广使用价值等。

Description

一种生僻字标准化的处理方法、系统及相关产品
技术领域
本申请涉及计算机技术领域,尤其涉及生僻字标准化的处理技术。
背景技术
在计算机技术发展过程中,电子文件得到广泛的应用,电子文件中的各种文字、字符基本都是通过终端输入的方式录入进去的。由于不常见的文字(简称生僻字,含自造字等)、字符(诸如外文)应用推广存在诸多的问题,其影响的因素较多,如输入工具、承载的电子文件格式、显示工具、打印工具等。因此,绝大部分的输入工具支持度较差;虽然部分输入工具做了优化(如搜狗输入法),但是标准遵从性方面较差,甚至有的通过自造字方法进行录入(如WORD自造字)。总的来说,主要有存在以下局限性:
(1)缺乏统一的编码标准,通用性、兼容性不好;
(2)普通打印设备不能打印(承载文件格式不能使用字库);
(3)第三方系统不能正确识别相应的文字(如识别为其它文字、无法识别等),造成电子文件流转可能存在一定的问题。
因此,针对以上的相关问题,常规的解决方法:
(1)更新或提升现有的软硬件设备,使之支持GBK字符集的处理,甚至是Unicode字符集的处理;
(2)对于超出GBK之外的生僻字通过输入工具升级、设计开发、升级相关系统软件的办法而使用更大的汉字字符集。
总之,虽然通过软硬件升级等方式,虽然在一定程度上可以解决输入、显示、打印等问题,但其成本高昂,且若不符合标准,则进一步造成共享应用非常困难。
发明内容
针对现有生僻字标准化处理技术所存在的问题,本发明的目的在于提供一种生僻字标准化的处理方案,本发明从字符编码标准出发,通过检测识别、智能纠错匹配、应用处理和错误反馈等形式,从根本上解决字符编码不统一造成的各类应用问题。
为了达到上述目的,本发明提供一种生僻字标准化的处理方法,该处理方法包括:
云端配置并加载标准字库;
云端接收业务系统的文字字符集及编码信息并进一步与云端配置的标准字库进行检测识别、智能纠错匹配、应用处理及信息反馈;
从云端配置的标准字库中可正确识别文字的生僻字,并为之生成相应的、可为浏览器或文字显示软件加载使用的生僻字字体文件;
按业务系统设置的目标文件的格式要求,将字体文件以嵌入方式存放在目标文件中,并实时动态生成符合目标格式要求的文件,其中,目标文件格式可为浏览器显示的页面文件、版式文件和流式文件等等;
从云端标准字库中无法正确识别的生僻字文字,将所包含的生僻字字体、字型和编码等相关错误信息反馈给发送端,进行标准化确认,确认无误后发送端进行相应的字体处理,并可进一步通过云端按生僻字二次标准化进行检测处理,使得生僻字的文字编码符合国际通用标准,可实现跨系统、跨层级、跨平台正常显示、使用。
进一步地,所述云端配置的标准字库,可统一为一个标准字库或划分为常用字库信息和生僻字字库信息,其中,生僻字含自造字。
进一步地,所述处理方法中,当云端接收到文字信息后,包括:
(1)根据接收到的文字信息按照字符进行解码,获取到字符的编码值;
(2)根据接收到的文字字符的编码值,按云端的标准字库为基准对字符编码值进行标准化检测,并确定字符编码值是否属于指定字体所覆盖的区域、或生僻字所覆盖的区域;
(3)编码值属于指定字体所在编码值区域内则检测正确,则根据具体应用场景进行常规字体应用处理;编码值不属于指定字体所在编码值区域内则检测不正确,则可进一步与云端生僻字字库进行字型匹配,即进行字的形状匹配,并可识别出对应的编码值,则根据具体应用场景进行生僻字字体应用处理;对于无法从生僻字库中识别出其字型及相应编码值的字符,则进入信息反馈,将其字型及字符编码值等信息反馈给业务系统。
进一步地,所述方法中对可正确识别并应用的文字,根据需求生成仅含已正确检测到的生僻字字符的字体文件,其他非生僻字的文字则统一按标准常规字体文件进行生成处理。
进一步地,所述处理方法中按目标文件的格式要求处理字体文件,字体文件以嵌入方式存放在相应的目标文件结构中。
进一步地,所述的嵌入方式,包括以生成版式文件的嵌入字体方式、以生成HTML文件的WEB字体嵌入等字体方式,并通过字体嵌入方式,实现生僻字字符同常规字符一样的应用。
进一步地,所述处理方法中按目标文件的格式要求处理字体文件,根据目标文件中的文字内容的检测结果实时动态生成符合目标格式要求的字体文件信息,将字体文件信息与目标文件信息形成一个物理文件或数据信息。
进一步地,所述处理方法针对不可正确识别并应用的文字,发送端确认相应的错误信息后,可由发送端重新按生僻字标准化要求进行编码处理,再发送到云端进行标准化检测处理;
若云端标准化检测处理确认不在生僻字字库中的文字,,云端按自造字的自定义字符编码格式进行标准化处理:
按文字的字型及字符编码值检测其自定义编码值,其编码值在生僻字库中不存在,则将其字型及字符编码值等字体信息录入到自定义字体文件中;文字的编码值及字型信息在生僻字库中已存在,则反馈二次检测错误信息,将其对应的字型及字符编码值等信息反馈给业务系统;
根据业务系统设置的目标文件格式要求,将生僻字文字信息生成仅含生僻字字符的字体文件;
根据业务系统设置的目标文件格式要求,将上述生成仅含生僻字字符的字体文件嵌入到目标文件;
按业务系统设定的目标格式文件要求生成包含生僻字的字体文件等信息的目标文件。
为了达到上述目的,本发明提供了一种生僻字标准化的处理系统,所述处理系统配置成执行上述生僻字标准化的处理方法的步骤。
为了达到上述目的,本发明提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述生僻字标准化的处理方法的步骤。
为了达到上述目的,本发明提供了一种处理器,所述处理器用于运行程序,所述程序运行时执行上述生僻字标准化的处理方法的步骤。
为了达到上述目的,本发明提供了一种终端设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,所述程序代码由所述处理器加载并执行以实现上述生僻字标准化的处理方法的步骤。
为了达到上述目的,本发明提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行上述生僻字标准化的处理方法的步骤。
本发明提供的生僻字标准化的处理方案,通过对生僻字按常规文字编码的标准化智能识别、动态匹配和自动处理,使得生僻字可支持多端传输、显示和打印等应用,具有标准化、简单实用、应用设备无关性、使用范围广等特点,极具广泛的推广使用价值等。
本发明提供的生僻字标准化的处理方案,采用基于文字编码标准化,提高了信息的安全性和可信性。
本发明提供的生僻字标准化的处理方案,可用于云计算、云服务环境下的文字检测、识别及标准化应用。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实例,进一步阐述本发明。
针对电子文件中生僻字,本方案从字符编码标准出发,通过检测识别、智能纠错匹配、应用处理和错误反馈等形式,由此来实现生僻字标准化处理,从根本上解决字符编码不统一造成的各类应用问题。
据此,本方案首先,通过云端配置并加载标准字库;接着,云端接收文字信息并进一步与云端的标准字库进行动态检测、智能纠错匹配、应用处理及信息反馈;根据应用场景要求可实现与常规字一样的生僻字的输出、显示、打印带字体文件的标准化文本信息,以适应与具体设备的无关性。
以下具体说明一下本方案进行生僻字标准化的处理的实现过程。
本方案进行生僻字标准化的处理的过程,主要包括以下步骤:
首先,云端配置并加载标准字库;
接着,云端接收业务系统的文字字符集及编码信息并进一步与云端配置的标准字库中的文字字符集及编码进行检测识别、智能纠错匹配、应用处理及信息反馈,确保接收到的文字字符在业务系统里可以正确应用,或返回相应的错误信息;
从云端配置的标准字库中可正确识别的生僻字文字,并为之按需、实时、动态、统一生成相应的、可为浏览器或文字显示软件加载使用的生僻字字体文件;
按业务系统设置的目标文件的格式要求,将字体文件以嵌入方式存放在目标文件中,并实时动态生成符合目标格式要求的文件,其中,目标文件格式可为浏览器显示的页面文件、版式文件和流式文件等等;
从云端标准字库中无法正确识别的生僻字文字,将所包含的生僻字字体、字型和编码等错误信息反馈给发送端,进行标准化确认,确认无误后发送端进行相应的字体处理,并可进一步通过云端按生僻字二次标准化进行检测处理,使得生僻字的文字编码符合国际通用标准,且可实现跨系统、跨层级、跨平台正常显示、使用。
具体的,在本方案的一些具体实施方式中,在云端配置并加载标准字库可统一为一个标准字库,也可划分为常用字库信息和生僻字字库信息,其中,生僻字含自造字。
作为举例,这里的常用字库含GB2312字符集编码区字符、GBK字符集编码区字符和GB18030字符集编码区字符;生僻字库含常用字库之外所有Unicode字符集编码区字符。
在本方案的一些具体实施方式中,当云端接收到文字信息后的处理方式,包括:
(1)根据接收到的文字信息按照字符进行解码,获取到字符的编码值;
(2)根据接收到的文字字符的编码值,按云端的标准字库为基准对字符编码值进行标准化检测,并确定字符编码值是否属于指定字体所覆盖的区域、或生僻字所覆盖的区域;
(3)编码值属于指定字体所在编码值区域内则检测正确,则根据具体应用场景进行常规字体应用处理;编码值不属于指定字体所在编码值区域内则检测不正确,则可进一步与云端的生僻字库进行字型匹配,即进行字的形状匹配,并可识别出对应的编码值,则根据具体应用场景进行生僻字字体应用处理;对于无法从生僻字库中识别出其字型及相应编码值的字符,则进入信息反馈,将其字型及字符编码值等信息反馈给业务系统。
在本方案的一些具体实施方式中,针对从标准字库中可正确识别文字,为之按需、实时、动态、统一生成相应的字体文件时,通过对可正确识别并应用的文字,根据应用场景要求,按需、实时、动态、统一生成仅含已正确检测到的生僻字字符的字体文件,其他非生僻字的文字则统一按标准常规字体文件进行生成处理。
在本方案的一些具体实施方式中,所生成的字体文件含常规文字的字体文件、含生僻字的字体文件。
这里的生僻字字符字体文件,根据实际使用场景要求,其格式可为标准的TureTpe(.ttf)格式、Web Open Font Format(.woff)格式、OpenType(.otf)格式、Embedded OpenType(.eot)格式等,这样便于与具体的应用要求相适应。
在本方案的一些具体实施方式中,按业务系统设置的目标文件的格式要求,将生成的字体文件以嵌入方式存放在相应的目标文件结构中;并根据实际应用场景要求,根据目标文件中的文字内容的检测结果实时动态生成可传输、显示、打印,符合目标格式要求的字体文件,将字体文件信息与目标文件信息形成一个物理文件或数据信息。
这里的嵌入方式,包括以生成版式文件的嵌入字体方式、以生成HTML文件的WEB字体嵌入字体方式等,并通过字体嵌入方式,实现生僻字字符同常规字符一样的传输、显示、打印等应用。
在本方案的一些具体实施方式中,针对从标准字库中无法正确识别的文字,其对应的相关错误信息包括字符编码及字型等字体信息。
据此针对从标准字库中无法正确识别的文字的情况进行处理时,包括:
错误信息反馈至发送端进行确认处理;
若经由发送端确认相应的错误信息后,可由发送端重新按生僻字标准化要求进行编码处理,再发送到云端进行标准化检测处理;
若云端标准化检测处理确认不在生僻字字库中的文字,云端按自造字的自定义字符编码格式进行标准化处理:
按文字的字型及字符编码值检测其自定义编码值,其文字的编码值在生僻字字库中不存在,则将其字型、字符编码值等字体信息录入到自定义字体文件中;文字的编码值及字型信息在生僻字库中已存在,则反馈二次检测错误信息,将其对应的字型及字符编码值等信息反馈给业务系统;
根据业务系统设置的目标文件格式要求,将生僻字文字信息生成仅含生僻字字符的字体文件;
根据业务系统设置的目标文件格式要求,将上述生成仅含生僻字字符的字体文件嵌入字体文件到目标文件;
按业务系统设置的目标格式文件要求生成包含生僻字的字体文件等信息的目标文件,从而实现生僻字符同常规字符一样的传输、显示、打印等应用效果。
本实例给出的生僻字标准化的处理方案通过对生僻字按常规文字编码的标准化智能识别、动态匹配和自动处理,使得生僻字可支持多端传输、显示和打印等应用。
本生僻字标准化的处理方案在具体应用时,可构成相应的软件程序,形成相应的生僻字标准化处理系统。该软件程序在运行时,将执行上述的生僻字标准化的处理方法,同时存储于相应的存储介质中,以供处理器调取执行。
由此形成的生僻字标准化的处理系统在运行时,可实现对电子文件中生僻字的标准化处理,可用于云计算、云服务环境下的文字检测、识别及标准化应用场景,从而实现生僻字符同常规字符一样的传输、显示、打印等应用效果。
作为进一步地补充实例方案:
本方案还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述生僻字标准化处理方法的步骤。
本方案还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述生僻字标准化处理方法的步骤。
本方案还提供了一种终端设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,所述程序代码由所述处理器加载并执行以实现上述生僻字标准化处理方法的步骤。
本方案还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行上述生僻字标准化处理方法的步骤。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (13)

1.生僻字标准化的处理方法,其特征在于,所述处理方法包括:
云端配置并加载标准字库;
云端接收业务系统的文字字符集及编码信息并进一步与云端配置的标准字库进行检测识别、智能纠错匹配、应用处理及信息反馈;
从云端配置的标准字库中可正确识别的生僻字文,并为之生成相应的、可被加载使用的生僻字字体文件;
按业务系统设置的目标文件的格式要求,将字体文件以嵌入方式存放在目标文件中,并实时动态生成符合目标格式要求的文件;
从云端标准字库中无法正确识别的生僻字文字,将所包含的生僻字字体、字型和编码的错误信息反馈给发送端,进行标准化确认,确认无误后发送端进行相应的字体处理,并进一步通过云端按生僻字二次标准化进行检测处理,使得生僻字的文字编码符合国际通用标准。
2.根据权利要求1所述的生僻字标准化的处理方法,其特征在于,所述云端配置的标准字库,可统一为一个标准字库或划分为常用字库信息和生僻字字库信息,所述生僻字含自造字。
3.根据权利要求1所述的生僻字标准化的处理方法,其特征在于,所述处理方法中,当云端接收到文字信息后,包括:
(1)根据接收到的文字信息按照字符进行解码,获取到字符的编码值;
(2)根据接收到的文字字符的编码值,按云端的标准字库为基准对字符编码值进行标准化检测,并确定字符编码值是否属于指定字体所覆盖的区域、或生僻字所覆盖的区域;
(3)字符编码值属于指定字体所在编码值区域内则检测正确,则根据具体应用场景进行常规字体应用处理;编码值不属于指定字体所在编码值区域内则检测不正确,则可进一步与云端的生僻字库进行字型匹配,并可识别出对应的编码值,则根据具体应用场景进行生僻字字体应用处理;对于无法从生僻字库中识别出其字型及相应编码值的字符,则进入信息反馈,将其字型及字符编码值等信息反馈给业务系统。
4.根据权利要求1所述的生僻字标准化的处理方法,其特征在于,所述方法中对可正确识别并应用的文字,根据需求生成仅含已正确检测到的生僻字字符的字体文件,其他非生僻字的文字则统一按标准常规字体文件进行生成处理。
5.根据权利要求1所述的生僻字标准化的处理方法,其特征在于,所述处理方法中按目标文件的格式要求处理字体文件,字体文件以嵌入方式存放在相应的目标文件结构中。
6.根据权利要求1或5所述的生僻字标准化的处理方法,其特征在于,所述的嵌入方式,包括以生成版式文件的嵌入字体方式、以生成HTML文件的WEB字体嵌入字体等方式,并通过字体嵌入方式,实现生僻字字符同常规字符一样的应用。
7.根据权利要求1所述的生僻字标准化的处理方法,其特征在于,所述处理方法中按目标文件的格式要求处理字体文件,根据目标文件中的文字内容的检测结果实时动态生成符合目标格式要求的字体文件信息,将字体文件信息与目标文件信息形成一个物理文件或数据信息。
8.根据权利要求1所述的生僻字标准化的处理方法,其特征在于,所述处理方法针对不可正确识别并应用的文字,发送端确认相应的错误信息后,可由发送端重新按生僻字标准化要求进行编码处理,再发送到云端进行标准化检测处理;
若云端标准化检测处理确认不在生僻字字库中的文字,云端按自造字的自定义字符编码格式进行标准化处理:
按文字的字型及字符编码值检测其自定义编码值,其文字的编码值在生僻字字库中不存在,则将其字型及字符编码值等字体信息录入到自定义字体文件中;文字的编码值及字型信息在生僻字库中已存在,则反馈二次检测错误信息,将其对应的字型及字符编码值等信息反馈给业务系统;
根据业务系统设置的目标文件格式要求,将生僻字文字信息生成仅含生僻字字符的字体文件;
根据业务系统设置的目标文件格式要求,将上述生成仅含生僻字字符的字体文件嵌入到目标文件;
按业务系统设定的目标格式文件要求生成包含生僻字的字体文件等信息的目标文件。
9.一种生僻字标准化的处理系统,其特征在于,所述处理系统配置成执行权利要求1-8中任一项所述的生僻字标准化的处理方法的步骤。
10.一种计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现权利要求1-8中任一项所述的生僻字标准化的处理方法的步骤。
11.一种处理器,所述处理器用于运行程序,其特征在于,所述程序运行时执行权利要求1-8中任一项所述的生僻字标准化的处理方法的步骤。
12.一种终端设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述程序代码由所述处理器加载并执行以实现权利要求1-8中任一项所述的生僻字标准化的处理方法的步骤。
13.一种计算机程序产品,其特征在于,当在数据处理设备上执行时,适于执行权利要求1-8中任一项所述的生僻字标准化的处理方法的步骤。
CN202110763287.3A 2021-07-06 2021-07-06 一种生僻字标准化的处理方法、系统及相关产品 Active CN113536734B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110763287.3A CN113536734B (zh) 2021-07-06 2021-07-06 一种生僻字标准化的处理方法、系统及相关产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110763287.3A CN113536734B (zh) 2021-07-06 2021-07-06 一种生僻字标准化的处理方法、系统及相关产品

Publications (2)

Publication Number Publication Date
CN113536734A true CN113536734A (zh) 2021-10-22
CN113536734B CN113536734B (zh) 2023-03-24

Family

ID=78126866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110763287.3A Active CN113536734B (zh) 2021-07-06 2021-07-06 一种生僻字标准化的处理方法、系统及相关产品

Country Status (1)

Country Link
CN (1) CN113536734B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116339898A (zh) * 2023-05-26 2023-06-27 福昕鲲鹏(北京)信息科技有限公司 页面内容显示方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260035A (zh) * 2015-11-20 2016-01-20 北京奇虎科技有限公司 一种自造字的输入方法和装置
CN105528345A (zh) * 2014-09-28 2016-04-27 北大方正集团有限公司 终端、服务器和补字方法
CN105956023A (zh) * 2016-04-21 2016-09-21 广州尚恩科技股份有限公司 一种生僻字库网络化应用的方法及系统
CN107679022A (zh) * 2017-09-07 2018-02-09 北京京东尚科信息技术有限公司 生僻字处理方法及其系统
CN108647299A (zh) * 2018-05-09 2018-10-12 北京启明星辰信息安全技术有限公司 生僻字符匹配方法、字符串模式匹配方法及存储介质
CN110069767A (zh) * 2019-04-23 2019-07-30 掌阅科技股份有限公司 基于电子书的排版方法、电子设备及计算机存储介质
CN110413810A (zh) * 2019-07-31 2019-11-05 中国工商银行股份有限公司 生僻字处理方法及系统
CN112486428A (zh) * 2020-11-18 2021-03-12 中信银行股份有限公司 打印方法、装置及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105528345A (zh) * 2014-09-28 2016-04-27 北大方正集团有限公司 终端、服务器和补字方法
CN105260035A (zh) * 2015-11-20 2016-01-20 北京奇虎科技有限公司 一种自造字的输入方法和装置
CN105956023A (zh) * 2016-04-21 2016-09-21 广州尚恩科技股份有限公司 一种生僻字库网络化应用的方法及系统
CN107679022A (zh) * 2017-09-07 2018-02-09 北京京东尚科信息技术有限公司 生僻字处理方法及其系统
CN108647299A (zh) * 2018-05-09 2018-10-12 北京启明星辰信息安全技术有限公司 生僻字符匹配方法、字符串模式匹配方法及存储介质
CN110069767A (zh) * 2019-04-23 2019-07-30 掌阅科技股份有限公司 基于电子书的排版方法、电子设备及计算机存储介质
CN110413810A (zh) * 2019-07-31 2019-11-05 中国工商银行股份有限公司 生僻字处理方法及系统
CN112486428A (zh) * 2020-11-18 2021-03-12 中信银行股份有限公司 打印方法、装置及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116339898A (zh) * 2023-05-26 2023-06-27 福昕鲲鹏(北京)信息科技有限公司 页面内容显示方法及装置
CN116339898B (zh) * 2023-05-26 2023-08-22 福昕鲲鹏(北京)信息科技有限公司 页面内容显示方法及装置

Also Published As

Publication number Publication date
CN113536734B (zh) 2023-03-24

Similar Documents

Publication Publication Date Title
EP1598752A2 (en) Localization of xml via transformations
US20070162847A1 (en) Spell checking in network browser based applications
WO2019075968A1 (zh) 表格信息跨页识别方法、电子设备及计算机可读存储介质
CN113536734B (zh) 一种生僻字标准化的处理方法、系统及相关产品
CN110377885B (zh) 转换pdf文件的方法、装置、设备和计算机存储介质
US9830326B2 (en) Identifying data offsets using binary masks
US20120296916A1 (en) Method, apparatus and software for processing data encoded as one or more data elements in a data format
CN113297425B (zh) 文档转换方法、装置、服务器及存储介质
CN114743012A (zh) 一种文本识别方法及装置
CN113869014A (zh) 表格数据的提取方法和装置、以及存储介质和电子设备
CN113935289A (zh) 文档在线处理方法及装置
CN110851400B (zh) 文本数据的处理方法及装置
CN111047269B (zh) 一种工作流的文件审批流转方法和电子设备
CN116346961B (zh) 金融报文处理方法、装置、电子设备及存储介质
CN117171030A (zh) 软件运行环境检测方法、装置、设备及存储介质
CN115665137A (zh) 一种数据处理方法及装置
US8234412B2 (en) Method and system for transmitting compacted text data
CN114629707B (zh) 一种乱码检测方法、装置及电子设备和存储介质
US9258258B2 (en) Implementing injection of formal numerical message identifiers in cloud stacks
CN113779218B (zh) 问答对构建方法、装置、计算机设备和存储介质
CN110991151B (zh) 文件处理方法、装置、电子设备及计算机可读存储介质
CN111695327B (zh) 一种乱码修复方法、装置、电子设备及可读存储介质
CN113627129B (zh) 一种文字复制方法、装置、电子设备及可读存储介质
CN110717131B (zh) 页面改版的监控方法及相关系统
CN107885839B (zh) 一种在Word文件中读取信息的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant