CN112632979A - 文字生成方法、装置、设备及介质 - Google Patents

文字生成方法、装置、设备及介质 Download PDF

Info

Publication number
CN112632979A
CN112632979A CN202011639960.4A CN202011639960A CN112632979A CN 112632979 A CN112632979 A CN 112632979A CN 202011639960 A CN202011639960 A CN 202011639960A CN 112632979 A CN112632979 A CN 112632979A
Authority
CN
China
Prior art keywords
handwriting
parts
word
uncommon
rarely
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011639960.4A
Other languages
English (en)
Inventor
费腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Chenxing Software Technology Co ltd
Original Assignee
Shanghai Chenxing Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Chenxing Software Technology Co ltd filed Critical Shanghai Chenxing Software Technology Co ltd
Priority to CN202011639960.4A priority Critical patent/CN112632979A/zh
Publication of CN112632979A publication Critical patent/CN112632979A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • G06V30/347Sampling; Contour coding; Stroke extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/36Matching; Classification
    • G06V30/387Matching; Classification using human interaction, e.g. selection of the best displayed recognition candidate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请公开了文字生成方法、装置、设备及介质。该方法包括:确定生僻字的多个组成部件;从预设手写体部件中,获取分别与多个组成部件一一对应的多个手写体部件,其中,预设手写体部件是从手写体常用字中提取得到的;按照生僻字的文字结构,对多个手写体部件进行组合,组合得到生僻字对应的手写体生僻字。根据本申请实施例能够提高手写体生僻字的生成效率。

Description

文字生成方法、装置、设备及介质
技术领域
本申请属于文字处理领域,尤其涉及文字生成方法、装置、设备及介质。
背景技术
随着电子设备的发展,电子设备对生僻字的处理能力,比如,对用户输入的手写体文字的识别能力,又比如可以是将生僻字显示为手写体格式的显示能力,也需要快速发展。
为了提高生僻字处理能力,通常需要预先获取手写体生僻字。然而,考虑到生僻字使用频次、用户熟悉程度等因素,现有技术中往往需要以人工输入的方式来生成手写体生僻字,整体效率较低。
发明内容
本发明实施例提供一种文字生成方法、装置、设备及介质,能够提高手写体生僻字的生成效率。
第一方面,本发明实施例提供一种文字生成方法,方法包括:
确定生僻字的多个组成部件;
从预设手写体部件中,获取分别与多个组成部件一一对应的多个手写体部件,其中,预设手写体部件是从用户输入的手写体常用字中提取得到的;
按照生僻字的文字结构,对多个手写体部件进行组合,组合得到生僻字对应的手写体生僻字。
在一种可选的实施方式中,在从预设手写体部件中,获取分别与多个组成部件一一对应的多个手写体部件之前,方法还包括:
接收用户输入的手写体常用字;
对手写体常用字的笔画进行遍历,遍历得到手写体常用字中的手写体部件,得到预设手写体部件。
在一种可选的实施方式中,按照生僻字的文字结构,对多个手写体部件进行组合,组合得到生僻字对应的手写体生僻字,具体包括:
基于生僻字的文字结构,在生僻字中确定多个手写体部件各自的位置;
将多个手写体部件设置在各自的位置上,并将多个手写体部件中相邻的手写体部件之间的距离设置为预设距离,组合得到生僻字对应的手写体生僻字。
在一种可选的实施方式中,按照生僻字的文字结构,对多个手写体部件进行组合,组合得到手写体生僻字,具体包括:
基于目标生僻字的文字结构,在生僻字中确定多个手写体部件各自的位置和目标尺寸;
将多个手写体部件的尺寸调整为各自的目标尺寸;
将调整后的多个手写体部件设置在各自的位置上,并将多个手写体部件中相邻的手写体部件之间的距离设置为预设距离,组合得到生僻字对应的手写体生僻字。
在一种可选的实施方式中,方法还包括:
利用手写体生僻字,训练手写体识别模型。
第二方面,本发明实施例提供了一种文字生成装置,装置包括:
组件确定模块,用于确定生僻字的多个组成部件;
部件获取模块,用于从预设手写体部件中,获取分别与多个组成部件一一对应的多个手写体部件,其中,预设手写体部件是从用户输入的手写体常用字中提取得到的;
文字生成模块,用于按照生僻字的文字结构,对多个手写体部件进行组合,组合得到生僻字对应的手写体生僻字。
在一种可选的实施方式中,装置还包括:
接收模块,用于接收用户输入的手写体常用字;
部件生成模块,用于对手写体常用字的笔画进行遍历,遍历得到手写体常用字中的手写体部件,得到预设手写体部件。
在一种可选的实施方式中,文字生成模块,具体包括:
确定单元,用于基于生僻字的文字结构,在生僻字中确定多个手写体部件各自的位置;
组合单元,用于将多个手写体部件设置在各自的位置上,并将多个手写体部件中相邻的手写体部件之间的距离设置为预设距离,组合得到生僻字对应的手写体生僻字。
第三方面,提供一种文字生成设备,包括:存储器,用于存储程序;
处理器,用于运行存储器中存储的程序,以执行第一方面或第一方面的任一可选的实施方式提供的文字生成方法。
第四方面,提供一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现第一方面或第一方面的任一可选的实施方式提供的文字生成方法。
本申请实施例的文字生成方法、装置、设备及介质,能够从用户输入的手写体常用字中提取生僻字的手写体部件,然后利用手写体部件组合得到手写体生僻字,相较于人工输入手写体生僻字的方式,提高了生成手写体生僻字的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的第一种文字生成方法的流程示意图;
图2是本发明实施例提供的第二种文字生成方法的流程示意图;
图3是本发明实施例提供的第三种文字生成方法的流程示意图;
图4是本发明实施例提供的第四种文字生成方法的流程示意图;
图5是本发明实施例提供的第五种文字生成方法的流程示意图;
图6是本申请实施例提供的一种文字生成装置的结构示意图;
图7示出了本发明实施例提供的文字生成设备的硬件结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本发明,而不是限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
随着文字显示法技术的发展,越来越多个性化字体应运而生。比如,卡通体、手写体等。其中,手写体是一种使用硬笔或者软笔纯手工写出的文字。在计算机处理技术中,手写体可以理解为模仿人工手写字体的一种字体。如何生成手写字体称为了手写体技术发展方向之一。
在一种相关技术中,在需要获取手写体文字时,可以从用户日志中提取手写体数据。然而,能够提取的都是常见文字的手写体数据。对于生僻字数据,由于其使用频次特别低,或者用户从未使用过,需要通过人工输入生僻字的方式来进行采集。
然而,人工输入生僻字的方式速度较慢,且往往受限于人工经验,无法对所有的生僻字进行输入,往往存在疏漏。利用人工输入生僻字的方式整体输入效率较低。
因此,需要一种能够提高获取手写体生僻字效率的输入方法。
本申请实施例提供了一种文字生成方案,可以应用于生成手写体生僻字的场景中。示例性地,可以应用于将其他字体转换为手写体字体的具体场景中。另一示例性地,可以应用于将用户基于除手写之外的其他输入方式输入的文字显示手写体文字的具体场景中。又一示例性地,可以应用于训练手写体识别模型的训练数据的具体场景中。在本申请实施例中,可以将生僻字拆分成多个组成部件,再确定各组成部件的手写体部件。然后利用各组成部件的手写体部件组合成手写体生僻字。由于生僻字的组成部件较为常见,可以较为简单的获取到该组成部件对应的手写体部件,并利用手写体部件组成生僻字。相较于人工输入手写体生僻字的方式,提高了生成手写体生僻字的效率。
首先,为了更好的理解本申请,本申请实施例对常用字、生僻字、等概念作具体解释说明。
一、常用字。常用字是指中文中经常用到的汉字。在一些实施例中,常用字可以指常见字标准中规定的汉字。示例性地,可以是现代汉语常用字表中示出的常用字。另一示例性地,常用字字形表中示出的常用字。又一示例性地,可以是常用国字标准字体表中示出的常用字。比如,“风”、“打”、“价”等汉字。
二、生僻字。生僻字可以是相对常用字而言的一种不常见或者人们不熟悉的汉字。比如“犇”、“昍”、“吂”或者“劼”等汉字。、
申请人通过对大量生僻字研究和分析后,发现生僻字往往是由常见的组件等构成的。比如“犇”字,其是由三个“牛”组成的。又比如“吂”字,其是由“亡”和“口”组成的。因此,可以获取“牛”、“亡”或“口”等组件的手写体之后,可以通过组合拼接的方式获取生僻字“犇”和“吂”的手写体。
下面将结合附图对本申请实施例提供的文字生成方法展开具体说明。
图1是本发明实施例提供的第一种文字生成方法的流程示意图。如图1所示,文字生成方法包括步骤S110至S130。
S110,确定生僻字的多个组成部件。
首先,对于生僻字。在一些实施例中,其可以是用户输入的生僻字。比如,可以是用户通过除手写输入之外的其他输入方法输入的生僻字。在另一些实施例,可以是从生僻字大全、字典或者生僻字表等汉字集合中获取的生僻字。
其次,对于组成部件,其可以是指汉字的构字部件。在一些实施例中,组成部件可以包括:笔画、偏旁部首、常见字中的至少一种。在一个实施例中,组成部件可以是汉字中的偏旁部首。比如“把”字可以包括“扌”和“巴”两个偏旁,“盆”字的组成部件可以包括“分”和“皿”两个偏旁,“闷”字可以包括“门”和“心”两个偏旁。在另一个实施例中,组成部件可以包括汉字中的常见字和/或偏旁部首。比如,“劼”的组成部件可以包括“吉”字和“力”字。在本实施例中,将生僻字拆分为常见字,相较于拆分成偏旁部首的方案,能够进一步提高生僻字的生成效率。
在一些实施例中,可以利用预先训练的部件识别模型来确定生僻字的组成部件。具体地,可以将生僻字输入预先训练的部件识别模型,得到该生僻字的组成部件。
具体地,可以将常用字作为训练数据,将常用字的组件作为训练标签,来对部件识别模型进行训练。
在另一些实施例中,可以提前将组成部件作为部件模板,在输入生僻字之后,可以利用与部件模板相匹配的方式来确定生僻字的组成部件。比如,对于“吂”字,若判断其与部件模板“亡”和部件模板“口”相匹配,则可以确定其组成部件包括“亡”和“口”。
在又一些实施例中,可以对生僻字的笔画进行多种组合,每种组合中包括由笔画组成的多个疑似组成部件。若其中一种组合中的多个疑似部件均为偏旁部首或者是常见字,则确定该中组合中的多个疑似部件为该生僻字的组成部件。比如“犇”字,在第一种组合中其可以包括:“丿”、“一”、“丨”等疑似部件,在另一种组合中其包括:三个“牛”,则将三个“牛”确定为“犇”字的组成部件。
在一个实施例中,可能多个组合中的意思部件均为偏旁部件或者常见字,则可以根据数量和疑似部件的包含关系进行选择。比如“昍”字,在第一种组合中其包括两个“口”和两个“一”。在第二种组合中其包括两个“日”。由于在第二种组合中仅包括两个部件,且部件“日”包含“一”和“口”。所以可以确定“昍”字的组成部件包括两个部件。
S120,从预设手写体部件中,获取分别与多个组成部件一一对应的多个手写体部件。
首先,对于预设手写体部件,其是从手写体常用字中提取得到的。在一些实施例中,手写体常用字可以是从手写体字库中获取的。在另一些实施例中,可以是用户输入的手写体常用字。在一个示例中,为了实现用户个性化输入,针对每一用户,可以提取其隶属输入的手写体汉字,以便于生成与该用户手写文字相似度较高的生僻字。具体地,可以从该用户的用户日志中提取该用户历史输入的手写字。在另一个示例中,为了提高本申请实施例的通用性,可以提取多个用户的手写字,并利用不同用户的手写字,得到通用的手写体部件。
其次,对于S120,若生僻字包括n个组成部件,分别为组成部件A1、……、An,则可以分别确定A1的手写体部件a1、……、An的手写体部件an。其中,n为任意正整数。作一个示例,对于“吂”字的组成部件“亡”和“口”。可以从预设手写体部件中确定“亡”对应的手写体,以及“口”对应的手写体。
S130,按照生僻字的文字结构,对多个手写体部件进行组合,组合得到生僻字对应的手写体生僻字。
首先,对于生僻字的文字结构,其可以表示各组成部件在生僻字中的方位。具体地,生僻字的文字结构可以包括:(1)、左右结构,比如“牀”、“牞”等;(2)上下结构,比如“毘”、“芘”等;(3)全包围结构,比如“圁”、“囜”等;(4)坐上包围结构:比如“庇”、“扃”等。需要说明的是,生僻字还可以是其他文字结构,比如上中下结构、镶嵌结构等,本申请实施例对此不作限定。
其次,对于S130的具体实施方式,由于生僻字的文字结构与手写体生僻字的文字结构相似。可以根据各组成部件在生僻字中的方位,对各组成部件的手写体部件进行组合,得到手写体生僻字。示例性地。对于“劼”字,可以将组成部件“士”对应的手写体部件放置于左上部分,将组成部件“口”对应的手写体部件放置于左下部分,将“力”对应的手写体部件放置于右部。
根据本申请实施例的文字生成方法,能够从用户输入的手写体常用字中提取生僻字的手写体部件,然后利用手写体部件组合得到手写体生僻字,相较于人工输入手写体生僻字的方式,提高了生成手写体生僻字的效率。
此外,相较于人工输入手写体生僻字的方式,无需花费大量的人力,且无需花费大量时间,节省了生成手写体生僻字的成本。
在一些实施例中,为了提高生成的手写体生僻字与人工书写的生僻字之间的相似度,在S130中可以按照各手写体部件的位置和各部件之间的距离对其进行组合。
相应地,图2是本申请实施例提供的第二种文字生成方法的流程示意图。图2与图1的不同之处在于,图1中的S130可以具体包括图2中的步骤S131和S132。
S131,基于生僻字的文字结构,在生僻字中确定多个手写体部件各自的位置。
针对S131,示例性地,由于多个组成部件之间可能存在着多种组合方式,比如“口”和“台”,可以组合成“咍”字,又可以组合成“囼”。因此,需要先确定各手写体部件各自的位置,再对其进行组合,以提高生僻字的准确性。
S132,将多个手写体部件设置在各自的位置上,并将多个手写体部件中相邻的手写体部件之间的距离设置为预设距离,组合得到生僻字对应的手写体生僻字。
在S132中,对于预设距离,其可以根据实际场景和具体需求进行设置,对此不作限定。在一些实施例中,可以根据手写体部件的大小确定相邻手写体部件之间的距离。
通过S131和S132,可以避免手写体部件重叠、没对齐以及离得远等情况的出现,提高了生成的手写体生僻字与人工书写的生僻字之间的相似度。
在另一些实施例中,图3是本申请实施例提供的第三种文字生成方法的流程示意图。图3与图1的不同之处在于,图1中的S130可以具体包括图2中的步骤S133至S135。
S133,基于目标生僻字的文字结构,在生僻字中确定多个手写体部件各自的位置和目标尺寸。
在S133中,出于美观程度考虑,同一手写体部件放置在不同的位置,可以设置为不同的目标尺寸。比如,“山”,当其作为生僻字的左偏旁时,可以较为“高瘦”,当其作为生僻字的上部首时,可以较为“矮长”。
在一些实施例中,可以根据常用字中各手写体部件的尺寸或者比例,来确定各手写体部件位于不同位置时的尺寸。
S134,将多个手写体部件的尺寸调整为各自的目标尺寸。
S135,将调整后的多个手写体部件设置在各自的位置上,并将多个手写体部件中相邻的手写体部件之间的距离设置为预设距离,组合得到生僻字对应的手写体生僻字。
其中,S135的具体实施方式可以参见S132的相关说明,在此不再赘述。
通过本实施例,可以按照手写体部件在生僻字中的位置,为其设置不同的尺寸,进一步提高了生成的手写体生僻字与人工书写的生僻字之间的相似度,整体上提高了手写体生僻字的美观程度。
在又一些实施例中,为了提高手写体生僻字的美观程度,可以基于书写习惯,将相邻的手写体部件中前一手写体部件的最后一笔与后一手写体部件的第一笔相连。
在详细介绍了手写体生僻字的生成方法之后,在一些实施例中,本申请实施例提供的文字生成方法还包括生成预设手写体部件的步骤。
本申请实施例的下述部分将结合图4对生成预设手写体部件的步骤展开具体说明。
在一些实施例中,图4是本申请实施例提供的第四种文字生成方法的流程示意图。图4与图1的不同之处在于,图4中还可以步骤S140和S150。
S140,接收用户输入的手写体常用字。
在一些实施例中,可以是从用户日志中提取的手写体常用字。具体地,用户在虚拟键盘的手写体模式输入手写字之后,会将用户输入的手写字的数据存储入用户日志。从用户日志提取手写体常用字,可以同批次获取大量的数据。
S150,对手写体常用字的笔画进行遍历,遍历得到手写体常用字中的手写体部件,得到预设手写体部件。
具体地,S150的具体实施方式可以参照S120的相关内容,在此不再赘述。通过遍历的方式,可以准确的获取手写体常见字中的手写体部件。
在一些实施例中,为了便于后续生成生僻字的过程,在得到预设手写部件之后,可以将多个手写体部件缩放成统一尺寸。
在一些实施例中,本申请实施例还可以利用手写体生僻字来训练手写体识别模型。图5是本申请实施例提供的第五种文字生成方法的流程示意图。图5与图1的不同之处在于,图5中还可以步骤S160。
S160,利用手写体生僻字,训练手写体识别模型。
在S160中,可以将手写体生僻字作为训练数据,将生僻字作为标签来训练手写体识别模型。
具体地,可以将手写体生僻字输入待训练的手写体识别模型,得到识别结果。基于识别结果和该生僻字,判断是否满足预设的训练停止条件。在不满足预设的训练停止条件的情况下,利用识别结果和该生僻字,调整手写体识别模型的模型参数。直到满足预设的训练停止条件,得到训练后的手写体识别模型。
在一些实施例中,还可以利用手写体常见字来训练该手写体识别模型。
需要说明的是,由于通过S110至S130可以生成大量生僻字,相较于人工输入生僻字的方式,提高了手写体识别模型的训练数据量,从而提高了手写体识别模型的识别精度。
基于相同的申请构思,本申请实施例除了提供了文字生成方法之外,还提供了与之对应的文字生成装置。
下面结合附图,详细介绍根据本申请实施例文字生成装置。
图6是本申请实施例提供的一种文字生成装置的结构示意图。如图6所示,文字生成装置600包括组件确定模块610、部件获取模块620和文字生成模块630。
组件确定模块610,用于确定生僻字的多个组成部件。
部件获取模块620,用于从预设手写体部件中,获取分别与多个组成部件一一对应的多个手写体部件。其中,预设手写体部件是从手写体常用字中提取得到的。
文字生成模块630,用于按照生僻字的文字结构,对多个手写体部件进行组合,组合得到生僻字对应的手写体生僻字。
在一些实施例中,文字生成装置600还包括:接收模块和部件生成模块。
接收模块,用于接收用户输入的手写体常用字。
部件生成模块,用于对手写体常用字的笔画进行遍历,遍历得到手写体常用字中的手写体部件,得到预设手写体部件。
在一些实施例中,文字生成模块630具体包括:
确定单元,用于基于生僻字的文字结构,在生僻字中确定多个手写体部件各自的位置。
组合单元,用于将多个手写体部件设置在各自的位置上,并将多个手写体部件中相邻的手写体部件之间的距离设置为预设距离,组合得到生僻字对应的手写体生僻字。
在一些实施例中,文字生成模块630具体包括:
确定单元,用于基于目标生僻字的文字结构,在生僻字中确定多个手写体部件各自的位置和目标尺寸。
调整单元,用于将多个手写体部件的尺寸调整为各自的目标尺寸;
组合单元,用于将调整后的多个手写体部件设置在各自的位置上,并将多个手写体部件中相邻的手写体部件之间的距离设置为预设距离,组合得到生僻字对应的手写体生僻字。
在一些实施例中,文字生成装置600还包括训练模块。
训练模块,用于利用手写体生僻字,训练手写体识别模型。
本申请实施例的文字生成装置,能够从用户输入的手写体常用字中提取生僻字的手写体部件,然后利用手写体部件组合得到手写体生僻字,相较于人工输入手写体生僻字的方式,提高了生成手写体生僻字的效率。
根据本申请实施例的文字生成装置的其他细节,与以上结合图1至图5所示实例描述的文字生成方法类似,并能达到其相应的技术效果,为简洁描述,在此不再赘述。
图7示出了本发明实施例提供的文字生成设备的硬件结构示意图。
在文字生成设备可以包括处理器701以及存储有计算机程序指令的存储器702。
具体地,上述处理器701可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器702可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器702可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器702可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器702可在文字生成设备的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本公开的一方面的方法所描述的操作。
处理器701通过读取并执行存储器702中存储的计算机程序指令,以实现上述实施例中的任意一种文字生成方法。
在一个示例中,文字生成设备还可包括通信接口703和总线710。其中,如图7所示,处理器701、存储器702、通信接口703通过总线710连接并完成相互间的通信。
通信接口703,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线710包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线710可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
该文字生成设备可以执行本发明实施例中的文字生成方法,从而实现结合图1至图6描述的文字生成方法和装置。
另外,结合上述实施例中的文字生成方法,本发明实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种文字生成方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
上面参考根据本公开的实施例的方法、装置、设备及和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种文字生成方法,其特征在于,包括:
确定生僻字的多个组成部件;
从预设手写体部件中,获取分别与所述多个组成部件一一对应的多个手写体部件,其中,所述预设手写体部件是从手写体常用字中提取得到的;
按照所述生僻字的文字结构,对所述多个手写体部件进行组合,组合得到所述生僻字对应的手写体生僻字。
2.根据权利要求1所述的方法,其特征在于,在所述从预设手写体部件中,获取分别与所述多个组成部件一一对应的多个手写体部件之前,所述方法还包括:
接收用户输入的手写体常用字;
对所述手写体常用字的笔画进行遍历,遍历得到所述手写体常用字中的手写体部件,得到所述预设手写体部件。
3.根据权利要求1所述的方法,其特征在于,所述按照所述生僻字的文字结构,对所述多个手写体部件进行组合,组合得到所述生僻字对应的手写体生僻字,具体包括:
基于所述生僻字的文字结构,在所述生僻字中确定所述多个手写体部件各自的位置;
将所述多个手写体部件设置在各自的位置上,并将所述多个手写体部件中相邻的手写体部件之间的距离设置为预设距离,组合得到所述生僻字对应的手写体生僻字。
4.根据权利要求1所述的方法,其特征在于,所述按照所述生僻字的文字结构,对所述多个手写体部件进行组合,组合得到手写体生僻字,具体包括:
基于所述目标生僻字的文字结构,在所述生僻字中确定所述多个手写体部件各自的位置和目标尺寸;
将所述多个手写体部件的尺寸调整为各自的目标尺寸;
将调整后的所述多个手写体部件设置在各自的位置上,并将所述多个手写体部件中相邻的手写体部件之间的距离设置为预设距离,组合得到所述生僻字对应的手写体生僻字。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
利用所述手写体生僻字,训练手写体识别模型。
6.一种文字生成装置,其特征在于,所述装置包括:
组件确定模块,用于确定生僻字的多个组成部件;
部件获取模块,用于从预设手写体部件中,获取分别与所述多个组成部件一一对应的多个手写体部件,其中,所述预设手写体部件是从手写体常用字中提取得到的;
文字生成模块,用于按照所述生僻字的文字结构,对所述多个手写体部件进行组合,组合得到所述生僻字对应的手写体生僻字。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
接收模块,用于接收用户输入的手写体常用字;
部件生成模块,用于对所述手写体常用字的笔画进行遍历,遍历得到所述手写体常用字中的手写体部件,得到所述预设手写体部件。
8.根据权利要求6所述的装置,其特征在于,所述文字生成模块,具体包括:
确定单元,用于基于所述生僻字的文字结构,在所述生僻字中确定所述多个手写体部件各自的位置;
组合单元,用于将所述多个手写体部件设置在各自的位置上,并将所述多个手写体部件中相邻的手写体部件之间的距离设置为预设距离,组合得到所述生僻字对应的手写体生僻字。
9.一种文字生成设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-5任意一项所述的文字生成方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-5任意一项所述的文字生成方法。
CN202011639960.4A 2020-12-31 2020-12-31 文字生成方法、装置、设备及介质 Pending CN112632979A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011639960.4A CN112632979A (zh) 2020-12-31 2020-12-31 文字生成方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011639960.4A CN112632979A (zh) 2020-12-31 2020-12-31 文字生成方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN112632979A true CN112632979A (zh) 2021-04-09

Family

ID=75290139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011639960.4A Pending CN112632979A (zh) 2020-12-31 2020-12-31 文字生成方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112632979A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104932709A (zh) * 2015-06-08 2015-09-23 惠州Tcl移动通信有限公司 一种电子设备及其智能输入法
CN104978045A (zh) * 2015-05-27 2015-10-14 腾讯科技(深圳)有限公司 一种汉字输入方法及装置
CN107329584A (zh) * 2017-06-20 2017-11-07 努比亚技术有限公司 一种文字输入处理方法、移动终端以及计算机可读存储介质
CN109086652A (zh) * 2018-06-04 2018-12-25 平安科技(深圳)有限公司 手写字模型训练方法、汉字识别方法、装置、设备及介质
CN110489724A (zh) * 2019-03-13 2019-11-22 北京壹人壹本信息科技有限公司 手写字体的合成方法、移动终端及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104978045A (zh) * 2015-05-27 2015-10-14 腾讯科技(深圳)有限公司 一种汉字输入方法及装置
CN104932709A (zh) * 2015-06-08 2015-09-23 惠州Tcl移动通信有限公司 一种电子设备及其智能输入法
CN107329584A (zh) * 2017-06-20 2017-11-07 努比亚技术有限公司 一种文字输入处理方法、移动终端以及计算机可读存储介质
CN109086652A (zh) * 2018-06-04 2018-12-25 平安科技(深圳)有限公司 手写字模型训练方法、汉字识别方法、装置、设备及介质
CN110489724A (zh) * 2019-03-13 2019-11-22 北京壹人壹本信息科技有限公司 手写字体的合成方法、移动终端及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
顾翼等: "基于结构知识的手写体汉字合成方法", 《计算机工程》 *

Similar Documents

Publication Publication Date Title
CN110765996A (zh) 文本信息处理方法及装置
US10242296B2 (en) Method and device for realizing chinese character input based on uncertainty information
US9286527B2 (en) Segmentation of an input by cut point classification
CN108280173B (zh) 一种非结构化文本的关键信息挖掘方法、介质及设备
CN113408535B (zh) 一种基于中文字符级特征和语言模型的ocr纠错方法
CN110738997B (zh) 一种信息修正方法、装置、电子设备及存储介质
CN104239289B (zh) 音节划分方法和音节划分设备
CN104915420B (zh) 知识库数据处理方法及系统
CN109284503B (zh) 翻译语句结束判断方法与系统
CN105117740A (zh) 字体识别方法及装置
EP3913533A2 (en) Method and apparatus of processing image device and medium
CN112699780A (zh) 对象识别方法、装置、设备及存储介质
CN107491441B (zh) 一种基于强制解码的动态抽取翻译模板的方法
CN112632979A (zh) 文字生成方法、装置、设备及介质
CN108920560B (zh) 生成方法、训练方法、装置、计算机可读介质及电子设备
CN113687830B (zh) 可视化界面生成方法、系统及计算机存储介质
CN116110066A (zh) 票据文本的信息提取方法、装置、设备及存储介质
CN116092066A (zh) 文本识别方法、装置、设备、介质及产品
CN115393865A (zh) 文字检索方法、设备以及计算机可读存储介质
CN111382322B (zh) 字符串相似度的确定方法和装置
CN115700519A (zh) 一种文本到图像的生成方法、装置、存储介质及终端
CN108021918B (zh) 文字识别方法及装置
CN111914863A (zh) 目标检测方法、装置、终端设备及计算机可读存储介质
CN117217179A (zh) 文本的生成方法、装置、设备及介质
CN117708337B (zh) 一种面向复杂定域的人机交互方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210409