CN112417839A

CN112417839A - emoji和文字混排的方法、装置、电子设备及计算机存储介质

Info

Publication number: CN112417839A
Application number: CN202011115440.3A
Authority: CN
Inventors: 费腾
Original assignee: Shanghai Chenxing Software Technology Co ltd
Current assignee: Shanghai Chenxing Software Technology Co ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-02-26

Abstract

本申请提供了一种emoji和文字混排的方法、装置、电子设备及计算机存储介质。该方法，将待识别笔迹输入目标二分类器，分别得到待识别笔迹是文字的第一概率和待识别笔迹是emoji的第二概率；将待识别笔迹输入预设的文字识别模型，得到待识别笔迹对应所有文字的第三概率；将待识别笔迹输入emoji识别模型，得到待识别笔迹对应所有emoji的第四概率；其中，emoji识别模型是利用emoji训练样本集进行模型训练得到的；基于第一概率和所有文字的第三概率，分别确定各个文字的第一综合概率；基于第二概率和所有emoji的第四概率，分别确定各个emoji的第二综合概率；基于第一综合概率和第二综合概率，对文字和emoji进行混排。根据本申请实施例，能够提高emoji和文字混排的效率和准确率。

Description

emoji和文字混排的方法、装置、电子设备及计算机存储介质

技术领域

本申请属于输入法手写识别技术领域，尤其涉及一种emoji和文字混排的方法、装置、电子设备及计算机存储介质。

背景技术

目前，在实现emoji和文字混排时，需要将emoji和文字一起识别，故需要训练一个同时能够识别emoji和文字的模型。在训练该模型前，需要采集大量的emoji和文字数据作为训练集，但采集大量的emoji数据比较困难，只能通过人工输入方式采集，需要花费大量的人力和时间，效率低下且训练出的模型识别精度不高，导致emoji和文字混排的效率和准确率低。

因此，如何提高emoji和文字混排的效率和准确率是本领域技术人员亟需解决的技术问题。

发明内容

本申请实施例提供一种emoji和文字混排的方法、装置、电子设备及计算机存储介质，能够提高emoji和文字混排的效率和准确率。

第一方面，本申请实施例提供一种emoji和文字混排的方法，包括：

将待识别笔迹输入预设的目标二分类器，分别得到待识别笔迹是文字的第一概率和待识别笔迹是emoji的第二概率；其中，目标二分类器为emoji和文字的二分类器；

将待识别笔迹输入预设的文字识别模型，得到待识别笔迹对应所有文字的第三概率；

将待识别笔迹输入预设的emoji识别模型，得到待识别笔迹对应所有emoji的第四概率；其中，emoji识别模型是利用emoji训练样本集进行模型训练得到的；

基于第一概率和所有文字的第三概率，分别确定各个文字的第一综合概率；

基于第二概率和所有emoji的第四概率，分别确定各个emoji的第二综合概率；

基于第一综合概率和第二综合概率，对文字和emoji进行混排。

可选的，在将待识别笔迹输入预设的emoji识别模型，得到待识别笔迹对应所有emoji的第四概率之前，方法还包括：

采集emoji训练样本集；

利用emoji训练样本集进行模型训练，得到emoji识别模型。

可选的，在将待识别笔迹输入预设的目标二分类器，分别得到待识别笔迹是文字的第一概率和待识别笔迹是emoji的第二概率之前，方法还包括：

采集包含文字和emoji的混合数据；

利用混合数据进行模型训练，得到目标二分类器。

可选的，基于第一综合概率和第二综合概率，对文字和emoji进行混排，包括：

确定各个第一综合概率和第二综合概率的大小顺序；

依据大小顺序，对文字和emoji进行混排。

第二方面，本申请实施例提供了一种emoji和文字混排的装置，包括：

第一获取模块，用于将待识别笔迹输入预设的目标二分类器，分别得到待识别笔迹是文字的第一概率和待识别笔迹是emoji的第二概率；其中，目标二分类器为emoji和文字的二分类器；

第二获取模块，用于将待识别笔迹输入预设的文字识别模型，得到待识别笔迹对应所有文字的第三概率；

第三获取模块，用于将待识别笔迹输入预设的emoji识别模型，得到待识别笔迹对应所有emoji的第四概率；其中，emoji识别模型是利用emoji训练样本集进行模型训练得到的；

第一确定模块，用于基于第一概率和所有文字的第三概率，分别确定各个文字的第一综合概率；

第二确定模块，用于基于第二概率和所有emoji的第四概率，分别确定各个emoji的第二综合概率；

混排模块，用于基于第一综合概率和第二综合概率，对文字和emoji进行混排。

可选的，该装置还包括：

第一采集模块，用于采集emoji训练样本集；

第一模型训练模块，用于利用emoji训练样本集进行模型训练，得到emoji识别模型。

可选的，该装置还包括：

第二采集模块，用于采集包含文字和emoji的混合数据；

第二模型训练模块，用于利用混合数据进行模型训练，得到目标二分类器。

可选的，混排模块，包括：

确定单元，用于确定各个第一综合概率和第二综合概率的大小顺序；

混排单元，用于依据大小顺序，对文字和emoji进行混排。

第三方面，本申请实施例提供了一种电子设备，电子设备包括：处理器以及存储有计算机程序指令的存储器；

处理器执行计算机程序指令时实现如第一方面所示的emoji和文字混排的方法。

第四方面，本申请实施例提供了一种计算机存储介质，计算机存储介质上存储有计算机程序指令，计算机程序指令被处理器执行时实现如第一方面所示的emoji和文字混排的方法。

本申请实施例的emoji和文字混排的方法、装置、电子设备及计算机存储介质，能够提高emoji和文字混排的效率和准确率。该emoji和文字混排的方法，利用单独的emoji识别模型对待识别笔迹中的所有emoji进行识别，由于该emoji识别模型是利用emoji训练样本集进行模型训练得到的，故能够提高emoji和文字混排的效率和准确率。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单的介绍，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个实施例提供的emoji和文字混排的方法的流程示意图；

图2是本申请一个实施例提供的emoji和文字混排的装置的结构示意图；

图3是本申请一个实施例提供的电子设备的结构示意图。

具体实施方式

下面将详细描述本申请的各个方面的特征和示例性实施例，为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及具体实施例，对本申请进行进一步详细描述。应理解，此处所描述的具体实施例仅意在解释本申请，而不是限定本申请。对于本领域技术人员来说，本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

为了解决现有技术问题，本申请实施例提供了一种emoji和文字混排的方法、装置、电子设备及计算机存储介质。下面首先对本申请实施例所提供的emoji和文字混排的方法进行介绍。

图1示出了本申请一个实施例提供的emoji和文字混排的方法的流程示意图。如图1所示，该emoji和文字混排的方法包括如下步骤：

S101、将待识别笔迹输入预设的目标二分类器，分别得到待识别笔迹是文字的第一概率和待识别笔迹是emoji的第二概率；其中，目标二分类器为emoji和文字的二分类器。

在一个实施例中，在将待识别笔迹输入预设的目标二分类器，分别得到待识别笔迹是文字的第一概率和待识别笔迹是emoji的第二概率之前，方法还包括：

采集包含文字和emoji的混合数据；

利用混合数据进行模型训练，得到目标二分类器。

S102、将待识别笔迹输入预设的文字识别模型，得到待识别笔迹对应所有文字的第三概率。

S103、将待识别笔迹输入预设的emoji识别模型，得到待识别笔迹对应所有emoji的第四概率；其中，emoji识别模型是利用emoji训练样本集进行模型训练得到的。

在一个实施例中，在将待识别笔迹输入预设的emoji识别模型，得到待识别笔迹对应所有emoji的第四概率之前，方法还包括：

采集emoji训练样本集；

利用emoji训练样本集进行模型训练，得到emoji识别模型。

S104、基于第一概率和所有文字的第三概率，分别确定各个文字的第一综合概率。

S105、基于第二概率和所有emoji的第四概率，分别确定各个emoji的第二综合概率。

S106、基于第一综合概率和第二综合概率，对文字和emoji进行混排。

在一个实施例中，基于第一综合概率和第二综合概率，对文字和emoji进行混排，包括：

确定各个第一综合概率和第二综合概率的大小顺序；

依据大小顺序，对文字和emoji进行混排。

该emoji和文字混排的方法，利用单独的emoji识别模型对待识别笔迹中的所有emoji进行识别，由于该emoji识别模型是利用emoji训练样本集进行模型训练得到的，故能够提高emoji和文字混排的效率和准确率。

下面以一个具体场景实施例对上述内容进行说明。该实施例包括如下步骤：

(1)单独训练一个手写emoji识别模型，输入是手写的emoji笔迹，输出是所有emoji的概率分布。具体方法如下：

(1.1)准备手写emoji数据，可以人工采集一批emoji数据，手写笔迹对应某个emoji，每个emoji表情可以是100个；

(1.2)用准备好的数据训练手写emoji模型。

(2)训练一个汉字和emoji的二分类器，输入是手写笔迹(汉字笔迹或是emoji笔迹)，输出是该笔迹对应的汉字和emoji的概率。具体方法如下：

(2.1)准备好一批手写汉字和emoji的混合数据；

(2.2)用准备好的数据训练二分类器。

(3)将汉字和emoji的输出结果进行混排，一共有三个模型：汉字和emoji的二分类器、汉字识别模型、emoji识别模型。具体方法如下：

(3.1)将笔迹作为输入，通过二分类器可以分别得到该笔迹是汉字的概率Phz和emoji的概率Pemoji；

(3.2)同样是将该笔迹作为输入，分别通过汉字识别模型和emoji识别模型，可以分别得到该笔迹对应所有汉字的概率PhzI和所有emoji的概率PemojiJ，其中I的范围是所有汉字，J的范围是所有emoji；

(3.3)计算综合得分，属于具体某个汉字的概率是Phz*Phzi，i属于I，属于某个emoji的概率是Pemoji*Pemojij，j属于J；

(3.4)按照上面的综合得分进行排序，实现了汉字与emoji的混排。

该实施例提供的方法相比于现有技术，既能节省掉大量人力和时间，而且能够使得手写模型识别更加精准。

图2是本申请一个实施例提供的emoji和文字混排的装置的结构示意图，如图2所示，该emoji和文字混排的装置，包括：

第一获取模块201，用于将待识别笔迹输入预设的目标二分类器，分别得到待识别笔迹是文字的第一概率和待识别笔迹是emoji的第二概率；其中，目标二分类器为emoji和文字的二分类器；

第二获取模块202，用于将待识别笔迹输入预设的文字识别模型，得到待识别笔迹对应所有文字的第三概率；

第三获取模块203，用于将待识别笔迹输入预设的emoji识别模型，得到待识别笔迹对应所有emoji的第四概率；其中，emoji识别模型是利用emoji训练样本集进行模型训练得到的；

第一确定模块204，用于基于第一概率和所有文字的第三概率，分别确定各个文字的第一综合概率；

第二确定模块205，用于基于第二概率和所有emoji的第四概率，分别确定各个emoji的第二综合概率；

混排模块206，用于基于第一综合概率和第二综合概率，对文字和emoji进行混排。

在一个实施例中，该装置还包括：

第一采集模块，用于采集emoji训练样本集；

在一个实施例中，该装置还包括：

第二采集模块，用于采集包含文字和emoji的混合数据；

在一个实施例中，混排模块206，包括：

混排单元，用于依据大小顺序，对文字和emoji进行混排。

图2所示装置中的各个模块/单元具有实现图1中各个步骤的功能，并能达到其相应的技术效果，为简洁描述，在此不再赘述。

图3示出了本申请实施例提供的电子设备的结构示意图。

电子设备可以包括处理器301以及存储有计算机程序指令的存储器302。

具体地，上述处理器301可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器302可包括硬盘驱动器(Hard Disk Drive，HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus，USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器302可在电子设备的内部或外部。在特定实施例中，存储器302可以是非易失性固态存储器。

在一个实例中，存储器302可以是只读存储器(Read Only Memory，ROM)。在一个实例中，该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。

处理器301通过读取并执行存储器302中存储的计算机程序指令，以实现上述实施例中的任意一种emoji和文字混排的方法。

在一个示例中，电子设备还可包括通信接口303和总线310。其中，如图3所示，处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。

通信接口303，主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。

总线310包括硬件、软件或两者，将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制，总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种emoji和文字混排的方法。

需要明确的是，本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本申请的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本申请的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能模块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本申请中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本申请不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

上面参考根据本申请的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本申请的各方面。应当理解，流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器，以产生一种机器，使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解，框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合，也可以由执行指定的功能或动作的专用硬件来实现，或可由专用硬件和计算机指令的组合来实现。

以上所述，仅为本申请的具体实施方式，所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。应理解，本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

1.一种emoji和文字混排的方法，其特征在于，包括：

将待识别笔迹输入预设的目标二分类器，分别得到所述待识别笔迹是文字的第一概率和所述待识别笔迹是emoji的第二概率；其中，所述目标二分类器为emoji和文字的二分类器；

将所述待识别笔迹输入预设的文字识别模型，得到所述待识别笔迹对应所有文字的第三概率；

将所述待识别笔迹输入预设的emoji识别模型，得到所述待识别笔迹对应所有emoji的第四概率；其中，所述emoji识别模型是利用emoji训练样本集进行模型训练得到的；

基于所述第一概率和所有文字的所述第三概率，分别确定各个文字的第一综合概率；

基于所述第二概率和所有emoji的所述第四概率，分别确定各个emoji的第二综合概率；

基于所述第一综合概率和所述第二综合概率，对所述文字和所述emoji进行混排。

2.根据权利要求1所述的emoji和文字混排的方法，其特征在于，在所述将所述待识别笔迹输入预设的emoji识别模型，得到所述待识别笔迹对应所有emoji的第四概率之前，所述方法还包括：

采集所述emoji训练样本集；

利用所述emoji训练样本集进行模型训练，得到所述emoji识别模型。

3.根据权利要求1所述的emoji和文字混排的方法，其特征在于，在所述将待识别笔迹输入预设的目标二分类器，分别得到所述待识别笔迹是文字的第一概率和所述待识别笔迹是emoji的第二概率之前，所述方法还包括：

采集包含文字和emoji的混合数据；

利用所述混合数据进行模型训练，得到所述目标二分类器。

4.根据权利要求1所述的emoji和文字混排的方法，其特征在于，所述基于所述第一综合概率和所述第二综合概率，对所述文字和所述emoji进行混排，包括：

确定各个所述第一综合概率和所述第二综合概率的大小顺序；

依据所述大小顺序，对所述文字和所述emoji进行混排。

5.一种emoji和文字混排的装置，其特征在于，包括：

第一获取模块，用于将待识别笔迹输入预设的目标二分类器，分别得到所述待识别笔迹是文字的第一概率和所述待识别笔迹是emoji的第二概率；其中，所述目标二分类器为emoji和文字的二分类器；

第二获取模块，用于将所述待识别笔迹输入预设的文字识别模型，得到所述待识别笔迹对应所有文字的第三概率；

第三获取模块，用于将所述待识别笔迹输入预设的emoji识别模型，得到所述待识别笔迹对应所有emoji的第四概率；其中，所述emoji识别模型是利用emoji训练样本集进行模型训练得到的；

第一确定模块，用于基于所述第一概率和所有文字的所述第三概率，分别确定各个文字的第一综合概率；

第二确定模块，用于基于所述第二概率和所有emoji的所述第四概率，分别确定各个emoji的第二综合概率；

混排模块，用于基于所述第一综合概率和所述第二综合概率，对所述文字和所述emoji进行混排。

6.根据权利要求5所述的emoji和文字混排的装置，其特征在于，所述装置还包括：

第一采集模块，用于采集所述emoji训练样本集；

第一模型训练模块，用于利用所述emoji训练样本集进行模型训练，得到所述emoji识别模型。

7.根据权利要求5所述的emoji和文字混排的装置，其特征在于，所述装置还包括：

第二采集模块，用于采集包含文字和emoji的混合数据；

第二模型训练模块，用于利用所述混合数据进行模型训练，得到所述目标二分类器。

8.根据权利要求5所述的emoji和文字混排的装置，其特征在于，所述混排模块，包括：

确定单元，用于确定各个所述第一综合概率和所述第二综合概率的大小顺序；

混排单元，用于依据所述大小顺序，对所述文字和所述emoji进行混排。

9.一种电子设备，其特征在于，所述电子设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1-4任意一项所述的emoji和文字混排的方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-4任意一项所述的emoji和文字混排的方法。