CN110705233A

CN110705233A - 基于文字识别技术的笔记生成方法、装置和计算机设备

Info

Publication number: CN110705233A
Application number: CN201910828605.2A
Authority: CN
Inventors: 温桂龙
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2020-01-17
Anticipated expiration: 2039-09-03
Also published as: WO2021042505A1; CN110705233B

Abstract

本申请揭示了一种基于文字识别技术的笔记生成方法、装置、计算机设备和存储介质，所述方法包括：获取具有手写文字和印刷体文字的指定图片；若所述指定图片与所述指定终端前一次获取的图片不相似，则将所述指定图片中的手写文字和印刷体文字分别识别为手写文字文本和印刷体文字文本，以及提取所述指定图片中手写文字的特征数据；将所述特征数据输入基于神经网络模型训练完成的情绪识别模型，获得所述情绪识别模型输出的预测情绪类别；获取与所述预测情绪类别对应的目标文字排版类型；将所述印刷体文字文本和所述手写文字文本根据所述目标文字排版类型进行排版，生成所述手写笔记。提高信息的保全度。

Description

基于文字识别技术的笔记生成方法、装置和计算机设备

技术领域

本申请涉及到计算机领域，特别是涉及到一种基于文字识别技术的笔记生成方法、装置、计算机设备和存储介质。

背景技术

在对实体书籍进行阅读时，很大一部分人会有的笔记或者摘抄的习惯。对于这些具有手写笔记的实体书籍若能将其转换为更加合适编辑的数字文件文本的话，更利于用户后期的整理与编辑，有利于信息的理解与传播。现有技术一般只能将具有手写笔记的实体书籍进行机械识别，获得的文字文本一般不区分书籍原始记载内容与手写笔记，或者以图片形式保留手写文字(为了保全手写文字的全部信息)，再与印刷体文字拼接；从而造成信息丢失的问题，或者造成笔记生成需要消耗大量计算资源的问题。因此现有技术缺少完美的手写笔记生成的技术方案。

发明内容

本申请的主要目的为提供一种基于文字识别技术的笔记生成方法、装置、计算机设备和存储介质，旨在生成笔记时提高信息的保全度。

为了实现上述发明目的，本申请提出一种基于文字识别技术的笔记生成方法，应用于指定终端，包括：

获取具有手写文字和印刷体文字的指定图片；

利用预设的图片相似度判断方法，判断所述指定图片与所述指定终端前一次获取的图片是否相似；

若所述指定图片与所述指定终端前一次获取的图片不相似，则利用预设的文字识别技术将所述指定图片中的手写文字和印刷体文字分别识别为手写文字文本和印刷体文字文本，以及提取所述指定图片中手写文字的特征数据，其中所述特征数据至少包括所述手写文字中的重笔位置与重笔数量；

将所述特征数据输入基于神经网络模型训练完成的情绪识别模型，获得所述情绪识别模型输出的预测情绪类别，其中所述情绪识别模型基于预先采集的手写文字，以及与所述预先采集的手写文字关联的情绪类别组成的样本数据训练而成；

根据预设的情绪类别与文字排版类型的对应关系，获取与所述预测情绪类别对应的目标文字排版类型；

将所述印刷体文字文本和所述手写文字文本根据所述目标文字排版类型进行排版，生成所述笔记。

进一步地，所述利用预设的图片相似度判断方法，判断所述指定图片与所述指定终端前一次获取的图片是否相似的步骤,包括：

分别对所述指定图片与所述指定终端前一次获取的图片进行灰度化处理，得到第一灰度图片和第二灰度图片；

计算灰度图片的第m列或者第m行的所有像素点的灰度值的平均值Am，以及计算灰度图片中所有像素点的灰度值的平均值B；

根据公式：

计算灰度图片的第m列或者第m行的总体方差其中N为所述灰度图片中的列或者行的总数量；

根据公式:

获得所述第一灰度图片与所述第二灰度图片的第m列或者第m行的总体方差之差

其中，

为所述第一灰度图片的第m列或者第m行的总体方差，

为所述第二灰度图片的第m列或者第m行的总体方差；

判断

是否小于预设的方差误差阈值；

若

小于预设的方差误差阈值，则判定所述指定图片与所述指定终端前一次获取的图片相似。

依次对比所述指定图片与所述指定终端前一次获取的图片中对应的像素点，并统计相同像素点的数量；

根据公式：相同像素点占比＝所述相同像素点的数量/所述指定图片中所有像素点的数量，获得所述相同像素点占比；

判断所述相同像素点占比是否大于预设的占比阈值；

若所述相同像素点占比大于预设的占比阈值，则判定所述指定图片与所述指定终端前一次获取的图片相似。

进一步地，所述手写文字的颜色与所述印刷体文字的颜色不同，所述利用预设的文字识别技术将所述指定图片中的手写文字和印刷体文字分别识别为手写文字文本和印刷体文字文本的步骤,包括：

采集所述指定图片中的像素点的RGB颜色模型中的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值，并根据预设的三值化法将所述指定图片中的像素点的RGB颜色设置为(0,0,0)、(255,255,255)或者(P,P,P),其中P为大于0且小于255的预设数值，获得由三种颜色构成的暂时图片；

计算三种颜色在所述暂时图片中所占面积，并对面积较小的两种颜色的所占区域分别采用预设的文字分割方法，获得分割开的单个手写文字和分割开的单个印刷体文字；

提取所述单个手写文字的文字特征和所述单个印刷体文字的文字特征，并输入预设的支持向量机中进行分类，获得识别而得的手写文字文本和印刷体文字文本。

进一步地，所述采集所述指定图片中的像素点的RGB颜色模型中的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值，并根据预设的三值化法将所述指定图片中的像素点的RGB颜色设置为(0,0,0)、(255,255,255)或者(P,P,P)的步骤,包括：

采集所述指定图片中的像素点的RGB颜色模型中的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值，并根据公式：F1＝MIN{ROUND[(a1R+a2G+a3B)/L,0],A}，获取参考数值F1，其中MIN为最小值函数，ROUND为四舍五入函数，a1、a2、a3均为大于0且小于L的正数，L为大于0的整数，A为预设的取值在范围(0,255)之内第一阈值参数，R、G、B分别为所述指定图片中的指定像素点的RGB颜色模型中的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值；

判断所述参考数值F1的值是否等于A；

若所述参考数值F1的值不等于A，则根据公式：F2＝MAX{ROUND[(a1R+a2G+a3B)/L,0],B}，获取参考数值F2，其中MIN为最大值函数，B为预设的取值在范围(0,255)之内第二阈值参数，并且B大于A；

判断所述参考数值F2的值是否等于B；

若所述参考数值F2的值不等于B，则将所述指定像素点的RGB颜色设置为(255,255,255)。

进一步地，所述将所述特征数据输入基于神经网络模型训练完成的情绪识别模型，获得所述情绪识别模型输出的预测情绪类别，其中所述情绪识别模型基于预先采集的手写文字，以及与所述预先采集的手写文字关联的情绪类别组成的样本数据训练而成的步骤之前，包括：

调取预先采集的样本数据，并将样本数据分成训练集和测试集；其中，所述样本数据包括预先采集的手写文字，以及与所述预先采集的手写文字关联的情绪类别；

将训练集的样本数据输入到预设的神经网络模型中进行训练，得到初始情绪识别模型，其中，训练的过程中采用随机梯度下降法；

利用测试集的样本数据验证所述初始情绪识别模型；

若所述初始情绪识别模型验证通过，则将所述初始情绪识别模型记为所述情绪识别模型。

进一步地，所述将所述印刷体文字文本和所述手写文字文本根据所述目标文字排版类型进行排版，生成所述笔记的步骤之后,包括：

接收第二终端发送的获取手写笔记的获取请求，其中所述获取请求记载有所述第二终端支持的阅读格式；

判断所述阅读软件的阅读格式是否能够展示所述笔记；

若所述阅读软件的阅读格式能够展示所述笔记，则将所述笔记发送给所述第二终端。

本申请提供一种基于文字识别技术的笔记生成装置，应用于指定终端，包括：

指定图片获取单元，用于获取具有手写文字和印刷体文字的指定图片；

相似度判断单元，用于利用预设的图片相似度判断方法，判断所述指定图片与所述指定终端前一次获取的图片是否相似；

特征数据获取单元，用于若所述指定图片与所述指定终端前一次获取的图片不相似，则利用预设的文字识别技术将所述指定图片中的手写文字和印刷体文字分别识别为手写文字文本和印刷体文字文本，以及提取所述指定图片中手写文字的特征数据，其中所述特征数据至少包括所述手写文字中的重笔位置与重笔数量；

预测情绪类别获取单元，用于将所述特征数据输入基于神经网络模型训练完成的情绪识别模型，获得所述情绪识别模型输出的预测情绪类别，其中所述情绪识别模型基于预先采集的手写文字，以及与所述预先采集的手写文字关联的情绪类别组成的样本数据训练而成；

排版类型获取单元，用于根据预设的情绪类别与文字排版类型的对应关系，获取与所述预测情绪类别对应的目标文字排版类型；

排版单元，用于将所述印刷体文字文本和所述手写文字文本根据所述目标文字排版类型进行排版，生成所述笔记。

本申请提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

本申请提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

本申请的基于文字识别技术的笔记生成方法、装置、计算机设备和存储介质，利用情绪识别模型识别出笔记书写者在书写笔记时的情绪类别，并根据情绪类别选择对应的排版方式，从而将情绪类别信息(或激昂，或悲伤等)以排版方式的形式保存了下来，克服了现有的文字识别技术识别文字时丢失信息(例如情绪丢失)的缺陷。提高信息的保全度。

附图说明

图1为本申请一实施例的基于文字识别技术的笔记生成方法的流程示意图；

图2为本申请一实施例的基于文字识别技术的笔记生成装置的结构示意框图；

图3为本申请一实施例的计算机设备的结构示意框图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请实施例提供一种基于文字识别技术的笔记生成方法，应用于指定终端，包括：

S1、获取具有手写文字和印刷体文字的指定图片；

S2、利用预设的图片相似度判断方法，判断所述指定图片与所述指定终端前一次获取的图片是否相似；

S3、若所述指定图片与所述指定终端前一次获取的图片不相似，则利用预设的文字识别技术将所述指定图片中的手写文字和印刷体文字分别识别为手写文字文本和印刷体文字文本，以及提取所述指定图片中手写文字的特征数据，其中所述特征数据至少包括所述手写文字中的重笔位置与重笔数量；

S4、将所述特征数据输入基于神经网络模型训练完成的情绪识别模型，获得所述情绪识别模型输出的预测情绪类别，其中所述情绪识别模型基于预先采集的手写文字，以及与所述预先采集的手写文字关联的情绪类别组成的样本数据训练而成；

S5、根据预设的情绪类别与文字排版类型的对应关系，获取与所述预测情绪类别对应的目标文字排版类型；

S6、将所述印刷体文字文本和所述手写文字文本根据所述目标文字排版类型进行排版，生成所述笔记。

如上述步骤S1所述，获取具有手写文字和印刷体文字的指定图片。其中所述指定图片可以通过预设摄像头实时采集的具有手写文字和印刷体文字的图片，也可以是预存的具有手写文字和印刷体文字的图片。其中印刷体文字指出版物用于刊载文字的字体，是被批量印制出的文字的使用的字体，其中出版物例如书籍、杂志等实体载体。因此手写文字与印刷体文字具有明显区别。

如上述步骤S2所述，利用预设的图片相似度判断方法，判断所述指定图片与所述指定终端前一次获取的图片是否相似。所述图片相似度判断方法例如为：依次对比两张图片中对应的像素点，若相同的像素点的数量在所有像素点数量中的占比大于预定阈值，则判定相似；若相同的像素点的数量在所有像素点数量中的占比不大于预定阈值，则判定不相似。若所述指定图片与所述指定终端前一次获取的图片相似，表明所述指定图片已经过识别处理，只需将上次的识别结果调出即可，无需再次执行识别操作。

如上述步骤S3所述，若所述指定图片与所述指定终端前一次获取的图片不相似，则利用预设的文字识别技术将所述指定图片中的手写文字和印刷体文字分别识别为手写文字文本和印刷体文字文本，以及提取所述指定图片中手写文字的特征数据，其中所述特征数据至少包括所述手写文字中的重笔位置与重笔数量。若所述指定图片与所述指定终端前一次获取的图片不相似，表明所述指定图片未经过识别处理，是全新的图片，因此需要进行识别。其中预设的文字识别技术例如为OCR(Optical Character Recognition，光学字符识别)技术，其中在识别过程中可以采中下述一种或者多种技术手段：灰度化：采用RGB模型表示图像的每个像素点，取每个像素点的R、G、B的平均值代替原来的R、G、B的值得到图像的灰度值；二值化：将图像的像素点分为黑色和白色两部分，黑色的视为前景信息，白色的则视为背景信息，以处理掉原始图像除目标文字外的其他物体、背景等；降噪：采用中值滤波、均值滤波、自适应维纳滤波等进行滤波，以处理图像采集、压缩、传输等过程中导致的图像噪声；倾斜矫正：采用霍夫变换等方法处理图像，以矫正拍照等导致的图像倾斜。文字分割：采用投影运算进行文字切分，将单行文字或者多行文字投影到X轴上，并将值累加，文字的区域必定值比较大，间隔区域必定没有值，再考虑间隔的合理性，以此分割出单个文字；特征提取：提取出这些像素点中的特殊的点如极值点，孤立点等，作为图像的特征点，然后再对其进行降维处理，以提高处理速度。分类：采用SVM(Support VectorMachine，采用支持向量机)分类器进行分类，得到初识别结果；处理结果：采用NLP(Natural LanguageProcessing，自然语言处理)方法对初识别结果处理优化后输出，以排除部分误识别到的与正确文字形近的但与上下文无关的文字。其中提取所述指定图片中手写文字的特征数据，其中所述特征数据至少包括所述手写文字中的重笔位置与重笔数量的方法例如包括：将手写文字的笔划分解为多个点进行数据采集分析，通过识别像素点的数据变化趋势得到每个点的压力值、书写时顺序的清晰度等，进而获取包括重笔位置与重笔数量的特征数据，其中重笔指手写文字中用力最大的笔划。

如上述步骤S4所述，将所述特征数据输入基于神经网络模型训练完成的情绪识别模型，获得所述情绪识别模型输出的预测情绪类别，其中所述情绪识别模型基于预先采集的手写文字，以及与所述预先采集的手写文字关联的情绪类别组成的样本数据训练而成。其中神经网络模型可以为任意模型，例如VGG16模型、VGG-F模型、ResNet152模型、ResNet50模型、DPN131模型、AlexNet模型和DenseNet模型等，优选DPN模型。DPN(Dual PathNetwork)是神经网络结构，在ResNeXt的基础上引入了DenseNet的核心内容，使得模型对特征的利用更加充分。上述DPN、ResNeXt和DenseNet是现有的网络结构，在此不在赘述。其中所述情绪类别可以以任意方式分类，例如包括紧张、高兴、伤感、愤慨等。

如上述步骤S5所述，根据预设的情绪类别与文字排版类型的对应关系，获取与所述预测情绪类别对应的目标文字排版类型。其中预设的情绪类别与文字排版类型的对应关系例如为，当情绪类别为平稳情绪时，在手写文字原处用标识符进行替换，而在文末记载识别得到的手写文字，不破坏印刷体文字的连贯性；当情绪类别为激动情绪时，在手写文字原处用特殊字体排版所述手写文字。其中所述文字排版可为任意可行方式。其中，文字排版类型与情绪类别对应，例如对于激昂情绪类别，采用红色字体、加粗体现；对悲伤情绪类别，采用绿色字体、斜体体现。当然，排版类型还可以包括其他任意可行类型。

如上述步骤S6所述，将所述印刷体文字文本和所述手写文字文本根据所述目标文字排版类型进行排版，生成所述笔记。由于将所述印刷体文字文本和所述手写文字文本根据所述目标文字排版类型进行排版得到的手写笔记，更进一步地保留了原有手写文字的信息，使识别的贴切性更高，用户体验更佳，信息缺失率更低。

在一个实施方式中，所述利用预设的图片相似度判断方法，判断所述指定图片与所述指定终端前一次获取的图片是否相似的步骤S2,包括：

S201、分别对所述指定图片与所述指定终端前一次获取的图片进行灰度化处理，得到第一灰度图片和第二灰度图片；

S202、计算灰度图片的第m列或者第m行的所有像素点的灰度值的平均值Am，以及计算灰度图片中所有像素点的灰度值的平均值B；

S203、根据公式：

计算灰度图片的第m列或者第m行的总体方差

其中N为所述灰度图片中的列或者行的总数量；

S204、根据公式:获得所述第一灰度图片与所述第二灰度图片的第m列或者第m行的总体方差之差

其中，

为所述第一灰度图片的第m列或者第m行的总体方差，

为所述第二灰度图片的第m列或者第m行的总体方差；

S205、判断是否小于预设的方差误差阈值；

S206、若

如上所述，实现了利用预设的图片相似度判断方法，判断所述指定图片与所述指定终端前一次获取的图片是否相似。其中，灰度化指将彩色表示一种灰度颜色，例如在在RGB模型中，如果R＝G＝B时，则彩色表示一种灰度颜色，其中R＝G＝B的值叫灰度值，因此，灰度图像每个像素只需一个字节存放灰度值(又称强度值、亮度值)，减少存储量。灰度范围例如为0-255(当R,G,B的取值均为0-255时，当然也会随R,G,B的取值范围的变化而变化)。采用灰度化处理的方法可以为任意方法，例如分量法、最大值法、平均值法、加权平均法等。其中，由于灰度值的取值范围只有256种，在此基础上进行图片对比能够大大减轻计算量。再计算所述灰度图片的第m列或者第m行的所有像素点的灰度值的平均值Am，以及计算所述灰度图片中所有像素点的灰度值的平均值B。其中，计算所述灰度图片的第m列或者第m行的所有像素点的灰度值的平均值Am的过程包括：采集所述灰度图片的第m列或者第m行的所有像素点的灰度值，对所述第m列或者第m行的所有像素点的灰度值进行加和处理，将进行过加和处理得到的灰度值之和除以所述第m列或者第m行的所有像素点的数量，得到所述灰度图片的第m列或者第m行的所有像素点的灰度值的平均值Am。计算所述灰度图片中所有像素点的灰度值的平均值B的过程包括：计算所述灰度图片中所有像素点的灰度值之和，再以所述灰度值之和除以所述像素点的数量，得到所述灰度图片中所有像素点的灰度值的平均值B。根据公式：

计算所述灰度图片的第m列或者第m行的总体方差

其中N为所述灰度图片中的列或者行的总数量。在本申请中，采用总体方差来衡量所述灰度图片的第m列或者第m行的像素点的灰度值的平均值Am与所述灰度图片中所有像素点的灰度值的平均值B之间的差异。

根据公式:获得两张所述灰度图片的第m列或者第m行的总体方差之差

其中，

为第一张灰度图片的第m列或者第m行的总体方差，

为第二张灰度图片的第m列或者第m行的总体方差。总体方差之差

反应了两张灰度图片的第m列或者第m行的灰度值的差异。当

较小时，例如为0时，表明等于或者近似等于

可视为第一张灰度图片第m列或者第m行的灰度值与第二张灰度图片第m列或者第m行的灰度值相同或者近似相同(近似判断，以节省算力，并且由于不同的两张图片的总体方差一般不相等，因此该判断的准确性很高)，反之认为第一张灰度图片第m列或者第m行的灰度值与第二张灰度图片第m列或者第m行的灰度值不相同。判断

是否小于预设的方差误差阈值。其中

的返回值即为

中的最大值。若

小于预设的方差误差阈值，则判定所述指定图片与所述指定终端前一次获取的图片相似。利用了近似判断(由于两张不同图片转化为的灰度图片的所有灰度值一般不相等，而相同图片转化为的灰度图片的所有灰度值一般相等)，实现了在消耗较少计算资源的前提下，判断所述指定图片与所述指定终端前一次获取的图片是否相似。据此，当所述指定图片与所述指定终端前一次获取的图片不相似的前提下，才进行后续的步骤(若所述指定图片与所述指定终端前一次获取的图片相似，则表明所述指定图片已进行了笔记生成处理，因此无需再次进行处理)，减少了不必要的资源消耗。

S211、依次对比所述指定图片与所述指定终端前一次获取的图片中对应的像素点，并统计相同像素点的数量；

S212、根据公式：相同像素点占比＝所述相同像素点的数量/所述指定图片中所有像素点的数量，获得所述相同像素点占比；

S213、判断所述相同像素点占比是否大于预设的占比阈值；

S214、若所述相同像素点占比大于预设的占比阈值，则判定所述指定图片与所述指定终端前一次获取的图片相似。

如上所述，实现了利用预设的图片相似度判断方法，判断所述指定图片与所述指定终端前一次获取的图片是否相似。为了精准判断所述指定图片与所述指定终端前一次获取的图片是否相似，本实施方式采用逐次比对像素点的方式进行判断。若两张图片是相同的，那么相同像素点的数量应当占绝大多数，即所述相同像素点占比趋近于1。据此，根据公式：相同像素点占比＝所述相同像素点的数量/所述指定图片中所有像素点的数量，计算出所述相同像素点占比，若所述相同像素点占比大于预设的占比阈值，则判定所述指定图片与所述指定终端前一次获取的图片相似。

在一个实施方式中，所述手写文字的颜色与所述印刷体文字的颜色不同，所述利用预设的文字识别技术将所述指定图片中的手写文字和印刷体文字分别识别为手写文字文本和印刷体文字文本的步骤S3,包括：

S301、采集所述指定图片中的像素点的RGB颜色模型中的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值，并根据预设的三值化法将所述指定图片中的像素点的RGB颜色设置为(0,0,0)、(255,255,255)或者(P,P,P),其中P为大于0且小于255的预设数值，获得由三种颜色构成的暂时图片；

S302、计算三种颜色在所述暂时图片中所占面积，并对面积较小的两种颜色的所占区域分别采用预设的文字分割方法，获得分割开的单个手写文字和分割开的单个印刷体文字；

S303、提取所述单个手写文字的文字特征和所述单个印刷体文字的文字特征，并输入预设的支持向量机中进行分类，获得识别而得的手写文字文本和印刷体文字文本。

如上所述，实现了采用三值化法获得识别而得的手写文字文本和印刷体文字文本。为了更准确地区分手写文字与印刷体文字，本申请使用了三值化法，即根据预设的三值化法将所述指定图片中的像素点的RGB颜色设置为(0,0,0)、(255,255,255)或者(P,P,P),其中P为大于0且小于255的预设数值，获得由三种颜色构成的暂时图片，并计算三种颜色在所述暂时图片中所占面积，并对面积较小的两种颜色的所占区域分别采用预设的文字分割方法(由于面积最大的肯定是背景，因此无需对面积最大的区域进行分析)，获得分割开的单个手写文字和分割开的单个印刷体文字。其中所述支持向量机是一类按监督学习方式对数据进行二元分类的广义线性分类器，适用于对待识别文字与预存的文字进行对比，以输出最相似的文字。据此提取所述单个手写文字的文字特征和所述单个印刷体文字的文字特征，并输入预设的支持向量机中进行分类，获得识别而得的手写文字文本和印刷体文字文本。其中所述文字特征例如为文字对应的像素点中的特殊的点如极值点，孤立点等。

在一个实施方式中，所述采集所述指定图片中的像素点的RGB颜色模型中的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值，并根据预设的三值化法将所述指定图片中的像素点的RGB颜色设置为(0,0,0)、(255,255,255)或者(P,P,P)的步骤S301,包括：

S3011、采集所述指定图片中的像素点的RGB颜色模型中的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值，并根据公式：F1＝MIN{ROUND[(a1R+a2G+a3B)/L,0],A}，获取参考数值F1，其中MIN为最小值函数，ROUND为四舍五入函数，a1、a2、a3均为大于0且小于L的正数，L为大于0的整数，A为预设的取值在范围(0,255)之内第一阈值参数，R、G、B分别为所述指定图片中的指定像素点的RGB颜色模型中的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值；

S3012、判断所述参考数值F1的值是否等于A；

S3013、若所述参考数值F1的值不等于A，则根据公式：F2＝MAX{ROUND[(a1R+a2G+a3B)/L,0],B}，获取参考数值F2，其中MIN为最大值函数，B为预设的取值在范围(0,255)之内第二阈值参数，并且B大于A；

S3014、判断所述参考数值F2的值是否等于B；

S3015、若所述参考数值F2的值不等于B，则将所述指定像素点的RGB颜色设置为(255,255,255)。

如上所述，实现了采集所述指定图片中的像素点的RGB颜色模型中的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值，并根据预设的三值化法将所述指定图片中的像素点的RGB颜色设置为(0,0,0)、(255,255,255)或者(P,P,P)。本申请采用公式：F1＝MIN{ROUND[(a1R+a2G+a3B)/L,0],A}和公式：F2＝MAX{ROUND[(a1R+a2G+a3B)/L,0],B}，以确定所述指定像素点的RGB颜色。进一步地，若所述参考数值F1的值不等于A，则将所述指定像素点的RGB颜色设置为(0,0,0)。进一步地，若所述参考数值F2的值等于B，则将所述指定像素点的RGB颜色设置为(P,P,P)。实现了三值化处理，以使背景、印刷体文字、手写体文字完全区分出来，以便于后续的识别处理。其中ROUND函数是四舍五入函数，ROUND(X,a)指对实数X按小数位为a进行四舍五入运算，其中a为大于等于0的整数，例如ROUND(2.4,0)＝2。

在一个实施方式中，所述将所述特征数据输入基于神经网络模型训练完成的情绪识别模型，获得所述情绪识别模型输出的预测情绪类别，其中所述情绪识别模型基于预先采集的手写文字，以及与所述预先采集的手写文字关联的情绪类别组成的样本数据训练而成的步骤S4之前，包括：

S401、调取预先采集的样本数据，并将样本数据分成训练集和测试集；其中，所述样本数据包括预先采集的手写文字，以及与所述预先采集的手写文字关联的情绪类别；

S402、将训练集的样本数据输入到预设的神经网络模型中进行训练，得到初始情绪识别模型，其中，训练的过程中采用随机梯度下降法；

S403、利用测试集的样本数据验证所述初始情绪识别模型；

S404、若所述初始情绪识别模型验证通过，则将所述初始情绪识别模型记为所述情绪识别模型。

如上所述，实现了设置情绪识别模型。本申请基于神经网络模型以训练出情绪识别模型。其中神经网络模型可为VGG16模型、VGG-F模型、ResNet152模型、ResNet50模型、DPN131模型、AlexNet模型和DenseNet模型等。其中，随机梯度下降法就是随机取样一些训练数据，替代整个训练集，如果样本量很大的情况(例如几十万)，那么可能只用其中几万条或者几千条的样本，就已经迭代到最优解了，可以提高训练速度。进一步地，训练还可以采用反向传导法则更新神经网络各层的参数。其中反向传导法则是建立在梯度下降法的基础上，其输入输出关系实质上是一种映射关系：一个n输入m输出的神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射，这一映射具有高度非线性，有利于神经网络模型各层的参数的更新。获得初始情绪识别模型。再利用测试集的样本数据验证所述初始情绪识别模型，若验证通过，则将所述初始情绪识别模型记为所述情绪识别模型。

在一个实施方式中，所述将所述印刷体文字文本和所述手写文字文本根据所述目标文字排版类型进行排版，生成所述笔记的步骤S6之后,包括：

S61、接收第二终端发送的获取手写笔记的获取请求，其中所述获取请求记载有所述第二终端支持的阅读格式；

S62、判断所述阅读软件的阅读格式是否能够展示所述笔记；

S63、若所述阅读软件的阅读格式能够展示所述笔记，则将所述笔记发送给所述第二终端。

如上所述，实现了将所述笔记发送给所述第二终端。由于所述第二终端可能并不支持阅读展示所述笔记，那么将所述笔记进行格式变换之后再发送给第二终端，以避免所述第二终端识别手写笔记失败。据此，判断所述阅读软件的阅读格式是否能够展示所述笔记；若所述阅读软件的阅读格式能够展示所述笔记，则将所述笔记发送给所述第二终端。进一步地，若所述阅读软件的阅读格式不能够展示所述笔记，则将所述笔记的格式转换为所述阅读软件的阅读格式，再发送给所述第二终端。

本申请的基于文字识别技术的笔记生成方法，利用情绪识别模型识别出笔记书写者在书写笔记时的情绪类别，并根据情绪类别选择对应的排版方式，从而将情绪类别信息(或激昂，或悲伤等)以排版方式的形式保存了下来，克服了现有的文字识别技术识别文字时丢失信息(例如情绪丢失)的缺陷。提高信息的保全度。

参照图2，本申请实施例提供一种基于文字识别技术的笔记生成装置，应用于指定终端，包括：

指定图片获取单元10，用于获取具有手写文字和印刷体文字的指定图片；

相似度判断单元20，用于利用预设的图片相似度判断方法，判断所述指定图片与所述指定终端前一次获取的图片是否相似；

特征数据获取单元30，用于若所述指定图片与所述指定终端前一次获取的图片不相似，则利用预设的文字识别技术将所述指定图片中的手写文字和印刷体文字分别识别为手写文字文本和印刷体文字文本，以及提取所述指定图片中手写文字的特征数据，其中所述特征数据至少包括所述手写文字中的重笔位置与重笔数量；

预测情绪类别获取单元40，用于将所述特征数据输入基于神经网络模型训练完成的情绪识别模型，获得所述情绪识别模型输出的预测情绪类别，其中所述情绪识别模型基于预先采集的手写文字，以及与所述预先采集的手写文字关联的情绪类别组成的样本数据训练而成；

排版类型获取单元50，用于根据预设的情绪类别与文字排版类型的对应关系，获取与所述预测情绪类别对应的目标文字排版类型；

排版单元60，用于将所述印刷体文字文本和所述手写文字文本根据所述目标文字排版类型进行排版，生成所述笔记。

其中上述单元分别用于执行的操作与前述实施方式的基于文字识别技术的笔记生成方法的步骤一一对应,在此不再赘述。

在一个实施方式中，所述相似度判断单元20,包括：

灰度化子单元，用于分别对所述指定图片与所述指定终端前一次获取的图片进行灰度化处理，得到第一灰度图片和第二灰度图片；

平均值计算子单元，用于计算灰度图片的第m列或者第m行的所有像素点的灰度值的平均值Am，以及计算灰度图片中所有像素点的灰度值的平均值B；

总体方差计算子单元，用于根据公式：

计算灰度图片的第m列或者第m行的总体方差

其中N为所述灰度图片中的列或者行的总数量；

方差之差计算子单元，用于根据公式:

其中，

为所述第一灰度图片的第m列或者第m行的总体方差，为所述第二灰度图片的第m列或者第m行的总体方差；

误差阈值判断子单元，用于判断

是否小于预设的方差误差阈值；

相似判定子单元，用于若

其中上述子单元分别用于执行的操作与前述实施方式的基于文字识别技术的笔记生成方法的步骤一一对应,在此不再赘述。

在一个实施方式中，所述相似度判断单元20,包括：

相同像素点统计子单元，用于依次对比所述指定图片与所述指定终端前一次获取的图片中对应的像素点，并统计相同像素点的数量；

相同像素点占比计算子单元，用于根据公式：相同像素点占比＝所述相同像素点的数量/所述指定图片中所有像素点的数量，获得所述相同像素点占比；

占比阈值判断子单元，用于判断所述相同像素点占比是否大于预设的占比阈值；

第二相似判定子单元，用于若所述相同像素点占比大于预设的占比阈值，则判定所述指定图片与所述指定终端前一次获取的图片相似。

在一个实施方式中，所述手写文字的颜色与所述印刷体文字的颜色不同，所述特征数据获取单元30,包括：

暂时图片生成子单元，用于采集所述指定图片中的像素点的RGB颜色模型中的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值，并根据预设的三值化法将所述指定图片中的像素点的RGB颜色设置为(0,0,0)、(255,255,255)或者(P,P,P),其中P为大于0且小于255的预设数值，获得由三种颜色构成的暂时图片；

分割子单元，用于计算三种颜色在所述暂时图片中所占面积，并对面积较小的两种颜色的所占区域分别采用预设的文字分割方法，获得分割开的单个手写文字和分割开的单个印刷体文字；

识别子单元，用于提取所述单个手写文字的文字特征和所述单个印刷体文字的文字特征，并输入预设的支持向量机中进行分类，获得识别而得的手写文字文本和印刷体文字文本。

在一个实施方式中，所述暂时图片生成子单元,包括：

参考数值F1计算模块，用于采集所述指定图片中的像素点的RGB颜色模型中的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值，并根据公式：F1＝MIN{ROUND[(a1R+a2G+a3B)/L,0],A}，获取参考数值F1，其中MIN为最小值函数，ROUND为四舍五入函数，a1、a2、a3均为大于0且小于L的正数，L为大于0的整数，A为预设的取值在范围(0,255)之内第一阈值参数，R、G、B分别为所述指定图片中的指定像素点的RGB颜色模型中的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值；

参考数值F1判断模块，用于判断所述参考数值F1的值是否等于A；

参考数值F2计算模块，用于若所述参考数值F1的值不等于A，则根据公式：F2＝MAX{ROUND[(a1R+a2G+a3B)/L,0],B}，获取参考数值F2，其中MIN为最大值函数，B为预设的取值在范围(0,255)之内第二阈值参数，并且B大于A；

参考数值F2判断模块，用于判断所述参考数值F2的值是否等于B；

颜色设置模块，用于若所述参考数值F2的值不等于B，则将所述指定像素点的RGB颜色设置为(255,255,255)。

其中上述模块分别用于执行的操作与前述实施方式的基于文字识别技术的笔记生成方法的步骤一一对应,在此不再赘述。

在一个实施方式中，所述装置，包括：

样本数据调取单元，用于调取预先采集的样本数据，并将样本数据分成训练集和测试集；其中，所述样本数据包括预先采集的手写文字，以及与所述预先采集的手写文字关联的情绪类别；

训练单元，用于将训练集的样本数据输入到预设的神经网络模型中进行训练，得到初始情绪识别模型，其中，训练的过程中采用随机梯度下降法；

验证单元，用于利用测试集的样本数据验证所述初始情绪识别模型；

标记单元，用于若所述初始情绪识别模型验证通过，则将所述初始情绪识别模型记为所述情绪识别模型。

在一个实施方式中，所述装置,包括：

阅读格式获取单元，用于接收第二终端发送的获取手写笔记的获取请求，其中所述获取请求记载有所述第二终端支持的阅读格式；

阅读格式判断单元，用于判断所述阅读软件的阅读格式是否能够展示所述笔记；

笔记发送单元，用于若所述阅读软件的阅读格式能够展示所述笔记，则将所述笔记发送给所述第二终端。

本申请的基于文字识别技术的笔记生成装置，利用情绪识别模型识别出笔记书写者在书写笔记时的情绪类别，并根据情绪类别选择对应的排版方式，从而将情绪类别信息(或激昂，或悲伤等)以排版方式的形式保存了下来，克服了现有的文字识别技术识别文字时丢失信息(例如情绪丢失)的缺陷。提高信息的保全度。

参照图3，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于文字识别技术的笔记生成方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于文字识别技术的笔记生成方法。

上述处理器执行上述基于文字识别技术的笔记生成方法，其中所述方法包括的步骤分别与执行前述实施方式的基于文字识别技术的笔记生成方法的步骤一一对应,在此不再赘述。

本领域技术人员可以理解，图中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请的计算机设备，利用情绪识别模型识别出笔记书写者在书写笔记时的情绪类别，并根据情绪类别选择对应的排版方式，从而将情绪类别信息(或激昂，或悲伤等)以排版方式的形式保存了下来，克服了现有的文字识别技术识别文字时丢失信息(例如情绪丢失)的缺陷。提高信息的保全度。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现基于文字识别技术的笔记生成方法，其中所述方法包括的步骤分别与执行前述实施方式的基于文字识别技术的笔记生成方法的步骤一一对应,在此不再赘述。

本申请的计算机可读存储介质，利用情绪识别模型识别出笔记书写者在书写笔记时的情绪类别，并根据情绪类别选择对应的排版方式，从而将情绪类别信息(或激昂，或悲伤等)以排版方式的形式保存了下来，克服了现有的文字识别技术识别文字时丢失信息(例如情绪丢失)的缺陷。提高信息的保全度。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于文字识别技术的笔记生成方法，应用于指定终端，其特征在于，包括：

获取具有手写文字和印刷体文字的指定图片；

2.根据权利要求1所述的基于文字识别技术的笔记生成方法，其特征在于，所述利用预设的图片相似度判断方法，判断所述指定图片与所述指定终端前一次获取的图片是否相似的步骤,包括：

根据公式：

根据公式:

获得所述第一灰度图片与所述第二灰度图片的第m列或者第m行的总体方差之差其中，

为所述第一灰度图片的第m列或者第m行的总体方差，

为所述第二灰度图片的第m列或者第m行的总体方差；

判断

是否小于预设的方差误差阈值；

若小于预设的方差误差阈值，则判定所述指定图片与所述指定终端前一次获取的图片相似。

3.根据权利要求1所述的基于文字识别技术的笔记生成方法，其特征在于，所述利用预设的图片相似度判断方法，判断所述指定图片与所述指定终端前一次获取的图片是否相似的步骤,包括：

判断所述相同像素点占比是否大于预设的占比阈值；

4.根据权利要求1所述的基于文字识别技术的笔记生成方法，其特征在于，所述手写文字的颜色与所述印刷体文字的颜色不同，所述利用预设的文字识别技术将所述指定图片中的手写文字和印刷体文字分别识别为手写文字文本和印刷体文字文本的步骤,包括：

5.根据权利要求4所述的基于文字识别技术的笔记生成方法，其特征在于，所述采集所述指定图片中的像素点的RGB颜色模型中的R颜色通道的数值、G颜色通道的数值和B颜色通道的数值，并根据预设的三值化法将所述指定图片中的像素点的RGB颜色设置为(0,0,0)、(255,255,255)或者(P,P,P)的步骤,包括：

判断所述参考数值F1的值是否等于A；

判断所述参考数值F2的值是否等于B；

6.根据权利要求1所述的基于文字识别技术的笔记生成方法，其特征在于，所述将所述特征数据输入基于神经网络模型训练完成的情绪识别模型，获得所述情绪识别模型输出的预测情绪类别，其中所述情绪识别模型基于预先采集的手写文字，以及与所述预先采集的手写文字关联的情绪类别组成的样本数据训练而成的步骤之前，包括：

利用测试集的样本数据验证所述初始情绪识别模型；

7.根据权利要求1所述的基于文字识别技术的笔记生成方法，其特征在于，所述将所述印刷体文字文本和所述手写文字文本根据所述目标文字排版类型进行排版，生成所述笔记的步骤之后,包括：

判断所述阅读软件的阅读格式是否能够展示所述笔记；

8.一种基于文字识别技术的笔记生成装置，应用于指定终端，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。