CN111652229B

CN111652229B - 一种信息输入方法、装置、电子设备及存储介质

Info

Publication number: CN111652229B
Application number: CN202010447146.6A
Authority: CN
Inventors: 宋慧驹; 刘兴旺; 刘亚; 刘岩
Original assignee: Taikang Insurance Group Co Ltd
Current assignee: Taikang Insurance Group Co Ltd
Priority date: 2020-05-25
Filing date: 2020-05-25
Publication date: 2023-09-12
Anticipated expiration: 2040-05-25
Also published as: CN111652229A

Abstract

本发明关于一种信息输入方法、装置、电子设备及存储介质，用以将图像中的信息录入电子业务系统。本发明实施例提取待处理图像的目标区域中的项目文本及与项目文本对应的数据文本，并确定项目文本对应的字向量；将项目文本对应的字向量输入已训练的分类神经网络模型，获取项目文本对应的项目类型；根据项目类型与业务系统中信息输入位置的对应关系，确定项目文本对应的目标信息输入位置；将项目文本及与项目文本对应的数据文本输入至目标信息输入位置。本发明实施例的信息输入方法，自动将识别出的项目文本及数据文本输入至业务系统中的目标信息输入位置，完成业务数据的录入。实现将图像中的业务数据自动录入，与人工录入相比，效率更高。

Description

一种信息输入方法、装置、电子设备及存储介质

技术领域

本发明涉及互联网技术领域，特别涉及一种信息输入方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的快速发展，许多业务数据都需要通过录入电子业务系统进行业务办理或者录入电子业务系统进行存档。在向电子业务系统中录入数据时，许多数据的来源是以图像的形式存在，通常需要将图像中的非结构化信息转化为结构化信息录入电子业务系统中。

以核保业务为例，假设投保人办理健康保险，在核保时需要将投保人的体检信息录入核保业务系统进行核保，进而决定是否承保以及如何承保。目前，获取到的投保人的体检信息通常是图像形式，体检信息包括多个体检类别，每个体检类别包括多个体检项目，需要人工将获取到的体检信息录入核保业务系统，若获取到多个投保人的体检信息，在将大量的体检信息人工录入核保业务系统时，费时费力，效率较低。

发明内容

本发明提供一种信息输入方法、装置、电子设备及存储介质，用以将图像中的信息录入电子业务系统。

根据本发明实施例的第一方面，提供一种信息输入方法，包括：

提取待处理图像的目标区域中的项目文本及与项目文本对应的数据文本，并确定所述项目文本对应的用于表示项目文本语义特征的字向量；

将确定出的所述项目文本对应的字向量输入已训练的分类神经网络模型，并获取所述已训练的分类神经网络模型输出的所述项目文本对应的项目类型；

根据项目类型与业务系统中信息输入位置的对应关系，确定所述项目文本对应的项目类型在所述业务系统中的目标信息输入位置；

将所述项目文本及与所述项目文本对应的数据文本输入至所述业务系统中的所述目标信息输入位置。

在一种可能的实现方式中，所述确定所述项目文本对应的用于表示项目文本语义特征的字向量，包括：

确定所述项目文本对应的字型图，并将所述项目文本对应的字型图输入已训练的自编码模型，获取所述已训练的自编码模型输出的所述项目文本对应的字型向量；其中，所述项目文本对应的字型向量为所述项目文本对应的字型图的低维特征向量；

将所述项目文本对应的字型向量输入已训练的字向量模型，获取所述已训练的字向量模型输出的字向量。

根据预先存储的项目文本与字向量的对应关系，确定所述项目文本对应的字向量。

在一种可能的实现方式中，根据下列方式对字向量模型进行训练：

确定第一训练样本对应的字型图，并将所述第一训练样本对应的字型图输入已训练的自编码模型，获取所述已训练的自编码模型输出的所述第一训练样本对应的字型向量；其中，所述第一训练样本对应的字型向量为所述第一训练样本对应的字型图的低维特征向量；

将所述第一训练样本对应的字型向量作为字向量模型的输入特征，将表示文本语义特征的字向量作为所述字向量模型的输出特征，对所述字向量模型进行训练。

在一种可能的实现方式中，根据下列方式对所述分类神经网络模型进行训练：

将多种项目类型的第二训练样本对应的字向量，以及每个第二训练样本对应的项目类型标签作为分类神经网络的输入特征，将每个第二训练样本的项目类型标签为所述多种项目类型中的每种类型的概率值作为所述分类神经网络的输出特征，对所述分类神经网络模型进行训练。

在一种可能的实现方式中，根据下列方式获取所述第二训练样本对应的字向量：

确定所述第二训练样本对应的字型图，并将所述第二训练样本对应的字型图输入已训练的自编码模型，获取所述已训练的自编码模型输出的所述第二训练样本对应的字型向量；其中，所述第二训练样本对应的字型向量为所述第二训练样本对应的字型图的低维特征向量；

将所述第二训练样本对应的字型向量输入已训练的字向量模型，获取所述已训练的字向量模型输出的字向量。

在一种可能的实现方式中，所述提取待处理图像的目标区域中的项目文本及与项目文本对应的数据文本，包括：

通过光学字符识别OCR技术提取所述待处理图像的目标区域中的项目文本及与项目文本对应的数据文本。

根据本发明实施例的第二方面，提供一种信息输入装置，包括：

提取模块，用于提取待处理图像的目标区域中的项目文本及与项目文本对应的数据文本，并确定所述项目文本对应的用于表示项目文本语义特征的字向量；

分类模块，用于将确定出的所述项目文本对应的字向量输入已训练的分类神经网络模型，并获取所述已训练的分类神经网络模型输出的所述项目文本对应的项目类型；

确定模块，用于根据项目类型与业务系统中信息输入位置的对应关系，确定所述项目文本对应的项目类型在所述业务系统中的目标信息输入位置；

输入模块，用于将所述项目文本及与所述项目文本对应的数据文本输入至所述业务系统中的所述目标信息输入位置。

在一种可能的实现方式中，所述提取模块具体用于：

在一种可能的实现方式中，所述提取模块用于根据下列方式对字向量模型进行训练：

在一种可能的实现方式中，所述分类模块用于根据下列方式对所述分类神经网络模型进行训练：

在一种可能的实现方式中，所述分类模型用于根据下列方式获取所述第二训练样本对应的字向量：

在一种可能的实现方式中，所述提取模块具体用于：

根据本发明实施例的第三方面，提供一种电子设备系统，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为：当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现下列过程：

在一种可能的实现方式中，所述处理器具体被配置为：

在一种可能的实现方式中，所述处理器被配置为根据下列方式对字向量模型进行训练：

在一种可能的实现方式中，所述处理器被配置为根据下列方式对所述分类神经网络模型进行训练：

在一种可能的实现方式中，所述处理器被配置为根据下列方式获取所述第二训练样本对应的字向量：

在一种可能的实现方式中，所述处理器具体被配置为：

根据本发明实施例的第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的信息输入方法的步骤。

本发明实施例提供的技术方案至少带来以下有益效果：

本发明实施例中，提取待处理图像中的项目文本以及与项目文本对应的数据文本之后，通过将项目文本对应的字向量输入已训练的分类神经网络模型，通过分类神经网络模型输出的上述项目文本所属的项目类型确定上述项目文本在业务系统中的目标信息输入位置，自动将识别出的项目文本及与项目文本对应的数据文本输入至业务系统中的目标信息输入位置，完成业务数据的录入。实现将待处理图像中的业务数据自动录入，与人工录入相比，效率更高。

附图说明

图1为本发明实施例提供的一种体检信息图像的示意图；

图2为本发明实施例提供的一种电子业务系统的界面展示图；

图3为本发明实施例提供的一种信息输入方法的流程图；

图4为本发明实施例提供的一种目标区域的划分示意图；

图5为本发明实施例提供的一种输入项目文本以及数据文本后电子业务系统的界面展示图；

图6为本发明实施例提供的一种信息输入方法的完整流程图；

图7为本发明实施例提供的一种信息输入装置的结构示意图；

图8为本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域普通人员更好地理解本发明的技术方案，下面将结合附图，对本发明实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

随着互联网技术的快速发展，许多业务数据都需要通过录入电子业务系统进行业务办理或者录入电子业务系统进行存档。以保险业务中的核保为例，许多与健康相关的险种在核保过程中，需要将投保人的体检信息录入电子业务系统中，获得的投保人的体检信息通常是图像的形式，如图1所示为一张体检信息图像，需要将如图1所示的体检信息图像中包含的体检信息录入电子业务系统，电子业务系统的界面展示图如图2所示。目前，通常需要人工将获取到的大量的体检信息录入核保业务系统。

在上述场景中可以看出，许多业务场景下需要人工将图像中的业务数据录入电子业务系统，费时费力，效率较低。本发明实施例提供一种信息输入方法，可以对包含业务数据的图像进行处理，并将业务数据自动录入电子业务系统中，与人工录入相比，效率更高。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面对本发明实施例作进一步详细描述。

图3是根据一示例性实施例示出的一种信息输入方法的流程图，如图3所示，包括以下步骤：

在步骤S301中、提取待处理图像的目标区域中的项目文本及与项目文本对应的数据文本，并确定项目文本对应的用于表示项目文本语义特征的字向量；

在步骤S302中、将确定出的项目文本对应的字向量输入已训练的分类神经网络模型，并获取已训练的分类神经网络模型输出的项目文本对应的项目类型；

在步骤S303中、根据项目类型与业务系统中信息输入位置的对应关系，确定项目文本对应的项目类型在业务系统中的目标信息输入位置；

在步骤S304中、将项目文本及与项目文本对应的数据文本输入至业务系统中的目标信息输入位置。

由上可见，在本发明实施例中，由于本发明实施例提取待处理图像中的项目文本以及与项目文本对应的数据文本之后，通过将项目文本对应的字向量输入已训练的分类神经网络模型，通过分类神经网络模型输出的上述项目文本所属的项目类型确定上述项目文本在业务系统中的目标信息输入位置，自动将识别出的项目文本及与项目文本对应的数据文本输入至业务系统中的目标信息输入位置，完成业务数据的录入。实现将待处理图像中的业务数据自动录入，与人工录入相比，效率更高。

需要说明的是，本发明实施例提供的信息输入方法可以适用于任何需要将图像中的业务数据录入电子业务系统的场景中，以核保业务为例说明本发明的方案，并不构成对保护范围的限制。

实施中，在获取到待处理图像后，首先需要提取待处理图像的目标区域中的项目文本及与项目文本对应的数据文本。

具体的，是如图1所示的待处理图像为一张血常规检查的体检信息表的图像，其中，项目文本包括多种体检项目，如“白细胞”、“淋巴细胞”、“嗜酸性粒细胞”、“淋巴细胞比率”等，与项目文本“白细胞”对应的数据文本为“5.5”、“3.5-9.5”、“10^9/L”，“5.5”为血常规检查中白细胞的检查结果、“3.5-9.5”为血常规检查中白细胞的正常范围、“10^9/L”为血常规检查中白细胞检查结果的单位。本发明实施例中将待处理图像的一行业务数据所在的区域作为目标区域，如图4所示，一张待处理图像可以包含多个目标区域，图4中示例性的示出三个目标区域。

需要说明的是，确定待处理图像中目标区域的方法可以是人工划分，例如，人工确定待处理图像中的目标区域并为目标区域添加表格线，在对待处理图像进行处理的过程中，对表格内的项目文本或数据文本进行处理；或者，可以自动对待处理图像进行识别确定待处理图像中的目标区域。

一种可选的实施方式为，通过光学字符识别OCR技术提取待处理图像的目标区域中的项目文本及与项目文本对应的数据文本。

OCR技术是指通过电子设备，例如，扫描仪或数码相机等，检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；也就是针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，以便其他软件对文字进行进一步编辑加工的技术。

通过OCR技术可以提取待处理图像的目标区域中的项目文本以及与项目文本对应的数据文本，具体实施中，可以通过OCR技术提取待处理图像中多个目标区域的项目文本以及数据文本，得到多个项目文本以及与多个项目文本对应的数据文本。实施中，可以通过OCR技术提取待处理图像中所有目标区域的项目文本以及数据文本，或者也可以由用户选择待处理图像中的目标区域，通过OCR技术提取用户选择的待处理图像中的目标区域的项目文本以及数据文本。

在本发明实施例中，得到待处理图像目标区域中的项目文本以及与项目文本对应的数据文本之后，确定每个项目文本对应的用于表示项目文本语义特征的字向量。

需要说明的是，项目文本对应的字向量包括项目文本中每个字对应的字向量，字向量可以表示项目文本中每个字的语义特征，字向量具有良好的语义特性，是表示字特征的常用方式，字向量的每一维的值代表一个具有一定的语义和语法上解释的特征，相似语义特征的字对应的字向量也相似，例如“淋巴细胞比例”与“淋巴细胞比率”具有相似的字向量。

本发明提供两种确定项目文本对应的字向量的方式。

方式一、

确定项目文本对应的字型图，并将项目文本对应的字型图输入已训练的自编码模型，获取已训练的自编码模型输出的项目文本对应的字型向量；将所述项目文本对应的字型向量输入已训练的字向量模型，获取所述已训练的字向量模型输出的字向量。

其中，项目文本对应的字型向量为项目文本对应的字型图的低维特征向量。

具体的，在提取项目文本之后，将项目文本对应的字型图输入已训练的自编码模型。需要说明的是，项目文本对应的字型图即项目文本中每个字对应的字型图。

已训练的自编码模型可以将输入信息作为学习目标，对输入信息进行表征学习，可应用于神经网络的降维问题。将项目文本对应的字型图输入已训练的自编码模型后，可以获得已训练的自编码模型输出的项目文本的字型向量，字型向量为字型图的低维特征向量，需要说明的是，项目文本对应的字型向量即项目文本中每个字对应的字型向量。

再将项目文本中对应的字型向量输入已训练的字向量模型，获取已训练的字向量模型输出的项目文本对应的字向量，需要说明的是，项目文本对应的字向量即项目文本中每个字对应的字向量。

通过机器学习算法确定得到的项目文本的语义特征的准确度更高，可以更好的表示项目文本的语义，并且提取语义特征的速度较快。

其中，字向量模型可以是Word2Vector(词向量)模型、GloVe(Global Vectors，全局向量)模型、BERT模型等。

实施中，假设获取到的项目文本为“白细胞”，将“白”、“细”、“胞”分别对应的字型图输入至已训练的自编码模型，获取已训练的自编码模型输出的“白”、“细”、“胞”分别对应的字型向量“Vp₁”、“Vp₂”、“Vp₃”，将“Vp₁”、“Vp₂”、“Vp₃”输入至已训练的字向量模型，获取已训练的字向量模型输出的字向量“Vc₁”、“Vc₂”、“Vc₃”。

方式二、

根据预先存储的项目文本与字向量的对应关系，确定项目文本对应的字向量。

具体的，项目文本与对应的字向量是预先存储的，在提取待处理图像的目标区域中的项目文本后，直接根据项目文本与字向量的对应关系，确定提取出的项目文本对应的字向量。

需要说明的是，预先存储的项目文本对应的字向量的获得方式可以是根据如方式一所述的方式，或者其他任何可以的得到项目文本对应的字向量的方式。

在确定项目文本对应的字向量之后，将确定出的项目文本对应的字向量输入已训练的分类神经网络模型，并获取已训练的分类神经网络模型输出的项目文本对应的项目类型。

具体的，本发明实施例中，已训练的分类神经网络模型用来确定项目文本所属的项目类型，将项目文本对应的字向量输入已训练的分类神经网络模型后，已训练的分类神经网络模型会输出项目文本对应的项目类型标签。

其中，分类神经网络模型可以是双向LSTM+attension神经网络模型。

实施中，根据需求对分类神经网络模型进行训练，得到已训练的具有分类能力的分类神经网络模型。例如，将项目文本“白细胞”对应的字向量“Vc₁Vc₂Vc₃”输入已训练的分类神经网络模型，分类神经网络模型输出项目类型为“血常规检查”；或者，将项目文本“酸碱度”对应的字向量“Vc₄Vc₅Vc₆”输入已训练的分类神经网络模型，分类神经网络模型输出项目类型为“尿常规检查”。

需要说明的是，以体检信息为例说明本发明实施例提供的信息输入方法仅是示例的，在体检信息中，不同体检类型可能会包含相同的体检项目，例如，体检类型“血常规检查”中体检项目包含“白细胞”，体检类型“尿常规检查”中体检项目也包含“白细胞”，在这种场景下，仅将“白细胞”对应的字向量输入已训练的分类神经网络可能会出现分类错误的情况。

针对上述场景，本发明实施例提供一种处理方法，在具体实施过程中，将提取到的多个项目文本对应的字向量组成的字符串输入已训练的分类神经网络模型，已训练的分类神经网络模型输出的多个项目文本对应的项目类型更加准确。

需要说明的是，若通过已训练的分类神经网络模型确定多个项目文本对应的项目类型，则在训练过程中，需要通过输入多个项目文本对应的字向量组成的字符串对分类神经网络模型进行训练。

实施中，假设得到的多个项目文本为“白细胞淋巴细胞嗜酸性粒细胞淋巴细胞比率”，确定多个项目文本对应的字向量组成的字符串为“Vc₁Vc₂Vc₃Vc₄Vc₅Vc₂Vc₃Vc₆Vc₇Vc₈Vc₉Vc₂Vc₃Vc₄Vc₅Vc₂Vc₃Vc₁₀Vc₁₁”，将上述字符串输入已训练的分类神经网络模型，已训练的分类神经网络模型输出的项目类型为“血常规检查”。

确定项目文本对应的项目类型后，根据项目类型与业务系统中信息输入位置的对应关系，确定项目文本对应的项目类型在业务系统中的目标信息输入位置；并将项目文本以及项目文本对应的数据文本输入至业务系统中的目标信息位置。

具体的，在电子业务系统中，设置每个项目类型对应的信息输入位置，在确定项目文本对应的项目类型后，根据项目类型与信息输入位置的对应关系，确定上述项目文本所属的项目类型对应的目标信息输入位置，将上述项目文本以及与项目文本对应的数据文本输入至业务系统中的目标信息位置。

实施中，假设业务系统如图1所示，业务系统中设置有每个项目类型对应的信息输入位置，项目类型可以包括：“血常规检查”、“尿常规检查”、“血脂检查”、“血糖检查”、“肝功能检查”、“肾功能检查”等，图1仅示出业务系统的部分项目类型。在确定项目文本所述的项目类型后，根据项目类型与信息输入位置的对应关系确定上述项目文本对应的项目类型在业务系统中的目标信息输入位置，将项目文本以及与项目文本对应的数据文本输入目标信息输入位置。例如，项目文本为“白细胞”，确定“白细胞”对应的项目类型为“血常规检查”，确定“血常规检查”对应的信息输入位置为目标信息输入位置，将项目文本“白细胞”以及与“白细胞”对应的数据文本“5.5”、“3.5-9.5”、“10^9/L”，“5.5”输入目标信息输入位置，输入后电子业务系统界面如图5所示。

其中，可以按照项目文本以及数据文本在原始图像中的位置将项目文本以及数据文本输入至电子业务系统，也可以根据对待处理图像的目标区域中项目文本以及数据文本识别的先后顺序将项目文本以及数据文本输入至电子业务系统。

本申请实施例还提供一种信息输入方法，在通过OCR技术提取待处理图像中目标区域的项目文本以及数据文本后，通过用户的操作指令将提取出来的项目文本以及数据文本输入到指定目标信息输入位置，完成信息的输入。例如，用户的操作指令可以是将识别出来的项目文本拖拽到目标信息输入位置完成信息的输入。

如图6所示，为本发明实施例提供的一种信息输入方法的完整流程图。

在步骤S601中、确定待处理图像的目标区域；

在步骤S602中、提取待处理图像的目标区域中的项目文本以及与项目文本对应的数据文本；

在步骤S603中、确定项目文本对应的字向量；

在步骤S604中、将项目文本对应的字向量输入已训练的分类神经网络模型，获取已训练的分类神经网络模型输出的上述项目文本对应的项目类型；

在步骤S605中、根据项目类型与业务系统中信息输入位置的对应关系，确定上述项目类型对应的目标信息输入位置；

在步骤S606中、将上述项目文本及与项目文本对应的数据文本输入至目标信息输入位置。

在一种可选的实施方式中，字向量模型是通过下列方式训练得到的：

确定第一训练样本对应的字型图，并将第一训练样本对应的字型图输入已训练的自编码模型，获取已训练的自编码模型输出的第一训练样本对应的字型向量；将第一训练样本对应的字型向量作为字向量模型的输入特征，将表示文本语义特征的字向量作为字向量模型的输出特征，对字向量模型进行训练。

其中，第一训练样本对应的字型向量为第一训练样本对应的字型图的低维特征向量。

具体的，第一训练样本可以是项目文本，也可以是业务所属领域的文本库所包含的语料文本等。以体检信息为例，第一训练样本可以是体检项目文本，如血常规检查所包含的体检项目的项目文本、尿常规检查所包含的体检项目的项目文本；或者是体检业务所属领域的文本库，例如体检业务所属的领域为医学领域，第一训练样本可以是医学领域的文本库所包含的医学语料。

实施中，将第一训练样本对应的字型图输入已训练的自编码模型，获取已训练的自编码模型输出的第一训练样本对应的字型向量。

自编码模型是一个输入和学习目标相同的神经网络模型，其结构分为编码和解码两部分，是一类在半监督学习和非监督学习中使用的人工神经网络模型，其功能是通过将输入信息作为学习目标，对输入信息进行特征学习。自编码模型常被应用于降维和异常值检测。

需要说明的是，自编码模型输出的字型向量为字型图的低维特征向量。实质上，将自编码模型应用于降维处理时，是将自编码模型的中间层作为输出的。

其中，自编码模型的训练方式为现有技术，在此不再赘述。

得到第一训练样本对应的字型向量后，将第一训练样本对应的字型向量作为字向量模型的输入特征，将表示文本语义特征的字向量作为字向量模型的输出，对字向量模型进行训练。

在一种可选的实施方式中，分类神经网络模型是通过下列方式训练得到的：

将多种项目类型的第二训练样本对应的字向量，以及每个第二训练样本对应的项目类型标签作为分类神经网络的输入特征，将每个第二训练样本的项目类型标签为多种项目类型中的每种类型的概率值作为分类神经网络的输出特征，对分类神经网络模型进行训练。

具体的，第二训练样本为多种项目类型的项目文本，在训练分类神经网络模型的过程中，获取第二训练样本对应的字向量。

实施中，可以根据下列方式获取第二训练样本对应的字向量：

确定第二训练样本对应的字型图，并将第二训练样本对应的字型图输入已训练的自编码模型，获取已训练的自编码模型输出的第二训练样本对应的字型向量；将第二训练样本对应的字型向量输入已训练的字向量模型，获取已训练的字向量模型输出的字向量。

其中，第二训练样本对应的字型向量为第二训练样本对应的字型图的低维特征向量。

需要说明的是，可以将在训练分类神经网络模型的过程中得到的第二训练样本对应的字向量保存，在通过本发明实施例提供的信息输入方法处理图像时，若获取到的待处理图像的目标区域中的项目文本包含于第二训练样本，可以直接使用预先存储的在训练分类神经网络模型的过程中得到的项目文本对应的字向量。

在确定第二训练样本对应的字向量后，将第二训练样本对应的字向量以及每个第二训练样本对应的项目类型标签作为分类神经网络的输入特征，将每个第二训练样本对应的项目类型标签为多种项目类型中每种类型的概率值作为分类神经网络模型的输出特征，对分类神经网络模型进行训练。

具体的，分类神经网络模型用于对项目文本进行项目类型的分类，在训练过程中，确定期望分类神经网络模型可以分类的数目，采集相应数目种项目类型的第二训练样本。例如，期望分类神经网络模型可以区分的类别包括“血常规检查”、“尿常规检查”、“肝功能检查”三种，则采集上述三种类型的项目文本作为第二训练样本。

获取多种项目类型的第二训练样本对应的字向量，以及确定每个第二训练样本的项目类型标签，例如，第二训练样本为“白细胞”，对应的字向量为“Vc₁Vc₂Vc₃”，对应的项目类型标签为“血常规检查”；又例如，第二训练样本为“酸碱度”，对应的字向量为“Vc₄Vc₅Vc₆”，对应的项目类型标签为“尿常规检查”等。

将采集到的每个第二训练样本对应的字向量以及每个第二训练样本对应的项目类型标签输入分类神经网络模型，则分类神经网络模型会输出每个第二训练样本的项目类型标签为每种项目类型标签的概率值。

例如，期望分类神经网络模型可以分类的数目为三种，分别是“血常规检查”、“尿常规检查”、“肝功能检查”，以第二训练样本为“酸碱度”为例，将“酸碱度”对应的字向量“Vc₄Vc₅Vc₆”以及对应的项目类型标签“尿常规检查”输入分类神经网络模型，分类神经网络模型会输出“酸碱度”的项目类型标签为“血常规检查”的概率值，假设为0.5；项目类型标签为“尿常规检查”的概率值，假设为0.9；以及项目类型标签为“肝功能检查”的概率值，假设为0.2，通过大量的第二训练样本对分类神经网络模型进行训练，根据分类神经网络模型的输出结果确定损失值，根据损失值对分类神经网络模型的参数进行调整，直至训练完成。

需要说明的是，由于本发明实施例的体检信息中，不同体检类型可能会包含相同的体检项目，例如，体检类型“血常规检查”中体检项目包含“白细胞”，体检类型“尿常规检查”中体检项目也包含“白细胞”，在这种场景下，仅将“白细胞”对应的字向量输入已训练的分类神经网络可能会出现分类错误的情况。

针对上述场景，本发明实施例提供一种训练方法，在具体实施过程中，将采集到的同一项目类型的多个项目文本对应的字向量组成字符串，将上述字符串以及上述项目类型标签作为分类神经网络模型的输入特征，并将同一项目类型的多个项目文本对应的项目类型标签为多种项目类型中的每种类型的概率值作为分类神经网络模型的输出特征，对分类神经网络模型进行训练。

例如，将“白细胞淋巴细胞嗜酸性粒细胞淋巴细胞比率”对应的字向量组成的字符串，以及项目类型标签“血常规检查”输入分类神经网络模型；将“比重酸碱度白细胞亚硝酸盐蛋白酮体”对应的字向量组成的字符串，以及项目类型标签“尿常规检查”输入分类神经网络模型等，获取分类神经网络模型输出的每个多项目文本对应的项目类型标签为每种项目类型标签概率值，根据大量的第二训练样本对分类神经网络模型进行训练，根据分类神经网络模型的输出结果确定损失值，根据损失值对分类神经网络模型的参数进行调整，直至训练完成。

另外，采集到的不同的第二训练样本也可能对应相同的项目类型标签，例如：“白细胞淋巴细胞嗜酸性粒细胞淋巴细胞比率”对应的项目类型标签为“血常规检查”，“白细胞计数淋巴细胞计数嗜酸性粒细胞淋巴细胞比率”对应的项目类型标签也为“血常规检查”，因此，在训练分类神经网络模型的过程中，采集尽可能多的第二训练样本对分类神经网络模型进行训练。

基于同一发明构思，本发明实施例中还提供了一种信息输入装置，由于该信息输入装置解决问题的原理与本发明实施例提供的一种信息输入方法相似，因此该信息输入装置的实施可以参见方法的实施，重复之处不再赘述。

如图7所示，本发明实施例一种信息输入装置，包括：

提取模块700，用于提取待处理图像的目标区域中的项目文本及与项目文本对应的数据文本，并确定所述项目文本对应的用于表示项目文本语义特征的字向量；

分类模块701，用于将确定出的所述项目文本对应的字向量输入已训练的分类神经网络模型，并获取所述已训练的分类神经网络模型输出的所述项目文本对应的项目类型；

确定模块702，用于根据项目类型与业务系统中信息输入位置的对应关系，确定所述项目文本对应的项目类型在所述业务系统中的目标信息输入位置；

输入模块703，用于将所述项目文本及与所述项目文本对应的数据文本输入至所述业务系统中的所述目标信息输入位置。

可选的，所述提取模块700具体用于：

可选的，所述提取模块700用于根据下列方式对字向量模型进行训练：

可选的，所述分类模块701具体用于：用于根据下列方式对所述分类神经网络模型进行训练：

可选的，所示分类模块701用于根据下列方式获取所述第二训练样本对应的字向量：

可选的，所述提取模块700具体用于：

基于同一发明构思，本发明实施例中还提供了一种电子设备，由于该电子设备解决问题的原理与本发明实施例提供的一种信息输入方法相似，因此该电子设备的实施可以参见方法的实施，重复之处不再赘述。

如图8所示，本发明实施例一种电子设备，包括：

处理器800；

用于存储所述处理器可执行指令的存储器801；

其中，所述处理器800被配置为：当所述一个或多个程序被所述一个或多个处理器800执行，使得所述一个或多个处理器800实现下列过程：

具体的，所述处理器800具体被配置为：

具体的，所述处理器800被配置为根据下列方式对字向量模型进行训练：

具体的，所述处理器800被配置为根据下列方式对所述分类神经网络模型进行训练：

具体的，所述处理器800被配置为根据下列方式获取所述第二训练样本对应的字向量：

具体的，所述处理器800具体被配置为：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种信息输入方法，其特征在于，包括：

提取待处理图像的目标区域中的项目文本及与项目文本对应的数据文本，确定所述项目文本对应的字型图，并将所述项目文本对应的字型图输入已训练的自编码模型，获取所述已训练的自编码模型输出的所述项目文本对应的字型向量；其中，所述项目文本对应的字型向量为所述项目文本对应的字型图的低维特征向量；将所述项目文本对应的字型向量输入已训练的字向量模型，获取所述已训练的字向量模型输出的字向量；

2.如权利要求1所述的方法，其特征在于，根据下列方式对字向量模型进行训练：

3.如权利要求1所述的方法，其特征在于，根据下列方式对所述分类神经网络模型进行训练：

4.如权利要求3所述的方法，其特征在于，根据下列方式获取所述第二训练样本对应的字向量：

5.如权利要求1～4任一项所述的方法，其特征在于，所述提取待处理图像的目标区域中的项目文本及与项目文本对应的数据文本，包括：

6.一种信息输入装置，其特征在于，包括：

提取模块，用于提取待处理图像的目标区域中的项目文本及与项目文本对应的数据文本，确定所述项目文本对应的字型图，并将所述项目文本对应的字型图输入已训练的自编码模型，获取所述已训练的自编码模型输出的所述项目文本对应的字型向量；其中，所述项目文本对应的字型向量为所述项目文本对应的字型图的低维特征向量；将所述项目文本对应的字型向量输入已训练的字向量模型，获取所述已训练的字向量模型输出的字向量；

7.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现根据权利要求1至权利要求5中任一项所述的信息输入方法。

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行权利要求1～5中任一项所述的信息输入方法。