CN115860686A - 一种数据录入方法、装置、设备及介质 - Google Patents
一种数据录入方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115860686A CN115860686A CN202211668993.0A CN202211668993A CN115860686A CN 115860686 A CN115860686 A CN 115860686A CN 202211668993 A CN202211668993 A CN 202211668993A CN 115860686 A CN115860686 A CN 115860686A
- Authority
- CN
- China
- Prior art keywords
- identification element
- content
- image
- content corresponding
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本申请涉及数据处理技术领域,尤其涉及一种数据录入方法、装置、设备及介质。在接收到数据录入的指令时,对待录入信用证的图像中的内容进行识别,获取图像中包含的文本信息,并基于预先训练完成的实体提取模型对文本信息进行处理,从而得到文本信息中包括的每个识别要素对应的内容,实现了准确、快捷的将信用证中的数据信息录入到电子设备中,提高了工作效率及准确率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种数据录入方法、装置、设备及介质。
背景技术
目前,出口审单业务中,基于非本行通知的信用证交单数量逐年提升,在对信用证的信息进行审核时,一般是经办业务人员收到客户的非本行通知的信用证的交单申请后,对客户所提供的信用证进行扫描,并由单证业务人员根据扫描后的影像,将信用证的影像中所需要进行审核的数据信息逐一录入到电子设备中。但是,由于信用证的内容复杂、格式内容多样,由业务人员逐一录入常常会耗费较多的时间,工作效率较低,且容易出现录入错误的问题。
因此,如何准确、快捷的将信用证中的数据信息录入到电子设备中成为亟待解决的问题。
发明内容
本申请实施提供一种数据录入方法、装置、设备及介质,用以解决现有技术中人工录入信用证中的数据信息效率较低、且准确率较低的问题。
本申请实施例提供了一种数据录入方法,所述方法包括:
接收数据录入的指令,所述指令中携带有待录入信用证的图像;
对所述图像中的内容进行识别,获取所述待录入信用证的图像中包含的文本信息;
基于预先训练完成的实体提取模型对所述文本信息进行处理,得到所述文本信息中包括的每个识别要素及对应的内容并保存。
进一步地,若所述指令中还携带有其他文件的图像,所述对所述图像中的内容进行识别,获取所述待录入信用证的图像中包含的文本信息包括:
针对所述指令中的每个图像,对该图像中的内容进行识别,获取该图像中包含的文本信息;
基于预先训练完成的分类模型对获取到的每个图像对应的文本信息进行处理,获取所述分类模型输出的所述待录入信用证对应的文本信息。
进一步地,所述得到所述文本信息中包括的每个识别要素及对应的内容之后,将每个识别要素及对应的内容保存之前,所述方法还包括:
针对得到的每个识别要素,根据预先保存的每个要素与数据类型之间的对应关系,确定该识别要素对应的目标数据类型;根据所述目标数据类型对应的数据要求,若确定对该识别要素对应的内容进行调整,则采用预先保存的数据对该识别要素对应的内容进行调整,并采用调整后的内容对该识别要素对应的内容进行更新。
进一步地,所述根据所述目标数据类型对应的数据要求,确定是否对该识别要素对应的内容进行调整包括:
若所述目标数据类型为数字类型,判断该识别要素对应的内容是否均由数字组成,若该识别要素对应的内容不均由数据组成,确定对该识别要素对应的内容进行调整;
所述采用预先保存的数据对该识别要素对应的内容进行调整包括:
获取该识别要素对应的内容中包括的非数字文本,采用预先保存的所述非数字文本对应的目标数字对所述非数字文本进行替换。
进一步地,所述根据所述目标数据类型对应的数据要求,确定是否对该识别要素对应的内容进行调整包括:
若所述目标数据类型为非数字类型,判断预先保存的每个关键词中是否存在与该识别要素对应的内容相似的目标关键词,若存在,确定对该识别要素对应的内容进行调整;
所述采用预先保存的数据对该识别要素对应的内容进行调整包括:
采用所述目标关键词对该识别要素对应的内容进行替换。
进一步地,所述方法还包括:
若接收到纠错的修改指令,所述修改指令中携带有待修改要素及进行修改的修改文本,使用所述修改文本对所述待修改要素对应的内容进行替换。
本申请实施例还提供了一种数据录入装置,所述装置包括:
接收模块,用于接收数据录入的指令,所述指令中携带有待录入信用证的图像;
识别模块,用于对所述图像中的内容进行识别,获取所述待录入信用证的图像中包含的文本信息;
提取模块,用于基于预先训练完成的实体提取模型对所述文本信息进行处理,得到所述文本信息中包括的每个识别要素及对应的内容并保存。
进一步地,若所述指令中还携带有其他文件的图像,所述识别模块,具体用于针对所述指令中的每个图像,对该图像中的内容进行识别,获取该图像中包含的文本信息;基于预先训练完成的分类模型对获取到的每个图像对应的文本信息进行处理,获取所述分类模型输出的所述待录入信用证对应的文本信息。
进一步地,所述装置还包括:
调整模块,用于针对得到的每个识别要素,根据预先保存的每个要素与数据类型之间的对应关系,确定该识别要素对应的目标数据类型;根据所述目标数据类型对应的数据要求,若确定对该识别要素对应的内容进行调整,则采用预先保存的数据对该识别要素对应的内容进行调整,并采用调整后的内容对该识别要素对应的内容进行更新。
进一步地,所述调整模块,具体用于若所述目标数据类型为数字类型,判断该识别要素对应的内容是否均由数字组成,若该识别要素对应的内容不均由数据组成,确定对该识别要素对应的内容进行调整;获取该识别要素对应的内容中包括的非数字文本,采用预先保存的所述非数字文本对应的目标数字对所述非数字文本进行替换。
进一步地,所述调整模块,具体用于若所述目标数据类型为非数字类型,判断预先保存的每个关键词中是否存在与该识别要素对应的内容相似的目标关键词,若存在,确定对该识别要素对应的内容进行调整;采用所述目标关键词对该识别要素对应的内容进行替换。
进一步地,所述调整模块,还用于若接收到纠错的修改指令,所述修改指令中携带有待修改要素及进行修改的修改文本,使用所述修改文本对所述待修改要素对应的内容进行替换。
本申请实施例还提供了一种电子设备,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如上述任一项所述数据录入方法的步骤。
本申请实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述数据录入方法的步骤。
本申请实施例还提供了一种计算机程序产品,其计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行如上述任一项所述数据录入方法的步骤。
由于在本申请实施例中,在接收到数据录入的指令时,对待录入信用证的图像中的内容进行识别,获取图像中包含的文本信息,并基于预先训练完成的实体提取模型对文本信息进行处理,从而得到文本信息中包括的每个识别要素对应的内容,实现了准确、快捷的将信用证中的数据信息录入到电子设备中,提高了工作效率及准确率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据录入过程示意图;
图2为本申请实施例提供的识别要素展示界面示意图;
图3为本申请实施例提供的数据录入过程示意图;
图4为本申请实施例提供的数据录入过程另一示意图;
图5为本申请实施例提供的一种数据录入装置结构示意图;
图6为本申请实施例提供的一种电子设备结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图,对本申请的实施例的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
为了准确、快捷的将信用证中的数据信息录入到电子设备中,本申请实施例提供了一种数据录入方法、装置、设备及介质。
在本申请实施例中,接收数据录入的指令,该指令中携带有待录入信用证的图像,对图像中的内容进行识别,获取待录入信用证的图像中包含的文本信息,基于预先训练完成的实体提取模型对文本信息进行处理,得到文本信息中包括的每个识别要素及对应的内容并保存。
实施例1:
图1为本申请实施例提供的一种数据录入过程示意图,该过程包括以下步骤:
S101:接收数据录入的指令,所述指令中携带有待录入信用证的图像。
本申请实施例提供的数据录入方法应用于电子设备,该电子设备可以是服务器、PC等智能设备。
目前非本行通知的信用证登记处理基本上由人工线下手工录入完成,但是由于信用证内容复杂、单证种类繁多、格式内容多样,录入处理过程常常耗费很多的时间,并且信用证中包括的名称、地址、各种编号内容复杂,手工录入容易出错。为了将信用证的数据信息录入到电子设备中,电子设备在接收到数据录入的指令时,可以获取指令中携带的待录入信用证的图像,该指令可以是电子设备的使用者发送的,也可以是其他设备在满足预先设定的时间周期时生成的指令并发送给电子设备的。
如果该指令是电子设备的使用者发送的,指令中携带的待录入信用证的图像,可以是电子设备的使用者使用图像采集设备采集到待录入信用证的图像之后,将采集到的图像存储到电子设备的特定存储路径下,在电子设备的使用者点击“提交”或者“完成”等按钮时,从而生成携带该特定存储路径的指令发送给电子设备。
如果该指令是其他设备发送给电子设备的,指令中携带的待录入信用证的图像,可以是其他设备在满足预先设定的时间周期时,在指定存储路径下获取到,并携带在指令中发送给的电子设备的,该指定存储路径中保存的每个图像是其他设备的使用者存储的。
S102:对所述图像中的内容进行识别,获取所述待录入信用证的图像中包含的文本信息。
接收到数据录入的指令之后,可以对待录入信用证的图像中的内容进行识别,以获取该待录入信用证的图像中包含的文本信息。对图像中包括的内容进行识别,以获取到图像中包含的文本信息,相关技术中包括很多识别方法,且已进行了详细的说明,本领域的技术人员可以根据需要选择不同的识别方法。具体的,在对待录入信用证的图像中的内容进行识别时,可以基于智能字符识别(Intelligent Character Recognition,ICR)对待录入信用证的图像进行识别,以获取待录入信用证的图像中包含的文本信息。
S103:基于预先训练完成的实体提取模型对所述文本信息进行处理,得到所述文本信息中包括的每个识别要素及对应的内容并保存。
获取到待录入信用证的图像中包含的文本信息之后,为了能够从文本信息中提取到需要进行审核保存的内容,在本申请实施例中,可以基于预先训练完成的实体提取模型对图像中包含的文本信息进行处理,得到文本信息中包括的每个识别要素对应的内容,其中,识别要素可以是名称、地址、信用证编号等数据信息。对文本信息进行处理的实体提取模型,可以是BERT(Bidirectional Encoder Representation from Transformers)模型、双向长短记忆神经网络(Bi-LSTM)等模型。
获取到文本信息中包括的每个识别要素及对应的内容之后,可以将每个识别要素及对应的内容保存到数据库中,或者指定的文件中,以便于工作人员对待录入信用证中的每个识别要素对应的内容进行审核。
由于在本申请实施例中,在接收到数据录入的指令时,对待录入信用证的图像中的内容进行识别,获取图像中包含的文本信息,并基于预先训练完成的实体提取模型对文本信息进行处理,从而得到文本信息中包括的每个识别要素对应的内容,实现了准确、快捷的将信用证中的数据信息录入到电子设备中,提高了工作效率及准确率。
实施例2:
为了提高数据录入的准确率,在上述实施例的基础上,在本申请实施例中,若所述指令中还携带有其他文件的图像,所述对所述图像中的内容进行识别,获取所述待录入信用证的图像中包含的文本信息包括:
针对所述指令中的每个图像,对该图像中的内容进行识别,获取该图像中包含的文本信息;
基于预先训练完成的分类模型对获取到的每个图像对应的文本信息进行处理,获取所述分类模型输出的所述待录入信用证对应的文本信息。
由于在审单业务中,进行业务办理的客户需要提供多个证明文件,例如,信用证、出口递交单据清单、信用证交单申请书等文件,在本申请实施例中可以将这些证明文件的图像一并发送给电子设备。
电子设备在接收到数据录入的录入指令之后,若确定该指令中还携带有其他文件的图像,为了获取到待录入信用证的图像中包含的文本信息,可以针对该指令中携带的每个图像,对该图像中的内容进行识别,以获取到该图像中包含的文本信息。对图像中的内容进行识别,在上述实施例中已经进行了详细的说明,在此不再赘述。
由于获取到的每个图像中包含的文本信息是不知道归属于哪个文件的,因此,为了确定待录入信用证对应的文本信息,在本申请实施例中,在获取到指令中的每个图像中包含的文本信息之后,可以基于预先训练完成的分类模型对获取到的每个图像对应的文本信息进行处理,从而获取到分类模型输出的待录入信用证对应的文本信息。其中,分类模型可以是决策树、支持向量机(Support Vector Machine,SVM)、逻辑回归模型(LogisticRegression,LR)等,本领域的技术人员可以根据需要进行选择,在此不做限制。
具体的,为了方便分类模型对文本信息进行处理,在本申请实施例中,可以基于词频-逆向文件频率(term frequency–inverse document frequency,TF-IDF)算法将文本信息进行向量化处理,并将得到的文本信息对应的向量输入到LR模型中,使LR模型对向量进行分类处理,确定待录入信用证对应的文本信息。
实施例3:
为了进一步提高数据录入的准确率,在上述各实施例的基础上,在本申请实施例中,所述得到所述文本信息中包括的每个识别要素及对应的内容之后,将每个识别要素及对应的内容保存之前,所述方法还包括:
针对得到的每个识别要素,根据预先保存的每个要素与数据类型之间的对应关系,确定该识别要素对应的目标数据类型;根据所述目标数据类型对应的数据要求,若确定对该识别要素对应的内容进行调整,则采用预先保存的数据对该识别要素对应的内容进行调整,并采用调整后的内容对该识别要素对应的内容进行更新。
为了避免因待录入信用证的图像不清楚,导致对图像中的内容识别出错的问题,在得到文本信息中包括的每个识别要素及对应的内容之后,将每个识别要素及对应的内容保存之前,为了进一步提高数据导入的准确率,可以对每个识别要素对应的内容进行纠错校验。
在本申请实施例中,可以针对得到的每个识别要素,根据预先保存的每个要素及数据类型之间的对应关系,确定该识别要素对应的目标数据类型。在本申请实施例中,可以根据每个识别要素对应的内容是否均由数字组成,将数据类型分为数字类型和非数字类型。
确定了该识别要素对应的目标数据类型之后,可以确定该识别要素对应的内容是否满足目标数据类型对应的数据要求,当不满足目标数据类型对应的数据要求时,可以认为该识别要素对应的内容可能存在错误,需要对该识别要素对应的内容进行调整。
具体的,为了进一步提高数据录入的准确率,在上述各实施例的基础上,在本申请实施例中,所述根据所述目标数据类型对应的数据要求,确定是否对该识别要素对应的内容进行调整包括:
若所述目标数据类型为数字类型,判断该识别要素对应的内容是否均由数字组成,若该识别要素对应的内容不均由数据组成,确定对该识别要素对应的内容进行调整;
所述采用预先保存的数据对该识别要素对应的内容进行调整包括:
获取该识别要素对应的内容中包括的非数字文本,采用预先保存的所述非数字文本对应的目标数字对所述非数字文本进行替换。
在确定是否对该识别要素对应的内容进行调整时,在本申请实施例中,可以确定该识别要素对应的目标数据类型是否为数字类型,若是,则可以进一步判断该识别要素对应的内容是否均由数字组成,当该识别要素对应的内容不均由数字组成时,可以认为对该识别要素对应的内容可能识别错误,需要对该识别要素对应的内容进行调整。
由于在进行内容识别时,容易将数字0识别为字母O,将数字6识别为字母b,将数字8识别为字母B,因此在本申请实施例中,预先保存有可能识别出的字母与数字之间对应关系,例如,O对应0,B对应8,b对应6。
在对该识别要素对应的内容进行调整时,获取该识别要素对应的内容中包括的非数字文本,采用预先保存的该非数字文本对应的目标数字对应该非数字文本进行替换。
具体的,假设识别要素A对应的目标数据类型为数字类型,该识别要素A对应的内容为2022011B,由于2022011B中不均由数字组成,最后一位为字母B,预先保存的该非数字文本B对应的目标数字为8,可以使用目标数字8对2022011B中的字母B进行替换,从而得到调整后的内容20220118。
为了进一步提高数据录入的准确率,在上述各实施例的基础上,在本申请实施例中,所述根据所述目标数据类型对应的数据要求,确定是否对该识别要素对应的内容进行调整包括:
若所述目标数据类型为非数字类型,判断预先保存的每个关键词中是否存在与该识别要素对应的内容相似的目标关键词,若存在,确定对该识别要素对应的内容进行调整;
所述采用预先保存的数据对该识别要素对应的内容进行调整包括:
采用所述目标关键词对该识别要素对应的内容进行替换。
由于识别要素中不止包括数字类型的内容,还包括了非数字类型的内容,为了对非数字类型的内容进行纠错校验,以进一步提高数据录入的准确率,在本申请实施例中,预先保存有信用证中可能出现的关键词。在确定目标数据类型为非数字类型时,可以判断预先保存的每个关键词中是否存在与该识别要素对应的内容相似的目标关键词。
在确定目标关键词时,可以针对预先保存的每个关键词,确定该识别要素对应的内容与该关键词的相似度,当相似度大于预设阈值时,可以将该关键词确定为目标关键词。若确定的多个关键词的相似度均大于预设阈值,在本申请实施例中,可以将相似度最高的关键词确定为目标关键词。在确定识别要素对应的内容与该关键词的相似度时,可以基于欧氏距离、余弦相似度等文本相似度算法进行相似度的确定,确定文本相似度的过程为现有技术,在本申请实施例中不再赘述。
若预先保存的每个关键词中存在与该识别要素对应的内容相似的目标关键词,则可以认为该识别要素对应的内容可能存在错误,确定对该识别要素对应的内容进行调整,在对该识别要素对应的内容进行调整时,采用确定的目标关键词对该识别要素对应的内容进行替换,即将该识别要素对应的内容更改为目标关键词。
具体的,假设识别要素B的目标数据类型为非数字类型,该识别要素B对应的内容为USO,预先保存的每个关键词中存在与该识别要素对应的内容USO相似的目标关键词USD,则使用USD对该识别要素对应的内容进行替换,得到调整后的内容USD。
在得到了调整后的内容之后,可以采用该调整后的内容对该识别要素对应的内容进行更新。
实施例4:
为了进一步提高数据录入的准确率,在上述各实施例的基础上,在本申请实施例中,所述方法还包括:
若接收到纠错的修改指令,所述修改指令中携带有待修改要素及进行修改的修改文本,使用所述修改文本对所述待修改要素对应的内容进行替换。
为了进一步提高数据录入的准确率,电子设备的使用者还可以查看已经保存的每个识别要素对应的内容。当认为某一个识别要素对应的内容错误时,电子设备的使用者可以发出纠错的修改指令,当电子设备接收到纠错的修改指令之后,可以获取该修改指令中携带的待修改要素及进行修改的修改文本,使用该修改文本对该待修改要素对应的内容进行替换。
具体的,在本申请实施例中,可以将待录入信用证的图像,以及得到的每个识别要素及对应的内容同时显示,如图2所示,图2为本申请实施例提供的识别要素展示界面示意图,图2中的左侧(图示的左右)为指令中携带的待录入信用证的图像,图2中的右侧(图示的左右)为得到的文本信息中包括的每个识别要素及对应的内容。假设电子设备的使用者确定图2中标识为1的识别要素对应的内容有误,电子设备的使用者可以在图2中的左侧选择正确的内容并点击复制,电子设备在监测到复制的操作之后,可获取电子设备的使用者所选择的内容,将该内容确定为修改文本,电子设备的使用者点击完复制之后,可以在图2中右侧对应的识别要素对应的输入框中点击粘贴,电子设备在监测到粘贴的操作之后,将当前所选中的输入框对应的识别要素确定为待修改要素,并在已保存的每个识别要素中查找该待修改要素对应的内容,使用修改文本对该内容进行替换,并将修改后的各识别要素对应的内容在图2中的右侧进行显示,以便于电子设备的使用者再次确定每个识别要素的内容是否正确。
下面结合一个具体的实施例对数据录入过程进行说明,图3为本申请实施例提供的数据录入过程示意图,如图3所示,该过程包括以下步骤:
S301:接收数据录入的指令,基于ICR技术识别指令中携带的信用证的图像中的内容并保存。
S302:若接收到人工处理指令,则执行S307,否则,执行S303-S304。
S303:基于预先训练完成的实体提取模型对所述文本信息进行处理,得到文本信息中包括的每个识别要素及对应的内容,对每个识别要素及对应的内容进行纠错处理。
S304:将确定的每个识别要素对应的内容进行显示,若接收到将识别要素的内容进行保存的指令,则执行S305,否则,执行S306。
S305:将每个识别要素及对应的内容保存到数据库的数据表中。
S306:将每个识别要素及对应的内容删除,并等待电子设备的使用者录入每个识别要素对应的内容。
S307:将识别到的图像中的内容输出,并等待电子设备的使用者录入信用证包括的内容。
在本申请实施例中,识别到图像中包括的内容之后,电子设备的使用者可以选择由电子设备自动录入数据,也可以选择由人工录入数据。当电子设备的使用者选择人工录入数据时,电子设备可以将识别到的内容输出,以便于电子设备的使用者从电子设备识别到的内容中选择所需要的识别要素度对应的内容,并复制黏贴到对应的输入框中,完成数据的录入。在本申请实施例中,虽然数据是由人工输入到识别要素对应的输入框中的,但是电子设备的使用者可以基于电子设备识别到的待录入信用证的图像中包含的文本信息,直接复制需要的识别要素对应的内容,不必再手动输入,提高了工作效率。
由于一些图像的质量问题可能会导致对图像中的内容识别失败,因此,为了方便电子设备的使用者查看对图像中的内容进行识别的结果,电子设备在识别完图像中包括的内容之后,可以将识别结果输出,该识别结果可以为识别失败或识别成功。
下面结合另一个实施例对本申请的数据录入过程进行说明,图4为本申请实施例提供的数据录入过程另一示意图。如图4所示,电子设备可以接收用户登记扫描的各文件的图像,其中,文件可以包括信用证、发票、汇票、箱单、提单、空运单、保单等。
获取到各文件的图像之后,基于ICR技术对每个图像中的内容进行识别,得到每个图像中包含的文本信息。
获取到每个图像的文本信息之后,基于预先训练完成的分类模型对获取到的每个图像对应的文本信息进行处理,获取分类模型输出的待录入信用证对应的文本信息。
获取到待录入信用证对应的文本信息之后,基于预先训练完成的实体提取模型对文本信息进行处理,得到文本信息中包括的每个识别要素及对应的内容。
获取到文本信息中包括的每个识别要素及对应的内容之后,确定每个识别要素是否需要进行内容的调整,以保证识别要素对应的内容的准确性,在上述各实施例中已经对如何对识别要素的内容进行调整进行了详细的说明,在此不再赘述。
在对每个识别要素对应的内容的正确性进行校验之后,将每个识别要素及对应的内容保存,并在可视化界面中进行显示。
实施例5:
图5为本申请实施例提供的一种数据录入装置结构示意图,该装置包括:
接收模块501,用于接收数据录入的指令,所述指令中携带有待录入信用证的图像;
识别模块502,用于对所述图像中的内容进行识别,获取所述待录入信用证的图像中包含的文本信息;
提取模块503,用于基于预先训练完成的实体提取模型对所述文本信息进行处理,得到所述文本信息中包括的每个识别要素及对应的内容并保存。
在一种可能的实施方式中,若所述指令中还携带有其他文件的图像,所述识别模块502,具体用于针对所述指令中的每个图像,对该图像中的内容进行识别,获取该图像中包含的文本信息;基于预先训练完成的分类模型对获取到的每个图像对应的文本信息进行处理,获取所述分类模型输出的所述待录入信用证对应的文本信息。
在一种可能的实施方式中,所述装置还包括:
调整模块504,用于针对得到的每个识别要素,根据预先保存的每个要素与数据类型之间的对应关系,确定该识别要素对应的目标数据类型;根据所述目标数据类型对应的数据要求,若确定对该识别要素对应的内容进行调整,则采用预先保存的数据对该识别要素对应的内容进行调整,并采用调整后的内容对该识别要素对应的内容进行更新。
在一种可能的实施方式中,所述调整模块504,具体用于若所述目标数据类型为数字类型,判断该识别要素对应的内容是否均由数字组成,若该识别要素对应的内容不均由数据组成,确定对该识别要素对应的内容进行调整;获取该识别要素对应的内容中包括的非数字文本,采用预先保存的所述非数字文本对应的目标数字对所述非数字文本进行替换。
在一种可能的实施方式中,所述调整模块504,具体用于若所述目标数据类型为非数字类型,判断预先保存的每个关键词中是否存在与该识别要素对应的内容相似的目标关键词,若存在,确定对该识别要素对应的内容进行调整;采用所述目标关键词对该识别要素对应的内容进行替换。
在一种可能的实施方式中,所述调整模块504,还用于若接收到纠错的修改指令,所述修改指令中携带有待修改要素及进行修改的修改文本,使用所述修改文本对所述待修改要素对应的内容进行替换。
实施例6:
在上述实施例的基础上,本申请实施例还提供了一种电子设备,图6为本申请实施例提供的一种电子设备结构示意图,如图6所示,包括:处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信;
存储器603中存储有计算机程序,当程序被处理器601执行时,使得处理器601执行如下步骤:
接收数据录入的指令,所述指令中携带有待录入信用证的图像;
对所述图像中的内容进行识别,获取所述待录入信用证的图像中包含的文本信息;
基于预先训练完成的实体提取模型对所述文本信息进行处理,得到所述文本信息中包括的每个识别要素及对应的内容并保存。
在一种可能的实施方式中,所述处理器601,若所述指令中还携带有其他文件的图像,针对所述指令中的每个图像,对该图像中的内容进行识别,获取该图像中包含的文本信息;
基于预先训练完成的分类模型对获取到的每个图像对应的文本信息进行处理,获取所述分类模型输出的所述待录入信用证对应的文本信息。
在一种可能的实施方式中,所述处理器601,针对得到的每个识别要素,根据预先保存的每个要素与数据类型之间的对应关系,确定该识别要素对应的目标数据类型;根据所述目标数据类型对应的数据要求,若确定对该识别要素对应的内容进行调整,则采用预先保存的数据对该识别要素对应的内容进行调整,并采用调整后的内容对该识别要素对应的内容进行更新。
在一种可能的实施方式中,所述处理器601,若所述目标数据类型为数字类型,判断该识别要素对应的内容是否均由数字组成,若该识别要素对应的内容不均由数据组成,确定对该识别要素对应的内容进行调整;
获取该识别要素对应的内容中包括的非数字文本,采用预先保存的所述非数字文本对应的目标数字对所述非数字文本进行替换。
在一种可能的实施方式中,所述处理器601,若所述目标数据类型为非数字类型,判断预先保存的每个关键词中是否存在与该识别要素对应的内容相似的目标关键词,若存在,确定对该识别要素对应的内容进行调整;
采用所述目标关键词对该识别要素对应的内容进行替换。
在一种可能的实施方式中,所述处理器601,若接收到纠错的修改指令,所述修改指令中携带有待修改要素及进行修改的修改文本,使用所述修改文本对所述待修改要素对应的内容进行替换。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口602用于上述电子设备与其他设备之间的通信。存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-VolatileMemory,NVM),例如至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述处理器可以是通用处理器,包括中央处理器、网络处理器(NetworkProcessor,NP)等;还可以是数字指令处理器(Digital Signal Processing,DSP)、专用集成电路、现场可编程门陈列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
实施例7:
在上述各实施例的基础上,本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有可由处理器执行的计算机程序,当程序在处理器上运行时,使得处理器执行时实现如下步骤:
接收数据录入的指令,所述指令中携带有待录入信用证的图像;
对所述图像中的内容进行识别,获取所述待录入信用证的图像中包含的文本信息;
基于预先训练完成的实体提取模型对所述文本信息进行处理,得到所述文本信息中包括的每个识别要素及对应的内容并保存。
在一种可能的实施方式中,若所述指令中还携带有其他文件的图像,所述对所述图像中的内容进行识别,获取所述待录入信用证的图像中包含的文本信息包括:
针对所述指令中的每个图像,对该图像中的内容进行识别,获取该图像中包含的文本信息;
基于预先训练完成的分类模型对获取到的每个图像对应的文本信息进行处理,获取所述分类模型输出的所述待录入信用证对应的文本信息。
在一种可能的实施方式中,所述得到所述文本信息中包括的每个识别要素及对应的内容之后,将每个识别要素及对应的内容保存之前,所述方法还包括:
针对得到的每个识别要素,根据预先保存的每个要素与数据类型之间的对应关系,确定该识别要素对应的目标数据类型;根据所述目标数据类型对应的数据要求,若确定对该识别要素对应的内容进行调整,则采用预先保存的数据对该识别要素对应的内容进行调整,并采用调整后的内容对该识别要素对应的内容进行更新。
在一种可能的实施方式中,所述根据所述目标数据类型对应的数据要求,确定是否对该识别要素对应的内容进行调整包括:
若所述目标数据类型为数字类型,判断该识别要素对应的内容是否均由数字组成,若该识别要素对应的内容不均由数据组成,确定对该识别要素对应的内容进行调整;
所述采用预先保存的数据对该识别要素对应的内容进行调整包括:
获取该识别要素对应的内容中包括的非数字文本,采用预先保存的所述非数字文本对应的目标数字对所述非数字文本进行替换。
在一种可能的实施方式中,所述根据所述目标数据类型对应的数据要求,确定是否对该识别要素对应的内容进行调整包括:
若所述目标数据类型为非数字类型,判断预先保存的每个关键词中是否存在与该识别要素对应的内容相似的目标关键词,若存在,确定对该识别要素对应的内容进行调整;
所述采用预先保存的数据对该识别要素对应的内容进行调整包括:
采用所述目标关键词对该识别要素对应的内容进行替换。
在一种可能的实施方式中,所述方法还包括:
若接收到纠错的修改指令,所述修改指令中携带有待修改要素及进行修改的修改文本,使用所述修改文本对所述待修改要素对应的内容进行替换。
实施例8:
本申请实施例还提供了一种计算机程序产品,该计算机程序产品被计算机执行时实现上述应用于电子设备的任一方法实施例所述的数据录入方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令,在计算机上加载和执行所述计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。
由于在本申请实施例中,在接收到数据录入的指令时,对待录入信用证的图像中的内容进行识别,获取图像中包含的文本信息,并基于预先训练完成的实体提取模型对文本信息进行处理,从而得到文本信息中包括的每个识别要素对应的内容,实现了准确、快捷的将信用证中的数据信息录入到电子设备中,提高了工作效率及准确率。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (15)
1.一种数据录入方法,其特征在于,所述方法包括:
接收数据录入的指令,所述指令中携带有待录入信用证的图像;
对所述图像中的内容进行识别,获取所述待录入信用证的图像中包含的文本信息;
基于预先训练完成的实体提取模型对所述文本信息进行处理,得到所述文本信息中包括的每个识别要素及对应的内容并保存。
2.根据权利要求1所述的方法,其特征在于,若所述指令中还携带有其他文件的图像,所述对所述图像中的内容进行识别,获取所述待录入信用证的图像中包含的文本信息包括:
针对所述指令中的每个图像,对该图像中的内容进行识别,获取该图像中包含的文本信息;
基于预先训练完成的分类模型对获取到的每个图像对应的文本信息进行处理,获取所述分类模型输出的所述待录入信用证对应的文本信息。
3.根据权利要求1所述的方法,其特征在于,所述得到所述文本信息中包括的每个识别要素及对应的内容之后,将每个识别要素及对应的内容保存之前,所述方法还包括:
针对得到的每个识别要素,根据预先保存的每个要素与数据类型之间的对应关系,确定该识别要素对应的目标数据类型;根据所述目标数据类型对应的数据要求,若确定对该识别要素对应的内容进行调整,则采用预先保存的数据对该识别要素对应的内容进行调整,并采用调整后的内容对该识别要素对应的内容进行更新。
4.根据权利要求3所述的方法,其特征在于,所述根据所述目标数据类型对应的数据要求,确定是否对该识别要素对应的内容进行调整包括:
若所述目标数据类型为数字类型,判断该识别要素对应的内容是否均由数字组成,若该识别要素对应的内容不均由数据组成,确定对该识别要素对应的内容进行调整;
所述采用预先保存的数据对该识别要素对应的内容进行调整包括:
获取该识别要素对应的内容中包括的非数字文本,采用预先保存的所述非数字文本对应的目标数字对所述非数字文本进行替换。
5.根据权利要求3所述的方法,其特征在于,所述根据所述目标数据类型对应的数据要求,确定是否对该识别要素对应的内容进行调整包括:
若所述目标数据类型为非数字类型,判断预先保存的每个关键词中是否存在与该识别要素对应的内容相似的目标关键词,若存在,确定对该识别要素对应的内容进行调整;
所述采用预先保存的数据对该识别要素对应的内容进行调整包括:
采用所述目标关键词对该识别要素对应的内容进行替换。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若接收到纠错的修改指令,所述修改指令中携带有待修改要素及进行修改的修改文本,使用所述修改文本对所述待修改要素对应的内容进行替换。
7.一种数据录入装置,其特征在于,所述装置包括:
接收模块,用于接收数据录入的指令,所述指令中携带有待录入信用证的图像;
识别模块,用于对所述图像中的内容进行识别,获取所述待录入信用证的图像中包含的文本信息;
提取模块,用于基于预先训练完成的实体提取模型对所述文本信息进行处理,得到所述文本信息中包括的每个识别要素及对应的内容并保存。
8.根据权利要求7所述的装置,其特征在于,若所述指令中还携带有其他文件的图像,所述识别模块,具体用于针对所述指令中的每个图像,对该图像中的内容进行识别,获取该图像中包含的文本信息;基于预先训练完成的分类模型对获取到的每个图像对应的文本信息进行处理,获取所述分类模型输出的所述待录入信用证对应的文本信息。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
调整模块,用于针对得到的每个识别要素,根据预先保存的每个要素与数据类型之间的对应关系,确定该识别要素对应的目标数据类型;根据所述目标数据类型对应的数据要求,若确定对该识别要素对应的内容进行调整,则采用预先保存的数据对该识别要素对应的内容进行调整,并采用调整后的内容对该识别要素对应的内容进行更新。
10.根据权利要求9所述的装置,其特征在于,所述调整模块,具体用于若所述目标数据类型为数字类型,判断该识别要素对应的内容是否均由数字组成,若该识别要素对应的内容不均由数据组成,确定对该识别要素对应的内容进行调整;获取该识别要素对应的内容中包括的非数字文本,采用预先保存的所述非数字文本对应的目标数字对所述非数字文本进行替换。
11.根据权利要求9所述的装置,其特征在于,所述调整模块,具体用于若所述目标数据类型为非数字类型,判断预先保存的每个关键词中是否存在与该识别要素对应的内容相似的目标关键词,若存在,确定对该识别要素对应的内容进行调整;采用所述目标关键词对该识别要素对应的内容进行替换。
12.根据权利要求7所述的装置,其特征在于,所述调整模块,还用于若接收到纠错的修改指令,所述修改指令中携带有待修改要素及进行修改的修改文本,使用所述修改文本对所述待修改要素对应的内容进行替换。
13.一种电子设备,其特征在于,所述电子设备至少包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序时实现如上述权利要求1-6任一项所述的数据录入方法的步骤。
14.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如上述权利要求1-6任一项所述的数据录入方法的步骤。
15.一种计算机程序产品,其特征在于,其计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行如上述权利要求1-6任一项所述的数据录入方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211668993.0A CN115860686A (zh) | 2022-12-23 | 2022-12-23 | 一种数据录入方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211668993.0A CN115860686A (zh) | 2022-12-23 | 2022-12-23 | 一种数据录入方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115860686A true CN115860686A (zh) | 2023-03-28 |
Family
ID=85654521
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211668993.0A Pending CN115860686A (zh) | 2022-12-23 | 2022-12-23 | 一种数据录入方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115860686A (zh) |
-
2022
- 2022-12-23 CN CN202211668993.0A patent/CN115860686A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10402163B2 (en) | Intelligent data extraction | |
US9639900B2 (en) | Systems and methods for tax data capture and use | |
JP6528147B2 (ja) | 会計データ入力支援システム、方法およびプログラム | |
US20180144205A1 (en) | Extracting card identification data | |
CN112036295B (zh) | 票据图像处理方法、装置、存储介质及电子设备 | |
US20240135352A1 (en) | System and process for electronic payments | |
US20190188464A1 (en) | Systems and methods for enrollment and identity management using mobile imaging | |
US10878232B2 (en) | Automated processing of receipts and invoices | |
US11023720B1 (en) | Document parsing using multistage machine learning | |
US11477330B2 (en) | Information processing device, information processing system, and non-transitory computer readable medium for providing suggestions to reconcile an inconsistency between content of related documents | |
CN112989990A (zh) | 医疗票据识别方法、装置、设备及存储介质 | |
CN111462388A (zh) | 一种票据检验方法、装置、终端设备及存储介质 | |
US11966970B2 (en) | Method and system for performing income analysis from source documents | |
CN109214362B (zh) | 单据处理方法及相关设备 | |
WO2021174869A1 (zh) | 用户图片数据的处理方法、装置、计算机设备及存储介质 | |
CN113158988A (zh) | 财务报表处理方法、装置以及计算机可读存储介质 | |
US20190155887A1 (en) | Methods and devices for enabling computers to automatically enter information into a unified database from heterogeneous documents | |
CN116664066B (zh) | 一种管理企业计划收入与实际收入的方法及系统 | |
US20140279642A1 (en) | Systems and methods for enrollment and identity management using mobile imaging | |
CN111639903A (zh) | 一种针对架构变更的评审处理方法及相关设备 | |
CN116823422A (zh) | 一种表单数据处理方法及装置 | |
US20190057456A1 (en) | System and methods thereof for associating electronic documents to evidence | |
CN115860686A (zh) | 一种数据录入方法、装置、设备及介质 | |
CN115760438A (zh) | 数字化动态核保系统、方法、设备及存储介质 | |
JP6870159B1 (ja) | データ処理装置、データ処理方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |