CN112667802A

CN112667802A - 业务信息录入方法、装置、服务器和存储介质

Info

Publication number: CN112667802A
Application number: CN202011606750.5A
Authority: CN
Inventors: 王强
Original assignee: OneConnect Financial Technology Co Ltd Shanghai
Current assignee: OneConnect Smart Technology Co Ltd; OneConnect Financial Technology Co Ltd Shanghai
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-16
Also published as: WO2022142635A1

Abstract

本发明涉及一种业务信息录入方法、装置、服务器和存储介质，该方法包括：接收用户在信息录入界面输入的自动录入指令，根据自动录入指令获取相应的业务文本，其中，自动录入指令包含业务标识；根据业务文本的各章节主题和各段落的主题以及信息录入界面的各输入框的主题，确定信息录入界面的各输入框对应的目标抽取段落；利用自然语言处理工具，从信息录入界面的各输入框对应的目标抽取段落抽取业务信息并将业务信息录入输入框。上述方法无需对整篇文本进行信息抽取，不仅降低抽取时间，提高抽取效率和运算速度，而且提高抽取信息的准确性。

Description

业务信息录入方法、装置、服务器和存储介质

技术领域

本发明涉及信息录入技术领域，特别是涉及业务信息录入方法、装置、服务器和存储介质。

背景技术

人们的许多工作都是录入数据，而且这些数据经常是重复的，这样重复低级的工作耗费了人们大量的时间。例如，上市发行相关的信息很多，保荐人录入信息繁琐。在越来越移动化的环境中，数据的录入往往并不方便，面对电脑对人的伤害又是非常严重的，会导致记忆力降低，相对手写的填表，人工电脑录入对健康的负面影响是非常大的，同时人工录入的是对应慢慢，容易疲劳。

发明内容

基于此，有必要针对在进行业务信息录入时，技术人员需要人工编写大量的代码，工作量大，从而降低了测试的效率的问题，提供一种业务信息录入方法、装置、服务器和存储介质。

第一方面提供了一种业务信息录入方法，包括：

接收用户在信息录入界面输入的自动录入指令，根据所述自动录入指令获取相应的业务文本，其中，所述自动录入指令包含业务标识；

根据所述业务文本的各章节主题和各段落的主题以及所述信息录入界面的各输入框的主题，确定所述信息录入界面的各输入框对应的目标抽取段落；

利用自然语言处理工具，从所述信息录入界面的各输入框对应的目标抽取段落抽取业务信息并将所述业务信息录入所述输入框。

在其中一些实施例中，在接收用户在信息录入界面输入的自动录入指令之后，还包括：

根据所述业务标识，确定预设业务数据库中是否存储有与所述业务标识匹配的信息数据包；

如果有，则根据所述信息录入界面的各输入框的主题，从所述信息数据包中提取业务信息录入所述输入框。

在其中一些实施例中，所述根据所述业务文本的各章节主题和各段落的主题以及所述信息录入界面的各输入框的主题，确定所述信息录入界面的各输入框对应的目标抽取段落，包括：

对所述业务文本的各章节主题和各段落的主题进行语义分析，得到主题的关键词；

将所述关键词与预设关键词进行匹配，确定匹配度大于预设阈值的段落为目标抽取段落。

在其中一些实施例中，所述利用自然语言处理工具，从所述信息录入界面的各输入框对应的目标抽取段落抽取业务信息并将所述业务信息录入所述输入框，包括：

根据所述输入框的主题，确定所述待填写的表单中的待填写信息对应的定位词语；

将所述定位词语与所述目标抽取段落进行匹配，得到匹配结果，根据所述匹配结果，确定起始信息和结束信息，根据所述起始信息和结束信息，确定所述目标抽取段落的待抽取区域；

基于信息抽取模型，根据待抽取区域，得到抽取结果并录入所述输入框。

在其中一些实施例中，基于信息抽取模型，根据待抽取区域，得到抽取结果，并录入所述输入框，包括：

使用滑窗将待抽取区域切割成若干个分段；

将分段按照特定字符进行拼接，以得到处理后的数据；

将所述处理后的数据输入信息抽取模型内进行文书抽取，以得到抽取结果并录入所述输入框。

在其中一些实施例中，所述方法还包括：根据所述录入框预定设的数据格式对录入所述录入框的内容进行格式校正。

在其中一些实施例中，所述装置还包括：数据库自动录入单元，用于根据所述业务标识，确定预设业务数据库中是否存储有与所述业务标识匹配的信息数据包；如果有，则根据所述信息录入界面的各输入框的主题，从所述信息数据包中提取业务信息录入所述输入框。

第二方面提供了一种业务信息录入装置，包括：

文本获取单元，用于接收用户在信息录入界面输入的自动录入指令，根据所述自动录入指令获取相应的业务文本，其中，所述自动录入指令包含业务标识；

抽取区域确定单元，用于根据所述业务文本的各章节主题和各段落的主题以及所述信息录入界面的各输入框的主题，确定所述信息录入界面的各输入框对应的目标抽取段落；

抽取区域确定单元，用于利用自然语言处理工具，从所述信息录入界面的各输入框对应的目标抽取段落抽取业务信息并将所述业务信息录入所述输入框。

第三方面提供了一种服务器，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如上述业务信息录入方法的步骤。

第四方面提供了一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述业务信息录入方法的步骤。

上述业务信息录入方法、装置、服务器和存储介质，首先，利用定位词语可在文档中划分出待抽取区域，然后对获取到的文档信息进行切割和格式转换后，输入到已训练的信息抽取模型内进行文书信息的抽取，因此，本申请无需对整篇文档进行信息抽取，并通过抽取规则表达式一次完成定位和抽取信息的过程，不仅降低抽取时间，提高抽取效率和运算速度，而且提高抽取信息的准确性，无需工作人员进行二次筛选，降低工作量。

附图说明

图1为一个实施例中提供的业务信息录入方法的实施环境图；

图2为一个实施例中服务器的内部结构框图；

图3为一个实施例中业务信息录入方法的流程图；

图4为一个实施例中业务信息录入装置的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。

图1为一个实施例中提供的业务信息录入方法的实施环境图，如图1所示，在该实施环境中，包括服务器110以及终端120。

服务器(计算机设备)110为金融机构的服务器，终端120上安装有需要进行业务信息录入的应用，当需要业务信息录入时，可以在服务器110发出业务信息录入请求，该业务信息录入请求中携带有唯一指示业务属性的标识(如IPO文件序列号)，服务器110接收该业务信息录入请求，执行该业务信息录入脚本，获取业务信息录入脚本对应的业务信息录入结果。

需要说明的是，终端120以及服务器110可为智能手机、平板电脑、笔记本电脑、台式计算机等，但并不局限于此。服务器110以及终端110可以通过蓝牙、USB(UniversalSerial Bus，通用串行总线)或者其他通讯连接方式进行连接，本发明在此不做限制。

图2为一个实施例中服务器的内部结构示意图。如图2所示，该服务器包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中，该服务器的非易失性存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种业务信息录入方法。该服务器的处理器用于提供计算和控制能力，支撑整个服务器的运行。该服务器的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行一种业务信息录入方法。该服务器的网络接口用于与终端连接通信。本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的服务器的限定，具体的服务器可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

如图3所示，在一个实施例中，提出了一种业务信息录入方法，该业务信息录入方法可以应用于上述的服务器110中，具体可以包括以下步骤：

步骤301，接收用户在信息录入界面输入的自动录入指令，根据自动录入指令获取相应的业务文本，其中，自动录入指令包含业务标识。

在本实施例中，需要进行信息录入的业务可以是IPO(首次公开募股)业务，IPO意思是首次公开募股，指某公司首次向社会公众公开招股的发行方式，通常为“普通股”。IPO申请指的是公司要向交易所申请上市，通过股市来募集资金发展公司项目。IPO申请材料(即业务文本)就是向交易所、证监会递交的公司财务报表情况的报告，要申请上市的条件之一就是公司过去三年的业绩盈利等等。

在一种实施例中，在网页中生成某个公司(如平安集团)的上市发行相关的信息的一些条目，需要用户在该网页中触发预填指令，该预填指令携带的唯一标识可以是上市公司的名称、公式股票代码、IPO(首次公开募股)文件序列号等，步只要能够唯一指向该公司即可。在该骤中需要根据用户输入的唯一标识获取IPO文本，该网页中需要预填的信息都是通过提取该IPO文件中的内容得到的。

这里的业务文本包括但不限于：本地的文件、数据库，与本机联网的文件和数据库，网页上的各种数据。

在上述步骤步骤301，接收用户在信息录入界面输入的自动录入指令之后，还包括：

根据业务标识，确定预设业务数据库中是否存储有与业务标识匹配的信息数据包；

如果有，则根据信息录入界面的各输入框的主题，从信息数据包中提取业务信息录入输入框。

原则上，某个公司的部分信息是保持不变的，例如，公司图标，公司名称等，故网页界面的部分表格框中的信息可以无需通过IPO文件提取而得到的，具体实现方法可以是，建立数据库，该数据库中存储有多个公司(首次公开募股的公司)的公司信息，每个公司信息都有标注，在进行网页信息填写的时候，只需根据具体的标注将公司信息填充至对应的表格框中即可。

可以理解的是，待抽取文本信息可以是doc格式文档、txt格式的文本文档或html文档等。待抽取文本信息可以是文字，也可以是数字，还可以是文字或数字的组合，本实施例对此不加以限制。

步骤302，根据业务文本的各章节主题和各段落的主题以及信息录入界面的各输入框的主题，确定信息录入界面的各输入框对应的目标抽取段落。

在一种实施例中，可根据用户的需求，自动抽取出文本中的相应段落，无需用户逐一阅读文本内容，提高文本结构化的效率，并且降低工作量。

在一个实施例中，上述步骤具体包括：

步骤3021，对业务文本的各章节主题和各段落的主题进行语义分析，得到主题的关键词；

步骤3022，将关键词与预设关键词进行匹配，确定匹配度大于预设阈值的段落为目标抽取段落。

可以理解的是，该步骤根据抽取需求，利用定位表达式可在文本中划分出待抽取区域，然后对待抽取区域中的文本信息进行信息抽取，因此，无需对整篇文本进行信息抽取，并通过抽取规则表达式一次完成定位和抽取信息的过程。不仅降低抽取时间，提高抽取效率和运算速度，而且提高抽取信息的准确性，无需工作人员进行二次筛选，降低工作量。

步骤303，利用自然语言处理工具，从信息录入界面的各输入框对应的目标抽取段落抽取业务信息并将业务信息录入输入框。

在一种实施例中，上述步骤具体包括：

如图3所示，本申请提供一实施例，当抽取表达式包括词性抽取表达式时，包括如下步骤：

步骤3031，根据输入框的主题，确定待填写的表单中的待填写信息对应的定位词语。

本步骤中，定位表达式包括类型标签和概念，如k_收购、c_方式介词和e_申请提额等，其中，类型标签分为引用类标签和非引用类标签。如c_货币单位。类型标签通常用字母表示，例如k、e和c，其中，k代表关键词类型；e代表业务要素类型；c代表通用词语类型。k所代表的类型，表示其后面的概念可以直接用来进行匹配；e和c所代表的类型必须需要预先建模或引用语义模型中的概念值表达式列表进行匹配，即k为非引用类标签，e和c为引用类标签。由此可知，定位表达式用来在文本中划分出来固定的抽取区域，以达到精准抽取的目的，可满足不同的抽取需求，并且抽取结果更加精确。

步骤3032，将定位词语与目标抽取段落进行匹配，得到匹配结果，根据匹配结果，确定起始信息和结束信息，根据起始信息和结束信息，确定目标抽取段落的待抽取区域；

本步骤中，首先，文档中包括多个文本段落，且可以位于文档中的不同位置，对文档进行处理，从而得到目标格式文档的文本段落，各文本段落的定位信息，文本段落的定位信息中可以至少包括文本段落的定位坐标信息，用于对文本段落进行定位。然后，根据待填写表单的对应的文本段落中，将段落中与前置定位词语相匹配的词语确定为起始信息，将段落中与后置定位词语相匹配的词语确定为结束信息。

例如，如果定位词语同时含有前置定位词语和后置定位词语，且匹配之后，段落中仅存在一个起始信息和一个结束信息，则将起始信息语结束信息之间的区域确定为待抽取区域。

如果定位词语和同时含有前置定位词语后置定位词语，且匹配之后，段落中有多个起始信息和一个结束信息，且该结束信息位于所有起始信息之后，则将该段落划分出多个抽取区域，即第一个起始信息到第二个起始信息之间为第一抽取区域，第二个起始信息到第三个起始信息为第二区域，以此类推，直至最后一个起始信息到结束信息之间为最后一个抽取区域。

如果定位词语同时含有前置定位词语和后置定位词语，且匹配之后，段落中有多个起始信息和一个结束信息，且该结束信息位于第一起始信息和最后一个起始信息之间，则将该段落划分出多个抽取区域，即第一个起始信息到第二个起始信息之间为第一抽取区域，第二个起始信息到第三个起始信息为第二区域，以此类推，直至最靠近结束信息并在结束信息之前的起始信息到结束信息之间为最后一个抽取区域。

如果定位词语同时含有前置定位词语和后置定位词语，且匹配之后，段落中有多个起始信息和一个结束信息，且该结束信息位于第一个起始信息之前，则将该段落无抽取区域。

步骤3033，基于信息抽取模型，根据待抽取区域，得到抽取结果并录入输入框。

在一种实施例中，上述步骤具体包括：

步骤401、使用滑窗将待抽取区域切割成若干个分段。

其中，分段是指从待抽取区域内截选出来的信息，该分段的长度等于滑窗的长度。对待抽取区域采用滑窗处理，即使用一个滑动的窗口每次截取待抽取区域的一部分作为分段，截取之后窗口以一定的步长往前移动得到下一条分段直到窗口到达待抽取区域的尾部，滑窗处理对待抽取区域生成多个分段。

步骤402、将分段按照特定字符进行拼接，以得到处理后的数据。

例如，将目标字段名与分段用特殊字符([CLS]与[SEP])拼接，得到输入[CLS]目标字段名[SEP]分段[SEP]。其中，目标字段名是指代表所抽取文书信息与之相关的字段名，比如目标字段名为姓名，则所抽取文书信息则为某个人名。

步骤403、将处理后的数据输入信息抽取模型内进行文书抽取，以得到抽取结果并录入输入框。

本步骤中，信息抽取模型是通过采用带有文书信息标签的样本数据训练阅读理解模型所得的。例如，信息抽取模型的训练采用阅读理解模型fine tune方法进行训练的，fine tune方法即迁移学习不是一种算法而是一种机器学习思想，应用到深度学习就是微调，通过修改预训练阅读理解模型的结构如修改样本类别输出个数，选择性载入预训练阅读理解模型权重，通常是载入除最后的全连接层的之前所有层，也叫瓶颈层，再用样本数据重新训练阅读理解模型，以达到微调，微调能够快速训练好一个模型，用相对较小的数据量，还能达到不错的结果。finetune方法具体是冻结预训练模型的部分卷积层通常是靠近输入的多数卷积层，训练剩下的卷积层通常是靠近输出的部分卷积层和全连接层。

与现有技术相比，本申请首先，利用定位词语可在文档中划分出待抽取区域，然后对获取到的文档信息进行切割和格式转换后，输入到已训练的信息抽取模型内进行文书信息的抽取，因此，本申请无需对整篇文档进行信息抽取，并通过抽取规则表达式一次完成定位和抽取信息的过程，不仅降低抽取时间，提高抽取效率和运算速度，而且提高抽取信息的准确性，无需工作人员进行二次筛选，降低工作量。

如图4所示，在一个实施例中，提供了一种业务信息录入装置，该业务信息录入装置可以集成于上述的服务器110中，具体可以包括：

文本获取单元411，用于接收用户在信息录入界面输入的自动录入指令，根据自动录入指令获取相应的业务文本，其中，自动录入指令包含业务标识；

目标抽取区域确定单元412，用于根据业务文本的各章节主题和各段落的主题以及信息录入界面的各输入框的主题，确定信息录入界面的各输入框对应的目标抽取段落；

抽取单元413，用于利用自然语言处理工具，从信息录入界面的各输入框对应的目标抽取段落抽取业务信息并将业务信息录入输入框。

所述装置还包括：数据库自动录入单元，用于根据所述业务标识，确定预设业务数据库中是否存储有与所述业务标识匹配的信息数据包；如果有，则根据所述信息录入界面的各输入框的主题，从所述信息数据包中提取业务信息录入所述输入框。

该装置还包括：数据库自动录入单元，用于根据所述业务标识，确定预设业务数据库中是否存储有与所述业务标识匹配的信息数据包；如果有，则根据所述信息录入界面的各输入框的主题，从所述信息数据包中提取业务信息录入所述输入框。

在一个实施例中，提出了一种服务器，服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：接收用户在信息录入界面输入的自动录入指令，根据自动录入指令获取相应的业务文本，其中，自动录入指令包含业务标识；根据业务文本的各章节主题和各段落的主题以及信息录入界面的各输入框的主题，确定信息录入界面的各输入框对应的目标抽取段落；利用自然语言处理工具，从信息录入界面的各输入框对应的目标抽取段落抽取业务信息并将业务信息录入输入框。

在一个实施例中，处理器执行接收用户在信息录入界面输入的自动录入指令之后还执行以下步骤：根据业务标识，确定预设业务数据库中是否存储有与业务标识匹配的信息数据包；如果有，则根据信息录入界面的各输入框的主题，从信息数据包中提取业务信息录入输入框。

在一个实施例中，处理器所执行的根据业务文本的各章节主题和各段落的主题以及信息录入界面的各输入框的主题，确定信息录入界面的各输入框对应的目标抽取段落的步骤包括：对业务文本的各章节主题和各段落的主题进行语义分析，得到主题的关键词；将关键词与预设关键词进行匹配，确定匹配度大于预设阈值的段落为目标抽取段落。

在一个实施例中，处理器所执行的利用自然语言处理工具，从信息录入界面的各输入框对应的目标抽取段落抽取业务信息并将业务信息录入输入框的步骤包括：根据输入框的主题，确定待填写的表单中的待填写信息对应的定位词语；将定位词语与目标抽取段落进行匹配，得到匹配结果，根据匹配结果，确定起始信息和结束信息，根据起始信息和结束信息，确定目标抽取段落的待抽取区域；基于信息抽取模型，根据待抽取区域，得到抽取结果并录入输入框。

在一个实施例中，处理器所执行的基于信息抽取模型，根据待抽取区域，得到抽取结果，并录入输入框的步骤包括：使用滑窗将待抽取区域切割成若干个分段；将分段按照特定字符进行拼接，以得到处理后的数据；将处理后的数据输入信息抽取模型内进行文书抽取，以得到抽取结果并录入输入框。

在一个实施例中，处理器还执行以下步骤：根据录入框预定设的数据格式对录入录入框的内容进行格式校正。

在一个实施例中，提出了一种存储有计算机可读指令的存储介质，该计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：接收用户在信息录入界面输入的自动录入指令，根据自动录入指令获取相应的业务文本，其中，自动录入指令包含业务标识；根据业务文本的各章节主题和各段落的主题以及信息录入界面的各输入框的主题，确定信息录入界面的各输入框对应的目标抽取段落；利用自然语言处理工具，从信息录入界面的各输入框对应的目标抽取段落抽取业务信息并将业务信息录入输入框。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种业务信息录入方法，其特征在于，包括：

2.根据权利要求1所述的业务信息录入方法，其特征在于，在接收用户在信息录入界面输入的自动录入指令之后，还包括：

3.根据权利要求1所述的业务信息录入方法，其特征在于，所述根据所述业务文本的各章节主题和各段落的主题以及所述信息录入界面的各输入框的主题，确定所述信息录入界面的各输入框对应的目标抽取段落，包括：

4.根据权利要求3所述的业务信息录入方法，其特征在于，所述利用自然语言处理工具，从所述信息录入界面的各输入框对应的目标抽取段落抽取业务信息并将所述业务信息录入所述输入框，包括：

5.根据权利要求4所述的业务信息录入方法，其特征在于，基于信息抽取模型，根据待抽取区域，得到抽取结果，并录入所述输入框，包括：

使用滑窗将待抽取区域切割成若干个分段；

将分段按照特定字符进行拼接，以得到处理后的数据；

6.根据权利要求1所述的业务信息录入方法，其特征在于，所述方法还包括：根据所述录入框预定设的数据格式对录入所述录入框的内容进行格式校正。

7.一种业务信息录入装置，其特征在于，包括：

8.根据权利要求7所述的业务信息录入装置，其特征在于，所述装置还包括：

数据库自动录入单元，用于根据所述业务标识，确定预设业务数据库中是否存储有与所述业务标识匹配的信息数据包；如果有，则根据所述信息录入界面的各输入框的主题，从所述信息数据包中提取业务信息录入所述输入框。

9.一种服务器，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项权利要求所述业务信息录入方法的步骤。

10.一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述业务信息录入方法的步骤。