CN117743615A

CN117743615A - 基于自然语言的数据处理方法及处理平台

Info

Publication number: CN117743615A
Application number: CN202410183026.8A
Authority: CN
Inventors: 姜超泽
Original assignee: Smart Control Nanjing Intelligent Technology Co ltd
Current assignee: Smart Control Nanjing Intelligent Technology Co ltd
Priority date: 2024-02-19
Filing date: 2024-02-19
Publication date: 2024-03-22
Anticipated expiration: 2044-02-19
Also published as: CN117743615B

Abstract

本发明提供一种基于自然语言的数据处理方法及处理平台，接收需求端的需求语言，根据需求语言对文本库中的文本数据进行处理，得到需求表，需求表中包括与各目标文本对应的多个维度标题；根据维度标题提取目标文本中的文本区域，获取文本区域的文本属性，基于文本属性对文本区域进行截取，得到与目标文本的维度标题对应的凭证图像；接收需求端基于需求表生成的凭证需求，根据凭证需求确定凭证策略，凭证策略包括单一策略和汇总策略；根据凭证策略对凭证图像进行处理生成凭证数据，将所述凭证数据发送至所述需求端。

Description

基于自然语言的数据处理方法及处理平台

技术领域

本发明涉及数据处理技术，尤其涉及一种基于自然语言的数据处理方法及处理平台。

背景技术

自然语言通常是指一种随着文化演化的语言，随着信息技术的不断发展，大量的自然语言数据积累在各种文本库中，比如，企业之间的交易合同等，这些文本蕴含了丰富的信息。

现有技术中，需要用户依据自身需求使用复杂的检索语言从庞大的数据库中逐一检索出所需的数据并进行统计，比如，搜索企业之间交易合同的信息，无法依据与用户需求相关的自然语言自动化对合同数据库中的数据进行筛选并展示，并且无法对统计的数据进行验证，使得用户统计工作量较大，且无法进行验证，以确保数据的准确性。

因此，如何依据与用户需求相关的自然语言进行自动化筛选数据，以多维度的形式展示，并依据数据属性绑定图像的方式，方便后续用户进行验证和查看，成为亟待解决的问题。

发明内容

本发明实施例提供一种基于自然语言的数据处理方法及平台,可以依据与用户需求相关的自然语言进行自动化筛选数据，以多维度的形式展示，并依据数据属性绑定图像的方式，方便后续用户进行验证和查看。

本发明实施例的第一方面，提供一种基于自然语言的数据处理方法，包括：

接收需求端的需求语言，根据所述需求语言对文本库中的文本数据进行处理，得到需求表，所述需求表中包括与各目标文本对应的多个维度标题；

根据所述维度标题提取所述目标文本中的文本区域，获取所述文本区域的文本属性，基于所述文本属性对所述文本区域进行截取，得到与所述目标文本的维度标题对应的凭证图像；

接收所述需求端基于所述需求表生成的凭证需求，根据所述凭证需求确定凭证策略，所述凭证策略包括单一策略和汇总策略；

根据所述凭证策略对所述凭证图像进行处理生成凭证数据，将所述凭证数据发送至所述需求端。

可选地，在第一方面的一种可能实现方式中，所述接收需求端的需求语言，根据所述需求语言对文本库中的文本数据进行处理，得到需求表，包括：

接收需求端的需求语言，所述需求语言包括筛选需求语言和维度需求语言；

对所述筛选需求语言进行分词处理得到筛选维度，对所述维度需求语言进行分词处理得到需求维度；

基于所述筛选维度和所述需求维度对文本库中的文本数据进行处理，得到需求表。

可选地，在第一方面的一种可能实现方式中，所述基于所述筛选维度和所述需求维度对文本库中的文本数据进行处理，得到需求表，包括：

基于所述筛选维度对文本库中的文本数据进行筛选处理，得到目标文本，获取所述目标文本的标题作为文本标题，并将所述需求维度作为维度标题；

调取初始表，所述初始表包括文本填充列和维度填充行，依次填充所述文本标题至所述文本填充列，填充所述维度标题至维度填充行；

基于所述维度标题确定所述目标文本中的定位标题，以及所述定位标题所处的文本区域，提取所述文本区域内所述定位标题后方的识别数据，将所述识别数据填充至与所述目标文本的维度标题对应的需求单元格，得到需求表。

可选地，在第一方面的一种可能实现方式中，所述根据所述维度标题提取所述目标文本中的文本区域，获取所述文本区域的文本属性，基于所述文本属性对所述文本区域进行截取，得到与所述目标文本的维度标题对应的凭证图像，包括：

根据所述维度标题提取所述目标文本中的文本区域，获取所述文本区域内所有数据的像素值作为识别像素值；

确定存在所述识别像素值处于预设像素值区间内，将相应所述文本区域的文本属性作为截取文本属性；

根据所述截取文本属性将与所述目标文本的维度标题对应的需求单元格作为凭证单元格；

基于所述截取文本属性对相应所述文本区域进行截取，得到与所述凭证单元格对应的凭证图像。

可选地，在第一方面的一种可能实现方式中，所述基于所述截取文本属性对相应所述文本区域进行截取，得到与所述凭证单元格对应的凭证图像，包括：

基于所述截取文本属性调取预设截取框，所述调取预设截取框具有预设定位中线；

根据所述维度标题获取所述目标文本中的定位标题，所述定位标题具有对应的标题像素值，并基于所述标题像素值提取所述定位标题对应的标题像素点；

在各所述定位标题处构建定位坐标系，根据所述标题像素点在所述定位坐标系中确定最小纵坐标和最大纵坐标；

根据所述最小纵坐标和最大纵坐标，得到各所述定位标题对应的标题定位中线；

将所述预设定位中线与所述标题定位中线进行重叠，基于所述预设截取框对相应所述文本区域进行截取，得到与所述凭证单元格对应的凭证图像。

可选地，在第一方面的一种可能实现方式中，还包括：

获取各所述目标文本中位于同一页面的所述预设截取框作为待处理截取框，并获取多个所述待处理截取框之间横向边框线的相距距离；

确定所述相距距离小于等于预设距离，将相应所述待处理截取框作为相邻截取框；

获取相应所述相邻截取框中相邻的横向边框线作为横向相邻线，并将与所述横向相邻线连接的2个顶点作为纵向连接点；

删除所述横向相邻线，并连接位于多个所述相邻截取框同一侧的纵向连接点，得到合并截取框；

根据所述合并截取框对多个相应的所述文本区域进行截取，得到多个相应所述凭证单元格对应的合并凭证图像。

可选地，在第一方面的一种可能实现方式中，还包括：

基于所述预设像素值区间确定所述相邻截取框中所有的截取像素点，并在各所述相邻截取框中构建截取坐标系；

根据所述截取像素点在所述截取坐标系中确定最大横坐标作为截取坐标，根据所述截取坐标确定竖向截取线；

根据所述竖向截取线对相应所述相邻截取框进行截取，得到具有截取像素点的异形相邻框；

获取所述异形相邻框中相邻的横向边框线作为异形相邻线，并将与所述异形相邻线连接的2个顶点作为异形连接点；

删除所述异形相邻线，并连接位于多个所述异形相邻框同一侧的异形连接点，得到异形截取框；

根据所述异形截取框对多个相应的所述文本区域进行截取，得到多个相应所述凭证单元格对应的异形凭证图像。

可选地，在第一方面的一种可能实现方式中，所述接收所述需求端基于所述需求表生成的凭证需求，根据所述凭证需求确定凭证策略，包括：

接收所述需求端对所述需求表中所述凭证单元格的触发信息，生成单一凭证需求，根据所述单一凭证需求确定凭证策略为单一策略；

接收所述需求端对所述需求表中所述文本标题的触发信息，生成汇总凭证需求，根据所述汇总凭证需求确定凭证策略为汇总策略，所述凭证需求包括所述单一凭证需求和所述汇总凭证需求。

可选地，在第一方面的一种可能实现方式中，所述根据所述凭证策略对所述凭证图像进行处理生成凭证数据，将所述凭证数据发送至所述需求端，包括：

确定所述凭证策略为单一策略，将相应所述凭证单元格的凭证图像作为凭证数据，将所述凭证数据发送至所述需求端；

确定所述凭证策略为汇总策略，依次获取相应所述文本标题对应所述凭证单元格的凭证图像，得到图像序列；

基于所述图像序列中的凭证图像生成凭证视频帧，并组合所述凭证视频帧生成凭证数据发送至所述需求端。

本发明实施例的第二方面，提供一种基于自然语言的数据处理平台，包括：

处理模块,用于接收需求端的需求语言，根据所述需求语言对文本库中的文本数据进行处理，得到需求表，所述需求表中包括与各目标文本对应的多个维度标题；

提取模块,用于根据所述维度标题提取所述目标文本中的文本区域，获取所述文本区域的文本属性，基于所述文本属性对所述文本区域进行截取，得到与所述目标文本的维度标题对应的凭证图像；

生成模块,用于接收所述需求端基于所述需求表生成的凭证需求，根据所述凭证需求确定凭证策略，所述凭证策略包括单一策略和汇总策略；

发送模块,用于根据所述凭证策略对所述凭证图像进行处理生成凭证数据，将所述凭证数据发送至所述需求端。

本发明的有益效果如下：

1、本发明会依据用户的需求语言对文本库的数据进行自动化筛选，以表格形式对数据以多个维度进行展示，并且依据文本属性的不同绑定相应的凭证图像，可以依据用户的需求不同生成对应的凭证数据，方便用户进行查看，并且可以通过凭证数据进行验证所展示数据的准确性。本发明依据用户的需求语言对文本库中的文本数据进行筛选处理，从而生成与用户需求语言对应的需求表，通过多个需求维度对用户所需求的数据进行展示，方便用户查看提升了用户的体验，本发明还会对文本区域内的文本属性进行判断，如果为用户手写的数据，则会对文本区域进行图像截取，从而得到凭证图像，并且依据用户的凭证需求，可以生成相应的凭证图像或者汇总凭证图像得到的视频对需求端进行展示，方便用户直观查看，并且用户可以通过凭证数据对需求表的内容进行验证。

2、本发明会依据需求语言对文本库中的文本数据进行自动筛处理，从而得到需求表，通过需求表以多个需求维度展示与需求语言对应的数据，方便用户进行查看。本发明会对筛选需求语言和维度需求语言进行分词处理，即，通过自然语言处理，得到多个筛选维度和需求维度，通过筛选维度和需求维度对筛选维度和需求维度进行筛选得到与目标数据对应的识别数据，将该识别数据填充至相应目标文本处的需求维度下，从而得到需求表，使得本发明可以对用户需求的数据以多维度的形式进行展示，方便用户进行观察。

3、本发明会文本区域内的目标数据进行自动判断，如果是截取文本属性则会通过预设截取框对文本区域进行截取，从而得到凭证单元格对应的凭证图像。本发明会对目标数据的目标像素值与预设像素值区间进行判断，确定该文本区域内的目标数据是否为手写的数据，如果是手写的截取文本属性，则会对文本区域进行截取，得到凭证图像，方便后续用户通过凭证图像进行直观查看，本发明会依据坐标系确定维度标识的标识定位点，并将预设截取框的预设定位点与标识定位点重叠，随后通过预设截取框对文本区域进行截取，从而得到凭证图像。并且本发明可以依据需求端不同的凭证需求生成相应的凭证数据，如果用户仅对凭证单元格进行触发则会确定单一策略，通过单一策略获取被触发的凭证单元格对应的凭证图像，如果用户对文本标题进行触发，则确定汇总策略，依据汇总策略将与所有文本标题对应所述凭证单元格的凭证图像依次生成相应的视频帧，并进行组合生成凭证视频发送至需求端，本发明可以以多角度方式对用户进行展所需求的数据，方便用户进行观察的同时，可以通过图片和视频对相应凭证单元格的数据进行验证。

4、本发明可以对处于同一页面且相邻的预设截取框进行合并处理，进行共同截取，使得合并凭证图像对应多个凭证单元格，并且对多余的空白区域进行去除，从而减少数据存储量，减少了调取负担。本发明会将处于同一页面内的预设截取框作为待处理截取框，并依据多个待处理截取框边框线之间的相距距离小于等于预设距离，则将相应的待处理截取框作为相邻截取框，并依据不同的位置关系进行删除相邻的边框线和连接相应的连接点，使得边框进行合并，并且在处于纵向相邻关系下可以自动对截取框中空白的部分进行截取生成异形相邻框进行异形融合，从而去除了无关的空白区域，减少了数据存储量。

附图说明

图1为本发明所提供的一种基于自然语言的数据处理方法的流程图；

图2为本发明所提供的一种初始表的示意图；

图3为本发明所提供的一种需求表的示意图；

图4为本发明所提供的一种凭证图像的示意图；

图5为本发明所提供的一种合并截取框的示意图；

图6为本发明所提供的一种异形相邻框的示意图；

图7为本发明所提供的一种基于自然语言的数据处理平台的结构示意图。

具体实施方式

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

本发明提供一种基于自然语言的数据处理方法，如图1所示，包括步骤S1-S4：

S1，接收需求端的需求语言，根据所述需求语言对文本库中的文本数据进行处理，得到需求表，所述需求表中包括与各目标文本对应的多个维度标题。

需要说明的是，目前用户需要搜索到所需的文本数据，需要通过较为复杂的搜索规则一一搜索所需文本，并对文本内的数据进行逐一统计，从而得到与用户需求对应的统计表格或文本，比如，用户需要21年的销售合同中所有交易的甲方、乙方和金额，使用上述统计方式，需要逐一搜索相应的销售合同，再定位该销售合同中的数据，由于上述方式无法实现自动化处理，所以，需要消耗大量的时间，从而降低了用户的体验。

因此，本发明通过接收需求端的需求语言，利用需求语言对文本库中的文本数据进行筛选，从而得到需求表，需求表包括与各目标文本对应的多个维度标题。

其中，需求端可以是发送需求的用户端，需求语言为需求端发送的与之需求对应的自然语言，文本库可以是合同文本库，比如，用于存放用户所有交易合同的文本库，文本数据可以是合同文本库中的合同文本。

通过上述实施方式，本发明可以依据用户的自然语言自动化对文本库中的数据进行筛选从而生成需求表，后续会以多维度的方式进行展示，方便用户进行观察。

在一些实施例中，步骤S1中的（接收需求端的需求语言，根据所述需求语言对文本库中的文本数据进行处理，得到需求表），包括S11-S13：

S11，接收需求端的需求语言，所述需求语言包括筛选需求语言和维度需求语言。

可以理解的是，需求语言包括筛选需求语言和维度需求语言，比如，用户可以分别输入或录入2段自然语言，分别是筛选需求语言和维度需求语言，方便后续依据该筛选需求语言和维度需求语言对文本库中的数据进行自动筛选。其中，筛选需求语言为用于筛选目标文本的自然语言，维度需求语言为用于筛选目标文本中所需目标数据的自然语言。可以通过间隔时间的方式依次输入筛选需求语言和维度需求语言，也可以在不同的输入框汇中输入筛选需求语言和维度需求语言，在此不做限定。

例如，用户输入2021年11月所有的销售合同和所有甲方、乙方和金额的自然语言。

S12，对所述筛选需求语言进行分词处理得到筛选维度，对所述维度需求语言进行分词处理得到需求维度。

可以理解的是，服务器会对筛选需求语言进行分词处理得到筛选维度，对所述维度需求语言进行分词处理得到需求维度，不难理解的是，对自然语言进行分词处理为现有技术，在此不做赘述。

其中，筛选维度为对筛选需求语言分词处理后得到的筛选分词，需求维度为对维度需求语言分词处理后得到的维度分词。

例如，对2021年11月所有的销售合同进行分词处理后，得到2021年11月关于时间的筛选维度和销售合同关于合同类型的筛选维度，方便后续利用时间和合同类型筛选出目标文本。对所有甲方、乙方、金额进行分词处理，得到甲方、乙方、金额的需求维度，方便后续利用需求维度提取目标文本中相同维度位置后填写区域的目标数据。

S13，基于所述筛选维度和所述需求维度对文本库中的文本数据进行处理，得到需求表。

可以理解的是，服务器会基于筛选维度和所述需求维度对文本库中的文本数据进行筛选处理，得到需求表。

在一些实施例中，步骤S13中的（基于所述筛选维度和所述需求维度对文本库中的文本数据进行处理，得到需求表），包括S131-S133：

S131，基于所述筛选维度对文本库中的文本数据进行筛选处理，得到目标文本，获取所述目标文本的标题作为文本标题，并将所述需求维度作为维度标题。

可以理解的是，服务器会基于筛选维度对文本库中的文本数据进行筛选处理，得到目标文本，并获取目标文本的标题作为文本标题，并将所述需求维度作为维度标题。

例如，依据2021年11月和销售合同对合同文本库中的合同进行筛选，即筛选合同文本库中2021年11月份内所有的销售合同，从而得到合同A和合同B，其中，合同A和合同B即为目标文本，文本标题为A和B，将需求维度甲方、乙方和金额作为维度标题。

S132，调取初始表，所述初始表包括文本填充列和维度填充行，依次填充所述文本标题至所述文本填充列，填充所述维度标题至维度填充行。

可以理解的是，服务器会调取初始表，该初始表包括文本填充列和维度填充行，依次填充所述文本标题至所述文本填充列，填充所述维度标题至维度填充行。

其中，文本填充列为人为预设的填充文本标题的一列单元格，维度填充行为人为预设的填充维度标题的一行单元格。

例如，参见图2，将文本标题的A和B依次填充至文本填充列，将维度标题的甲方、乙方和金额依次填充至维度填充行。

S133，基于所述维度标题确定所述目标文本中的定位标题，以及所述定位标题所处的文本区域，提取所述文本区域内所述定位标题后方的识别数据，将所述识别数据填充至与所述目标文本的维度标题对应的需求单元格，得到需求表。

可以理解的是，服务器会基于维度标题确定所述目标文本中的定位标题，以及定位标题所处的文本区域，并提取所述文本区域内所述定位标题后方的识别数据。

比如，维度标题为甲方，通过维度标题定位合同A中甲方所处的一个段落作为文本区域，并识别合同A中甲方标题后方的张三进行提取，张三则为识别数据。

其中，文本区域可以是定位标题在目标文本中所处段落的区域，比如，合同A中甲方所处一行的区域，识别数据为对文本区域内定位标题后方的数据识别得到的数据。

进一步的，将所述识别数据填充至与所述目标文本的维度标题对应的需求单元格，得到需求表。

例如，参见图3，服务器会依据甲方、乙方和金额确定合同A和合同B中甲方、乙方和金额标题所处的文本区域，对文本区域内的定位标题后方的数据进行识别并提取，比如，合同A中，甲方：张三，乙方：李四，金额：100元，对张三、李四和100元进行识别从而得到识别数据，合同B中，甲方：王五，乙方：赵六，金额：200元，对王五、赵六和 200元进行识别从而得到识别数据，将张三填充至合同A的甲方所对应的需求单元格内，将李四填充至合同A的乙方所对应的需求单元格内，将100元填充至合同A的金额所对应的需求单元格内，合同B同理，从而得到需求表。

通过上述实施方式，本发明可以依据用户的需求语言对文本库的数据进行自动化筛选，以表格形式对数据以多个维度进行展示，方便用户进行查看，提升用户体验，并且节省了大量的搜索时间。

不难理解的是，甲方和乙方存在处于同一文本区域的情况，因此，本发明在识别数据时，会以两个定位标题之间的识别数据作为前一个定位标题的数据，将最后一个定位标题后方的识别数据作为该定位标题的识别数据，即，进行提取识别数据时，会以定位标题为分界线，依次提取与之对应的识别数据方便后续填充至相应的需求单元格内。

在上述实施例的基础上，还包括：

判断所述文本区域内具有多个定位标题时，则依次提取所述文本区域内两个所述定位标题之间的识别数据作为前一个定位标题的填充数据，将所述填充数据填充至与所述目标文本的维度标题对应的需求单元格。

不难理解的是，如果判断文本区域内具有多个定位标题，比如，同时具有合同C内同一段落处具有甲方和乙方。

进一步的，依次提取所述文本区域内两个所述定位标题之间的识别数据作为前一个定位标题的填充数据，比如，提取甲方和乙方之间的孙七作为甲方的填充数据，将该填充数据填充至合同C的甲方对应的需求单元格处。

提取所述文本区域内末尾的定位标题后方的识别数据，将所述识别数据填充至与所述目标文本的维度标题对应的需求单元格。

不难理解的是，最后一个定位标题后方的识别数据与最后一个定位标题想对应，则将该填充数据填充至与所述目标文本的维度标题对应的需求单元格。比如，甲方和乙方中乙方后面为吴九，则将吴九填充至合同C的乙方对的需求单元格处，并且人员还可以对需求表进行主动修改。

不难理解的是，目标文本中定位标题后面的数据可以是机打数据，也可以是手写数据，如果是手写数据，在进行文字识别时，存在错误的可能性，比如，手写的张三识别为张二，因此，本发明后续会判断文本区域的字体是否为手写字体，如果是手写字体则会对该文本区域进行截图，与相应的单元格进行绑定，方便后续用户可以触发相应的单元格调取该手写字体对应的截图，方便进行检验。

S2，根据所述维度标题提取所述目标文本中的文本区域，获取所述文本区域的文本属性，基于所述文本属性对所述文本区域进行截取，得到与所述目标文本的维度标题对应的凭证图像。

可以理解的是，根据维度标题提取目标文本中相同标题所处的文本区域，并获取文本区域的文本属性，即判断该文本区域内的数据是否具有手写的数据，如果具有手写的数据，则基于文本属性对所述文本区域进行截取，得到与所述目标文本的维度标题对应的凭证图像。

在一些实施例中，步骤S2中的（根据所述需求维度提取所述目标文本中的文本区域，获取所述文本区域的文本属性，基于所述文本属性对所述文本区域进行截取，得到所述需求维度对应的凭证图像），包括S21-S24：

S21，根据所述维度标题提取所述目标文本中的文本区域，获取所述文本区域内所有数据的像素值作为识别像素值。

可以理解的是，根据维度标题提取所述目标文本中的文本区域，即，依据维度标题确定目标文本中相应标题（即，定位标题）所处的段落作为文本区域，并获取文本区域内所有数据的像素值作为识别像素值，比如，获取合同A中甲方所处段落内所有字体的像素值作为识别像素值。

S22，确定存在所述识别像素值处于预设像素值区间内，将相应所述文本区域的文本属性作为截取文本属性。

需要说明的是，不同人员书写字体具有各自的特点，在自然语言识别过程中较为容易出现错误，比如，将张三识别为张二，因此，后续本发明会直接对签字区域进行自动截取，后续人员进行查看时，直接调取相应的图片进行展示。

可以理解的是，服务器判断存在识别像素值处于预设像素值区间内时，则将相应文本区域的文本属性作为截取文本属性。

其中，预设像素值区间可以是手写字体对应的像素值区间，可以是人为依据实际情况设置的。截取文本属性可以是手写文本对应的属性。

比如，合同A中甲方所处段落中张三是手写的字体，因此该文本区域内具有处于预设像素值区间的字体，则将该文本区域的文本属性作为截取文本属性。

不难理解的是，当判断该文本区域内的具有手写字体时，将该文本区域的文本属性作为截取文本属性。

通过上述实施方式，本发明通过手写像素值与机打像素值不同，从而判断该文本区域内是否具有手写的字体。

S23，根据所述截取文本属性将与所述目标文本的维度标题对应的需求单元格作为凭证单元格。

可以理解的是，确定该文本区域的文本属性为截取文本属性后，可以依据该文本区域定位到目标文本的维度标题对应的需求单元格，并将该需求单元格作为凭证单元格。

不难理解的是，文本区域是由维度标题和目标文本确定的，因此，在确定文本区域的文本属性为截取文本属性后，可以确定相应目标文本的维度标题对应的需求单元格作为凭证单元格。方便后续将凭证图像与其进行绑定。

S24，基于所述截取文本属性对相应所述文本区域进行截取，得到与所述凭证单元格对应的凭证图像。

可以理解的是，服务器会基于截取文本属性对相应所述文本区域进行截取，得到与所述凭证单元格对应的凭证图像。

通过上述实施方式，使得本发明可以将凭证图像与相应的单元格进行绑定，以图片的形式对用户进行直观展示，避免识别错误，方便后续对单元格内的识别数据进行校验，并且以凭证图像的形式进行展示，方便用户进行查看和验证。

在一些实施例中，步骤S24中的（基于所述截取文本属性对相应所述文本区域进行截取，得到与所述凭证单元格对应的凭证图像），包括S241-S245：

S241，基于所述截取文本属性调取预设截取框，所述调取预设截取框具有预设定位中线。

可以理解的是，服务器会基于截取文本属性调取预设截取框，调取预设截取框具有预设定位中线。

其中，预设截取框为人为预设的截取框，该预设截取框具有预设定位中线，该预设定位中线可以是依据预设截取框左右两侧边框线中点的连线得到的中线。

S242，根据所述维度标题获取所述目标文本中的定位标题，所述定位标题具有对应的标题像素值，并基于所述标题像素值提取所述定位标题对应的标题像素点。

可以理解的是，服务器会根据维度标题获取所述目标文本中的定位标题，即，通过需求表中的A的甲方定位到实际合同A文本中甲方的标题。定位标题具有对应的标题像素值，并依据标题像素值提取所述定位标题对应的标题像素点。

S243，在各所述定位标题处构建定位坐标系，根据所述标题像素点在所述定位坐标系中确定最小纵坐标和最大纵坐标。

可以理解的是，在定位标题处构建定位坐标系，并在该定位坐标系中确定标题像素点所处的最小纵坐标和最大纵坐标。比如，确定合同A中甲方字体中最上方的像素点和最下方的像素点坐标，从而确定最小纵坐标和最大纵坐标。

S244，根据所述最小纵坐标和最大纵坐标，得到各所述定位标题对应的标题定位中线。

可以理解的是，依据最小纵坐标和最大纵坐标，得到各所述定位标题对应的标题定位中线。即，最小纵坐标和最大纵坐标的和值的平均值，从而得到标题定位中线。

S245，将所述预设定位中线与所述标题定位中线进行重叠，基于所述预设截取框对相应所述文本区域进行截取，得到与所述凭证单元格对应的凭证图像。

可以理解的是，将预设定位中线与所述标题定位中线进行重叠，使得预设截取框处于该定位标题所处的文本区域处。后续基于预设截取框对相应所述文本区域进行截取，得到与所述凭证单元格对应的凭证图像。

例如，参见图4，合同A中甲方：张三手写字体，因此，则会调取预设截取框，并依据标题像素值确定定位标题对应的标题定位中线，将预设定位中线与所述标题定位中线进行重叠后，利用预设截取框对甲方所处文本区域进行截取，从而得到需求表中张三所处单元格对应的凭证图像。

不难理解的是，通过预设定位点和标识定位点进行重叠定位预设截取框后，处于目标文本中同一页面存在多个预设截取框相邻的情况，当多个预设截取框较为接近的时候，将相邻的预设截取框进行合并，使得合并后的合并截取框可以对目标文本中多个维度标识后的文本内容进行截取，从而得到一张合并凭证图像对应多个凭证单元格，从而减少数据存储量，方便调取和同时验证。

在上述实施例的基础上，还包括A1-A5：

A1，获取各所述目标文本中位于同一页面的所述预设截取框作为待处理截取框，并获取多个所述待处理截取框之间横向边框线的相距距离。

需要说明的是，目标文本一般具有多个页面，比如，合同A具有10个页面，在实际应用中，通常销售合同内具有相应的签订条款，以及双方责任等，因此内容较多，需要多个页面进行显示。

可以理解的是，当将预设截取框的预设定位中线与标题定位中线重叠后，服务器会获取目标文本中位于同一页面的预设截取框作为待处理截取框，比如，合同A中处于同一页面的甲方和乙方对应的预设截取框作为待处理截取框。

进一步的，获取多个所述待处理截取框之间横向边框线的相距距离。比如，获取合同A中甲方的待处理截取框中下方的横向边框线与乙方的待处理截取框中上方的横向边框线之间的相距距离。

A2，确定所述相距距离小于等于预设距离，将相应所述待处理截取框作为相邻截取框。

可以理解的是，确定所述相距距离小于等于预设距离，即，两者距离较为接近，其中，预设距离可以是人为预设的距离，具体依据实际情况设置，比如，依据行间距设置，在此不做限定。

进一步的，将距离较为接近的待处理截取框作为相邻截取框。比如，将合同A中甲方和乙方对应的待处理截取框作为相邻截取框。

A3，获取相应所述相邻截取框中相邻的横向边框线作为横向相邻线，并将与所述横向相邻线连接的2个顶点作为纵向连接点。

可以理解的是，服务器会获取相邻截取框中相邻的横向边框线作为横向相邻线，比如，合同A中甲方的相邻截取框中下方的横向边框线和乙方的相邻截取框中上方的横向边框线作为横向相邻线。

进一步的，获取与横向相邻线连接的2个顶点作为纵向连接点。

例如，合同A中甲方的相邻截取框中下方的横向边框线左右两侧的顶点作为纵向连接点，合同A中乙方的相邻截取框中上方的横向边框线左右两侧的顶点作为纵向连接点。

A4，删除所述横向相邻线，并连接位于多个所述相邻截取框同一侧的纵向连接点，得到合并截取框。

可以理解的是，删除横向相邻线，并连接位于多个所述相邻截取框同一侧的纵向连接点，从而得到合并截取框。

例如，参见图5，将合同A中甲方的相邻截取框中下方的横向边框线和乙方的相邻截取框中上方的横向边框线删除，并将位于2者同一侧的纵向连接点相连，从而得到合并截取框。

A5，根据所述合并截取框对多个相应的所述文本区域进行截取，得到多个相应所述凭证单元格对应的合并凭证图像。

可以理解的是，服务器会依据合并截取框对多个相应的所述文本区域进行截取，得到多个相应所述凭证单元格对应的合并凭证图像。

例如，将合同A中甲方和乙方的预设截取框合并得到合并截取框后，通过合并截取框对甲方和乙方的文本区域进行截取，从而得到需求表中合同A甲方和乙方所对应2个凭证单元格的合并凭证图像。

通过上述实施方式，本发明可以使得多个凭证单元格对应1个合并凭证图像，从而减少数据存储量，并且方便用户利用合并凭证图像对多个单元格中的内容进行校验。

不难理解的是，在进行合并的过程中，由于预设截取框一般设置较长，所以，在对文本区域进行截取时，会存在空白的区域，因此，本发明会对空白区域进行截取处理，生成异形的截取框，使得仅对文本区域内的目标数据进行展示，从减少了数据存储量。

在上述实施例的基础上，还包括B1-B6：

B1，基于所述预设像素值区间确定所述相邻截取框中所有的截取像素点，并在各所述相邻截取框中构建截取坐标系。

可以理解的是，预设像素值区间可以是手写字体对应的像素值区间，因此，在目标文本中的相邻截取框中提取处于预设像素值区间内的像素点作为截取像素点。并在各相邻截取框中构建截取坐标系，方便后续依据对手写内容部分进行截取，删除空白区域。其中，建截取坐标系可以构建在相邻截取框的中心点位置处。

B2，根据所述截取像素点在所述截取坐标系中确定最大横坐标作为截取坐标，根据所述截取坐标确定竖向截取线。

可以理解的是，服务器会根据截取像素点在所述截取坐标系中确定最大横坐标作为截取坐标，根据所述截取坐标确定竖向截取线。即，确定手写字体所处的最右侧的位置，在该位置处生成竖向截取线。比如，截取坐标为x=3，则在横坐标为3的位置处生成竖向直线作为竖向截取线，方便后续对相邻截取框进行截取。

B3，根据所述竖向截取线对相应所述相邻截取框进行截取，得到具有数据的异形相邻框。

可以理解的是，服务器会根据竖向截取线对相应所述相邻截取框进行截取，从而得到具有截取像素点的异形相邻框。

例如，参见图6，对利用竖向截取线对合同A中张三和李四所处区域进行截取，从而得到具有相应手写字体的异形相邻框。

B4，获取所述异形相邻框中相邻的横向边框线作为异形相邻线，并将与所述异形相邻线连接的2个顶点作为异形连接点。

可以理解的是，获取所述异形相邻框中相邻的横向边框线作为异形相邻线，并将与异形相邻线连接的2个顶点作为异形连接点。

B5，删除所述异形相邻线，并连接位于多个所述异形相邻框同一侧的异形连接点，得到异形截取框。

可以理解的是，与得到合并截取框的原理一致，将相邻的异形相邻线删除，并将同一侧的异形连接点进行连接从而得到异形截取框。

在实际应用中，由于合同A中张三和李四均为手写的，因此所处位置不同，因此得到异形截取框的形状不同，均能对用户手写字体进行截取，并删除多余的空白区域。

B6，根据所述异形截取框对多个相应的所述文本区域进行截取，得到多个相应所述凭证单元格对应的异形凭证图像。

可以理解的是，服务器会根据异形截取框对多个相应的所述文本区域进行截取，得到多个相应所述凭证单元格对应的异形凭证图像。

不难理解的是，与得到合并凭证图像中的内容一致，比如，都是得到合同A中张三和李四的签字，但，删除了两者右侧多余的空白区域，从而减少了数据存储量。

S3，接收所述需求端基于所述需求表生成的凭证需求，根据所述凭证需求确定凭证策略，所述凭证策略包括单一策略和汇总策略。

可以理解的是，服务器会接收需求端基于所述需求表生成的凭证需求，即，看需求端是需要对需求表中目标文本的维度标题对应的凭证单元格的凭证图像进行验证，还是对目标文本中所有的维度图像进行验证。

进一步的，依据凭证需求确定凭证策略，所述凭证策略包括单一策略和汇总策略。

在一些实施例中，步骤S3中的（接收所述需求端基于所述需求表生成的凭证需求，根据所述凭证需求确定凭证策略），包括S31-S32：

S31，接收所述需求端对所述需求表中所述凭证单元格的触发信息，生成单一凭证需求，根据所述单一凭证需求确定凭证策略为单一策略。

可以理解的是，服务器会接收需求端对需求表中凭证单元格的触发信息，则说明用户需要对该凭证单元格内的识别数据进行验证，即，仅对单个识别数据进行验证，生成单一凭证需求，根据所述单一凭证需求确定凭证策略为单一策略。

S32，接收所述需求端对所述需求表中所述文本标题的触发信息，生成汇总凭证需求，根据所述汇总凭证需求确定凭证策略为汇总策略，所述凭证需求包括所述单一凭证需求和所述汇总凭证需求。

可以理解的是，服务器会接收需求端对需求表中文本标题的触发信息，则说明用需要对该目标文本中所有凭证单元格内的识别数据进行验证，即，对多个识别数据进行验证，生成汇总凭证需求，根据所述汇总凭证需求确定凭证策略为汇总策略。其中，凭证需求包括所述单一凭证需求和所述汇总凭证需求。

S4，根据所述凭证策略对所述凭证图像进行处理生成凭证数据，将所述凭证数据发送至所述需求端。

可以理解的是，服务器根据凭证策略对所述凭证图像进行处理生成凭证数据，将所述凭证数据发送至所述需求端，不难理解的是，依据不同的凭证策略，确定需要对一个识别数据进行验证，还是目标文本对应的所有凭证单元格内识别数据进行验证从而生成相应的凭证数据发送至需求端。

在一些实施例中，步骤S4中的（根据所述凭证策略对所述凭证图像进行处理生成凭证数据，将所述凭证数据发送至所述需求端），包括S41-S43：

S41，确定所述凭证策略为单一策略，将相应所述凭证单元格的凭证图像作为凭证数据，将所述凭证数据发送至所述需求端。

可以理解的是，服务器确定凭证策略为单一策略，将相应所述凭证单元格的凭证图像作为凭证数据，将所述凭证数据发送至所述需求端。即，直接将凭证单元格的凭证图像发送至需求端进行展示验证。

S42，确定所述凭证策略为汇总策略，依次获取相应所述文本标题对应所述凭证单元格的凭证图像，得到图像序列。

可以理解的是，服务器确定凭证策略为汇总策略，则依次获取相应文本标题对应所有凭证单元格的凭证图像，得到图像序列。比如，依次获取合同A中甲方和乙方对应的凭证图像。

S43，基于所述图像序列中的凭证图像生成凭证视频帧，并组合所述凭证视频帧生成凭证数据发送至所述需求端。

可以理解的是，服务器会基于图像序列中的凭证图像生成对应的凭证视频帧，比如，依据合同A中甲方和乙方对应的凭证图像生成一个视频帧，即以预设时长展示甲方和乙方的签字，并将凭证视频帧进行组合，从得到对应目标文本的凭证数据，可以理解为展示目标文本中所有签字的展示视频发送至需求端，用户可以通过该视频查看所有签字，方便后续进行验证。

为了更好的实现本发明所提供的一种基于自然语言的数据处理方法，本发明还提供一种基于自然语言的数据处理平台，参见图7，包括：

本发明还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种基于自然语言的数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，

所述接收需求端的需求语言，根据所述需求语言对文本库中的文本数据进行处理，得到需求表，包括：

3.根据权利要求2所述的方法，其特征在于，

所述基于所述筛选维度和所述需求维度对文本库中的文本数据进行处理，得到需求表，包括：

4.根据权利要求3所述的方法，其特征在于，

所述根据所述维度标题提取所述目标文本中的文本区域，获取所述文本区域的文本属性，基于所述文本属性对所述文本区域进行截取，得到与所述目标文本的维度标题对应的凭证图像，包括：

5.根据权利要求4所述的方法，其特征在于，

所述基于所述截取文本属性对相应所述文本区域进行截取，得到与所述凭证单元格对应的凭证图像，包括：

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，还包括：

8.根据权利要求7所述的方法，其特征在于，

所述接收所述需求端基于所述需求表生成的凭证需求，根据所述凭证需求确定凭证策略，包括：

9.根据权利要求8所述的方法，其特征在于，

所述根据所述凭证策略对所述凭证图像进行处理生成凭证数据，将所述凭证数据发送至所述需求端，包括：

10.一种基于自然语言的数据处理平台，其特征在于，包括：