CN112733639B

CN112733639B - 文本信息结构化提取方法及装置

Info

Publication number: CN112733639B
Application number: CN202011597136.7A
Authority: CN
Inventors: 常战国; 郭流芳; 张毅; 杨必韬; 李壮; 路浩南
Original assignee: Beike Technology Co Ltd
Current assignee: Beike Technology Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2023-01-06
Anticipated expiration: 2040-12-28
Also published as: CN112733639A

Abstract

本发明提供一种文本信息结构化提取方法及装置，该方法包括：利用文本检测识别模型对待处理图片进行文本识别，输出文本检测框的坐标及对应的文本内容；利用目标区域检测模型对待处理图片进行检测，检测出待进行文本信息提取的目标区域后，输出目标区域的坐标；根据文本检测框的坐标和目标区域的坐标，计算文本检测框和目标区域的交叠比；将交叠比和预设阈值进行比较；若交叠比大于预设阈值，则提取相应的文本检测框对应的文本内容，并按照业务字段进行结构化输出。本发明提供的文本信息结构化提取方法及装置，通过进行文本检测和目标区域检测，在文本检测框和目标区域的交叠比大于预设阈值时提取相应的文本内容，实现了非规则文本的结构化提取。

Description

文本信息结构化提取方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种文本信息结构化提取方法及装置。

背景技术

OCR技术可以将图片中的文字检测识别出来，之后需要根据业务需要对业务字段进行提取，一般对于版式比较固定备件，例如房本、身份证等，可以通过模版技术进行提取。对于具有固定关键字段文本，可以通过字符串匹配、模糊匹配等方式进行提取。但是对于非规则文本，如版式不固定且没有固定关键字段的备件，业务字段提取相对困难。

比如，在快递单业务字段信息的提取中，有两个难点，一是快递单版式不定且无固定关键字段，二是业务字段部分经过脱敏处理，无法精确进行匹配。因此，对于如快递单这种非规则文本，如何进行所需的业务字段信息提取，成为亟待解决的问题。

发明内容

针对现有技术存在的问题，本发明提供一种文本信息结构化提取方法及装置。

本发明提供一种文本信息结构化提取方法，包括：利用文本检测识别模型对待处理图片进行文本识别，输出文本检测框的坐标及对应的文本内容；利用目标区域检测模型对所述待处理图片进行检测，检测出待进行文本信息提取的目标区域后，输出所述目标区域的坐标；根据各个所述文本检测框的坐标和所述目标区域的坐标，计算各个所述文本检测框和所述目标区域的交叠比；将所述交叠比和预设阈值进行比较；若所述交叠比大于所述预设阈值，则提取相应的所述文本检测框对应的所述文本内容，并按照业务字段进行结构化输出。

根据本发明提供的一种文本信息结构化提取方法，所述交叠比的计算公式表示为：

IOU＝S_{area_DetWord∩area_DetObj}/S_{area_DetWord}

其中，IOU表示所述交叠比，area_DetWord表示所述文本检测框，area_DetObj表示所述目标区域，area_DetWord∩area_DetObj表示所述文本检测框和所述目标区域相交叠的区域，S_{area_DetWord∩area_DetObj}表示所述文本检测框和所述目标区域相交叠的区域的面积，S_{area_DetWord}表示所述文本检测框的面积。

根据本发明提供的一种文本信息结构化提取方法，所述方法还包括：若检测不到所述目标区域，则将所述文本检测框中的所述文本内容按行输入到NLP文本分类模型，根据所述NLP文本分类模型的输出获取每行所述文本内容对应的预设类别；其中，所述预设类别包括所述业务字段；根据所述业务字段将所述输出结果进行拼接，并按照所述业务字段进行结构化输出。

根据本发明提供的一种文本信息结构化提取方法，在所述将所述文本检测框中的所述文本内容按行输入到NLP文本分类模型之前，所述方法还包括：根据各个所述文本检测框的y坐标均值由小到大的顺序将各个所述文本检测框进行排序；计算相邻所述文本检测框的x坐标距离和y坐标距离，并判断所述x坐标距离小于预设第一距离阈值且所述y坐标距离小于预设第二距离阈值是否成立；若是，则按照x坐标由小到大的顺序将对应的相邻所述文本检测框合并为一行；若否，则将对应的相邻所述文本检测框中的每个所述文本检测框单独列为一行。

根据本发明提供的一种文本信息结构化提取方法，至少一个所述文本检测框对应的所述文本内容包括姓名信息和联系方式；所述方法还包括：利用正则匹配从所述文本内容中提取所述姓名信息及所述联系方式，并分别对应到姓名字段和联系方式字段。

根据本发明提供的一种文本信息结构化提取方法，所述目标区域检测模型包括adeast模型；所述文本检测识别模型利用cornernet模型进行所述文本检测框的坐标提取，并利用densenet模型和ctc解码工具进行所述文本内容的提取；所述NLP文本分类模型通过bert模型预加载fine-tuning进行文本分类。

根据本发明提供的一种文本信息结构化提取方法，所述待处理图片包括快递单。

本发明还提供一种文本信息结构化提取装置，包括：文本检测模块，用于：利用文本检测识别模型对待处理图片进行文本识别，输出文本检测框的坐标及对应的文本内容；目标区域检测模块，用于：利用目标区域检测模型对所述待处理图片进行检测，检测出待进行文本信息提取的目标区域后，输出所述目标区域的坐标；交叠比计算模块，用于：根据各个所述文本检测框的坐标和所述目标区域的坐标，计算各个所述文本检测框和所述目标区域的交叠比；文本提取模块，用于：将所述交叠比和预设阈值进行比较；若所述交叠比大于所述预设阈值，则提取相应的所述文本检测框对应的所述文本内容，并按照业务字段进行结构化输出。

根据本发明提供的一种文本信息结构化提取装置，所述交叠比的计算公式表示为：

IOU＝S_{area_DetWord∩area_DetObj}/S_{area_DetWord}

根据本发明提供的一种文本信息结构化提取装置，所述装置还包括NLP文本分类及提取模块，所述NLP文本分类及提取模块用于若所述目标区域检测模块检测不到所述目标区域，则将所述文本检测框中的所述文本内容按行输入到NLP文本分类模型，根据所述NLP文本分类模型的输出获取每行所述文本内容对应的预设类别；其中，所述预设类别包括所述业务字段；根据所述业务字段将所述输出结果进行拼接，并按照所述业务字段进行结构化输出。

根据本发明提供的一种文本信息结构化提取装置，所述NLP文本分类及提取模块在用于将所述文本检测框中的所述文本内容按行输入到NLP文本分类模型之前，还用于：根据各个所述文本检测框的y坐标均值由小到大的顺序将各个所述文本检测框进行排序；计算相邻所述文本检测框的x坐标距离和y坐标距离，并判断所述x坐标距离小于预设第一距离阈值且所述y坐标距离小于预设第二距离阈值是否成立；若是，则按照x坐标由小到大的顺序将对应的相邻所述文本检测框合并为一行；若否，则将对应的相邻所述文本检测框中的每个所述文本检测框单独列为一行。

根据本发明提供的一种文本信息结构化提取装置，至少一个所述文本检测框对应的所述文本内容包括姓名信息和联系方式；所述装置还包括规则匹配模块，所述规则匹配模块用于：利用正则匹配从所述文本内容中提取所述姓名信息及所述联系方式，并分别对应到姓名字段和联系方式字段。

根据本发明提供的一种文本信息结构化提取装置，所述目标区域检测模型包括adeast模型；所述文本检测识别模型利用cornernet模型进行所述文本检测框的坐标提取，并利用densenet模型和ctc解码工具进行所述文本内容的提取；所述NLP文本分类模型通过bert模型预加载fine-tuning进行文本分类。

根据本发明提供的一种文本信息结构化提取装置，所述待处理图片包括快递单。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述文本信息结构化提取方法的步骤。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述文本信息结构化提取方法的步骤。

本发明提供的文本信息结构化提取方法及装置，通过进行文本检测和目标区域检测，在文本检测框和目标区域的交叠比大于预设阈值时提取相应的文本内容，实现了非规则文本的结构化提取。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的文本信息结构化提取方法的流程示意图之一；

图2是本发明提供的文本信息结构化提取方法中的排序流程示意图；

图3是本发明提供的文本信息结构化提取方法中未加交叠比提取结果示意图；

图4是本发明提供的文本信息结构化提取方法中加入交叠比提取结果示意图；

图5是本发明提供的文本信息结构化提取方法中NLP文本分类结果示意图；

图6是本发明提供的文本信息结构化提取方法中文本信息提取结果示意图；

图7是本发明提供的文本信息结构化提取方法的流程示意图之二；

图8是本发明提供的文本信息结构化提取装置的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图9描述本发明的文本信息结构化提取方法及装置。

图1是本发明提供的文本信息结构化提取方法的流程示意图之一。如图1所示，所述方法包括：

步骤101、利用文本检测识别模型对待处理图片进行文本识别，输出文本检测框的坐标及对应的文本内容。

步骤102、利用目标区域检测模型对所述待处理图片进行检测，检测出待进行文本信息提取的目标区域后，输出所述目标区域的坐标。

步骤103、根据各个所述文本检测框的坐标和所述目标区域的坐标，计算各个所述文本检测框和所述目标区域的交叠比。

步骤104、将所述交叠比和预设阈值进行比较；若所述交叠比大于所述预设阈值，则提取相应的所述文本检测框对应的所述文本内容，并按照业务字段进行结构化输出。

对待处理图片需要进行文本检测识别及目标区域检测，这两个步骤可以同时进行，也可以先后进行。如先进行文本检测再进行目标区域检测，或先进行目标区域检测再进行文本检测。即步骤101和步骤102的顺序可以互换，或者两个步骤可以同时进行。

利用文本检测识别模型对待处理图片进行文本识别，输出文本检测框的坐标(如文本检测框的左上角顶点和右下角顶点的坐标)及对应的文本内容。利用文本检测识别模型对待处理图片进行文本识别后，将根据待处理图片中的文本情况，输出多个文本检测框及对应的文本内容。

利用目标区域检测模型对待处理图片进行检测，检测出待进行文本信息提取的目标区域后，输出目标区域的坐标(如目标区域的左上角顶点和右下角顶点的坐标)。为了使目标区域检测模型获知目标区域的特点，需要根据目标区域的检测需求预先训练好目标区域检测模型。比如，若需要检测快递单上的收件人信息，则需要预先利用大量的快递单图片作为训练样本训练目标区域检测模型。在训练时，以快递单图片作为输入，以标注好收件人区域的快递单图片作为输出，最终训练得到目标区域检测模型。利用训练好的目标区域检测模型，在输入快递单图片时，目标检测模型只会识别收件人姓名电话地址区域，对此区域以外的其他区域不会进行检测。

由于目标区域检测框(由目标区域的坐标所构成)可能会有适当放大的情况，导致目标区域检测框存在一定范围的误差，这种误差有时会将目标区域周围无关文字部分包含到目标区域。那么需要识别出哪些是无关文字部分，即不需要进行文本提取的部分。如果文本对应的文本检测框完全在目标区域内部，则说明文本是目标区域需要提取的内容的可能性越大，如果文本对应的文本检测框和目标区域具有很小的交集，则说明文本检测框中的文本内容很有可能不是需要提取的文本，属于无关文本。具体地，根据各个文本检测框的坐标获取各个文本检测框的面积，根据目标区域的坐标获取目标区域的面积，根据文本检测框的面积及目标区域的面积计算各个文本检测框和目标区域的交叠比。交叠比可以反映文本检测框中属于目标区域的可信度，或文本检测框中的文本信息是待提取的文本的可信度。比如，交叠比可以设置为文本检测框和目标区域的重叠面积和目标区域的面积之比。交叠比越大，则可信度越高。

将交叠比和预设阈值进行比较；若交叠比大于预设阈值，表示相应的文本检测框属于目标区域(需要进行文本信息提取的区域)，则提取相应的文本检测框对应的文本内容，并按照业务字段进行结构化输出。按照哪些业务字段进行结构化输出可以预先设定，设定好后则根据文本识别的结果按照相应的业务字段进行结构化输出。比如，在提取快递单收件人信息中的文本信息时，业务字段可以设置为包括姓名、联系方式、地址等信息。若交叠比小于或等于预设阈值，则认为相应的文本检测框不属于待进行文本提取的目标区域，则不识别及提取相应文本检测框中的文本信息。

本发明提供的文本信息结构化提取方法，通过进行文本检测和目标区域检测，在文本检测框和目标区域的交叠比大于预设阈值时提取相应的文本内容，实现了非规则文本的结构化提取。

根据本发明提供的一种文本信息结构化提取方法，其特征在于，所述交叠比的计算公式表示为：

IOU＝S_{area_DetWord∩area_DetObj}/S_{area_DetWord}

在计算交叠比时，交叠比的计算公式设置为文本检测框和目标区域的重叠面积和文本检测框的面积之比，即利用文本检测框和目标区域的重叠部分在文本检测框的占比来表示交叠比，利用这种方式计算交叠比可以抵消由于文本检测框的大小不同而带来的对于交叠比计算结果的影响，提高了交叠比指标的可靠性。

本发明提供的文本信息结构化提取方法，通过利用文本检测框和目标区域的重叠面积和文本检测框的面积之比计算交叠比，提高了交叠比指标的可靠性，由此提高了文本信息结构化提取的可靠性。

根据本发明提供的文本信息结构化提取方法，所述方法还包括：若检测不到所述目标区域，则将所述文本检测框中的所述文本内容按行输入到NLP文本分类模型，根据所述NLP文本分类模型的输出获取每行所述文本内容对应的预设类别；其中，所述预设类别包括所述业务字段；根据所述业务字段将所述输出结果进行拼接，并按照所述业务字段进行结构化输出。

以快递单为例，通常收件人信息均在收件人栏中，收件人的各项信息集中在一起。在训练目标区域检测模型也是将收件人的信息框起来进行标注。但是对于特殊情况，比如，收件人的信息不是集中的，分散在多个区域，这时候目标检测模型便无法获取目标区域，即可能会出现检测不出待进行文本信息提取的目标区域的情况。若无法检测出目标区域，则无法利用交叠比来确定待进行文本信息提取的区域。此时，可以采用另外一种方法，即利用NLP文本分类模型实现文本信息提取。

NLP文本分类模型可以对输入的一段文本进行类别识别。同样，在利用NLP文本分类模型进行文本分类之前，首先需要根据需求训练NLP文本分类模型。同样以快递单为例，可以设置分类类别包括姓名、联系方式、地址和其他四种类别，NLP文本分类模型输出为以上四个类别中的某一类或类别的组合。

在实际应用时，将文本检测框的文本内容按行输入到NLP文本分类模型，根据NLP文本分类模型的输出获取每行文本内容对应的预设类别。预设类别包括业务字段，即根据需要输出的业务字段设定分类类别。如上述进行快递单识别时，由于需要提取姓名、联系方式和地址的信息，因此，设定预设类别包括姓名、联系方式、地址和其他四种类别。

同一类别信息可能存在于多行，比如在地址较长时，通常通过多行进行显示。因此，在进行文本信息提取时，根据业务字段将输出结果进行拼接，并按照业务字段进行结构化输出。

本发明提供的文本信息结构化提取方法，通过在检测不到目标区域时，利用NLP文本分类模型进行文本分类，根据输出结果进行业务字段的拼接，进而进行结构化输出，作为利用目标检测模型进行文本提取的补充，提高了文本信息提取的可靠性。

由于文本检测框的文本内容是按行输入到NLP文本分类模型的，因此，在输入NLP文本分类模型前，首先需要对文本检测框进行排序，得到各行的文本检测框。

图2是本发明提供的文本信息结构化提取方法中的排序流程示意图。如图2所示，排序过程包括：获取文本检测框的坐标，按文本检测框y坐标均值由小到大排序。依次遍历文本检测框，计算相邻文本检测框的左右间距w(x坐标距离)，计算相邻文本检测框的上下间距h(y坐标距离)，判断左右间距w是否小于阈值T1(预设第一距离阈值)以及上下间距h是否小于阈值T2(预设第二距离阈值)，若是，则按照x坐标由小到大的顺序将对应的相邻文本检测框合并为一行，若否，则相邻文本检测框的文本内容很大可能是对应于不同分类的，将对应的相邻文本检测框中的每个文本检测框单独列为一行。

按行排序完成后，再将各行的文本检测框的信息分别输入到NLP文本检测模型进行文本类别识别。

本发明提供的文本信息结构化提取方法，通过在将文本检测框中的文本内容按行输入到NLP文本分类模型之前，先按照y坐标均值进行排序，然后根据相邻文本检测框的x坐标距离和y坐标距离将相邻文本检测框合并为一行或分为两行，实现了文本检测框按行排序的合理化，有利于提高信息提取的准确性。

在通过计算交叠比确定需要提取文本内容的文本检测框后，提取相应文本检测框对应的文本内容时，可以根据待提取的业务字段的特点进行匹配。如姓名通常为姓氏后面跟一到两个汉字的形式，手机号码通常为11为数字，地址开头为各个省市的信息等。可以利用上述信息匹配获取姓名、联系方式和地址的信息。由于姓名和联系方式通常是列在一起的，检测为一个文本检测框。提取时可以按照姓名的特点，只要文本检测框中有姓名信息，则先将这个文本检测框的业务类型设置为姓名，然后在全部匹配完成后，再在业务类型为姓名的文本检测框中进行如是否包含11位数字的正则匹配，若包含，则提取包括姓名的文本检测框中的联系方式的信息，并对应保存到联系方式的业务字段。最后，根据业务字段进行结构化输出。

在利用NLP文本分类模型进行文本信息提取时，同样，由于姓名和联系方式通常是列在一起的，检测为一个文本检测框。在进行NLP文本分类模型的训练时，可以将包含姓名的文本检测框的文本类型设置为姓名。因此，识别为姓名类型的文本检测框可能只包含姓名或包含姓名及联系方式。在利用NLP文本分类模型识别完成后，再在类型为姓名的文本检测框中进行如是否包含11位数字的正则匹配，若包含，则提取包括姓名的文本检测框中的联系方式的信息，并对应保存到联系方式的业务字段。最后，根据业务字段进行结构化输出。

本发明提供的文本信息结构化提取方法，通过利用正则匹配从文本内容中提取姓名信息及联系方式，并分别对应到姓名字段和联系方式字段，保障了信息的分类提取。

可以利用adeast模型训练目标区域检测模型，进行目标区域检测。实验证明，目标检测的准确率较高。文本检测识别模型可以利用cornernet模型进行文本检测框的坐标提取，并利用densenet模型和ctc解码工具进行文本内容的提取。实验证明，文本检测识别的准确率较高。NLP文本分类模型可以通过bert模型预加载fine-tuning进行文本分类。实验证明，文本分类的准确率较高。

本发明提供的文本信息结构化提取方法，通过利用adeast模型进行目标区域检测，利用cornernet模型进行文本检测框的坐标提取，并利用densenet模型和ctc解码工具进行文本内容的提取，通过bert模型预加载fine-tuning进行文本分类，提高了文本信息提取的准确性。

根据本发明提供的一种文本信息结构化提取方法，所述待处理图片包括快递单。本发明提供的文本信息结构化提取方法适用于如快递单等不规则文本的结构化提取。

图3是本发明提供的文本信息结构化提取方法中未加交叠比提取结果示意图。图4是本发明提供的文本信息结构化提取方法中加入交叠比提取结果示意图。图5是本发明提供的文本信息结构化提取方法中NLP文本分类结果示意图。图6是本发明提供的文本信息结构化提取方法中文本信息提取结果示意图。下面结合图3～图6通过对快递单进行收件人信息的结构化提取为例，进一步说明本发明提供的文本信息结构化提取方法的流程。

第一、快递单目标区域检测。

快递单业务字段需要提取收件人姓名、地址、电话，但是由于快递单种类繁多，版式不一，位置不定，这些都对业务字段提取造成了很大困难。除此之外还存在寄件人姓名、地址、电话的干扰，以及其他大量无关字段的干扰。由于快递单版式不定，并且没有锚点(固定字段)，造成字段难以提取。并且，个别姓名电话为了隐私会做脱敏处理。针对上述问题，首先标注业务字段的目标区域，使用adeast(AdvancedEAST模型)训练特定目标区域检测模型，模型只会识别收件人姓名电话地址区域，对此区域以外的其他区域不会进行检测。对目标区域进行检测后返回目标区域的四个顶点坐标。

第二、快递单检测识别。

为了增加检测模型泛化能力，在文本类通用数据集上使用cornernet作为检测模型，densenet+ctc作为识别模型进行训练后对快递单检测识别。检测识别结果会返回文本框坐标以及对应的文本内容。

第三、目标区域内文本提取。

检测识别结果从上到下、从左到右排序后，需要提取区域内文本。但是，由于目标区域检测框可能会有适当放大的情况，导致检测框存在一定范围的误差，这种误差有时会将目标区域周围无关文字部分包含到目标区域。比如由于识别目标区域时范围有所扩大，框进了收件人区域右侧的条码信息。这时提取效果如图3所示，会增加“00”无关字段干扰。为了消除目标识别区域与文字检测识别区域之间存在的误差，过滤掉无关数据的干扰，改进文本检测框与目标区域之间的IOU(交叠比)，该交叠比计算方法为：

IOU＝S_{area_DetWord∩area_DetObj}/S_{area_DetWord}

其中，IOU表示所述交叠比，area_DetWord表示所述文本检测框，area_DetObj表示所述目标区域，area_DetWord∩area_DetObj表示所述文本检测框和所述目标区域相交叠的区域，S_{area_DetWord∩area_DetObj}表示所述文本检测框和所述目标区域相交叠的区域的面积，S_{area_DetWord}表示所述文本检测框的面积

当该值大于某一阈值(快递单设置为0.5)，则将该文本提取出来。之后对文本进行分割操作。提取结果如图4所示：第一行为文本提取结果，第二行为对应计算的交叠比。

第四、NLP文本分类。

筛选出姓名、电话、地址、其他字段，使用bert模型预加载fine-tuning进行文本分类模型训练。模型输出为以上四个类别中的某一类或类别的组合。NLP文本分类如图5所示，其中PER表示姓名，LOC表示地址。

第五、文本结构化后处理。

对于没有检测框的快递单，文本检测识别后，对文本原样从上到下、从左到右按行排序，之后按行送入NLP文本分类模型。分类模型输出每一行的类别，按类别对文本进行拼接，并根据位置关系等加入过滤规则提取业务字段。提取结果示例如图6所示。

第六、本发明提供的文本信息结构化提取方法提出了一种全新的字段提取方法，将目标区域检测与NLP(Natural Language Processing，自然语言处理)文本分类结合，最终在实际测试集上达到了很好的业务字段提取效果。在100张快递单测评，字段平均准确率达到92％。

图7是本发明提供的文本信息结构化提取方法的流程示意图之二。如图7所示，本发明提供的文本信息结构化提取方法针对非规则文本的结构化提取提供解决方案。针对待处理图片，分别训练一个目标区域检测模型，一个NLP文本分类模型，以及一个文本检测识别模型。针对待处理图片，首先将经过目标区域检测模型，检测出需要进行文字检测识别的区域，返回目标区域坐标。之后对待处理图片进行文本检测识别，返回坐标及对应的文字内容。但是目标检测区域往往过大或者过小，导致将周边干扰字段包含进入字段提取区域。为此，用每一个文字检测区域(文本检测框)与目标检测区域计算交叠比，具体为文字检测区域与目标检测区域的交叠面积除以文字检测区域面积，当该比值超过某一阈值时将结果提取出来。针对没有检测到目标区域的待测图片，将检测识别结果先经过排序模块，按行将识别结果拼接，之后送入NLP文本分类模型，文本分类模型会输出每一行文本分类结果。之后根据分出的类别加上规则判断，组合出需要的业务字段。综合上述两种方法最终得到文本结构化结果。

下面对本发明提供的文本信息结构化提取装置进行描述，下文描述的文本信息结构化提取装置与上文描述的文本信息结构化提取方法可相互对应参照。

图8是本发明提供的文本信息结构化提取装置的结构示意图。如图8所示，所述装置包括文本检测模块10、目标区域检测模块20、交叠比计算模块30及文本提取模块40，其中：文本检测模块10用于：利用文本检测识别模型对待处理图片进行文本识别，输出文本检测框的坐标及对应的文本内容；目标区域检测模块20用于：利用目标区域检测模型对所述待处理图片进行检测，检测出待进行文本信息提取的目标区域后，输出所述目标区域的坐标；交叠比计算模块30用于：根据各个所述文本检测框的坐标和所述目标区域的坐标，计算各个所述文本检测框和所述目标区域的交叠比；文本提取模块40用于：将所述交叠比和预设阈值进行比较；若所述交叠比大于所述预设阈值，则提取相应的所述文本检测框对应的所述文本内容，并按照业务字段进行结构化输出。

本发明提供的文本信息结构化提取装置，通过进行文本检测和目标区域检测，在文本检测框和目标区域的交叠比大于预设阈值时提取相应的文本内容，实现了非规则文本的结构化提取。

IOU＝S_{area_DetWord∩area_DetObj}/S_{area_DetWord}

本发明提供的文本信息结构化提取装置，通过利用文本检测框和目标区域的重叠面积和文本检测框的面积之比计算交叠比，提高了交叠比指标的可靠性，由此提高了文本信息结构化提取的可靠性。

根据本发明提供的一种文本信息结构化提取装置，所述装置还包括NLP文本分类及提取模块，所述NLP文本分类及提取模块用于若目标区域检测模块20检测不到所述目标区域，则将所述文本检测框中的所述文本内容按行输入到NLP文本分类模型，根据所述NLP文本分类模型的输出获取每行所述文本内容对应的预设类别；其中，所述预设类别包括所述业务字段；根据所述业务字段将所述输出结果进行拼接，并按照所述业务字段进行结构化输出。

本发明提供的文本信息结构化提取装置，通过在检测不到目标区域时，利用NLP文本分类模型进行文本分类，根据输出结果进行业务字段的拼接，进而进行结构化输出，作为利用目标检测模型进行文本提取的补充，提高了文本信息提取的可靠性。

根据本发明提供的一种文本信息结构化提取装置，NLP文本分类及提取模块在用于将所述文本检测框中的所述文本内容按行输入到NLP文本分类模型之前，还用于：根据各个所述文本检测框的y坐标均值由小到大的顺序将各个所述文本检测框进行排序；计算相邻所述文本检测框的x坐标距离和y坐标距离，并判断所述x坐标距离小于预设第一距离阈值且所述y坐标距离小于预设第二距离阈值是否成立；若是，则按照x坐标由小到大的顺序将对应的相邻所述文本检测框合并为一行；若否，则将对应的相邻所述文本检测框中的每个所述文本检测框单独列为一行。

本发明提供的文本信息结构化提取装置，通过在将文本检测框中的文本内容按行输入到NLP文本分类模型之前，先按照y坐标均值进行排序，然后根据相邻文本检测框的x坐标距离和y坐标距离将相邻文本检测框合并为一行或分为两行，实现了文本检测框按行排序的合理化，有利于提高信息提取的准确性。

本发明提供的文本信息结构化提取装置，通过利用正则匹配从文本内容中提取姓名信息及联系方式，并分别对应到姓名字段和联系方式字段，保障了信息的分类提取。

本发明提供的文本信息结构化提取装置，通过利用adeast模型进行目标区域检测，利用cornernet模型进行文本检测框的坐标提取，并利用densenet模型和ctc解码工具进行文本内容的提取，通过bert模型预加载fine-tuning进行文本分类，提高了文本信息提取的准确性。

根据本发明提供的一种文本信息结构化提取装置，所述待处理图片包括快递单。本发明提供的文本信息结构化提取装置适用于如快递单等不规则文本的结构化提取。

图9是本发明提供的电子设备的结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行文本信息结构化提取方法，该方法包括：利用文本检测识别模型对待处理图片进行文本识别，输出文本检测框的坐标及对应的文本内容；利用目标区域检测模型对所述待处理图片进行检测，检测出待进行文本信息提取的目标区域后，输出所述目标区域的坐标；根据各个所述文本检测框的坐标和所述目标区域的坐标，计算各个所述文本检测框和所述目标区域的交叠比；将所述交叠比和预设阈值进行比较；若所述交叠比大于所述预设阈值，则提取相应的所述文本检测框对应的所述文本内容，并按照业务字段进行结构化输出。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的文本信息结构化提取方法，该方法包括：利用文本检测识别模型对待处理图片进行文本识别，输出文本检测框的坐标及对应的文本内容；利用目标区域检测模型对所述待处理图片进行检测，检测出待进行文本信息提取的目标区域后，输出所述目标区域的坐标；根据各个所述文本检测框的坐标和所述目标区域的坐标，计算各个所述文本检测框和所述目标区域的交叠比；将所述交叠比和预设阈值进行比较；若所述交叠比大于所述预设阈值，则提取相应的所述文本检测框对应的所述文本内容，并按照业务字段进行结构化输出。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的文本信息结构化提取方法，该方法包括：利用文本检测识别模型对待处理图片进行文本识别，输出文本检测框的坐标及对应的文本内容；利用目标区域检测模型对所述待处理图片进行检测，检测出待进行文本信息提取的目标区域后，输出所述目标区域的坐标；根据各个所述文本检测框的坐标和所述目标区域的坐标，计算各个所述文本检测框和所述目标区域的交叠比；将所述交叠比和预设阈值进行比较；若所述交叠比大于所述预设阈值，则提取相应的所述文本检测框对应的所述文本内容，并按照业务字段进行结构化输出。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本信息结构化提取方法，其特征在于，包括：

利用文本检测识别模型对待处理图片进行文本识别，输出文本检测框的坐标及对应的文本内容；

利用目标区域检测模型对所述待处理图片进行检测，检测出待进行文本信息提取的目标区域后，输出所述目标区域的坐标；

根据各个所述文本检测框的坐标和所述目标区域的坐标，计算各个所述文本检测框和所述目标区域的交叠比；

将所述交叠比和预设阈值进行比较；若所述交叠比大于所述预设阈值，则提取相应的所述文本检测框对应的所述文本内容，并按照业务字段进行结构化输出；

所述方法还包括：

若检测不到所述目标区域，则将所述文本检测框中的所述文本内容按行输入到NLP文本分类模型，根据所述NLP文本分类模型的输出获取每行所述文本内容对应的预设类别；其中，所述预设类别包括所述业务字段；

根据所述业务字段将所述NLP文本分类模型的输出结果进行拼接，并按照所述业务字段进行结构化输出。

2.根据权利要求1所述的文本信息结构化提取方法，其特征在于，所述交叠比的计算公式表示为：

IOU＝S_{area_DetWord∩area_DetObj}/S_{area_DetWord}

3.根据权利要求1所述的文本信息结构化提取方法，其特征在于，在所述将所述文本检测框中的所述文本内容按行输入到NLP文本分类模型之前，所述方法还包括：

根据各个所述文本检测框的y坐标均值由小到大的顺序将各个所述文本检测框进行排序；

计算相邻所述文本检测框的x坐标距离和y坐标距离，并判断所述x坐标距离小于预设第一距离阈值且所述y坐标距离小于预设第二距离阈值是否成立；

若是，则按照x坐标由小到大的顺序将对应的相邻所述文本检测框合并为一行；

若否，则将对应的相邻所述文本检测框中的每个所述文本检测框单独列为一行。

4.根据权利要求1所述的文本信息结构化提取方法，其特征在于，至少一个所述文本检测框对应的所述文本内容包括姓名信息和联系方式；所述方法还包括：

利用正则匹配从所述文本内容中提取所述姓名信息及所述联系方式，并分别对应到姓名字段和联系方式字段。

5.根据权利要求1所述的文本信息结构化提取方法，其特征在于，所述目标区域检测模型包括adeast模型；所述文本检测识别模型利用cornernet模型进行所述文本检测框的坐标提取，并利用densenet模型和ctc解码工具进行所述文本内容的提取；所述NLP文本分类模型通过bert模型预加载fine-tuning进行文本分类。

6.根据权利要求1所述的文本信息结构化提取方法，其特征在于，所述待处理图片包括快递单。

7.一种文本信息结构化提取装置，其特征在于，包括：

文本检测模块，用于：利用文本检测识别模型对待处理图片进行文本识别，输出文本检测框的坐标及对应的文本内容；

目标区域检测模块，用于：利用目标区域检测模型对所述待处理图片进行检测，检测出待进行文本信息提取的目标区域后，输出所述目标区域的坐标；

交叠比计算模块，用于：根据各个所述文本检测框的坐标和所述目标区域的坐标，计算各个所述文本检测框和所述目标区域的交叠比；

文本提取模块，用于：将所述交叠比和预设阈值进行比较；若所述交叠比大于所述预设阈值，则提取相应的所述文本检测框对应的所述文本内容，并按照业务字段进行结构化输出；

所述装置还包括NLP文本分类及提取模块，所述NLP文本分类及提取模块用于若所述目标区域检测模块检测不到所述目标区域，则将所述文本检测框中的所述文本内容按行输入到NLP文本分类模型，根据所述NLP文本分类模型的输出获取每行所述文本内容对应的预设类别；其中，所述预设类别包括所述业务字段；根据所述业务字段将所述NLP文本分类模型的输出结果进行拼接，并按照所述业务字段进行结构化输出。

8.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述文本信息结构化提取方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至6任一项所述文本信息结构化提取方法的步骤。