CN117290384A

CN117290384A - 一种基于大数据与计算机视觉结合的图文检索系统及方法

Info

Publication number: CN117290384A
Application number: CN202311587845.0A
Authority: CN
Inventors: 杨登柳; 朱雅都; 张迪勇; 黄尚强; 郑佳勇; 方卫洪; 魏明欣; 席力凡; 陈曦; 范红霞; 李丹
Original assignee: Same Side Seville Information Technology Co ltd
Current assignee: Same Side Seville Information Technology Co ltd
Priority date: 2023-11-27
Filing date: 2023-11-27
Publication date: 2023-12-26
Anticipated expiration: 2043-11-27
Also published as: CN117290384B

Abstract

本发明公开了一种基于大数据与计算机视觉结合的图文检索系统及方法，所述系统包括：数据采集模块，用于获取业务数据、文书数据与卷宗数据；数据检索模块，用于提供数据检索功能；数据源管理模块，用于管理结构化数据源以及非结构化数据源，也支持插件化动态扩展数据源类型；词库管理模块，用于配置数据检索的分词词库，并提供词库隔离功能；ES监控与运维模块，用于提供对ES集群服务的监控面板，以及对ES集群动态扩容与缩容的操作；系统管理模块，用于实现系统的用户权限管理，并提供数据隔离功能；图像识别模块，用于识别文书卷宗中的目标物品，并结合数据检索功能，实现以文搜图的功能。本发明有效提高了案件、文书与卷宗的检索效率。

Description

一种基于大数据与计算机视觉结合的图文检索系统及方法

技术领域

本发明涉及数据采集、数据检索、图像识别领域，特别是涉及一种基于大数据与计算机视觉结合的图文检索系统及方法。

背景技术

数据采集与数据检索是大数据关键技术，而图像识别则是计算机视觉技术。随着大数据技术与深度学习技术的发展，所需数据都是存储在关系型数据库，在大数据量下其检索性能低、关联性差、响应慢，且无法快速定位相关文书与卷宗的数据信息，更无法快速查找相关联的印章、指纹、签名等图片。这就需要数据采集技术，将案件相关数据采集到Elasticsearch中，并在结构化数据采集过程中，可以使用图像识别技术对卷宗或者文书的识别，从而快速查看关联的图片数据；

而且Elasticsearch可以提供毫秒级别响应速度，以及更加强大数据检索与数据聚合操作，可以满足绝大多数业务场景的检索需求。在业务应用中，由于数据量比较大，导致检索响应慢，结果数据间关联性差；文书与卷宗数据则可以理解为非结构化数据，而在大量非结构化数据中无法快速准确的找到需要的文书或者卷宗数据，同样在大量的图片数据中也无法快速获取相关联的图片数据。因此需要使用数据采集、图像识别技术，将案件信息、文书信息、卷宗信息以及图片的特征情况提取保存到Elasticsearch，再使用数据检索技术进行相关数据查询操作。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于大数据与计算机视觉结合的图文检索系统及方法，有效提高了案件、文书与卷宗的检索效率。

本发明的目的是通过以下技术方案来实现的：一种基于大数据与计算机视觉结合的图文检索系统，包括：

数据采集模块，用于获取业务数据、文书数据与卷宗数据，采集数据用于为数据检索提供支持；

数据检索模块，用于提供数据检索功能，进行多组合关键字查询、多聚合查询以及基于SQL语句的检索；

数据源管理模块，用于管理结构化数据源以及非结构化数据源，也支持插件化动态扩展数据源类型；

词库管理模块，用于配置数据检索的分词词库，并提供词库隔离功能，以便于在不同的索引上使用不同的词库配置；

ES监控与运维模块，用于提供对ES集群服务的监控面板，以及对ES集群动态扩容与缩容的操作；

系统管理模块，用于实现系统的用户权限管理，并提供数据隔离功能，使得各个业务间的数据隔离，避免恶意访问以及垃圾数据产生；

图像识别模块，用于基于检察行业图像数据训练而得到的图像识别模型，识别文书卷宗中的目标物品，并结合数据检索功能，实现以文搜图的功能。

所述数据采集模块支持多数据源采集以及嵌入对象模式采集，提供全量采集、增量采集、实时采集、采集失败后重试、脏数据处理、以及采集日志记录的功能。所述目标物品包括指纹、印章、签名中一种或多种的组合。

一种基于大数据与计算机视觉结合的图文检索方法，包括以下步骤：

第一步、进行图文检索服务的部署：

1、基础环境准备；

2、环境安装，首先安装并配置JDK环境；其次再安装MySQL服务，并初始化图文检索系统的数据库信息；然后安装Elasticsearch服务，并初始化Elasticsearch服务的账户密码；再安装图像识别服务，此时需要通过执行图像识别训练步骤，得到训练好的图像识别模型，并在图像识别扩展插件中配置图像识别服务地址；之后便是为图文检索服务配置MySQL连接信息、Elasticsearch连接信息、扩展插件路径信息；最后便是启动图文检索服务；

第二步、系统用户配置：使用系统管理员登录系统后，首先需要创建一个角色与用户，然后便退出登录，使用新建的用户进行登录操作，避免当系统接入多个业务环境时，导致业务间检索数据混乱，以及脏数据与无用数据出现；

第三步、数据源配置：配置需要采集的结构化数据源信息，以及非结构化数据源信息，当使用图像识别功能时，需要选择具有图像识别功能的非结构化扩展插件，用于统一管理；

第四步、数据采集配置：在数据采集器中配置需要采集的结构化数据源，与关联的非结构化数据源（其中非结构化数据源默认只支持文本内容提取，可以通过安装扩展插件来支持图像识别功能），并且在数据采集SQL中也需要指定图像文件地址，默认会以‘__URL’结尾字段的字段值作为非结构化文档地址，还需要在支持图像识别的非结构化数据源插件中配置图像服务地址（会通过图像识别模型训练步骤，得到拥有检察行业特性的图像识别模型，并使用图像识别模型部署一个图像识别服务）。

第五步、数据采集：校验数据库是否开启归档日志，如果开启则执行基于Flink的实时同步步骤，否则会执行数据抽取步骤，之后会遍历采集的数据，从而获取需要识别的图像文件，并保存到本地；

第六步、图像识别结果存储：通过非结构化数据源的图像识别插件，调用图像识别服务进行对图像内容进行识别，并保存其识别的结果数据；

第七步、数据检索使用：等待数据采集完成后，通过数据检索步骤查询需要的数据信息，如果检索的对象是图像索引则会返回关键字命中的图像地址；

第八步、需要进行图像预览操作时，在本地部署一个nginx服务，并挂载图像保存地址，使用nginx代理地址加上命中图像的本地地址，实现图像预览操作。

所述数据抽取步骤包括：

A1、获取采集器信息，以及数据源信息；

A2、判断当前采集任务时实时采集任务还是定时采集任务，如果是实时采集则执行步骤A3，如果是定时采集则执行步骤A4；

A3、在实时采集中，先进行SQL解析，将解析的SQL信息，并将其转换成Flink任务，使用Flink进行数据实时同步；

A4、在定时采集中，先获取上次采集时间作为本次采集数据的开始时间，再通过组装SQL，并使用SPI机制加载对应结构化数据源驱动，执行数据采集SQL获取采集数据，之后再加载非结构化数据源驱动，进行非结构化数据提取；

然后将采集的数据批量保存到Elasticsearch中，再进行下一批次数据采集操作，直到采集的数据为空为止；如果在这个过程中有错误产生，则记录采集失败信息，并重新执行步骤A4，进行采集失败重试，如果当前采集任务的失败次数大于5则记录当前采集任务失败，需要手动排查原因；如果没有，则更新上次采集时间，等待下一次采集任务触发。

所述基于Flink的实时同步步骤包括：

B1、判断数据库是否支持归档日志读取，以及是否开启归档日志记录，如果没有，则当前任务无法执行实时同步任务，而是执行定时同步任务；

B2、创建一个线程，获取数据库的归档日志，并解析日志，提取数据采集需要的表结构化与数据信息，并保存到内存中等待Flink任务消费数据，同时定时去检测保存的数据是否会被消费，如果不会则表示该数据为垃圾数据，需要丢弃，避免占用大量内存导致内存溢出；

B3、加载采集器信息，并通过解析采集SQL，从而组装成Flink任务，并消费归档数据，并保存到Elasticsearch中。

所述数据检索步骤包括：

C1、判断调用的是SQL查询、多组合关键字检索或者多聚合检索功能，如果是SQL查询功能则执行步骤C2；如果是多组合关键字检索功能，则执行步骤C3；如果是多聚合检索功能，则执行步骤C4；

C2、获取检索的SQL语句，进行SQL解析，提取其中查询字段，关联索引，过滤条件以及查询数，并组装成DSL语法进行执行，最后返回结果数据；

默认的SQL检索只支持单索引以及基本检索，不支持关联检索以及分词检索，所以需要安装SQL检索的插件用于增强SQL检索功能；

C3、获取多组合检索条件，支持精确过滤、范围过滤、分词检索、词项检索、精确匹配检索、嵌入对象检索、多层级检索、检索排序、检索高亮功能，将检索条件封装为DSL语法，进行检索，返回结果数据；

C4、获取多聚合检索条件，支持指标聚合，以及在聚合的结果上进行二次聚合操作，之后会将聚合查询封装为DSL语法，进行聚合检索。

DSL语法：Elasticsearch提供了基于JSON的完整查询DSL（特定于域的语言）来定义查询。将查询DSL视为查询的AST（抽象语法树），它由两种子句组成：

叶子查询子句：叶查询子句中寻找一个特定的值在某一特定领域，如 match，term或 range查询。这些查询可以自己使用。

复合查询子句：复合查询子句包装其他叶查询或复合查询，并用于以逻辑方式组合多个查询（例如 bool查询），或更改其行为（例如 constant_score查询）。

所述图像识别模型训练步骤包括：

D1、在进行图像识别之前，首先需要准备好训练数据和测试数据，训练数据采用是一组已经标记好类别的图像，而测试数据则是用来评估模型性能的未标记图像；

D2、开始进行模型的训练：在机器学习中，使用神经网络作为模型，通过训练来学习输入数据的模式和特征；

D3、经过模型训练后，使用训练好的模型来进行图像预测，给定一个新的图像，模型输出一个预测结果，表示该图像属于各个类别的概率；并且也会根据预测结果情况，进行参数优化，重新训练。

本发明的有益效果是：（1）本发明支持多数据源采集，以及实时数据采集功能。

（2）本发明支持词库隔离，可以实现索引的词库自定义，避免索引词库的互相污染。

（3）本发明可以基于SQL语句进行检索，还提供了比较丰富的多组合关键字检索以及多聚合检索功能。

（4）本发明还支持“以文搜图”功能，需要单独部署图像识别服务。

附图说明

图1为本发明的系统结构框图；

图2为本发明的全量采集流程图；

图3为本发明的增量采集流程图；

图4为本发明的实时采集流程图；

图5为图像识别的流程图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

如图1所示，一种基于大数据与计算机视觉结合的图文检索系统，其结构包括：

数据采集模块，用于获取业务数据、文书数据与卷宗数据，采集数据可以为数据检索提供支持。并且数据采集支持多数据源采集以及嵌入对象模式采集，还提供全量采集、增量采集、实时采集、采集失败后重试、脏数据处理、以及采集日志记录等功能。

数据检索模块，主要用于提供数据检索功能，可以进行多组合关键字查询、多聚合查询以及基于SQL语句的检索，可以覆盖绝大多数的检索场景，提高开发人员的开发效率。

数据源管理模块，主要是用于管理结构化数据源以及非结构化数据源，也支持插件化动态扩展数据源类型，可以提高整个系统的可用性与灵活性。

词库管理模块，主要用于配置数据检索的分词词库，提高检索的准确性。还提供了词库隔离功能，可以运行不同的索引使用不同的词库配置，提高系统整体的可用性与灵活性。

ES监控与运维模块，主要提供了对ES集群服务的监控面板，以及动态扩容与缩容，方便运维人员操作ES集群。

系统管理模块，主要是承担了系统的用户权限管理，可以提供数据隔离功能，使得各个业务间的数据隔离，避免恶意访问以及垃圾数据产生。

插件管理模块，主要是用于对系统扩展插件进行统一管理，从而提高系统可用性与扩展性，目前支持对结构化数据源与非结构化数据源进行类型扩展，还可以针对索引进行数据自定义预处理操作（在保存到ES前会添加一个拦截器，从而实现对数据自定义扩展）。

在本实例的基于大数据与计算机视觉的图文检索系统，首先会数据采集模块进行业务数据、文书数据与卷宗数据的采集，在采集中会使用图像识别技术对图像进行内容识别；之后便可以对采集后的数据进行数据检索操作。

如图2所示，本实施例的全量采集方法如下：

需要先获取上次采集时间，再获取数据源实例；之后便是组装数据采集SQL（将上次采集时间当作本次采集源数据的最后修改时间），使用SPI（JDK内置的一种服务提供发现机制，可以用来框架扩展和替换组件）机制选择不同的驱动执行数据采集SQL获取采集数据，再通过非结构化实例，获取非结构化数据；最后分批次将数据更新到ES中，源数据ID在ES中存在，则更新数据，如果不存在则添加数据；如果源数据被删除了，则需要人工删除对应的文档数据。如果在运行过程中有任务报错消息，则会直接结束当前采集任务，等到下次采集任务触发，从新进行数据采集，并且还会添加一个采集失败重新采集任务，如果连续5次重新采集失败，则结束任务，需要人工干涉；如果在运行中没有任何报错，数据正常同步完成，更新采集器消息中上次采集时间，使得下次采集任务触发，采集的数据会紧接着本次采集之后，不会出没有采集到的数据。

如图3所示，本实施例的增量采集方法如下：

在数据增量同步流程中，会先创建采集任务，并在创建时判断是否支持增量日志同步，如果支持则开启Flink任务，进行数据组装，保存到下游的ES中。如果不支持则等待采集任务触发，并判断上次采集时间是否在采集器创建时间之前，如果是则执行全量采集流程。

如果上次采集时间在采集器的创建时间之后，则执行基于SQL的增量同步，先使用主查询进行数据同步，在同步时需要绑定关联查询与嵌入查询；之后再分别对关联查询与嵌入查询执行增量更新SQL，获取更新的数据，在通过关联字段反向获取ES文档ID，如果获取到则更新数据，获取不到则丢弃数据。这里之所以将反查不到文档ID的数据丢弃，是因为这表示主查询还没有采集到该关联的主数据，而等待采集到关联的主数据时，则会直接获取所有的关联查询与嵌入查询数据，无需再反向获取主查询的那条数据。

在数据源进行新增或者修改时会开启归档线程，先校验能否可以正确获取归档日志，如果不行则记录该数据源没有开启归档日志；如果可以则记录数据源开启的归档日志，并进行归档日志的读取。归档日志的读取是借用了debezium服务，进行实时读取采集数据源的归档日志，并保存DML数据，等待Flink任务消费数据。

如图4所示，本实施例的实时采集方法如下：

首先判断采集器的结构化数据源是否支持增量日志，如果不支持则直接结束；如果支持则进行采集SQL解析，判断查询表数是否大于1，如果不大于则添加查询表数据源，配置数据源的水位线（处理数据过来时的延迟），进行查询条件过滤（进行采集SQL中where条件过滤）；如果大于1则为每张查询表关联数据源，配置数据源的水位线，进行查询条件过滤，之后在进行数据源两两连接，通过关联条件进行数据组合，之后在数据组装时，需要判断右边关联的数据是否存在，如果不存在则需要根据左边的数据以及整体的采集SQL区反查右边的数据；如果右边的数据存在则直接进行左右两边的数据组装。最后便是进行数据输出，并根据数据的操作类型进行对ES文档数据更新或者删除操作。

如图5所示，本实施的图像识别模型训练的方法如下：

而模型过程主要包含前期准备工作、模型训练与效果评估三个部分。

1、前期准备工作，包括数据集的获取、数据集的划分以及数据标记。为了可以实现对检察行业的图像数据进行识别，至少需要准备5000张图像，并对图像进行标注相关特征。

2、图像预处理：Mosaic数据增强、自适应锚框计算、自适应图片缩放。

Mosaic数据增强：Mosaic数据增强是指将4张图片随即缩放、随机裁剪、随机排布的方式进行拼接成新的图片，该方式仅在训练过程中使用。这样做的目的，一是丰富数据集，随机使用4张图片，随机缩放，再随机分布进行拼接，大大丰富了检测数据集，特别是随机缩放增加了很多小目标，让网络的鲁棒性更好；二是减少GPU，可能会有人说，随机缩放，普通的数据增强也可以做，但作者考虑到很多人可能只有一个GPU，因此Mosaic增强训练时，可以直接计算4张图片的数据，使得Mini-batch大小并不需要很大，一个GPU就可以达到比较好的效果。

自适应锚框计算：在YOLO算法中针对不同的数据集都会有初始设定长款的锚框。在网络训练中，网络在初始锚框的基础上输出预测框，进而和真实框groundtruth进行比对，计算损失，再反向更新，迭代网络参数。

自适应图片缩放：在常用的目标检测算法中，不同的图片长宽都不相同，因此常用的方式是将原始图片统一缩放到一个标准尺寸，再送入检测网络中。但是，在项目实际使用时，很多图片的长宽比不同，因此缩放填充后，两端的黑边大小都不同，而如果填充的比较多，则存在信息冗余，影响推理速度。

3、图像特征提取：使用Focus模块与CSP模块。CSP 模块在增强整个卷积神经网络学习性能的同时大幅减少了计算量；Focus 模块对图片进行切片操作，将输入通道扩充为原来的 4 倍，并经过一次卷积得到下采样特征图，在实现下采样的同时减少了计算量并提升了速度。

4、图像特征融合：由于物体在图像中的大小和位置是不确定的，因此需要一种机制来处理不同尺度和大小的目标。特征金字塔是一种用于处理多尺度目标检测的技术，它可以通过在骨干网络上添加不同尺度的特征层来实现。在Yolov5中，采用的是FPN（FeaturePyramid Network）特征金字塔结构，通过上采样和下采样操作将不同层次的特征图融合在一起，生成多尺度的特征金字塔。自顶向下部分主要是通过上采样和与更粗粒度的特征图融合来实现不同层次特征的融合，而自下向上则是通过使用一个卷积层来融合来自不同层次的特征图。

具体来说，自顶向下部分是通过上采样和与更粗粒度的特征图融合来实现不同层次特征的融合，主要分为以下几步：1.对最后一层特征图进行上采样，得到更精细的特征图；2.将上采样后的特征图与上一层特征图进行融合，得到更丰富的特征表达；3.重复以上两个步骤，直到达到最高层。

自下向上部分主要是通过使用一个卷积层来融合来自不同层次的特征图，主要分为以下几步：1.对最底层特征图进行卷积，得到更丰富的特征表达；2.将卷积后的特征图与上一层特征图进行融合，得到更丰富的特征表达；3.重复以上两个步骤，直到达到最高层。

5、回归预测：Head 输出一个向量，该向量具有目标对象的类别概率、对象得分和该对象边界框的位置。检测网络由三层检测层组成，不同尺寸的特征图用于检测不同尺寸的目标对象。每个检测层输出相应的向量，最后生成原图像中目标的预测边界框和类别并进行标记。Yolov5还使用了一些技巧来进一步提升检测精度，比如GIoU loss、Mish激活函数和多尺度训练等。

Anchors：用于定义不同大小和长宽比的目标框，通常使用 K-means 聚类对训练集的目标框进行聚类得到，可以在模型训练之前进行计算，存储在模型中，用于预测时生成检测框。

Classification：用于对每个检测框进行分类，判断其是否为目标物体，通常采用全连接层加 Softmax 函数的形式对特征进行分类。

Regression：用于对每个检测框进行回归，得到其位置和大小，通常采用全连接层的形式对特征进行回归。

上述说明示出并描述了本发明的一个优选实施例，但如前所述，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述发明构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于大数据与计算机视觉结合的图文检索系统，其特征在于：包括：

2.根据权利要求1所述的一种基于大数据与计算机视觉结合的图文检索系统，其特征在于：所述数据采集模块支持多数据源采集以及嵌入对象模式采集，提供全量采集、增量采集、实时采集、采集失败后重试、脏数据处理、以及采集日志记录的功能。

3.根据权利要求1所述的一种基于大数据与计算机视觉结合的图文检索系统，其特征在于：所述目标物品包括指纹、印章、签名中一种或多种的组合。

4.一种基于大数据与计算机视觉结合的图文检索方法，基于权利要求1~3中任意一项所述的系统，其特征在于：包括以下步骤：

第一步、进行图文检索服务的部署：

1、基础环境准备；

第三步、数据源配置：配置需要采集的结构化数据源信息，以及非结构化数据源信息，当使用图像识别功能时，需要选择具有图像识别功能的非结构化扩展插件，用于统一管理;

第四步、数据采集配置：在数据采集器中配置需要采集的结构化数据源，与关联的非结构化数据源，并且在数据采集SQL中也需要指定图像文件地址，默认会以‘__URL’结尾字段的字段值作为非结构化文档地址，还需要在支持图像识别的非结构化数据源插件中配置图像服务地址；

5.根据权利要求4所述的一种基于大数据与计算机视觉结合的图文检索方法，其特征在于：所述数据抽取步骤包括：

A1、获取采集器信息，以及数据源信息；

6.根据权利要求4所述的一种基于大数据与计算机视觉结合的图文检索方法，其特征在于：所述基于Flink的实时同步步骤包括：

7.根据权利要求4所述的一种基于大数据与计算机视觉结合的图文检索方法，其特征在于：所述数据检索步骤包括：

C1、判断调用的是SQL查询、多组合关键字检索或者多聚合检索功能，如果是SQL查询功能则执行步骤C2；如果是多组合关键字检索功能，则执行步骤C3；如果是多聚合检索功能，则执行步骤C4;

8.根据权利要求4所述的一种基于大数据与计算机视觉结合的图文检索方法，其特征在于：所述图像识别模型训练步骤包括：