CN111125383A

CN111125383A - 基于事件模型的媒资标签存储及检索的方法

Info

Publication number: CN111125383A
Application number: CN201911356950.7A
Authority: CN
Inventors: 刘亮
Original assignee: Xinhua Zhiyun Technology Co ltd
Current assignee: Xinhua Zhiyun Technology Co ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-08
Anticipated expiration: 2039-12-25
Also published as: CN111125383B

Abstract

本发明公开了一种基于事件模型的媒资标签存储及检索的方法，包括以下步骤：对接入的多种算法，定义算法的识别结果结构；根据识别结果结构构建对应的Schema并向媒资系统注册全局唯一的事件模型及对应的数据Schema；媒资系统根据注册的数据Schema创建对应的ES索引字段；将算法的识别结果附加媒资ID和算法事件模型标识，导入到媒资系统；媒资系统收到媒资标签入库请求后，加载对应的数据Schema进行数据校验；通过对应算法定义的数据Schema的数据校验后，将媒资标签入库存储到媒资标签数据库。本发明的有益之处在于，对于不同算法的异构媒资标签，能够快速进行算法接入并存储，检索效率高。

Description

基于事件模型的媒资标签存储及检索的方法

技术领域

本发明涉及一种基于事件模型的媒资标签存储及检索的方法。

背景技术

随着互联网技术的快速发展，越来越多的传统媒资开始互联网化、云化。同时伴随AI等新技术的应用，传统媒资有了更多的智能能力，包括自动语音识别、字幕识别、人脸识别、视频内容理解(地标、建筑物…)等。如何对这类智能算法产生的海量标签进行接入，以及更好的存储和高效检索，就成了一个比较大的问题。传统媒资对这些异构的标签数据需要提前规划好数据结构，并且不能很好很快的利用这些标签辅助媒资检索。

现有方案主要缺陷在于:(1)接入效率慢。每增加一种新的智能算法，都需要提前规划好对应的数据结构，接入效率比较低下，不能快速响应；数据比较分散。(2)对各种算法产生的海量标签分表分散处理，无法统一存储。(3)检索效率低。数据分散在各自异构数据表中，无法提供一个统一的检索模型，只能分类型查找，查找效率比较低。

发明内容

为解决现有技术的不足，本发明提供了一种基于事件模型的媒资标签存储及检索的方法，对于不同算法的异构媒资标签，能够快速进行算法接入并存储，检索效率高。

一种基于事件模型的媒资标签存储及检索的方法，包括以下步骤：

对接入的多种算法，定义算法的识别结果结构；

根据识别结果结构构建对应的Schema并向媒资系统注册全局唯一的事件模型及对应的数据Schema；

媒资系统根据注册的数据Schema创建对应的ES索引字段；

将算法的识别结果附加媒资ID和算法事件模型标识，导入到媒资系统；

媒资系统收到媒资标签入库请求后，加载对应的数据Schema进行数据校验；

通过对应算法定义的数据Schema的数据校验后，将媒资标签入库存储到媒资标签数据库；

媒资标签落库存储后，媒资系统发出包含落库存储的媒资标签的媒资标签ID的MQ消息队列通知对应的索引进程实时处理落库存储的媒资标签的索引增量处理；

索引进程实时消费对应的MQ消息，拿到媒资标签ID，通过媒资标签ID从媒资标签数据库提取到完整的媒资标签内容并根据解析出的算法事件模型标识加载对应的数据Schema，找到对应的ES索引字段刷入媒资标签数据。

进一步地，将算法的识别结果附加媒资ID和算法事件模型标识后根据媒资标签入库协议导入到媒资系统。

进一步地，收到媒资标签入库请求后从媒资标签入库协议解析出算法事件模型标识，再根据事件模型标识加载对应的数据Schema进行数据校验。

进一步地，每条媒资标签具有一个全局唯一的媒资标签ID。

进一步地，每个媒资标签ID对应一个媒资ID和一个算法事件模型标识。

进一步地，媒资系统收到事件模型注册信息后存入到分布式配置中心，其他机器通过订阅实时获取到最新的配置信息并同步到本地。

进一步地，媒资标签数据库为NoSQL数据库。

进一步地，媒资系统在构建媒资标签的ES索引字段时给每种算法事件模型建立一个Nested类型的ES索引字段。

进一步地，媒资标签存储到媒资标签数据库并通过增量同步的方式实时索引到ES索引库。

进一步地，通过API向媒资系统注册全局唯一的事件模型及对应的数据Schema。

本发明的有益之处在于对于不同算法的异构媒资标签，能够快速进行算法接入并存储，检索效率高。

针对各种AI算法产生的海量异构标签数据进行统一注册、统一存储和统一检索。

统一注册可保证针对同一种算法，有一个强一致的数据模型和校验机制。统一存储可实现多种算法的结果集中处理。统一检索可满足业务系统对媒资的灵活查询需求。

附图说明

图1是一种基于事件模型的媒资标签存储及检索的方法的算法事件模型注册流程图；

图2是图1中基于事件模型的媒资标签存储及检索的方法的媒资标签处理流程图；

图3是图1中基于事件模型的媒资标签存储及检索的方法的媒资标签NoSQL存储结构的示意图；

图4是图1中基于事件模型的媒资标签存储及检索的方法的媒资标签ES索引结构。

具体实施方式

以下结合附图和具体实施例对本发明作具体的介绍。

如图1至图4所示，一种基于事件模型的媒资标签存储及检索的方法，包括算法事件模型注册流程、算法标签入库流程和媒资标签处理流程。

算法事件模型注册流程

对接入的多种算法，定义算法的识别结果结构；

媒资系统根据注册的数据Schema创建对应的ES索引字段。

例如图片人脸识别算法、视频语音识别算法、视频字幕识别算法、文本实体抽取算法、视频内容理解算法等，需要先定义各算法的识别结果结构。作为一种具体的实例，定义的各算法的识别结果结构为，图片人脸识别算法：人脸id、人名、人脸坐标、置信度。视频语音识别算法：开始时间、结束时间、语音内容、置信度。视频字幕识别算法：开始时间、结束时间、字幕内容、置信度。文本实体抽取算法：实体类型、实体id、实体名称、置信度。视频内容理解算法：标签名称、置信度。

算法不限于以上几种，更多算法在此不进一步进行举例。而算法识别结构也可以从更多角度或不同的角度上进行定义。

进一步地，根据识别结果结构构造对应的Schema，通过在线API向媒资系统注册全局唯一的事件模型及对应的数据Schema。媒资系统收到事件模型注册信息后，存入到分布式配置中心，其他机器通过订阅实时获取到最新的配置信息并同步到本地。同时媒资系统根据注册的数据Schema索引定义提前创建好对应的ES索引字段。

算法标签入库流程

当每路AI算法对某一个媒资(包括图片、音频、视频或文本等)进行算法处理时，会产生一个或多个识别结果(比如人脸数据)，并且可能会持续产生(比如语音识别)。

将算法的识别结果附加媒资ID和算法事件模型标识(EventName)，导入到媒资系统。具体而言，通过媒资标签入库协议导入到媒资系统。

媒资标签处理流程

媒资系统收到媒资标签入库请求后，加载对应的数据Schema进行数据校验。具体而言，收到媒资标签入库请求后从媒资标签入库协议解析出算法事件模型标识(EventName)，再根据事件模型标识加载对应的数据Schema进行数据校验。

例如收到一个图片人脸识别结果，会根据其数据Schema校验对应的人名是否设置，人脸坐标是否符合规范等。收到一个视频语音识别结果，会校验语音的时间点(开始时间点、结束时间点)、语音内容是否设置等。

只有通过对应算法定义的数据Schema的数据校验后，才会将媒资标签入库存储到媒资标签数据库。作为一种具体的方式，媒资标签数据库为NoSQL数据库。

媒资标签落库存储后，媒资系统发出一条MQ消息队列(包含该条落库存储的媒资标签的媒资标签ID)通知对应的索引进程实时处理落库存储的媒资标签的索引增量处理。

索引进程实时消费对应的MQ消息，拿到媒资标签ID，通过媒资标签ID从媒资标签数据库提取到完整的媒资标签内容。同样根据解析出的算法事件模型标识(EventName)加载对应的数据Schema，找到对应的ES索引字段刷入媒资标签数据。即把该条增量媒资标签数据刷入到ES的相应字段。

媒资标签检索

通过以上处理，AI算法识别产生的各种媒资标签存储到媒资标签数据库，并通过增量同步的方式实时索引到ES索引库，从而就能够满足从各维度对媒资数据的检索需求。

媒资标签ES索引结构，既可以满足跨媒资的检索请求，也可以满足单条媒资内的检索请求。

比如检索包含“故宫”地点的图片，就可以通过从NestedEntities实体字段检索该关键字，从而拿到所有满足条件的媒资列表。

再比如搜索某一视频里握手的时刻，就可以通过传入媒资ID和“握手”关键字，根据媒资ID可以定位到这条媒资，根据“握手”关键字可以从NestedAsr语音识别字段定位到对应语音提及到握手的时刻或从NestedOcr字幕识别字段定位到对应字幕提及到握手的时刻。

媒资标签NoSQL存储结构

每条媒资标签具有一个全局唯一的媒资标签ID(比如使用UUID生成)，同时包含其对应的媒资ID和算法事件模型标记(EventName)。作为一种具体的实施方式，具体结构如下：RecordID：媒资标签全局唯一ID；MediaID:对应的媒资ID；EventName:对应的算法事件模型标识；TagID：媒资标签ID(或实体ID)(非必须)；TagName:媒资标签名称；TimePointStart：标签开始时间点；TimePointEnd：标签结束时间点；Score：算法识别结果置信度；UserData：算法自定义数据内容；CreateTime：入库时间。

媒资标签ES索引结构

每条媒资可能会经过多个AI算法的处理，而每种AI算法也会产生很多条识别结果，从而每条媒资可能会包括成千上万条甚至更多媒资标签。

媒资系统在构建这些媒资标签的ES索引时，会给每种算法事件模型建立一个Nested类型的ES索引字段，比如语音识别算法，对应的ES索引字段是nestAsr(在对应的事件模型Schema里定义)，比如字幕识别算法，对应的ES索引字段是nestOcr。具体结构如下：MediaID:媒资ID；MediaType:媒资类型，比如图片、视频、音频；CreateTime：入库时间；NestTags：内容理解算法标签；NestEntities：实体抽取算法标签；NestFaces：人脸识别算法标签；NestAsr：语音识别算法标签；NestOcr：字幕识别算法标签。

标签数据存储模型可以有多种：针对亿级别及以下，可以采用传统数据库比如MySQL，但注册一种新的数据模型需要手动维护存储结构。针对更多量级的数据，除了可使用阿里云的OTS存储数据库以外，也可以使用Cassandra或MongoDB等其他NOSQL来替换。

以上显示和描述了本发明的基本原理、主要特征和优点。本行业的技术人员应该了解，上述实施例不以任何形式限制本发明，凡采用等同替换或等效变换的方式所获得的技术方案，均落在本发明的保护范围内。

Claims

1.一种基于事件模型的媒资标签存储及检索的方法，其特征在于，包括以下步骤：

对接入的多种算法，定义算法的识别结果结构；

媒资系统根据注册的数据Schema创建对应的ES索引字段；

2.根据权利要求1所述的基于事件模型的媒资标签存储及检索的方法，其特征在于，

将算法的识别结果附加媒资ID和算法事件模型标识后根据媒资标签入库协议导入到媒资系统。

3.根据权利要求2所述的基于事件模型的媒资标签存储及检索的方法，其特征在于，

收到媒资标签入库请求后从媒资标签入库协议解析出算法事件模型标识，再根据事件模型标识加载对应的数据Schema进行数据校验。

4.根据权利要求1所述的基于事件模型的媒资标签存储及检索的方法，其特征在于，

每条媒资标签具有一个全局唯一的媒资标签ID。

5.根据权利要求4所述的基于事件模型的媒资标签存储及检索的方法，其特征在于，

每个媒资标签ID对应一个媒资ID和一个算法事件模型标识。

6.根据权利要求1所述的基于事件模型的媒资标签存储及检索的方法，其特征在于，

媒资系统收到事件模型注册信息后存入到分布式配置中心，其他机器通过订阅实时获取到最新的配置信息并同步到本地。

7.根据权利要求1所述的基于事件模型的媒资标签存储及检索的方法，其特征在于，

媒资标签数据库为NoSQL数据库。

8.根据权利要求1所述的基于事件模型的媒资标签存储及检索的方法，其特征在于，

媒资系统在构建媒资标签的ES索引字段时给每种算法事件模型建立一个Nested类型的ES索引字段。

9.根据权利要求1所述的基于事件模型的媒资标签存储及检索的方法，其特征在于，

媒资标签存储到媒资标签数据库并通过增量同步的方式实时索引到ES索引库。

10.根据权利要求1所述的基于事件模型的媒资标签存储及检索的方法，其特征在于，

通过API向媒资系统注册全局唯一的事件模型及对应的数据Schema。