CN112468754A

CN112468754A - 一种基于音视频识别技术的笔录数据采集方法及装置

Info

Publication number: CN112468754A
Application number: CN202011313876.3A
Authority: CN
Inventors: 何双江; 董喆; 秦威; 徐凤祥; 赵慧娟; 谭俊; 张亚一; 邓乔波
Original assignee: Wuhan Fiberhome Integration Technologies Co ltd
Current assignee: Wuhan Fiberhome Integration Technologies Co ltd
Priority date: 2020-11-20
Filing date: 2020-11-20
Publication date: 2021-03-09
Anticipated expiration: 2040-11-20
Also published as: CN112468754B

Abstract

本申请涉及一种基于音视频识别技术的笔录数据采集方法及装置，涉及笔录信息收录技术领域，该方法包括以下步骤：同步采集录音音频文件、录像视频文件以及笔录文本文件；根据笔录文本文件的关键词，生成对应的笔录关键词文件，对录音音频文件进行语音转录，生成对应的转录文本文件，对录像视频文件进行特征处理，获得对应的视频特征文件；对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。本申请同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作，对数据进行结构化处理，提升了笔录信息收录工作的准确性。

Description

一种基于音视频识别技术的笔录数据采集方法及装置

技术领域

本申请涉及笔录信息收录技术领域，具体涉及一种基于音视频识别技术的笔录数据采集方法及装置。

背景技术

在司法、教育、企业员工问询、纪律管理场景，尤其是在具有问询笔录同步录像录音的场景下借助人工智能对音视频识别，需要保证笔录信息收录的准确性。

全程同步录音录像时，录音与录像是否保持同步一致，笔录内容与录音录像内容是否保持一致，笔录的录音录像时长在制作时间上是否具有一致性，均是影响智能化笔录信息收录工作准确性的关键因素。

故而，为提高笔录信息收录的准确性，现提供一种基于音视频识别技术的笔录数据采集核查技术。

发明内容

本申请提供一种基于音视频识别技术的笔录数据采集方法及装置，同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作，对数据进行结构化处理，提升了笔录信息收录工作的准确性。

第一方面，本申请提供了一种基于音视频识别技术的笔录数据采集方法，所述方法包括以下步骤：

同步采集录音音频文件、录像视频文件以及笔录文本文件；

根据所述笔录文本文件的关键词，生成对应的笔录关键词文件，对所述录音音频文件进行语音转录，生成对应的转录文本文件，对所述录像视频文件进行特征处理，获得对应的视频特征文件；

对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。

具体的，所述录音音频文件、所述录像视频文件以及所述笔录文本文件之间存在索引对应关系；

所述笔录文本文件中包含以询问人和被询问人为对象，按照时间顺序收录的笔录文本信息；

所述笔录文本文件中包括多个事件项目标记，各所述事件项目标记分别对应在录音或录像过程中的事件项目。

具体的，所述事件项目为开始录制、结束录制、暂停录制、解码故障、网络中断、存储空间已满以及时延过大。

具体的，各所述笔录文本文件配有对应的音视频索引，各所述录像视频文件配有根据对应的所述笔录文本文件生成的笔录字幕信息。

进一步的，对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储时，所述方法还包括以下步骤：

分别对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要，并根据时间建立信息摘要链。

进一步的，在获得笔录关键词文件、转录文本文件以及视频特征文件之前，还包括文件预处理流程，所述文件预处理流程包括以下步骤：

对所述笔录文本文件进行信息结构化梳理；

对所述录音音频文件按照对话间隔进行分段处理，获得各录音音频片段，按照时间序列以及声源类别进行对话排序，分离人声和非人声，并标注时间索引；

根据各录音音频片段，对所述录像视频文件进行分割，获得各录像视频段，并对于没有声音的片段重点标记。

进一步的，所述文件预处理流程还包括以下步骤

计算进行信息结构化梳理后的所述笔录文本文件在所述录音音频文件、所述录像视频文件以及所述笔录文本文件中的信息量占比。

优选的，在根据所述笔录文本文件的关键词，生成对应的笔录关键词文件，对所述录音音频文件进行语音转录，生成对应的转录文本文件，对所述录像视频文件进行特征处理，获得对应的视频特征文件时，采用并行处理方式。

具体的，所述根据所述笔录文本文件的关键词，生成对应的笔录关键词文件，对所述录音音频文件进行语音转录，生成对应的转录文本文件，对所述录像视频文件进行特征处理，获得对应的视频特征文件，具体包括以下步骤：

对笔录文本文件进行片段特征提取，获得对应的关键词，进而生成对应的笔录关键词文件；

对所述录音音频文件根据音频底层特征以及音频来源进行分析，并通过语音转录生成转录文本文件；

针对所述录像视频文件通过视频目标标注和目标跟踪算法，提取视频信息特征，生成视频特征文件。

第二方面，本申请提供了一种基于音视频识别技术的笔录数据采集装置，所述装置包括：

数据采集模块，其用于同步采集录音音频文件、录像视频文件以及笔录文本文件；

数据处理模块，其用于根据所述笔录文本文件的关键词，生成对应的笔录关键词文件，对所述录音音频文件进行语音转录，生成对应的转录文本文件，对所述录像视频文件进行特征处理，获得对应的视频特征文件；

数据存储模块，其用于对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。

本申请提供的技术方案带来的有益效果包括：

本申请同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作，对三者建立关联性，并对数据进行结构化处理，实现了同步录音录像，录音与录像保持同步一致，笔录内容与录音录像内容保持一致，获取笔录的录音录像时长在制作时间上具有一致性，从而大大提升了笔录信息收录工作的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例一提供的基于音视频识别技术的笔录数据采集方法的步骤流程图；

图2为本申请实施例一提供的基于音视频识别技术的笔录数据采集方法的原理流程图；

图3为本申请实施例一提供的基于音视频识别技术的笔录数据采集方法的事件项目的传输结构示意图；

图4为本申请实施例二提供的基于音视频识别技术的笔录数据采集装置的结构框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图对本申请的实施例作进一步详细说明。

本申请实施例提供一种基于音视频识别技术的笔录数据采集方法及装置，同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作，对三者建立关联性，并对数据进行结构化处理，实现了同步录音录像，录音与录像保持同步一致，笔录内容与录音录像内容保持一致，获取笔录的录音录像时长在制作时间上具有一致性，从而大大提升了笔录信息收录工作的准确性。

为达到上述技术效果，本申请的总体思路如下：

一种基于音视频识别技术的笔录数据采集方法，该方法包括以下步骤：

S1、同步采集录音音频文件、录像视频文件以及笔录文本文件；

S2、根据笔录文本文件的关键词，生成对应的笔录关键词文件，对录音音频文件进行语音转录，生成对应的转录文本文件，对录像视频文件进行特征处理，获得对应的视频特征文件；

S3、对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。

以下结合附图对本申请的实施例作进一步详细说明。

实施例一

参见图1～3所示，本申请实施例提供一种基于音视频识别技术的笔录数据采集方法，该方法包括以下步骤：

本申请实施例中，同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作，对三者建立关联性，并对数据进行结构化处理，实现了同步录音录像，录音与录像保持同步一致，笔录内容与录音录像内容保持一致，获取笔录的录音录像时长在制作时间上具有一致性，从而大大提升了笔录信息收录工作的准确性。

需要说明的是，本申请实施例中的基于音视频识别技术的笔录数据采集方法，执行的系统结构包括音视频笔录终端、音视频服务器、笔录服务器以及审查服务器；

音视频笔录终端，询问人和被询问人通过音视频笔录终端，同步采集录音音频文件、录像视频文件以及笔录文本文件；

音视频服务器，用于存储录音音频文件以及录像视频文件；

笔录服务器，用于存储笔录文本文件；

审查服务器，用于存储笔录关键词文件、转录文本文件以及视频特征文件；

该系统结构通过分离，将数据分散，防止集中篡改，每个服务器都会存储其他服务器的信息摘要和时间轴，防止时间轴上的任何修改。

具体的，录音音频文件、录像视频文件以及笔录文本文件之间存在索引对应关系；

笔录文本文件中包含以询问人和被询问人为对象，按照时间顺序收录的笔录文本信息；

笔录文本文件中包括多个事件项目标记，各事件项目标记分别对应在录音或录像过程中的事件项目。

具体的，事件项目为开始录制、结束录制、暂停录制、解码故障、网络中断、存储空间已满以及时延过大。

需要说明的是，在录音和录像过程中的任何操作都会和笔录上有对应时间戳，比如关闭录音录像、暂停等都会在笔录文本文件中记录动作信息，动作信息也是存储在审查服务器上与录音录像不在一个位置，因此后期可以相互佐证，

由于不仅仅记录关闭、暂停和开始等状况，还会记录故障、终端等情况，故而统称为事件项目，而事件项目的传输结构定义如下：

讯问标识32位，

信道类型1位，0表示音频1表示视频，

信道编号2位，一般存在讯问流信道、被讯问流信道、合成流信道等多个信道，

事件类型2位，01表示开始录制、02表示结束录制、03表示暂停、04表示解码故障、05表示网络中断、06表示存储空间满、07表示时延过大，

时间错8位，表示年、月、日、时、分、秒。

具体的，各笔录文本文件配有对应的音视频索引，各录像视频文件配有根据对应的笔录文本文件生成的笔录字幕信息；

笔录过程中，会建立笔录和音视频的索引对应关系；

笔录采用问答形式，当一组问答录入结束时，会与音视频建立关联索引，可以自动建立，也可以人工确认建立。

具体的，对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储时，该方法还包括以下步骤：

分别对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要，并根据时间建立信息摘要链。

进一步的，在获得笔录关键词文件、转录文本文件以及视频特征文件之前，还包括文件预处理流程，文件预处理流程包括以下步骤：

对笔录文本文件进行信息结构化梳理；

对录音音频文件按照对话间隔进行分段处理，获得各录音音频片段，按照时间序列以及声源类别进行对话排序，分离人声和非人声，并标注时间索引；

根据各录音音频片段，对录像视频文件进行分割，获得各录像视频段，并对于没有声音的片段重点标记；其中，

所述声源类别包括询问人、被询问人以及非人声。

进一步的，文件预处理流程还包括以下步骤：

计算进行信息结构化梳理后的笔录文本文件在录音音频文件、录像视频文件以及笔录文本文件中的信息量占比。

需要说明的是，在进行文件预处理流程时，

首先是对笔录文本文件进行预处理，即信息结构化梳理，按照预设的要素，诸如按照人、事、物、时间、金额、证据等梳理结构化信息，并计算该文本占整个讯问过程中的信息量，

信息量大的笔录文本文件，可作为后期审查的重点文件，

信息结构化梳理的规则由自然语言处理技术自动提取再由人工确认，也可在笔录同步编辑时，同步提取并提示工作人员确认结构化分类；

而后，对录音音频文件进行预处理，即按照对话间隔对音频进行分段处理，获得各录音音频片段，按照说话人，即询问人或被询问人对进行分类，按照时间序列对对话进行排序，并按照声源分离人声和非人声，并标注时间索引；

最后，对录像视频文件进行预处理，即根据录音音频片段的时间索引分割视频，获得各录像视频片段，并对于没有声音的片段重点标记；

最终，存储笔录文本文件对应的音视频索引，在录像视频文件中插入笔录字幕信息，形成交叉证明。

优选的，在根据笔录文本文件的关键词，生成对应的笔录关键词文件，对录音音频文件进行语音转录，生成对应的转录文本文件，对录像视频文件进行特征处理，获得对应的视频特征文件时，采用并行处理方式。

具体的，根据笔录文本文件的关键词，生成对应的笔录关键词文件，对录音音频文件进行语音转录，生成对应的转录文本文件，对录像视频文件进行特征处理，获得对应的视频特征文件，具体包括以下步骤：

对录音音频文件根据音频底层特征以及音频来源进行分析，并通过语音转录生成转录文本文件；

针对录像视频文件通过视频目标标注和目标跟踪算法，提取视频信息特征，生成视频特征文件。

其中，首先是对笔录文本文件进行片段特征提取，获得对应的关键词，进而生成对应的笔录关键词文件；

进而针对录音音频文件的各录音音频段通过共振峰特征、连续时间、MFCC(MelFrequency Cepstrum Coefficient，梅尔频率倒谱系数)等音频底层特征，获取询问人、被询问人等高级特征，并通过语音转录生成转录文本特征，即转录文本文件，

而区分询问人和被询问人身份信息，可通过拾音器设备和声纹比对技术实现；

最后，针对录像视频文件中的各录像视频片段，通过视频目标标注和目标跟踪算法，提取视频片段中每一帧人脸定位、嘴唇定位、其它目标类别，及目标对比上一帧的位移等信息特征。即对上述音、视频特征结构化存储。

本申请实施例中，对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储，具体包括以下步骤：

判断当前讯问是否结束，若讯问未结束则不断循环进行同步采集和关键信息的处理工作；

当前询问结束时，归档整理，按照时间先后次序存储录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件；

记录结束时间，对笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要，按照时间构成信息摘要链，并存储到服务器，防止文件被篡改。

其中，同步采集，即同步采集录音音频文件、录像视频文件以及笔录文本文件；

关键信息的处理工作，即根据笔录文本文件的关键词，生成对应的笔录关键词文件，对录音音频文件进行语音转录，生成对应的转录文本文件，对录像视频文件进行特征处理，获得对应的视频特征文件；

信息摘要即信息ID。

实施例二

参见图4所示，本申请实施例提供一种基于音视频识别技术的笔录数据采集装置，该装置用于实施实施例一中的基于音视频识别技术的笔录数据采集方法，该装置包括：

数据处理模块，其用于根据笔录文本文件的关键词，生成对应的笔录关键词文件，对录音音频文件进行语音转录，生成对应的转录文本文件，对录像视频文件进行特征处理，获得对应的视频特征文件；

数据存储模块，其用于对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。

需要说明的是，本申请实施例中的基于音视频识别技术的笔录数据采集装置，还需要基于一外部系统结构，该系统结构包括音视频笔录终端、音视频服务器、笔录服务器以及审查服务器；

音视频服务器，用于存储录音音频文件以及录像视频文件；

笔录服务器，用于存储笔录文本文件；

讯问标识32位，

信道类型1位，0表示音频1表示视频，

时间错8位，表示年、月、日、时、分、秒。

笔录过程中，会建立笔录和音视频的索引对应关系；

具体的，数据存储模块对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储时，具体包括以下流程：

进一步的，该装置还包括文件预处理模块，在数据处理模块获得笔录关键词文件、转录文本文件以及视频特征文件之前，文件预处理模块的工作流程包括：

对笔录文本文件进行信息结构化梳理；

根据各录音音频片段，对录像视频文件进行分割，获得各录像视频段，并对于没有声音的片段重点标记。

进一步的，文件预处理模块的工作流程还包括：

需要说明的是，在进行文件预处理流程时，

信息量大的笔录文本文件，可作为后期审查的重点文件，

具体的，数据处理模块在根据笔录文本文件的关键词，生成对应的笔录关键词文件，对录音音频文件进行语音转录，生成对应的转录文本文件，对录像视频文件进行特征处理，获得对应的视频特征文件时，具体包括以下工作流程：

需要说明的是，在本申请中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上仅是本申请的具体实施方式，使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于音视频识别技术的笔录数据采集方法，其特征在于，包括以下步骤：

同步采集录音音频文件、录像视频文件以及笔录文本文件；

2.如权利要求1所述的基于音视频识别技术的笔录数据采集方法，其特征在于：

所述录音音频文件、所述录像视频文件以及所述笔录文本文件之间存在索引对应关系；

3.如权利要求2所述的基于音视频识别技术的笔录数据采集方法，其特征在于：

所述事件项目为开始录制、结束录制、暂停录制、解码故障、网络中断、存储空间已满以及时延过大。

4.如权利要求1所述的基于音视频识别技术的笔录数据采集方法，其特征在于：

各所述笔录文本文件配有对应的音视频索引，各所述录像视频文件配有根据对应的所述笔录文本文件生成的笔录字幕信息。

5.如权利要求1所述的基于音视频识别技术的笔录数据采集方法，其特征在于，对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储时，还包括以下步骤：

6.如权利要求1所述的基于音视频识别技术的笔录数据采集方法，其特征在于，在获得笔录关键词文件、转录文本文件以及视频特征文件之前，还包括文件预处理流程，所述文件预处理流程包括以下步骤：

对所述笔录文本文件进行信息结构化梳理；

7.如权利要求5所述的基于音视频识别技术的笔录数据采集方法，其特征在于，所述文件预处理流程还包括以下步骤

8.如权利要求1所述的基于音视频识别技术的笔录数据采集方法，其特征在于：

在根据所述笔录文本文件的关键词，生成对应的笔录关键词文件，对所述录音音频文件进行语音转录，生成对应的转录文本文件，对所述录像视频文件进行特征处理，获得对应的视频特征文件时，采用并行处理方式。

9.如权利要求1所述的基于音视频识别技术的笔录数据采集方法，其特征在于，所述根据所述笔录文本文件的关键词，生成对应的笔录关键词文件，对所述录音音频文件进行语音转录，生成对应的转录文本文件，对所述录像视频文件进行特征处理，获得对应的视频特征文件，具体包括以下步骤：

10.一种基于音视频识别技术的笔录数据采集装置，其特征在于，所述装置包括：