CN112468754A - 一种基于音视频识别技术的笔录数据采集方法及装置 - Google Patents

一种基于音视频识别技术的笔录数据采集方法及装置 Download PDF

Info

Publication number
CN112468754A
CN112468754A CN202011313876.3A CN202011313876A CN112468754A CN 112468754 A CN112468754 A CN 112468754A CN 202011313876 A CN202011313876 A CN 202011313876A CN 112468754 A CN112468754 A CN 112468754A
Authority
CN
China
Prior art keywords
file
video
recording
audio
text file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011313876.3A
Other languages
English (en)
Other versions
CN112468754B (zh
Inventor
何双江
董喆
秦威
徐凤祥
赵慧娟
谭俊
张亚一
邓乔波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Fiberhome Integration Technologies Co ltd
Original Assignee
Wuhan Fiberhome Integration Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Fiberhome Integration Technologies Co ltd filed Critical Wuhan Fiberhome Integration Technologies Co ltd
Priority to CN202011313876.3A priority Critical patent/CN112468754B/zh
Publication of CN112468754A publication Critical patent/CN112468754A/zh
Application granted granted Critical
Publication of CN112468754B publication Critical patent/CN112468754B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/9201Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请涉及一种基于音视频识别技术的笔录数据采集方法及装置,涉及笔录信息收录技术领域,该方法包括以下步骤:同步采集录音音频文件、录像视频文件以及笔录文本文件;根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件;对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。本申请同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对数据进行结构化处理,提升了笔录信息收录工作的准确性。

Description

一种基于音视频识别技术的笔录数据采集方法及装置
技术领域
本申请涉及笔录信息收录技术领域,具体涉及一种基于音视频识别技术的笔录数据采集方法及装置。
背景技术
在司法、教育、企业员工问询、纪律管理场景,尤其是在具有问询笔录同步录像录音的场景下借助人工智能对音视频识别,需要保证笔录信息收录的准确性。
全程同步录音录像时,录音与录像是否保持同步一致,笔录内容与录音录像内容是否保持一致,笔录的录音录像时长在制作时间上是否具有一致性,均是影响智能化笔录信息收录工作准确性的关键因素。
故而,为提高笔录信息收录的准确性,现提供一种基于音视频识别技术的笔录数据采集核查技术。
发明内容
本申请提供一种基于音视频识别技术的笔录数据采集方法及装置,同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对数据进行结构化处理,提升了笔录信息收录工作的准确性。
第一方面,本申请提供了一种基于音视频识别技术的笔录数据采集方法,所述方法包括以下步骤:
同步采集录音音频文件、录像视频文件以及笔录文本文件;
根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件;
对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。
具体的,所述录音音频文件、所述录像视频文件以及所述笔录文本文件之间存在索引对应关系;
所述笔录文本文件中包含以询问人和被询问人为对象,按照时间顺序收录的笔录文本信息;
所述笔录文本文件中包括多个事件项目标记,各所述事件项目标记分别对应在录音或录像过程中的事件项目。
具体的,所述事件项目为开始录制、结束录制、暂停录制、解码故障、网络中断、存储空间已满以及时延过大。
具体的,各所述笔录文本文件配有对应的音视频索引,各所述录像视频文件配有根据对应的所述笔录文本文件生成的笔录字幕信息。
进一步的,对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储时,所述方法还包括以下步骤:
分别对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要,并根据时间建立信息摘要链。
进一步的,在获得笔录关键词文件、转录文本文件以及视频特征文件之前,还包括文件预处理流程,所述文件预处理流程包括以下步骤:
对所述笔录文本文件进行信息结构化梳理;
对所述录音音频文件按照对话间隔进行分段处理,获得各录音音频片段,按照时间序列以及声源类别进行对话排序,分离人声和非人声,并标注时间索引;
根据各录音音频片段,对所述录像视频文件进行分割,获得各录像视频段,并对于没有声音的片段重点标记。
进一步的,所述文件预处理流程还包括以下步骤
计算进行信息结构化梳理后的所述笔录文本文件在所述录音音频文件、所述录像视频文件以及所述笔录文本文件中的信息量占比。
优选的,在根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件时,采用并行处理方式。
具体的,所述根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件,具体包括以下步骤:
对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
对所述录音音频文件根据音频底层特征以及音频来源进行分析,并通过语音转录生成转录文本文件;
针对所述录像视频文件通过视频目标标注和目标跟踪算法,提取视频信息特征,生成视频特征文件。
第二方面,本申请提供了一种基于音视频识别技术的笔录数据采集装置,所述装置包括:
数据采集模块,其用于同步采集录音音频文件、录像视频文件以及笔录文本文件;
数据处理模块,其用于根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件;
数据存储模块,其用于对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。
本申请提供的技术方案带来的有益效果包括:
本申请同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对三者建立关联性,并对数据进行结构化处理,实现了同步录音录像,录音与录像保持同步一致,笔录内容与录音录像内容保持一致,获取笔录的录音录像时长在制作时间上具有一致性,从而大大提升了笔录信息收录工作的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的基于音视频识别技术的笔录数据采集方法的步骤流程图;
图2为本申请实施例一提供的基于音视频识别技术的笔录数据采集方法的原理流程图;
图3为本申请实施例一提供的基于音视频识别技术的笔录数据采集方法的事件项目的传输结构示意图;
图4为本申请实施例二提供的基于音视频识别技术的笔录数据采集装置的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图对本申请的实施例作进一步详细说明。
本申请实施例提供一种基于音视频识别技术的笔录数据采集方法及装置,同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对三者建立关联性,并对数据进行结构化处理,实现了同步录音录像,录音与录像保持同步一致,笔录内容与录音录像内容保持一致,获取笔录的录音录像时长在制作时间上具有一致性,从而大大提升了笔录信息收录工作的准确性。
为达到上述技术效果,本申请的总体思路如下:
一种基于音视频识别技术的笔录数据采集方法,该方法包括以下步骤:
S1、同步采集录音音频文件、录像视频文件以及笔录文本文件;
S2、根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件;
S3、对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。
以下结合附图对本申请的实施例作进一步详细说明。
实施例一
参见图1~3所示,本申请实施例提供一种基于音视频识别技术的笔录数据采集方法,该方法包括以下步骤:
S1、同步采集录音音频文件、录像视频文件以及笔录文本文件;
S2、根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件;
S3、对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。
本申请实施例中,同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对三者建立关联性,并对数据进行结构化处理,实现了同步录音录像,录音与录像保持同步一致,笔录内容与录音录像内容保持一致,获取笔录的录音录像时长在制作时间上具有一致性,从而大大提升了笔录信息收录工作的准确性。
需要说明的是,本申请实施例中的基于音视频识别技术的笔录数据采集方法,执行的系统结构包括音视频笔录终端、音视频服务器、笔录服务器以及审查服务器;
音视频笔录终端,询问人和被询问人通过音视频笔录终端,同步采集录音音频文件、录像视频文件以及笔录文本文件;
音视频服务器,用于存储录音音频文件以及录像视频文件;
笔录服务器,用于存储笔录文本文件;
审查服务器,用于存储笔录关键词文件、转录文本文件以及视频特征文件;
该系统结构通过分离,将数据分散,防止集中篡改,每个服务器都会存储其他服务器的信息摘要和时间轴,防止时间轴上的任何修改。
具体的,录音音频文件、录像视频文件以及笔录文本文件之间存在索引对应关系;
笔录文本文件中包含以询问人和被询问人为对象,按照时间顺序收录的笔录文本信息;
笔录文本文件中包括多个事件项目标记,各事件项目标记分别对应在录音或录像过程中的事件项目。
具体的,事件项目为开始录制、结束录制、暂停录制、解码故障、网络中断、存储空间已满以及时延过大。
需要说明的是,在录音和录像过程中的任何操作都会和笔录上有对应时间戳,比如关闭录音录像、暂停等都会在笔录文本文件中记录动作信息,动作信息也是存储在审查服务器上与录音录像不在一个位置,因此后期可以相互佐证,
由于不仅仅记录关闭、暂停和开始等状况,还会记录故障、终端等情况,故而统称为事件项目,而事件项目的传输结构定义如下:
讯问标识32位,
信道类型1位,0表示音频1表示视频,
信道编号2位,一般存在讯问流信道、被讯问流信道、合成流信道等多个信道,
事件类型2位,01表示开始录制、02表示结束录制、03表示暂停、04表示解码故障、05表示网络中断、06表示存储空间满、07表示时延过大,
时间错8位,表示年、月、日、时、分、秒。
具体的,各笔录文本文件配有对应的音视频索引,各录像视频文件配有根据对应的笔录文本文件生成的笔录字幕信息;
笔录过程中,会建立笔录和音视频的索引对应关系;
笔录采用问答形式,当一组问答录入结束时,会与音视频建立关联索引,可以自动建立,也可以人工确认建立。
具体的,对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储时,该方法还包括以下步骤:
分别对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要,并根据时间建立信息摘要链。
进一步的,在获得笔录关键词文件、转录文本文件以及视频特征文件之前,还包括文件预处理流程,文件预处理流程包括以下步骤:
对笔录文本文件进行信息结构化梳理;
对录音音频文件按照对话间隔进行分段处理,获得各录音音频片段,按照时间序列以及声源类别进行对话排序,分离人声和非人声,并标注时间索引;
根据各录音音频片段,对录像视频文件进行分割,获得各录像视频段,并对于没有声音的片段重点标记;其中,
所述声源类别包括询问人、被询问人以及非人声。
进一步的,文件预处理流程还包括以下步骤:
计算进行信息结构化梳理后的笔录文本文件在录音音频文件、录像视频文件以及笔录文本文件中的信息量占比。
需要说明的是,在进行文件预处理流程时,
首先是对笔录文本文件进行预处理,即信息结构化梳理,按照预设的要素,诸如按照人、事、物、时间、金额、证据等梳理结构化信息,并计算该文本占整个讯问过程中的信息量,
信息量大的笔录文本文件,可作为后期审查的重点文件,
信息结构化梳理的规则由自然语言处理技术自动提取再由人工确认,也可在笔录同步编辑时,同步提取并提示工作人员确认结构化分类;
而后,对录音音频文件进行预处理,即按照对话间隔对音频进行分段处理,获得各录音音频片段,按照说话人,即询问人或被询问人对进行分类,按照时间序列对对话进行排序,并按照声源分离人声和非人声,并标注时间索引;
最后,对录像视频文件进行预处理,即根据录音音频片段的时间索引分割视频,获得各录像视频片段,并对于没有声音的片段重点标记;
最终,存储笔录文本文件对应的音视频索引,在录像视频文件中插入笔录字幕信息,形成交叉证明。
优选的,在根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件时,采用并行处理方式。
具体的,根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件,具体包括以下步骤:
对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
对录音音频文件根据音频底层特征以及音频来源进行分析,并通过语音转录生成转录文本文件;
针对录像视频文件通过视频目标标注和目标跟踪算法,提取视频信息特征,生成视频特征文件。
其中,首先是对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
进而针对录音音频文件的各录音音频段通过共振峰特征、连续时间、MFCC(MelFrequency Cepstrum Coefficient,梅尔频率倒谱系数)等音频底层特征,获取询问人、被询问人等高级特征,并通过语音转录生成转录文本特征,即转录文本文件,
而区分询问人和被询问人身份信息,可通过拾音器设备和声纹比对技术实现;
最后,针对录像视频文件中的各录像视频片段,通过视频目标标注和目标跟踪算法,提取视频片段中每一帧人脸定位、嘴唇定位、其它目标类别,及目标对比上一帧的位移等信息特征。即对上述音、视频特征结构化存储。
本申请实施例中,对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储,具体包括以下步骤:
判断当前讯问是否结束,若讯问未结束则不断循环进行同步采集和关键信息的处理工作;
当前询问结束时,归档整理,按照时间先后次序存储录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件;
记录结束时间,对笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要,按照时间构成信息摘要链,并存储到服务器,防止文件被篡改。
其中,同步采集,即同步采集录音音频文件、录像视频文件以及笔录文本文件;
关键信息的处理工作,即根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件;
信息摘要即信息ID。
实施例二
参见图4所示,本申请实施例提供一种基于音视频识别技术的笔录数据采集装置,该装置用于实施实施例一中的基于音视频识别技术的笔录数据采集方法,该装置包括:
数据采集模块,其用于同步采集录音音频文件、录像视频文件以及笔录文本文件;
数据处理模块,其用于根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件;
数据存储模块,其用于对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。
本申请实施例中,同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对三者建立关联性,并对数据进行结构化处理,实现了同步录音录像,录音与录像保持同步一致,笔录内容与录音录像内容保持一致,获取笔录的录音录像时长在制作时间上具有一致性,从而大大提升了笔录信息收录工作的准确性。
需要说明的是,本申请实施例中的基于音视频识别技术的笔录数据采集装置,还需要基于一外部系统结构,该系统结构包括音视频笔录终端、音视频服务器、笔录服务器以及审查服务器;
音视频笔录终端,询问人和被询问人通过音视频笔录终端,同步采集录音音频文件、录像视频文件以及笔录文本文件;
音视频服务器,用于存储录音音频文件以及录像视频文件;
笔录服务器,用于存储笔录文本文件;
审查服务器,用于存储笔录关键词文件、转录文本文件以及视频特征文件;
该系统结构通过分离,将数据分散,防止集中篡改,每个服务器都会存储其他服务器的信息摘要和时间轴,防止时间轴上的任何修改。
具体的,录音音频文件、录像视频文件以及笔录文本文件之间存在索引对应关系;
笔录文本文件中包含以询问人和被询问人为对象,按照时间顺序收录的笔录文本信息;
笔录文本文件中包括多个事件项目标记,各事件项目标记分别对应在录音或录像过程中的事件项目。
具体的,事件项目为开始录制、结束录制、暂停录制、解码故障、网络中断、存储空间已满以及时延过大。
需要说明的是,在录音和录像过程中的任何操作都会和笔录上有对应时间戳,比如关闭录音录像、暂停等都会在笔录文本文件中记录动作信息,动作信息也是存储在审查服务器上与录音录像不在一个位置,因此后期可以相互佐证,
由于不仅仅记录关闭、暂停和开始等状况,还会记录故障、终端等情况,故而统称为事件项目,而事件项目的传输结构定义如下:
讯问标识32位,
信道类型1位,0表示音频1表示视频,
信道编号2位,一般存在讯问流信道、被讯问流信道、合成流信道等多个信道,
事件类型2位,01表示开始录制、02表示结束录制、03表示暂停、04表示解码故障、05表示网络中断、06表示存储空间满、07表示时延过大,
时间错8位,表示年、月、日、时、分、秒。
具体的,各笔录文本文件配有对应的音视频索引,各录像视频文件配有根据对应的笔录文本文件生成的笔录字幕信息;
笔录过程中,会建立笔录和音视频的索引对应关系;
笔录采用问答形式,当一组问答录入结束时,会与音视频建立关联索引,可以自动建立,也可以人工确认建立。
具体的,数据存储模块对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储时,具体包括以下流程:
分别对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要,并根据时间建立信息摘要链。
进一步的,该装置还包括文件预处理模块,在数据处理模块获得笔录关键词文件、转录文本文件以及视频特征文件之前,文件预处理模块的工作流程包括:
对笔录文本文件进行信息结构化梳理;
对录音音频文件按照对话间隔进行分段处理,获得各录音音频片段,按照时间序列以及声源类别进行对话排序,分离人声和非人声,并标注时间索引;
根据各录音音频片段,对录像视频文件进行分割,获得各录像视频段,并对于没有声音的片段重点标记。
进一步的,文件预处理模块的工作流程还包括:
计算进行信息结构化梳理后的笔录文本文件在录音音频文件、录像视频文件以及笔录文本文件中的信息量占比。
需要说明的是,在进行文件预处理流程时,
首先是对笔录文本文件进行预处理,即信息结构化梳理,按照预设的要素,诸如按照人、事、物、时间、金额、证据等梳理结构化信息,并计算该文本占整个讯问过程中的信息量,
信息量大的笔录文本文件,可作为后期审查的重点文件,
信息结构化梳理的规则由自然语言处理技术自动提取再由人工确认,也可在笔录同步编辑时,同步提取并提示工作人员确认结构化分类;
而后,对录音音频文件进行预处理,即按照对话间隔对音频进行分段处理,获得各录音音频片段,按照说话人,即询问人或被询问人对进行分类,按照时间序列对对话进行排序,并按照声源分离人声和非人声,并标注时间索引;
最后,对录像视频文件进行预处理,即根据录音音频片段的时间索引分割视频,获得各录像视频片段,并对于没有声音的片段重点标记;
最终,存储笔录文本文件对应的音视频索引,在录像视频文件中插入笔录字幕信息,形成交叉证明。
优选的,在根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件时,采用并行处理方式。
具体的,数据处理模块在根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件时,具体包括以下工作流程:
对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
对录音音频文件根据音频底层特征以及音频来源进行分析,并通过语音转录生成转录文本文件;
针对录像视频文件通过视频目标标注和目标跟踪算法,提取视频信息特征,生成视频特征文件。
其中,首先是对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
进而针对录音音频文件的各录音音频段通过共振峰特征、连续时间、MFCC(MelFrequency Cepstrum Coefficient,梅尔频率倒谱系数)等音频底层特征,获取询问人、被询问人等高级特征,并通过语音转录生成转录文本特征,即转录文本文件,
而区分询问人和被询问人身份信息,可通过拾音器设备和声纹比对技术实现;
最后,针对录像视频文件中的各录像视频片段,通过视频目标标注和目标跟踪算法,提取视频片段中每一帧人脸定位、嘴唇定位、其它目标类别,及目标对比上一帧的位移等信息特征。即对上述音、视频特征结构化存储。
需要说明的是,在本申请中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于音视频识别技术的笔录数据采集方法,其特征在于,包括以下步骤:
同步采集录音音频文件、录像视频文件以及笔录文本文件;
根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件;
对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。
2.如权利要求1所述的基于音视频识别技术的笔录数据采集方法,其特征在于:
所述录音音频文件、所述录像视频文件以及所述笔录文本文件之间存在索引对应关系;
所述笔录文本文件中包含以询问人和被询问人为对象,按照时间顺序收录的笔录文本信息;
所述笔录文本文件中包括多个事件项目标记,各所述事件项目标记分别对应在录音或录像过程中的事件项目。
3.如权利要求2所述的基于音视频识别技术的笔录数据采集方法,其特征在于:
所述事件项目为开始录制、结束录制、暂停录制、解码故障、网络中断、存储空间已满以及时延过大。
4.如权利要求1所述的基于音视频识别技术的笔录数据采集方法,其特征在于:
各所述笔录文本文件配有对应的音视频索引,各所述录像视频文件配有根据对应的所述笔录文本文件生成的笔录字幕信息。
5.如权利要求1所述的基于音视频识别技术的笔录数据采集方法,其特征在于,对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储时,还包括以下步骤:
分别对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要,并根据时间建立信息摘要链。
6.如权利要求1所述的基于音视频识别技术的笔录数据采集方法,其特征在于,在获得笔录关键词文件、转录文本文件以及视频特征文件之前,还包括文件预处理流程,所述文件预处理流程包括以下步骤:
对所述笔录文本文件进行信息结构化梳理;
对所述录音音频文件按照对话间隔进行分段处理,获得各录音音频片段,按照时间序列以及声源类别进行对话排序,分离人声和非人声,并标注时间索引;
根据各录音音频片段,对所述录像视频文件进行分割,获得各录像视频段,并对于没有声音的片段重点标记。
7.如权利要求5所述的基于音视频识别技术的笔录数据采集方法,其特征在于,所述文件预处理流程还包括以下步骤
计算进行信息结构化梳理后的所述笔录文本文件在所述录音音频文件、所述录像视频文件以及所述笔录文本文件中的信息量占比。
8.如权利要求1所述的基于音视频识别技术的笔录数据采集方法,其特征在于:
在根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件时,采用并行处理方式。
9.如权利要求1所述的基于音视频识别技术的笔录数据采集方法,其特征在于,所述根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件,具体包括以下步骤:
对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
对所述录音音频文件根据音频底层特征以及音频来源进行分析,并通过语音转录生成转录文本文件;
针对所述录像视频文件通过视频目标标注和目标跟踪算法,提取视频信息特征,生成视频特征文件。
10.一种基于音视频识别技术的笔录数据采集装置,其特征在于,所述装置包括:
数据采集模块,其用于同步采集录音音频文件、录像视频文件以及笔录文本文件;
数据处理模块,其用于根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件;
数据存储模块,其用于对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储。
CN202011313876.3A 2020-11-20 2020-11-20 一种基于音视频识别技术的笔录数据采集方法及装置 Active CN112468754B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011313876.3A CN112468754B (zh) 2020-11-20 2020-11-20 一种基于音视频识别技术的笔录数据采集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011313876.3A CN112468754B (zh) 2020-11-20 2020-11-20 一种基于音视频识别技术的笔录数据采集方法及装置

Publications (2)

Publication Number Publication Date
CN112468754A true CN112468754A (zh) 2021-03-09
CN112468754B CN112468754B (zh) 2023-04-28

Family

ID=74799458

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011313876.3A Active CN112468754B (zh) 2020-11-20 2020-11-20 一种基于音视频识别技术的笔录数据采集方法及装置

Country Status (1)

Country Link
CN (1) CN112468754B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113079387A (zh) * 2021-03-26 2021-07-06 平安银行股份有限公司 远程视讯录制方法、装置、设备及存储介质
CN113873191A (zh) * 2021-10-12 2021-12-31 苏州万店掌软件技术有限公司 一种基于语音的视频回溯方法、装置及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2096626A1 (en) * 2008-02-29 2009-09-02 Sony Corporation Method for visualizing audio data
CN101763363A (zh) * 2008-12-08 2010-06-30 新奥特硅谷视频技术有限责任公司 一种庭审过程中资料实时展示的方法和装置
CA2792600A1 (en) * 2012-05-01 2013-11-01 Mitel Networks Corporation Multi-modal communications with conferencing and clients
CN109688430A (zh) * 2018-12-12 2019-04-26 北京东土科技股份有限公司 一种法院庭审文件回放方法、系统及存储介质
CN110070873A (zh) * 2019-05-07 2019-07-30 上海良相智能化工程有限公司 一种监察数字审讯系统及设备
CN110378228A (zh) * 2019-06-17 2019-10-25 深圳壹账通智能科技有限公司 面审视频数据处理方法、装置、计算机设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2096626A1 (en) * 2008-02-29 2009-09-02 Sony Corporation Method for visualizing audio data
CN101763363A (zh) * 2008-12-08 2010-06-30 新奥特硅谷视频技术有限责任公司 一种庭审过程中资料实时展示的方法和装置
CA2792600A1 (en) * 2012-05-01 2013-11-01 Mitel Networks Corporation Multi-modal communications with conferencing and clients
CN109688430A (zh) * 2018-12-12 2019-04-26 北京东土科技股份有限公司 一种法院庭审文件回放方法、系统及存储介质
CN110070873A (zh) * 2019-05-07 2019-07-30 上海良相智能化工程有限公司 一种监察数字审讯系统及设备
CN110378228A (zh) * 2019-06-17 2019-10-25 深圳壹账通智能科技有限公司 面审视频数据处理方法、装置、计算机设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113079387A (zh) * 2021-03-26 2021-07-06 平安银行股份有限公司 远程视讯录制方法、装置、设备及存储介质
CN113873191A (zh) * 2021-10-12 2021-12-31 苏州万店掌软件技术有限公司 一种基于语音的视频回溯方法、装置及系统
CN113873191B (zh) * 2021-10-12 2023-11-28 苏州万店掌软件技术有限公司 一种基于语音的视频回溯方法、装置及系统

Also Published As

Publication number Publication date
CN112468754B (zh) 2023-04-28

Similar Documents

Publication Publication Date Title
US10497378B2 (en) Systems and methods for recognizing sound and music signals in high noise and distortion
Cano et al. Robust sound modeling for song detection in broadcast audio
CN101821734B (zh) 时基媒体之间的匹配的检测和分类
US6434520B1 (en) System and method for indexing and querying audio archives
US7934264B2 (en) Methods, systems, and computer program products for detecting alteration of audio or image data
CN108447501B (zh) 一种云存储环境下基于音频字的盗版视频检测方法与系统
CN103500579B (zh) 语音识别方法、装置及系统
CN114297439B (zh) 一种短视频标签确定方法、系统、装置及存储介质
CN112468754A (zh) 一种基于音视频识别技术的笔录数据采集方法及装置
US6813624B1 (en) Method and apparatus for archival and retrieval of multiple data streams
CN112468753B (zh) 一种基于音视频识别技术的笔录数据采集核查方法及装置
CN115272533A (zh) 一种基于视频结构化数据的智能图文转视频的方法及系统
US10958982B1 (en) Closed-caption processing using machine learning for media advertisement detection
CN112800269A (zh) 会议记录的生成方法及装置
CN116129909A (zh) 一种基于聚类的声纹数据自动采集方法
Dufour et al. Investigation of spontaneous speech characterization applied to speaker role recognition
Haloi et al. Unsupervised story segmentation and indexing of broadcast news video
CN114283851A (zh) 基于视频彩铃识别客户的方法、系统、装置及存储介质
Feki et al. Automatic environmental sound concepts discovery for video retrieval
Maksimović et al. Detection and localization of partial audio matches in various application scenarios
Khemiri et al. A generic audio identification system for radio broadcast monitoring based on data-driven segmentation
EP3996084B1 (en) Determining relations between music items
US20060092327A1 (en) Story segmentation method for video
US20230260492A1 (en) Relations between music items
US20230260488A1 (en) Relations between music items

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant