CN112468753B - 一种基于音视频识别技术的笔录数据采集核查方法及装置 - Google Patents

一种基于音视频识别技术的笔录数据采集核查方法及装置 Download PDF

Info

Publication number
CN112468753B
CN112468753B CN202011310225.9A CN202011310225A CN112468753B CN 112468753 B CN112468753 B CN 112468753B CN 202011310225 A CN202011310225 A CN 202011310225A CN 112468753 B CN112468753 B CN 112468753B
Authority
CN
China
Prior art keywords
file
recording
video
audio
text file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011310225.9A
Other languages
English (en)
Other versions
CN112468753A (zh
Inventor
董喆
何双江
徐凤祥
秦威
谭俊
赵慧娟
张亚一
邓乔波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Fiberhome Information Integration Technologies Co ltd
Original Assignee
Wuhan Fiberhome Information Integration Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Fiberhome Information Integration Technologies Co ltd filed Critical Wuhan Fiberhome Information Integration Technologies Co ltd
Priority to CN202011310225.9A priority Critical patent/CN112468753B/zh
Publication of CN112468753A publication Critical patent/CN112468753A/zh
Application granted granted Critical
Publication of CN112468753B publication Critical patent/CN112468753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • G11B20/10527Audio or video recording; Data buffering arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/04Synchronising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • H04N5/92Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N5/9201Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving the multiplexing of an additional signal and the video signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Quality & Reliability (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

本申请涉及一种基于音视频识别技术的笔录数据采集核查方法及装置,涉及笔录信息收录技术领域,该方法包括数据采集流程以及数据比对流程,数据采集流程包括:采集录音音频文件、录像视频文件以及笔录文本文件;生成笔录关键词文件、转录文本文件以及视频特征文件;对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储至审查服务器;数据比对流程包括:完整性审查;一致性审查;敏感信息审查。本申请同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对数据进行结构化处理,并对录音音频文件、录像视频文件以及笔录文本文件进行核查,提升了笔录信息收录工作的准确性。

Description

一种基于音视频识别技术的笔录数据采集核查方法及装置
技术领域
本申请涉及笔录信息收录技术领域,具体涉及一种基于音视频识别技术的笔录数据采集核查方法及装置。
背景技术
在司法、教育、企业员工问询、纪律管理场景,尤其是在具有问询笔录同步录像录音的场景下借助人工智能对音视频识别,需要保证笔录信息收录的准确性。
全程同步录音录像时,录音与录像是否保持同步一致,笔录内容与录音录像内容是否保持一致,笔录的录音录像时长在制作时间上是否具有一致性,均是影响智能化笔录信息收录工作准确性的关键因素。
故而,为提高笔录信息收录的准确性,现提供一种基于音视频识别技术的笔录数据采集核查技术。
发明内容
本申请提供一种基于音视频识别技术的笔录数据采集核查方法及装置,同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对数据进行结构化处理,并对录音音频文件、录像视频文件以及笔录文本文件进行核查,提升了笔录信息收录工作的准确性。
第一方面,本申请提供了一种基于音视频识别技术的笔录数据采集核查方法,所述方法包括数据采集流程以及数据比对流程;
所述数据采集流程包括以下步骤:
同步采集录音音频文件、录像视频文件以及笔录文本文件;
根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件;
对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储至审查服务器;
所述数据比对流程包括以下步骤:
对所述笔录文本文件、对应的所述录音音频文件以及对应的录像视频文件进行完整性审查;
对所述笔录文本文件、对应的所述录音音频文件以及对应的录像视频文件进行一致性审查,所述一致性审查包括事件项目一致性审查、时间一致性审查、参与人员一致性审查以及音视频一致性审查;
对所述录音音频文件、所述录像视频文件、所述笔录文本文件进行敏感信息审查;其中,
所述录音音频文件、所述录像视频文件以及所述笔录文本文件之间存在索引对应关系;
所述笔录文本文件中包含以询问人和被询问人为对象,按照时间顺序收录的笔录文本信息;
所述笔录文本文件对应配有一事件项目文件,所述事件项目文件中包括多个事件项目标记,各所述事件项目标记分别对应在录音或录像过程中的事件项目。
具体的,所述事件项目为开始录制、结束录制、暂停录制、解码故障、网络中断、存储空间已满以及时延过大。
具体的,所述对所述笔录文本文件、对应的所述录音音频文件以及对应的录像视频文件进行完整性审查,具体包括以下步骤:
识别存储在审查服务器上对应的事件项目文件与笔录文本文件对应的事件项目文件是否均存在,若存在则通过事件完整性比对;
识别笔录文本文件是否存在对应的录音音频文件、录像视频文件,若存在则通过文件完整性比对;
识别笔录关键词文件是否存在对应的转录文本文件以及视频特征文件,若存在则通过特征完整性比对。
具体的,对所述笔录文本文件、对应的所述录音音频文件以及对应的录像视频文件进行一致性审查,具体包括以下步骤:
事件项目一致性审查:将存储在审查服务器上对应的事件项目文件与笔录文本文件对应的事件项目文件进行对比;
时间一致性审查:比对笔录文本文件、录音音频文件以及录像视频文件的生成时间;
参与人员一致性审查:将所述笔录文本文件中询问人和被询问人与所述视频特征文件中的人脸信息、所述录像视频文件中的声纹信息进行比对;
音视频一致性审查:将所述录像视频文件中的唇动时间与所述录音音频文件中的讲话时间进行比对。
具体的,所述对所述录音音频文件、所述录像视频文件、所述笔录文本文件进行敏感信息审查,具体包括以下步骤:
根据预设的敏感词,识别所述笔录文本文件中是否存在敏感信息;
根据预设的敏感词,识别所述录音音频文件对应的所述转录文本文件中是否存在敏感信息;
根据预设的运动阈值,识别所述录像视频文件中是否存在敏感信息;其中,
所述运动阈值包括运动速度阈值和运动频度阈值。
进一步的,对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储时,还包括以下步骤:
分别对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要,并根据时间建立信息摘要链。
进一步的,在获得笔录关键词文件、转录文本文件以及视频特征文件之前,还包括文件预处理流程,所述文件预处理流程包括以下步骤:
对所述笔录文本文件进行信息结构化梳理;
对所述录音音频文件按照对话间隔进行分段处理,获得各录音音频段,按照时间序列以及声源类别进行对话排序,并标注时间索引;
根据各录音音频段,对所述录像视频文件进行分割,获得各录像视频段,并对于没有声音的片段重点标记;其中,
所述声源类别包括询问人、被询问人以及非人声。
具体的,在根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件时,采用并行处理方式。
具体的,所述根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件,具体包括以下步骤:
对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
对所述录音音频文件根据音频底层特征以及音频来源进行分析,并通过语音转录生成转录文本文件;
针对所述录像视频文件通过视频目标标注和目标跟踪算法,提取视频信息特征,生成视频特征文件。
第二方面,本申请提供了一种基于音视频识别技术的笔录数据采集核查装置,所述装置包括:
数据采集模块,其用于同步采集录音音频文件、录像视频文件以及笔录文本文件;
数据处理模块,其用于根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件;
数据存储模块,其用于对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储;
完整性审查模块,其用于对所述笔录文本文件、对应的所述录音音频文件以及对应的录像视频文件进行完整性审查;
一致性审查模块,其用于对所述笔录文本文件、对应的所述录音音频文件以及对应的录像视频文件进行一致性审查,所述一致性审查包括事件项目一致性审查、时间一致性审查、参与人员一致性审查以及音视频一致性审查;
敏感性审查模块,其用于对所述录音音频文件、所述录像视频文件、所述笔录文本文件进行敏感信息审查。
本申请提供的技术方案带来的有益效果包括:
本申请同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对三者建立关联性,并对数据进行结构化处理,并在需要时对录音音频文件、录像视频文件以及笔录文本文件进行核查,从而确保录音与录像保持同步一致,笔录内容与录音录像内容保持一致,获取笔录的录音录像时长在制作时间上具有一致性,从而大大提升了笔录信息收录工作的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例一提供的基于音视频识别技术的笔录数据采集核查方法的数据采集流程的步骤流程图;
图2为本申请实施例一提供的基于音视频识别技术的笔录数据采集核查方法的数据比对流程的步骤流程图;
图3为本申请实施例一提供的基于音视频识别技术的笔录数据采集核查方法的数据采集流程的原理流程图;
图4为本申请实施例一提供的基于音视频识别技术的笔录数据采集核查方法的数据比对流程的原理流程图;
图5为本申请实施例一提供的基于音视频识别技术的笔录数据采集核查方法的事件项目的传输结构示意图;
图6为本申请实施例二提供的基于音视频识别技术的笔录数据采集核查装置的结构框图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图对本申请的实施例作进一步详细说明。
本申请实施例提供一种基于音视频识别技术的笔录数据采集核查方法及装置,同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对三者建立关联性,并对数据进行结构化处理,并在需要时对录音音频文件、录像视频文件以及笔录文本文件进行核查,从而确保录音与录像保持同步一致,笔录内容与录音录像内容保持一致,获取笔录的录音录像时长在制作时间上具有一致性,从而大大提升了笔录信息收录工作的准确性。
为达到上述技术效果,本申请的总体思路如下:
一种基于音视频识别技术的笔录数据采集核查方法,该方法包括数据采集流程以及数据比对流程;
数据采集流程包括以下步骤:
S1、同步采集录音音频文件、录像视频文件以及笔录文本文件;
S2、根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件;
S3、对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储至审查服务器;
数据比对流程包括以下步骤:
Q1、对笔录文本文件、对应的录音音频文件以及对应的录像视频文件进行完整性审查;
Q2、对笔录文本文件、对应的录音音频文件以及对应的录像视频文件进行一致性审查,一致性审查包括事件项目一致性审查、时间一致性审查、参与人员一致性审查以及音视频一致性审查;
Q3、对录音音频文件、录像视频文件、笔录文本文件进行敏感信息审查。
以下结合附图对本申请的实施例作进一步详细说明。
实施例一
参见图1~6所示,本申请实施例提供一种基于音视频识别技术的笔录数据采集核查方法,该方法包括数据采集流程以及数据比对流程;数据采集流程包括以下步骤:
S1、同步采集录音音频文件、录像视频文件以及笔录文本文件;
S2、根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件;
S3、对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储至审查服务器;
数据比对流程包括以下步骤:
Q1、对笔录文本文件、对应的录音音频文件以及对应的录像视频文件进行完整性审查;
Q2、对笔录文本文件、对应的录音音频文件以及对应的录像视频文件进行一致性审查,一致性审查包括事件项目一致性审查、时间一致性审查、参与人员一致性审查以及音视频一致性审查;
Q3、对录音音频文件、录像视频文件、笔录文本文件进行敏感信息审查;其中,
录音音频文件、录像视频文件以及笔录文本文件之间存在索引对应关系;
笔录文本文件中包含以询问人和被询问人为对象,按照时间顺序收录的笔录文本信息;
笔录文本文件对应配有一事件项目文件,事件项目文件中包括多个事件项目标记,各事件项目标记分别对应在录音或录像过程中的事件项目。
另外,待数据比对流程执行完毕后,即审查结束,此时会生成对应的审查报告。
必要时,为了检验该方法的准确性,还可配合进行人工审查。
本申请实施例中,同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对三者建立关联性,并对数据进行结构化处理,并在需要时对录音音频文件、录像视频文件以及笔录文本文件进行核查,从而确保录音与录像保持同步一致,笔录内容与录音录像内容保持一致,获取笔录的录音录像时长在制作时间上具有一致性,从而大大提升了笔录信息收录工作的准确性。
需要说明的是,本申请实施例中的基于音视频识别技术的笔录数据采集核查方法,执行的系统结构包括音视频笔录终端、音视频服务器、笔录服务器以及审查服务器;
音视频笔录终端,询问人和被询问人通过音视频笔录终端,同步采集录音音频文件、录像视频文件以及笔录文本文件;
音视频服务器,用于存储录音音频文件以及录像视频文件;
笔录服务器,用于存储笔录文本文件;
审查服务器,用于存储笔录关键词文件、转录文本文件以及视频特征文件;
该系统结构通过分离,将数据分散,防止集中篡改,每个服务器都会存储其他服务器的信息摘要和时间轴,防止时间轴上的任何修改。
具体的,事件项目为开始录制、结束录制、暂停录制、解码故障、网络中断、存储空间已满以及时延过大。
需要说明的是,在录音和录像过程中的任何操作都会和笔录上有对应时间戳,比如关闭录音录像、暂停等都会在笔录文本文件中记录动作信息,动作信息也是存储在审查服务器上与录音录像不在一个位置,因此后期可以相互佐证,
由于不仅仅记录关闭、暂停和开始等状况,还会记录故障、终端等情况,故而统称为事件项目,而事件项目的传输结构定义如下:
讯问标识32位,
信道类型1位,0表示音频1表示视频,
信道编号2位,一般存在讯问流信道、被讯问流信道、合成流信道等多个信道,
事件类型2位,01表示开始录制、02表示结束录制、03表示暂停、04表示解码故障、05表示网络中断、06表示存储空间满、07表示时延过大,
时间错8位,表示年、月、日、时、分、秒。
具体的,各笔录文本文件配有对应的音视频索引,各录像视频文件配有根据对应的笔录文本文件生成的笔录字幕信息;
笔录过程中,会建立笔录和音视频的索引对应关系;
笔录采用问答形式,当一组问答录入结束时,会与音视频建立关联索引,可以自动建立,也可以人工确认建立。
具体的,对笔录文本文件、对应的录音音频文件以及对应的录像视频文件进行完整性审查,具体包括以下步骤:
识别存储在审查服务器上对应的事件项目文件与笔录文本文件对应的事件项目文件是否均存在,若存在则通过事件完整性比对;
识别笔录文本文件是否存在对应的录音音频文件、录像视频文件,若存在则通过片段完整性比对,若存在则通过文件完整性比对;
识别笔录关键词文件是否存在对应的转录文本文件以及视频特征文件,若存在则通过特征完整性比对。
在进行完整性审查时,在具体操作时,具体包括:
动作完整性比对,即存储在审查服务器上的事件项目文件中事件项目与笔录文本文件、录音音频文件以及录像视频文件对应的事件项目是否都存在,并记录比对结果到审查记录表中;
文件完整性比对,识别笔录文本文件是否存在对应的录音音频文件、录像视频文件相互佐证,并记录比对结果到审查记录表中,是否存在缺失记录;
识别笔录关键词文件是否存在对应的转录文本文件以及视频特征文件,并记录比对结果到审查记录表中;
笔录文本文件与录音音频文件、录像视频文件的对应索引是否可以找到相互,并记录比对结果到审查记录表中;
特征完整性比对,识别笔录关键词文件是否存在对应的转录文本文件以及视频特征文件,如果没有则需要重新生成。
具体的,对笔录文本文件、对应的录音音频文件以及对应的录像视频文件进行一致性审查,具体包括以下步骤:
事件项目一致性审查:将存储在审查服务器上对应的事件项目文件与笔录文本文件对应的事件项目文件进行对比;
时间一致性审查:比对笔录文本文件、录音音频文件以及录像视频文件的生成时间;
参与人员一致性审查:将笔录文本文件中询问人和被询问人与视频特征文件中的人脸信息、录像视频文件中的声纹信息进行比对;
音视频一致性审查:将录像视频文件中的唇动时间与录音音频文件中的讲话时间进行比对。
需要说明的是,事件项目一致性审查,即存储在审查服务器上对应的事件项目文件与笔录文本文件对应的事件项目文件进行对比,并记录比对结果到审查记录表中;
时间一致性审查,比对笔录文本文件、录音音频文件以及录像视频文件的生成时间,并记录比对结果到审查记录表中,主要记录是否一致,不一致的文件及三个文件的对应时间;
人员一致性比对审查,笔录中对应的询问人、被询问姓名及人脸信息读取,询问人及被询问人对应所有视频片段比对每一帧中的讯问人人脸,通过人脸比对获取视频与笔录的一致性。比对每一段音频中询问人及被询问人的声纹,确认说话人是对应的询问人及被询问人;
音视频一致性审查,主要比对音频和视频信息的同步比对,将录像视频文件中的唇动时间与录音音频文件中的讲话时间进行比对,即需要音频中讲话时间与视频中唇动时间保持一致。
具体的,对录音音频文件、录像视频文件、笔录文本文件进行敏感信息审查,具体包括以下步骤:
根据预设的敏感词,识别笔录文本文件中是否存在敏感信息;
根据预设的敏感词,识别录音音频文件对应的转录文本文件中是否存在敏感信息;
根据预设的运动阈值,识别录像视频文件中是否存在敏感信息;
其中,
运动阈值包括运动速度阈值和运动频度阈值。
需要说明的是,视频敏感信息审查中,首先检索录像视频文件中的目标物体是否符合要求,不符合则记录为敏感片段,进而目标的运动速度和运动频度是否超出预设的运动阈值,若超出则记录为敏感片段。
具体的,在数据采集流程中,对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储时,还包括以下步骤:
分别对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要,并根据时间建立信息摘要链。
具体的,在数据采集流程中,在获得笔录关键词文件、转录文本文件以及视频特征文件之前,还包括文件预处理流程,文件预处理流程包括以下步骤:
对笔录文本文件进行信息结构化梳理;
对录音音频文件按照对话间隔进行分段处理,获得各录音音频段,按照时间序列以及声源类别进行对话排序,并标注时间索引;
根据各录音音频段,对录像视频文件进行分割,获得各录像视频段,并对于没有声音的片段重点标记;其中,
声源类别包括询问人、被询问人以及非人声。
进一步的,文件预处理流程还包括以下步骤:
计算进行信息结构化梳理后的笔录文本文件在录音音频文件、录像视频文件以及笔录文本文件中的信息量占比,对于信息量大的笔录文本文件,可作为重点审查对象。
需要说明的是,在进行文件预处理流程时,
首先是对笔录文本文件进行预处理,即信息结构化梳理,按照预设的要素,诸如按照人、事、物、时间、金额、证据等梳理结构化信息,并计算该文本占整个讯问过程中的信息量,
信息量大的笔录文本文件,可作为后期审查的重点文件,
信息结构化梳理的规则由自然语言处理技术自动提取再由人工确认,也可在笔录同步编辑时,同步提取并提示工作人员确认结构化分类;
而后,对录音音频文件进行预处理,即按照对话间隔对音频进行分段处理,获得各录音音频片段,按照说话人,即询问人或被询问人对进行分类,按照时间序列对对话进行排序,并按照声源分离人声和非人声,并标注时间索引;
最后,对录像视频文件进行预处理,即根据录音音频片段的时间索引分割视频,获得各录像视频片段,并对于没有声音的片段重点标记;
最终,存储笔录文本文件对应的音视频索引,在录像视频文件中插入笔录字幕信息,形成交叉证明。
具体的,在数据采集流程中,在根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件时,采用并行处理方式。
具体的,在数据采集流程中,根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件,具体包括以下步骤:
对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
对录音音频文件根据音频底层特征以及音频来源进行分析,并通过语音转录生成转录文本文件;
针对录像视频文件通过视频目标标注和目标跟踪算法,提取视频信息特征,生成视频特征文件。
其中,首先是对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
进而针对录音音频文件的各录音音频段通过共振峰特征、连续时间、MFCC(MelFrequency Cepstrum Coefficient,梅尔频率倒谱系数)等音频底层特征,获取询问人、被询问人等高级特征,并通过语音转录生成转录文本特征,即转录文本文件,
而区分询问人和被询问人身份信息,可通过拾音器设备和声纹比对技术实现;
最后,针对录像视频文件中的各录像视频片段,通过视频目标标注和目标跟踪算法,提取视频片段中每一帧人脸定位、嘴唇定位、其它目标类别,及目标对比上一帧的位移等信息特征。即对上述音、视频特征结构化存储。
本申请实施例中,对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储,具体包括以下步骤:
判断当前讯问是否结束,若讯问未结束则不断循环进行同步采集和关键信息的处理工作;
当前询问结束时,归档整理,按照时间先后次序存储录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件;
记录结束时间,对笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要,按照时间构成信息摘要链,并存储到服务器,防止文件被篡改。
其中,同步采集,即同步采集录音音频文件、录像视频文件以及笔录文本文件;
关键信息的处理工作,即根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件;
信息摘要即信息ID。
实施例二
参见图6所示,本申请实施例提供一种基于音视频识别技术的笔录数据采集核查装置,其用于实施实施例一中的基于音视频识别技术的笔录数据采集核查方法,该装置包括:
数据采集模块,其用于同步采集录音音频文件、录像视频文件以及笔录文本文件;
数据处理模块,其用于根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件;
数据存储模块,其用于对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储;
完整性审查模块,其用于对所述笔录文本文件、对应的所述录音音频文件以及对应的录像视频文件进行完整性审查;
一致性审查模块,其用于对所述笔录文本文件、对应的所述录音音频文件以及对应的录像视频文件进行一致性审查,所述一致性审查包括事件项目一致性审查、时间一致性审查、参与人员一致性审查以及音视频一致性审查;
敏感性审查模块,其用于对所述录音音频文件、所述录像视频文件、所述笔录文本文件进行敏感信息审查。
另外,该装置还包括报告生成模块,其用于待数据比对流程执行完毕后,即审查结束,生成对应的审查报告。
必要时,为了检验该方法的准确性,还可配合进行人工审查。
本申请实施例中,同步进行录音音频文件、录像视频文件以及笔录文本文件的收录工作,对三者建立关联性,并对数据进行结构化处理,并在需要时对录音音频文件、录像视频文件以及笔录文本文件进行核查,从而确保录音与录像保持同步一致,笔录内容与录音录像内容保持一致,获取笔录的录音录像时长在制作时间上具有一致性,从而大大提升了笔录信息收录工作的准确性。
需要说明的是,本申请实施例中的基于音视频识别技术的笔录数据采集核查装置,还需要基于一外部系统结构,该系统结构包括音视频笔录终端、音视频服务器、笔录服务器以及审查服务器;
音视频笔录终端,询问人和被询问人通过音视频笔录终端,同步采集录音音频文件、录像视频文件以及笔录文本文件;
音视频服务器,用于存储录音音频文件以及录像视频文件;
笔录服务器,用于存储笔录文本文件;
审查服务器,用于存储笔录关键词文件、转录文本文件以及视频特征文件;
该系统结构通过分离,将数据分散,防止集中篡改,每个服务器都会存储其他服务器的信息摘要和时间轴,防止时间轴上的任何修改。
具体的,事件项目为开始录制、结束录制、暂停录制、解码故障、网络中断、存储空间已满以及时延过大。
需要说明的是,在录音和录像过程中的任何操作都会和笔录上有对应时间戳,比如关闭录音录像、暂停等都会在笔录文本文件中记录动作信息,动作信息也是存储在审查服务器上与录音录像不在一个位置,因此后期可以相互佐证,
由于不仅仅记录关闭、暂停和开始等状况,还会记录故障、终端等情况,故而统称为事件项目,而事件项目的传输结构定义如下:
讯问标识32位,
信道类型1位,0表示音频1表示视频,
信道编号2位,一般存在讯问流信道、被讯问流信道、合成流信道等多个信道,
事件类型2位,01表示开始录制、02表示结束录制、03表示暂停、04表示解码故障、05表示网络中断、06表示存储空间满、07表示时延过大,
时间错8位,表示年、月、日、时、分、秒。
具体的,各笔录文本文件配有对应的音视频索引,各录像视频文件配有根据对应的笔录文本文件生成的笔录字幕信息;
笔录过程中,会建立笔录和音视频的索引对应关系;
笔录采用问答形式,当一组问答录入结束时,会与音视频建立关联索引,可以自动建立,也可以人工确认建立。
具体的,完整性审查模块对笔录文本文件、对应的录音音频文件以及对应的录像视频文件进行完整性审查时,具体包括以下步骤:
识别存储在审查服务器上对应的事件项目文件与笔录文本文件对应的事件项目文件是否均存在,若存在则通过事件完整性比对;
识别笔录文本文件是否存在对应的录音音频文件、录像视频文件,若存在则通过片段完整性比对,若存在则通过文件完整性比对;
识别笔录关键词文件是否存在对应的转录文本文件以及视频特征文件,若存在则通过特征完整性比对。
在进行完整性审查时,在具体操作时,具体包括:
动作完整性比对,即存储在审查服务器上的事件项目文件中事件项目与笔录文本文件、录音音频文件以及录像视频文件对应的事件项目是否都存在,并记录比对结果到审查记录表中;
文件完整性比对,识别笔录文本文件是否存在对应的录音音频文件、录像视频文件相互佐证,并记录比对结果到审查记录表中,是否存在缺失记录;
识别笔录关键词文件是否存在对应的转录文本文件以及视频特征文件,并记录比对结果到审查记录表中;
笔录文本文件与录音音频文件、录像视频文件的对应索引是否可以找到相互,并记录比对结果到审查记录表中;
特征完整性比对,识别笔录关键词文件是否存在对应的转录文本文件以及视频特征文件,如果没有则需要重新生成。
具体的,一致性审查模块对笔录文本文件、对应的录音音频文件以及对应的录像视频文件进行一致性审查时,具体包括以下步骤:
事件项目一致性审查:将存储在审查服务器上对应的事件项目文件与笔录文本文件对应的事件项目文件进行对比;
时间一致性审查:比对笔录文本文件、录音音频文件以及录像视频文件的生成时间;
参与人员一致性审查:将笔录文本文件中询问人和被询问人与视频特征文件中的人脸信息、录像视频文件中的声纹信息进行比对;
音视频一致性审查:将录像视频文件中的唇动时间与录音音频文件中的讲话时间进行比对。
需要说明的是,事件项目一致性审查,即存储在审查服务器上对应的事件项目文件与笔录文本文件对应的事件项目文件进行对比,并记录比对结果到审查记录表中;
时间一致性审查,比对笔录文本文件、录音音频文件以及录像视频文件的生成时间,并记录比对结果到审查记录表中,主要记录是否一致,不一致的文件及三个文件的对应时间;
人员一致性比对审查,笔录中对应的询问人、被询问姓名及人脸信息读取,询问人及被询问人对应所有视频片段比对每一帧中的讯问人人脸,通过人脸比对获取视频与笔录的一致性。比对每一段音频中询问人及被询问人的声纹,确认说话人是对应的询问人及被询问人;
音视频一致性审查,主要比对音频和视频信息的同步比对,将录像视频文件中的唇动时间与录音音频文件中的讲话时间进行比对,即需要音频中讲话时间与视频中唇动时间保持一致。
具体的,敏感性审查模块对录音音频文件、录像视频文件、笔录文本文件进行敏感信息审查时,具体包括以下步骤:
根据预设的敏感词,识别笔录文本文件中是否存在敏感信息;
根据预设的敏感词,识别录音音频文件对应的转录文本文件中是否存在敏感信息;
根据预设的运动阈值,识别录像视频文件中是否存在敏感信息;
其中,
运动阈值包括运动速度阈值和运动频度阈值。
需要说明的是,视频敏感信息审查中,首先检索录像视频文件中的目标物体是否符合要求,不符合则记录为敏感片段,进而目标的运动速度和运动频度是否超出预设的运动阈值,若超出则记录为敏感片段。
具体的,数据存储模块对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储时,还包括以下流程:
分别对录音音频文件、录像视频文件、笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要,并根据时间建立信息摘要链。
具体的,该装置还包括文件预处理模块,在数据处理模块获得笔录关键词文件、转录文本文件以及视频特征文件之前,文件预处理模块的工作流程包括:
对笔录文本文件进行信息结构化梳理;
对录音音频文件按照对话间隔进行分段处理,获得各录音音频段,按照时间序列以及声源类别进行对话排序,并标注时间索引;
根据各录音音频段,对录像视频文件进行分割,获得各录像视频段,并对于没有声音的片段重点标记;其中,
声源类别包括询问人、被询问人以及非人声。
进一步的,文件预处理模块的工作流程还包括:
计算进行信息结构化梳理后的笔录文本文件在录音音频文件、录像视频文件以及笔录文本文件中的信息量占比,对于信息量大的笔录文本文件,可作为重点审查对象。
需要说明的是,在进行文件预处理流程时,
首先是对笔录文本文件进行预处理,即信息结构化梳理,按照预设的要素,诸如按照人、事、物、时间、金额、证据等梳理结构化信息,并计算该文本占整个讯问过程中的信息量,
信息量大的笔录文本文件,可作为后期审查的重点文件,
信息结构化梳理的规则由自然语言处理技术自动提取再由人工确认,也可在笔录同步编辑时,同步提取并提示工作人员确认结构化分类;
而后,对录音音频文件进行预处理,即按照对话间隔对音频进行分段处理,获得各录音音频片段,按照说话人,即询问人或被询问人对进行分类,按照时间序列对对话进行排序,并按照声源分离人声和非人声,并标注时间索引;
最后,对录像视频文件进行预处理,即根据录音音频片段的时间索引分割视频,获得各录像视频片段,并对于没有声音的片段重点标记;
最终,存储笔录文本文件对应的音视频索引,在录像视频文件中插入笔录字幕信息,形成交叉证明。
具体的,在数据采集流程中,在根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件时,采用并行处理方式。
具体的,数据处理模块在根据笔录文本文件的关键词,生成对应的笔录关键词文件,对录音音频文件进行语音转录,生成对应的转录文本文件,对录像视频文件进行特征处理,获得对应的视频特征文件时,具体包括以下工作流程:
对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
对录音音频文件根据音频底层特征以及音频来源进行分析,并通过语音转录生成转录文本文件;
针对录像视频文件通过视频目标标注和目标跟踪算法,提取视频信息特征,生成视频特征文件。
其中,首先是对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
进而针对录音音频文件的各录音音频段通过共振峰特征、连续时间、MFCC(MelFrequency Cepstrum Coefficient,梅尔频率倒谱系数)等音频底层特征,获取询问人、被询问人等高级特征,并通过语音转录生成转录文本特征,即转录文本文件,
而区分询问人和被询问人身份信息,可通过拾音器设备和声纹比对技术实现;
最后,针对录像视频文件中的各录像视频片段,通过视频目标标注和目标跟踪算法,提取视频片段中每一帧人脸定位、嘴唇定位、其它目标类别,及目标对比上一帧的位移等信息特征。即对上述音、视频特征结构化存储。
需要说明的是,在本申请中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于音视频识别技术的笔录数据采集核查方法,其特征在于,所述方法包括数据采集流程以及数据比对流程;
所述数据采集流程包括以下步骤:
同步采集录音音频文件、录像视频文件以及笔录文本文件;
根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件;
对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储至审查服务器;
所述数据比对流程包括以下步骤:
对所述笔录文本文件、对应的所述录音音频文件以及对应的录像视频文件进行完整性审查;
对所述笔录文本文件、对应的所述录音音频文件以及对应的录像视频文件进行一致性审查,所述一致性审查包括事件项目一致性审查、时间一致性审查、参与人员一致性审查以及音视频一致性审查;
对所述录音音频文件、所述录像视频文件、所述笔录文本文件进行敏感信息审查;其中,
所述录音音频文件、所述录像视频文件以及所述笔录文本文件之间存在索引对应关系;
所述笔录文本文件中包含以询问人和被询问人为对象,按照时间顺序收录的笔录文本信息;
所述笔录文本文件对应配有一事件项目文件,所述事件项目文件中包括多个事件项目标记,各所述事件项目标记分别对应在录音或录像过程中的事件项目。
2.如权利要求1所述的基于音视频识别技术的笔录数据采集核查方法,其特征在于:
所述事件项目为开始录制、结束录制、暂停录制、解码故障、网络中断、存储空间已满以及时延过大。
3.如权利要求1所述的基于音视频识别技术的笔录数据采集核查方法,其特征在于,所述对所述笔录文本文件、对应的所述录音音频文件以及对应的录像视频文件进行完整性审查,具体包括以下步骤:
识别存储在审查服务器上对应的事件项目文件与笔录文本文件对应的事件项目文件是否均存在,若存在则通过事件完整性比对;
识别笔录文本文件是否存在对应的录音音频文件、录像视频文件,若存在则通过文件完整性比对;
识别笔录关键词文件是否存在对应的转录文本文件以及视频特征文件,若存在则通过特征完整性比对。
4.如权利要求1所述的基于音视频识别技术的笔录数据采集核查方法,其特征在于,对所述笔录文本文件、对应的所述录音音频文件以及对应的录像视频文件进行一致性审查,具体包括以下步骤:
事件项目一致性审查:将存储在审查服务器上对应的事件项目文件与笔录文本文件对应的事件项目文件进行对比;
时间一致性审查:比对笔录文本文件、录音音频文件以及录像视频文件的生成时间;
参与人员一致性审查:将所述笔录文本文件中询问人和被询问人与所述视频特征文件中的人脸信息、所述录像视频文件中的声纹信息进行比对;
音视频一致性审查:将所述录像视频文件中的唇动时间与所述录音音频文件中的讲话时间进行比对。
5.如权利要求1所述的基于音视频识别技术的笔录数据采集核查方法,其特征在于,所述对所述录音音频文件、所述录像视频文件、所述笔录文本文件进行敏感信息审查,具体包括以下步骤:
根据预设的敏感词,识别所述笔录文本文件中是否存在敏感信息;
根据预设的敏感词,识别所述录音音频文件对应的所述转录文本文件中是否存在敏感信息;
根据预设的运动阈值,识别所述录像视频文件中是否存在敏感信息;其中,
所述运动阈值包括运动速度阈值和运动频度阈值。
6.如权利要求1所述的基于音视频识别技术的笔录数据采集核查方法,其特征在于,对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储时,还包括以下步骤:
分别对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件生成信息摘要,并根据时间建立信息摘要链。
7.如权利要求1所述的基于音视频识别技术的笔录数据采集核查方法,其特征在于,在获得笔录关键词文件、转录文本文件以及视频特征文件之前,还包括文件预处理流程,所述文件预处理流程包括以下步骤:
对所述笔录文本文件进行信息结构化梳理;
对所述录音音频文件按照对话间隔进行分段处理,获得各录音音频段,按照时间序列以及声源类别进行对话排序,并标注时间索引;
根据各录音音频段,对所述录像视频文件进行分割,获得各录像视频段,并对于没有声音的片段重点标记;其中,
所述声源类别包括询问人、被询问人以及非人声。
8.如权利要求1所述的基于音视频识别技术的笔录数据采集核查方法,其特征在于:
在根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件时,采用并行处理方式。
9.如权利要求1所述的基于音视频识别技术的笔录数据采集核查方法,其特征在于,所述根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件,具体包括以下步骤:
对笔录文本文件进行片段特征提取,获得对应的关键词,进而生成对应的笔录关键词文件;
对所述录音音频文件根据音频底层特征以及音频来源进行分析,并通过语音转录生成转录文本文件;
针对所述录像视频文件通过视频目标标注和目标跟踪算法,提取视频信息特征,生成视频特征文件。
10.一种基于音视频识别技术的笔录数据采集核查装置,其特征在于,所述装置包括:
数据采集模块,其用于同步采集录音音频文件、录像视频文件以及笔录文本文件;
数据处理模块,其用于根据所述笔录文本文件的关键词,生成对应的笔录关键词文件,对所述录音音频文件进行语音转录,生成对应的转录文本文件,对所述录像视频文件进行特征处理,获得对应的视频特征文件;
数据存储模块,其用于对所述录音音频文件、所述录像视频文件、所述笔录文本文件、笔录关键词文件、转录文本文件以及视频特征文件进行关联并存储;
完整性审查模块,其用于对所述笔录文本文件、对应的所述录音音频文件以及对应的录像视频文件进行完整性审查;
一致性审查模块,其用于对所述笔录文本文件、对应的所述录音音频文件以及对应的录像视频文件进行一致性审查,所述一致性审查包括事件项目一致性审查、时间一致性审查、参与人员一致性审查以及音视频一致性审查;
敏感性审查模块,其用于对所述录音音频文件、所述录像视频文件、所述笔录文本文件进行敏感信息审查。
CN202011310225.9A 2020-11-20 2020-11-20 一种基于音视频识别技术的笔录数据采集核查方法及装置 Active CN112468753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011310225.9A CN112468753B (zh) 2020-11-20 2020-11-20 一种基于音视频识别技术的笔录数据采集核查方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011310225.9A CN112468753B (zh) 2020-11-20 2020-11-20 一种基于音视频识别技术的笔录数据采集核查方法及装置

Publications (2)

Publication Number Publication Date
CN112468753A CN112468753A (zh) 2021-03-09
CN112468753B true CN112468753B (zh) 2022-05-20

Family

ID=74798150

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011310225.9A Active CN112468753B (zh) 2020-11-20 2020-11-20 一种基于音视频识别技术的笔录数据采集核查方法及装置

Country Status (1)

Country Link
CN (1) CN112468753B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114598832B (zh) * 2022-05-10 2022-08-09 北京梦天门科技股份有限公司 双模云执法记录终端控制方法、终端及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5369704A (en) * 1993-03-24 1994-11-29 Engate Incorporated Down-line transcription system for manipulating real-time testimony
CN107992599A (zh) * 2017-12-13 2018-05-04 厦门市美亚柏科信息股份有限公司 文件比对方法和系统
CN108153732A (zh) * 2017-12-25 2018-06-12 科大讯飞股份有限公司 一种审讯笔录的审查方法及装置
CN109190092A (zh) * 2018-08-15 2019-01-11 深圳平安综合金融服务有限公司上海分公司 不同来源文件的一致性审核方法
CN110309323A (zh) * 2019-06-14 2019-10-08 广州微声技术有限公司 一种实现快速庭审记录的方法
CN111209733A (zh) * 2018-11-22 2020-05-29 阿里巴巴集团控股有限公司 文本记录处理方法及装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7249026B1 (en) * 1993-03-24 2007-07-24 Engate Llc Attorney terminal having outline preparation capabilities for managing trial proceedings
US7668718B2 (en) * 2001-07-17 2010-02-23 Custom Speech Usa, Inc. Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5369704A (en) * 1993-03-24 1994-11-29 Engate Incorporated Down-line transcription system for manipulating real-time testimony
CN107992599A (zh) * 2017-12-13 2018-05-04 厦门市美亚柏科信息股份有限公司 文件比对方法和系统
CN108153732A (zh) * 2017-12-25 2018-06-12 科大讯飞股份有限公司 一种审讯笔录的审查方法及装置
CN109190092A (zh) * 2018-08-15 2019-01-11 深圳平安综合金融服务有限公司上海分公司 不同来源文件的一致性审核方法
CN111209733A (zh) * 2018-11-22 2020-05-29 阿里巴巴集团控股有限公司 文本记录处理方法及装置
CN110309323A (zh) * 2019-06-14 2019-10-08 广州微声技术有限公司 一种实现快速庭审记录的方法

Also Published As

Publication number Publication date
CN112468753A (zh) 2021-03-09

Similar Documents

Publication Publication Date Title
CN110351578B (zh) 用于根据脚本自动制作视频节目的方法和系统
US7934264B2 (en) Methods, systems, and computer program products for detecting alteration of audio or image data
JP4466564B2 (ja) 文書作成閲覧装置、文書作成閲覧ロボットおよび文書作成閲覧プログラム
US6434520B1 (en) System and method for indexing and querying audio archives
WO2021004128A1 (zh) 语音质检的方法、装置、计算机设备和存储介质
US20050114357A1 (en) Collaborative media indexing system and method
Bredin et al. Improving speaker diarization of tv series using talking-face detection and clustering
CN112468754A (zh) 一种基于音视频识别技术的笔录数据采集方法及装置
Pretto et al. Computing methodologies supporting the preservation of electroacoustic music from analog magnetic tape
CN112468753B (zh) 一种基于音视频识别技术的笔录数据采集核查方法及装置
US6813624B1 (en) Method and apparatus for archival and retrieval of multiple data streams
CN115272533A (zh) 一种基于视频结构化数据的智能图文转视频的方法及系统
US10958982B1 (en) Closed-caption processing using machine learning for media advertisement detection
CN111444685B (zh) 基于大数据和人工智能的新闻生产系统及方法
CN112800269A (zh) 会议记录的生成方法及装置
CN110457394A (zh) 车辆信息管理方法、装置、计算机设备和存储介质
CN116129909A (zh) 一种基于聚类的声纹数据自动采集方法
CN113365100B (zh) 视频处理方法及装置
Sun et al. Applying Machine Learning to the Evaluation of Interviewer Performance
Keshtkar et al. Determining the best proportion of music genre to be played in a radio program
Aichroth et al. Audio forensics and provenance analysis: Technologies for media verification and asset management
US20230223038A1 (en) Audio analysis of body worn camera
CN117041618B (zh) 一种用于电商的智能语音客服方法和系统
CN116628206B (zh) 基于数据分析的企业信用分析管理系统
CN113301383A (zh) 基于图像特征分析的视频剪辑处理方法、设备和计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant