CN114676282A - 一种基于音视频数据的事件录入方法、装置及计算机设备 - Google Patents

一种基于音视频数据的事件录入方法、装置及计算机设备 Download PDF

Info

Publication number
CN114676282A
CN114676282A CN202210376221.3A CN202210376221A CN114676282A CN 114676282 A CN114676282 A CN 114676282A CN 202210376221 A CN202210376221 A CN 202210376221A CN 114676282 A CN114676282 A CN 114676282A
Authority
CN
China
Prior art keywords
audio
video data
word
mouth
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210376221.3A
Other languages
English (en)
Other versions
CN114676282B (zh
Inventor
蓝海洋
王永杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Nuwa Butian Technology Information Technology Co ltd
Original Assignee
Beijing Nuwa Butian Technology Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Nuwa Butian Technology Information Technology Co ltd filed Critical Beijing Nuwa Butian Technology Information Technology Co ltd
Priority to CN202210376221.3A priority Critical patent/CN114676282B/zh
Publication of CN114676282A publication Critical patent/CN114676282A/zh
Application granted granted Critical
Publication of CN114676282B publication Critical patent/CN114676282B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及信息记录技术领域,公开了一种基于音视频数据的事件录入方法、装置及计算机设备,其方法是在采集获取到音视频数据后,一方面通过声纹识别技术和图像识别技术,可基于所述音视频数据识别得到录入人员的身份信息,另一方面通过语音识别技术和/或唇语识别技术,可基于所述音视频数据识别得到文字内容,然后将与所述音视频数据同期采集的时间信息和位置信息以及所述身份信息和所述文字内容作为记叙文事件四要素,生成记叙文事件,从而可实现自动录入记叙文事件四要素的目的,并避免人为出错,降低工作量,提升录入速度,以及由于会识别得到录入人员的身份信息,使得对人物进行验证成为可能,进而可避免出现数据录入作假问题。

Description

一种基于音视频数据的事件录入方法、装置及计算机设备
技术领域
本发明属于信息记录技术领域,具体地涉及一种基于音视频数据的事件录入方法、装置及计算机设备。
背景技术
在日常工作中,部门管理员会要求部门成员对自己所做重要事件做好记录工作,而现有的事件录入方式主要有手写方式和电子录入方式,其中,前述手写方式需要手写时间、地点、人物和事件内容等记叙文事件四要素,存在不易汇总、易人为出错、工作量大、录入速度慢和难规避作假的问题,而前述电子录入方式是指通过打字录入时间、地点、人物和事件内容等记叙文事件四要素,同样也存在易人为出错、工作量大、录入速度慢和难规避作假的问题。
发明内容
为了解决现有事件录入方式所存在易人为出错、工作量大、录入速度慢和难规避作假的问题,本发明目的在于提供一种基于音视频数据的事件录入方法、装置及计算机设备。
第一方面,本发明提供了一种基于音视频数据的事件录入方法,包括:
采集获取音视频数据,其中,所述音视频数据包含有音频数据和录入人员的嘴部视频数据;
根据所述音频数据和所述嘴部视频数据,识别得到所述录入人员的身份信息;
根据所述音频数据和/或所述嘴部视频数据,识别得到文字内容;
将与所述音视频数据同期采集的时间信息和位置信息以及所述身份信息和所述文字内容作为记叙文事件四要素,生成记叙文事件。
基于上述发明内容,提供了一种基于音视频数据自动进行信息记录的新方案,即在采集获取到音视频数据后,一方面通过声纹识别技术和图像识别技术,可基于所述音视频数据识别得到录入人员的身份信息,另一方面通过语音识别技术和/或唇语识别技术,可基于所述音视频数据识别得到文字内容,然后将与所述音视频数据同期采集的时间信息和位置信息以及所述身份信息和所述文字内容作为记叙文事件四要素,生成记叙文事件,从而可实现自动录入时间、地点、人物和事件内容等记叙文事件四要素的目的,并避免人为出错,降低工作量,提升录入速度,以及由于会识别得到录入人员的身份信息,使得对人物进行验证成为可能,进而可避免出现数据录入作假问题,便于实际应用和推广。
在一个可能的设计中,根据所述音频数据和所述嘴部视频数据,识别得到所述录入人员的身份信息,包括:
根据所述音频数据,提取出声纹特征信息,以及根据所述嘴部视频数据,提取出包含有嘴唇特征和/或牙齿特征的嘴部特征信息;
根据所述声纹特征信息,通过声纹识别技术得到所述录入人员的第一身份信息及与该第一身份信息对应的第一置信度,以及根据所述嘴部特征信息,通过人嘴识别技术得到所述录入人员的第二身份信息及与该第二身份信息对应的第二置信度;
判断所述第一身份信息与所述第二身份信息是否一致且所述第二置信度和所述第一置信度是否均大于预设的置信度阈值;
若判定所述第一身份信息与所述第二身份信息一致且所述第二置信度和所述第一置信度均大于所述置信度阈值,则将所述第一身份信息或所述第二身份信息作为所述录入人员的身份信息,否则输出事件录入失败消息。
在一个可能的设计中,提取出包含有嘴唇特征和/或牙齿特征的嘴部特征信息,包括:
基于聚类算法对所述嘴部视频数据中的各个视频帧图像进行针对嘴唇及牙齿的聚类分析,识别出嘴唇和/或牙齿;
针对识别出的嘴唇,先根据对应的嘴唇边界像素在视频帧图像中的像素坐标,对该视频帧图像进行图像分割处理,得到对应的嘴唇图像,然后从该嘴唇图像中提取出对应的嘴唇特征信息;
针对识别出的牙齿,先根据对应的牙齿边界像素在视频帧图像中的像素坐标,对该视频帧图像进行图像分割处理,得到对应的牙齿图像,然后从该牙齿图像中提取出对应的牙齿特征信息;
汇总提取而得的所有嘴唇特征信息和/或所有牙齿特征信息,得到包含有嘴唇特征和/或牙齿特征的嘴部特征信息。
在一个可能的设计中,根据所述音频数据和/或所述嘴部视频数据,识别得到文字内容,包括有如下方式(A)~(C)中的任意一种:
(A)将所述音频数据输入预先建模所得的且与所述身份信息对应的语音文字识别模型中,输出得到文字内容,其中,所述语音文字识别模型采用基于支持向量机、K最邻近法、随机梯度下降法、多变量线性回归、多层感知机、决策树、反向传播神经网络、卷积神经网络或径向基函数网络建模而得的人工智能模型;
(B)将所述嘴部视频数据输入预先建模所得的且与所述身份信息对应的唇语文字识别模型中,输出得到文字内容,其中,所述唇语文字识别模型采用基于支持向量机、K最邻近法、随机梯度下降法、多变量线性回归、多层感知机、决策树、反向传播神经网络、卷积神经网络或径向基函数网络建模而得的人工智能模型;
(C)根据所述音频数据,通过语音识别技术获取到第一文字内容,以及根据所述嘴部视频数据,通过唇语识别技术获取到第二文字内容;
使用所述第二文字内容对所述第一文字内容进行校对,得到最终的文字内容。
在一个可能的设计中,使用所述第二文字内容对所述第一文字内容进行校对,得到最终的文字内容,包括:
对所述第一文字内容进行分词处理,得到在采集时序上依次连续的多个第一词语,其中,所述多个第一词语中的各个第一词语分别对应有不同的采集时段;
针对所述各个第一词语,按照如下方式使用所述第二文字内容进行对应的校对:
在所述第二文字内容中查找到与第一词语的采集时段同期的至少一个文字;
判断所述至少一个文字在采集时序上是否组成一个词语;
若判定所述至少一个文字在采集时序上组成有第二词语,则判断所述第二词语与所述第一词语是否相同;
若判定所述第二词语与所述第一词语不同,则在所述多个第一词语中选取在采集时序上与所述第一词语相邻的至少一个相邻词语;
根据所述第一词语、所述第二词语和所述至少一个相邻词语中各个相邻词语的已知词向量,计算得到所述第一词语与所述至少一个相邻词语的第一相关度,以及计算得到所述第二词语与所述至少一个相邻词语的第二相关度,其中,所述第一相关度和第二相关度分别为欧式距离总和/向量夹角总和的负相关数值;
判断所述第一相关度是否小于所述第二相关度;
若判定所述第一相关度小于所述第二相关度,则在所述第一文字内容中将所述第一词语校正为所述第二词语。
在一个可能的设计中,采集获取音视频数据,包括:
启动红外测温仪实时采集温度数据;
根据所述温度数据,在发现采集温度处于正常人口腔温度范围内时,唤醒拾音器及摄像头,以便采集获取音视频数据,其中,所述拾音器用于采集音频数据,所述摄像头用于采集录入人员的嘴部视频数据,所述摄像头的镜头朝向与所述红外测温仪的红外发射方向一致。
在一个可能的设计中,在唤醒拾音器及摄像头之后,所述方法还包括:
根据所述温度数据,当发现采集温度在第一时长内连续低于所述正常人口腔温度范围的下限值且高于环境温度值时,启动提示器发出用于提醒所述录入人员使所述摄像头对准自己嘴部位置的第一提示动作;
和/或,根据所述温度数据,当发现采集温度在第二时长内多次高于所述正常人口腔温度范围的上限值时,启动提示器发出用于提醒对所述录入人员进行发热排查的第二提示动作。
第二方面,本发明提供了一种基于音视频数据的事件录入装置,包括有音视频采集模块、时间信息采集模块、位置信息采集模块、身份识别模块、内容识别模块和事件生成模块;
所述音视频采集模块,用于采集获取音视频数据,其中,所述音视频数据包含有音频数据和录入人员的嘴部视频数据;
所述时间信息采集模块,用于采集时间信息;
所述位置信息采集模块,用于采集位置信息;
所述身份识别模块,连接所述音视频采集模块,用于根据所述音频数据和所述嘴部视频数据,识别得到所述录入人员的身份信息;
所述内容识别模块,连接所述音视频采集模块,用于根据所述音频数据和/或所述嘴部视频数据,识别得到文字内容;
所述事件生成模块,分别连接所述时间信息采集模块、所述位置信息采集模块、所述身份识别模块和所述内容识别模块,用于将与所述音视频数据同期采集的时间信息和位置信息以及所述身份信息和所述文字内容作为记叙文事件四要素,生成记叙文事件。
第三方面,本发明提供了一种计算机设备,包括有依次通信连接的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面或第一方面中任意可能设计所述的事件录入方法。
第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面或第一方面中任意可能设计所述的事件录入方法。
第五方面,本发明提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面或第一方面中任意可能设计所述的事件录入方法。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于音视频数据的事件录入方法的流程示意图。
图2是本发明提供的身份信息识别流程的示意图。
图3是本发明提供的特征信息提取流程的示意图。
图4是本发明提供的文字内容识别流程的示意图。
图5是本发明提供的基于音视频数据的事件录入装置的结构示意图。
图6是本发明提供的计算机设备的结构示意图。
具体实施方式
下面结合附图及具体实施例来对本发明作进一步阐述。在此需要说明的是,对于这些实施例方式的说明虽然是用于帮助理解本发明,但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明示例的实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本文阐述的实施例中。
应当理解,尽管本文可能使用术语第一和第二等等来描述各种对象,但是这些对象不应当受到这些术语的限制。这些术语仅用于区分一个对象和另一个对象。例如可以将第一对象称作第二对象,并且类似地可以将第二对象称作第一对象,同时不脱离本发明的示例实施例的范围。
应当理解,对于本文中可能出现的术语“和/或”,其仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A、单独存在B或者同时存在A和B等三种情况;对于本文中可能出现的术语“/和”,其是描述另一种关联对象关系,表示可以存在两种关系,例如,A/和B,可以表示:单独存在A或者同时存在A和B等两种情况;另外,对于本文中可能出现的字符“/”,一般表示前后关联对象是一种“或”关系。
如图1所示,本实施例第一方面提供的所述基于音视频数据的事件录入方法,可以但不限于由具有一定计算资源和数据采集功能的计算机设备执行,例如由带拾音器及摄像头的个人计算机(Personal Computer,PC,指一种大小、价格和性能适用于个人使用的多用途计算机;台式机、笔记本电脑到小型笔记本电脑和平板电脑以及超级本等都属于个人计算机)、智能手机、个人数字助理(Personal digital assistant,PAD)或可穿戴设备等电子设备执行,以便在采集获取到音视频数据后,可实现自动录入时间、地点、人物和事件内容等记叙文事件四要素的目的,并避免人为出错,降低工作量,提升录入速度,以及由于会识别得到录入人员的身份信息,使得对人物进行验证成为可能,进而可避免出现数据录入作假问题,便于实际应用和推广。如图1所示,所述基于音视频数据的事件录入方法,可以但不限于包括有如下步骤S1~S4。
S1.采集获取音视频数据,其中,所述音视频数据包含有音频数据和录入人员的嘴部视频数据。
在所述步骤S1中,所述音频数据即可由自带的拾音器采集得到,所述嘴部视频数据即可由自带的摄像头采集得到,此时需要确保使摄像头对准所述录入人员的嘴部位置。此外,所述录入人员可以但不限于为要求做好重要事件录入工作的部门成员。
S2.根据所述音频数据和所述嘴部视频数据,识别得到所述录入人员的身份信息。
在所述步骤S2中,由于所述音频数据会记录有所述录入人员的声纹特征,所述嘴部视频数据会记录有所述录入人员的嘴部特征,因此可以基于这些特征,利用现有识别技术确定所述录入人员的身份信息。
S3.根据所述音频数据和/或所述嘴部视频数据,识别得到文字内容。
在所述步骤S3中,由于所述音频数据会记录有所述录入人员所说出的语音信息,因此可以利用现有的语音识别技术得到所述录入人员所说出的具体文字内容。和/或,由于所述嘴部视频数据会记录有在录音时所述录入人员的口型变化,因此可以利用现有的唇语识别技术得到所述录入人员所表达出的具体文字内容。
S4.将与所述音视频数据同期采集的时间信息和位置信息以及所述身份信息和所述文字内容作为记叙文事件四要素,生成记叙文事件。
在所述步骤S4中,所述时间信息可以但不限于通过自带的常规授时模块(例如卫星授时模块等)或者常规时钟模块采集得到;所述位置信息可以但不限于通过自带的常规定位模块(例如卫星定位模块等)采集得到。由于记叙文事件四要素主要为时间、地点、人物和事件内容等,因此可将它们与所述时间信息、所述位置信息、所述身份信息和所述文字内容一一对应起来,生成所述记叙文事件并进行保存,从而完成基于音视频数据的事件录入过程。
由此基于前述步骤S1~S4所描述的基于音视频数据的事件录入方法,提供了一种基于音视频数据自动进行信息记录的新方案,即在采集获取到音视频数据后,一方面通过声纹识别技术和图像识别技术,可基于所述音视频数据识别得到录入人员的身份信息,另一方面通过语音识别技术和/或唇语识别技术,可基于所述音视频数据识别得到文字内容,然后将与所述音视频数据同期采集的时间信息和位置信息以及所述身份信息和所述文字内容作为记叙文事件四要素,生成记叙文事件,从而可实现自动录入时间、地点、人物和事件内容等记叙文事件四要素的目的,并避免人为出错,降低工作量,提升录入速度,以及由于会识别得到录入人员的身份信息,使得对人物进行验证成为可能,进而可避免出现数据录入作假问题,便于实际应用和推广。
本实施例在前述第一方面的技术方案基础上,还提供了一种具体如何识别得到身份信息的可能设计一,即如图2所示,根据所述音频数据和所述嘴部视频数据,识别得到所述录入人员的身份信息,包括但不限于有如下步骤S21~S24。
S21.根据所述音频数据,提取出声纹特征信息,以及根据所述嘴部视频数据,提取出包含有嘴唇特征和/或牙齿特征的嘴部特征信息。
在所述步骤S21中,可以基于现有声纹特征提取方式,从所述音频数据中提取得到所述声纹特征信息。而具体的,如图3所示,根据所述嘴部视频数据,提取出包含有嘴唇特征和/或牙齿特征的嘴部特征信息,包括但不限于有如下步骤S211~S214。
S211.基于聚类算法对所述嘴部视频数据中的各个视频帧图像进行针对嘴唇及牙齿的聚类分析,识别出嘴唇和/或牙齿。
在所述步骤S211中,聚类是一种运用广泛的探索性数据分析技术,人们对数据产生的第一直觉往往是通过对数据进行有意义的分组,通过对对象进行分组,使相似的对象归为一类,不相似的对象归为不同类,因此可通过对现有聚类算法的常规改动,实现对所述嘴部视频数据进行数据分类的目的,进而得到嘴唇聚类分析结果和/或牙齿聚类分析结果,即识别出嘴唇和/或牙齿(考虑牙齿在嘴内,可能因遮挡而不能识别出,因此可以仅识别出嘴唇,当然也可以仅需识别出牙齿,以便用于后续身份信息识别)。具体的,所述聚类算法可以但不限于采用k均值聚类算法(其是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心)。
S212.针对识别出的嘴唇,先根据对应的嘴唇边界像素在视频帧图像中的像素坐标,对该视频帧图像进行图像分割处理,得到对应的嘴唇图像,然后从该嘴唇图像中提取出对应的嘴唇特征信息。
在所述步骤S212中,针对识别出的嘴唇,对应的所有嘴唇边界像素会围成一个封闭的边界线,进而可基于该边界线对视频帧图像进行图像分割处理,得到对应的嘴唇图像。此外,可通过常规的特征提取方式,从所述嘴唇图像中提取得到嘴唇特征信息。
S213.针对识别出的牙齿,先根据对应的牙齿边界像素在视频帧图像中的像素坐标,对该视频帧图像进行图像分割处理,得到对应的牙齿图像,然后从该牙齿图像中提取出对应的牙齿特征信息。
在所述步骤S213中,针对识别出的牙齿,对应的所有牙齿边界像素也会围成一个封闭的边界线,进而可基于该边界线对视频帧图像进行图像分割处理,得到对应的牙齿图像。此外,也可通过常规的特征提取方式,从所述牙齿图像中提取得到牙齿特征信息。
S214.汇总提取而得的所有嘴唇特征信息和/或所有牙齿特征信息,得到包含有嘴唇特征和/或牙齿特征的嘴部特征信息。
S22.根据所述声纹特征信息,通过声纹识别技术得到所述录入人员的第一身份信息及与该第一身份信息对应的第一置信度,以及根据所述嘴部特征信息,通过人嘴识别技术得到所述录入人员的第二身份信息及与该第二身份信息对应的第二置信度。
在所述步骤S22中,所述声纹识别技术可采用现有技术实现,例如基于模板模型或随机模型等典型的声纹识别模型,识别得到所述录入人员的第一身份信息及与该第一身份信息对应的第一置信度。所述人嘴识别技术可参照现有的人脸识别技术常规改动实现,例如先训练一个人嘴识别模型,然后将所述嘴部特征信息导入该人嘴识别模型,输出得到所述录入人员的第二身份信息及与该第二身份信息对应的第二置信度。
S23.判断所述第一身份信息与所述第二身份信息是否一致且所述第二置信度和所述第一置信度是否均大于预设的置信度阈值。
S24.若判定所述第一身份信息与所述第二身份信息一致且所述第二置信度和所述第一置信度均大于所述置信度阈值,则将所述第一身份信息或所述第二身份信息作为所述录入人员的身份信息,否则输出事件录入失败消息。
在所述步骤S24中,若判定所述第一身份信息与所述第二身份信息一致且所述第二置信度和所述第一置信度均大于所述置信度阈值,则表明两种方式的身份识别结果相同并且都足以可信,可将任一身份识别结果作为最终的身份识别结果;反之则表明存在其他情况,例如因“双簧”作假或因其他人员的大声说话,导致虽然所述第二置信度和所述第一置信度均大于所述置信度阈值,但是所述第一身份信息与所述第二身份信息却不一致,此时就需要输出所述事件录入失败消息,以便提醒所述录入人员重新进行事件录入。
由此基于前述步骤S21~S24所描述的可能设计一,可以综合声纹识别技术和图像识别技术的身份识别结果,确保最终身份识别结果的可信度,有效防止出现诸如“双簧”作假等身份信息作弊情况。
本实施例在前述第一方面或可能设计一的技术方案基础上,还提供了一种具体如何基于音频数据进行文字内容识别的可能设计二,即根据所述音频数据,识别得到文字内容,包括:将所述音频数据输入预先建模所得的且与所述身份信息对应的语音文字识别模型中,输出得到文字内容,其中,所述语音文字识别模型可以但不限于采用基于支持向量机、K最邻近法、随机梯度下降法、多变量线性回归、多层感知机、决策树、反向传播神经网络、卷积神经网络或径向基函数网络等建模而得的人工智能模型。所述支持向量机、所述K最邻近法、所述随机梯度下降法、所述多变量线性回归、所述多层感知机、所述决策树、所述反向传播神经网络和所述径向基函数网络等均为现有人工智能方法中的常见方案,即可通过常规的率定验证建模方式(其具体过程包括有模型的率定过程和校核过程,即是先通过对比模型模拟结果与实测数据,然后根据对比结果调整模型参数,使得模拟结果与实际吻合的过程),得到所述语音文字识别模型。所述语音文字识别模型可预先基于个人的历史音频数据进行训练,以便得到适用于该个人的一个语音文字识别模型,进而克服因个人口音差异或其它因素而导致的识别错误问题,因此通过将所述音频数据输入与所述身份信息对应的语音文字识别模型中,可以进一步提升文字内容的识别准确性。
本实施例在前述第一方面或可能设计一的技术方案基础上,还提供了一种具体如何基于嘴部视频数据进行文字内容识别的可能设计三,即根据所述嘴部视频数据,识别得到文字内容,包括:将所述嘴部视频数据输入预先建模所得的且与所述身份信息对应的唇语文字识别模型中,输出得到文字内容,其中,所述唇语文字识别模型可以但不限于采用基于支持向量机、K最邻近法、随机梯度下降法、多变量线性回归、多层感知机、决策树、反向传播神经网络、卷积神经网络或径向基函数网络等建模而得的人工智能模型。同样的,可通过常规的率定验证建模方式得到所述唇语文字识别模型。所述唇语文字识别模型也可预先基于个人的历史嘴部视频数据进行训练,以便得到适用于该个人的一个唇语文字识别模型,进而克服因个人口型变化差异或其它因素而导致的识别错误问题,因此通过将所述嘴部视频数据输入与所述身份信息对应的唇语文字识别模型中,可以进一步提升文字内容的识别准确性。
本实施例在前述第一方面或可能设计一的技术方案基础上,还提供了一种具体如何基于音频数据和嘴部视频数据进行文字内容识别的可能设计四,即如图4所示,根据所述音频数据和所述嘴部视频数据,识别得到文字内容,包括但不限于有如下步骤S31~S32。
S31.根据所述音频数据,通过语音识别技术获取到第一文字内容,以及根据所述嘴部视频数据,通过唇语识别技术获取到第二文字内容。
在所述步骤S31中,所述语音识别技术可采用现有技术实现,也可以采用如前可能设计二的方式实现,从而得到高准确性的所述第一文字内容。所述唇语识别技术也可采用现有技术实现,以及也可以采用如前可能设计三的方式实现,从而得到高准确性的所述第二文字内容。
S32.使用所述第二文字内容对所述第一文字内容进行校对,得到最终的文字内容。
在所述步骤S32中,具体的,使用所述第二文字内容对所述第一文字内容进行校对,得到最终的文字内容,包括但不限于有如下步骤S321~S322。
S321.对所述第一文字内容进行分词处理,得到在采集时序上依次连续的多个第一词语,其中,所述多个第一词语中的各个第一词语分别对应有不同的采集时段。
在所述步骤S321中,所述分词处理可以但不限于采用正向最大匹配法进行中文分词,其中,所述正向最大匹配法为现有常用的中文分词方法,对应的算法原理一般是从左到右将待分词文本(等同于文档)中的几个连续字符与词表(由成千上万个常用的且已经分好的词语组成)中的所有词语逐一匹配,如果匹配上,则切分出一个词语,为了做到最大匹配,并不是第一次匹配到就可以切分的,即从第一个字符开始,当扫描到第二个字符的时候,发现第一个字符已经在词表中了,但还不能切分出来,因为不知道后面的词语能不能组成更长的词(即最大匹配),因此需要扫描迭代,使最大匹配出的词语必须保证下一个扫描不是词表中的词语或词语的前缀才可以结束。如此举例的,若通过语音识别技术得到为“午餐为番茄炒清单”的第一文字内容,则可以得到如下的多个第一词语:“午餐”、“为”、“番茄”、“炒”和“清单”,分别对应有不同的采集时段(这些时段在采集时序上是依次连续的)。
S322.针对所述各个第一词语,按照如下方式使用所述第二文字内容进行对应的校对:在所述第二文字内容中查找到与第一词语的采集时段同期的至少一个文字;判断所述至少一个文字在采集时序上是否组成一个词语;若判定所述至少一个文字在采集时序上组成有第二词语,则判断所述第二词语与所述第一词语是否相同;若判定所述第二词语与所述第一词语不同,则在所述多个第一词语中选取在采集时序上与所述第一词语相邻的至少一个相邻词语;根据所述第一词语、所述第二词语和所述至少一个相邻词语中各个相邻词语的已知词向量,计算得到所述第一词语与所述至少一个相邻词语的第一相关度,以及计算得到所述第二词语与所述至少一个相邻词语的第二相关度,其中,所述第一相关度和第二相关度分别为欧式距离总和/向量夹角总和的负相关数值;判断所述第一相关度是否小于所述第二相关度;若判定所述第一相关度小于所述第二相关度,则在所述第一文字内容中将所述第一词语校正为所述第二词语。
在所述步骤S322中,若通过唇语识别技术得到为“午餐为番茄炒鸡蛋”的第二文字内容,则针对为“清单”的第一词语,可在该第二文字内容中找到对应的文字“鸡”和“蛋”,并可发现该“鸡”和“蛋”两字可组成一个第二词语“鸡蛋”;由于“鸡蛋”与“清单”明显不同,此时就需要选取相邻词语“午餐”、“为”、“番茄”和/或“炒”等,来计算两词语与它们的相关度;最后通过两相关度的比较,可以发现“鸡蛋”与“午餐”、“为”、“番茄”和/或“炒”等的相关度会高于“清单”与“午餐”、“为”、“番茄”和/或“炒”等的相关度,此时即可将“午餐为番茄炒清单”中的“清单”校正为“鸡蛋”,实现使用所述第二文字内容对所述第一文字内容进行校对的目的,确保文字内容的识别准确性。此外,所述欧式距离总和是指第一词语/第二词语与各个相邻词语的欧式距离的累加结果,而所述向量夹角总和是指第一词语/第二词语与各个相邻词语的向量夹角的累加结果;所述欧式距离或所述向量夹角的计算方式为现有算法,例如先获取所述第一词语、所述第二词语和所述各个相邻词语的词向量(具体获取过程可参见现有专利《CN109933216B一种用于智能输入的词语联想提示方法、装置、设备以及计算机存储介质》),然后根据它们的词向量来计算第一词语/第二词语与各个相邻词语的欧式距离或向量夹角。
由此基于前述步骤S31~S32所描述的可能设计四,可以综合语音识别技术和唇语识别技术的文字内容识别结果,通过相互校正处理,进一步确保最终所得文字内容的准确性。
本实施例在前述第一方面及可能设计一至四中的任一技术方案基础上,还提供了一种具体采集音视频数据的可能设计五,即采集获取音视频数据,包括但不限于有如下步骤:先启动红外测温仪实时采集温度数据;根据所述温度数据,在发现采集温度处于正常人口腔温度范围内时,唤醒拾音器及摄像头,以便采集获取音视频数据,其中,所述拾音器用于采集音频数据,所述摄像头用于采集录入人员的嘴部视频数据,所述摄像头的镜头朝向与所述红外测温仪的红外发射方向一致。所述红外测温仪即为自带的测温仪器,由于所述摄像头的镜头朝向与所述红外测温仪的红外发射方向限定为一致,使得若发现采集温度处于正常人口腔温度范围内时,则表明所述摄像头正在对准所述录入人员的嘴部位置,此时可以确保能够采集得到所述嘴部视频数据。以及由于是同时唤醒所述拾音器及所述摄像头,可以确保采集所得的所述音频数据与所述嘴部视频数据是同期的,以便后续进行文字内容的相互校正。此外,所述正常人口腔温度范围可选定为36.3-37.2℃。
进一步优选的,为了随时提醒所述录入人员保持摄像头对准嘴部位置,在唤醒拾音器及摄像头之后,所述方法还包括:根据所述温度数据,当发现采集温度在第一时长内连续低于所述正常人口腔温度范围的下限值且高于环境温度值时,启动提示器发出用于提醒所述录入人员使所述摄像头对准自己嘴部位置的第一提示动作。同样由于所述摄像头的镜头朝向与所述红外测温仪的红外发射方向限定为一致,使得若所述采集温度低于所述正常人口腔温度范围的下限值且高于环境温度值,则表明此时所述摄像头朝向人体但未对准嘴部位置,有必要进行提醒。所述第一提示动作可以但不限于包括有语音播报动作、发光动作和/或振动动作等,以便有效提醒所述录入人员使所述摄像头对准自己嘴部位置。此外,所述第一时长可以举例为1秒,所述下限值可为36.3℃,所述环境温度值可举例为25℃。
进一步优选的,为了及时发现体温异常人员,在唤醒拾音器及摄像头之后,所述方法还包括:根据所述温度数据,当发现采集温度在第二时长内多次高于所述正常人口腔温度范围的上限值时,启动提示器发出用于提醒对所述录入人员进行发热排查的第二提示动作。所述第二提示动作同样可以但不限于包括有语音播报动作、发光动作和/或振动动作等,以便有效提醒对所述录入人员进行发热排查,助力疫情防控工作。此外,所述第二时长可以举例为1分钟,所述多次可举例为三次,所述上限值可为37.2℃。
由此基于前述详细描述的可能设计五,可以确保能够采集得到所述嘴部视频数据,以及确保采集所得的所述音频数据与所述嘴部视频数据是同期的,以便后续进行文字内容的相互校正,此外还可随时提醒所述录入人员保持摄像头对准嘴部位置和及时发现体温异常人员,助力疫情防控工作。
如图5所示,本实施例第二方面提供了一种实现第一方面或第一方面中任一可能设计所述的事件录入方法的虚拟装置,包括有音视频采集模块、时间信息采集模块、位置信息采集模块、身份识别模块、内容识别模块和事件生成模块;
所述音视频采集模块,用于采集获取音视频数据,其中,所述音视频数据包含有音频数据和录入人员的嘴部视频数据;
所述时间信息采集模块,用于采集时间信息;
所述位置信息采集模块,用于采集位置信息;
所述身份识别模块,连接所述音视频采集模块,用于根据所述音频数据和所述嘴部视频数据,识别得到所述录入人员的身份信息;
所述内容识别模块,连接所述音视频采集模块,用于根据所述音频数据和/或所述嘴部视频数据,识别得到文字内容;
所述事件生成模块,分别连接所述时间信息采集模块、所述位置信息采集模块、所述身份识别模块和所述内容识别模块,用于将与所述音视频数据同期采集的时间信息和位置信息以及所述身份信息和所述文字内容作为记叙文事件四要素,生成记叙文事件。
在一个可能设计中,所述音视频采集模块包括有红外测温仪、拾音器、摄像头、测温启动单元和唤醒单元;
所述测温启动单元,连接所述红外测温仪,用于启动所述红外测温仪实时采集温度数据;
所述唤醒单元,分别连接所述红外测温仪、所述拾音器和所述摄像头,用于根据所述温度数据,在发现采集温度处于正常人口腔温度范围内时,唤醒所述拾音器及所述摄像头,以便采集获取音视频数据,其中,所述拾音器用于采集音频数据,所述摄像头用于采集录入人员的嘴部视频数据,所述摄像头的镜头朝向与所述红外测温仪的红外发射方向一致。
在一个可能设计中,所述音视频采集模块还包括有连接所述红外测温仪的提示器,其中,所述提示器用于根据所述温度数据,当发现采集温度在第一时长内连续低于所述正常人口腔温度范围的下限值且高于环境温度值时,发出用于提醒所述录入人员使所述摄像头对准自己嘴部位置的第一提示动作;和/或,根据所述温度数据,当发现采集温度在第二时长内多次高于所述正常人口腔温度范围的上限值时,发出用于提醒对所述录入人员进行发热排查的第二提示动作。
本实施例第二方面提供的前述装置的工作过程、工作细节和技术效果,可以参见第一方面或第一方面中任一可能设计所述的事件录入方法,于此不再赘述。
如图6所示,本实施例第三方面提供了一种执行如第一方面或第一方面中任一可能设计所述的事件录入方法的计算机设备,包括有依次通信连接的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如第一方面或第一方面中任一可能设计所述的事件录入方法。具体举例的,所述存储器可以但不限于包括随机存取存储器(Random-Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、闪存(Flash Memory)、先进先出存储器(FirstInput First Output,FIFO)和/或先进后出存储器(First Input Last Output,FILO)等等;所述处理器可以但不限于采用型号为STM32F105系列的微处理器。此外,所述计算机设备还可以但不限于包括有电源模块、显示屏和其它必要的部件。
本实施例第三方面提供的前述计算机设备的工作过程、工作细节和技术效果,可以参见第一方面或第一方面中任一可能设计所述的事件录入方法,于此不再赘述。
本实施例第四方面提供了一种存储包含如第一方面或第一方面中任一可能设计所述的事件录入方法的指令的计算机可读存储介质,即所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如第一方面或第一方面中任一可能设计所述的事件录入方法。其中,所述计算机可读存储介质是指存储数据的载体,可以但不限于包括软盘、光盘、硬盘、闪存、优盘和/或记忆棒(Memory Stick)等计算机可读存储介质,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
本实施例第四方面提供的前述计算机可读存储介质的工作过程、工作细节和技术效果,可以参见如第一方面或第一方面中任一可能设计所述的事件录入方法,于此不再赘述。
本实施例第五方面提供了一种包含指令的计算机程序产品,当所述指令在计算机上运行时,使所述计算机执行如第一方面或第一方面中任一可能设计所述的事件录入方法。其中,所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。
最后应说明的是,本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。

Claims (10)

1.一种基于音视频数据的事件录入方法,其特征在于,包括:
采集获取音视频数据,其中,所述音视频数据包含有音频数据和录入人员的嘴部视频数据;
根据所述音频数据和所述嘴部视频数据,识别得到所述录入人员的身份信息;
根据所述音频数据和/或所述嘴部视频数据,识别得到文字内容;
将与所述音视频数据同期采集的时间信息和位置信息以及所述身份信息和所述文字内容作为记叙文事件四要素,生成记叙文事件。
2.如权利要求1所述的事件录入方法,其特征在于,根据所述音频数据和所述嘴部视频数据,识别得到所述录入人员的身份信息,包括:
根据所述音频数据,提取出声纹特征信息,以及根据所述嘴部视频数据,提取出包含有嘴唇特征和/或牙齿特征的嘴部特征信息;
根据所述声纹特征信息,通过声纹识别技术得到所述录入人员的第一身份信息及与该第一身份信息对应的第一置信度,以及根据所述嘴部特征信息,通过人嘴识别技术得到所述录入人员的第二身份信息及与该第二身份信息对应的第二置信度;
判断所述第一身份信息与所述第二身份信息是否一致且所述第二置信度和所述第一置信度是否均大于预设的置信度阈值;
若判定所述第一身份信息与所述第二身份信息一致且所述第二置信度和所述第一置信度均大于所述置信度阈值,则将所述第一身份信息或所述第二身份信息作为所述录入人员的身份信息,否则输出事件录入失败消息。
3.如权利要求2所述的事件录入方法,其特征在于,根据所述嘴部视频数据,提取出包含有嘴唇特征和/或牙齿特征的嘴部特征信息,包括:
基于聚类算法对所述嘴部视频数据中的各个视频帧图像进行针对嘴唇及牙齿的聚类分析,识别出嘴唇和/或牙齿;
针对识别出的嘴唇,先根据对应的嘴唇边界像素在视频帧图像中的像素坐标,对该视频帧图像进行图像分割处理,得到对应的嘴唇图像,然后从该嘴唇图像中提取出对应的嘴唇特征信息;
针对识别出的牙齿,先根据对应的牙齿边界像素在视频帧图像中的像素坐标,对该视频帧图像进行图像分割处理,得到对应的牙齿图像,然后从该牙齿图像中提取出对应的牙齿特征信息;
汇总提取而得的所有嘴唇特征信息和/或所有牙齿特征信息,得到包含有嘴唇特征和/或牙齿特征的嘴部特征信息。
4.如权利要求1所述的事件录入方法,其特征在于,根据所述音频数据和/或所述嘴部视频数据,识别得到文字内容,包括有如下方式(A)~(C)中的任意一种:
(A)将所述音频数据输入预先建模所得的且与所述身份信息对应的语音文字识别模型中,输出得到文字内容,其中,所述语音文字识别模型采用基于支持向量机、K最邻近法、随机梯度下降法、多变量线性回归、多层感知机、决策树、反向传播神经网络、卷积神经网络或径向基函数网络建模而得的人工智能模型;
(B)将所述嘴部视频数据输入预先建模所得的且与所述身份信息对应的唇语文字识别模型中,输出得到文字内容,其中,所述唇语文字识别模型采用基于支持向量机、K最邻近法、随机梯度下降法、多变量线性回归、多层感知机、决策树、反向传播神经网络、卷积神经网络或径向基函数网络建模而得的人工智能模型;
(C)根据所述音频数据,通过语音识别技术获取到第一文字内容,以及根据所述嘴部视频数据,通过唇语识别技术获取到第二文字内容;
使用所述第二文字内容对所述第一文字内容进行校对,得到最终的文字内容。
5.如权利要求4所述的事件录入方法,其特征在于,使用所述第二文字内容对所述第一文字内容进行校对,得到最终的文字内容,包括:
对所述第一文字内容进行分词处理,得到在采集时序上依次连续的多个第一词语,其中,所述多个第一词语中的各个第一词语分别对应有不同的采集时段;
针对所述各个第一词语,按照如下方式使用所述第二文字内容进行对应的校对:
在所述第二文字内容中查找到与第一词语的采集时段同期的至少一个文字;
判断所述至少一个文字在采集时序上是否组成一个词语;
若判定所述至少一个文字在采集时序上组成有第二词语,则判断所述第二词语与所述第一词语是否相同;
若判定所述第二词语与所述第一词语不同,则在所述多个第一词语中选取在采集时序上与所述第一词语相邻的至少一个相邻词语;
根据所述第一词语、所述第二词语和所述至少一个相邻词语中各个相邻词语的已知词向量,计算得到所述第一词语与所述至少一个相邻词语的第一相关度,以及计算得到所述第二词语与所述至少一个相邻词语的第二相关度,其中,所述第一相关度和第二相关度分别为欧式距离总和/向量夹角总和的负相关数值;
判断所述第一相关度是否小于所述第二相关度;
若判定所述第一相关度小于所述第二相关度,则在所述第一文字内容中将所述第一词语校正为所述第二词语。
6.如权利要求1所述的事件录入方法,其特征在于,采集获取音视频数据,包括:
启动红外测温仪实时采集温度数据;
根据所述温度数据,在发现采集温度处于正常人口腔温度范围内时,唤醒拾音器及摄像头,以便采集获取音视频数据,其中,所述拾音器用于采集音频数据,所述摄像头用于采集录入人员的嘴部视频数据,所述摄像头的镜头朝向与所述红外测温仪的红外发射方向一致。
7.如权利要求6所述的事件录入方法,其特征在于,在唤醒拾音器及摄像头之后,所述方法还包括:
根据所述温度数据,当发现采集温度在第一时长内连续低于所述正常人口腔温度范围的下限值且高于环境温度值时,启动提示器发出用于提醒所述录入人员使所述摄像头对准自己嘴部位置的第一提示动作;
和/或,根据所述温度数据,当发现采集温度在第二时长内多次高于所述正常人口腔温度范围的上限值时,启动提示器发出用于提醒对所述录入人员进行发热排查的第二提示动作。
8.一种基于音视频数据的事件录入装置,其特征在于,包括有音视频采集模块、时间信息采集模块、位置信息采集模块、身份识别模块、内容识别模块和事件生成模块;
所述音视频采集模块,用于采集获取音视频数据,其中,所述音视频数据包含有音频数据和录入人员的嘴部视频数据;
所述时间信息采集模块,用于采集时间信息;
所述位置信息采集模块,用于采集位置信息;
所述身份识别模块,连接所述音视频采集模块,用于根据所述音频数据和所述嘴部视频数据,识别得到所述录入人员的身份信息;
所述内容识别模块,连接所述音视频采集模块,用于根据所述音频数据和/或所述嘴部视频数据,识别得到文字内容;
所述事件生成模块,分别连接所述时间信息采集模块、所述位置信息采集模块、所述身份识别模块和所述内容识别模块,用于将与所述音视频数据同期采集的时间信息和位置信息以及所述身份信息和所述文字内容作为记叙文事件四要素,生成记叙文事件。
9.一种计算机设备,其特征在于,包括有依次通信连接的存储器、处理器和收发器,其中,所述存储器用于存储计算机程序,所述收发器用于收发消息,所述处理器用于读取所述计算机程序,执行如权利要求1~7中任意一项所述的事件录入方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有指令,当所述指令在计算机上运行时,执行如权利要求1~7中任意一项所述的事件录入方法。
CN202210376221.3A 2022-04-11 2022-04-11 一种基于音视频数据的事件录入方法、装置及计算机设备 Active CN114676282B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210376221.3A CN114676282B (zh) 2022-04-11 2022-04-11 一种基于音视频数据的事件录入方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210376221.3A CN114676282B (zh) 2022-04-11 2022-04-11 一种基于音视频数据的事件录入方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN114676282A true CN114676282A (zh) 2022-06-28
CN114676282B CN114676282B (zh) 2023-02-03

Family

ID=82077769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210376221.3A Active CN114676282B (zh) 2022-04-11 2022-04-11 一种基于音视频数据的事件录入方法、装置及计算机设备

Country Status (1)

Country Link
CN (1) CN114676282B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550170A (zh) * 2015-12-14 2016-05-04 北京锐安科技有限公司 一种中文分词方法及装置
US20160148616A1 (en) * 2014-11-26 2016-05-26 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
CN109637521A (zh) * 2018-10-29 2019-04-16 深圳壹账通智能科技有限公司 一种基于深度学习的唇语识别方法及装置
CN110853646A (zh) * 2019-11-20 2020-02-28 深圳前海微众银行股份有限公司 会议发言角色的区分方法、装置、设备及可读存储介质
CN111933136A (zh) * 2020-08-18 2020-11-13 南京奥拓电子科技有限公司 一种辅助语音识别控制方法和装置
CN112289302A (zh) * 2020-12-18 2021-01-29 北京声智科技有限公司 音频数据的合成方法、装置、计算机设备及可读存储介质
CN113014857A (zh) * 2021-02-25 2021-06-22 游密科技(深圳)有限公司 视频会议显示的控制方法、装置、电子设备及存储介质
CN113360742A (zh) * 2021-05-19 2021-09-07 维沃移动通信有限公司 推荐信息确定方法、装置及电子设备
WO2022017003A1 (zh) * 2020-07-20 2022-01-27 Oppo广东移动通信有限公司 语音传输控制方法、语音遥控器、终端设备以及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160148616A1 (en) * 2014-11-26 2016-05-26 Panasonic Intellectual Property Corporation Of America Method and apparatus for recognizing speech by lip reading
CN105550170A (zh) * 2015-12-14 2016-05-04 北京锐安科技有限公司 一种中文分词方法及装置
CN109637521A (zh) * 2018-10-29 2019-04-16 深圳壹账通智能科技有限公司 一种基于深度学习的唇语识别方法及装置
CN110853646A (zh) * 2019-11-20 2020-02-28 深圳前海微众银行股份有限公司 会议发言角色的区分方法、装置、设备及可读存储介质
WO2022017003A1 (zh) * 2020-07-20 2022-01-27 Oppo广东移动通信有限公司 语音传输控制方法、语音遥控器、终端设备以及存储介质
CN111933136A (zh) * 2020-08-18 2020-11-13 南京奥拓电子科技有限公司 一种辅助语音识别控制方法和装置
CN112289302A (zh) * 2020-12-18 2021-01-29 北京声智科技有限公司 音频数据的合成方法、装置、计算机设备及可读存储介质
CN113014857A (zh) * 2021-02-25 2021-06-22 游密科技(深圳)有限公司 视频会议显示的控制方法、装置、电子设备及存储介质
CN113360742A (zh) * 2021-05-19 2021-09-07 维沃移动通信有限公司 推荐信息确定方法、装置及电子设备

Also Published As

Publication number Publication date
CN114676282B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
Wu et al. Deep learning for video classification and captioning
KR102174595B1 (ko) 비제약형 매체에 있어서 얼굴을 식별하는 시스템 및 방법
US8605956B2 (en) Automatically mining person models of celebrities for visual search applications
CN108154136B (zh) 用于识别字迹的方法、装置及计算机可读介质
CN105512348A (zh) 用于处理视频和相关音频的方法和装置及检索方法和装置
WO2021031817A1 (zh) 情绪识别方法、装置、计算机装置及存储介质
WO2022105118A1 (zh) 基于图像的健康状态识别方法、装置、设备及存储介质
WO2021114936A1 (zh) 信息推荐方法、装置、电子设备及计算机可读存储介质
CN113033543B (zh) 曲形文本识别方法、装置、设备及介质
US20200034358A1 (en) Generating a reliable response to a query
US20240070395A1 (en) Utilizing sensor information to select a meaning of a word of a phrase
CN113205047A (zh) 药名识别方法、装置、计算机设备和存储介质
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
US20230359817A1 (en) Identifying utilization of intellectual property
CN109583423A (zh) 一种手写数字识别的方法、装置及相关组件
CN113435335A (zh) 微观表情识别方法、装置、电子设备及存储介质
US11386130B2 (en) Converting content from a first to a second aptitude level
CN114676282B (zh) 一种基于音视频数据的事件录入方法、装置及计算机设备
US20200175064A1 (en) Image processing utilizing an entigen construct
Daraee et al. Handwritten keyword spotting using deep neural networks and certainty prediction
Jyothsna et al. Face recognition automated system for visually impaired peoples using machine learning
US11288583B2 (en) Remedying defective knowledge of a knowledge database
US20220230075A1 (en) Curating knowledge of a knowledge database
US20230177268A1 (en) Interpreting meaning of content
US20220318213A1 (en) Curing impaired content utilizing a knowledge database of entigens

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant