CN116405635A - 一种基于边缘计算的多模态会议记录方法及系统 - Google Patents

一种基于边缘计算的多模态会议记录方法及系统 Download PDF

Info

Publication number
CN116405635A
CN116405635A CN202310643786.8A CN202310643786A CN116405635A CN 116405635 A CN116405635 A CN 116405635A CN 202310643786 A CN202310643786 A CN 202310643786A CN 116405635 A CN116405635 A CN 116405635A
Authority
CN
China
Prior art keywords
speaker
identity
data
lip movement
conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310643786.8A
Other languages
English (en)
Inventor
郭锐
李士宽
许志国
马晓红
张建成
陈纪旸
鹿全礼
任强
宁伟
祝天成
刘永泉
杨锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Center Information Technology Ltd By Share Ltd
Original Assignee
Shandong Center Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Center Information Technology Ltd By Share Ltd filed Critical Shandong Center Information Technology Ltd By Share Ltd
Priority to CN202310643786.8A priority Critical patent/CN116405635A/zh
Publication of CN116405635A publication Critical patent/CN116405635A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • H04N7/155Conference systems involving storage of or access to video conference sessions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/70Multimodal biometrics, e.g. combining information from different biometric modalities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0861Network architectures or network communication protocols for network security for authentication of entities using biometrical features, e.g. fingerprint, retina-scan
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于边缘计算的多模态会议记录方法及系统,涉及边缘计算技术领域。该方法包括:获取会议中说话人的实时视频数据和音频数据;将视频数据和音频数据传输到边缘计算设备的唇动识别模型中,利用唇动识别模型确定说话人的第一身份信息;将音频数据传输到边缘计算设备的语音识别模型中,利用语音识别模型确定说话人的第二身份信息;采用身份判定模型确定最终说话人身份;将音频数据按照说话人身份分别进行转译得到文本数据,形成会议记录。本发明在唇动识别、语音识别、文本转译过程中充分利用了边缘计算设备,将计算任务卸载到边缘设备,提高了运算能力,可以在多场景下实时识别对应人员身份并快速记录会议内容。

Description

一种基于边缘计算的多模态会议记录方法及系统
技术领域
本发明涉及边缘计算技术领域,尤其涉及一种基于边缘计算的多模态会议记录方法及系统。
背景技术
随着人工智能技术的不断发展,人脸识别、唇动识别、语音识别、文本转译等技术在人机交互中有了突飞猛进的进展,在会议人员身份识别、会议记录等场景中都有应用,但是单一模态识别难以满足多场景、多环境的会议人员身份识别及会议记录要求,多模态识别分析技术能让设备看清、听清,更能深入理解交流场景背后的各方表达的内容,减少会议中的错误记录。
然而,基于多模态识别分析技术的会议记录结合了多种人工智能处理技术,需要更加复杂的神经网络模型来支撑,在进行会议记录时要求人员身份定位要准确、会议内容要及时,需要大量的计算资源和高通信效率,当前的计算场景难以支撑。目前的终端计算能力有限,而多模态人员身份识别、会议记录设备中多模态计算模型的计算需要大量的资源消耗,因此目前的终端设备大多采用单模态处理,难以实现多模态身份识别、会议记录的要求。
发明内容
针对现有技术存在的不足,本发明的目的是提供一种基于边缘计算的多模态会议记录方法及系统,在唇动识别、语音识别、文本转译过程中充分利用了边缘计算设备,将计算任务卸载到边缘设备,提高了运算能力,可以在多场景下实时识别对应人员身份并快速记录会议内容。
为了实现上述目的,本发明是通过如下的技术方案来实现:
本发明第一方面提供了一种基于边缘计算的多模态会议记录方法,包括以下步骤:
获取会议中说话人的实时视频数据和音频数据;
将视频数据和音频数据传输到边缘计算设备的唇动识别模型中,利用唇动识别模型对视频数据中的唇动数据进行定位识别得到当前说话人的唇动特征,将当前说话人的唇动特征与预先构建的信息库中说话人的唇动特征进行比对,确定说话人的第一身份信息;
将音频数据传输到边缘计算设备的语音识别模型中,利用语音识别模型对音频数据进行转换得到当前说话人的音频特征,将当前说话人的音频特征与预先构建的信息库中说话人的语音特征进行比对,确定说话人的第二身份信息;
其中,预先构建的信息库中包含有会议说话人身份信息及关联的唇动特征、语音特征;
采用身份判定模型对第一身份信息和第二身份信息进行综合判定,确定最终说话人身份;
将音频数据利用边缘计算设备按照说话人身份分别进行转译得到文本数据,形成会议记录。
进一步的,唇动识别模型的构建过程为:
将已有训练样本中的视频数据按照时间排序提取唇动数据;
将唇动数据作为动态变化特征的最小训练单元;
将唇动数据进行说话人唇部动作的分解,按照分解数据得到连续帧点的唇部位置变化,作为静态瞬时特征的最小训练单元;
对动态变化特征和静态瞬时特征分别进行训练后再进行融合得到唇动识别模型。
进一步的,语音识别模型的构建过程为:
将已有训练样本中的音频数据转换为频谱信号;
利用小波变换去除频谱信号中的噪声信息;
利用去噪后的频谱信号中的频点能量确定不同人员的音色特征;
利用音色特征进行训练得到语音识别模型。
进一步的,所述身份判定模型将第一身份信息和第二身份信息通过决策层融合的加权值计算综合身份识别结果,确定最终说话人身份。
更进一步的,所述加权值根据第一身份信息和第二身份信息的决策占比进行自定义设置。
进一步的,将音频数据按照说话人身份分别进行转译得到文本数据的具体步骤为:
构建文本转译模型,根据文本转译模型将音频数据转化为数字向量;
从预设的转译表中查找与数字向量相映射的文字;对文字进行组合得到音频数据对应的文本数据。
更进一步的,根据文本转译模型将音频数据转化为数字向量的具体步骤为:
依据确定的说话人身份,将说话人身份的音频数据进行音频划分,得到连续采样值;
对连续采样值进行算术平均处理,得到所述音频数据对应的滤波值;
对所述滤波音频进行信号切割处理,得到音频段,并将所述音频段进行向量化处理,得到数字向量。
本发明第二方面提供了一种基于边缘计算的多模态会议记录系统,包括:
数据采集模块,被配置为将会议说话人身份信息及关联的唇动特征、语音特征信息进行注册,形成会议人员信息库;实时采集会议中说话人的视频数据和音频数据;
边缘计算模块,被配置为对数据进行计算和处理;所述边缘计算模块包括唇动识别模块、语音识别模块、身份判定模块和文本转译模块;
唇动识别模块,被配置为利用唇动识别模型对视频数据中的唇动数据进行定位识别得到当前说话人的唇动特征,将当前说话人的唇动特征与预先构建的信息库中说话人的唇动特征进行比对,确定说话人的第一身份信息;
语音识别模块,被配置利用语音识别模型对音频数据进行转换得到当前说话人的音频特征,将当前说话人的音频特征与预先构建的信息库中说话人的语音特征进行比对,确定说话人的第二身份信息;
其中,预先构建的信息库中包含有会议说话人身份信息及关联的唇动特征、语音特征;
身份判定模块,被配置为采用身份判定模型对第一身份信息和第二身份信息进行综合判定,确定最终说话人身份;
文本转译模块,被配置为将音频数据利用边缘计算设备按照说话人身份分别进行转译得到文本数据,形成会议记录。
进一步的,还包括网络传输模块,网络传输模块被配置为将视频数据、音频数据利用局域网络传输到边缘计算模块。
进一步的,唇动识别模块和语音识别模块在识别过程中,将识别任务卸载到边缘计算设备中,生成任务卸载的相应指令,根据指令在对应的边缘计算模块执行相应的识别任务。
以上一个或多个技术方案存在以下有益效果:
本发明公开了一种基于边缘计算的多模态会议记录方法及系统,将视频数据、音频数据利用边缘计算设备的唇动识别模型和语音识别模型,对说话人身份进行多模态综合判定,保障了说话人身份识别的准确性。确定说话人身份之后,利用说话人的音频数据通过边缘计算设备的文本转译模型转译成不同说话人对应的文本数据,自动形成会议记录。上述唇动识别、语音识别、文本转译过程处理充分利用了边缘计算设备,将计算任务卸载到边缘设备,提高了运算能力,提升了响应时间,同时自动生成会议记录,提高了会议记录的效率及会议记录内容的准确性,实现了多模态技术下的实时会议记录。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例一中基于边缘计算的多模态会议记录方法的流程图;
图2为本发明实施例一中多模态身份识别流程示意图;
图3为本发明实施例二中基于边缘计算的多模态会议记录系统的结构示意图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
应当说明的是,本发明实施例中,涉及到会议视频和音频及会议人员身份等相关的数据,当本发明以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关法律法规和标准。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合;
实施例一:
本发明实施例一提供了一种基于边缘计算的多模态会议记录方法,如图1所示,包括以下步骤:
步骤1,将会议说话人身份信息及关联的唇动特征、语音特征信息进行注册,形成会议人员信息库;实时采集会议中说话人的视频数据和音频数据,将视频数据、音频数据通过网络传输模块传输至边缘计算模块。其中,边缘计算模块中部署有唇动识别模型、语音识别模型、身份判定模型和文本转译模型。
步骤2,将视频数据和音频数据传输到边缘计算设备的唇动识别模型中,利用唇动识别模型对视频数据中的唇动数据进行定位识别得到当前说话人的唇动特征,将当前说话人的唇动特征与预先构建的信息库中说话人的唇动特征进行比对,确定说话人的第一身份信息I1(初始值设为0)。
步骤3,将音频数据传输到边缘计算设备的语音识别模型中,利用语音识别模型对音频数据进行转换得到当前说话人的音频特征,将当前说话人的音频特征与预先构建的信息库中说话人的语音特征进行比对,确定说话人的第二身份信息I2;
步骤4,采用身份判定模型对第一身份信息I1和第二身份信息I2进行综合判定,确定最终说话人身份I;
步骤5,根据判定说话人的身份,采用文本转译模型将音频数据利用边缘计算设备按照说话人身份分别进行转译得到文本数据,自动形成所需的会议记录,并将会议记录存储只存储设备中。
步骤1中,将会议说话人身份信息及关联的唇动特征、语音特征信息进行注册,形成会议人员信息库;实时采集会议中说话人的视频数据和音频数据。
具体的,利用音、视频采集设备对视频数据、音频数据进行采集,进行说话人基本信息的录入,说话人基本信息包含姓名等信息,将说话人的身份信息及关联的唇动特征、语音特征信息存储在采集设备中,形成会议人员的信息库。
在一种具体的实施方式中,将视频数据进行序列帧的拆分,根据唇部图像的时序变化,对唇部关键点进行自动锁定,利用关键点信息提取唇动特征信息;
将音频数据进行音频拆分,得到对应的频谱信号,利用频谱信号中的频点能量确定语音特征信息。
本实施例中,视频数据、音频数据均不上传到云端,利用网络传输模块在局域网内传输到边缘计算模块的边缘计算设备中进行处理和计算。
由于各种人工智能模型需求数据量很大,如果利用云计算资源,会造成巨大的网络传输数据的压力,而且计算时效性比较差。因此,将视频数据、音频数据的计算放在边缘计算设备中,不在云端处理,降低网络传输的压力,通过靠近采集设备的边缘侧进行数据的处理,保证数据处理的时效性。如图2所示,本实施例将采集的说话人的视频数据、音频数据通过网络传输模块推送至边缘计算模块中,利用其中的唇动识别模型和语音识别模型分别进行身份识别,并将唇动识别模型和语音识别模型的身份识别结果通过身份判定模型进行综合判定,得到最终的身份识别结果。
步骤2中,根据边缘计算模块接收的视频数据中的唇部数据,确定唇动识别模型的识别任务,生成任务卸载的唇动识别指令,根据唇动识别指令,在对应的边缘计算模块执行唇动识别模型,唇动识别模型使用ResNet-34网络进行特征提取,利用全连接层实现说话人身份的识别任务,得到所述视频数据中的第一身份信息I1。
在一种具体的实施方式中,唇动识别模型的构建过程为:
将已有训练样本中的视频数据按照时间排序提取唇动数据;
将唇动数据作为动态变化特征的最小训练单元;
将唇动数据进行说话人唇部动作的分解,按照分解数据得到连续帧点的唇部位置变化,作为静态瞬时特征的最小训练单元;
对动态变化特征和静态瞬时特征分别进行训练后再进行融合得到唇动识别模型。
在一种具体的实施方式中,使用两个卷积网络分别提取唇部的静态瞬时和动态变化特征。使用有预训练参数的ResNet-34网络的二到五层网络融合并分析唇动的静态和动态特征,再沿通道融合,通过卷积网络和三个全连接层得到唇动识别模型。
步骤3中,根据边缘计算模块接收的音频数据,确定所述语音识别模型的识别任务,生成任务卸载的语音识别指令,根据语音识别指令,在对应的边缘计算模块执行语音识别模型,并通过语音识别模型识别说话人的音频信息,确定第二身份信息I2。
在一种具体的实施方式中,语音识别模型的构建过程为:
将已有训练样本中的音频数据转换为频谱信号;
利用小波变换去除频谱信号中的噪声信息;
利用去噪后的频谱信号中的频点能量确定不同人员的音色特征;
利用音色特征进行训练得到语音识别模型。
步骤4中,身份判定模型将第一身份信息I1和第二身份信息I2通过决策层融合的加权值计算综合身份识别结果,确定最终说话人身份I。其加权值可以根据第一身份信息和第二身份信息的决策占比进行自定义设置。
在一种具体的实施方式中,I=n*I1+(1-n)*I2,
其中,n<(0,1]为系统设置的加权值,当且仅当I2=0时,n=1。
步骤5中,根据所述边缘计算模块中的文本转译信息,确定文本转译模型在边缘计算模块的转译任务,生成任务卸载的转译指令,根据转译指令,在对应的边缘计算模块执行文本转译模型,并通过文本转译模型,将音频数据按照说话人身份分别进行转译得到文本数据。
在一种具体的实施方式中,将音频数据按照说话人身份分别进行转译得到文本数据的具体步骤为:
构建文本转译模型,利用文本转译模型依据确定的说话人身份,将说话人身份的音频数据进行音频划分,得到连续采样值;
对连续采样值进行算术平均处理,得到所述音频数据对应的滤波值;
对所述滤波音频进行信号切割处理,得到音频段,并将所述音频段进行向量化处理,得到数字向量;
从预设的转译表中查找与数字向量相映射的文字;对文字进行组合得到音频数据对应的文本数据。
实施例二:
本发明实施例二提供了一种基于边缘计算的多模态会议记录系统,如图3所示,包括:数据采集模块、网络传输模块、边缘计算模块和存储模块。数据采集模块用于进行数据采集和身份注册,将采集的数据通过网络传输模块传输至边缘计算模块。边缘计算模块,用于对数据进行计算和处理;边缘计算模块包括唇动识别模块、语音识别模块、身份判定模块、文本转译模块和语义识别模块。通过唇动识别模块和语音识别模块对说话人身份分别进行识别,并通过身份判定模块对两个模块的识别结果进行综合判定。文本转译模块根据确认的说话人身份进行分别转译,通过语义识别模块生成会议记录,并将会议记录储存至存储模块的存储设备中。
在一种具体的实施方式中,数据采集模块,被配置为将会议说话人身份信息及关联的唇动特征、语音特征信息进行注册,形成会议人员信息库;实时采集会议中说话人的视频数据和音频数据;
网络传输模块,网络传输模块被配置为将视频数据、音频数据利用局域网络传输到边缘计算模块。
唇动识别模块,被配置为利用唇动识别模型对视频数据中的唇动数据进行定位识别得到当前说话人的唇动特征,将当前说话人的唇动特征与预先构建的信息库中说话人的唇动特征进行比对,确定说话人的第一身份信息。
语音识别模块,被配置利用语音识别模型对音频数据进行转换得到当前说话人的音频特征,将当前说话人的音频特征与预先构建的信息库中说话人的语音特征进行比对,确定说话人的第二身份信息。
其中,预先构建的信息库中包含有会议说话人身份信息及关联的唇动特征、语音特征;
在一种具体的实施方式中,唇动识别模块和语音识别模块在识别过程中,将识别任务卸载到边缘计算设备中,生成任务卸载的相应指令,根据指令在对应的边缘计算模块执行相应的识别任务。
具体的,将唇动识别模型的识别任务卸载到边缘计算设备中,生成任务卸载的唇动识别指令,根据唇动识别指令,在对应的边缘计算模块执行识别任务,得到视频数据中的第一身份信息I1。
将语音识别模型的识别任务卸载到边缘计算设备中,生成任务卸载的语音识别指令,根据语音识别指令,在对应的边缘计算模块执行识别任务,得到音频数据中的第二身份信息I2。
身份判定模块,被配置为采用身份判定模型对第一身份信息和第二身份信息进行综合判定,确定最终说话人身份。
文本转译模块,被配置为将音频数据利用边缘计算设备按照说话人身份分别进行转译得到文本数据,形成会议记录。
在一种具体的实施方式中,根据文本转译模型在所述边缘计算模块的转译任务,生成任务卸载的转译指令,根据转译指令,在对应的边缘计算模块执行文本转译模型,并通过文本转译模型,将确定说话人身份的音频数据转译为文本数据;
存储模块包括存储设备,被配置为存储边缘计算模块处理得到的会议记录。
以上实施例二中涉及的各步骤与方法实施例一相对应,具体实施方式可参见实施例一的相关说明部分。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种基于边缘计算的多模态会议记录方法,其特征在于,包括以下步骤:
获取会议中说话人的实时视频数据和音频数据;
将视频数据和音频数据传输到边缘计算设备的唇动识别模型中,利用唇动识别模型对视频数据中的唇动数据进行定位识别得到当前说话人的唇动特征,将当前说话人的唇动特征与预先构建的信息库中说话人的唇动特征进行比对,确定说话人的第一身份信息;
将音频数据传输到边缘计算设备的语音识别模型中,利用语音识别模型对音频数据进行转换得到当前说话人的音频特征,将当前说话人的音频特征与预先构建的信息库中说话人的语音特征进行比对,确定说话人的第二身份信息;
其中,预先构建的信息库中包含有会议说话人身份信息及关联的唇动特征、语音特征;
采用身份判定模型对第一身份信息和第二身份信息进行综合判定,确定最终说话人身份;
将音频数据利用边缘计算设备按照说话人身份分别进行转译得到文本数据,形成会议记录。
2.如权利要求1所述的基于边缘计算的多模态会议记录方法,其特征在于,
唇动识别模型的构建过程为:
将已有训练样本中的视频数据按照时间排序提取唇动数据;
将唇动数据作为动态变化特征的最小训练单元;
将唇动数据进行说话人唇部动作的分解,按照分解数据得到连续帧点的唇部位置变化,作为静态瞬时特征的最小训练单元;
对动态变化特征和静态瞬时特征分别进行训练后再进行融合得到唇动识别模型。
3.如权利要求1所述的基于边缘计算的多模态会议记录方法,其特征在于,语音识别模型的构建过程为:
将已有训练样本中的音频数据转换为频谱信号;
利用小波变换去除频谱信号中的噪声信息;
利用去噪后的频谱信号中的频点能量确定不同人员的音色特征;
利用音色特征进行训练得到语音识别模型。
4.如权利要求1所述的基于边缘计算的多模态会议记录方法,其特征在于,所述身份判定模型将第一身份信息和第二身份信息通过决策层融合的加权值计算综合身份识别结果,确定最终说话人身份。
5.如权利要求4所述的基于边缘计算的多模态会议记录方法,其特征在于,所述加权值根据第一身份信息和第二身份信息的决策占比进行自定义设置。
6.如权利要求1所述的基于边缘计算的多模态会议记录方法,其特征在于,将音频数据按照说话人身份分别进行转译得到文本数据的具体步骤为:
构建文本转译模型,根据文本转译模型将音频数据转化为数字向量;
从预设的转译表中查找与数字向量相映射的文字;对文字进行组合得到音频数据对应的文本数据。
7.如权利要求6所述的基于边缘计算的多模态会议记录方法,其特征在于,根据文本转译模型将音频数据转化为数字向量的具体步骤为:
依据确定的说话人身份,将说话人身份的音频数据进行音频划分,得到连续采样值;
对连续采样值进行算术平均处理,得到所述音频数据对应的滤波值;
对所述滤波音频进行信号切割处理,得到音频段,并将所述音频段进行向量化处理,得到数字向量。
8.一种基于边缘计算的多模态会议记录系统,其特征在于,包括:
数据采集模块,被配置为将会议说话人身份信息及关联的唇动特征、语音特征信息进行注册,形成会议人员信息库;实时采集会议中说话人的视频数据和音频数据;
边缘计算模块,被配置为对数据进行计算和处理;所述边缘计算模块包括唇动识别模块、语音识别模块、身份判定模块和文本转译模块;
唇动识别模块,被配置为利用唇动识别模型对视频数据中的唇动数据进行定位识别得到当前说话人的唇动特征,将当前说话人的唇动特征与预先构建的信息库中说话人的唇动特征进行比对,确定说话人的第一身份信息;
语音识别模块,被配置利用语音识别模型对音频数据进行转换得到当前说话人的音频特征,将当前说话人的音频特征与预先构建的信息库中说话人的语音特征进行比对,确定说话人的第二身份信息;
身份判定模块,被配置为采用身份判定模型对第一身份信息和第二身份信息进行综合判定,确定最终说话人身份;
文本转译模块,被配置为将音频数据利用边缘计算设备按照说话人身份分别进行转译得到文本数据,形成会议记录。
9.如权利要求8所述的基于边缘计算的多模态会议记录系统,其特征在于,还包括网络传输模块,网络传输模块被配置为将视频数据、音频数据利用局域网络传输到边缘计算模块。
10.如权利要求8所述的基于边缘计算的多模态会议记录系统,其特征在于,唇动识别模块和语音识别模块在识别过程中,将识别任务卸载到边缘计算设备中,生成任务卸载的相应指令,根据指令在对应的边缘计算模块执行相应的识别任务。
CN202310643786.8A 2023-06-02 2023-06-02 一种基于边缘计算的多模态会议记录方法及系统 Pending CN116405635A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310643786.8A CN116405635A (zh) 2023-06-02 2023-06-02 一种基于边缘计算的多模态会议记录方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310643786.8A CN116405635A (zh) 2023-06-02 2023-06-02 一种基于边缘计算的多模态会议记录方法及系统

Publications (1)

Publication Number Publication Date
CN116405635A true CN116405635A (zh) 2023-07-07

Family

ID=87008980

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310643786.8A Pending CN116405635A (zh) 2023-06-02 2023-06-02 一种基于边缘计算的多模态会议记录方法及系统

Country Status (1)

Country Link
CN (1) CN116405635A (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075868A (zh) * 2006-05-19 2007-11-21 华为技术有限公司 一种远程身份认证的系统、终端、服务器和方法
CN102045162A (zh) * 2009-10-16 2011-05-04 电子科技大学 一种三模态生物特征持证人身份鉴别系统及其控制方法
CN103634118A (zh) * 2013-12-12 2014-03-12 山东神思电子技术股份有限公司 基于证卡和复合生物特征识别的生存认证方法
CN104376250A (zh) * 2014-12-03 2015-02-25 优化科技(苏州)有限公司 基于音型像特征的真人活体身份验证方法
CN106295501A (zh) * 2016-07-22 2017-01-04 中国科学院自动化研究所 基于唇部运动的深度学习身份识别方法
CN107633205A (zh) * 2017-08-17 2018-01-26 平安科技(深圳)有限公司 嘴唇动作分析方法、装置及存储介质
CN111665930A (zh) * 2019-03-05 2020-09-15 北京入思技术有限公司 一种融合云和边缘计算的多模态情绪识别方法及系统
CN112001215A (zh) * 2020-05-25 2020-11-27 天津大学 一种基于三维唇动的文本无关说话人身份识别方法
CN112201253A (zh) * 2020-11-09 2021-01-08 平安普惠企业管理有限公司 文字标记方法、装置、电子设备及计算机可读存储介质
CN113434663A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 基于边缘计算的会议纪要生成方法及相关设备
CN113920560A (zh) * 2021-09-17 2022-01-11 科大讯飞股份有限公司 多模态说话人身份识别方法、装置和设备
CN114097027A (zh) * 2019-04-30 2022-02-25 微软技术许可有限责任公司 讲话者归属的记录稿生成
CN115443466A (zh) * 2020-06-23 2022-12-06 阿里巴巴集团控股有限公司 边缘处理数据去识别
CN115713939A (zh) * 2023-01-06 2023-02-24 阿里巴巴达摩院(杭州)科技有限公司 语音识别方法、装置及电子设备
CN115937726A (zh) * 2021-05-31 2023-04-07 华为云计算技术有限公司 说话人检测方法、装置、设备及计算机可读存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101075868A (zh) * 2006-05-19 2007-11-21 华为技术有限公司 一种远程身份认证的系统、终端、服务器和方法
CN102045162A (zh) * 2009-10-16 2011-05-04 电子科技大学 一种三模态生物特征持证人身份鉴别系统及其控制方法
CN103634118A (zh) * 2013-12-12 2014-03-12 山东神思电子技术股份有限公司 基于证卡和复合生物特征识别的生存认证方法
CN104376250A (zh) * 2014-12-03 2015-02-25 优化科技(苏州)有限公司 基于音型像特征的真人活体身份验证方法
CN106295501A (zh) * 2016-07-22 2017-01-04 中国科学院自动化研究所 基于唇部运动的深度学习身份识别方法
CN107633205A (zh) * 2017-08-17 2018-01-26 平安科技(深圳)有限公司 嘴唇动作分析方法、装置及存储介质
CN111665930A (zh) * 2019-03-05 2020-09-15 北京入思技术有限公司 一种融合云和边缘计算的多模态情绪识别方法及系统
CN114097027A (zh) * 2019-04-30 2022-02-25 微软技术许可有限责任公司 讲话者归属的记录稿生成
CN112001215A (zh) * 2020-05-25 2020-11-27 天津大学 一种基于三维唇动的文本无关说话人身份识别方法
CN115443466A (zh) * 2020-06-23 2022-12-06 阿里巴巴集团控股有限公司 边缘处理数据去识别
CN112201253A (zh) * 2020-11-09 2021-01-08 平安普惠企业管理有限公司 文字标记方法、装置、电子设备及计算机可读存储介质
CN115937726A (zh) * 2021-05-31 2023-04-07 华为云计算技术有限公司 说话人检测方法、装置、设备及计算机可读存储介质
CN113434663A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 基于边缘计算的会议纪要生成方法及相关设备
CN113920560A (zh) * 2021-09-17 2022-01-11 科大讯飞股份有限公司 多模态说话人身份识别方法、装置和设备
CN115713939A (zh) * 2023-01-06 2023-02-24 阿里巴巴达摩院(杭州)科技有限公司 语音识别方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN108766440B (zh) 说话人分离模型训练方法、两说话人分离方法及相关设备
US9542938B2 (en) Scene recognition method, device and mobile terminal based on ambient sound
CN110837842A (zh) 一种视频质量评估的方法、模型训练的方法及装置
CN112102846B (zh) 音频处理方法、装置、电子设备以及存储介质
CN108650202B (zh) 一种信号调制模式识别方法及装置
CN109360565A (zh) 一种通过建立资源库提高语音识别精度的方法
CN114822578A (zh) 语音降噪方法、装置、设备及存储介质
CN112420079B (zh) 语音端点检测方法和装置、存储介质及电子设备
CN116405635A (zh) 一种基于边缘计算的多模态会议记录方法及系统
CN114333896A (zh) 语音分离方法、电子设备、芯片及计算机可读存储介质
CN101950564A (zh) 一种远程数字化语音采集分析识别系统
CN115798459B (zh) 音频处理方法、装置、存储介质及电子设备
Zhang et al. Research on spectrum sensing system based on composite neural network
CN116959467A (zh) 一种融合噪声场景的通信增强方法、系统及存储介质
CN107180629B (zh) 一种语音采集识别方法与系统
CN112596894B (zh) 一种基于边缘计算的追踪方法及装置
CN115098633A (zh) 一种智能客服情感分析方法和系统、电子设备、存储介质
CN114283791A (zh) 一种基于高维声学特征的语音识别方法及模型训练方法
CN113571063A (zh) 语音信号的识别方法、装置、电子设备及存储介质
CN113707149A (zh) 音频处理方法和装置
CN111898452A (zh) 一种视频监控联网系统
CN115472152B (zh) 语音端点检测方法、装置、计算机设备及可读存储介质
CN114420109B (zh) 语音性别联合识别方法、装置、电子设备及存储介质
CN116192815B (zh) 一种工会会员在线直播与语音互动职代会管理方法
CN111914777B (zh) 一种跨模态识别机器人指令的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20230707

RJ01 Rejection of invention patent application after publication