CN113129898B - 一种机器辅助的会议记录系统及方法 - Google Patents

一种机器辅助的会议记录系统及方法 Download PDF

Info

Publication number
CN113129898B
CN113129898B CN202110378334.2A CN202110378334A CN113129898B CN 113129898 B CN113129898 B CN 113129898B CN 202110378334 A CN202110378334 A CN 202110378334A CN 113129898 B CN113129898 B CN 113129898B
Authority
CN
China
Prior art keywords
recognition module
frame
audio data
module
speaker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110378334.2A
Other languages
English (en)
Other versions
CN113129898A (zh
Inventor
田金钊
程帆
符鸿飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202110378334.2A priority Critical patent/CN113129898B/zh
Publication of CN113129898A publication Critical patent/CN113129898A/zh
Application granted granted Critical
Publication of CN113129898B publication Critical patent/CN113129898B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明涉及一种机器辅助的会议记录系统,包括:麦克风收音阵列:用以实时拾取会议的音频数据;音频预处理模块:对录入的音频数据进行分割和预处理,并且将预处理过的音频数据分别送入声纹识别模块以及语音处理系统模块中;声纹识别模块:用以判断音频数据中每句话所属说话人身份信息,并且为每句话匹配说话人身份标签;语音识别模块:用以将音频数据转换为文字信息;综合处理模块:用以组合声纹识别模块与语音识别模块的输出内容,并发送给终端界面;可实时交互处理的终端界面:用以实时进行操作处理,显示会议记录信息,依据机器生成的内容,实时进行纠错改正。与现有技术相比,本发明实时检错、自动生成,避免二次审查造成时间浪费。

Description

一种机器辅助的会议记录系统及方法
技术领域
本发明涉及人工智能领域,尤其是涉及一种机器辅助的会议记录系统及方法。
背景技术
在一些企业会议和法庭中常常需要用文字的方式记录下每个人所陈述的话语,这部分的工作往往需要人工进行记录,但是人的注意力是有限的,使用人工的方式往往会出现记录不全,错记漏记的情况。所以可能常常需要再进行人工返工和审核,但在二次修改时可能需要对录像和录音重新定位搜寻,反复确认,才能准确的记录,在此期间耗费大量的时间和精力。
为了解决人工进行会议记录会造成的错误,以及减少二次返工所造成的时间消耗问题,需要一种机器辅助的会议记录系统及方法。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种机器辅助的会议记录系统及方法。
本发明的目的可以通过以下技术方案来实现:
一种机器辅助的会议记录系统,该系统包括:
麦克风收音阵列:用以实时拾取会议的音频数据;
音频预处理模块:对录入的音频数据进行分割和预处理,并且将预处理过的音频数据分别送入声纹识别模块以及语音处理系统模块中;
声纹识别模块:用以判断音频数据中每句话所属说话人身份信息,并且为每句话匹配说话人身份标签;
语音识别模块:用以将音频数据转换为文字信息;
综合处理模块:用以组合声纹识别模块与语音识别模块的输出内容,并发送给终端界面;
可实时交互处理的终端界面:用以实时进行操作处理,显示会议记录信息,依据机器生成的内容,实时进行纠错改正。
所述的声纹识别模块包括依次连接的帧级特征提取器、注意力统计池化层和话语级别特征提取器,所述的帧级特征提取器用以提取分为多帧后的音频数据的帧级特征,注意力统计池化层用以根据帧级特征输出帧级特征的权重平均值和权重标准差,所述的话语级别特征提取器将帧级特征权重平均值作为话语级特征并输入,生成表示说话人身份的数值向量。
所述的帧级特征提取器和话语级特征处理器采用基于CNN、LSTM或Transformer结构的深度神经网络模型。
所述的语音识别模块包括:
编码器网络:由多个块堆叠形成,每个块依次包含layer norm、multi-headattention、feed-forward network和ResNet connection,所述的feed-forward network由多层全连接串联而成,其激活函数为ReLU,所述的ResNet connection用于深度提取特征信息;
预测网络:除multi-head attention使用特定的掩码外,在结构上与编码器相同;
联合网络:接收编码器网络和预测网络输出的线性组合,由多层全连接层组成,其中,最后一层为softmax层,输出概率分布,根据概率分布生成相应的文字。
所述的语音识别模块中的网采用的Loss函数为标签序列所有对齐的概率和,则有:
Figure BDA0003011718570000021
其中,loss为损失,p(yi|xi)为第i个样本的标签序列对应的所有可能对齐的概率和,α(Ti,Ui)为采用前向算法计算得到的对齐路径的概率和,Ti表示时间,Ui表示状态。
所述的终端界面包括:
说话人管理组件:用以实时标注说话人的身份标签,替换临时生成的说话人身份标签;
文字操作组件:用以实时修改根据语音自动生成的文字;
导出模块:依据选定的保存格式,将会议记录进行导出存档。
一种机器辅助的会议记录方法,包括以下步骤:
1)通过麦克风收音阵列实时拾取会议的音频数据;
2)通过音频预处理模块对录入的音频数据进行分割和预处理,并且将预处理过的音频数据分别送入声纹识别模块以及语音处理系统模块中;
3)通过声纹识别模块判断音频数据中每句话所属说话人身份信息,并且为每句话匹配说话人身份标签;
4)通过语音识别模块将音频数据转换为文字信息;
5)通过综合处理模块组合声纹识别模块与语音识别模块的输出内容,并发送给终端界面;
6)在终端界面实时显示会议记录信息,依据机器生成的内容,进行纠错改正。
所述的步骤2)具体包括以下步骤:
21)将音频分成若干帧,利用帧级特征提取器提取不同的帧级特征;
22)将帧级特征输入注意力统计池化层,输出帧级特征的权重平均值以及权重标准差;
23)将帧级特征权重平均值作为话语级特征,输入话语级别特征提取器中,生成表示说话人身份的数值向量。
所述的步骤5)具体包括以下步骤:
51)控制音频输入预处理模块,划分句子逻辑;
52)接收声纹识别模块以及语音处理模块的输出,判断句子所属说话人标签;
53)生成文字信息,输出给用户逻辑界面;
54)截取语音片段,使得每句话均有相对应的语音片段;
55)接收修改反馈信息,修改文字逻辑输出;
56)依据选定要求,生成存档信息。
所述的步骤54)具体为:
依据声纹识别模块输出的说话人身份标识信息,在身份发生转变的时刻,记录音频起始时间和结束时间,在进行查询时,依据已记录的信息,输出起始时间到结束时间的音频部分。
与现有技术相比,本发明具有以下优点:
一、该机器辅助会议记录方法可以通过拾取的音频,通过声纹识别和语音识别自动化进行说话人识别与文本生成,并通过交互界面实时进行检错修改,避免了二次审查所造成的时间资源的浪费。
二、声纹识别模块无需提前录入所有说话人信息即可使用,在生成数值向量之后,将该数值向量与已保存的身份信息对比,若身份信息不在库内,则分配给一个临时身份信息,该身份信息对应了一个数值向量,并且该临时身份信息可替换为交互终端界面接受到的身份信息输入,转变成为固定身份标识。
附图说明
图1为本发明的流程图。
图2为本发明的系统结构图。
具体实施方式
为了使本领域的人员更容易的理解本发明中的技术方案,下面将结合本发明的实施例以及附图说明,对本发明实施例中的技术方案进行详细,完整的描述。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。
实施例
如图1和2所示,本发明提供一种机器辅助的会议记录系统及方法,该系统包括:
一个麦克风收音阵列装置:用以实时拾取音频数据;
音频预处理模块:处理录入的音频数据,该模块将音频数据逐片段的进行分割,然后进行数据预处理,最后将预处理过的音频数据分别送入声纹识别模块以及语音处理系统模块中;
声纹识别模块:用以判断音频数据中每句话所属说话人身份信息,并且为每句话匹配说话人身份标签;
语音识别模块:实现将音频数据转换为文字信息;
综合处理模块:用以组合声纹识别模块与语音识别模块的输出内容,并呈现给交互界面;
一个可实时交互处理终端界面:用以实时进行操作处理,该界面显示会议记录信息,可依据机器生成的内容,实时进行纠错改正,方便,在审查之后可以导出文件。
数据预处理的方式主要为预加重、分帧和加窗,其中,预加重是使用数据滤波器人为的对采集语音信号的高频部分进行提升;分帧是依据语音信号的短时不变性,将一段长语音进行分成若干段,每段称为帧,帧的长度一般是10ms,便于分析每一帧语音的特征参数;加窗是为了对抽样附近的语音波形加以强调,对其余部分进行减弱,以突出具有特征的部分。这些操作的目的都是为了消除由于人类器官发声,或者设备采集所带来的声音的混叠、高频等问题,使语音处理后的信号更加均匀,平滑。
上述的声纹识别模块的数据处理过程包括:
21)将音频分成若干帧,利用帧级特征提取器提取不同的帧的特征;
22)帧级特征进入注意力统计池化层,输出帧级特征的权重平均值以及权重标准差;
23)将这些帧级特征权重平均值作为话语级特征,输入到话语级别特征提取器中,最终生成表示说话人身份的数值向量。
声纹识别模块不需要提前录入所有说话人信息才能够使用,在模型生成的数值向量之后,将该数值向量与已保存的身份信息对比,若身份信息不在库内,则将分配给一个临时身份信息,该身份信息对应了一个数值向量,并且该临时身份信息可替换为交互终端界面接受到的身份信息输入,转变成为固定身份标识。
对于帧级特征提取器和话语级特征处理器,本例中可以采用基于CNN、LSTM或者Transformer结构的深度神经网络模型,可用于端到端的提取出音频数据的特征。
上述语音识别模块的内部结构包括:
31)编码器网络,由多个块堆叠而成,每个块依次包含layer norm、multi-headattention、feed-forward network和ResNet connection,feed-forward network由多层全连接串联而成,激活函数为ReLU,ResNet connection深度提取特征信息。
32)预测网络,结构与编码器类似,不过attention使用特定的掩码,使其只能利用前面的信息。
33)联合网络,接受编码器网络和预测网络的输出的线性组合,由多层全连接层组成,其中最后一层为softmax层,输出概率分布。
语音识别模块网络所使用的Loss函数,是标签序列所有对齐的概率和:
Figure BDA0003011718570000051
其中,p(yi|xi)代表第i个样本的标签序列对应的所有可能对齐的概率和;α(Ti,Ui)是采用前向算法计算得到的对齐路径的概率和,前向算法在每个时间步上对路径进行合并并更新累计概率变量α(t,u),在实现高效概率计算过程中,α(t,u)表示为在时间t,经过状态u的所有路径的概率和。
上述综合处理模块的主要功能通过以下步骤实现:
41)控制音频输入进预处理模块,划分句子逻辑。
42)接受声纹识别模块以及语音处理模块的输出,判断句子所属说话人标签。
43)生成文字信息,输出给用户逻辑界面。
44)截取语音片段,使每句话均有相对应的语音片段,便于查找。
45)接受修改反馈信息,改善文字逻辑输出。
46)依据选定要求,生成存档信息。
在步骤44)中,具体实现方法为:
依据声纹识别模块所输出的说话人身份标识信息,在身份发生转变的时刻,记录音频起始时间和结束时间,在进行查询时,依据已记录的信息,输出起始时间到结束时间的音频部分。
上述终端界面主要包括以下部分:
51)说话人管理组件,可实时标注说话人的身份标签,替换临时生成的说话人身份标签。
52)文字操作组件,可实时修改根据语音自动生成的文字。
53)导出模块,依据选定的保存格式,将会议记录进行导出存档。
终端界面的呈现方式,可以是软件,也可以是硬件。对于软件的部分,需要配合必要的硬件进行使用,具体包括计算机,麦克风阵列,语音输出装置等。对于硬件部分,可设置专用的嵌入式集成设备,设备至少应该具有显示器,麦克风阵列,处理器相关装置,输出装置等。
以上所述的实施例,只是本发明的实施例中的一种。本领域技术人员应当理解,本公开所涉及的发明范围,并不限于上述技术特征的特征组合而成的技术方案。

Claims (2)

1.一种机器辅助的会议记录系统,其特征在于,该系统包括:
麦克风收音阵列:用以实时拾取会议的音频数据;
音频预处理模块:对录入的音频数据进行分割和预处理,并且将预处理过的音频数据分别送入声纹识别模块以及语音处理系统模块中;
声纹识别模块:用以判断音频数据中每句话所属说话人身份信息,并且为每句话匹配说话人身份标签;
语音识别模块:用以将音频数据转换为文字信息;
综合处理模块:用以组合声纹识别模块与语音识别模块的输出内容,并发送给终端界面;
可实时交互处理的终端界面:用以实时进行操作处理,显示会议记录信息,依据机器生成的内容,实时进行纠错改正;
所述的声纹识别模块包括依次连接的帧级特征提取器、注意力统计池化层和话语级别特征提取器,所述的帧级特征提取器用以提取分为多帧后的音频数据的帧级特征,注意力统计池化层用以根据帧级特征输出帧级特征的权重平均值和权重标准差,所述的话语级别特征提取器将帧级特征权重平均值作为话语级特征并输入,生成表示说话人身份的数值向量;
所述的帧级特征提取器和话语级特征处理器采用基于CNN、LSTM或Transformer结构的深度神经网络模型;
所述的语音识别模块包括:
编码器网络:由多个块堆叠形成,每个块依次包含layer norm、multi-headattention、feed-forward network和ResNet connection,所述的feed-forward network由多层全连接串联而成,其激活函数为ReLU,所述的ResNet connection用于深度提取特征信息;
预测网络:除multi-head attention使用特定的掩码外,在结构上与编码器相同;
联合网络:接收编码器网络和预测网络输出的线性组合,由多层全连接层组成,其中,最后一层为softmax层,输出概率分布,根据概率分布生成相应的文字;
所述的语音识别模块中的网络采用的Loss函数为标签序列所有对齐的概率和,则有:
Figure QLYQS_1
其中,loss为损失P(yi|xi)为第i个样本的标签序列对应的所有可能对齐的概率和,α(Ti,Ui)为采用前向算法计算得到的对齐路径的概率和,Ti表示时间,Ui表示状态;
所述的终端界面包括:
说话人管理组件:用以实时标注说话人的身份标签,替换临时生成的说话人身份标签;
文字操作组件:用以实时修改根据语音自动生成的文字;
导出模块:依据选定的保存格式,将会议记录进行导出存档。
2.一种机器辅助的会议记录方法,其特征在于,基于如权利要求1所述的机器辅助的会议记录系统实现,所述方法包括以下步骤:
1)通过麦克风收音阵列实时拾取会议的音频数据;
2)通过音频预处理模块对录入的音频数据进行分割和预处理,并且将预处理过的音频数据分别送入声纹识别模块以及语音处理系统模块中;
3)通过声纹识别模块判断音频数据中每句话所属说话人身份信息,并且为每句话匹配说话人身份标签;
4)通过语音识别模块将音频数据转换为文字信息;
5)通过综合处理模块组合声纹识别模块与语音识别模块的输出内容,并发送给终端界面;
6)在终端界面实时显示会议记录信息,依据机器生成的内容,进行纠错改正;
所述的声纹识别模块包括依次连接的帧级特征提取器、注意力统计池化层和话语级别特征提取器,所述的帧级特征提取器用以提取分为多帧后的音频数据的帧级特征,注意力统计池化层用以根据帧级特征输出帧级特征的权重平均值和权重标准差,所述的话语级别特征提取器将帧级特征权重平均值作为话语级特征并输入,生成表示说话人身份的数值向量;
所述的帧级特征提取器和话语级特征处理器采用基于CNN、LSTM或Transformer结构的深度神经网络模型;
所述的步骤2)具体包括以下步骤:
21)将音频分成若干帧,利用帧级特征提取器提取不同的帧级特征;
22)将帧级特征输入注意力统计池化层,输出帧级特征的权重平均值以及权重标准差;
23)将帧级特征权重平均值作为话语级特征,输入话语级别特征提取器中,生成表示说话人身份的数值向量;
所述的语音识别模块包括:
编码器网络:由多个块堆叠形成,每个块依次包含layer norm、multi-headattention、feed-forward network和ResNet connection,所述的feed-forward network由多层全连接串联而成,其激活函数为ReLU,所述的ResNet connection用于深度提取特征信息;
预测网络:除multi-head attention使用特定的掩码外,在结构上与编码器相同;
联合网络:接收编码器网络和预测网络输出的线性组合,由多层全连接层组成,其中,最后一层为softmax层,输出概率分布,根据概率分布生成相应的文字;
所述的语音识别模块中的网络采用的Loss函数为标签序列所有对齐的概率和,则有:
Figure QLYQS_2
其中,loss为损失,P(yi|xi)为第i个样本的标签序列对应的所有可能对齐的概率和,α(Ti,Ui)为采用前向算法计算得到的对齐路径的概率和,Ti表示时间,Ui表示状态;
所述的步骤5)具体包括以下步骤:
51)控制音频输入预处理模块,划分句子逻辑;
52)接收声纹识别模块以及语音处理模块的输出,判断句子所属说话人标签;
53)生成文字信息,输出给用户逻辑界面;
54)截取语音片段,使得每句话均有相对应的语音片段;
55)接收修改反馈信息,修改文字逻辑输出;
56)依据选定要求,生成存档信息;
所述的步骤54)具体为:
依据声纹识别模块输出的说话人身份标识信息,在身份发生转变的时刻,记录音频起始时间和结束时间,在进行查询时,依据已记录的信息,输出起始时间到结束时间的音频部分。
CN202110378334.2A 2021-04-08 2021-04-08 一种机器辅助的会议记录系统及方法 Active CN113129898B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110378334.2A CN113129898B (zh) 2021-04-08 2021-04-08 一种机器辅助的会议记录系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110378334.2A CN113129898B (zh) 2021-04-08 2021-04-08 一种机器辅助的会议记录系统及方法

Publications (2)

Publication Number Publication Date
CN113129898A CN113129898A (zh) 2021-07-16
CN113129898B true CN113129898B (zh) 2023-06-30

Family

ID=76775595

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110378334.2A Active CN113129898B (zh) 2021-04-08 2021-04-08 一种机器辅助的会议记录系统及方法

Country Status (1)

Country Link
CN (1) CN113129898B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782033B (zh) * 2021-09-26 2023-11-24 广东电网有限责任公司 一种声纹识别方法、装置、设备及存储介质
CN114093383B (zh) * 2022-01-17 2022-04-12 北京远鉴信息技术有限公司 一种参会者语音的确定方法、装置、电子设备及存储介质
CN115762525B (zh) * 2022-11-18 2024-05-07 北京中科艺杺科技有限公司 一种基于全方位语音获取的语音过滤收录方法及系统
CN117174091A (zh) * 2023-09-07 2023-12-05 河南声之美电子科技有限公司 一种基于角色识别的会议记录智能生成系统及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11593655B2 (en) * 2018-11-30 2023-02-28 Baidu Usa Llc Predicting deep learning scaling
US11170761B2 (en) * 2018-12-04 2021-11-09 Sorenson Ip Holdings, Llc Training of speech recognition systems
CN110021302A (zh) * 2019-03-06 2019-07-16 厦门快商通信息咨询有限公司 一种智能办公会议系统及会议记录方法
US11322148B2 (en) * 2019-04-30 2022-05-03 Microsoft Technology Licensing, Llc Speaker attributed transcript generation
CN112017632A (zh) * 2020-09-02 2020-12-01 浪潮云信息技术股份公司 一种自动化会议记录生成方法
CN112468761A (zh) * 2020-10-31 2021-03-09 浙江云优家智能科技有限公司 一种智能会议记录系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于CNN-LSTM神经网络的声纹识别系统设计;牟俊杰;《电子技术应用》;20210306;第75-78页 *
基于CNN-LSTM网络的声纹识别研究;闫河;《计算机应用与软件》;20190430;第166-170页 *
基于深度学习神经网络的声纹识别方法;白曦龙;《信息与电脑》;20210228;第153-155页 *

Also Published As

Publication number Publication date
CN113129898A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
CN113129898B (zh) 一种机器辅助的会议记录系统及方法
CN110335612A (zh) 基于语音识别的会议记录生成方法、装置及存储介质
CN112818892A (zh) 基于时间卷积神经网络的多模态抑郁症检测方法及系统
JP2020525817A (ja) 声紋認識方法、装置、端末機器および記憶媒体
CN111261162B (zh) 语音识别方法、语音识别装置及存储介质
CN109147768A (zh) 一种基于深度学习的语音识别方法及系统
CN113129927B (zh) 语音情绪识别方法、装置、设备及存储介质
CN117637097A (zh) 基于大模型的门诊问诊对话生成电子病历的方法及系统
CN115019776A (zh) 语音识别模型及其训练方法、语音识别方法及装置
EP1565906A1 (en) Speech recognition device and method
CN106710587A (zh) 一种语音识别数据预处理方法
CN115249479A (zh) 基于brnn的电网调度复杂语音识别方法、系统及终端
CN114141237A (zh) 语音识别方法、装置、计算机设备和存储介质
CN111695763B (zh) 一种基于语音问答的排产排程系统及方法
WO2012047955A1 (en) Language dictation recognition systems and methods for using the same
CN116911869A (zh) 一种基于人工智能的智能客服系统及其方法
CN117149977A (zh) 一种基于机器人流程自动化的智能催收机器人
CN116758451A (zh) 基于多尺度和全局交叉注意力的视听情感识别方法及系统
CN115424618A (zh) 一种基于机器学习的电子病历语音交互设备
CN106297775B (zh) 语音识别装置及方法
CN115294966A (zh) 核电厂语音识别训练方法、智能语音控制方法和系统
CN107825433A (zh) 一种儿童语音指令识别的卡片机器人
CN111312251A (zh) 基于语音识别的远程机械臂控制方法
CN111444381A (zh) 一种基于深度学习语料库分类方法和存储设备
CN111914777B (zh) 一种跨模态识别机器人指令的方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant