CN112885359B

CN112885359B - 一种语音识别系统

Info

Publication number: CN112885359B
Application number: CN202110124943.5A
Authority: CN
Inventors: 张喜云; 李振新; 闫晶; 赵雷; 韩娟娟; 霍霄艳; 李世伟; 王康
Original assignee: Jiaozuo university
Current assignee: Jiaozuo university
Priority date: 2021-01-29
Filing date: 2021-01-29
Publication date: 2022-07-05
Anticipated expiration: 2041-01-29
Also published as: CN112885359A

Abstract

本发明公开了一种语音识别系统，包括：多个音频获取模块同时获取环境中多个音频信息；获取环境中的多个视频信息；接收所述多个音频信息，根据所述多个音频信息中的声纹特征分离出个体声音，将所述个体声音分组并记录时间信息，将各分组中的个体声音进行融合得到个体增强音频信息；根据各分组中的个体声音中的时间信息结合音频获取模块的位置计算个体位置以辅助视频对个体定位；根据个体位置信息、声音强度分布、视频信息以及语义实现讨论分组，所述讨论分组中的语音采用所述个体增强音频信息；可以显示以及播放各个讨论分组语音。能够满足课堂多点监测和评估要求。

Description

一种语音识别系统

技术领域

本发明涉及语音识别技术领域，具体是涉及一种语音识别系统。

背景技术

随着远程课堂和智能课堂的发展，对教学和学生的评估方式也在发生改变。同时，对学生的素质教育如团队协作以及沟通能力的培养也有了新的要求。现有的基于语音识别的技术有以下几种：

专利CN201911342652.2公开了一种数据处理方法、装置、电子设备及存储介质，具体的方法如下：获取待处理数据；所述待处理数据为与用户在至少一种场景中产生的行为相关的数据；利用多融合模型对所述待处理数据进行处理，得到至少两个第一参数；所述多融合模型至少包含用于语音识别的第一模型、用于图像识别的第二模型、用于说话人识别的第三模型；所述第一参数表征对用户在至少一种场景中产生的相应行为进行评估得到的分数值；根据所述至少两个第一参数，确定第二参数；所述第二参数表征对用户的至少两种行为进行评估得到的总分数值；所述第二参数用于进行教学评估。实际上也就是结合语音识别、说话人识别、图像识别等多种识别模型，对用户的品德、智力、体质等行为进行全面、准确的评估，评估得到的总分数值进行教学评估。然而，该现有技术的应用范围仅限于课堂后的事后评估，要分别获取语音、图像后再行分析得出结果，并不能得出实时结果以供实时分析。而且，多融合模型的三个模型在处理数据时无法做到多线程实时处理多个音频信号。

专利CN201911418872.9公开了一种音频信号处理方法、装置以及电子设备，涉及语音处理领域。具体实现方案为：利用多个线程处理音频信号，得到各线程对应的音频信息，每个线程对应一个音频功能；将各线程对应的音频信息发送至各音频功能对应的应用程序中进行处理。利用多线程同时处理音频信号，可以并行执行多种音频功能，有利于提高在多种应用场景中的语音信号处理效果，尽管该专利采用多个线程处理音频信号，可以并行执行多种音频功能，然而，该专利并不能实现融合多个音频数据，也不能实现对话识别或者分组讨论的情况。

教学中还存在无法兼顾所有学员的情况，无法准确对所有的学员进行教学评估。

发明内容

本发明的目的在于提供一种语音识别系统，能够满足课堂多点监测和评估要求，同时提升语音识别效果，解决老师无法同时关注所有学生或者小组的缺点等技术问题。

为实现上述目的，本发明提供了一种语音识别系统，包括：

多个音频获取模块，多个音频获取模块同时获取环境中多个音频信息；

多个视频获取模块，获取环境中的多个视频信息；

音频处理模块，接收所述多个音频信息，根据所述多个音频信息中的声纹特征分离出个体声音，将所述个体声音分组并记录时间信息，将各分组中的个体声音进行融合得到个体增强音频信息；

定位模块，根据各分组中的个体声音中的时间信息结合音频获取模块的位置计算个体位置以辅助视频对个体定位；

分组模块，根据个体位置信息、声音强度分布、视频信息以及语义实现讨论分组，所述讨论分组中的语音采用所述个体增强音频信息；

教学交互模块，用于显示以及播放各个讨论分组语音。

优选的，所述音频获取模块设置在环境中的不同位置。

优选的，所述音频处理模块包括：分布式音频接收模块、分布式声纹识别模块以及声音融合模块，所述分布式音频接收模块能够并行接收多个音频获取模块中的音频信息；所述声纹识别模块能够识别音频信息并分离出个体声音；所述多个声纹识别模块分别识别多个音频获取模块中的音频信息；所述声音融合模块将相同个体的个体声音融合。

优选的，所述分组模块还包括：语义识别模块，包括语义理解模块和实时更新的扩展语义数据库，结合历史录取的个体语音中的语义信息进行训练，得出个体语义；同时，语音识别模块还用于综合多个个体语音，以识别出两个及两个以上的对话对象；所述综合多个个体语音的优先级由个体位置信息、声音强度、视频信息确定，根据音频和视频中的时间标签信号确定个体是否面对以及声音强度是否足够能够被对话对象获取，再根据语音识别模块中多个个体语音进行语义分析以识别出两个及两个以上的对话对象。

优选的，所述分组模块中还包括声音强度分布计算模块，可以根据不同分组中的个体声音计算得到声音强度分布；

优选的，所述教学语音识别系统还包括视频处理模块，所述视频处理模块用于人像识别以及姿态识别并将带有标签信息的数据传输至分组模块。

另一方面，为了更好地进行语音识别教学，本发明还提供了一种基于声纹的教学语音识别方法，包括如下步骤：

S1、获取环境中多个不同位置的音频信息。

S2、根据所述多个音频信息中的声纹特征分离出个体声音，将所述个体声音分组并记录时间信息，将各分组中的个体声音进行融合得到个体增强音频信息。

S3、根据各分组中的个体声音中的时间信息结合音频获取模块的位置计算个体位置以辅助视频信息对个体定位。

S4、根据个体位置信息、声音强度分布、视频信息以及语义实现讨论分组。

S5、显示和播放讨论分组中的个体增强音频信息。

优选的，所述S2中的分离出个体声音的方法具体可为：预先采集个体声音信息，存储并进行语音建模为分离模型；根据个体声音与分离模型进行比较进行相似度运算以实现个体声音分辨，然后将个体声音从环境音中提取出来，所述提取方法具体可为根据频谱信息训练得到的神经网络滤波算法。

优选的，所述S2中的个体声音分组是指，将分离出的多个个体声音进行分组并赋予时间标签。

优选的，所述S2中的个体声音融合方法具体为：将各个分组中的相同个体声音根据频谱信息进行融合。

优选的，所述S3中的个体位置定位方法根据接收到的个体声音的飞行时间计算得到，然后根据定位位置视频中的人脸识别模块进一步验证个体声音身份；以提升识别准确度。

优选的，所述S4中的实现讨论分组的具体方法为：

1）建立个体位置分布图；

2）建立声音强度分布，结合个体位置分布图再根据声音强度所能到达的位置确定分组可能对象；

3）识别视频信息中的说话者和倾听者，再结合步骤2）中的分组可能对象的个体声音语义确定讨论分组个体；

基于S4实现的讨论分组能够动态确定分组讨论人员以及讨论内容的关联，能够实时动态确定分组，并能够确定分组讨论内容以便后续处理。

优选的，所述S5中的显示和播放讨论分组中的个体增强音频信息方法具体为：将所述S4中的讨论分组根据讨论内容显示在教学终端中，点击某一讨论分组打开分组讨论内容，所述分组讨论内容中包括讨论分组个体在S2中得到的个体增强音频信息。可实现分组讨论信息的记载并回放信息，使得教学人员能够同时获得不同分组讨论信息，更利于开展讨论课教学，不会忽视某一群体或者某一个体。

附图说明

图1为一种语音识别系统示意图。

图2为一种音频处理模块示意图。

图3为基于声纹的语音识别流程图。

图4为实现讨论分组流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例提供一种语音识别系统，请参阅图1，包括：

多个音频获取模块1，多个音频获取模块同时获取环境中多个音频信息；

多个视频获取模块2，获取环境中的多个视频信息；

音频处理模块3，接收所述多个音频信息，根据所述多个音频信息中的声纹特征分离出个体声音，将所述个体声音分组并记录时间信息，将各分组中的个体声音进行融合得到个体增强音频信息；

定位模块4，根据各分组中的个体声音中的时间信息结合音频获取模块的位置计算个体位置以辅助视频对个体定位；

分组模块5，根据个体位置信息、声音强度分布、视频信息以及语义实现讨论分组，所述讨论分组中的语音采用所述个体增强音频信息；

教学交互模块6，用于显示以及播放各个讨论分组语音。

进一步的，所述音频获取模块设置在环境中的不同位置。

在一种实施方式中，如图2所示，音频处理模块3包括：分布式音频接收模块3-1、多个声纹识别模块组成的分布式声纹识别模块3-2以及声音融合模块3-3，所述分布式音频接收模块3-1能够并行接收多个音频获取模块1中的音频信息；所述声纹识别模块能够识别音频信息并分离出个体声音；所述多个声纹识别模块分别识别多个音频获取模块1中的音频信息；所述声音融合模块3-3将相同个体的个体声音融合。

在一种实施方式中，所述分组模块5还包括：语义识别模块，包括语义理解模块和实时更新的扩展语义数据库，结合历史录取的个体语音中的语义信息进行训练，得出个体语义；同时，语义识别模块还用于综合多个个体语音，以识别出两个及两个以上的对话对象；所述综合多个个体语音的优先级由个体位置信息、声音强度、视频信息确定，根据音频和视频中的时间标签信号确定个体是否面对以及声音强度是否足够能够被对话对象获取，再根据语音识别模块中多个个体语音进行语义分析以识别出两个及两个以上的对话对象。

在一种实施方式中，所述分组模块5中还包括声音强度分布计算模块，可以根据不同分组中的个体声音计算得到声音强度分布；

在一种实施方式中，所述教学语音识别系统还包括视频处理模块7，所述视频处理模块7用于人像识别以及姿态识别并将带有标签信息的数据传输至分组模块5。

在一种实施方式中，所述教学交互模块能够通过触摸屏显示讨论分组情况，教学者还能通过触摸屏选择并回放讨论分组中的个体增强音频信息。

在一种实施方式中，所述音频处理模块3和视频处理模块7可均由DSP或者具有音频处理算法和视频处理算法的FPGA实现，将同时获得的音视频信息并行处理以提高计算效率，节省处理时间。

在一种实施方式中，所述定位模块4、分组模块5可由CPU实现高速计算，所述CPU通过外围电路连接触摸屏实现教学交互模块。

本申请实施例还提供一种基于声纹的教学语音识别方法，如附图3所示，包括如下步骤：

S1、获取环境中多个不同位置的音频信息。

S5、显示和播放讨论分组中的个体增强音频信息。

在一种实施方式中，所述S2中的分离出个体声音的方法具体可为：预先采集个体声音信息，存储并进行语音建模为分离模型；根据个体声音与分离模型进行比较进行相似度运算以实现个体声音分辨，然后将个体声音从环境音中提取出来，所述提取方法具体可为根据频谱信息训练得到的神经网络滤波算法。

在一种实施方式中，所述S2中的个体声音分组是指，将分离出的多个个体声音进行分组并赋予时间标签。

在一种实施方式中，所述S2中的个体声音融合方法具体为：将各个分组中的相同个体声音根据频谱信息进行融合。

在一种实施方式中，所述S3中的个体位置定位方法根据接收到的个体声音的飞行时间计算得到，然后根据定位位置视频中的人脸识别模块进一步验证个体声音身份；以提升识别准确度。

在一种实施方式中，如图4所示，所述S4中的实现讨论分组的具体方法为：

S4-1 建立个体位置分布图；

S4-2 建立声音强度分布，结合个体位置分布图再根据声音强度所能到达的位置确定分组可能对象；

S4-3 识别视频信息中的说话者和倾听者，再结合S4-2中的分组可能对象的个体声音语义确定讨论分组个体。

基于上述方法实现的讨论分组能够动态确定分组讨论人员以及讨论内容的关联，能够实时动态确定分组，并能够确定分组讨论内容以便后续处理。

在一种实施方式中，所述S5中的显示和播放讨论分组中的个体增强音频信息方法具体为：将所述S4中的讨论分组根据讨论内容显示在教学终端中，点击某一讨论分组打开分组讨论内容，所述分组讨论内容中包括讨论分组个体在S2中得到的个体增强音频信息。可实现分组讨论信息的记载并回放信息，使得教学人员能够同时获得不同分组讨论信息，更利于开展讨论课教学，不会忽视某一群体或者某一个体。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种用于教学的语音识别系统，其特征在于，该系统包括：

多个视频获取模块，获取环境中的多个视频信息；

教学交互模块，用于显示以及播放各个讨论分组语音；

视频处理模块，所述视频处理模块用于人像识别以及姿态识别并将带有标签信息的数据传输至分组模块；

所述分组模块还包括语义识别模块，所述语义识别模块包括语义理解模块和实时更新的扩展语义数据库，所述语义理解模块结合历史录取的个体语音中的语义信息进行训练，对照扩展语义数据库得出个体语义；语义识别模块还用于综合多个个体语音，以识别出两个及两个以上的对话对象；综合多个个体语音的优先级由个体位置信息、声音强度、视频信息确定，根据音频和视频中的时间标签信号确定个体是否面对以及声音强度是否足够能够被对话对象获取，再根据语义识别模块中多个个体语音进行语义分析以识别出两个及两个以上的对话对象；

所述的语音识别系统采用以下识别方法，该识别方法包括如下步骤：

S1、获取环境中多个不同位置的音频信息；

S2、根据所述多个不同位置的音频信息中的声纹特征分离出个体声音，将所述个体声音分组并记录时间信息，将各分组中的个体声音进行融合得到个体增强音频信息；个体声音分组是指，将分离出的多个个体声音进行分组并赋予时间标签；个体声音融合方法具体为：将各个分组中的相同个体声音根据频谱信息进行融合；分离出个体声音的方法具体可为：预先采集个体声音信息，存储并进行语音建模为分离模型；根据个体声音与分离模型进行比较进行相似度运算以实现个体声音分辨，然后将个体声音从环境音中提取出来，提取方法具体可为根据频谱信息训练得到的神经网络滤波算法；

S3、根据各分组中的个体声音中的时间信息结合音频获取模块的位置计算个体位置以辅助视频信息对个体定位；个体位置定位方法根据接收到的个体声音的飞行时间计算得到，然后根据定位位置视频中的人脸识别模块进一步验证个体声音身份；以提升识别准确度；

S4、根据个体位置信息、声音强度分布、视频信息以及语义实现讨论分组；所述步骤S4中的实现讨论分组的具体方法为：

1)建立个体位置分布图；

2)建立声音强度分布，结合个体位置分布图再根据声音强度所能到达的位置确定分组可能对象；

3)识别视频信息中的说话者和倾听者，再结合步骤2)中的分组可能对象的个体声音语义确定讨论分组个体；

上述讨论分组能够动态确定分组讨论人员以及讨论内容的关联，能够实时动态确定分组，并能够确定分组讨论内容以便后续处理；

S5、显示和播放讨论分组中的个体增强音频信息；

所述S5中的显示和播放讨论分组中的个体增强音频信息方法具体为：将所述S4中的讨论分组根据讨论内容显示在教学终端中，点击某一讨论分组打开分组讨论内容，所述分组讨论内容中包括讨论分组个体在S2中得到的个体增强音频信息；可实现分组讨论信息的记载并回放信息，使得教学人员能够同时获得不同分组讨论信息，更利于开展讨论课教学，不会忽视某一群体或者某一个体。

2.根据权利要求1所述的系统，其特征在于，所述音频获取模块设置在不同位置。

3.根据权利要求1所述的系统，其特征在于，所述音频处理模块包括：分布式音频接收模块、分布式声纹识别模块以及声音融合模块，所述分布式音频接收模块能够并行接收多个音频获取模块中的音频信息，所述声纹识别模块能够识别音频信息并分离出个体声音；多个所述声纹识别模块分别识别多个音频获取模块中的音频信息；所述声音融合模块将相同个体的个体声音融合。

4.根据权利要求1所述的系统，其特征在于，所述分组模块还包括声音强度分布计算模块，根据不同分组中的个体声音计算得到声音强度分布。