CN111754990A

CN111754990A - 语音聊天协同处理方法及装置

Info

Publication number: CN111754990A
Application number: CN202010588474.8A
Authority: CN
Inventors: 杨文龙
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-06-24
Filing date: 2020-06-24
Publication date: 2020-10-09

Abstract

本发明实施例公开了一种语音聊天协同处理方法及装置。方法包括：在会议过程中，实时获取外界语音及图像数据；采用自然语言处理模型对所述外界语音数据进行处理，以获取对话文本数据；将所述对话文本数据和语音转文字的历史对话文本数据进行相关性比较，以得到比较结果；根据所述比较结果对所述外界语音数据进行过滤处理或调低音量处理。本发明实施例，可以根据输入声音及图像的语义信息进行判断，如果是相关的信息则通过，不相关的信息就自动滤除，提高用户体验，相当于有一个智能的主持人，可以根据发言者发言是否相关而自动调大或者调小对应人员的音量，甚至静音关掉不相关的发言。

Description

语音聊天协同处理方法及装置

技术领域

本发明涉及计算机软件技术领域，具体涉及一种语音聊天协同处理方法及装置。

背景技术

目前的多人语音聊天系统中，如果出现多人同时说话的场景，会导致一片嘈杂，什么都听不清楚；可能的场景及现有方案举例如下：

(1)在公司或者商务的远程多人语音会议时，一般有自觉的参与者在不需要说话时会自己静音，或者主持人在发言时会把其他人静音；

缺点：这种解决方案需要参与者对电脑操作比较熟悉，适合商务人士及年轻人，不适合小孩子及老人；且针对环境中的杂音或者偶然的人员闯入等声音无法滤除；

(2)在一些需要远程教育的场合，比如幼儿园老师跟小孩子做网上的视频交流时，由于小孩子发言比较不规范且不定时，很难要求他们自己静音或者按时发言的操作，影响沟通的效率；

缺点：孩子时不时发言，声音嘈杂，无法沟通，影响用户体验；

(3)公司会议室里面的视频会议系统，摄像头会探知声音，然后改变朝向发出声音的人或者位置：

缺点：针对环境中的杂音或者偶然的人员闯入等声音无法滤除，容易产生误判，进而导致摄像头朝向杂音的产生地，影响用户体验。

发明内容

本发明实施例的目的在于提供一种语音聊天协同处理方法及装置，主要解决现有的多人语音系统中，环境偶发(无意义的)噪音无法滤除、多人发言嘈杂无法自动过滤的问题。

为实现上述目的，第一方面，本发明实施例提供了一种语音聊天协同处理方法，包括：

在会议过程中，实时获取外界语音数据；

采用对话系统模型对所述外界语音数据进行处理，以获取对话文本数据；

将所述对话文本数据和语音转文字的历史对话文本数据进行相关性比较，以得到比较结果；

根据所述比较结果对所述外界语音数据进行过滤处理或调低音量处理，并将对所述外界语音数据过滤或调低音量的处理结果显示于用户界面。

作为本申请的一种具体实施方式，实时获取外界语音数据之前，所述方法还包括：

获取用户语音输入数据和用户图像数据；

将所述用户语音输入数据送入语音识别模块进行识别；

根据所述用户图像数据判断用户当前是否为发言状态；

若用户当前不为发言状态，则得出所述用户语音输入数据为背景杂音，采用自动降噪法自动过滤所述用户语音数据；所述背景杂音包括咳嗽声、猫狗叫声和打喷嚏声；

若用户当前为发言状态，且判断所述用户语音输入数据是否为自然语言；

若为自然语音，则实时获取外界语音数据；

若不为自然语言，但通过语义场景模块检测判断出所述用户语音输入数据与当前对话有关联(笑声、歌声等)，则实时获取外界语音数据；

若不为自然语言，且通过语义场景模块检测判断出当前语音(用户语音输入数据)与当前对话无关联，则得出所述用户语音输入数据为背景杂音，采用自动降噪法自动过滤所述用户语音输入数据。

进一步地，采用对话系统模型对所述外界语音数据进行处理之前，所述方法还包括：

启动延迟计时器，将所述外界语音数据转换为当前文字；

若所述当前文字是起始词，则不过滤所述外界语音数据；

若所述当前文字不是起始词，则判断所述当前文字是否已经识别出、或者预测出预设字数(比如3个字)以上、或者所述当前文字的持续时间超出最大可延迟时间；

若所述当前文字未识别出、或者未预测出预设字数(比如3个字)以上、或者所述当前文字的持续时间未超出最大可延迟时间，则获取当前参与者的过滤可能性估计结果，并根据所述过滤可能性估计结果调低所述外界语音数据；

若所述当前文字已经识别出、或者预测出预设字数(比如3个字)以上、或者所述当前文字的持续时间超出最大可延迟时间，则采用对话系统模型对所述外界语音数据进行处理。

作为本申请的一种具体实施方式，所述方法包括根据当前参与者在本次及有记载的历史会议中实际被过滤的次数，获取所述当前参与者的过滤可能性估计结果；其中，所述当前参与者对应于所述外界语音数据。

第二方面，本申请实施例还提供了另一种语音聊天协同处理方法，包括：

获取第一用户的第一语音数据，并对所述第一语音数据进行处理以得到处理结果；

在会议过程中，当所述处理结果为所述第一用户的正常发言时，实时获取第二用户的第二语音数据，并将所述第二语音数据转换为当前文字；

若所述当前文字不是起始词，且所述当前文字未识别出、或者未预测出预设字数以上、或者所述当前文字的持续时间未超出最大可延迟时间，则获取当前参与者的过滤可能性估计结果，并根据所述过滤可能性估计结果调低所述第二语音数据；

若所述当前文字不是起始词，且所述当前文字已经识别出、或者预测出预设字数(比如3个字)以上、或者所述当前文字的持续时间超出最大可延迟时间，则采用基于语义关联模型对所述第二语音数据进行处理。

其中，获取第一用户的第一语音数据，并对所述第一语音数据进行处理以得到处理结果，具体包括：

获取第一用户的第一语音输入数据和用户图像数据；

将所述第一语音输入数据送入语音识别模块进行识别；

根据所述用户图像数据判断用户当前是否为发言状态；

若第一用户当前不为发言状态，则得出所述第一语音输入数据为背景杂音，采用自动降噪法自动过滤所述第一语音数据；

若第一用户当前为发言状态，则判断所述第一语音输入数据是否为自然语言；

若为自然语音，则得出所述第一语音输入数据为所述第一用户的正常发言数据；

若不为自然语言，且当前语音(所述第一语音数据)与当前对话无关联，则得出所述第一语音输入数据为背景杂音，采用自动降噪法自动过滤所述第一语音输入数据。

作为本申请的一种具体实施方式，基于对话系统模型对所述第二语音数据进行处理，具体包括：

获取所有参与者的语音转文字历史数据；

判断所述语音转文字历史数据中是否有疑问句；

若有疑问句，且当前文字为该疑问句的回答，则不过滤所述第二语音数据；

若有疑问句，且当前文字不是该疑问句的回答，则执行语义关联步骤；

若无疑问句，则执行语义关联步骤。

所述语义关联步骤具体为：

若当前文字与语音转文字历史数据有语义关联，则获取关联可能性，并根据所述关联可能性调低所述第二语音数据；

若当前文字与语音转文字历史数据无语义关联，则过滤所述第二语音数据同时给予界面提醒。

第三方面，本发明实施例还提供了一种语音聊天协同处理方法，包括：

获取所有参与者某一时刻对应的所有的语音输入；

将每一个参与者所有的语音输入送入基于自然语言的语音识别系统中，获取语义信息；

根据预设规则或模型，判断输入语义，并根据上下文关系进行判断是否跟当前话题相关，如果不相关则过滤。

第四方面，本发明实施例还提供了一种基于端到端模型的语音聊天协同处理方法，包括：

数据采集步骤：获取用户语音及图像输入数据；在同一时刻，获取其他参与者的语音输入数据和语音转文字历史数据；

模型识别步骤：将所述用户语音及图像输入数据、其他参与者的语音输入数据、语音转文字历史数据输入端到端的深度学习模型进行识别；

结果输出步骤：得到用户语音数据是否过滤的结果以及过滤程度。

第五方面，本发明实施例还提供了一种语音聊天协同处理装置，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一或第二或第三或第四方面的方法。

实施本发明实施例，可以根据输入声音的语义信息进行判断，如果是相关的信息则通过，不相关的信息就自动滤除，提高用户体验，相当于有一个智能的主持人，可以根据发言者发言是否相关而自动调大(正常发言音量范围内)或者调小对应人员的音量，甚至静音关掉不相关的发言。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。

图1是基于端到端的深度学习模型进行语音处理的流程图；

图2是本发明第一实施例提供的语音聊天协同处理方法的示意流程图；

图3是对话系统实现语音聊天协同处理的流程图；

图4是本发明第二实施例提供的语音聊天协同处理方法的示意流程图；

图5是语音聊天协同处理方法的另一示意流程图；

图6是本发明实施例提供的语音聊天协同处理装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

本发明主要解决的技术问题是：现有的多人语音系统中，环境偶发(无意义的)噪音无法滤除、多人发言嘈杂无法自动过滤。

为解决该技术问题，本发明的主要技术原理是：

S1，获取所有参与者某一时刻对应的所有的语音输入；

S2，将每一个参与者端所有的语音输入送入基于自然语言的语音识别系统中，获取语义信息；

S3，根据预设规则或模型，判断输入语义，并根据上下文关系进行判断是否跟当前话题相关，如果不相关则过滤。

基于上述技术原理，为解决上述技术问题，本发明提供了两种解决方案：

第一种：如图1所示，采用基于统计学习(深度学习)的方法，使用大量输入及输出数据直接进行端到端的训练得到；

第二种：采用基于规则的方法，内嵌了多个基于深度学习的统计学习模型(语音识别模型和对话系统模型等)。

请参考图1，其提供的语音聊天协同处理方法，包括：

需要说明的是，第一种提供一种总的深度学习端到端的模型来解决智能相关性过滤的问题，使用输入和输出的数据直接进行端到端的训练及预测。本发明的实施例主要介绍第二种方法。

请参考图2和图3，本发明实施例提供了一种语音聊天协同处理方法可以包括以下步骤：

S101，在会议过程中，实时获取外界语音数据，并转为文本数据；

S102，采用对话系统模型对所述外界语音文本数据进行处理，以获取对应的对话文本数据；

S103，将所述对话文本数据及语音转文字的历史对话文本数据与当前语音输入的文本数据进行相关性比较，以得到比较结果；

S104，根据所述比较结果对所述外界语音数据进行过滤处理或调低音量处理。

进一步地，实时获取外界语音数据之前，所述方法还包括：

获取用户语音输入数据和用户图像数据；其中，用户图像数据可以理解为会议现场通过摄像头采集到的人脸图片或者包括头部甚至肢体动作的视频数据；

将所述用户语音输入数据送入语音识别模块进行识别；

根据所述用户图像数据判断用户当前是否为发言状态；例如基于图像进行场景识别，判断用户当前是否为发言状态，比如有嘴张开的动作、发言时常用的肢体表达、哑语或者用户正在注视屏幕等；

若用户当前不为发言状态，则得出所述用户语音输入数据为背景杂音，采用自动降噪法自动过滤所述用户语音数据；

若为自然语音，则实时获取外界语音数据；

若不为自然语言，但当前语音(用户语音输入数据)与当前对话有关联，则实时获取外界语音数据；例如，当前语音为笑声或歌声等，则可能与当前对话有关联；

若不为自然语言，且当前语音与当前对话无关联，则得出所述用户语音输入数据为背景杂音，采用自动降噪法自动过滤所述用户语音输入数据。

进一步地，实时获取外界语音数据之后，基于对话系统模型对所述外界语音数据进行处理之前，所述方法还包括：

启动延迟计时器，将所述外界语音数据转换为当前文字；

若所述当前文字是起始词，则不过滤所述外界语音数据；

若所述当前文字不是起始词，则判断所述当前文字是否已经识别出、或者预测出三个字以上、或者所述当前文字的持续时间超出最大可延迟时间；

若所述当前文字未识别出、或者未预测出预设字数(比如3个字)以上、或者所述当前文字的持续时间未超出最大可延迟时间，则获取当前参与者的过滤可能性估计结果，并根据所述过滤可能性估计结果调低所述外界语音数据；在本实施例中，根据当前参与者在本次及记载的历史会议中实际被过滤的次数，获取所述当前参与者的过滤可能性估计结果；其中，所述当前参与者对应于所述外界语音数据；

若所述当前文字已经识别出、或者预测出预设字数(比如3个字)以上、或者所述当前文字的持续时间超出最大可延迟时间，则基于对话系统模型对所述外界语音数据进行处理。

进一步地，启动延迟计时器之前，所述方法还包括：

若所述外界语音数据不是除会议主持人外的参与者的发言，则不过滤所述外界语音数据；

若所述外界语音数据是除会议主持人外的参与者的发言，则启动所述延迟计时器。

结合图5中的步骤“同一时刻其他参与者的语音输入”、“同一时刻(一定范围内)是否有其他参与者发言？”、“此音频通过，不过滤”，在启动延迟计时器之前，当一个人在发言时，若无其他参与者发言，则对当前音频不做过滤。若当一个人发言时，有其他参与者发言，则启动延迟计时，采用本方法实施例中的技术方案进行音频处理。需要说明的是，本部分为本专利申请的可选步骤(可根据用户预先的偏好设置选择)。

需要说明的是，图3所示的对话系统可以使用任何基于规则或者深度学习的已有模型，n和m为预设值(比如n＝3，m＝6等)，可以由用户选择或者根据场景、硬件计算能力、实时性要求等进行调节。

基于相同的发明构思，本发明还提供了另一种语音聊天协同处理方法。请参考图4和图5，该方法包括：

S201，获取第一用户的第一语音数据，并对所述第一语音数据进行处理以得到处理结果。

请参考图5，步骤S201包括：

获取第一用户的第一语音数据和用户图像数据；

将所述第一语音数据送入语音识别模块进行识别；

根据所述用户图像数据判断用户当前是否为发言状态；

若第一用户当前不为发言状态，则得出所述第一语音数据为背景杂音，采用自动降噪法自动过滤所述第一语音数据；

若第一用户当前为发言状态，则判断所述第一语音数据是否为自然语言；

若为自然语音，则得出所述第一语音数据为所述第一用户的正常发言数据；

若不为自然语言，则继续判断当前语音(即第一语音数据)是否为自然语言外的交流时的常见声音(比如笑声、哭声、歌声等其他)，若为常见声音，则判断当前语音是否与当前对话有语义关联，若有语义关联，则根据语义关联程度调低或者不调节音量，其中，语义关联程度越低，音量被调节得越低，当语义关联程度高于一定预设阈值时，则不调低音量，完全通过；若无语义关联，则得出当前语音为背景杂音，采用自动降噪法自动过滤所述第一语音输入数据。

此处需要说明的是，图5中的“判断当前语音是否与当前对话有语义关联？”的具体细节如下：

(1)如果是笑声等表情声，则首先判断其他人是否有同样的笑容或者表情，如果有则通过；其次判断上下文的文本语义，看是否笑容是合适的(使用规则或者深度学习模型)；

(2)如果是歌声等，则判断上下文的文本(使用规则或者深度学习模型)，看歌声是否合适在本场合出现。

S202，在会议过程中，当所述处理结果为所述第一用户的正常发言时，实时获取第二用户的第二语音数据，并将所述第二语音数据转换为当前文字。

请参考图5，在会议过程中，判断同一时刻(一定范围内)是否有其他参与者发言(即实时获取外界语音数据)，若有，则启动延迟计时并执行语音转文字，若无，则该外界语音数据通过、不过滤。

S203，若所述当前文字不是起始词，且所述当前文字未识别出、或者未预测出预设字数(比如3个字)以上、或者所述当前文字的持续时间未超出最大可延迟时间，则获取当前参与者的过滤可能性估计结果，并根据所述过滤可能性估计结果调低所述第二语音数据。

S204，若所述当前文字是起始词，且所述当前文字已经识别出、或者预测出预设字数(比如3个字)以上、或者所述当前文字的持续时间超出最大可延迟时间，则采用对话系统模型对所述第二语音数据进行处理。

起始词包括“额”，“那个”等，响应词包括“对”、“是的”、“好的”等。需要注意的是，起始词和响应词可根据不同的语言文化甚至方言习惯等进行设置，可以提前根据用户语言偏好进行提前设置。

具体地，判断当前文字是否为起始词，若是，则此音频通过、不过滤，若不是起始词，则执行基于图像的口型识别，提前预判下一个文字，并使用统计学模型(例如语言模型)来预测整个句子。

之后，判断当前句子是否已经识别或者预测出(高于预定置信度)预设字数(比如3个字)以上或者超出最大可延迟时间(比如1秒)，若是，则采用对话系统模型对所述外界语音数据进行处理，若否，则根据当前会话中此参与者实际被过滤的次数，获取当前参与者的过滤可能性估计结果，并根据所述过滤可能性估计结果调低所述外界语音数据，其中，过滤可能性越高音量越低。

在本实施例中，采用对话系统模型对所述第二语音数据进行处理，具体包括：

获取所有参与者的语音转文字历史数据；

判断所述语音转文字历史数据中是否有疑问句；

若无疑问句，则执行语义关联步骤。

所述语义关联步骤具体为：

其中，采用主动降噪等方法进行过滤，同时给予界面提醒，比如“请说话题相关话语”、“别人正在发言，请稍等”等。

从以上描述可以看出，本实施例中，先是判断当前用户的语音输入是否为自然语言，在此过程中，可以过滤掉背景杂音等。接着，若同一时刻有其他参与者输入语音，则进行语义过滤和语义关联等方式过滤掉与会议不相关的语音。

在上述方法中，具体用到了多个子模型：语音识别、场景识别、声音的主动降噪技术、口型识别、语义关联模型、语言模型和机器学习分类器。该部分直接只用现有技术即可，在此不再赘述。

语义关联模型可以使用已有方法，例如文档主题生成模型LDA(LatentDirichletAllocation)+Bag of words、或者协同过滤+余弦相似度、或者CRF、或者词向量+一些深度学习等方法来实现，该部分为本领域技术人员的公知常识，在此不再赘述。

此外，对于图5所示的模型，主要的时间延迟体现在这部分：判断所述当前文字是否已经识别出、或者预测出预设字数(比如3个字)以上、或者所述当前文字的持续时间超出最大可延迟时间。其余部分基本可以实时实现。对于时间延迟部分，因为主要采用以下方法来解决：

(1)采用场景识别、口型识别预测、基于统计学的语句预测模型及自回馈学习等方法相结合的方式来预测并提前进行处理，减少语音沟通的时间延迟。

(2)采用图5中的获取过滤可能性估计、根据过滤可能性调低音量部分的方法，根据此次语音会话中此参与者被过滤的次数n，除以预设的会话过滤上限T，来获得此次的过滤可能性估计p，即p＝n/T。由于图5的流程框图是循环计算的，所以在每次选择过滤，或者音量被调低低于一定阈值时，n的计数加一即可。T为预设值，跟用户体验有关，代表单次语音会话或者语音会议中可接受的干扰次数，比如设置m为20.后续的音量调节可以根据p来设置，如p＝0，则音量保持不变，p＝1，则音量为0，即完全过滤；p＝0.4则过滤掉0.4的音量，即保留1-0.4＝0.6的音量。

通过此设计，过滤效果会随着通话过程的变长而慢慢变好以及变得更加准确。n和T的获取及设置也可以不用限制在单次会话内，也可以设置为针对之前所有的会话历史进行获取或者设置。

对以上公式的简单直观修改也应在本专利的保护范围之内。

通过以上处理后，每个声音都会实时处理，并智能的实时动态调整。

在图5的流程中，场景识别和口型识别可能需要用户开启摄像头，但是用户可以选择不把摄像头采集的实时图像显示给其他参与者。

进一步地，基于前述结合图4和图5对本发明技术方案的描述，再对本发明做如下说明：

(1)本发明实施例提供的技术方案，可以滤除咳嗽、猫狗叫、打喷嚏等明显杂音；

(2)声音的杂音滤除要考虑延时性和用户体验，比如判断同一时间是否有其他人在说话，并且需要以整句或则起码有四五个词以上时，才认为同时有说话的人；但是杂音这种，比如只有偶尔一句的打喷嚏等杂音，因为不需要理解其含义，就可以实时过滤掉；

(3)可以有单独的检测唱歌、笑声等比较模糊的语义场景的模块，及判断唱歌是否符合当前的对话场景；

(4)静音或者调低音量的结果，需要显示或者提示在对应用户的界面上，并且提供给用户手动调整回去的设置界面选择；

(5)对咳嗽、打喷嚏等这种明显的杂音进行实时滤除；对不明显的自然语音，延迟稳定之后再做音量调低或者滤除；

(6)声音的滤除不止体现在音量调节或者开关上，在有多用户开着摄像头时，也体现在摄像头用户视频根据语音输入的自动切换上(切换到在发言的用户时也会减少错误的切换和一些尴尬的场面)；

(7)选择关闭此项功能的权限赋予会议主持人。

此外，针对延迟的处理如下：有延迟没关系，单个人的话语是连续的就可以；其他人对语音的延迟其实是可以识别的，也有一定的冗余度和容错性。综上，实施本发明实施例的方法，可以根据输入声音的语义信息进行判断，如果是相关的信息则通过，不相关的信息就自动滤除，提高用户体验，相当于有一个智能的主持人，可以根据发言者发言是否相关而自动调大或者调小对应人员的音量，甚至静音关掉不相关的发言。

且，本发明适合全世界所有语言的场景，本实施例仅以汉语举例说明原理，其他语言也类似。

基于相同的发明构思，本发明实施例提供了一种语音聊天协同处理装置。如图6所示，该装置可以包括：一个或多个处理器101、一个或多个输入设备102、一个或多个输出设备103和存储器104，上述处理器101、输入设备102、输出设备103和存储器104通过总线105相互连接。存储器104用于存储计算机程序，所述计算机程序包括程序指令，所述处理器101被配置用于调用所述程序指令执行上述方法实施例部分的方法。

应当理解，在本发明实施例中，所称处理器101可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备102可以包括键盘等，输出设备103可以包括显示器(LCD等)、扬声器等。

该存储器104可以包括只读存储器和随机存取存储器，并向处理器101提供指令和数据。存储器104的一部分还可以包括非易失性随机存取存储器。例如，存储器104还可以存储设备类型的信息。

具体实现中，本发明实施例中所描述的处理器101、输入设备102、输出设备103可执行本发明实施例提供的语音聊天协同处理方法的实施例中所描述的实现方式，在此不再赘述。

实施本发明实施例所提供的语音聊天协同处理装置，可以根据输入声音的语义信息进行判断，如果是相关的信息则通过，不相关的信息就自动滤除，提高用户体验，相当于有一个智能的主持人，可以根据发言者发言是否相关而自动调大或者调小对应人员的音量，甚至静音关掉不相关的发言。该装置还解决了现有的多人语音系统中，环境偶发(无意义的)噪音无法滤除、多人发言嘈杂无法自动过滤的问题。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音聊天协同处理方法，其特征在于，包括：

在会议过程中，实时获取外界语音数据；

2.如权利要求1所述的语音聊天协同处理方法，其特征在于，实时获取外界语音数据之前，所述方法还包括：

获取用户语音输入数据和用户图像数据；

将所述用户语音输入数据送入语音识别模块进行识别；

根据所述用户图像数据判断用户当前是否为发言状态；

若为自然语言，则实时获取外界语音数据；

若不为自然语言，但通过语义场景模块检测判断出所述用户语音输入数据与当前对话有关联，则实时获取外界语音数据；

若不为自然语言，且通过语义场景模块检测判断出所述用户语音输入数据与当前对话无关联，则得出所述用户语音输入数据为背景杂音，采用自动降噪法自动过滤所述用户语音输入数据。

3.如权利要求2所述的语音聊天协同处理方法，其特征在于，采用对话系统模型对所述外界语音数据进行处理之前，所述方法还包括：

启动延迟计时器，将所述外界语音数据转换为当前文字；

若所述当前文字是起始词，则不过滤所述外界语音数据；

若所述当前文字不是起始词，则判断所述当前文字是否已经识别出、或者预测出预设字数以上、或者所述当前文字的持续时间超出最大可延迟时间；

若所述当前文字未识别出、或者未预测出预设字数以上、或者所述当前文字的持续时间未超出最大可延迟时间，则获取当前参与者的过滤可能性估计结果，并根据所述过滤可能性估计结果调低所述外界语音数据；

若所述当前文字已经识别出、或者预测出预设字数以上、或者所述当前文字的持续时间超出最大可延迟时间，则采用对话系统模型对所述外界语音数据进行处理。

4.如权利要求3所述的语音聊天协同处理方法，其特征在于，所述方法包括根据当前参与者在本次及有记载的历史会议中实际被过滤的次数，获取所述当前参与者的过滤可能性估计结果；其中，所述当前参与者对应于所述外界语音数据。

5.一种语音聊天协同处理方法，其特征在于，包括：

若所述当前文字不是起始词，且所述当前文字已经识别出、或者预测出预设字数以上、或者所述当前文字的持续时间超出最大可延迟时间，则采用语义关联模型对所述第二语音数据进行处理。

6.如权利要求5所述的语音聊天协同处理方法，其特征在于，获取第一用户的第一语音数据，并对所述第一语音数据进行处理以得到处理结果，具体包括：

获取第一用户的第一语音数据和用户图像数据；

将所述第一语音数据送入语音识别模块进行识别；

根据所述用户图像数据判断用户当前是否为发言状态；

若不为自然语言，且所述第一语音数据与当前对话无关联，则得出所述第一语音数据为背景杂音，采用自动降噪法自动过滤所述第一语音数据。

7.如权利要求6所述的语音聊天协同处理方法，其特征在于，采用对话系统模型对所述第二语音数据进行处理，具体包括：

获取所有参与者的语音转文字历史数据；

判断所述语音转文字历史数据中是否有疑问句；

若无疑问句，则执行语义关联步骤；

所述语义关联步骤具体为：

8.一种语音聊天协同处理方法，其特征在于，包括：

获取所有参与者某一时刻对应的所有的语音输入；

将每一个参与者端所有的语音输入送入基于自然语言的语音识别系统中，获取语义信息；

根据预设规则或模型，判断输入语义，并根据上下文关系进行判断是否跟当前对话相关，如果不相关则过滤。

9.一种基于端到端模型的语音聊天协同处理方法，其特征在于，包括：

数据采集步骤：获取用户语音及图像输入数据；在同一时刻，获取其他参与者的语音及图像输入数据和语音转文字历史数据；

模型识别步骤：将所述用户语音及图像输入数据、其他参与者的语音及图像输入数据、语音转文字历史数据输入端到端的深度学习模型进行识别；

10.一种语音聊天协同处理装置，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-9任一项所述的方法。