CN112634879B - 语音会议管理方法、装置、设备及介质 - Google Patents

语音会议管理方法、装置、设备及介质 Download PDF

Info

Publication number
CN112634879B
CN112634879B CN202011508387.3A CN202011508387A CN112634879B CN 112634879 B CN112634879 B CN 112634879B CN 202011508387 A CN202011508387 A CN 202011508387A CN 112634879 B CN112634879 B CN 112634879B
Authority
CN
China
Prior art keywords
audio stream
voice
recognition engine
text content
voice recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011508387.3A
Other languages
English (en)
Other versions
CN112634879A (zh
Inventor
罗振阳
薛红星
翁伟东
胡玮
李坚明
方尹为
汤强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCB Finetech Co Ltd
Original Assignee
CCB Finetech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCB Finetech Co Ltd filed Critical CCB Finetech Co Ltd
Priority to CN202011508387.3A priority Critical patent/CN112634879B/zh
Publication of CN112634879A publication Critical patent/CN112634879A/zh
Application granted granted Critical
Publication of CN112634879B publication Critical patent/CN112634879B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本申请提供了一种语音会议管理方法、装置、设备及介质,语音会议方法包括:通过麦克风阵列获取参会人员的音频流,并将所述音频流输入到预先训练好的语音识别引擎;通过所述语音识别引擎生成所述音频流对应的文字内容;响应于用户针对所述文字内容的编辑操作,生成会议纪要。可以将会议发言人的讲话内容实时的转写成文字,工作人员可以在会议过程中进行简单的编辑、角色分离和重点标记,会议结束后即可快速成稿,有效减轻人员工作量、提升办公效率。

Description

语音会议管理方法、装置、设备及介质
技术领域
本申请涉及语音处理的技术领域,具体而言,本申请涉及一种语音会议管理方法、装置、设备及介质。
背景技术
会议纪要整理工作,当前主要由本单位的秘书人员承担,很多重要会议及外出开会,对会议纪要的出稿质量和出稿效率要求很高,一般需要投入多个人保障出稿工作,且纪要的准确性及完整性校对困难。具体来说,当前很多外出会议或保密性高的会议,因环境及会议性质的限制,多采用录播设备或录音笔先录音,然后再回听整理的方式,当前主要通过反复听打的方式完成,工作量大且效率不高。
发明内容
本申请针对现有方式的缺点,提出一种语音会议管理方法、装置、设备及介质,用以解决上述至少一个技术问题。
一方面,本申请实施例提供了一种语音会议方法,包括:
通过麦克风阵列获取参会人员的音频流,并将所述音频流输入到预先训练好的语音识别引擎;
通过所述语音识别引擎生成所述音频流对应的文字内容;
响应于用户针对所述文字内容的编辑操作,生成会议纪要。
在本申请的一种实施例提供的语音会议方法中,在所述将所述音频流输入到预先训练好的语音识别引擎,包括:
通过预设的降噪算法确定出所述音频流中人声信号和所述噪声信号;
消除所述音频流中所述噪声信号,将消除所述噪声信号后的音频流输入到预先训练好的语音识别引擎。
在本申请的一种实施例提供的语音会议方法中,所述将消除所述噪声信号后的音频流输入到预先训练好的语音识别引擎,包括:
对所述音频流中所述人声信号进行人声增强处理;
所述将消除所述噪声信号、且已进行所述人声增强处理后的音频流输入到预先训练好的语音识别引擎。
在本申请的一种实施例提供的语音会议方法中,所述将所述音频流输入到预先训练好的语音识别引擎,包括:
在所述音频流中确定出包括人声信号的目标音频流,将所述目标音频流输入到预先训练好的语音识别引擎。
在本申请的一种实施例提供的语音会议方法中,所述在所述音频流中确定出包括人声信号的目标音频流,将所述目标音频流输入到预先训练好的语音识别引擎,包括:
检测所述音频流中的人声信号;
在检测到所述人声信号的开始时刻,开始将所述第一时刻之后的音频流输入到预先训练好的语音识别引擎;
在检测到所述人声信号的结束时刻,停止将所述音频流输入到预先训练好的语音识别引擎。
在本申请的一种实施例提供的语音会议方法中,所述通过所述语音识别引擎生成所述音频流对应的文字内容,包括:所述通过所述语音识别引擎生成所述音频流对应的多组文字内容,确定出每组所述文字内容的置信度。
在本申请的一种实施例提供的语音会议方法中,所述语音会议方法还包括:基于每组所述文字内容的置信度确定出至少一组参考文字内容并进行展示;响应于用户的选择操作,在所述至少一组参考文字内容中确定出目标文字内容;
所述响应于用户针对所述文字内容的编辑操作,生成会议纪要,包括:响应于用户针对所述目标文字内容的编辑操作,生成会议纪要。
在本申请的一种实施例提供的语音会议方法中,所述通过所述语音识别引擎生成所述音频流对应的文字内容,包括:
根据预储的样本人声信号确定出所述音频流中每个人声信号的所述的发言人;
所述通过所述语音识别引擎生成所述音频流中每个人声信号的文字内容,并记录每个文字内容对应的发言人。
在本申请的一种实施例提供的语音会议方法中,所述通过所述语音识别引擎生成所述音频流对应的文字内容,包括:
检测设备运行状态,根据所述设备运行状态选择所述语音识别引擎的识别策略;
通过所述语音识别引擎被选择的识别策略生成所述音频流对应的文字内容。
在本申请的一种实施例提供的语音会议方法中,检测设备运行状态,根据所述设备运行状态选择所述语音识别引擎的识别策略,包括:
检测设备的CPU的负载;
当所述CPU的负载超过预设负载值时,选择所述语音识别引擎的第一识别策略;当所述CPU的负载未超过预设负载值时,选择所述语音识别引擎的第二识别策略。
在本申请的一种实施例提供的语音会议方法中,所述语音会议方法还包括:在检测到所述音频流中包含预设短语时,响应于所述预设短语对应的请求,与用户进行交互。
在本申请的一种实施例提供的语音会议方法中,所述语音识别引擎部署在服务器中;
所述将所述音频流输入到预先训练好的语音识别引擎,包括:将所述音频流输入到所述服务器中的预先训练好的语音识别引擎;
所述通过所述语音识别引擎生成所述音频流对应的文字内容,包括:接收所述服务器返回的所述音频流对应的文字内容。
另一方面,本申请实施例还提供了一种语音会议管理装置,语音会议管理装置包括音频获取模块、文字获取模块和纪要生成模块;
音频获取模块用于通过麦克风阵列获取参会人员的音频流,并将所述音频流输入到预先训练好的语音识别引擎;
文字获取模块用于通过所述语音识别引擎生成所述音频流对应的文字内容;
纪要生成模块用于响应于用户针对所述文字内容的编辑操作,生成会议纪要。
在本申请的一种实施例提供的语音会议方法中,在所述将所述音频流输入到预先训练好的语音识别引擎,包括:
通过预设的降噪算法确定出所述音频流中人声信号和所述噪声信号;
消除所述音频流中所述噪声信号,将消除所述噪声信号后的音频流输入到预先训练好的语音识别引擎。
在本申请的一种实施例提供的语音会议方法中,所述音频获取模块具体用于:对所述音频流中所述人声信号进行人声增强处理;所述将消除所述噪声信号、且已进行所述人声增强处理后的音频流输入到预先训练好的语音识别引擎。
在本申请的一种实施例提供的语音会议方法中,所述音频获取模块具体用于:在所述音频流中确定出包括人声信号的目标音频流,将所述目标音频流输入到预先训练好的语音识别引擎。
在本申请的一种实施例提供的语音会议方法中,所述音频获取模块具体用于:检测所述音频流中的人声信号;
在检测到所述人声信号的开始时刻,开始将所述第一时刻之后的音频流输入到预先训练好的语音识别引擎;
在检测到所述人声信号的结束时刻,停止将所述音频流输入到预先训练好的语音识别引擎。
在本申请的一种实施例提供的语音会议方法中,所述文字获取模块具体用于:所述通过所述语音识别引擎生成所述音频流对应的多组文字内容,确定出每组所述文字内容的置信度。
在本申请的一种实施例提供的语音会议方法中,所述文字获取模块还用于:基于每组所述文字内容的置信度确定出至少一组参考文字内容并进行展示;响应于用户的选择操作,在所述至少一组参考文字内容中确定出目标文字内容;
所述纪要生成模块具体用于:响应于用户针对所述目标文字内容的编辑操作,生成会议纪要。
在本申请的一种实施例提供的语音会议方法中,所述文字获取模块具体用于:根据预储的样本人声信号确定出所述音频流中每个人声信号的所述的发言人;
所述通过所述语音识别引擎生成所述音频流中每个人声信号的文字内容,并记录每个文字内容对应的发言人。
在本申请的一种实施例提供的语音会议方法中,所述文字获取模块具体用于:检测设备运行状态,根据所述设备运行状态选择所述语音识别引擎的识别策略;
通过所述语音识别引擎被选择的识别策略生成所述音频流对应的文字内容。
在本申请的一种实施例提供的语音会议方法中,所述文字获取模块具体用于:检测设备的CPU的负载;
当所述CPU的负载超过预设负载值时,选择所述语音识别引擎的第一识别策略;当所述CPU的负载未超过预设负载值时,选择所述语音识别引擎的第二识别策略。
在本申请的一种实施例提供的语音会议方法中,所述文字获取模块还用于:在检测到所述音频流中包含预设短语时,响应于所述预设短语对应的请求,与用户进行交互。
在本申请的一种实施例提供的语音会议方法中,所述语音识别引擎部署在服务器中;所述音频获取模块具体用于:将所述音频流输入到所述服务器中的预先训练好的语音识别引擎;
所述文字获取模块具体用于:接收所述服务器返回的所述音频流对应的文字内容。
另一方面,本申请实施例还提供了一种电子设备,电子设备包括存储器和处理器,所述处理器与所述存储器通信连接;所述存储器存储有计算机程序,所述计算机程序由所述处理器执行时,实现上述的语音会议管理方法。
另一方面,本申请实施例还提供了一种语音会议管理系统,语音会议管理系统包括麦克风阵列和终端设备;终端设备用于通过麦克风阵列获取参会人员的音频流,并将所述音频流输入到预先训练好的语音识别引擎;通过所述语音识别引擎生成所述音频流对应的文字内容;响应于用户针对所述文字内容的编辑操作,生成会议纪要。
另一方面,本申请实施例还提供了一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的语音会议管理方法。
本申请实施例提供的技术方案,至少具有如下有益效果:
本申请实施例提供的语音会议管理方法、装置、设备及介质,可以将会议发言人的讲话内容实时的转写成文字,工作人员可以在会议过程中进行简单的编辑、角色分离和重点标记,会议结束后即可快速成稿,有效减轻人员工作量、提升办公效率。
本申请附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本申请实施例提供的一种语音会议管理系统的硬件架构图;
图2是本申请实施例提供的另一种语音会议管理系统的硬件架构图;
图3是本申请实施例提供的语音会议管理系统的逻辑架构图;
图4为本申请实施例提供的一种语音会议管理方法的流程示意图;
图5为本申请实施例提供的一种语音会议管理装置的模块示意图;
图6为本申请实施例提供的一种电子设备的示意图。
具体实施方式
下面详细描述本申请,本申请的实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的部件或具有相同或类似功能的部件。此外,如果已知技术的详细描述对于示出的本申请的特征是不必要的,则将其省略。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
语音识别技术(Automatic Speech Recognition)是一种实现从“声音”到“文字”转换的技术,通过将人的语音直接转换成相应的文本以便计算机进行理解和产生相应的操作,并最终实现人与机器之间的自然语音交互。
图1是本申请实施例提供的一种语音会议管理系统的硬件架构图,如图1所示,语音会议管理系统包括麦克风阵列和终端设备。
终端设备用于通过麦克风阵列获取参会人员的音频流,并将所述音频流输入到预先训练好的语音识别引擎;通过所述语音识别引擎生成所述音频流对应的文字内容;响应于用户针对所述文字内容的编辑操作,生成会议纪要。
图2是本申请实施例提供的另一种语音会议管理系统的硬件架构图,如图2所示,语音会议管理系统包括麦克风阵列、终端设备和服务器,语音识别引擎部署在服务器中。
终端设备用于通过麦克风阵列获取参会人员的音频流,将所述音频流输入到所述服务器中的预先训练好的语音识别引擎;服务器通过所述语音识别引擎生成所述音频流对应的文字内容,之后将文字内容发送至终端设备;终端设备接收所述服务器返回的所述音频流对应的文字内容,响应于用户针对所述文字内容的编辑操作,生成会议纪要。
语音会议管理系统中的麦克风阵列可以采用Q8516A核心芯片进行噪声抑制、抑制混响,固定波束等算法运算,根据环形4麦克风采音进行阵列计算,主要优势在噪声、混响、多人发言场景下,精准记录每个人的发言,然后将音频上传到私有云端做识别。麦克风阵列通过麦克风收集发言人发出的声音,并将声音的模拟信号转为数字信号传给无线节点主机的录音服务。
服务器或终端设备中的语音识别引擎可以采用13000小时以上的连续语流数据训练而成的声学模型及先进的二遍解码技术,另外独有文本顺滑、标点识别、英文数字后处理等自然语言处理能力,能够让识别结果更加准确、规范。
语音会议管理系统还可以包括无线节点主机,无线节点主机负责提供无线路由服务以及音频接收服务,将会议室麦克风组建成局域网,并提供服务,将麦克风收集的音频转发给服务器或终端设备进行语音识别。
终端设备还可以用于部署录音服务和软件功能扩展。用户通过主控客户端进行会议的管理、关键词和禁忌词的添加、会议内容的编辑主要包括:一是控制实时会议开始、暂停、结束,会议列表查看,会议内容和音频导出、以及会议内容编辑、关键词和禁忌词的添加。
图3是本申请实施例提供的语音会议管理系统的逻辑架构图,如图3所示,语音会议管理系统采用分层的方式设计与建设,逻辑架构上共分为三层:基础设施层、平台层、应用层。
基础设施层提供基础计算能力、存储能力、网络支撑能力,保障整个系统安全、稳定、高效运行。
平台层提供中文语音转写、全文检索等智能语音与基础业务能力。
应用层针对中文语音转写提供控制管理终端实现对系统以及业务的管理,屏幕显示终端实现会议过程中结果展现给参会人员的功能;音频采集服务通过声卡、麦克风等硬件设备完成音频的实时采集。
下面以执行主体为终端设备为例,对语音会议管理方法进行介绍。图4为本申请实施例提供的一种语音会议管理方法的流程示意图,如图4所示,包括如下步骤:
S110:通过麦克风阵列获取参会人员的音频流,将所述音频流输入到预先训练好的语音识别引擎。
在本申请的一种实施例中,在获取到音频流之后,通过预设的降噪算法确定出所述音频流中人声信号和所述噪声信号;消除所述音频流中所述噪声信号,将消除所述噪声信号后的音频流输入到预先训练好的语音识别引擎。
在本申请的一种实施例中,所述将消除所述噪声信号后的音频流输入到预先训练好的语音识别引擎,包括:对所述音频流中所述人声信号进行人声增强处理;所述将消除所述噪声信号、且已进行所述人声增强处理后的音频流输入到预先训练好的语音识别引擎。
具体地,通过预设的降噪算法确定出所述音频流中人声信号和所述噪声信号;消除所述音频流中所述噪声信号,之后对所述音频流中所述人声信号进行人声增强处理;所述将消除所述噪声信号、且已进行所述人声增强处理后的音频流输入到预先训练好的语音识别引擎。
在本申请的一种实施例提供的语音会议方法中,所述将所述音频流输入到预先训练好的语音识别引擎,包括:在所述音频流中确定出包括人声信号的目标音频流,将所述目标音频流输入到预先训练好的语音识别引擎。
在本申请的一种实施例提供的语音会议方法中,所述在所述音频流中确定出包括人声信号的目标音频流,将所述目标音频流输入到预先训练好的语音识别引擎,包括:检测所述音频流中的人声信号;在检测到所述人声信号的开始时刻,开始将所述第一时刻之后的音频流输入到预先训练好的语音识别引擎;在检测到所述人声信号的结束时刻,停止将所述音频流输入到预先训练好的语音识别引擎。
例如,音频流的总长度为10秒,音频流中人声信号的开始时刻和结束时刻分别为第3秒和第8秒,在滴检测到所述人声信号的第3秒开始,将第3秒至第8秒的音频流输入到预先训练好的语音识别引擎,在第8秒时停止将所述音频流输入到预先训练好的语音识别引擎。
S120:通过所述语音识别引擎生成所述音频流对应的文字内容。
可选地,可以所述通过所述语音识别引擎生成所述音频流对应的多组文字内容,确定出每组所述文字内容的置信度。之后根据每组文字内容的置信度的值进行分析和后续处理。
可选地,根据预储的样本人声信号确定出所述音频流中每个人声信号的所述的发言人;所述通过所述语音识别引擎生成所述音频流中每个人声信号的文字内容,并记录每个文字内容对应的发言人。
例如,根据预储的样本人声信号a,确定出所述音频流中的某一个人声信号的发言人为人员a,将该文字内容对应的发言人记录为a;根据预储的样本人声信号b,确定出所述音频流中的某一个人声信号的发言人为人员b,将该文字内容对应的发言人记录为b。
在本申请的一种实施例提供的语音会议方法中,所述通过所述语音识别引擎生成所述音频流对应的文字内容,包括:检测设备运行状态,根据所述设备运行状态选择所述语音识别引擎的识别策略;通过所述语音识别引擎被选择的识别策略生成所述音频流对应的文字内容。
可算地,检测设备的CPU的负载;当所述CPU的负载超过预设负载值时,选择所述语音识别引擎的第一识别策略;当所述CPU的负载未超过预设负载值时,选择所述语音识别引擎的第二识别策略。
预设负载值可以根据实际的设计需要而定,当所述CPU的负载超过预设负载值时,确定系统繁忙,CPU占用较高,可以采用计算量较小但具有足够精度的识别策略以保证系统的响应速度;当所述CPU的负载未超过预设负载值时,确定在系统不繁忙,CPU占用较低,采用精度更高的识别策略以达到更优的识别效果。该功能能够在保障稳定运行的基础上,充分利用系统的计算资源,有利于降低客户的设备投资。
在本申请的一种实施例提供的语音会议方法中,所述语音会议方法还包括:在检测到所述音频流中包含预设短语时,响应于所述预设短语对应的请求,与用户进行交互。
S130:响应于用户针对所述文字内容的编辑操作,生成会议纪要。
可选地,在步骤S120中,当所述通过所述语音识别引擎生成所述音频流对应的多组文字内容,且确定出每组所述文字内容的置信度时,可以基于每组所述文字内容的置信度确定出至少一组参考文字内容并进行展示;响应于用户的选择操作,在所述至少一组参考文字内容中确定出目标文字内容。
可选地,所述响应于用户针对所述文字内容的编辑操作,生成会议纪要,包括:响应于用户针对所述目标文字内容的编辑操作,生成会议纪要。
例如,确定出音频流对应的5组文字内容,分别为文字内容a、文字内容b、文字内容c、文字内容d和文字内容e,5组文字内容的置信度分别为0.3、0.7、0.9、0.8和0.5。将置信度高于0.6的文字内容作为参考文字内容,则文字内容b、文字内容c和文字内容d均为参考文字内容。将文字内容b、文字内容c和文字内容d进行展示,当用户选择文字内容c时,则将文字内容c确定为目标文字内容。之后响应于用户针对所述文字内容c的编辑操作,生成会议纪要。
在本申请的一种实施例中,所述语音识别引擎部署在服务器中;所述将所述音频流输入到预先训练好的语音识别引擎,包括:将所述音频流输入到所述服务器中的预先训练好的语音识别引擎;
在本申请的一种实施例中,所述通过所述语音识别引擎生成所述音频流对应的文字内容,包括:接收所述服务器返回的所述音频流对应的文字内容。
下面以执行主体为终端设备和服务器为例,对语音会议管理方法进行介绍。该语音会议管理方法包括如下步骤:
A1:终端设备通过麦克风阵列获取参会人员的音频流,将所述音频流输入到服务器中预先训练好的语音识别引擎。
步骤A1的描述可以参照上述步骤S110中的描述,此处不再赘述。
A2:服务器通过所述语音识别引擎生成所述音频流对应的文字内容,之后将文字内容发送至终端设备。
步骤A2中有关通过所述语音识别引擎生成所述音频流对应的文字内容的描述可以参照上述步骤S120中的描述,此处不再赘述。
A3:终端设备接收所述服务器返回的所述音频流对应的文字内容,响应于用户针对所述文字内容的编辑操作,生成会议纪要。
步骤A3中有关响应于用户针对所述文字内容的编辑操作生成会议纪要的描述可以参照上述步骤S130中的描述,此处不再赘述。
本申请实施例提供的语音会议管理方法可以将会议发言人的讲话内容实时的转写成文字,工作人员可以在会议过程中进行简单的编辑、角色分离和重点标记,会议结束后即可快速成稿,有效减轻人员工作量、提升办公效率。
语音识别引擎可以满足大词汇量、与说话人无关的识别要求,可以支持数万条语法规模的词汇量;并能适应不同年龄、不同地域、不同人群、不同信道、不同终端和不同噪声环境的应用环境。
当用户与语音识别系统进行多次会话过程中,能够在线提取通话的语音特征,自动调整语音识别引擎的识别参数,使识别效果得到持续优化。
在语音识别引擎中,语音识别的槽(Slot)代表一个关键字,即在一次会话过程中可以识别说话人语音中包含的多个关键字,这可以提高语音识别应用的效率,增强用户体验。
基于同一发明构思,本申请实施例还提供了一种语音会议管理装置,如图5所示,语音会议管理装置包括音频获取模块201、文字获取模块202和纪要生成模块203。
音频获取模块201用于通过麦克风阵列获取参会人员的音频流,并将所述音频流输入到预先训练好的语音识别引擎;
文字获取模块202用于通过所述语音识别引擎生成所述音频流对应的文字内容;
纪要生成模块203用于响应于用户针对所述文字内容的编辑操作,生成会议纪要。
在本申请的一种实施例提供的语音会议装置中,在所述将所述音频流输入到预先训练好的语音识别引擎,包括:
通过预设的降噪算法确定出所述音频流中人声信号和所述噪声信号;
消除所述音频流中所述噪声信号,将消除所述噪声信号后的音频流输入到预先训练好的语音识别引擎。
在本申请的一种实施例提供的语音会议装置中,所述音频获取模块201具体用于:对所述音频流中所述人声信号进行人声增强处理;所述将消除所述噪声信号、且已进行所述人声增强处理后的音频流输入到预先训练好的语音识别引擎。
在本申请的一种实施例提供的语音会议装置中,所述音频获取模块201具体用于:在所述音频流中确定出包括人声信号的目标音频流,将所述目标音频流输入到预先训练好的语音识别引擎。
在本申请的一种实施例提供的语音会议装置中,所述音频获取模块201具体用于:检测所述音频流中的人声信号;
在检测到所述人声信号的开始时刻,开始将所述第一时刻之后的音频流输入到预先训练好的语音识别引擎;
在检测到所述人声信号的结束时刻,停止将所述音频流输入到预先训练好的语音识别引擎。
在本申请的一种实施例提供的语音会议装置中,所述文字获取模块202具体用于:所述通过所述语音识别引擎生成所述音频流对应的多组文字内容,确定出每组所述文字内容的置信度。
在本申请的一种实施例提供的语音会议装置中,所述文字获取模块202还用于:基于每组所述文字内容的置信度确定出至少一组参考文字内容并进行展示;响应于用户的选择操作,在所述至少一组参考文字内容中确定出目标文字内容;
所述纪要生成模块203具体用于:响应于用户针对所述目标文字内容的编辑操作,生成会议纪要。
在本申请的一种实施例提供的语音会议装置中,所述文字获取模块202具体用于:根据预储的样本人声信号确定出所述音频流中每个人声信号的所述的发言人;所述通过所述语音识别引擎生成所述音频流中每个人声信号的文字内容,并记录每个文字内容对应的发言人。
在本申请的一种实施例提供的语音会议装置中,所述文字获取模块202具体用于:检测设备运行状态,根据所述设备运行状态选择所述语音识别引擎的识别策略;通过所述语音识别引擎被选择的识别策略生成所述音频流对应的文字内容。
在本申请的一种实施例提供的语音会议装置中,所述文字获取模块202具体用于:检测设备的CPU的负载;当所述CPU的负载超过预设负载值时,选择所述语音识别引擎的第一识别策略;当所述CPU的负载未超过预设负载值时,选择所述语音识别引擎的第二识别策略。
在本申请的一种实施例提供的语音会议装置中,所述文字获取模块202还用于:在检测到所述音频流中包含预设短语时,响应于所述预设短语对应的请求,与用户进行交互。
在本申请的一种实施例提供的语音会议装置中,所述语音识别引擎部署在服务器中;所述音频获取模块201具体用于:将所述音频流输入到所述服务器中的预先训练好的语音识别引擎;
所述文字获取模块202具体用于:接收所述服务器返回的所述音频流对应的文字内容。
本申请实施例提供的语音会议管理装置,可以将会议发言人的讲话内容实时的转写成文字,工作人员可以在会议过程中进行简单的编辑、角色分离和重点标记,会议结束后即可快速成稿,有效减轻人员工作量、提升办公效率。
本申请实施例提供的语音会议管理装置,与前面的各实施例具有相同的发明构思,该语音会议管理装置中未详细示出的内容可参照前面的各实施例,在此不再赘述。
基于同一发明构思,本申请实施例还提供了一种电子设备,如图6所示,电子设备包括存储器和处理器,所述处理器与所述存储器通信连接;
所述存储器存储有计算机程序,所述计算机程序由所述处理器执行时,实现上述的语音会议管理方法。
可选地,处理器301和存储器303可以通过总线302相连。可选的,金融设备还可以包括收发器304。需要说明的是,实际应用中收发器304不限于一个,该金融设备的结构并不构成对本申请实施例的限定。
处理器301应用于本申请实施例中,用于实现上述方法实施例所示的方法。收发器304可以包括接收机和发射机,收发器304应用于本申请实施例中,用于执行时实现本申请实施例的金融设备与其他设备通信的功能。
处理器301可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器301也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线302可包括一通路,在上述组件之间传送信息。总线302可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线302可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器303可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的计算机程序并能够由计算机存取的任何其他介质,但不限于此。
本申请实施例提供的电子设备,与前面的各实施例具有相同的发明构思,该电子设备中未详细示出的内容可参照前面的各实施例,在此不再赘述。
基于同一发明构思,本申请实施例还提供了一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现上述的语音会议管理方法。
本申请实施例提供的计算机可读存储介质,与前面的各实施例具有相同的发明构思,该计算机可读存储介质中未详细示出的内容可参照前面的各实施例,在此不再赘述。
虽然上文描述的过程流程包括以特定顺序出现的多个操作,但是,应当清楚了解,这些过程可以包括更多或更少的操作,这些操作可以顺序执行或并行执行(例如使用并行处理器或多线程环境)。
本申请是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算机设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本说明书实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (14)

1.一种语音会议方法,其特征在于,包括:
通过麦克风阵列获取参会人员的音频流,并将所述音频流输入到预先训练好的语音识别引擎;
通过所述语音识别引擎生成所述音频流对应的文字内容;
响应于用户针对所述文字内容的编辑操作,生成会议纪要;
所述通过所述语音识别引擎生成所述音频流对应的文字内容,包括:检测设备运行状态,根据所述设备运行状态选择所述语音识别引擎的识别策略;所述检测设备运行状态包括检测设备的CPU的负载,当所述CPU的负载超过预设负载值时,选择所述语音识别引擎的第一识别策略,当所述CPU的负载未超过预设负载值时,选择所述语音识别引擎的第二识别策略;所述第一识别策略相较所述第二识别策略计算量较小,所述第二识别策略相较所述第一识别策略精度更高;
通过所述语音识别引擎被选择的识别策略生成所述音频流对应的文字内容。
2.根据权利要求1所述的语音会议方法,其特征在于,在所述将所述音频流输入到预先训练好的语音识别引擎,包括:
通过预设的降噪算法确定出所述音频流中人声信号和噪声信号;
消除所述音频流中所述噪声信号,将消除所述噪声信号后的音频流输入到预先训练好的语音识别引擎。
3.根据权利要求2所述的语音会议方法,其特征在于,所述将消除所述噪声信号后的音频流输入到预先训练好的语音识别引擎,包括:
对所述音频流中所述人声信号进行人声增强处理;
所述将消除所述噪声信号、且已进行所述人声增强处理后的音频流输入到预先训练好的语音识别引擎。
4.根据权利要求1所述的语音会议方法,其特征在于,所述将所述音频流输入到预先训练好的语音识别引擎,包括:
在所述音频流中确定出包括人声信号的目标音频流,将所述目标音频流输入到预先训练好的语音识别引擎。
5.根据权利要求4所述的语音会议方法,其特征在于,所述在所述音频流中确定出包括人声信号的目标音频流,将所述目标音频流输入到预先训练好的语音识别引擎,包括:
检测所述音频流中的人声信号;
在检测到所述人声信号的开始时刻,开始将所述开始时刻之后的音频流输入到预先训练好的语音识别引擎;
在检测到所述人声信号的结束时刻,停止将所述音频流输入到预先训练好的语音识别引擎。
6.根据权利要求1所述的语音会议方法,其特征在于,所述通过所述语音识别引擎生成所述音频流对应的文字内容,包括:所述通过所述语音识别引擎生成所述音频流对应的多组文字内容,确定出每组所述文字内容的置信度。
7.根据权利要求6所述的语音会议方法,其特征在于,
所述语音会议方法还包括:基于每组所述文字内容的置信度确定出至少一组参考文字内容并进行展示;响应于用户的选择操作,在所述至少一组参考文字内容中确定出目标文字内容;
所述响应于用户针对所述文字内容的编辑操作,生成会议纪要,包括:响应于用户针对所述目标文字内容的编辑操作,生成会议纪要。
8.根据权利要求1所述的语音会议方法,其特征在于,所述通过所述语音识别引擎生成所述音频流对应的文字内容,包括:
根据预储的样本人声信号确定出所述音频流中每个人声信号的发言人;
所述通过所述语音识别引擎生成所述音频流中每个人声信号的文字内容,并记录每个文字内容对应的发言人。
9.根据权利要求1所述的语音会议方法,其特征在于,所述语音会议方法还包括:在检测到所述音频流中包含预设短语时,响应于所述预设短语对应的请求,与用户进行交互。
10.根据权利要求1所述的语音会议方法,其特征在于,所述语音识别引擎部署在服务器中;
所述将所述音频流输入到预先训练好的语音识别引擎,包括:将所述音频流输入到所述服务器中的预先训练好的语音识别引擎;
所述通过所述语音识别引擎生成所述音频流对应的文字内容,包括:接收所述服务器返回的所述音频流对应的文字内容。
11.一种语音会议装置,其特征在于,包括:
音频获取模块,用于通过麦克风阵列获取参会人员的音频流,并将所述音频流输入到预先训练好的语音识别引擎;
文字获取模块,用于通过所述语音识别引擎生成所述音频流对应的文字内容;所述通过所述语音识别引擎生成所述音频流对应的文字内容,包括:检测设备运行状态,根据所述设备运行状态选择所述语音识别引擎的识别策略;所述检测设备运行状态包括检测设备的CPU的负载,当所述CPU的负载超过预设负载值时,选择所述语音识别引擎的第一识别策略,当所述CPU的负载未超过预设负载值时,选择所述语音识别引擎的第二识别策略;所述第一识别策略相较所述第二识别策略计算量较小,所述第二识别策略相较所述第一识别策略精度更高;通过所述语音识别引擎被选择的识别策略生成所述音频流对应的文字内容
纪要生成模块,用于响应于用户针对所述文字内容的编辑操作,生成会议纪要。
12.一种电子设备,其特征在于,包括存储器和处理器,所述处理器与所述存储器通信连接;
所述存储器存储有计算机程序,所述计算机程序由所述处理器执行时,实现如权利要求1-10中任一项所述的语音会议方法。
13.一种语音会议管理系统,其特征在于,包括:
麦克风阵列;
终端设备,用于通过麦克风阵列获取参会人员的音频流,并将所述音频流输入到预先训练好的语音识别引擎;通过所述语音识别引擎生成所述音频流对应的文字内容,包括:检测设备运行状态,根据所述设备运行状态选择所述语音识别引擎的识别策略;所述检测设备运行状态包括检测设备的CPU的负载,当所述CPU的负载超过预设负载值时,选择所述语音识别引擎的第一识别策略,当所述CPU的负载未超过预设负载值时,选择所述语音识别引擎的第二识别策略;所述第一识别策略相较所述第二识别策略计算量较小,所述第二识别策略相较所述第一识别策略精度更高;通过所述语音识别引擎被选择的识别策略生成所述音频流对应的文字内容;
响应于用户针对所述文字内容的编辑操作,生成会议纪要。
14.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-10中任一项所述的语音会议方法。
CN202011508387.3A 2020-12-18 2020-12-18 语音会议管理方法、装置、设备及介质 Active CN112634879B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011508387.3A CN112634879B (zh) 2020-12-18 2020-12-18 语音会议管理方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011508387.3A CN112634879B (zh) 2020-12-18 2020-12-18 语音会议管理方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN112634879A CN112634879A (zh) 2021-04-09
CN112634879B true CN112634879B (zh) 2023-06-27

Family

ID=75317428

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011508387.3A Active CN112634879B (zh) 2020-12-18 2020-12-18 语音会议管理方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN112634879B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116863966B (zh) * 2023-09-01 2024-01-12 广东保伦电子股份有限公司 一种单路引擎多麦克风语音转写系统与角色分离方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103871409B (zh) * 2012-12-17 2018-01-23 联想(北京)有限公司 一种语音识别的方法、信息处理的方法及电子设备
CN106057193A (zh) * 2016-07-13 2016-10-26 深圳市沃特沃德股份有限公司 基于电话会议的会议记录生成方法和装置
CN108416565A (zh) * 2018-01-25 2018-08-17 北京云知声信息技术有限公司 会议记录方法
CN108335697A (zh) * 2018-01-29 2018-07-27 北京百度网讯科技有限公司 会议记录方法、装置、设备及计算机可读介质
CN110049270B (zh) * 2019-03-12 2023-05-30 平安科技(深圳)有限公司 多人会议语音转写方法、装置、系统、设备及存储介质
CN110517674A (zh) * 2019-07-26 2019-11-29 视联动力信息技术股份有限公司 一种语音处理方法、装置及存储介质
CN110619897A (zh) * 2019-08-02 2019-12-27 精电有限公司 一种会议纪要生成的方法及车载录音系统
CN110889266A (zh) * 2019-11-21 2020-03-17 北京明略软件系统有限公司 一种会议记录整合方法和装置
CN111627446A (zh) * 2020-05-29 2020-09-04 国网浙江省电力有限公司信息通信分公司 一种基于智能语音识别技术的通信会议系统
CN112037791B (zh) * 2020-08-12 2023-01-13 广东电力信息科技有限公司 会议纪要转录方法、设备和存储介质

Also Published As

Publication number Publication date
CN112634879A (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
US11894014B2 (en) Audio-visual speech separation
CN107911646B (zh) 一种会议分享、生成会议记录的方法及装置
US8204759B2 (en) Social analysis in multi-participant meetings
US9256860B2 (en) Tracking participation in a shared media session
WO2020238209A1 (zh) 音频处理的方法、系统及相关设备
CN106471802A (zh) 视频会议中的实时视频变换
JP2020003774A (ja) 音声を処理する方法及び装置
Tao et al. Bimodal Recurrent Neural Network for Audiovisual Voice Activity Detection.
CN107767873A (zh) 一种快速准确的离线语音识别装置及方法
KR20230098266A (ko) 통화들 및 오디오 메시지들로부터 다른 화자들의 음성 필터링
JP2024507916A (ja) オーディオ信号の処理方法、装置、電子機器、及びコンピュータプログラム
CN112634879B (zh) 语音会议管理方法、装置、设备及介质
US11783836B2 (en) Personal electronic captioning based on a participant user's difficulty in understanding a speaker
CN114373472A (zh) 一种音频降噪方法、设备、系统及存储介质
JP2016045253A (ja) データ構造、音声対話装置及び電子機器
US20210249033A1 (en) Speech processing method, information device, and computer program product
US10559310B2 (en) Automated audio data selector
CN115294987A (zh) 一种会议记录生成方法、装置、设备及存储介质
US20220201121A1 (en) System, method and apparatus for conversational guidance
CN115472174A (zh) 声音降噪方法和装置、电子设备和存储介质
CN117059068A (zh) 语音处理方法、装置、存储介质及计算机设备
CN112837688B (zh) 语音转写方法、装置、相关系统及设备
CN113312928A (zh) 文本翻译方法、装置、电子设备和存储介质
CN113517002A (zh) 信息处理方法、装置以及系统、会议端、服务器
US20230267942A1 (en) Audio-visual hearing aid

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant