CN116472705A - 一种会议内容显示的方法、会议系统及会议设备 - Google Patents
一种会议内容显示的方法、会议系统及会议设备 Download PDFInfo
- Publication number
- CN116472705A CN116472705A CN202180003469.9A CN202180003469A CN116472705A CN 116472705 A CN116472705 A CN 116472705A CN 202180003469 A CN202180003469 A CN 202180003469A CN 116472705 A CN116472705 A CN 116472705A
- Authority
- CN
- China
- Prior art keywords
- voice
- conference
- text
- information
- terminal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000013519 translation Methods 0.000 claims description 34
- 238000004891 communication Methods 0.000 claims description 18
- 238000012986 modification Methods 0.000 claims description 16
- 230000004048 modification Effects 0.000 claims description 16
- 238000007792 addition Methods 0.000 claims description 11
- 238000012217 deletion Methods 0.000 claims description 11
- 230000037430 deletion Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 10
- 238000003860 storage Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 description 16
- 230000006870 function Effects 0.000 description 15
- 238000012545 processing Methods 0.000 description 11
- 230000003993 interaction Effects 0.000 description 8
- 238000012216 screening Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 230000000153 supplemental effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000004806 packaging method and process Methods 0.000 description 2
- 230000003252 repetitive effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
Abstract
本公开提出了一种会议内容显示的方法、会议系统及会议设备,用于解决远场拾音无法分离出多人同时讲话的内容,同时避免了增加参会人麦克风的硬件成本。该方法包括:确定参会用户的终端采集的语音信息对应的语音文本;显示与所述语音文本相关的会议内容。
Description
本公开涉及智慧会议技术领域,特别涉及一种会议内容显示的方法、会议系统及会议设备。
近年来,会议白板的销量逐年增加,商用平板市场依然保持较高的增长态势。远程办公的常态化催生了对会议白板的需求,也是办公会议数字化转型的表现。《行业用户调研数据表明用户2020中国智能设备办公体验趋势报告》期待人工智能(Artificial Intelligence,AI)技术能在办公领域能够有更加丰富的应用,89%的用户期待AI应用到分析优化工作中,如AI语音识别;74%的用户期待AI能够完成更多重复性工作,如自动形成会议记录;大多数用户希望利用AI技术可以减轻人工整合数据的负担。
当前市场中会议机的会议系统主要依赖于会议机麦克,会议机麦克拾音属于远场拾音,因此对参会人员的说话音量以及会议室噪音都有严格要求,语音识别的结果容易受到外界噪声的干扰,并且,如果存在多个参会人员一同讲话的情况,由于无法分离每个人所说的内容,导致语音识别出错,不仅无法将参会人员的语音文本实时在显示屏进行显示,而且无法根据语音识别的结果生成会议记录。
发明内容
本公开提供一种会议内容显示的方法、会议系统及其会议设备,用于解决远场拾音无法分离出多人同时讲话的内容,同时避免了增加参会人麦克风的硬件成本。
第一方面,本公开实施例提供的一种会议内容显示的方法,包括:
确定参会用户的终端采集的语音信息对应的语音文本;
显示与所述语音文本相关的会议内容。
作为一种可选的实施方式,所述确定参会用户的终端采集的语音信息对应的语音文本,包括:
接收所述终端采集的语音信息,对所述语音信息进行语音识别,确定所述语音信息对应的语音文本。
作为一种可选的实施方式,所述确定参会用户的终端采集的语音信息对应的语音文本,包括:
接收语音文本,将接收的所述语音文本确定为所述语音信息对应的语音文本。
作为一种可选的实施方式,所述接收语音文本,包括:
接收服务器发送的语音文本;或,
接收终端发送的语音文本。
作为一种可选的实施方式,所述对所述语音信息进行语音识别,确定所述语音信息对应的语音文本,包括:
通过连接的边缘端设备,对所述语音信息进行语音识别,确定所述语音信息对应的语音文本。
作为一种可选的实施方式,所述服务器发送的语音文本,是所述服务器接收所述终端发送的语音信息,并对所述语音信息进行语音识别得到的;或,
所述服务器发送的语音文本,是所述服务器接收会议设备转发的所述终端的语音信息,并对所述语音信息进行语音识别得到的。
作为一种可选的实施方式,所述终端发送的语音文本,是所述终端将语音信息发送给服务器进行语音识别,并接收所述服务器发送的语音文本得到的;或,
所述终端发送的语音文本,是所述终端对语音信息进行语音识别得到的。
作为一种可选的实施方式,所述语音文本是根据所述参会用户的终端采集的语音信息中,音量满足条件的语音信息确定的。
作为一种可选的实施方式,所述接收所述终端采集的语音信息,包括:
建立与所述终端的通信连接,通过流式传输方式,接收所述终端采集的语音信息。
作为一种可选的实施方式,所述语音文本还包括用户信息,所述用户信息是根据所述语音信息对应的声纹特征确定的,所述声纹特征是对所述语音信息进行声纹识别得到的。
作为一种可选的实施方式,所述确定参会用户的终端采集的语音信息对应的语音文本之后,该方法还包括:
根据所述语音文本,生成会议记录;或,
根据所述语音文本以及所述语音文本对应的用户信息,生成会议记录。
作为一种可选的实施方式,所述生成会议记录之后,该方法还包括:
根据文本摘要算法对所述会议记录中的关键信息进行识别,根据识别得到的所述关键信息生成会议纪要;或,
将所述会议记录发送给所述服务器,以使所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并接收所述服务器发送的所述会议纪要;或,
将所述会议记录通过所述终端转发给所述服务器,以使所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并接收所述服务器通过所述终端转发的所述会议纪要。
作为一种可选的实施方式,该方法还包括:
生成与所述会议记录、所述会议纪要中的至少一种对应的下载链接地址。
作为一种可选的实施方式,所述生成会议记录之后,该方法还包括:
获取本地上传的语音文件,确定所述语音文件中上传语音信息对应的补充语音文本和补充声纹特征;
根据所述补充语音文本,以及所述补充声纹特征对应的补充用户信息,生成补充会议记录;
利用所述补充会议记录,对所述会议记录进行更新。
作为一种可选的实施方式,所述确定参会用户的终端采集的语音信息对 应的语音文本之后,该方法还包括:
直接将所述语音文本翻译为预设语言类型对应的翻译文本;或,
通过连接的边缘端设备,将所述语音文本翻译为预设语言类型对应的翻译文本;或,
将接收的服务器发送的翻译文本,确定为所述语音文本对应的翻译文本。
作为一种可选的实施方式,所述显示与所述语音文本相关的会议内容,包括如下任意一种或任意多种显示方式:
实时显示所述语音文本;
实时显示所述语音文本对应的用户名;
显示与所述语音文本相关的会议记录;
显示与所述语音文本相关的会议纪要;
实时显示所述语音文本翻译为预设语言类型的翻译文本;
显示与所述语音文本相关的会议记录对应的下载链接地址;
显示与所述语音文本相关的会议纪要对应的下载链接地址。
作为一种可选的实施方式,所述显示与所述语音文本相关的会议内容之后,该方法还包括:
响应于用户对所述会议记录、会议纪要中的至少一种的第二编辑指令,对所述第二编辑指令对应的内容进行对应的编辑操作,所述编辑操作包括修改、添加、删除中的至少一种。
第二方面,本公开实施例提供的一种会议系统,包括用户终端、会议设备,其中:
所述用户终端,用于采集语音信息;
所述会议设备,用于确定所述用户终端采集的语音信息对应的语音文本;并显示与所述语音文本相关的会议内容。
作为一种可选的实施方式,
所述用户终端将采集的语音信息发送给所述会议设备;所述会议设备对所述语音信息进行语音识别得到语音文本。
作为一种可选的实施方式,还包括服务器:
所述用户终端将采集的语音信息发送给所述服务器,所述服务器对所述语音信息进行语音识别得到语音文本,将所述语音文本发送给所述用户终端,并由所述用户终端将所述语音文本发送给所述会议设备;或,
所述用户终端将采集的语音信息发送给所述会议设备,并由所述会议设备将所述语音信息转发给所述服务器,所述服务器对所述语音信息进行语音识别得到语音文本,将所述语音文本发送给所述会议设备。
作为一种可选的实施方式,所述用户终端还用于:
对采集的语音信息进行语音识别得到语音文本,将所述语音文本发送给所述会议设备。
作为一种可选的实施方式,所述语音文本是根据所述用户终端采集的语音信息中,音量满足条件的语音信息确定的。
作为一种可选的实施方式,所述声纹特征是根据所述用户终端采集的语音信息中,音量满足条件的语音信息确定的。
作为一种可选的实施方式,所述会议设备通过连接的边缘端设备,对所述语音信息进行语音识别得到语音文本。
所述会议设备建立与所述用户终端的通信连接,通过流式传输方式,接收所述用户终端采集的语音信息。
作为一种可选的实施方式,所述语音文本还包括用户信息,所述用户信息是根据所述语音信息对应的声纹特征确定的,所述声纹特征是对所述语音信息进行声纹识别得到的。
作为一种可选的实施方式,所述会议设备还用于:
根据所述语音文本,生成会议记录;或,
根据所述语音文本以及所述语音文本对应的用户名,生成会议记录。
作为一种可选的实施方式,
所述会议设备根据文本摘要算法对所述会议记录中的关键信息进行识别,根据识别得到的所述关键信息生成会议纪要;或,
所述会议设备将所述会议记录发送给所述服务器,所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并将所述会议纪要发送给所述会议设备;或,
所述会议设备将所述会议记录通过所述终端转发给所述服务器,所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并将所述会议纪要通过所述终端转发给所述会议设备。
作为一种可选的实施方式,所述会议设备还用于:
生成与所述会议记录、所述会议纪要中的至少一种对应的下载链接地址。
作为一种可选的实施方式,
所述会议设备将所述语音文本翻译为预设语言类型对应的翻译文本;或,
所述会议设备通过连接的边缘端设备,将所述语音文本翻译为预设语言类型对应的翻译文本;或,
所述服务器将所述语音文本翻译为预设语言类型对应的翻译文本,并将所述翻译文本发送给所述会议设备。
作为一种可选的实施方式,所述会议设备还用于通过如下任意一种或任意多种显示方式,显示与所述语音文本相关的会议内容:
实时显示所述语音文本;
实时显示所述语音文本对应的用户名;
显示与所述语音文本相关的会议记录;
显示与所述语音文本相关的会议纪要;
实时显示所述语音文本翻译为预设语言类型的翻译文本;
显示与所述语音文本相关的会议记录对应的下载链接地址;
显示与所述语音文本相关的会议纪要对应的下载链接地址。
第三方面,本公开实施例提供的一种会议设备,包括处理器和存储器,所述存储器用于存储所述处理器可执行的程序,所述处理器用于读取所述存储器中的程序并执行如下步骤:
确定参会用户的终端采集的语音信息对应的语音文本;
显示与所述语音文本相关的会议内容。
作为一种可选的实施方式,所述处理器具体被配置为执行:
接收所述终端采集的语音信息,对所述语音信息进行语音识别,确定所述语音信息对应的语音文本。
作为一种可选的实施方式,所述处理器具体被配置为执行:
接收语音文本,将接收的所述语音文本确定为所述语音信息对应的语音文本。
作为一种可选的实施方式,所述处理器具体被配置为执行:
接收服务器发送的语音文本;或,
接收终端发送的语音文本。
作为一种可选的实施方式,所述处理器具体被配置为执行:
通过连接的边缘端设备,对所述语音信息进行语音识别,确定所述语音信息对应的语音文本。
作为一种可选的实施方式,
所述服务器发送的语音文本,是所述服务器接收所述终端发送的语音信息,并对所述语音信息进行语音识别得到的;或,
所述服务器发送的语音文本,是所述服务器接收会议设备转发的所述终端的语音信息,并对所述语音信息进行语音识别得到的。
作为一种可选的实施方式,
所述终端发送的语音文本,是所述终端将语音信息发送给服务器进行语音识别,并接收所述服务器发送的语音文本得到的;或,
所述终端发送的语音文本,是所述终端对语音信息进行语音识别得到的。
作为一种可选的实施方式,
所述语音文本是根据所述参会用户的终端采集的语音信息中,音量满足条件的语音信息确定的。
作为一种可选的实施方式,所述处理器具体被配置为执行:
建立与所述终端的通信连接,通过流式传输方式,接收所述终端采集的 语音信息。
作为一种可选的实施方式,所述语音文本还包括用户信息,所述用户信息是根据所述语音信息对应的声纹特征确定的,所述声纹特征是对所述语音信息进行声纹识别得到的。
作为一种可选的实施方式,所述确定参会用户的终端采集的语音信息对应的语音文本之后,所述处理器具体还被配置为执行:
根据所述语音文本,生成会议记录;或,
根据所述语音文本以及所述语音文本对应的用户信息,生成会议记录。
作为一种可选的实施方式,所述生成会议记录之后,所述处理器具体还被配置为执行:
根据文本摘要算法对所述会议记录中的关键信息进行识别,根据识别得到的所述关键信息生成会议纪要;或,
将所述会议记录发送给所述服务器,以使所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并接收所述服务器发送的所述会议纪要;或,
将所述会议记录通过所述终端转发给所述服务器,以使所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并接收所述服务器通过所述终端转发的所述会议纪要。
作为一种可选的实施方式,所述处理器具体还被配置为执行:
生成与所述会议记录、所述会议纪要中的至少一种对应的下载链接地址。
作为一种可选的实施方式,所述生成会议记录之后,所述处理器具体还被配置为执行:
获取本地上传的语音文件,确定所述语音文件中上传语音信息对应的补充语音文本和补充声纹特征;
根据所述补充语音文本,以及所述补充声纹特征对应的补充用户信息,生成补充会议记录;
利用所述补充会议记录,对所述会议记录进行更新。
作为一种可选的实施方式,所述确定参会用户的终端采集的语音信息对应的语音文本之后,所述处理器具体还被配置为执行:
直接将所述语音文本翻译为预设语言类型对应的翻译文本;或,
通过连接的边缘端设备,将所述语音文本翻译为预设语言类型对应的翻译文本;或,
将接收的服务器发送的翻译文本,确定为所述语音文本对应的翻译文本。
作为一种可选的实施方式,所述处理器具体被配置为执行:
实时显示所述语音文本;
实时显示所述语音文本对应的用户名;
显示与所述语音文本相关的会议记录;
显示与所述语音文本相关的会议纪要;
实时显示所述语音文本翻译为预设语言类型的翻译文本;
显示与所述语音文本相关的会议记录对应的下载链接地址;
显示与所述语音文本相关的会议纪要对应的下载链接地址。
作为一种可选的实施方式,所述显示与所述语音文本相关的会议内容之后,所述处理器具体还被配置为执行:
响应于用户对所述会议记录、会议纪要中的至少一种的第二编辑指令,对所述第二编辑指令对应的内容进行对应的编辑操作,所述编辑操作包括修改、添加、删除中的至少一种。
第四方面,本公开实施例还提供计算机存储介质,其上存储有计算机程序,该程序被处理器执行时用于实现上述第一方面所述方法的步骤。
本公开的这些方面或其他方面在以下的实施例的描述中会更加简明易懂。
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性 的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的一种会议内容显示的实施流程图;
图2为本公开实施例提供的一种会议系统示意图;
图3为本公开实施例提供的一种会议记录方法的实施流程图;
图4为本公开实施例提供的一种具体的会议记录的流程图;
图5为本公开实施例提供的一种会议设备示意图;
图6为本公开实施例提供的一种会议内容显示的装置示意图。
为了使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开作进一步地详细描述,显然,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本公开保护的范围。
本公开实施例中术语“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本公开实施例描述的应用场景是为了更加清楚的说明本公开实施例的技术方案,并不构成对于本公开实施例提供的技术方案的限定,本领域普通技术人员可知,随着新应用场景的出现,本公开实施例提供的技术方案对于类似的技术问题,同样适用。其中,在本公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。
近年来,会议白板的销量逐年增加,商用平板市场依然保持较高的增长态势。远程办公的常态化催生了对会议白板的需求,也是办公会议数字化转型的表现。《行业用户调研数据表明用户2020中国智能设备办公体验趋势报告》期待人工智能(Artificial Intelligence,AI)技术能在办公领域能够有更加丰富的应用,89%的用户期待AI应用到分析优化工作中,如AI语音识别; 74%的用户期待AI能够完成更多重复性工作,如自动形成会议记录;大多数用户希望利用AI技术可以减轻人工整合数据的负担。当前市场中会议机的会议系统主要依赖于会议机麦克,会议机麦克拾音属于远场拾音,因此对参会人员的说话音量以及会议室噪音都有严格要求,语音识别的结果容易受到外界噪声的干扰,并且,如果存在多个参会人员一同讲话的情况,由于无法准确地分离每个人所说的内容,导致语音识别出错,无法将参会人员的语音文本实时在会议机的显示屏上进行显示,无法实现语音文本的实时上屏功能,最终导致无法根据语音识别的结果生成会议记录。
实施例1、本公开实施例提供的一种会议记录方法,核心思想是利用参会用户各自的终端进行终端拾音,由于目前终端已经成为日常必需品,由于在参会用户发言的场景下,基于终端拾音得到的音量通常都能够满足语音识别的最小音量要求,因此基于终端拾音不仅能够解决远场拾音对说话音量和噪音的要求较高的问题,而且也能够避免在参会人员较多的情况下,增加参会人麦克风的硬件成本。
本公开实施例提供的一种会议记录方法,通过参会人的终端采集对应的参会人的语音信息,从而将采集的参会人的语音信息进行语音识别,由于通过终端采集该参会人的语音信息,因此采集的语音信息属于近场拾音,能够满足音量、噪音等要求,提高语音识别的准确性,能够在多人同时讲话的情况下仍可以实现参会用户的语音文本实时上屏显示的功能,并进一步生成准确地会议记录,提供一种成本小,更加便携、准确的自动进行会议记录的方案。
如图1所示,本公开实施例提供的一种会议内容显示的方法,应用于会议设备,本实施例中涉及到的会议设备、终端之间可以通过蓝牙、WIFI等多种无线方式实现通信连接,该方法的实施流程如下所示:
步骤100、确定参会用户的终端采集的语音信息对应的语音文本;
步骤101、显示与所述语音文本相关的会议内容。
在一些实施例中,会议设备通过如下任意一种或任意多种方式确定语音 文本:
方式1)会议设备自身进行语音识别得到语音文本。
在一些实施例中,接收所述终端采集的语音信息,对所述语音信息进行语音识别,确定所述语音信息对应的语音文本。
在一些实施例中,会议设备可以自身对所述语音信息进行语音识别,确定所述语音信息对应的语音文本;会议设备还可以通过连接的边缘端设备,对所述语音信息进行语音识别,确定所述语音信息对应的语音文本。其中,边缘端设备包括但不限于边缘开发板、OPS(Open Pluggable Specification,开放式可插接规范)中的至少一种,本实施例对此不作过多限定。
在一些实施例中,会议设备可以接收语音文本,并不需要会议设备自身进行语音识别,将接收的语音文本进行实时显示,并生成会议记录,具体接收的方式包括但不限于:接收服务器发送的语音文本;或,接收终端发送的语音文本。
方式2)服务器进行语音识别得到语音文本,服务器发送给会议设备。
在一些实施例中,服务器确定语音文本后,将语音文本发送给会议设备,会议设备将接收的服务器发送的语音文本,确定为所述语音信息对应的语音文本。
在一些实施例中,服务器可以通过如下任意一种或任意多种方式确定语音文本:
方式2a)服务器接收所述终端发送的语音信息,并对所述语音信息进行语音识别得到语音文本。
方式2b)服务器接收会议设备转发的所述终端的语音信息,并对所述语音信息进行语音识别得到语音文本。
方式3)服务器进行语音识别得到语音文本,终端发送给会议设备。
在一些实施例中,服务器确定语音文本后,将语音文本发送给终端,终端将接收的语音文本发送给会议设备,会议设备将接收的终端发送的语音文本,确定为所述语音信息对应的语音文本。
在一些实施例中,终端可以通过如下任意一种或任意多种方式确定语音文本:
方式3a)终端将语音信息发送给服务器进行语音识别,服务器进行语音识别后得到语音文本并发送给终端,终端接收所述服务器发送的语音文本;
方式3b)终端通过会议设备将语音信息转发给服务器进行语音识别,服务器进行语音识别后得到语音文本并发送给终端,终端接收所述服务器发送的语音文本。
方式4)终端进行语音识别得到语音文本,终端发送给会议设备。
实施中,终端采集语音信息后,对采集的语音信息进行语音识别,并将语音识别得到的语音文本发送给会议设备。
需要说明的是,目前的会议设备在使用时,存在无线网络接入困难的问题,由于企业在进行会议时存在保密要求,通常都会对会议设备的网络接入进行严格的控制,导致会议设备借助云服务器或云端设备进行语音识别、声纹识别、语音翻译、会议纪要生成等多种功能时,存在不便,因此,本实施例提供了一种可以借助连接的参会用户的终端实现接收语音文本并生成会议记录的方案,从而将终端进行语音识别得到的语音文本或者终端接收服务器的语音文本,发送给会议设备,避免会议设备和服务器的通信连接,保证会议的保密性。
在一些实施例中,在获取参会用户的终端采集的语音信息之前,可以先建立与各个参会用户的终端的通信连接,实施中,为了能够实时获取终端采集的语音流,可以建立与各个参会用户的终端的长连接,通过流式传输方式获取参会用户的终端采集的语音信息。
在一些实施例中,和终端建立通信连接的方式包括蓝牙、WIFI、还可以是通过在会议端显示会议二维码,并通过终端扫描该会议二维码的方式,确定建立和该终端的通信连接。本实施例对会议设备和终端的连接方式不作过多限定。
在一些实施例中,本实施例中的流式传输方式包括但不限于实时流式传 输(Realtime streaming)、顺序流式传输(progressive streaming)中的至少一种。本实施例能够实时获取终端采集的语音信息,从而能够对语音信息进行识别后,在会议端、终端中的至少一种设备上实时显示识别得到的语音文本,能够使得参会人员实时看到发言人员的内容,有效提高会议的交互效率和交互体验。
在一些实施例中,可以通过训练好的深度学习模型(如语音识别模型)对输入的语音信息进行语音识别,输入对应的语音文本。本实施例对具体如何进行语音识别的方式不作过多限定,本实施例对该深度学习模型的训练样本和训练过程不作过多限定。
为了更加准确地分离出不同参会人的语音信息,本实施例基于参会用户到终端的距离越远,该终端采集的该参会用户的音量越小的原理,可以预先对终端采集的语音信息进行初步筛选,然后从音量满足条件的语音信息中进行语音识别,从而更加准确地提取出语音信息,提高语音识别的准确性。
在一些实施例中,本实施例通过如下方式确定终端采集的语音信息的语音文本:
首先,对所述终端采集的语音信息进行筛选,得到音量满足条件的语音信息;实施中,可以筛选出音量最大的语音信息,或者从音量大于音量阈值的语音信息中筛选出最大的语音信息,本实施例对具体如何筛选出音量满足条件的实施方式不作过多限定,具体情况中,可以根据对获取语音的需求进行相应对音量满足条件的设定,本实施例对此不作过多限定。
其次,对所述音量满足条件的语音信息进行语音识别,确定所述语音信息的语音文本。实施中,参会用户通常为多个,那么对应的终端也为多个,针对任一个终端,都可能采集到发言用户的语音信息,那么可以根据音量对不同终端采集的语音信息进行筛选,从而对筛选后的语音信息进行识别。需要说明的是,由于多个发言人在讲话的过程中,每个发言人到该发言人的终端的距离通常是最近的,那么每个发言人的终端采集到的语音信息中的最大音量通常就是该发言人的语音信息,那么便可以通过音量,从不同的终端中 提取出对应的发言人的语音信息,从而将多个发言人同时讲话的语音信息进行分离,分离出每个发言人的语音信息,提高了语音识别的准确性,进而提高了会议记录的准确性。
在一些实施例中,所述语音文本是根据所述参会用户的终端采集的语音信息中,音量满足条件的语音信息确定的。实施中,具体可以通过如下任意一种或任意多种情况对语音信息进行筛选后识别:
情况1)会议设备筛选语音信息。
会议设备接收所述终端采集的语音信息,从采集的语音信息中筛选出音量满足条件的语音信息,对筛选出的语音信息进行语音识别,确定所述语音信息对应的语音文本。
情况2)服务器筛选语音信息。
服务器接收到采集的语音信息后,从采集的语音信息中筛选出音量满足条件的语音信息,对筛选出的语音信息进行语音识别,确定所述语音信息对应的语音文本。
情况3)终端筛选语音信息。
终端采集语音信息后,从采集的语音信息中筛选出音量满足条件的语音信息,将筛选出的语音信息发送给服务器进行语音识别,或,将筛选出的语音信息通过会议设备转发给服务器进行语音识别。
在一些实施例中,所述语音文本还包括用户信息,所述用户信息是根据所述语音信息对应的声纹特征确定的,所述声纹特征是对所述语音信息进行声纹识别得到的。本实施例在对所述终端采集的语音信息进行语音识别,确定所述语音信息的语音文本的同时,还可以对所述终端采集的语音信息进行声纹识别,确定所述语音信息对应的用户信息,从而根据所述语音信息的语音文本和对应的用户信息,生成会议记录。
可选的,确定参会用户的终端采集的语音信息对应的声纹特征,以及确定所述声纹特征对应的用户信息,其中用户信息包括用户名、部门、公司名等。
在一些实施例中,本实施例通过如下任意一种或任意多种方式确定声纹特征:
方式1、会议设备进行声纹识别。
实施中,接收所述终端采集的语音信息,对所述语音信息进行声纹识别,确定所述语音信息对应的声纹特征。
方式2、服务器进行声纹识别,服务器发送。
实施中,将接收的服务器发送的声纹特征,确定为所述语音信息对应的声纹特征。
在一些实施例中,服务器接收所述终端发送的语音信息,并对所述语音信息进行声纹识别得到声纹特征,将声纹特征发送给会议设备。
在一些实施例中,服务器接收会议设备转发的所述终端的语音信息,并对所述语音信息进行声纹识别得到声纹特征,将声纹特征发送给会议设备。
方式3、服务器进行声纹识别,终端发送。
实施中,将接收的终端发送的声纹特征,确定为所述语音信息对应的声纹特征。
在一些实施例中,终端将语音信息发送给服务器进行声纹识别,并接收所述服务器发送的声纹特征,终端将该声纹特征发送给会议设备。
在一些实施例中,终端通过会议设备将语音信息转发给服务器进行声纹识别,并接收所述服务器发送的声纹特征,终端将该声纹特征发送给会议设备。
在一些实施例中,所述确定所述声纹特征对应的用户名,包括如下任一或任多种:
第1种、会议设备自身确定所述声纹特征对应的用户名;
会议设备从自身的声纹数据库中筛选出与所述声纹特征对应的声纹信息;根据所述声纹信息对应的注册用户信息,确定所述声纹特征对应的用户名。
在一些实施例中,若从自身的声纹数据库中未筛选出与所述声纹特征对应的声纹信息,则按照命名规则确定所述声纹特征对应的用户名。
第2种、会议设备通过连接的边缘端设备,确定所述声纹特征对应的用户名。
第3种、会议设备接收服务器发送的用户名,将接收的用户名确定为所述声纹特征对应的用户名。
在一些实施例中,声纹特征是根据所述参会用户的终端采集的语音信息中,音量满足条件的语音信息确定的。
本实施例在进行声纹识别之前,还可以对终端采集的语音信息进行筛选,基于参会用户到终端的距离越远,该终端采集的该参会用户的音量越小的原理,可以预先对终端采集的语音信息进行初步筛选,然后从音量满足条件的语音信息中进行声纹识别,从而更加准确地提取出声纹信息,提高语音识别的准确性。
在一些实施例中,具体包括如下任意一种或任意多种筛选情况:
情况1)会议设备筛选语音信息。
会议设备接收所述终端采集的语音信息,从采集的语音信息中筛选出音量满足条件的语音信息,对筛选出的语音信息进行声纹识别,确定所述语音信息对应的声纹特征。
情况2)服务器筛选语音信息。
服务器接收到采集的语音信息后,从采集的语音信息中筛选出音量满足条件的语音信息,对筛选出的语音信息进行声纹识别,确定所述语音信息对应的声纹特征。
情况3)终端筛选语音信息。
终端采集语音信息后,从采集的语音信息中筛选出音量满足条件的语音信息,将筛选出的语音信息发送给服务器进行声纹识别,或,将筛选出的语音信息通过会议设备转发给服务器进行声纹识别。
在一些实施例中,通过如下方式对所述终端采集的语音信息进行声纹识别,确定所述语音信息对应的用户信息:
首先,对所述终端采集的语音信息进行筛选,得到音量满足条件的语音 信息;实施中,可以筛选出音量最大的语音信息,或者从音量大于音量阈值的语音信息中筛选出最大的语音信息,本实施例对具体如何筛选出音量满足条件的实施方式不作过多限定,具体情况中,可以根据对获取语音的需求进行相应对音量满足条件的设定,本实施例对此不作过多限定。
其次,对所述音量满足条件的语音信息进行声纹识别,确定所述语音信息对应的用户信息。实施中,参会用户通常为多个,那么对应的终端也为多个,针对任一个终端,都可能采集到发言用户的语音信息,那么可以根据音量对不同终端采集的语音信息进行筛选,从而对筛选后的语音信息进行识别。需要说明的是,由于多个发言人在讲话的过程中,每个发言人到该发言人的终端的距离通常是最近的,那么每个发言人的终端采集到的语音信息中的最大音量通常就是该发言人的语音信息,那么便可以通过音量,从不同的终端中提取出对应的发言人的语音信息,从而将多个发言人同时讲话的语音信息进行分离,分离出每个发言人的语音信息,从而提高了语音识别的准确性,进而提高了会议记录的准确性。
在一些实施例中,本实施例通过如下步骤对所述终端采集的语音信息进行声纹识别,确定所述语音信息对应的用户信息,其中,用户信息包括但不限于用户名、公司名、性别、职位、所属部门等各种和参会用户相关的信息,本实施例对此不作过多限定。
在一些实施例中,会议设备通过如下方式确定所述声纹数据库:
获取终端的注册用户信息和注册语音信息;确定所述注册语音信息对应的声纹信息;建立所述注册用户信息和所述声纹信息的对应关系,根据所述注册用户信息、所述声纹信息以及所述对应关系,确定所述声纹数据库。
在一些实施例中,会议设备响应于用户对所述声纹数据库中的声纹信息、注册用户信息中的至少一种的第一编辑指令,对所述第一编辑指令对应的内容进行对应的编辑操作,所述编辑操作包括修改、添加、删除中的至少一种。
步骤1)对所述终端采集的语音信息进行声纹识别,得到声纹特征;
实施中,可以通过已经训练好的深度学习模型(如声纹识别模型)进行 声纹识别,将语音信息输入到声纹识别模型中进行声纹识别,输出对应的声纹特征。
在一些实施例中,本实施例还可以通过语音声纹识别模型对输入的语音信息同时进行语音识别和声纹识别,得到对应的语音文本和声纹特征。本实施例对如何进行语音识别和声纹识别的方式不作过多限定。本实施例对涉及的深度学习模型的训练样本和训练过程不作过多限定。
步骤2)判断声纹数据库中是否存在和所述声纹特征匹配的声纹信息;
在一些实施例中,本实施例中的声纹数据库中预先存储了注册用户信息以及对应的声纹信息,便于将得到的声纹特征与存储的声纹信息进行比对,从而确定出匹配的声纹信息对应的注册用户信息。
在一些实施例中,本实施例通过如下步骤确定所述声纹数据库:
(1)获取终端的注册用户信息和注册语音信息;
在一些实施例中,参会用户可以通过各自终端的会议APP上传自身的声纹信息,实施中,可以通过该会议APP进行用户注册的方式,上传自身的注册用户信息和注册语音信息,其中注册用户信息包括但不限于注册标识ID、所属公司和部门等其他参会所需的用户信息,注册语音信息包括但不限于上传的固定内容的语音信息,例如可以在APP注册界面提示参会用户朗读显示的内容,从而采集注册用户的语音信息,并进一步通过如下方式得到声纹信息、生成声纹数据库。
(2)对所述注册语音信息进行声纹识别,得到声纹信息;
本实施例中的进行声纹识别的方法及过程可参见上述内容,此处不再赘述。其中本实例中的声纹信息也可以理解为声纹特征。
(3)建立所述注册用户信息和所述声纹信息的对应关系,根据所述注册用户信息、所述声纹信息以及所述对应关系,确定所述声纹数据库。
实施中,声纹数据库中存储有注册用户信息和声纹信息,并且每个声纹信息都对应一个注册用户信息,从而可以从存储的声纹信息中筛选出与声纹特征匹配的声纹信息,并确定对应的注册用户信息,从而生成会议记录。
步骤3)若从声纹数据库中筛选出与所述声纹特征匹配的声纹信息,则根据所述声纹数据库中所述声纹信息对应的注册用户信息,确定所述语音信息对应的用户信息;
在该步骤中,从声纹数据库中能够找到与声纹特征匹配的声纹信息,则根据声纹数据库中声纹信息与声纹特征的对应关系,确定该声纹信息对应的注册用户信息为该语音信息对应的用户信息。
步骤4)若从声纹数据库中未筛选出与所述声纹特征匹配的声纹信息,则按照命名规则为所述声纹特征进行命名,根据命名的用户信息,确定所述语音信息对应的用户信息。
在该步骤中,从声纹数据库中未找到与声纹特征匹配的声纹信息,说明此时的语音信息不是在会议APP中已经注册的参会用户的语音信息,因此,按照预先定义的命名规则进行自定义命名,例如命名为“未知用户1”、“说话人1”等多种命名格式,本实施例对此不作过多限定。将命名的用户信息作为该语音信息对应的用户信息。
其中,本实施例中的步骤3)和步骤4)的执行顺序不分先后。
在一些实施例中,本实施例可以对采集的语音信息同时进行语音识别和声纹识别,从而确定出对应的语音文本和用户名。具体实施流程如下所示:
确定终端采集的语音信息,对语音信息进行筛选,筛选出音量满足条件的语音信息;对筛选出的语音信息分别进行语音识别和声纹识别,得到对应的语音文本和用户名。
在一些实施例中,可以通过会议设备对采集的语音信息进行筛选后,对筛选出的语音信息分别进行语音识别和声纹识别,得到对应的语音文本和用户名;或,可以通过服务器对语音信息进行筛选后,对筛选出的语音信息分别进行语音识别和声纹识别,得到对应的语音文本和用户名;或,还可以通过终端对采集的语音信息进行筛选后,通过服务器对筛选出的语音信息分别进行语音识别和声纹识别,得到对应的语音文本和用户名;或,还可以通过终端对采集的语音信息进行筛选后,通过会议设备对筛选出的语音信息分别 进行语音识别和声纹识别,得到对应的语音文本和用户名。
在一些实施例中,为了使得会议记录的内容更加丰富、可查看性强,本实施例提供了多种生成会议记录的可选实施方式,具体如下:
方式1、根据语音文本直接生成会议记录。
该方式下,可以根据参会用户的终端采集的语音信息进行汇总,经过对汇总的语音信息进行筛选、识别之后,可以得到汇总的语音文本,然后,可以按照各个语音文本对应的语音信息的时间戳顺序,对语音文本进行排序,从而生成会议记录。
方式2、根据语音文本和对应的用户信息,生成会议记录。
该方式下,不仅需要将语音文本进行排序,而且需要确定出每个语音文本对应的用户信息,从而将每个语音文本与对应的用户信息进行关联,最后按照采集的语音信息的时间戳顺序,对语音文本进行排序,生成会议记录,该方式生成的会议记录中,可以按照参会用户讲话时间的先后顺序,将参会用户的讲话内容进行顺序展示。
在一些实施例中,还可以通过服务器生成会议记录,实施中:
可选的,服务器对语音信息进行语音识别后得到语音文本,并根据语音文本生成会议记录,将该会议记录发送给会议设备,或将该会议记录通过终端转发给会议设备。
可选的,服务器对语音信息进行语音识别和声纹识别后分别得到对应的语音文本和用户名,并根据语音文本和用户名生成会议记录,将该会议记录发送给会议设备,或将该会议记录通过终端转发给会议设备。
需要说明的是,上述场景可以适用于在会议进行过程中,实时获取终端采集的语音信息,并进行语音识别,生成语音文本,最终生成会议记录的过程,在这个过程中,语音信息是不断增加的,语音文本也在不断的增加,会议记录也随着会议中参会人员的发言不断地完善,最终在会议结束后,生成完整的会议记录。由于本实施例中可以通过获取参会用户的终端采集的语音信息,并进行语音识别等处理,得到语音文本,整个过程都是可以随着会议 的进行、参会人员的发言不断的进行采集、识别等及时处理。
在另一种场景中,例如会议结束后的场景中,还可能对上传的语音文件进行如下处理:
流程1、获取上传的语音文件;
实施中,可以通过外部接口,获取用户上传的语音文件,其中这种场景下,可以是某些参会人员通过其他设备录制的在参会过程中的语音文件,为了保证会议记录的完整性和完善性,可以获取上传的语音文件,对原始的会议记录进行补充完善。
流程2、对所述语音文件中的上传语音信息进行语音识别,确定所述上传语音信息的补充语音文本;
流程3、根据补充语音文本和已经确定的语音文本,生成会议记录。
在一些实施例中,为了确定补充语音文本对应的用户信息,并将该用户信息也添加到会议记录中,本实施例还可以通过如下方式获取补充语音文本的补充用户信息:
对所述语音文件中的上传语音信息进行声纹识别,确定所述上传语音信息对应的补充用户信息;更进一步的,根据所述补充语音文本、所述补充用户信息生成补充会议记录,将该补充会议记录添加到基于该语音文本生成的会议记录中。
在一些实施例中,可以根据补充语音文本和对应的补充用户信息,生成补充会议记录;将该补充会议记录添加到,根据所述语音文本和对应的用户信息生成的会议记录中。
在一些实施例中,在根据所述语音信息的语音文本,生成会议记录之后,本实施例还可以生成会议纪要,具体包括如下任意一种或任意多种方式:
方式1)根据文本摘要算法对所述语音文本中的关键信息进行识别,根据识别得到的所述关键信息生成会议纪要。
方式2)将所述会议记录发送给所述服务器,以使所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并接收所述服 务器发送的所述会议纪要。
方式3)将所述会议记录通过所述终端转发给所述服务器,以使所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并接收所述服务器通过所述终端转发的所述会议纪要。
在一些实施例中,根据所述语音信息的语音文本,生成会议记录之后,本实施例还提供如下任一或任多种显示方式:
显示方式1、显示所述会议记录;
实施中,可以在会议设备、参会用户的终端中的至少一种设备上,显示会议记录;在显示会议记录之后,响应于用户对所述会议记录的第二编辑指令,对所述第二编辑指令对应的内容进行对应的编辑操作,其中编辑操作包括修改、添加、删除中的至少一种。例如,用户可以对显示的会议记录中的用户A对应的内容进行修改,还可以对显示的会议记录中的用户信息进行修改,例如将“未知用户1”修改为“用户A”,也就是说,可以对会议记录中的讲话人的名称以及内容进行修改。
显示方式2、显示所述会议纪要。
实施中,可以在会议设备、参会用户的终端中的至少一种设备上,显示会议纪要;在显示会议纪要之后,响应于用户对所述会议纪要的第二编辑指令,对所述第二编辑指令对应的内容进行对应的编辑操作,其中编辑操作包括修改、添加、删除中的至少一种。例如,用户可以对显示的会议纪要中的用户A对应的内容进行修改,还可以对显示的会议纪要中的用户信息进行修改,例如将“未知用户1”修改为“用户A”,也就是说,可以对会议记录中的讲话人的姓名(标识ID)以及内容进行修改。
在一些实施例中,在根据所述语音信息的语音文本,生成会议记录之后,为了保证参会人员能够方便的将会议记录进行下载查看,本实施例还可以生成与所述会议记录、所述会议纪要中的至少一种对应的下载链接地址,并在所述会议端或所述终端中的至少一种进行显示。
实施中,可以生成会议记录对应的下载链接地址,并在会议端和/或终端 进行显示;也可以生成会议纪要对应的下载链接地址,并在会议端和/或终端进行显示;还可以生成会议记录和会议纪要分别对应的下载链接地址,并在会议端和/或终端进行显示;还可以生成会议记录和会议纪要对应的一个下载链接地址,并在会议端和/或终端进行显示。
在一些实施例中,本实施例的下载链接地址包括但不限于URL地址、二维码中的至少一种形式。
在一些实施例中,本实施例确定参会用户的终端采集的语音信息对应的语音文本之后,还包括如下任一或任多种实施步骤:
实施1、会议设备直接将所述语音文本翻译为预设语言类型对应的翻译文本;
实施2、会议设备通过连接的边缘端设备,将所述语音文本翻译为预设语言类型对应的翻译文本;
实施3、服务器将所述语音文本翻译为预设语言类型对应的翻译文本,并发送给会议设备,会议设备将接收的服务器发送的翻译文本,确定为所述语音文本对应的翻译文本。
在一些实施例中,为了使得会议过程中,将正在讲话的参会用户的语音信息识别得到语音文本之后,还可以提供如下方式显示正在讲话的参会用户的内容,提高会议交互的使用体验。
在一些实施例中,本实施例提供如下任一或任多种方式,进行语音文本的实时显示,其中本实施例中的实时显示用于表征在容许时延范围内的即时显示:
方式a)将语音识别后得到的语音文本发送给会议端,并控制所述会议端实时显示所述语音文本;
方式b)将语音识别后得到的语音文本翻译为预设语言类型的语音文本后发送给会议端,并控制会议端实时显示翻译后的语音文本;
方式c)将满足预设语言类型的语音文本直接发送给会议端,以及将不满足预设语言类型的语音文本翻译为预设语言类型的语音文本后发送给会议端, 并控制会议端实时显示翻译后的语音文本。
在一些实施例中,通过在会议端实时显示讲话人当前语音信息的语音文本内容,从而使得其他听不清讲话人的语音信息的参会用户能够通过会议端显示的方式,了解当前讲话人的内容,从而提高会议交互的效率。
在一些实施例中,本实施例中声纹数据库中存储的声纹信息和对应的注册用户信息可以通过用户进行编辑,即声纹数据库中存储的信息是可以编辑的状态,用户可以根据实际需求进行编辑,例如可以对存储的声纹信息进行删除,可以对注册用户信息进行修改,还可以添加新的声纹信息和对应的注册用户信息,例如可以将采集到的未知说话人的语音信息的声纹信息存储到声纹数据库,还可以对该声纹信息进行命名,确定对应的注册用户信息即未知说话人,还可以对该未知说话人进行修改,例如修改为用户B。
在一些实施例中,用户可以通过会议端访问声纹数据库的方式,对所述声纹数据库中的声纹信息、注册用户信息中的至少一种进行编辑操作,所述编辑操作包括修改、添加、删除中的至少一种。
在一些实施例中,响应于用户对所述声纹数据库中的声纹信息、注册用户信息中的至少一种的第一编辑指令,对所述第一编辑指令对应的内容进行对应的编辑操作。
在一些实施例中,在会议开始之前,参会人员还可以通过各自的终端扫描会议端显示的APP二维码,用于下载对应的会议APP,或者,参会人员还可以通过其他链接、应用商店等方式下载会议APP,通过该会议APP进行参会人员的拾音功能,以及基础的音频过滤功能等。实施中,还可以通过该会议APP实现和本实施例中的会议记录方法对应的设备端之间的通信连接,从而将各个终端对参会人员的拾音传输到该设备端。其中设备端用于实现本实施例中的会议记录方法中的内容,包括但不限于:获取语音信息,语音识别、存储用户信息、声纹特征信息、生成会议记录、生成文本摘要中的至少一种功能。
在一些实施例中,在会议端也可以安装该会议APP,便于通过该会议APP 实现和本实施例中的会议记录方法对应的设备端之间的通信连接,从而实现二维码展示、字幕显示、会议记录展示等功能。
在一些实施例中,本实施例中的会议内容显示方法对应的设备端包括但不限于如下任一或任多功能模块:服务模块、语音模块、文本摘要模块,其中服务模块包括但不限于应用程序接口(Application Programming Interface,API)调用模块、数据库模块。其中:
服务模块,用于会议APP功能的实现,包括对API接口的封装、对外提供API接口;其中,API调用模块,用于通过调用实现各个功能模块之间信息的交互;数据库模块,用于存储注册用户信息、声纹信息、语音信息、语音文本、会议记录、会议纪要等需要存储的信息。
语音模块,用于对实时的语音信息进行语音识别、声纹识别;还可以用于对上传的语音文件进行语音识别、声纹识别。
文本摘要模块,用于根据文本摘要算法对所述语音文本中的关键信息进行识别,根据识别得到的所述关键信息生成会议纪要。
在一些实施例中,可以将至少部分功能模块集成在会议设备上,例如可以将服务模块集成在会议设备上,从而将语音识别模块、文本摘要模块等作为独立的服务设备。也可以将各个功能模块集成为一个独立的服务设备部署在会议设备所在的局域网中,或者将各个功能模块集成为一个独立的边缘设备(包括但不限于边缘开发主板、开放式可插拔规范(Open Pluggable Specification,OPS)等),用于将该边缘设备与会议设备直接连接。
在一些实施例中,由于实时语音识别具有实时性能要求,因此可以将语音模块绕过服务模块直接与会议设备进行通信连接,还可以将语音模块绕过服务模块直接与终端进行通信连接,从而将终端采集的语音通过流式传输方式发送给语音模块进行语音识别和/或声纹识别处理,从而将语音文本直接发送给会议端,从而能够实时显示参会人讲话内容,有效提高会议的交互体验。
在一些实施例中,如图2所示,本实施例提供一种会议系统,包括用户 终端200、会议设备201,可选的,包括服务器202,其中:
用户终端200包括一个或多个,会议设备201包括1个或多个;
用户终端200,用于采集语音信息;
会议设备201,用于确定所述用户终端采集的语音信息对应的语音文本;并显示与所述语音文本相关的会议内容。
还可以用于实现会议内容的展示、会议二维码的展示、会议记录的展示、语音文本(也可理解为字幕)的显示等。
在一些实施例中,本实施例中用户终端200与会议设备201的交互过程如下所示:
所述用户终端将采集的语音信息发送给所述会议设备;所述会议设备对所述语音信息进行语音识别得到语音文本;或,
所述用户终端将采集的语音信息发送给所述会议设备;所述会议设备对所述语音信息进行声纹识别得到声纹特征,以及确定所述声纹特征对应的用户名;或,
所述用户终端将采集的语音信息发送给所述会议设备;所述会议设备对所述语音信息进行语音识别得到语音文本,并进行声纹识别得到声纹特征,以及确定所述声纹特征对应的用户名。
在一些实施例中,本实施例还包括服务器202,具体包括服务模块202a、语音模块202b、文本摘要模块202c中的至少一种。
其中,服务模块202a,用于会议APP功能的实现,包括对API接口的封装、对外提供API接口;
服务模块202a具体包括:API调用模块、数据库模块,其中:API调用模块,用于通过调用实现各个功能模块之间信息的交互;数据库模块,用于存储注册用户信息、声纹信息、语音信息、语音文本、会议记录、会议纪要等需要存储的信息。
语音模块202b,用于对实时的语音信息进行语音识别、声纹识别;还可以用于对上传的语音文件进行语音识别、声纹识别。
文本摘要模块202c,用于根据文本摘要算法对所述语音文本中的关键信息进行识别,根据识别得到的所述关键信息生成会议纪要。
在一些实施例中,服务模块202a可以集成在会议设备201中,或者将服务器202集成在会议设备201中,为了实现实时的语音识别处理,可以将语音模块202b在进行语音识别处理时,直接连接参会用户的终端,获取采集的语音信息,并将识别得到的语音文本直接发送给会议设备201,避免通过服务模块202a进行转发导致的延时,一定程度上能够提高语音识别的处理速度。
在一些实施例中,本实施例中结合服务器202进行语音信息的交互过程如下所示:
所述用户终端将采集的语音信息发送给所述服务器;或,
所述用户终端将采集的语音信息发送给所述会议设备,并由所述会议设备将所述语音信息转发给所述服务器。
在一些实施例中,服务器在接收到语音信息之后,本实施例中的服务器还用于:
对所述语音信息进行语音识别得到语音文本;或,
对所述语音信息进行声纹识别得到声纹特征,以及确定所述声纹特征对应的用户名;或,
对所述语音信息进行语音识别得到语音文本,并进行声纹识别得到声纹特征,以及确定所述声纹特征对应的用户名。
在一些实施例中,如果服务器对语音信息进行语音识别并确定了语音文本之后,本实施例中的服务器还用于:
将所述语音文本发送给所述用户终端,并由所述用户终端将所述语音文本发送给所述会议设备;或,
将所述语音文本发送给所述会议设备。
在一些实施例中,如果服务器对语音信息进行声纹识别并确定了声纹特征之后,本实施例中的服务器还用于:
将所述声纹特征发送给所述用户终端,并由所述用户终端将所述声纹特 征发送给所述会议设备;或,
将所述声纹特征发送给所述会议设备。
在一些实施例中,本实施例通过对上述语音信息的处理过程进行组合,能够得到至少如下3种实施方式:
方式1、所述用户终端将采集的语音信息发送给所述会议设备;所述会议设备对所述语音信息进行语音识别得到语音文本。
该方式下,所述会议设备建立与所述用户终端的通信连接,通过流式传输方式,接收所述用户终端采集的语音信息;通过连接的边缘端设备,对所述语音信息进行语音识别得到语音文本。
方式2、所述用户终端将采集的语音信息发送给所述服务器,所述服务器对所述语音信息进行语音识别得到语音文本,将所述语音文本发送给所述用户终端,并由所述用户终端将所述语音文本发送给所述会议设备;
方式3、所述用户终端将采集的语音信息发送给所述会议设备,并由所述会议设备将所述语音信息转发给所述服务器,所述服务器对所述语音信息进行语音识别得到语音文本,将所述语音文本发送给所述会议设备。
方式4、所述用户终端对采集的语音信息进行语音识别得到语音文本,将所述语音文本发送给所述会议设备。
在一些实施例中,所述语音文本是根据所述用户终端采集的语音信息中,音量满足条件的语音信息确定的。
需要说明的是,本实施例在对语音信息进行语音识别的过程中,还可以同时对语音信息进行声纹识别,从而确定语音信息对应的声纹特征,并将该声纹特征与声纹数据库中的声纹信息进行匹配,从而确定该语音信息对应的用户信息。
在一些实施例中,所述声纹特征是根据所述用户终端采集的语音信息中,音量满足条件的语音信息确定的。
实施中,可以对所述终端采集的语音信息进行筛选,得到音量满足条件的语音信息;对所述音量满足条件的语音信息进行语音识别,确定所述语音 信息的语音文本。可选的,对语音信息进行筛选的过程可以是用户终端执行的,也可以是会议设备执行的,还可以是服务器执行的。
在一些实施例中,对语音信息进行筛选的过程,和对语音信息进行语音识别、声纹识别的过程的执行主体为同一个。实施中,可以通过服务器对语音信息进行筛选,并对筛选后的语音信息进行语音识别和声纹识别;还可以通过会议设备对语音信息进行筛选,并对筛选后的语音信息进行语音识别和声纹识别。
在一些实施例中,会议设备还用于:
根据所述语音文本,生成会议记录;或,
根据所述语音文本以及所述语音文本对应的用户名,生成会议记录。
在一些实施例中,服务器还用于:
根据所述语音文本,生成会议记录;或,
根据所述语音文本以及所述语音文本对应的用户名,生成会议记录。
本实施例中的会议设备和服务器都具备生成会议记录的功能,可以根据实际需求选择使用会议设备或者服务器生成会议记录,如果服务器生成会议记录,则可以将会议记录发送给会议设备。
在一些实施例中,对所述终端采集的语音信息进行声纹识别,得到声纹特征;若从声纹数据库中筛选出与所述声纹特征匹配的声纹信息,则根据所述声纹数据库中所述声纹信息对应的注册用户信息,确定所述语音信息对应的用户信息;若从声纹数据库中未筛选出与所述声纹特征匹配的声纹信息,则按照命名规则为所述声纹特征进行命名,根据命名的用户信息,确定所述语音信息对应的用户信息。
在一些实施例中,会议设备可以获取终端的注册用户信息和注册语音信息;对所述注册语音信息进行声纹识别,得到声纹信息;建立所述注册用户信息和所述声纹信息的对应关系,根据所述注册用户信息、所述声纹信息以及所述对应关系,确定所述声纹数据库。
在一些实施例中,会议设备响应于用户对所述声纹数据库中的声纹信息、 注册用户信息中的至少一种的第一编辑指令,对所述第一编辑指令对应的内容进行对应的编辑操作,所述编辑操作包括修改、添加、删除中的至少一种。
在一些实施例中,会议设备建立与所述参会用户的终端的通信连接,通过流式传输方式获取参会用户的终端采集的语音信息。
在一些实施例中,所述会议设备根据文本摘要算法对所述会议记录中的关键信息进行识别,根据识别得到的所述关键信息生成会议纪要;或,
所述会议设备将所述会议记录发送给所述服务器,所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并将所述会议纪要发送给所述会议设备;或,
所述会议设备将所述会议记录通过所述终端转发给所述服务器,所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并将所述会议纪要通过所述终端转发给所述会议设备。
在一些实施例中,所述会议设备还用于:生成与所述会议记录、所述会议纪要中的至少一种对应的下载链接地址。
在一些实施例中,所述会议设备将所述语音文本翻译为预设语言类型对应的翻译文本,并显示该翻译文本;或,
所述会议设备通过连接的边缘端设备,将所述语音文本翻译为预设语言类型对应的翻译文本,并显示该翻译文本。或,
所述服务器将所述语音文本翻译为预设语言类型对应的翻译文本,并将所述翻译文本发送给所述会议设备。还可以控制所述会议设备显示所述语音文本。
在一些实施例中,根据文本摘要算法对所述语音文本中的关键信息进行识别,根据识别得到的所述关键信息生成会议纪要。
在一些实施例中,显示所述会议记录、所述会议纪要中的至少一种;响应于用户对所述会议记录、会议纪要中的至少一种的第二编辑指令,对所述第二编辑指令对应的内容进行对应的编辑操作,所述编辑操作包括修改、添加、删除中的至少一种。
在一些实施例中,会议设备生成与所述会议记录、所述会议纪要中的至少一种对应的下载链接地址,并在所述会议设备或所述终端中的至少一种设备进行显示。
在一些实施例中,会议设备还用于通过如下任意一种或任意多种显示方式,显示与所述语音文本相关的会议内容:
实时显示所述语音文本;
实时显示所述语音文本对应的用户名;
显示与所述语音文本相关的会议记录;
显示与所述语音文本相关的会议纪要;
实时显示所述语音文本翻译为预设语言类型的翻译文本;
显示与所述语音文本相关的会议记录对应的下载链接地址;
显示与所述语音文本相关的会议纪要对应的下载链接地址。
如图3所示,基于上述会议系统,本实施例提供的一种会议记录方法的实施流程如下所示:
步骤300、用户终端通过拾音功能采集会议发言用户的语音信息,并发送给服务器;
步骤301、服务器对接收的语音信息进行筛选,得到音量满足条件的语音信息,对音量满足条件的语音信息进行语音识别和声纹识别,确定对应的语音文本和用户信息;
步骤302、服务器将语音文本发送给会议设备,会议设备显示语音文本;
步骤303、会议设备根据语音信息的语音文本和对应的用户信息,生成会议记录,并根据文本摘要算法对会议记录中的关键信息进行识别,根据识别得到的关键信息生成会议纪要;
步骤304、服务器将会议记录、会议纪要以及对应的下载链接地址发送给会议设备进行显示。
步骤305、用户终端通过下载链接地址下载对应的会议记录、会议纪要。
其中下载会议记录、会议纪要的用户终端可以是参会用户的终端,也可以是非参会用户的终端,本实施例对此不作过多限定。
在一些实施例中,本实施例提供一种具体的会议记录的流程,其中在会议开始之前,可以先在参会用户的终端上下载并安装会议APP,在会议设备也下载并安装会议APP,以使参与本次智能会议的会议设备、用户终端以及服务器都建立通信连接,之后,在会议设备显示本次会议的会议二维码,参会用户通过各自的终端的会议APP扫描该会议二维码,并进行注册,其中注册的项目主要包括输入注册用户信息和声纹信息,服务器将获取的注册用户信息和声纹信息存储到声纹数据库中。至此准备工作完成,会议开始。
在会议进行的过程中,如图4所示,会议记录的流程如下所示:
步骤400、获取用户终端采集的语音信息;
步骤401、对用户终端采集的语音信息进行筛选,得到音量满足条件的语音信息;
步骤402、服务器对所述音量满足条件的语音信息进行语音识别,确定所述语音信息的语音文本,以及对音量满足条件的语音信息进行声纹识别,确定语音信息对应的用户信息;
步骤403、服务器将语音文本发送给会议设备,并控制会议设备显示语音文本;
步骤404、会议设备根据所述语音信息的语音文本和对应的用户信息,生成会议记录;
步骤405、服务器根据文本摘要算法对会议设备发送的会议记录中的关键信息进行识别,根据识别得到的所述关键信息生成会议纪要;
步骤406、会议设备显示所述会议记录、所述会议纪要,以及所述会议记录、所述会议纪要对应的下载链接地址。
实施例2、基于相同的发明构思,本公开实施例还提供了一种会议设备, 由于该设备即是本公开实施例中的方法中的设备,并且该设备解决问题的原理与该方法相似,因此该设备的实施可以参见方法的实施,重复之处不再赘述。
如图5所示,该设备包括处理器500和存储器501,所述存储器501用于存储所述处理器500可执行的程序,所述处理器500用于读取所述存储器501中的程序并执行如下步骤:
确定参会用户的终端采集的语音信息对应的语音文本;
显示与所述语音文本相关的会议内容。
作为一种可选的实施方式,所述处理器500具体被配置为执行:
接收所述终端采集的语音信息,对所述语音信息进行语音识别,确定所述语音信息对应的语音文本。
作为一种可选的实施方式,所述处理器500具体被配置为执行:
接收语音文本,将接收的所述语音文本确定为所述语音信息对应的语音文本。
作为一种可选的实施方式,所述处理器500具体被配置为执行:
接收服务器发送的语音文本;或,
接收终端发送的语音文本。
作为一种可选的实施方式,所述处理器500具体被配置为执行:
通过连接的边缘端设备,对所述语音信息进行语音识别,确定所述语音信息对应的语音文本。
作为一种可选的实施方式,
所述服务器发送的语音文本,是所述服务器接收所述终端发送的语音信息,并对所述语音信息进行语音识别得到的;或,
所述服务器发送的语音文本,是所述服务器接收会议设备转发的所述终端的语音信息,并对所述语音信息进行语音识别得到的。
作为一种可选的实施方式,
所述终端发送的语音文本,是所述终端将语音信息发送给服务器进行语 音识别,并接收所述服务器发送的语音文本得到的;或,
所述终端发送的语音文本,是所述终端对语音信息进行语音识别得到的。
作为一种可选的实施方式,
所述语音文本是根据所述参会用户的终端采集的语音信息中,音量满足条件的语音信息确定的。
作为一种可选的实施方式,所述处理器500具体被配置为执行:
建立与所述终端的通信连接,通过流式传输方式,接收所述终端采集的语音信息。
作为一种可选的实施方式,所述语音文本还包括用户信息,所述用户信息是根据所述语音信息对应的声纹特征确定的,所述声纹特征是对所述语音信息进行声纹识别得到的。
作为一种可选的实施方式,所述确定参会用户的终端采集的语音信息对应的语音文本之后,所述处理器500具体还被配置为执行:
根据所述语音文本,生成会议记录;或,
根据所述语音文本以及所述语音文本对应的用户信息,生成会议记录。
作为一种可选的实施方式,所述生成会议记录之后,所述处理器500具体还被配置为执行:
根据文本摘要算法对所述会议记录中的关键信息进行识别,根据识别得到的所述关键信息生成会议纪要;或,
将所述会议记录发送给所述服务器,以使所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并接收所述服务器发送的所述会议纪要;或,
将所述会议记录通过所述终端转发给所述服务器,以使所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并接收所述服务器通过所述终端转发的所述会议纪要。
作为一种可选的实施方式,所述处理器500具体还被配置为执行:
生成与所述会议记录、所述会议纪要中的至少一种对应的下载链接地址。
作为一种可选的实施方式,所述生成会议记录之后,所述处理器500具体还被配置为执行:
获取本地上传的语音文件,确定所述语音文件中上传语音信息对应的补充语音文本和补充声纹特征;
根据所述补充语音文本,以及所述补充声纹特征对应的补充用户信息,生成补充会议记录;
利用所述补充会议记录,对所述会议记录进行更新。
作为一种可选的实施方式,所述确定参会用户的终端采集的语音信息对应的语音文本之后,所述处理器500具体还被配置为执行:
直接将所述语音文本翻译为预设语言类型对应的翻译文本;或,
通过连接的边缘端设备,将所述语音文本翻译为预设语言类型对应的翻译文本;或,
将接收的服务器发送的翻译文本,确定为所述语音文本对应的翻译文本。
作为一种可选的实施方式,所述处理器500具体被配置为执行:
实时显示所述语音文本;
实时显示所述语音文本对应的用户名;
显示与所述语音文本相关的会议记录;
显示与所述语音文本相关的会议纪要;
实时显示所述语音文本翻译为预设语言类型的翻译文本;
显示与所述语音文本相关的会议记录对应的下载链接地址;
显示与所述语音文本相关的会议纪要对应的下载链接地址。
作为一种可选的实施方式,所述显示与所述语音文本相关的会议内容之后,所述处理器500具体还被配置为执行:
响应于用户对所述会议记录、会议纪要中的至少一种的第二编辑指令,对所述第二编辑指令对应的内容进行对应的编辑操作,所述编辑操作包括修改、添加、删除中的至少一种。
实施例3、基于相同的发明构思,本公开实施例还提供了一种会议内容显示的装置,由于该装置即是本公开实施例中的方法中的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见方法的实施,重复之处不再赘述。
如图6所示,该装置包括:
确定语音文本单元600,用于确定参会用户的终端采集的语音信息对应的语音文本;
显示会议内容单元601,用于显示与所述语音文本相关的会议内容。
作为一种可选的实施方式,所述确定语音文本单元600具体用于:
接收所述终端采集的语音信息,对所述语音信息进行语音识别,确定所述语音信息对应的语音文本。
作为一种可选的实施方式,所述确定语音文本单元600具体用于:
接收语音文本,将接收的所述语音文本确定为所述语音信息对应的语音文本。
作为一种可选的实施方式,所述确定语音文本单元600具体用于:
接收服务器发送的语音文本;或,
接收终端发送的语音文本。
作为一种可选的实施方式,所述确定语音文本单元600具体用于:
通过连接的边缘端设备,对所述语音信息进行语音识别,确定所述语音信息对应的语音文本。
作为一种可选的实施方式,所述服务器发送的语音文本,是所述服务器接收所述终端发送的语音信息,并对所述语音信息进行语音识别得到的;或,
所述服务器发送的语音文本,是所述服务器接收会议设备转发的所述终端的语音信息,并对所述语音信息进行语音识别得到的。
作为一种可选的实施方式,所述终端发送的语音文本,是所述终端将语音信息发送给服务器进行语音识别,并接收所述服务器发送的语音文本得到的;或,
所述终端发送的语音文本,是所述终端通过会议设备将语音信息转发给服务器进行语音识别,并接收所述服务器发送的语音文本得到的。
作为一种可选的实施方式,所述语音文本是根据所述参会用户的终端采集的语音信息中,音量满足条件的语音信息确定的。
作为一种可选的实施方式,所述确定语音文本单元600具体用于:
建立与所述终端的通信连接,通过流式传输方式,接收所述终端采集的语音信息。
作为一种可选的实施方式,所述语音文本还包括用户信息,所述用户信息是根据所述语音信息对应的声纹特征确定的,所述声纹特征是对所述语音信息进行声纹识别得到的。
作为一种可选的实施方式,还包括会议记录生成单元用于:
根据所述语音文本,生成会议记录;或,
根据所述语音文本以及所述语音文本对应的用户信息,生成会议记录。
作为一种可选的实施方式,还包括会议纪要确定单元用于:
根据文本摘要算法对所述会议记录中的关键信息进行识别,根据识别得到的所述关键信息生成会议纪要;或,
将所述会议记录发送给所述服务器,以使所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并接收所述服务器发送的所述会议纪要;或,
将所述会议记录通过所述终端转发给所述服务器,以使所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并接收所述服务器通过所述终端转发的所述会议纪要。
作为一种可选的实施方式,还包括生成下载链接单元用于:
生成与所述会议记录、所述会议纪要中的至少一种对应的下载链接地址。
作为一种可选的实施方式,还包括会议更新单元用于:
获取本地上传的语音文件,确定所述语音文件中上传语音信息对应的补充语音文本和补充声纹特征;
根据所述补充语音文本,以及所述补充声纹特征对应的补充用户信息,生成补充会议记录;
利用所述补充会议记录,对所述会议记录进行更新。
作为一种可选的实施方式,还包括翻译单元用于:
直接将所述语音文本翻译为预设语言类型对应的翻译文本;或,
通过连接的边缘端设备,将所述语音文本翻译为预设语言类型对应的翻译文本;或,
将接收的服务器发送的翻译文本,确定为所述语音文本对应的翻译文本。
作为一种可选的实施方式,所述显示会议内容单元601具体用于:
实时显示所述语音文本;
实时显示所述语音文本对应的用户名;
显示与所述语音文本相关的会议记录;
显示与所述语音文本相关的会议纪要;
实时显示所述语音文本翻译为预设语言类型的翻译文本;
显示与所述语音文本相关的会议记录对应的下载链接地址;
显示与所述语音文本相关的会议纪要对应的下载链接地址。
作为一种可选的实施方式,还包括编辑单元具体用于:
响应于用户对所述会议记录、会议纪要中的至少一种的第二编辑指令,对所述第二编辑指令对应的内容进行对应的编辑操作,所述编辑操作包括修改、添加、删除中的至少一种。
基于相同的发明构思,本公开实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如下步骤:
确定参会用户的终端采集的语音信息对应的语音文本;
显示与所述语音文本相关的会议内容。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、 或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (32)
- 一种会议内容显示的方法,其中,应用于会议设备,该方法包括:确定参会用户的终端采集的语音信息对应的语音文本;显示与所述语音文本相关的会议内容。
- 根据权利要求1所述的方法,其中,所述确定参会用户的终端采集的语音信息对应的语音文本,包括:接收所述终端采集的语音信息,对所述语音信息进行语音识别,确定所述语音信息对应的语音文本。
- 根据权利要求1所述的方法,其中,所述确定参会用户的终端采集的语音信息对应的语音文本,包括:接收语音文本,将接收的所述语音文本确定为所述语音信息对应的语音文本。
- 根据权利要求3所述的方法,其中,所述接收语音文本,包括:接收服务器发送的语音文本;或,接收终端发送的语音文本。
- 根据权利要求4所述的方法,其中,所述服务器发送的语音文本,是所述服务器接收所述终端发送的语音信息,并对所述语音信息进行语音识别得到的;或,所述服务器发送的语音文本,是所述服务器接收会议设备转发的所述终端的语音信息,并对所述语音信息进行语音识别得到的。
- 根据权利要求4所述的方法,其中,所述终端发送的语音文本,是所述终端将语音信息发送给服务器进行语音识别,并接收所述服务器发送的语音文本得到的;或,所述终端发送的语音文本,是所述终端对语音信息进行语音识别得到的。
- 根据权利要求1所述的方法,其中,所述语音文本是根据所述参会用户的终端采集的语音信息中,音量满足条件的语音信息确定的。
- 根据权利要求2所述的方法,其中,所述对所述语音信息进行语音识别,确定所述语音信息对应的语音文本,包括:通过连接的边缘端设备,对所述语音信息进行语音识别,确定所述语音信息对应的语音文本。
- 根据权利要求2所述的方法,其中,所述接收所述终端采集的语音信息,包括:建立与所述终端的通信连接,通过流式传输方式,接收所述终端采集的语音信息。
- 根据权利要求1所述的方法,其中,所述语音文本还包括用户信息,所述用户信息是根据所述语音信息对应的声纹特征确定的,所述声纹特征是对所述语音信息进行声纹识别得到的。
- 根据权利要求1~10任一所述的方法,其中,所述确定参会用户的终端采集的语音信息对应的语音文本之后,该方法还包括:根据所述语音文本,生成会议记录;或,根据所述语音文本以及所述语音文本对应的用户信息,生成会议记录。
- 根据权利要求11所述的方法,其中,所述生成会议记录之后,该方法还包括:根据文本摘要算法对所述会议记录中的关键信息进行识别,根据识别得到的所述关键信息生成会议纪要;或,将所述会议记录发送给所述服务器,以使所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并接收所述服务器发送的所述会议纪要;或,将所述会议记录通过所述终端转发给所述服务器,以使所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并接收所述服务器通过所述终端转发的所述会议纪要。
- 根据权利要求12所述的方法,其中,该方法还包括:生成与所述会议记录、所述会议纪要中的至少一种对应的下载链接地址。
- 根据权利要求11所述的方法,其中,所述生成会议记录之后,该方法还包括:获取本地上传的语音文件,确定所述语音文件中上传语音信息对应的补充语音文本和补充声纹特征;根据所述补充语音文本,以及所述补充声纹特征对应的补充用户信息,生成补充会议记录;利用所述补充会议记录,对所述会议记录进行更新。
- 根据权利要求1所述的方法,其中,所述确定参会用户的终端采集的语音信息对应的语音文本之后,该方法还包括:直接将所述语音文本翻译为预设语言类型对应的翻译文本;或,通过连接的边缘端设备,将所述语音文本翻译为预设语言类型对应的翻译文本;或,将接收的服务器发送的翻译文本,确定为所述语音文本对应的翻译文本。
- 根据权利要求1~10、12~15任一所述的方法,其中,所述显示与所述语音文本相关的会议内容,包括如下任意一种或任意多种显示方式:实时显示所述语音文本;实时显示所述语音文本对应的用户名;显示与所述语音文本相关的会议记录;显示与所述语音文本相关的会议纪要;实时显示所述语音文本翻译为预设语言类型的翻译文本;显示与所述语音文本相关的会议记录对应的下载链接地址;显示与所述语音文本相关的会议纪要对应的下载链接地址。
- 根据权利要求16所述的方法,其中,所述显示与所述语音文本相关的会议内容之后,该方法还包括:响应于用户对所述会议记录、会议纪要中的至少一种的第二编辑指令,对所述第二编辑指令对应的内容进行对应的编辑操作,所述编辑操作包括修改、添加、删除中的至少一种。
- 一种会议系统,其中,包括用户终端、会议设备,其中:所述用户终端,用于采集语音信息;所述会议设备,用于确定所述用户终端采集的语音信息对应的语音文本;并显示与所述语音文本相关的会议内容。
- 根据权利要求18所述的会议系统,其中,所述用户终端将采集的语音信息发送给所述会议设备;所述会议设备对所述语音信息进行语音识别得到语音文本。
- 根据权利要求18所述的会议系统,其中,还包括服务器:所述用户终端将采集的语音信息发送给所述服务器,所述服务器对所述语音信息进行语音识别得到语音文本,将所述语音文本发送给所述用户终端,并由所述用户终端将所述语音文本发送给所述会议设备;或,所述用户终端将采集的语音信息发送给所述会议设备,并由所述会议设备将所述语音信息转发给所述服务器,所述服务器对所述语音信息进行语音识别得到语音文本,将所述语音文本发送给所述会议设备。
- 根据权利要求18所述的会议系统,其中,所述用户终端还用于:对采集的语音信息进行语音识别得到语音文本,将所述语音文本发送给所述会议设备。
- 根据权利要求18所述的会议系统,其中,所述语音文本是根据所述用户终端采集的语音信息中,音量满足条件的语音信息确定的。
- 根据权利要求19所述的会议系统,其中,所述会议设备通过连接的边缘端设备,对所述语音信息进行语音识别得到语音文本。
- 根据权利要求19所述的会议系统,其中,所述会议设备建立与所述用户终端的通信连接,通过流式传输方式,接收所述用户终端采集的语音信息。
- 根据权利要求18所述的会议系统,其中,所述语音文本还包括用户信息,所述用户信息是根据所述语音信息对应的声纹特征确定的,所述声纹特征是对所述语音信息进行声纹识别得到的。
- 根据权利要求18~25任一所述的会议系统,其中,所述会议设备还用于:根据所述语音文本,生成会议记录;或,根据所述语音文本以及所述语音文本对应的用户名,生成会议记录。
- 根据权利要求26所述的会议系统,其中,所述会议设备根据文本摘要算法对所述会议记录中的关键信息进行识别,根据识别得到的所述关键信息生成会议纪要;或,所述会议设备将所述会议记录发送给所述服务器,所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并将所述会议纪要发送给所述会议设备;或,所述会议设备将所述会议记录通过所述终端转发给所述服务器,所述服务器根据文本摘要算法对所述会议记录中的关键信息进行识别得到会议纪要,并将所述会议纪要通过所述终端转发给所述会议设备。
- 根据权利要求27所述的会议系统,其中,所述会议设备还用于:生成与所述会议记录、所述会议纪要中的至少一种对应的下载链接地址。
- 根据权利要求18所述的会议系统,其中,所述会议设备将所述语音文本翻译为预设语言类型对应的翻译文本;或,所述会议设备通过连接的边缘端设备,将所述语音文本翻译为预设语言类型对应的翻译文本;或,所述服务器将所述语音文本翻译为预设语言类型对应的翻译文本,并将所述翻译文本发送给所述会议设备。
- 根据权利要求18~25、27~29任一所述的会议系统,其中,所述会议设备还用于通过如下任意一种或任意多种显示方式,显示与所述语音文本相关的会议内容:实时显示所述语音文本;实时显示所述语音文本对应的用户名;显示与所述语音文本相关的会议记录;显示与所述语音文本相关的会议纪要;实时显示所述语音文本翻译为预设语言类型的翻译文本;显示与所述语音文本相关的会议记录对应的下载链接地址;显示与所述语音文本相关的会议纪要对应的下载链接地址。
- 一种会议设备,其中,该设备包括处理器和存储器,所述存储器用于存储所述处理器可执行的程序,所述处理器用于读取所述存储器中的程序并执行权利要求1~17任一所述方法的步骤。
- 一种计算机存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1~17任一所述方法的步骤。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2021/131943 WO2023087287A1 (zh) | 2021-11-19 | 2021-11-19 | 一种会议内容显示的方法、会议系统及会议设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116472705A true CN116472705A (zh) | 2023-07-21 |
Family
ID=86396039
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180003469.9A Pending CN116472705A (zh) | 2021-11-19 | 2021-11-19 | 一种会议内容显示的方法、会议系统及会议设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116472705A (zh) |
WO (1) | WO2023087287A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116911817B (zh) * | 2023-09-08 | 2023-12-01 | 浙江智加信息科技有限公司 | 一种无纸化会议记录归档方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130144603A1 (en) * | 2011-12-01 | 2013-06-06 | Richard T. Lord | Enhanced voice conferencing with history |
CN111739553A (zh) * | 2020-06-02 | 2020-10-02 | 深圳市未艾智能有限公司 | 会议声音采集、会议记录以及会议记录呈现方法和装置 |
CN112053679A (zh) * | 2020-09-08 | 2020-12-08 | 安徽声讯信息技术有限公司 | 一种基于移动终端的角色分离会议速记系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105632498A (zh) * | 2014-10-31 | 2016-06-01 | 株式会社东芝 | 生成会议记录的方法、装置和系统 |
CN109785835A (zh) * | 2019-01-25 | 2019-05-21 | 广州富港万嘉智能科技有限公司 | 一种通过移动终端实现声音录制的方法及装置 |
-
2021
- 2021-11-19 CN CN202180003469.9A patent/CN116472705A/zh active Pending
- 2021-11-19 WO PCT/CN2021/131943 patent/WO2023087287A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130144603A1 (en) * | 2011-12-01 | 2013-06-06 | Richard T. Lord | Enhanced voice conferencing with history |
CN111739553A (zh) * | 2020-06-02 | 2020-10-02 | 深圳市未艾智能有限公司 | 会议声音采集、会议记录以及会议记录呈现方法和装置 |
CN112053679A (zh) * | 2020-09-08 | 2020-12-08 | 安徽声讯信息技术有限公司 | 一种基于移动终端的角色分离会议速记系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2023087287A1 (zh) | 2023-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6754631B1 (en) | Recording meeting minutes based upon speech recognition | |
CN110049270A (zh) | 多人会议语音转写方法、装置、系统、设备及存储介质 | |
TWI616868B (zh) | 會議記錄裝置及其自動生成會議記錄的方法 | |
JP6721298B2 (ja) | 音声情報制御方法及び端末装置 | |
CN110139062B (zh) | 一种视频会议记录的创建方法、装置及终端设备 | |
US20040064322A1 (en) | Automatic consolidation of voice enabled multi-user meeting minutes | |
CN104991754B (zh) | 录音方法及装置 | |
EP2026329A1 (en) | Speech situation data creating device, speech situation visualizing device, speech situation data editing device, speech data reproducing device, and speech communication system | |
TWI619115B (zh) | 會議記錄裝置及其自動生成會議記錄的方法 | |
TWI590240B (zh) | 會議記錄裝置及其自動生成會議記錄的方法 | |
CN110149805A (zh) | 双向语音翻译系统、双向语音翻译方法和程序 | |
CN104239394A (zh) | 包括显示装置和服务器的翻译系统及其控制方法 | |
CN112653902A (zh) | 说话人识别方法、装置及电子设备 | |
CN111883168A (zh) | 一种语音处理方法及装置 | |
CN110570847A (zh) | 一种多人场景的人机交互系统及方法 | |
KR20160108874A (ko) | 대화록 자동 생성 방법 및 장치 | |
CN108364638A (zh) | 一种语音数据处理方法、装置、电子设备和存储介质 | |
CN116472705A (zh) | 一种会议内容显示的方法、会议系统及会议设备 | |
KR101077267B1 (ko) | 얼굴인식 회의 속기 시스템 및 방법 | |
JP6091690B1 (ja) | 議会運営支援システム及び議会運営支援方法 | |
CN114120969A (zh) | 智能终端的语音识别功能测试方法、系统、电子设备 | |
CN107910006A (zh) | 语音识别方法、装置和多信源语音区分识别系统 | |
CN114240342A (zh) | 一种会议控制的方法和装置 | |
CN107197404B (zh) | 一种音效自动调节方法、装置和一种录播系统 | |
US20230231973A1 (en) | Streaming data processing for hybrid online meetings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |