CN115376517A - 一种会议场景下的说话内容的显示方法和装置 - Google Patents

一种会议场景下的说话内容的显示方法和装置 Download PDF

Info

Publication number
CN115376517A
CN115376517A CN202211000980.6A CN202211000980A CN115376517A CN 115376517 A CN115376517 A CN 115376517A CN 202211000980 A CN202211000980 A CN 202211000980A CN 115376517 A CN115376517 A CN 115376517A
Authority
CN
China
Prior art keywords
speaker
displaying
identity information
information
conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211000980.6A
Other languages
English (en)
Inventor
王斌
王乾坤
穆维林
杨晶生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zitiao Network Technology Co Ltd
Original Assignee
Beijing Zitiao Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zitiao Network Technology Co Ltd filed Critical Beijing Zitiao Network Technology Co Ltd
Priority to CN202211000980.6A priority Critical patent/CN115376517A/zh
Publication of CN115376517A publication Critical patent/CN115376517A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Abstract

本发明公开了一种会议场景下的说话内容的显示方法和装置,所述方法包括:响应于终端设备的会议应用开启的声纹识别功能,在接收说话人的音频流的过程中,基于声纹识别技术识别当前音频片段中说话人的身份信息,所述当前音频片段是所述音频流的至少一部分音频,对所述当前音频片段进行语音识别得到内容信息;关联显示所述说话人的身份信息以及所述内容信息。本技术方案可实时地识别并显示当前音频片段的说话人和内容信息,从而实现了会议中说话人身份和说话内容的实时展示,提高了会议质量和用户的参会体验。

Description

一种会议场景下的说话内容的显示方法和装置
技术领域
本公开涉及人工智能技术领域,尤其是涉及一种会议场景下的说话内容的显示方法和装置。
背景技术
说话人分割聚类(speaker diarization,SD)是指按照说话人的身份,将不同说话人的声音区分开来的技术,从而解决了“谁在什么时候说了话”的问题。利用声纹识别技术结合SD实现了通过声音判断说话人的身份。
现有的声纹识别技术多应用于视频会议场景,一般是在视频会议或语音会议结束后,对会上录制的说话人说话的音频文件进行声纹识别和聚类,识别出说话人的身份和说话内容,再展示识别结果。但不支持会议中说话人身份和说话内容的实时展示,进而对于在线会议的与会人员而言,不能实时地掌握会议中说话人的情况,影响用户体验和会议质量。
发明内容
本发明目的是实现会议中说话人身份和说话内容的实时展示,从而提高会议质量和参会体验,具体地,本发明实施例公开了如下技术方案:
第一方面,本发明实施例公开了一种会议场景下说话内容的显示方法,所述方法包括:响应于终端设备的会议应用开启的声纹识别功能,在接收说话人的音频流的过程中,基于声纹识别技术识别当前音频片段中说话人的身份信息,所述当前音频片段是所述音频流的至少一部分音频;对所述当前音频片段进行语音识别得到内容信息;关联显示所述说话人的身份信息以及所述内容信息。
结合第一方面,在第一方面的一种可能的实施方式中,基于声纹识别技术识别当前音频片段中说话人的身份信息,包括:响应于通过语音活动检测VAD检测到人声结束信号,在采样周期内获取所述当前音频片段;确定所述当前音频片段中每个说话人的语音特征;基于所述每个说话人的语音特征进行聚类分析,并将同一类的说话人嵌入作为一个说话人,得到聚类结果;基于预先采集的说话人的音频信息,对所述聚类结果进行身份匹配,确定每个所述说话人的身份信息。
结合第一方面,在第一方面的另一种可能的实施方式中,当识别出两个或两个以上说话人的身份信息时,所述关联显示所述说话人的身份信息以及所述内容信息,包括:显示所述两个或两个以上说话人的身份信息,或者,显示所述两个或两个以上说话人的身份信息,以及每个说话人对应的内容信息。
结合第一方面,在第一方面的又一种可能的实施方式中,所述方法还包括:根据识别出的所述说话人的会中身份标识,在所述显示界面上还显示所述说话人的会中身份标识。
结合第一方面,在第一方面的又一种可能的实施方式中,所述说话人的身份信息以及所述内容信息在所述显示界面上通过以下任意一种显示:宫格视图、缩略图视图、放大视图、讲演者视图、失焦小窗视图。
结合第一方面,在第一方面的又一种可能的实施方式中,所述方法还包括:如果在所述当前音频片段之后的预设时长内,利用所述声纹识别技术在下一音频片段中未检测到新的说话人,则不再显示所述当前音频片段中说话人的身份信息和内容信息,显示所述说话人所在的会议室的会议室标识。
结合第一方面,在第一方面的又一种可能的实施方式中,所述方法还包括:在所述显示界面上还显示声纹图标或用户ID,所述声纹图标或用户ID在被用户触发时,弹出所述提示语,所述提示语提示当前显示的说话人的身份信息和对应的内容信息均来自声纹识别结果。
结合第一方面,在第一方面的又一种可能的实施方式中,响应于终端设备的会议应用开启的声纹识别功能,包括:显示会中安全设置窗口,所述会中安全设置窗口中包括使用声纹识别功能的启动项;响应于用户开启所述使用声纹识别功能的启动项的操作,开启所述声纹识别功能,并关闭所述会中安全设置窗口。
结合第一方面,在第一方面的又一种可能的实施方式中,关联显示所述说话人的身份信息以及所述内容信息,包括:按照至少一个预设规则在显示界面上显示所述说话人的身份信息以及所述内容信息。
其中,所述至少一个预设规则包括:在识别所述说话人说话后的一段时间内,如果识别出新的说话人,则进行一次说话人内容信息的替换,将所述新的说话人的内容信息替换前一个说话人的内容信息。
结合第一方面,在第一方面的又一种可能的实施方式中,所述至少一个预设规则还包括:将当前说话段中说话时长最长的人确定为所述当前音频片段的说话人。
结合第一方面,在第一方面的又一种可能的实施方式中,所述至少一个预设规则还包括:当识别出新的说话人时,在显示新的说话人的身份信息和内容信息时,还显示前一说话人的身份信息。
第二方面,本发明实施例还公开了一种会议场景下的说话内容的显示装置,所述装置包括:接收单元,用于响应于所述装置的会议应用开启的声纹识别功能,接收说话人的音频流;识别单元,用于基于声纹识别技术识别当前音频片段中说话人的身份信息,以及对当前音频片段进行语音识别得到内容信息,所述当前音频片段是所述音频流的至少一部分音频;显示单元,用于关联显示所述说话人的身份信息以及所述内容信息。
第三方面,本发明实施例还公开了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器连接的存储器;其中,所述存储器用于存储计算机程序指令;所述计算机程序指令被所述处理器读取并执行时,实现上述第一方面或第一方面任一实施方式所述的方法。
第四方面,本发明实施方式还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如第一方面或第一方面任一实施方式所述的方法。
本实施例提供的一种会议场景下的说话内容的显示方法和装置,通过在会议应用上设置声纹识别功能,并响应于启动该声纹识别功能,在会议中采集至少一个说话人的音频流时,就能够利用该声纹识别技术识别出不同的说话人的身份,以及利用语音识别技术识别说话人的内容信息,最后关联显示在显示界面上,本技术方案可实时地识别并显示当前音频片段的说话人和内容信息,从而实现了会议中说话人身份和说话内容的实时展示,提高了会议质量和用户的参会体验。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例中提供的一种会议模式下的场景示意图;
图2为本公开实施例中提供的一种会议场景下的说话内容的显示方法的流程图;
图3a为本公开实施例中提供的一种会议中在PC端展示“安全设置窗口”的示意图;
图3b为本公开实施例中提供的另一种会议中在PC端展示“安全设置窗口”的示意图;
图3c为本公开实施例中提供的一种会前在PC端展示“安全设置窗口”的示意图;
图3d为本公开实施例中提供的一种在手机端展示“安全设置窗口”的示意图;
图3e为本公开实施例中提供的一种在room端展示“安全设置窗口”的示意图;
图3f为本公开实施例中提供的一种在网页端展示“安全设置窗口”的示意图;
图4为本公开实施例中提供的一种声纹识别的方法流程图;
图5a为本公开实施例中提供的一种在PC端展示说话人身份信息和说话内容的示意图;
图5b为本公开实施例中提供的一种识别出多个说话人并显示说话内容的示意图;
图5c为本公开实施例中提供的一种未识别出说话人时显示界面的示意图;
图5d为本公开实施例中提供的一种在PC端以缩略图视图显示声纹识别结果的示意图;
图5e为本公开实施例中提供的一种在PC端以讲演者视图显示声纹识别结果的示意图;
图5f为本公开实施例中提供的一种在PC端以失焦小窗显示声纹识别结果的示意图;
图6a为本公开实施例中提供的一种在手机端以宫格视图显示的示意图;
图6b为本公开实施例中提供的一种在手机端以放大视图显示的示意图;
图6c为本公开实施例中提供的一种在网页端以讲演者视图显示的示意图;
图7a为本公开实施例中提供的一种在手机端流式字幕显示说话人说话内容的示意图;
图7b为本公开实施例中提供的一种在手机端流式字幕显示完整说话内容的示意图;
图8为本公开实施例中提供的一种终端设备与用户之间交互操作方法的流程图;
图9a为本公开实施例中提供的一种基于用户的第一操作显示提示语的示意图;
图9b为本公开实施例中提供的一种基于用户的第二操作弹出profile卡片的示意图;
图10为本公开实施例中提供的一种显示装置的结构框图;
图11为本公开实施例中提供的一种电子设备的结构示意图。
具体实施方式
下面将结合附图对本公开的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本公开实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
AI基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习、深度学习等方向。
其中,生物识别技术是指通过计算机利用人类自身生理或行为特征进行身份认定的一种技术,以人体唯一的、可靠的、稳定的生理特征(如指纹、虹膜、脸部、掌纹等)或行为特征(如话音、击键、步态、签名等)为依据,采用计算机的强大功能和网络技术进行图像处理和模式识别,用以鉴别人的身份。该技术具有很好的安全性、可靠性和有效性。
声纹识别(Voice Print Recognition,VPR)属于生物信息识别技术的一种,也被称为说话人识别(Speaker Recognition,SR),是一种通过声音判断说话人身份的技术。由于声纹识别具有安全、可靠、方便等特性,使其在需进行身份识别的场合得到广泛的应用。
可以理解的是,在使用本公开各实施例公开的技术方案之前,均应当依据相关法律法规通过恰当的方式对本公开所涉及的用户信息,比如包括用户身份信息、用户音频流中的声纹信息等进行授权。
例如,在与会之前,系统会向用户发送提示信息,以明确地提示用户,其请求执行的操作将需要获取和使用到用户的个人信息。从而,使得用户可以根据提示信息来自主地选择是否向执行本公开技术方案的操作的电子设备、应用程序、服务器或存储介质等软件或硬件提供个人信息,以及根据获取的声纹信息对说话人的身份进行识别。并且,在用户个人信息授权过程中,可以向用户发送提示信息,例如以弹窗的方式,弹窗中可以以文字的方式呈现提示信息。
应理解的是,上述通知和获取用户个人信息的授权过程仅是示意性的,不对本公开的实现方式构成限定,其它满足相关法律法规的方式也可应用于本公开的实现方式中。
本发明实施例提供的一种会议场景下的说话内容的显示方法,可适用于如图1所示的会议场景中。在图1所示的会议场景100中,包括至少一个终端设备,例如笔记本10、手机20和服务器30,且笔记本10、手机20和服务器30之间可通过网络40连接。其中,每个终端设备中还包括至少一个说话人,比如在笔记本10的会议室中包括说话人1和说话人2,在手机20的会议场景中包括说话人3,此外,还可以包括其他更多说话人和终端设备,本实施例对此不予限制。
其中,终端设备包括但不限于各种个人计算机PC、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等。服务器30可以用独立的服务器或者是多个服务器组成的服务器集群来实现。进一步地,服务器30可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的服务器。
此外,终端设备与服务器之间连接的网络40可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。在一示例中,用户(或称参会人员)可以使用终端设备通过网络40与服务器30通信,以实现终端设备与服务器间的信息接收和/或者发送。
此外,每个终端设备还包括音频模块,用于采集至少一个说话人的音频流。
需要说明的是,本公开实施例所提供的方法可由上述任一终端设备执行,比如由笔记本电脑实时地采集说话人的音频流,并实时地处理。
应理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和服务器,本实施例对此不予限制。
本公开实施例提供了一种会议场景下说话内容的显示方法,通过在会议应用APP中提供声纹识别功能的启动项,实现在会议应用的显示界面上实时地显示当前说话人的身份和说话内容,从而提高在线会议的会议质量,提高用户参会体验。
其中,本实施例的技术方案中,涉及语音识别技术,或称为自动语音识别(Automatic Speech Recognition,ASR),目的是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。其过程中包括声学特征提取、声学模型、语言模型与语言处理等过程。还涉及声纹识别技术,即前述VPR技术。
下面结合附图,对本公开实施例作进一步阐述。
参见图2,为本发明实施例提供的一种说话内容的显示方法,该方法可应用于一种终端设备,具体地,该方法包括:
步骤101,响应于终端设备的会议应用开启声纹识别功能,在接收说话人的音频过程中,基于声纹识别技术识别当前音频片段中说话人的身份信息。
其中,所述当前音频片段是音频流的至少一部分音频;会议应用是预先安装在终端设备上的一个应用APP,该应用APP具有视频、语音会议功能,比如该应用APP可以是
Figure BDA0003807350770000071
Figure BDA0003807350770000072
Figure BDA0003807350770000073
等软件应用模块。在该应用APP上可以设置声纹识别功能,通过开启声纹识别功能的启动项,控制该功能开启或者关闭。
具体地,一种可能的实施方式是,利用会议应用APP的设置功能,在终端设备的显示屏上显示会中安全设置窗口,所述会中安全设置窗口中包括使用声纹识别功能的启动项;当检测到用户开启所述使用声纹识别功能的启动项的操作时,比如用户在该启动项的按钮上的按触屏幕操作,则确定开启所述声纹识别功能,并关闭会中安全设置窗口。
在一示例中,如图3a所示,为一种会议中在PC端展示“安全设置窗口”的示意图。在会议应用APP的显示界面中显示一会议的安全设置窗口,该窗口中包括会议安全、入会范围、发言权限、共享权限和参数人权限等内容。其中,在“参会人权限”一栏中包括“修改会中姓名”和“使用纹识别功能”的启动项。当用户选中该“使用纹识别功能”,如图3a所示打“√”表示选中该启动项,则表明已经开启了声纹识别功能。
另外,在该“使用纹识别功能”旁边还包括一个符号,如图3b所示,当用户点击或触发该符号,会显示“启动后,将通过声纹特征识别会议室中说话人用户需要开启个人设置中的声纹识别开关”的提示信息,该信息用于提示用户开启声纹识别开关的操作。
可选的,除了在会议中设置并启动使用声纹识别功能之外,还可以在会议开始前设置。例如,如图3c所示,用户通过PC端在会议前设置并开启“使用纹识别功能”的启动项,与前述会议中设置的操作类似,开启安全设置窗口,又可称为视频会议设置窗口,通过该视频会议设置窗口开启“使用声纹识别功能”的启动项。
此外,除了上述在PC端设置使用声纹识别功能外,还可以在其他终端设备上设置,比如在又一示例中,如图3d所示,展示了手机端显示会议安全设置窗口的示意图,用户通过手机端上显示的会议安全设置窗口,设置并启动“使用纹识别功能”的启动项。另外,在又一示例中,还可以在房间室内(room)的终端设备上设置,如图3e所示,展示了用户通过室内(room)端设置并启动“使用纹识别功能”。此外,可选的,还可以通过网页设置,如图3f所示,展示了在网页上会议安全设置窗口中开启“使用纹识别功能”的示意图。
需要说明的是,无论通过上述PC、手机、电脑、网页等哪一种方式设置,其设置并启动“使用纹识别功能”的方法都相同或相近似。
应理解,在上述启动“声纹识别功能”的启动项过程中,检测用户的操作可以是检测到用户手与终端设备显示屏的接触操作,或者还可以是非接触操作,比如终端设备支持用户手势的隔空操作、语音控制操作等,本实施例对用户所采用的操作手势以及开启上述启动项的方法不具体限制。
此外,在步骤101,在开启“使用纹识别功能”启动项时,还包括启动收音功能,该收音功能可通过一收音模块/单元实现,对应到具体硬件设备可以是终端设备上的麦克风,因此,在如图3a至图3f所示的安全设置窗口中,用户可以通过“参会人麦克风设置”选项,开启“允许参会人自行打开麦克风”的启动项来启动收音功能。并且,在开启收音功能后,默认终端设备获取采集并识别用户语音信号的权限。
上述步骤101,在接收说话人的音频过程中,基于声纹识别技术识别当前音频片段中说话人的身份信息。
其中,当前音频片段是所述音频流的至少一部分音频,因为在终端设备开启收音功能后,就一直对周围环境声音信号进行采集和录音,采集说话人的语音信号,所以当前音频片段可以是终端设备采集的一部分音频片段或者全部音频。
具体地,如图4所示,一种利用声纹识别技术识别当前音频片段中说话人的身份信息的实施方式,包括以下方法步骤:
步骤1011,响应于通过语音活动检测VAD检测到人声结束信号,在采样周期内获取所述当前音频片段。
当采集到音频流时,通过VAD(Voice Activity Detection,语音活动检测)分识别出人声,并且在人声音频每隔一定时间间隔,比如间隔1s,提取一个3s的音频片段,获得当前音频片段。
步骤1012,确定所述当前音频片段中每个说话人的语音特征。
其中,终端设备中包括声纹识别模块,该模块通过使用声纹模型计算该当前音频片段,比如3s音频片段的声纹特征,并通过聚类算法提取特征相似度。所述聚类算法可以是k-means算法,具体地,根据k-means算法将说话人嵌入聚类,得到多个聚类结果,每个聚类结果对应一个说话人,即根据聚类结果的数量得到说话人的数量。并且,终端设备还可以根据每个聚类中的说话人嵌入,识别出每个聚类结果对应的说话人(speaker)的身份。其中,说话人的身份是指用于区分说话人的信息,可以表示某句语音是由谁说出来的。说话人是当前音频片段中说话的对象,所述说话人数量可能有一个或多个。
步骤1013,基于所述每个说话人的语音特征进行聚类分析,并将同一类的说话人嵌入作为一个说话人,得到聚类结果。
步骤1014,基于预先采集的说话人的音频信息,对所述聚类结果进行身份匹配,确定每个所述说话人的身份信息。
作为一种可选方式,上述步骤1012至步骤1014中,具体包括:获取待确定音频中每个说话人的音频信息,并提取音频信息的声纹特征向量;通过余弦距离计算的方式,将声纹特征向量与聚类结果进行匹配,得到匹配结果,基于匹配结果确定说话人的身份。例如,计算出说话人1(speaker 1)的余弦cos相似度为S1,如果判断S1大于预设值S,则识别出当前音频片段的说话人是speaker 1。
在本实施例中,通过对说话人嵌入进行聚类,将同一个说话人的音频片段通过说话人嵌入聚为一类,得到聚类结果,并根据该聚类结果确定说话人的个数以及每个说话人的身份信息,本方法提高了对多个说话人识别的效率。
应理解,本实施例上述步骤1011至1014仅为通过声纹识别方法识别说话人身份信息的一种实现方式。此外,还可以包括其他方法识别说话人身份,本实施例对此不一一赘述。
步骤102,对所述当前音频片段进行语音识别得到内容信息。
具体地,可通过语音识别技术对当前音频片段进行输入,前端处理(预处理),特征处理,识别过程,文本后处理等一系列处理,得到内容信息。
步骤103,关联显示所述说话人的身份信息以及所述内容信息。
其中,说话人的身份信息包括说话人的姓名、昵称或ID号等。说话人的内容则是当前说话人说话语音的文字内容,所述说话内容可通过字幕显示在当前会议应用APP的显示界面上。
如图5a所示,为一种在PC端展示说话人身份信息和说话内容的示意图。该图中展示了当前说话人是“说话人1”,以及说话人1的内容信息“今天的这个会议是否已经完成预算评议”等。此外,在显示界面上还显示其他参会人员的头像、用户名,以及上一个说话人的说话内容等信息。比如图5a中还展示说话人2的内容信息“是的,余弦评议基本上算是完成了,我这里还可能有一些细节需要推敲。”等等
本实施例提供的一种会议场景下的说话内容的显示方法,通过在会议应用上设置声纹识别功能,并响应于启动该声纹识别功能,在会议中采集至少一个说话人的音频流时,就能够利用该声纹识别技术识别出不同的说话人的身份,以及利用语音识别技术识别说话人的内容信息,最后关联显示在显示界面上,本方法可实时地识别并显示当前音频片段的说话人和内容信息,从而实现了会议中说话人身份和说话内容的实时展示,提高了会议质量和用户的参会体验。
下面对上述显示方法中步骤103的关联显示过程进行详细说明。
本公开提供了两种应用场景的显示方案,一种是在会议室对应的窗口视图中展示声纹识别结果;另一种是在字幕中的展示声纹识别结果。所述声纹识别结果包括说话人的身份信息和各个说话人对应的说话内容。
第一种,在会议室对应的窗口视图中展示声纹识别结果,具体包括以下实施方式。
(1)如果声纹识别功能识别出当前音频片段中只有一个说话人,则仅在页面上显示当前说话人的身份和说话内容。
如图5a所示,利用声纹识别功能仅识别出当前音频片段的说话人是“说话人1”,则在显示界面上显示该说话人1的说话内容,“今天的这个会议是否已经完成预算评议”。另外,还显示在下一个音频片段中识别的说话人2,以及说话人2的说话内容:“是的,预算评议基本上算是完成了,我这里可能还有一些细节需要推敲”等内容。
(2)如果声纹识别功能识别出两个或两个以上说话人的身份信息时,则显示这两个或两个以上说话人的身份信息,或者,在显示每个说话人的身份信息时,同时显示每个说话人对应的说话内容。
如图5b所示,在一会议场景中,利用声纹识别技术识别出在一间会议室中,有两个人轮流讲话,假设这两个说话人的身份信息分别是“说话人2”和“说话人3”,则在会议应用APP的显示界面上显示该这两个说话人的用户名“说话人2”和“说话人3”。
在利用声纹识别功能进行声纹识别过程中,当识别出新的说话人时,在显示界面,比如宫格视图等窗口中同时展示两个说话人姓名,且前一个说话人的姓名可以保留3秒的时间展示,3s以后上一说话人如果没有再说话,则不再显示该说话人的姓名。
可选的,还在显示界面上分别显示“说话人2”和“说话人3”说话内容信息,在图5b的示例中,这两个说话人的说话内容未显示。
(3)如果声纹识别功能未识别出说话人,具体地,在当前音频片段之后的预设时长内,利用声纹识别功能在下一音频片段中未检测到新的说话人,则不再显示所述当前音频片段中说话人的身份信息和对应的内容信息,显示说话人所在会议室的会议室标识,比如会议室ID号。
如图5c所示,在上一说话人说完话的预设时长内,比如3s内,没有识别出新的说话人,此时不再显示上一说话人的姓名以及说话内容,而仅展示会议室标识,比如会议室ID号。在图5c的示例中,当前会议室的ID号为“WeWork(会议室1)”。
此外,在上述显示声纹识别结果的过程中,还包括:如果识别出的说话人是主持人(Host),则在显示界面上还显示主持人标识,其中,该主持人标识可以是一种徽标。例如图5c中,还显示会议室“主持人/联系主持人”徽标是该会议室的名称或ID号等。
可选的,如果会议室的名称被修改,则主持人徽标显示修改后的会议室名称。
本实施例中,在终端设备上显示识别出的至少一个说话人的身份信息以及对应的说话内容的实现方式,可以是以下任意一种显示:宫格视图、缩略图视图、讲演者视图、失焦小窗视图和放大视图等。
例如,图5a和图5b示出了在PC端宫格展示声纹识别结果的一种示例;图5c示出了在PC端缩略图视图展示声纹识别结果的一种示例。其中,对于缩略图视图展示可以包括两种方式,图5c为其中一种方式,另一种方式是缩略图收起状态,如图5d所示,在缩略图收起状态下,仅显示用户或说话人头像。图5e示出了在PC端讲演者视图的一种示例,在该显示方式下,仅显示当前说话人(或讲演者)的显示窗;图5f示出了在PC端以失焦小窗展示的一种示例,在整个显示界面的右下角显示当前说话人的头像或界面。
应理解,除了上述图5a至图5f中在PC端显示声纹识别结果的各种不同形式的显示方式之外,这些显示方式还可以在诸如手机、网页或room等终端设备上展示。
例如,图6a为在手段端以宫格视图显示的一个示例;图6b为手机端以放大视图方式显示的一个示例,当用户在手机显示屏上触发放大操作时,比如双击放大,在显示屏上全屏显示当前说话人的窗口。如图6c所示,为在网页web端以讲演者视图显示的一个示例,在该显示界面下,仅显示声纹识别结果,不支持用户点击操作。此外,还可以包括其他各种显示方式,本实施例对此不做限制。
本实施例上述提供了在不同终端设备上的各种显示方式,方便用户在终端设备的不同条件下,以宫格视图、缩略图视图、讲演者视图、失焦小窗视图或放大视图等任一方式接入会议,提高了声纹识别显示结果的灵活性,提高了用户的与会体验。
第二种,本实施例还提供了一种在字幕中的展示声纹识别结果的场景,在该场景中应用于流式字幕的展示。
具体地,涉及后台声纹识别功能、前台的结果展示功能,在前台结果展示功能中还包括字幕换行功能。本实施例中,根据后台声纹识别技术,即前述步骤1011至步骤1014得到声纹识别结果中,再通过前台显示功能的规则设置,以及字幕换行功能设置,实现在终端设备上流式字幕的结果展示。
进一步地,在上述步骤103中,在会议应用APP的显示界面上显示说话人的身份信息以及所述内容信息,具体包括:按照至少一个预设规则在所述显示界面上显示所述说话人的身份信息以及所述内容信息。
在本实施例中,设置以下至少一个预设规则在前台展示声纹识别结果,具体包括:
第一预设规则:在识别所述说话人说话后的一段时间内,如果识别出新的说话人,则进行一次说话人内容信息的替换,将所述新的说话人的内容信息替换为前一个说话人的内容信息。比如,每段话在开始的4秒内(可根据时间情况更改),如果识别出新的说话人,或者未识别出有新的说话人,则实时进行声纹识别结果的替换,且按照每段话只进行一次实时替换。
例如上述图5a所示的场景,为一种实时说话人的说话内容通过字幕替换的一个示例。又例如图7a,为一种在手机端流式字幕显示说话人内容信息的一个示例;图7b,为一种在手机端流式字幕显示说话人全部说话内容信息的一个示例,在该示例中,能够完整地展示每个说话人在会议中各个时刻的说话内容,以及每个说话人的身份信息,从而为浏览前述会议历史内容,记录会议完整信息提供帮助。
此外,在前台显示说话人的身份和说话内容时,还包括设置第二预设规则。
第二预设规则为:在说话人说的每段话换行后,将当前说话段中统计的说话时长最长的人,作为所述当前说话段的说话人,并展示所述说话人的身份信息和说话内容。
其中,说话人说的每段话可通过检测出人声结束信号(ASR final)来确定,比如在每个ASR句子结束时,统计这句话中所有3s片段的识别结果,并将统计的说话时长最长的人,标记为当前段落的说话人,最后,在显示界面上显示该说话人的姓名和内容信息等。
另外,在前台显示过程中,还设置第三预设规则。进一步地,所述第三预设规则为:当识别出新的说话人时,在显示新的说话人的身份信息和内容信息时,还显示前一说话人的身份信息。具体地,如果识别到新的说话人,则展示出新的说话人头像和名称,并且整段话经过校准后,回到之前一个说话人的显示内容时,即使满足在30秒内前一个说话人进行说话,此时仍然显示前一说话人的头像和名称,即不隐藏前一说话人的身份信息,并且同时显示新的说话人的头像和名称。
可选的,在上述实施例介绍的两种场景的声纹识别结果显示过程中,本公开的技术方案中,还支持终端设备与用户的交互操作方法,用于提高字幕展示的多样性。下面对在每种场景下,支持用户在终端设备上交互操作的具体实施方式进行说明。
在上述实施例的步骤103中显示声纹识别结果时,一种交互操作的实施方式是,如图8所示,包括以下步骤:
步骤301:在所述显示界面上还显示声纹图标或用户ID。
步骤302:在所述显示界面上接收用户点击所述声纹图标的第一操作,或者点击所述用户ID的第二操作。所述第一操作和第二操作用于触发声纹图标或用户ID。
步骤303:响应于所述第一操作或所述第二操作,弹出所述提示语,所述提示语用于提示当前显示的说话人的身份信息和对应的说话内容均来自声纹识别结果。
具体地,在步骤303:响应于所述第一操作,弹出所述提示语;或者还包括:响应于所述第二操作,弹出与所述用户ID对应的用户主页,所述用户主页中包括所述用户ID和所述提示语。
例如,图9a所示,在一PC端显示声纹识别结果的过程中,在当前说话人的窗口显示一声纹图标,见画圆圈处,当检测到用户的第一操作,即用户点击将鼠标移动到该声纹图标(icon)时,弹出一提示窗,显示所述提示语,在本示例中,弹出的提示语内容为“通过声纹特征识别到WeWork(会议室1)中的说话人”。当声纹图标icon消失或鼠标移出触发区域时,且展示时长不足3秒时,将该提示语保持到3秒显示后再关闭;如果该提示语的显示时长超过3秒,直接关闭该提示语。
又例如,当检测到用户的第二操作,即用户点击用户名称(ID)时,弹出对应的用户主页(profile)卡片,如图9b所示,该profile卡片中包括用户名称、用户头像、提示语、以及其他用户信息,比如用户所在部门名称、个人二维码等。
需要说明的是,上述用户的第一操作和第二操作适用于前述PC、手机、room、网页等至少一种终端设备,且在不同的终端设备上基于用户的交互操作,终端设备执行相应的响应。又例如,在显示完整字幕的场景下,当识别到用户点击带有声纹图标icon的用户头像的操作时,弹出窗口(popover)告知用户该结果来自声纹识别,点击气泡中的用户名称,弹出profile卡片,同时气泡消失。
在本公开实施例中,还提供一种显示装置,该显示装置用于实现上述会议场景下的说话内容的显示方法。具体地,如图10所示,该装置包括如下模块:
接收单元501,用于响应于所述装置的会议应用开启的声纹识别功能,接收说话人的音频流;识别单元502,用于基于声纹识别技术识别当前音频片段中说话人的身份信息,以及对所述当前音频片段进行语音识别得到内容信息,所述当前音频片段是所述音频流的至少一部分音频;显示单元503,用于关联显示所述说话人的身份信息以及所述内容信息。
此外,该显示装置中还可以包括其他更多或更少模块/单元,比如收发单元、存储单元等。
其中,关于上述显示装置的具体限定可以参见上述实施例中对于说话内容显示方法的限定,在此不再赘述。本实施例中显示装置的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中,也可以以软件形式存储于电子设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本公开实施例还提供了一种电子设备,如图11所示,包括处理器110、存储器120、输入单元130、显示模块140、音频电路150等部件。并且,该电子设备可以是上述任一终端设备。
其中,处理器110是终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储器120内的软件程序和/或模块,以及调用存储在存储器120内的数据,执行各种功能和处理数据,从而对终端设备进行整体监控。
另外,处理器110可以为中央处理器(Central Processing Unit,CPU)。处理器110还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器120可用于存储软件程序以及模块,处理器110通过运行存储在存储器120的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器120可主要包括存储程序区和存储数据区。其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(如音频流)等;存储数据区可存储根据终端设备的使用所创建的数据(如音频数据、音频文件、媒体流)等。
输入单元130可用于接收输入的数字或文字信息,以及产生与终端设备的用户设置和功能控制有关的信号。具体地,输入单元130可包括触控面板1301,触控面板1301可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板1301上或在触控面板1301附近的操作),并根据预先设定的程式驱动相应的连接装置。输入单元130还可以包括其他输入设备,具体地,其他输入设备可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
其中,显示模块140可用于显示由用户输入的信息,或提供给用户的信息以及终端设备的各种菜单,同时可以展示图片、照片、音频、视频等内容。显示模块140可包括显示面板1401,或称为显示屏。进一步的,触控面板1301可覆盖显示面板1401,当触控面板1301检测到在其上或附近的触摸操作后,传送给处理器110以确定触摸事件的类型,随后处理器110根据触摸事件的类型在显示面板1401上提供相应的视觉输出。
音频电路150包括扬声器1501、麦克风1502等,可提供用户与终端设备之间的音频接口。音频电路150可将接收到的音频数据转换后的电信号,传输到扬声器1501,由扬声器1501转换为声音信号输出;另一方面,麦克风1502用于采集周围声音信号,然后将采集的声音信号转换为电信号,由音频电路150接收后转换为音频数据,再将音频数据输出经处理器110处理。
应理解,本申请图1中示出的终端设备结构仅为示例而非限定,终端设备还可以包括比图示更多或更少的部件,诸如通信模块、传感器模块等,或者组合某些部件,或者不同的部件布置,本实施例对此不予限制。
此外,上述存储器120作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的显示方法对应的程序指令/模块。处理器110通过运行存储在存储器120中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的说话内容的显示方法。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (14)

1.一种会议场景下说话内容的显示方法,其特征在于,所述方法包括:
响应于终端设备的会议应用开启的声纹识别功能,在接收说话人的音频流的过程中,基于声纹识别技术识别当前音频片段中说话人的身份信息,所述当前音频片段是所述音频流的至少一部分音频;
对所述当前音频片段进行语音识别得到内容信息;
关联显示所述说话人的身份信息以及所述内容信息。
2.根据权利要求1所述的方法,其特征在于,基于声纹识别技术识别当前音频片段中说话人的身份信息,包括:
响应于通过语音活动检测VAD检测到人声结束信号,在采样周期内获取所述当前音频片段;
确定所述当前音频片段中每个说话人的语音特征;
基于所述每个说话人的语音特征进行聚类分析,并将同一类的说话人嵌入作为一个说话人,得到聚类结果;
基于预先采集的说话人的音频信息,对所述聚类结果进行身份匹配,确定每个所述说话人的身份信息。
3.根据权利要求2所述的方法,其特征在于,当识别出两个或两个以上说话人的身份信息时,所述关联显示所述说话人的身份信息以及所述内容信息,包括:
显示所述两个或两个以上说话人的身份信息,或者,
显示所述两个或两个以上说话人的身份信息,以及每个说话人对应的内容信息。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据识别出的所述说话人的会中身份标识,在所述显示界面上还显示所述说话人的会中身份标识。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述说话人的身份信息以及所述内容信息在所述显示界面上通过以下任意一种显示:
宫格视图、缩略图视图、放大视图、讲演者视图、失焦小窗视图。
6.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
如果在所述当前音频片段之后的预设时长内,利用所述声纹识别技术在下一音频片段中未检测到新的说话人,则不再显示所述当前音频片段中说话人的身份信息和内容信息,显示所述说话人所在的会议室的会议室标识。
7.根据权利要求1至4任一项所述的方法,其特征在于,所述方法还包括:
在所述显示界面上还显示声纹图标或用户ID,所述声纹图标或用户ID在被用户触发时,弹出所述提示语,所述提示语提示当前显示的说话人的身份信息和对应的内容信息均来自声纹识别结果。
8.根据权利要求1至4任一项所述的方法,其特征在于,响应于终端设备的会议应用开启的声纹识别功能,包括:
显示会中安全设置窗口,所述会中安全设置窗口中包括使用声纹识别功能的启动项;
响应于用户开启所述使用声纹识别功能的启动项的操作,开启所述声纹识别功能,并关闭所述会中安全设置窗口。
9.根据权利要求1至4任一项所述的方法,其特征在于,关联显示所述说话人的身份信息以及所述内容信息,包括:
按照至少一个预设规则在显示界面上显示所述说话人的身份信息以及所述内容信息;
其中,所述至少一个预设规则包括:在识别所述说话人说话后的一段时间内,如果识别出新的说话人,则进行一次说话人内容信息的替换,将所述新的说话人的内容信息替换前一个说话人的内容信息。
10.根据权利要求9所述的方法,其特征在于,所述至少一个预设规则还包括:将当前说话段中说话时长最长的人确定为所述当前音频片段的说话人。
11.根据权利要求10所述的方法,其特征在于,所述至少一个预设规则还包括:当识别出新的说话人时,在显示新的说话人的身份信息和内容信息时,还显示前一说话人的身份信息。
12.一种会议场景下的说话内容的显示装置,其特征在于,所述装置包括:
接收单元,用于响应于所述装置的会议应用开启的声纹识别功能,接收说话人的音频流;
识别单元,用于基于声纹识别技术识别当前音频片段中说话人的身份信息,以及对所述当前音频片段进行语音识别得到内容信息,所述当前音频片段是所述音频流的至少一部分音频;
显示单元,用于关联显示所述说话人的身份信息以及所述内容信息。
13.一种电子设备,其特征在于,包括存储器和处理器,所述存储器和所述处理器耦合;
所述存储器,用于存储计算机程序指令;
所述计算机程序指令被所述处理器读取并执行时,实现如权利要求1至11中任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序;当所述计算机程序被计算机执行时,实现权利要求1至11中任一项所述的方法。
CN202211000980.6A 2022-08-19 2022-08-19 一种会议场景下的说话内容的显示方法和装置 Pending CN115376517A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211000980.6A CN115376517A (zh) 2022-08-19 2022-08-19 一种会议场景下的说话内容的显示方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211000980.6A CN115376517A (zh) 2022-08-19 2022-08-19 一种会议场景下的说话内容的显示方法和装置

Publications (1)

Publication Number Publication Date
CN115376517A true CN115376517A (zh) 2022-11-22

Family

ID=84064900

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211000980.6A Pending CN115376517A (zh) 2022-08-19 2022-08-19 一种会议场景下的说话内容的显示方法和装置

Country Status (1)

Country Link
CN (1) CN115376517A (zh)

Similar Documents

Publication Publication Date Title
US10490195B1 (en) Using system command utterances to generate a speaker profile
US10586541B2 (en) Communicating metadata that identifies a current speaker
US10733987B1 (en) System and methods for providing unplayed content
US11762494B2 (en) Systems and methods for identifying users of devices and customizing devices to users
CN109254669B (zh) 一种表情图片输入方法、装置、电子设备及系统
US20060173859A1 (en) Apparatus and method for extracting context and providing information based on context in multimedia communication system
CN110689889B (zh) 人机交互方法、装置、电子设备及存储介质
WO2021135685A1 (zh) 身份认证的方法以及装置
CN112040263A (zh) 视频处理方法、视频播放方法、装置、存储介质和设备
CN112653902B (zh) 说话人识别方法、装置及电子设备
JP2009540414A (ja) メディア識別
KR102193029B1 (ko) 디스플레이 장치 및 그의 화상 통화 수행 방법
KR101884291B1 (ko) 디스플레이장치 및 그 제어방법
JP2011039860A (ja) 仮想空間を用いる会話システム、会話方法及びコンピュータプログラム
JP7323098B2 (ja) 対話支援装置、対話支援システム、及び対話支援プログラム
CN110225202A (zh) 音频流的处理方法、装置、移动终端及存储介质
WO2019101099A1 (zh) 视频节目识别方法、设备、终端、系统和存储介质
CN108256071B (zh) 录屏文件的生成方法、装置、终端及存储介质
CN111223487B (zh) 一种信息处理方法及电子设备
CN110188364B (zh) 基于智能眼镜的翻译方法、设备及计算机可读存储介质
CN111506183A (zh) 一种智能终端及用户交互方法
CN110992958B (zh) 内容记录方法、装置、电子设备及存储介质
CN111161710A (zh) 同声传译方法、装置、电子设备及存储介质
CN115376517A (zh) 一种会议场景下的说话内容的显示方法和装置
CN112820265B (zh) 一种语音合成模型训练方法和相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination