CN113707153B - 一种会议语音数据处理方法及系统 - Google Patents

一种会议语音数据处理方法及系统 Download PDF

Info

Publication number
CN113707153B
CN113707153B CN202111040277.3A CN202111040277A CN113707153B CN 113707153 B CN113707153 B CN 113707153B CN 202111040277 A CN202111040277 A CN 202111040277A CN 113707153 B CN113707153 B CN 113707153B
Authority
CN
China
Prior art keywords
voice
identity
speaking
participants
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111040277.3A
Other languages
English (en)
Other versions
CN113707153A (zh
Inventor
王钰勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jilian Information Technology Co ltd
Original Assignee
Shenzhen Jilian Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jilian Information Technology Co ltd filed Critical Shenzhen Jilian Information Technology Co ltd
Priority to CN202111040277.3A priority Critical patent/CN113707153B/zh
Publication of CN113707153A publication Critical patent/CN113707153A/zh
Application granted granted Critical
Publication of CN113707153B publication Critical patent/CN113707153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Abstract

本发明提出了一种会议语音数据处理方法及系统,涉及语音识别领域。其包括以下步骤:多个采集模块布置在不同参会人员附近,根据不同采集模块采集对应参会人员的身份信息和初始声纹特征,以采集对应参会人员的讲话语音;识别并判断多个讲话语音的语音内容是否相同,当相同时,分析多个语音内容的声音强度,选择声音强度最大的语音内容;根据身份信息和初始声纹特征建立多个参会人员的语音特征模型,将选择的讲话语音输入语音特征模型,以得到身份匹配结果;根据采集模块判断身份信息是否与身份匹配结果匹配,当不匹配时根据身份匹配结果选择对应采集模块的相同语音内容。其能够提升对参会人员语音采集的准确度,提升会议记录效果。

Description

一种会议语音数据处理方法及系统
技术领域
本发明涉及语音识别技术领域,具体而言,涉及一种会议语音数据处理方法及系统。
背景技术
会议是指有组织、有领导、有目的的议事活动,它是在限定的时间和地点,按照一定的程序进行的。目前进行会议时,都会对会议过程进行记录,目前有通过记录员在一旁进行记录,或使用摄像设备进行记录,但其俊不够方便,目前有通过记录设备对会议语音进行记录的形式,但由于讲话人员众多,记录语音时,容易将讲话人员混淆,在后期进行资料整理时,容易浪费大量的人力资源和时间成本,不方便在后期进行查找检索。
发明内容
本发明的目的在于提供一种会议语音数据处理方法及系统,其能够提升进行会议时对各个参会人员语音采集的准确度,提升会议记录效果。
本发明的实施例是这样实现的:
第一方面,本申请实施例提供一种会议语音数据处理方法,包括以下步骤:多个采集模块布置在不同参会人员附近,根据不同上述采集模块采集对应参会人员的身份信息和初始声纹特征,以采集对应参会人员的讲话语音;识别并判断多个上述讲话语音的语音内容是否相同,当相同时,分析多个上述语音内容的声音强度,选择声音强度最大的上述语音内容;根据上述身份信息和上述初始声纹特征建立多个参会人员的语音特征模型,将选择的上述讲话语音输入上述语音特征模型,以得到身份匹配结果;根据上述采集模块判断上述身份信息是否与上述身份匹配结果匹配,当不匹配时根据上述身份匹配结果选择对应上述采集模块的相同上述语音内容。
在本发明的一些实施例中,根据上述采集模块判断上述身份信息是否与上述身份匹配结果匹配的步骤之后,上述方法还包括:对上述讲话语音进行消噪处理,将进行上述消噪处理后的上述讲话语音转换为文本信息。
在本发明的一些实施例中,将进行上述消噪处理后的上述讲话语音转换为文本信息的步骤之后,上述方法还包括:利用上述身份匹配结果记录不同上述参会人员的上述文本信息。
在本发明的一些实施例中,利用上述身份匹配结果记录不同上述参会人员的上述文本信息的步骤之后,上述方法还包括:将多个上述文本信息按照讲话时间进行排序以生成会议记录。
第二方面,本申请实施例提供一种会议语音数据处理系统,包括误差修正模块、确认模块、身份对比模块和多个采集模块:多个上述采集模块用于布置在不同参会人员附近,根据不同上述采集模块采集对应参会人员的身份信息和初始声纹特征,以采集对应参会人员的讲话语音;上述误差修正模块用于识别并判断多个上述讲话语音的语音内容是否相同,当相同时,分析多个上述语音内容的声音强度,选择声音强度最大的上述语音内容;上述身份对比模块用于根据上述身份信息和上述初始声纹特征建立多个参会人员的语音特征模型,将选择的上述讲话语音输入上述语音特征模型,以得到身份匹配结果;上述确认模块用于根据上述采集模块判断上述身份信息是否与上述身份匹配结果匹配,当不匹配时根据上述身份匹配结果选择对应上述采集模块的相同上述语音内容。
在本发明的一些实施例中,上述会议语音数据处理系统还包括文本转换模块,上述文本转换模块用于对上述讲话语音进行消噪处理,并将经过上述消噪处理后的上述讲话语音转换为文本信息。
在本发明的一些实施例中,上述会议语音数据处理系统还包括存储模块,上述存储模块用于利用上述身份匹配结果记录不同上述参会人员的上述文本信息。
在本发明的一些实施例中,上述会议语音数据处理系统还包括会议记录模块,上述会议记录模块用于将多个上述文本信息按照讲话时间进行排序以生成会议记录。
第三方面,本申请实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器。当一个或多个程序被处理器执行时,实现如上述第一方面中任一项的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
相对于现有技术,本发明的实施例至少具有如下优点或有益效果:
第一方面,本申请实施例提供一种会议语音数据处理方法,包括以下步骤:多个采集模块布置在不同参会人员附近,根据不同上述采集模块采集对应参会人员的身份信息和初始声纹特征,以采集对应参会人员的讲话语音;识别并判断多个上述讲话语音的语音内容是否相同,当相同时,分析多个上述语音内容的声音强度,选择声音强度最大的上述语音内容;根据上述身份信息和上述初始声纹特征建立多个参会人员的语音特征模型,将选择的上述讲话语音输入上述语音特征模型,以得到身份匹配结果;根据上述采集模块判断上述身份信息是否与上述身份匹配结果匹配,当不匹配时根据上述身份匹配结果选择对应上述采集模块的相同上述语音内容。
针对第一方面,通过多个采集模块分别用于采集参会人员身份信息和初始声纹特征,以用于采集参会人员的讲话语音,便于掌握参会人员的信息和对不同的参会人员分别进行语音记录;通过识别并判断多个上述讲话语音的语音内容是否相同,当相同时,分析多个上述语音内容的声音强度,选择声音强度最大的上述语音内容。从而可以保证采集当前讲话内容的为距离讲话人员最近与其对应的采集模块,保证其能够一一对应,防止其他的采集模块误采集讲话语音,避免采集的语音数据出现混淆;根据上述身份信息和上述初始声纹特征建立多个参会人员的语音特征模型,将选择的上述讲话语音输入上述语音特征模型,以得到身份匹配结果;从而能够将采集到的讲话语音与发出该讲话语音的参会人员对应起来,便于进行信息比对和记录,防止信息混淆;根据上述采集模块判断上述身份信息是否与上述身份匹配结果匹配,当不匹配时根据上述身份匹配结果选择对应上述采集模块的相同上述语音内容,从而对采集模块与其对应的参会人员的关联性进行了确认,保证了多个采集模块能够分别与多个参会人员能够一直保持一一对应,在参会人员位置发生变动时,仍能保持对应的采集模块对其讲话内容进行采集,提升了采集的语音内容的准确性。
第二方面,本申请实施例提供一种会议语音数据处理系统,包括误差修正模块、确认模块、身份对比模块和多个采集模块:多个上述采集模块用于布置在不同参会人员附近,根据不同上述采集模块采集对应参会人员的身份信息和初始声纹特征,以采集对应参会人员的讲话语音;上述误差修正模块用于识别并判断多个上述讲话语音的语音内容是否相同,当相同时,分析多个上述语音内容的声音强度,选择声音强度最大的上述语音内容;上述身份对比模块用于根据上述身份信息和上述初始声纹特征建立多个参会人员的语音特征模型,将选择的上述讲话语音输入上述语音特征模型,以得到身份匹配结果;上述确认模块用于根据上述采集模块判断上述身份信息是否与上述身份匹配结果匹配,当不匹配时根据上述身份匹配结果选择对应上述采集模块的相同上述语音内容。
第三方面,本申请实施例提供一种电子设备,其包括存储器,用于存储一个或多个程序;处理器。当一个或多个程序被处理器执行时,实现如上述第一方面中任一项的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面中任一项的方法。
针对第二~第四方面,本申请实施例与第一方面的原理及有益效果相同,在此不必重复描述。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种会议语音数据处理方法的流程图;
图2为本发明实施例提供的一种会议语音数据处理系统原理图;
图3为本发明实施例提供的一种电子设备的示意性结构框图。
图标:101-存储器,102-处理器,103-通信接口,200-会议语音数据处理系统,201-采集模块,202-误差修正模块,203-身份对比模块,204-确认模块,205-文本转换模块,206-存储模块,207-会议记录模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
在本申请的描述中,需要说明的是,术语“上”、“下”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
在本申请的描述中,还需要说明的是,除非另有明确的规定和限定,术语“设置”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本申请中的具体含义。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的各个实施例及实施例中的各个特征可以相互组合。
实施例1
一种会议语音数据处理方法,包括以下步骤:
S110:多个采集模块201布置在不同参会人员附近,根据不同上述采集模块201采集对应参会人员的身份信息和初始声纹特征,以采集对应参会人员的讲话语音;
S120:识别并判断多个上述讲话语音的语音内容是否相同,当相同时,分析多个上述语音内容的声音强度,选择声音强度最大的上述语音内容;
S130:根据上述身份信息和上述初始声纹特征建立多个参会人员的语音特征模型,将选择的上述讲话语音输入上述语音特征模型,以得到身份匹配结果;
S140:根据上述采集模块201判断上述身份信息是否与上述身份匹配结果匹配,当不匹配时根据上述身份匹配结果选择对应上述采集模块201的相同上述语音内容。
上述实施例中,任意一个采集模块201可以包括摄像头、麦克风和身份登记单元,其中摄像头用于采集参会人员图像,麦克风可以用于采集参会人员的初始声纹特征、身份登记单元用于登记参会人员的姓名等身份信息。
详细的,多个采集模块201设置在不同参会人员的身旁,当参会人员讲话时,可以对相对应参会人员的语音内容进行采集。因设置有多个采集模块201,因此会存在多个采集模块201均采集到当前讲话人员的语音内容的情况,在采集到语音内容后,则判断多个采集模块201采集的语音内容是否相同,其中判断所采集的语音内容是否相同可以通过判断所采集的语音内容的响度、音高、频谱和声音的波形来实现。若判断相同,则对采集到的多个语音内容的声音强度进行分析,从而获得一个不同声音强度大小的排列,并根据声音强度大小判断选择声音强度最大的一个语音内容,当距离越近,采集到的讲话语音的声音强度越大,从而可以保证采集当前讲话内容的为距离讲话人员最近的与其对应的采集模块201,保证能够一一对应,防止其他的采集模块201误采集讲话语音,避免采集的讲话语音出现混淆。
根据多个参会人员的身份信息和初始声纹特征分别建立多个参会人员的语音特征模型,将选择的语音内容输入到语音特征模型中,以得到身份匹配结果,其中身份匹配结果是将所采集到的讲话语音与相对应的讲话的人的身份信息一一对应起来,从而保证所采集的讲话语音与讲话人员对应,保证信息的准确性,保证会议中的采集的讲话语音能够和讲话人对应起来,便于记录。
根据采集模块201判断身份信息是否与身份匹配结果匹配,当不匹配时根据身份匹配结果选择对应采集模块201的相同语音内容。因在会议期间,可能会存在人员走动的情况,因此采集模块201采集的讲话语音会随着参会人员的距离变化,而导致采集的声音强度大小变化,从而可能导致采集模块201与参会人员对应错误的问题,在获得身份匹配结果后,将该采集模块201采集到的身份信息与身份匹配结果进行匹配判断,若判断为不匹配,则选择次级声音强度大小的采集模块201,再次进行将采集的身份信息和身份匹配结果进行匹配判断的步骤,直至匹配完成,并确定该采集模块201为对应该参会人员的采集模块201。对采集模块201与其对应的参会人员的关联性进行了确认,保证了多个采集模块201能够分别与多个参会人员能够一直保持一一对应,提升了采集的语音内容的准确性。
在本实施例的一些实施方式中,根据上述采集模块201判断上述身份信息是否与上述身份匹配结果匹配的步骤之后,上述方法还包括:对上述讲话语音进行消噪处理,将进行上述消噪处理后的上述讲话语音转换为文本信息。
可选的,对语音进行消噪的方式可以采用自适应滤波器/谱减法/维纳滤波法,对语音进行消噪主要为将会场的背景声如其他人声、音乐声等进行降低或消除,增强讲话人员的讲话语音的特征部分,从而实现对讲话语音的准确识别,提升识别准确率,在进行消噪处理后,将讲话语音通过语音识别方法转换为文本信息,从而便于进行记录,便于后期回顾会议内容,其中语音识别方法可以为现有常规已知的一种。
在本实施例的一些实施方式中,将进行上述消噪处理后的上述讲话语音转换为文本信息的步骤之后,上述方法还包括:利用上述身份匹配结果记录不同上述参会人员的上述文本信息。
详细的,在上述实施例中,获得了身份匹配结果用于将讲话人员与其发出的讲话语音进行匹配,在将讲话内容转换为文本信息后,通过身份匹配结果,从而将转换后的文本信息与人员进行匹配。示例性的,如A某说出的语音全部转换为文本信息后,则全部归为于A某。在将多个参会人员的讲话语音分别转换为文本信息后,将其分别与各自的参会人员进行匹配,从而便于后期进行会议记录的归档整理,减少会议记录人员的工作量。在本实施例中,在记录文本信息的同时,可以将讲话语音一同记录,便于后期调用。
在本实施例的一些实施方式中,利用上述身份匹配结果记录不同上述参会人员的上述文本信息的步骤之后,上述方法还包括:将多个上述文本信息按照讲话时间进行排序以生成会议记录。
上述实施例中,将多个文本信息按照讲话时间进行排序以生成会议记录,在采集模块201采集讲话语音时,会记录下当前讲话的时间,在将讲话语音转换为文本信息后,会根据所转换的讲话语音的记录时间,将转换后的文本信息按照时间进行排序,在将多个参会人员的讲话语音转换为文本信息后,通过各自的记录时间进行排序,集合获得整体会议的会议记录,从而可以保证最后获得的会议记录为沿着会议时间进行记录的,在后期进行回顾查阅的时候,可以清楚的查看到整体会议中不同参会人员内的对话情况。
实施例2
请参阅图2,图2为本发明实施例提供的一种会议语音数据处理系统200原理图。
一种会议语音数据处理系统200,包括误差修正模块202、确认模块204、身份对比模块203和多个采集模块201:多个上述采集模块201用于布置在不同参会人员附近,根据不同上述采集模块201采集对应参会人员的身份信息和初始声纹特征,以采集对应参会人员的讲话语音;上述误差修正模块202用于识别并判断多个上述讲话语音的语音内容是否相同,当相同时,分析多个上述语音内容的声音强度,选择声音强度最大的上述语音内容;上述身份对比模块203用于根据上述身份信息和上述初始声纹特征建立多个参会人员的语音特征模型,将选择的上述讲话语音输入上述语音特征模型,以得到身份匹配结果;上述确认模块204用于根据上述采集模块201判断上述身份信息是否与上述身份匹配结果匹配,当不匹配时根据上述身份匹配结果选择对应上述采集模块201的相同上述语音内容。
上述实施例中,任意一个采集模块201可以包括摄像头、麦克风和身份登记单元,其中摄像头用于采集参会人员图像,麦克风可以用于采集参会人员的初始声纹特征、身份登记单元用于登记参会人员的姓名等身份信息。
详细的,麦克风均设置在参会人员的身旁,当参会人员讲话时,可以对相对应的参会人员的语音内容进行采集,因设置有多个采集模块201,因此会存在多个采集模块201均采集到当前讲话人员的语音内容的情况,在采集到语音内容后,误差修正模块202则判断多个采集模块201采集的语音内容是否相同,若判断相同,则对采集到的多个语音内容的声音强度进行分析,从而获得一个不同声音强度大小的排列,并根据声音强度大小判断选择声音强度最大的一个语音内容,当距离越近,采集到的讲话语音的声音强度越大,从而可以保证采集当前讲话内容的为距离讲话人员最近与其对应的采集模块201,保证其能够一一对应,避免采集的语音数据出现混淆,防止其他的采集模块201误采集讲话语音。
身份对比模块203根据多个参会人员的身份信息和初始声纹特征分别建立多个参会人员的语音特征模型,将选择的语音内容输入到语音特征模型中,以得到身份匹配结果,其中身份匹配结果指的是将所采集到的讲话语音与相对应的讲话的人的身份信息一一对应起来,从而保证所采集的讲话语音与讲话人员对应,保证信息的准确性,保证会议中的采集的讲话语音能够具有条理性。
确认模块204根据采集模块201判断身份信息是否与身份匹配结果匹配,当不匹配时根据身份匹配结果选择对应采集模块201的相同语音内容。因在会议期间,可能会存在人员走动的情况,因此采集模块201采集的讲话语音会随着参会人员的距离变化,而导致采集的声音强度大小变化,从而可能导致采集模块201与参会人员对应错误的问题,在获得身份匹配结果后,身份对比模块203则将身份匹配结果反馈给对应该参会人员的采集模块201,确认模块204将该采集模块201采集到的身份信息与身份匹配结果进行匹配判断,若判断为不匹配,则选择次级声音强度大小的采集模块201,确认模块204再次进行将跟换后的采集模块201采集的身份信息和身份匹配结果进行匹配判断的步骤,直至匹配完成,并确定该采集模块201为对应该参会人员的采集模块201。对采集模块201与其对应的参会人员的关联性进行了确认,保证了多个采集模块201能够分别与多个参会人员能够一直保持一一对应,在参会人员位置发生变动时,仍能保持对应的采集模块201对其讲话内容进行采集,提升了采集的语音内容的准确性。
在本实施例的一些实施方式中,上述会议语音数据处理系统200还包括文本转换模块205,上述文本转换模块205用于对上述讲话语音进行消噪处理,并将经过上述消噪处理后的上述讲话语音转换为文本信息。
可选的,文本转换模块205对语音进行消噪的方式可以采用自适应滤波器/谱减法/维纳滤波法,对语音进行消噪主要为将会场的背景声如其他人声、音乐声等进行降低或消除,增强讲话人员的讲话语音的特征部分,从而实现对讲话语音的准确识别,提升识别准确率,在进行消噪处理后,将讲话语音通过语音识别方法转换为文本信息,从而便于进行记录,便于后期回顾会议内容,其中语音识别方法可以为现有常规已知的一种。
在本实施例的一些实施方式中,上述会议语音数据处理系统200还包括存储模块206,上述存储模块206用于利用上述身份匹配结果记录不同上述参会人员的上述文本信息。
在上述实施例中,身份对比模块203获得的身份匹配结果用于将讲话人员与其发出的讲话语音进行匹配,在将讲话语音内容转换为文本信息后,存储模块206通过身份匹配结果,从而将转换后的文本信息与人员进行匹配。示例性的,如A某说出的语音全部转换为文本信息后,则全部归为于A某。在将多个参会人员的讲话语音分别转换为文本信息后,将其分别与各自的参会人员进行匹配,从而便于后期进行会议记录的归档整理,减少会议记录人员的工作量。在本实施例中,在记录文本信息的同时,可以将讲话语音一同记录,便于后期调用。
在本实施例的一些实施方式中,上述会议语音数据处理系统200还包括会议记录模块207,上述会议记录模块207用于将多个上述文本信息按照讲话时间进行排序以生成会议记录。
详细的,会议记录模块207用于将多个文本信息按照讲话时间进行排序以生成会议记录,在采集模块201采集讲话语音时,会记录下当前讲话的时间,文本转换模块205在将讲话语音转换为文本信息后会发送给会议记录模块207,会议记录模块207会根据所转换的讲话语音的记录时间,将转换后的文本信息按照时间进行排序,在将多个参会人员的讲话语音转换为文本信息后,通过各自的记录时间进行排序,集合获得整体会议的会议记录,从而可以保证最后获得的会议记录为沿着会议时间进行记录的,在后期进行回顾查阅的时候,可以跟随会议时间走向清楚的查看到整体会议中不同参会人员内的对话情况,且能方便通过时间点查找相应的文本信息。
实施例3
请参阅图3,图3为本申请实施例提供的一种电子设备的一种示意性结构框图。电子设备包括存储器101、处理器102和通信接口103,该存储器101、处理器102和通信接口103相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。存储器101可用于存储软件程序及模块,如本申请实施例所提供的会议语音处理系统对应的程序指令/模块,处理器102通过执行存储在存储器101内的软件程序及模块,从而执行各种功能应用以及数据处理。该通信接口103可用于与其他节点设备进行信令或数据的通信。
其中,存储器101可以是但不限于,随机存取存储器101(Random Access Memory,RAM),只读存储器101(Read Only Memory,ROM),可编程只读存储器101(ProgrammableRead-Only Memory,PROM),可擦除只读存储器101(Erasable Programmable Read-OnlyMemory,EPROM),电可擦除只读存储器101(Electric Erasable Programmable Read-OnlyMemory,EEPROM)等。
处理器102可以是一种集成电路芯片,具有信号处理能力。该处理器102可以是通用处理器102,包括中央处理器102(Central Processing Unit,CPU)、网络处理器102(Network Processor,NP)等;还可以是数字信号处理器102(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可以理解,图2所示的结构仅为示意,会议语音数据处理系统200还可包括比图2中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
综上所述,本申请实施例提供的一种会议语音数据处理方法及系统,通过多个采集模块201分别用于采集参会人员身份信息和初始声纹特征,还分别用于采集参会人员的讲话语音,便于进行掌握参会人员信息和进行会议记录;通过识别并判断多个上述讲话语音的语音内容是否相同,当相同时,分析多个上述语音内容的声音强度,选择声音强度最大的上述语音内容。从而可以保证采集当前讲话内容的为距离讲话人员最近与其对应的采集模块201,保证其能够一一对应,防止其他的采集模块201误采集讲话语音,避免采集的语音数据出现混淆;根据上述身份信息和上述初始声纹特征建立多个参会人员的语音特征模型,将选择的上述讲话语音输入上述语音特征模型,以得到身份匹配结果;从而能够将采集到的讲话语音与发出该讲话语音的参会人员对应起来,便于进行信息比对和记录,防止信息混淆;根据上述采集模块201判断上述身份信息是否与上述身份匹配结果匹配,当不匹配时根据上述身份匹配结果选择对应上述采集模块201的相同上述语音内,从而对采集模块201与其对应的参会人员的关联性进行了确认,保证了多个采集模块201能够分别与多个参会人员能够一直保持一一对应,在参会人员位置发生变动时,仍能保持对应的采集模块201对其讲话内容进行采集,提升了采集的语音内容的准确性
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其它的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (6)

1.一种会议语音数据处理方法,其特征在于,包括以下步骤:
多个采集模块布置在不同参会人员附近,根据不同所述采集模块采集对应参会人员的身份信息和初始声纹特征,以采集对应参会人员的讲话语音;
识别并判断多个所述讲话语音的语音内容是否相同,当相同时,分析多个所述语音内容的声音强度,选择声音强度最大的所述语音内容;
根据所述身份信息和所述初始声纹特征建立多个参会人员的语音特征模型,将选择的所述讲话语音输入所述语音特征模型,以得到身份匹配结果;
根据所述采集模块判断所述身份信息是否与所述身份匹配结果匹配,当不匹配时根据所述身份匹配结果选择对应所述采集模块的相同所述语音内容;
根据所述采集模块判断所述身份信息是否与所述身份匹配结果匹配的步骤之后,所述方法还包括:
对所述讲话语音进行消噪处理,将进行所述消噪处理后的所述讲话语音转换为文本信息;
将进行所述消噪处理后的所述讲话语音转换为文本信息的步骤之后,所述方法还包括:
利用所述身份匹配结果记录不同所述参会人员的所述文本信息。
2.如权利要求1所述的一种会议语音数据处理方法,其特征在于,利用所述身份匹配结果记录不同所述参会人员的所述文本信息的步骤之后,所述方法还包括:
将多个所述文本信息按照讲话时间进行排序以生成会议记录。
3.一种会议语音数据处理系统,其特征在于,包括误差修正模块、确认模块、身份对比模块和多个采集模块:
多个所述采集模块用于布置在不同参会人员附近,根据不同所述采集模块采集对应参会人员的身份信息和初始声纹特征,以采集对应参会人员的讲话语音;
所述误差修正模块用于识别并判断多个所述讲话语音的语音内容是否相同,当相同时,分析多个所述语音内容的声音强度,选择声音强度最大的所述语音内容;
所述身份对比模块用于根据所述身份信息和所述初始声纹特征建立多个参会人员的语音特征模型,将选择的所述讲话语音输入所述语音特征模型,以得到身份匹配结果;
所述确认模块用于根据所述采集模块判断所述身份信息是否与所述身份匹配结果匹配,当不匹配时根据所述身份匹配结果选择对应所述采集模块的相同所述语音内容;
还包括文本转换模块,所述文本转换模块用于对所述讲话语音进行消噪处理,并将经过所述消噪处理后的所述讲话语音转换为文本信息;
还包括存储模块,所述存储模块用于利用所述身份匹配结果记录不同所述参会人员的所述文本信息。
4.如权利要求3所述的一种会议语音数据处理系统,其特征在于,还包括会议记录模块,所述会议记录模块用于将多个所述文本信息按照讲话时间进行排序以生成会议记录。
5.一种电子设备,其特征在于,包括:
存储器,用于存储一个或多个程序;
处理器;
当所述一个或多个程序被所述处理器执行时,实现如权利要求1-2中任一项所述的方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-2中任一项所述的方法。
CN202111040277.3A 2021-09-06 2021-09-06 一种会议语音数据处理方法及系统 Active CN113707153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111040277.3A CN113707153B (zh) 2021-09-06 2021-09-06 一种会议语音数据处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111040277.3A CN113707153B (zh) 2021-09-06 2021-09-06 一种会议语音数据处理方法及系统

Publications (2)

Publication Number Publication Date
CN113707153A CN113707153A (zh) 2021-11-26
CN113707153B true CN113707153B (zh) 2022-07-26

Family

ID=78660661

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111040277.3A Active CN113707153B (zh) 2021-09-06 2021-09-06 一种会议语音数据处理方法及系统

Country Status (1)

Country Link
CN (1) CN113707153B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114245065B (zh) * 2021-12-20 2023-03-24 深圳市音络科技有限公司 用于会议系统的定位跟踪方法、系统及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797043A (zh) * 2019-11-13 2020-02-14 苏州思必驰信息科技有限公司 会议语音实时转写方法及系统
CN111933144A (zh) * 2020-10-09 2020-11-13 融智通科技(北京)股份有限公司 后创建声纹的会议语音转写方法、装置及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101936208B1 (ko) * 2016-12-05 2019-01-08 주동림 현대 한국어에서 대표할 수 있는 발음으로 중국 전통 음운학 사호이론에 부합하는 중성자모체계와 한글 합자법을 활용한 중문표기 제공방법 및 시스템
CN107135443B (zh) * 2017-03-29 2020-06-23 联想(北京)有限公司 一种信号处理方法及电子设备
CN107393548B (zh) * 2017-07-05 2021-05-07 海信视像科技股份有限公司 多个语音助手设备采集的语音信息的处理方法及装置
CN108986826A (zh) * 2018-08-14 2018-12-11 中国平安人寿保险股份有限公司 自动生成会议记录的方法、电子装置及可读存储介质
CN109192213B (zh) * 2018-08-21 2023-10-20 平安科技(深圳)有限公司 庭审语音实时转写方法、装置、计算机设备及存储介质
CN109783642A (zh) * 2019-01-09 2019-05-21 上海极链网络科技有限公司 多人会议场景的结构化内容处理方法、装置、设备及介质
CN111667837A (zh) * 2019-02-21 2020-09-15 奇酷互联网络科技(深圳)有限公司 会议记录的获取方法、智能终端及具有存储功能的装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110797043A (zh) * 2019-11-13 2020-02-14 苏州思必驰信息科技有限公司 会议语音实时转写方法及系统
CN111933144A (zh) * 2020-10-09 2020-11-13 融智通科技(北京)股份有限公司 后创建声纹的会议语音转写方法、装置及存储介质

Also Published As

Publication number Publication date
CN113707153A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
US8219404B2 (en) Method and apparatus for recognizing a speaker in lawful interception systems
US10573318B2 (en) Voice information control method and terminal device
US6687671B2 (en) Method and apparatus for automatic collection and summarization of meeting information
CN107492153B (zh) 考勤系统、方法、考勤服务器及考勤终端
CN110515846B (zh) 一种关于用户体验测试的数据自动化处理分析系统
CN106453971B (zh) 呼叫中心质检语音的获取方法和呼叫中心质检系统
KR101795593B1 (ko) 전화상담원 보호 장치 및 그 방법
CN109065051B (zh) 一种语音识别处理方法及装置
KR102061291B1 (ko) 5g 통신 기반 스마트 회의 시스템 및 로보틱 처리 자동화를 통한 회의 지원 방법
CN113707153B (zh) 一种会议语音数据处理方法及系统
CN111724908A (zh) 基于机器人流程自动化rpa的疫情排查方法和装置
CN111462758A (zh) 智能会议角色分类的方法、装置、设备及存储介质
CN111048099A (zh) 声音源的识别方法、装置、服务器及存储介质
CN110728996A (zh) 一种实时语音质检方法、装置、设备及计算机存储介质
CN111724909A (zh) 一种结合rpa和ai的疫情排查方法和装置
CN113709313A (zh) 客服通话数据智能质检方法、装置、设备及介质
CN110047473B (zh) 一种人机协作交互方法及系统
CN111951809A (zh) 多人声纹辨别方法及系统
CN116127011A (zh) 意图识别方法、装置、电子设备及存储介质
CN114822557A (zh) 课堂中不同声音的区分方法、装置、设备以及存储介质
CN112131369B (zh) 一种业务类别确定方法和装置
CN114912463A (zh) 会议自动记录方法、系统、可读存储介质及计算机设备
CN115098661A (zh) 用于辅助疾病筛查的方法、电子设备及计算机存储介质
CN116472705A (zh) 一种会议内容显示的方法、会议系统及会议设备
CN114242109A (zh) 基于情感识别的智能外呼方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220701

Address after: 518000 room 706, block C, building 1, Section 1, Chuangzhi Yuncheng, Liuxian Avenue, Xili community, Xili street, Nanshan District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen Jilian Information Technology Co.,Ltd.

Address before: 101300 705, floor 7, building 5, yard 16, Xinzhong North Street, Shunyi District, Beijing

Applicant before: Beijing Zijuan Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant