CN103594086B

CN103594086B - 语音处理系统、装置及方法

Info

Publication number: CN103594086B
Application number: CN201310507989.0A
Authority: CN
Inventors: 杈逛豢; 边仿
Original assignee: HIFIMAN (TIANJIN) TECHNOLOGY Co Ltd
Current assignee: Tianjin Haixing Technology Co Ltd
Priority date: 2013-10-25
Filing date: 2013-10-25
Publication date: 2016-08-17
Anticipated expiration: 2033-10-25
Also published as: CN103594086A

Abstract

本发明提供一种语音处理系统、装置及方法，该系统包括用于选取音频/视频文件的档案读取单元、控制单元、标签文件生成单元、界面呈现单元，控制单元用于控制一语音处理芯片依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别，以确定每个预定时长的部份中的发言者的身份，标签文件生成单元用于生成记录每个预定时长的部份与发言者的身份之对应关系的标签文件，界面呈现单元用于生成一界面以呈现上述对应关系以及接收用户对上述对应关系的反馈，控制单元根据用户对至少上述预定时长的部份中之一与发言者的身份的对应关系的反馈来控制语音处理芯片重新依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别。

Description

语音处理系统、装置及方法

技术领域

本发明涉及一种音频文件或视频文件处理装置、系统及方法，尤其涉及一种利用语者识别（speaker recognition）技术对音频文件或视频文件进行处理的装置、系统及方法。

背景技术

随着便携式影像拍摄装置的普及，用户的计算机中存储了越来越多的视频文件，对于一个不熟悉视频文件内容的人来说，其可能需要花费很多时间逐个观看视频文件才能找到其想要的内容。

发明内容

有鉴于此，有必要提供一种音频文件或视频文件处理装置、系统及方法，其能够对音频文件或视频文件进行处理并且生成相应的标签文件，用户可以方便的搜索到想要的内容。

一种语音处理系统，包括档案读取单元，所述档案读取单元用于选取音频文件或视频文件，还包括控制单元、标签文件生成单元、界面呈现单元，所述控制单元用于控制一语音处理芯片依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别，以确定每个预定时长的部份中的发言者的身份，所述标签文件生成单元用于生成记录每个预定时长的部份与发言者的身份之对应关系的标签文件，所述界面呈现单元用于生成一界面以呈现上述对应关系以及接收用户对上述对应关系的反馈，所述控制单元还根据用户对至少上述预定时长的部份中之一与发言者的身份的对应关系的反馈来控制所述语音处理芯片重新依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别。

一种语音处理装置，包括处理器、存储器及语音处理芯片，所述处理器用于执行以下操作：根据用户的操作选取音频文件或视频文件；控制所述语音处理芯片依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别，以确定每个预定时长的部份中的发言者的身份；生成记录每个预定时长的部份与发言者的身份之对应关系的标签文件；生成一界面以呈现上述对应关系以及接收用户对上述对应关系的反馈；以及根据用户对至少上述预定时长的部份中之一与发言者的身份的对应关系的反馈来控制所述语音处理芯片重新依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别。

一种语音处理方法，包括：根据用户的操作选取音频文件或视频文件；控制一语音处理芯片依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别，以确定每个预定时长的部份中的发言者的身份；生成记录每个预定时长的部份与发言者的身份之对应关系的标签文件；生成一界面以呈现上述对应关系以及接收用户对上述对应关系的反馈；以及根据用户对至少上述预定时长的部份中之一与发言者的身份的对应关系的反馈来控制所述语音处理芯片重新依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别。

经过本发明的语音处理装置的处理后，音频文件或视频文件中的发言者的身份均被识别，且发言者的发言与不同时间段的对应关系记录在标签文件中，用户可以方便的搜寻标签文件而能够确定某一发言者在何时发言。

附图说明

图1为本发明的语音处理装置的方框图。

图2为本发明的语音处理装置生成的标签文件的示意图。

图3为本发明的语音处理装置生成的界面的示意图。

图4为本发明的语音处理方法的流程图。

主要元件符号说明

语音处理装置	100
		处理器	10
存储器	20
		档案读取单元	21
控制单元	22
		标签文件生成单元	23
界面呈现单元	24
		语音处理芯片	30
特征撷取单元	31
		模型训练单元	32
识别单元	33

如下具体实施方式将结合上述附图进一步说明本发明。

具体实施方式

请参阅图1，本实施方式中的语音处理装置100包括处理器10、存储器20及语音处理芯片30。该存储器20中存储有能被处理器10执行的语音处理系统，包括档案读取单元21、控制单元22、标签文件生成单元23及界面呈现单元24。

档案读取单元21用于选取音频文件或视频文件，在本实施方式中，语音处理装置100为远程服务器，其用于接收并处理用户上传的音频文件或视频文件，档案读取单元21可以根据用户的操作而选取指定的音频文件或视频文件，档案读取单元21也可以在用户上传一音频文件或视频文件后自动选取该上传的音频文件或视频文件。

控制单元22用于控制语音处理芯片30依序对档案读取单元21读取的音频文件或视频文件中的预定时长部份进行声纹识别，以确定音频文件或视频文件中每个预定时长部份中发言者的身份。

标签文件生成单元23用于生成记录音频文件或视频文件中每个预定时长部份与发言者的身份之对应关系的标签文件（图2），界面呈现单元24用于生成一界面（图3）以呈现上述对应关系以及接收用户对上述对应关系的反馈。

控制单元22还根据用户对至少上述预定时长部份中之一与发言者的身份的对应关系的反馈来控制语音处理芯片30重新依序对读取的音频文件或视频文件中的预定时长部份进行声纹识别。

例如，假定一个时长为1分钟的视频文件的内容为多个人在进行谈话，其中，0-10秒为A发言，10-20秒为B发言，20-30秒为A发言，30-40为B发言，40-50秒为C发言，50-60秒为D发言。在用户上传该视频文件后，该档案读取单元21读取该视频文件，该控制单元22控制语音处理芯片30依序对该视频文件中的预定时长部份进行声纹识别。在本实施方式中，为了便于描述，假定该预定时长为10秒，假定存储器20中存储有发言人B和C的声纹特征模型，而没有发言人A、D的声纹特征模型。因为存储器20中没有存储发言人A的声纹特征模型，语音处理芯片30不能识别出视频文件的0-10秒部份中的发言者的身份，此时，标签文件生成单元23生成的标签文件中与视频文件的0-10秒部份对应的为U，代表未识别的身份。此后，语音处理芯片30以此对视频文件的10-20秒部份、20-30秒部份、30-40秒部份、40-50秒部份、50-60秒部份进行识别，识别的结果分别为B、U、B、C、U。亦即，该时长为1分钟的视频文件经过该语音处理芯片30的识别后的结果为U（0-10秒）、B（10-20秒）、U（20-30秒）、B（30-40秒）、C（40-50秒）、U（50-60秒）。

可以理解地，为了提高识别准确率或者识别速度，该视频文件中的预定时长部份可以相应调整，例如，为了提高识别准确率，该视频文件中的预定时长部份可以设定为5秒，则经过该语音处理芯片30识别的结果为U、U、B、B、U、U、B、B、C、C、U、U，该标签文件生成单元23将相邻地已经识别出的身份进行合并，标签文件生成单元23生成的标签文件中的对应关系为U（0-5秒）、U（5-10秒）、B（10-20秒）、U（20-25秒）、U（25-30秒）、B（30-40秒）、C（40-50秒）、U（50-55秒）、U（55-60秒）。

此后，界面呈现单元24生成如图3所示的界面，用户可以对识别结果进行确认或者修改，即，用户可以对识别正确的结果进行确认，而如果识别结果中存在错误或者存在未识别的身份，用户可以在观看视频文件中的相应部份以确认与该部份相对应的发言者的身份，并且输入正确的发言者的身份。在本实施方式中，对于视频文件，用户界面呈现单元24生成的界面还包括与每个预定时长部份中的一帧图像，这样可以便于用户更快的确定视频文件中的每一预定时长部份的识别结果是否正确。例如，用户可以通过视频文件0-10秒中的一帧图像确定未识别的身份为用户A。

在本实施方式中，用户可以选择对其中的一个识别结果进行反馈，例如，用户反馈视频文件0-10秒中的未识别的身份实际为用户A。控制单元22还根据用户的上述反馈控制语音处理芯片30重新依序对视频文件中的预定时长部份重新进行声纹识别，识别后的结果为A（0-10秒）、B（10-20秒）、A（20-30秒）、B（30-40秒）、C（40-50秒）、U（50-60秒）。用户可以再次确认视频文件50-60秒部份中未识别的用户身份实际为用户D，并且通过上述界面进行反馈。经过再一次的重新识别后，识别后的结果为A（0-10秒）、B（10-20秒）、A（20-30秒）、B（30-40秒）、C（40-50秒）、D（50-60秒），至此，上述视频文件中的各个发言人全部识别完毕，标签文件生成单元23生成的标签文件中记录了上述视频文件中每个预定时长部份与已识别的发言者之间的关系。可以理解地，用户可以选择对其中的全部识别结果进行反馈，如此，只需要语音处理芯片30依序对视频文件中的预定时长部份重新进行一次声纹识别即可识别出全部发言者的身份。

请再次参阅图1，在本实施方式中，该语音处理芯片30包括特征撷取单元31、模型训练单元32和识别单元33。特征撷取单元31用于撷取音频文件或视频文件中每个预定时长部份的声纹特征。模型训练单元32用于根据特征撷取单元31撷取的声纹特征训练生成对应用户的语者模型。识别单元33用于根据存储器20中存储的语者模型对音频文件或视频文件中每个预定时长部份进行识别，即，若从音频文件或视频文件中每个预定时长部份中撷取的声纹特征与存储器20中存储的一语者模型相匹配，则识别单元33能够识别出相应的发言者的身份；若从音频文件或视频文件中每个预定时长部份中撷取的声纹特征与存储器20中存储的所有语者模型都不匹配，则识别单元33不能识别相应的发言者的身份。

在本实施方式中，模型训练单元32还根据用户对未识别的身份的反馈对音频文件或视频文件中对应部份之语音特征进行训练，以获得相应的语者模型。例如，用户反馈上述视频文件0-10秒中的未识别的身份实际为用户A，模型训练单元32根据上述视频文件0-10秒中对应的声纹特征进行训练以获得用户A的语者模型，从而使得识别单元33在进行重新辨识时能够识别出上述视频文件20-30秒中的发言者亦为用户A。

图4为语音处理装置100进行音频文件或视频文件进行处理的流程图。在步骤S200中，处理器10根据用户的操作选取音频文件或视频文件。在步骤S210中，处理器10控制语音处理芯片30依序对读取的音频文件或视频文件中的预定时长部份进行声纹识别，以确定每个预定时长部份中的发言者的身份。在步骤S220中，处理器10生成记录每个预定时长部份与发言者的身份之对应关系的标签文件。在步骤S230中，处理器10生成一界面以呈现上述对应关系以及接收用户对上述对应关系的反馈。在步骤S240中，根据用户对至少上述预定时长部份中之一与发言者的身份的对应关系的反馈来控制所述语音处理芯片30重新依序对读取的音频文件或视频文件中的预定时长部份进行声纹识别。

Claims

1.一种语音处理系统，包括档案读取单元，所述档案读取单元用于选取音频文件或视频文件，其特征在于，还包括控制单元、标签文件生成单元、界面呈现单元，所述控制单元用于控制一语音处理芯片依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别，以确定每个预定时长的部份中的发言者的身份，所述标签文件生成单元用于生成记录每个预定时长的部份与发言者的身份之对应关系的标签文件，所述界面呈现单元用于生成一界面以呈现上述对应关系以及接收用户对上述对应关系的反馈，所述控制单元还根据用户对至少上述预定时长的部份中之一与发言者的身份的对应关系的反馈来控制所述语音处理芯片重新依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别。

2.一种语音处理装置，包括处理器、存储器及语音处理芯片，其特征在于，所述处理器用于执行以下操作：

根据用户的操作选取音频文件或视频文件；

控制所述语音处理芯片依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别，以确定每个预定时长的部份中的发言者的身份；

生成记录每个预定时长的部份与发言者的身份之对应关系的标签文件；

生成一界面以呈现上述对应关系以及接收用户对上述对应关系的反馈；以及

根据用户对至少上述预定时长的部份中之一与发言者的身份的对应关系的反馈来控制所述语音处理芯片重新依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别。

3.一种语音处理方法，包括：

根据用户的操作选取音频文件或视频文件；

控制一语音处理芯片依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别，以确定每个预定时长的部份中的发言者的身份；