CN103594086B - 语音处理系统、装置及方法 - Google Patents

语音处理系统、装置及方法 Download PDF

Info

Publication number
CN103594086B
CN103594086B CN201310507989.0A CN201310507989A CN103594086B CN 103594086 B CN103594086 B CN 103594086B CN 201310507989 A CN201310507989 A CN 201310507989A CN 103594086 B CN103594086 B CN 103594086B
Authority
CN
China
Prior art keywords
scheduled duration
file
spokesman
corresponding relation
identity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310507989.0A
Other languages
English (en)
Other versions
CN103594086A (zh
Inventor
杈逛豢
边仿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Haixing Technology Co Ltd
Original Assignee
HIFIMAN (TIANJIN) TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HIFIMAN (TIANJIN) TECHNOLOGY Co Ltd filed Critical HIFIMAN (TIANJIN) TECHNOLOGY Co Ltd
Priority to CN201310507989.0A priority Critical patent/CN103594086B/zh
Publication of CN103594086A publication Critical patent/CN103594086A/zh
Application granted granted Critical
Publication of CN103594086B publication Critical patent/CN103594086B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种语音处理系统、装置及方法,该系统包括用于选取音频/视频文件的档案读取单元、控制单元、标签文件生成单元、界面呈现单元,控制单元用于控制一语音处理芯片依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别,以确定每个预定时长的部份中的发言者的身份,标签文件生成单元用于生成记录每个预定时长的部份与发言者的身份之对应关系的标签文件,界面呈现单元用于生成一界面以呈现上述对应关系以及接收用户对上述对应关系的反馈,控制单元根据用户对至少上述预定时长的部份中之一与发言者的身份的对应关系的反馈来控制语音处理芯片重新依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别。

Description

语音处理系统、装置及方法
技术领域
本发明涉及一种音频文件或视频文件处理装置、系统及方法,尤其涉及一种利用语者识别(speaker recognition)技术对音频文件或视频文件进行处理的装置、系统及方法。
背景技术
随着便携式影像拍摄装置的普及,用户的计算机中存储了越来越多的视频文件,对于一个不熟悉视频文件内容的人来说,其可能需要花费很多时间逐个观看视频文件才能找到其想要的内容。
发明内容
有鉴于此,有必要提供一种音频文件或视频文件处理装置、系统及方法,其能够对音频文件或视频文件进行处理并且生成相应的标签文件,用户可以方便的搜索到想要的内容。
一种语音处理系统,包括档案读取单元,所述档案读取单元用于选取音频文件或视频文件,还包括控制单元、标签文件生成单元、界面呈现单元,所述控制单元用于控制一语音处理芯片依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别,以确定每个预定时长的部份中的发言者的身份,所述标签文件生成单元用于生成记录每个预定时长的部份与发言者的身份之对应关系的标签文件,所述界面呈现单元用于生成一界面以呈现上述对应关系以及接收用户对上述对应关系的反馈,所述控制单元还根据用户对至少上述预定时长的部份中之一与发言者的身份的对应关系的反馈来控制所述语音处理芯片重新依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别。
一种语音处理装置,包括处理器、存储器及语音处理芯片,所述处理器用于执行以下操作:根据用户的操作选取音频文件或视频文件;控制所述语音处理芯片依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别,以确定每个预定时长的部份中的发言者的身份;生成记录每个预定时长的部份与发言者的身份之对应关系的标签文件;生成一界面以呈现上述对应关系以及接收用户对上述对应关系的反馈;以及根据用户对至少上述预定时长的部份中之一与发言者的身份的对应关系的反馈来控制所述语音处理芯片重新依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别。
一种语音处理方法,包括:根据用户的操作选取音频文件或视频文件;控制一语音处理芯片依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别,以确定每个预定时长的部份中的发言者的身份;生成记录每个预定时长的部份与发言者的身份之对应关系的标签文件;生成一界面以呈现上述对应关系以及接收用户对上述对应关系的反馈;以及根据用户对至少上述预定时长的部份中之一与发言者的身份的对应关系的反馈来控制所述语音处理芯片重新依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别。
经过本发明的语音处理装置的处理后,音频文件或视频文件中的发言者的身份均被识别,且发言者的发言与不同时间段的对应关系记录在标签文件中,用户可以方便的搜寻标签文件而能够确定某一发言者在何时发言。
附图说明
图1为本发明的语音处理装置的方框图。
图2为本发明的语音处理装置生成的标签文件的示意图。
图3为本发明的语音处理装置生成的界面的示意图。
图4为本发明的语音处理方法的流程图。
主要元件符号说明
语音处理装置 100
处理器 10
存储器 20
档案读取单元 21
控制单元 22
标签文件生成单元 23
界面呈现单元 24
语音处理芯片 30
特征撷取单元 31
模型训练单元 32
识别单元 33
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
请参阅图1,本实施方式中的语音处理装置100包括处理器10、存储器20及语音处理芯片30。该存储器20中存储有能被处理器10执行的语音处理系统,包括档案读取单元21、控制单元22、标签文件生成单元23及界面呈现单元24。
档案读取单元21用于选取音频文件或视频文件,在本实施方式中,语音处理装置100为远程服务器,其用于接收并处理用户上传的音频文件或视频文件,档案读取单元21可以根据用户的操作而选取指定的音频文件或视频文件,档案读取单元21也可以在用户上传一音频文件或视频文件后自动选取该上传的音频文件或视频文件。
控制单元22用于控制语音处理芯片30依序对档案读取单元21读取的音频文件或视频文件中的预定时长部份进行声纹识别,以确定音频文件或视频文件中每个预定时长部份中发言者的身份。
标签文件生成单元23用于生成记录音频文件或视频文件中每个预定时长部份与发言者的身份之对应关系的标签文件(图2),界面呈现单元24用于生成一界面(图3)以呈现上述对应关系以及接收用户对上述对应关系的反馈。
控制单元22还根据用户对至少上述预定时长部份中之一与发言者的身份的对应关系的反馈来控制语音处理芯片30重新依序对读取的音频文件或视频文件中的预定时长部份进行声纹识别。
例如,假定一个时长为1分钟的视频文件的内容为多个人在进行谈话,其中,0-10秒为A发言,10-20秒为B发言,20-30秒为A发言,30-40为B发言,40-50秒为C发言,50-60秒为D发言。在用户上传该视频文件后,该档案读取单元21读取该视频文件,该控制单元22控制语音处理芯片30依序对该视频文件中的预定时长部份进行声纹识别。在本实施方式中,为了便于描述,假定该预定时长为10秒,假定存储器20中存储有发言人B和C的声纹特征模型,而没有发言人A、D的声纹特征模型。因为存储器20中没有存储发言人A的声纹特征模型,语音处理芯片30不能识别出视频文件的0-10秒部份中的发言者的身份,此时,标签文件生成单元23生成的标签文件中与视频文件的0-10秒部份对应的为U,代表未识别的身份。此后,语音处理芯片30以此对视频文件的10-20秒部份、20-30秒部份、30-40秒部份、40-50秒部份、50-60秒部份进行识别,识别的结果分别为B、U、B、C、U。亦即,该时长为1分钟的视频文件经过该语音处理芯片30的识别后的结果为U(0-10秒)、B(10-20秒)、U(20-30秒)、B(30-40秒)、C(40-50秒)、U(50-60秒)。
可以理解地,为了提高识别准确率或者识别速度,该视频文件中的预定时长部份可以相应调整,例如,为了提高识别准确率,该视频文件中的预定时长部份可以设定为5秒,则经过该语音处理芯片30识别的结果为U、U、B、B、U、U、B、B、C、C、U、U,该标签文件生成单元23将相邻地已经识别出的身份进行合并,标签文件生成单元23生成的标签文件中的对应关系为U(0-5秒)、U(5-10秒)、B(10-20秒)、U(20-25秒)、U(25-30秒)、B(30-40秒)、C(40-50秒)、U(50-55秒)、U(55-60秒)。
此后,界面呈现单元24生成如图3所示的界面,用户可以对识别结果进行确认或者修改,即,用户可以对识别正确的结果进行确认,而如果识别结果中存在错误或者存在未识别的身份,用户可以在观看视频文件中的相应部份以确认与该部份相对应的发言者的身份,并且输入正确的发言者的身份。在本实施方式中,对于视频文件,用户界面呈现单元24生成的界面还包括与每个预定时长部份中的一帧图像,这样可以便于用户更快的确定视频文件中的每一预定时长部份的识别结果是否正确。例如,用户可以通过视频文件0-10秒中的一帧图像确定未识别的身份为用户A。
在本实施方式中,用户可以选择对其中的一个识别结果进行反馈,例如,用户反馈视频文件0-10秒中的未识别的身份实际为用户A。控制单元22还根据用户的上述反馈控制语音处理芯片30重新依序对视频文件中的预定时长部份重新进行声纹识别,识别后的结果为A(0-10秒)、B(10-20秒)、A(20-30秒)、B(30-40秒)、C(40-50秒)、U(50-60秒)。用户可以再次确认视频文件50-60秒部份中未识别的用户身份实际为用户D,并且通过上述界面进行反馈。经过再一次的重新识别后,识别后的结果为A(0-10秒)、B(10-20秒)、A(20-30秒)、B(30-40秒)、C(40-50秒)、D(50-60秒),至此,上述视频文件中的各个发言人全部识别完毕,标签文件生成单元23生成的标签文件中记录了上述视频文件中每个预定时长部份与已识别的发言者之间的关系。可以理解地,用户可以选择对其中的全部识别结果进行反馈,如此,只需要语音处理芯片30依序对视频文件中的预定时长部份重新进行一次声纹识别即可识别出全部发言者的身份。
请再次参阅图1,在本实施方式中,该语音处理芯片30包括特征撷取单元31、模型训练单元32和识别单元33。特征撷取单元31用于撷取音频文件或视频文件中每个预定时长部份的声纹特征。模型训练单元32用于根据特征撷取单元31撷取的声纹特征训练生成对应用户的语者模型。识别单元33用于根据存储器20中存储的语者模型对音频文件或视频文件中每个预定时长部份进行识别,即,若从音频文件或视频文件中每个预定时长部份中撷取的声纹特征与存储器20中存储的一语者模型相匹配,则识别单元33能够识别出相应的发言者的身份;若从音频文件或视频文件中每个预定时长部份中撷取的声纹特征与存储器20中存储的所有语者模型都不匹配,则识别单元33不能识别相应的发言者的身份。
在本实施方式中,模型训练单元32还根据用户对未识别的身份的反馈对音频文件或视频文件中对应部份之语音特征进行训练,以获得相应的语者模型。例如,用户反馈上述视频文件0-10秒中的未识别的身份实际为用户A,模型训练单元32根据上述视频文件0-10秒中对应的声纹特征进行训练以获得用户A的语者模型,从而使得识别单元33在进行重新辨识时能够识别出上述视频文件20-30秒中的发言者亦为用户A。
图4为语音处理装置100进行音频文件或视频文件进行处理的流程图。在步骤S200中,处理器10根据用户的操作选取音频文件或视频文件。在步骤S210中,处理器10控制语音处理芯片30依序对读取的音频文件或视频文件中的预定时长部份进行声纹识别,以确定每个预定时长部份中的发言者的身份。在步骤S220中,处理器10生成记录每个预定时长部份与发言者的身份之对应关系的标签文件。在步骤S230中,处理器10生成一界面以呈现上述对应关系以及接收用户对上述对应关系的反馈。在步骤S240中,根据用户对至少上述预定时长部份中之一与发言者的身份的对应关系的反馈来控制所述语音处理芯片30重新依序对读取的音频文件或视频文件中的预定时长部份进行声纹识别。

Claims (3)

1.一种语音处理系统,包括档案读取单元,所述档案读取单元用于选取音频文件或视频文件,其特征在于,还包括控制单元、标签文件生成单元、界面呈现单元,所述控制单元用于控制一语音处理芯片依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别,以确定每个预定时长的部份中的发言者的身份,所述标签文件生成单元用于生成记录每个预定时长的部份与发言者的身份之对应关系的标签文件,所述界面呈现单元用于生成一界面以呈现上述对应关系以及接收用户对上述对应关系的反馈,所述控制单元还根据用户对至少上述预定时长的部份中之一与发言者的身份的对应关系的反馈来控制所述语音处理芯片重新依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别。
2.一种语音处理装置,包括处理器、存储器及语音处理芯片,其特征在于,所述处理器用于执行以下操作:
根据用户的操作选取音频文件或视频文件;
控制所述语音处理芯片依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别,以确定每个预定时长的部份中的发言者的身份;
生成记录每个预定时长的部份与发言者的身份之对应关系的标签文件;
生成一界面以呈现上述对应关系以及接收用户对上述对应关系的反馈;以及
根据用户对至少上述预定时长的部份中之一与发言者的身份的对应关系的反馈来控制所述语音处理芯片重新依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别。
3.一种语音处理方法,包括:
根据用户的操作选取音频文件或视频文件;
控制一语音处理芯片依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别,以确定每个预定时长的部份中的发言者的身份;
生成记录每个预定时长的部份与发言者的身份之对应关系的标签文件;
生成一界面以呈现上述对应关系以及接收用户对上述对应关系的反馈;以及
根据用户对至少上述预定时长的部份中之一与发言者的身份的对应关系的反馈来控制所述语音处理芯片重新依序对读取的音频文件或视频文件中的预定时长的部份进行声纹识别。
CN201310507989.0A 2013-10-25 2013-10-25 语音处理系统、装置及方法 Expired - Fee Related CN103594086B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310507989.0A CN103594086B (zh) 2013-10-25 2013-10-25 语音处理系统、装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310507989.0A CN103594086B (zh) 2013-10-25 2013-10-25 语音处理系统、装置及方法

Publications (2)

Publication Number Publication Date
CN103594086A CN103594086A (zh) 2014-02-19
CN103594086B true CN103594086B (zh) 2016-08-17

Family

ID=50084193

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310507989.0A Expired - Fee Related CN103594086B (zh) 2013-10-25 2013-10-25 语音处理系统、装置及方法

Country Status (1)

Country Link
CN (1) CN103594086B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106341756A (zh) * 2016-08-29 2017-01-18 北海爱飞数码科技有限公司 个性化智能音箱

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104505091B (zh) * 2014-12-26 2018-08-21 湖南华凯文化创意股份有限公司 人机语音交互方法及系统
CN105304082B (zh) * 2015-09-08 2018-12-28 北京云知声信息技术有限公司 一种语音输出方法及装置
CN111554270B (zh) * 2020-04-29 2023-04-18 北京声智科技有限公司 训练样本筛选方法及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1662956A (zh) * 2002-06-19 2005-08-31 皇家飞利浦电子股份有限公司 大量说话人识别(id)系统及其相应方法
EP2182512A1 (en) * 2008-10-29 2010-05-05 BRITISH TELECOMMUNICATIONS public limited company Speaker verification
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别系统和方法
CN101997995A (zh) * 2009-08-26 2011-03-30 华为技术有限公司 一种用户身份识别方法、设备及呼叫中心系统
CN102347060A (zh) * 2010-08-04 2012-02-08 鸿富锦精密工业(深圳)有限公司 电子记录装置及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1662956A (zh) * 2002-06-19 2005-08-31 皇家飞利浦电子股份有限公司 大量说话人识别(id)系统及其相应方法
EP2182512A1 (en) * 2008-10-29 2010-05-05 BRITISH TELECOMMUNICATIONS public limited company Speaker verification
CN101997995A (zh) * 2009-08-26 2011-03-30 华为技术有限公司 一种用户身份识别方法、设备及呼叫中心系统
CN102347060A (zh) * 2010-08-04 2012-02-08 鸿富锦精密工业(深圳)有限公司 电子记录装置及方法
CN101923854A (zh) * 2010-08-31 2010-12-22 中国科学院计算技术研究所 一种交互式语音识别系统和方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106341756A (zh) * 2016-08-29 2017-01-18 北海爱飞数码科技有限公司 个性化智能音箱

Also Published As

Publication number Publication date
CN103594086A (zh) 2014-02-19

Similar Documents

Publication Publication Date Title
US10621991B2 (en) Joint neural network for speaker recognition
US10706873B2 (en) Real-time speaker state analytics platform
KR101909807B1 (ko) 메시지 입력 방법 및 장치
US10971188B2 (en) Apparatus and method for editing content
CN106658129B (zh) 基于情绪的终端控制方法、装置及终端
US10486312B2 (en) Robot, robot control method, and robot system
US9560411B2 (en) Method and apparatus for generating meta data of content
CN104598644B (zh) 喜好标签挖掘方法和装置
US20220353102A1 (en) Systems and methods for team cooperation with real-time recording and transcription of conversations and/or speeches
US11869508B2 (en) Systems and methods for capturing, processing, and rendering one or more context-aware moment-associating elements
US11657822B2 (en) Systems and methods for processing and presenting conversations
CN112037791B (zh) 会议纪要转录方法、设备和存储介质
CN109872727B (zh) 语音质量评价设备、方法和系统
KR20070118038A (ko) 정보처리 장치 및 정보처리 방법과 컴퓨터·프로그램
CN110708607B (zh) 直播互动方法、装置、电子设备以及存储介质
TWI590240B (zh) 會議記錄裝置及其自動生成會議記錄的方法
CN112653902B (zh) 说话人识别方法、装置及电子设备
US11100943B1 (en) Systems and methods for processing and presenting conversations
CN110740389A (zh) 视频定位方法、装置、计算机可读介质及电子设备
CN103594086B (zh) 语音处理系统、装置及方法
TW201513095A (zh) 語音處理系統、裝置及方法
CN107945806B (zh) 基于声音特征的用户识别方法及装置
US11392791B2 (en) Generating training data for natural language processing
US9525841B2 (en) Imaging device for associating image data with shooting condition information
JP2014146066A (ja) 文書データ生成装置、文書データ生成方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160324

Address after: 518109 Guangdong province Shenzhen city Longhua District Dragon Road No. 83 wing group building 11 floor

Applicant after: SCIENBIZIP CONSULTING (SHEN ZHEN) CO., LTD.

Address before: 518109 Guangdong city of Shenzhen province Baoan District Longhua Town Industrial Zone tabulaeformis tenth East Ring Road No. 2 two

Applicant before: Hongfujin Precise Industry (Shenzhen) Co., Ltd.

Applicant before: Hon Hai Precision Industry Co., Ltd.

C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160612

Address after: 518000 Guangdong Province, Shenzhen New District of Longhua City, Dalang street, Hua Sheng Lu Yong Jingxuan commercial building 1608v

Applicant after: Jinyang Shenzhen sea Network Intelligent Technology Co., Ltd.

Address before: 518109 Guangdong province Shenzhen city Longhua District Dragon Road No. 83 wing group building 11 floor

Applicant before: SCIENBIZIP CONSULTING (SHEN ZHEN) CO., LTD.

C41 Transfer of patent application or patent right or utility model
CB03 Change of inventor or designer information

Inventor after: Bian Fang

Inventor before: Lin Haixing

Inventor before: Dong Xinzong

COR Change of bibliographic data
TA01 Transfer of patent application right

Effective date of registration: 20160713

Address after: 300384 Tianjin Lanyuan Huayuan Industrial Zone Road No. five, block B

Applicant after: HIFIMAN (TIANJIN) TECHNOLOGY CO., LTD.

Address before: 518000 Guangdong Province, Shenzhen New District of Longhua City, Dalang street, Hua Sheng Lu Yong Jingxuan commercial building 1608v

Applicant before: Jinyang Shenzhen sea Network Intelligent Technology Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant
C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20160913

Address after: 300457 Tianjin Binhai New District Huayuan Industrial Zone (outer ring) Haitai Avenue D2-4-102

Patentee after: Tianjin Haixing Technology Co., Ltd.

Address before: 300384 Tianjin Lanyuan Huayuan Industrial Zone Road No. five, block B

Patentee before: HIFIMAN (TIANJIN) TECHNOLOGY CO., LTD.

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160817

Termination date: 20171025