CN102522084B - 一种将语音数据转换为文本文件的方法和系统 - Google Patents

一种将语音数据转换为文本文件的方法和系统 Download PDF

Info

Publication number
CN102522084B
CN102522084B CN 201110436096 CN201110436096A CN102522084B CN 102522084 B CN102522084 B CN 102522084B CN 201110436096 CN201110436096 CN 201110436096 CN 201110436096 A CN201110436096 A CN 201110436096A CN 102522084 B CN102522084 B CN 102522084B
Authority
CN
China
Prior art keywords
data
text
tamber
speech data
tamber data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN 201110436096
Other languages
English (en)
Other versions
CN102522084A (zh
Inventor
刘观发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changshu Intellectual Property Operation Center Co ltd
Guangdong Gaohang Intellectual Property Operation Co ltd
Original Assignee
Vtron Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vtron Technologies Ltd filed Critical Vtron Technologies Ltd
Priority to CN 201110436096 priority Critical patent/CN102522084B/zh
Publication of CN102522084A publication Critical patent/CN102522084A/zh
Application granted granted Critical
Publication of CN102522084B publication Critical patent/CN102522084B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明涉及语音识别技术领域,特别涉及一种将语音数据转换为文本文件的方法和系统。所述方法包括:开始采集语音数据,将语音数据转换为文本文字;提取出第一份音色数据,标记所述音色数据并储存;将文本文字储存为对应所述已标记的音色数据的文本文件;从预设的信号采集时间间隔内采集的语音数据中提取出音色数据,并将所述音色数据与已标记的所有音色数据逐一进行对比;如果音色数据相同,则将转换成的文本文字储存至与所述已标记的音色数据对应的文本文件;如果音色数据不同,则标记所述音色数据并储存,将转换成的文本文字储存为对应所述音色数据的另一文本文件。本发明能区分不同发言人的发言内容,简化了录音后的人工整理工作,省时省力。

Description

一种将语音数据转换为文本文件的方法和系统
技术领域
本发明涉及语音识别技术领域,特别涉及一种将语音数据转换为文本文件的方法和系统。
背景技术
在演讲、直播、新闻采访或者会议现场,都需要专职人员录制发言,再将其发言内容整理成文字。目前语音识别技术在当今科技中比较成熟,目前已有多种录音记录方法和装置,能在录音现场对语音数据实时记录并且智能转换为文本文件。
然而在会议、直播等场合一般会有多位发言人,现有技术能将录制的语音数据统一转换为文本文件,但无法提供发言人/发言内容的精确对应关系,这样仍需耗费人力物力对发言内容进行整理,使得验证和校对文字记录非常困难。
发明内容
本发明在于克服现有技术的缺陷和不足,提供一种将语音数据转换为文本文件的方法,用于解决现有技术中发言人/发言内容对应关系不精确的问题。
本发明的另一目的还在于提供实现上述方法的系统。
一种将语音数据转换为文本文件的方法,包括如下步骤:
开始采集语音数据,将语音数据转换为文本文字;
从第一个预设的信号采集时间间隔内采集的语音数据中提取出音色数据,标记所述音色数据并储存;
将第一个预设的信号采集时间间隔内采集的语音数据转换的文本文字储存为对应所述已标记的音色数据的文本文件;
从第二个所述信号采集时间间隔开始,从每一所述信号采集时间间隔内采集的语音数据中提取出音色数据,并将所述音色数据与已标记的所有音色数据逐一进行对比;
如果音色数据相同,则将所述语音数据转换成的文本文字存储至与所述已标记的音色数据对应的文本文件;如果音色数据不同,则标记所述音色数据并储存,将转换成的文本文字储存为对应所述音色数据的另一文本文件。
优选地,所述音色数据为声纹模型。
优选地,所述音色数据对比为声纹模型匹配。
一种将语音数据转换为文本文件的系统,包括:
采集单元,用于采集语音数据;
转换单元,用于将所述采集单元采集的语音数据转换为文本文字;
提取单元,用于从所述采集单元在在各个预设的信号采集时间间隔内采集的语音数据中提取出音色数据,标记在第一个信号采集时间间隔内采集的语音数据中提取出的音色数据并储存;
存储单元,用于将所述转换单元转换的文本文字储存为对应所述提取单元中已标记的音色数据的文本文件;
对比单元,用于从第二个所述信号采集时间间隔开始,将所述提取单元提取的音色数据与所述提取单元中已标记的所有音色数据逐一进行对比;
所述提取单元在上述对比的结果为音色数据不同时,标记对应的所述音色数据并储存;
所述存储单元在音色数据相同时,将所述转换单元转换的文本文字存储至与所述提取单元中已标记的音色数据对应的文本文件;在音色数据不同时,将转换成的文本文字储存为对应所述音色数据的另一文本文件。
优选地,所述音色数据为声纹模型。
优选地,所述对比单元中的音色数据对比为声纹模型匹配。
与现有技术相比,本发明的技术结合了语音转换技术和说话人识别技术,从而实现了发言人/发言内容的精确对应关系,本发明能有效区分每一位发言人的发言内容,简化了录音后的人工整理工作,方便快捷、省时省力。
附图说明
图1是本发明将语音数据转换为文本文件的方法在一实施例中的流程图。
图2是本发明将语音数据转换为文本文件的系统在一实施例中的结构框图。
具体实施方式
下面结合实施例对本发明作进一步的说明,但并不作为对本发明限制的依据。
如图1所示,是本发明实施例将语音数据转换为文本文件方法的流程图,包括如下步骤:
S01、采集语音数据;
S02、将语音数据转换为文本文字;
S03、从第一个预设的信号采集时间间隔内采集的语音数据中提取出音色数据,标记所述音色数据并储存;
该信号采集时间间隔可以根据需要来设置,在一较佳实施例中,该信号采集时间间隔可设置为60s,则采集到的语音数据时长为60s,从该语音数据中提取出音色数据;把该音色数据标记为音色数据0001后储存;
具体地,所述音色数据为声纹模型;所述声纹模型包含一组声纹特征,该声纹特征主要有:谱包络参数语音特征,基音轮廓、共振峰频率带宽特征,线性预测系统,倒谱系数等;
S04、将第一个预设的信号采集时间间隔内采集的语音数据转换的文本文字储存为对应所述已标记的音色数据的文本文件;
在一较佳实施例中,可将转换成的文本文字储存为文本文件0001.txt,与音色数据0001相对应;
S05、从第二个所述信号采集时间间隔开始,从每一所述信号采集时间间隔内采集的语音数据中提取出音色数据,并将所述音色数据与已标记的所有音色数据逐一进行对比;
如果音色数据相同,则将所述语音数据转换成的文本文字储存至与所述已标记的音色数据对应的文本文件;如果音色数据不同,则标记所述音色数据并储存,将转换成的文本文字储存为对应所述音色数据的另一文本文件;
在一较佳实施例中,经过下一个信号采集时间间隔60s,采集到另一份时长60s的语音数据,从该语音数据中提取出音色数据,将此音色数据与已标记的音色数据0001进行对比;如果音色数据对比相同,将语音数据转换为文本文字储存到文本文件0001.txt中;如果音色数据对比不同,将该音色数据标记为音色数据0002,将该语音数据转换成的文本文字储存到另一份文本文件0002.txt中;
具体地,所述音色数据对比为声纹模型匹配。这里可采用基于矢量量化聚类方法对声纹模型进行识别。
相应地,本发明实施例还提供一种将语音数据转换为文本文件的系统,如图2所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
采集单元,用于采集语音数据;
转换单元,用于将所述采集单元采集的语音数据转换为文本文字;
提取单元,用于从所述采集单元在各个预设的信号采集时间间隔内采集的语音数据中提取出音色数据,标记在第一个信号采集时间间隔内采集的语音数据中提取出的音色数据并储存;该信号采集时间间隔可以根据需要来设置,在一较佳实施例中,该信号采集时间间隔可设置为60s,则所述采集单元采集到的语音数据时长为60s,从该语音数据中提取出音色数据;把在第一个信号采集时间间隔内采集的音色数据标记为音色数据0001后储存;
具体地,所述音色数据为声纹模型;所述声纹模型包含一组声纹特征,该声纹特征主要有:谱包络参数语音特征,基音轮廓、共振峰频率带宽特征,线性预测系统,倒谱系数等;
存储单元,用于将所述转换单元转换的文本文字储存为对应所述提取单元中已标记的音色数据的文本文件;在一较佳实施例中,可将所述转换单元转换成的文本文字储存为与提取单元中的音色数据0001相对应的文本文件0001.txt;
对比单元,用于从第二个所述信号采集时间间隔开始,将所述提取单元提取的音色数据与所述提取单元中已标记的所有音色数据逐一进行对比;
所述提取单元在上述对比的结果为音色数据不同时,标记对应的所述音色数据并储存;
所述存储单元在音色数据相同时,将所述转换单元转换的文本文字存储至与所述提取单元中已标记的音色数据对应的文本文件;在音色数据不同时,将转换成的文本文字储存为对应所述音色数据的另一文本文件。
在一较佳实施例中,经过下一个信号采集时间间隔60s,所述采集单元采集到另一份时长60s的语音数据,所述提取单元从该语音数据中提取出音色数据;将此音色数据与已标记的音色数据0001进行对比;
如果音色数据对比相同,所述存储单元将所述转换单元转换的文本文字储存到文本文件0001.txt中;
如果音色数据对比不同,所述提取单元将该音色数据标记为音色数据0002并储存,所述存储单元将转换成的文本文字储存到对应音色数据0002的文本文件0002.txt中。
以上所述的本发明实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

Claims (6)

1.一种将语音数据转换为文本文件的方法,其特征在于,包括如下步骤:
开始采集语音数据,将语音数据转换为文本文字;
从第一个预设的信号采集时间间隔内采集的语音数据中提取出音色数据,标记所述音色数据并储存;
将第一个预设的信号采集时间间隔内采集的语音数据转换的文本文字储存为对应所述已标记的音色数据的文本文件;
从第二个所述信号采集时间间隔开始,从每一所述信号采集时间间隔内采集的语音数据中提取出音色数据,并将所述音色数据与已标记的所有音色数据逐一进行对比;
如果音色数据相同,则将所述语音数据转换成的文本文字存储至与所述已标记的音色数据对应的文本文件;如果音色数据不同,则标记所述音色数据并储存,将转换成的文本文字储存为对应所述音色数据的另一文本文件。
2.根据权利要求1所述一种将语音数据转换为文本文件的方法,其特征在于,所述音色数据为声纹模型。
3.根据权利要求1或2所述一种将语音数据转换为文本文件的方法,其特征在于,所述音色数据对比为声纹模型匹配。
4.一种将语音数据转换为文本文件的系统,其特征在于,包括:
采集单元,用于采集语音数据;
转换单元,用于将所述采集单元采集的语音数据转换为文本文字;
提取单元,用于从所述采集单元在各个预设的信号采集时间间隔内采集的语音数据中提取出音色数据,标记在第一个信号采集时间间隔内采集的语音数据中提取出的音色数据并储存;
存储单元,用于将所述转换单元转换的文本文字储存为对应所述提取单元中已标记的音色数据的文本文件; 
对比单元,用于从第二个所述信号采集时间间隔开始,将所述提取单元提取的音色数据与所述提取单元中已标记的所有音色数据逐一进行对比;;
所述提取单元在上述对比的结果为音色数据不同时,标记对应的所述音色数据并储存;
所述存储单元在音色数据相同时,将所述转换单元转换的文本文字存储至与所述提取单元中已标记的音色数据对应的文本文件;在音色数据不同时,将转换成的文本文字储存为对应所述音色数据的另一文本文件。
5.根据权利要求4所述的一种将语音数据转换为文本文件的系统,其特征在于,所述音色数据为声纹模型。 
6.根据权利要求4或5所述的一种将语音数据转换为文本文件的系统,其特征在于,所述对比单元中的音色数据对比为声纹模型匹配。 
CN 201110436096 2011-12-22 2011-12-22 一种将语音数据转换为文本文件的方法和系统 Active CN102522084B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110436096 CN102522084B (zh) 2011-12-22 2011-12-22 一种将语音数据转换为文本文件的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110436096 CN102522084B (zh) 2011-12-22 2011-12-22 一种将语音数据转换为文本文件的方法和系统

Publications (2)

Publication Number Publication Date
CN102522084A CN102522084A (zh) 2012-06-27
CN102522084B true CN102522084B (zh) 2013-09-18

Family

ID=46292981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110436096 Active CN102522084B (zh) 2011-12-22 2011-12-22 一种将语音数据转换为文本文件的方法和系统

Country Status (1)

Country Link
CN (1) CN102522084B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103811004A (zh) * 2012-11-15 2014-05-21 上海船舶运输科学研究所 船舶主动力语音控制方法及系统
CN104505108B (zh) * 2014-12-04 2018-01-19 广东欧珀移动通信有限公司 一种信息定位方法及终端
US9508339B2 (en) * 2015-01-30 2016-11-29 Microsoft Technology Licensing, Llc Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing
CN104766604B (zh) * 2015-04-02 2019-01-08 努比亚技术有限公司 语音数据的标记方法及装置
CN104867494B (zh) * 2015-05-07 2017-10-24 广东欧珀移动通信有限公司 一种录音文件的命名分类方法及系统
CN105429851B (zh) * 2015-11-10 2018-08-21 河海大学 一种基于即时通信的多人协同录音系统及识别方法
CN105959613A (zh) * 2016-05-27 2016-09-21 山西百得科技开发股份有限公司 数字会议设备和系统
CN107978312A (zh) * 2016-10-24 2018-05-01 阿里巴巴集团控股有限公司 一种语音识别的方法、装置及系统
CN106354271A (zh) * 2016-11-23 2017-01-25 深圳市金立通信设备有限公司 一种语音信息处理方法及终端
CN108399923B (zh) * 2018-02-01 2019-06-28 深圳市鹰硕技术有限公司 多人发言中发言人识别方法以及装置
CN108648758B (zh) * 2018-03-12 2020-09-01 北京云知声信息技术有限公司 医疗场景中分离无效语音的方法及系统
CN108829705B (zh) * 2018-04-28 2021-03-16 成都车音智能科技有限公司 一种语音质检方法及装置
CN109101484B (zh) * 2018-07-06 2023-04-18 平安科技(深圳)有限公司 录音文件处理方法、装置、计算机设备及存储介质
CN109754808B (zh) * 2018-12-13 2024-02-13 平安科技(深圳)有限公司 语音转换文字的方法、装置、计算机设备及存储介质
CN112562705A (zh) * 2019-05-05 2021-03-26 广州虎牙信息科技有限公司 直播互动方法、装置、电子设备及可读存储介质
CN111694936B (zh) * 2020-04-26 2023-06-06 平安科技(深圳)有限公司 用于ai智能面试的识别的方法、装置、计算机设备及存储介质
CN112037791B (zh) * 2020-08-12 2023-01-13 广东电力信息科技有限公司 会议纪要转录方法、设备和存储介质
CN113870448A (zh) * 2021-09-28 2021-12-31 深圳市卡联科技股份有限公司 一种智能车载终端的安全快速响应通讯方法和系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1279462A (zh) * 1999-06-30 2001-01-10 国际商业机器公司 并发进行语音识别、说话者分段和分类的方法和装置
CN1327573A (zh) * 1999-08-26 2001-12-19 索尼公司 信息检索方法、信息检索设备、信息存储方法和信息存储设备
US6339754B1 (en) * 1995-02-14 2002-01-15 America Online, Inc. System for automated translation of speech
US6385586B1 (en) * 1999-01-28 2002-05-07 International Business Machines Corporation Speech recognition text-based language conversion and text-to-speech in a client-server configuration to enable language translation devices
CN1497932A (zh) * 2002-10-23 2004-05-19 国际商业机器公司 管理个人电话记录的系统和方法
CN1655235A (zh) * 2004-02-12 2005-08-17 微软公司 基于话音特征自动标识电话呼叫者
CN1817025A (zh) * 2003-07-24 2006-08-09 国际商业机器公司 具有文本到语音和语音到文本翻译的聊天与远程会议系统
CN1842787A (zh) * 2004-10-08 2006-10-04 松下电器产业株式会社 对话支援装置
CN101421728A (zh) * 2006-04-10 2009-04-29 微软公司 挖掘关于服务的数据

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6339754B1 (en) * 1995-02-14 2002-01-15 America Online, Inc. System for automated translation of speech
US6385586B1 (en) * 1999-01-28 2002-05-07 International Business Machines Corporation Speech recognition text-based language conversion and text-to-speech in a client-server configuration to enable language translation devices
CN1279462A (zh) * 1999-06-30 2001-01-10 国际商业机器公司 并发进行语音识别、说话者分段和分类的方法和装置
CN1327573A (zh) * 1999-08-26 2001-12-19 索尼公司 信息检索方法、信息检索设备、信息存储方法和信息存储设备
CN1497932A (zh) * 2002-10-23 2004-05-19 国际商业机器公司 管理个人电话记录的系统和方法
CN100486284C (zh) * 2002-10-23 2009-05-06 国际商业机器公司 管理个人电话记录的系统和方法
CN1817025A (zh) * 2003-07-24 2006-08-09 国际商业机器公司 具有文本到语音和语音到文本翻译的聊天与远程会议系统
CN1655235A (zh) * 2004-02-12 2005-08-17 微软公司 基于话音特征自动标识电话呼叫者
CN1842787A (zh) * 2004-10-08 2006-10-04 松下电器产业株式会社 对话支援装置
CN101421728A (zh) * 2006-04-10 2009-04-29 微软公司 挖掘关于服务的数据

Also Published As

Publication number Publication date
CN102522084A (zh) 2012-06-27

Similar Documents

Publication Publication Date Title
CN102522084B (zh) 一种将语音数据转换为文本文件的方法和系统
CN101710490B (zh) 语音评测的噪声补偿方法及装置
CN102436812B (zh) 会议记录装置及利用该装置对会议进行记录的方法
CN109327632A (zh) 客服录音的智能质检系统、方法及计算机可读存储介质
CN103117061B (zh) 一种基于语音的动物识别方法及装置
CN109545242A (zh) 一种音频数据处理方法、系统、装置及可读存储介质
CN104679729A (zh) 录音留言有效性处理方法及系统
CN108053823A (zh) 一种语音识别系统及方法
CN103730112B (zh) 语音多信道模拟与采集方法
CN111306010B (zh) 风机叶片雷击损伤检测方法及系统
CN108182945A (zh) 一种基于声纹特征的多人声音分离方法及装置
CN102543078A (zh) 电子名片系统及电子名片的语音录入方法、语音检索方法
CN103336773A (zh) 一种音视频语音处理与检索的系统和方法
CN104517606A (zh) 语音识别测试方法及装置
CN110458591A (zh) 广告信息检测方法、装置及计算机设备
CN105895102A (zh) 录音编辑方法及录音装置
CN112542156A (zh) 基于声纹识别和语音指令控制的民航维修工卡系统
CN206672635U (zh) 一种基于图书服务机器人的语音交互装置
CN109065076B (zh) 音频标签的设置方法、装置、设备和存储介质
CN102862587A (zh) 一种铁路车机联控语音分析方法和设备
CN111128179A (zh) 一种基于语音识别技术的智慧监管方法及系统
CN115510265A (zh) 一种输电线路中杆塔的动物危害分布判定方法和系统
CN108806685A (zh) 语音控制系统及其方法
CN101950564A (zh) 一种远程数字化语音采集分析识别系统
CN103985385A (zh) 基于波谱特征鉴定蛙类个体信息的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 510670 Guangdong city of Guangzhou province Kezhu Guangzhou high tech Industrial Development Zone, Road No. 233

Patentee after: VTRON GROUP Co.,Ltd.

Address before: 510663 Guangzhou province high tech Industrial Development Zone, Guangdong, Cai road, No. 6, No.

Patentee before: VTRON TECHNOLOGIES Ltd.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20201125

Address after: Unit 2414-2416, main building, no.371, Wushan Road, Tianhe District, Guangzhou City, Guangdong Province

Patentee after: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

Address before: 510670 Guangdong city of Guangzhou province Kezhu Guangzhou high tech Industrial Development Zone, Road No. 233

Patentee before: VTRON GROUP Co.,Ltd.

Effective date of registration: 20201125

Address after: 215500 No.13, Caotang Road, Changshu, Suzhou, Jiangsu Province

Patentee after: Changshu intellectual property operation center Co.,Ltd.

Address before: Unit 2414-2416, main building, no.371, Wushan Road, Tianhe District, Guangzhou City, Guangdong Province

Patentee before: GUANGDONG GAOHANG INTELLECTUAL PROPERTY OPERATION Co.,Ltd.

CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 215500 5th floor, building 4, 68 Lianfeng Road, Changfu street, Changshu City, Suzhou City, Jiangsu Province

Patentee after: Changshu intellectual property operation center Co.,Ltd.

Address before: No.13 caodang Road, Changshu City, Suzhou City, Jiangsu Province

Patentee before: Changshu intellectual property operation center Co.,Ltd.