CN111933120A - 一种用于语音识别的语音数据自动化标注方法和系统 - Google Patents
一种用于语音识别的语音数据自动化标注方法和系统 Download PDFInfo
- Publication number
- CN111933120A CN111933120A CN202010836275.4A CN202010836275A CN111933120A CN 111933120 A CN111933120 A CN 111933120A CN 202010836275 A CN202010836275 A CN 202010836275A CN 111933120 A CN111933120 A CN 111933120A
- Authority
- CN
- China
- Prior art keywords
- voice
- module
- voices
- requirements
- meeting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title abstract description 23
- 238000012216 screening Methods 0.000 claims abstract description 56
- 230000001915 proofreading effect Effects 0.000 claims abstract description 35
- 238000001514 detection method Methods 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 19
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 5
- 238000010276 construction Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种用于语音识别的语音数据自动化标注方法和系统,具体涉及语音识别领域,包括静音检测模块、音量筛选模块、长度筛选模块、语音识别模块、识别结果判断模块和人工校对模块;所述静音检测模块通过静音检测算法将每个语音拆分成多个语音片段;所述音量筛选模块通过音量的阈值将符合要求的语音筛选出来,将不符合要求的语音去除。本发明通过一种多个模块的组合系统,通过语音预处理→语音识别,又采用公有云方式→识别结果判断人工校对→构建语音数据标注,经过上述过程多次迭代后,新的语料库不断训练,得到较高质量的语料数据,减少人工,提高语音数据标注质量,解决人工标注周期长、成本高以及效率低的问题。
Description
技术领域
本发明涉及语音识别技术领域,更具体地说,本发明涉及一种用于语音识别的语音数据自动化标注方法和系统。
背景技术
语音数据的标注,语音识别性能和鲁棒性很大程度上取决于识别模型建模过程中是否有精确标注的语料数据,传统的语音数据标注一般由人工来完成,这就消耗了大量的人力物力。VAD(Voice Activity Detection),语音活性检测,是一项用于语音处理的技术,目的是检测语音信号是否存在,VAD技术主要用于语音编码和语音识别。
随着各种智能终端的普及,以及人工智能技术的突破,语音作为人机交互的重要环节,广泛应用各种智能终端上,越来越多的用户习惯对着机器说话,根据应用需求使用语音输入信息,得到机器的响应,如用户发短信或使用聊天系统与其他人聊天时,使用语音输入需要发送的内容,利用语音识别技术将语音识别成文本,用户对识别文本进行确认后,发送出去;当然用户也可以使用语音完成其他应用需求,如语音搜索;用户在使用智能终端的过程中产生了海量语音数据。如何高效的对海量数据进行标注,得到语音数据的正确文本数据具有重要意见,利用标注后的语音数据及正确文本数据可以优化声学模型和语言模型,提升用户体验。
相关技术中,语音数据通过采用人工方式进行标注。但是,随着智能终端的广泛采用,获取到的语音数据越来越多,如果单纯依靠人工标注语音数据,远远不能满足海量语音数据标注的要求,并且人工标注的成本较高,标注周期较长,效率较低,显然不能满足应用的需求。
发明内容
为了克服现有技术的上述缺陷,本发明的实施例提供一种用于语音识别的语音数据自动化标注方法和系统,本发明所要解决的技术问题是:语音数据人工标注周期长、成本高以及效率低的问题。
为实现上述目的,本发明提供如下技术方案:一种用于语音识别的语音数据自动化标注系统,包括静音检测模块、音量筛选模块、长度筛选模块、语音识别模块、识别结果判断模块和人工校对模块;
所述静音检测模块通过静音检测算法将每个语音拆分成多个语音片段;
所述音量筛选模块通过音量的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
所述长度筛选模块通过语音时长的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
所述语音识别模块通过语音识别引擎将语音识别为语音对应的文字,后期将加入新形成的语料库;
所述识别结果判断模块通过识别出文字的情况筛选符合要求的语音,将识别出文字不通畅,不准确的语音去除;
所述人工校对模块负责将符合要求的语音进行人工校对,并对符合要求的语音来进行标注,形成新的语料库。
在一个优选地实施方式中,所述语音识别模块运用百度和科大讯飞语料库,使用百度和讯飞的接口。
在一个优选地实施方式中,所述人工校对模块将语料库加入到语音识别模块中,与百度和科大讯飞语料库一起使用。
本发明还包括该用于语音识别的语音数据自动化标注系统的标注方法,具体标注步骤如下:
S1、语音预处理:
S1.1、静音检测:使用的算法为GMM(Gaussian Mixture Model),由静音检测模块将待识别的语音通过静音检测算法将每个语音拆分成多个语音片段,估计数据由每个分模型生成的概率,将一定属于某一类改成了一个样本属于某类的概率;
S1.2、音量筛选:设定音量筛选模块的语音频率范围,音量筛选模块20通过音量的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
S1.3、长度筛选:设定语音片段的长度范围,由长度筛选模块通过语音时长的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
S2、语音识别:调用百度和科大讯飞语音识别的接口,由语音识别模块通过语音识别引擎将语音识别为语音对应的文字,运用百度和科大讯飞语料库,可后期将加入新形成的语料库,新形成的语料库采用Sphinx4框架实现语音识别;
S3、结果判断:采用相似度算法来判断百度、讯飞等语音识别出的文字的相似度,识别结果判断模块将步骤S2中识别结果对应的文字通过识别出文字的情况筛选符合要求的语音,将识别出文字不通畅,不准确的语音去除,实现:Python(语言)+Mysql(数据库),符合要求的语音进入人工校对模块;
S4、人工校对:由人工校对模块将步骤S3中符合要求的语音进行人工校对,并对符合要求的语音采用xml方式存储来进行标注,形成新的语料库,并将语料库加入到语音识别模块中,与百度和科大讯飞语料库一起使用。
在一个优选地实施方式中,所述步骤S1.2中音量筛选模块的语音频率范围设置为300Hz-3000Hz,再由人工主观判断来度量。
在一个优选地实施方式中,所述步骤S1.3中长度筛选模块的语音片段的取帧长设置为10ms-30ms,再由人工主观判断来度量。
在一个优选地实施方式中,所述步骤S1中可按照先进行音量筛选和长度筛选,再进行静音检测。
在一个优选地实施方式中,所述步骤S3中相似度算法采用余弦相似度,取相似度大于0.5的进入人工校对模块。
本发明的技术效果和优点:
本发明通过一种多个模块的组合系统,通过语音预处理→语音识别,又采用公有云方式→识别结果判断人工校对→构建语音数据标注,经过上述过程多次迭代后,新的语料库不断训练,得到较高质量的语料数据,减少人工,提高语音数据标注质量,解决人工标注周期长、成本高以及效率低的问题。
附图说明
图1为本发明的整体模块结构示意图。
附图标记为:10静音检测模块、20音量筛选模块、30长度筛选模块、40语音识别模块、50识别结果判断模块、60人工校对模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
本发明提供了一种用于语音识别的语音数据自动化标注系统,包括静音检测模块10、音量筛选模块20、长度筛选模块30、语音识别模块40、识别结果判断模块50和人工校对模块60;
所述静音检测模块10通过静音检测算法将每个语音拆分成多个语音片段;
所述音量筛选模块20通过音量的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
所述长度筛选模块30通过语音时长的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
所述语音识别模块40通过语音识别引擎将语音识别为语音对应的文字,后期将加入新形成的语料库;
所述识别结果判断模块50通过识别出文字的情况筛选符合要求的语音,将识别出文字不通畅,不准确的语音去除;
所述人工校对模块60负责将符合要求的语音进行人工校对,并对符合要求的语音来进行标注,形成新的语料库。
所述语音识别模块40运用百度和科大讯飞语料库,使用百度和讯飞的接口,所述人工校对模块60将语料库加入到语音识别模块40中,与百度和科大讯飞语料库一起使用。
本发明还包括该用于语音识别的语音数据自动化标注系统的标注方法,具体标注步骤如下:
S1、语音预处理:
S1.1、静音检测:使用的算法为GMM(Gaussian Mixture Model),由静音检测模块10将待识别的语音通过静音检测算法将每个语音拆分成多个语音片段,估计数据由每个分模型生成的概率,将一定属于某一类改成了一个样本属于某类的概率;
S1.2、音量筛选:设定音量筛选模块20的语音频率范围300Hz-3000Hz,再由人工主观判断来度量,音量筛选模块20通过音量的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
S1.3、长度筛选:设定语音片段的长度取帧长设置为10ms-30ms,再由人工主观判断来度量,由长度筛选模块30通过语音时长的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
S2、语音识别:调用百度和科大讯飞语音识别的接口,由语音识别模块40通过语音识别引擎将语音识别为语音对应的文字,运用百度和科大讯飞语料库,可后期将加入新形成的语料库,新形成的语料库采用Sphinx4框架实现语音识别;
S3、结果判断:采用相似度算法来判断百度、讯飞等语音识别出的文字的相似度,采用余弦相似度,取相似度大于0.5的进入人工校对模块60,识别结果判断模块50将步骤S2中识别结果对应的文字通过识别出文字的情况筛选符合要求的语音,将识别出文字不通畅,不准确的语音去除,实现:Python(语言)+Mysql(数据库),符合要求的语音进入人工校对模块60;
S4、人工校对:由人工校对模块60将步骤S3中符合要求的语音进行人工校对,并对符合要求的语音采用xml方式存储来进行标注,形成新的语料库,并将语料库加入到语音识别模块40中,与百度和科大讯飞语料库一起使用。
实施例2:
本发明提供了一种用于语音识别的语音数据自动化标注系统,包括静音检测模块10、音量筛选模块20、长度筛选模块30、语音识别模块40、识别结果判断模块50和人工校对模块60;
所述静音检测模块10通过静音检测算法将每个语音拆分成多个语音片段;
所述音量筛选模块20通过音量的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
所述长度筛选模块30通过语音时长的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
所述语音识别模块40通过语音识别引擎将语音识别为语音对应的文字,后期将加入新形成的语料库;
所述识别结果判断模块50通过识别出文字的情况筛选符合要求的语音,将识别出文字不通畅,不准确的语音去除;
所述人工校对模块60负责将符合要求的语音进行人工校对,并对符合要求的语音来进行标注,形成新的语料库。
所述语音识别模块40运用百度和科大讯飞语料库,使用百度和讯飞的接口,所述人工校对模块60将语料库加入到语音识别模块40中,与百度和科大讯飞语料库一起使用。
本发明还包括该用于语音识别的语音数据自动化标注系统的标注方法,具体标注步骤如下:
S1、语音预处理:
S1.1、音量筛选:设定音量筛选模块20的语音频率范围300Hz-3000Hz,再由人工主观判断来度量,音量筛选模块20通过音量的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
S1.2、长度筛选:设定语音片段的长度取帧长设置为10ms-30ms,再由人工主观判断来度量,由长度筛选模块30通过语音时长的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
S1.1、静音检测:使用的算法为GMM(Gaussian Mixture Model),由静音检测模块10将待识别的语音通过静音检测算法将每个语音拆分成多个语音片段,估计数据由每个分模型生成的概率,将一定属于某一类改成了一个样本属于某类的概率;
S2、语音识别:调用百度和科大讯飞语音识别的接口,由语音识别模块40通过语音识别引擎将语音识别为语音对应的文字,运用百度和科大讯飞语料库,可后期将加入新形成的语料库,新形成的语料库采用Sphinx4框架实现语音识别;
S3、结果判断:采用相似度算法来判断百度、讯飞等语音识别出的文字的相似度,采用余弦相似度,取相似度大于0.5的进入人工校对模块60,识别结果判断模块50将步骤S2中识别结果对应的文字通过识别出文字的情况筛选符合要求的语音,将识别出文字不通畅,不准确的语音去除,实现:Python(语言)+Mysql(数据库),符合要求的语音进入人工校对模块60;
S4、人工校对:由人工校对模块60将步骤S3中符合要求的语音进行人工校对,并对符合要求的语音采用xml方式存储来进行标注,形成新的语料库,并将语料库加入到语音识别模块40中,与百度和科大讯飞语料库一起使用。
如图1所示的,实施方式具体为:在语音标注的过程中主要加入了音量筛选模块20、长度筛选模块30和识别结果判断模块50;又在语音识别模块40中,先采用百度和科大讯飞公有云方式来进行语音识别,对语音进行标注,形成新的语料库,再以后的迭代中在语音识别模块40中,不但采用了百度和科大讯飞公有云方式来进行语音识别,也加入新建的语料库进行语音的训练和识别,这样就提高了语音标准的质量了,减少人工。
最后应说明的几点是:首先,在本申请的描述中,需要说明的是,除非另有规定和限定,术语“安装”、“相连”、“连接”应做广义理解,可以是机械连接或电连接,也可以是两个元件内部的连通,可以是直接相连,“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变,则相对位置关系可能发生改变;
其次:本发明公开实施例附图中,只涉及到与本公开实施例涉及到的结构,其他结构可参考通常设计,在不冲突情况下,本发明同一实施例及不同实施例可以相互组合;
最后:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种用于语音识别的语音数据自动化标注系统,其特征在于:包括静音检测模块(10)、音量筛选模块(20)、长度筛选模块(30)、语音识别模块(40)、识别结果判断模块(50)和人工校对模块(60);
所述静音检测模块(10)通过静音检测算法将每个语音拆分成多个语音片段;
所述音量筛选模块(20)通过音量的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
所述长度筛选模块(30)通过语音时长的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
所述语音识别模块(40)通过语音识别引擎将语音识别为语音对应的文字,后期将加入新形成的语料库;
所述识别结果判断模块(50)通过识别出文字的情况筛选符合要求的语音,将识别出文字不通畅,不准确的语音去除;
所述人工校对模块(60)负责将符合要求的语音进行人工校对,并对符合要求的语音来进行标注,形成新的语料库。
2.根据权利要求1所述的一种用于语音识别的语音数据自动化标注系统,其特征在于:所述语音识别模块(40)运用百度和科大讯飞语料库,使用百度和讯飞的接口。
3.根据权利要求1所述的一种用于语音识别的语音数据自动化标注系统,其特征在于:所述人工校对模块(60)将语料库加入到语音识别模块(40)中,与百度和科大讯飞语料库一起使用。
4.根据权利要求1-3任意一项所述的一种用于语音识别的语音数据自动化标注系统,其特征在于:还包括该用于语音识别的语音数据自动化标注系统的标注方法,具体标注步骤如下:
S1、语音预处理:
S1.1、静音检测:使用的算法为GMM(Gaussian Mixture Model),由静音检测模块(10)将待识别的语音通过静音检测算法将每个语音拆分成多个语音片段;
S1.2、音量筛选:设定音量筛选模块(20)的语音频率范围,音量筛选模块(20)通过音量的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
S1.3、长度筛选:设定语音片段的长度范围,由长度筛选模块(30)通过语音时长的阈值将符合要求的语音筛选出来,将不符合要求的语音去除;
S2、语音识别:调用百度和科大讯飞语音识别的接口,由语音识别模块(40)通过语音识别引擎将语音识别为语音对应的文字,运用百度和科大讯飞语料库,可后期将加入新形成的语料库,新形成的语料库采用Sphinx4框架实现语音识别;
S3、结果判断:采用相似度算法来判断百度、讯飞等语音识别出的文字的相似度,识别结果判断模块(50)将步骤S2中识别结果对应的文字通过识别出文字的情况筛选符合要求的语音,将识别出文字不通畅,不准确的语音去除,符合要求的语音进入人工校对模块(60);
S4、人工校对:由人工校对模块(60)将步骤S3中符合要求的语音进行人工校对,并对符合要求的语音采用xml方式存储来进行标注,形成新的语料库,并将语料库加入到语音识别模块(40)中,与百度和科大讯飞语料库一起使用。
5.根据权利要求4所述的一种用于语音识别的语音数据自动化标注方法,其特征在于:所述步骤S1.2中音量筛选模块(20)的语音频率范围设置为300Hz-3000Hz,再由人工主观判断来度量。
6.根据权利要求4所述的一种用于语音识别的语音数据自动化标注方法,其特征在于:所述步骤S1.3中长度筛选模块(30)的语音片段的取帧长设置为10ms-30ms,再由人工主观判断来度量。
7.根据权利要求4所述的一种用于语音识别的语音数据自动化标注方法,其特征在于:所述步骤S1中可按照先进行音量筛选和长度筛选,再进行静音检测。
8.根据权利要求4所述的一种用于语音识别的语音数据自动化标注方法,其特征在于:所述步骤S3中相似度算法采用余弦相似度,取相似度大于0.5的进入人工校对模块(60)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010836275.4A CN111933120A (zh) | 2020-08-19 | 2020-08-19 | 一种用于语音识别的语音数据自动化标注方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010836275.4A CN111933120A (zh) | 2020-08-19 | 2020-08-19 | 一种用于语音识别的语音数据自动化标注方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111933120A true CN111933120A (zh) | 2020-11-13 |
Family
ID=73304779
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010836275.4A Pending CN111933120A (zh) | 2020-08-19 | 2020-08-19 | 一种用于语音识别的语音数据自动化标注方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111933120A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113840028A (zh) * | 2021-09-22 | 2021-12-24 | Oppo广东移动通信有限公司 | 音频处理方法及装置、电子设备及计算机可读存储介质 |
CN115240696A (zh) * | 2022-07-26 | 2022-10-25 | 深圳市迪斯声学有限公司 | 一种语音识别方法及可读存储介质 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9495955B1 (en) * | 2013-01-02 | 2016-11-15 | Amazon Technologies, Inc. | Acoustic model training |
CN107516509A (zh) * | 2017-08-29 | 2017-12-26 | 苏州奇梦者网络科技有限公司 | 用于新闻播报语音合成的语音库构建方法及系统 |
CN109346061A (zh) * | 2018-09-28 | 2019-02-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频检测方法、装置及存储介质 |
CN109801628A (zh) * | 2019-02-11 | 2019-05-24 | 龙马智芯(珠海横琴)科技有限公司 | 一种语料收集方法、装置及系统 |
CN109830229A (zh) * | 2018-12-11 | 2019-05-31 | 平安科技(深圳)有限公司 | 音频语料智能清洗方法、装置、存储介质和计算机设备 |
CN110096966A (zh) * | 2019-04-10 | 2019-08-06 | 天津大学 | 一种融合深度信息汉语多模态语料库的语音识别方法 |
KR102041618B1 (ko) * | 2019-02-25 | 2019-11-06 | (주)미디어코퍼스 | 인공지능 음성인식을 위한 기계학습 기반 자연어 말뭉치 구축 서비스 제공 시스템 및 방법 |
CN110570867A (zh) * | 2019-09-12 | 2019-12-13 | 安信通科技(澳门)有限公司 | 一种本地新增语料的语音处理方法及系统 |
CN110675862A (zh) * | 2019-09-25 | 2020-01-10 | 招商局金融科技有限公司 | 语料获取方法、电子装置及存储介质 |
CN110930997A (zh) * | 2019-12-10 | 2020-03-27 | 四川长虹电器股份有限公司 | 一种利用深度学习模型对音频进行标注的方法 |
US20200152175A1 (en) * | 2018-11-13 | 2020-05-14 | Adobe Inc. | Active learning for large-scale semi-supervised creation of speech recognition training corpora |
-
2020
- 2020-08-19 CN CN202010836275.4A patent/CN111933120A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9495955B1 (en) * | 2013-01-02 | 2016-11-15 | Amazon Technologies, Inc. | Acoustic model training |
CN107516509A (zh) * | 2017-08-29 | 2017-12-26 | 苏州奇梦者网络科技有限公司 | 用于新闻播报语音合成的语音库构建方法及系统 |
CN109346061A (zh) * | 2018-09-28 | 2019-02-15 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频检测方法、装置及存储介质 |
US20200152175A1 (en) * | 2018-11-13 | 2020-05-14 | Adobe Inc. | Active learning for large-scale semi-supervised creation of speech recognition training corpora |
CN109830229A (zh) * | 2018-12-11 | 2019-05-31 | 平安科技(深圳)有限公司 | 音频语料智能清洗方法、装置、存储介质和计算机设备 |
CN109801628A (zh) * | 2019-02-11 | 2019-05-24 | 龙马智芯(珠海横琴)科技有限公司 | 一种语料收集方法、装置及系统 |
KR102041618B1 (ko) * | 2019-02-25 | 2019-11-06 | (주)미디어코퍼스 | 인공지능 음성인식을 위한 기계학습 기반 자연어 말뭉치 구축 서비스 제공 시스템 및 방법 |
CN110096966A (zh) * | 2019-04-10 | 2019-08-06 | 天津大学 | 一种融合深度信息汉语多模态语料库的语音识别方法 |
CN110570867A (zh) * | 2019-09-12 | 2019-12-13 | 安信通科技(澳门)有限公司 | 一种本地新增语料的语音处理方法及系统 |
CN110675862A (zh) * | 2019-09-25 | 2020-01-10 | 招商局金融科技有限公司 | 语料获取方法、电子装置及存储介质 |
CN110930997A (zh) * | 2019-12-10 | 2020-03-27 | 四川长虹电器股份有限公司 | 一种利用深度学习模型对音频进行标注的方法 |
Non-Patent Citations (1)
Title |
---|
热合曼·吾拉音: "《基于在线的维吾尔语语音语料库的建立及应用》", 《中国优秀博硕士学位论文全文数据库(硕士) 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113840028A (zh) * | 2021-09-22 | 2021-12-24 | Oppo广东移动通信有限公司 | 音频处理方法及装置、电子设备及计算机可读存储介质 |
CN113840028B (zh) * | 2021-09-22 | 2022-12-02 | Oppo广东移动通信有限公司 | 音频处理方法及装置、电子设备及计算机可读存储介质 |
CN115240696A (zh) * | 2022-07-26 | 2022-10-25 | 深圳市迪斯声学有限公司 | 一种语音识别方法及可读存储介质 |
CN115240696B (zh) * | 2022-07-26 | 2023-10-03 | 北京集智数字科技有限公司 | 一种语音识别方法及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110459210A (zh) | 基于语音分析的问答方法、装置、设备及存储介质 | |
CN112951275B (zh) | 语音质检方法、装置、电子设备及介质 | |
CN105261356A (zh) | 一种语音识别系统及方法 | |
CN113327609A (zh) | 用于语音识别的方法和装置 | |
CN109087667B (zh) | 语音流利度识别方法、装置、计算机设备及可读存储介质 | |
CN111933120A (zh) | 一种用于语音识别的语音数据自动化标注方法和系统 | |
CN112966082A (zh) | 音频质检方法、装置、设备以及存储介质 | |
CN114639386A (zh) | 文本纠错及文本纠错词库构建方法 | |
CN109104534A (zh) | 一种提高外呼机器人意图检测准确率、召回率的系统 | |
CN111354340B (zh) | 数据标注准确度验证方法、装置、电子设备及存储介质 | |
CN117198338B (zh) | 一种基于人工智能的对讲机声纹识别方法及系统 | |
CN112466287B (zh) | 一种语音分割方法、装置以及计算机可读存储介质 | |
CN110599232A (zh) | 基于大数据的消费群体分析方法 | |
CN114267342A (zh) | 识别模型的训练方法、识别方法、电子设备及存储介质 | |
CN113838462A (zh) | 语音唤醒方法、装置、电子设备及计算机可读存储介质 | |
CN111048068B (zh) | 语音唤醒方法、装置、系统及电子设备 | |
CN112466286A (zh) | 数据处理方法及装置、终端设备 | |
CN116303951A (zh) | 对话处理方法、装置、电子设备和存储介质 | |
CN110765300B (zh) | 一种基于emoji的语义解析方法 | |
CN110858268B (zh) | 一种检测语音翻译系统中不流畅现象的方法及系统 | |
CN114049875A (zh) | 一种tts播报方法、装置、设备以及存储介质 | |
CN114707515A (zh) | 话术判别方法、装置、电子设备及存储介质 | |
CN112241467A (zh) | 一种音频查重的方法和装置 | |
CN114724547A (zh) | 一种用于口音英语的识别方法及系统 | |
CN111369975A (zh) | 基于人工智能的大学音乐评分方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201113 |