CN110060665A - 语速检测方法及装置、可读存储介质 - Google Patents
语速检测方法及装置、可读存储介质 Download PDFInfo
- Publication number
- CN110060665A CN110060665A CN201910199049.7A CN201910199049A CN110060665A CN 110060665 A CN110060665 A CN 110060665A CN 201910199049 A CN201910199049 A CN 201910199049A CN 110060665 A CN110060665 A CN 110060665A
- Authority
- CN
- China
- Prior art keywords
- word speed
- voice
- result
- voice segments
- detection method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 74
- 238000012545 processing Methods 0.000 claims abstract description 22
- 238000013450 outlier detection Methods 0.000 claims abstract description 19
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 14
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 14
- 238000012549 training Methods 0.000 claims description 30
- 235000013399 edible fruits Nutrition 0.000 claims 1
- 230000001052 transient effect Effects 0.000 claims 1
- 238000013518 transcription Methods 0.000 description 9
- 230000035897 transcription Effects 0.000 description 9
- 238000000034 method Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种语速检测方法及装置、可读存储介质,所述语速检测方法包括:对待检测的语音数据进行语音端点判断,得到至少一个语音段;将每个语音段输入预设的语速模型,得到每个语音段对应的语速结果;所述语速结果包括预设单位时间内的音节数量;对所有语音段对应的语速结果进行离群点检测,去除所述离群点;对去除离群点之后的所有语音段对应的语速结果进行数据处理,得到所述语音数据的语速综合结果。采用上述方案,可以方便有效地检测语速。
Description
技术领域
本发明属于语音识别技术领域,特别涉及一种语速检测方法及装置、可读存储介质。
背景技术
语速,即文字或人类表达意义的语言符号在单位时间内所呈现的词汇速度,这一属性因人、现实场景而异。有效的自动语速检测技术具有广泛的应用场景,例如:在电话客服场景中,客服过快的语速会使客户听不清,进而影响客户体验;客服过慢的语速又会显得慵懒,导致客户对客服不满意。因此,及时有效地检测客服的语速,并在语速异常时提醒客服,能够提高客服的服务质量。
此外,语速检测还可以应用于其他音频算法的预处理阶段,例如声纹识别、语音识别等。音频算法可以针对不同的语速设定不同的参数,进而获得更好的算法效果。
现有技术大多依赖基于自动语音识别(Automatic Speech Recognition,ASR)的语音转写文本的语速检测方法。这种语速检测方法需要先对音频数据进行ASR转写,再通过转写字数和语音时长计算语速。然而,ASR技术的成本和计算开销巨大,导致相应的语速检测方案也不够便捷。
发明内容
本发明实施例解决的是如何方便有效地检测语速。
为解决上述技术问题,本发明实施例提供一种语速检测方法,包括:对待检测的语音数据进行语音端点判断,得到至少一个语音段;将每个语音段输入预设的语速模型,得到每个语音段对应的语速结果;所述语速结果包括预设单位时间内的音节数量;对所有语音段对应的语速结果进行离群点检测,去除所述离群点;对去除离群点之后的所有语音段对应的语速结果进行数据处理,得到所述语音数据的语速综合结果。
可选的,所述预设的语速模型采用以下方式训练生成:获取训练语音以及对应的语速结果;对所述训练语音进行语音端点检测,获得至少一个训练语音段;提取所述训练语音段的梅尔频率倒谱系数,得到所述训练语音段的梅尔频率倒谱系数特征;将所述训练语音段的梅尔频率倒谱系数特征作为所述预设的语速模型的输入,将所述训练语音对应的语速结果作为所述预设的语速模型的输出,对所述预设的语速模型进行训练,得到所述语速模型。
可选的,所述离群点检测包括以下至少一种检测方法:统计学检测方法、聚类检测方法、One Class SVM算法以及孤独森林算法。
可选的,所述对去除离群点之后的所有语音段对应的语速结果进行数据处理,包括:对去除离群点之后的所有语音段对应的语速结果取均值,将所述均值作为所述语音数据的语速综合结果。
为解决上述技术问题,本发明实施例还公开了一种语速检测装置,包括:语音判断单元,用于对待检测的语音数据进行语音端点判断,得到至少一个语音段;语速判断单元,用于将每个语音段输入预设的语速模型,得到每个语音段对应的语速结果;所述语速结果包括预设单位时间内的音节数量;检测单元,用于对所有语音段对应的语速结果进行离群点检测,去除所述离群点;处理单元,用于对去除离群点之后的所有语音段对应的语速结果进行数据处理,得到所述语音数据的语速综合结果。
可选的,所述预设的语速模型采用以下方式训练生成:获取训练语音以及对应的语速结果;对所述训练语音进行语音端点检测,获得至少一个训练语音段;提取所述训练语音段的梅尔频率倒谱系数,得到所述训练语音段的梅尔频率倒谱系数特征;将所述训练语音段的梅尔频率倒谱系数特征作为所述预设的语速模型的输入,将所述训练语音对应的语速结果作为所述预设的语速模型的输出,对所述预设的语速模型进行训练,得到所述语速模型。
可选的,所述离群点检测包括以下至少一种检测方法:统计学检测方法、聚类检测方法、One Class SVM算法以及孤独森林算法。
可选的,所述处理单元,用于:对去除离群点之后的所有语音段对应的语速结果取均值,将所述均值作为所述语音数据的语速综合结果。
本发明实施例还公开了一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述任一种所述的语速检测方法的步骤。
本发明实施例还提供了一种语速检测装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述任一种所述的语速检测方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
对待检测的语音数据进行语音端点判断,得到至少一个语音段;将每个语音段输入预设的语速模型,得到每个语音段对应的语速结果;所述语速结果包括预设单位时间内的音节数量;对所有语音段对应的语速结果进行离群点检测,去除所述离群点;对去除离群点之后的所有语音段对应的语速结果进行数据处理,得到所述语音数据的语速综合结果。可以直接将语音数据放入语速模型进行推断,无需经过自动语音识别技术转写,降低了语速检测的成本。同时,在得到语速结果后进行离群点检测以及数据处理,进一步提高了语速检测的准确度。
附图说明
图1是本发明实施例中的一种语速检测方法的流程图;
图2是本发明实施例中的一种语速模型的训练过程示意图;
图3是本发明实施例中的一种语速检测装置的结构示意图。
具体实施方式
现有技术中,大多依赖基于自动语音识别(Automatic Speech Recognition,ASR)的语音转写文本的语速检测方法。这种语速检测方法需要先对音频数据进行ASR转写,再通过转写字数和语音时长计算语速。然而,ASR技术的成本和计算开销巨大,导致相应的语速检测方案也不够便捷。
本发明实施例中,对待检测的语音数据进行语音端点判断,得到至少一个语音段;将每个语音段输入预设的语速模型,得到每个语音段对应的语速结果;所述语速结果包括预设单位时间内的音节数量;对所有语音段对应的语速结果进行离群点检测,去除所述离群点;对去除离群点之后的所有语音段对应的语速结果进行数据处理,得到所述语音数据的语速综合结果。可以直接将语音数据放入语速模型进行推断,无需经过自动语音识别技术转写,降低了语速检测的成本。同时,在得到语速结果后进行离群点检测以及数据处理,进一步提高了语速检测的准确度。
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
本发明实施例提供了一种语速检测方法,参照图1,以下通过具体步骤进行详细说明。
步骤S101,对待检测的语音数据进行语音端点判断,得到至少一个语音段。
在实际应用中,可以采用具有语音采集功能的设备获取待检测的语音数据。在待检测的语音数据中,往往会包含无效的声音,例如噪声、他人说话声音等非目标用户发出的声音。因此,在获取到待检测的语音数据后,需要先从待检测的语音数据中识别出语音段,再对识别出的语音段进行语速检测。
在本发明实施例中,可以采用语音端点检测(Voice Activity Detection,VAD)技术对待检测的语音数据进行语音端点判断。在实际应用中可知,VAD技术可以从带有噪声的语音中准确的定位出语音的开始和结束点,即把静音和噪声作为干扰信号从原始数据中去除。
步骤S102,将每个语音段输入预设的语速模型,得到每个语音段对应的语速结果。
在具体实施中,语音段对应的语速结果可以包括预设单位时间内的音节数量。在实际应用中,预设单位时间可以为1s,也可以为1min或其他时间。
在具体实施中,可以分别将每个语音段输入预设的语速模型,得到每个语音段对应的语速结果,从而可以提高语音数据的整体语速判断结果的精度。
在具体实施中,所述预设的语速模型可以采用以下方式训练生成:获取训练语音以及对应的语速结果;对所述训练语音进行语音端点检测,获得至少一个训练语音段;提取所述训练语音段的梅尔频率倒谱系数,得到所述训练语音段的梅尔频率倒谱系数特征;将所述训练语音段的梅尔频率倒谱系数特征作为所述预设的语速模型的输入,将所述训练语音对应的语速结果作为所述预设的语速模型的输出,对所述预设的语速模型进行训练,得到所述语速模型。
在实际应用中,通过提取每个语音段的梅尔频率倒谱系数(Mel-FrequencyCepstral Coefficients,MFCC),可以把语音段中具有辨识性的成分提取出来,结合基于深度学习的语速模型来进行语速判断,可以降低判断过程的成本和计算量,并具有较好的抗干扰能力。
在具体实施中,预设的语速模型的训练过程可以采用以下公式(1)表示:
y=f(x);(1)
其中,x为训练语音的原始音频波形,f()为语速模型,y为语速结果,例如训练语音中每秒包含多少字数。
参照图2,给出了本发明实施例中的一种语速模型的训练过程示意图。
由图2可知,将获取到的训练语音片段1、训练语音片段2、训练语音片段3、……、训练语音片段n分别进行VAD检测,得到对应的有效语音片段1、有效语音片段2、有效语音片段3、……、有效语音片段n;再分别提取n个有效语音片段各自对应的MFCC,得到对应的梅尔频率倒谱系数1、梅尔频率倒谱系数2、梅尔频率倒谱系数3、……、梅尔频率倒谱系数n,最后将n个梅尔频率倒谱系数作为深度神经网络模型的输入X,将训练语音片段1语速、训练语音片段2语速、训练语音片段3语速、……、训练语音片段n语速共n个训练语音片段的语速作为深度神经网络模型的输出Y,以对深度神经网络模型进行训练。因此,可以将训练好的深度神经网络模型作为语速模型来进行语速判断。
步骤S103,对所有语音段对应的语速结果进行离群点检测,去除所述离群点。
在具体实施中,离群点检测可以采用统计学检测方法,还可以采用聚类检测方法,也可以采用一类支持向量机算法(One Class SVM)或孤独森林算法。可以理解的是,用户可以根据自身需求,采用一种或多种算法结合的方式来进行离群点检测,本发明在此不作赘述。
步骤S104,对去除离群点之后的所有语音段对应的语速结果进行数据处理,得到所述语音数据的语速综合结果。
在具体实施中,可以对去除离群点之后的所有语音段对应的语速结果取均值,再将所述均值作为所述语音数据的语速综合结果。可以理解的是,用户可以根据自身需求,采用取均值的数据处理方法,也可以选择其他数据处理方法,本发明在此不作赘述。
综上所述,对待检测的语音数据进行语音端点判断,得到至少一个语音段;将每个语音段输入预设的语速模型,得到每个语音段对应的语速结果;所述语速结果包括预设单位时间内的音节数量;对所有语音段对应的语速结果进行离群点检测,去除所述离群点;对去除离群点之后的所有语音段对应的语速结果进行数据处理,得到所述语音数据的语速综合结果。可以直接将语音数据放入语速模型进行推断,无需经过自动语音识别技术转写,降低了语速检测的成本。同时,在得到语速结果后进行离群点检测以及数据处理,进一步提高了语速检测的准确度。
参照图3,本发明实施例还提供了一种语速检测装置30,包括:语音判断单元301、语速判断单元302、检测单元303以及处理单元304;
其中,所述语音判断单元301,用于对待检测的语音数据进行语音端点判断,得到至少一个语音段;
所述语速判断单元302,用于将每个语音段输入预设的语速模型,得到每个语音段对应的语速结果;所述语速结果包括预设单位时间内的音节数量;
所述检测单元303,用于对所有语音段对应的语速结果进行离群点检测,去除所述离群点;
所述处理单元304,用于对去除离群点之后的所有语音段对应的语速结果进行数据处理,得到所述语音数据的语速综合结果。
在具体实施中,所述预设的语速模型可以采用以下方式训练生成:获取训练语音以及对应的语速结果;对所述训练语音进行语音端点检测,获得至少一个训练语音段;提取所述训练语音段的梅尔频率倒谱系数,得到所述训练语音段的梅尔频率倒谱系数特征;将所述训练语音段的梅尔频率倒谱系数特征作为所述预设的语速模型的输入,将所述训练语音对应的语速结果作为所述预设的语速模型的输出,对所述预设的语速模型进行训练,得到所述语速模型。
在具体实施中,所述离群点检测可以包括以下至少一种检测方法:统计学检测方法、聚类检测方法、One Class SVM算法以及孤独森林算法。
在具体实施中,所述处理单元304,可以用于:对去除离群点之后的所有语音段对应的语速结果取均值,将所述均值作为所述语音数据的语速综合结果。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,所述计算机指令运行时执行本发明上述实施例中提供的任一种所述的语速检测方法的步骤。
本发明实施例还提供了一种语速检测装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所示计算机指令时,执行本发明上述实施例中提供的任一种所述的语速检测方法的步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于任一计算机可读存储介质中,存储介质可以包括:ROM、RAM、磁盘或光盘等。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (10)
1.一种语速检测方法,其特征在于,包括:
对待检测的语音数据进行语音端点判断,得到至少一个语音段;
将每个语音段输入预设的语速模型,得到每个语音段对应的语速结果;所述语速结果包括预设单位时间内的音节数量;
对所有语音段对应的语速结果进行离群点检测,去除所述离群点;
对去除离群点之后的所有语音段对应的语速结果进行数据处理,得到所述语音数据的语速综合结果。
2.如权利要求1所述的语速检测方法,其特征在于,所述预设的语速模型采用以下方式训练生成:
获取训练语音以及对应的语速结果;
对所述训练语音进行语音端点检测,获得至少一个训练语音段;
提取所述训练语音段的梅尔频率倒谱系数,得到所述训练语音段的梅尔频率倒谱系数特征;
将所述训练语音段的梅尔频率倒谱系数特征作为所述预设的语速模型的输入,将所述训练语音对应的语速结果作为所述预设的语速模型的输出,对所述预设的语速模型进行训练,得到所述语速模型。
3.如权利要求1所述的语速检测方法,其特征在于,所述离群点检测包括以下至少一种检测方法:统计学检测方法、聚类检测方法、One Class SVM算法以及孤独森林算法。
4.如权利要求1所述的语速检测方法,其特征在于,所述对去除离群点之后的所有语音段对应的语速结果进行数据处理,包括:对去除离群点之后的所有语音段对应的语速结果取均值,将所述均值作为所述语音数据的语速综合结果。
5.一种语速检测装置,其特征在于,包括:
语音判断单元,用于对待检测的语音数据进行语音端点判断,得到至少一个语音段;
语速判断单元,用于将每个语音段输入预设的语速模型,得到每个语音段对应的语速结果;所述语速结果包括预设单位时间内的音节数量;
检测单元,用于对所有语音段对应的语速结果进行离群点检测,去除所述离群点;
处理单元,用于对去除离群点之后的所有语音段对应的语速结果进行数据处理,得到所述语音数据的语速综合结果。
6.如权利要求5所述的语速检测装置,其特征在于,所述预设的语速模型采用以下方式训练生成:
获取训练语音以及对应的语速结果;
对所述训练语音进行语音端点检测,获得至少一个训练语音段;
提取所述训练语音段的梅尔频率倒谱系数,得到所述训练语音段的梅尔频率倒谱系数特征;
将所述训练语音段的梅尔频率倒谱系数特征作为所述预设的语速模型的输入,将所述训练语音对应的语速结果作为所述预设的语速模型的输出,对所述预设的语速模型进行训练,得到所述语速模型。
7.如权利要求5所述的语速检测装置,其特征在于,所述离群点检测包括以下至少一种检测方法:统计学检测方法、聚类检测方法、One Class SVM算法以及孤独森林算法。
8.如权利要求5所述的语速检测装置,其特征在于,所述处理单元,用于:对去除离群点之后的所有语音段对应的语速结果取均值,将所述均值作为所述语音数据的语速综合结果。
9.一种计算机可读存储介质,计算机可读存储介质为非易失性存储介质或非瞬态存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至4中任一项所述的语速检测方法。
10.一种语速检测装置,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至4任一项所述的语速检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910199049.7A CN110060665A (zh) | 2019-03-15 | 2019-03-15 | 语速检测方法及装置、可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910199049.7A CN110060665A (zh) | 2019-03-15 | 2019-03-15 | 语速检测方法及装置、可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110060665A true CN110060665A (zh) | 2019-07-26 |
Family
ID=67317129
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910199049.7A Pending CN110060665A (zh) | 2019-03-15 | 2019-03-15 | 语速检测方法及装置、可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110060665A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179910A (zh) * | 2019-12-17 | 2020-05-19 | 深圳追一科技有限公司 | 语速识别方法和装置、服务器、计算机可读存储介质 |
CN111627422A (zh) * | 2020-05-13 | 2020-09-04 | 广州国音智能科技有限公司 | 语音加速检测方法、装置、设备及可读存储介质 |
CN112185363A (zh) * | 2020-10-21 | 2021-01-05 | 北京猿力未来科技有限公司 | 音频处理方法及装置 |
CN112466332A (zh) * | 2020-11-13 | 2021-03-09 | 阳光保险集团股份有限公司 | 一种语速评分方法、装置、电子设备及存储介质 |
CN112565881A (zh) * | 2020-12-28 | 2021-03-26 | 北京五街科技有限公司 | 一种自适应的视频播放方法 |
CN112565880A (zh) * | 2020-12-28 | 2021-03-26 | 北京五街科技有限公司 | 一种讲解类视频的播放方法 |
CN112786017A (zh) * | 2020-12-25 | 2021-05-11 | 北京猿力未来科技有限公司 | 语速检测模型的训练方法及装置、语速检测方法及装置 |
WO2021134550A1 (zh) * | 2019-12-31 | 2021-07-08 | 李庆远 | 多个语音识别输出的人类合并和训练 |
WO2021134549A1 (zh) * | 2019-12-31 | 2021-07-08 | 李庆远 | 多个人工智能输出的人类合并和训练 |
CN114067787A (zh) * | 2021-12-17 | 2022-02-18 | 广东讯飞启明科技发展有限公司 | 一种语音语速自适应识别系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751919A (zh) * | 2008-12-03 | 2010-06-23 | 中国科学院自动化研究所 | 一种汉语口语重音自动检测方法 |
JP2011164124A (ja) * | 2010-02-04 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 線形分類モデルに基づく音響モデルパラメータ学習方法とその装置、音素重み付き有限状態変換器生成方法とその装置、それらのプログラム |
CN102543063A (zh) * | 2011-12-07 | 2012-07-04 | 华南理工大学 | 基于说话人分割与聚类的多说话人语速估计方法 |
CN103400580A (zh) * | 2013-07-23 | 2013-11-20 | 华南理工大学 | 一种多人会话语音中的说话人重要程度估计方法 |
CN107785011A (zh) * | 2017-09-15 | 2018-03-09 | 北京理工大学 | 语速估计模型的训练、语速估计方法、装置、设备及介质 |
CN108320733A (zh) * | 2017-12-18 | 2018-07-24 | 上海科大讯飞信息科技有限公司 | 语音数据处理方法及装置、存储介质、电子设备 |
CN108986830A (zh) * | 2018-08-28 | 2018-12-11 | 安徽淘云科技有限公司 | 一种音频语料筛选方法及装置 |
-
2019
- 2019-03-15 CN CN201910199049.7A patent/CN110060665A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101751919A (zh) * | 2008-12-03 | 2010-06-23 | 中国科学院自动化研究所 | 一种汉语口语重音自动检测方法 |
JP2011164124A (ja) * | 2010-02-04 | 2011-08-25 | Nippon Telegr & Teleph Corp <Ntt> | 線形分類モデルに基づく音響モデルパラメータ学習方法とその装置、音素重み付き有限状態変換器生成方法とその装置、それらのプログラム |
CN102543063A (zh) * | 2011-12-07 | 2012-07-04 | 华南理工大学 | 基于说话人分割与聚类的多说话人语速估计方法 |
CN103400580A (zh) * | 2013-07-23 | 2013-11-20 | 华南理工大学 | 一种多人会话语音中的说话人重要程度估计方法 |
CN107785011A (zh) * | 2017-09-15 | 2018-03-09 | 北京理工大学 | 语速估计模型的训练、语速估计方法、装置、设备及介质 |
CN108320733A (zh) * | 2017-12-18 | 2018-07-24 | 上海科大讯飞信息科技有限公司 | 语音数据处理方法及装置、存储介质、电子设备 |
CN108986830A (zh) * | 2018-08-28 | 2018-12-11 | 安徽淘云科技有限公司 | 一种音频语料筛选方法及装置 |
Non-Patent Citations (2)
Title |
---|
丁鹏: "综合非语境因素的语音数据分类与声学建模研究", 《声学学报》 * |
潘怡等: "《数据流知识发现》", 31 December 2016, 华中科技大学出版社 * |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111179910A (zh) * | 2019-12-17 | 2020-05-19 | 深圳追一科技有限公司 | 语速识别方法和装置、服务器、计算机可读存储介质 |
WO2021134550A1 (zh) * | 2019-12-31 | 2021-07-08 | 李庆远 | 多个语音识别输出的人类合并和训练 |
WO2021134549A1 (zh) * | 2019-12-31 | 2021-07-08 | 李庆远 | 多个人工智能输出的人类合并和训练 |
CN111627422A (zh) * | 2020-05-13 | 2020-09-04 | 广州国音智能科技有限公司 | 语音加速检测方法、装置、设备及可读存储介质 |
CN112185363B (zh) * | 2020-10-21 | 2024-02-13 | 北京猿力未来科技有限公司 | 音频处理方法及装置 |
CN112185363A (zh) * | 2020-10-21 | 2021-01-05 | 北京猿力未来科技有限公司 | 音频处理方法及装置 |
CN112466332A (zh) * | 2020-11-13 | 2021-03-09 | 阳光保险集团股份有限公司 | 一种语速评分方法、装置、电子设备及存储介质 |
CN112466332B (zh) * | 2020-11-13 | 2024-05-28 | 阳光保险集团股份有限公司 | 一种语速评分方法、装置、电子设备及存储介质 |
CN112786017A (zh) * | 2020-12-25 | 2021-05-11 | 北京猿力未来科技有限公司 | 语速检测模型的训练方法及装置、语速检测方法及装置 |
CN112786017B (zh) * | 2020-12-25 | 2024-04-09 | 北京猿力未来科技有限公司 | 语速检测模型的训练方法及装置、语速检测方法及装置 |
CN112565881A (zh) * | 2020-12-28 | 2021-03-26 | 北京五街科技有限公司 | 一种自适应的视频播放方法 |
CN112565881B (zh) * | 2020-12-28 | 2023-03-24 | 北京五街科技有限公司 | 自适应的视频播放方法和系统 |
CN112565880B (zh) * | 2020-12-28 | 2023-03-24 | 北京五街科技有限公司 | 讲解类视频的播放方法和系统 |
CN112565880A (zh) * | 2020-12-28 | 2021-03-26 | 北京五街科技有限公司 | 一种讲解类视频的播放方法 |
CN114067787B (zh) * | 2021-12-17 | 2022-07-05 | 广东讯飞启明科技发展有限公司 | 一种语音语速自适应识别系统 |
CN114067787A (zh) * | 2021-12-17 | 2022-02-18 | 广东讯飞启明科技发展有限公司 | 一种语音语速自适应识别系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110060665A (zh) | 语速检测方法及装置、可读存储介质 | |
CN111816218B (zh) | 语音端点检测方法、装置、设备及存储介质 | |
CN108597496B (zh) | 一种基于生成式对抗网络的语音生成方法及装置 | |
US9875739B2 (en) | Speaker separation in diarization | |
WO2021128741A1 (zh) | 语音情绪波动分析方法、装置、计算机设备及存储介质 | |
CN106504768B (zh) | 基于人工智能的电话拨测音频分类方法及装置 | |
US20170154640A1 (en) | Method and electronic device for voice recognition based on dynamic voice model selection | |
CN106548775B (zh) | 一种语音识别方法和系统 | |
CN110047470A (zh) | 一种语音端点检测方法 | |
CN108648769A (zh) | 语音活性检测方法、装置及设备 | |
CN108305639B (zh) | 语音情感识别方法、计算机可读存储介质、终端 | |
CN110570853A (zh) | 基于语音数据的意图识别方法和装置 | |
CN102013253A (zh) | 基于语音单元语速的差异的语音识别方法及语音识别系统 | |
WO2019119279A1 (en) | Method and apparatus for emotion recognition from speech | |
CN110428853A (zh) | 语音活性检测方法、语音活性检测装置以及电子设备 | |
CN108288465A (zh) | 智能语音切轴的方法、信息数据处理终端、计算机程序 | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
Fernandes et al. | Speech emotion recognition using mel frequency cepstral coefficient and SVM classifier | |
Kharamat et al. | Durian ripeness classification from the knocking sounds using convolutional neural network | |
CN112489692A (zh) | 语音端点检测方法和装置 | |
CN108922556B (zh) | 声音处理方法、装置及设备 | |
Nijhawan et al. | A new design approach for speaker recognition using MFCC and VAD | |
CN110875037A (zh) | 语音数据处理方法、装置及电子设备 | |
CN112700520B (zh) | 基于共振峰的口型表情动画生成方法、装置及存储介质 | |
CN111596261B (zh) | 一种声源定位方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190726 |
|
RJ01 | Rejection of invention patent application after publication |