CN112331219B - 语音处理方法和装置 - Google Patents
语音处理方法和装置 Download PDFInfo
- Publication number
- CN112331219B CN112331219B CN202011220024.XA CN202011220024A CN112331219B CN 112331219 B CN112331219 B CN 112331219B CN 202011220024 A CN202011220024 A CN 202011220024A CN 112331219 B CN112331219 B CN 112331219B
- Authority
- CN
- China
- Prior art keywords
- voice
- phoneme
- vocabulary
- splicing
- waveforms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 12
- 238000002372 labelling Methods 0.000 claims abstract description 10
- 238000012545 processing Methods 0.000 claims description 21
- 238000000034 method Methods 0.000 claims description 17
- 238000001914 filtration Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 4
- 230000008521 reorganization Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 18
- 230000008569 process Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000005215 recombination Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000002035 prolonged effect Effects 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
- G10L17/14—Use of phonemic categorisation or speech recognition prior to speaker recognition or verification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
- G10L15/144—Training of HMMs
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Business, Economics & Management (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请公开了一种说话人识别技术中语音处理方法和装置,语音处理方法包括:获取第一语音以及与第一语音对应的标注文本;获取第一语音的音素对齐序列;根据音素对齐序列获取第一语音对应的音素集合,其中,音素集合包括多个音素单元;从数据库中挑选出由音素单元重新组合形成的第一词汇;对构成第一词汇的音素单元的波形进行拼接,以合成与第一词汇对应的第二语音;对第一语音与第二语音进行合并,得到第三语音,其中,第三语音的语音时长大于第一语音的语音时长。之后对语音时长更长的第三语音进行说话人识别,增加了说话人语音数据的时长和多样性,也相应提高了说话人识别技术的准确性。
Description
技术领域
本申请属于说话人识别技术领域,具体涉及说话人识别中的一种语音数据处理方法和装置。
背景技术
说话人识别(或声纹识别)是根据语音信号中的说话人个性信息来识别说话人身份的一项生物特征识别技术。在说话人识别技术中,身份认证矢量(identity vector)由于其性能明显优于其他方法而被广泛使用,也是目前说话人识别领域中最先进的技术之一。i-vector用一个低维的总变量空间来表示说话人子空间和信道子空间,并将说话人语音映射到该空间得到一个固定长度的矢量表征(即i-vector)。
但是ivector对说话人时长比较敏感,能够获取的说话人时长及说话人语音丰富性,直接影响着说话人识别结果的性能,随着说话人语音时长的变短,识别效果有明显的降低。
目前的现有技术至少存在如下问题:在说话人语音时长较短的情况下,当前说话人识别技术的识别准确度较低的问题。
发明内容
本申请实施例的目的是提供一种说话人识别技术中语音处理方法和装置,能够解决目前说话人识别技术在说话人语音时长较短的情况下,当前说话人识别技术的识别准确度较低的技术问题。
为了解决上述技术问题,本申请是这样实现的:
第一方面,本申请实施例提供了一种说话人识别技术中语音数据处理方法,包括:
获取第一语音以及与所述第一语音对应的标注文本;
获取所述第一语音的音素对齐序列;
根据所述音素对齐序列获取所述第一语音对应的音素集合,其中,所述音素集合包括多个音素单元;
从数据库中挑选出由所述音素单元重新组合形成的第一词汇;
对构成所述第一词汇的所述音素单元的波形进行拼接,以合成与所述第一词汇对应的第二语音;
对所述第一语音与所述第二语音进行合并,得到第三语音,其中,所述第三语音的语音时长大于所述第一语音的语音时长。
进一步地,所述音素对齐序列包括语音数据对应的音素、音素的开始时间、语素的持续时间和音素的置信度。
可选地,所述数据库为常用词典数据库,所述常用词典数据库中所包括词汇的使用频率均大于预设频率值。
可选地,在所述对构成所述第一词汇的所述音素单元的波形进行拼接,以合成与所述第一词汇对应的第二语音之前,还包括:
对所述音素单元的拼接部位的波形进行加窗处理。
进一步地,在所述对构成所述第一词汇的所述音素单元的波形进行拼接,以合成与所述第一词汇对应的第二语音之前,还包括:
将所述音素单元的波形由时域转化到频域,并使用滤波器进行平滑处理。
第二方面,本申请实施例提供了一种说话人识别技术中语音处理装置,其特征在于,包括:
第一获取模块,用于获取第一语音以及与所述第一语音对应的标注文本;
第二获取模块,用于获取所述第一语音的音素对齐序列;
第三获取模块,用于根据所述音素对齐序列获取所述第一语音对应的音素集合,其中,所述音素集合包括多个音素单元;
重组模块,用于从数据库中挑选出由所述音素单元重新组合形成的第一词汇;
拼接模块,用于对构成所述第一词汇的所述音素单元的波形进行拼接,以合成与所述第一词汇对应的第二语音;
合并模块,用于对所述第一语音与所述第二语音进行合并,得到第三语音,其中,所述第三语音的语音时长大于所述第一语音的语音时长。
进一步地,所述音素对齐序列包括语音数据对应的音素、音素的开始时间、语素的持续时间和音素的置信度。
进一步地,所述数据库为常用词典数据库,所述常用词典数据库中所包括词汇的使用频率均大于预设频率值。
可选地,所述语音处理装置还包括:
加窗模块,用于对所述音素单元的拼接部位的波形进行加窗处理。
可选地,所述语音处理装置还包括:
滤波模块,用于将所述音素单元的波形由时域转化到频域,并使用滤波器进行平滑处理。
在本申请实施例中,通过获取所述第一语音对应的音素集合,对音素集合中包括的多个音素单元进行重新组合得到新的词汇,通过拼接处理得到新词汇对应的第二语音,并对第一语音与第二语音进行合并,以得到时长更长的第三语音。之后对语音时长更长的第三语音进行说话人识别,增加了说话人语音数据的时长和多样性,也相应提高了说话人识别技术的准确性。
附图说明
图1是本申请实施例提供的一种说话人识别技术中语音处理方法的流程示意图;
图2是本申请实施例提供的另一种说话人识别技术中语音处理方法的流程示意图;
图3是本申请实施例提供的一种说话人识别技术中语音处理装置的结构示意图。
附图标记说明:
30-语音处理装置、301-第一获取模块、302-第二获取模块、303-第三获取模块、304-重组模块、305-拼接模块、306-合并模块、307-加窗模块、308-滤波模块。
本发明目的的实现、功能特点及优点将结合实施例、参照附图做进一步说明。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的语音处理方法进行详细地说明。
实施例一
参照图1,示出了本申请实施例提供的一种说话人识别技术中语音处理方法的流程示意图,
语音处理方法包括:
S101:获取第一语音以及与所述第一语音对应的标注文本。
具体地,获取第一语音可以是通过录制的方式,也可以通过接收对端传输过来的语音信号。
优选地,获取在简单场景下的第一语音,其中,简单场景可以是安静环境,其具有最佳的声音采集效果,没有噪音,比较纯净,便于后续的说话人识别。
具体地,第一语音对应的标注文本可以通过语义识别算法获得,也可以是预先已知的标注文本。
S102:获取所述第一语音的音素对齐序列。
其中,所述音素对齐序列包括语音数据对应的音素、音素的开始时间、语素的持续时间和音素的置信度。
需要说明的是,音素是构成单词发音的最小发音单元。音素的置信度越高,意味着语义识别的质量越高。
具体地,可以通过强制对齐算法获取第一语音的音素对齐序列。常见的强制对齐算法包括维特比强制对齐算法等。
在对第一语音强制对齐的过程中,可以是对第一语音中某一目标词对应的语音段进行强制对齐,再依次选择其他目标词的对应语音段,可以是一次性对整个第一语音的对应语音段进行强制对齐。在对目标词对应的语音段进行强制对齐的过程中,可以是对目标词中各音素对应的语音段依次对齐,也可以是一次性对整个词的对应语音进行对齐。
可选地,S102包括S1021至S1025。
S1021:计算第一语音的梅尔倒谱系数。
S1022:对梅尔倒谱系数进行均值归一化并计算梅尔倒谱系数的一阶和二阶差分特征。
S1023:采用三状态三音素HMM-GMM模型对梅尔倒谱系数及梅尔倒谱系数的一阶和二阶差分特征进行建模,生成三音素隐马尔科夫模型的决策树。
S1024:对三音素隐马尔科夫模型进行迭代训练,生成需要的目标三音素隐马尔科夫模型。
S1025:基于目标三音素隐马尔科夫模型生成第一语音的音素对齐序列。
以上强制对齐算法仅仅是一个示例,本领域技术人员还可以采用其他的强制对齐算法,本实施例不做限制。
S103:根据所述音素对齐序列获取所述第一语音对应的音素集合,其中,所述音素集合包括多个音素单元。
需要说明的是,以第一语音为“近年来随着国内互联网企业的快速发展”为例,经过强制对齐后的音素对齐序列为“j in4 n ian2 l ai2 s ui2 zh e5 g uo2 n ei2 h u4l ian2 uu uang3 q i3 ii ie4 d e5 k uai4 s u4 f a1 zh an3”。
此时音素集合中所包括的音素单元有“j、in4、n、ian2、l、ai2、s、ui2、zh、e5、g、uo2、ei2、h、u4、ian2、uu、uang3、q、i3、ii、ie4、d、k、uai4、u4、f、a1和an3”。
可选地,上述第一语音中出现了两个“n”、“l”和“u4”的音素单元,应当选取置信度较高的音素放入到音素集合中,置信度越高,也就意味着音素的质量越高。
S104:从数据库中挑选出由所述音素单元重新组合形成的第一词汇。
可选地,数据库为常用词典数据库,常用词典数据库中所包括词汇的使用频率均大于预设频率值。
具体地,可以将使用频率大于10的词汇放入到数据库中。
将以上音素集合中的音素单元进行重新组合形成第一词汇,应当理解的是第一词汇的每个音素应当都在上述的音素集合中。
例如,从上述音素集合中挑选出“n、l、ai2、uo2、uu、i3和uang3”,将其重新组合为“你来我往”,对应的音素序列为“n i3 l ai2 uu uo2 uu uang3”。
可选地,第一词汇的数量可以为多个,可以相应的设置一个数量阈值,例如100个。
S105:对构成所述第一词汇的所述音素单元的波形进行拼接,以合成与所述第一词汇对应的第二语音。
对挑选出“n、l、ai2、uo2、uu、i3和uang3”音素对应的波形进行拼接,得到“n i3 lai2 uu uo2 uu uang3”即“你来我往”的第二语音。
S106:对所述第一语音与所述第二语音进行合并,得到第三语音,其中,所述第三语音的语音时长大于所述第一语音的语音时长。
将第一语音“近年来随着国内互联网企业的快速发展”和第二语音“你来我往”进行合并,得到第三语音“近年来随着国内互联网企业的快速发展你来我往”,可以理解的是,第三语音的语音时长相较于第一语音的语音时长有了进一步的拉长。
在实际应用中,第二语音的数量可以是多个,将多个第二语音与第一语音进行合并,可以更进一步的拉长语音时长,以便更加准确的进行说话人识别。
在本申请实施例中,通过获取所述第一语音对应的音素集合,对音素集合中包括的多个音素单元进行重新组合得到新的词汇,通过拼接处理得到新词汇对应的第二语音,并对第一语音与第二语音进行合并,以得到时长更长的第三语音。之后对语音时长更长的第三语音进行说话人识别,增加了说话人语音数据的时长和多样性,也相应提高了说话人识别技术的准确性。
实施例二
参照图2,示出了本申请实施例提供的另一种说话人识别技术中语音处理方法的流程示意图。
语音处理方法,包括:
S201:获取第一语音以及与所述第一语音对应的标注文本。
S202:获取所述第一语音的音素对齐序列。
其中,所述音素对齐序列包括语音数据对应的音素、音素的开始时间、语素的持续时间和音素的置信度。
S203:根据所述音素对齐序列获取所述第一语音对应的音素集合,其中,所述音素集合包括多个音素单元。
S204:从数据库中挑选出由所述音素单元重新组合形成的第一词汇。
可选地,数据库为常用词典数据库,常用词典数据库中所包括词汇的使用频率均大于预设频率值。
S205具体为S205a或者S205b。
S205a:对所述音素单元的拼接部位的波形进行加窗处理。
具体地,将相邻的两个音素单元的拼接部位的波形乘以汉明窗。
汉明窗又称海明窗,是一个窗函数,这个函数在某一区间有非零值,而在其余区间皆为0。
需要说明的是,上述加窗处理所使用的窗函数可以包括矩形窗、高斯窗、汉明窗、Bartlett窗、Blackman窗等,可以根据实际需要自行设定,本发明实施例不做限定。
更进一步地,还可以直接对拼接部位的波形直接乘上一个中央高两边低的函数。
经过加窗处理后的波形更加平滑,拼接后的语音更加通顺自然。
S205b:将所述音素单元的波形由时域转化到频域,并使用滤波器进行平滑处理。
具体地,可以通过傅里叶变换进行时域与频域的转化。
经过滤波器滤波后的音素单元的波形更加平滑,拼接后的语音更加通顺自然。
S105:对构成所述第一词汇的所述音素单元的波形进行拼接,以合成与所述第一词汇对应的第二语音。
在本申请实施例中,通过对音素对应的波形进行加窗处理或者过滤器处理,使得波形更加平滑,拼接后的语音更加通顺自然,进一步提供说话人识别的准确性。
实施例三
参照图3,示出了本申请实施例提供的一种说话人识别技术中语音处理装置的结构示意图,语音处理装置30包括:
第一获取模块301,用于获取第一语音以及与所述第一语音对应的标注文本;
第二获取模块302,用于获取所述第一语音的音素对齐序列;
第三获取模块303,用于根据所述音素对齐序列获取所述第一语音对应的音素集合,其中,所述音素集合包括多个音素单元;
重组模块304,用于从数据库中挑选出由所述音素单元重新组合形成的第一词汇;
拼接模块305,用于对构成所述第一词汇的所述音素单元的波形进行拼接,以合成与所述第一词汇对应的第二语音;
合并模块306,用于对所述第一语音与所述第二语音进行合并,得到第三语音,其中,所述第三语音的语音时长大于所述第一语音的语音时长。
进一步地,所述音素对齐序列包括语音数据对应的音素、音素的开始时间、语素的持续时间和音素的置信度。
进一步地,所述数据库为常用词典数据库,所述常用词典数据库中所包括词汇的使用频率均大于预设频率值。
可选地,所述语音处理装置30还包括:
加窗模块307,用于对所述音素单元的拼接部位的波形进行加窗处理。
可选地,所述语音处理装置30还包括:
滤波模块308,用于将所述音素单元的波形由时域转化到频域,并使用滤波器进行平滑处理。
本申请实施例提供的语音处理装置30能够实现上述方法实施例中实现的各个过程,为避免重复,这里不再赘述。
在本申请实施例中,通过获取所述第一语音对应的音素集合,对音素集合中包括的多个音素单元进行重新组合得到新的词汇,通过拼接处理得到新词汇对应的第二语音,并对第一语音与第二语音进行合并,以得到时长更长的第三语音。之后对语音时长更长的第三语音进行说话人识别,增加了说话人语音数据的时长和多样性,也相应提高了说话人识别技术的准确性。
本申请实施例中的虚拟装置可以是装置,也可以是终端中的部件、集成电路、或芯片。
以上所述仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
Claims (2)
1.一种说话人识别技术中语音处理方法,其特征在于,包括:
获取第一语音以及与所述第一语音对应的标注文本;
获取所述第一语音的音素对齐序列;
根据所述音素对齐序列获取所述第一语音对应的音素集合,其中,所述音素集合包括多个音素单元;
从数据库中挑选出由所述音素单元重新组合形成的第一词汇;
对构成所述第一词汇的所述音素单元的波形进行拼接,以合成与所述第一词汇对应的第二语音;
对所述第一语音与所述第二语音进行合并,得到第三语音,其中,所述第三语音的语音时长大于所述第一语音的语音时长;
在所述对构成所述第一词汇的所述音素单元的波形进行拼接,以合成与所述第一词汇对应的第二语音之前,还包括:
对所述音素单元的拼接部位的波形进行加窗处理,将相邻的两个音素单元的拼接部位的波形乘以汉明窗;
在所述对构成所述第一词汇的所述音素单元的波形进行拼接,以合成与所述第一词汇对应的第二语音之前,还包括:
将所述音素单元的波形由时域转化到频域,并使用滤波器进行平滑处理;
所述音素对齐序列包括语音数据对应的音素、音素的开始时间、语素的持续时间和音素的置信度;
所述数据库为常用词典数据库,所述常用词典数据库中所包括词汇的使用频率均大于预设频率值。
2.一种说话人识别技术中语音处理装置,其特征在于,包括:
第一获取模块,用于获取第一语音以及与所述第一语音对应的标注文本;
第二获取模块,用于获取所述第一语音的音素对齐序列;
第三获取模块,用于根据所述音素对齐序列获取所述第一语音对应的音素集合,其中,所述音素集合包括多个音素单元;
重组模块,用于从数据库中挑选出由所述音素单元重新组合形成的第一词汇;
拼接模块,用于对构成所述第一词汇的所述音素单元的波形进行拼接,以合成与所述第一词汇对应的第二语音;
合并模块,用于对所述第一语音与所述第二语音进行合并,得到第三语音,其中,所述第三语音的语音时长大于所述第一语音的语音时长;
加窗模块,用于对所述音素单元的拼接部位的波形进行加窗处理,将相邻的两个音素单元的拼接部位的波形乘以汉明窗;
滤波模块,用于将所述音素单元的波形由时域转化到频域,并使用滤波器进行平滑处理;
所述音素对齐序列包括语音数据对应的音素、音素的开始时间、语素的持续时间和音素的置信度;
所述数据库为常用词典数据库,所述常用词典数据库中所包括词汇的使用频率均大于预设频率值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011220024.XA CN112331219B (zh) | 2020-11-05 | 2020-11-05 | 语音处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011220024.XA CN112331219B (zh) | 2020-11-05 | 2020-11-05 | 语音处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112331219A CN112331219A (zh) | 2021-02-05 |
CN112331219B true CN112331219B (zh) | 2024-05-03 |
Family
ID=74317073
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011220024.XA Active CN112331219B (zh) | 2020-11-05 | 2020-11-05 | 语音处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112331219B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117854506B (zh) * | 2024-03-07 | 2024-05-14 | 鲁东大学 | 一种机器人语音智能交互系统 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11265196A (ja) * | 1998-03-16 | 1999-09-28 | Ricoh Co Ltd | 音声出力装置 |
CN107680582A (zh) * | 2017-07-28 | 2018-02-09 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
CN107871499A (zh) * | 2017-10-27 | 2018-04-03 | 珠海市杰理科技股份有限公司 | 语音识别方法、系统、计算机设备及计算机可读存储介质 |
JP2018072578A (ja) * | 2016-10-31 | 2018-05-10 | パナソニックIpマネジメント株式会社 | 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット |
CN108172211A (zh) * | 2017-12-28 | 2018-06-15 | 云知声(上海)智能科技有限公司 | 可调节的波形拼接系统及方法 |
CN109147796A (zh) * | 2018-09-06 | 2019-01-04 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN109243429A (zh) * | 2018-11-21 | 2019-01-18 | 苏州奇梦者网络科技有限公司 | 一种语音建模方法及装置 |
CN109801618A (zh) * | 2017-11-16 | 2019-05-24 | 深圳市腾讯计算机系统有限公司 | 一种音频信息的生成方法和装置 |
CN110111778A (zh) * | 2019-04-30 | 2019-08-09 | 北京大米科技有限公司 | 一种语音处理方法、装置、存储介质及电子设备 |
CN110428811A (zh) * | 2019-09-17 | 2019-11-08 | 北京声智科技有限公司 | 一种数据处理方法、装置及电子设备 |
CN110827803A (zh) * | 2019-11-11 | 2020-02-21 | 广州国音智能科技有限公司 | 方言发音词典的构建方法、装置、设备及可读存储介质 |
CN111028824A (zh) * | 2019-12-13 | 2020-04-17 | 厦门大学 | 一种用于闽南语的合成方法及其装置 |
CN111653266A (zh) * | 2020-04-26 | 2020-09-11 | 北京大米科技有限公司 | 语音合成方法、装置、存储介质和电子设备 |
-
2020
- 2020-11-05 CN CN202011220024.XA patent/CN112331219B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11265196A (ja) * | 1998-03-16 | 1999-09-28 | Ricoh Co Ltd | 音声出力装置 |
JP2018072578A (ja) * | 2016-10-31 | 2018-05-10 | パナソニックIpマネジメント株式会社 | 辞書修正方法、辞書修正プログラム、音声処理装置及びロボット |
CN107680582A (zh) * | 2017-07-28 | 2018-02-09 | 平安科技(深圳)有限公司 | 声学模型训练方法、语音识别方法、装置、设备及介质 |
CN107871499A (zh) * | 2017-10-27 | 2018-04-03 | 珠海市杰理科技股份有限公司 | 语音识别方法、系统、计算机设备及计算机可读存储介质 |
CN109801618A (zh) * | 2017-11-16 | 2019-05-24 | 深圳市腾讯计算机系统有限公司 | 一种音频信息的生成方法和装置 |
CN108172211A (zh) * | 2017-12-28 | 2018-06-15 | 云知声(上海)智能科技有限公司 | 可调节的波形拼接系统及方法 |
CN109147796A (zh) * | 2018-09-06 | 2019-01-04 | 平安科技(深圳)有限公司 | 语音识别方法、装置、计算机设备及计算机可读存储介质 |
CN109243429A (zh) * | 2018-11-21 | 2019-01-18 | 苏州奇梦者网络科技有限公司 | 一种语音建模方法及装置 |
CN110111778A (zh) * | 2019-04-30 | 2019-08-09 | 北京大米科技有限公司 | 一种语音处理方法、装置、存储介质及电子设备 |
CN110428811A (zh) * | 2019-09-17 | 2019-11-08 | 北京声智科技有限公司 | 一种数据处理方法、装置及电子设备 |
CN110827803A (zh) * | 2019-11-11 | 2020-02-21 | 广州国音智能科技有限公司 | 方言发音词典的构建方法、装置、设备及可读存储介质 |
CN111028824A (zh) * | 2019-12-13 | 2020-04-17 | 厦门大学 | 一种用于闽南语的合成方法及其装置 |
CN111653266A (zh) * | 2020-04-26 | 2020-09-11 | 北京大米科技有限公司 | 语音合成方法、装置、存储介质和电子设备 |
Non-Patent Citations (1)
Title |
---|
基于可变长音素序列拼接单元的维吾尔语语音合成技术研究;周艳;艾斯卡尔;;四川理工学院学报(自然科学版)(第02期);第64-68页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112331219A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10388279B2 (en) | Voice interaction apparatus and voice interaction method | |
CN110782872A (zh) | 基于深度卷积循环神经网络的语种识别方法及装置 | |
US10573307B2 (en) | Voice interaction apparatus and voice interaction method | |
CN107871499B (zh) | 语音识别方法、系统、计算机设备及计算机可读存储介质 | |
Aggarwal et al. | Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system | |
CN107564543B (zh) | 一种高情感区分度的语音特征提取方法 | |
Shaikh Naziya et al. | Speech recognition system—a review | |
Ghule et al. | Feature extraction techniques for speech recognition: A review | |
CN101436405A (zh) | 说话人识别方法和系统 | |
Nanavare et al. | Recognition of human emotions from speech processing | |
Anoop et al. | Automatic speech recognition for Sanskrit | |
Karpagavalli et al. | Phoneme and word based model for tamil speech recognition using GMM-HMM | |
CN110931045A (zh) | 基于卷积神经网络的音频特征生成方法 | |
Priya et al. | Implementation of phonetic level speech recognition in Kannada using HTK | |
Sharma et al. | Speech recognition in Kannada using HTK and julius: a comparative study | |
CN111968622A (zh) | 一种基于注意力机制的语音识别方法、系统及装置 | |
CN112331219B (zh) | 语音处理方法和装置 | |
CN111640423B (zh) | 一种词边界估计方法、装置及电子设备 | |
Mengistu | Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC | |
Kumar et al. | Text dependent voice recognition system using MFCC and VQ for security applications | |
Lama et al. | Speech recognition with dynamic time warping using MATLAB | |
Maged et al. | Improving speaker identification system using discrete wavelet transform and AWGN | |
Gbadamosi | Text independent biometric speaker recognition system | |
Khalifa et al. | Statistical modeling for speech recognition | |
Sriranjani et al. | Experiments on front-end techniques and segmentation model for robust Indian Language speech recognizer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 411, 4th floor, building 4, No.44, Middle North Third Ring Road, Haidian District, Beijing 100088 Applicant after: Beijing Qingshu Intelligent Technology Co.,Ltd. Address before: 100044 1415, 14th floor, building 1, yard 59, gaoliangqiaoxie street, Haidian District, Beijing Applicant before: BEIJING AISHU WISDOM TECHNOLOGY CO.,LTD. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |