CN101290766A - 安多藏语语音音节切分的方法 - Google Patents

安多藏语语音音节切分的方法 Download PDF

Info

Publication number
CN101290766A
CN101290766A CNA2007100978476A CN200710097847A CN101290766A CN 101290766 A CN101290766 A CN 101290766A CN A2007100978476 A CNA2007100978476 A CN A2007100978476A CN 200710097847 A CN200710097847 A CN 200710097847A CN 101290766 A CN101290766 A CN 101290766A
Authority
CN
China
Prior art keywords
short
zero
crossing rate
energy
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007100978476A
Other languages
English (en)
Inventor
戴玉刚
武光利
于洪志
曹晖
单广荣
满正行
李应兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Minzu University
Original Assignee
Northwest Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Minzu University filed Critical Northwest Minzu University
Priority to CNA2007100978476A priority Critical patent/CN101290766A/zh
Publication of CN101290766A publication Critical patent/CN101290766A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Electrically Operated Instructional Devices (AREA)

Abstract

藏语语音的音节切分是藏语语音信息处理的重要组成部分和必要的环节,为藏语语音识别和语音库的制作奠定了基础,现在还没有藏语的语音音节切分的软件。通过提取安多藏语语音的时域参数短时能量和短时过零率,利用特定的算法,实现藏语的音节切分。通过对30例连续的安多藏语语音进行音节切分,切分的准确率达到30.6%。

Description

安多藏语语音音节切分的方法
所属技术领域
安多藏语语音音节切分的方法是属于藏语语音库的制作和藏语语音识别领域,是第一关键技术。
背景技术
众所周知,语言是人类进行相互通信和交流的最方便最快捷的手段,它自然方便、快捷高效。随着电子计算机和人工智能的广泛应用,人和机器之间最好的通信方式是语言通信,而语音是语言的声学表现形式。要使机器听懂人讲话,并能说出话来,需要做许多工作,这就是语音合成和语音识别技术。在高度发达的信息社会中用数字化的方法进行语音的传送、储存、OR识别、合成、增强是整个数字化通信网中最重要、最基本的组成部分之一。
计算机的高速发展为我们更好地驾驭语言提供了可能。语音识别近年来得到了迅猛发展。人们不需要学习许多种计算机语言,只需要把要做的事情告诉给计算机,而计算机就可根据你的指令完成各种任务,工作也会变得更加有成效。如果你要播放影碟,那么你可以告诉计算机“播放影碟”而不用找到播放软件,在“打开”处单击一下,最后还需要在所要打开的文件再单击一下。语音识别使得语音输入代替了键盘输入,实现了人与计算机的直接对话,同时加速了信息的处理过程。
而藏语语音的信息处理,还基本上是一片空白,随着藏族人们生活的提高,藏族同胞急切的需要高科技给他们带来便利,以便更好的促进藏族地区的发展。藏族有统一的书面语,但其口语因地而异,至今尚未形成全民族公认的口头标准语或普通话,藏语分为三大方言,本文数据源采用的安多藏语。
藏语连续语音的自动分割是藏语语音识别和制作藏语音节库所遇到的第一关键技术。首先就要将藏语音节字从语音信号流的背景噪声中分割出来,找出语音的开始和终止。这在许多语音处理领域中是很基本的问题。特别是在孤立单字的自动识别时,找出每个单字的语音信号范围,将声母、韵母分割开是很重要的。确定语音信号的开始和终止的方案可用来减少非实时系统的大量计算,使该系统仅处理语音输入。只有将各音节中的声韵母区分开,才能进行藏语声学参数的分析和识别,才能进行藏语音库的制作。当然,如果不考虑分割的实时性,可以采用人工分割的方法:先将语言信号流的波形打印出来,然后用标尺在波形图上测量,就可以准确得到分割的结果。由于这种人工分割的准确性高,所以各种用计算机自动分割的准确度都是与人工分割结果比较而言的。
发明内容
藏语连续语音音节的自动分割是藏语语音识别和制作藏语音节库所遇到的第一关键技术。这在许多语音处理领域中是很基本的问题。通过藏语语音时域参数短时能量和短时过零率,来判断语音的音节,实现语音的音节切分。
本发明由以下几个部分组成:安多藏语语音时域参数的提取、藏语语音端点检测、音节切分算法的设计、切分结果的实现和显示。
1.安多藏语时域参数的提取
1.1短时能量
设语音信号为S(m),短时能量的定义:
E n = Σ m = n n + N - 1 [ S ( m ) w ( n - m ) ] 2
若令h(n)=w2(n),则
E n = Σ m = 0 N - 1 x 2 ( m ) h ( n - m ) = x ( n ) * h ( n )
其中窗函数为哈明窗,为:
Figure A20071009784700061
卷积的一个重要用途就是滤波,所谓滤波,就是通过一定的运算去掉信号中某些不需要的部分,比如高频部分或者低频部分。滤波的过程就是原始信号和滤波器的单位冲激响应的卷积过程。高通滤波器和低通滤波器有着各自自身的单位冲激响应的卷积运算,达到了去掉信号中低频部分或者高频部分的目的。
上式表示,窗口加权的短时能量相当于将“语音平方”信号通过一个线性滤波器的输出,该滤波器的单位取样响应为h(n)。因此,冲激响应h(n)的选择或者说窗函数的选择直接影响着短时能量的计算。若h(n)幅度恒定且序列长度N(即窗长)很长,这样的窗等效为很窄的低通滤波器,此时h(n)对x2(m)的平滑作用非常显著,使得短时能量几乎没有多大变化,无法反映语音的时变特性。反之,若h(n)序列长度N过小,那么等效窗又不能提供足够的平滑,以至于语音振幅瞬时变化的许多细节仍然被保留了下来,从而看不出振幅包络的变化规律。
通常N的选择与语音的基音周期相联系,一般要求窗长为几个基音周期的数量级。因此我们选择的帧长为10~30ms。
1.2短时过零率
短时平均过零率是语音信号时域分析中最简单的一种特征。顾名思义,它是指每帧内信号通过零值的次数。对于离散信号,短时平均过零率实质上就是信号采样点符号变化的次数。短时平均过零率仍然可以在一定程度上反映其频谱性质,可以通过短时平均过零率获得谱特性的一种粗略估计。短时平均过零率的公式为
Z n = 1 2 N Σ m = n - N + 1 n | sgn [ x ( m ) ] - sgn [ x ( m - 1 ) ] | w ( n - m )
其中,sgn[]函数的定义如下,即
sgn | x ( n ) | = 1 x ( n ) &GreaterEqual; 0 - 1 , x ( n ) < 0
窗函数w(n)为矩形窗,即
根据语音的产生模型可知,发浊音时,声带振动,尽管声道有多个共振峰,但由于声门波引起了频谱的高频衰落,因此浊音能量集中于3kHZ以下。但是对于清音而言,由于声带不振动,由声道的某些部位阻塞气流产生类白噪声,多数能量集中在较高的频率上。高频率对应着高过零率,低频率对应着低过零率,那么过零率与语音的清浊音特性就存在着对应关系。一般的经验结论是,清音和浊音的过零率分布大致为高斯分布,单纯依赖于短时过零率来准确判断清浊音是不可能的,在实际应用中往往是采用语音的多个特征参数来进行综合判决。
可以通过短时平均过零率和短时能量结合起来判断语音起止点的位置,即端点检测。在背景噪声较小的情况下,短时能量比较准确,但当背景噪声较大时,短时平均过零率可以获得较好的检测结果。
2.藏语语音的端点检测
输入为归一化的语音段x和采样率Fs
(1)求原始信号从每点开始的长度为Len内的短时过零率,得到crslt为每点对应的短时过零率
(2)然后进行过零率波形的平滑,其方法是对crslt做fft,去掉过零率波形中的高频,即fft谱中间置零;用ifft恢复平滑后的过零率波形为C2
(3)根据设置的过零率门限zero_threshold,将平滑后的过零率C2中不超过门限的置1
(4)计算原始信号中每点开始的FrameLength短时帧能量,得到E
(5)平滑短时能量谱得到E3,且进行归一化E3=E3./max(E3);
(6)根据归一化能量门限energy_threshold,平滑后的过零率中超过门限的置1得到E4
(7)将过零率和归一化能量相与:v=E4&C3;
对这个v进行每点过零判断,cross2记录v总共的过零次数,pt(cross2)=n;用来记录每次过零时对应第几个样点
(8)通过v(1)是否为1以及cross2是偶数还是奇数确定端点矩阵T;
3.音节切分算法的设计
音节切分算法:
作为语音音节的分割,必须找到语音信号的起始点和终止点即语音信号的头和尾,同时去掉语音信号间隔.为此给出语音音节自动划分的方法如下:
1)确定短时过零区间
在时间轴t上找出区间使得满足:
①A(x1)=0,A(x2)=0;
②对任意t1,t2∈(x1,x2)的有A(t1)A(t2)>0
其中A(t)表示在时刻t的振幅值
2)确定短时过零区间上的能量——短时能量
前面已经说过,能量反映在振幅上,于是短时过零区间[a,b]上的能量——短时能量为:
S = &Sigma; k = 1 n { A ( t k ) } 2 , k = 1,2 . . . , n
3)语音信号的判定
假设存在连续的短时过零区间序列{[ai,bi]},i=1,2,....,m  ,由于短时过零区间[a,b]通常比较短,因此S的值也不会很大。对于非语音信号,短时过零区间不会连续出现许多,m不会很大,因此当短时过零区间序列满足给定的条件时,可以认定为语音信号.这个条件可以从两方面给出:
①给定较大的长度L有
bm-a1≥L
即连续的短时过零区间序列可以达到一定的宽度,一般取L=2000;
②给定一个限制值P有
1 m &Sigma; i = 1 m S i / ( b i - a i ) &GreaterEqual; P
这是限定单个短时过零区间的平均振幅,当时可以认为振幅过小,声音无法听到,P的值视录音效果和方式决定.
4)基于能量分布的音节自动划分方法
①打开录制的WAV文件,指针指向数据段的开始,给人限制值L和P;
②开始搜索短时过零区间[a,b],直到指针指向数据段结束时转到⑤,如果找到短时过零区间[ai,bi],计算短时能量S,否则结束;
③判断下一短时过零区间与[ai,bi]是否连续,如果连续,计算新的短时过零能量并做
S/(b-a)≥P判断,若成立则继续,否则转到②,如果不连续,转到④;
④计算连续的短时过零区间序列长度L,若
bm-a1≥L
则记录为一个语音音节,否则到②;
⑤输出语音音节个数及起始点ai,终止点bm,结束。
附图说明
图1藏语
Figure A20071009784700081
(汉语为“春夏秋冬为四季”)的Wave文件显示的部分波形图。
图2藏语
Figure A20071009784700082
(汉语为“春夏秋冬为四季”)的部分短时平均幅度图。
图3藏语
Figure A20071009784700083
(汉语为“春夏秋冬为四季”)的部分短时平均过零率图。
图4藏语
Figure A20071009784700084
(汉语为“春夏秋冬为四季”)的显示的
部分图的音节切分结果,其中红色线为切分标记。
图5语音切分的模块图。
主要功能函数定义如下:
1)void MainProcess(),作用:读取藏语语音数据。
当打开文件时,调用MainProcess()函数,便可将wave文件中需要的数据读入内存,便于我们对语音数据进行处理。
2)double HammingWinFunc(lpLink Link),作用:给语音加窗并求的语音的短时平均幅度,参数Link为输入的语音数据的头指针。
3)Void GetZero(unsigned int nWinSize,lpLink pInLink,unsigned int nInLen,unsigned int * dataoutzeero)
作用:计算藏语语音的短时平均过零率,参数nWinSize为加窗的窗长,pInLink输入语音信号的头指针,nInLen为输入语音信号的长度,*dataoutzero输出过零率序列。
4)Void SyllablesSegmentation(),作用:通过前面的函数计算语音信号的短时平均过零率与短时平均幅度,通过算法实现藏语语音的音节切分。
5)void Drawzbl(CDC*pDC),作用:显示切分后的藏语语音。参数*pDC是用来画图的。
具体实施方式
采用软件VC++6.0,读取wave文件,通过wave文件中的数据区的数据,计算短时能量和短时过零率,再通过上述描述的语音音节切分的算法,实现语音的音节切分。
实施例:安多藏语语音的音节切分。
通过对录制的安多藏语连续语音共30例进行切分,切分的准确率达到30.6%。

Claims (1)

  1. 藏语语音的音节切分是藏语语音信息处理的重要组成部分和必要的环节,现在还没有藏语的语音音节切分的软件。藏语语音的音节切分是实现藏语语音识别的基础和前提。
    1.音节切分需要的参数:
    1.1短时能量
    设语音信号为S(m),短时能量的定义:
    E n = &Sigma; m = n n + N - 1 [ S ( m ) w ( n - m ) ] 2
    其中窗函数为哈明窗,为:
    Figure A2007100978470002C2
    窗长为N
    短时平均能量特征主要用途如下:
    1)可以作为区分清音段和浊音段的特征参数。实验结果表明浊音段的能量En明显高于清音段。
    2)在信噪比较高的情况下,短时能量还可以作为区分有声和无声的依据。
    3)可以作为辅助的特征参数用于语音识别中。
    1.2短时平均过零率
    短时平均过零率是语音信号时域分析中最简单的一种特征。顾名思义,它是指每帧内信号通过零值的次数。
    对于离散信号,短时平均过零率实质上就是信号采样点符号变化的次数。短时平均过零率仍然可以在一定程度上反映其频谱性质,可以通过短时平均过零率获得谱特性的一种粗略估计。短时平均过零率的公式为
    Z n = 1 2 N &Sigma; m = n - N + 1 n | sgn [ x ( m ) ] - sgn [ x ( m - 1 ) ] | w ( n - m )
    其中,sgn[]为符号函数,即
    sgn | x ( n ) | = 1 x ( n ) &GreaterEqual; 0 - 1 , x ( n ) < 0
    窗函数w(n)为矩形窗,即
    Figure A2007100978470002C5
    N为窗长。
    可以通过短时平均过零率和短时能量结合起来判断语音起止点的位置,即端点检测。在背景噪声较小的情况下,短时能量比较准确,但当背景噪声较大时,短时平均过零率可以获得较好的检测结果。
    2.端点检测:
    输入为归一化的语音段x和采样率Fs
    (1)求原始信号从每点开始的长度为Len内的短时过零率,得到crslt为每点对应的短时过零率
    (2)然后进行过零率波形的平滑,其方法是对crslt做fft,去掉过零率波形中的高频,即fft谱中间置零;用ifft恢复平滑后的过零率波形为C2
    (3)根据设置的过零率门限zero_threshold,将平滑后的过零率C2中不超过门限的置1
    (4)计算原始信号中每点开始的FrameLength短时帧能量,得到E
    (5)平滑短时能量谱得到E3,且进行归一化E3=E3./max(E3);
    (6)根据归一化能量门限energy_threshold,平滑后的过零率中超过门限的置1得到E4
    (7)将过零率和归一化能量相与:v=F4&C3;
    对这个v进行每点过零判断,cross2记录v总共的过零次数,pt(cross2)=n;用来记录每次过零时对应第几个样点
    (8)通过v(1)是否为1以及cross2是偶数还是奇数确定端点矩阵T;
    v(1)=1则认为起始点为浊音点,v(1)=0则认为清音或者静默;
    v(1)是否为1决定了起点b的设置;
    cross2的奇偶决定了起点和终点的配对;
    所以分四种情况考虑:
    例如:if(v(1)=0&(mod(cross2,2)=0))%%Low,even
    则b=pt(n);e=pt(n+1);
    依次判断每一对起点终点间距是否大于20ms帧长,如果大于则认为是该起始点成立,间距为一段浊音;
    最后可以得到矩阵T,每一列代表一段浊音,第一行代表起点,第二行代表终点
    3.音节切分:
    音节切分算法:
    作为语音音节的分割,必须找到语音信号的起始点和终止点即语音信号的头和尾,同时去掉语音信号间隔.为此给出语音音节自动划分的方法如下:
    1)确定短时过零区间
    在时间轴t上找出区间使得满足:
    ①A(x1)=0,A(x2)=0;
    ②对任意t1,t2 ∈(x1,x2)的有A(t1)A(t2)>0
    其中A(t)表示在时刻t的振幅值
    2)确定短时过零区间上的能量——短时能量
    前面已经说过,能量反映在振幅上,于是短时过零区间[a,b]上的能量——短时能量为:
    S = &Sigma; k = 1 n { A ( t k ) } 2 , k = 1,2 , . . . , n
    3)语音信号的判定
    假设存在连续的短时过零区间序列{[ai,bi]},i=1,2,....,m,由于短时过零区间[a,b]通常比较短,因此S的值也不会很大。对于非语音信号,短时过零区间不会连续出现许多,m不会很大,因此当短时过零区间序列满足给定的条件时,可以认定为语音信号.这个条件可以从两方面给出:
    ①给定较大的长度L有
    bm-a1≥L
    即连续的短时过零区间序列可以达到一定的宽度,一般取L=2000;
    ②给定一个限制值P有
    1 m &Sigma; i = 1 m S i / ( b i - a i ) &GreaterEqual; P
    这是限定单个短时过零区间的平均振幅,当时可以认为振幅过小,声音无法听到,P的值视录音效果和方式决定.
    4)基于能量分布的音节自动划分方法
    ①打开录制的WAV文件,指针指向数据段的开始,给人限制值L和P;
    ②开始搜索短时过零区间[a,b],直到指针指向数据段结束时转到⑤,如果找到短时过零区间[ai,bi],计算短时能量S,否则结束;
    ③判断下一短时过零区间与[ai,bi]是否连续,如果连续,计算新的短时过零能量并做S/(b-a)≥P判断,若成立则继续,否则转到②,如果不连续,转到④;
    ④计算连续的短时过零区间序列长度L,若
    bm-a1≥L
    则记录为一个语音音节,否则到②;
    ⑤输出语音音节个数及起始点ai,终止点bm,结束。
    主要功能函数定义如下:
    1)void MainProcess(),作用:读取藏语语音数据。
    当打开文件时,调用MainProcess()函数,便可将wave文件中需要的数据读入内存,便于我们对语音数据进行处理。
    2)double HammingWinFunc(lpLink Link),作用:给语音加窗并求的语音的短时平均幅度,参数Link为输入的语音数据的头指针。
    3)Void GetZero(unsigned int nWinSize,lpLink pInLink,unsigned int nInLen,unsigned int*dataoutzero)
    作用:计算藏语语音的短时平均过零率,参数nWinSize为加窗的窗长,pInLink输入语音信号的头指针,nInLen为输入语音信号的长度,*dataoutzero输出过零率序列。
    4)Void SyllablesSegmentation(),作用:通过前面的函数计算语音信号的短时平均过零率与短时平均幅度,通过算法实现藏语语音的音节切分。
    5)void Drawzb1(CDC*pDC),作用:显示切分后的藏语语音。参数*pDC是用来画图的。
CNA2007100978476A 2007-04-20 2007-04-20 安多藏语语音音节切分的方法 Pending CN101290766A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007100978476A CN101290766A (zh) 2007-04-20 2007-04-20 安多藏语语音音节切分的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007100978476A CN101290766A (zh) 2007-04-20 2007-04-20 安多藏语语音音节切分的方法

Publications (1)

Publication Number Publication Date
CN101290766A true CN101290766A (zh) 2008-10-22

Family

ID=40034992

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007100978476A Pending CN101290766A (zh) 2007-04-20 2007-04-20 安多藏语语音音节切分的方法

Country Status (1)

Country Link
CN (1) CN101290766A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510259B (zh) * 2009-03-18 2011-04-06 西北民族大学 一种联机手写藏文字丁的识别方法
CN104217713A (zh) * 2014-07-15 2014-12-17 西北师范大学 汉藏双语语音合成方法及装置
CN104992707A (zh) * 2015-05-19 2015-10-21 四川大学 一种腭裂语音喉塞音自动识别算法及装置
CN105206263A (zh) * 2015-08-11 2015-12-30 东莞市凡豆信息科技有限公司 基于动态字典的语音语义识别方法
CN105976811A (zh) * 2016-04-27 2016-09-28 四川大学 一种包含声母的音节切分方法及装置
CN106601234A (zh) * 2016-11-16 2017-04-26 华南理工大学 一种面向货物分拣的地名语音建模系统的实现方法
CN107782548A (zh) * 2017-10-20 2018-03-09 韦彩霞 一种基于对轨道交通工具零部件检测系统
CN108694416A (zh) * 2018-05-23 2018-10-23 重庆科技学院 基于多特征融合算法的振动光纤入侵事件检测方法
CN109949813A (zh) * 2017-12-20 2019-06-28 北京君林科技股份有限公司 一种将语音转换为文字的方法、装置及系统
CN110322870A (zh) * 2019-06-19 2019-10-11 北京信息职业技术学院 一种汉语语音信号切分方法和装置
CN111883169A (zh) * 2019-12-12 2020-11-03 马上消费金融股份有限公司 一种音频文件切割位置处理方法及装置
CN112951206A (zh) * 2021-02-08 2021-06-11 天津大学 基于深层时延神经网络的藏语卫藏方言口语识别方法

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101510259B (zh) * 2009-03-18 2011-04-06 西北民族大学 一种联机手写藏文字丁的识别方法
CN104217713A (zh) * 2014-07-15 2014-12-17 西北师范大学 汉藏双语语音合成方法及装置
CN104992707A (zh) * 2015-05-19 2015-10-21 四川大学 一种腭裂语音喉塞音自动识别算法及装置
CN105206263A (zh) * 2015-08-11 2015-12-30 东莞市凡豆信息科技有限公司 基于动态字典的语音语义识别方法
CN105976811B (zh) * 2016-04-27 2019-07-12 四川大学 一种包含声母的音节切分方法及装置
CN105976811A (zh) * 2016-04-27 2016-09-28 四川大学 一种包含声母的音节切分方法及装置
CN106601234A (zh) * 2016-11-16 2017-04-26 华南理工大学 一种面向货物分拣的地名语音建模系统的实现方法
CN107782548A (zh) * 2017-10-20 2018-03-09 韦彩霞 一种基于对轨道交通工具零部件检测系统
CN107782548B (zh) * 2017-10-20 2020-07-07 亚太空列(河南)轨道交通有限公司 一种基于对轨道交通工具零部件检测系统
CN109949813A (zh) * 2017-12-20 2019-06-28 北京君林科技股份有限公司 一种将语音转换为文字的方法、装置及系统
CN108694416A (zh) * 2018-05-23 2018-10-23 重庆科技学院 基于多特征融合算法的振动光纤入侵事件检测方法
CN110322870A (zh) * 2019-06-19 2019-10-11 北京信息职业技术学院 一种汉语语音信号切分方法和装置
CN110322870B (zh) * 2019-06-19 2020-10-30 北京信息职业技术学院 一种汉语语音信号切分方法和装置
CN111883169A (zh) * 2019-12-12 2020-11-03 马上消费金融股份有限公司 一种音频文件切割位置处理方法及装置
CN111883169B (zh) * 2019-12-12 2021-11-23 马上消费金融股份有限公司 一种音频文件切割位置处理方法及装置
CN112951206A (zh) * 2021-02-08 2021-06-11 天津大学 基于深层时延神经网络的藏语卫藏方言口语识别方法
CN112951206B (zh) * 2021-02-08 2023-03-17 天津大学 基于深层时延神经网络的藏语卫藏方言口语识别方法

Similar Documents

Publication Publication Date Title
CN101290766A (zh) 安多藏语语音音节切分的方法
CN102231278B (zh) 实现语音识别中自动添加标点符号的方法及系统
CN101136199B (zh) 语音数据处理方法和设备
CN101023469B (zh) 数字滤波方法和装置
CN101930735B (zh) 语音情感识别设备和进行语音情感识别的方法
CN101625857B (zh) 一种自适应的语音端点检测方法
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN102982803A (zh) 基于hrsf及改进dtw算法的孤立词语音识别方法
CN110473548B (zh) 一种基于声学信号的课堂交互网络分析方法
Mishra et al. Robust features for connected Hindi digits recognition
Stowell et al. Birdsong and C4DM: A survey of UK birdsong and machine recognition for music researchers
US20220238118A1 (en) Apparatus for processing an audio signal for the generation of a multimedia file with speech transcription
CN103985390A (zh) 一种基于伽马通相关图语音特征参数提取方法
CN108288465A (zh) 智能语音切轴的方法、信息数据处理终端、计算机程序
CN102163428A (zh) 汉语发音判断方法
WO2023279691A1 (zh) 语音分类方法、模型训练方法及装置、设备、介质和程序
US9484045B2 (en) System and method for automatic prediction of speech suitability for statistical modeling
CN103077706A (zh) 对规律性鼓点节奏的音乐进行乐纹特征提取及表示方法
CN101419796A (zh) 自动分割单字语音信号的装置与方法
CN111259188A (zh) 一种基于seq2seq网络的歌词对齐方法及系统
Cen et al. Segmentation of speech signals in template-based speech to singing conversion
Ishihara et al. Automatic transformation of environmental sounds into sound-imitation words based on Japanese syllable structure.
Yarra et al. Automatic intonation classification using temporal patterns in utterance-level pitch contour and perceptually motivated pitch transformation
CN112767961A (zh) 一种基于云端计算的口音矫正方法
CN112786071A (zh) 面向语音交互场景语音片段的数据标注方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20081022