CN116705025A - 一种车载终端通信方法 - Google Patents

一种车载终端通信方法 Download PDF

Info

Publication number
CN116705025A
CN116705025A CN202310962486.6A CN202310962486A CN116705025A CN 116705025 A CN116705025 A CN 116705025A CN 202310962486 A CN202310962486 A CN 202310962486A CN 116705025 A CN116705025 A CN 116705025A
Authority
CN
China
Prior art keywords
frame
energy
voice
frames
mute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310962486.6A
Other languages
English (en)
Inventor
黄三陆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanzhou Sanchuan Communication Technology Co ltd
Original Assignee
Quanzhou Sanchuan Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanzhou Sanchuan Communication Technology Co ltd filed Critical Quanzhou Sanchuan Communication Technology Co ltd
Priority to CN202310962486.6A priority Critical patent/CN116705025A/zh
Publication of CN116705025A publication Critical patent/CN116705025A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种车载终端通信方法,终端中配置的语音识别模块实时获取乘员的语音,并对相应语音进行识别,基于识别出的关键信号解析进行终端通信功能的唤醒,在进行具体语音识别过程中首先对获取的语音进行音节切分,通过设定的门限分析对静音帧、清音帧及浊音帧进行具体的区分,提高了识别的准确性和效率,而后通过GMM算法将静音帧、清音帧及浊音帧处理成帧特征向量,对帧特征向量进行mfcc声学特征提取,由于本发明对音节进行了完整准确的切分,后续的算法识别能够更好的进行,更准确的进行通信功能的唤醒。

Description

一种车载终端通信方法
技术领域
本发明涉及数字信息的传输领域,尤其涉及一种车载终端通信方法。
背景技术
随着智能网络的不断发展,车辆中配置有语音通话功能的车载终端成为常态。
车载终端在进行通信动作前,需要对终端通信功能进行语音唤醒。而现有所配置的车载终端针对车辆行驶过程中的语音唤醒功能识别率低,无法及时、准确的进行终端的唤醒,对通信功能造成影响。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有车载终端通信过程中存在的问题,提出了本发明。
因此,本发明解决的技术问题是:解决现有车载终端通信过程中针对车辆行驶过程中的语音唤醒功能识别率低,无法及时、准确的进行终端的唤醒,对通信功能造成影响的问题。
为解决上述技术问题,本发明提供如下技术方案:一种车载终端通信方法,车载终端中配置有语音识别模块,所述语音识别模块实时获取乘员的语音,并对相应语音进行识别,基于识别出的关键信号解析进行终端通信功能的唤醒;其中,所述语音识别模块对相应语音进行识别具体包括如下步骤:S1:获取长度语音,以既定长度帧对所述长度语音进行音节切割,将其切分成静音帧、清音帧及浊音帧;S2:通过GMM算法将所述静音帧、所述清音帧及所述浊音帧处理成帧特征向量;S3:对所述帧特征向量进行mfcc声学特征提取,完成语音识别;
其中,所述语音识别模块对所述静音帧的切分具体包括如下步骤:
S1:选取突变门限σ,从前往后遍历,若第i + 1帧的过零率比第i帧的过零率高出的值大于所述突变门限σ,则定义第i帧为静音突变成清音的临界点,则所获取的第m个临界点在音频的第Cm帧;
S2:进行所述静音帧的一次判别,即若第一个临界点C1 > 6,可定义C1−3之前的帧均为静音帧;
S3:将每个所述静音帧的短时能量记为Ai,获取其中的最大值,通过以下公式获取静音帧判别能量Ath
,
其中,Ath为所述静音帧判别能量,k为判别系数,定义为ln2,Ai为每个所述静音帧的短时能量;
S4:基于上述公式进行所述静音帧的二次判别,即低于所述静音帧判别能量Ath的帧均为所述静音帧,记为sili=1,反之记sili=0;
其中,所述语音识别模块对所述清音帧的切分具体为:
遍历音频,通过以下公式获取所述清音帧:
,
其中,Ai为每个所述静音帧的短时能量,Ath为所述静音帧判别能量,f =j*
Δf,j为傅里叶变换后的频域系数,Δf为变换后的频率间隔,即频率精度;
若第i帧满足此式,则它为清音帧,记为unvi=1,反之记为unvi=0;
其中,所述语音识别模块对所述浊音帧的切分具体包括如下步骤:
S1:对所述长度语音进行时频0-1化,以语谱图中1000-4000Hz的能量均值为门限,高于此能量为1,低于此能量为0,重新定义Eij
S2:获取浊音的判别门限Eth,即为1000-4000Hz间二维能量的总和的平均,记为voith
S3:通过以下公式定义浊音:
,
若某帧在此频段的能量高于voith,则它为浊音,记为voii = 1,反之记voii = 0。
作为本发明所述的车载终端通信方法的一种优选方案,其中:所述既定长度帧为25ms。
作为本发明所述的车载终端通信方法的一种优选方案,其中:所述突变门
限σ定义为1。
本发明的有益效果:本发明提供一种车载终端通信方法,终端中配置的语音识别模块实时获取乘员的语音,并对相应语音进行识别,基于识别出的关键信号解析进行终端通信功能的唤醒,在进行具体语音识别过程中首先对获取的语音进行音节切分,通过设定的门限分析对静音帧、清音帧及浊音帧进行具体的区分,提高了识别的准确性和效率,而后通过GMM算法将静音帧、清音帧及浊音帧处理成帧特征向量,对帧特征向量进行mfcc声学特征提取,由于本发明对音节进行了完整准确的切分,后续的算法识别能够更好的进行,更准确的进行通信功能的唤醒,解决了现有车载终端通信过程中针对车辆行驶过程中的语音唤醒功能识别率低,无法及时、准确的进行终端的唤醒,对通信功能造成影响的问题。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
车载终端在进行通信动作前,需要对终端通信功能进行语音唤醒。而现有所配置的车载终端针对车辆行驶过程中的语音唤醒功能识别率低,无法及时、准确的进行终端的唤醒,对通信功能造成影响。
故此,本发明提供一种车载终端通信方法,车载终端中配置有语音识别模块,语音识别模块实时获取乘员的语音,并对相应语音进行识别,基于识别出的关键信号解析进行终端通信功能的唤醒;
在本发明语音识别过程中,语音切分是语音识别的第一步。语音识别上以25ms长度一帧进行切割,并将其处理为帧特征向量,提取特征。语音识别的粒度有从整句层面、单词层面、或音素乃至三因素进行划分,提取mfcc等声学特征,将整句通过算法(如GMM)提供帧的标签,进行训练。常区分音素为静音因素和非静音因素。
从语音研究的方式上则稍有不同,常将语音转化出语谱图,人工按照音素切割,以便后续处理。随着计算机技术的发展,如今也有一些自动切割音素的算法。技术有按停顿进行切分,有以高斯拟合法,或归并法进行切分。本发明创造性使用的是用二维能量发进行音素切割,优点在于计算量小、无需先了解音节个数,并且切分结果较为精确。
其中,语音识别模块对相应语音进行识别具体包括如下步骤:
S1:获取长度语音,以既定长度帧对长度语音进行音节切割,将其切分成静音帧、清音帧及浊音帧;
需要说明的是,设计算法自动将一段话中的音节进信切分,切分成静音帧、清音帧和浊音帧,并利用音节个数等数据协助使用者进行语音识别。
一段语音会分为静音部分,清音部分,浊音部分。
清浊音最基本的区别是浊音发音时声带振动,清音发音时声带不震动。浊音包含所有元音,汉语中还包含一些辅音,如鼻音/n/,/m/,/ng/,和边音/l/,擦音/r/。各方言中情况略有不同,如吴方言就有浊塞音,浊擦音等。
从语谱图上来看,浊音的能量高,而清音的过零率高。因此,通过设置不同门限,可以有效区分出清音、浊音和静音帧。
S2:通过GMM算法将静音帧、清音帧及浊音帧处理成帧特征向量;
S3:对帧特征向量进行mfcc声学特征提取。
需要说明的是,通过GMM算法将静音帧、清音帧及浊音帧处理成帧特征向量,对帧特征向量进行mfcc声学特征提取为现有技术的常规运用,在此不做多余赘述。
具体的,既定长度帧为25ms。
进一步的,语音识别模块对静音帧的切分具体包括如下步骤:
S1:选取突变门限σ,从前往后遍历,若第i + 1帧的过零率比第i帧的过零率高出的值大于所述突变门限σ:
,
则定义第i帧为静音突变成清音的临界点,则所获取的第m个临界点在音频的第Cm帧,找到的第m个临界点记为Cm = im
S2:进行静音帧的一次判别,即若第一个临界点C1 > 6,可定义C1−3之前的帧均为静音帧;
S3:将每个静音帧的短时能量记为Ai,获取其中的最大值,通过以下公式获取静音帧判别能量Ath
,
其中,Ath为静音帧判别能量,k为判别系数,定义为ln2,Ai为每个静音帧的短时能量;
S4:基于上述公式进行静音帧的二次判别,即低于静音帧判别能量Ath的帧均为静音帧,记为sili=1,反之记sili=0。
其中,突变门限σ定义为1。
需要说明的是,传统上,语言学使用双门限法来识别静音帧,也就是选取
有话帧前的静音帧中能量最大的一个作为判别门限,并将所有能量低于此门限的帧标为静音帧。
如之前所说,虽然静音和清音的能量都很低,从能量方面不易区分,但静
音的过零率比清音低。
进一步的,语音识别模块对清音帧的切分具体为:
清音发音时声带不震动,语音能量主要在2000Hz到8000Hz之间。
,遍历音频,通过以下公式获取清音帧:
,
其中,Ai为每个静音帧的短时能量,Ath为静音帧判别能量,f =j*Δf,j为
傅里叶变换后的频域系数,Δf为变换后的频率间隔,即频率精度;
清音帧在2000Hz到8000Hz区域内的能量要大于2000Hz以下的能量。
若第i帧满足此式,则它为清音帧,记为unvi=1,反之记为unvi=0。
更进一步的,语音识别模块对浊音帧的切分具体包括如下步骤:
S1:对长度语音进行时频0-1化,以语谱图中1000-4000Hz的能量均值为门限,高于此能量为1,低于此能量为0,重新定义Eij
S2:获取浊音的判别门限Eth,即为1000-4000Hz间二维能量的总和的平均,记为voith
S3:通过以下公式定义浊音:
,
若某帧在此频段的能量高于voith,则它为浊音,记为voii = 1,反之记voii = 0。
需要说明的是:浊音是声带振动发出的音,能量主要在1000Hz和4000Hz之内。由于人在连续说话时,音量总会发出改变,而浊音会受到这个的影响,因此在不同时间,要动态地调整浊音帧的判别门限。
额外的,语音识别模块对有话帧及无话帧的切分具体包括如下步骤:
在0-1000Hz范畴内取二维能量平均,作为低频有话帧判别门限baseth
,若第i帧的二维能量和大于门限,
,
则它为有话帧,记bai = 1;若不符合此式,记bai = 0。
完成切分操作后对音节边界进行搜索:
清音:
从前往后搜索音频,若某连续三帧皆为清音:
,
则搜索整数Δi,使得第i + Δi帧为有话帧且不为浊音帧,第i + Δi + 1帧为浊音帧,
,
若没有搜索到满足条件的帧数,则令Δi = 6。
,对于切分过的第k帧,记起始点为segunv k1 = i,
结束点为segunv k2 = i+Δi,
并令切分过的帧中unvi=0,避免重复计算。
遍历完成后,汇总起始点结果为
,
汇总结束点结果为,
,
浊音:
连续搜索到三帧为浊音帧,
,
则搜索整数Δi使得第i+Δi帧为浊音帧,第i+Δi+1帧和第i+Δi+2帧不为浊音帧,
,
记录起始点为i + 1, 结束点为i + Δi,
对于切分过的第w帧,记起始点为,
结束点为,
并令切分过的帧中voii = 0,避免重复计算,
遍历完成后,汇总起始点结果为
,
汇总结束点结果为
,
边界确定:
将起始位置segunv 1和segvoi 1从小到大顺序排列,记为seg1
将结束位置segunv 2和segvoi 2从小到大顺序排列,记为seg2
记录seg1和seg2的元素个数。
输入语音,以此算法识别出清音和浊音的个数。
如pydub库实现拆分的核心就是silence_thresh是认定小于-50dBFS以下的为silence,发现小于-50dBFS部分超过1000毫秒,就进行拆分。
本发明提供一种车载终端通信方法,终端中配置的语音识别模块实时获取乘员的语音,并对相应语音进行识别,基于识别出的关键信号解析进行终端通信功能的唤醒,在进行具体语音识别过程中首先对获取的语音进行音节切分,通过设定的门限分析对静音帧、清音帧及浊音帧进行具体的区分,提高了识别的准确性和效率,而后通过GMM算法将静音帧、清音帧及浊音帧处理成帧特征向量,对帧特征向量进行mfcc声学特征提取,由于本发明对音节进行了完整准确的切分,后续的算法识别能够更好的进行,更准确的进行通信功能的唤醒,解决了现有车载终端通信过程中针对车辆行驶过程中的语音唤醒功能识别率低,无法及时、准确的进行终端的唤醒,对通信功能造成影响的问题。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种车载终端通信方法,其特征在于:车载终端中配置有语音识别模块,
所述语音识别模块实时获取乘员的语音,并对相应语音进行识别,基于识别出
的关键信号解析进行终端通信功能的唤醒;
其中,所述语音识别模块对相应语音进行识别具体包括如下步骤:
S1:获取长度语音,以既定长度帧对所述长度语音进行音节切割,将其切
分成静音帧、清音帧及浊音帧;
S2:通过 GMM 算法将所述静音帧、所述清音帧及所述浊音帧处理成帧特征
向量;
S3:对所述帧特征向量进行 mfcc 声学特征提取,完成语音识别;
其中,所述语音识别模块对所述静音帧的切分具体包括如下步骤:
S1:选取突变门限σ,从前往后遍历,若第 i + 1 帧的过零率比第 i 帧的过零
率高出的值大于所述突变门限σ,则定义第 i 帧为静音突变成清音的临界点,则
所获取的第 m 个临界点在音频的第 Cm 帧;
S2:进行所述静音帧的一次判别,即若第一个临界点 C1 > 6,可定义 C1−3
之前的帧均为静音帧;
S3:将每个所述静音帧的短时能量记为 Ai,获取其中的最大值,通过以下
公式获取静音帧判别能量 Ath:
,
其中,Ath 为所述静音帧判别能量,k 为判别系数,定义为 ln2,Ai 为每个所
述静音帧的短时能量;
S4:基于上述公式进行所述静音帧的二次判别,即低于所述静音帧判别能
量 Ath 的帧均为所述静音帧,记为 sili=1,反之记 sili=0;
其中,所述语音识别模块对所述清音帧的切分具体为:
遍历音频,通过以下公式获取所述清音帧:
,
其中,Ai 为每个所述静音帧的短时能量,Ath 为所述静音帧判别能量,f =j*
Δf,j 为傅里叶变换后的频域系数,Δf 为变换后的频率间隔,即频率精度;
若第 i 帧满足此式,则它为清音帧,记为 unvi=1,反之记为 unvi=0;
其中,所述语音识别模块对所述浊音帧的切分具体包括如下步骤:
S1:对所述长度语音进行时频 0-1 化,以语谱图中 1000-4000Hz 的能量均值
为门限,高于此能量为 1,低于此能量为 0,重新定义 Eij;
S2:获取浊音的判别门限 Eth,即为 1000-4000Hz 间二维能量的总和的平均,
记为 voith;
S3:通过以下公式定义浊音:
,
若某帧在此频段的能量高于 voith,则它为浊音,记为 voii = 1,反之记 voii=0。
2. 根据权利要求 1 所述的车载终端通信方法,其特征在于:所述既定长度帧为25ms。
3. 根据权利要求 2 所述的车载终端通信方法,其特征在于:所述突变门限σ定义为1。
CN202310962486.6A 2023-08-02 2023-08-02 一种车载终端通信方法 Pending CN116705025A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310962486.6A CN116705025A (zh) 2023-08-02 2023-08-02 一种车载终端通信方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310962486.6A CN116705025A (zh) 2023-08-02 2023-08-02 一种车载终端通信方法

Publications (1)

Publication Number Publication Date
CN116705025A true CN116705025A (zh) 2023-09-05

Family

ID=87829608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310962486.6A Pending CN116705025A (zh) 2023-08-02 2023-08-02 一种车载终端通信方法

Country Status (1)

Country Link
CN (1) CN116705025A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254558A (zh) * 2011-07-01 2011-11-23 重庆邮电大学 基于端点检测的智能轮椅语音识别的控制方法
CN103996399A (zh) * 2014-04-21 2014-08-20 深圳市北科瑞声科技有限公司 语音检测方法和系统
CN104464722A (zh) * 2014-11-13 2015-03-25 北京云知声信息技术有限公司 基于时域和频域的语音活性检测方法和设备
CN108447506A (zh) * 2018-03-06 2018-08-24 深圳市沃特沃德股份有限公司 语音处理方法和语音处理装置
CN111739515A (zh) * 2019-09-18 2020-10-02 北京京东尚科信息技术有限公司 语音识别方法、设备、电子设备和服务器、相关系统
US20210158832A1 (en) * 2019-11-22 2021-05-27 Beijing Xiaomi Mobile Software Co., Ltd. Method and device for evaluating performance of speech enhancement algorithm, and computer-readable storage medium
CN115831109A (zh) * 2022-09-28 2023-03-21 科大讯飞股份有限公司 语音唤醒方法、装置、存储介质及电子设备
CN116386676A (zh) * 2023-06-02 2023-07-04 北京探境科技有限公司 语音唤醒方法、语音唤醒装置及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254558A (zh) * 2011-07-01 2011-11-23 重庆邮电大学 基于端点检测的智能轮椅语音识别的控制方法
CN103996399A (zh) * 2014-04-21 2014-08-20 深圳市北科瑞声科技有限公司 语音检测方法和系统
CN104464722A (zh) * 2014-11-13 2015-03-25 北京云知声信息技术有限公司 基于时域和频域的语音活性检测方法和设备
CN108447506A (zh) * 2018-03-06 2018-08-24 深圳市沃特沃德股份有限公司 语音处理方法和语音处理装置
CN111739515A (zh) * 2019-09-18 2020-10-02 北京京东尚科信息技术有限公司 语音识别方法、设备、电子设备和服务器、相关系统
US20210158832A1 (en) * 2019-11-22 2021-05-27 Beijing Xiaomi Mobile Software Co., Ltd. Method and device for evaluating performance of speech enhancement algorithm, and computer-readable storage medium
CN115831109A (zh) * 2022-09-28 2023-03-21 科大讯飞股份有限公司 语音唤醒方法、装置、存储介质及电子设备
CN116386676A (zh) * 2023-06-02 2023-07-04 北京探境科技有限公司 语音唤醒方法、语音唤醒装置及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张扬 等: "基于时频二维能量特征的汉语音节切分方法", 《计算机与应用》, vol. 36, no. 11, pages 3222 - 3228 *

Similar Documents

Publication Publication Date Title
CN110211565B (zh) 方言识别方法、装置及计算机可读存储介质
EP0625774B1 (en) A method and an apparatus for speech detection
JP4568371B2 (ja) 少なくとも2つのイベント・クラス間を区別するためのコンピュータ化された方法及びコンピュータ・プログラム
CN100485780C (zh) 基于基音频率的快速音频分割方法
JPS6336676B2 (zh)
RU2466468C1 (ru) Система и способ распознавания речи
CN108831463B (zh) 唇语合成方法、装置、电子设备及存储介质
CN113192535B (zh) 一种语音关键词检索方法、系统和电子装置
CN108091340B (zh) 声纹识别方法、声纹识别系统和计算机可读存储介质
Esposito et al. Text independent methods for speech segmentation
Yadav et al. Non-Uniform Spectral Smoothing for Robust Children's Speech Recognition.
JPS60200300A (ja) 音声の始端・終端検出装置
CN116705025A (zh) 一种车载终端通信方法
CN106920558B (zh) 关键词识别方法及装置
US20050246172A1 (en) Acoustic model training method and system
CN1337670A (zh) 特定人汉语短语语音识别快速方法
US11270721B2 (en) Systems and methods of pre-processing of speech signals for improved speech recognition
JPH0449952B2 (zh)
Sudhakar et al. Automatic speech segmentation to improve speech synthesis performance
CN111717754A (zh) 基于安全警报语的轿厢式电梯的控制方法
Phoophuangpairoj et al. Two-Stage Gender Identification Using Pitch Frequencies, MFCCs and HMMs
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
Laleye et al. Automatic text-independent syllable segmentation using singularity exponents and rényi entropy
Sailaja et al. Text independent speaker identification with finite multivariate generalized gaussian mixture model and hierarchical clustering algorithm
Gulzar et al. An improved endpoint detection algorithm using bit wise approach for isolated, spoken paired and Hindi hybrid paired words

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination