CN111402931B - 一种利用声音画像辅助的语音边界检测方法及系统 - Google Patents

一种利用声音画像辅助的语音边界检测方法及系统 Download PDF

Info

Publication number
CN111402931B
CN111402931B CN202010148900.6A CN202010148900A CN111402931B CN 111402931 B CN111402931 B CN 111402931B CN 202010148900 A CN202010148900 A CN 202010148900A CN 111402931 B CN111402931 B CN 111402931B
Authority
CN
China
Prior art keywords
voice
scoring
module
target
boundary detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010148900.6A
Other languages
English (en)
Other versions
CN111402931A (zh
Inventor
高扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Original Assignee
Unisound Intelligent Technology Co Ltd
Xiamen Yunzhixin Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unisound Intelligent Technology Co Ltd, Xiamen Yunzhixin Intelligent Technology Co Ltd filed Critical Unisound Intelligent Technology Co Ltd
Priority to CN202010148900.6A priority Critical patent/CN111402931B/zh
Publication of CN111402931A publication Critical patent/CN111402931A/zh
Application granted granted Critical
Publication of CN111402931B publication Critical patent/CN111402931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明提供了一种利用声音画像辅助的语音边界检测方法包括以下步骤:S1:接收目标用户的语音信息;S2:提取接收的语音信息中的声音画像信息;S3:基于语音识别评分模型,对提取的声音画像信息中的所有目标项一一识别评分,并得到综合评分;S4:根据综合评分结果,获取与目标用户相关的语音边界检测时长。本实施例提供的一种利用声音画像辅助的语音边界检测方法和设备可以根据不同的用户确定与之相适应的语音边界检测时长,提高语音识别成功率,进而提高用户的体验。

Description

一种利用声音画像辅助的语音边界检测方法及系统
技术领域
本发明涉及语音边界检测技术领域,特别涉及一种利用声音画像辅助的语音边界检测方法。
背景技术
语音边界检测即语音活动检测(Voice Activity Detection,vad)又称语音端点检测。在一般的语音识别过程中,对于如儿童或者语速慢、语言表达不流畅的用户与设备交互的场景下,用户还没有表达完成,就开始进行语音识别,导致语音识别成功率较低。此时,就需要对语音边界检测时长进行检测,从而提高语音识别的成功率。
发明内容
为了克服上述问题,本发明提供了一种利用声音画像辅助的语音边界检测方法,具体包括以下步骤:
S1:接收目标用户的语音信息;
S2:提取接收的所述语音信息中的声音画像信息;
S3:基于语音识别评分模型,对提取的所述声音画像信息中的所有目标项一一识别评分,并得到综合评分;
S4:根据综合评分结果,获取与所述目标用户相关的语音边界检测时长。
优选地,获取所述语音识别评分模型的步骤包括:
T1:获取历史用户的若干条待训练语音数据;
T2:基于获取的所述待训练语音数据,对待训练识别模型进行智能训练;
其中,所述待训练语音数据包括每个历史用户的声音画像信息中的每个目标项的评分及对应的所述历史用户的历史边界检测时长;
T3:当对所述待训练识别模型进行智能训练结束后,获得所述语音识别评分模型;
其中,所述历史用户的声音画像信息中的每个目标项的评分所对应的综合评分与历史边界检测时长呈一一对应关系。
优选地,所述目标项包括年龄项、语速项、表达流畅项。
优选地,S3步骤中,基于语音识别评分模型,对提取的所述声音画像信息中的所有目标项一一识别评分,并得到综合评分的步骤包括:
S31:基于所述语音识别评分模型,对同个所述目标用户的所述声音画像信息中的每个目标项进行单独评分;
S32:对每个目标项的单独评分结果进行综合处理,获得综合评分。
优选地,在执行S1步骤之前,包括:
P1:基于目标设备,预先录入所述目标用户的第一语音;
P2:提取P1步骤中的所述第一语音的语音特征并保存;
P3:录入P1步骤中所述目标用户的第一语音中的声音画像信息;
P4: P3步骤录入的声音画像信息经S3、S4步骤得到所述目标用户的第一语音检测时长并保存所述第一语音检测时长;
在S1步骤之后包括M步骤:所述M步骤包括:
M1:对S1步骤中接收的语音信息的语音特征与P2中保存的语音特征进行匹配;
如果未匹配成功,则进入S2步骤;
如果匹配成功,则进入M2步骤;
M2:将P4步骤保存的所述目标用户的第一语音检测时长确定为语音边界检测时长。
本发明实施例提供一种利用声音画像辅助的语音边界检测系统,包括:
接收模块,用于接收目标用户的语音信息;
第一提取模块,用于提取所述接收模块接收的所述语音信息中的声音画像信息;
评分模块,用于基于语音识别评分模型,对提取的所述声音画像信息中的所有目标项一一识别评分,并得到综合评分;
第一处理模块,用于根据所述评分模块得到的综合评分结果,获取与所述目标用户相关的语音边界检测时长。
优选地,还包括:
第一获取模块,用于获取历史用户的若干条待训练语音数据;
训练模块,用于基于所述获取模块获取的所述待训练语音数据,对待训练识别模型进行智能训练;
其中,所述待训练语音数据包括每个历史用户的声音画像信息中的每个目标项的评分及对应的所述历史用户的历史边界检测时长;
第二获取模块,用于当对所述待训练识别模型进行智能训练结束后,获得所述语音识别评分模型;
其中,所述历史用户的声音画像信息中的每个目标项的评分所对应的综合评分与历史边界检测时长呈一一对应关系。
优选地,所述目标项包括年龄项、语速项、表达流畅项。
优选地,所述评分模块包括:
第一评分单元,用于基于所述语音识别评分模型,对同个所述目标用户的所述声音画像信息中的每个目标项进行单独评分;
第二评分单元,用于对所述第一评分单元评分得到的每个目标项的单独评分结果进行综合处理,获得综合评分。
优选地,还包括:
第一录入模块,用于基于目标设备,预先录入所述目标用户的第一语音;
第二提取模块,用于提取所述录入模块录入的所述第一语音的语音特征并保存;
第二录入模块,用于录入所述目标用户的第一语音中的声音画像信息;
第二处理模块,用于将所述第二录入模块录入的声音画像信息所述评分模块和第一处理模块得到所述目标用户的第一语音检测时长并保存所述第一语音检测时长;
在接收目标用户的语音信息之后,还包括:
匹配模块,用于对所述接收模块接收的语音信息的语音特征与所述第二提取模块保存的语音特征进行匹配;
如果未匹配成功,则控制所述第一提取模块开始工作;
如果匹配成功,则控制确定模块开始工作;
所述确定模块,用于将保存的所述目标用户的第一语音检测时长确定为语音边界检测时长。
本实施例提供的一种利用声音画像辅助的语音边界检测方法和系统可以根据不同的用户确定与之相适应的语音边界检测时长,提高语音识别成功率,进而提高用户的体验。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1: 一种利用声音画像辅助的语音边界检测方法的示意图;
图2:智能训练的示意图;
图3:利用声音画像辅助的语音边界检测方法进行综合评分的示意图;
图4 声音画像信息的语音边界检测方法的示意图;
图5:一种利用声音画像辅助的语音边界检测系统的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
本实施例提供了一种利用声音画像辅助的语音边界检测方法,如图1所示,包括以下步骤:
S1:接收目标用户的语音信息。
S2:提取接收的所述语音信息中的声音画像信息。本实施例中,根据用户语音提取的声音画像信息为年龄、语速、表达流畅度信息,其中语速分为快、中、慢,表达流畅度分为好、中、次。
S3:基于语音识别评分模型,对提取的所述声音画像信息中的所有目标项一一识别评分,并得到综合评分。本实施例中,用户年龄在7-60岁之间评为9分,年龄在3-6岁之间评分为2分,年龄在60岁以上评分为6分;用户语速快(>150字/分)评分为9,语速中(120-150字/分)评分为7,语速慢(<120字/分)评分为3;表达流畅度好评分为9分,表达流畅度中(语音信号有偶尔不连续的)评分为6分,表达流畅度次(语音信号断断续续,且不稳定)评分为2分。
S4:根据综合评分结果,获取与所述目标用户相关的语音边界检测时长。本实施例中具体为根据S3步骤中的三个维度的评分得出适合不同分数段的语音边界检测时长。
上述技术方案的工作原理为:
本实施例中通过对用户语音声音画像信息提取、评分来确定语音边界检测时长。
上述技术方案的有益效果为:可以根据不同的用户确定与之相适应的语音边界检测时长,提高语音识别成功率,进而提高用户的体验。
在一个实施例中,如图2所示
获取所述语音识别评分模型的步骤包括:
T1:获取历史用户的若干条待训练语音数据;
T2:基于获取的所述待训练语音数据,对待训练识别模型进行智能训练;
其中,所述待训练语音数据包括每个历史用户的声音画像信息中的每个目标项的评分及对应的所述历史用户的历史边界检测时长;
T3:当对所述待训练识别模型进行智能训练结束后,获得所述语音识别评分模型;
其中,所述历史用户的声音画像信息中的每个目标项的评分所对应的综合评分与历史边界检测时长呈一一对应关系。
上述技术方案的工作原理为:T2步骤的智能训练,是通过对每个待训练语音数据进行年龄、语速和表达流畅的预先标志评分,都是提前设定好的训练样本,通过该样本对待训练识别模型进行智能训练,可以使得评分与历史边界检测时长的对应关系更加得准确。
上述技术方案的有益效果为:有助于更准确地确定语音边界检测时长。
在一个实施例中,如图3所示
S3步骤中,基于语音识别评分模型,对提取的所述声音画像信息中的所有目标项一一识别评分,并得到综合评分的步骤包括:
S31:基于所述语音识别评分模型,对同个所述目标用户的所述声音画像信息中的每个目标项进行单独评分;
S32:对每个目标项的单独评分结果进行综合处理,获得综合评分。
具体,本实施例是取三项评分求和后取平均值。
本实施例可以为根据S32步骤得到的平均值确定语音边界检测时长。
具体为:评分平均值在0-4之间的,语音边界检测时长设为600ms;评分平均值在5-7之间的,语音边界检测时长设为400ms;评分平均值在8-10之间的,语音边界检测时长设置为100ms。
当然,在不同的应用场景中对语音边界检测时长可以做出相应的调整,在本实施例中不再详述。
本实施例给出了具体的一种评分的方法。
在一个实施例中,如图4所示
在S1步骤之前还包括P步骤,所述P步骤包括:
P1:基于目标设备,预先录入所述目标用户的第一语音;
P2:提取P1步骤中的所述第一语音的语音特征并保存;
所述的语音特征是指用户的声音特征,包括振幅、频率、音色,其中的音色具体表现为声音声音的频率表现在波形方面总是有与众不同的特性。本实施例具体为保存语音的振幅、频率和时间的分布关系,用于后续的通过三维语图分析进行匹配。
P3:录入P1步骤中所述目标用户的第一语音中的声音画像信息;
具体的,本实施例是通过手动录入声音画像信息的每个目标项。具体为:录入用户年龄;录入用户的快、中、慢;表达流畅度的好、中、次。
P4: P3步骤录入的声音画像信息经S3、S4步骤得到所述目标用户的第一语音检测时长并保存所述第一语音检测时长;具体可见第一个实施例。
在S1步骤之后包括M步骤:所述M步骤包括:
M1:对S1步骤中接收的语音信息的语音特征与P2中保存的语音特征进行匹配;
如果未匹配成功,则进入S2步骤;
如果匹配成功,则进入M2步骤;
M2:将P4步骤保存的所述目标用户的第一语音检测时长确定为语音边界检测时长。
上述技术方案的工作原理为:本实施例的方案是通过P3-P4步骤预先设置用户的第一语音检测时长。当接收用户语音时,首先进行识别,如果接收到的语音与经P 1-P2步骤保存的语音特征匹配,则直接调取该语音边界检测时长。如果未设置,则通过S2-S4步骤确认语音边界检测时长。
上述技术方案的有益效果为:预先对特定的用户设置语音边界检测时长,则其信息更准,有助于提高语音识别成功率,进而提高用户的体验。
本实施例提供了一种利用声音画像辅助的语音边界检测系统,如图5所示,包括:
接收模块,用于接收目标用户的语音信息;
第一提取模块,用于提取所述接收模块接收的所述语音信息中的声音画像信息;
评分模块,用于基于语音识别评分模型,对提取的所述声音画像信息中的所有目标项一一识别评分,并得到综合评分;
第一处理模块,用于根据所述评分模块得到的综合评分结果,获取与所述目标用户相关的语音边界检测时长。
上述技术方案的有益效果为:可以根据不同的用户确定与之相适应的语音边界检测时长,提高语音识别成功率,进而提高用户的体验。
在一个实施例中,还包括:
第一获取模块,用于获取历史用户的若干条待训练语音数据;
训练模块,用于基于所述获取模块获取的所述待训练语音数据,对待训练识别模型进行智能训练;
其中,所述待训练语音数据包括每个历史用户的声音画像信息中的每个目标项的评分及对应的所述历史用户的历史边界检测时长;
第二获取模块,用于当对所述待训练识别模型进行智能训练结束后,获得所述语音识别评分模型;
其中,所述历史用户的声音画像信息中的每个目标项的评分所对应的综合评分与历史边界检测时长呈一一对应关系。
上述技术方案的有益效果为:有助于语音边界检测时长确定模块根据评分模块的评分更准确地确定语音边界检测时长。
在一个实施例中,评分模块包括:
第一评分单元,用于基于所述语音识别评分模型,对同个所述目标用户的所述声音画像信息中的每个目标项进行单独评分;
第二评分单元,用于对所述第一评分单元评分得到的每个目标项的单独评分结果进行综合处理,获得综合评分。
所述评分模块分别对所述声音画像信息中的每个目标项进行单独评分,并根据每个单独评分结果,进而进行相应的综合评分;
具体的,本实施例中的综合评分是所述声音画像信息中每个目标项的评分的平均分。
给出了一种评分模块的评分的方案。
在一个实施例中,还包括:
第一录入模块,用于基于目标设备,预先录入所述目标用户的第一语音;
第二提取模块,用于提取所述录入模块录入的所述第一语音的语音特征并保存;
第二录入模块,用于录入所述目标用户的第一语音中的声音画像信息;
第二处理模块,用于将所述第二录入模块录入的声音画像信息所述评分模块和第一处理模块得到所述目标用户的第一语音检测时长并保存所述第一语音检测时长;
在接收目标用户的语音信息之后,还包括:
匹配模块,用于对所述接收模块接收的语音信息的语音特征与所述第二提取模块保存的语音特征进行匹配;
如果未匹配成功,则控制所述第一提取模块开始工作;
如果匹配成功,则控制确定模块开始工作;
所述确定模块,用于将保存的所述目标用户的第一语音检测时长确定为语音边界检测时长。
上述进行保存,一般是将其数据保存到了存储器中。
上述技术方案的有益效果为:预先对特定的用户设置语音边界检测时长,则其信息更准,有助于提高语音识别成功率,进而提高用户的体验。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (4)

1.一种利用声音画像辅助的语音边界检测方法,其特征在于,包括以下步骤:
S1:接收目标用户的语音信息;
S2:提取接收的所述语音信息中的声音画像信息;
S3:基于语音识别评分模型,对提取的所述声音画像信息中的所有目标项一一识别评分,并得到综合评分;
S4:根据综合评分结果,获取与所述目标用户相关的语音边界检测时长;
获取所述语音识别评分模型的步骤包括:
T1:获取历史用户的若干条待训练语音数据;
T2:基于获取的所述待训练语音数据,对待训练识别模型进行智能训练;
其中,所述待训练语音数据包括每个历史用户的声音画像信息中的每个目标项的评分及对应的所述历史用户的历史边界检测时长;
T3:当对所述待训练识别模型进行智能训练结束后,获得所述语音识别评分模型;
其中,所述历史用户的声音画像信息中的每个目标项的评分所对应的综合评分与历史边界检测时长呈一一对应关系;
S3步骤中,基于语音识别评分模型,对提取的所述声音画像信息中的所有目标项一一识别评分,并得到综合评分的步骤包括:
S31:基于所述语音识别评分模型,对同个所述目标用户的所述声音画像信息中的每个目标项进行单独评分;
S32:对每个目标项的单独评分结果进行综合处理,获得综合评分;
在执行S1步骤之前,包括:
P1:基于目标设备,预先录入所述目标用户的第一语音;
P2:提取P1步骤中的所述第一语音的语音特征并保存;
P3:录入P1步骤中所述目标用户的第一语音中的声音画像信息;
P4: P3步骤录入的声音画像信息经S3、S4步骤得到所述目标用户的第一语音检测时长并保存所述第一语音检测时长;
在S1步骤之后包括M步骤:所述M步骤包括:
M1:对S1步骤中接收的语音信息的语音特征与P2中保存的语音特征进行匹配;
如果未匹配成功,则进入S2步骤;
如果匹配成功,则进入M2步骤;
M2:将P4步骤保存的所述目标用户的第一语音检测时长确定为语音边界检测时长。
2.如权利要求1所述的方法,其特征在于,
所述目标项包括年龄项、语速项、表达流畅项。
3.一种利用声音画像辅助的语音边界检测系统,其特征在于,包括:
接收模块,用于接收目标用户的语音信息;
第一提取模块,用于提取所述接收模块接收的所述语音信息中的声音画像信息;
评分模块,用于基于语音识别评分模型,对提取的所述声音画像信息中的所有目标项一一识别评分,并得到综合评分;
第一处理模块,用于根据所述评分模块得到的综合评分结果,获取与所述目标用户相关的语音边界检测时长;
所述检测系统还包括:
第一获取模块,用于获取历史用户的若干条待训练语音数据;
训练模块,用于基于所述获取模块获取的所述待训练语音数据,对待训练识别模型进行智能训练;
其中,所述待训练语音数据包括每个历史用户的声音画像信息中的每个目标项的评分及对应的所述历史用户的历史边界检测时长;
第二获取模块,用于当对所述待训练识别模型进行智能训练结束后,获得所述语音识别评分模型;
其中,所述历史用户的声音画像信息中的每个目标项的评分所对应的综合评分与历史边界检测时长呈一一对应关系;
所述评分模块包括:
第一评分单元,用于基于所述语音识别评分模型,对同个所述目标用户的所述声音画像信息中的每个目标项进行单独评分;
第二评分单元,用于对所述第一评分单元评分得到的每个目标项的单独评分结果进行综合处理,获得综合评分;
所述检测系统还包括:
第一录入模块,用于基于目标设备,预先录入所述目标用户的第一语音;
第二提取模块,用于提取所述录入模块录入的所述第一语音的语音特征并保存;
第二录入模块,用于录入所述目标用户的第一语音中的声音画像信息;
第二处理模块,用于将所述第二录入模块录入的声音画像信息所述评分模块和第一处理模块得到所述目标用户的第一语音检测时长并保存所述第一语音检测时长;
在接收目标用户的语音信息之后,还包括:
匹配模块,用于对所述接收模块接收的语音信息的语音特征与所述第二提取模块保存的语音特征进行匹配;
如果未匹配成功,则控制所述第一提取模块开始工作;
如果匹配成功,则控制确定模块开始工作;
所述确定模块,用于将保存的所述目标用户的第一语音检测时长确定为语音边界检测时长。
4.如权利要求3所述的系统,其特征在于,
所述目标项包括年龄项、语速项、表达流畅项。
CN202010148900.6A 2020-03-05 2020-03-05 一种利用声音画像辅助的语音边界检测方法及系统 Active CN111402931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010148900.6A CN111402931B (zh) 2020-03-05 2020-03-05 一种利用声音画像辅助的语音边界检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010148900.6A CN111402931B (zh) 2020-03-05 2020-03-05 一种利用声音画像辅助的语音边界检测方法及系统

Publications (2)

Publication Number Publication Date
CN111402931A CN111402931A (zh) 2020-07-10
CN111402931B true CN111402931B (zh) 2023-05-26

Family

ID=71428563

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010148900.6A Active CN111402931B (zh) 2020-03-05 2020-03-05 一种利用声音画像辅助的语音边界检测方法及系统

Country Status (1)

Country Link
CN (1) CN111402931B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015161718A (ja) * 2014-02-26 2015-09-07 株式会社フェリックス 発話検出装置、発話検出方法及び発話検出プログラム
CN108962283A (zh) * 2018-01-29 2018-12-07 北京猎户星空科技有限公司 一种发问结束静音时间的确定方法、装置及电子设备
CN110047470A (zh) * 2019-04-11 2019-07-23 深圳市壹鸽科技有限公司 一种语音端点检测方法
CN110400576A (zh) * 2019-07-29 2019-11-01 北京声智科技有限公司 语音请求的处理方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366739B (zh) * 2012-03-28 2015-12-09 郑州市科学技术情报研究所 面向孤立词语音识别的自适应端点检测方法及其系统
CN104239456B (zh) * 2014-09-02 2019-05-03 百度在线网络技术(北京)有限公司 用户特征数据的提取方法和装置
US10616676B2 (en) * 2018-04-02 2020-04-07 Bose Corporaton Dynamically adjustable sidetone generation
CN109767792B (zh) * 2019-03-18 2020-08-18 百度国际科技(深圳)有限公司 语音端点检测方法、装置、终端和存储介质
CN110110321A (zh) * 2019-03-19 2019-08-09 深圳壹账通智能科技有限公司 基于语音数据的产品推荐方法、装置、设备及存储介质
CN110415710B (zh) * 2019-08-06 2022-05-31 大众问问(北京)信息科技有限公司 车载语音交互系统的参数调整方法、装置、设备及介质
CN110689877A (zh) * 2019-09-17 2020-01-14 华为技术有限公司 一种语音结束端点检测方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015161718A (ja) * 2014-02-26 2015-09-07 株式会社フェリックス 発話検出装置、発話検出方法及び発話検出プログラム
CN108962283A (zh) * 2018-01-29 2018-12-07 北京猎户星空科技有限公司 一种发问结束静音时间的确定方法、装置及电子设备
CN110047470A (zh) * 2019-04-11 2019-07-23 深圳市壹鸽科技有限公司 一种语音端点检测方法
CN110400576A (zh) * 2019-07-29 2019-11-01 北京声智科技有限公司 语音请求的处理方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
The combination of spectral entropy, zero crossing rate, short time energy and linear prediction error for voice activity detection;Thein Htay Zaw et al.;2017 20th International Conference of Computer and Information Technology (ICCIT);全文 *
基于语音分段的自适应时长调整;谢贵武等;军事通信技术;55-59页 *

Also Published As

Publication number Publication date
CN111402931A (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
CN107818798B (zh) 客服服务质量评价方法、装置、设备及存储介质
US11276407B2 (en) Metadata-based diarization of teleconferences
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
US10446150B2 (en) In-vehicle voice command recognition method and apparatus, and storage medium
US6332122B1 (en) Transcription system for multiple speakers, using and establishing identification
US8145486B2 (en) Indexing apparatus, indexing method, and computer program product
CN107305541A (zh) 语音识别文本分段方法及装置
CN105161093A (zh) 一种判断说话人数目的方法及系统
CN109801628B (zh) 一种语料收集方法、装置及系统
CN108735200B (zh) 一种说话人自动标注方法
US11355099B2 (en) Word extraction device, related conference extraction system, and word extraction method
CN106782615A (zh) 语音数据情感检测方法和装置及系统
US20180047387A1 (en) System and method for generating accurate speech transcription from natural speech audio signals
CN107360157A (zh) 一种用户注册方法、装置及智能空调器
CN106356067A (zh) 录音方法、装置及终端
CN107767881B (zh) 一种语音信息的满意度的获取方法和装置
CN106328146A (zh) 一种视频的字幕生成方法及装置
CN116312552B (zh) 一种视频说话人日志方法及系统
DE112018007847B4 (de) Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm
US20220157322A1 (en) Metadata-based diarization of teleconferences
JP2020160425A (ja) 評価システム、評価方法、及びコンピュータプログラム。
CN111402931B (zh) 一种利用声音画像辅助的语音边界检测方法及系统
CN107277645A (zh) 一种字幕内容的纠错方法和装置
CN115035453A (zh) 一种视频片头片尾识别方法、装置、设备及可读存储介质
CN109326303B (zh) 一种语音分离方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant