CN114203204B - 尾点检测方法、装置、设备和存储介质 - Google Patents

尾点检测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN114203204B
CN114203204B CN202111480838.1A CN202111480838A CN114203204B CN 114203204 B CN114203204 B CN 114203204B CN 202111480838 A CN202111480838 A CN 202111480838A CN 114203204 B CN114203204 B CN 114203204B
Authority
CN
China
Prior art keywords
target audio
type
detection
data
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111480838.1A
Other languages
English (en)
Other versions
CN114203204A (zh
Inventor
杜春明
王永乐
赵立峰
王丹
程强
徐木水
李鹏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111480838.1A priority Critical patent/CN114203204B/zh
Publication of CN114203204A publication Critical patent/CN114203204A/zh
Priority to US18/074,681 priority patent/US20230178100A1/en
Application granted granted Critical
Publication of CN114203204B publication Critical patent/CN114203204B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本公开提供了一种尾点检测方法、装置、设备和存储介质,涉及人工智能技术领域,尤其涉及语音识别技术领域。具体实现方案为:获取目标音频;识别所述目标音频的句式类型;根据所述句式类型,确定检测等待时长;根据所述检测等待时长,确定尾点检测结果,提高了尾点检测的准确度。

Description

尾点检测方法、装置、设备和存储介质
技术领域
本公开涉及人工智能技术领域,尤其涉及语音识别技术领域,具体涉及一种尾点检测方法、装置、设备和存储介质。
背景技术
随着人工智能技术的快速发展,语音识别技术作为人机交流接口的关键技术,其重要性日益凸现。在语音识别过程中,涉及语音端点检测,语音端点检测即在连续的音频数据中找到语音的起点与尾点,是语音识别系统的重要组成部分,其准确性会对语音识别的准确性造成影响。
发明内容
本公开提供了一种尾点检测准确度更高的尾点检测方法、装置、设备和存储介质。
根据本公开的一方面,提供了一种尾点检测方法,包括:
获取目标音频;
识别所述目标音频的句式类型;
根据所述句式类型,确定检测等待时长;
根据所述检测等待时长,确定尾点检测结果。
根据本公开的另一方面,还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任意实施例所提供的尾点检测方法。
根据本公开的另一方面,还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行本公开任意实施例所提供的尾点检测方法。
根据本公开的技术,提高了尾点检测的准确度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开实施例提供的一种尾点检测方法的流程图;
图2是本公开实施例提供的另一种尾点检测方法的流程图;
图3是本公开实施例提供的另一种尾点检测方法的流程图;
图4是本公开实施例提供的另一种尾点检测方法的流程图;
图5是本公开实施例提供的一种尾点检测装置的结构图;
图6是用来实现本公开实施例的尾点检测方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本公开所提供的各尾点检测方法和尾点检测装置,适用于在人机交互过程中进行尾点检测的情况。本公开所提供的各尾点检测方法,可以由尾点检测装置执行,该装置可以采用软件和/或硬件实现,并具体配置于电子设备中,该电子设备可以是语音设备,例如可以在智能音箱或车载终端等。
为了便于理解,首先对本公开所提供的各尾点检测方法进行详细说明。
参见图1所示的一种尾点检测方法,包括:
S101、获取目标音频。
其中,目标音频可以是实时获取得到的目标音频;或者,在时间允许的使用场景下,目标音频也可以是预先录制好、存储在本地的目标音频。
在一些具体实现方式中,目标音频发起方可以向执行尾点检测方法的电子设备发出语音指令,电子设备在接收到该语音指令之后,可以将该语音指令存储为目标音频。
S102、识别目标音频的句式类型。
其中,句式类型用于表征构成句子的语词的不同类别、序列和搭配方式等,例如句式类型可分为主谓宾句、非主谓句、被动句、倒装句、兼语句和连动句等,还可以自定义句式类型。
可选的,可以采用语义分析技术识别目标音频的句式类型。其中,语义分析技术可以利用现有技术中支持语义分析等实现,本公开对此不作任何限定。
S103、根据句式类型,确定检测等待时长。
可选的,可以预先根据句式类型确定相应的检测等待时长,如每一个句式类型均可对应设置一个检测等待时长。当识别出目标音频的句式类型之后,即可根据句式类型,确定出相应的检测等待时长。
可选的,为了便于实施,可以预先对句式类型进行类别划分,并针对不同划分结果,相应设置不同的检测等待时长。其中,本公开对句式类型的类别划分方式不作任何限定。
例如,可以根据响应速度需求,对句式类型进行类别划分,所划分的类别包括T1、T2、T3、T4和T5共五个类别;其中,T1、T2、T3、T4和T5可对应从小到大依次递增的检测等待时长。
S104、根据检测等待时长,确定尾点检测结果。
具体的,间隔检测等待时长后,确定尾点检测结果,避免了将目标音频中的正常短暂停顿误识别为语音尾点的情况发生,提高了尾点检测结果的准确度。由于尾点检测结果通常是进行其它语音信号处理如语音识别等重要且关键的一步,因此,有助于提高后续进行语音识别等的准确度。
本公开实施例能够根据句式类型,调整检测等待时长,而不是统一设置一个固定的检测等待时长,提高了人机语音交互过程尾点检测时机的灵活性,解决了尾点检测等待时间过长导致的效率低的问题,同时避免了将正常短暂停顿误识别为语音尾点的情况发生,有助于提高尾点检测结果的准确度。
在上述各技术方案的基础上,本公开还提供了一个可选实施例。在该可选实施例中,对检测等待时长的确定过程,进行了优化改进。需要说明的是,在本公开实施例未详述部分,可参见前述实施例的相关表述,在此不再赘述。
参见图2所示的一种尾点检测方法,包括:
S201、获取目标音频。
S202、识别目标音频的句式类型。
S203、将句式类型与预设句式库进行匹配,得到检测类型;其中,检测类型包括延时型、常规型和减时型中的至少一种。
其中,预设句式库可以包括至少一条标准句式。在匹配过程中,可以将句式类型与预设句式库中的每一个标准句式依次进行匹配;根据所匹配标准句式对应类别,确定目标音频的检测类型。
为了便于实施,可以对检测类型进行类别划分,划分类别包括延时型、常规型和减时型三种类型,不同检测类型可以对应设置不同的检测等待时长。
示例性的,可以将包含有明确指定对象的句式类型对应的检测类型,设置为减时型。例如,播放音乐时的“上一首”或“下一首”,明确指定对象为音乐播放列表中当前播放音乐的“前一音乐”或“后一音乐”。又如,车辆行驶时的“开启空调”,明确指定对象为“空调”。
示例性的,可以将包含有自定义指定对象的句式类型对应的检测类型,设置为延时型。例如,拨打电话时的“拨打电话给137XXXXXXXX”,自定义指定对象为“137XXXXXXXX”。又如,播放视频时的“播放《XXX》电视剧的第YY集”中,自定义指定对象为“《XXX》电视剧的第YY集”。
示例性的,可以将除包含有明确指定对象或自定义指定对象之外的其他句式类型对应的检测类型,设置为常规型。
S204、根据检测类型,确定检测等待时长。
一般的,可以为检测类型为减时型的目标音频对应设置一个较短的检测等待时长t减时型;为检测类型为常规型的目标音频对应设置一个普通的检测等待时长t常规型;为检测类型为延时型的目标音频对应设置一个较长的检测等待时长t延时型;其中,t减时型<t常规型<t延时型。t减时型、t常规性和t延时型的具体时长数值,可根据实际使用需求和情况进行确认。例如,不同的业务场景可以对应设置不同的检测等待时长。
在一个可选实施例中,为了更加合理地确定检测等待时长,还可以结合目标音频发起方的语速和/或语调等特征,对检测等待时长进行动态调整。具体的,当目标音频发起方的语速较慢时,可以对各检测类型对应的检测等待时长进行设定增加比例或数值的增加;当目标音频发起方的语速较快时,可以对每一种检测类型对应的检测等待时长进行设定降低比例或数值的降低;其中,设定增加比例或数值、设定降低比例或数值的具体大小,可以根据经验值或实验值进行确定。
需要说明的是,还可以根据实际使用需求和情况,对各检测类型对应的检测等待时长,选择调整或不调整。例如,可以仅对延时型对应的检测等待时长进行动态调整,从而避免对其他检测类型调整,导致准确度的降低或延长等待。
S205、根据检测等待时长,确定尾点检测结果。
在上述各技术方案的基础上,还可以对预设句式库中不同检测类型对应句式类型进行更新或调整。
可选的,预设句式库还支撑运维人员的增删改查,以实现对预设句式库中不同检测类型对应句式类型的灵活调整,使其不断适配于具体语音业务。
或者可选的,还可以采用自动化的方式,对预设句式库中内容进行动态调整。示例性的,可以获取历史音频对应语音指令的响应失败频次;根据响应失败频次,调整预设句式库中语音指令对应句式类型的检测类型。
其中,响应失败频次可以根据以下方式确定:在电子设备测试或使用过程中,可以根据测试任务,测试发起方向电子设备发送语音指令,以获取电子设备对语音指令的响应结果,根据响应结果,可以生成响应失败频次;或者,在电子设备服务过程中,还可以收集并统计目标音频发起方的历史音频对应语音指令的响应失败频次。
一般的,若响应失败频次超过设定频次阈值,则可以根据响应失败结果,调整预设句式库中语音指令对应句式类型的检测类型。其中,设定频次阈值可以根据经验值进行确定。
例如,响应失败结果显示等待过长(如在尚未自动化响应之前,发起方手动进行响应),则可以将预设句式库中语音指令对应句式类型的检测类型,调整为检测等待时长较短的一种检测类型。
可以理解的是,根据响应失败频次,调整预设句式库中语音指令对应句式类型的检测类型,可以起到优化预设句式库的作用,有助于提高预设句式库中不同句式类型对应检测类型,与语音指令发起方的契合度。
本公开实施例将目标音频的句式类型与预设句式库进行匹配,得到检测类型;其中,检测类型包括延时型、常规型和减时型中的至少一种;根据检测类型,确定检测等待时长。上述技术方案通过引入包括不同检测类型的句式类型的预设句式库,进行目标音频对应检测类型的确定,针对相同检测类型设置相同检测等待时长,避免了检测等待时长过多带来的计算量和存储量的增加,便于进行检测等待时长的管理和维护。同时,通过类型匹配的方式进行检测等待时长的确定,确定方式简捷,提高了检测等待时长确定效率。
在上述各技术方案的基础上,本公开还提供了一个可选实施例,在该实施例中,若检测类型为延时型,引入目标音频的环境数据以及目标音频发起方的语速特征,对检测等待时长的确定过程,进行了优化改进。
参见图3所示的一种尾点检测方法,包括:
S301、获取目标音频。
S302、识别目标音频的句式类型。
S303、将句式类型与预设句式库进行匹配,得到检测类型;其中,检测类型包括延时型、常规型和减时型中的至少一种。
S304、若检测类型为延时型,确定目标音频的环境数据。
其中,目标音频的环境数据包括但不限于目标音频发起方的情绪数据、目标音频发起方的语音使用习惯数据、目标音频发起方的语言种类数据和目标音频发起方所处的场景和时间数据等。
一般的,当目标音频发起方情绪为高兴时,语调高昂、语速较快;当目标音频发起方情绪为痛苦时,语调低沉、语速慢。因此,可以对目标音频发起方的情绪进行识别,并根据情绪识别结果,采用间接方式确定目标音频发起方的语速,从而可以根据语速确定检测等待时长。
在一个可选实施例中,考虑到可能存在目标音频发起方在其他电子设备上进行语音交互的情况,因此,可以基于电子设备上的摄像机或摄像头采集含有人脸的图像或视频流,对目标音频发起方进行人脸识别,建立目标音频发起方与语音使用习惯的对应关系,并将该对应关系存储在电子设备的后台服务器中。当目标音频发起方在电子设备上输出语音指令时,可以先对目标音频发起方进行人脸识别,通过人脸识别结果从电子设备的后台服务器中获取与目标音频发起方对应的语音使用习惯。
可选的,可以通过目标音频或目标音频发起时刻关联历史时段的历史音频,对目标音频发起方进行情绪识别,从而确定目标音频发起方的情绪类别。
在一个可选实施例中,考虑到语言本身的发音特点,在采用不同语言种类的语言进行交流时,语音交流的速度是不一样的,因此,可以将目标音频发起方的语言种类,作为影响检测等待时长的一个因素考虑进来,使得检测等待时长的确定更加合理。
在一个可选实施例中,考虑到目标音频发起方所处的场景和时间也会影响检测等待时长。例如,在上班途中,为了节约时间,目标音频发起方可能输出较快的语音指令进行语音交互。
可选的,可以根据实际使用需求和情况,对上述环境因素包括目标音频发起方的情绪、目标音频发起方的语音使用习惯、目标音频发起方的语言种类和目标音频发起方所处的场景和时间等进行筛选,从中选取出符合具体语音业务类型的环境因素,并通过相应的数据采集方式获取目标音频的环境数据。
S305、根据环境数据和/或目标音频发起方的语速特征,确定时长调整数据。
其中,时长调整数据是指在基准等待时长的基础上进行调节的数据,该时长调整数据可以是调整比例值或调整数值。
其中,基准等待时长是指与检测类型对应的人为预先设定的等待时长,不同的检测类型可以对应不同的基准等待时长。
在一些具体实现方式中,可以仅根据目标音频发起方的语速特征,直接根据目标音频发起方的语速快慢,确定时长调整数据;或者,也可以仅根据环境数据,采用至少一种环境因素耦合的方式,间接确定时长调整数据;或者,还可以同时根据环境数据和目标音频发起方的语速特征,采用综合评估的方式,确定时长调整数据。
可选的,可以根据环境数据和目标音频发起方的语速特征,基于预设环境因素权重和预设个人语速权重,确定时长调整数据。其中,预设环境因素权重和预设个人语速权重和为1,预设环境因素权重和预设个人语速权重可以相同或不同。
典型的,为了便于实施,可以将预设环境因素权重和预设个人语速权重设置为相同的权重。
优选的,为了更直观体现语速对时长调整数据的影响,可以将预设个人语速权重设置高于预设环境因素权重。
S306、根据时长调整数据和延时型对应基准等待时长,确定检测等待时长。
具体的,在确定出目标音频的检测类型之后,即可根据检测类型确定对应基准等待时长。
可以理解的是,考虑到常规型和减时型对应基准等待时长较短,若继续确定时长调整数据,并通过时长调整数据对基准等待时长进行调整,会使得检测等待时长更短,将有可能导致出现错误或者不合理的情况出现。因此,此处可以只针对目标音频为延时型的检测类型,进行检测等待时长的调整。
可选的,若检测类型不为延时型,可以直接根据检测类型,将检测类型对应基准等待时长,确定为检测等待时长。
需要说明的是,在确定检测等待时长的过程中,可以基于时长调整数据在延时型对应基准等待时长上下进行调整,但需保证调整后的检测等待时长小于常规型对应基准等待时长,以得到符合实际的检测等待时长。
S307、根据检测等待时长,确定尾点检测结果。
本公开实施例在检测类型为延时型的情况下,通过根据环境数据和/或目标音频发起方的语速特征,确定时长调整数据,并根据时长调整数据和延时型对应基准等待时长,对检测等待时长进行调整,优化了检测等待时长的确定过程。其中,环境数据将语音交互环境考虑进来,提高了检测等待时长确定的客观性,使检测等待时长能够适配相应的语音交互环境;而语速特征反映了目标音频发起方的语速快慢,与检测等待时长直接相关,将语速特征考虑进来,提高了检测等待时长与目标音频发起方的匹配度。通过上述技术方案,使得检测等待时长的确定更加合理,从而进一步提高了尾点检测结果的准确度。
在上述各技术方案的基础上,本公开还提供了一个优选实施例,在该优选实施例中,对环境数据的具体内容进行详细说明。
参见图4所示的一种尾点检测方法,包括:
S401、获取目标音频。
S402、识别目标音频的句式类型。
S403、将句式类型与预设句式库进行匹配,得到检测类型;其中,检测类型包括延时型、常规型和减时型中的至少一种。
S404、若检测类型为延时型,确定目标音频的环境数据;其中,环境数据包括语言环境数据和/或录制环境数据。
在一些具体实现方式中,为了全面综合目标音频的环境数据,目标音频的环境数据的确定过程可以包括:根据语言环境数据和录制环境数据,基于预设语言环境权重和预设录制环境权重,采用加权和的方式确定目标音频的环境数据。其中,预设语言环境权重和预设录制环境权重和为1,预设语言环境权重和预设录制环境权重可以相同或不同。
可选的,确定目标音频的语音环境数据,包括:分别确定目标音频中音频内容的语言类别和目标音频对应的情绪类别;根据语言类别和/或情绪类别,生成语言环境数据。
在一些具体实现方式中,可以基于设定语言识别模型,识别目标音频中音频内容的语言类别;和/或,可以基于设定情绪识别模型,识别目标音频对应的情绪类别。其中,设定语言识别模型可以利用现有技术中支持语言类别识别的任意技术实现,设定情绪识别模型可以利用现有技术中支持情绪识别的任意技术实现。
可选的,根据语言的语速特点,可以将语言类别划分为三个等级,包括:L1(快)、L2(一般)和L3(慢);根据情绪的轻快程度,可以将情绪类别划分为三个等级,包括:E1(轻快)、E2(一般)和E3(沉重)。
可以理解的是,语言类别和情绪类别为语言环境数据的生成提供了数据支撑。
在一些具体实现方式中,为了全面综合确定语言环境数据,语言环境数据的确定过程可以包括:根据语言类别和情绪类别,基于预设语言类别权重和预设情绪类别权重,采用加权和的方式确定语言环境数据。其中,预设语言类别权重和预设情绪类别权重和为1,预设语言类别权重和预设情绪类别权重可以相同或不同。
在另一具体实现方式中,为了简化计算,还可以根据语言类别和情绪类别,基于等级划分方式,生成语言环境的评估等级,并将评估等级作为语言环境数据。
可选的,确定目标音频的录制环境数据,包括:识别目标音频所处录制环境中的噪声类别;识别目标音频对应录制区域是否处于熟悉路段;识别目标音频对应录制时刻是否处于熟悉时段;根据噪声类别、路段识别结果和时段识别结果中的至少一种,生成录制环境数据。
考虑到环境噪声也会对目标音频发起方的语音交互产生影响,因此,可以将目标音频所处录制环境中的噪声考虑进来;目标音频对应录制区域和录制时刻也会对目标音频发起方的语音交互产生影响,因此,同样也可以将目标音频所处录制环境中的噪声考虑进来,使得录制环境数据的确定更加丰富全面。
在一些具体实现方式中,为了全面综合确定录制环境数据,录制环境数据的确定过程可以包括:根据噪声类别、路段识别结果和时段识别结果,基于预设噪声权重、预设路段权重和预设时段权重,采用加权和的方式确定录制环境数据。其中,预设噪声权重、预设路段权重和预设时段权重和为1,预设噪声权重、预设路段权重和预设时段权重可以相同或不同,具体权重可以根据实际使用需求和情况进行确定。
可以理解的是,噪声类别、路段识别结果和时段识别结果为录制环境数据的生成提供了数据支撑,从而提高了录制环境数据的丰富性,有助于提高检测等待时长确定结果与语音指令发起方之间的契合度。
S405、根据环境数据和/或目标音频发起方的语速特征,确定时长调整数据。
S406、根据时长调整数据和延时型对应基准等待时长,确定检测等待时长。
S407、根据检测等待时长,确定尾点检测结果。
根据本公开的技术,本公开实施例对环境数据的具体内容进行了识别和分类,将环境数据划分为语言环境数据和录制环境数据两种,可以从多个维度确定环境数据,提供多维度的数据分析和智能决策,提高对时长调整数据确定的准确度,从而可以对检测等待时长进行合理调整,优化了延时型对应检测等待时长的确定过程。
作为上述各尾点检测方法的实现,本公开还提供了一种实施尾点检测方法的执行装置的可选实施例。进一步参见图5所示的一种尾点检测装置500,包括:音频获取模块501、句式类型识别模块502、等待时长确定模块503和检测结果确定模块504。其中,
音频获取模块501,用于获取目标音频;
句式类型识别模块502,用于识别所述目标音频的句式类型;
等待时长确定模块503,用于根据所述句式类型,确定检测等待时长;
检测结果确定模块504,用于根据所述检测等待时长,确定尾点检测结果。
本公开实施例能够根据句式类型,调整检测等待时长,而不是统一设置一个固定的检测等待时长,提高了人机语音交互过程尾点检测时机的灵活性,解决了尾点检测等待时间过长导致的效率低的问题,同时避免了将正常短暂停顿误识别为语音尾点的情况发生,有助于提高尾点检测结果的准确度。
在一个可选实施例中,所述等待时长确定模块503,包括:
匹配单元,用于将所述句式类型与预设句式库进行匹配,得到检测类型;其中,所述检测类型包括延时型、常规型和减时型中的至少一种;
等待时长确定单元,用于根据所述检测类型,确定所述检测等待时长。
在一个可选实施例中,若所述检测类型为延时型,则所述等待时长确定单元,包括:
环境数据确定子单元,用于确定所述目标音频的环境数据;
时长调整子单元,用于根据所述环境数据和/或所述目标音频发起方的语速特征,确定时长调整数据;
等待时长确定子单元,用于根据所述时长调整数据和所述延时型对应基准等待时长,确定所述检测等待时长。
在一个可选实施例中,所述环境数据包括语言环境数据和/或录制环境数据。
在一个可选实施例中,所述装置包括语音数据确定子单元,所述语音数据确定子单元,包括:
类别确定从单元,用于分别确定所述目标音频中音频内容的语言类别和所述目标音频对应的情绪类别;
语音数据生成从单元,用于根据所述语言类别和/或情绪类别,生成所述语言环境数据。
在一个可选实施例中,所述装置包括录制数据确定子单元,所述录制数据确定子单元,包括:
类别识别从单元,用于识别所述目标音频所处录制环境中的噪声类别;
路段识别从单元,用于识别所述目标音频对应录制区域是否处于熟悉路段;
时段识别从单元,用于识别所述目标音频对应录制时刻是否处于熟悉时段;
录制数据生成从单元,用于根据噪声类别、路段识别结果和时段识别结果中的至少一种,生成所述录制环境数据。
在一个可选实施例中,该装置,还包括:
失败频次获取单元,用于获取历史音频对应语音指令的响应失败频次;
调整单元,用于根据所述响应失败频次,调整所述预设句式库中所述语音指令对应句式类型的检测类型。
上述尾点检测装置可执行本公开任意实施例所提供的尾点检测方法,具备执行各尾点检测方法相应的功能模块和有益效果。
本公开的技术方案中,所涉及的目标音频、语言环境数据、录制环境数据和响应失败频次等的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如尾点检测方法。例如,在一些实施例中,尾点检测方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的尾点检测方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行尾点检测方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
根据本公开的实施例,本公开还提供了一种车辆,其中,所述车辆中设置有如本公开任意实施例所提供的电子设备。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或丢弃步骤。例如,本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (10)

1.一种尾点检测方法,包括:
获取目标音频;
识别所述目标音频的句式类型;
将所述句式类型与预设句式库中的每一个标准句式依次进行匹配;根据所匹配标准句式对应类别,确定所述目标音频的检测类型;其中,所述检测类型包括延时型、常规型和减时型中的至少一种;
根据所述检测类型,确定检测等待时长,包括:若所述检测类型为延时型;确定所述目标音频的环境数据;根据所述环境数据,或根据所述环境数据和所述目标音频发起方的语速特征,确定时长调整数据;根据所述时长调整数据和所述延时型对应基准等待时长,确定所述检测等待时长;其中,所述环境数据包括录制环境数据;所述时长调整数据是指在基准等待时长的基础上进行调节的数据;所述基准等待时长是与所述检测类型对应的人为预先设定的等待时长;
根据所述检测等待时长,确定尾点检测结果;
其中,确定所述目标音频的录制环境数据,包括:识别所述目标音频所处录制环境中的噪声类别;识别所述目标音频对应录制区域是否处于熟悉路段;识别所述目标音频对应录制时刻是否处于熟悉时段;根据噪声类别、路段识别结果和时段识别结果中的至少一种,生成所述录制环境数据。
2.根据权利要求1所述的方法,其中,所述环境数据包括语言环境数据;所述环境数据包括语言环境数据和录制环境数据。
3.根据权利要求2所述的方法,其中,确定所述目标音频的语言环境数据,包括:
分别确定所述目标音频中音频内容的语言类别和所述目标音频对应的情绪类别;
根据所述语言类别和/或情绪类别,生成所述语言环境数据。
4.根据权利要求1-3中任一项所述的方法,还包括:
获取历史音频对应语音指令的响应失败频次;
根据所述响应失败频次,调整所述预设句式库中所述语音指令对应句式类型的检测类型。
5.一种尾点检测装置,包括:
音频获取模块,用于获取目标音频;
句式类型识别模块,用于识别所述目标音频的句式类型;
等待时长确定模块包括匹配单元和等待时长确定单元;
所述匹配单元,用于将所述句式类型与预设句式库进行匹配,得到检测类型;其中,所述检测类型包括延时型、常规型和减时型中的至少一种;
所述等待时长确定单元,用于根据所述检测类型,确定检测等待时长;
若所述检测类型为延时型,所述等待时长确定单元包括环境数据确定子单元、时长调整子单元和等待时长确定子单元;
所述环境数据确定子单元,用于确定所述目标音频的环境数据;
所述时长调整子单元,用于根据所述环境数据,或根据所述环境数据和所述目标音频发起方的语速特征,确定时长调整数据;其中,所述环境数据包括录制环境数据;
所述等待时长确定子单元,用于根据所述时长调整数据和所述延时型对应基准等待时长,确定所述检测等待时长;其中,所述时长调整数据是指在基准等待时长的基础上进行调节的数据;所述基准等待时长是与所述检测类型对应的人为预先设定的等待时长;
检测结果确定模块,用于根据所述检测等待时长,确定尾点检测结果
其中,所述装置包括录制数据确定子单元,所述录制数据确定子单元,包括:
类别识别从单元,用于识别所述目标音频所处录制环境中的噪声类别;
路段识别从单元,用于识别所述目标音频对应录制区域是否处于熟悉路段;
时段识别从单元,用于识别所述目标音频对应录制时刻是否处于熟悉时段;
录制数据生成从单元,用于根据噪声类别、路段识别结果和时段识别结果中的至少一种,生成所述录制环境数据。
6.根据权利要求5所述的装置,其中,所述环境数据包括语言环境数据;所述环境数据包括语言环境数据和录制环境数据。
7.根据权利要求6所述的装置,其中,所述装置包括语言数据确定子单元,所述语言数据确定子单元,包括:
类别确定从单元,用于分别确定所述目标音频中音频内容的语言类别和所述目标音频对应的情绪类别;
语音数据生成从单元,用于根据所述语言类别和/或情绪类别,生成所述语言环境数据。
8.根据权利要求5-7中任一项所述的装置,还包括:
失败频次获取单元,用于获取历史音频对应语音指令的响应失败频次;
调整单元,用于根据所述响应失败频次,调整所述预设句式库中所述语音指令对应句式类型的检测类型。
9. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的尾点检测方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-4中任一项所述的尾点检测方法。
CN202111480838.1A 2021-12-06 2021-12-06 尾点检测方法、装置、设备和存储介质 Active CN114203204B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111480838.1A CN114203204B (zh) 2021-12-06 2021-12-06 尾点检测方法、装置、设备和存储介质
US18/074,681 US20230178100A1 (en) 2021-12-06 2022-12-05 Tail point detection method, electronic device, and non-transitory computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111480838.1A CN114203204B (zh) 2021-12-06 2021-12-06 尾点检测方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN114203204A CN114203204A (zh) 2022-03-18
CN114203204B true CN114203204B (zh) 2024-04-05

Family

ID=80650815

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111480838.1A Active CN114203204B (zh) 2021-12-06 2021-12-06 尾点检测方法、装置、设备和存储介质

Country Status (2)

Country Link
US (1) US20230178100A1 (zh)
CN (1) CN114203204B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282330A (ja) * 2008-05-22 2009-12-03 Internatl Business Mach Corp <Ibm> 音声認識及び合成システム、プログラム及び方法
CN106875938A (zh) * 2017-03-10 2017-06-20 南京信息工程大学 一种改进的非线性自适应语音端点检测方法
CN106952645A (zh) * 2017-03-24 2017-07-14 广东美的制冷设备有限公司 语音指令的识别方法、语音指令的识别装置和空调器
CN108962283A (zh) * 2018-01-29 2018-12-07 北京猎户星空科技有限公司 一种发问结束静音时间的确定方法、装置及电子设备
CN109346074A (zh) * 2018-10-15 2019-02-15 百度在线网络技术(北京)有限公司 一种语音处理方法及系统
CN109767792A (zh) * 2019-03-18 2019-05-17 百度国际科技(深圳)有限公司 语音端点检测方法、装置、终端和存储介质
CN110199350A (zh) * 2017-01-17 2019-09-03 三星电子株式会社 用于感测语音结束的方法和实现该方法的电子设备
CN110689877A (zh) * 2019-09-17 2020-01-14 华为技术有限公司 一种语音结束端点检测方法及装置
CN111627463A (zh) * 2019-02-28 2020-09-04 百度在线网络技术(北京)有限公司 语音vad尾点确定方法及装置、电子设备和计算机可读介质
CN112489691A (zh) * 2019-09-11 2021-03-12 三星电子株式会社 电子装置及其操作方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11011182B2 (en) * 2019-03-25 2021-05-18 Nxp B.V. Audio processing system for speech enhancement

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282330A (ja) * 2008-05-22 2009-12-03 Internatl Business Mach Corp <Ibm> 音声認識及び合成システム、プログラム及び方法
CN110199350A (zh) * 2017-01-17 2019-09-03 三星电子株式会社 用于感测语音结束的方法和实现该方法的电子设备
CN106875938A (zh) * 2017-03-10 2017-06-20 南京信息工程大学 一种改进的非线性自适应语音端点检测方法
CN106952645A (zh) * 2017-03-24 2017-07-14 广东美的制冷设备有限公司 语音指令的识别方法、语音指令的识别装置和空调器
CN108962283A (zh) * 2018-01-29 2018-12-07 北京猎户星空科技有限公司 一种发问结束静音时间的确定方法、装置及电子设备
CN109346074A (zh) * 2018-10-15 2019-02-15 百度在线网络技术(北京)有限公司 一种语音处理方法及系统
CN111627463A (zh) * 2019-02-28 2020-09-04 百度在线网络技术(北京)有限公司 语音vad尾点确定方法及装置、电子设备和计算机可读介质
CN109767792A (zh) * 2019-03-18 2019-05-17 百度国际科技(深圳)有限公司 语音端点检测方法、装置、终端和存储介质
CN112489691A (zh) * 2019-09-11 2021-03-12 三星电子株式会社 电子装置及其操作方法
CN110689877A (zh) * 2019-09-17 2020-01-14 华为技术有限公司 一种语音结束端点检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种复杂噪声环境下的语音端点检测方法;熊威;郑建立;;电声技术;20151117(11);全文 *

Also Published As

Publication number Publication date
US20230178100A1 (en) 2023-06-08
CN114203204A (zh) 2022-03-18

Similar Documents

Publication Publication Date Title
US10217463B2 (en) Hybridized client-server speech recognition
EP3528243A1 (en) System for processing user utterance and controlling method thereof
CN112466302B (zh) 语音交互的方法、装置、电子设备和存储介质
CN110503944B (zh) 语音唤醒模型的训练和使用方法及装置
US10540973B2 (en) Electronic device for performing operation corresponding to voice input
JPWO2019031268A1 (ja) 情報処理装置、及び情報処理方法
CN110688518A (zh) 节奏点的确定方法、装置、设备及存储介质
CN113380238A (zh) 处理音频信号的方法、模型训练方法、装置、设备和介质
JP6930538B2 (ja) 情報処理装置、情報処理方法、およびプログラム
US11769490B2 (en) Electronic apparatus and control method thereof
CN113611316A (zh) 人机交互方法、装置、设备以及存储介质
CN114203204B (zh) 尾点检测方法、装置、设备和存储介质
CN112786047B (zh) 一种语音处理方法、装置、设备、存储介质及智能音箱
CN113658581B (zh) 声学模型的训练、语音处理方法、装置、设备及存储介质
CN113903329B (zh) 语音处理方法、装置、电子设备及存储介质
CN114495981A (zh) 语音端点的判定方法、装置、设备、存储介质及产品
CN112164392A (zh) 确定显示的识别文本的方法、装置、设备以及存储介质
CN112581937A (zh) 一种语音指令的获得方法及装置
CN114356275B (zh) 交互控制方法、装置、智能语音设备及存储介质
JP2019109424A (ja) 計算機、言語解析方法、及びプログラム
CN112906650B (zh) 教学视频的智能处理方法、装置、设备和存储介质
CN114678040B (zh) 语音一致性检测方法、装置、设备及存储介质
CN111797631B (zh) 信息处理方法、装置及电子设备
CN111797631A (zh) 信息处理方法、装置及电子设备
CN115641847A (zh) 文本处理方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant