CN112634870A - 关键词检测方法、装置、设备和存储介质 - Google Patents

关键词检测方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN112634870A
CN112634870A CN202011462771.4A CN202011462771A CN112634870A CN 112634870 A CN112634870 A CN 112634870A CN 202011462771 A CN202011462771 A CN 202011462771A CN 112634870 A CN112634870 A CN 112634870A
Authority
CN
China
Prior art keywords
probability
loss function
task
function
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011462771.4A
Other languages
English (en)
Other versions
CN112634870B (zh
Inventor
刘博卿
王健宗
张之勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011462771.4A priority Critical patent/CN112634870B/zh
Priority to PCT/CN2021/084545 priority patent/WO2022121188A1/zh
Publication of CN112634870A publication Critical patent/CN112634870A/zh
Application granted granted Critical
Publication of CN112634870B publication Critical patent/CN112634870B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及人工智能领域,揭示了关键词检测方法,关键词检测网络包括并行连接的第一全连接层和第二全连接层,方法包括:获取当前用户输入的待检测语音语句;提取待检测语音语句对应的语音特征参数;将语音特征参数输入关键词检测网络;判断第一全连接层输出的第一概率是否高于预设概率阈值,第一概率为当前用户身份识别对应的概率;若是,根据第二全连接层输出的第二概率,确定待检测语音语句的关键词,第二概率为关键词识别对应的概率。通过设定两个不同损失函数分别约束不同全连接层对应的任务通道,实现多任务在同一个网络模型中运行,共享计算,对设备内存要求低、降低计算时间和电池耗电量的效果。

Description

关键词检测方法、装置、设备和存储介质
技术领域
本申请涉及人工智能领域,特别是涉及到关键词检测方法、装置、设备和存储介质。
背景技术
随着人工智能技术的发展,越来越多的智能设备上配置智能语音助手功能,实现用户和机器的语音对话。传统方法上,语音智能助手仅为关键词检测系统,满足任何用户与机器的对话,无需对用户身份特征进行识别。即便是有特殊要求进行用户身份识别的系统,也多通过另外训练一模型,比如声纹识别模型,即关键词检测和说话人识别任务需分别进行建模处理,增大了模型计算量和反馈延迟,且不适合同时部署于小型的智能设备上。
发明内容
本申请的主要目的为提供关键词检测方法,旨在解决现有关键词检测和说话人识别任务不能通过一个模型实现,导致计算量大、反馈延迟的技术问题。
本申请提出一种关键词检测方法,关键词检测网络包括并行连接的第一全连接层和第二全连接层,方法包括:
获取当前用户输入的待检测语音语句;
提取所述待检测语音语句对应的语音特征参数;
将所述语音特征参数输入所述关键词检测网络;
判断所述第一全连接层输出的第一概率是否高于预设概率阈值,其中,所述第一概率为所述当前用户身份识别对应的概率;
若是,根据所述第二全连接层输出的第二概率,确定所述待检测语音语句的关键词,其中,所述第二概率为关键词识别对应的概率。
优选地,所述判断所述第一全连接层输出的第一概率是否高于预设概率阈值的步骤,包括:
根据指定计算方式计算所述当前用户为目标用户的概率,其中,所述指定计算方式为P(Su|X)=1-P(Se|X),P(Su|X)表示所述当前用户为所述目标用户的概率,P(Se|X)表示所述当前用户不是所述目标用户的概率;
将所述当前用户为所述目标用户的概率P(Su|X),作为所述第一概率;
判断所述P(Su|X)是否高于预设概率阈值;
若是,则判定所述第一全连接层输出的第一概率高于所述预设概率阈值。
优选地,所述关键词检测网络中所述第一全连接层对应第一任务的输出通道,所述第二全连接层对应第二任务的输出通道,所述获取当前用户输入的待检测语音语句的步骤之前,包括:
将各训练数据分别对应的语音特征参数,输入至所述关键词检测网络中进行训练;
实时获取所述第一任务对应的第一损失函数的函数值,以及所述第二任务对应的第二损失函数的函数值;
根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系,实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重;
判断所述总损失函数是否达到预设条件;
若是,则判定完成对所述关键词检测网络的训练,并固定所述关键词检测网络的参数。
优选地,所述实时获取所述第一任务对应的第一损失函数的函数值,以及所述第二任务对应的第二损失函数的函数值的步骤,包括:
获取所述第一任务对应的sigmoid函数的当前预测值,以及预设的第一真实值,获取所述第二任务对应的softmax函数的当前预测值,以及预设的第二真实值;
根据所述sigmoid函数的当前预测值,以及预设的第一真实值,计算所述第一损失函数值,根据所述softmax函数的当前预测值,以及预设的第二真实值,计算所述第二损失函数值。
优选地,所述根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系,实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重的步骤,包括:
计算所述第一损失函数的函数值和所述第二损失函数的函数值的差值;
判断所述差值是否大于零;
若是,则增大所述第一损失函数在总损失函数中对应的第一损失权重,减小所述第二损失函数在总损失函数中对应的第二损失权重。
优选地,所述判断所述总损失函数是否达到预设条件的步骤之前,包括:
获取当前时刻对应的第一任务的第一训练准确度,以及与所述当前时刻相邻的前一时刻对应的第一任务的第二训练准确度;
根据所述第一训练准确度和所述第二训练准确度,计算所述第一任务当前时刻对应的平均训练精准度;
根据所述平均训练精准度,根据指定函数计算所述第一任务的损失权重,其中,所述指定函数为λj(i)=-(1-kj(i))log(kj(i)),kj(i)表示训练第i轮时第j个任务的平均训练精准度;
根据所述第一任务的损失权重的计算方式,计算所述第二任务的损失权重;
根据所述第一任务的损失权重、所述第一损失函数、所述第二任务的损失权重以及所述第二损失函数,得到所述总损失函数。
优选地,接收所述待检测语音语句的终端为智能设备,所述根据所述第二全连接层输出的第二概率,确定所述待检测语音语句的关键词的步骤之后,包括:
获取所述关键词对应的操控指令信息,其中,所述操控指令信息包括所述操控指令的运行链接;
根据所述运行链接在所述智能设备上运行所述操控指令,得到运行结果;
将所述运行结果反馈至所述智能设备的显示终端。
本申请还提供了一种关键词检测装置,所述装置部署关键词检测网络,所述关键词检测网络包括并行连接的第一全连接层和第二全连接层,装置包括:
第一获取模块,用于获取当前用户输入的待检测语音语句;
提取模块,用于提取所述待检测语音语句对应的语音特征参数;
第一输入模块,用于将所述语音特征参数输入所述关键词检测网络;
第一判断模块,用于判断所述第一全连接层输出的第一概率是否高于预设概率阈值,其中,所述第一概率为所述当前用户身份识别对应的概率;
确定模块,用于若高于预设概率阈值,根据所述第二全连接层输出的第二概率,确定所述待检测语音语句的关键词,其中,所述第二概率为关键词识别对应的概率。
本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。
本申请通过设定两个不同损失函数分别约束不同全连接层对应的任务通道,实现多任务在同一个网络模型中运行,共享计算,从而达到对设备内存要求低、降低计算时间和电池耗电量的效果,满足降低模型计算量和反馈延迟,满足嵌入设备对模型参数量小的要求,适合部署于小型的智能设备上。
附图说明
图1本申请一实施例的关键词检测方法流程示意图;
图2本申请一实施例的关键词检测装置结构示意图;
图3本申请一实施例的计算机设备内部结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例的关键词检测方法,关键词检测网络包括并行连接的第一全连接层和第二全连接层,方法包括:
S1:获取当前用户输入的待检测语音语句;
S2:提取所述待检测语音语句对应的语音特征参数;
S3:将所述语音特征参数输入所述关键词检测网络;
S4:判断所述第一全连接层输出的第一概率是否高于预设概率阈值,其中,所述第一概率为所述当前用户身份识别对应的概率;
S5:若是,根据所述第二全连接层输出的第二概率,确定所述待检测语音语句的关键词,其中,所述第二概率为关键词识别对应的概率。
本申请实施例的关键词检测网络包括依次连接的特征输入层、多层残差结构、卷积层、批标准化层、平均池化层以及并列连接于平均池化层之后的第一全连接层和第二全连接层。上述待检测语音语句经过预加重、分帧、加窗等操作,提取待检测语音语句的MFCC(Mel-frequency Cepstrum Coefficients,梅尔频率倒谱系数)作为语音特征参数。上述的MFCC为40维,帧移10ms,帧长30ms,使用汉明窗加窗分帧,以平滑各帧的边缘信号。上述的多层残差层包括6层,每个残差层中包括两个依次连接的数据处理单元,每个数据处理单元中依次由卷积层连接批标准化层组成,其中卷积层的卷积核为3*3,卷积核个数为45。残差层中军基层使用空洞卷积,以增大感受野,扩张率为
Figure BDA0002832236920000051
因为有6个残差层,每个残差层有两个卷积层,一共12个卷积层,所以l的取值有12个,连在最后一个残差层之后的卷积层的扩张率设置为(16,16)。
本申请通过在平均池化层之后并列连接第一全连接层和第二全连接层,实现两个任务处理通道,第一全连接层对应的第一通道用于第一任务,本申请中通过设定第一通道中的损失函数为sigmoid函数,实现对当前用户是否为目标用户的身份识别;通过设定第二通道中的损失函数为softmax函数,实现对关键词的识别。本申请基于同一套训练数据以及相同的特征处理过程,通过并列连接由两个不同损失函数约束的任务通道,通过设计合理的训练逻辑,控制同时执行两个任务的网络模型的参数小幅增长,达到两个任务可共享计算,两个任务在同一个网络模型中实现。
本申请通过设定两个不同损失函数分别约束不同全连接层对应的任务通道,实现多任务在同一个网络模型中运行,共享计算,从而达到对设备内存要求低、降低计算时间和电池耗电量的效果,满足降低模型计算量和反馈延迟,满足嵌入设备对模型参数量小的要求,适合部署于小型的智能设备上。
进一步地,所述判断所述第一全连接层输出的第一概率是否高于预设概率阈值的步骤S4,包括:
S41:根据指定计算方式计算所述当前用户为目标用户的概率,其中,所述指定计算方式为P(Su|X)=1-P(Se|X),P(Su|X)表示所述当前用户为所述目标用户的概率,P(Se|X)表示所述当前用户不是所述目标用户的概率;
S42:将所述当前用户为所述目标用户的概率P(Su|X),作为所述第一概率;
S43:判断所述P(Su|X)是否高于预设概率阈值;
S44:若是,则判定所述第一全连接层输出的第一概率高于所述预设概率阈值。
本申请实施例为了使关键词检测网络中的深度残差层不仅可以做关键词检测的任务,还可以检测是否是目标用户对应的关键词,额外并列设计了由第一全连接层输出的任务通道,并设定该任务通道的损失函数为sigmoid函数,从而得到条件概率P(Su|X)=1-P(Se|X),P(Su|X)表示当前用户为目标用户的概率,P(Se|X)表示当前用户不是目标用户的概率,负责特征计算的网络部分,包括特征输入层、多层残差结构、卷积层、批标准化层和平均池化层,与关键词识别任务共享参数,减少计算量和内存。上述sigmoid函数输出概率取值为0到1的一个概率值,只有当P(Su|X)高于预设概率阈值的时候,才会被认为是目标用户启动了关键词检测。上述预设概率阈值比如为0.9或以上。
进一步地,所述关键词检测网络中所述第一全连接层对应第一任务的输出通道,所述第二全连接层对应第二任务的输出通道,所述获取当前用户输入的待检测语音语句的步骤S1之前,包括:
S11:将各训练数据分别对应的语音特征参数,输入至所述关键词检测网络中进行训练;
S12:实时获取所述第一任务对应的第一损失函数的函数值,以及所述第二任务对应的第二损失函数的函数值;
S13:根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系,实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重;
S14:判断所述总损失函数是否达到预设条件;
S15:若是,则判定完成对所述关键词检测网络的训练,并固定所述关键词检测网络的参数。
本申请实施例的关键词检测网络为多任务模型,为达到各任务均有较好的预测准确率,在训练过程中通过将两个任务分别对应的损失函数通过设置权重的方式组成总损失函数,约束多任务模型在训练过程中的参数调整。在训练中,为加快总损失函数的收敛,设计了动态调整两个损失权重,以平衡两个任务的训练学习水平,使多任务模型最终学习到的参数对两个任务均有较好的识别准确度。
本申请实施例中将关键词检测任务和目标说话人检测任务分别标记为T1和T2,令T={T1,T2}为所有任务的集合,令λj(i)和Lj(i)分别为在训练第i轮时第j个任务的损失权重和损失函数,则第i轮训练时的总损失函数为:
Figure BDA0002832236920000071
其中|T|代表集合里一共有多少个元素,有多少个元素代表多少个任务。上述预设条件包括各任务的训练精准度达到预设要求,或关键词识别任务和目标说话人检测任务的准确率,不会因彼此的共存而受较大影响。实现证明,当
Figure BDA0002832236920000073
时,当个任务均可精准地执行,且减少计算量。上述
Figure BDA0002832236920000072
时,表示总权重和等于总任务数量2时,各任务分别对应的损失权重均为1。
本申请实施例为提高训练效果,对训练数据进行了数据增广,从而提高关键词检测网络的鲁棒性,数据增广包括但不限于随机的对训练数据进行时间平移、对训练数据进行随机加噪、每轮训练有部分训练数据会重新生成等。
进一步地,所述实时获取所述第一任务对应的第一损失函数的函数值,以及所述第二任务对应的第二损失函数的函数值的步骤S12,包括:
S121:获取所述第一任务对应的sigmoid函数的当前预测值,以及预设的第一真实值,获取所述第二任务对应的softmax函数的当前预测值,以及预设的第二真实值;
S122:根据所述sigmoid函数的当前预测值,以及预设的第一真实值,计算所述第一损失函数值,根据所述softmax函数的当前预测值,以及预设的第二真实值,计算所述第二损失函数值。
本申请实施例中,两个任务同时在一个模型架构上训练,模型架构的参数调整,同时受两个任务分别对应的损失函数的约束。通过实时获取两个任务过程中两个函数的函数值,来确定优先以那个函数约束训练为准。损失函数值表示预测值与真实值之间的差距,从而通过反向传播约束模型架构的参数调整。
进一步地,所述根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系,实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重的步骤S13,包括:
S131:计算所述第一损失函数的函数值和所述第二损失函数的函数值的差值;
S132:判断所述差值是否大于零;
S133:若是,则增大所述第一损失函数在总损失函数中对应的第一损失权重,减小所述第二损失函数在总损失函数中对应的第二损失权重。
本申请实施例中,损失函数值大的任务,认为距离训练目标远,不容易训练,则会加大该任务的损失函数在总损失函数中的损失权重,使当前关键词检测网络的模型架构的参数更偏向于该任务。某一任务的训练准确率越高,其对应的损失权重就越低。通过逐步调整总损失函数的台阶式递进方式,获取最终两个任务均能较好执行的参数。
进一步地,所述判断所述总损失函数是否达到预设条件的步骤S14之前,包括:
S141:获取当前时刻对应的第一任务的第一训练准确度,以及与所述当前时刻相邻的前一时刻对应的第一任务的第二训练准确度;
S142:根据所述第一训练准确度和所述第二训练准确度,计算所述第一任务当前时刻对应的平均训练精准度;
S143:根据所述平均训练精准度,根据指定函数计算所述第一任务的损失权重,其中,所述指定函数为λj(i)=-(1-kj(i))log(kj(i)),kj(i)表示训练第i轮时第j个任务的平均训练精准度;
S144:根据所述第一任务的损失权重的计算方式,计算所述第二任务的损失权重;
S145:根据所述第一任务的损失权重、所述第一损失函数、所述第二任务的损失权重以及所述第二损失函数,得到所述总损失函数。
本申请实施例中,每个损失函数的损失权重跟各自任务的训练准确率相关,损失权重表示为λj(i)=-(1-kj(i))log(kj(i)),其中kj(i)是通过滑动平均得到的平均训练准确率。上述的滑动平均指当前时刻的训练准确率等于当前时刻的训练准确率和上一时刻的训练准确率做加权平均,比如为X(t)=alpha*X(t-1)+(1-alpha)*X(t),其中,X(t)表示当前时刻的训练准确率,X(t-1)表示当前时刻的上一时刻的训练准确率,alpha表示加权权重。
本申请实施例为方便调控第一损失函数和第二损失函数的损失权重的调控幅度,对上述两个由各自训练准确率得到的损失权重进行了归一化处理,使总损失函数中两个损失函数的损失权重的加和等于任务总数量,即使得
Figure BDA0002832236920000091
成立。本申请实施例中,即使两个损失函数的损失权重的加和等于2。
进一步地,接收所述待检测语音语句的终端为智能设备,所述根据所述第二全连接层输出的第二概率,确定所述待检测语音语句的关键词的步骤S5之后,包括:
S6:获取所述关键词对应的操控指令信息,其中,所述操控指令信息包括所述操控指令的运行链接;
S7:根据所述运行链接在所述智能设备上运行所述操控指令,得到运行结果;
S8:将所述运行结果反馈至所述智能设备的显示终端。
本申请实施例以将关键词检测网络部署于智能设备,识别特定人的语音指令为例,上述智能设备包括但不限于智能手机、智能音响、智能电脑、智能扫地机等小型的人工交互设备。通过同时识别目标人身份以及目标人发起的语音指令中的关键词,实现只对特定人关键词识别以及指令指示的实现。
参照图2,本申请一实施例的关键词检测装置,所述装置部署关键词检测网络,所述关键词检测网络包括并行连接的第一全连接层和第二全连接层,装置包括:
第一获取模块1,用于获取当前用户输入的待检测语音语句;
提取模块2,用于提取所述待检测语音语句对应的语音特征参数;
第一输入模块3,用于将所述语音特征参数输入所述关键词检测网络;
第一判断模块4,用于判断所述第一全连接层输出的第一概率是否高于预设概率阈值,其中,所述第一概率为所述当前用户身份识别对应的概率;
确定模块5,用于若高于预设概率阈值,根据所述第二全连接层输出的第二概率,确定所述待检测语音语句的关键词,其中,所述第二概率为关键词识别对应的概率。
本申请装置实施例的解释,适用方法对应部分的解释,不赘述。
进一步地,判断模块4,包括:
第一计算单元,用于根据指定计算方式计算所述当前用户为目标用户的概率,其中,所述指定计算方式为P(Su|X)=1-P(Se|X),P(Su|X)表示所述当前用户为所述目标用户的概率,P(Se|X)表示所述当前用户不是所述目标用户的概率;
作为单元,用于将所述当前用户为所述目标用户的概率P(Su|X),作为所述第一概率;
第一判断单元,用于判断所述P(Su|X)是否高于预设概率阈值;
判定单元,用于若高于预设概率阈值,则判定所述第一全连接层输出的第一概率高于所述预设概率阈值。
进一步地,所述关键词检测网络中所述第一全连接层对应第一任务的输出通道,所述第二全连接层对应第二任务的输出通道,关键词检测装置,包括:
第二输入模块,用于将各训练数据分别对应的语音特征参数,输入至所述关键词检测网络中进行训练;
第二获取模块,用于实时获取所述第一任务对应的第一损失函数的函数值,以及所述第二任务对应的第二损失函数的函数值;
调整模块,用于根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系,实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重;
第二判断模块,用于判断所述总损失函数是否达到预设条件;
判定模块,用于若达到预设条件,则判定完成对所述关键词检测网络的训练,并固定所述关键词检测网络的参数。
进一步地,第二获取模块,包括:
获取单元,用于获取所述第一任务对应的sigmoid函数的当前预测值,以及预设的第一真实值,获取所述第二任务对应的softmax函数的当前预测值,以及预设的第二真实值;
第二计算单元,用于根据所述sigmoid函数的当前预测值,以及预设的第一真实值,计算所述第一损失函数值,根据所述softmax函数的当前预测值,以及预设的第二真实值,计算所述第二损失函数值。
进一步地,调整模块,包括:
第三计算单元,用于计算所述第一损失函数的函数值和所述第二损失函数的函数值的差值;
第二判断单元,用于判断所述差值是否大于零;
增大单元,用于若大于零,则增大所述第一损失函数在总损失函数中对应的第一损失权重,减小所述第二损失函数在总损失函数中对应的第二损失权重。
进一步地,关键词检测装置,包括:
第三获取模块,用于获取当前时刻对应的第一任务的第一训练准确度,以及与所述当前时刻相邻的前一时刻对应的第一任务的第二训练准确度;
第一计算模块,用于根据所述第一训练准确度和所述第二训练准确度,计算所述第一任务当前时刻对应的平均训练精准度;
第二计算模块,用于根据所述平均训练精准度,根据指定函数计算所述第一任务的损失权重,其中,所述指定函数为λj(i)=-(1-kj(i))log(kj(i)),kj(i)表示训练第i轮时第j个任务的平均训练精准度;
第三计算模块,用于根据所述第一任务的损失权重的计算方式,计算所述第二任务的损失权重;
得到模块,用于根据所述第一任务的损失权重、所述第一损失函数、所述第二任务的损失权重以及所述第二损失函数,得到所述总损失函数。
进一步地,接收所述待检测语音语句的终端为智能设备,关键词检测装置,包括:
第四获取模块,用于获取所述关键词对应的操控指令信息,其中,所述操控指令信息包括所述操控指令的运行链接;
运行模块,用于根据所述运行链接在所述智能设备上运行所述操控指令,得到运行结果;
反馈模块,用于将所述运行结果反馈至所述智能设备的显示终端。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储关键词检测过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现关键词检测方法。
上述处理器执行上述关键词检测方法,关键词检测网络包括并行连接的第一全连接层和第二全连接层,方法包括:获取当前用户输入的待检测语音语句;提取所述待检测语音语句对应的语音特征参数;将所述语音特征参数输入所述关键词检测网络;判断所述第一全连接层输出的第一概率是否高于预设概率阈值,其中,所述第一概率为所述当前用户身份识别对应的概率;若是,根据所述第二全连接层输出的第二概率,确定所述待检测语音语句的关键词,其中,所述第二概率为关键词识别对应的概率。
上述计算机设备,通过设定两个不同损失函数分别约束不同全连接层对应的任务通道,实现多任务在同一个网络模型中运行,共享计算,从而达到对设备内存要求低、降低计算时间和电池耗电量的效果,满足降低模型计算量和反馈延迟,满足嵌入设备对模型参数量小的要求,适合部署于小型的智能设备上。
在一个实施例中,上述处理器判断所述第一全连接层输出的第一概率是否高于预设概率阈值的步骤,包括:根据指定计算方式计算所述当前用户为目标用户的概率,其中,所述指定计算方式为P(Su|X)=1-P(Se|X),P(Su|X)表示所述当前用户为所述目标用户的概率,P(Se|X)表示所述当前用户不是所述目标用户的概率;将所述当前用户为所述目标用户的概率P(Su|X),作为所述第一概率;判断所述P(Su|X)是否高于预设概率阈值;若是,则判定所述第一全连接层输出的第一概率高于所述预设概率阈值。
在一个实施例中,所述关键词检测网络中所述第一全连接层对应第一任务的输出通道,所述第二全连接层对应第二任务的输出通道,上述处理器获取当前用户输入的待检测语音语句的步骤之前,包括:将各训练数据分别对应的语音特征参数,输入至所述关键词检测网络中进行训练;实时获取所述第一任务对应的第一损失函数的函数值,以及所述第二任务对应的第二损失函数的函数值;根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系,实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重;判断所述总损失函数是否达到预设条件;若是,则判定完成对所述关键词检测网络的训练,并固定所述关键词检测网络的参数。
在一个实施例中,上述处理器实时获取所述第一任务对应的第一损失函数的函数值,以及所述第二任务对应的第二损失函数的函数值的步骤,包括:获取所述第一任务对应的sigmoid函数的当前预测值,以及预设的第一真实值,获取所述第二任务对应的softmax函数的当前预测值,以及预设的第二真实值;根据所述sigmoid函数的当前预测值,以及预设的第一真实值,计算所述第一损失函数值,根据所述softmax函数的当前预测值,以及预设的第二真实值,计算所述第二损失函数值。
在一个实施例中,上述处理器根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系,实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重的步骤,包括:计算所述第一损失函数的函数值和所述第二损失函数的函数值的差值;判断所述差值是否大于零;若是,则增大所述第一损失函数在总损失函数中对应的第一损失权重,减小所述第二损失函数在总损失函数中对应的第二损失权重。
在一个实施例中,上述处理器判断所述总损失函数是否达到预设条件的步骤之前,包括:获取当前时刻对应的第一任务的第一训练准确度,以及与所述当前时刻相邻的前一时刻对应的第一任务的第二训练准确度;根据所述第一训练准确度和所述第二训练准确度,计算所述第一任务当前时刻对应的平均训练精准度;根据所述平均训练精准度,根据指定函数计算所述第一任务的损失权重,其中,所述指定函数为λj(i)=-(1-kj(i))log(kj(i)),kj(i)表示训练第i轮时第j个任务的平均训练精准度;根据所述第一任务的损失权重的计算方式,计算所述第二任务的损失权重;根据所述第一任务的损失权重、所述第一损失函数、所述第二任务的损失权重以及所述第二损失函数,得到所述总损失函数。
在一个实施例中,接收所述待检测语音语句的终端为智能设备,上述处理器根据所述第二全连接层输出的第二概率,确定所述待检测语音语句的关键词的步骤之后,包括:获取所述关键词对应的操控指令信息,其中,所述操控指令信息包括所述操控指令的运行链接;根据所述运行链接在所述智能设备上运行所述操控指令,得到运行结果;将所述运行结果反馈至所述智能设备的显示终端。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现关键词检测方法,关键词检测网络包括并行连接的第一全连接层和第二全连接层,方法包括:获取当前用户输入的待检测语音语句;提取所述待检测语音语句对应的语音特征参数;将所述语音特征参数输入所述关键词检测网络;判断所述第一全连接层输出的第一概率是否高于预设概率阈值,其中,所述第一概率为所述当前用户身份识别对应的概率;若是,根据所述第二全连接层输出的第二概率,确定所述待检测语音语句的关键词,其中,所述第二概率为关键词识别对应的概率。
上述计算机可读存储介质,通过设定两个不同损失函数分别约束不同全连接层对应的任务通道,实现多任务在同一个网络模型中运行,共享计算,从而达到对设备内存要求低、降低计算时间和电池耗电量的效果,满足降低模型计算量和反馈延迟,满足嵌入设备对模型参数量小的要求,适合部署于小型的智能设备上。
在一个实施例中,上述处理器判断所述第一全连接层输出的第一概率是否高于预设概率阈值的步骤,包括:根据指定计算方式计算所述当前用户为目标用户的概率,其中,所述指定计算方式为P(Su|X)=1-P(Se|X),P(Su|X)表示所述当前用户为所述目标用户的概率,P(Se|X)表示所述当前用户不是所述目标用户的概率;将所述当前用户为所述目标用户的概率P(Su|X),作为所述第一概率;判断所述P(Su|X)是否高于预设概率阈值;若是,则判定所述第一全连接层输出的第一概率高于所述预设概率阈值。
在一个实施例中,所述关键词检测网络中所述第一全连接层对应第一任务的输出通道,所述第二全连接层对应第二任务的输出通道,上述处理器获取当前用户输入的待检测语音语句的步骤之前,包括:将各训练数据分别对应的语音特征参数,输入至所述关键词检测网络中进行训练;实时获取所述第一任务对应的第一损失函数的函数值,以及所述第二任务对应的第二损失函数的函数值;根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系,实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重;判断所述总损失函数是否达到预设条件;若是,则判定完成对所述关键词检测网络的训练,并固定关键词检测网络的参数。
在一个实施例中,上述处理器实时获取所述第一任务对应的第一损失函数的函数值,以及所述第二任务对应的第二损失函数的函数值的步骤,包括:获取所述第一任务对应的sigmoid函数的当前预测值,以及预设的第一真实值,获取所述第二任务对应的softmax函数的当前预测值,以及预设的第二真实值;根据所述sigmoid函数的当前预测值,以及预设的第一真实值,计算所述第一损失函数值,根据所述softmax函数的当前预测值,以及预设的第二真实值,计算所述第二损失函数值。
在一个实施例中,上述处理器根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系,实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重的步骤,包括:计算所述第一损失函数的函数值和所述第二损失函数的函数值的差值;判断所述差值是否大于零;若是,则增大所述第一损失函数在总损失函数中对应的第一损失权重,减小所述第二损失函数在总损失函数中对应的第二损失权重。
在一个实施例中,上述处理器判断所述总损失函数是否达到预设条件的步骤之前,包括:获取当前时刻对应的第一任务的第一训练准确度,以及与所述当前时刻相邻的前一时刻对应的第一任务的第二训练准确度;根据所述第一训练准确度和所述第二训练准确度,计算所述第一任务当前时刻对应的平均训练精准度;根据所述平均训练精准度,根据指定函数计算所述第一任务的损失权重,其中,所述指定函数为λj(i)=-(1-kj(i))log(kj(i)),kj(i)表示训练第i轮时第j个任务的平均训练精准度;根据所述第一任务的损失权重的计算方式,计算所述第二任务的损失权重;根据所述第一任务的损失权重、所述第一损失函数、所述第二任务的损失权重以及所述第二损失函数,得到所述总损失函数。
在一个实施例中,接收所述待检测语音语句的终端为智能设备,上述处理器根据所述第二全连接层输出的第二概率,确定所述待检测语音语句的关键词的步骤之后,包括:获取所述关键词对应的操控指令信息,其中,所述操控指令信息包括所述操控指令的运行链接;根据所述运行链接在所述智能设备上运行所述操控指令,得到运行结果;将所述运行结果反馈至所述智能设备的显示终端。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种关键词检测方法,其特征在于,关键词检测网络包括并行连接的第一全连接层和第二全连接层,方法包括:
获取当前用户输入的待检测语音语句;
提取所述待检测语音语句对应的语音特征参数;
将所述语音特征参数输入所述关键词检测网络;
判断所述第一全连接层输出的第一概率是否高于预设概率阈值,其中,所述第一概率为所述当前用户身份识别对应的概率;
若是,根据所述第二全连接层输出的第二概率,确定所述待检测语音语句的关键词,其中,所述第二概率为关键词识别对应的概率。
2.根据权利要求1所述的关键词检测方法,其特征在于,所述判断所述第一全连接层输出的第一概率是否高于预设概率阈值的步骤,包括:
根据指定计算方式计算所述当前用户为目标用户的概率,其中,所述指定计算方式为P(Su|X)=1-P(Se|X),P(Su|X)表示所述当前用户为所述目标用户的概率,P(Se|X)表示所述当前用户不是所述目标用户的概率;
将所述当前用户为所述目标用户的概率P(Su|X),作为所述第一概率;
判断所述P(Su|X)是否高于预设概率阈值;
若是,则判定所述第一全连接层输出的第一概率高于所述预设概率阈值。
3.根据权利要求1所述的关键词检测方法,其特征在于,所述关键词检测网络中所述第一全连接层对应第一任务的输出通道,所述第二全连接层对应第二任务的输出通道,所述获取当前用户输入的待检测语音语句的步骤之前,包括:
将各训练数据分别对应的语音特征参数,输入至所述关键词检测网络中进行训练;
实时获取所述第一任务对应的第一损失函数的函数值,以及所述第二任务对应的第二损失函数的函数值;
根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系,实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重;
判断所述总损失函数是否达到预设条件;
若是,则判定完成对所述关键词检测网络的训练,并固定所述关键词检测网络的参数。
4.根据权利要求3所述的关键词检测方法,其特征在于,所述实时获取所述第一任务对应的第一损失函数的函数值,以及所述第二任务对应的第二损失函数的函数值的步骤,包括:
获取所述第一任务对应的sigmoid函数的当前预测值,以及预设的第一真实值,获取所述第二任务对应的softmax函数的当前预测值,以及预设的第二真实值;
根据所述sigmoid函数的当前预测值,以及预设的第一真实值,计算所述第一损失函数值,根据所述softmax函数的当前预测值,以及预设的第二真实值,计算所述第二损失函数值。
5.根据权利要求3所述的关键词检测方法,其特征在于,所述根据所述第一损失函数的函数值和所述第二损失函数的函数值的数值关系,实时调整所述第一损失函数和所述第二损失函数在总损失函数中分别对应的损失权重的步骤,包括:
计算所述第一损失函数的函数值和所述第二损失函数的函数值的差值;
判断所述差值是否大于零;
若是,则增大所述第一损失函数在总损失函数中对应的第一损失权重,减小所述第二损失函数在总损失函数中对应的第二损失权重。
6.根据权利要求5所述的关键词检测方法,其特征在于,所述判断所述总损失函数是否达到预设条件的步骤之前,包括:
获取当前时刻对应的第一任务的第一训练准确度,以及与所述当前时刻相邻的前一时刻对应的第一任务的第二训练准确度;
根据所述第一训练准确度和所述第二训练准确度,计算所述第一任务当前时刻对应的平均训练精准度;
根据所述平均训练精准度,根据指定函数计算所述第一任务的损失权重,其中,所述指定函数为λj(i)=-(1-kj(i))log(kj(i)),kj(i)表示训练第i轮时第j个任务的平均训练精准度;
根据所述第一任务的损失权重的计算方式,计算所述第二任务的损失权重;
根据所述第一任务的损失权重、所述第一损失函数、所述第二任务的损失权重以及所述第二损失函数,得到所述总损失函数。
7.根据权利要求1所述的关键词检测方法,其特征在于,接收所述待检测语音语句的终端为智能设备,所述根据所述第二全连接层输出的第二概率,确定所述待检测语音语句的关键词的步骤之后,包括:
获取所述关键词对应的操控指令信息,其中,所述操控指令信息包括所述操控指令的运行链接;
根据所述运行链接在所述智能设备上运行所述操控指令,得到运行结果;
将所述运行结果反馈至所述智能设备的显示终端。
8.一种关键词检测装置,其特征在于,所述装置部署关键词检测网络,所述关键词检测网络包括并行连接的第一全连接层和第二全连接层,装置包括:
第一获取模块,用于获取当前用户输入的待检测语音语句;
提取模块,用于提取所述待检测语音语句对应的语音特征参数;
第一输入模块,用于将所述语音特征参数输入所述关键词检测网络;
第一判断模块,用于判断所述第一全连接层输出的第一概率是否高于预设概率阈值,其中,所述第一概率为所述当前用户身份识别对应的概率;
确定模块,用于若高于预设概率阈值,根据所述第二全连接层输出的第二概率,确定所述待检测语音语句的关键词,其中,所述第二概率为关键词识别对应的概率。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202011462771.4A 2020-12-11 2020-12-11 关键词检测方法、装置、设备和存储介质 Active CN112634870B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011462771.4A CN112634870B (zh) 2020-12-11 2020-12-11 关键词检测方法、装置、设备和存储介质
PCT/CN2021/084545 WO2022121188A1 (zh) 2020-12-11 2021-03-31 关键词检测方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011462771.4A CN112634870B (zh) 2020-12-11 2020-12-11 关键词检测方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN112634870A true CN112634870A (zh) 2021-04-09
CN112634870B CN112634870B (zh) 2023-05-30

Family

ID=75312406

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011462771.4A Active CN112634870B (zh) 2020-12-11 2020-12-11 关键词检测方法、装置、设备和存储介质

Country Status (2)

Country Link
CN (1) CN112634870B (zh)
WO (1) WO2022121188A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408718A (zh) * 2021-06-07 2021-09-17 厦门美图之家科技有限公司 设备处理器选择方法、系统、终端设备及存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116805253B (zh) * 2023-08-18 2023-11-24 腾讯科技(深圳)有限公司 干预增益预测方法、装置、存储介质及计算机设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010267012A (ja) * 2009-05-13 2010-11-25 Hitachi Ltd 音声データ検索システム及び音声データ検索方法
US20170148429A1 (en) * 2015-11-24 2017-05-25 Fujitsu Limited Keyword detector and keyword detection method
CN108305617A (zh) * 2018-01-31 2018-07-20 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
CN110767214A (zh) * 2018-07-27 2020-02-07 杭州海康威视数字技术股份有限公司 语音识别方法及其装置和语音识别系统
CN111223489A (zh) * 2019-12-20 2020-06-02 厦门快商通科技股份有限公司 一种基于Attention注意力机制的特定关键词识别方法及系统
CN111276125A (zh) * 2020-02-11 2020-06-12 华南师范大学 一种面向边缘计算的轻量级语音关键词识别方法
CN111429912A (zh) * 2020-03-17 2020-07-17 厦门快商通科技股份有限公司 关键词检测方法、系统、移动终端及存储介质
CN111798840A (zh) * 2020-07-16 2020-10-20 中移在线服务有限公司 语音关键词识别方法和装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10147442B1 (en) * 2015-09-29 2018-12-04 Amazon Technologies, Inc. Robust neural network acoustic model with side task prediction of reference signals
CN110246490B (zh) * 2019-06-26 2022-04-19 合肥讯飞数码科技有限公司 语音关键词检测方法及相关装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010267012A (ja) * 2009-05-13 2010-11-25 Hitachi Ltd 音声データ検索システム及び音声データ検索方法
US20170148429A1 (en) * 2015-11-24 2017-05-25 Fujitsu Limited Keyword detector and keyword detection method
CN108305617A (zh) * 2018-01-31 2018-07-20 腾讯科技(深圳)有限公司 语音关键词的识别方法和装置
CN110767214A (zh) * 2018-07-27 2020-02-07 杭州海康威视数字技术股份有限公司 语音识别方法及其装置和语音识别系统
CN111223489A (zh) * 2019-12-20 2020-06-02 厦门快商通科技股份有限公司 一种基于Attention注意力机制的特定关键词识别方法及系统
CN111276125A (zh) * 2020-02-11 2020-06-12 华南师范大学 一种面向边缘计算的轻量级语音关键词识别方法
CN111429912A (zh) * 2020-03-17 2020-07-17 厦门快商通科技股份有限公司 关键词检测方法、系统、移动终端及存储介质
CN111798840A (zh) * 2020-07-16 2020-10-20 中移在线服务有限公司 语音关键词识别方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113408718A (zh) * 2021-06-07 2021-09-17 厦门美图之家科技有限公司 设备处理器选择方法、系统、终端设备及存储介质
CN113408718B (zh) * 2021-06-07 2024-05-31 厦门美图之家科技有限公司 设备处理器选择方法、系统、终端设备及存储介质

Also Published As

Publication number Publication date
WO2022121188A1 (zh) 2022-06-16
CN112634870B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN108305617B (zh) 语音关键词的识别方法和装置
CN111028827B (zh) 基于情绪识别的交互处理方法、装置、设备和存储介质
CN111276131B (zh) 一种基于深度神经网络的多类声学特征整合方法和系统
US20200321008A1 (en) Voiceprint recognition method and device based on memory bottleneck feature
KR102072782B1 (ko) 심층 신경망을 사용한 단-대-단 화자 인식
US8930196B2 (en) System for detecting speech interval and recognizing continuous speech in a noisy environment through real-time recognition of call commands
WO2019179285A1 (zh) 语音识别方法、装置、设备及存储介质
CN112233651B (zh) 方言类型的确定方法、装置、设备及存储介质
CN111429923B (zh) 说话人信息提取模型的训练方法、装置和计算机设备
CN112634870B (zh) 关键词检测方法、装置、设备和存储介质
CN112509560B (zh) 一种基于缓存语言模型的语音识别自适应方法和系统
CN113628612A (zh) 语音识别方法、装置、电子设备及计算机可读存储介质
CN117037789B (zh) 一种客服语音识别方法、装置、计算机设备及存储介质
Li et al. A Convolutional Neural Network with Non-Local Module for Speech Enhancement.
CN112669836B (zh) 命令的识别方法、装置及计算机可读存储介质
CN114913860A (zh) 声纹识别方法、装置、计算机设备、存储介质及程序产品
CN114756662A (zh) 基于多模态输入的任务特定文本生成
CN114822504A (zh) 基于人工智能的语音识别方法、装置、设备和存储介质
CN114398487A (zh) 线上会话的参考信息输出方法、装置、设备及存储介质
CN115273832B (zh) 唤醒优化模型的训练方法、唤醒优化的方法和相关设备
CN113096646A (zh) 音频识别方法、装置、电子设备及存储介质
CN113345464B (zh) 语音提取方法、系统、设备及存储介质
WO2022049613A1 (ja) 情報処理装置、推定方法、及び推定プログラム
CN115101055A (zh) 语音情绪识别模型训练方法、装置、计算机设备及介质
CN116386628A (zh) 基于人工智能的口音语音识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant