CN116543758B - 语音唤醒模型的更新方法、系统和介质 - Google Patents
语音唤醒模型的更新方法、系统和介质 Download PDFInfo
- Publication number
- CN116543758B CN116543758B CN202310762127.6A CN202310762127A CN116543758B CN 116543758 B CN116543758 B CN 116543758B CN 202310762127 A CN202310762127 A CN 202310762127A CN 116543758 B CN116543758 B CN 116543758B
- Authority
- CN
- China
- Prior art keywords
- model
- private
- database
- computing node
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000012360 testing method Methods 0.000 claims abstract description 119
- 238000012549 training Methods 0.000 claims abstract description 37
- 238000013523 data management Methods 0.000 claims description 46
- 238000004590 computer program Methods 0.000 claims description 16
- 230000004044 response Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000007613 environmental effect Effects 0.000 claims description 5
- 239000004973 liquid crystal related substance Substances 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 13
- 230000004927 fusion Effects 0.000 abstract description 13
- 230000003993 interaction Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 238000013136 deep learning model Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011056 performance test Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种语音唤醒模型的更新方法、系统和介质。该方法包括:获取计算节点集合中每个计算节点对应的私有模型和测试数据库;其中,所有计算节点位于同一个区域内;按照预设融合算法对私有模型进行融合,得到对应的目标增强模型;将测试数据库中的测试数据分别输入至每个私有模型和目标增强模型,得到对应的第一实际唤醒准确率和第二实际唤醒准确率;基于第一实际唤醒准确率、第二实际唤醒准确率和唤醒准确率差值阈值对每个计算节点的私有模型进行更新。本发明实现了通过处于同一个区域内的多个计算节点对自身实际工况下创建的私有数据库进行共享,并采用这些数据对基础模型进行增量训练,从而提升了在噪声环境下语音唤醒的准确率和稳定性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种语音唤醒模型的更新方法、系统和介质。
背景技术
随着人工智能技术的发展,语音交互也广泛地应用到各种场景。智能语音唤醒系统是语音交互的第一环节,直接影响到整个语音交互系统的使用体验。目前,语音唤醒系统普遍采用基于神经网络的关键词检测解决方案,通过构建实际场景的训练数据训练神经网络模型,以保证用户实际使用中的效果。
座舱语音交互作为智能语音的一个重要应用场景,其工作环境不同于手机和电视等消费类产品的使用环境,具有声学环境动态变化、噪声干扰大、多人和中远场的特点。座舱语音环境对语音唤醒算法的稳定性具有更高的要求,既要保证市区行驶场景下的唤醒准确率,也要保证高速、开窗等高噪场景下的唤醒准确率。
现有技术中直接通过干净语音和纯噪声音频合成得到带噪语音数据,训练样本的声学特性与模型实际部署场景的声学特性有较大差异,对唤醒模型抗噪能力的提升有限,特别是座舱语音场景。座舱声学环境具有很高的动态范围,车辆静止和车辆高速行驶状态的噪声等级相差10分贝以上,上述方案难以适配,经常出现车辆静止时误唤醒增多或车辆高速行驶时难唤醒的问题。
发明内容
本发明提供了一种语音唤醒模型的更新方法、系统和介质,以解决现有技术中直接采用干净语音和纯噪声音频合成得到的带噪语音数据,对唤醒模型进行训练,所导致的车辆静止时误唤醒增多或车辆高速行驶时难唤醒的技术问题。
根据本发明的一方面,提供了一种语音唤醒模型的更新方法,应用于数据管理平台,包括:
获取计算节点集合中每个计算节点对应的私有模型和测试数据库;其中,所述计算节点集合中的所有计算节点位于同一个区域内;其中,所述每个计算节点对应的私有模型和测试数据库由所述计算节点集合中其它计算节点共享的用户语音数据和自身的用户语音数据输入至预先创建的基础模型得到;
按照预设融合算法对所述私有模型进行融合,得到对应的目标增强模型;
将所述测试数据库中的测试数据分别输入至每个所述私有模型和所述目标增强模型,得到对应的第一实际唤醒准确率和第二实际唤醒准确率;
基于所述第一实际唤醒准确率、所述第二实际唤醒准确率和预先配置的唤醒准确率差值阈值对每个所述计算节点的私有模型进行更新。
根据本发明的另一方面,提供了一种语音唤醒模型的更新方法,应用于计算节点,包括:
接收数据管理平台发送的计算节点集合中每个计算节点共享的用户语音数据;
将所述共享的用户语音数据和自身的用户语音数据输入至预先创建的基础模型,得到对应的私有模型和测试数据库;
将所述私有模型和所述测试数据库上报至所述数据管理平台,以使所述数据管理平台基于所述私有模型得到对应的目标增强模型,以及基于所述测试数据库中的测试数据得到对应的第一实际唤醒准确率和第二实际唤醒准确率;
响应于所述第一实际唤醒准确率和所述第二实际唤醒准确率之间差值的绝对值大于预先配置的唤醒准确率差值阈值,接收所述数据管理平台下发的目标增强模型,并基于所述目标增强模型对所述私有模型进行更新。
根据本发明的另一方面,提供了一种语音唤醒模型的更新装置,应用于数据管理平台,包括:
第一获取模块,用于获取计算节点集合中每个计算节点对应的私有模型和测试数据库;其中,所述计算节点集合中的所有计算节点位于同一个区域内;其中,所述每个计算节点对应的私有模型和测试数据库由所述计算节点集合中其它计算节点共享的用户语音数据和自身的用户语音数据输入至预先创建的基础模型得到;
融合模块,用于按照预设融合算法对所述私有模型进行融合,得到对应的目标增强模型;
第一确定模块,用于将所述测试数据库中的测试数据分别输入至每个所述私有模型和所述目标增强模型,得到对应的第一实际唤醒准确率和第二实际唤醒准确率;
更新模块,用于基于所述第一实际唤醒准确率、所述第二实际唤醒准确率和预先配置的唤醒准确率差值阈值对每个所述计算节点的私有模型进行更新。
根据本发明的另一方面,提供了一种语音唤醒模型的更新装置,应用于计算节点,包括:
接收模块,用于接收数据管理平台发送的计算节点集合中每个计算节点共享的用户语音数据;
第一确定模块,用于将所述共享的用户语音数据和自身的用户语音数据输入至预先创建的基础模型,得到对应的私有模型和测试数据库;
第二确定模块,用于将所述私有模型和所述测试数据库上报至所述数据管理平台,以使所述数据管理平台基于所述私有模型得到对应的目标增强模型,以及基于所述测试数据库中的测试数据得到对应的第一实际唤醒准确率和第二实际唤醒准确率;
更新模块,用于响应于所述第一实际唤醒准确率和所述第二实际唤醒准确率之间差值的绝对值大于预先配置的唤醒准确率差值阈值,接收所述数据管理平台下发的目标增强模型,并基于所述目标增强模型对所述私有模型进行更新。
根据本发明的另一方面,提供了一种语音唤醒模型的更新系统,所述语音唤醒模型的更新系统包括:数据管理平台和计算节点;其中,所述数据管理平台和所述计算节点均包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的语音唤醒模型的更新方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的语音唤醒模型的更新方法。
本发明实施例的技术方案,通过每个计算节点根据处于同一个区域内其它计算节点共享的私有数据库、自身的私有数据库和预先创建的基础模型,得到对应的私有模型和测试数据库,然后按照预设融合算法对所有私有模型进行融合,得到对应的目标增强模型,然后将测试数据库中的测试数据分别输入至每个私有模型得到对应的第一实际唤醒准确率,以及输入至目标增强模型得到对应的第二实际唤醒准确率,并基于第一实际唤醒准确率、第二实际唤醒准确率和预先配置的唤醒准确率差值阈值对每个计算节点的私有模型进行更新,解决了现有技术中直接采用干净语音和纯噪声音频合成得到的带噪语音数据对唤醒模型进行训练,所导致的车辆静止时误唤醒增多或车辆高速行驶时难唤醒的技术问题,实现了通过处于同一个区域内的多个计算节点对自身实际工况下创建的私有数据库进行共享,并采用这些数据对基础模型进行增量训练,从而提升了在噪声环境下语音唤醒的准确率和稳定性。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音唤醒模型的更新方法的流程图;
图2是本发明实施例提供的另一种语音唤醒模型的更新方法的流程图;
图3是本发明实施例提供的又一种语音唤醒模型的更新方法的流程图;
图4是本发明实施例提供的再一种语音唤醒模型的更新方法的流程图;
图5是本发明实施例提供的一种语音唤醒模型的更新装置的结构示意图;
图6是本发明实施例提供的一种语音唤醒模型的更新装置的结构示意图;
图7是本发明实施例提供的一种电子设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“初始”、“目标”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在一实施例中,图1是本发明实施例提供的一种语音唤醒模型的更新方法的流程图,本实施例可适用于对噪声环境下的语音唤醒模型进行迭代训练和更新的情况,该方法可以由语音唤醒模型的更新装置来执行,该语音唤醒模型的更新装置可以采用硬件和/或软件的形式实现,该语音唤醒模型的更新装置可配置于数据管理平台中。其中,数据管理平台可以理解为云平台,用于对多个计算节点的数据进行存储和处理。如图1所示,该方法包括:
S110、获取计算节点集合中每个计算节点对应的私有模型和测试数据库。
其中,计算节点集合中的所有计算节点位于同一个区域内;其中,每个计算节点对应的私有模型和测试数据库由计算节点集合中其它计算节点共享的私有数据库、自身的私有数据库和预先创建的基础模型得到。在实施例中,计算节点集合中至少包括两个计算节点,并且,计算节点集合中的每个计算节点具有相似的语音环境服务的使用环境,即唤醒系统输入语音中所包含干扰噪声的相似度较高。
在实施例中,私有模型由每个计算节点在基础模型的基础上进行个性化训练得到;基础模型为语音唤醒深度学习模型,并基于公有数据库训练得到;测试数据库包含计算节点用于对私有模型的语音唤醒性能进行测试的所有数据。每个计算节点所对应的私有模型是不同的,即计算节点与私有模型一一对应。并且,每个计算节点所对应的测试数据库也是不同的,即计算节点与测试数据库一一对应。
在实施例中,每个计算节点对应的私有模型和测试数据库是由自身确定的,即每个计算通过将计算节点集合中其它计算节点共享的私有数据库和自身的私有数据库和预先创建的基础模型,得到对应的私有模型和测试数据库;然后将私有模型和测试数据库上报至数据管理平台。
S120、按照预设融合算法对私有模型进行融合,得到对应的目标增强模型。
在一实施例中,S120包括:S1201-S1202:
S1201、根据每个计算节点所对应测试数据库包含的数据量确定对应计算节点的权重系数。
在实施例中,测试数据库包含数据量的大小可以采用所包含音频数据所对应音频时长进行表征。可以理解为,每个计算节点所对应测试数据库包含的数据量大小与所包含音频数据所对应音频时长成正比。
需要说明的是,计算节点集合中所有计算节点所对应权重系数的总和为1。在实施例中,获取每个计算节点所对应测试数据库包含音频数据所对应音频时长,并对每个计算节点对应的音频时长进行相加,得到计算集合中所有计算节点的音频总时长;然后将每个计算节点对应的音频时长和音频总时长之间的比值作为对应计算节点的权重系数。
S1202、按照每个计算节点所对应私有模型的模型权重和对应的权重系数确定对应的目标增强模型。
在实施例中,私有模型的模型权重可以用于表征模型的泛化能力的强弱。示例性地,语音唤醒模型可以为一个深度学习模型,即私有模型为在一个初始的深度学习模型的基础上进行迭代训练得到的一个模型。在实施例中,计算节点集合中每个计算节点所对应私有模型的模型权重可以是不相同的。在实施例中,对计算节点集合中每个计算节点所对应私有模型的模型权重进行加权求和,即计算每个私有模型的模型权重和对应计算节点的权重系数的乘积值,作为权重乘积值,然后将计算节点集合中所有计算节点对应的权重乘积值相加,得到加权求和后的目标增强模型的模型权重,并采用该模型权重作为对应的目标增强模型。
S130、将测试数据库中的测试数据分别输入至每个私有模型和目标增强模型,得到对应的第一实际唤醒准确率和第二实际唤醒准确率。
在实施例中,将测试数据库中的测试数据输入至每个私有模型中,得到对应的实际唤醒准确率,并将私有模型输出的实际唤醒准确率作为第一实际唤醒准确率;以及,将测试数据库中的测试数据输入至目标增强模型中,得到对应的实际唤醒准确率,并将目标增强模型输出的实际唤醒准确率作为第二实际唤醒准确率。
S140、基于第一实际唤醒准确率、第二实际唤醒准确率和预先配置的唤醒准确率差值阈值对每个计算节点的私有模型进行更新。
在一实施例中,S140包括:S1401-S1403:
S1401、确定每个第一实际唤醒准确率分别与第二实际唤醒准确率之间的差值,得到对应的实际唤醒准确率差值。
在实施例中,将每个计算节点的第一实际唤醒准确率和第二实际唤醒准确率进行作差,得到两者之间的差值,作为对应计算节点的实际唤醒准确率差值。可以理解为,实际唤醒准确率差值的个数与计算节点集合中所包含计算节点的个数等同。
S1402、查找实际唤醒准确率差值的绝对值大于预先配置的唤醒准确率差值阈值的所有计算节点,组成对应的待更新节点集合。
在实施例中,将每个实际唤醒准确率差值的绝对值与预先配置的唤醒准确率差值阈值进行比对,以确定实际唤醒准确率差值的绝对值大于预先配置的唤醒准确率差值阈值的计算节点,并将这些计算节点组成对应的待更新节点集合。
S1403、采用目标增强模型对待更新节点集合中每个计算节点的私有模型进行更新。
在实施例中,向待更新节点集合中的每个计算节点下发目标增强模型,以使计算节点按照目标增强模型进行私有模型的更新,即将私有模型替换为目标增强模型。
本实施例的技术方案,通过每个计算节点根据处于同一个区域内其它计算节点共享的私有数据库、自身的私有数据库和预先创建的基础模型,得到对应的私有模型和测试数据库,然后按照预设融合算法对所有私有模型进行融合,得到对应的目标增强模型,然后将测试数据库中的测试数据分别输入至每个私有模型得到对应的第一实际唤醒准确率,以及输入至目标增强模型得到对应的第二实际唤醒准确率,并基于第一实际唤醒准确率、第二实际唤醒准确率和预先配置的唤醒准确率差值阈值对每个计算节点的私有模型进行更新,解决了现有技术中直接采用干净语音和纯噪声音频合成得到的带噪语音数据对唤醒模型进行训练,所导致的车辆静止时误唤醒增多或车辆高速行驶时难唤醒的技术问题,实现了通过处于同一个区域内的多个计算节点对自身实际工况下创建的私有数据库进行共享,并采用这些数据对基础模型进行增量训练,从而提升了在噪声环境下语音唤醒的准确率和稳定性。
在一实施例中,图2是本发明实施例提供的另一种语音唤醒模型的更新方法的流程图,本实施例在上述实施例的基础上,对私有模型和测试数据库的确定过程作进一步地说明。如图2所示,该方法包括:
S210、向原始车辆集合中每个车辆所关联的计算节点下发预先创建的基础模型和初始公有数据库,以使计算节点基于基础模型得到对应的私有模型,以及基于初始公有数据库得到对应的测试数据库。
其中,原始车辆集合指的是数据管理平台所管理的所有计算节点所关联车辆的集合;初始公有数据库包括:音频数据,以及每条音频数据对应的唤醒标签,其中,唤醒标签包括标签0和标签1,标签0表示该音频数据不包含唤醒词;标签1表示该音频数据包含唤醒词。在实施例中,可以采用初始公有数据库对基于深度学习的语音唤醒模型进行多轮迭代训练,得到对应的基础模型。然后,基于用户语音数据和基础模型构建对应计算节点的私有数据库,并基于私有数据库和初始公有数据库得到对应的测试数据库。
S220、获取目标计算节点所关联目标车辆在预设时长内的目标行驶数据。
其中,目标计算节点为计算节点集合中的其中一个计算节点;预设时长指的是预先配置的一个时间段;目标行驶数据指的是目标车辆在预设时长内的所有行驶数据。在一实施例中,目标行驶数据包括:行程开始时间、行程结束时间和行驶卫星导航数据。在实际操作过程中,目标车辆在预设时长内可以包括多个行程(即多个不同出发地和目的地之间的行程),其中,行程开始时间指的是其中一个行程的开始时间,行程结束时间指的是其中一个行程的结束时间;行驶卫星导航数据指的是目标车辆在其中一个行程的行驶过程中所经过的位置。
在实施例中,数据管理平台可以在存储器中根据车辆标识查找目标车辆,然后识别并提取目标车辆在预设时长内的目标行驶数据。
S230、根据目标行驶数据确定与目标车辆相匹配的目标车辆集合。
其中,目标车辆集合中的所有车辆位于同一个区域内,并且,车辆与计算节点一一对应。
在一实施例中,S230包括:S2301-S2303:
S2301、根据行程开始时间和行程结束时间对原始车辆集合进行筛选,得到对应的候选车辆集合。
在实施例中,识别并提取原始车辆集合中每个车辆的所有行程对应的行程开始时间和行程结束时间,并按照目标车辆的行程开始时间和行程结束时间对原始车辆集合中每个车辆的所有行程对应的行驶开始时间和行程结束时间进行匹配,并将与目标车辆的行驶开始时间和行程结束时间之间的匹配度达到一定阈值的车辆并入候选车辆集合。采用行程开始时间和行程结束时间对原始车辆集合进行筛选,是为了保证目标车辆与候选车辆集合中每个车辆的行程时间段尽可能地重叠,从而尽可能地保证候选车辆集合中每个车辆在实际工况下的噪声环境与目标车辆在实际工况下的噪声环境尽可能地相似。
示例性地,一个旅游地1在工作日中的噪声环境和在假期的噪声环境是完全不同的;又如,一个街道A在白天7点-下午6点之间的噪声环境,与该位置A在晚上11点-4点之间的噪声环境也是完全不同的。
S2302、确定候选车辆集合中每个车辆的行驶卫星导航数据与目标车辆的行驶卫星导航数据之间的行驶匹配度。
其中,行驶匹配度用于表征候选车辆集合中每个车辆与目标车辆之间行驶路径的相似度。在实施例中,获取候选车辆集合中每个车辆的行驶卫星导航数据,并与目标车辆的行驶卫星导航数据进行匹配,以确定两者之间的行驶匹配度。
S2303、将行驶匹配度达到预先配置的行驶匹配度阈值的所有车辆组成与目标车辆相匹配的目标车辆集合。
在实施例中,识别并提取行驶匹配度达到行驶匹配度阈值的所有车辆,并将所有车辆组成对应的目标车辆集合。示例性地,假设行驶匹配度阈值为70%,则在候选车辆集合中的车辆与目标车辆的行驶卫星导航数据之间的行驶匹配度达到70%的情况下,才将该车辆添加至目标车辆集合。
S240、将目标车辆集合中每个车辆所对应计算节点的私有数据库共享至其它计算节点,以使每个计算节点根据共享的私有数据库、自身的私有数据库和预先创建的基础模型,得到对应的得到对应的私有模型和测试数据库。
在实施例中,数据管理平台获取目标车辆集合中每个车辆所对应计算节点的私有数据库,并将其中一个计算节点的私有数据库共享至计算节点集合中其它计算节点,以使每个计算节点根据共享得到的私有数据库、自身的私有数据库和基础模型,得到对应计算节点的私有模型和测试数据库。
S250、获取计算节点集合中每个计算节点对应的私有模型和测试数据库。
其中,计算节点集合中的所有计算节点位于同一个区域内;其中,每个计算节点对应的私有模型和测试数据库由计算节点集合中其它计算节点共享的用户语音数据和自身的用户语音数据输入至预先创建的基础模型得到。
S260、按照预设融合算法对私有模型进行融合,得到对应的目标增强模型。
S270、将测试数据库中的测试数据分别输入至每个私有模型和目标增强模型,得到对应的第一实际唤醒准确率和第二实际唤醒准确率。
S280、基于第一实际唤醒准确率、第二实际唤醒准确率和预先配置的唤醒准确率差值阈值对每个计算节点的私有模型进行更新。
本实施例的技术方案,在上述方案的基础上,通过获取目标计算节点所关联目标车辆在预设时长内的目标行驶数据,并根据目标行驶数据确定与目标车辆相匹配的目标车辆集合,然后将目标车辆集合中每个车辆所对应计算节点的私有数据库共享至其它计算节点,以使每个计算节点根据共享的私有数据库、自身的私有数据库和预先创建的基础模型,得到对应的私有模型和测试数据库,从而使得测试数据库中的测试数据更接近于实际工况下噪声环境的用户语音数据,进而提升了后续目标增强模型在噪声环境下语音唤醒的准确率和稳定性。
在一实施例中,图3是本发明实施例提供的又一种语音唤醒模型的更新方法的流程图,本实施例可适用于对噪声环境下的语音唤醒模型进行迭代训练和更新的情况,该方法可以由语音唤醒模型的更新装置来执行,该语音唤醒模型的更新装置可以采用硬件和/或软件的形式实现,该语音唤醒模型的更新装置可配置于计算节点中。其中,与上述各实施例相同或相应的术语的解释在此不再追溯。
如图3所示,该方法包括:
S310、接收数据管理平台发送的计算节点集合中每个计算节点共享的私有数据库。
在实施例中,每个计算节点采用预先创建的基础模型进行语音唤醒过程中,将自身所关联车辆对应的用户语音数据保存至本地,以便于后续调用,并对自身所关联车辆对应的用户语音数据进行测试,以得到该用户语音数据中每条音频数据对应的唤醒标签,若成功唤醒,则唤醒标签为1;若未成功唤醒,则唤醒标签为0。同时,系统同时保存基础模型估计出的该音频数据的唤醒置信度;然后,系统将每条音频数据对应的格式和名称,唤醒标签和唤醒置信度组成一个音频文件,依次类推,直至完成所有条音频数据的唤醒置信度和唤醒标签的估计,得到多个音频文件,并通过这些音频文件组成对应的私有数据库。
S320、根据共享的私有数据库、自身的私有数据库和预先创建的基础模型,得到对应的私有模型和测试数据库。
在一实施例中,S320包括:S3201-S3207:
S3201、将预先获取的用户语音数据中的每条音频数据输入至预先创建的基础模型,得到对应音频数据的唤醒标签和唤醒置信度。
其中,唤醒置信度用于表征该音频数据与基础模型之间的匹配度,若唤醒置信度越低,表明该基础模型对该音频数据的适应能力较差,存在无法正确地识别出用户正在唤醒的情况。在实施例中,将共享的用户语音数据和自身的用户语音数据中的每条音频数据输入至预先创建的基础模型中,然后根据唤醒是否成功确定该音频数据的唤醒标签,若成功,该音频数据的唤醒标签为标签1,若失败,则该音频数据的唤醒标签为标签0。同时,基础模型输出该音频数据对应的唤醒置信度。其中,采用基础模型估计音频数据对应的唤醒置信度的具体实现方式不作具体说明。
S3202、基于唤醒标签、唤醒置信度和音频数据组成对应计算节点的私有数据库。
在实施例中,将每条音频数据的唤醒标签、唤醒置信度和该音频数据组成对应的一个音频文件;然后将所有音频文件组成对应的私有数据库。
S3203、按照唤醒置信度对私有数据库中的每条音频数据进行划分,得到高置信度集合和低置信度集合。
在实施例中,按照唤醒置信度对私有数据库中的音频数据进行排序,比如,可以按照唤醒置信度对音频数据进行降序排序,也可以按照唤醒置信度对音频数据进行升序排序;然后预先配置一个唤醒置信度阈值,并根据该唤醒置信度阈值将私有数据库中的音频文件划分为高置信度集合和低置信度集合。其中,高置信度集合中的音频文件所包含音频数据的唤醒置信度均大于唤醒置信度阈值;而低置信度集合中的音频文件所包含音频数据的唤醒置信度均小于唤醒置信度阈值。
S3204、识别并提取低置信度集合中未包含用户语音的音频数据,并将未包含用户语音的音频数据构成对应的环境噪声数据库。
对于低置信度集合中的音频数据,可以采用预设声音事件检测算法提取音频数据中未包含用户语音的段落,并将未包含用户语音的段落够长对应的环境噪声数据库。其中,未包含用户语音的段落,可以为未包含用户语音所对应的整条音频数据,也可以为该音频数据中的部分内容。
S3205、将环境噪声数据库和预先获取的初始公有数据库进行叠加混合,得到对应的含噪公有数据库。
S3206、按照预设比例对初始公有数据库、高置信度集合和含噪公有数据库所混合的数据库进行划分,得到对应的测试数据库和训练数据库。
在实施例中,初始公有数据库、高置信度集合和含噪公有数据库中的音频文件进行混合,并随机打乱;然后按照预设比例将混合之后的数据库进行划分,分别得到对应的测试数据库和训练数据库。当然,在实际操作过程中,为了保证训练的有效性,训练数据库包含音频数据的数据量要远远大于测试数据库包含音频数据的数据量。示例性地,假设预设比例为1:9,则将初始公有数据库、高置信度集合和含噪公有数据库所混合的数据库中十分之一的音频数据作为测试数据库;而其它的音频数据作为训练数据库。
S3207、将训练数据库输入至预先创建的基础模型中,以对基础模型进行训练,得到对应的私有模型。
在实施例中,计算节点训练数据库中的训练数据对基础模型进行训练,以得到对应的私有模型。其中,可以设定小学习率对基础模型进行训练。
S330、将私有模型和测试数据库上报至数据管理平台,以使数据管理平台基于私有模型得到对应的目标增强模型,以及基于测试数据库中的测试数据得到对应的第一实际唤醒准确率和第二实际唤醒准确率。
在实施例中,在数据管理平台接收到计算节点集合中每个计算节点上报的私有模型和测试数据库之后,对所有的私有模型进行融合,得到对应的目标增强模型,并将测试数据库中的测试数据输入至每个计算节点对应的私有模型中,得到对应计算节点的第一实际唤醒准确率,以及将测试数据库中的测试数据输入至训练得到的目标增强模型,得到对应的第二实际唤醒准确率。
S340、响应于第一实际唤醒准确率和第二实际唤醒准确率之间的差值大于预先配置的唤醒准确率差值阈值,接收数据管理平台下发的目标增强模型,并基于目标增强模型对私有模型进行更新。
在实施例中,对目标增强模式和各个计算节点对应的私有模型在测试数据库中测试数据的唤醒准确率,若唤醒准确率一定阈值,即第二实际唤醒准确率与第一实际唤醒准确率之间差值的绝对值大于唤醒准确率差值阈值,则将该计算节点的私有模型替换为目标增强模型。
本实施例的技术方案,通过接收数据管理平台发送的计算节点集合中每个计算节点共享的私有数据库;根据共享的私有数据库、自身的私有数据库和预先创建的基础模型,得到对应的私有模型和测试数据库;将私有模型和测试数据库上报至所述数据管理平台,以使数据管理平台基于所述私有模型得到对应的目标增强模型,以及基于测试数据库中的测试数据得到对应的第一实际唤醒准确率和第二实际唤醒准确率;响应于第一实际唤醒准确率和第二实际唤醒准确率之间差值的绝对值大于预先配置的唤醒准确率差值阈值,接收数据管理平台下发的目标增强模型,并基于目标增强模型对私有模型进行更新,解决了现有技术中直接采用干净语音和纯噪声音频合成得到的带噪语音数据,对唤醒模型进行训练,所导致的车辆静止时误唤醒增多或车辆高速行驶时难唤醒的技术问题,实现了通过处于同一个区域内的多个计算节点对自身实际工况下的用户语音数据进行共享,并采用这些用户语音数据对基础模型进行增量训练,从而提升了在噪声环境下语音唤醒的准确率和稳定性。
在一实施例中,图4是本发明实施例提供的再一种语音唤醒模型的更新方法的流程图。本实施例在上述实施例的基础上,作为优选实施例,对数据管理平台和计算节点之间的交互过程进行说明。在实施例中,对数据库进行划分的预设比例为1:9(即测试数据库所占比例为1,训练数据库所占比例为9)。假设目标计算节点为计算节点1。
如图4所示,该方法包括:
S410、向每个计算节点下发基础模型和初始公有数据库。
其中,计算节点指的是搭载语音唤醒算法的车辆中的设备。在该计算节点中具有车内语音数据采集和计算识别能力。其中,基础模型为语音唤醒深度学习模型,可以基于初始公有数据库进行训练得到。在初始公有数据库中包括音频数据及其相应的唤醒标签{0,1},标签0表示该音频不包含唤醒词,标签1表示该音频包含唤醒词。例如:{文件:001.wav,标签:1};下发的初始公有数据库是公有数据库的一个子集,其占公有数据库的比例根据计算节点的可用存储空间选取。可以理解为,在计算节点的可用存储空间越大,该计算节点接收的初始公有数据库包含的数据量就越大。
在实际操作过程中,基础模型和初始公有数据库的下发动作可在该计算节点所关联车辆在出厂时,随车搭载或通过云端更新的方式完成。
S420、与目标计算节点处于同一个区域内的各个计算节点对私有数据库进行数据共享。
在实施例中,根据目标计算节点的卫星导航数据,如某计算节点的与目标计算节点的日常行动轨迹之间的重复比例达到一定阈值(即某一车辆的行驶卫星导航数据与目标计算节点所对应目标车辆的行驶卫星导航数据之间的行驶匹配度达到行驶匹配度阈值),则该计算节点为目标计算节点所对应区域内的节点。可知,处于同一个区域内的计算节点具有相似的语音唤醒服务使用环境,即唤醒系统输入语音中所包含的干扰噪声及其相似。
每个计算节点所对应私有数据库的构建步骤包括:用户在使用S410中的基础模型进行语音唤醒过程中,系统将对应的用户语音数据保存到本地,并根据唤醒是否成功为该条音频数据添加唤醒标签,如唤醒成功则为1,否则为0。系统同时保存基础模型估计出的该条音频数据的唤醒置信度。例如:{文件:001.wav,标签:1,置信度:0.87},其中,001.wav表示文件的名称和格式,标签为1表示该音频数据被成功唤醒;置信度为0.87表示该条音频数据的置信度为0.87。
S430、每个计算节点构建自身对应的私有模型、训练数据库和测试数据库。
在实施例中,训练数据库由S410所述的初始公有数据库和S420所述的处于同一个区域内的所有节点共享私有数据库共同组成。
所述训练数据库构建步骤具体包括:
S1,按照每条音频数据的唤醒置信度对共享的私有数据库进行排序。
S2,按照预先配置的唤醒置信度阈值为0.85,将排序后的私有数据库划分为高置信度集合和低置信度集合。
S3,对于低置信度集合中的数据,采用声音事件检测算法提取音频数据中未包含用户语音的段落,构成环境噪声数据库。
S4,将上述环境噪声数据库和初始公有数据库进行叠加混合,得到含噪公有数据库。
S5,将初始公有数据库、含噪公有数据库和高置信度集合混合在一起并随机打乱,并以1:9的比例对上述数据库进行划分,分别得到测试数据库和训练数据库。
模型增量训练指的是,基于上述训练数据库,以S410所述的基础模型为初始模型,设定小学习率进行模型训练,得到每个计算节点对应的私有模型。
S440、向数据管理平台上报自身的私有模型和测试数据库。
S450、对私有模型进行融合,得到目标增强模型,并采用测试数据库对目标增强模型进行性能测试。
计算节点进行模型融合是指,数据管理平台将收集到的同一区域内的各个计算节点上传的私有模型对应的模型文件进行整合得到一个新的公有基础模型即目标增强模型。
所述模型融合方法包括:对各个计算节点所对应私有模型的模型权重进行加权求和,其中权重系数根据计算节点所上传测试数据库中数据量的大小选取。例如,当前区域存在3个计算节点,模型权重分别为w1,w2,w3,测试数据库的音频时长分别为,10h,12h,8h。则加权求和之后的增强模型的权重为 w=w1*10/30+w2*12/30+w3*8/30。
性能测试包括:采用上述目标增强模型分别在各个计算节点上传的测试数据库上计算唤醒准确率。
S460、向计算节点下发目标增强模型。
在实施例中,将目标增强模型和各个计算节点所对应私有模型在各自测试数据库上的唤醒准确率进行对比,若唤醒准确率提升超过一定阈值(即目标增强模型输出的唤醒准确率减去一个计算节点所对应私有模型输出的唤醒准确率,其差值大于唤醒准确率差值阈值),表明该目标增强模型对该计算节点的唤醒准确率有一定提升,则对该计算节点下发目标增强模型,并进行模型更新(即将该计算节点的私有模型替换为目标增强模型)。否则,对相应的计算节点下发数据收集指令,积累更多的测试数据后重复上述流程。
本实施例的技术方案,利用同一个区域内的车车之间以及车云之间数据互联的便利性,可以离线地在每个车辆上采集语音唤醒系统在实际工况下的环境数据,并对实际唤醒数据进行分类,提取唤醒噪声对公有数据进行噪声混叠,得到离线的训练数据库和测试数据库;然后采用训练数据库对语音唤醒模型进行增量训练,从而达到提升噪声环境下车用语音唤醒系统的准确率和稳定性的目的。
在一实施例中,图5是本发明实施例提供的一种语音唤醒模型的更新装置的结构示意图。如图5所示,该装置包括:第一获取模块510、融合模块520、第一确定模块530和更新模块540。
其中,第一获取模块510,用于获取计算节点集合中每个计算节点对应的私有模型和测试数据库;其中,计算节点集合中的所有计算节点位于同一个区域内;其中,每个计算节点对应的私有模型和测试数据库由计算节点集合中其它计算节点共享的私有数据库、自身的私有数据库和预先创建的基础模型得到;
融合模块520,用于按照预设融合算法对私有模型进行融合,得到对应的目标增强模型;
第一确定模块530,用于将测试数据库中的测试数据分别输入至每个私有模型和目标增强模型,得到对应的第一实际唤醒准确率和第二实际唤醒准确率;
更新模块540,用于基于第一实际唤醒准确率、第二实际唤醒准确率和预先配置的唤醒准确率差值阈值对每个计算节点的私有模型进行更新。
在一实施例中,融合模块520,包括:
第一确定单元,用于根据每个计算节点所对应测试数据库包含的数据量确定对应计算节点的权重系数;
第二确定单元,用于按照每个计算节点所对应私有模型的模型权重和对应的权重系数确定对应的目标增强模型。
在一实施例中,更新模块540,包括:
第三确定单元,用于确定每个第一实际唤醒准确率分别与第二实际唤醒准确率之间的差值,得到对应的实际唤醒准确率差值;
查找单元,用于查找实际唤醒准确率差值的绝对值大于预先配置的唤醒准确率差值阈值的所有计算节点,组成对应的待更新节点集合;
更新单元,用于采用目标增强模型对待更新节点集合中每个计算节点的私有模型进行更新。
在一实施例中,在获取计算节点集合中每个计算节点对应的私有模型和测试数据库之前,语音唤醒模块的更新装置,还包括:
第二获取模块,用于获取目标计算节点所关联目标车辆在预设时长内的目标行驶数据;
第二确定模块,用于根据目标行驶数据确定与目标车辆相匹配的目标车辆集合;其中,目标车辆集合中的所有车辆位于同一个区域内,并且,车辆与计算节点一一对应;
共享模块,用于将目标车辆集合中每个车辆所对应计算节点的私有数据库共享至其它计算节点,以使每个计算节点根据共享的私有数据库、自身的私有数据库和预先创建的基础模型,得到对应的得到对应的私有模型和测试数据库。
在一实施例中,目标行驶数据包括:行程开始时间、行程结束时间和行驶卫星导航数据;第二确定模块,包括:
筛选单元,用于根据行程开始时间和行程结束时间对原始车辆集合进行筛选,得到对应的候选车辆集合;
第四确定单元,用于确定候选车辆集合中每个车辆的行驶卫星导航数据与目标车辆的行驶卫星导航数据之间的行驶匹配度;
组成单元,用于将行驶匹配度达到预先配置的行驶匹配度阈值的所有车辆组成与目标车辆相匹配的目标车辆集合。
在一实施例中,在获取目标计算节点所关联目标车辆在预设时长内的行驶数据之前,语音唤醒模型的更新装置,还包括:
发送模块,用于向原始车辆集合中每个车辆所关联的计算节点下发预先创建的基础模型和初始公有数据库,以使计算节点基于基础模型得到对应的私有模型,以及基于初始公有数据库得到对应的测试数据库。
本发明实施例所提供的语音唤醒模型的更新装置可执行本发明任意实施例所提供的应用于数据管理平台的语音唤醒模型的更新方法,具备执行方法相应的功能模块和有益效果。
在一实施例中,图6是本发明实施例提供的一种语音唤醒模型的更新装置的结构示意图。如图6所示,该装置包括:接收模块610、第一确定模块620、第二确定模块630和更新模块640。
其中,接收模块610,用于接收数据管理平台发送的计算节点集合中每个计算节点共享的私有数据库;
第一确定模块620,用于根据共享的私有数据库、自身的私有数据库和预先创建的基础模型,得到对应的私有模型和测试数据库;
第二确定模块630,用于将私有模型和测试数据库上报至数据管理平台,以使数据管理平台基于私有模型得到对应的目标增强模型,以及基于测试数据库中的测试数据得到对应的第一实际唤醒准确率和第二实际唤醒准确率;
更新模块640,用于响应于第一实际唤醒准确率和第二实际唤醒准确率之间差值的绝对值大于预先配置的唤醒准确率差值阈值,接收数据管理平台下发的目标增强模型,并基于目标增强模型对私有模型进行更新。
在一实施例中,第一确定模块620,包括:
第一确定单元,用于将预先获取的用户语音数据中的每条音频数据输入至预先创建的基础模型,得到对应音频数据的唤醒标签和唤醒置信度;
第二确定单元,用于基于唤醒标签、唤醒置信度和音频数据组成对应计算节点的私有数据库;
第一划分单元,用于按照唤醒置信度对私有数据库中的每条音频数据进行划分,得到高置信度集合和低置信度集合;
第一构建单元,用于识别并提取低置信度集合中未包含用户语音的音频数据,并将未包含用户语音的音频数据构成对应的环境噪声数据库;
第二构建单元,用于将环境噪声数据库和预先获取的初始公有数据库进行叠加混合,得到对应的含噪公有数据库;
第二划分单元,用于按照预设比例对初始公有数据库、高置信度集合和含噪公有数据库所混合的数据库进行划分,得到对应的测试数据库和训练数据库;
训练单元,用于将训练数据库输入至预先创建的基础模型中,以对基础模型进行训练,得到对应的私有模型。
在一实施例中,图7是本发明实施例提供的一种电子设备的结构框图。本实施例中的语音唤醒模型的更新系统包括:数据管理平台和计算节点。其中,数据管理平台和计算节点均为电子设备。如图7所示,示出了可以用来实施本发明的实施例的电子设备710的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图7所示,电子设备710包括至少一个处理器711,以及与至少一个处理器711通信连接的存储器,如只读存储器(ROM)712、随机访问存储器(RAM)713等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器711可以根据存储在只读存储器(ROM)712中的计算机程序或者从存储单元718加载到随机访问存储器(RAM)713中的计算机程序,来执行各种适当的动作和处理。在RAM 713中,还可存储电子设备710操作所需的各种程序和数据。处理器711、ROM 712以及RAM 713通过总线714彼此相连。输入/输出(I/O)接口715也连接至总线714。
电子设备710中的多个部件连接至I/O接口715,包括:输入单元716,例如键盘、鼠标等;输出单元717,例如各种类型的显示器、扬声器等;存储单元718,例如磁盘、光盘等;以及通信单元719,例如网卡、调制解调器、无线通信收发机等。通信单元719允许电子设备710通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器711可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器711的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器711执行上文所描述的各个方法和处理,例如语音唤醒模型的更新方法。
在电子设备为数据管理平台的情况下,上述提供的电子设备可设置为执行上述任意实施例提供的应用于数据管理平台的语音唤醒模型的更新方法,具备相应的功能和效果。
在电子设备为计算节点的情况下,上述提供的电子设备可设置为执行上述任意实施例提供的应用于计算节点的语音唤醒模型的更新方法,具备相应的功能和效果。
在一些实施例中,语音唤醒模型的更新方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元718。在一些实施例中,计算机程序的部分或者全部可以经由ROM 712和/或通信单元719而被载入和/或安装到电子设备710上。当计算机程序加载到RAM 713并由处理器711执行时,可以执行上文描述的语音唤醒模型的更新方法的一个或多个步骤。备选地,在其他实施例中,处理器711可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行语音唤醒模型的更新方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。
Claims (8)
1.一种语音唤醒模型的更新方法,其特征在于,应用于数据管理平台,包括:
获取计算节点集合中每个计算节点对应的私有模型和测试数据库;其中,所述计算节点集合中的所有计算节点位于同一个区域内;其中,所述每个计算节点对应的私有模型和测试数据库由所述计算节点集合中其它计算节点共享的私有数据库、自身的私有数据库和预先创建的基础模型得到,并且,所述计算节点分别与私有模型和测试数据库一一对应;
根据每个计算节点所对应测试数据库包含的数据量确定对应计算节点的权重系数;
按照每个所述计算节点所对应私有模型的模型权重和对应的权重系数确定对应的目标增强模型;
将所述测试数据库中的测试数据分别输入至每个所述私有模型和所述目标增强模型,得到对应的第一实际唤醒准确率和第二实际唤醒准确率;
确定每个所述第一实际唤醒准确率分别与所述第二实际唤醒准确率之间的差值,得到对应的实际唤醒准确率差值;
查找所述实际唤醒准确率差值的绝对值大于预先配置的唤醒准确率差值阈值的所有计算节点,组成对应的待更新节点集合;
将所述待更新节点集合中每个计算节点的私有模型替换为所述目标增强模型。
2.根据权利要求1所述的方法,其特征在于,在所述获取计算节点集合中每个计算节点对应的私有模型和测试数据库之前,还包括:
获取目标计算节点所关联目标车辆在预设时长内的目标行驶数据;
根据所述目标行驶数据确定与所述目标车辆相匹配的目标车辆集合;其中,所述目标车辆集合中的所有车辆位于同一个区域内,并且,所述车辆与所述计算节点一一对应;
将所述目标车辆集合中每个车辆所对应计算节点的私有数据库共享至其它计算节点,以使每个计算节点根据共享的私有数据库、自身的私有数据库和预先创建的基础模型,得到对应的得到对应的私有模型和测试数据库。
3.根据权利要求2所述的方法,其特征在于,所述目标行驶数据包括:行程开始时间、行程结束时间和行驶卫星导航数据;所述根据所述目标行驶数据确定与所述目标车辆相匹配的目标车辆集合,包括:
根据所述行驶开始时间和所述行驶结束时间对原始车辆集合进行筛选,得到对应的候选车辆集合;
确定所述候选车辆集合中每个车辆的行驶卫星导航数据与所述目标车辆的行驶卫星导航数据之间的行驶匹配度;
将所述行驶匹配度达到预先配置的行驶匹配度阈值的所有车辆组成与所述目标车辆相匹配的目标车辆集合。
4.根据权利要求3所述的方法,其特征在于,在所述获取目标计算节点所关联目标车辆在预设时长内的行驶数据之前,还包括:
向所述原始车辆集合中每个车辆所关联的计算节点下发预先创建的基础模型和初始公有数据库,以使所述计算节点基于所述基础模型得到对应的私有模型,以及基于所述初始公有数据库得到对应的测试数据库。
5.一种语音唤醒模型的更新方法,其特征在于,应用于计算节点,包括:
接收数据管理平台发送的计算节点集合中每个计算节点共享的私有数据库;
根据所述共享的私有数据库、自身的私有数据库和预先创建的基础模型,得到对应的私有模型和测试数据库;其中,所述计算节点分别与私有模型和测试数据库一一对应;
将所述私有模型和所述测试数据库上报至所述数据管理平台,以使所述数据管理平台根据每个计算节点所对应测试数据库包含的数据量确定对应计算节点的权重系数,并按照每个所述计算节点所对应私有模型的模型权重和对应的权重系数确定对应的目标增强模型,以及基于所述测试数据库中的测试数据得到对应的第一实际唤醒准确率和第二实际唤醒准确率;
响应于所述第一实际唤醒准确率和所述第二实际唤醒准确率之间差值的绝对值大于预先配置的唤醒准确率差值阈值,接收所述数据管理平台下发的目标增强模型,并将所述私有模型替换为所述目标增强模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述共享的用户语音数据、自身的用户语音数据和预先创建的基础模型,得到对应的私有模型和测试数据库,包括:
将预先获取的用户语音数据中的每条音频数据输入至预先创建的基础模型,得到对应音频数据的唤醒标签和唤醒置信度;
基于所述唤醒标签、所述唤醒置信度和所述音频数据组成对应计算节点的私有数据库;
按照所述唤醒置信度对所述私有数据库中的每条音频数据进行划分,得到高置信度集合和低置信度集合;
识别并提取所述低置信度集合中未包含用户语音的音频数据,并将所述未包含用户语音的音频数据构成对应的环境噪声数据库;
将所述环境噪声数据库和预先获取的初始公有数据库进行叠加混合,得到对应的含噪公有数据库;
按照预设比例对所述初始公有数据库、所述高置信度集合和所述含噪公有数据库所混合的数据库进行划分,得到对应的测试数据库和训练数据库;
将所述训练数据库输入至预先创建的基础模型中,以对所述基础模型进行训练,得到对应的私有模型。
7.一种语音唤醒模型的更新系统,其特征在于,所述语音唤醒模型的更新系统包括:数据管理平台和计算节点;其中,所述数据管理平台和所述计算节点均包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4或5-6中任一项所述的语音唤醒模型的更新方法。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-4或5-6中任一项所述的语音唤醒模型的更新方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310762127.6A CN116543758B (zh) | 2023-06-27 | 2023-06-27 | 语音唤醒模型的更新方法、系统和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310762127.6A CN116543758B (zh) | 2023-06-27 | 2023-06-27 | 语音唤醒模型的更新方法、系统和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116543758A CN116543758A (zh) | 2023-08-04 |
CN116543758B true CN116543758B (zh) | 2023-09-15 |
Family
ID=87447376
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310762127.6A Active CN116543758B (zh) | 2023-06-27 | 2023-06-27 | 语音唤醒模型的更新方法、系统和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116543758B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110310628A (zh) * | 2019-06-27 | 2019-10-08 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
CN112259085A (zh) * | 2020-09-28 | 2021-01-22 | 上海声瀚信息科技有限公司 | 一种基于模型融合框架的两阶段语音唤醒算法 |
CN113782012A (zh) * | 2021-09-10 | 2021-12-10 | 北京声智科技有限公司 | 一种唤醒模型训练方法、唤醒方法及电子设备 |
US11205420B1 (en) * | 2019-06-10 | 2021-12-21 | Amazon Technologies, Inc. | Speech processing using a recurrent neural network |
-
2023
- 2023-06-27 CN CN202310762127.6A patent/CN116543758B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11205420B1 (en) * | 2019-06-10 | 2021-12-21 | Amazon Technologies, Inc. | Speech processing using a recurrent neural network |
CN110310628A (zh) * | 2019-06-27 | 2019-10-08 | 百度在线网络技术(北京)有限公司 | 唤醒模型的优化方法、装置、设备及存储介质 |
CN112259085A (zh) * | 2020-09-28 | 2021-01-22 | 上海声瀚信息科技有限公司 | 一种基于模型融合框架的两阶段语音唤醒算法 |
CN113782012A (zh) * | 2021-09-10 | 2021-12-10 | 北京声智科技有限公司 | 一种唤醒模型训练方法、唤醒方法及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116543758A (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112560468B (zh) | 气象预警文本处理方法、相关装置及计算机程序产品 | |
CN106202126B (zh) | 一种用于物流监控的数据分析方法和装置 | |
CN111563560B (zh) | 基于时序特征学习的数据流分类方法及装置 | |
CN114357197B (zh) | 事件推理方法和装置 | |
CN113723607A (zh) | 时空数据处理模型的训练方法、装置、设备及存储介质 | |
CN114003672B (zh) | 一种道路动态事件的处理方法、装置、设备和介质 | |
CN115203340A (zh) | 一种伴随关系确定方法、装置、设备和存储介质 | |
CN117149140B (zh) | 一种用于编码的架构信息生成方法、装置及相关设备 | |
CN116543758B (zh) | 语音唤醒模型的更新方法、系统和介质 | |
Zou et al. | Deep Learning for Cross-Domain Data Fusion in Urban Computing: Taxonomy, Advances, and Outlook | |
JP7291100B2 (ja) | 複数の投稿時系列データを用いた異常・変化推定方法、プログラム及び装置 | |
CN114997414B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN115775367A (zh) | 道路目标检测方法、检测装置、电子设备及存储介质 | |
CN110781283B (zh) | 连锁品牌词库生成方法、装置以及电子设备 | |
CN113190640B (zh) | 兴趣点数据处理方法及装置 | |
CN113407839B (zh) | 出行方式的确定方法、装置、设备和存储介质 | |
CN116186549B (zh) | 模型的训练方法、装置、设备和介质 | |
CN112528002B (zh) | 对话识别方法、装置、电子设备和存储介质 | |
CN115482809B (zh) | 关键词检索方法、装置、电子设备以及存储介质 | |
CN117742900B (zh) | 一种服务调用图的构造方法、装置、设备及存储介质 | |
CN115658826A (zh) | 一种轨迹停留点确定方法、装置、设备及存储介质 | |
CN114659534A (zh) | 导航路径通行时间处理方法、装置、设备、介质及产品 | |
CN116630916A (zh) | 一种对象检测方法、装置、设备及存储介质 | |
CN118097952A (zh) | 一种公交车到站预测方法、装置、设备及存储介质 | |
CN117540843A (zh) | 一种停车位预测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |