CN114464188A - 一种基于分布式边缘计算的声纹唤醒算法 - Google Patents
一种基于分布式边缘计算的声纹唤醒算法 Download PDFInfo
- Publication number
- CN114464188A CN114464188A CN202111625991.9A CN202111625991A CN114464188A CN 114464188 A CN114464188 A CN 114464188A CN 202111625991 A CN202111625991 A CN 202111625991A CN 114464188 A CN114464188 A CN 114464188A
- Authority
- CN
- China
- Prior art keywords
- voiceprint
- distributed
- data
- user
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004364 calculation method Methods 0.000 title abstract description 35
- 238000000605 extraction Methods 0.000 claims description 34
- 238000000034 method Methods 0.000 claims description 23
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 11
- 239000013598 vector Substances 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000005070 sampling Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000001228 spectrum Methods 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims description 3
- 230000008901 benefit Effects 0.000 abstract description 6
- 230000004044 response Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract description 2
- 238000005457 optimization Methods 0.000 abstract description 2
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000037007 arousal Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及互联网技术领域,公开了一种基于分布式边缘计算的声纹唤醒算法,通过传统唤醒算法和分布式边缘计算相结合,有效的发挥了算力分摊和分布式决策的优点,将高额算力进行节点分摊和设备分布式决策,有效的节约了计算资源,同时降低了单体的成本,为声纹唤醒在中低端市场的进一步推广扫除了技术障碍,通过把声纹唤醒的高额算力分摊到不同的计算芯片中,并通过中心决策的方式保证在相邻节点同时唤醒时有且仅有一个设备产生应答,从而有效的解决了声纹唤醒算法高算力和多设备联动的问题,同时由分布式边缘计算带来的算力分摊可以进一步实现更大资源模型的声纹唤醒算法跑在终端上,为效果的进一步优化也带来了可行性。
Description
技术领域
本发明涉及互联网技术领域,特别涉及一种基于分布式边缘计算的声纹 唤醒算法。
背景技术
声纹识别,生物识别技术的一种,也称为说话人识别。声纹识别的理论 基础是每一个声音都具有独特的特征,通过该特征能将不同人的声音进行有 效的区分。声纹识别的一般步骤包括:收集语音->噪声抑制和有效语音检测 (VAD)->声纹特征提取->发声人的声音建模->识别匹配。
随着全球经济与科技的高速发展,声纹唤醒功能使用越来越频繁,小到 手机、音箱等快销品的个性化唤醒功能,大到银行金融等领域的二次认证, 传统声纹唤醒算法在算力要求上远高于同类前端声学智能产品,高算力带来 的是高额的芯片成本,导致在中低端市场很难进一步普及和推广。同时传统 的声纹唤醒算法在多设备联动方面没有效果优势,经典的处理问题是一句唤 醒词将家里所有的智能设备全部唤醒,并开启了设备之间的不断对话环节。
发明内容
本发明的主要目的是提出一种基于分布式边缘计算的声纹唤醒算法,旨 在通过分布式边缘计算的方法把声纹唤醒的高额算力分摊到不同的计算芯片 中,并通过中心决策的方式保证在相邻节点同时唤醒时有且仅有一个设备产 生应答,从而有效的解决了声纹唤醒算法高算力和多设备联动的问题。
为实现上述目的,本发明提出的基于分布式边缘计算的声纹唤醒算法, 包括以下步骤:
声纹注册,用户通过分布式设备的其中一个节点进行录音采集,用户通 过说命令词“开始声纹注册”进行事件触发,分布式设备对用户的数据进行多特 征提取,并在特征提取后生成对应的声纹特征模型Model-X,分布式存储, 声纹模型数据压缩,并同时存储在分布式节点的设备的多种存储介质中;
声纹验证,用户通过分布式麦克风中的任意一个设备进行验证,用户通 过说命令词“开始声纹验证”进行事件触发,麦克风设备对用户语音数据进行录 制之后,主机对用户的语音数据进行特征模型提取和压缩,解压并与存储介 质上的声纹特征模型数据进行匹配,匹配成功则选出相应的用户信息。
进一步地,所述的声纹注册包括:启动注册程序,录制用户唤醒词文本 录音,所述唤醒词文本的字数在4字和10字之间。
进一步地,所述的分布式设备对用户的数据进行多特征提取包括:在特 征提取前对音频进行分帧处理,当前使用512个采样点作为1帧数据块,对 应32ms一帧数据,对分帧后的信号进行加窗处理后,再进行相应的特征提取, 以减小出现频谱泄漏。采用的Hamming窗函数进行声纹特征参数提取,具体 如下:
其中a0=0.53856。
进一步地,所述的分布式设备对用户的数据进行多特征提取包括:将声 纹和关键词唤醒均使用卷积神经网络(CNN)来进行声纹特征提取:
CNN由卷积层构成,每个卷积层定义一组卷积内核(convolutional kernel), 每一个卷积内核被重复作用到输入数据的不同位置,与该位置对应的局部数 据进行逐个元素的乘加运算,结果即为该卷积内核在输入数据位置对应的输 出,输入数据在经过一个卷积层之后得到的输出,其大小取决于:
1、卷积内核的数量;
2、每个卷积内核的大小;
3、在应用卷积内核时,相邻位置之间的间隔(内核的步长)。
当前使用到的是一维卷积神经网络,使用的Kernel Size为3的卷积核, kernelcount为4,同时定义卷积处理后的输出矩阵与输入矩阵有相同的列数。
进一步地,所述的主机对用户的语音数据进行特征模型提取和压缩,解 压并与存储介质上的声纹特征模型数据进行匹配,匹配成功则选出相应的用 户信息包括:声纹模型匹配过程使用余弦相似度方法进行相关的得分评价, 余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差 异的大小的度量,余弦值越接近1,就表明夹角越接近0度,在做多人模型相 似度匹配时,取余弦值最大的模型作为目标检出模。
采用本发明的技术方案,具有以下有益效果:本发明的技术方案,通过 传统唤醒算法和分布式边缘计算相结合,有效的发挥了算力分摊和分布式决 策的优点,将高额算力进行节点分摊和设备分布式决策,有效的节约了计算 资源,同时降低了单体的成本,为声纹唤醒在中低端市场的进一步推广扫除 了技术障碍,通过把声纹唤醒的高额算力分摊到不同的计算芯片中,并通过 中心决策的方式保证在相邻节点同时唤醒时有且仅有一个设备产生应答,从 而有效的解决了声纹唤醒算法高算力和多设备联动的问题,同时由分布式边 缘计算带来的算力分摊可以进一步实现更大资源模型的声纹唤醒算法跑在终 端上,通过对用户的音频数据进行统一的特征提取,该特征可同时有用于构 建声纹模型也可以用于鉴别当前的唤醒词,在降低算法计算复杂度同时,在 声纹特征鉴别的响应速度上也做到有效提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲, 在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的 附图。
图1为本发明提出的一种基于分布式边缘计算的声纹唤醒算法的整体框 架流程图;
图2为本发明提出的一种基于分布式边缘计算的声纹唤醒算法的用户声 纹注册流程图;
图3为本发明提出的一种基于分布式边缘计算的声纹唤醒算法的声纹验 证流程图;
图4为本发明提出的一种基于分布式边缘计算的声纹唤醒算法的分布式 设备的通信建立示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例, 而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有 作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、 后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位 置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应 地随之改变。
另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域 普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现 时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明提出一种基于分布式边缘计算的声纹唤醒算法。
如图1至图4所示,在本发明一实施例中,该基于分布式边缘计算的声 纹唤醒算法,包括以下步骤:
声纹注册,用户通过分布式设备的其中一个节点进行录音采集,用户通 过说命令词“开始声纹注册”进行事件触发,分布式设备对用户的数据进行多特 征提取,并在特征提取后生成对应的声纹特征模型Model-X,分布式存储, 声纹模型数据压缩,并同时存储在分布式节点的设备的多种存储介质中;
声纹验证,用户通过分布式麦克风中的任意一个设备进行验证,用户通 过说命令词“开始声纹验证”进行事件触发,麦克风设备对用户语音数据进行录 制之后,主机对用户的语音数据进行特征模型提取和压缩,解压并与存储介 质上的声纹特征模型数据进行匹配,匹配成功则选出相应的用户信息。
具体地,所述的声纹注册包括:启动注册程序,录制用户唤醒词文本录 音,所述唤醒词文本的字数在4字和10字之间。
用户首先在声纹唤醒应用中使用分布式麦克风中的其中一个节点进行录 音采集(用户说命令词“开始声纹注册”进行事件触发),算法中会针对该用户 的数据进行多特征提取(时频特征分布等),并在特征提取后生成对应的模型 Model-X,模型数据可同时存储多份在分布式麦克风设备的多种存储介质中 (如Flash或Sdcard)。
特征参数提取的目的是从说话人语音中提取出能够表征说话人特定声学 器官结构或习惯行为的特征参数。该特征参数对同一个说话人具有相对的稳 定性,不能随时间或环境的变化而不一致,对同一个说话人的不同话语也应 该是一致的。对于不同说话人即使说同样的话也应该有较好的区分性,具有 不易模仿性和较强的抗噪性。目前我们使用的是神经网络模型,才采用一种 分布式并行处理结构的网络模型,具有组织和自学习能力,很强的复杂分类 边界区分能力以及对不完全信息的鲁棒性,在训练过程中能不断调整自身的 参数权值和结构拓扑,以适应环境和系统性能优化的需求。
具体地,所述的分布式设备对用户的数据进行多特征提取包括:在特征 提取前对音频进行分帧处理,当前使用512个采样点作为1帧数据块,对应 32ms一帧数据,对分帧后的信号进行加窗处理后,再进行相应的特征提取, 以减小出现频谱泄漏。采用的Hamming窗函数进行声纹特征参数提取,具体 如下:
其中a0=0.53856。
具体地,所述的分布式设备对用户的数据进行多特征提取包括:在声纹 识别系统流程中,可以将音频特征到说话人模型的声纹建模过程看作一个复 杂的非线性函数,该函数定义了一个从音频特征空间到说话人模型空间的映 射。基于深度学习方法的声纹识别要解决的问题就是将这一个复杂的函数用 适合的神经网络来表示。考虑到将网络参数规模控制在一个合理范围内,同 时与关键词唤醒引擎的特征提取进行融合,将声纹和关键词唤醒均使用卷积 神经网络(CNN)来进行声纹特征提取:
CNN由卷积层构成,每个卷积层定义一组卷积内核(convolutional kernel), 每一个卷积内核被重复作用到输入数据的不同位置,与该位置对应的局部数 据进行逐个元素的乘加运算,结果即为该卷积内核在输入数据位置对应的输 出,输入数据在经过一个卷积层之后得到的输出,其大小取决于:
1、卷积内核的数量;
2、每个卷积内核的大小;
3、在应用卷积内核时,相邻位置之间的间隔(内核的步长)。
当前使用到的是一维卷积神经网络,使用的Kernel Size为3的卷积核, kernelcount为4,同时定义卷积处理后的输出矩阵与输入矩阵有相同的列数。
其中N=512,每一帧固定提取M(M=3)维特征参数,参数的维度及Kernel Count可实时配置。
Kernel如下:
1 | 0 | 0 |
0 | 1 | 0 |
0 | 0 | 1 |
Kernel 1
0 | 0 | 1 |
0 | 1 | 0 |
1 | 0 | 0 |
Kernel 2
0 | 1 | 0 |
1 | 0 | 1 |
0 | 0 | 0 |
Kernel 3
0 | 0 | 0 |
1 | 0 | 1 |
0 | 1 | 0 |
Kernel 4
其卷积定义为:X(m)为3*3的kernel,K(n)为单帧对应的3*3矩阵,Z(m)为 不同kernel输出结果。
通过以上计算后,每一帧输入数据最终将得到m个向量,同时对目标唤醒 段音频的多帧进行处理获取结果,将以上获得的多帧结果与发音人ID,一 并保存到相应的模型文件DatI中,通过分布式网络通道,将该模型文件DatI Copy多份到分布式网络的多个节点中。
具体地,所述的主机对用户的语音数据进行特征模型提取和压缩,解压 并与存储介质上的声纹特征模型数据进行匹配,匹配成功则选出相应的用户 信息包括:声纹模型匹配过程使用余弦相似度方法进行相关的得分评价,余 弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异 的大小的度量,余弦值越接近1,就表明夹角越接近0度,在做多人模型相似 度匹配时,取余弦值最大的模型作为目标检出模。
用户进行声纹验证时,可使用分布式麦克风中的任意一个设备进行验证 (用户说命令词“开始声纹验证”进行事件触发),麦克风设备进行用户数据 录制之后,对用户的数据进行多特征提取,并与存储介质上的模型数据进行 匹配,匹配成功则pick出相应的用户信息,用户验证时使用的特征提取方法与, 注册环节使用的方法一致。
模型匹配过程使用余弦相似度方法进行相关的得分评价,余弦相似度, 是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度 量。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似,这就 叫"余弦相似性"。
具体地,在声纹唤醒的通信端建立算力握手机制,主机结点将本机部分 算法的算力分摊到点对点的设备上进行分布式计算。如图4所示,当N个设 备进行通信时,第k个设备的算力为Tk,第k个设备的语音需要广播到N-1 个设备上完成声纹唤醒流程,把第k个设备上需要完成的提特征算力部分放 到N-1个设备上进行分布式计算,提特征算法的算力要求为G,前置算力(必 须放在本地端执行的算法部分所需算力)为Gsk,则第k个设备只需要具备 Gs+G*(Tk-Gsk)/(T1+T2+……+Tk+……+TN-Gs1-……Gsk-……-Gsn)的算力, 参与分布式计算的设备要求平均算力不得低于算法前置算力Gsk,具体如图4 所示。
具体地,用户在进行声纹注册时,分布式结点设备会进行数据采样,同 时通过判断每个节点触发注册唤醒词的时间(选择整个分布式系统中触发时 间最短的结点)、节点录制到音频的能量大小(选取能量最大结点),选择一 个声纹注册/验证的主机结点。此外,分布式声纹唤醒的技术难点在于多个分 布式麦克风之间的MIC Sensor的一致性、声学结构、声学系数要保持在相当 好的水准才能较好的做到声纹模型数据的共享,为此算法中含有声学自动校 准算法,通过外部播放特定信号源,控制麦克风设备在校准时的周围声场环境,设备通过录音后,可自动分析判断,当前麦克风与标准声学指标的差异, 并对此在MICSensor对应的数字增益,特定频段的数据补偿等方面进行校准 系数的计算,并将校准系数保存在存储介质中。
声纹识别,生物识别技术的一种,也称为说话人识别。声纹识别的理论 基础是每一个声音都具有独特的特征,通过该特征能将不同人的声音进行有 效的区分。声纹识别的一般步骤包括:收集语音->噪声抑制和有效语音检测 (VAD)->声纹特征提取->发声人的声音建模->识别匹配。
具体地,本发明通过传统唤醒算法和分布式边缘计算相结合,有效的发 挥了算力分摊和分布式决策的优点,将高额算力进行节点分摊和设备分布式 决策,有效的节约了计算资源,同时降低了单体的成本,为声纹唤醒在中低 端市场的进一步推广扫除了技术障碍,通过把声纹唤醒的高额算力分摊到不 同的计算芯片中,并通过中心决策的方式保证在相邻节点同时唤醒时有且仅 有一个设备产生应答,从而有效的解决了声纹唤醒算法高算力和多设备联动 的问题,同时由分布式边缘计算带来的算力分摊可以进一步实现更大资源模 型的声纹唤醒算法跑在终端上,通过对用户的音频数据进行统一的特征提取, 该特征可同时有用于构建声纹模型也可以用于鉴别当前的唤醒词,在降低算 法计算复杂度同时,在声纹特征鉴别的响应速度上也做到有效提升。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围, 凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构 变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范 围内。
Claims (5)
1.一种基于分布式边缘计算的声纹唤醒算法,其特征在于,包括以下步骤:
声纹注册,用户通过分布式设备的其中一个节点进行录音采集,用户通过说命令词“开始声纹注册”进行事件触发,分布式设备对用户的数据进行多特征提取,并在特征提取后生成对应的声纹特征模型Model-X,分布式存储,声纹模型数据压缩,并同时存储在分布式节点的设备的多种存储介质中;
声纹验证,用户通过分布式麦克风中的任意一个设备进行验证,用户通过说命令词“开始声纹验证”进行事件触发,麦克风设备对用户语音数据进行录制之后,主机对用户的语音数据进行特征模型提取和压缩,解压并与存储介质上的声纹特征模型数据进行匹配,匹配成功则选出相应的用户信息。
2.根据权利要求1所述的基于分布式边缘计算的声纹唤醒算法,其特征在于,所述的声纹注册包括:启动注册程序,录制用户唤醒词文本录音,所述唤醒词文本的字数在4字和10字之间。
4.根据权利要求1所述的基于分布式边缘计算的声纹唤醒算法,其特征在于,所述的分布式设备对用户的数据进行多特征提取包括:将声纹和关键词唤醒均使用卷积神经网络(CNN)来进行声纹特征提取:
CNN由卷积层构成,每个卷积层定义一组卷积内核(convolutional kernel),每一个卷积内核被重复作用到输入数据的不同位置,与该位置对应的局部数据进行逐个元素的乘加运算,结果即为该卷积内核在输入数据位置对应的输出,输入数据在经过一个卷积层之后得到的输出,其大小取决于:
1、卷积内核的数量;
2、每个卷积内核的大小;
3、在应用卷积内核时,相邻位置之间的间隔(内核的步长)。
当前使用到的是一维卷积神经网络,使用的Kernel Size为3的卷积核,kernel count为4,同时定义卷积处理后的输出矩阵与输入矩阵有相同的列数。
5.根据权利要求1所述的基于分布式边缘计算的声纹唤醒算法,其特征在于,所述的主机对用户的语音数据进行特征模型提取和压缩,解压并与存储介质上的声纹特征模型数据进行匹配,匹配成功则选出相应的用户信息包括:声纹模型匹配过程使用余弦相似度方法进行相关的得分评价,余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量,余弦值越接近1,就表明夹角越接近0度,在做多人模型相似度匹配时,取余弦值最大的模型作为目标检出模。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111625991.9A CN114464188A (zh) | 2021-12-28 | 2021-12-28 | 一种基于分布式边缘计算的声纹唤醒算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111625991.9A CN114464188A (zh) | 2021-12-28 | 2021-12-28 | 一种基于分布式边缘计算的声纹唤醒算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114464188A true CN114464188A (zh) | 2022-05-10 |
Family
ID=81407948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111625991.9A Pending CN114464188A (zh) | 2021-12-28 | 2021-12-28 | 一种基于分布式边缘计算的声纹唤醒算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114464188A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117116258A (zh) * | 2023-04-12 | 2023-11-24 | 荣耀终端有限公司 | 一种语音唤醒方法及电子设备 |
-
2021
- 2021-12-28 CN CN202111625991.9A patent/CN114464188A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117116258A (zh) * | 2023-04-12 | 2023-11-24 | 荣耀终端有限公司 | 一种语音唤醒方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
CN107492382B (zh) | 基于神经网络的声纹信息提取方法及装置 | |
CN110534099B (zh) | 语音唤醒处理方法、装置、存储介质及电子设备 | |
US9502038B2 (en) | Method and device for voiceprint recognition | |
CN112435684B (zh) | 语音分离方法、装置、计算机设备和存储介质 | |
CN110211599B (zh) | 应用唤醒方法、装置、存储介质及电子设备 | |
CN110364143A (zh) | 语音唤醒方法、装置及其智能电子设备 | |
CN109801634B (zh) | 一种声纹特征的融合方法及装置 | |
CN108922541B (zh) | 基于dtw和gmm模型的多维特征参数声纹识别方法 | |
CN107331384A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN107481718A (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
CN113223536B (zh) | 声纹识别方法、装置及终端设备 | |
CN113488058A (zh) | 一种基于短语音的声纹识别方法 | |
CN111179940A (zh) | 一种语音识别方法、装置及计算设备 | |
CN112183107A (zh) | 音频的处理方法和装置 | |
CN111968652B (zh) | 一种基于3dcnn-lstm的说话人识别方法及存储介质 | |
CN114464188A (zh) | 一种基于分布式边缘计算的声纹唤醒算法 | |
CN111161713A (zh) | 一种语音性别识别方法、装置及计算设备 | |
López-Espejo et al. | Keyword spotting for hearing assistive devices robust to external speakers | |
CN107093430A (zh) | 一种基于小波包变换的声纹特征提取算法 | |
CN111862978A (zh) | 一种基于改进mfcc系数的语音唤醒方法及系统 | |
CN111932056A (zh) | 客服质量评分方法、装置、计算机设备和存储介质 | |
CN116434758A (zh) | 声纹识别模型训练方法、装置、电子设备及存储介质 | |
CN111192569B (zh) | 双麦语音特征提取方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |