CN111916074A - 一种跨设备语音控制方法、系统、终端及存储介质 - Google Patents

一种跨设备语音控制方法、系统、终端及存储介质 Download PDF

Info

Publication number
CN111916074A
CN111916074A CN202010601540.0A CN202010601540A CN111916074A CN 111916074 A CN111916074 A CN 111916074A CN 202010601540 A CN202010601540 A CN 202010601540A CN 111916074 A CN111916074 A CN 111916074A
Authority
CN
China
Prior art keywords
voice
voice data
registered
user
equipment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010601540.0A
Other languages
English (en)
Inventor
叶林勇
肖龙源
蔡振华
李稀敏
刘晓葳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Kuaishangtong Technology Co Ltd
Original Assignee
Xiamen Kuaishangtong Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Kuaishangtong Technology Co Ltd filed Critical Xiamen Kuaishangtong Technology Co Ltd
Priority to CN202010601540.0A priority Critical patent/CN111916074A/zh
Publication of CN111916074A publication Critical patent/CN111916074A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明提出了一种跨设备语音控制方法、系统、终端及存储介质,所述方法包括:采集多人在不同设备上的训练语音数据,构建训练数据集;对训练语音数据进行预处理,提取出训练语音数据的MFCC特征以训练生成语音映射模型;获取从第一设备采集的注册语音数据,提取出注册语音数据的MFCC特征,进行音频指纹注册,绑定用户ID;获取从第二设备采集的操作指令语音数据,提取出操作指令语音数据的MFCC特征,并输入到语音映射模型中,映射到通过第一设备注册的音频指纹,识别出对应的用户ID;根据操作指令语音数据,完成对用户ID对应的第一设备相应的语音控制;实现了跨设备间的语音控制和权限用户语音验证,提高了跨设备语音识别的准确率。

Description

一种跨设备语音控制方法、系统、终端及存储介质
技术领域
本发明涉及语音识别技术领域,尤其涉及一种跨设备语音控制方法、系统、终端及存储介质。
背景技术
随着智能终端设备的普及和发展,用户期望可以在不同的终端设备之间进行灵活的语音控制,以极大提升用户体验。例如,在家庭时用户希望使用智能音箱通过语音控制手机播放音乐或视频,或者通过语音控制手机打开应用软件。
目前,跨设备语音控制是基于蓝牙连接传输语音操作指令,但在语音操作指令获取和传输的过程中,并未验证指令发出人员是否有权限控制当前设备,使得任何人均可通过无线连接当前设备后,然后通过语音控制当前设备,安全性能较低;另外,由于设备中声音采集硬件存在差异,使得不同设备的声音采集质量参差不齐,进而使得语音识别过程中验证有权限用户的准确率较低。
发明内容
鉴于上述状况,实有必要提供一种跨设备语音控制方法、系统、终端及存储介质,以解决上述问题。
本发明提供了一种跨设备语音控制方法,所述方法包括:
采集多人在不同设备上的训练语音数据,构建训练数据集;
对所述训练语音数据进行预处理,提取出所述训练语音数据的MFCC特征以训练生成语音映射模型;
获取从第一设备采集的注册语音数据,提取出所述注册语音数据的MFCC特征,进行音频指纹注册,绑定用户ID;
获取从第二设备采集的操作指令语音数据,提取出所述操作指令语音数据的MFCC特征,并输入到所述语音映射模型中,映射到通过所述第一设备注册的音频指纹,识别出对应的用户ID;
根据所述操作指令语音数据,完成对所述用户ID对应的第一设备相应的语音控制。
进一步地,提取出所述注册语音数据的MFCC特征,进行音频指纹注册,具体包括:
对采集的所述注册语音数据进行去噪处理;
将所述注册语音数据分割成整数份语音;
分别提取所述整数份语音的MFCC特征,根据所述MFCC特征计算得到每一份语音的特征语音向量;
将每一份所述语音的特征语音向量进行对比,筛选出对比的差值大于预设向量阈值的特征语音向量,生成筛选特征语音向量;
在注册语音数据中删除所述筛选特征语音向量对应的整数份语音,生成注册语音,并对注册语音进行音频指纹注册。
进一步地,对所述注册语音进行音频指纹注册具体包括:
将所述注册语音与现有的用户ID进行绑定,或者根据所述注册语音生成新的用户ID。
进一步地,对所述注册语音进行音频指纹注册,绑定用户ID之后,还包括:
对第一设备中的应用软件进行分类,并将分类信息及浏览历史记录导入对应的用户ID;
在识别出对应的用户ID之后,读取所述用户ID的应用软件分类信息和浏览历史数据,进行内容推荐。
进一步地,所述注册语音数据为用户朗读的一段预设的提示文字。
本发明还提供了一种跨设备语音控制系统,所述系统包括:
第一设备,用于采集注册语音数据;
第二设备,用于采集操作指令语音数据;
语音映射模块,用于采集多人在不同设备上的训练语音数据,构建训练数据集,并提取出所述训练语音数据的MFCC特征以训练生成语音映射模型。
特征提取模块,用于提取出所述注册语音数据或操作指令语音数据或训练语音数据的MFCC特征;
控制系统模块,用于根据所述注册语音数据的MFCC特征,对第一设备进行音频指纹注册,绑定用户ID。
所述控制系统模块还用于将所述操作指令语音数据的MFCC特征输入到所述语音映射模型中,映射到通过所述第一设备注册的音频指纹,识别出对应的用户ID,完成对所述用户ID对应的第一设备相应的语音控制。
进一步地,所述控制系统模块包括:
注册模块,用于根据所述注册语音数据,对第一设备进行音频指纹注册;
绑定模块,用于将所述注册语音数据与现有的用户ID相关联绑定,或者根据所述注册语音数据生成新的用户ID并相关联绑定;
匹配模块,用于接收语音映射模型输出的音频指纹,匹配所述注册语音数据,以确定对应的用户ID。
进一步地,所述语音映射模块包括:
语音采集模块,用于采集多人在不同设备上的训练语音数据,构建训练数据集;
神经网络模块,所述神经网络模块中预设语音映射模型,用于对输入的操作指令语音数据的MFCC特征进行处理,输出相对应的所述注册语音数据的MFCC特征。
本发明还提供了一种终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如所述一种跨设备语音控制方法中的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如所述一种跨设备语音控制方法中的步骤。
与现有技术相比,本发明提供的一种跨设备语音控制方法、系统、终端及存储介质具有如下有益效果:
1、本申请首先获取从第一设备采集的注册语音数据,提取出所述注册语音数据的MFCC特征,进行音频指纹注册,绑定用户ID;然后获取从第二设备采集的操作指令语音数据,提取出所述操作指令语音数据的MFCC特征,并输入到预先训练生成所述语音映射模型中,映射到通过所述第一设备注册的音频指纹,识别出对应的用户ID;最后根据所述操作指令语音数据,完成对所述用户ID对应的第一设备相应的语音控制,实现了跨设备间的语音控制和权限用户语音验证,给用户提供更好的使用体验,提升了跨设备语音控制的安全性。
2、本申请通过训练生成语音映射模型,实现操作指令语音数据映射对应注册语音数据,能够屏蔽不同语音设备之间的差异,提高跨设备语音识别的准确率。
附图说明
图1是本发明的一个实施例中的一种跨设备语音控制方法的流程图。
图2是本发明的一个实施例中的一种跨设备语音控制方法中步骤S30中根据注册语音数据进行音频指纹注册的流程图。
图3是本发明的一个实施例中的一种跨设备语音控制系统的模块示意图。
图4是本发明的一个实施例中的一种跨设备语音控制系统中语音映射模块的组成示意图。
图5是本发明的一个实施例中的一种跨设备语音控制系统中控制系统模块的组成示意图。
主要元件符号说明
100 系统
110 第一设备
120 第二设备
130 语音映射模块
131 语音采集模块
132 神经网络模块
140 特征提取模块
150 控制系统模块
151 注册模块
152 绑定模块
153 匹配模块
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
请参阅图1,本发明提供了一种跨设备语音控制方法,所述方法包括:
步骤S10、采集多人在不同设备上的训练语音数据,构建训练数据集。
步骤S20、对所述训练语音数据进行预处理,提取出所述训练语音数据的MFCC特征以训练生成语音映射模型。
在本实施例中,所述MFCC特征为梅尔频谱倒谱系数特征MFCC(Mel-frequencycepstral coefficient)。梅尔频率是基于人耳听觉特性提出来的,它与赫兹Hz频率成非线性对应关系。从说话人音频中提取MFCC特征一般包括以下步骤:预加重,分帧,加窗,傅里叶变换,梅尔滤波器组,离散余弦变换(DCT)等。其中预加重用于在一定程度提升高频部分,使信号的频谱变得平坦;分帧用于将语音按时间分成一系列帧;加窗步骤是采用窗函数增加帧左端和右端的连续性。接着,将音频进行傅里叶变换,从而将时域信号转换为频域信号。然后,利用梅尔滤波器组将频域信号的频率对应到梅尔刻度上,从而获得梅尔频谱。之后,通过离散余弦变换获得梅尔频谱的倒谱系数,进而可以获得倒谱梅尔频谱。
进一步地,在进行机器学习及模型训练的过程中,输入数据为所述训练语音数据的MFCC特征,从而对所述语音映射模型中的判别器进行训练,完成对所述语音映射模型中的判别器进行参数固化,所述语音映射模型的预期输出数据为其他设备获取到对应的同一个人的语音数据。
步骤S30、获取从第一设备采集的注册语音数据,提取出所述注册语音数据的MFCC特征,进行音频指纹注册,绑定用户ID。
在本实施例中,所述注册语音数据为用户朗读的一段预设的提示文字。提取出所述注册语音数据的MFCC特征,进行音频指纹注册的过程,如图2所示具体包括:
步骤S31、对采集的所述注册语音数据进行去噪处理。
在本实施例中,对采集的所述注册语音数据进行去噪处理可以采用经验模态分解和小波阈值相结合的方法对注册语音数据进行去噪处理,具体过程为:首先,采用经验模态分解方法对注册语音数据进行自适应分解,得到若干个本征模函数分量,其中,若干个本征模函数分量中包括注册语音数据的信号和噪声;其次,对本征模函数分量进行分析,从而确定含有噪声的高频本征模函数分量,采用小波阈值法对高频本征模函数分量进行去噪处理;最后,将去噪后的高频本征模函数分量和剩余的非高频本征模函数分量相加重构出初始的注册语音数据,从而得到去噪后的注册语音数据。
步骤S32、将所述注册语音数据分割成整数份语音。
在本实施例中,将所述注册语音数据平均分割成整数份语音,以便于对注册语音数据进行验证和处理。其中,可以将注册语音数据平均分割成10份、15份、20份、25份或者30份,可以删除一些有干扰的语音数据,一次采集语音就可以完成音频指纹注册。
步骤S33、分别提取所述整数份语音的MFCC特征,根据所述MFCC特征计算得到每一份语音的特征语音向量。
在本实施例中,提取到所述整数份语音的MFCC特征后,通过简化模型算法简化处理整份语音中每一份语音的MFCC特征,得到简化语音特征,再将简化语音特征投影到总体变化空间后,可得到更为纯净和简单的特征语音向量。
步骤S34、将每一份所述语音的特征语音向量进行对比,筛选出对比的差值大于预设向量阈值的特征语音向量,生成筛选特征语音向量。
在本实施例中,通过信道补偿算法,获取每一份语音的特征语音向量的频率和信道属性,对频率除以信道属性值的值取对数,然后分别对每一份所述语音对应的取对数后数值进行比较。当两两比较的语音的特征语音向量通过计算对数似然比,比较特征语音向量计算后的对数值之间的差值大于预设向量阈值的特征语音向量生成筛选特征语音向量。例如当10份语音的特征语音向量计算后的对数数值为9、9.2、9.1、9.2、9.1、9.2、9.1、9.2、9.2和9.6时,则删除对数数值为9.6对应的特征语音向量(即为筛选特征语音向量)。
步骤S35、在注册语音数据中删除所述筛选特征语音向量对应的整数份语音,生成注册语音,并对注册语音进行音频指纹注册。
在本实施例中,在注册语音数据中删除筛选特征语音向量对应的整数份语音,生成注册语音,对注册语音进行音频指纹注册。然后,将所述注册语音与现有的用户ID进行绑定,或者根据所述注册语音生成新的用户ID。
步骤S40、获取从第二设备采集的操作指令语音数据,提取出所述操作指令语音数据的MFCC特征,并输入到所述语音映射模型中,映射到通过所述第一设备注册的音频指纹,识别出对应的用户ID。
在本实施例中,通过将提取出的所述操作指令语音数据的MFCC特征输入以训练生成的语音映射模型中数据输入端,所述语音映射模型对所述操作指令语音数据的MFCC特征进行映射处理,所述语音映射模型中数据输出端输出相对应的注册语音数据,从而识别并获取对应的用户ID,实现验证注册用户与指令发出用户是否为同一人。
步骤S50、根据所述操作指令语音数据,完成对所述用户ID对应的第一设备相应的语音控制。
在本实施例中,对第一设备中的应用软件进行分类,并将分类信息及浏览历史记录导入对应的用户ID;在识别出对应的用户ID之后,读取所述用户ID的应用软件分类信息和浏览历史数据,进行内容推荐。例如,将第一设备中所有应用软件按照其使用功能分为聊天社交软件、视频播放软件、音频播放软件、浏览器软件,并将各个应用软件的浏览或播放历史数据导入对应的用户ID,当用户通过第二设备获取语音控制指令“打开最近播放的音乐”,识别到对应的用户ID后,控制第一设备从音频播放软件分类中寻找播放历史数据,然后打开相应的具体音频播放软件并播放最近播放的音乐文件。
本发明提供了一种跨设备语音控制方法,首先获取从第一设备采集的注册语音数据,提取出所述注册语音数据的MFCC特征,进行音频指纹注册,绑定用户ID;然后获取从第二设备采集的操作指令语音数据,提取出所述操作指令语音数据的MFCC特征,并输入到预先训练生成所述语音映射模型中,映射到通过所述第一设备注册的音频指纹,识别出对应的用户ID;最后根据所述操作指令语音数据,完成对所述用户ID对应的第一设备相应的语音控制,实现了跨设备间的语音控制,给用户提供更好的使用体验;另外,通过训练生成语音映射模型,实现操作指令语音数据映射对应注册语音数据,能够屏蔽不同语音设备之间的差异,提高跨设备语音识别的准确率。
请参阅图3,作为对上述各图示所示的方法的实现,本发明提供一种跨设备语音控制系统,所述系统100包括第一设备110、第二设备120、语音映射模块130、特征提取模块140和控制系统模块150。图3仅示出了所述系统的部分模块,但是应理解的是,并不要求实施所有示出的模块,可以替代的实施更多或者更少的模块。
所述第一设备110,用于采集注册语音数据。
所述第二设备120,用于采集操作指令语音数据。
在本实施例中,所述第一设备110和/或第二设备120可以为智能音箱、智能手表、智能手机、平板电脑、笔记本电脑、台式电脑等电子产品,也可以为智能空调、智能冰箱、扫地机器人、智能洗衣机等智能家居电器。所述第一设备110和/或第二设备120包括用于收录声音的麦克风硬件。
所述语音映射模块130,用于采集多人在不同设备上的训练语音数据,构建训练数据集,并提取出所述训练语音数据的MFCC特征以训练生成语音映射模型。
在本实施例中,如图4所示,所述语音映射模块130包括语音采集模块131和神经网络模块132。所述语音采集模块131用于采集多人在不同设备上的训练语音数据,构建训练数据集;所述神经网络模块132中预设语音映射模型,用于对输入的操作指令语音数据的MFCC特征进行处理,输出相对应的所述注册语音数据的MFCC特征。
进一步地,所述语音映射模型在在进行机器学习及模型训练的过程中,输入数据为所述训练语音数据的MFCC特征,从而对所述语音映射模型中的判别器进行训练,完成对所述语音映射模型中的判别器进行参数固化,所述语音映射模型的预期输出数据为其他设备获取到对应的同一个人的语音数据。
所述特征提取模块140,用于提取出所述注册语音数据或操作指令语音数据或训练语音数据的MFCC特征。
在本实施例中,所述MFCC特征为梅尔频谱倒谱系数特征MFCC(Mel-frequencycepstral coefficient)。梅尔频率是基于人耳听觉特性提出来的,它与赫兹Hz频率成非线性对应关系。从说话人音频中提取MFCC特征一般包括以下步骤:预加重,分帧,加窗,傅里叶变换,梅尔滤波器组,离散余弦变换(DCT)等。其中预加重用于在一定程度提升高频部分,使信号的频谱变得平坦;分帧用于将语音按时间分成一系列帧;加窗步骤是采用窗函数增加帧左端和右端的连续性。接着,将音频进行傅里叶变换,从而将时域信号转换为频域信号。然后,利用梅尔滤波器组将频域信号的频率对应到梅尔刻度上,从而获得梅尔频谱。之后,通过离散余弦变换获得梅尔频谱的倒谱系数,进而可以获得倒谱梅尔频谱。
所述控制系统模块150,用于根据所述注册语音数据的MFCC特征,对第一设备110进行音频指纹注册,绑定用户ID。
所述控制系统模块150还用于将所述操作指令语音数据的MFCC特征输入到所述语音映射模型中,映射到通过所述第一设备110注册的音频指纹,识别出对应的用户ID,完成对所述用户ID对应的第一设备110相应的语音控制。
在本实施例中,如图5所示,所述控制系统模块150包括注册模块151、绑定模块152和匹配模块153。
所述注册模块151,用于根据所述注册语音数据,对第一设备110进行音频指纹注册。
进一步地,所述注册模块151进行音频指纹注册的过程具体包括:首先将所述注册语音数据分割成整数份语音,例如平均分割成10份、15份、20份、25份或者30份;分别提取所述整数份语音的MFCC特征,根据所述MFCC特征计算得到每一份语音的特征语音向量;将每一份所述语音的特征语音向量进行对比,筛选出对比的差值大于预设向量阈值的特征语音向量,生成筛选特征语音向量;最后在注册语音数据中删除所述筛选特征语音向量对应的整数份语音,生成注册语音,并对注册语音进行音频指纹注册。
所述绑定模块152,用于将所述注册语音数据与现有的用户ID相关联绑定,或者根据所述注册语音数据生成新的用户ID并相关联绑定。
所述匹配模块153,用于接收语音映射模型输出的音频指纹,匹配所述注册语音数据,以确定对应的用户ID。
在本实施例中,可以对第一设备110中的应用软件进行分类,并将分类信息及浏览历史记录导入对应的用户ID;在识别出对应的用户ID之后,读取所述用户ID的应用软件分类信息和浏览历史数据,进行内容推荐。例如,将第一设备110中所有应用软件按照其使用功能分为聊天社交软件、视频播放软件、音频播放软件、浏览器软件,并将各个应用软件的浏览或播放历史数据导入对应的用户ID,当用户通过第二设备120获取语音控制指令“打开最近播放的音乐”,识别到对应的用户ID后,控制第一设备110从音频播放软件分类中寻找播放历史数据,然后打开相应的具体音频播放软件并播放最近播放的音乐文件。
本发明提供了一种跨设备语音控制系统,首先获取从第一设备采集的注册语音数据,提取出所述注册语音数据的MFCC特征,进行音频指纹注册,绑定用户ID;然后获取从第二设备采集的操作指令语音数据,提取出所述操作指令语音数据的MFCC特征,并输入到预先训练生成所述语音映射模型中,映射到通过所述第一设备注册的音频指纹,识别出对应的用户ID;最后根据所述操作指令语音数据,完成对所述用户ID对应的第一设备相应的语音控制,实现了跨设备间的语音控制,给用户提供更好的使用体验;另外,通过训练生成语音映射模型,实现操作指令语音数据映射对应注册语音数据,能够屏蔽不同语音设备之间的差异,提高跨设备语音识别的准确率。
本发明还提供一种终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述一种跨设备语音控制方法中的步骤。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述一种跨设备语音控制方法中的步骤。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神。

Claims (10)

1.一种跨设备语音控制方法,其特征在于,所述方法包括:
采集多人在不同设备上的训练语音数据,构建训练数据集;
对所述训练语音数据进行预处理,提取出所述训练语音数据的MFCC特征以训练生成语音映射模型;
获取从第一设备采集的注册语音数据,提取出所述注册语音数据的MFCC特征,进行音频指纹注册,绑定用户ID;
获取从第二设备采集的操作指令语音数据,提取出所述操作指令语音数据的MFCC特征,并输入到所述语音映射模型中,映射到通过所述第一设备注册的音频指纹,识别出对应的用户ID;
根据所述操作指令语音数据,完成对所述用户ID对应的第一设备相应的语音控制。
2.如权利要求1所述的一种跨设备语音控制方法,其特征在于,提取出所述注册语音数据的MFCC特征,进行音频指纹注册,具体包括:
对采集的所述注册语音数据进行去噪处理;
将所述注册语音数据分割成整数份语音;
分别提取所述整数份语音的MFCC特征,根据所述MFCC特征计算得到每一份语音的特征语音向量;
将每一份所述语音的特征语音向量进行对比,筛选出对比的差值大于预设向量阈值的特征语音向量,生成筛选特征语音向量;
在注册语音数据中删除所述筛选特征语音向量对应的整数份语音,生成注册语音,并对注册语音进行音频指纹注册。
3.如权利要求2所述的一种跨设备语音控制方法,其特征在于,对所述注册语音进行音频指纹注册具体包括:
将所述注册语音与现有的用户ID进行绑定,或者根据所述注册语音生成新的用户ID。
4.如权利要求3所述的一种跨设备语音控制方法,其特征在于,对所述注册语音进行音频指纹注册,绑定用户ID之后,还包括:
对第一设备中的应用软件进行分类,并将分类信息及浏览历史记录导入对应的用户ID;
在识别出对应的用户ID之后,读取所述用户ID的应用软件分类信息和浏览历史数据,进行内容推荐。
5.如权利要求1-4中任一项所述的一种跨设备语音控制方法,其特征在于,所述注册语音数据为用户朗读的一段预设的提示文字。
6.一种跨设备语音控制系统,其特征在于,所述系统包括:
第一设备,用于采集注册语音数据;
第二设备,用于采集操作指令语音数据;
语音映射模块,用于采集多人在不同设备上的训练语音数据,构建训练数据集,并提取出所述训练语音数据的MFCC特征以训练生成语音映射模型。
特征提取模块,用于提取出所述注册语音数据或操作指令语音数据或训练语音数据的MFCC特征;
控制系统模块,用于根据所述注册语音数据的MFCC特征,对第一设备进行音频指纹注册,绑定用户ID。
所述控制系统模块还用于将所述操作指令语音数据的MFCC特征输入到所述语音映射模型中,映射到通过所述第一设备注册的音频指纹,识别出对应的用户ID,完成对所述用户ID对应的第一设备相应的语音控制。
7.如权利要求6所述的一种跨设备语音控制系统,其特征在于,所述控制系统模块包括:
注册模块,用于根据所述注册语音数据,对第一设备进行音频指纹注册;
绑定模块,用于将所述注册语音数据与现有的用户ID相关联绑定,或者根据所述注册语音数据生成新的用户ID并相关联绑定;
匹配模块,用于接收语音映射模型输出的音频指纹,匹配所述注册语音数据,以确定对应的用户ID。
8.如权利要求6所述的一种跨设备语音控制系统,其特征在于,所述语音映射模块包括:
语音采集模块,用于采集多人在不同设备上的训练语音数据,构建训练数据集;
神经网络模块,所述神经网络模块中预设语音映射模型,用于对输入的操作指令语音数据的MFCC特征进行处理,输出相对应的所述注册语音数据的MFCC特征。
9.一种终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-5中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一项所述方法的步骤。
CN202010601540.0A 2020-06-29 2020-06-29 一种跨设备语音控制方法、系统、终端及存储介质 Pending CN111916074A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010601540.0A CN111916074A (zh) 2020-06-29 2020-06-29 一种跨设备语音控制方法、系统、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010601540.0A CN111916074A (zh) 2020-06-29 2020-06-29 一种跨设备语音控制方法、系统、终端及存储介质

Publications (1)

Publication Number Publication Date
CN111916074A true CN111916074A (zh) 2020-11-10

Family

ID=73226925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010601540.0A Pending CN111916074A (zh) 2020-06-29 2020-06-29 一种跨设备语音控制方法、系统、终端及存储介质

Country Status (1)

Country Link
CN (1) CN111916074A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117975949A (zh) * 2024-03-28 2024-05-03 杭州威灿科技有限公司 基于语音转换的事件记录方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170359337A1 (en) * 2016-06-12 2017-12-14 Criteo, SA Provision of cross-device identification
CN108172230A (zh) * 2018-01-03 2018-06-15 平安科技(深圳)有限公司 基于声纹识别模型的声纹注册方法、终端装置及存储介质
CN109378006A (zh) * 2018-12-28 2019-02-22 三星电子(中国)研发中心 一种跨设备声纹识别方法及系统
CN110232932A (zh) * 2019-05-09 2019-09-13 平安科技(深圳)有限公司 基于残差时延网络的说话人确认方法、装置、设备及介质
CN110827834A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 声纹注册方法、系统及计算机可读存储介质
CN110956965A (zh) * 2019-12-12 2020-04-03 电子科技大学 一种基于声纹识别的个性化智能家居安全控制系统及方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170359337A1 (en) * 2016-06-12 2017-12-14 Criteo, SA Provision of cross-device identification
CN108172230A (zh) * 2018-01-03 2018-06-15 平安科技(深圳)有限公司 基于声纹识别模型的声纹注册方法、终端装置及存储介质
CN109378006A (zh) * 2018-12-28 2019-02-22 三星电子(中国)研发中心 一种跨设备声纹识别方法及系统
CN110232932A (zh) * 2019-05-09 2019-09-13 平安科技(深圳)有限公司 基于残差时延网络的说话人确认方法、装置、设备及介质
CN110827834A (zh) * 2019-11-11 2020-02-21 广州国音智能科技有限公司 声纹注册方法、系统及计算机可读存储介质
CN110956965A (zh) * 2019-12-12 2020-04-03 电子科技大学 一种基于声纹识别的个性化智能家居安全控制系统及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117975949A (zh) * 2024-03-28 2024-05-03 杭州威灿科技有限公司 基于语音转换的事件记录方法、装置、设备及介质
CN117975949B (zh) * 2024-03-28 2024-06-07 杭州威灿科技有限公司 基于语音转换的事件记录方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
JP6855527B2 (ja) 情報を出力するための方法、及び装置
WO2018166187A1 (zh) 服务器、身份验证方法、系统及计算机可读存储介质
CN103971680B (zh) 一种语音识别的方法、装置
CN112435684B (zh) 语音分离方法、装置、计算机设备和存储介质
JP2019212288A (ja) 情報を出力するための方法、及び装置
CN109378006B (zh) 一种跨设备声纹识别方法及系统
CN112949708B (zh) 情绪识别方法、装置、计算机设备和存储介质
CN112820291A (zh) 智能家居控制方法、系统和存储介质
CN111028845A (zh) 多音频识别方法、装置、设备及可读存储介质
CN109256139A (zh) 一种基于Triplet-Loss的说话人识别方法
CN110473552A (zh) 语音识别认证方法及系统
US20170287489A1 (en) Synthetic oversampling to enhance speaker identification or verification
CN113327626A (zh) 语音降噪方法、装置、设备及存储介质
CN113823293B (zh) 一种基于语音增强的说话人识别方法及系统
CN113223536A (zh) 声纹识别方法、装置及终端设备
CN110136726A (zh) 一种语音性别的估计方法、装置、系统及存储介质
CN113035203A (zh) 一种动态变换语音应答风格的控制方法
CN111489763A (zh) 一种基于gmm模型的复杂环境下说话人识别自适应方法
CN108880815A (zh) 身份验证方法、装置和系统
KR102220964B1 (ko) 오디오 인식을 위한 방법 및 디바이스
CN111916074A (zh) 一种跨设备语音控制方法、系统、终端及存储介质
CN108630208B (zh) 服务器、基于声纹的身份验证方法及存储介质
CN107993666B (zh) 语音识别方法、装置、计算机设备及可读存储介质
CN112735477B (zh) 语音情感分析方法和装置
CN114302301A (zh) 频响校正方法及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201110