CN107656983A - 一种基于声纹识别的智能推荐方法及装置 - Google Patents
一种基于声纹识别的智能推荐方法及装置 Download PDFInfo
- Publication number
- CN107656983A CN107656983A CN201710807173.8A CN201710807173A CN107656983A CN 107656983 A CN107656983 A CN 107656983A CN 201710807173 A CN201710807173 A CN 201710807173A CN 107656983 A CN107656983 A CN 107656983A
- Authority
- CN
- China
- Prior art keywords
- vocal print
- user
- information
- print feature
- acoustic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000001755 vocal effect Effects 0.000 claims abstract description 75
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 230000002452 interceptive effect Effects 0.000 claims abstract description 13
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 238000001914 filtration Methods 0.000 claims abstract description 8
- 238000009432 framing Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000005070 sampling Methods 0.000 claims description 10
- 230000000737 periodic effect Effects 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000002203 pretreatment Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 claims 1
- 230000007774 longterm Effects 0.000 abstract description 2
- 238000001228 spectrum Methods 0.000 description 3
- 239000012141 concentrate Substances 0.000 description 2
- 235000008504 concentrate Nutrition 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 235000015277 pork Nutrition 0.000 description 2
- 235000015067 sauces Nutrition 0.000 description 2
- 230000001932 seasonal effect Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 235000002568 Capsicum frutescens Nutrition 0.000 description 1
- 241000287828 Gallus gallus Species 0.000 description 1
- 235000013194 Lyophyllum decastes Nutrition 0.000 description 1
- 240000005856 Lyophyllum decastes Species 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 235000012055 fruits and vegetables Nutrition 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 210000004218 nerve net Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000006188 syrup Substances 0.000 description 1
- 235000020357 syrup Nutrition 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/02—Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于声纹识别的智能推荐方法,包括以下步骤:获取采集到的声音信息并根据声音信息以得声纹特征;将所述声纹特征与存储的样本声纹特征集进行匹配,所述样本声纹特征集是所述终端的所有合法用户的声纹特征;对获取到的声音信息进行属性抽取以得属性特征词;根据属性特征词以及用户知识库以得用户推荐列表,所述用户知识库包括用户交互数据和知识型信息。本发明还提供了一种基于声纹识别的智能推荐装置。本发明的基于声纹识别的智能推荐方法对语音交互内容进行属性抽取并融合用户知识库通过协同过滤的算法生成符合用户长期偏好以及当前实际情况的内容列表,提高了用户使用体验。
Description
技术领域
本发明涉及一种数据处理领域,尤其涉及一种基于声纹识别的智能推荐方法及装置。
背景技术
目前,个性化智能推荐系统在国内外电商、互联网广告、移动互联网等领域的应用已经相当广泛,但基于声纹识别的智能推荐系统在智能家居领域的应用几乎还是空白。
基于语音交互的智能家居,使用者无法像传统的手机或PC用户一样通过账号密码登录。因此,系统无法区分出同一台设备的不同使用者。通过语音控制的智能家居产品,人与机器的语音交互比与手机或PC等通过外设输入的时间成本要高得多。因此,这要求机器与人的语音交互的过程中,对于用户发出的一些模糊指令,如“打开菜谱”、“播放音乐”等,需要尽可能返回最符合用户需求的内容。
但是,现有的方案存在以下缺陷:
(1)推荐的内容与用户的想要的内容关联性不是很大;
(2)同一个账户只能匹配识别一种声音。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种基于声纹识别的智能推荐方法。
本发明的目的之二在于提供一种电子设备。
本发明的目的之三在于提供一种计算机可读存储介质。
本发明的目的之四在于提供一种基于声纹识别的智能推荐装置。
本发明的目的之一采用如下技术方案实现:
一种基于声纹识别的智能推荐方法,包括以下步骤:
声音采集步骤:获取采集到的声音信息并根据声音信息以得声纹特征;
声纹比对步骤:将所述声纹特征与存储的样本声纹特征集进行匹配,所述样本声纹特征集是所述终端的所有合法用户的声纹特征;
属性抽取步骤:对获取到的声音信息进行属性抽取以得属性特征词;
推荐生成步骤:根据属性特征词以及用户知识库以得用户推荐列表,所述用户知识库包括用户交互数据和知识型信息。
进一步地,在声音采集步骤中对采集到的声音信息进行预处理,所述预处理步骤具体包括以下子步骤:
取样步骤:将采集到的声音信息进行等间隔取样以得取样信息;
离散步骤:将取样信息波形的幅度值离散化以得离散化信息;
预加重步骤:对离散化信息进行预加重处理;
分帧步骤:将预加重后离散化信息进行分帧处理以得分帧信息;
加窗步骤:对分帧信息进行加窗处理。
进一步地,在所述声音采集步骤中,对预处理后的声音信息在Mel频率域上提取倒谱系数以得第i帧信号的MFCC系数,该MFCC系数即为声音信号的声纹特征。
进一步地,在所述声纹比对步骤中:所述样本声纹特征集构建具体包括以下步骤:
获取到所有合法用户的样本声音;
通过GMM-UBM方法建立样本声纹特征集
进一步地,所述推荐生成步骤具体包括以下子步骤:根据属性特征词获取相应的查询项目;
获取与查询项目相关用户知识内容,所述用户知识内容包括所有合法用户的交互信息、知识型信息以及当前时间信息;
通过协同过滤推荐算法生成相应的用户推荐列表。
本发明的目的之二采用如下技术方案实现:
一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
声音采集步骤:获取采集到的声音信息并根据声音信息以得声纹特征;
声纹比对步骤:将所述声纹特征与存储的样本声纹特征集进行匹配,所述样本声纹特征集是所述终端的所有合法用户的声纹特征;
属性抽取步骤:对获取到的声音信息进行属性抽取以得属性特征词;
推荐生成步骤:根据属性特征词以及用户知识库以得用户推荐列表,所述用户知识库包括用户交互数据和知识型信息。
进一步地,在声音采集步骤中对采集到的声音信息进行预处理,所述预处理步骤具体包括以下子步骤:
取样步骤:将采集到的声音信息进行等间隔取样以得取样信息;
离散步骤:将取样信息波形的幅度值离散化以得离散化信息;
预加重步骤:对离散化信息进行预加重处理;
分帧步骤:将预加重后离散化信息进行分帧处理以得分帧信息;
加窗步骤:对分帧信息进行加窗处理。
进一步地,在所述声音采集步骤中,对预处理后的声音信息在Mel频率域上提取倒谱系数以得第i帧信号的MFCC系数,该MFCC系数即为声音信号的声纹特征。
进一步地,在所述声纹比对步骤中:所述样本声纹特征集构建的过程中通过GMM-UBM方法获取到的所有合法用户的样本声音建立样本声纹特征集。
本发明的目的之三采用如下技术方案实现:
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任意一项所述的方法。
本发明的目的之四采用如下技术方案实现:
一种基于声纹识别的智能推荐装置,包括以下模块:
声音采集模块:用于获取采集到的声音信息并根据声音信息以得声纹特征;
声纹比对模块:用于将所述声纹特征与存储的样本声纹特征集进行匹配,所述样本声纹特征集是所述终端的所有合法用户的声纹特征;
属性抽取模块:用于对获取到的声音信息进行属性抽取以得属性特征词;
推荐生成模块:用于根据属性特征词以及用户知识库以得用户推荐列表,所述用户知识库包括用户交互数据和知识型信息。
相比现有技术,本发明的有益效果在于:
本发明的基于声纹识别的智能推荐方法对语音交互内容进行属性抽取并融合用户知识库通过协同过滤的算法生成符合用户长期偏好以及当前实际情况的内容列表,提高了用户使用体验。
附图说明
图1为本发明的基于声纹识别的智能推荐方法的流程图;
图2为本发明的基于声纹识别的智能推荐装置的结构图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
实施例一:
如图1所示,本实施例提供了一种基于声纹识别的智能推荐方法,包括以下步骤:
S1:获取采集到的声音信息以及声音信号的声纹特征;在步骤S1中对采集到的声音信息进行预处理,所述预处理步骤具体包括以下子步骤:
S11a:将采集到的声音信息进行等间隔取样以得取样信息;把模拟信号在时间域上进行等间隔取样,语音信号采样频率为8~16kHz;
S12a:将取样信息波形的幅度值离散化以得离散化信息;
S13a:对离散化信息进行预加重处理;采用具有6dB/倍频程的提升高频特性的一阶预加重数字滤波器,其传递函数形式为:H(z)=1-μz-1
式中,μ为预加重系数,取值接近于1;
S14a:将语音信号分为10~30ms的帧,并且相邻帧之间有50%的交迭;
S15a:对预加重后的离散化信信息进行加窗处理。为降低直接分帧后旁瓣频谱的影响,使用汉明(Hamming)窗、汉宁(Hanning)窗等窗函数对分帧后的信号进行加窗处理。
对预处理后的声音信息在Mel频率域上提取倒谱系数以得第i帧信号的MFCC系数,该MFCC系数即为声音信号的声纹特征。
MFCC是在Mel频率域上提取的倒谱系数,设原始语音信号为s(n),经过预加重滤波、分帧、加窗等一系列预处理后为xi(n),其中i代表语音是第i帧,设N为一帧语音信号的点数,则n=1,2,…,N。MFCC是按帧分别进行的计算的,下面计算第i帧的MFCC:
S11b:对第i帧语音序列做DFT变换,得其频谱为Xi(k):
S12b:对频谱Xi(k)取模,得到Si(k):Si(k)=|Xi(k)|;
S13b:将Si(k)通过Mel滤波器组Hm(k)进行频域变换,得到M个参数Pi(m):
Pi(m)=Hm(k)·Si(k)′
其中,Hm(k)是由若干个带通的三角滤波器构成,0≤m<M。M为滤波器的个数。滤波器的定义为:
其中,
上式中,fh和fl分别为滤波器频率应用范围的最高和最低频率,Fs为采样频率,Mel-1()为Mel(x)的逆系数:
Mel-1(x)=700(ex/2295-1)
S14b:计算Pi(m)的自然对数,得Li(m):
Li(m)=ln(Pi(m))
S15b:对Li(m)进行离散余弦变换,得
Ci(n)=DCT(m,n)·Li(m)
其中,
Ci(n)即为第i帧信号的MFCC系数,该MFCC系数即为均值超矢量M;
S2:将所述声纹特征与存储的样本声纹特征集进行匹配,所述样本声纹特征集是所述终端的所有合法用户的声纹特征;在本实施例中,使用以人为分类对象的深度神经网络和以音素为分类对象的深度神经网络两种有监督模型以及RBM无监督模型。在这三种模型中,分别提取不同隐层的高维输出向量作PCA之后在经过特征规整形成新的区分性高的深度特征,深度特征与原始倒谱特征拼接形成tandem深度特征;
在所述步骤S2中:所述样本声纹特征集构建方法为:获取到所有合法用户的样本声音;通过GMM-UBM方法建立样本声纹特征集。合法用户也即是已经完成注册的用户。
采集当前说话人一段语音,分析这段语音的特征,判别当前说话人属于用户集中哪位用户。首先通过大量带标签的语音数据集,训练出模型的空间参数,完成系统模型的构建,然后对用户集中每一个用户进行声纹注册,通过对注册人的不同声音特征完成声纹注册,最后在系统运行时,分析待识别人声音特征,获得待识别人声纹,对比已注册声纹用户的声纹,最终确定待识别人的声纹属于用户集中哪位用户。所述声纹识别部分采用的是基于深层特征空间的说话人识别系统,该系统分为系统模型空间训练、注册说话人声纹生成和测试说话人识别三个部分。所述注册说话人声纹生成对于注册说话人语料,首先提取特征得到超矢量M,生成最终的注册说话人声纹。通过说话人声纹矢量M,分别与注册集中的声纹矢量计算其余弦距离,余弦距离最小的声纹所属的注册人即为说话人。
S3:对获取到的声音信息进行属性抽取以得属性特征词;
通过深度语义理解技术对交互语句进行属性抽取和情感分类,在本发明实施例中,对说话内容进行分词,属性抽取和情感分类,使用自定义的分词,抽取出语句中说话者真正关心的名词;如“红烧肉怎么做?”,提取处“菜名”—“红烧肉”等特征词;
S4:根据属性特征词以及知识库以得用户推荐列表。提取已识别说话者,交互日志,说话内容的属性抽取结果、时间。
利用统计的方法寻找目标用户的最近邻居集合,然后依据最近邻居集合对项目的历史评分,预测目标用户对目标项目的评分,把预测评分从大到小排序,选择前若干项的项目作为系统的最终推荐结果推荐给目标用户。也即是根据其他用户对该项目的打分来预测当前用户对该项目的打分值;
算法采用一个m*n*t阶用户--项目评分--时间段,矩阵来表示所有数据集用户在不同时间段内的评分数据,评分数据采用分数表示用户对项目的喜好程度,使用0到5之间的整数表示用户对项目的喜好,0表示没有评分,1到5表示用户对项目的喜欢程度逐渐加深。算法采用融合时间维度的协同过滤,统计不同时间段内用户对项目的评分。将时间划分为不同的类别,用上下文预过滤方法来推断不同时间段用户的偏好,一天分为早中晚,提高了预测的精度采用分类的方式处理时间上下文,将时间上下文信息以及其他上下文信息联系起来,然后对所有上下文信息采用同样的方式建模处理。
通过网页抓取程序,抓取各时间段的天气信息,季节气候信息,同时收集日常的生活常识,构建知识库。本发明实施例中,为了更好的理解用户的意图状态。我们收集了用户与设备交互时的天气状况,如晴或雨,温度高低等信息。同时也收集生活常识,比如当前季节的时令果蔬,炎热的夏天适合喝暑糖水等。并以此构建知识库。然后使用基于时间的协同过滤算法,为每个用户生成推荐列表。
本发明实施例中,通过上述步骤,获得可以获取一些相关信息,如厨房领域的菜名、制作方式、口味、菜系、时间、时节天气等信息,如下表1所示:
菜名 | 菜系 | 口味 | 制作方式 | 时间 | 季节 | 天气 | 食材 |
辣子鸡 | 川菜 | 辣 | 炒 | 2017/1/29 10点 | 春季 | 晴冷 | 鸡肉 |
… | … | … | … | … | … | … | … |
根据表1所示数据,得到用户-属性的倒排表,以此来计算各用户不同时间段之间的余弦相似度,排序得到用户不同时间段的相似用户,并根据所得到相似用户计算得到用户评分由高到低的推荐列表。
或者还可以采用余弦相似算法计算目标用户与所有用户向量空间距离后,采用Top-N方法产生最终的推荐项目列表。
本发明实施例中,确定用户画像和知识库后,协同过滤单元生成用户的推荐列表,并保存到redis数据库中。并且系统会保存每次用户与其生成的列表以及其最终选择的列表以为下次推荐提供参考数据。
实施例二:
实施例二公开了一种电子设备,该电子设备包括处理器、存储器以及程序,其中处理器和存储器均可采用一个或多个,程序被存储在存储器中,并且被配置成由处理器执行,处理器执行该程序时,实现实施例一的基于声纹识别的智能推荐方法。该电子设备可以是手机、电脑、平板电脑等等一系列的电子设备。
实施例三:
实施例三公开了一种可读的计算机存储介质,该存储介质用于存储程序,并且该程序被处理器执行时,实现实施例一的基于声纹识别的智能推荐方法。
实施例四:
如图2所示,本实施例提供了一种基于声纹识别的智能推荐装置,包括以下模块:
声音采集模块:用于获取采集到的声音信息并根据声音信息以得声纹特征;
声纹比对模块:用于将所述声纹特征与存储的样本声纹特征集进行匹配,所述样本声纹特征集是所述终端的所有合法用户的声纹特征;
属性抽取模块:用于对获取到的声音信息进行属性抽取以得属性特征词;
推荐生成模块:用于根据属性特征词以及用户知识库以得用户推荐列表,所述用户知识库包括用户交互数据和知识型信息。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。
Claims (10)
1.一种基于声纹识别的智能推荐方法,其特征在于,包括以下步骤:
声音采集步骤:获取采集到的声音信息并根据声音信息以得声纹特征;
声纹比对步骤:将所述声纹特征与存储的样本声纹特征集进行匹配,所述样本声纹特征集是所述终端的所有合法用户的声纹特征;
属性抽取步骤:对获取到的声音信息进行属性抽取以得属性特征词;
推荐生成步骤:根据属性特征词以及用户知识库以得用户推荐列表,所述用户知识库包括用户交互数据和知识型信息。
2.如权利要求1所述的基于声纹识别的智能推荐方法,其特征在于,在声音采集步骤中对采集到的声音信息进行预处理,所述预处理步骤具体包括以下子步骤:
取样步骤:将采集到的声音信息进行等间隔取样以得取样信息;
离散步骤:将取样信息波形的幅度值离散化以得离散化信息;
预加重步骤:对离散化信息进行预加重处理;
分帧步骤:将预加重后离散化信息进行分帧处理以得分帧信息;
加窗步骤:对分帧信息进行加窗处理。
3.如权利要求2所述的基于声纹识别的智能推荐方法,其特征在于,在所述声音采集步骤中,对预处理后的声音信息在Mel频率域上提取倒谱系数以得第i帧信号的MFCC系数,该MFCC系数即为声音信号的声纹特征。
4.如权利要求1-3中任意一项所述的基于声纹识别的智能推荐方法,其特征在于,在所述声纹比对步骤中:所述样本声纹特征集构建具体包括以下步骤:
获取到所有合法用户的样本声音;
通过GMM-UBM方法建立样本声纹特征集。
5.如权利要求1-3中任意一项所述的基于声纹识别的智能推荐方法,其特征在于,所述推荐生成步骤具体包括以下子步骤:
根据属性特征词获取相应的查询项目;
获取与查询项目相关用户知识内容,所述用户知识内容包括所有合法用户的交互信息、知识型信息以及当前时间信息;
通过协同过滤推荐算法生成相应的用户推荐列表。
6.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
声音采集步骤:获取采集到的声音信息并根据声音信息以得声纹特征;
声纹比对步骤:将所述声纹特征与存储的样本声纹特征集进行匹配,所述样本声纹特征集是所述终端的所有合法用户的声纹特征;
属性抽取步骤:对获取到的声音信息进行属性抽取以得属性特征词;
推荐生成步骤:根据属性特征词以及用户知识库以得用户推荐列表,所述用户知识库包括用户交互数据和知识型信息。
7.如权利要求6所述的电子设备,其特征在于,在声音采集步骤中对采集到的声音信息进行预处理,所述预处理步骤具体包括以下子步骤:
取样步骤:将采集到的声音信息进行等间隔取样以得取样信息;
离散步骤:将取样信息波形的幅度值离散化以得离散化信息;
预加重步骤:对离散化信息进行预加重处理;
分帧步骤:将预加重后离散化信息进行分帧处理以得分帧信息;
加窗步骤:对分帧信息进行加窗处理。
8.如权利要求7所述的电子设备,其特征在于,在所述声音采集步骤中,对预处理后的声音信息在Mel频率域上提取倒谱系数以得第i帧信号的MFCC系数,该MFCC系数即为声音信号的声纹特征。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述的方法。
10.一种基于声纹识别的智能推荐装置,其特征在于,包括以下模块:
声音采集模块:用于获取采集到的声音信息并根据声音信息以得声纹特征;
声纹比对模块:用于将所述声纹特征与存储的样本声纹特征集进行匹配,所述样本声纹特征集是所述终端的所有合法用户的声纹特征;
属性抽取模块:用于对获取到的声音信息进行属性抽取以得属性特征词;
推荐生成模块:用于根据属性特征词以及用户知识库以得用户推荐列表,所述用户知识库包括用户交互数据和知识型信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710807173.8A CN107656983A (zh) | 2017-09-08 | 2017-09-08 | 一种基于声纹识别的智能推荐方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710807173.8A CN107656983A (zh) | 2017-09-08 | 2017-09-08 | 一种基于声纹识别的智能推荐方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107656983A true CN107656983A (zh) | 2018-02-02 |
Family
ID=61129460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710807173.8A Pending CN107656983A (zh) | 2017-09-08 | 2017-09-08 | 一种基于声纹识别的智能推荐方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107656983A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108710310A (zh) * | 2018-06-05 | 2018-10-26 | 南京邮电大学 | 一种适用于智能家居的模糊指令交互方法 |
CN108765051A (zh) * | 2018-04-16 | 2018-11-06 | 达而观信息科技(上海)有限公司 | 物品推荐方法和装置 |
CN109036395A (zh) * | 2018-06-25 | 2018-12-18 | 福来宝电子(深圳)有限公司 | 个性化的音箱控制方法、系统、智能音箱及存储介质 |
CN109299232A (zh) * | 2018-09-17 | 2019-02-01 | 北京小米移动软件有限公司 | 内容推荐方法及装置 |
CN109712635A (zh) * | 2018-12-28 | 2019-05-03 | 深圳创维-Rgb电子有限公司 | 一种声音数据处理方法、智能终端及存储介质 |
CN110209922A (zh) * | 2018-06-12 | 2019-09-06 | 中国科学院自动化研究所 | 对象推荐方法、装置、存储介质及计算机设备 |
TWI682386B (zh) * | 2018-05-09 | 2020-01-11 | 廣達電腦股份有限公司 | 整合式語音辨識系統及方法 |
CN111243603A (zh) * | 2020-01-09 | 2020-06-05 | 厦门快商通科技股份有限公司 | 声纹识别方法、系统、移动终端及存储介质 |
CN111489272A (zh) * | 2019-01-29 | 2020-08-04 | 佛山市顺德区美的电热电器制造有限公司 | 菜谱推荐方法、装置、推荐系统及其相关设备 |
CN111931046A (zh) * | 2020-07-30 | 2020-11-13 | 大众问问(北京)信息科技有限公司 | 一种信息智能推荐方法、装置及计算机设备 |
CN112732951A (zh) * | 2020-12-30 | 2021-04-30 | 青岛海信智慧生活科技股份有限公司 | 一种人机交互的方法及装置 |
CN112863521A (zh) * | 2020-12-24 | 2021-05-28 | 哈尔滨理工大学 | 一种基于互信息估计的说话人识别方法 |
CN115214541A (zh) * | 2022-08-10 | 2022-10-21 | 海南小鹏汽车科技有限公司 | 车辆控制方法、车辆及计算机可读存储介质 |
CN117198338A (zh) * | 2023-11-07 | 2023-12-08 | 中瑞科技术有限公司 | 一种基于人工智能的对讲机声纹识别方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103559197A (zh) * | 2013-09-23 | 2014-02-05 | 浙江大学 | 基于上下文预过滤的实时音乐推荐方法 |
US20140258324A1 (en) * | 2013-03-06 | 2014-09-11 | Nuance Communications, Inc. | Task assistant utilizing context for improved interaction |
CN104836720A (zh) * | 2014-02-12 | 2015-08-12 | 北京三星通信技术研究有限公司 | 交互式通信中进行信息推荐的方法及装置 |
CN105095406A (zh) * | 2015-07-09 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 一种基于用户特征的语音搜索方法及装置 |
CN106601259A (zh) * | 2016-12-13 | 2017-04-26 | 北京奇虎科技有限公司 | 一种基于声纹搜索的信息推荐方法及装置 |
CN106952643A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
-
2017
- 2017-09-08 CN CN201710807173.8A patent/CN107656983A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140258324A1 (en) * | 2013-03-06 | 2014-09-11 | Nuance Communications, Inc. | Task assistant utilizing context for improved interaction |
CN103559197A (zh) * | 2013-09-23 | 2014-02-05 | 浙江大学 | 基于上下文预过滤的实时音乐推荐方法 |
CN104836720A (zh) * | 2014-02-12 | 2015-08-12 | 北京三星通信技术研究有限公司 | 交互式通信中进行信息推荐的方法及装置 |
CN105095406A (zh) * | 2015-07-09 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 一种基于用户特征的语音搜索方法及装置 |
CN106601259A (zh) * | 2016-12-13 | 2017-04-26 | 北京奇虎科技有限公司 | 一种基于声纹搜索的信息推荐方法及装置 |
CN106952643A (zh) * | 2017-02-24 | 2017-07-14 | 华南理工大学 | 一种基于高斯均值超矢量与谱聚类的录音设备聚类方法 |
Non-Patent Citations (2)
Title |
---|
王立才等: "上下文感知推荐系统", 《软件学报》 * |
田垚: "基于深度神经网络和Bottleneck特征的说话人识别系统", 《清华大学学报(自然科学版)》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108765051B (zh) * | 2018-04-16 | 2022-03-22 | 达而观信息科技(上海)有限公司 | 物品推荐方法和装置 |
CN108765051A (zh) * | 2018-04-16 | 2018-11-06 | 达而观信息科技(上海)有限公司 | 物品推荐方法和装置 |
TWI682386B (zh) * | 2018-05-09 | 2020-01-11 | 廣達電腦股份有限公司 | 整合式語音辨識系統及方法 |
CN108710310A (zh) * | 2018-06-05 | 2018-10-26 | 南京邮电大学 | 一种适用于智能家居的模糊指令交互方法 |
CN110209922A (zh) * | 2018-06-12 | 2019-09-06 | 中国科学院自动化研究所 | 对象推荐方法、装置、存储介质及计算机设备 |
CN110209922B (zh) * | 2018-06-12 | 2023-11-10 | 中国科学院自动化研究所 | 对象推荐方法、装置、存储介质及计算机设备 |
CN109036395A (zh) * | 2018-06-25 | 2018-12-18 | 福来宝电子(深圳)有限公司 | 个性化的音箱控制方法、系统、智能音箱及存储介质 |
CN109299232A (zh) * | 2018-09-17 | 2019-02-01 | 北京小米移动软件有限公司 | 内容推荐方法及装置 |
CN109712635A (zh) * | 2018-12-28 | 2019-05-03 | 深圳创维-Rgb电子有限公司 | 一种声音数据处理方法、智能终端及存储介质 |
CN109712635B (zh) * | 2018-12-28 | 2020-10-09 | 深圳创维-Rgb电子有限公司 | 一种声音数据处理方法、智能终端及存储介质 |
CN111489272A (zh) * | 2019-01-29 | 2020-08-04 | 佛山市顺德区美的电热电器制造有限公司 | 菜谱推荐方法、装置、推荐系统及其相关设备 |
CN111243603A (zh) * | 2020-01-09 | 2020-06-05 | 厦门快商通科技股份有限公司 | 声纹识别方法、系统、移动终端及存储介质 |
CN111931046A (zh) * | 2020-07-30 | 2020-11-13 | 大众问问(北京)信息科技有限公司 | 一种信息智能推荐方法、装置及计算机设备 |
CN112863521A (zh) * | 2020-12-24 | 2021-05-28 | 哈尔滨理工大学 | 一种基于互信息估计的说话人识别方法 |
CN112863521B (zh) * | 2020-12-24 | 2022-07-05 | 哈尔滨理工大学 | 一种基于互信息估计的说话人识别方法 |
CN112732951A (zh) * | 2020-12-30 | 2021-04-30 | 青岛海信智慧生活科技股份有限公司 | 一种人机交互的方法及装置 |
CN115214541A (zh) * | 2022-08-10 | 2022-10-21 | 海南小鹏汽车科技有限公司 | 车辆控制方法、车辆及计算机可读存储介质 |
CN115214541B (zh) * | 2022-08-10 | 2024-01-09 | 海南小鹏汽车科技有限公司 | 车辆控制方法、车辆及计算机可读存储介质 |
CN117198338A (zh) * | 2023-11-07 | 2023-12-08 | 中瑞科技术有限公司 | 一种基于人工智能的对讲机声纹识别方法及系统 |
CN117198338B (zh) * | 2023-11-07 | 2024-01-26 | 中瑞科技术有限公司 | 一种基于人工智能的对讲机声纹识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107656983A (zh) | 一种基于声纹识别的智能推荐方法及装置 | |
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
Wang et al. | Wavelet packet analysis for speaker-independent emotion recognition | |
WO2018108080A1 (zh) | 一种基于声纹搜索的信息推荐方法及装置 | |
US20150112759A1 (en) | Method and apparatus for providing customized food life service | |
CN108197115A (zh) | 智能交互方法、装置、计算机设备和计算机可读存储介质 | |
CN103870973B (zh) | 基于电子信息的关键词提取的信息推送、搜索方法及装置 | |
CN109460737A (zh) | 一种基于增强式残差神经网络的多模态语音情感识别方法 | |
CN106294425B (zh) | 商品相关网络文章之自动图文摘要方法及系统 | |
Zhang et al. | Deep learning and SVM‐based emotion recognition from Chinese speech for smart affective services | |
CN110265040A (zh) | 声纹模型的训练方法、装置、存储介质及电子设备 | |
CN107886949A (zh) | 一种内容推荐方法及装置 | |
CN103531206B (zh) | 一种结合局部与全局信息的语音情感特征提取方法 | |
CN102411932B (zh) | 结合声门激励和声道调制信息的汉语语音情感提取及建模方法 | |
CN103943104A (zh) | 一种语音信息识别的方法及终端设备 | |
CN110689261A (zh) | 服务质量评测产品定制平台及方法 | |
CN109299266B (zh) | 一种用于中文新闻突发事件的文本分类与抽取方法 | |
KR101319413B1 (ko) | 제품 및 서비스 관련 리뷰에 대한 요약 정보 생성 시스템 및 방법 | |
CN110136726A (zh) | 一种语音性别的估计方法、装置、系统及存储介质 | |
WO2023184942A1 (zh) | 语音交互方法、装置及电器 | |
Chen et al. | Construction of affective education in mobile learning: The study based on learner’s interest and emotion recognition | |
Shah et al. | Speech emotion recognition based on SVM using MATLAB | |
KR101652433B1 (ko) | Sns 문서에서 추출된 토픽을 기반으로 파악된 감정에 따른 개인화 광고 제공 방법 | |
CN113139525A (zh) | 一种基于多源信息融合的情感识别方法和人机交互系统 | |
Rankinen et al. | The entanglement of dialectal variation and speaker normalization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180202 |