CN108010527A - 语音识别方法、装置、计算机设备和存储介质 - Google Patents
语音识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN108010527A CN108010527A CN201711376008.8A CN201711376008A CN108010527A CN 108010527 A CN108010527 A CN 108010527A CN 201711376008 A CN201711376008 A CN 201711376008A CN 108010527 A CN108010527 A CN 108010527A
- Authority
- CN
- China
- Prior art keywords
- model
- user
- data
- algorithm
- prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 64
- 238000010801 machine learning Methods 0.000 claims abstract description 33
- 238000012549 training Methods 0.000 claims description 73
- 238000007477 logistic regression Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 description 18
- 238000012360 testing method Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 7
- 238000000354 decomposition reaction Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004378 air conditioning Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000000205 computational method Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 238000005498 polishing Methods 0.000 description 2
- 235000015170 shellfish Nutrition 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Mathematical Physics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种语音识别方法、装置、计算机设备和存储介质,该方法包括以下步骤:采集用户数据,用户数据包括第一类数据和第二类数据,第一类数据包括用户操作数据,第二类数据包括用户语言数据;通过机器学习算法利用用户数据进行预测建模,生成预测模型;在语音识别过程中,当识别用户的控制命令失败时,利用预测模型预测出用户的控制命令。本发明实施例所提供的一种语音识别方法,通过采集用户数据,并通过机器学习算法利用用户数据进行预测建模生成预测模型,当语音识别过程中识别用户的控制命令失败时,则利用预测模型预测出用户的控制命令,从而提高了语音识别的成功率和准确率,进而提高了语音控制的可靠性和智能性,提升了用户体验。
Description
技术领域
本发明涉及语音控制技术领域,尤其是涉及一种语音识别方法、装置、计算机设备和存储介质。
背景技术
随着语音控制技术的发展,语音控制已广泛应用于各个领域,最典型的是应用于智能家居控制领域。在进行语音控制时,系统首先根据用户的语音指令进行语音识别,识别出用户的控制命令,再根据控制命令控制相应的智能设备。
在进行语音识别时,需要将用户的语音信息识别为文字信息。由于用户说话的习惯、方式、音调音色等各不相同,故同一个控制命令,当由不同的用户说出来时,解析出来的文字可能千差万别,这就导致最终识别出的控制命令可能是错误的,或者根本识别不出控制命令,从而影响语音控制的可靠性,降低了用户体验。
因此,如何提高语音识别的成功率和准确率,进而提高语音控制的可靠性,是当前亟需解决的技术问题。
发明内容
本发明实施例的主要目的在于提供一种语音识别方法、装置、计算机设备和存储介质,旨在提高语音识别的成功率和准确率,进而提高语音控制的可靠性。
为达以上目的,本发明实施例提出一种语音识别方法,所述方法包括以下步骤:
采集用户数据;所述用户数据包括第一类数据和第二类数据,所述第一类数据包括用户操作数据,所述第二类数据包括用户语言数据;
通过机器学习算法利用所述用户数据进行预测建模,生成预测模型;
在语音识别过程中,当识别用户的控制命令失败时,利用所述预测模型预测出用户的控制命令。
可选地,所述通过机器学习算法利用所述用户数据进行预测建模,生成预测模型的步骤包括:
对所述用户数据进行形式转换处理,转换为可用于机器学习的数据形式;
通过机器学习算法对所述用户数据进行学习训练,生成预测模型。
可选地,所述通过机器学习算法对所述用户数据进行学习训练,生成预测模型的步骤包括:
通过二分K均值聚类算法对所述第一类数据进行学习训练,生成聚类模型;通过贝叶斯算法对所述第二类数据进行学习训练,生成第二概率模型;
通过梯度提升树算法对所述聚类模型和所述第二概率模型进行学习训练,生成所述预测模型。
可选地,所述通过机器学习算法对所述用户数据进行学习训练,生成预测模型的步骤包括:
分别通过二分K均值聚类算法和贝叶斯算法对所述第一类数据进行学习训练,生成聚类模型和第一概率模型;通过贝叶斯算法对所述第二类数据进行学习训练,生成第二概率模型;
通过梯度提升树算法对所述聚类模型、所述第一概率模型和所述第二概率模型进行学习训练,生成所述预测模型。
可选地,所述通过机器学习算法对所述用户数据进行学习训练,生成预测模型的步骤包括:
分别通过二分K均值聚类算法、贝叶斯算法和多元逻辑回归算法对所述第一类数据进行学习训练,生成聚类模型、第一概率模型和回归模型;通过贝叶斯算法对所述第二类数据进行学习训练,生成第二概率模型;
通过梯度提升树算法对所述聚类模型、所述第一概率模型、所述第二概率模型和所述回归模型进行学习训练,生成所述预测模型。
可选地,所述第一类数据还包括外部环境数据。
可选地,所述利用所述预测模型预测出用户的控制命令的步骤之后还包括:收集预测后的反馈结果,根据所述反馈结果校正所述预测模型。
本发明实施例同时提出一种语音识别装置,所述装置包括:
数据采集模块,用于采集用户数据;所述用户数据包括第一类数据和第二类数据,所述第一类数据包括用户操作数据,所述第二类数据包括用户语言数据;
预测建模模块,用于通过机器学习算法利用所述用户数据进行预测建模,生成预测模型;
命令预测模块,用于在语音识别过程中,当识别用户的控制命令失败时,利用所述预测模型预测出用户的控制命令。
本发明实施例还提出一种计算机设备,其包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,所述应用程序被配置为用于执行前述语音识别方法。
本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有语音识别程序,所述语音识别程序被处理器执行时,实现前述语音识别方法的步骤。
本发明实施例所提供的一种语音识别方法,通过采集用户数据,并通过机器学习算法利用用户数据进行预测建模生成预测模型,当语音识别过程中识别用户的控制命令失败时,则利用预测模型预测出用户的控制命令,从而提高了语音识别的成功率和准确率,进而提高了语音控制的可靠性和智能性,提升了用户体验。
附图说明
图1是本发明的语音识别方法第一实施例的流程图;
图2是本发明的语音识别方法第二实施例的流程图;
图3是本发明的语音识别装置第一实施例的模块示意图;
图4是图3中的预测建模模块的模块示意图;
图5是图4中的模型建立单元的模块示意图;
图6是图4中的模型建立单元的又一模块示意图;
图7是图4中的模型建立单元的又一模块示意图;
图8是图4中的模型建立单元的又一模块示意图;
图9是本发明的语音识别装置第二实施例的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
本发明实施例的语音识别方法,主要应用于计算机设备,所述计算机设备主要指服务器,当然也可以指终端设备,本发明对此不作限定。
参见图1,提出本发明的语音识别方法一实施例,所述方法包括以下步骤:
S11、采集用户数据。
本发明实施例中,用户数据具有多样性,主要包括第一类数据和第二类数据。第一类数据至少包括用户操作数据,还可以进一步包括外部环境数据,此外还可以进一步包括其它数据,本发明对此不作限定;第二类数据主要包括用户语言数据,此外还可以包括其它数据。
服务器可以直接从用户操作日志中获取用户操作数据,如从智能家居系统平台的用户操作日志中获取用户操作数据。用户操作数据主要包括用户基本信息、时间信息和操作信息。用户基本信息包括用户类型、用户成员、用户位置信息等,其中,用户类型如家庭、企事业单位等,用户成员如是否有儿童、老人、孕妇以及成员数量等,用户位置信息如行政区域(如省、市、区、街道)、楼层、房间及其朝向等。操作信息包括操作指令、操作终端类型、操作设备、触发机制等,其中,操作指令如打开、关闭、设置、调大、调小等,操作终端类型如应用(APP)、语音、控制板等,操作设备如风扇、电视、窗帘等,触发机制如手动、联动、定时、情景、远程等。
服务器可以通过终端设备获取用户所在地区的外部环境数据,该外部环境数据主要包括地理信息(如经纬度)、天气信息等,天气信息如晴天、阴天、雨天、雪天等。
服务器可以在每次语音控制后采集用户语言数据,该用户语言数据即语音识别过程中对用户语音信息进行解析识别后获得的语言文本信息,包括解析识别失败的数据和解析识别成功的数据。
S12、通过机器学习算法利用用户数据进行预测建模,生成预测模型。
本发明实施例中,服务器采集到用户数据后,首先对用户数据进行形式转换处理,转换为可用于机器学习的数据形式;然后通过机器学习算法对用户数据进行学习训练,生成预测模型。
对于用户操作数据的形式转换处理,可以对时间进行每半小时一个维度的设定,用户操作数据存在于哪个时间维度,就在该时间维度下设为1,其余为0。有些数据可能是缺失的,对缺失部分进行补齐,如用均值进行补充,按照这种方式进行数据整理,同一行数据增加上一次操作日志的数据,总维度数可以设定为320左右。
考虑到大部分维度都具有相似性,所以很多维度对预测用户下一个操作关系是无关紧要的,因此可以进一步利用奇异值分解(Singular Value Decomposition,SVD)算法对用户操作数据进行降维处理,计算公式如下:
上述公式(1)中,假设A是一个N×M的矩阵,那么得到的U是一个N×N的方阵(里面的向量是正交的,U里面的向量称为左奇异向量),∑是一个N×M的矩阵(除了对角线的元素都是0,对角线上的元素称为奇异值),VT(V的转置)是一个N×N的矩阵(里面的向量也是正交的,V里面的向量称为右奇异向量)。
在很多情况下,前10%甚至1%的奇异值之和就占了全部的奇异值之和的99%以上了。也就是说,也可以用前r大的奇异值来近似描述矩阵,这里定义一下部分奇异值分解:
上述公式(2)中,右边的三个矩阵相乘的结果将会是一个接近于A的矩阵,r越接近于n,则相乘的结果越接近于A。而这三个矩阵的面积之和(在存储观点来说,矩阵面积越小,存储量就越小)要远远小于原始的矩阵A,如果想要压缩空间来表示原矩阵A,则存下这里的三个矩阵:U、Σ、V。
将用户操作数据代入公式UΣV=SVD(Amx320)(其中m是该用户操作的一条操作日志数据),当Σ的长度取150时,UΣ(150)V的结果与Amx320比较误差在10%以内,剩余170左右的值相加总和小于10%,对预测影响较小,所以取前150个值对应的维度已经能够准确的预测下一步操作行为,所以只需使用150个维度进行预测建模,且将其中一部分作为训练集另一部分作为测试集,进行交叉验证。例如,将150个维度中的70%(105个)作为训练集,30%(45个)作为测试集,进行交叉验证。
对于用户语言数据的形式转换处理,可以先通过HashingTF()方法计算每个词在文档中的词频,再通过IDF()计算每个词的TF-IDF值,形成新的数据集,将数据集中的一部分作为训练集另一部分作为测试集。例如,将数据集中的70%作为训练集,30%作为测试集。
本发明实施例中,机器学习算法主要包括二分K均值聚类算法、贝叶斯算法和梯度提升树算法,此外还可以进一步包括多元逻辑回归算法等。
可选地,服务器首先通过二分K均值聚类(Bisecting K-means)算法对第一类数据进行学习训练,生成聚类模型,并通过贝叶斯(Naive Bayesian classification)算法对第二类数据进行学习训练,生成第二概率模型;然后通过梯度提升树(Gradient BoostingDecision Tree)算法对聚类模型和第二概率模型进行学习训练,生成预测模型。
可选地,服务器首先分别通过二分K均值聚类算法和贝叶斯算法对第一类数据进行学习训练,生成聚类模型和第一概率模型,并通过贝叶斯算法对第二类数据进行学习训练,生成第二概率模型;然后通过梯度提升树算法对聚类模型、第一概率模型和第二概率模型进行学习训练,生成预测模型。通过增加第一概率模型,提高了预测结果的准确性。
可选地,服务器首先分别通过二分K均值聚类算法和多元逻辑回归(MultinomialLogistic Regression)算法对第一类数据进行学习训练,生成聚类模型和回归模型,并通过贝叶斯算法对第二类数据进行学习训练,生成第二概率模型;然后通过梯度提升树算法对聚类模型、第二概率模型和回归模型进行学习训练,生成预测模型。通过增加回归模型,提高了预测模型预测的准确性。
可选地,服务器首先分别通过二分K均值聚类算法、贝叶斯算法和多元逻辑回归算法对第一类数据进行学习训练,生成聚类模型、第一概率模型和回归模型,并通过贝叶斯算法对第二类数据进行学习训练,生成第二概率模型;然后通过梯度提升树算法对聚类模型、第一概率模型、第二概率模型和回归模型进行学习训练,生成预测模型。通过增加第一概率模型和回归模型,进一步提高了预测模型预测的准确性。
具体实施时,服务器可以把操作指令和操作设备组合作为标签,其它维度作为特征,带入机器学习算法模型(用sparkml包)进行预测建模。
建立第一概率模型时,服务器将第一类数据代入贝叶斯概率公式NaiveBayes(Am)(其中m是训练集),得到该用户多种标签的概率大小,通过计算出的模型代入测试集,进行校验;反复进行上述操作,调试出最优参数,得到操作结果的概率模型,即第一概率模型Model(A)。贝叶斯概率公式如下:
前述公式(3)中,P(B)表示先验概率,表明B事件发生的概率大小,P(B|A)表示后验概率,表明在A事件发生的情况下B事件发生的概率大小,∑nj表示对j到n的所有值求和。
建立聚类模型时,服务器将第一类数据代入二分K-means公式BisectingKMeans(Am)(其中m是训练集),得到聚类模型,通过计算出的聚类模型代入测试集,进行校验;反复进行上述操作,调试出最优参数,得到聚类模型Model(B)。二分K-means公式如下:
前述公式(4)中,d代表欧氏距离,欧氏距离是判断向量之间距离的计算方法,公式(4)表示n维空间中的2个向量a=(x1,x2,...xn)和b=(y1,y2,...yn)的欧氏距离,距离越大相似度越小,距离越小相似度越大。
建立回归模型时,服务器将第一类数据代入逻辑回归公式LogisticRegressionWithLBFGS(Am)(其中m是训练集),得到回归模型,通过计算出的回归模型代入测试集,进行校验;反复进行上述操作,调试出最优参数,得到回归模型Model(C)。逻辑回归公式如下:
E步骤:
M步骤:
前述公式(5)和(6)中,P(k|xi)代表一个条件概率即样本xi属于某个类别的概率,其中u表示均值,∑表示求和。N(xi|..)表示样本xi的高斯概率分布密度。E步骤中,根据参数初始值或上一次迭代的模型参数来计算出隐性变量的后验概率,即隐性变量的期望,作为隐藏变量的现估计值;M步骤中,将似然函数最大化以获得新的参数值。
建立第二概率模型时,服务器将第二类数据(用户语言数据)代入贝叶斯概率公式NaiveBayes(Am)(其中m是训练集),得到该用户多种标签的概率大小,通过计算出的模型代入测试集,进行校验;反复进行上述操作,调试出最优参数,得到用户语言的概率模型,即第二概率模型Model(D)。贝叶斯概率公式见前述公式(3)。
建立最终的预测模型时,服务器通过梯度提升树(GBDT)迭代决策树确定最终模型,整合前述第一概率模型、聚类模型、回归模型和第二概率模型,把4个弱分类器代入梯度提升树公式GradientBoostedTrees(Model(A),Model(B),Model(C),Model(D)),经过反复训练、校验,得到最终的可预测用户控制命令的预测模型。
S13、在语音识别过程中,当识别用户的控制命令失败时,利用预测模型预测出用户的控制命令。
当用户进行语音控制时,服务器对用户的语音指令进行解析识别,以获取用户的控制命令。当识别用户的控制命令失败时,服务器则进入预测程序,将用户的语音指令(还可以包括当前的外部环境数据)作为输入数据输入预测模型,预测出用户的控制命令,并根据控制命令执行相应的操作,如控制对应的智能设备打开、关闭等。
这里所述的识别用户的控制命令失败,包括识别不出控制命令的情形,还可以包括识别的准确率低于阈值(如50%-70%)的情形。
进一步地,如图2所示,在本发明的语音识别方法第二实施例中,步骤S13之后还包括以下步骤:
S14、收集预测后的反馈结果,根据反馈结果校正预测模型。
具体实施时,服务器可以请求用户返回反馈信息,如询问本次操作是否正确,根据反馈结果增加损失函数对模型进行校正,以提高预测结果的准确性。
此外,服务器也可以根据用户的后续操作来判断本次预测是否正确。例如,本次预测结果为打开空调,服务器控制空调开启后,接着接收到用户调节温度的控制命令时,则判定本次预测正确。
本发明实施例的语音识别方法,通过采集用户数据,并通过机器学习算法利用用户数据进行预测建模生成预测模型,当语音识别过程中识别用户的控制命令失败时,则利用预测模型预测出用户的控制命令,从而提高了语音识别的成功率,进而提高了语音控制的可靠性和智能性,提升了用户体验。
参照图3,提出本发明的语音识别装置第一实施例,所述装置应用于计算机设备,特别是服务器。所述装置包括数据采集模块10、预测建模模块20和命令预测模块30,其中:数据采集模块10,用于采集用户数据;预测建模模块20,用于通过机器学习算法利用用户数据进行预测建模,生成预测模型;命令预测模块30,用于在语音识别过程中,当识别用户的控制命令失败时,利用预测模型预测出用户的控制命令。
本发明实施例中,用户数据具有多样性,主要包括第一类数据和第二类数据。第一类数据至少包括用户操作数据,还可以进一步包括外部环境数据,此外还可以进一步包括其它数据,本发明对此不作限定;第二类数据主要包括用户语言数据,此外还可以包括其它数据。
对于用户操作数据,数据采集模块10可以直接从用户操作日志中获取,如从智能家居系统平台的用户操作日志中获取用户操作数据。用户操作数据主要包括用户基本信息、时间信息和操作信息。
对于外部环境数据,数据采集模块10可以通过用户的终端设备或网络获取,该外部环境信息主要包括地理信息(如经纬度)、天气信息等,天气信息如晴天、阴天、雨天、雪天等。
对于用户语言数据,数据采集模块10可以在每次语音控制后获取,用户语言数据即语音识别过程中对用户语音信息进行解析识别后获得的语言文本信息,包括解析识别失败的数据和解析识别成功的数据。
本发明实施例中,预测建模模块20如图4所示,包括数据处理单元21和模型建立单元22,其中:数据处理单元21,用于对用户数据进行形式转换处理,转换为可用于机器学习的数据形式;模型建立单元22,用于通过机器学习算法对用户数据进行学习训练,生成预测模型。
对于用户操作数据的形式转换处理,数据处理单元21可以对时间进行每半小时一个维度的设定,用户操作数据存在于哪个时间维度,就在该时间维度下设为1,其余为0。有些数据可能是缺失的,对缺失部分进行补齐,如用均值进行补充,按照这种方式进行数据整理,同一行数据增加上一次操作日志的数据,总维度数可以设定为320左右。
考虑到大部分维度都具有相似性,所以很多维度对预测用户下一个操作关系是无关紧要的,因此数据处理单元21可以进一步利用奇异值分解(Singular ValueDecomposition,SVD)算法对用户操作数据进行降维处理,计算公式如下:
上述公式(1)中,假设A是一个N×M的矩阵,那么得到的U是一个N×N的方阵(里面的向量是正交的,U里面的向量称为左奇异向量),∑是一个N×M的矩阵(除了对角线的元素都是0,对角线上的元素称为奇异值),VT(V的转置)是一个N×N的矩阵(里面的向量也是正交的,V里面的向量称为右奇异向量)。
在很多情况下,前10%甚至1%的奇异值之和就占了全部的奇异值之和的99%以上了。也就是说,也可以用前r大的奇异值来近似描述矩阵,这里定义一下部分奇异值分解:
上述公式(2)中,右边的三个矩阵相乘的结果将会是一个接近于A的矩阵,r越接近于n,则相乘的结果越接近于A。而这三个矩阵的面积之和(在存储观点来说,矩阵面积越小,存储量就越小)要远远小于原始的矩阵A,如果想要压缩空间来表示原矩阵A,则存下这里的三个矩阵:U、Σ、V。
数据处理单元21将用户操作数据代入公式UΣV=SVD(Amx320)(其中m是该用户操作的一条操作日志数据),当Σ的长度取150时,UΣ(150)V的结果与Amx320比较误差在10%以内,剩余170左右的值相加总和小于10%,对预测影响较小,所以取前150个值对应的维度已经能够准确的预测下一步操作行为,所以只需使用150个维度进行预测建模,且将其中一部分作为训练集另一部分作为测试集,进行交叉验证。例如,将150个维度中的70%(105个)作为训练集,30%(45个)作为测试集,进行交叉验证。
对于用户语言数据的形式转换处理,数据处理单元21可以先通过HashingTF()方法计算每个词在文档中的词频,再通过IDF()计算每个词的TF-IDF值,形成新的数据集,将数据集中的一部分作为训练集另一部分作为测试集。例如,将数据集中的70%作为训练集,30%作为测试集。
本发明实施例中,机器学习算法主要包括二分K均值聚类算法、贝叶斯算法和梯度提升树算法,此外还可以进一步包括多元逻辑回归算法等。
可选地,如图5所示,模型建立单元22包括聚类模型建立单元221、第二概率模型建立单元222和预测模型建立单元223,其中:聚类模型建立单元221,用于通过二分K均值聚类算法对第一类数据进行学习训练,生成聚类模型;第二概率模型建立单元222,用于通过贝叶斯算法对第二类数据进行学习训练,生成第二概率模型;预测模型建立单元223,用于通过梯度提升树算法对聚类模型和第二概率模型进行学习训练,生成预测模型。
可选地,如图6所示,模型建立单元22包括聚类模型建立单元221、第一概率模型建立单元224、第二概率模型建立单元222和预测模型建立单元223,其中:聚类模型建立单元221,用于通过二分K均值聚类算法对第一类数据进行学习训练,生成聚类模型;第一概率模型建立单元224,用于通过贝叶斯算法对第一类数据进行学习训练,生成第一概率模型;第二概率模型建立单元222,用于通过贝叶斯算法对第二类数据进行学习训练,生成第二概率模型;预测模型建立单元223,用于通过梯度提升树算法对聚类模型、第一概率模型和第二概率模型进行学习训练,生成预测模型。通过增加第一概率模型,提高了预测模型预测的准确性。
可选地,如图7所示,模型建立单元22包括聚类模型建立单元221、回归模型建立单元225、第二概率模型建立单元222和预测模型建立单元223,其中:聚类模型建立单元221,用于通过二分K均值聚类算法对第一类数据进行学习训练,生成聚类模型;回归模型建立单元225,用于通过多元逻辑回归算法对第一类数据进行学习训练,生成回归模型;第二概率模型建立单元222,用于通过贝叶斯算法对第二类数据进行学习训练,生成第二概率模型;预测模型建立单元223,用于通过梯度提升树算法对聚类模型、回归模型和第二概率模型进行学习训练,生成预测模型。通过增加回归模型,提高了预测模型预测的准确性。
可选地,如图8所示,模型建立单元22包括聚类模型建立单元221、第一概率模型建立单元224、回归模型建立单元225、第二概率模型建立单元222和预测模型建立单元223,其中:聚类模型建立单元221,用于通过二分K均值聚类算法对第一类数据进行学习训练,生成聚类模型;第一概率模型建立单元224,用于通过贝叶斯算法对第一类数据进行学习训练,生成第一概率模型;回归模型建立单元225,用于通过多元逻辑回归算法对第一类数据进行学习训练,生成回归模型;第二概率模型建立单元222,用于通过贝叶斯算法对第二类数据进行学习训练,生成第二概率模型;预测模型建立单元223,用于通过梯度提升树算法对聚类模型、第一概率模型、回归模型和第二概率模型进行学习训练,生成预测模型。通过增加第一概率模型和回归模型,进一步提高预测模型预测的准确性。
具体实施时,模型建立单元22可以把操作指令和操作设备组合作为标签,其它维度作为特征,带入机器学习算法模型(用spark ml包)进行预测建模。
建立第一概率模型时,第一概率模型建立单元224将第一类数据代入贝叶斯概率公式NaiveBayes(Am)(其中m是训练集),得到该用户多种标签的概率大小,通过计算出的模型代入测试集,进行校验;反复进行上述操作,调试出最优参数,得到操作结果的概率模型,即第一概率模型Model(A)。贝叶斯概率公式如下:
前述公式(3)中,P(B)表示先验概率,表明B事件发生的概率大小,P(B|A)表示后验概率,表明在A事件发生的情况下B事件发生的概率大小,∑nj表示对j到n的所有值求和。
建立聚类模型时,聚类模型建立单元221将第一类数据代入二分K-means公式BisectingKMeans(Am)(其中m是训练集),得到聚类模型,通过计算出的聚类模型代入测试集,进行校验;反复进行上述操作,调试出最优参数,得到聚类模型Model(B)。二分K-means公式如下:
前述公式(4)中,d代表欧氏距离,欧氏距离是判断向量之间距离的计算方法,公式(4)表示n维空间中的2个向量a=(x1,x2,...xn)和b=(y1,y2,...yn)的欧氏距离,距离越大相似度越小,距离越小相似度越大。
建立回归模型时,回归模型建立单元225将第一类数据代入逻辑回归公式LogisticRegressionWithLBFGS(Am)(其中m是训练集),得到回归模型,通过计算出的回归模型代入测试集,进行校验;反复进行上述操作,调试出最优参数,得到回归模型Model(C)。逻辑回归公式如下:
E步骤:
M步骤:
前述公式(5)和(6)中,P(k|xi)代表一个条件概率即样本xi属于某个类别的概率,其中u表示均值,∑表示求和。N(xi|..)表示样本xi的高斯概率分布密度。E步骤中,根据参数初始值或上一次迭代的模型参数来计算出隐性变量的后验概率,即隐性变量的期望,作为隐藏变量的现估计值;M步骤中,将似然函数最大化以获得新的参数值。
建立第二概率模型时,第二概率模型建立单元222将第二类数据(用户语言数据)代入贝叶斯概率公式NaiveBayes(Am)(其中m是训练集),得到该用户多种标签的概率大小,通过计算出的模型代入测试集,进行校验;反复进行上述操作,调试出最优参数,得到用户语言的概率模型,即第二概率模型Model(D)。贝叶斯概率公式见前述公式(3)。
建立最终的预测模型时,预测模型建立单元223通过梯度提升树(GBDT)迭代决策树确定最终模型,整合前述第一概率模型、聚类模型、回归模型和第二概率模型,把4个弱分类器代入梯度提升树公式GradientBoostedTrees(Model(A),Model(B),Model(C),Model(D)),经过反复训练、校验,得到最终的可预测用户控制命令的预测模型。
当用户进行语音控制时,服务器对用户的语音指令进行解析识别,以获取用户的控制命令。当识别用户的控制命令失败时,服务器则进入预测程序,通过命令预测模块30将用户的语音指令(还可以包括当前的外部环境数据)作为输入数据输入预测模型,预测出用户的控制命令,最终服务器根据控制命令执行相应的操作,如控制对应的智能设备打开、关闭等。
这里所述的识别用户的控制命令失败,包括识别不出控制命令的情形,还可以包括识别的准确率低于阈值(如50%-70%)的情形。
进一步地,如图9所示,在本发明的语音识别装置第二实施例中,该装置还包括模型校正模块40,所述模型校正模块40用于:收集预测后的反馈结果,根据反馈结果校正预测模型。
具体实施时,模型校正模块40可以请求用户返回反馈信息,如询问本次操作是否正确,根据反馈结果增加损失函数对模型进行校正,以提高预测结果的准确性。
此外,模型校正模块40也可以根据用户的后续操作来判断本次预测是否正确。例如,本次预测结果为打开空调,服务器控制空调开启后,接着接收到用户调节温度的控制命令时,模型校正模块40则判定本次预测正确。
本发明实施例的语音识别装置,通过采集用户数据,并通过机器学习算法利用用户数据进行预测建模生成预测模型,当语音识别过程中识别用户的控制命令失败时,则利用预测模型预测出用户的控制命令,从而提高了语音识别的成功率,进而提高了语音控制的可靠性和智能性,提升了用户体验。
本发明实施例同时提出一种计算机设备,其包括存储器、处理器和至少一个被存储在存储器中并被配置为由处理器执行的应用程序,所述应用程序被配置为用于执行语音识别方法。所述语音识别方法包括以下步骤:采集用户数据,该用户数据包括第一类数据和第二类数据,第一类数据包括用户操作数据,第二类数据包括用户语言数据;通过机器学习算法利用用户数据进行预测建模,生成预测模型;在语音识别过程中,当识别用户的控制命令失败时,利用预测模型预测出用户的控制命令。本实施例中所描述的语音识别方法为本发明中上述实施例所涉及的语音识别方法,在此不再赘述。
本发明实施例还提出一种计算机可读存储介质,该计算机可读存储介质上存储有语音识别程序,该语音识别程序被处理器执行时,实现语音识别方法的步骤。所述语音识别方法包括以下步骤:采集用户数据,该用户数据包括第一类数据和第二类数据,第一类数据包括用户操作数据,第二类数据包括用户语言数据;通过机器学习算法利用用户数据进行预测建模,生成预测模型;在语音识别过程中,当识别用户的控制命令失败时,利用预测模型预测出用户的控制命令。本实施例中所描述的语音识别方法为本发明中上述实施例所涉及的语音识别方法,在此不再赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
应当理解的是,以上仅为本发明的优选实施例,不能因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种语音识别方法,其特征在于,包括以下步骤:
采集用户数据;所述用户数据包括第一类数据和第二类数据,所述第一类数据包括用户操作数据,所述第二类数据包括用户语言数据;
通过机器学习算法利用所述用户数据进行预测建模,生成预测模型;
在语音识别过程中,当识别用户的控制命令失败时,利用所述预测模型预测出用户的控制命令。
2.根据权利要求1所述的语音识别方法,其特征在于,所述通过机器学习算法利用所述用户数据进行预测建模,生成预测模型的步骤包括:
对所述用户数据进行形式转换处理,转换为可用于机器学习的数据形式;
通过机器学习算法对所述用户数据进行学习训练,生成预测模型。
3.根据权利要求2所述的语音识别方法,其特征在于,所述通过机器学习算法对所述用户数据进行学习训练,生成预测模型的步骤包括:
通过二分K均值聚类算法对所述第一类数据进行学习训练,生成聚类模型;通过贝叶斯算法对所述第二类数据进行学习训练,生成第二概率模型;
通过梯度提升树算法对所述聚类模型和所述第二概率模型进行学习训练,生成所述预测模型。
4.根据权利要求2所述的语音识别方法,其特征在于,所述通过机器学习算法对所述用户数据进行学习训练,生成预测模型的步骤包括:
分别通过二分K均值聚类算法和贝叶斯算法对所述第一类数据进行学习训练,生成聚类模型和第一概率模型;通过贝叶斯算法对所述第二类数据进行学习训练,生成第二概率模型;
通过梯度提升树算法对所述聚类模型、所述第一概率模型和所述第二概率模型进行学习训练,生成所述预测模型。
5.根据权利要求2所述的语音识别方法,其特征在于,所述通过机器学习算法对所述用户数据进行学习训练,生成预测模型的步骤包括:
分别通过二分K均值聚类算法、贝叶斯算法和多元逻辑回归算法对所述第一类数据进行学习训练,生成聚类模型、第一概率模型和回归模型;通过贝叶斯算法对所述第二类数据进行学习训练,生成第二概率模型;
通过梯度提升树算法对所述聚类模型、所述第一概率模型、所述第二概率模型和所述回归模型进行学习训练,生成所述预测模型。
6.根据权利要求1-5任一项所述的语音识别方法,其特征在于,所述第一类数据还包括外部环境数据。
7.根据权利要求1-5任一项所述的语音识别方法,其特征在于,所述利用所述预测模型预测出用户的控制命令的步骤之后还包括:
收集预测后的反馈结果,根据所述反馈结果校正所述预测模型。
8.一种语音识别装置,其特征在于,包括:
数据采集模块,用于采集用户数据;所述用户数据包括第一类数据和第二类数据,所述第一类数据包括用户操作数据,所述第二类数据包括用户语言数据;
预测建模模块,用于通过机器学习算法利用所述用户数据进行预测建模,生成预测模型;
命令预测模块,用于在语音识别过程中,当识别用户的控制命令失败时,利用所述预测模型预测出用户的控制命令。
9.一种计算机设备,包括存储器、处理器和至少一个被存储在所述存储器中并被配置为由所述处理器执行的应用程序,其特征在于,所述应用程序被配置为用于执行权利要求1至7任一项所述的语音识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有语音识别程序,所述语音识别程序被处理器执行时,实现如权利要求1至7中任一项所述的语音识别方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010296738.2A CN111508489B (zh) | 2017-12-19 | 2017-12-19 | 语音识别方法、装置、计算机设备和存储介质 |
CN201711376008.8A CN108010527B (zh) | 2017-12-19 | 2017-12-19 | 语音识别方法、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711376008.8A CN108010527B (zh) | 2017-12-19 | 2017-12-19 | 语音识别方法、计算机设备和存储介质 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010296738.2A Division CN111508489B (zh) | 2017-12-19 | 2017-12-19 | 语音识别方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108010527A true CN108010527A (zh) | 2018-05-08 |
CN108010527B CN108010527B (zh) | 2020-06-12 |
Family
ID=62060001
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010296738.2A Active CN111508489B (zh) | 2017-12-19 | 2017-12-19 | 语音识别方法、装置、计算机设备和存储介质 |
CN201711376008.8A Active CN108010527B (zh) | 2017-12-19 | 2017-12-19 | 语音识别方法、计算机设备和存储介质 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010296738.2A Active CN111508489B (zh) | 2017-12-19 | 2017-12-19 | 语音识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN111508489B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109036390A (zh) * | 2018-08-15 | 2018-12-18 | 四川大学 | 一种基于集成梯度提升机的广播关键字识别方法 |
CN109492368A (zh) * | 2018-10-26 | 2019-03-19 | 东南大学 | 一种适用于智能设备语音命令应答的二次鉴权方法 |
CN110110790A (zh) * | 2019-05-08 | 2019-08-09 | 中国科学技术大学 | 采用无监督聚类得分规整的说话人确认方法 |
CN110634472A (zh) * | 2018-06-21 | 2019-12-31 | 中兴通讯股份有限公司 | 一种语音识别方法、服务器及计算机可读存储介质 |
WO2020048296A1 (zh) * | 2018-09-05 | 2020-03-12 | 深圳追一科技有限公司 | 机器学习方法、设备及存储介质 |
CN111142398A (zh) * | 2019-12-30 | 2020-05-12 | 欧普照明股份有限公司 | 设备联动方法、装置、电子设备及存储介质 |
CN112002317A (zh) * | 2020-07-31 | 2020-11-27 | 北京小米松果电子有限公司 | 语音输出方法、装置、存储介质和电子设备 |
CN112312445A (zh) * | 2019-08-01 | 2021-02-02 | 中国移动通信集团山东有限公司 | 语音呼叫的处理方法、装置、存储介质和服务器 |
CN112566721A (zh) * | 2018-05-28 | 2021-03-26 | 杭州纯迅生物科技有限公司 | 利用人工智能控制并操纵微流体中多相流的方法和装置 |
CN112669836A (zh) * | 2020-12-10 | 2021-04-16 | 鹏城实验室 | 命令的识别方法、装置及计算机可读存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477798A (zh) * | 2009-02-17 | 2009-07-08 | 北京邮电大学 | 一种分析和提取设定场景的音频数据的方法 |
CN202110564U (zh) * | 2011-06-24 | 2012-01-11 | 华南理工大学 | 结合视频通道的智能家居语音控制系统 |
CN102426837A (zh) * | 2011-12-30 | 2012-04-25 | 中国农业科学院农业信息研究所 | 农业现场数据采集的移动设备语音识别的鲁棒性方法 |
CN102543071A (zh) * | 2011-12-16 | 2012-07-04 | 安徽科大讯飞信息科技股份有限公司 | 用于移动设备的语音识别系统和方法 |
CN103984943A (zh) * | 2014-05-30 | 2014-08-13 | 厦门大学 | 一种基于贝叶斯概率框架的场景文本识别方法 |
CN104217718A (zh) * | 2014-09-03 | 2014-12-17 | 陈飞 | 依据环境参数及群体趋向数据的语音识别方法和系统 |
CN104766606A (zh) * | 2015-03-24 | 2015-07-08 | 上海修源网络科技有限公司 | 将自然语言翻译成指令的方法、装置及其导航应用 |
CN104795067A (zh) * | 2014-01-20 | 2015-07-22 | 华为技术有限公司 | 语音交互方法及装置 |
US20160179786A1 (en) * | 2014-12-19 | 2016-06-23 | International Business Machines Corporation | Diagnosing autism spectrum disorder using natural language processing |
CN105931644A (zh) * | 2016-04-15 | 2016-09-07 | 广东欧珀移动通信有限公司 | 一种语音识别方法及移动终端 |
CN106205611A (zh) * | 2016-06-29 | 2016-12-07 | 北京智能管家科技有限公司 | 一种基于多模态历史响应结果的人机交互方法及系统 |
CN106463113A (zh) * | 2014-03-04 | 2017-02-22 | 亚马逊技术公司 | 在语音辨识中预测发音 |
CN107316635A (zh) * | 2017-05-19 | 2017-11-03 | 科大讯飞股份有限公司 | 语音识别方法及装置、存储介质、电子设备 |
-
2017
- 2017-12-19 CN CN202010296738.2A patent/CN111508489B/zh active Active
- 2017-12-19 CN CN201711376008.8A patent/CN108010527B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477798A (zh) * | 2009-02-17 | 2009-07-08 | 北京邮电大学 | 一种分析和提取设定场景的音频数据的方法 |
CN202110564U (zh) * | 2011-06-24 | 2012-01-11 | 华南理工大学 | 结合视频通道的智能家居语音控制系统 |
CN102543071A (zh) * | 2011-12-16 | 2012-07-04 | 安徽科大讯飞信息科技股份有限公司 | 用于移动设备的语音识别系统和方法 |
CN102426837A (zh) * | 2011-12-30 | 2012-04-25 | 中国农业科学院农业信息研究所 | 农业现场数据采集的移动设备语音识别的鲁棒性方法 |
CN104795067A (zh) * | 2014-01-20 | 2015-07-22 | 华为技术有限公司 | 语音交互方法及装置 |
CN106463113A (zh) * | 2014-03-04 | 2017-02-22 | 亚马逊技术公司 | 在语音辨识中预测发音 |
CN103984943A (zh) * | 2014-05-30 | 2014-08-13 | 厦门大学 | 一种基于贝叶斯概率框架的场景文本识别方法 |
CN104217718A (zh) * | 2014-09-03 | 2014-12-17 | 陈飞 | 依据环境参数及群体趋向数据的语音识别方法和系统 |
US20160179786A1 (en) * | 2014-12-19 | 2016-06-23 | International Business Machines Corporation | Diagnosing autism spectrum disorder using natural language processing |
CN104766606A (zh) * | 2015-03-24 | 2015-07-08 | 上海修源网络科技有限公司 | 将自然语言翻译成指令的方法、装置及其导航应用 |
CN105931644A (zh) * | 2016-04-15 | 2016-09-07 | 广东欧珀移动通信有限公司 | 一种语音识别方法及移动终端 |
CN106205611A (zh) * | 2016-06-29 | 2016-12-07 | 北京智能管家科技有限公司 | 一种基于多模态历史响应结果的人机交互方法及系统 |
CN107316635A (zh) * | 2017-05-19 | 2017-11-03 | 科大讯飞股份有限公司 | 语音识别方法及装置、存储介质、电子设备 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112566721A (zh) * | 2018-05-28 | 2021-03-26 | 杭州纯迅生物科技有限公司 | 利用人工智能控制并操纵微流体中多相流的方法和装置 |
CN110634472B (zh) * | 2018-06-21 | 2024-06-04 | 中兴通讯股份有限公司 | 一种语音识别方法、服务器及计算机可读存储介质 |
CN110634472A (zh) * | 2018-06-21 | 2019-12-31 | 中兴通讯股份有限公司 | 一种语音识别方法、服务器及计算机可读存储介质 |
CN109036390B (zh) * | 2018-08-15 | 2022-07-08 | 四川大学 | 一种基于集成梯度提升机的广播关键字识别方法 |
CN109036390A (zh) * | 2018-08-15 | 2018-12-18 | 四川大学 | 一种基于集成梯度提升机的广播关键字识别方法 |
WO2020048296A1 (zh) * | 2018-09-05 | 2020-03-12 | 深圳追一科技有限公司 | 机器学习方法、设备及存储介质 |
CN109492368A (zh) * | 2018-10-26 | 2019-03-19 | 东南大学 | 一种适用于智能设备语音命令应答的二次鉴权方法 |
CN110110790B (zh) * | 2019-05-08 | 2021-07-06 | 中国科学技术大学 | 采用无监督聚类得分规整的说话人确认方法 |
CN110110790A (zh) * | 2019-05-08 | 2019-08-09 | 中国科学技术大学 | 采用无监督聚类得分规整的说话人确认方法 |
CN112312445A (zh) * | 2019-08-01 | 2021-02-02 | 中国移动通信集团山东有限公司 | 语音呼叫的处理方法、装置、存储介质和服务器 |
CN112312445B (zh) * | 2019-08-01 | 2022-12-09 | 中国移动通信集团山东有限公司 | 语音呼叫的处理方法、装置、存储介质和服务器 |
CN111142398A (zh) * | 2019-12-30 | 2020-05-12 | 欧普照明股份有限公司 | 设备联动方法、装置、电子设备及存储介质 |
CN112002317A (zh) * | 2020-07-31 | 2020-11-27 | 北京小米松果电子有限公司 | 语音输出方法、装置、存储介质和电子设备 |
CN112002317B (zh) * | 2020-07-31 | 2023-11-14 | 北京小米松果电子有限公司 | 语音输出方法、装置、存储介质和电子设备 |
CN112669836A (zh) * | 2020-12-10 | 2021-04-16 | 鹏城实验室 | 命令的识别方法、装置及计算机可读存储介质 |
CN112669836B (zh) * | 2020-12-10 | 2024-02-13 | 鹏城实验室 | 命令的识别方法、装置及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111508489A (zh) | 2020-08-07 |
CN111508489B (zh) | 2022-10-18 |
CN108010527B (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108010527A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
CN110674880B (zh) | 用于知识蒸馏的网络训练方法、装置、介质与电子设备 | |
EP3935544B1 (en) | System and method for detecting adversarial attacks | |
CN110347873B (zh) | 视频分类方法、装置、电子设备及存储介质 | |
CN109859743B (zh) | 音频识别方法、系统和机器设备 | |
US11842205B2 (en) | Natural language to API conversion | |
CN110472675B (zh) | 图像分类方法、图像分类装置、存储介质与电子设备 | |
US20180233130A1 (en) | Binary and multi-class classification systems and methods using connectionist temporal classification | |
CN110389996A (zh) | 实现用于自然语言处理的全句递归神经网络语言模型 | |
CN111126488A (zh) | 一种基于双重注意力的图像识别方法 | |
CN107978311A (zh) | 一种语音数据处理方法、装置以及语音交互设备 | |
CN110580292A (zh) | 一种文本标签生成方法、装置和计算机可读存储介质 | |
US20220130376A1 (en) | Speaker adaptation for attention-based encoder-decoder | |
US20110119210A1 (en) | Multiple Category Learning for Training Classifiers | |
CN109887484A (zh) | 一种基于对偶学习的语音识别与语音合成方法及装置 | |
CN108417210A (zh) | 一种词嵌入语言模型训练方法、词语识别方法及系统 | |
CN114998602B (zh) | 基于低置信度样本对比损失的域适应学习方法及系统 | |
Ben-Harush et al. | Initialization of iterative-based speaker diarization systems for telephone conversations | |
CN113688894A (zh) | 一种融合多粒度特征的细粒度图像分类方法 | |
CN110781970A (zh) | 分类器的生成方法、装置、设备及存储介质 | |
WO2007105409A1 (ja) | 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム | |
US20100161534A1 (en) | Predictive gaussian process classification with reduced complexity | |
CN110675879B (zh) | 基于大数据的音频评估方法、系统、设备及存储介质 | |
CN115984745A (zh) | 用于黑蒜发酵的水分控制方法 | |
CN107832722B (zh) | 一种基于AdaBoost的人脸检测分类器构造方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: Nanshan District Xueyuan Road in Shenzhen city of Guangdong province 518000 No. 1001 Nanshan Chi Park A7 building 7 floor Patentee after: Shenzhen euribo Technology Co., Ltd Address before: Nanshan District Xueyuan Road in Shenzhen city of Guangdong province 518000 No. 1001 Nanshan Chi Park A7 building 7 floor Patentee before: SHENZHEN ORVIBO TECHNOLOGY Co.,Ltd. |