CN108806699B - 语音反馈方法、装置、存储介质及电子设备 - Google Patents
语音反馈方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN108806699B CN108806699B CN201810542926.1A CN201810542926A CN108806699B CN 108806699 B CN108806699 B CN 108806699B CN 201810542926 A CN201810542926 A CN 201810542926A CN 108806699 B CN108806699 B CN 108806699B
- Authority
- CN
- China
- Prior art keywords
- user
- voice
- target
- terminal
- acquiring
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000035790 physiological processes and functions Effects 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 10
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 abstract description 18
- 230000003993 interaction Effects 0.000 abstract description 14
- 238000004422 calculation algorithm Methods 0.000 description 48
- 238000007477 logistic regression Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000003044 adaptive effect Effects 0.000 description 3
- 238000003066 decision tree Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 3
- 230000017531 blood circulation Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013398 bayesian method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Computational Linguistics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本申请公开了一种语音反馈方法、装置、存储介质及电子设备。该方法包括:获取第一用户的语音数据;根据该第一用户的语音数据进行声纹模型训练,得到目标声纹模型;当需要对第二用户进行语音反馈时,检测该第一用户是否为该第二用户的关联用户;若是,则获取需要反馈的目标语音内容,并利用该目标声纹模型对该目标语音内容进行处理,按照该第一用户的音色输出该目标语音内容。本实施例以提高终端在与用户进行语音交互的过程中的灵活性。
Description
技术领域
本申请属于终端技术领域,尤其涉及一种语音反馈方法、装置、存储介质及电子设备。
背景技术
随着技术的发展,人机之间的交互方式正变得越来越丰富。相关技术中,用户可以通过语音与终端进行交互。比如,用户可以向终端发出一则语音指令,该语音指令用于控制终端完成某一操作(如打开应用或播放多媒体文件等)。在接收到用户发出的语音后,终端可以对该语音进行解析并执行相应的操作。一般的,在执行相应操作的前后,终端会和用户进行多次语音交互。然而,相关技术中,在与用户进行语音交互时,终端的灵活性仍然较差。
发明内容
本申请实施例提供一种语音反馈方法、装置、存储介质及电子设备,可以提高终端在与用户进行语音交互的过程中的灵活性。
本申请实施例提供一种语音反馈方法,包括:
获取第一用户的语音数据;
根据所述第一用户的语音数据进行声纹模型训练,得到目标声纹模型;
当需要对第二用户进行语音反馈时,检测所述第一用户是否为所述第二用户的关联用户;
若检测到所述第一用户为所述第二用户的关联用户,则获取需要反馈的目标语音内容,并利用所述目标声纹模型对所述目标语音内容进行处理,按照所述第一用户的音色输出所述目标语音内容。
本申请实施例提供一种语音反馈装置,包括:
获取模块,用于获取第一用户的语音数据;
训练模块,用于根据所述第一用户的语音数据进行声纹模型训练,得到目标声纹模型;
检测模块,用于当需要对第二用户进行语音反馈时,检测所述第一用户是否为所述第二用户的关联用户;
输出模块,用于若检测到所述第一用户为所述第二用户的关联用户,则获取需要反馈的目标语音内容,并利用所述目标声纹模型对所述目标语音内容进行处理,按照所述第一用户的音色输出所述目标语音内容。
本申请实施例提供一种存储介质,其上存储有计算机程序,当所述计算机程序在计算机上执行时,使得所述计算机执行本申请实施例提供的语音反馈方法中的步骤。
本申请实施例还提供一种电子设备,包括存储器,处理器,所述处理器通过调用所述存储器中存储的计算机程序,用于执行本申请实施例提供的语音反馈方法中的步骤。
本实施例中,终端可以先训练得到第一用户的目标声纹模型。当需要向与该第一用户关联的第二用户反馈语音时,终端可以利用该目标声纹模型对需要反馈的目标语音内容进行音色处理,并以第一用户的音色输出该目标语音内容。由于本实施例可以为不同的用户反馈具有不同音色的语音内容,因此本实施例的终端在与用户进行语音交互的过程中具有更高的灵活性。
附图说明
下面结合附图,通过对本发明的具体实施方式详细描述,将使本发明的技术方案及其有益效果显而易见。
图1是本申请实施例提供的语音反馈方法的流程示意图。
图2是本申请实施例提供的语音反馈方法的另一流程示意图。
图3至图6是本申请实施例提供的语音反馈方法的场景示意图。
图7是本申请实施例提供的语音反馈装置的结构示意图。
图8是本申请实施例提供的语音反馈装置的另一结构示意图。
图9是本申请实施例提供的移动终端的结构示意图。
图10是本申请实施例提供的移动终端的另一结构示意图。
具体实施方式
请参照图示,其中相同的组件符号代表相同的组件,本发明的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本发明具体实施例,其不应被视为限制本发明未在此详述的其它具体实施例。
可以理解的是,本申请实施例的执行主体可以是诸如智能手机或平板电脑等的终端设备。
请参阅图1,图1是本申请实施例提供的语音反馈方法的流程示意图,流程可以包括:
在步骤101中,获取第一用户的语音数据。
随着技术的发展,人机之间的交互方式正变得越来越丰富。相关技术中,用户可以通过语音与终端进行交互。比如,用户可以向终端发出一则语音指令,该语音指令用于控制终端完成某一操作(如打开应用或播放多媒体文件等)。在接收到用户发出的语音后,终端可以对该语音进行解析并执行相应的操作。一般的,在执行相应操作的前后,终端会和用户进行多次语音交互。然而,相关技术中,在与用户进行语音交互时,终端的灵活性仍然较差。
在本申请实施例的步骤101中,比如,终端可以先获取第一用户的语音数据。
在步骤102中,根据该第一用户的语音数据进行声纹模型训练,得到目标声纹模型。
比如,在获取到第一用户的语音数据后,终端可以根据该第一用户的语音数据进行声纹模型训练,从而得到目标声纹模型。可以理解的是,目标声纹模型也就是第一用户的声纹模型,该目标声纹模型在训练后已经学习到了第一用户的声纹特征,而音色属于声纹特征的其中一种属性。
需要说明的是,音色是声音的属性之一。每个人的声音的区别就是由音色造成的。不同的发声体由于其材料、结构不同,则其发出的声音的音色也不同。因此,每一个人发出的声音都是不同的。
例如,第一用户为终端机主,那么终端可以在第一用户与本终端进行语音交互的过程中不断地获取第一用户的语音数据,然后利用该第一用户的语音数据进行声纹模型训练,从而得到目标声纹模型。
比如,终端可以按照预设的人工智能训练算法来进行声纹模型训练,从而得到目标声纹特征。
其中,训练算法为机器学习算法,机器学习算法可以通过不断地学习来对数据进行处理。机器学习算法可以包括:决策树算法、逻辑回归算法、贝叶斯算法、神经网络算法(可以包括深度神经网络算法、卷积神经网络算法以及递归神经网络算法等)、聚类算法等等。
机器学习算法的算法类型可以根据各种情况划分,比如,可以基于学习方式可以将机器学习算法划分成:监督式学习算法、非监控式学习算法、半监督式学习算法、强化学习算法等等。
在监督式学习下,输入数据被称为“训练数据”,每组训练数据有一个明确的标识或结果,如对防垃圾邮件系统中“垃圾邮件”“非垃圾邮件”,对手写数字识别中的“1”、“2”、“3”、“4”等。在建立模型的时候,监督式学习建立一个学习过程,将场景类型信息与“训练数据”的实际结果进行比较,不断的调整模型,直到模型的场景类型信息达到一个预期的准确率。监督式学习的常见应用场景如分类问题和回归问题。常见算法有逻辑回归(LogisticRegression)和反向传递神经网络(Back Propagation Neural Network)。
在非监督式学习中,数据并不被特别标识,模型是为了推断出数据的一些内在结构。常见的应用场景包括关联规则的学习以及聚类等。常见算法包括Apriori算法以及k-Means算法等。
半监督式学习算法,在此学习方式下,输入数据被部分标识,这种学习模型可以用来进行类型识别,但是模型首先需要学习数据的内在结构以便合理的组织数据来进行预测。应用场景包括分类和回归,算法包括一些对常用监督式学习算法的延伸,这些算法首先试图对未标识数据进行建模,在此基础上再对标识的数据进行预测。如图论推理算法(Graph Inference)或者拉普拉斯支持向量机(Laplacian SVM)等。
强化学习算法,在这种学习模式下,输入数据作为对模型的反馈,不像监督模型那样,输入数据仅仅是作为一个检查模型对错的方式,在强化学习下,输入数据直接反馈到模型,模型必须对此立刻作出调整。常见的应用场景包括动态系统以及机器人控制等。常见算法包括Q-Learning以及时间差学习(Temporal difference learning)。
此外,还可以基于根据算法的功能和形式的类似性将机器学习算法划分成:
回归算法,常见的回归算法包括:最小二乘法(Ordinary Least Square),逻辑回归(Logistic Regression),逐步式回归(Stepwise Regression),多元自适应回归样条(Multivariate Adaptive Regression Splines)以及本地散点平滑估计(LocallyEstimated Scatterplot Smoothing)。
基于实例的算法,包括K-Nearest Neighbor(KNN),学习矢量量化(LearningVector Quantization,LVQ),以及自组织映射算法(Self-Organizing Map,SOM)。
正则化方法,常见的算法包括:Ridge Regression,Least Absolute Shrinkageand Selection Operator(LASSO),以及弹性网络(Elastic Net)。
决策树算法,常见的算法包括:分类及回归树(Classification And RegressionTree,CART),ID3(Iterative Dichotomiser 3),C4.5,Chi-squared AutomaticInteraction Detection(CHAID),Decision Stump,随机森林(Random Forest),多元自适应回归样条(MARS)以及梯度推进机(Gradient Boosting Machine,GBM)。
贝叶斯方法算法,包括:朴素贝叶斯算法,平均单依赖估计(Averaged One-Dependence Estimators,AODE),以及Bayesian Belief Network(BBN)。
例如,特征类型对应的模型类型包括:监督式学习算法、非监控式学习算法、半监督式学习算法;此时,可以从模型集合中选取逻辑回归(Logistic Regression)模型、k-Means算法、图论推理算法等等属于该模型类型的算法。
又例如,特征类型对应的模型类型包括:回归算法模型、决策树算法模型;此时,可以从模型集合中选取逻辑回归(Logistic Regression)模型、分类及回归树模型等等属于该模型类型的算法。
本申请实施例中,对于选取何种训练算法进行图像降噪模型的训练,可由开发人员根据实际需要进行选取。
在步骤103中,当需要对第二用户进行语音反馈时,检测该第一用户是否为该第二用户的关联用户。
比如,在训练得到目标声纹模型后,当需要对第二用户进行语音反馈时,终端可以检测该第一用户是否为该第二用户的关联用户。
例如,第二用户可以为经过终端机主允许的可以使用本终端的用户。例如第二用户为儿童,第一用户(机主)为该儿童的母亲,等等。
在一种实施方式中,终端可以预先设定不同用户之间的关联关系。
如果检测到第一用户不是第二用户的关联用户,那么终端可以执行其它操作。
如果检测到第一用户是第二用户的关联用户,那么进入步骤104。
在步骤104中,若检测到该第一用户为该第二用户的关联用户,则获取需要反馈的目标语音内容,并利用该目标声纹模型对该目标语音内容进行处理,按照该第一用户的音色输出该目标语音内容。
比如,终端检测到第一用户是第二用户的关联用户,那么终端可以先获取需要向该第二用户反馈的语音内容,即目标语音内容。然后,终端可以利用训练得到的目标声纹模型对该目标语音内容进行音色处理,并以第一用户的音色输出该目标语音内容。
例如,第二用户为儿童,第一用户为该儿童的母亲,并且第一用户为终端机主。那么,当需要向该儿童进行语音反馈,例如在搜索到某篇故事后,儿童向终端发出“请朗读这篇故事”的语音指令时,终端可以先获取这篇故事的内容(即需要反馈的目标语音内容),然后利用目标声纹模型对这篇故事的内容进行音色处理,并以该儿童母亲的音色朗读出这篇故事给该儿童听,从而达到以母亲的声音为儿童讲故事的效果。
可以理解的是,本实施例中,终端可以先训练得到第一用户的目标声纹模型。当需要向与该第一用户关联的第二用户反馈语音时,终端可以利用该目标声纹模型对需要反馈的目标语音内容进行音色处理,并以第一用户的音色输出该目标语音内容。由于本实施例可以为不同的用户反馈具有不同音色的语音内容,因此本实施例的终端在与用户进行语音交互的过程中具有更高的灵活性。
请参阅图2,图2为本申请实施例提供的语音反馈方法的另一流程示意图,流程可以包括:
在步骤201中,终端获取第一用户的语音数据。
在步骤202中,终端根据第一用户的语音数据进行声纹模型训练,得到目标声纹模型。
比如,步骤201和202可以包括:
例如,第一用户可以为终端机主。那么,在第一用户与终端进行语音交互的过程中,该终端不断地获取该第一用户的语音数据,然后利用该第一用户的语音数据进行声纹模型训练,从而得到目标声纹模型。
可以理解的是,目标声纹模型也就是第一用户的声纹模型,该目标声纹模型在训练后已经学习到了第一用户的声纹特征,而音色属于声纹特征的其中一种属性。
在步骤203中,当需要对第二用户进行语音反馈时,终端获取该第二用户的生理状态信息。
在步骤204中,若根据第二用户的生理状态信息确定出该第二用户处于预设状态,则终端检测第一用户是否为该第二用户的关联用户。
比如,步骤203和204可以包括:
在训练得到第一用户的目标声纹模型后,当需要对第二用户进行语音反馈,例如第二用户向终端发出“打开故事APP”的语音指令,在接收到该语音指令后,终端可以根据对该语音指令的解析,打开故事APP,在这一过程中,终端需要向该第二用户进行语音反馈,例如此时需要向第二用户反馈“正在为您打开故事APP”或者“已经为您打开故事APP”等语音时,终端可以先获取该第二用户的生理状态信息。
在一些实施方式中,终端可以通过安装在本终端上的各类用于检测人体生理指标的传感器(如心率传感器等)来获取第二用户的生理状态信息。或者,终端也可以通过第二用户佩戴在身上的智能穿戴设备(如智能手环或智能手表等)来获取第二用户的生理状态信息,并将获取到的生理状态信息发送至终端上。
在获取到第二用户的生理状态信息后,终端可以根据该生理状态信息来判断第二用户是否处于预设状态。在一些实施方式中,该预设状态可以是诸如睡前状态、疲惫状态、休息状态等状态。由于睡前状态、疲惫状态或休息状态等预设状态下,用户的心率、血流速度等生理指标会处于某一数值范围内,因此终端可以根据第二用户的心率、血流速度等生理指标来判断第二用户是否处于预设状态。
若判断出第二用户不处于预设状态,那么终端可以执行其它操作。
若判断出第二用户处于预设状态,那么终端可以检测第一用户是否为该第二用户的关联用户。
如果检测出第一用户不是第二用户的关联用户,那么终端可以执行其它操作。
如果检测出第一用户是第二用户的关联用户,那么可以进入步骤205。在一种实施方式中,终端可以预先设定不同用户之间的关联关系,并以对应关系表的形式将该关联关系记录下来。那么,当需要判断第一用户是否为第二用户的关联用户时,终端可以查询该对应关系表,若其中记载有第二用户的关联用户为第一用户,那么终端可以确定第一用户为第二用户的关联用户。
在步骤205中,若检测到第一用户为第二用户的关联用户,则终端获取需要反馈的目标语音内容。
在步骤206中,终端获取第二用户发出的语音的目标音量值。
比如,步骤205和206可以包括:
终端检测到第一用户为第二用户的关联用户,例如第二用户为儿童,而第一用户为该儿童的母亲并且是终端机主。在这种情况下,终端可以获取需要反馈给第二用户的目标语音内容。
之后,终端可以获取第二用户发出的语音的目标音量值。即,终端可以获取第二用户刚才发出的语音指令所对应的音量值,而目标语音内容即是对该语音指令的反馈语音的内容。
在步骤207中,终端利用目标声纹模型对目标语音内容进行处理,并根据目标音量值,按照该第一用户的音色输出目标语音内容。
比如,在获取到目标语音内容和目标音量值之后,终端可以利用目标声纹模型对该目标语音内容进行音色处理。然后,终端可以根据该目标音量值,按照第一用户的音色输出该目标语音内容。
例如,第二用户向终端发出“打开故事APP”的语音指令后,终端需要向该第二用户反馈“已经为您打开故事APP”的语音,此时终端根据获取到的该第二用户的生理状态信息,确定出该第二用户处于预设的睡前状态。并且,终端检测到第一用户(终端机主)是该第二用户的关联用户。例如,第二用户是儿童,而第一用户是该儿童的母亲。在这种情况下,终端可以获取第二用户发出“打开故事APP”的语音时的音量值,并将其确定为目标音量值。然后,终端可以利用训练得到的第一用户的目标声纹模型,对“已经为您打开故事APP”的语音进行音色处理,并根据目标音量值,以第一用户的音色输出“已经为您打开故事APP”的语音。
可以理解的是,对于第二用户而言,其听到的语音反馈是其母亲的声音。并且,由于第二用户当前正处于睡前状态,因此终端输出的模拟其母亲的声音的语音反馈对该第二用户具有很好的心理安抚效果,有助于该第二用户的入眠。
此外,由于本实施例是以第二用户发出语音时的音量值来输出目标语音内容,因此本实施例具有更好的场景契合度,不会以不适宜的音量来输出语音。例如,第二用户是以较小的音量发出语音的,那么在本实施例中终端也会以较小的音量来反馈语音,而不会以过大的音量来输出反馈语音。
在一些实施方式中,第一用户可以在终端上手动输入与其进行关联的用户。或者,终端也可以通过如下方式来确定不同用户间是否可以确定为关联用户:
当接收到第二用户的语音指令时,终端获取该第二用户以及第一用户的人脸图像;
根据第一用户和第二用户的人脸图像,终端在相册中查找同时包含第一用户和第二用户的目标照片;
若目标照片满足预设条件,则终端将第一用户与第二用户关联。
比如,第一用户为终端机主,那么终端中可以预先存储该第一用户的人脸图像。之后,当接收到第二用户的语音指令时,终端可以获取该第二用户的人脸图像。
然后,终端可以根据该第一用户的人脸图像和第二用户的人脸图像,在终端相册中查找同时包含该第一用户和该第二用户的目标照片,并检测查找到的目标照片是否满足预设条件。
若检测到查找到的目标照片不满足预设条件,那么终端可以不将第一用户和第二用户关联。若检测到查找到的目标照片满足预设条件,那么终端可以将第一用户和第二用户关联。
在一种实施方式中,预设条件可以是目标照片的数量超过预设阈值,即若目标照片满足预设条件,则终端将第一用户与第二用户关联的步骤,可以包括:
若目标照片的数量超过预设阈值,则终端确定目标照片满足预设条件,并将第一用户与第二用户关联。
可以理解的是,若相册中同时包含第一用户和第二用户的目标照片的数量超过预设阈值,那么表明第一用户和第二用户之间的关系非常亲密,此时可以将第一用户和第二用户关联。比如,若终端机主为父母,那么该终端的相册中一般都存储有很多关于机主与其孩子的合照,因此终端可以根据合照的数量来将机主与其孩子关联。
在一种实施方式中,在接收到身份不是机主的第二用户的语音时,终端可以根据对该语音的分析,判断该第二用户的年龄段,若该年龄段属于儿童的年龄段,那么可以认为该第二用户可能是终端机主的孩子。此时,终端可以采用上述方式来确定是否要将第一用户和第二用户关联:先获取该第二用户以及第一用户的人脸图像;然后,终端根据第一用户和第二用户的人脸图像,终端在相册中查找同时包含第一用户和第二用户的目标照片;若目标照片满足预设条件,则终端将第一用户与第二用户关联。
在一种实施方式中,步骤206中终端获取第二用户发出的语音的目标音量值的步骤,可以包括:
终端获取环境噪声值;
若该环境噪声值低于预设阈值,那么终端获取第二用户发出的语音的目标音量值。
比如,当需要向第二用户反馈语音时,终端可以先获取环境噪声值,若该环境噪声值低于预设阈值,那么可以认为当前处于安静的环境,那么终端可以获取第二用户发出的语音的目标音量值,然后按照该目标音量值来输出需要向第二用户反馈的目标语音内容。比如,在安静的环境中,如果第二用户是以较小的音量来发出语音的,那么终端同样的可以按照较小的音量来反馈,而无需使用过大的音量来反馈语音,从而避免干扰到其它用户。
请参阅图3至图6,图3至图6为本申请实施例提供的语音反馈方法的场景示意图。
比如,终端的机主为一位母亲(用户甲),除了自己以外,机主还授权自己10岁的孩子(用户乙)也能够使用本终端,并且机主将自己确定为孩子的关联用户。
例如终端在与用户甲进行语音交互的过程中,不断地获取用户甲的语音数据,并利用这些语音数据训练声纹模型,从而得到对应于用户甲的目标声纹模型。在该目标声纹模型中包含了用户甲的音色的属性。
之后,如图3所示,第二用户正在使用终端,并向终端发出“打开故事APP”的第一语音指令,终端在接收到该第一语音指令后,对该第一语音指令进行解析,从而确定出当前用户为用户乙。
在解析完该第一语音指令后,终端可以根据该第一语音指令打开故事APP。在打开故事APP后,终端需要向该用户乙反馈语音信息“已经为您打开故事APP”。此时,终端可以先获取该用户乙的生理状态信息。例如,该用户乙手上戴着智能手环,该智能手环和终端是绑定的,因此终端可以通过该智能手环获取用户乙的生理状态信息,并将该生理状态信息发送至终端。
在接收到用户乙的生理状态信息后,终端可以根据该生理状态信息判断用户乙是否处于预设状态。例如,预设状态为睡前状态、休息状态或疲惫状态等。例如,本实施例中,终端根据用户乙的生理状态信息判断出用户乙当前处于睡前状态。在这种情况下,终端可以获取需要向用户乙反馈的语音信息“已经为您打开故事APP”,并获取用户乙发出第一语音指令时的目标音量值。
之后,终端可以利用训练得到的用户甲的目标声纹模型,对需要向用户乙反馈的语音信息“已经为您打开故事APP”进行音色处理。然后,终端可以按照目标音量值,以用户甲的音色向用户乙输出语音信息“已经为您打开故事APP”,如图4所示。即,对于用户乙来说,此时能够听到终端模拟其母亲的声音的语音反馈。
之后,用户乙向终端发出“播放XX故事”的第二语音指令,如图5所示。在接收到该第二语音指令后,终端可以获取XX故事的语音内容,然后利用训练得到的用户甲的目标声纹模型,对需要向用户乙反馈的XX故事的语音内容进行音色处理。然后,终端可以按照目标音量值,以用户甲的音色向用户乙输出XX故事的音频,如图6所示。
可以理解的是,本实施例中,终端可以在孩子睡前想听故事时,以孩子母亲的音色播放该故事内容,从而可以起到更好地安抚孩子,促进孩子入睡的效果。
请参阅图7,图7为本申请实施例提供的语音反馈装置的结构示意图。语音反馈装置300可以包括:获取模块301,训练模块302,检测模块303,输出模块304。
获取模块301,用于获取第一用户的语音数据。
训练模块302,用于根据所述第一用户的语音数据进行声纹模型训练,得到目标声纹模型。
检测模块303,用于当需要对第二用户进行语音反馈时,检测所述第一用户是否为所述第二用户的关联用户。
输出模块304,用于若检测到所述第一用户为所述第二用户的关联用户,则获取需要反馈的目标语音内容,并利用所述目标声纹模型对所述目标语音内容进行处理,按照所述第一用户的音色输出所述目标语音内容。
在一种实施方式中,所述检测模块303可以用于:
当需要对第二用户进行语音反馈时,获取所述第二用户的生理状态信息;
若根据所述第二用户的生理状态信息确定出所述第二用户处于预设状态,则检测所述第一用户是否为所述第二用户的关联用户。
在一种实施方式中,所述输出模块304可以用于:
获取所述第二用户发出的语音的目标音量值;
按照所述第一用户的音色输出所述目标语音内容,包括:根据所述目标音量值,并按照所述第一用户的音色输出所述目标语音内容。
请一并参阅图8,图8为本申请实施例提供的语音反馈装置的另一结构示意图。在一实施例中,语音反馈装置300还可以包括:关联模块305。
关联模块305,用于:当接收到所述第二用户的语音指令时,获取所述第二用户以及所述第一用户的人脸图像;根据所述第一用户和所述第二用户的人脸图像,在相册中查找同时包含所述第一用户和第二用户的目标照片;若所述目标照片满足预设条件,则将所述第一用户与所述第二用户关联。
在一种实施方式中,所述关联模块305还可以用于:若所述目标照片的数量超过预设阈值,则确定所述目标照片满足预设条件,并将所述第一用户与所述第二用户关联。
本申请实施例提供一种计算机可读的存储介质,其上存储有计算机程序,当所述计算机程序在计算机上执行时,使得所述计算机执行如本实施例提供的语音反馈方法中的步骤。
本申请实施例还提供一种电子设备,包括存储器,处理器,所述处理器通过调用所述存储器中存储的计算机程序,用于执行本实施例提供的语音反馈方法中的步骤。
例如,上述电子设备可以是诸如平板电脑或者智能手机等移动终端。请参阅图9,图9为本申请实施例提供的移动终端的结构示意图。
该移动终端400可以包括麦克风401、存储器402、处理器403等部件。本领域技术人员可以理解,图9中示出的移动终端结构并不构成对移动终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
麦克风401可以用于拾取用户发出的语音等信息。
存储器402可用于存储应用程序和数据。存储器402存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器403通过运行存储在存储器402的应用程序,从而执行各种功能应用以及数据处理。
处理器403是移动终端的控制中心,利用各种接口和线路连接整个移动终端的各个部分,通过运行或执行存储在存储器402内的应用程序,以及调用存储在存储器402内的数据,执行移动终端的各种功能和处理数据,从而对移动终端进行整体监控。
在本实施例中,移动终端中的处理器403会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器402中,并由处理器403来运行存储在存储器402中的应用程序,从而实现步骤:
获取第一用户的语音数据;
根据所述第一用户的语音数据进行声纹模型训练,得到目标声纹模型;
当需要对第二用户进行语音反馈时,检测所述第一用户是否为所述第二用户的关联用户;
若是,则获取需要反馈的目标语音内容,并利用所述目标声纹模型对所述目标语音内容进行处理,按照所述第一用户的音色输出所述目标语音内容。
请参阅图10,移动终端500可以包括麦克风501、存储器502、处理器503、输入单元504、输出单元505、扬声器506等部件。
麦克风501可以用于拾取用户发出的语音等信息。
存储器502可用于存储应用程序和数据。存储器502存储的应用程序中包含有可执行代码。应用程序可以组成各种功能模块。处理器503通过运行存储在存储器502的应用程序,从而执行各种功能应用以及数据处理。
处理器503是移动终端的控制中心,利用各种接口和线路连接整个移动终端的各个部分,通过运行或执行存储在存储器502内的应用程序,以及调用存储在存储器502内的数据,执行移动终端的各种功能和处理数据,从而对移动终端进行整体监控。
输入单元504可用于接收输入的数字、字符信息或用户特征信息(比如指纹),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
输出单元505可用于显示由用户输入的信息或提供给用户的信息以及移动终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。输出单元可包括显示面板。
在本实施例中,移动终端中的处理器503会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行代码加载到存储器502中,并由处理器503来运行存储在存储器502中的应用程序,从而实现步骤:
获取第一用户的语音数据;
根据所述第一用户的语音数据进行声纹模型训练,得到目标声纹模型;
当需要对第二用户进行语音反馈时,检测所述第一用户是否为所述第二用户的关联用户;
若是,则获取需要反馈的目标语音内容,并利用所述目标声纹模型对所述目标语音内容进行处理,按照所述第一用户的音色输出所述目标语音内容。
在一种实施方式中,在需要对第二用户进行语音反馈的步骤之前,处理器503还可以执行如下步骤:当接收到所述第二用户的语音指令时,获取所述第二用户以及所述第一用户的人脸图像;根据所述第一用户和所述第二用户的人脸图像,在相册中查找同时包含所述第一用户和第二用户的目标照片;若所述目标照片满足预设条件,则将所述第一用户与所述第二用户关联。
在一种实施方式中,处理器503执行所述若所述目标照片满足预设条件则将所述第一用户与所述第二用户关联的步骤时,可以执行:若所述目标照片的数量超过预设阈值,则确定所述目标照片满足预设条件,并将所述第一用户与所述第二用户关联。
在一种实施方式中,处理器503执行所述当需要对第二用户进行语音反馈时检测所述第一用户是否为所述第二用户的关联用户的步骤时,可以执行:当需要对第二用户进行语音反馈时,获取所述第二用户的生理状态信息;若根据所述第二用户的生理状态信息确定出所述第二用户处于预设状态,则检测所述第一用户是否为所述第二用户的关联用户。
在一种实施方式中,在获取需要反馈的目标语音内容的步骤之后,处理器503还可以执行:获取所述第二用户发出的语音的目标音量值;
那么,处理器503执行所述按照所述第一用户的音色输出所述目标语音内容的步骤时,可以执行:根据所述目标音量值,并按照所述第一用户的音色输出所述目标语音内容。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对语音反馈方法的详细描述,此处不再赘述。
本申请实施例提供的所述语音反馈装置与上文实施例中的语音反馈方法属于同一构思,在所述语音反馈装置上可以运行所述语音反馈方法实施例中提供的任一方法,其具体实现过程详见所述语音反馈方法实施例,此处不再赘述。
需要说明的是,对本申请实施例所述语音反馈方法而言,本领域普通技术人员可以理解实现本申请实施例所述语音反馈方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在存储器中,并被至少一个处理器执行,在执行过程中可包括如所述语音反馈方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)等。
对本申请实施例的所述语音反馈装置而言,其各功能模块可以集成在一个处理芯片中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中,所述存储介质譬如为只读存储器,磁盘或光盘等。
以上对本申请实施例所提供的一种语音反馈方法、装置、存储介质以及电子设备进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (9)
1.一种语音反馈方法,其特征在于,包括:
获取第一用户的语音数据;
根据所述第一用户的语音数据进行声纹模型训练,得到目标声纹模型;
当需要对第二用户进行语音反馈时,检测所述第一用户是否为所述第二用户的关联用户;
若是,则获取需要反馈的目标语音内容,并获取环境噪声值;若所述环境噪声值低于预设阈值,则获取所述第二用户发出的语音的目标音量值,并利用所述目标声纹模型对所述目标语音内容进行处理,根据所述目标音量值,按照所述第一用户的音色输出所述目标语音内容。
2.根据权利要求1所述的语音反馈方法,其特征在于,在需要对第二用户进行语音反馈的步骤之前,还包括:
当接收到所述第二用户的语音指令时,获取所述第二用户以及所述第一用户的人脸图像;
根据所述第一用户和所述第二用户的人脸图像,在相册中查找同时包含所述第一用户和第二用户的目标照片;
若所述目标照片满足预设条件,则将所述第一用户与所述第二用户关联。
3.根据权利要求2所述的语音反馈方法,其特征在于,若所述目标照片满足预设条件则将所述第一用户与所述第二用户关联,包括:
若所述目标照片的数量超过预设阈值,则确定所述目标照片满足预设条件,并将所述第一用户与所述第二用户关联。
4.根据权利要求1所述的语音反馈方法,其特征在于,当需要对第二用户进行语音反馈时检测所述第一用户是否为所述第二用户的关联用户,包括:
当需要对第二用户进行语音反馈时,获取所述第二用户的生理状态信息;
若根据所述第二用户的生理状态信息确定出所述第二用户处于预设状态,则检测所述第一用户是否为所述第二用户的关联用户。
5.一种语音反馈装置,其特征在于,包括:
获取模块,用于获取第一用户的语音数据;
训练模块,用于根据所述第一用户的语音数据进行声纹模型训练,得到目标声纹模型;
检测模块,用于当需要对第二用户进行语音反馈时,检测所述第一用户是否为所述第二用户的关联用户;
输出模块,用于若检测到所述第一用户为所述第二用户的关联用户,则获取需要反馈的目标语音内容,并获取环境噪声值;若所述环境噪声值低于预设阈值,则获取所述第二用户发出的语音的目标音量值,并利用所述目标声纹模型对所述目标语音内容进行处理,根据所述目标音量值,按照所述第一用户的音色输出所述目标语音内容。
6.根据权利要求5所述的语音反馈装置,其特征在于,所述装置还包括关联模块,用于:
当接收到所述第二用户的语音指令时,获取所述第二用户以及所述第一用户的人脸图像;
根据所述第一用户和所述第二用户的人脸图像,在相册中查找同时包含所述第一用户和第二用户的目标照片;
若所述目标照片满足预设条件,则将所述第一用户与所述第二用户关联。
7.根据权利要求6所述的语音反馈装置,其特征在于,所述关联模块用于:
若所述目标照片的数量超过预设阈值,则确定所述目标照片满足预设条件,并将所述第一用户与所述第二用户关联。
8.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上执行时,使得所述计算机执行如权利要求1至4中任一项所述的方法。
9.一种电子设备,包括存储器,处理器,其特征在于,所述处理器通过调用所述存储器中存储的计算机程序,用于执行如权利要求1至4中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810542926.1A CN108806699B (zh) | 2018-05-30 | 2018-05-30 | 语音反馈方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810542926.1A CN108806699B (zh) | 2018-05-30 | 2018-05-30 | 语音反馈方法、装置、存储介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108806699A CN108806699A (zh) | 2018-11-13 |
CN108806699B true CN108806699B (zh) | 2021-03-23 |
Family
ID=64089832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810542926.1A Active CN108806699B (zh) | 2018-05-30 | 2018-05-30 | 语音反馈方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108806699B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109215629B (zh) * | 2018-11-22 | 2021-01-01 | Oppo广东移动通信有限公司 | 语音处理方法、装置及终端 |
CN112837668B (zh) * | 2019-11-01 | 2023-04-28 | 北京搜狗科技发展有限公司 | 一种语音处理方法、装置和用于处理语音的装置 |
CN111429003B (zh) * | 2020-03-23 | 2023-11-03 | 北京互金新融科技有限公司 | 数据处理方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10137902B2 (en) * | 2015-02-12 | 2018-11-27 | Harman International Industries, Incorporated | Adaptive interactive voice system |
CN105069083B (zh) * | 2015-07-31 | 2019-03-08 | 小米科技有限责任公司 | 关联用户的确定方法及装置 |
CN105390141B (zh) * | 2015-10-14 | 2019-10-18 | 科大讯飞股份有限公司 | 声音转换方法和装置 |
CN105957525A (zh) * | 2016-04-26 | 2016-09-21 | 珠海市魅族科技有限公司 | 一种语音助手的交互方法以及用户设备 |
CN106328139A (zh) * | 2016-09-14 | 2017-01-11 | 努比亚技术有限公司 | 一种语音交互的方法和系统 |
CN107093421A (zh) * | 2017-04-20 | 2017-08-25 | 深圳易方数码科技股份有限公司 | 一种语音模拟方法和装置 |
-
2018
- 2018-05-30 CN CN201810542926.1A patent/CN108806699B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108806699A (zh) | 2018-11-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10621478B2 (en) | Intelligent assistant | |
CN108764304B (zh) | 场景识别方法、装置、存储介质及电子设备 | |
US11715485B2 (en) | Artificial intelligence apparatus for converting text and speech in consideration of style and method for the same | |
US20200125967A1 (en) | Electronic device and method for controlling the electronic device | |
KR102551550B1 (ko) | 오브젝트에 대한 정보를 검색하기 위한 전자 장치 및 이의 제어 방법 | |
US11776544B2 (en) | Artificial intelligence apparatus for recognizing speech of user and method for the same | |
US11423884B2 (en) | Device with convolutional neural network for acquiring multiple intent words, and method thereof | |
CN108806699B (zh) | 语音反馈方法、装置、存储介质及电子设备 | |
KR20200010131A (ko) | 전자 장치 및 그의 제어 방법 | |
US11468886B2 (en) | Artificial intelligence apparatus for performing voice control using voice extraction filter and method for the same | |
US20210349433A1 (en) | System and method for modifying an initial policy of an input/output device | |
CN113164056A (zh) | 睡眠预测方法、装置、存储介质及电子设备 | |
WO2020168444A1 (zh) | 睡眠预测方法、装置、存储介质及电子设备 | |
CN111444321A (zh) | 问答方法、装置、电子设备和存储介质 | |
US20210337274A1 (en) | Artificial intelligence apparatus and method for providing visual information | |
CN116959424A (zh) | 语音识别方法、语音识别系统、计算机设备及存储介质 | |
CN113170018A (zh) | 睡眠预测方法、装置、存储介质及电子设备 | |
CN116210051A (zh) | 增强的计算设备音频表示 | |
US20240029717A1 (en) | System to provide natural utterance by a voice assistant and method thereof | |
CN115497482B (zh) | 一种语音对话方法及相关装置 | |
US20220238109A1 (en) | Information processor and information processing method | |
CN115910110A (zh) | 一种基于自然语言识别的政务服务系统 | |
CN116796737A (zh) | 情感识别方法、模型训练方法、装置、设备及存储介质 | |
CN112927698A (zh) | 一种基于深度学习的智能电话语音系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |