CN111445904A - 基于云端的语音控制方法、装置及电子设备 - Google Patents
基于云端的语音控制方法、装置及电子设备 Download PDFInfo
- Publication number
- CN111445904A CN111445904A CN201811610345.3A CN201811610345A CN111445904A CN 111445904 A CN111445904 A CN 111445904A CN 201811610345 A CN201811610345 A CN 201811610345A CN 111445904 A CN111445904 A CN 111445904A
- Authority
- CN
- China
- Prior art keywords
- voice
- prediction
- information
- terminal
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 115
- 238000012549 training Methods 0.000 claims abstract description 17
- 238000004891 communication Methods 0.000 claims description 20
- 238000010801 machine learning Methods 0.000 abstract description 6
- 238000012795 verification Methods 0.000 description 20
- 238000010586 diagram Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 241000207961 Sesamum Species 0.000 description 2
- 235000003434 Sesamum indicum Nutrition 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了一种基于云端的语音控制方法、装置及电子设备,方法包括:接收终端发送的语音信息,将语音信息输入至预测模型中进行预测处理,得到语音预测结果;其中,预测模型是根据预采集的语音样本进行训练得到的;语音样本与预采集的用户标识相关联保存在预设语音库中;根据语音预测结果,向终端发送控制指令,以供终端根据接收到的控制指令进行控制处理。该方式利用终端采集并向云端传输语音信息,在云端利用机器学习的方法对语音信息进行预测,能够提高预测的效率以及准确率,从而快速准确地确认说话人的身份,实现精准的语音控制。
Description
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于云端的语音控制方法、装置及电子设备。
背景技术
语音控制是人类最自然、最便捷的方式,随着科学技术的发展,语音控制被广泛地应用于各个领域,语音声控的应用,解决放了人们的双手,能进一步增加控制终端设备的简便性、易性性、互动性和娱乐性。语音控制技术的重要组成部分为声纹识别技术,声纹识别是指根据声音所蕴涵的说话人的生物特征,识别说话人的身份识别技术。由于每个人的声纹特征具有唯一性,不易伪造和假冒,使得声纹识别具有安全、可靠、方便等特性,使其在需进行身份识别的场合得到了广泛的应用。然而,现有技术中,声纹识别过程往往耗时较长,且识别结果往往准确度不高,从而影响语音控制的效率以及准确性。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的基于云端的语音控制方法、装置及电子设备。
根据本发明的一个方面,提供了一种基于云端的语音控制方法,方法包括:
接收终端发送的语音信息,将语音信息输入至预测模型中进行预测处理,得到语音预测结果;其中,预测模型是根据预采集的语音样本进行训练得到的;语音样本与预采集的用户标识相关联保存在预设语音库中;
根据语音预测结果,向终端发送控制指令,以供终端根据接收到的控制指令进行控制处理。
可选地,将语音信息输入至预测模型中进行预测处理,得到语音预测结果进一步包括:
对语音信息进行特征分析,提取出多个维度的特征信息;
将各个维度的特征信息分别输入至各个维度对应的预测模型中进行预测处理,得到各个维度的预测结果;
对各个维度的预测结果进行整合,得到语音预测结果。
可选地,对各个维度的预测结果进行整合,得到语音预测结果进一步包括:
根据预设的维度优先等级对各个维度的预测结果进行整合,得到语音预测结果。
可选地,多个维度具体包括以下维度的一个或多个:音调维度、音色维度、音准维度、频率维度、语速维度以及尾音维度。
可选地,预设语音库还保存有与语音样本相关联的时间段信息,预测模型与时间段信息相对应;则将语音信息输入至预测模型中进行预测处理,得到语音预测结果进一步包括:
获取语音信息所包含的时间信息,查询与时间信息相匹配的时间段信息,确定相匹配的时间段信息对应的预测模型;
将语音信息输入至相匹配的时间段信息对应的预测模型中进行预测处理,得到语音预测结果。
可选地,在得到语音预测结果之后,方法进一步包括:
对语音信息进行语音识别处理,得到语音识别结果;
则根据语音预测结果,向终端发送控制指令进一步包括:
根据语音预测结果和语音识别结果,向终端发送控制指令。
可选地,方法执行之前,进一步包括:
接收终端发送的图像信息,将图像信息进行人脸识别处理,得到人脸识别结果;
则根据语音预测结果,向终端发送控制指令进一步包括:
根据语音预测结果和人脸识别结果,向终端发送控制指令。
可选地,预设语音库还保存有语音样本的样本校验值,则接收终端发送的语音信息之后,方法进一步包括:
计算语音信息的校验值,判断预设语音库中是否存在样本校验值与语音信息的校验值一致的语音样本;若是,则放弃对语音信息进行预测处理;
若否,则执行将语音信息输入至预测模型中进行预测处理的步骤。
可选地,向终端发送控制指令,以供终端根据接收到的控制指令进行控制处理进一步包括:
向终端发送解锁控制指令,以供终端根据接收到的解锁控制指令对门锁进行开锁处理。
可选地,向终端发送控制指令,以供终端根据接收到的控制指令进行控制处理进一步包括:
向终端发送允许支付指令,以供终端根据接收到的允许支付指令完成支付处理。
根据本发明的另一方面,提供了一种基于云端的语音控制装置,装置包括:
预测处理模块,接收终端发送的语音信息,将语音信息输入至预测模型中进行预测处理,得到语音预测结果;其中,预测模型是根据预采集的语音样本进行训练得到的;语音样本与预采集的用户标识相关联保存在预设语音库中;
发送模块,适于根据语音预测结果,向终端发送控制指令,以供终端根据接收到的控制指令进行控制处理。
可选地,预测处理模块进一步适于:
对语音信息进行特征分析,提取出多个维度的特征信息;
将各个维度的特征信息分别输入至各个维度对应的预测模型中进行预测处理,得到各个维度的预测结果;
对各个维度的预测结果进行整合,得到语音预测结果。
可选地,预测处理模块进一步适于:
预设的维度优先等级对各个维度的预测结果进行整合,得到语音预测结果。
可选地,多个维度具体包括以下维度的一个或多个:音调维度、音色维度、音准维度、频率维度、语速维度以及尾音维度。
可选地,预设语音库还保存有与语音样本相关联的时间段信息,预测模型与时间段信息相对应,则预测处理模块进一步适于:
获取语音信息所包含的时间信息,查询与时间信息相匹配的时间段信息,确定相匹配的时间段信息对应的预测模型;
将语音信息输入至相匹配的时间段信息对应的预测模型中进行预测处理,得到语音预测结果。
可选地,装置进一步包括:
语音识别模块,适于在得到语音预测结果之后,对语音信息进行语音识别处理,得到语音识别结果;
则发送模块进一步适于:根据语音预测结果和语音识别结果,向终端发送控制指令。
可选地,装置进一步包括:
人脸识别模块,适于接收终端发送的图像信息,将图像信息进行人脸识别处理,得到人脸识别结果;
则发送模块进一步适于:根据语音预测结果和人脸识别结果,向终端发送控制指令。
可选地,预设语音库还保存有语音样本的样本校验值,装置进一步包括:
校验模块,适于计算语音信息的校验值,判断预设语音库中是否存在样本校验值与语音信息的校验值一致的语音样本;
则预测处理模块进一步适于:
若预设语音库中存在样本校验值与语音信息的校验值一致的语音样本,则放弃对语音信息进行预测处理;
若预设语音库中不存在样本校验值与语音信息的校验值一致的语音样本,则执行将语音信息输入至预测模型中进行预测处理的步骤。
可选地,发送模块进一步适于:
向终端发送解锁控制指令,以供终端根据接收到的解锁控制指令对门锁进行开锁处理。
可选地,发送模块进一步适于:
向终端发送允许支付指令,以供终端根据接收到的允许支付指令完成支付处理。
根据本发明的又一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述基于云端的语音控制方法对应的操作。
根据本发明的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述基于云端的语音控制方法对应的操作。
根据本发明提供的基于云端的语音控制方法、装置及电子设备,方法包括:接收终端发送的语音信息,将语音信息输入至预测模型中进行预测处理,得到语音预测结果;其中,预测模型是根据预采集的语音样本进行训练得到的;语音样本与预采集的用户标识相关联保存在预设语音库中;根据语音预测结果,向终端发送控制指令,以供终端根据接收到的控制指令进行控制处理。该方式利用终端采集并向云端传输语音信息,在云端利用机器学习的方法对语音信息进行预测,能够提高预测的效率以及准确率,从而快速准确地确认说话人的身份,实现精准的语音控制。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了根据本发明一个实施例的基于云端的语音控制方法的流程示意图;
图2示出了根据本发明另一个实施例的基于云端的语音控制方法的流程示意图;
图3示出了根据本发明又一个实施例的基于云端的语音控制方法的流程示意图;
图4示出了根据本发明又一个实施例的基于云端的语音控制装置的功能模块图;
图5示出了根据本发明另一个实施例的基于云端的语音控制装置的功能模块图;
图6示出了根据本发明实施例的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的基于云端的语音控制方法的流程示意图,如图1所示,该方法包括:
步骤S101,接收终端发送的语音信息,将语音信息输入至预测模型中进行预测处理,得到语音预测结果,其中,预测模型是根据预采集的语音样本进行训练得到的;语音样本与预采集的用户标识相关联保存在预设语音库中。
终端上可集成语音采集设备,例如麦克风,终端获取语音采集设备采集的语音信息并将其发送至云端,在云端采用机器学习的方法对接收到的语音信息进行预测处理,具体地,将接收到的语音信息输入至预测模型中进行预测处理,通过这种方式能够提升预测结果的准确性。
在预采集阶段,用户通过终端录入语音样本,终端将预采集的语音样本发送给云端,云端根据预采集的语音样本训练得到预测模型,具体针对于每一个预采集的用户,根据该预采集的用户录入的语音样本训练一个预测模型。并且将语音样本与预采集的用户标识相关联保存在预设语音库中,也就是说,本实施例中预测模型与预采集的用户标识之间也具有对应关系。其中,预采集的用户标识可以是用户通过终端录入的,也可以是云端在接收到语音样本之后自动生成的,本发明对此不做限定。
其中,预测模型的语音预测结果能够表示语音信息对应的说话人是否为该预测模型对应的预采集的用户。举例来说,预采集阶段,用户张三预先录入了语音样本,并录入了用户标识“张三”,云端根据张三录入的语音样本训练预测模型,则预测模型对应的预采集的用户标识为“张三”。应用阶段,该预测模型针对语音信息的语音预测结果为:[(0,0.1),(1,0.9)],其中,第一组数值(0,0.1)表示说话人不是张三的概率为0.1,第二组数值(1,0.9)表示说话人是张三的概率为0.9,说话人是张三的概率远远超过了说话人不是张三的概率,则可以判定说话人是张三。
步骤S102,根据语音预测结果,向终端发送控制指令,以供终端根据接收到的控制指令进行控制处理。
语音预测结果可以表示语音信息对应的说话人是否为预采集的用户,则云端根据说话人是否为预采集的用户的结果,向终端发送控制指令。其中,在不同应用场景中,云端发送的控制指令各不相同。例如,在语音控制开门场景中,若对语音信息进行预测得到上述语音预测结果,判定说话人是预采集的用户(张三),则云端向终端发送开门控制指令,终端根据接收到的开门控制指令进行开门。
另外,在语音控制开门的场景中,一个家庭中的每一位成员都可以进行语音开门,家庭成员包括人以及宠物等等,因此,还可以在云端设置用户群组,将相关联的多个预采集的用户对应的预测模型划分为一个群组。具体地,可预先建立群组标识与终端标识的对应关系,则云端可以根据发送语音样本的终端的终端标识,确定根据该语音样本训练得到的预测模型属于哪一个群组。例如,每一位家庭成员通过同一终端预先录入语音样本,云端根据各个预采集的家庭成员录入的语音样本分别得到训练预测模型,并将各个预采集的家庭成员分别对应的预测模型划分成一个群组。
那么,在应用阶段,当接收到终端发送语音信息时,首先,获取终端的终端标识,根据与终端标识确定对应的群组,然后,将语音信息并行输入群组内各个预测模型中进行预测处理,或者将语音信息先后输入至群组内各个预测模型中进行预测处理。本发明对此不做限定。
群组内各个预测模型都会输出语音预测结果,则根据各个预测模型输出的语音预测结果向终端发送指令。例如,在语音开门场景中,当群组内任一预测模型输出的语音预测结果表明说话人是预采集的用户时,则向终端发送开锁控制指令;当群组内各个预测模型输出的语音预测结果均表明说话人不是预采集的用户,则向终端发送报警控制指令。
根据本实施例提供的基于云端的语音控制方法,首先,接收终端发送的语音信息,将语音信息输入至预测模型中进行预测处理,得到语音预测结果。其中,预测模型是根据预采集的语音样本进行训练得到的,语音样本与预采集的用户标识相关联保存在预设语音库中;根据语音预测结果,向终端发送控制指令,以供终端根据接收到的控制指令进行控制处理。该方式利用终端采集并向云端传输语音信息,在云端利用机器学习的方法对语音信息进行预测,能够提高预测的效率以及准确率,从而快速准确地确认说话人的身份,实现精准的语音控制。
图2示出了根据本发明另一个实施例的基于云端的语音控制方法的流程示意图,本实施例中以语音控制开门场景为例进行说明,如图2所示,该方法包括:
步骤S201,接收终端发送的图像信息,将图像信息进行人脸识别处理,得到人脸识别结果。
终端上集成图像采集设备,例如摄像头,终端获取图像采集设备所采集到的图像信息,并将图像信息发送至于云端,云端对接收到的图像信息进行人脸识别处理,识别出图像中的人脸,得到人脸图像。其中,人脸识别结果也用于对说话人的身份进行验证。本步骤得到的人脸识别结果是后续身份验证的辅助验证信息,本实施例语音控制方法也可以不进行人脸识别,即本步骤是本实施例的可选步骤。
步骤S202,接收终端发送的语音信息,对语音信息进行特征分析,提取出多个维度的特征信息。
表征一个人说话的特征应该是多层面的,而特征分析的目的就是提取对说话人的语音具有可分性强、稳定性高等特性的特征信息。因此,本实施例中,终端将语音信息发送至云端,云端从多个维度对语音信息进行特征分析,提取出语音信息多个维度的特征,从多个维度对语音信息进行准确刻画。其中,多个维度具体包括以下维度的一个或多个:音调维度、音色维度、音准维度、频率维度、语速维度以及尾音维度。
每个说话人的语音声学特征既有相对稳定性,又有变异性。但是,录制的语音往往具有绝对稳定性,对同一段录制的语音,在不同的时刻对其进行特征分析,提取出的特征信息都是一致的,若预采集阶段录入的是录制的语音,那么在应用阶段使用该录制的语音也会触发云端向终端发送控制指令。例如在语音控制开门的场景中,预采集的用户为家庭成员,如果家庭成员的语音被录制,并根据录制的家庭成员的语音生成了语音样本,在应用阶段使用录制的家庭成员的语音也能够触发云端发送控制指令从而打开门锁,因此,如果家庭成员的语音样本被泄露了,例如被其他不是家庭成员的人甚至不法分子录制,则会造成非常危险的安全隐患。
基于此,本实施例中通过对语音信息进行校验以排除掉录制的语音。具体地,预设语音库还保存有语音样本的样本校验值,则在接收到语音信息之后,首先计算语音信息的校验值,判断语音库中是否存在样本校验值与语音信息的校验值一致的语音样本;若语音信息的校验值与语音样本的校验值一致,表明说话人是使用录制好的语音进行开门,在此情况下,则不对语音信息进行下一步处理,或者直接向终端发送不允许开门控制指令;若语音信息的校验值与语音样本的校验值不一致,则继续执行对语音信息进行特征分析,提取出多个维度的特征信息等后续步骤。
步骤S203,将各个维度的特征信息分别输入至各个维度对应的预测模型中进行预测处理,得到各个维度的预测结果,各个维度对应的预测模型是根据预采集的语音样本进行训练得到的,语音样本与预采集的用户标识相关联保存在预设语音库中。
在预采集阶段,用户录入语音样本,云端提取出预采集的语音样本的各个维度的特征信息,并根据语音样本的各个维度的特征信息训练预测得到该维度对应的预测模型。在应用阶段,在提取出语音信息的各个维度的特征信息之后,将各个维度的特征信息分别输入至各个维度对应的预测模型,得到各个维度的预测结果。也就是说,本实施例中,一个预采集的用户标识对应有多个不同维度的预测模型。
其中,任一维度的预测结果表示在该维度上语音信息对应的说话人是否为预测模型对应的预采集的用户的概率。举例来说,用户标识“张三”对应有音调维度和音色维度的预测模型,将音调维度的特征信息输入至音调维度的预测模型中进行预测处理,以及将音色维度的特征信息输入至音色维度的预测模型中进行预测处理,音调维度的预测模型输出的预测结果为:[(0,0.2),(1,0.8)],音色维度的预测模型输出的预测结果为:[(0,0.26),(1,0.74)],那么,音调维度的预测结果表示:在音调维度,说话人不是张三的概率为0.2,而是说话人是张三的概率为0.8;音色维度的预测结果表示:在音色维度,说话人不是张三的概率为0.26,而说话人是张三的概率为0.74。
步骤S204,对各个维度的预测结果进行整合,得到语音预测结果。
可选地,根据预设的维度优先等级对各个维度的预测结果进行整合,得到语音预测结果。例如,音色和音调是能够区分说话人的语音的显著特征,因此,可以将音色维度的维度优先等级设置为第一等级,音调维度的维度优先等级设置为第二等级,其他维度的维度优先等级设置为第三等级,在对各个维度的预测结果进行整合时,根据各个维度优先等级对应的权重对各个维度的概率值进行加权求和,从而得到语音预测结果。
沿用上述示例,其中,音调维度的权重为0.6,音色维度的权重为0.4,则加权求和所得到的语音预测结果为:[(0,0.2*0.6+0.26*0.4),(1,0.8*0.6+0.74*0.4)],也即[(0,0.224),(1,0.776)],由此可知,综合各个维度的预测结果,说话人是张三的概率(0.776)远远超过说话人不是张三的概率(0.224),因此判定说话人是张三。
步骤S205,根据语音预测结果和人脸识别结果,向终端发送解锁控制指令,以供终端根据接收到的解锁控制指令对门锁进行开锁处理。
上述步骤S201为本实施例的可选步骤,则根据语音预测结果和人脸识别结果向终端发送控制指令也是一种可选的实施方式。其中,根据语音预测结果可以确定语音信息对应的说话人是否为预采集的用户,人脸识别结果能够进一步对说话人的身份进行验证。
可选地,预采集阶段,用户在录入语音样本的同时,还可以录入人脸图像,终端将拍摄到的图像信息发送至云端,云端对接收到的图像信息进行人脸识别,得到图像样本,并将图像样本与用户标识相关联进行保存,本实施例中,语音样本与用户标识相关联,图像样本与用户标识相关联,而预测模型与语音样本具有对应关系,由此可知,图像样本以及预测模型之间也具有对应关系。
应用阶段,在得到语音预测结果之后,进一步获取预测模型所对应的图像样本,将人脸识别结果与对应的图像样本进行匹配,得到图像匹配结果。然后,结合语音预测结果以及图像匹配结果确定说话人是否为预采集的用户,若是,则向终端发送解锁控制指令,终端根据接收到的解锁控制指令打开门锁。若否,则向终端发送报警控制指令,终端根据接收到的报警控制指令语音播报预设的语音信息,当然,本发明对此不做限定。
可选地,为了进一步提升语音控制的安全性,除了根据语音信息对说话人的身份进行识别之外,还对识别语音信息所包含的语音内容进行识别,也即对语音信息进行语音识别处理,并根据语音预测结果以及语音识别结果发送控制指令。也就是针对语音信息进行两方面的验证,一方面是语音信息对应的说话人的身份,另一方面是语音信息的语音内容。
具体地,在接收语音信息之后,对语音信息进行语音识别处理,得到语音识别结果,然后,根据语音预测结果和语音识别结果,向终端发送控制指令。在预采集阶段对用户录入的语音样本进行语音识别处理的得到语音识别样本,并将语音识别样本和语音样本相关联保存在预设语音库中,或者用户自行录入控制口令(例如“芝麻开门”)以生成语音识别样本。在应用阶段,根据语音预测结果判断语音信息对应的说话人是否为预采集的用户,并且判断语音识别处理结果是否与预采集的语音识别样本相匹配,若判断说话人是为预采集的用户,并且语音内容为“芝麻开门”,则云端向终端发送解锁控制指令。
综上可知,本发明的应用场景广,除了上述语音控制开门场景,本发明还可以应用于任何需要进行身份识别的场景中,例如支付场景,若语音预测结果表明语音信息对应的说话人是预采集的用户,则云端向终端发送允许支付指令,以供终端根据接收到的允许支付指令完成支付处理;若语音预测结果表明语音信息对应的说话人不是预采集的用户,则云端向终端发送不允许支付指令。
由此可知,采用本实施例所提供的基于云端的语音控制方法,利用终端采集并向云端传输语音信息以及图像信息,在云端提取出语音信息的多个维度的特征信息,并利用机器学习的方法对各个维度的特征信息进行预测,对各个维度的预测结果进行整合得到语音预测结果,预测效率高且准确性高;同时在云端对图像信息进行人脸识别处理,结合语音预测结果以及人脸识别结果快速而准确地确认说话人的身份,从两个层面对说话人的身份进行识别,识别准确率高,能够实现精准的语音控制;另外,该方式还能够对录制的语音进行排除,避免录制的语音触发云端发送控制指令,大大地提升了语音控制的安全性。
图3示出了根据本发明又一个实施例的基于云端的语音控制方法的流程示意图,如图3所示,该方法包括:
步骤S301,接收终端发送的语音信息,获取语音信息所包含的时间信息,查询与时间信息相匹配的时间段信息,确定相匹配的时间段信息对应的预测模型,预测模型是根据预采集的语音样本进行训练得到的,语音样本与预采集的用户标识相关联保存在预设语音库中。
每个说话人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的,甚至在一天中不同的时间段内的语音声学特征都可能不一样,那么,采用单一的预测模型对说话人的身份进行识别,准确率较低。基于此,本实施例中根据时间信息训练多个预测模型,从而对说话人的身份进行验证。
具体地,在预采集阶段,用户可根据自己的需要来划分时间段或者系统预置时间段,并在不同的时间段内录入语音样本,针对该用户,云端根据在同一时间段内接收到的语音样本训练与该时间段相对应的预测模型。举例来说,例如,用户将早上5点到8点划分为第一时间段,将早上9点到下午4点划分第二时间段,将下午5点到晚上11点划分为第三时间段,用户分别在第一、第二以及第三时间段内录入语音样本,云端根据在第一时间段内接收到的语音样本训练得到第一预测模型,根据在第二时间段内接收到的语音样本训练得到第二预测模型,根据在第三时间段内接收到的语音样本训练得到第三预测模型。
在应用阶段,当接收到终端发送的语音信息时,首先获取语音信息所包含的时间信息,确定与时间信息相匹配的时间段信息,然后确定相匹配的时间段信息对应的预测模型。沿用上述示例,终端在早上7点采集到语音信息,实时地将语音信息以及时间信息发送给云端,早上7点相匹配的时间段信息为第一时间段,则相匹配的时间段信息所对应的预测模型为第一预测模型。
步骤S302,将语音信息输入至相匹配的时间段信息对应的预测模型中进行预测处理,得到语音预测结果。
其中,相匹配的时间段信息对应的预测模型就是在时间上与语音信息相匹配的预测模型。将语音信息输入至相匹配的时间段信息所对应的预测模型中进行预测处理。预测处理的具体实施方式参照上述实施例中的描述,在此不进行赘述。采用这种方式,分别训练与各个时间段相对应的预测模型,从而在不同时间段内都能够准确地识别出说话人的身份,识别准确度高。
步骤S303,根据语音预测结果,向终端发送控制指令,以供终端根据接收到的控制指令进行控制处理。
本步骤的具体实施方式可参见步骤S102以及步骤S205中的描述,在此不进行赘述。
由此可知,采用本实施例所提供的基于云端的语音控制方法,采用机器学习的方式,根据不同时间段内接收的语音样本训练得到不同时间段对应的预测模型,并利用与语音信息的时间相匹配的预测模型对语音信息进行预测,相比于单一的预测模型的方式,能够避免用户在不同时间段内声音有所不同的影响,在任何时间段内都能够准确地识别出说话人的身份,提升识别准确度,从而提升了语音控制的准确度。
图4示出了根据本发明又一个实施例的基于云端的语音控制装置的功能模块图,如图4所示,该装置包括:
预测处理模块41,接收终端发送的语音信息,将语音信息输入至预测模型中进行预测处理,得到语音预测结果;其中,预测模型是根据预采集的语音样本进行训练得到的;语音样本与预采集的用户标识相关联保存在预设语音库中;
发送模块42,适于根据语音预测结果,向终端发送控制指令,以供终端根据接收到的控制指令进行控制处理。
图5示出了根据本发明又一个实施例的基于云端的语音控制装置的功能模块图,如图5所示,该装置在图4所示的装置的基础上,还包括:语音识别模块51、人脸识别模块52以及校验模块53。
可选地,预测处理模块41进一步适于:
对语音信息进行特征分析,提取出多个维度的特征信息;
将各个维度的特征信息分别输入至各个维度对应的预测模型中进行预测处理,得到各个维度的预测结果;
对各个维度的预测结果进行整合,得到语音预测结果。
可选地,预测处理模块41进一步适于:
预设的维度优先等级对各个维度的预测结果进行整合,得到语音预测结果。
可选地,多个维度具体包括以下维度的一个或多个:音调维度、音色维度、音准维度、频率维度、语速维度以及尾音维度。
可选地,预设语音库还保存有与语音样本相关联的时间段信息,预测模型与时间段信息相对应,则预测处理模块41进一步适于:
获取语音信息所包含的时间信息,查询与时间信息相匹配的时间段信息,确定相匹配的时间段信息对应的预测模型;
将语音信息输入至相匹配的时间段信息对应的预测模型中进行预测处理,得到语音预测结果。
可选地,装置进一步包括:
语音识别模块51,适于在得到语音预测结果之后,对语音信息进行语音识别处理,得到语音识别结果;
则发送模块42进一步适于:根据语音预测结果和语音识别结果,向终端发送控制指令。
可选地,装置进一步包括:
人脸识别模块52,适于接收终端发送的图像信息,将图像信息进行人脸识别处理,得到人脸识别结果;
则发送模块42进一步适于:根据语音预测结果和人脸识别结果,向终端发送控制指令。
可选地,预设语音库还保存有语音样本的样本校验值,装置进一步包括:
校验模块53,适于计算语音信息的校验值,判断预设语音库中是否存在样本校验值与语音信息的校验值一致的语音样本;
则预测处理模块41进一步适于:
若预设语音库中存在样本校验值与语音信息的校验值一致的语音样本,则放弃对语音信息进行预测处理;
若预设语音库中不存在样本校验值与语音信息的校验值一致的语音样本,则执行将语音信息输入至预测模型中进行预测处理的步骤。
可选地,发送模块42进一步适于:
向终端发送解锁控制指令,以供终端根据接收到的解锁控制指令对门锁进行开锁处理。
可选地,发送模块42进一步适于:
向终端发送允许支付指令,以供终端根据接收到的允许支付指令完成支付处理。
上述各个模块的具体结构和工作原理可参照方法实施例中相应步骤的描述,此处不再赘述。
本申请实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于云端的语音控制方法。
图6示出了根据本发明实施例的一种电子设备的结构示意图,本发明具体实施例并不对电子设备的具体实现做限定。
如图6所示,该电子设备可以包括:处理器(processor)602、通信接口(Communications Interface)604、存储器(memory)606、以及通信总线608。
其中:
处理器602、通信接口604、以及存储器606通过通信总线608完成相互间的通信。
通信接口604,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器602,用于执行程序610,具体可以执行上述基于云端的语音控制方法实施例中的相关步骤。
具体地,程序610可以包括程序代码,该程序代码包括计算机操作指令。
处理器602可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器606,用于存放程序610。存储器606可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序610具体可以用于使得处理器602执行以下操作:
接收终端发送的语音信息,将语音信息输入至预测模型中进行预测处理,得到语音预测结果;其中,预测模型是根据预采集的语音样本进行训练得到的;语音样本与预采集的用户标识相关联保存在预设语音库中;
根据语音预测结果,向终端发送控制指令,以供终端根据接收到的控制指令进行控制处理。
在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:
对语音信息进行特征分析,提取出多个维度的特征信息;
将各个维度的特征信息分别输入至各个维度对应的预测模型中进行预测处理,得到各个维度的预测结果;
对各个维度的预测结果进行整合,得到语音预测结果。
在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:
根据预设的维度优先等级对各个维度的预测结果进行整合,得到语音预测结果。
在一种可选的方式中,多个维度具体包括以下维度的一个或多个:音调维度、音色维度、音准维度、频率维度、语速维度以及尾音维度。
在一种可选的方式中,预设语音库还保存有与语音样本相关联的时间段信息,预测模型与时间段信息相对应;程序610具体可以进一步用于使得处理器602执行以下操作:
获取语音信息所包含的时间信息,查询与时间信息相匹配的时间段信息,确定相匹配的时间段信息对应的预测模型;
将语音信息输入至相匹配的时间段信息对应的预测模型中进行预测处理,得到语音预测结果。
在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:
对语音信息进行语音识别处理,得到语音识别结果;
根据语音预测结果和语音识别结果,向终端发送控制指令。
在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:
接收终端发送的图像信息,将图像信息进行人脸识别处理,得到人脸识别结果;根据语音预测结果和人脸识别结果,向终端发送控制指令。
在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:
计算语音信息的校验值,判断预设语音库中是否存在样本校验值与语音信息的校验值一致的语音样本;若是,则放弃对语音信息进行预测处理;
若否,则执行将语音信息输入至预测模型中进行预测处理的步骤。
在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:
向终端发送解锁控制指令,以供终端根据接收到的解锁控制指令对门锁进行开锁处理。
在一种可选的方式中,程序610具体可以进一步用于使得处理器602执行以下操作:
向终端发送允许支付指令,以供终端根据接收到的允许支付指令完成支付处理。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的电子设备中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本发明公开了:A1.一种基于云端的语音控制方法,包括:
接收终端发送的语音信息,将所述语音信息输入至预测模型中进行预测处理,得到语音预测结果;其中,所述预测模型是根据预采集的语音样本进行训练得到的;所述语音样本与预采集的用户标识相关联保存在预设语音库中;
根据所述语音预测结果,向所述终端发送控制指令,以供所述终端根据接收到的控制指令进行控制处理。
A2.根据A1所述的方法,其中,所述将所述语音信息输入至预测模型中进行预测处理,得到语音预测结果进一步包括:
对所述语音信息进行特征分析,提取出多个维度的特征信息;
将各个维度的特征信息分别输入至各个维度对应的预测模型中进行预测处理,得到各个维度的预测结果;
对所述各个维度的预测结果进行整合,得到语音预测结果。
A3.根据A2所述的方法,其中,所述对所述各个维度的预测结果进行整合,得到语音预测结果进一步包括:
根据预设的维度优先等级对所述各个维度的预测结果进行整合,得到语音预测结果。
A4.根据A2或A3所述的方法,其中,所述多个维度具体包括以下维度的一个或多个:音调维度、音色维度、音准维度、频率维度、语速维度以及尾音维度。
A5.根据A1所述的方法,其中,所述预设语音库还保存有与语音样本相关联的时间段信息,所述预测模型与时间段信息相对应;则所述将所述语音信息输入至预测模型中进行预测处理,得到语音预测结果进一步包括:
获取所述语音信息所包含的时间信息,查询与所述时间信息相匹配的时间段信息,确定相匹配的时间段信息对应的预测模型;
将所述语音信息输入至相匹配的时间段信息对应的预测模型中进行预测处理,得到语音预测结果。
A6.根据A1所述的方法,其中,在得到语音预测结果之后,所述方法进一步包括:
对所述语音信息进行语音识别处理,得到语音识别结果;
则根据所述语音预测结果,向所述终端发送控制指令进一步包括:
根据所述语音预测结果和所述语音识别结果,向所述终端发送控制指令。
A7.根据A1-A6中任一项所述的方法,其中,所述方法执行之前,进一步包括:
接收终端发送的图像信息,将所述图像信息进行人脸识别处理,得到人脸识别结果;
则根据所述语音预测结果,向所述终端发送控制指令进一步包括:
根据所述语音预测结果和所述人脸识别结果,向所述终端发送控制指令。
A8.根据A1所述的方法,其中,所述预设语音库还保存有语音样本的样本校验值,则所述接收终端发送的语音信息之后,所述方法进一步包括:
计算所述语音信息的校验值,判断所述预设语音库中是否存在样本校验值与所述语音信息的校验值一致的语音样本;若是,则放弃对所述语音信息进行预测处理;
若否,则执行将所述语音信息输入至预测模型中进行预测处理的步骤。
A9.根据A1所述的方法,其中,所述向所述终端发送控制指令,以供所述终端根据接收到的控制指令进行控制处理进一步包括:
向所述终端发送解锁控制指令,以供所述终端根据接收到的解锁控制指令对门锁进行开锁处理。
A10.根据A1所述的方法,其中,所述向所述终端发送控制指令,以供所述终端根据接收到的控制指令进行控制处理进一步包括:
向所述终端发送允许支付指令,以供所述终端根据接收到的允许支付指令完成支付处理。
B11.一种基于云端的语音控制装置,包括:
预测处理模块,接收终端发送的语音信息,将所述语音信息输入至预测模型中进行预测处理,得到语音预测结果;其中,所述预测模型是根据预采集的语音样本进行训练得到的;所述语音样本与预采集的用户标识相关联保存在预设语音库中;
发送模块,适于根据所述语音预测结果,向所述终端发送控制指令,以供所述终端根据接收到的控制指令进行控制处理。
B12.根据B11所述的装置,其中,所述预测处理模块进一步适于:
对所述语音信息进行特征分析,提取出多个维度的特征信息;
将各个维度的特征信息分别输入至各个维度对应的预测模型中进行预测处理,得到各个维度的预测结果;
对所述各个维度的预测结果进行整合,得到语音预测结果。
B13.根据B12所述的装置,其中,所述预测处理模块进一步适于:
预设的维度优先等级对所述各个维度的预测结果进行整合,得到语音预测结果。
B14.根据B12或B13所述的装置,其中,所述多个维度具体包括以下维度的一个或多个:音调维度、音色维度、音准维度、频率维度、语速维度以及尾音维度。
B15.根据B11所述的装置,其中,所述预设语音库还保存有与语音样本相关联的时间段信息,所述预测模型与时间段信息相对应,则所述预测处理模块进一步适于:
获取所述语音信息所包含的时间信息,查询与所述时间信息相匹配的时间段信息,确定相匹配的时间段信息对应的预测模型;
将所述语音信息输入至相匹配的时间段信息对应的预测模型中进行预测处理,得到语音预测结果。
B16.根据B11所述的装置,其中,所述装置进一步包括:
语音识别模块,适于在得到语音预测结果之后,对所述语音信息进行语音识别处理,得到语音识别结果;
则所述发送模块进一步适于:根据所述语音预测结果和所述语音识别结果,向所述终端发送控制指令。
B17.根据B11-B16中任一项所述的装置,其中,所述装置进一步包括:
人脸识别模块,适于接收终端发送的图像信息,将所述图像信息进行人脸识别处理,得到人脸识别结果;
则所述发送模块进一步适于:根据所述语音预测结果和所述人脸识别结果,向所述终端发送控制指令。
B18.根据B11所述的装置,其中,所述预设语音库还保存有语音样本的样本校验值,所述装置进一步包括:
校验模块,适于计算所述语音信息的校验值,判断所述预设语音库中是否存在样本校验值与所述语音信息的校验值一致的语音样本;
则所述预测处理模块进一步适于:
若所述预设语音库中存在样本校验值与所述语音信息的校验值一致的语音样本,则放弃对所述语音信息进行预测处理;
若所述预设语音库中不存在样本校验值与所述语音信息的校验值一致的语音样本,则执行将所述语音信息输入至预测模型中进行预测处理的步骤。
B19.根据B11所述的装置,其中,所述发送模块进一步适于:
向所述终端发送解锁控制指令,以供所述终端根据接收到的解锁控制指令对门锁进行开锁处理。
B20.根据B11所述的装置,其中,所述发送模块进一步适于:
向所述终端发送允许支付指令,以供所述终端根据接收到的允许支付指令完成支付处理。
C21.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如A1-A10中任一项所述的基于云端的语音控制方法对应的操作。
D22.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如A1-A10中任一项所述的基于云端的语音控制方法对应的操作。
Claims (10)
1.一种基于云端的语音控制方法,包括:
接收终端发送的语音信息,将所述语音信息输入至预测模型中进行预测处理,得到语音预测结果;其中,所述预测模型是根据预采集的语音样本进行训练得到的;所述语音样本与预采集的用户标识相关联保存在预设语音库中;
根据所述语音预测结果,向所述终端发送控制指令,以供所述终端根据接收到的控制指令进行控制处理。
2.根据权利要求1所述的方法,其中,所述将所述语音信息输入至预测模型中进行预测处理,得到语音预测结果进一步包括:
对所述语音信息进行特征分析,提取出多个维度的特征信息;
将各个维度的特征信息分别输入至各个维度对应的预测模型中进行预测处理,得到各个维度的预测结果;
对所述各个维度的预测结果进行整合,得到语音预测结果。
3.根据权利要求2所述的方法,其中,所述对所述各个维度的预测结果进行整合,得到语音预测结果进一步包括:
根据预设的维度优先等级对所述各个维度的预测结果进行整合,得到语音预测结果。
4.根据权利要求2或3所述的方法,其中,所述多个维度具体包括以下维度的一个或多个:音调维度、音色维度、音准维度、频率维度、语速维度以及尾音维度。
5.根据权利要求1所述的方法,其中,所述预设语音库还保存有与语音样本相关联的时间段信息,所述预测模型与时间段信息相对应;则所述将所述语音信息输入至预测模型中进行预测处理,得到语音预测结果进一步包括:
获取所述语音信息所包含的时间信息,查询与所述时间信息相匹配的时间段信息,确定相匹配的时间段信息对应的预测模型;
将所述语音信息输入至相匹配的时间段信息对应的预测模型中进行预测处理,得到语音预测结果。
6.根据权利要求1所述的方法,其中,在得到语音预测结果之后,所述方法进一步包括:
对所述语音信息进行语音识别处理,得到语音识别结果;
则根据所述语音预测结果,向所述终端发送控制指令进一步包括:
根据所述语音预测结果和所述语音识别结果,向所述终端发送控制指令。
7.根据权利要求1-6中任一项所述的方法,其中,所述方法执行之前,进一步包括:
接收终端发送的图像信息,将所述图像信息进行人脸识别处理,得到人脸识别结果;
则根据所述语音预测结果,向所述终端发送控制指令进一步包括:
根据所述语音预测结果和所述人脸识别结果,向所述终端发送控制指令。
8.一种基于云端的语音控制装置,包括:
预测处理模块,接收终端发送的语音信息,将所述语音信息输入至预测模型中进行预测处理,得到语音预测结果;其中,所述预测模型是根据预采集的语音样本进行训练得到的;所述语音样本与预采集的用户标识相关联保存在预设语音库中;
发送模块,适于根据所述语音预测结果,向所述终端发送控制指令,以供所述终端根据接收到的控制指令进行控制处理。
9.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的基于云端的语音控制方法对应的操作。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的基于云端的语音控制方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811610345.3A CN111445904A (zh) | 2018-12-27 | 2018-12-27 | 基于云端的语音控制方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811610345.3A CN111445904A (zh) | 2018-12-27 | 2018-12-27 | 基于云端的语音控制方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111445904A true CN111445904A (zh) | 2020-07-24 |
Family
ID=71652268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811610345.3A Pending CN111445904A (zh) | 2018-12-27 | 2018-12-27 | 基于云端的语音控制方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111445904A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112002317A (zh) * | 2020-07-31 | 2020-11-27 | 北京小米松果电子有限公司 | 语音输出方法、装置、存储介质和电子设备 |
CN113096649A (zh) * | 2021-03-31 | 2021-07-09 | 平安科技(深圳)有限公司 | 语音预测方法、装置、电子设备和存储介质 |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1291324A (zh) * | 1997-01-31 | 2001-04-11 | T-内提克斯公司 | 检测录制声音的系统和方法 |
CN101436405A (zh) * | 2008-12-25 | 2009-05-20 | 北京中星微电子有限公司 | 说话人识别方法和系统 |
CN102436810A (zh) * | 2011-10-26 | 2012-05-02 | 华南理工大学 | 一种基于信道模式噪声的录音回放攻击检测方法和系统 |
CN104217149A (zh) * | 2013-05-31 | 2014-12-17 | 国际商业机器公司 | 基于语音的生物认证方法及设备 |
CN105913850A (zh) * | 2016-04-20 | 2016-08-31 | 上海交通大学 | 文本相关声纹密码验证方法 |
CN106097495A (zh) * | 2016-06-03 | 2016-11-09 | 赵树龙 | 一种智能声控声纹人脸认证门禁控制系统及方法 |
CN106297772A (zh) * | 2016-08-24 | 2017-01-04 | 武汉大学 | 基于扬声器引入的语音信号失真特性的回放攻检测方法 |
CN106409298A (zh) * | 2016-09-30 | 2017-02-15 | 广东技术师范学院 | 一种声音重录攻击的识别方法 |
CN107104803A (zh) * | 2017-03-31 | 2017-08-29 | 清华大学 | 一种基于数字口令与声纹联合确认的用户身份验证方法 |
CN108039176A (zh) * | 2018-01-11 | 2018-05-15 | 广州势必可赢网络科技有限公司 | 一种防录音攻击的声纹认证方法、装置及门禁系统 |
CN108091016A (zh) * | 2017-12-21 | 2018-05-29 | 广东汇泰龙科技有限公司 | 一种声纹开锁方法及应用该方法开启的智能锁 |
CN207458171U (zh) * | 2018-04-04 | 2018-06-05 | 何静如 | 一种交互式智能门禁系统 |
CN108305633A (zh) * | 2018-01-16 | 2018-07-20 | 平安科技(深圳)有限公司 | 语音验证方法、装置、计算机设备和计算机可读存储介质 |
CN108320752A (zh) * | 2018-01-26 | 2018-07-24 | 青岛易方德物联科技有限公司 | 应用于社区门禁的云声纹识别系统及其方法 |
CN108711436A (zh) * | 2018-05-17 | 2018-10-26 | 哈尔滨工业大学 | 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法 |
-
2018
- 2018-12-27 CN CN201811610345.3A patent/CN111445904A/zh active Pending
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1291324A (zh) * | 1997-01-31 | 2001-04-11 | T-内提克斯公司 | 检测录制声音的系统和方法 |
CN101436405A (zh) * | 2008-12-25 | 2009-05-20 | 北京中星微电子有限公司 | 说话人识别方法和系统 |
CN102436810A (zh) * | 2011-10-26 | 2012-05-02 | 华南理工大学 | 一种基于信道模式噪声的录音回放攻击检测方法和系统 |
CN104217149A (zh) * | 2013-05-31 | 2014-12-17 | 国际商业机器公司 | 基于语音的生物认证方法及设备 |
CN105913850A (zh) * | 2016-04-20 | 2016-08-31 | 上海交通大学 | 文本相关声纹密码验证方法 |
CN106097495A (zh) * | 2016-06-03 | 2016-11-09 | 赵树龙 | 一种智能声控声纹人脸认证门禁控制系统及方法 |
CN106297772A (zh) * | 2016-08-24 | 2017-01-04 | 武汉大学 | 基于扬声器引入的语音信号失真特性的回放攻检测方法 |
CN106409298A (zh) * | 2016-09-30 | 2017-02-15 | 广东技术师范学院 | 一种声音重录攻击的识别方法 |
CN107104803A (zh) * | 2017-03-31 | 2017-08-29 | 清华大学 | 一种基于数字口令与声纹联合确认的用户身份验证方法 |
CN108091016A (zh) * | 2017-12-21 | 2018-05-29 | 广东汇泰龙科技有限公司 | 一种声纹开锁方法及应用该方法开启的智能锁 |
CN108039176A (zh) * | 2018-01-11 | 2018-05-15 | 广州势必可赢网络科技有限公司 | 一种防录音攻击的声纹认证方法、装置及门禁系统 |
CN108305633A (zh) * | 2018-01-16 | 2018-07-20 | 平安科技(深圳)有限公司 | 语音验证方法、装置、计算机设备和计算机可读存储介质 |
CN108320752A (zh) * | 2018-01-26 | 2018-07-24 | 青岛易方德物联科技有限公司 | 应用于社区门禁的云声纹识别系统及其方法 |
CN207458171U (zh) * | 2018-04-04 | 2018-06-05 | 何静如 | 一种交互式智能门禁系统 |
CN108711436A (zh) * | 2018-05-17 | 2018-10-26 | 哈尔滨工业大学 | 基于高频和瓶颈特征的说话人验证系统重放攻击检测方法 |
Non-Patent Citations (1)
Title |
---|
李恒杰: ""多子系统似然度评分融合说话人识别"", 《计算机应用》, vol. 28, no. 1, pages 116 - 119 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112002317A (zh) * | 2020-07-31 | 2020-11-27 | 北京小米松果电子有限公司 | 语音输出方法、装置、存储介质和电子设备 |
CN112002317B (zh) * | 2020-07-31 | 2023-11-14 | 北京小米松果电子有限公司 | 语音输出方法、装置、存储介质和电子设备 |
CN113096649A (zh) * | 2021-03-31 | 2021-07-09 | 平安科技(深圳)有限公司 | 语音预测方法、装置、电子设备和存储介质 |
CN113096649B (zh) * | 2021-03-31 | 2023-12-22 | 平安科技(深圳)有限公司 | 语音预测方法、装置、电子设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10957339B2 (en) | Speaker recognition method and apparatus, computer device and computer-readable medium | |
Balamurali et al. | Toward robust audio spoofing detection: A detailed comparison of traditional and learned features | |
CN109450850B (zh) | 身份验证方法、装置、计算机设备和存储介质 | |
JP6158348B2 (ja) | 人工ニューラル・ネットワーク・ベースのサブ音素単位区別を用いた話者照合および同定 | |
CN110473566A (zh) | 音频分离方法、装置、电子设备及计算机可读存储介质 | |
JP2021500616A (ja) | オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体 | |
WO2017218465A1 (en) | Neural network-based voiceprint information extraction method and apparatus | |
US9767787B2 (en) | Artificial utterances for speaker verification | |
CN110246503A (zh) | 黑名单声纹库构建方法、装置、计算机设备和存储介质 | |
US20210166715A1 (en) | Encoded features and rate-based augmentation based speech authentication | |
CN111445904A (zh) | 基于云端的语音控制方法、装置及电子设备 | |
CN114627856A (zh) | 语音识别方法、装置、存储介质及电子设备 | |
CN109859747A (zh) | 语音交互方法、设备以及存储介质 | |
CN116013324A (zh) | 基于声纹识别的机器人语音控制权限管理方法 | |
CN113555007B (zh) | 语音拼接点检测方法及存储介质 | |
CN109087647B (zh) | 声纹识别处理方法、装置、电子设备及存储介质 | |
CN111522937B (zh) | 话术推荐方法、装置和电子设备 | |
CN111477212B (zh) | 内容识别、模型训练、数据处理方法、系统及设备 | |
CN112687274A (zh) | 一种语音信息的处理方法、装置、设备及介质 | |
CN113724693B (zh) | 语音判别方法、装置、电子设备及存储介质 | |
CN113504891B (zh) | 一种音量调节方法、装置、设备以及存储介质 | |
JP7184236B2 (ja) | 声紋を認識する方法、装置、設備、および記憶媒体 | |
CN105245497B (zh) | 一种身份认证方法及装置 | |
Kari et al. | Real time implementation of speaker recognition system with MFCC and neural networks on FPGA | |
CN111933117A (zh) | 语音验证方法和装置、存储介质及电子装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |