CN106952645A - 语音指令的识别方法、语音指令的识别装置和空调器 - Google Patents
语音指令的识别方法、语音指令的识别装置和空调器 Download PDFInfo
- Publication number
- CN106952645A CN106952645A CN201710182350.8A CN201710182350A CN106952645A CN 106952645 A CN106952645 A CN 106952645A CN 201710182350 A CN201710182350 A CN 201710182350A CN 106952645 A CN106952645 A CN 106952645A
- Authority
- CN
- China
- Prior art keywords
- phonetic order
- audio
- samples
- sample
- stand
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/065—Adaptation
- G10L15/07—Adaptation to the speaker
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/28—Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
- H04L12/2803—Home automation networks
- H04L12/2816—Controlling appliance services of a home automation network by calling their functionalities
- H04L12/282—Controlling appliance services of a home automation network by calling their functionalities based on user interaction within the home
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Abstract
本发明提供了一种语音指令的识别方法、语音指令的识别装置和空调器,其中,语音指令的识别方法包括:在获取多个语音指令样本后,根据全部语音指令样本的音频信息调整接收语音指令的等待时间。通过本发明的技术方案,可以根据用户的说话习惯实时地调整语音指令识别过程的等待时间,提高了语音识别的准确度及用户的使用体验。
Description
技术领域
本发明涉及语音识别技术领域,具体而言,涉及一种语音指令的识别方法、一种语音指令的识别装置和一种空调器。
背景技术
智能家电日益受到厂家和大众的关注,各种智能技术逐渐被尝试用于家电上,以提高家电的易用性和智能化。语音识别技术,由于其便捷、人性化的交互体验,深受大家的青睐。很多家电企业都开始将语音识别技术应用在空调器、电视、冰箱和微波炉等智能家电上。
具体地,在常用的空调使用场景中,空调器以待机模式等待语音指令的录入,其中,语音指令的录入过程只能使用预设的时间间隔t,如第N(N为大于或等于1的正整数)个语音指令与第N+1个语音指令之间的等待时间大于t,则第N+1个语音指令被忽略或被判定为无效指令,或在第N+1个语音指令被录入之前,空调器停止待机并开始执行前N个语音指令,一方面,固定的时间间隔不能满足不同用户的说话习惯,所以使用效果很不友好,另一方面,如果空调器运行过程中检测到第N+1个语音指令,则会再次进入待机模式,空调器的工作模式的频繁切换会影响硬件系统(如风机控制系统、冷媒循环系统和电机控制系统等)的稳定性和可靠性。
发明内容
本发明旨在至少解决上述现有技术或相关技术中存在的技术问题之一。
为此,本发明的一个目的在于提出了一种语音指令的识别方法。
本发明的再一个目的在于对应提供了一种语音指令的识别装置。
本发明的另一个目的在于提出了一种空调器。
为实现上述目的,根据本发明的第一方面的实施例,提出了一种语音指令的识别方法,包括:在获取多个语音指令样本后,根据全部语音指令样本的音频信息调整接收语音指令的等待时间。
根据本发明实施例的语音指令的识别方法,通过在获取多个语音指令样本后,根据全部语音指令样本的音频信息调整接收语音指令的等待时间,可以提高语音录入过程对不同用户的适应度,获取多个语音指令样本创建样本集,其音频信息包括任两个相邻指令词之间的时间差、幅值和音频等,可以根据音频信息学习用户的说话习惯,比如用户的语速和音色,进而确定后续录入语音指令的过程中的等待时间,一方面,可以提高录入语音指令的准确性,另一方面,对于语速较快的用户的语音指令,可以及时结束待机时间,控制家用电器运行语音指令的控制信息,再一方面,对于语速较慢的用户的语音指令,可以延长等待时间以保证全部语音指令成功录入,降低了家用电器工作模式频繁切换导致的系统硬件故障。
具体地,如用户连续说出“加热”、“30摄氏度”和“大风摆风”等多个语言指令样本,分析语音指令样本的音频信息以确定任两个相邻指令词之间的时间差,根据时间差学习用户的说话习惯,也即根据语音指令样本的音频信息来调整接收语音指令的等待时间,尤其是避免用户还未完成语音指令输入,空调就进入待机状态,提高了语音识别的准确度及用户的使用体验。
根据本发明上述实施例的语音指令的识别方法,优选地,在获取多个语音指令样本后,根据全部语音指令样本的音频信息调整接收语音指令的等待时间的步骤包括:在获取多个语音指令样本后,解析全部语音指令样本的音频信息中的时间分布;根据时间分布计算任两个相邻的语音指令样本之间的时间间隔样本;对全部时间间隔样本进行加权平均计算,以根据加权平均计算的结果确定等待时间的置信区间。
根据本发明实施例的语音指令的识别方法,通过解析全部语音指令样本音频信息中的时间分布来计算出任意两个相邻的语音指令样品的时间间隔样本,然后对全部的时间间隔样本进行加权平均计算,置信区间是指时间间隔样本统计量所构造的总体参数的估计区间,计算出时间间隔样本的期望和方差值,再根据预设的置信水平(如设为75%、80%、85%、90%和95%等)即可计算出置信区间,置信水平也即实际的等待时间落在置信区间的概率,由于在音频信息的分析过程中,会丢失一些概率较小的时间间隔样本数据,因此,通过置信区间来弥补一些处理音频信息的损失,来提高学习用户的说话习惯的准确性和可靠性。
其中,对全部时间间隔样本进行加权平均计算至少包括以下实施方式:
(1)语音指令样本中包括控制指令和连接词指令,可以设置连接词相关的时间间隔样本的权重较低,以及设置控制指令相关的时间间隔样本的权重较高,以进一步地提高学习用户的说话习惯的准确性和可靠性。
(2)语音指令样本的识别过程中,语义识别的匹配度存在区别,可以设置语义识别匹配度高的语音指令样本的权重较高,以及设置语义识别匹配度低的语音指令样本的权重较低,同样地,可以进一步地提高学习用户的说话习惯的准确性和可靠性。
(3)考虑到即使是同一个用户,在不同的时间段说话习惯也存在极大的差别,例如,睡眠时间(如夜间12:00至早晨7:00之间)用户说话较慢,音频信息的幅值较低,清醒时间(如早晨7:00至夜间12:00之间)用户说话速率和幅值都正常,因此,可以设置睡眠时间用户的语音指令样本相关的时间间隔样本的权重较低,可以设置清醒时间用户的语音指令样本相关的时间间隔样本的权重较高,同样地,可以进一步地提高学习用户的说话习惯的准确性和可靠性。
根据本发明上述实施例的语音指令的识别方法,优选地,在获取多个语音指令样本后,根据全部语音指令样本的音频信息调整接收语音指令的等待时间的步骤包括:在获取多个语音指令样本后,解析全部语音指令样本的音频信息中的幅值和音频;根据语音指令样本的音频信息中的幅值和音频确定语音指令样本的特征参数;对特征参数和等待时间的置信区间进行关联存储。
根据本发明实施例的语音指令的识别方法,通过语音指令样本的音频信息中的幅值和音频来确定语音指令样本的特征参数,并将特征参数与等待时间的置信区间关联存储,从而能够智能地将不同的用户与自身发出的语音指令样本的等待时间一一对应,提高了用户的使用体验。
具体地,在通过语音指令样本学习用户说话习惯的同时,通过对幅值和音频等音频信息的统计出特征参数,特征参数相当于用户的身份标识,一方面,可以作为用户的身份标识关联地存储语音指令样本,另一方面,可以在确定用户的身份标识后,进一步地设置用户的操作权限。
根据本发明上述实施例的语音指令的识别方法,优选地,还包括:在获取语音指令后,解析语音指令的幅值和音频;根据语音指令的幅值和音频确定匹配的语音指令样本的特征参数;根据特征参数确定对应的一个置信区间;在检测到接收语音指令过程中的等待时间不属于置信区间时,确定完成语音指令的接收。
根据本发明实施例的语音指令的识别方法,在检测到接收语音指令过程中的等待时间不属于置信区间时,认为用户不再发出语音指令的概率极大,此时可以确定完成语音指令的接收,进而可以进行语音指令解析操作。
具体地,首先根据语音指令的幅值和音频确定匹配的特征参数,进而根据特征参数确定对应的置信区间,再判断等待时间是否属于置信区间,通过特征参数将获取的语音指令和置信区间对应起来,更能保证语音指令的录入过程符合每个用户的说话习惯,进而提高语音识别的准确性。
根据本发明上述实施例的语音指令的识别方法,优选地,还包括:在确定完成语音指令接收时,对语音指令进行语义解析,以根据语义解析的结果确定运行控制指令;在对语音指令完成语义解析后,将语音指令确定为新的语音指令样本,以调整下一次接收语音指令的等待时间。
根据本发明实施例的语音指令的识别方法,通过对接收到的语音指令进行语义解析,并根据语义解析结果来运行控制指令,可以满足用户的操作需求,并且将语音指令更新为新的语音样本指令,以供下一次能够实现准确控制,进而提高用户的使用体验。
根据本发明的第二方面的实施例,提出了一种语音指令的识别装置,包括:语音识别单元,用于在获取多个语音指令样本后,根据全部语音指令样本的音频信息调整接收语音指令的等待时间。
根据本发明实施例的语音指令的识别装置,通过在获取多个语音指令样本后,根据全部语音指令样本的音频信息调整接收语音指令的等待时间,可以提高语音录入过程对不同用户的适应度,获取多个语音指令样本创建样本集,其音频信息包括任两个相邻指令词之间的时间差、幅值和音频等,可以根据音频信息学习用户的说话习惯,比如用户的语速和音色,进而确定后续录入语音指令的过程中的等待时间,一方面,可以提高录入语音指令的准确性,另一方面,对于语速较快的用户的语音指令,可以及时结束待机时间,控制家用电器运行语音指令的控制信息,再一方面,对于语速较慢的用户的语音指令,可以延长等待时间以保证全部语音指令成功录入,降低了家用电器工作模式频繁切换导致的系统硬件故障。
具体地,如用户连续说出“加热”、“30摄氏度”和“大风摆风”等多个语言指令样本,分析语音指令样本的音频信息以确定任两个相邻指令词之间的时间差,根据时间差学习用户的说话习惯,也即根据语音指令样本的音频信息来调整接收语音指令的等待时间,尤其是避免用户还未完成语音指令输入,空调就进入待机状态,提高了语音识别的准确度及用户的使用体验。
根据本发明上述实施例的语音指令的识别装置,优选地,语音识别单元包括:第一解析子单元,用于在获取多个语音指令样本后,解析全部所语音指令样本的音频信息中的时间分布;第一计算子单元,用于根据时间分布计算任两个相邻的语音指令样本之间的时间间隔样本;第二计算子单元,用于对全部时间间隔样本进行加权平均计算,以根据加权平均计算的结果确定等待时间的置信区间。
根据本发明实施例的语音指令的识别装置,通过解析全部语音指令样本音频信息中的时间分布来计算出任意两个相邻的语音指令样品的时间间隔样本,然后对全部的时间间隔样本进行加权平均计算,置信区间是指时间间隔样本统计量所构造的总体参数的估计区间,计算出时间间隔样本的期望和方差值,再根据预设的置信水平(如设为75%、80%、85%、90%和95%等)即可计算出置信区间,置信水平也即实际的等待时间落在置信区间的概率,由于在音频信息的分析过程中,会丢失一些概率较小的时间间隔样本数据,因此,通过置信区间来弥补一些处理音频信息的损失,来提高学习用户的说话习惯的准确性和可靠性。
其中,对全部时间间隔样本进行加权平均计算至少包括以下实施方式:
(1)语音指令样本中包括控制指令和连接词指令,可以设置连接词相关的时间间隔样本的权重较低,以及设置控制指令相关的时间间隔样本的权重较高,以进一步地提高学习用户的说话习惯的准确性和可靠性。
(2)语音指令样本的识别过程中,语义识别的匹配度存在区别,可以设置语义识别匹配度高的语音指令样本的权重较高,以及设置语义识别匹配度低的语音指令样本的权重较低,同样地,可以进一步地提高学习用户的说话习惯的准确性和可靠性。
(3)考虑到即使是同一个用户,在不同的时间段说话习惯也存在极大的差别,例如,睡眠时间(如夜间12:00至早晨7:00之间)用户说话较慢,音频信息的幅值较低,清醒时间(如早晨7:00至夜间12:00之间)用户说话速率和幅值都正常,因此,可以设置睡眠时间用户的语音指令样本相关的时间间隔样本的权重较低,可以设置清醒时间用户的语音指令样本相关的时间间隔样本的权重较高,同样地,可以进一步地提高学习用户的说话习惯的准确性和可靠性。
根据本发明上述实施例的语音指令的识别装置,优选地,语音识别单元包括:第二解析子单元,用于在获取多个语音指令样本后,解析全部语音指令样本的音频信息中的幅值和音频;分析子单元,用于根据语音指令样本的音频信息中的幅值和音频确定语音指令样本的特征参数;存储子单元,用于对特征参数和等待时间的置信区间进行关联存储。
根据本发明实施例的语音指令的识别装置,通过语音指令样本的音频信息中的幅值和音频来确定语音指令样本的特征参数,并将特征参数与等待时间的置信区间关联存储,从而能够智能地将不同的用户与自身发出的语音指令样本的等待时间一一对应,提高了用户的使用体验。
具体地,在通过语音指令样本学习用户说话习惯的同时,通过对幅值和音频等音频信息的统计出特征参数,特征参数相当于用户的身份标识,一方面,可以作为用户的身份标识关联地存储语音指令样本,另一方面,可以在确定用户的身份标识后,进一步地设置用户的操作权限。
根据本发明上述实施例的语音指令的识别装置,优选地,还包括:获取单元,用于在获取语音指令后,解析语音指令的幅值和音频;匹配单元,用于根据语音指令的幅值和音频确定匹配的语音指令样本的特征参数;确定单元,用于根据特征参数确定对应的一个置信区间;确定单元还用于:在检测到接收所述语音指令过程中的等待时间大于或等于所述置信区间中的最大值时,确定完成所述语音指令的接收。
根据本发明实施例的语音指令的识别装置,在检测到接收语音指令过程中的等待时间不属于置信区间时,认为用户不再发出语音指令的概率极大,此时可以确定完成语音指令的接收,进而可以进行语音指令解析操作。
具体地,首先根据语音指令的幅值和音频确定匹配的特征参数,进而根据特征参数确定对应的置信区间,再判断等待时间是否属于置信区间,通过特征参数将获取的语音指令和置信区间对应起来,更能保证语音指令的录入过程符合每个用户的说话习惯,进而提高语音识别的准确性。
根据本发明上述实施例的语音指令的识别装置,优选地,还包括:运行控制单元,用于在确定完成语音指令接收时,对语音指令进行语义解析,以根据语义解析的结果确定运行控制指令;语音识别单元还用于:在对语音指令完成所述语义解析后,将语音指令确定为新的语音指令样本,以调整下一次接收语音指令的等待时间。
根据本发明实施例的语音指令的识别装置,通过对接收到的语音指令进行语义解析,并根据语义解析结果来运行控制指令,可以满足用户的操作需求,并且将语音指令更新为新的语音样本指令,以供下一次能够实现准确控制,进而提高用户的使用体验。
根据本发明第三方面的实施例,还提出了一种空调器,包括:如上述任一项技术方案所述的语音指令的识别装置。
根据本发明实施例的空调器,具备上述语音指令的识别装置的识别装置的全部技术效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
图1示出了根据本发明的一个实施例的语音指令的识别方法的示意流程图;
图2示出了图1所示的语音指令的识别方法的实施例一的示意流程图;
图3示出了图1所示的语音指令的识别方法的实施例二的示意流程图;
图4示出了根据本发明的另一个实施例的语音指令的识别方法的示意流程图;
图5示出了根据本发明的再一个实施例的语音指令的识别方法的示意流程图;
图6示出了根据本发明的实施例的语音指令的识别装置的示意框图;
图7示出了根据本发明的空调器的示意框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面结合图1至图7对根据本发明的实施例的播报控制方法的进行具体说明。
图1示出了根据本发明的实施例的语音指令的识别方法的示意图。
如图1所示,语音指令的识别方法,包括:步骤102,在获取多个语音指令样本后,根据全部语音指令样本的音频信息调整接收语音指令的等待时间。
根据本发明实施例的语音指令的识别方法,通过在获取多个语音指令样本后,根据全部语音指令样本的音频信息调整接收语音指令的等待时间,可以提高语音录入过程对不同用户的适应度,获取多个语音指令样本创建样本集,其音频信息包括任两个相邻指令词之间的时间差、幅值和音频等,可以根据音频信息学习用户的说话习惯,比如用户的语速和音色,进而确定后续录入语音指令的过程中的等待时间,一方面,可以提高录入语音指令的准确性,另一方面,对于语速较快的用户的语音指令,可以及时结束待机时间,控制家用电器运行语音指令的控制信息,再一方面,对于语速较慢的用户的语音指令,可以延长等待时间以保证全部语音指令成功录入,降低了家用电器工作模式频繁切换导致的系统硬件故障。
具体地,如用户连续说出“加热”、“30摄氏度”和“大风摆风”等多个语言指令样本,分析语音指令样本的音频信息以确定任两个相邻指令词之间的时间差,根据时间差学习用户的说话习惯,也即根据语音指令样本的音频信息来调整接收语音指令的等待时间,尤其是避免用户还未完成语音指令输入,空调就进入待机状态,提高了语音识别的准确度及用户的使用体验。
实施例一:
图2示出了图1所示的语音指令的识别方法的实施例一的示意流程图。
如图2所示,根据本发明上述实施例的语音指令的识别方法,优选地,在获取多个语音指令样本后,根据全部语音指令样本的音频信息调整接收语音指令的等待时间的步骤102包括:步骤1022,在获取多个语音指令样本后,解析全部语音指令样本的音频信息中的时间分布;步骤1024,根据时间分布计算任两个相邻的语音指令样本之间的时间间隔样本;步骤1026,对全部时间间隔样本进行加权平均计算,以根据加权平均计算的结果确定等待时间的置信区间。
根据本发明实施例的语音指令的识别方法,通过解析全部语音指令样本音频信息中的时间分布来计算出任意两个相邻的语音指令样品的时间间隔样本,然后对全部的时间间隔样本进行加权平均计算,置信区间是指时间间隔样本统计量所构造的总体参数的估计区间,计算出时间间隔样本的期望和方差值,再根据预设的置信水平(如设为75%、80%、85%、90%和95%等)即可计算出置信区间,置信水平也即实际的等待时间落在置信区间的概率,由于在音频信息的分析过程中,会丢失一些概率较小的时间间隔样本数据,因此,通过置信区间来弥补一些处理音频信息的损失,来提高学习用户的说话习惯的准确性和可靠性。
其中,对全部时间间隔样本进行加权平均计算至少包括以下实施方式:
(1)语音指令样本中包括控制指令和连接词指令,可以设置连接词相关的时间间隔样本的权重较低,以及设置控制指令相关的时间间隔样本的权重较高,以进一步地提高学习用户的说话习惯的准确性和可靠性。
(2)语音指令样本的识别过程中,语义识别的匹配度存在区别,可以设置语义识别匹配度高的语音指令样本的权重较高,以及设置语义识别匹配度低的语音指令样本的权重较低,同样地,可以进一步地提高学习用户的说话习惯的准确性和可靠性。
(3)考虑到即使是同一个用户,在不同的时间段说话习惯也存在极大的差别,例如,睡眠时间(如夜间12:00至早晨7:00之间)用户说话较慢,音频信息的幅值较低,清醒时间(如早晨7:00至夜间12:00之间)用户说话速率和幅值都正常,因此,可以设置睡眠时间用户的语音指令样本相关的时间间隔样本的权重较低,可以设置清醒时间用户的语音指令样本相关的时间间隔样本的权重较高,同样地,可以进一步地提高学习用户的说话习惯的准确性和可靠性。
实施例二:
图3示出了图1所示的语音指令的识别方法的实施例二的示意流程图。
如图3所示,根据本发明上述实施例的语音指令的识别方法,优选地,在获取多个语音指令样本后,根据全部语音指令样本的音频信息调整接收语音指令的等待时间的步骤102包括:步骤1028,在获取多个语音指令样本后,解析全部语音指令样本的音频信息中的幅值和音频;步骤10210,根据语音指令样本的音频信息中的幅值和音频确定语音指令样本的特征参数;步骤10212,对特征参数和等待时间的置信区间进行关联存储。
根据本发明实施例的语音指令的识别方法,通过语音指令样本的音频信息中的幅值和音频来确定语音指令样本的特征参数,并将特征参数与等待时间的置信区间关联存储,从而能够智能地将不同的用户与自身发出的语音指令样本的等待时间一一对应,提高了用户的使用体验。
具体地,在通过语音指令样本学习用户说话习惯的同时,通过对幅值和音频等音频信息的统计出特征参数,特征参数相当于用户的身份标识,一方面,可以作为用户的身份标识关联地存储语音指令样本,另一方面,可以在确定用户的身份标识后,进一步地设置用户的操作权限。
图4示出了根据本发明的另一个实施例的语音指令的识别方法的示意流程图。
如图4所示,根据本发明上述实施例的语音指令的识别方法,优选地,还包括:步骤104,在获取语音指令后,解析语音指令的幅值和音频;步骤106,根据语音指令的幅值和音频确定匹配的语音指令样本的特征参数;步骤108,根据特征参数确定对应的一个置信区间;步骤110,在检测到接收语音指令过程中的等待时间不属于置信区间时,确定完成语音指令的接收。
根据本发明实施例的语音指令的识别方法,在检测到接收语音指令过程中的等待时间不属于置信区间时,认为用户不再发出语音指令的概率极大,此时可以确定完成语音指令的接收,进而可以进行语音指令解析操作。
具体地,首先根据语音指令的幅值和音频确定匹配的特征参数,进而根据特征参数确定对应的置信区间,再判断等待时间是否属于置信区间,通过特征参数将获取的语音指令和置信区间对应起来,更能保证语音指令的录入过程符合每个用户的说话习惯,进而提高语音识别的准确性。
图5示出了根据本发明的再一个实施例的语音指令的识别方法的示意流程图。
如图5所示,根据本发明上述实施例的语音指令的识别方法,优选地,还包括:步骤112,在确定完成语音指令接收时,对语音指令进行语义解析,以根据语义解析的结果确定运行控制指令;步骤114,在对语音指令完成语义解析后,将语音指令确定为新的语音指令样本,以调整下一次接收语音指令的等待时间。
根据本发明实施例的语音指令的识别方法,通过对接收到的语音指令进行语义解析,并根据语义解析结果来运行控制指令,可以满足用户的操作需求,并且将语音指令更新为新的语音样本指令,以供下一次能够实现准确控制,进而提高用户的使用体验。
图6示出了根据本发明的实施例的语音指令的识别装置的示意框图。
如图6所示,根据本发明的实施例的语音指令的识别装置600,包括:语音识别单元602,用于在获取多个语音指令样本后,根据全部语音指令样本的音频信息调整接收语音指令的等待时间。
根据本发明实施例的语音指令的识别装置,通过在获取多个语音指令样本后,根据全部语音指令样本的音频信息调整接收语音指令的等待时间,可以提高语音录入过程对不同用户的适应度,获取多个语音指令样本创建样本集,其音频信息包括任两个相邻指令词之间的时间差、幅值和音频等,可以根据音频信息学习用户的说话习惯,比如用户的语速和音色,进而确定后续录入语音指令的过程中的等待时间,一方面,可以提高录入语音指令的准确性,另一方面,对于语速较快的用户的语音指令,可以及时结束待机时间,控制家用电器运行语音指令的控制信息,再一方面,对于语速较慢的用户的语音指令,可以延长等待时间以保证全部语音指令成功录入,降低了家用电器工作模式频繁切换导致的系统硬件故障。
具体地,如用户连续说出“加热”、“30摄氏度”和“大风摆风”等多个语言指令样本,分析语音指令样本的音频信息以确定任两个相邻指令词之间的时间差,根据时间差学习用户的说话习惯,也即根据语音指令样本的音频信息来调整接收语音指令的等待时间,尤其是避免用户还未完成语音指令输入,空调就进入待机状态,提高了语音识别的准确度及用户的使用体验。
根据本发明上述实施例的语音指令的识别装置600,优选地,语音识别单元602包括:第一解析子单元6022,用于在获取多个语音指令样本后,解析全部所语音指令样本的音频信息中的时间分布;第一计算子单元6024,用于根据时间分布计算任两个相邻的语音指令样本之间的时间间隔样本;第二计算子单元6026,用于对全部时间间隔样本进行加权平均计算,以根据加权平均计算的结果确定等待时间的置信区间。
根据本发明实施例的语音指令的识别装置600,通过解析全部语音指令样本音频信息中的时间分布来计算出任意两个相邻的语音指令样品的时间间隔样本,然后对全部的时间间隔样本进行加权平均计算,置信区间是指时间间隔样本统计量所构造的总体参数的估计区间,计算出时间间隔样本的期望和方差值,再根据预设的置信水平(如设为75%、80%、85%、90%和95%等)即可计算出置信区间,置信水平也即实际的等待时间落在置信区间的概率,由于在音频信息的分析过程中,会丢失一些概率较小的时间间隔样本数据,因此,通过置信区间来弥补一些处理音频信息的损失,来提高学习用户的说话习惯的准确性和可靠性。
其中,对全部时间间隔样本进行加权平均计算至少包括以下实施方式:
(1)语音指令样本中包括控制指令和连接词指令,可以设置连接词相关的时间间隔样本的权重较低,以及设置控制指令相关的时间间隔样本的权重较高,以进一步地提高学习用户的说话习惯的准确性和可靠性。
(2)语音指令样本的识别过程中,语义识别的匹配度存在区别,可以设置语义识别匹配度高的语音指令样本的权重较高,以及设置语义识别匹配度低的语音指令样本的权重较低,同样地,可以进一步地提高学习用户的说话习惯的准确性和可靠性。
(3)考虑到即使是同一个用户,在不同的时间段说话习惯也存在极大的差别,例如,睡眠时间(如夜间12:00至早晨7:00之间)用户说话较慢,音频信息的幅值较低,清醒时间(如早晨7:00至夜间12:00之间)用户说话速率和幅值都正常,因此,可以设置睡眠时间用户的语音指令样本相关的时间间隔样本的权重较低,可以设置清醒时间用户的语音指令样本相关的时间间隔样本的权重较高,同样地,可以进一步地提高学习用户的说话习惯的准确性和可靠性。
根据本发明上述实施例的语音指令的识别装置600,优选地,语音识别单元包括:第二解析子单元6028,用于在获取多个语音指令样本后,解析全部语音指令样本的音频信息中的幅值和音频;分析子单元60210,用于根据语音指令样本的音频信息中的幅值和音频确定语音指令样本的特征参数;存储子单元60212,用于对特征参数和等待时间的置信区间进行关联存储。
根据本发明实施例的语音指令的识别装置600,通过语音指令样本的音频信息中的幅值和音频来确定语音指令样本的特征参数,并将特征参数与等待时间的置信区间关联存储,从而能够智能地将不同的用户与自身发出的语音指令样本的等待时间一一对应,提高了用户的使用体验。
具体地,在通过语音指令样本学习用户说话习惯的同时,通过对幅值和音频等音频信息的统计出特征参数,特征参数相当于用户的身份标识,一方面,可以作为用户的身份标识关联地存储语音指令样本,另一方面,可以在确定用户的身份标识后,进一步地设置用户的操作权限。
根据本发明上述实施例的语音指令的识别装置600,优选地,还包括:获取单元604,用于在获取语音指令后,解析语音指令的幅值和音频;匹配单元606,用于根据语音指令的幅值和音频确定匹配的语音指令样本的特征参数;确定单元608,用于根据特征参数确定对应的一个置信区间;确定单元608还用于:在检测到接收所述语音指令过程中的等待时间大于或等于所述置信区间中的最大值时,确定完成所述语音指令的接收。
根据本发明实施例的语音指令的识别装置600,在检测到接收语音指令过程中的等待时间不属于置信区间时,认为用户不再发出语音指令的概率极大,此时可以确定完成语音指令的接收,进而可以进行语音指令解析操作。
具体地,首先根据语音指令的幅值和音频确定匹配的特征参数,进而根据特征参数确定对应的置信区间,再判断等待时间是否属于置信区间,通过特征参数将获取的语音指令和置信区间对应起来,更能保证语音指令的录入过程符合每个用户的说话习惯,进而提高语音识别的准确性。
根据本发明上述实施例的语音指令的识别装置600,优选地,还包括:运行控制单元610,用于在确定完成语音指令接收时,对语音指令进行语义解析,以根据语义解析的结果确定运行控制指令;语音识别单元602还用于:在对语音指令完成所述语义解析后,将语音指令确定为新的语音指令样本,以调整下一次接收语音指令的等待时间。
根据本发明实施例的语音指令的识别装置600,通过对接收到的语音指令进行语义解析,并根据语义解析结果来运行控制指令,可以满足用户的操作需求,并且将语音指令更新为新的语音样本指令,以供下一次能够实现准确控制,进而提高用户的使用体验。
图7示出了根据本发明的实施例的空调器的示意框图。
如图7所示,根据本发明的实施例的空调器700,包括:如图6所示的语音指令的识别装置600,具备语音指令的识别装置600的全部技术效果,空调器700还包括:制热系统702、制冷系统704、室外风机706和挡风板708。根据获取的语音指令确定匹配的特征参数,进而根据特征参数确定关联的置信区间,实时判断等待时间是否不属于置信区间,在确定完成语音指令接收后,根据解析语音指令确定的运行控制指令,空调器700可以控制制热系统702工作,或控制制冷系统704工作,或调整风机系统706的转速,或调整挡风板708的出风方向。
以上结合附图详细说明了本发明的技术方案,考虑到相关技术中,语音指令的识别过程中等待时间为固定值导致的技术问题,本发明提出了一种语音指令的识别方案,通过在获取多个语音指令样本后,根据全部语音指令样本的音频信息调整接收语音指令的等待时间,可以提高语音录入过程对不同用户的适应度,获取多个语音指令样本创建样本集,其音频信息包括任两个相邻指令词之间的时间差、幅值和音频等,可以根据音频信息学习用户的说话习惯,比如用户的语速和音色,进而确定后续录入语音指令的过程中的等待时间,一方面,可以提高录入语音指令的准确性,另一方面,对于语速较快的用户的语音指令,可以及时结束待机时间,控制家用电器运行语音指令的控制信息,再一方面,对于语速较慢的用户的语音指令,可以延长等待时间以保证全部语音指令成功录入,降低了家用电器工作模式频繁切换导致的系统硬件故障。
本发明实施例方法中的步骤能够根据实际需要进行顺序调整、合并和删减,本发明实施例中的部件可以根据实际需要进行合并、划分和删减。以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明护范围之内。
Claims (11)
1.一种语音指令的识别方法,其特征在于,包括:
在获取多个语音指令样本后,根据全部所述语音指令样本的音频信息调整接收所述语音指令的等待时间。
2.根据权利要求1所述的语音指令的识别方法,其特征在于,所述在获取多个语音指令样本后,根据全部所述语音指令样本的音频信息调整接收所述语音指令的等待时间的步骤包括:
在获取多个所述语音指令样本后,解析全部所述语音指令样本的音频信息中的时间分布;
根据所述时间分布计算任两个相邻的所述语音指令样本之间的时间间隔样本;
对全部所述时间间隔样本进行加权平均计算,以根据所述加权平均计算的结果确定所述等待时间的置信区间。
3.根据权利要求2所述的语音指令的识别方法,其特征在于,所述在获取多个语音指令样本后,根据全部所述语音指令样本的音频信息调整接收所述语音指令的等待时间的步骤包括:
在获取多个所述语音指令样本后,解析全部所述语音指令样本的音频信息中的幅值和音频;
根据所述语音指令样本的音频信息中的幅值和音频确定所述语音指令样本的特征参数;
对所述特征参数和所述等待时间的置信区间进行关联存储。
4.根据权利要求3所述的语音指令的识别方法,其特征在于,还包括:
在获取语音指令后,解析所述语音指令的幅值和音频;
根据所述语音指令的幅值和音频确定匹配的语音指令样本的特征参数;
根据所述特征参数确定对应的一个置信区间;
在检测到接收所述语音指令过程中的等待时间不属于所述置信区间时,确定完成所述语音指令的接收。
5.根据权利要求1至4中任一项所述的语音指令的识别方法,其特征在于,还包括:
在确定完成所述语音指令接收时,对所述语音指令进行语义解析,以根据所述语义解析的结果确定运行控制指令;
在对所述语音指令完成所述语义解析后,将所述语音指令确定为新的语音指令样本,以调整下一次接收所述语音指令的等待时间。
6.一种语音指令的识别装置,其特征在于,包括:
语音识别单元,用于在获取多个语音指令样本后,根据全部所述语音指令样本的音频信息调整接收所述语音指令的等待时间。
7.根据权利要求6所述的语音指令的识别装置,其特征在于,所述语音识别单元包括:
第一解析子单元,用于在获取多个所述语音指令样本后,解析全部所述语音指令样本的音频信息中的时间分布;
第一计算子单元,用于根据所述时间分布计算任两个相邻的所述语音指令样本之间的时间间隔样本;
第二计算子单元,用于对全部所述时间间隔样本进行加权平均计算,以根据所述加权平均计算的结果确定所述等待时间的置信区间。
8.根据权利要求7所述的语音指令的识别装置,其特征在于,所述语音识别单元包括:
第二解析子单元,用于在获取多个所述语音指令样本后,解析全部所述语音指令样本的音频信息中的幅值和音频;
分析子单元,用于根据所述语音指令样本的音频信息中的幅值和音频确定所述语音指令样本的特征参数;
存储子单元,用于对所述特征参数和所述等待时间的置信区间进行关联存储。
9.根据权利要求8所述的语音指令的识别装置,其特征在于,还包括:
获取单元,用于在获取语音指令后,解析所述语音指令的幅值和音频;
匹配单元,用于根据所述语音指令的幅值和音频确定匹配的语音指令样本的特征参数;
确定单元,用于根据所述特征参数确定对应的一个置信区间;
所述确定单元还用于:在检测到接收所述语音指令过程中的等待时间不属于所述置信区间时,确定完成所述语音指令的接收。
10.根据权利要求6至9中任一项所述的语音指令的识别装置,其特征在于,还包括:
运行控制单元,用于在确定完成所述语音指令接收时,对所述语音指令进行语义解析,以根据所述语义解析的结果确定运行控制指令;
所述语音识别单元还用于:在对所述语音指令完成所述语义解析后,将所述语音指令确定为新的语音指令样本,以调整下一次接收所述语音指令的等待时间。
11.一种空调器,其特征在于,包括:
如权利要求6至10中任一项所述的语音指令的识别装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710182350.8A CN106952645B (zh) | 2017-03-24 | 2017-03-24 | 语音指令的识别方法、语音指令的识别装置和空调器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710182350.8A CN106952645B (zh) | 2017-03-24 | 2017-03-24 | 语音指令的识别方法、语音指令的识别装置和空调器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106952645A true CN106952645A (zh) | 2017-07-14 |
CN106952645B CN106952645B (zh) | 2020-11-17 |
Family
ID=59472238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710182350.8A Active CN106952645B (zh) | 2017-03-24 | 2017-03-24 | 语音指令的识别方法、语音指令的识别装置和空调器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106952645B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107682536A (zh) * | 2017-09-25 | 2018-02-09 | 努比亚技术有限公司 | 一种语音控制方法、终端和计算机可读存储介质 |
CN108922540A (zh) * | 2018-07-27 | 2018-11-30 | 重庆柚瓣家科技有限公司 | 与老人用户进行连续ai对话的方法及系统 |
CN109521685A (zh) * | 2017-12-29 | 2019-03-26 | 苏州乐轩科技有限公司 | 一种影音控制系统 |
CN110619874A (zh) * | 2019-08-30 | 2019-12-27 | 珠海格力电器股份有限公司 | 语音控制方法、装置、计算机设备和存储介质 |
CN111273555A (zh) * | 2020-01-16 | 2020-06-12 | 珠海格力电器股份有限公司 | 一种智能家居的控制方法、装置、终端及计算机可读介质 |
CN114203204A (zh) * | 2021-12-06 | 2022-03-18 | 北京百度网讯科技有限公司 | 尾点检测方法、装置、设备和存储介质 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030033312A1 (en) * | 2001-08-09 | 2003-02-13 | Atsuko Koizumi | Method of interpretation service for voice on the phone |
US7308408B1 (en) * | 2000-07-24 | 2007-12-11 | Microsoft Corporation | Providing services for an information processing system using an audio interface |
CN102124515A (zh) * | 2008-06-17 | 2011-07-13 | 声感有限公司 | 基于语音分析的说话者表征 |
CN102543095A (zh) * | 2010-12-09 | 2012-07-04 | 奥迪康有限公司 | 用于减少音频处理算法中的非自然信号的方法和装置 |
CN103761968A (zh) * | 2008-07-02 | 2014-04-30 | 谷歌公司 | 具有并行识别任务的语音识别 |
CN105244031A (zh) * | 2015-10-26 | 2016-01-13 | 北京锐安科技有限公司 | 说话人识别方法和装置 |
CN105703978A (zh) * | 2014-11-24 | 2016-06-22 | 武汉物联远科技有限公司 | 智能家居控制系统和方法 |
CN105976812A (zh) * | 2016-04-28 | 2016-09-28 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及其设备 |
CN105979376A (zh) * | 2015-12-02 | 2016-09-28 | 乐视致新电子科技(天津)有限公司 | 一种推荐方法和装置 |
US9514747B1 (en) * | 2013-08-28 | 2016-12-06 | Amazon Technologies, Inc. | Reducing speech recognition latency |
CN106356065A (zh) * | 2016-10-31 | 2017-01-25 | 努比亚技术有限公司 | 一种移动终端及语音转换方法 |
CN106462380A (zh) * | 2014-04-15 | 2017-02-22 | 谷歌公司 | 用于对于语音命令提供提示的系统和方法 |
-
2017
- 2017-03-24 CN CN201710182350.8A patent/CN106952645B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7308408B1 (en) * | 2000-07-24 | 2007-12-11 | Microsoft Corporation | Providing services for an information processing system using an audio interface |
US20030033312A1 (en) * | 2001-08-09 | 2003-02-13 | Atsuko Koizumi | Method of interpretation service for voice on the phone |
CN102124515A (zh) * | 2008-06-17 | 2011-07-13 | 声感有限公司 | 基于语音分析的说话者表征 |
CN103761968A (zh) * | 2008-07-02 | 2014-04-30 | 谷歌公司 | 具有并行识别任务的语音识别 |
CN102543095A (zh) * | 2010-12-09 | 2012-07-04 | 奥迪康有限公司 | 用于减少音频处理算法中的非自然信号的方法和装置 |
US9514747B1 (en) * | 2013-08-28 | 2016-12-06 | Amazon Technologies, Inc. | Reducing speech recognition latency |
CN106462380A (zh) * | 2014-04-15 | 2017-02-22 | 谷歌公司 | 用于对于语音命令提供提示的系统和方法 |
CN105703978A (zh) * | 2014-11-24 | 2016-06-22 | 武汉物联远科技有限公司 | 智能家居控制系统和方法 |
CN105244031A (zh) * | 2015-10-26 | 2016-01-13 | 北京锐安科技有限公司 | 说话人识别方法和装置 |
CN105979376A (zh) * | 2015-12-02 | 2016-09-28 | 乐视致新电子科技(天津)有限公司 | 一种推荐方法和装置 |
CN105976812A (zh) * | 2016-04-28 | 2016-09-28 | 腾讯科技(深圳)有限公司 | 一种语音识别方法及其设备 |
CN106356065A (zh) * | 2016-10-31 | 2017-01-25 | 努比亚技术有限公司 | 一种移动终端及语音转换方法 |
Non-Patent Citations (2)
Title |
---|
T. ANANTHARAMAN 等: ""Custom data-flow machines for speech recognition"", 《ICASSP "85. IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING》 * |
伍斯龙: ""智群感知中语音识别系统的研究与实现"", 《中国优秀硕士学位论文全文数据库(信息科技辑)》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107682536A (zh) * | 2017-09-25 | 2018-02-09 | 努比亚技术有限公司 | 一种语音控制方法、终端和计算机可读存储介质 |
CN109521685A (zh) * | 2017-12-29 | 2019-03-26 | 苏州乐轩科技有限公司 | 一种影音控制系统 |
CN109521685B (zh) * | 2017-12-29 | 2022-08-05 | 苏州乐轩科技有限公司 | 一种影音控制系统 |
CN108922540A (zh) * | 2018-07-27 | 2018-11-30 | 重庆柚瓣家科技有限公司 | 与老人用户进行连续ai对话的方法及系统 |
CN108922540B (zh) * | 2018-07-27 | 2023-01-24 | 重庆柚瓣家科技有限公司 | 与老人用户进行连续ai对话的方法及系统 |
CN110619874A (zh) * | 2019-08-30 | 2019-12-27 | 珠海格力电器股份有限公司 | 语音控制方法、装置、计算机设备和存储介质 |
CN111273555A (zh) * | 2020-01-16 | 2020-06-12 | 珠海格力电器股份有限公司 | 一种智能家居的控制方法、装置、终端及计算机可读介质 |
CN111273555B (zh) * | 2020-01-16 | 2021-09-14 | 珠海格力电器股份有限公司 | 一种智能家居的控制方法、装置、终端及计算机可读介质 |
CN114203204A (zh) * | 2021-12-06 | 2022-03-18 | 北京百度网讯科技有限公司 | 尾点检测方法、装置、设备和存储介质 |
CN114203204B (zh) * | 2021-12-06 | 2024-04-05 | 北京百度网讯科技有限公司 | 尾点检测方法、装置、设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN106952645B (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106952645A (zh) | 语音指令的识别方法、语音指令的识别装置和空调器 | |
CN105654949B (zh) | 一种语音唤醒方法及装置 | |
US10013977B2 (en) | Smart home control method based on emotion recognition and the system thereof | |
US10847179B2 (en) | Method, apparatus and device for recognizing voice endpoints | |
CN105405439B (zh) | 语音播放方法及装置 | |
CN107818798B (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
CN103811003B (zh) | 一种语音识别方法以及电子设备 | |
CN109087669B (zh) | 音频相似度检测方法、装置、存储介质及计算机设备 | |
US20160125880A1 (en) | Method and system for identifying location associated with voice command to control home appliance | |
CN108417201B (zh) | 单信道多说话人身份识别方法及系统 | |
CN109473092B (zh) | 一种语音端点检测方法及装置 | |
CN110070857B (zh) | 语音唤醒模型的模型参数调整方法及装置、语音设备 | |
CN104575504A (zh) | 采用声纹和语音识别进行个性化电视语音唤醒的方法 | |
CN109584876A (zh) | 语音数据的处理方法、装置和语音空调 | |
CN108335695A (zh) | 语音控制方法、装置、计算机设备和存储介质 | |
CN104778230B (zh) | 一种视频数据切分模型的训练、视频数据切分方法和装置 | |
CN104078045B (zh) | 一种识别的方法及电子设备 | |
CN104992713B (zh) | 一种快速广播音频比对方法 | |
CN106971714A (zh) | 一种应用于机器人的语音去噪识别方法及装置 | |
CN112002315B (zh) | 一种语音控制方法、装置、电器设备、存储介质及处理器 | |
CN109841221A (zh) | 基于语音识别的参数调节方法、装置及健身设备 | |
CN111161731A (zh) | 智能家电离线语音控制装置 | |
CN110262278B (zh) | 智能家电设备的控制方法及装置、智能电器设备 | |
CN110970019A (zh) | 智能家居系统的控制方法和装置 | |
CN111128169A (zh) | 语音唤醒方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |