CN109584876B - 语音数据的处理方法、装置和语音空调 - Google Patents
语音数据的处理方法、装置和语音空调 Download PDFInfo
- Publication number
- CN109584876B CN109584876B CN201811600373.7A CN201811600373A CN109584876B CN 109584876 B CN109584876 B CN 109584876B CN 201811600373 A CN201811600373 A CN 201811600373A CN 109584876 B CN109584876 B CN 109584876B
- Authority
- CN
- China
- Prior art keywords
- voice
- voice data
- pause
- duration
- instructions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title abstract description 9
- 238000004458 analytical method Methods 0.000 claims description 23
- 238000000034 method Methods 0.000 claims description 21
- 230000006870 function Effects 0.000 description 8
- 238000000926 separation method Methods 0.000 description 7
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000004378 air conditioning Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005057 refrigeration Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/50—Control or safety arrangements characterised by user interfaces or communication
- F24F11/56—Remote control
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F11/00—Control or safety arrangements
- F24F11/62—Control or safety arrangements characterised by the type of control or by internal processing, e.g. using fuzzy logic, adaptive control or estimation of values
- F24F11/63—Electronic processing
- F24F11/64—Electronic processing using pre-stored data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- F—MECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
- F24—HEATING; RANGES; VENTILATING
- F24F—AIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
- F24F2120/00—Control inputs relating to users or occupants
- F24F2120/20—Feedback from users
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Mechanical Engineering (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Combustion & Propulsion (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明提出一种语音数据的处理方法、装置和语音空调,其中处理方法,包括:接收语音数据,其中,语音数据中包括多个语音指令;解析语音数据以得到多个语音指令;确定各个语音指令的语义,并根据语义对各个语音指令进行反馈。本发明在连续或同时接收到多个语音指令时,通过对多个语音指令进行解析并执行,解决了现有技术中当连续或同时接收到多条语音指令只能执行其中一条语音指令的问题,从而提高了用户体验。
Description
技术领域
本发明涉及语音处理领域,特别涉及语音数据的处理方法、装置和语音空调。
背景技术
在现有技术中,当用户对具有语音识别功能的设备发出语音指令时,如果其连续发出多条语音指令且多条语音指令之间的间隔较短,则具有语音识别功能的设备只能处理其中一条语音指令,而其他语音指令会被作为噪音处理,这样的处理方式,显然无法满足需求,例如,用户对手机助手说查询天气并打开浏览器时,手机助手只会查询天气而不会打开浏览器,或者只打开浏览器而不会查询天气。即现有技术中,在连续或同时接收到多条语音指令时,无法对多条语音指令进行响应,降低了用户体验。
因此,在连续或同时接收到多条语音指令时,对多条语音指令进行响应,是本领域亟待解决的问题。
发明内容
本发明提供了一种语音数据的处理方法、装置和语音空调,用于在同时接收到多条语音指令时,对多条语音指令进行。
为了解决上述问题,作为本发明的一个方面,提供了一种语音数据的处理方法,包括:
接收语音数据,其中,所述语音数据中包括多个语音指令;
解析所述语音数据以得到多个所述语音指令;
确定各个所述语音指令的语义,并根据所述语义对各个语音指令进行反馈。
可选的,解析所述语音数据以得到多个语音指令,包括:
确定所述语音数据的发送方个数;
当所述发送方个数为一个时,根据所述语音数据中各停顿点的停顿时长对所述语音数据进行分割,得到多个语音指令;和/或,
当所述发送方个数为多个时,根据所述发送方将所述语音数据分为多个目标语音数据,根据所述目标语音数据中各停顿点的停顿时长对各个所述目标语音数据进行分割,得到多个语音指令,其中,任一所述目标语音数据对应一个发送方。
可选的,确定所述语音数据的发送方个数,包括:
根据所述语音数据的音色和/或音调确定所述语音数据的发送方个数;
或者,
判断所述语音数据中是否存在停顿时长大于第一预设时长的停顿点;
若不存在,则所述发送方个数为多个,若存在,则所述发送方个数为一个。
可选的,根据所述语音数据中各停顿点的停顿时长对所述语音数据进行分割,包括:
判断所述语音数据中各停顿点的停顿时长是否大于第二预设时长;
在所述语音数据中停顿时长大于第二预设时长的停顿点处进行分割;
和/或,
根据所述目标语音数据中各停顿点的停顿时长对各个所述目标语音数据进行分割,包括:
判断各个所述目标语音数据中各个停顿点的停顿时长是否大于第二预设时长;在所述目标语音数据中停顿时长大于第二预设时长的停顿点处进行分割。
可选的,尝试解析各个所述语音指令的语义;
当任一所述语音指令无法识别时,采用语音解析模型对无法识别的语音指令进行解析得到已解析指令;
将所述已解析指令与预设的语音模型进行比对以确定所述已解析指令的语义。
本申请还提出一种语音数据的处理装置,包括:
接收单元,用于接收语音数据,其中,所述语音数据中包括多个语音指令;
解析单元,用于解析所述语音数据以得到多个所述语音指令;
执行单元,用于确定各个所述语音指令的语义,并根据所述语义对各个语音指令进行反馈。
可选的,所述解析单元解析所述语音数据以得到多个语音指令,包括:
确定所述语音数据的发送方个数;
当所述发送方个数为一个时,根据所述语音数据中各停顿点的停顿时长对所述语音数据进行分割,得到多个语音指令;和/或,
当所述发送方个数为多个时,根据所述发送方将所述语音数据分为多个目标语音数据,根据所述目标语音数据中各停顿点的停顿时长对各个所述目标语音数据进行分割,得到多个语音指令,其中,任一所述目标语音数据对应一个发送方。
可选的,所述解析单元确定所述语音数据的发送方个数,包括:
根据所述语音数据的音色和/或音调确定所述语音数据的发送方个数;
或者,
判断所述语音数据中是否存在停顿时长大于第一预设时长的停顿点;
若不存在,则所述发送方个数为多个,若存在,则所述发送方个数为一个。
可选的,所述解析单元根据所述语音数据中各停顿点的停顿时长对所述语音数据进行分割,包括:
判断所述语音数据中各停顿点的停顿时长是否大于第二预设时长;
在所述语音数据中停顿时长大于第二预设时长的停顿点处进行分割;
和/或,
所述解析单元根据所述目标语音数据中各停顿点的停顿时长对各个所述目标语音数据进行分割,包括:
判断各个所述目标语音数据中各个停顿点的停顿时长是否大于第二预设时长;在所述目标语音数据中停顿时长大于第二预设时长的停顿点处进行分割。
可选的,确定各个所述语音指令的语义,包括:
尝试解析各个所述语音指令的语义;
当任一所述语音指令无法识别时,采用语音解析模型对无法识别的语音指令进行解析得到已解析指令;
将所述已解析指令与预设的语音模型进行比对以确定所述已解析指令的语义。
本发明还提出一种语音空调,包括处理器、存储器以及存储在存储器上可在处理器上运行的程序,处理器执行程序时实现本发明提出的任一方法的步骤。
本发明还提出一种语音空调,包括本发明提出的任一的装置。
本发明提出了一种语音数据的处理方法、装置和语音空调,在连续或同时接收到多个语音指令时,通过对多个语音指令进行解析并执行,解决了现有技术中当连续或同时接收到多条语音指令只能执行其中一条语音指令的问题,从而提高了用户体验。
附图说明
图1为本发明实施例中一种语音数据的处理方法的流程图;
图2为本发明实施例中一种语音数据的处理装置的组成图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或电器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或电器固有的其它步骤或单元。
在现有技术中,当用户同时发出多条语音指令时,或者是当多个用户同时发出语音指令时,接收语音指令的智能设备往往只能执行其中一条语音指令,而无法对所有语音指令都进行处理和反馈,即现有技术中用户与具有语音功能的智能设备进行交互时,一次只能发出一条语音指令,造成用户体验低。
为了解决现有技术中存在的上述问题,如图1所示,本申请提出一种语音数据的处理方法,其特征在于,包括:
S11:接收语音数据。
具体的,语音数据是一次接收到的音频数据,即该语音数据中不存在停顿时间大于预设阈值的停顿点,预设阈值通常是1.5秒。语音数据中包括多条语音指令,本实施例中的语音数据中包括多个语音指令,此处的语音数据例如可以是一个用户连续发出的多条语音指令,也可以是多个用户同时发出的语音指令。本申请提出的方法可以用于手机、平板、电脑或智能家居等具语音识别功能的终端上,这些终端上的麦克风阵列可以用于接收语音数据。
S12:解析语音数据以得到多个语音指令;
具体的,通常情况下,用户发出的语音数据中只包含一条语音指令,在本申请中,在接收到语音数据后,可以对语音数据进行判断,确定其是否包含多条语音指令,例如可以通过语音指令的音调和音色判断是否是同一个用户发出的语音指令,如果语音数据的来源为多个用户则确定其中包含了多个语音指令。如果语音数据的来源为一个用户,再对语音数据进行语义解析,如果语音数据拟进行的控制操作为一个,则语音数据中只包含一条语音指令,如果语音数据中拟进行的控制操作为多个,则语音数据中包括多条语音指令。例如语音数据为打开相机,然后播放音乐。在该语音数据中的控制操作为两个,分别为“打开相机”和“播放音乐”,因此该语音数据中包括多条语音指令。
S13:确定各个语音指令的语义,并根据语义对各个语音指令进行反馈。
具体的,可以采用现有技术中的语音识别技术确定各个语音指令的语义,并根据语义执行相应的动作。例如:语音数据为“打开相机,然后播放音乐”,其中包括了两条语音指令,通过解析语音数据得到了两条语音指令,分别为“打开相机”和“播放音乐”,然后分别执行上述语音指令。在执行各个语音指令的时候,可以按照各个语音指令在语音数据中的排序依次执行,当语音数据中有限定执行顺序的连接词时,例如“先”、“后”、“再”等,按照连接词限定的先后顺序执行语音指令。当语音数据的来源于不同的用户时,按照各个用户的预设优先级执行各个用户发出的语音指令。例如语音数据中包括两条语音指令,分别来自用户A和用户B,如果用户A的优先级高于用户B,则先执行用户A的语音指令再执行用户B的语音指令。
与现有技术相比,本申请在接收到多条语音指令后,分别识别各个语音指令的语义并对各个语音指令进行反馈,从而解决了现有技术中当同时接收到多条语音指令时只能执行其中一条语音指令的问题,提升了处理效率。
可选的,在本申请提出的处理方法中,解析语音数据以得到多个语音指令,包括:确定语音数据的发送方个数;
当发送方个数为一个时,根据语音数据中各停顿点的停顿时长对语音数据进行分割,得到多个语音指令;和/或,
当发送方个数为多个时,根据发送方将语音数据分为多个目标语音数据,根据目标语音数据中各停顿点的停顿时长对各个目标语音数据进行分割,得到多个语音指令,其中,任一目标语音数据对应一个发送方。
具体的,在确定语音数据的发送方个数前,可以先对语音数据进行去噪音处理,先去除环境噪音。如果语音数据的发送方为多个,表明语音数据不是来源于同一用户,因此可以确定语音数据中应当包含至少两个语音指令,当发送方是一个时,需要进一步确定其中包含有多少个语音指令。当只有一个用户发送了语音数据后,在确定语音指令中包含多少个语音指令时,是根据各个停顿点的停顿时长确定的,这里的停顿点是语音数据中任意两个字之间的停顿点,接收到的语音数据是声波,声波可以用横坐标为时间纵坐标为振动值的曲线标识,停顿时长是指持续未接收到语音数据的时间,在实际中,当一个人发出多个语音指令时,在一个语音指令未发完前,其往往不会停顿,而在发送完一个语音指令后会下意识的停顿一下,这个停顿的时间长度如果超过一定时长,则认为其之后发送的语音与之前发送的语音属于不同的语音指令。任一目标语音数据对应一个发送方的意思是说:任一目标语音数据的发送方个数为一,优选不同的目标语音数据的发送方不同,假设语音数据的发送方为用户A和用户B,那么用户A发出的语音数据为一个目标语音数据,用户B发出的语音数据为另一个目标语音数据,这里优选是按照发送方不同将语音数据分为多个目标语音数据。本实施例中,根据发送方个数和停顿时长对语音数据进行分割,解决了现有技术中无法确定一个语音数据中是否包含多条语音指令的问题。
可选的,在本申请提出的处理方法中,确定语音数据的发送方个数,包括:
根据语音数据的音色和/或音调确定语音数据的发送方个数;
具体的,不同的用户的声线不一样,因此发出的语音的音色和音调都不相同,可以预先存储各个用户的音色和音调,在根据音调和音色中的一个或多个确定语音数据的发送方是否为多个。在确定发送方个数之前,还可以根据音调和音色消除语音数据中的背景杂音,因为人类发出的声音的音调和音色与环境中自然产生的声音区别很大,这里根据音调和音色去除环境杂音可采用现有技术,本申请对此不作限定。
或者,确定语音数据的发送方个数,包括:判断语音数据中是否存在停顿时长大于第一预设时长的停顿点;若不存在,则发送方个数为多个,若存在,则发送方个数为一个。具体的,根据发送方的个数不同,语音数据会表现为连续或不连续的音频,当一个用户发送多条语音指令时,其会下意识的在两条语音指令之间停顿,即出现停顿时长大于第一预设时长的停顿点,而多个用户同时发出语音指令时,由于各个用户的语音混杂在一起,因此往往不会出现停顿,语音数据表现为连续的音频,即不存在停顿时长大于第一预设时长的停顿点,此处的第一预设时长可以是300ms。通过判断是否存在停顿时长大于第一预设时长的停顿点可以较为简单的判断发送方的个数,需要注意的是,当只有一个用户发送一条语音指令的时候,语音数据中也不存在停顿时长大于第一时长的停顿点,因此,当不存在上述停顿点时,还可以对语音数据直接进行语义分析,如果无法分析(多个用户发送的语音指令混合在一起导致无法分析)则确定发送方的个数为多个,如果可以分析,则此时是一个用户发送的一条语音指令。
可选的,在本申请提出的处理方法中,根据语音数据中各停顿点的停顿时长对语音数据进行分割,包括:
判断语音数据中各停顿点的停顿时长是否大于第二预设时长;
在语音数据中停顿时长大于第二预设时长的停顿点处进行分割;
和/或,
根据目标语音数据中各停顿点的停顿时长对各个目标语音数据进行分割,包括:判断各个目标语音数据中各个停顿点的停顿时长是否大于第二预设时长;在目标语音数据中停顿时长大于第二预设时长的停顿点处进行分割。
具体的,用户发出语音数据是逐字陈述的,停顿点是语音数据中任意两个字之间的停顿点,当用户陈述一段话时,在话没有说完之前往往不会长时间停顿,当停顿时长大于第二预设时长时,表明用户想要陈述另一句话,第二预设时长可以是300ms。因此可以通过停顿时长确定用户是否想要陈述另一句话,在停顿点对语音数据或目标语音数据进行分割,从而得到多个语音指令。
可选的,确定各个语音指令的语义,包括:
尝试解析各个语音指令的语义;
当任一语音指令无法识别时,采用语音解析模型对无法识别的语音指令进行解析得到已解析指令;
将已解析指令与预设的语音模型进行比对以确定已解析指令的语义。
具体的,在一些情况下,本实施例中所认定的一条语音指令可能是多个用户同时发出的语音指令,即在解析语音数据得到多条语音指令时存在对识别错误的情况,此时解析该错误识别的语音指令的语义时会无法识别,因此此时采用语音解析模型对无法解析的语音指令进行解析,此处的语音解析模型可以实现了语音分离算法,通过语音分离算法可以将不同用户发出的语音指令相互分离开,然后得到已解析指令,此处的已解析指令为无法识别的语音指令中所包含的各个不同用户所发出的单条语音指令,然后与预设的语音模型进行比对确定语义,此处的预设的语音模型可以是神经网路模型,其输入值为音频,例如任一语音指令,其输出值为输入的音频所对应的语义。此处的神经网路模型可以是卷积神经网络、残差神经网络等。也就是说,在意图语音指令无法解析的时候考虑其实际上可能是多条语音指令,采用语音解析模型将其分离为多条语音指令,并采用语音模型解析分离的多条语音指令的语义,语音解析模型采用了现有的语音分离算法。
为了更好的说明本申请的有益效果,以下提出一优选实施例。
在本实施例中,以具有语音识别功能的语音空调为例,现有技术中语音空调多指令处理功能无法解决两种情况的问题:一、单一用户连续不间断发送多个语音指令控制语音空调设备;二、多用户在同一时间段内同时发送的多个语音指令控制空调设备。
对于第一种情况,该种方式的典型特征是由单一用户以小于断句间隔(现有技术中断句间隔设定为1s)连续发出多句控制指令。例如:用户A在使用空调时,先用唤醒词唤醒空调设备,在空调等待语音控制指令的期间,用户连续的发出三句控制指令,“打开空调”、“制冷模式”、“我想听歌”,若是三条控制指令间的间隔时间皆小于1秒,现有的处理方式在这里会将三条控制指令综合为一条指令后进行识别,根据识别结果执行三条指令中的一条,甚至无法执行。在本实施例中,在接收到上述三条指令后会先判断该条语音数据各停顿点的停顿时长,若是存在停顿时长大于300ms的停顿点,则将当前该整句语音数据划分为单一用户的多个语音指令,将语音指令分句识别。分句好的语音指令先进行本地识别,若是本地无法识别解析,则将无法识别的语音指令使用语音分离类算法重新解析,再将解析完的语音指令上传与服务器上的语音模型进行比对识别其语义,然后对语音数据进行反馈。
对于第二种情况,多位用户同时述说语音指令,且用户两两之间的语音指令会将对方断句间隔给屏蔽掉,最后输入语音是一整句指令混合且难以断句的语音指令。例如用户A在使用空调时,先用唤醒词唤醒空调设备,在语音等待控制指令的期间,这时候用户A、用户B、用户C在同一时间段里发出三句控制指令:“打开空调”、“制冷模式”、“我想听歌”(这里的三条控制指令会连成一句,其中部分词甚至会叠在一起)。语音空调设备在接收到三段音频合成在一起的录音会先尝试进行断句,但是由于三条控制指令是基本连成了一句语音数据,断句无法实现。则将当前该整句语音数据划分为多用户的多个目标语音数据,同时使用语音分离类算法将该整句语音数据重新解析,然后将解析完的语音数据上传与服务器上的语音模型进行比对识别语义,然后对语音数据进行反馈。
如图2所示,本申请还提出一种语音数据的处理装置,包括:
接收单元10,用于接收语音数据,其中,语音数据中包括多个语音指令;
解析单元20,用于解析语音数据以得到多个语音指令;
执行单元30,用于确定各个语音指令的语义,并根据语义对各个语音指令进行反馈。
本申请提出的处理装置可以用于手机、平板、电脑或智能家居等具语音识别功能的终端上,这些终端上的麦克风阵列可以作为接收单元10的一部分用于接收语音数据,通常情况下,用户发出的语音数据中只包含一条语音指令,在本申请中,在接收单元10接收到语音数据后,解析单元20可以对语音数据进行判断,确定其是否包含多条语音指令,例如可以解析单元20通过语音指令的音调和音色判断是否是同一个用户发出的语音指令,如果语音数据的来源为多个用户则确定其中包含了多个语音指令。具体的,解析单元20可以采用现有技术中的语音识别技术确定各个语音指令的语义,并由执行单元30根据语义执行相应的动作。例如:语音数据为“打开相机,然后播放音乐”,其中包括了两条语音指令,解析单元20通过解析语音数据得到了两条语音指令,分别为“打开相机”和“播放音乐”,然后执行单元30分别执行上述语音指令,打开相机后播放音乐。在执行单元30执行各个语音指令的时候,可以按照各个语音指令在语音数据中的排序依次执行,当语音数据中有限定执行顺序的连接词时,例如“先”、“后”、“再”等,按照连接词限定的先后顺序执行语音指令。当语音数据的来源于不同的用户时,按照各个用户的预设优先级执行各个用户发出的语音指令。例如语音数据中包括两条语音指令,分别来自用户A和用户B,如果用户A的优先级高于用户B,则先执行用户A的语音指令再执行用户B的语音指令。与现有技术相比,本申请提出的处理装置在接收到多条语音指令后,分别识别各个语音指令的语义并对各个语音指令进行反馈,从而解决了现有技术中当同时接收到多条语音指令时只能执行其中一条语音指令的问题,提升了处理效率,提高了用户体验。
可选的,在本申请提出的处理装置,解析单元20解析语音数据以得到多个语音指令,包括:
确定语音数据的发送方个数;
当发送方个数为一个时,根据语音数据中各停顿点的停顿时长对语音数据进行分割,得到多个语音指令;和/或,
当发送方个数为多个时,根据发送方将语音数据分为多个目标语音数据,根据目标语音数据中各停顿点的停顿时长对各个目标语音数据进行分割,得到多个语音指令,其中,任一目标语音数据对应一个发送方。
具体的,在解析单元20确定语音数据的发送方个数前,解析单元20可以先对语音数据进行去噪音处理,先去除环境噪音。如果语音数据的发送方为多个,表明语音数据不是来源于同一用户,因此可以确定语音数据中应当包含至少两个语音指令,当发送方是一个时,需要进一步确定其中包含有多少个语音指令。当只有一个用户发送了语音数据后,在确定语音指令中包含多少个语音指令时,是根据各个停顿点的停顿时长确定的,这里的停顿点是语音数据中任意两个字之间的停顿点,接收到的语音数据可以是声波,声波可以用横坐标为时间纵坐标为振动值的曲线标识,停顿时长是指持续未接收到语音数据的时间,在实际中,当一个人发出多个语音指令时,在一个语音指令未发完前,其往往不会停顿,而在发送完一个语音指令后会下意识的停顿一下,这个停顿的时间长度如果超过一定时长,则认为其之后发送的语音与之前发送的语音属于不同的语音指令。本实施例中,根据发送方个数和停顿时长对语音数据进行分割,解决了现有技术中无法确定一个语音数据中是否包含多条语音指令的问题。
可选的,解析单元20确定语音数据的发送方个数,包括:
根据语音数据的音色和/或音调确定语音数据的发送方个数;
或者,
判断语音数据中是否存在停顿时长大于第一预设时长的停顿点;
若不存在,则发送方个数为多个,若存在,则发送方个数为一个。
具体的,不同的用户的声线不一样,因此发出的语音的音色和音调都不相同,可以在解析单元20中预先存储各个用户的音色和音调,在根据音调和音色中的一个或多个确定语音数据的发送方是否为多个。在确定发送方个数之前,还可以根据音调和音色消除语音数据中的背景杂音,因为人类发出的声音的音调和音色与环境中自然产生的声音区别很大,这里根据音调和音色去除环境杂音可采用现有技术,本申请对此不作限定。此外,根据发送方的个数不同,语音数据会表现为连续或不连续的音频,当一个用户发送多条语音指令时,其会下意识的在两条语音指令之间停顿,即出现停顿时长大于第一预设时长的停顿点,而多个用户同时发出语音指令时,由于各个用户的语音混杂在一起,因此往往不会出现停顿,语音数据表现为连续的音频,即不存在停顿时长大于第一预设时长的停顿点,此处的第一预设时长可以是300ms。通过判断是否存在停顿时长大于第一预设时长的停顿点可以较为简单的判断发送方的个数,需要注意的是,当只有一个用户发送一条语音指令的时候,语音数据中也不存在停顿时长大于第一时长的停顿点,因此,当不存在上述停顿点时,还可以对语音数据直接进行语义分析,如果无法分析(多个用户发送的语音指令混合在一起导致无法分析)则确定发送方的个数为多个,如果可以分析,则此时是一个用户发送的一条语音指令。
可选的,解析单元20根据语音数据中各停顿点的停顿时长对语音数据进行分割,包括:
判断语音数据中各停顿点的停顿时长是否大于第二预设时长;
在语音数据中停顿时长大于第二预设时长的停顿点处进行分割;
和/或,
解析单元20根据目标语音数据中各停顿点的停顿时长对各个目标语音数据进行分割,包括:
判断各个目标语音数据中各个停顿点的停顿时长是否大于第二预设时长;在目标语音数据中停顿时长大于第二预设时长的停顿点处进行分割。
具体的,用户发出语音数据是逐字陈述的,停顿点是语音数据中任意两个字之间的停顿位置,当用户陈述一段话时,在话没有说完之前往往不会长时间停顿,当停顿时长大于第二预设时长时,表明用户想要陈述另一句话,第二预设时长可以是300ms。因此可以通过停顿时长确定用户是否想要陈述另一句话,在停顿点对语音数据或目标语音数据进行分割,从而得到多个语音指令。
可选的,确定各个语音指令的语义,包括:
尝试解析各个语音指令的语义;
当任一语音指令无法识别时,采用语音解析模型对无法识别的语音指令进行解析得到已解析指令;
将已解析指令与预设的语音模型进行比对以确定已解析指令的语义。
具体的,本实施例中所认定的一条语音指令可能是多个用户同时发出的语音指令,即在解析语音数据得到多条语音指令时存在对识别错误的情况,此时解析该错误识别的语音指令的语义时会无法识别,因此此时采用语音解析模型对无法解析的语音指令进行解析,此处的语音解析模型可以实现了语音分离算法,通过语音分离算法可以将不同用户发出的语音指令相互分离开,然后得到已解析指令,此处的已解析指令为无法识别的语音指令中所包含的各个不同用户所发出的单条语音指令,然后与预设的语音模型进行比对确定语义,此处的预设的语音模型可以是神经网路模型,其输入值为音频,例如任一语音指令,其输出值为输入的音频所对应的语义。此处的神经网路模型可以是卷积神经网络、残差神经网络等。
本申请还提出一种语音空调,包括处理器、存储器以及存储在存储器上可在处理器上运行的程序,处理器执行程序时实现本申请提出的任一方法的步骤。
本申请还提出一种语音空调,包括本申请提出的任一的装置。
本申请提出的语音空调具有语音识别功能,其可以用自带的处理器对语音数据进行解析,也可以是与云端的服务器通讯连接,通过服务器对语音数据进行解析后将语音数据的语义返回到语音空调上,然后语音空调执行相应的操作。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种语音数据的处理方法,其特征在于,包括:
接收语音数据,其中,所述语音数据中包括多个语音指令;
解析所述语音数据以得到多个所述语音指令;
确定各个所述语音指令的语义,并根据所述语义对各个语音指令进行反馈;
解析所述语音数据以得到多个语音指令,包括:
确定所述语音数据的发送方个数;
当所述发送方个数为一个时,根据所述语音数据中各停顿点的停顿时长对所述语音数据进行分割,得到多个语音指令;和/或,
当所述发送方个数为多个时,根据所述发送方将所述语音数据分为多个目标语音数据,根据所述目标语音数据中各停顿点的停顿时长对各个所述目标语音数据进行分割,得到多个语音指令,其中,任一所述目标语音数据对应一个发送方。
2.根据权利要求1所述的语音数据的处理方法,其特征在于,确定所述语音数据的发送方个数,包括:
根据所述语音数据的音色和/或音调确定所述语音数据的发送方个数;
或者,
判断所述语音数据中是否存在停顿时长大于第一预设时长的停顿点;
若不存在,则所述发送方个数为多个,若存在,则所述发送方个数为一个。
3.根据权利要求1-2任一项所述的语音数据的处理方法,其特征在于,
根据所述语音数据中各停顿点的停顿时长对所述语音数据进行分割,包括:
判断所述语音数据中各停顿点的停顿时长是否大于第二预设时长;
在所述语音数据中停顿时长大于第二预设时长的停顿点处进行分割;
和/或,
根据所述目标语音数据中各停顿点的停顿时长对各个所述目标语音数据进行分割,包括:
判断各个所述目标语音数据中各个停顿点的停顿时长是否大于第二预设时长;在所述目标语音数据中停顿时长大于第二预设时长的停顿点处进行分割。
4.根据权利要求1-3任一项所述的语音数据的处理方法,其特征在于,确定各个所述语音指令的语义,包括:
尝试解析各个所述语音指令的语义;
当任一所述语音指令无法识别时,采用语音解析模型对无法识别的语音指令进行解析得到已解析指令;
将所述已解析指令与预设的语音模型进行比对以确定所述已解析指令的语义。
5.一种语音数据的处理装置,其特征在于,包括:
接收单元,用于接收语音数据,其中,所述语音数据中包括多个语音指令;
解析单元,用于解析所述语音数据以得到多个所述语音指令;
执行单元,用于确定各个所述语音指令的语义,并根据所述语义对各个语音指令进行反馈;
所述解析单元解析所述语音数据以得到多个语音指令,包括:
确定所述语音数据的发送方个数;
当所述发送方个数为一个时,根据所述语音数据中各停顿点的停顿时长对所述语音数据进行分割,得到多个语音指令;和/或,
当所述发送方个数为多个时,根据所述发送方将所述语音数据分为多个目标语音数据,根据所述目标语音数据中各停顿点的停顿时长对各个所述目标语音数据进行分割,得到多个语音指令,其中,任一所述目标语音数据对应一个发送方。
6.根据权利要求5所述的语音数据的处理装置,其特征在于,所述解析单元确定所述语音数据的发送方个数,包括:
根据所述语音数据的音色和/或音调确定所述语音数据的发送方个数;
或者,
判断所述语音数据中是否存在停顿时长大于第一预设时长的停顿点;
若不存在,则所述发送方个数为多个,若-存在,则所述发送方个数为一个。
7.根据权利要求5-6任一项所述的语音数据的处理装置,其特征在于,
所述解析单元根据所述语音数据中各停顿点的停顿时长对所述语音数据进行分割,包括:
判断所述语音数据中各停顿点的停顿时长是否大于第二预设时长;
在所述语音数据中停顿时长大于第二预设时长的停顿点处进行分割;
和/或,
所述解析单元根据所述目标语音数据中各停顿点的停顿时长对各个所述目标语音数据进行分割,包括:
判断各个所述目标语音数据中各个停顿点的停顿时长是否大于第二预设时长;在所述目标语音数据中停顿时长大于第二预设时长的停顿点处进行分割。
8.根据权利要求5-7任一项所述的语音数据的处理装置,其特征在于,确定各个所述语音指令的语义,包括:
尝试解析各个所述语音指令的语义;
当任一所述语音指令无法识别时,采用语音解析模型对无法识别的语音指令进行解析得到已解析指令;
将所述已解析指令与预设的语音模型进行比对以确定所述已解析指令的语义。
9.一种语音空调,其特征在于,包括处理器、存储器以及存储在存储器上可在处理器上运行的程序,所述处理器执行所述程序时实现权利要求1-4任一所述方法的步骤。
10.一种语音空调,其特征在于,包括如权利要求5-7任一所述的装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811600373.7A CN109584876B (zh) | 2018-12-26 | 2018-12-26 | 语音数据的处理方法、装置和语音空调 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811600373.7A CN109584876B (zh) | 2018-12-26 | 2018-12-26 | 语音数据的处理方法、装置和语音空调 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109584876A CN109584876A (zh) | 2019-04-05 |
CN109584876B true CN109584876B (zh) | 2020-07-14 |
Family
ID=65931874
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811600373.7A Active CN109584876B (zh) | 2018-12-26 | 2018-12-26 | 语音数据的处理方法、装置和语音空调 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109584876B (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110162176B (zh) * | 2019-05-20 | 2022-04-26 | 北京百度网讯科技有限公司 | 语音指令的挖掘方法和装置终端、计算机可读介质 |
CN110223697B (zh) | 2019-06-13 | 2022-04-22 | 思必驰科技股份有限公司 | 人机对话方法及系统 |
CN110594972A (zh) * | 2019-08-21 | 2019-12-20 | 青岛海尔空调器有限总公司 | 用于控制空调的方法和空调 |
CN110597480B (zh) * | 2019-09-18 | 2023-08-11 | 青岛海信移动通信技术有限公司 | 一种自定义语音指令实现方法和终端 |
CN110941737B (zh) * | 2019-12-06 | 2023-01-20 | 广州国音智能科技有限公司 | 单机语音存储方法、装置、设备及可读存储介质 |
CN111326154B (zh) * | 2020-03-02 | 2022-11-22 | 珠海格力电器股份有限公司 | 语音交互的方法、装置、存储介质及电子设备 |
CN111312214B (zh) * | 2020-03-31 | 2022-12-16 | 广东美的制冷设备有限公司 | 空调器的语音识别方法、装置、空调器和可读存储介质 |
CN112562734B (zh) * | 2020-11-25 | 2021-08-27 | 中检启迪(北京)科技有限公司 | 一种基于语音检测的语音交互方法及其装置 |
CN112614490B (zh) * | 2020-12-09 | 2024-04-16 | 北京罗克维尔斯科技有限公司 | 生成语音指令的方法、装置、介质、设备、系统及车辆 |
CN112581959B (zh) * | 2020-12-15 | 2023-05-09 | 四川虹美智能科技有限公司 | 智能设备控制方法、系统和语音服务器 |
CN112837526A (zh) * | 2021-01-19 | 2021-05-25 | 潍坊歌尔微电子有限公司 | 通用集成遥控方法、控制装置及通用集成遥控装置 |
CN112837694B (zh) * | 2021-01-29 | 2022-12-06 | 青岛海尔科技有限公司 | 设备唤醒方法、装置、存储介质及电子装置 |
CN113611294A (zh) * | 2021-06-30 | 2021-11-05 | 展讯通信(上海)有限公司 | 语音唤醒方法、装置、设备及介质 |
CN114005447A (zh) * | 2021-11-15 | 2022-02-01 | 中国第一汽车股份有限公司 | 一种语音对话交互方法、装置、车辆及介质 |
CN114898752B (zh) * | 2022-06-30 | 2022-10-14 | 广州小鹏汽车科技有限公司 | 语音交互方法、车辆及存储介质 |
CN115579009B (zh) * | 2022-12-06 | 2023-04-07 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器及计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012144667A1 (en) * | 2011-04-19 | 2012-10-26 | Lg Electronics Inc. | Method and electronic device for gesture recognition |
CN107729433A (zh) * | 2017-09-29 | 2018-02-23 | 联想(北京)有限公司 | 一种音频处理方法及设备 |
CN109065050A (zh) * | 2018-09-28 | 2018-12-21 | 上海与德科技有限公司 | 一种语音控制方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9251787B1 (en) * | 2012-09-26 | 2016-02-02 | Amazon Technologies, Inc. | Altering audio to improve automatic speech recognition |
US9424841B2 (en) * | 2014-10-09 | 2016-08-23 | Google Inc. | Hotword detection on multiple devices |
-
2018
- 2018-12-26 CN CN201811600373.7A patent/CN109584876B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2012144667A1 (en) * | 2011-04-19 | 2012-10-26 | Lg Electronics Inc. | Method and electronic device for gesture recognition |
CN107729433A (zh) * | 2017-09-29 | 2018-02-23 | 联想(北京)有限公司 | 一种音频处理方法及设备 |
CN109065050A (zh) * | 2018-09-28 | 2018-12-21 | 上海与德科技有限公司 | 一种语音控制方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109584876A (zh) | 2019-04-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109584876B (zh) | 语音数据的处理方法、装置和语音空调 | |
CN112201246B (zh) | 基于语音的智能控制方法、装置、电子设备及存储介质 | |
CN110557451B (zh) | 对话交互处理方法、装置、电子设备和存储介质 | |
US20060195323A1 (en) | Distributed speech recognition system | |
CN111341325A (zh) | 声纹识别方法、装置、存储介质、电子装置 | |
CN111161714B (zh) | 一种语音信息处理方法、电子设备及存储介质 | |
CN110875045A (zh) | 一种语音识别方法、智能设备和智能电视 | |
US20070061147A1 (en) | Distributed speech recognition method | |
CN111797632A (zh) | 信息处理方法、装置及电子设备 | |
CN110751948A (zh) | 一种语音识别方法、装置、存储介质及语音设备 | |
CN112420044A (zh) | 语音识别方法、语音识别装置及电子设备 | |
CN108932947B (zh) | 语音控制方法及家电设备 | |
CN112002315B (zh) | 一种语音控制方法、装置、电器设备、存储介质及处理器 | |
CN109347708A (zh) | 一种语音识别方法、装置、家电设备、云服务器及介质 | |
CN113779208A (zh) | 用于人机对话的方法和装置 | |
CN110262278B (zh) | 智能家电设备的控制方法及装置、智能电器设备 | |
CN112420043A (zh) | 基于语音的智能唤醒方法、装置、电子设备及存储介质 | |
CN111627453B (zh) | 公安语音信息管理方法、装置、设备及计算机存储介质 | |
CN114974232A (zh) | 语音信息的处理方法及相关产品 | |
CN109841216B (zh) | 语音数据的处理方法、装置和智能终端 | |
CN110660393B (zh) | 语音交互方法、装置、设备及存储介质 | |
CN113096651A (zh) | 语音信号处理方法、装置、可读存储介质及电子设备 | |
CN114038487A (zh) | 一种音频提取方法、装置、设备和可读存储介质 | |
CN111986658A (zh) | 离线终端进行语音识别训练的方法及装置 | |
CN114077840A (zh) | 语音对话系统的优化方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |