CN108053828A - 确定控制指令的方法、装置和家用电器 - Google Patents
确定控制指令的方法、装置和家用电器 Download PDFInfo
- Publication number
- CN108053828A CN108053828A CN201711422733.4A CN201711422733A CN108053828A CN 108053828 A CN108053828 A CN 108053828A CN 201711422733 A CN201711422733 A CN 201711422733A CN 108053828 A CN108053828 A CN 108053828A
- Authority
- CN
- China
- Prior art keywords
- voice
- reception module
- speech reception
- speech
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000002452 interceptive effect Effects 0.000 abstract description 4
- 230000004044 response Effects 0.000 description 5
- 238000005406 washing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- D—TEXTILES; PAPER
- D06—TREATMENT OF TEXTILES OR THE LIKE; LAUNDERING; FLEXIBLE MATERIALS NOT OTHERWISE PROVIDED FOR
- D06F—LAUNDERING, DRYING, IRONING, PRESSING OR FOLDING TEXTILE ARTICLES
- D06F33/00—Control of operations performed in washing machines or washer-dryers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供一种确定控制指令的方法和装置、家用电器及机器可读存储介质,属于语音交互领域。该方法包括:接收语音,根据所述语音的声音特征对语音进行归类;识别被归类为同一类别的语音的语义信息;以及根据语义信息,确定语音中携带的控制指令。该装置包括:接收模块,用于接收语音;处理模块,用于:根据所述语音的声音特征对语音进行归类;识别被归类为同一类别的语音的语义信息;以及根据语义信息,确定语音中携带的控制指令。该家用电器包括上述装置。该机器可读存储介质上存储有指令,该指令用于使得机器执行上述方法。藉此,实现了在存在语音干扰的情况下,确定接收的语音中携带的控制指令。
Description
技术领域
本发明涉及语音交互领域,具体地涉及一种确定控制指令的方法和装置、家用电器及机器可读存储介质。
背景技术
随着语音交互技术的不断发展与成熟,它开始被应用于各种家用电器上,洗衣机也不例外。语音交互技术的实现可以分为三个阶段:语音转文字、文字理解、决策响应。其中语音转文字是整个实现流程的先决条件,必须尽量准确。但在洗衣机的实际使用场景中,其他家庭成员的说话声音、来自电视机节目中的语音等环境干扰,都会对洗衣机正确接收当前用户的语音指令造成不利影响,使洗衣机接收到除控制指令以外的其他语音,从而在语音转换文字时,于用户的控制指令文字中插入其他不相干的文字,使得整句话的语义变得无法理解。
发明内容
本发明实施例的目的是提供一种确定控制指令的方法和装置、家用电器及机器可读存储介质,其可实现在存在语音干扰的情况下确定接收的语音中携带的控制指令。
为了实现上述目的,本发明实施例的一个方面提供一种确定控制指令的方法,该方法包括:接收语音,根据所述语音的声音特征对所述语音进行归类;识别被归类为同一类别的语音的语义信息;以及根据所述语义信息,确定所述语音中携带的控制指令。
可选地,所述接收语音,根据所述语音的声音特征对所述语音进行归类,包括:分别经由位于不同位置的第一语音接收模块和第二语音接收模块来接收所述语音;将所述第一语音接收模块接收的语音及所述第二语音接收模块接收的语音进行比较,并在两者相同时,确定所述第一语音接收模块接收所述语音的时间与所述第二语音接收模块接收所述语音的时间之间的时间差;以及将具有相同的所述时间差的所述语音归类到同一发音者。
可选地,所述将所述第一语音接收模块接收的语音及所述第二语音接收模块接收的语音进行比较,包括:分别将所述第一语音接收模块接收的语音及所述第二语音接收模块接收的语音转化为文字,并对所述第一语音接收模块接收的语音所转化的文字与所述第二语音接收模块接收的语音所转化的文字进行比较。
可选地,所述在两者相同时,确定所述第一语音接收模块接收所述语音的时间与所述第二语音接收模块接收所述语音的时间之间的时间差,包括:确定所述第一语音接收模块接收的语音所转化的每个文字所产生的时间;确定所述第二语音接收模块接收的语音所转化的每个文字所产生的时间;确定所述第一语音接收模块接收的语音和所述第二语音接收模块接收的语音所转化的相同文字所产生的时间之间的时间差。
可选地,所述识别被归类为同一类别的语音的语义信息,包括:通过语音识别技术对所述同一类别的语音进行识别,确定所述同一类别的语音包含的语义信息。
相应地,本发明实施例的另一方面提供一种确定控制指令的装置,该装置包括:语音接收模块,用于接收语音;处理模块,用于:根据所述语音的声音特征对所述语音进行归类;识别被归类为同一类别的语音的语义信息;以及根据所述语义信息,确定所述语音中携带的控制指令。
可选地,所述语音接收模块包括第一语音接收模块和第二语音接收模块,其中所述第一语音接收模块与所述第二语音接收模块的位置不同;所述处理模块根据所述语音的声音特征对所述语音进行归类包括:将所述第一语音接收模块接收的语音及所述第二语音接收模块接收的语音进行比较,并在两者相同时,确定所述第一语音接收模块接收所述语音的时间与所述第二语音接收模块接收所述语音的时间之间的时间差;以及将具有相同的所述时间差的所述语音归类到同一发音者。
可选地,所述处理模块将所述第一语音接收模块接收的语音及所述第二语音接收模块接收的语音进行比较包括:分别将所述第一语音接收模块接收的语音及所述第二语音接收模块接收的语音转化为文字,并对所述第一语音接收模块接收的语音所转化的文字与所述第二语音接收模块接收的语音所转化的文字进行比较。
可选地,所述处理模块在两者相同时,确定所述第一语音接收模块接收所述语音的时间与所述第二语音接收模块接收所述语音的时间之间的时间差包括:确定所述第一语音接收模块接收的语音所转化的每个文字所产生的时间;确定所述第二语音接收模块接收的语音所转化的每个文字所产生的时间;以及确定所述第一语音接收模块接收的语音和所述第二语音接收模块接收的语音所转化的相同文字所产生的时间之间的时间差。
可选地,所述处理模块识别被归类为同一类别的语音的语义信息包括:通过语音识别技术对所述同一类别的语音进行识别,确定所述同一类别的语音包含的语义信息。
此外,本发明实施例的另一方面提供一种家用电器,所述家用电器包括上述的装置。
另外,本发明实施例的另一方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述的方法。
通过上述技术方案,根据接收的语音的声音特征对语音进行归类,识别被归为同一类别的语音的语义信息,根据语义信息确定接收的语音中携带的控制指令。不同的发音者的声音特征不同,根据声音特征对接收的语音进行分类,可以将混杂在一起的语音区分开,进而识别属于同一类别的语音的语义信息,即分别识别每一发音者所发语音的语义信息。若所识别出的某一语义信息为控制指令,则该语义信息即为用户发出的控制指令。如此,实现了在存在语音干扰的情况下,确定接收的语音中携带的控制指令,以使得用户想要控制的家用电器能准确理解其语义,并进行功能响应。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明的一实施例提供的确定控制指令的方法的流程图;
图2是本发明的另一实施例提供的确定控制指令的方法的流程图;
图3是本发明的另一实施例提供的确定控制指令的方法的逻辑示意图;
图4是本发明的另一实施例提供的确定控制指令的方法的逻辑示意图;
图5是本发明的另一实施例提供的确定控制指令的装置的结构框图;以及
图6是本发明的另一实施例提供的确定控制指令的装置的结构框图。
附图标记说明
1 语音接收模块 2 处理模块
3 第一语音接收模块 4 第二语音接收模块
具体实施方式
以下结合附图对本发明实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明实施例,并不用于限制本发明实施例。
本发明实施例的一个方面提供一种确定控制指令的方法。图1是本发明一实施例提供的确定控制指令的方法的流程图。如图1所示,在该实施例中,该方法包括以下步骤。
在步骤S10中,接收语音,根据语音的声音特征对语音进行归类。
不同的发音者发出的语音的声音特征不同,因此可根据声音特征对接收的语音进行归类,将具有相同声音特征的语音归到同一发音者。例如,该声音特征可以是语音的来源方位。相对于接收语音的位置来讲,不同的语音的来源方位不同,也就是发音者的方位不同,可以根据语音的来源方位对接收到的语音进行归类,将具有相同的来源方位的语音归类到同一发音者。另外,该声音特征还可以是音色。不同的发音者发出的语音具有不同的音色,可以根据音色对接收的语音进行归类,将具有相同的音色的语音归类到同一发音者。此外,该声音特征还可以是音频或响度,不同的语音的音频或响度也不同,也可以根据音频或响度对接收的语音进行归类,将具有相同的音频或者响度的语音归到同一发音者。
在步骤S11中,识别被归为同一类别的语音的语义信息。
也就是,在将接收的语音进行归类后,按类别识别语音的语义信息,分别识别属于每一发音者的语音的语义信息。
在步骤S12中,根据语义信息,确定接收的语音中携带的控制指令。
在所识别出的不同发音者的语音的语义信息中,若某一语义信息为控制指令,该语义信息即为用户发出的控制指令,也就是该语义信息即为接收的语音中携带的控制指令,该语义信息对应的发音者即为用户。
根据接收的语音的声音特征对语音进行归类,识别被归为同一类别的语音的语义信息,根据语义信息确定接收的语音中携带的控制指令。不同的发音者的声音特征不同,根据声音特征对接收的语音进行分类,可以将混杂在一起的语音区分开,进而识别属于同一类别的语音的语义信息,即分别识别每一发音者所发语音的语义信息。若识别出的某一语义信息为控制指令,则该语义信息即为用户发出的控制指令。如此,实现了在存在语音干扰的情况下,确定接收的语音中携带的控制指令,以使得用户想要控制的家用电器能准确理解其语义,并进行功能响应。
图2是本发明的另一实施例提供的确定控制指令的方法的流程图。如图2所示,在该实施例中,该方法包括以下步骤。其中,在该实施例中,接收语音的装置包括第一语音接收模块和第二语音接收模块,并且第一语音接收模块和第二语音接收模块被设置在不同的位置。
在步骤S20中,分别经由位于不同位置的第一语音接收模块和第二语音接收模块接收语音,即,同一发音者发出的语音分别被第一语音接收模块和第二语音接收模块接收。
在步骤S21中,将第一语音接收模块接收的语音及第二语音接收模块接收的语音进行比较,并在第一语音接收模块接收的语音与第二语音接收模块接收的语音相同时,确定第一语音接收模块接收语音的时间和第二语音接收模块接收语音的时间之间的时间差。
进一步地,在该步骤中,将第一语音接收模块接收的语音及第二语音接收模块接收的语音进行比较,可以是比较两语音接收模块接收的语音分别转化的文字。相同的语音所转化的文字相同,因此可以通过比较两语音接收模块接收的语音所转化的文字,来判断两语音接收模块接收的语音是否相同。此外,第一语音接收模块与第二接收模块的位置不同,当接收同一语音时,两者接收语音的时间不同,在该步骤中,确定第一语音接收模块与第二语音接收模块接收同一语音的时间差。
进一步地,可以根据第一语音接收模块记录的接收某一语音的时间与第二语音接收模块记录的接收该某一语音的时间确定两者接收该某一语音的时间差。可选地,还可以根据两语音接收模块接收的语音所转化的文字的产生时间来确定两语音接收模块接收同一语音的时间差。例如,确定第一语音接收模块接收的语音所转化的每个文字的产生的时间,确定第二语音接收模块接收的语音所转化的每个文字产生的时间。根据确定的文字的产生时间确定两语音接收模块接收的语音所转化的相同文字的产生时间之间的时间差。相同的文字意味着相同的语音,因此可以根据相同文字的产生时间之间的时间差来确定两语音接收模块接收同一语音的时间差。
在步骤S22中,将具有相同时间差的语音归为同一发音者。
根据第一语音接收模块与第二语音接收模块接收语音的时间差对接收的语音进行归类,将具有相同的时间差的语音归为一类,也就是具有相同时间差的语音来源于同一发音者。
第一语音接收模块和第二语音接收模块的位置固定,发音者相对于第一语音接收模块和第二语音接收模块的方位固定,因此同一发音者所发语音被第一语音接收模块接收的时间与被第二语音接收模块接收的时间之间时间差固定,因此可以根据第一语音接收模块和第二语音接收模块接收语音的时间差来对语音进行归类,将具有相同时间差的语音归为一类,具有相同时间差的语音的来源方位相同,来源于同一发音者。
另外,对于语音接收模块和处理语音接收模块接收的语音的处理模块来讲,发音者发出的语音是语音片段,该两者在分别进行接收和处理时也是以语音片段的形式进行接收和处理,也就是无论发音者发出的是一句话还是多句话,对于语音接收模块或者处理模块来讲,均是多个语音片段,其并不能识别是一句话还是多句话。因此,在将第一语音接收模块的语音与第二语音接收模块接收的语音进行对比时,对比也是语音片段。
当第一语音接收模块与第二语音接收模块接收的某一语音片段相同时,确定该两语音接收模块接收该语音片段的时间之间的时间差,并将该语音片段归为一类,即该时间差确定一发音者。但是,所确定相同的该语音片段是否是完整的表达了该确定的发音者的语义,处理模块并不能确定,因此需要将语音接收模块接收的所有的语音片段中,具有相同的时间差的语音片段归到同一发音者,以能理解发音者的完整意思。
具体地,将第一语音接收模块与第二语音接收模块的语音片段进行比较,确定两者接收的某一语音片段相同,确定两语音接收模块接收该语音片段的时间之间的时间差,该时间差确定了语音片段的来源方位,即确定了一发音者,该语音片段仅对应发音者发出语音的一部分。通过对比,将所接收的所有语音片段中,具有该确定的时间差的语音片段归到该确定的发音者。
在步骤S23中,识别被归为同一类别的语音的语义信息。也就是,在将接收的语音进行归类后,按类别识别语音的语义信息,分别识别属于每一发音者的语音的语义信息。
在步骤S24中,根据语义信息,确定接收的语音中携带的控制指令。在所识别出的不同发音者的语音的语义信息中,若某一语义信息为控制指令,该语义信息即为用户发出的控制指令,也就是该语义信息即为接收的语音中携带的控制指令,该语义信息对应的发音者即为用户。
可选地,在本发明实施例中,识别被归类为同一类别的语音的语义信息可以包括:通过语音识别技术对同一类别的语音进行识别,确定同一类别的语音包含的语义信息。
图3是本发明的另一实施例提供的用于确定语音控制指令的方法的逻辑示意图。具体地,如下所述。其中,在该实施例中,包括两个语音接收模块,第一语音接收模块和第二语音接收模块,并且设置该两个语音接收模块的位置不同。
第一语音接收模块和第二语音接收模块接收语音,其中该语音包括来自用户的语音和除用户外的其他背景环境的语音。比较第一语音接收模块接收的语音和第二语音接收模块接收的语音,并在所比较的语音相同时,确定第一语音接收模块接收该语音的时间与第二语音接收模块接收该语音的时间之间的时间差。第一语音接收模块与第二语音接收模块的位置不同,在接收同一语音时,接收时间不同,但两语音接收模块相对于同一声源的位置相对固定,因此,可以根据两语音接收模块接收同一语音的时间差来定位声源。按声源将接收的语音归类到不同的发音者。将来自相同声源的语音归为同一发音者。也就是,将具有相同时间差的语音归类到同一发音者。在归类后,分别对各发音者的语音进行理解,确定各发音者的语音的语义信息。若某一语义信息为控制指令,则可认为该语义信息即为用户发出的控制指令,也就是该语义信息对应的发音者即为用户。控制用户想要控制的家用电器执行该控制指令对应的功能。
图4是本发明另一实施例提供的对于接收的语音进行归类的逻辑示意图。具体地,如下所述。其中,在该实施例中,包括两个语音接收模块,第一语音接收模块和第二语音接收模块,并且设置该两个语音接收模块的位置不同。
将第一语音接收模块接收的语音转化为文字时,分别记录每个字的产生时间。将第二语音接收模块接收的语音转化为文字时,分别记录每个字的产生时间。
比较第一语音接收模块接收的语音转化的文字与第二语音接收模块接收的语音转化的文字,并两语音接收模块接收的语音所转化的文字相同时,根据分别记录的该相同文字的产生时间确定该相同文字的产生的时间差。
因为相同的文字意味着相同的语音,所以,相同文字对应的时间差也就是相同语音被两语音接收模块接收对应的时间差。若一系列语音对应的时间差相同,则可认为该系列语音来自同一方位,即,来自同一发音者,也就是具有相同时间差的语音来源于同一发音者。而相同文字的时间差即为相同语音的时间差,因此,可以根据相同文字的时间差确定该相同文字对应的语音的声源,将具有相同时间差的文字归类到同一发音者。
相应地,本发明实施例的另一方面提供一种确定控制指令的装置。图5是本发明的另一实施例提供的确定控制指令的装置的结构框图。如图5所示,该装置包括语音接收模块1和处理模块2。其中,语音接收模块1用于接收语音。处理模块2用于根据语音的声音特征对语音进行归类,识别被归类为同一类别的语音的语义信息,以及根据语义信息,确定语音中携带的控制指令。
根据接收的语音的声音特征对语音进行归类,识别被归为同一类别的语音的语义信息,根据语义信息确定接收的语音中携带的控制指令。不同的发音者的声音特征不同,根据声音特征对接收的语音进行分类,可以将混杂在一起的语音区分开,进而识别属于同一类别的语音的语义信息,即分别识别每一发音者所发语音的语义信息。若识别出的某一语义信息为控制指令,则该语义信息即为用户发出的控制指令。如此,实现了在存在语音干扰的情况下,确定接收的语音中携带的控制指令,以使得用户想要控制的家用电器能准确理解其语义,并进行功能响应。
图6是本发明的另一实施例提供的确定控制指令的装置的结构框图。在该实施例中,语音接收模块包括两个,第一语音接收模块3和第二语音接收模块4。其中第一语音接收模块3与第二语音接收模块4的位置不同。另外,在该实施例中,处理模块2根据语音的声音特征对语音进行归类包括:将第一语音接收模块1接收的语音及第二语音接收模块2接收的语音进行比较,并在两者相同时,确定第一语音接收模块1接收语音的时间与第二语音接收模块2接收语音的时间之间的时间差;以及将具有相同的时间差的语音归类到同一发音者。
可选地,在本发明实施例中,处理模块将第一语音接收模块接收的语音及第二语音接收模块接收的语音进行比较包括:分别将第一语音接收模块接收的语音及第二语音接收模块接收的语音转化为文字,并对第一语音接收模块接收的语音所转化的文字与第二语音接收模块接收的语音所转化的文字进行比较。
可选地,在本发明实施例中,处理模块在两者相同时,确定第一语音接收模块接收语音的时间与第二语音接收模块接收语音的时间之间的时间差包括:确定第一语音接收模块接收的语音所转化的每个文字所产生的时间;确定第二语音接收模块接收的语音所转化的每个文字所产生的时间;以及确定第一语音接收模块接收的语音和第二语音接收模块接收的语音所转化的相同文字所产生的时间之间的时间差。
可选地,在本发明实施例中,处理模块识别被归类为同一类别的语音的语义信息包括:通过语音识别技术对同一类别的语音进行识别,确定同一类别的语音包含的语义信息。
本发明实施例提供的确定控制指令的装置的具体工作原理及益处与上述本发明实施例提供的确定控制指令的方法的具体工作原理及益处相似,这里将不再赘述。
此外,本发明实施例的另一方面提供家用电器,该家用电器包括上述实施例中所述的装置。进一步地,该家用电器可以是洗衣机。此外,还该家用电器还可以是冰箱等。
另外,本发明实施例的另一方面提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行上述的方法。
综上所述,根据接收的语音的声音特征对语音进行归类,识别被归为同一类别的语音的语义信息,根据语义信息确定接收的语音中携带的控制指令。不同的发音者的声音特征不同,根据声音特征对接收的语音进行分类,可以将混杂在一起的语音区分开,进而识别属于同一类别的语音的语义信息,即分别识别每一发音者所发语音的语义信息。若识别出的某一语义信息为控制指令,则该语义信息即为用户发出的控制指令。如此,实现了在存在语音干扰的情况下,确定接收的语音中携带的控制指令,以使得用户想要控制的家用电器能准确理解其语义,并进行功能响应。进一步地,可以设置两个接收模块接收语音,第一语音接收模块和第二语音接收模块,且该两个语音接收模块位于不同的位置。比较第一语音接收模块接收的语音和第二语音接收模块接收的语音,确定两者接收相同语音的时间差,根据时间差将语音进行归类,具有相同时间差的语音归为同一发音者。可选地,可以通过比较接收的语音所转化的文字来比较第一接收模块接收的语音和第二语音接收模块接收的语音。具体地,分别将第一语音接收模块接收的语音及第二语音接收模块接收的语音转化为文字,对第一语音接收模块接收的语音所转化的文字与第二语音接收模块接收的语音所转化的文字进行比较。可选地,还可以根据两语音接收模块接收的语音所转化的文字的产生时间来确定两语音接收模块接收同一语音的时间差。
以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。
Claims (12)
1.一种确定控制指令的方法,其特征在于,该方法包括:
接收语音,根据所述语音的声音特征对所述语音进行归类;
识别被归类为同一类别的语音的语义信息;以及
根据所述语义信息,确定所述语音中携带的控制指令。
2.根据权利要求1所述的方法,其特征在于,所述接收语音,根据所述语音的声音特征对所述语音进行归类,包括:
分别经由位于不同位置的第一语音接收模块和第二语音接收模块来接收所述语音;
将所述第一语音接收模块接收的语音及所述第二语音接收模块接收的语音进行比较,并在两者相同时,确定所述第一语音接收模块接收所述语音的时间与所述第二语音接收模块接收所述语音的时间之间的时间差;以及
将具有相同的所述时间差的所述语音归类到同一发音者。
3.根据权利要求2所述的方法,其特征在于,所述将所述第一语音接收模块接收的语音及所述第二语音接收模块接收的语音进行比较,包括:
分别将所述第一语音接收模块接收的语音及所述第二语音接收模块接收的语音转化为文字,并对所述第一语音接收模块接收的语音所转化的文字与所述第二语音接收模块接收的语音所转化的文字进行比较。
4.根据权利要求3所述的方法,其特征在于,所述在两者相同时,确定所述第一语音接收模块接收所述语音的时间与所述第二语音接收模块接收所述语音的时间之间的时间差,包括:
确定所述第一语音接收模块接收的语音所转化的每个文字所产生的时间;
确定所述第二语音接收模块接收的语音所转化的每个文字所产生的时间;
确定所述第一语音接收模块接收的语音和所述第二语音接收模块接收的语音所转化的相同文字所产生的时间之间的时间差。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述识别被归类为同一类别的语音的语义信息,包括:
通过语音识别技术对所述同一类别的语音进行识别,确定所述同一类别的语音包含的语义信息。
6.一种确定控制指令的装置,其特征在于,该装置包括:
语音接收模块,用于接收语音;
处理模块,用于:
根据所述语音的声音特征对所述语音进行归类;
识别被归类为同一类别的语音的语义信息;以及
根据所述语义信息,确定所述语音中携带的控制指令。
7.根据权利要求6所述的装置,其特征在于,所述语音接收模块包括第一语音接收模块和第二语音接收模块,其中所述第一语音接收模块与所述第二语音接收模块的位置不同;
所述处理模块根据所述语音的声音特征对所述语音进行归类包括:
将所述第一语音接收模块接收的语音及所述第二语音接收模块接收的语音进行比较,并在两者相同时,确定所述第一语音接收模块接收所述语音的时间与所述第二语音接收模块接收所述语音的时间之间的时间差;以及
将具有相同的所述时间差的所述语音归类到同一发音者。
8.根据权利要求7所述的装置,其特征在于,所述处理模块将所述第一语音接收模块接收的语音及所述第二语音接收模块接收的语音进行比较包括:
分别将所述第一语音接收模块接收的语音及所述第二语音接收模块接收的语音转化为文字,并对所述第一语音接收模块接收的语音所转化的文字与所述第二语音接收模块接收的语音所转化的文字进行比较。
9.根据权利要求8所述的装置,其特征在于,所述处理模块在两者相同时,确定所述第一语音接收模块接收所述语音的时间与所述第二语音接收模块接收所述语音的时间之间的时间差包括:
确定所述第一语音接收模块接收的语音所转化的每个文字所产生的时间;
确定所述第二语音接收模块接收的语音所转化的每个文字所产生的时间;以及
确定所述第一语音接收模块接收的语音和所述第二语音接收模块接收的语音所转化的相同文字所产生的时间之间的时间差。
10.根据权利要求6-9中任一项所述的装置,其特征在于,所述处理模块识别被归类为同一类别的语音的语义信息包括:
通过语音识别技术对所述同一类别的语音进行识别,确定所述同一类别的语音包含的语义信息。
11.一种家用电器,其特征在于,所述家用电器包括权利要求6-10中任一项所述的装置。
12.一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711422733.4A CN108053828A (zh) | 2017-12-25 | 2017-12-25 | 确定控制指令的方法、装置和家用电器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711422733.4A CN108053828A (zh) | 2017-12-25 | 2017-12-25 | 确定控制指令的方法、装置和家用电器 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108053828A true CN108053828A (zh) | 2018-05-18 |
Family
ID=62131204
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711422733.4A Pending CN108053828A (zh) | 2017-12-25 | 2017-12-25 | 确定控制指令的方法、装置和家用电器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108053828A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932942A (zh) * | 2018-06-26 | 2018-12-04 | 四川斐讯信息技术有限公司 | 一种实现智能音箱人机对话的系统及其方法 |
CN111601201A (zh) * | 2020-04-28 | 2020-08-28 | 深圳市友杰智新科技有限公司 | 回声消除方法、装置、计算机设备和存储介质 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070271100A1 (en) * | 2002-03-29 | 2007-11-22 | At&T Corp. | Automatic segmentation in speech synthesis |
CN104732969A (zh) * | 2013-12-23 | 2015-06-24 | 鸿富锦精密工业(深圳)有限公司 | 语音处理系统及语音处理方法 |
CN105280183A (zh) * | 2015-09-10 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 语音交互方法和系统 |
CN106297770A (zh) * | 2016-08-04 | 2017-01-04 | 杭州电子科技大学 | 基于时频域统计特征提取的自然环境声音识别方法 |
CN106297794A (zh) * | 2015-05-22 | 2017-01-04 | 西安中兴新软件有限责任公司 | 一种语音文字的转换方法及设备 |
CN106452997A (zh) * | 2016-09-30 | 2017-02-22 | 无锡小天鹅股份有限公司 | 家用电器及其控制系统 |
CN107180632A (zh) * | 2017-06-19 | 2017-09-19 | 微鲸科技有限公司 | 语音控制方法、装置及可读存储介质 |
CN107293293A (zh) * | 2017-05-22 | 2017-10-24 | 深圳市搜果科技发展有限公司 | 一种语音指令识别方法、系统及机器人 |
CN107342076A (zh) * | 2017-07-11 | 2017-11-10 | 华南理工大学 | 一种兼容非常态语音的智能家居控制系统及方法 |
CN107437415A (zh) * | 2017-08-09 | 2017-12-05 | 科大讯飞股份有限公司 | 一种智能语音交互方法及系统 |
-
2017
- 2017-12-25 CN CN201711422733.4A patent/CN108053828A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070271100A1 (en) * | 2002-03-29 | 2007-11-22 | At&T Corp. | Automatic segmentation in speech synthesis |
CN104732969A (zh) * | 2013-12-23 | 2015-06-24 | 鸿富锦精密工业(深圳)有限公司 | 语音处理系统及语音处理方法 |
CN106297794A (zh) * | 2015-05-22 | 2017-01-04 | 西安中兴新软件有限责任公司 | 一种语音文字的转换方法及设备 |
CN105280183A (zh) * | 2015-09-10 | 2016-01-27 | 百度在线网络技术(北京)有限公司 | 语音交互方法和系统 |
CN106297770A (zh) * | 2016-08-04 | 2017-01-04 | 杭州电子科技大学 | 基于时频域统计特征提取的自然环境声音识别方法 |
CN106452997A (zh) * | 2016-09-30 | 2017-02-22 | 无锡小天鹅股份有限公司 | 家用电器及其控制系统 |
CN107293293A (zh) * | 2017-05-22 | 2017-10-24 | 深圳市搜果科技发展有限公司 | 一种语音指令识别方法、系统及机器人 |
CN107180632A (zh) * | 2017-06-19 | 2017-09-19 | 微鲸科技有限公司 | 语音控制方法、装置及可读存储介质 |
CN107342076A (zh) * | 2017-07-11 | 2017-11-10 | 华南理工大学 | 一种兼容非常态语音的智能家居控制系统及方法 |
CN107437415A (zh) * | 2017-08-09 | 2017-12-05 | 科大讯飞股份有限公司 | 一种智能语音交互方法及系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932942A (zh) * | 2018-06-26 | 2018-12-04 | 四川斐讯信息技术有限公司 | 一种实现智能音箱人机对话的系统及其方法 |
CN111601201A (zh) * | 2020-04-28 | 2020-08-28 | 深圳市友杰智新科技有限公司 | 回声消除方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schuller et al. | The INTERSPEECH 2021 computational paralinguistics challenge: COVID-19 cough, COVID-19 speech, escalation & primates | |
US10593332B2 (en) | Diarization using textual and audio speaker labeling | |
KR102509464B1 (ko) | 발언 분류기 | |
CN108172224B (zh) | 基于机器学习的防御无声指令控制语音助手的方法 | |
Kadiri et al. | Analysis of excitation source features of speech for emotion recognition | |
Tian et al. | Spoofing detection from a feature representation perspective | |
Evans et al. | Speaker recognition anti-spoofing | |
Sun et al. | Speaker diarization system for RT07 and RT09 meeting room audio | |
JP5779032B2 (ja) | 話者分類装置、話者分類方法および話者分類プログラム | |
CN108010516A (zh) | 一种语义独立的语音情绪特征识别方法及装置 | |
Hook et al. | Automatic speech based emotion recognition using paralinguistics features | |
CN106782517A (zh) | 一种语音音频关键词过滤方法及装置 | |
CN108257605A (zh) | 多通道录音方法、装置及电子设备 | |
CN108053828A (zh) | 确定控制指令的方法、装置和家用电器 | |
CN109410946A (zh) | 一种识别语音信号的方法、装置、设备及存储介质 | |
CN104952446A (zh) | 基于语音交互的数字楼盘展示系统 | |
KR102389995B1 (ko) | 자연발화 음성 생성 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 | |
Liang et al. | Detecting semantic concepts in consumer videos using audio | |
Song et al. | Feature extraction and classification for audio information in news video | |
JP2015200913A (ja) | 話者分類装置、話者分類方法および話者分類プログラム | |
CN104464756A (zh) | 一种小型说话人情感识别系统 | |
Basu et al. | An overview of speaker diarization: Approaches, resources and challenges | |
Tatman | Speaker dialect is a necessary feature to model perceptual accent adaptation in humans | |
CN109559753B (zh) | 语音识别方法和装置 | |
Meutzner et al. | A non-speech audio CAPTCHA based on acoustic event detection and classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20190715 Address after: 214028 No. 18 Changjiang South Road, Wuxi National High-tech Development Zone, Jiangsu Province Applicant after: Wuxi Little Swan Electric Co.,Ltd. Address before: 214028 No. 18 Changjiang South Road, Wuxi National High-tech Development Zone, Jiangsu Province Applicant before: WUXI LITTLE SWAN Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180518 |