CN113763941A - 语音识别方法、语音识别系统和电器设备 - Google Patents
语音识别方法、语音识别系统和电器设备 Download PDFInfo
- Publication number
- CN113763941A CN113763941A CN202010485180.2A CN202010485180A CN113763941A CN 113763941 A CN113763941 A CN 113763941A CN 202010485180 A CN202010485180 A CN 202010485180A CN 113763941 A CN113763941 A CN 113763941A
- Authority
- CN
- China
- Prior art keywords
- intention
- intention word
- sentence
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000007613 environmental effect Effects 0.000 claims description 73
- 230000000717 retained effect Effects 0.000 claims description 25
- 230000010365 information processing Effects 0.000 claims description 23
- 238000004458 analytical method Methods 0.000 claims description 9
- 238000012795 verification Methods 0.000 abstract 1
- 238000005406 washing Methods 0.000 description 28
- 230000006870 function Effects 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 4
- 230000008921 facial expression Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000014759 maintenance of location Effects 0.000 description 2
- 210000003205 muscle Anatomy 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 241000270295 Serpentes Species 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000049 pigment Substances 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明属于空调器技术领域,旨在解决现有的语音识别方法易发生无法准确获取用户的真实意图的问题。为此,本发明提供了一种语音识别方法、语音识别系统和电器设备,该语音识别方法包括:获取语音信息和唇语信息,根据语音信息生成第一语句;根据唇语信息生成第二语句;根据第一语句和第二语句生成最终语句。通过分别根据获取的语音信息和唇语信息生成第一语句和第二语句,然后根据第一语句和第二语句生成最终语句,将该最终语句所表达的意思视为用户的真实意图,即通过语音信息和唇语信息来共同判断用户的真实意图,通过语音信息与唇语信息之间相互印证和比较,能够显著提高判断的准确性,从而能够更准确地获取用户的真实意图。
Description
技术领域
本发明属于人机交互技术领域,具体提供一种语音识别方法、语音识别系统和电器设备。
背景技术
电器设备可以分为家用电器和商用电器,其中,家用电器主要包括洗衣机、冰箱和空调等,随着电器设备的日益普及,各种电器设备的功能也开始变得越来越强大,人们对电器设备的要求也越来越高。
以洗衣机为例,为了提升用户的使用体验,有的洗衣机增加了语音识别功能,用户可以直接对洗衣机进行语音控制,既方便又快捷。然而,在实际应用中我们发现,洗衣机的语音识别功能常常出现错误,导致洗衣机无法准确地获取用户的真实意图,影响了用户的使用体验。
公开号为CN111045639A的专利申请文件中公开了一种语音输入方法,所述方法包括:在接收到语音输入指令时,接收麦克风采集的语音信号;从所述语音信号中获取环境噪声;当所述环境噪声的声音强度大于预设强度阈值时,获取唇部图像;对所述唇部图像进行唇语识别,获取唇语识别结果;对所述语音信号进行语音识别,获取语音输入结果;在所述唇语识别结果和所述语音输入结果匹配时,将所述语音输入结果作为所述唇部图像对应的用户输入信息;显示所述用户输入信息对应的内容。也就是说,上述专利中获取唇语识别结果后,只是用唇语识别结果来判断语音输入识别结构的准确性,如果唇语识别结果和语音输入结果匹配,则可以采用语音输入结果,但是,如果不匹配呢?该专利中并没有说明唇语识别结果和语音输入结果不匹配时如何处理。
公开号为CN108319912A的专利申请文件共开了一种唇语识别方法,所述方法包括:利用摄像头获取唇语信息,所述唇语信息包括口型、口部肌肉变动信息,唇色、口边肤色信息和面部表情信息三类;将所述口型、口部肌肉变动信息与存储器中的口型模型信息进行对比分析,得到第一唇语信息;根据所述唇色、口边肤色信息检测唇色和口边肤色的色素分布,运用存储器中的智能算法进行口部运动特征判断,并与存储器中的口型模型信息进行对比分析,得到第二唇语信息;利用图像处理技术对所述面部表情信息进行表情识别,并与存储器中的表情模型信息进行对比分析,得到第三唇语信息;对所述第一唇语信息、所述第二唇语信息和所述第三唇语信息进行归一处理,将归一处理后的唇语信息转化为语音信息。也就是说,该专利中仅是通过唇语信息来获取用户的真实意图,并没有采集语音信息。但是,仅通过唇语信息来获取用户的真实意图也容易出现错误。
因此,本领域需要一种语音识别方法、语音识别系统和电器设备来解决上述问题。
发明内容
为了解决现有技术中的上述问题,即为了解决现有的语音识别方法易发生无法准确获取用户的真实意图的问题,本发明提供了一种语音识别方法,所述语音识别方法包括:获取语音信息和唇语信息,根据所述语音信息生成第一语句;根据所述唇语信息生成第二语句;根据所述第一语句和所述第二语句生成最终语句。
在上述语音识别方法的优选技术方案中,“根据所述第一语句和所述第二语句生成最终语句”的步骤具体包括:将所述第一语句拆解以获得多个不同类别的第一意图词;将所述第二语句拆解以获得多个不同类别的第二意图词;分别判断同一类别中的所述第一意图词和所述第二意图词的语义相似度是否达到要求;根据判断结果,选择性地保留所述第一意图词或所述第二意图词;根据最终保留的所述第一意图词和所述第二意图词生成最终语句。
在上述语音识别方法的优选技术方案中,“根据判断结果,选择性地保留所述第一意图词或所述第二意图词”的步骤具体包括:如果所述第一意图词和所述第二意图词的语义相似度未达到要求,则根据环境噪音的大小,选择性地保留所述第一意图词或所述第二意图词。
在上述语音识别方法的优选技术方案中,“根据环境噪音的大小,选择性地保留所述第一意图词或所述第二意图词”的步骤具体包括:如果所述环境噪音位于低噪音区,则保留所述第一意图词;如果所述环境噪音位于中度噪音区且所述第一意图词和所述第二意图词属于高稳定性类别,则保留所述第一意图词;如果所述环境噪音位于中度噪音区且所述第一意图词和所述第二意图词属于低稳定性类别,则保留所述第二意图词;如果所述环境噪音位于高噪音区,则保留所述第二意图词,其中,所述高稳定类别的词语受环境噪音的影响程度小于所述低稳定性类别的词语受环境噪音的影响程度。
在上述语音识别方法的优选技术方案中,“根据判断结果,选择性地保留所述第一意图词或所述第二意图词”的步骤还包括:如果所述第一意图词和所述第二意图词的语义相似度达到要求,则保留所述第一意图词,或者,保留所述第二意图词,或者,随机地保留所述第一意图词或所述第二意图词中的一个。
另一方面,本发明还提供了一种语音识别系统,所述语音识别系统包括:声音获取装置,其配置成能够采集语音信息;图像获取装置,其配置成能够采集唇语信息;信息处理装置,其配置成能够分别根据所述声音获取装置采集的语音信息和所述图像获取装置采集的唇语信息生成第一语句和第二语句以及根据所述第一语句和所述第二语句生成最终语句。
在上述语音识别系统的优选技术方案中,所述信息处理装置包括:声音信息处理模块,其配置成能够根据所述语音信息生成所述第一语句;图像信息处理模块,其配置成能够根据所述唇语信息生成所述第二语句;语句分析处理模块,其配置成能够分别将所述第一语句和所述第二语句拆解以获得多个不同类别的第一意图词和多个不同类别的第二意图词,以及能够分别判断同一类别中的所述第一意图词和所述第二意图词的语义相似度是否达到要求,并根据判断结果,选择性地保留所述第一意图词或所述第二意图词,最后能够根据最终保留的所述第一意图词和所述第二意图词生成最终语句。
在上述语音识别系统的优选技术方案中,所述语句分析处理模块还其配置成:当所述第一意图词和所述第二意图词的语义相似度达到要求时,留所述第一意图词,或者,保留所述第二意图词,或者,随机地保留所述第一意图词或所述第二意图词中的一个;当所述第一意图词和所述第二意图词的语义相似度未达到要求时,根据所述声音获取装置采集的环境噪音的大小,选择性地保留所述第一意图词或所述第二意图词。
在上述语音识别系统的优选技术方案中,所述语句分析处理模块还其配置成:在所述第一意图词和所述第二意图词的语义相似度未达到要求的情形下,当所述环境噪音位于低噪音区时,保留所述第一意图词;当所述环境噪音位于中度噪音区且所述第一意图词和所述第二意图词属于高稳定性类别时,保留所述第一意图词;当所述环境噪音位于中度噪音区且所述第一意图词和所述第二意图词属于低稳定性类别时,保留所述第二意图词;当所述环境噪音位于高噪音区时,保留所述第二意图词,其中,所述高稳定类别的词语受环境噪音的影响程度小于所述低稳定性类别的词语受环境噪音的影响程度。
在另一方面,本发明还提供了一种电器设备,所述电机设备包括上述的语音识别系统。
本领域技术人员能够理解的是,在本发明的优选技术方案中,通过同时获取语音信息和唇语信息,并分别根据获取的语音信息和唇语信息生成第一语句和第二语句,然后根据第一语句和第二语句生成最终语句,将该最终语句所表达的意思视为用户的真实意图。与公开号为CN111045639A的专利相比,该专利中在获取唇语识别结果后,只是用唇语识别结果来判断语音输入识别结构是否准确,然而,本发明是分别根据语音信息和唇语信息各生成一个语句,然后对这两个语句进行分析和比较,合成一个新的语句,即最终语句,将该最终语句所表达的意思视为用户的真实意图,即通过语音信息和唇语信息来共同判断用户的真实意图,通过语音信息与唇语信息之间相互印证和比较,能够显著提高判断的准确性,从而能够更准确地获取用户的真实意图,提升用户的使用体验。此外,与现有技术中仅通过语音信息来获取用户的真实意图以及公开号为CN108319912A的专利中仅通过唇语信息来获取用户的真实意图相比,本发明通过语音信息和唇语信息来共同判断用户的真实意图,能够显著提高判断的准确性。
进一步地,如果第一意图词和第二意图词的语义相似度未达到要求,则根据环境噪音的大小,选择性地保留第一意图词或第二意图词。通过这样的设置,即通过环境噪音的大小来选择性地保留第一意图词或者第二意图词,能够有效地排除环境噪音的干扰,进一步提高判断的准确性。
进一步地,“根据环境噪音的大小,选择性地保留第一意图词或第二意图词”的步骤具体包括:如果环境噪音位于低噪音区,则保留第一意图词;如果环境噪音位于中度噪音区且第一意图词和第二意图词属于高稳定性类别,则保留第一意图词;如果环境噪音位于中度噪音区且第一意图词和第二意图词属于低稳定性类别,则保留第二意图词;如果环境噪音位于高噪音区,则保留第二意图词,其中,高稳定类别的词语受环境噪音的影响程度小于低稳定性类别的词语受环境噪音的影响程度。通过这样的设置,即在环境噪音位于中度噪音区时,根据第一意图词和第二意图词的类别来进行选择,能够进一步提高判断的准确性。
附图说明
图1是本发明的语音识别方法的流程图;
图2是本发明的语音识别方法的实施例的流程图;
图3是本发明的语音识别系统的结构示意图。
具体实施方式
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非旨在限制本发明的保护范围。例如,虽然下述实施方式是结合洗衣机来解释说明的,但是,这并不是限制性的,本发明的技术方案同样适用于其他电器设备,例如,冰箱和空调等家用电器以及商用电器等,这种应用对象的改变并不偏离本发明的原理和范围,均应限定在本发明的保护范围之内。
基于背景技术指出的现有的语音识别方法易发生无法准确获取用户的真实意图的问题。本发明提供了一种语音识别方法、语音识别装置和电器设备,旨在同时根据语音信息和唇语信息获取用户的真实意图。
本发明的洗衣机包括语音识别系统,洗衣机通过该语音识别系统能够准确地获取用户的真实意图。
首先参照图3,图3是本发明的语音识别系统的结构示意图。如图3所示,本发明的语音识别系统包括声音获取装置、图像获取装置以及信息处理装置,声音获取装置和图像获取装置均能够与信息处理装置进行通信。其中,声音获取装置是接收麦克风等可以接收声音信息的装置,图像获取装置是摄像头等可以采集图像信息的装置,信息处理装置是一种处理器。
当用户对洗衣机进行操控时,声音获取装置能够接收用户说的话,即采集语音信息,并将采集到的语音信息传输给信息处理装置,信息处理装置在接收到语音信息后,开始对语音信息进行分析处理,将语音信息转化成语句,可以记为第一语句;在声音获取装置采集语音信息的同时,图像获取装置能够采集用户的面部图像,即采集唇语信息,并将采集到的唇语信息传输给信息处理装置,信息处理装置在接收到唇语信息后,开始对唇语信息进行分析处理,将唇语信息也转化成语句,可以记为第二语句,最后,信息处理装置根据前面分析得到的第一语句和第二语句生成最终语句,该最终语句即为用户真实意思的表达。
本发明通过同时获取语音信息和唇语信息,并分别根据获取的语音信息和唇语信息生成第一语句和第二语句,然后根据第一语句和第二语句生成最终语句,将该最终语句所表达的意思视为用户的真实意图。
与公开号为CN111045639A的专利相比,该专利中在获取唇语识别结果后,只是用唇语识别结果来判断语音输入识别结构是否准确,然而,本发明是分别根据语音信息和唇语信息各生成一个语句,然后对这两个语句进行分析和比较,合成一个新的语句,即最终语句,将该最终语句所表达的意思视为用户的真实意图,即通过语音信息和唇语信息来共同判断用户的真实意图,通过语音信息与唇语信息之间相互印证和比较,能够显著提高判断的准确性,从而能够更准确地获取用户的真实意图,提升用户的使用体验。
此外,与现有技术中仅通过语音信息来获取用户的真实意图以及公开号为CN108319912A的专利中仅通过唇语信息来获取用户的真实意图相比,本发明通过语音信息和唇语信息来共同判断用户的真实意图,能够显著提高判断的准确性。
继续参阅图3,本发明的信息处理装置包括声音信息处理模块、图像信息处理模块以及语句分析处理模块。
信息处理装置在接收到语音信息后,声音信息处理模块开始对语音信息进行分析处理,从而生成第一语句,然后,通过语句分析处理模块对第一语句进行拆解,将第一语句拆解成多个不同类别的词语,每个词语都能表示不同的意图,可以记为第一意图词。
类似地,信息处理装置在接收到唇语信息后,图像信息处理模块开始对唇语信息进行分析处理,从而生成第二语句,然后,通过语句分析处理模块对第二语句进行拆解,将第二语句也拆解成多个不同类别的词语,每个词语都能表示不同的意图,可以记为第二意图词。
语句分析处理模块分别将第一语句和第二语句拆解成多个不同类别的第一意图词和多个不同类别的第二意图词后,开始对同一类别中的第一意图词和第二意图词进行分析对比,判断第一意图词和第二意图词的语义相似度是否达到要求,然后根据判断结果,选择性地保留其中一个,最终每个类别中仅保留了一个词语,该词语可能是第一意图词,也可能是第二意图词,最后将保留下来的这些第一意图词和第二意图词组合成一个完整的语句,即为最终语句。
示例性地,第一语句被拆解成3个不同意图的词语,即,得到3个第一意图词,分别划归为第一类、第二类和第三类,同样地,第二语句也被拆解为3个不同意图的词语,即,得到3个第二意图词,也分别划归为第一类、第二类和第三类,每个类别中就包含了两个词语,一个是第一意图词,另一个是第二意图词,然后,将第一类中的两个词语进行分析比较,判断两个词语的语义相似度是否达到要求,最终只保留其中一个词语,该词语可能是第一意图词,也可能是第二意图词,同样地,也将第二类中的两个词语以及第三类中的两个词语进行分析比较,也都只保留其中一个词语,最终,每个类别中都只保留了一个词语,共得到三个词语,然后将这三个词语组合成一个完整的语句,即为最终语句。
语句分析处理模块在对同一类别中的第一意图词和第二意图词进行分析对比时,会出现以下两种情形:
第一种情形,第一意图词和第二意图词的语义相似度达到要求,说明第一意图词和第二意图词所要表达的意图是基本一致的,在这种情形,可以直接保留第一意图词,或者,也可以直接保留第二意图词,再或者,还可以随机地保留第一意图词或者第二意图词中的一个。
第二中情形,第一意图词和第二意图词的语义相似度未达到要求,说明第一意图词和第二意图词所要表达的意图相差较大,在这种情形,就不能随意地选择其中一个了,优选根据环境噪音的大小,来选择性地保留第一意图词或者第二意图词,具体方法如下:
当环境噪音位于低噪音区时,保留第一意图词;
当环境噪音位于中度噪音区且第一意图词和第二意图词属于高稳定性类别时,保留第一意图词;
当环境噪音位于中度噪音区且第一意图词和第二意图词属于低稳定性类别时,保留第二意图词;
当环境噪音位于高噪音区时,保留第二意图词,
其中,高稳定类别的词语受环境噪音的影响程度小于低稳定性类别的词语受环境噪音的影响程度。
即,当环境噪音位于低噪音区时,环境噪音对语音信息判断的影响较小,因此以第一意图词为准;反之,当环境噪音位于高噪音区时,环境噪音对语音信息判断影响较大,因此以第二意图词为准。
然而,当环境噪音位于中度噪音区时,需要考虑第一意图词和第二意图词的具体类别,发明人经过大量的试验研究发现,有些类别的词语受环境噪音的影响较小,将这些类别记为高稳定性类别,还有一些类别的词语受环境噪音的影响较大,将这些类别记为低稳定性类别,因此,当环境噪音位于中度噪音区且第一意图词和第二意图词属于高稳定类别时,保留第一意图词,反之,当环境噪音位于中度噪音区且第一意图词和第二意图词属于低稳定类别时,保留第二意图词。
需要说明的是,环境噪音也可以通过声音获取装置进行采集。
在另一方面,本发明还提供了一种语音识别方法,如图1所示,本发明的语音识别方法包括以下步骤:
S100:获取语音信息和唇语信息;
S200:根据语音信息生成第一语句;
S300:根据唇语信息生成第二语句;
S400:根据第一语句和第二语句生成最终语句。
本发明通过同时获取语音信息和唇语信息,并分别根据获取的语音信息和唇语信息生成第一语句和第二语句,然后根据第一语句和第二语句生成最终语句,将该最终语句所表达的意思视为用户的真实意图,相比于现有技术中仅根据语音信息来判断用户的真实意图。
与公开号为CN111045639A的专利相比,该专利中在获取唇语识别结果后,只是用唇语识别结果来判断语音输入识别结构是否准确,然而,本发明是分别根据语音信息和唇语信息各生成一个语句,然后对这两个语句进行分析和比较,合成一个新的语句,即最终语句,将该最终语句所表达的意思视为用户的真实意图,即通过语音信息和唇语信息来共同判断用户的真实意图,通过语音信息与唇语信息之间相互印证和比较,能够显著提高判断的准确性,从而能够更准确地获取用户的真实意图,提升用户的使用体验。
此外,与现有技术中仅通过语音信息来获取用户的真实意图以及公开号为CN108319912A的专利中仅通过唇语信息来获取用户的真实意图相比,本发明通过语音信息和唇语信息来共同判断用户的真实意图,能够显著提高判断的准确性。
需要说明的是,步骤S200和步骤S300可以同步执行,也可以按照任意顺序先后执行,这种灵活地调整和改变并不偏离本发明的原理和范围,均应限定在本发明的保护范围之内。
优选地,如图2所示,步骤S400(根据第一语句和第二语句生成最终语句)具体包括以下步骤:
S401:将第一语句拆解以获得多个不同类别的第一意图词;
S402:将第二语句拆解以获得多个不同类别的第二意图词;
S403:分别判断同一类别中的第一意图词和第二意图词的语义相似度是否达到要求;
S404:根据判断结果,选择性地保留第一意图词或第二意图词;
S405:根据最终保留的第一意图词和第二意图词生成最终语句。
将第一语句拆解成多个不同类别的词语,每个词语都能表示不同的意图,可以记为第一意图词;将第二语句也拆解成多个不同类别的词语,每个词语都能表示不同的意图,可以记为第二意图词;然后,对同一类别中的第一意图词和第二意图词进行分析对比,判断第一意图词和第二意图词的语义相似度是否达到要求,然后根据判断结果,选择性地保留其中一个,最终每个类别中仅保留了一个词语,该词语可能是第一意图词,也可能是第二意图词,最后将保留下来的这些第一意图词和第二意图词组合成一个完整的语句,即为最终语句。
示例性地,第一语句被拆解成3个不同意图的词语,即,得到3个第一意图词,分别划归为第一类、第二类和第三类,同样地,第二语句也被拆解为3个不同意图的词语,即,得到3个第二意图词,也分别划归为第一类、第二类和第三类,每个类别中就包含了两个词语,一个是第一意图词,另一个是第二意图词,然后,将第一类中的两个词语进行分析比较,判断两个词语的语义相似度是否达到要求,最终只保留其中一个词语,该词语可能是第一意图词,也可能是第二意图词,同样地,也将第二类中的两个词语以及第三类中的两个词语进行分析比较,也都只保留其中一个词语,最终,每个类别中都只保留了一个词语,共得到三个词语,然后将这三个词语组合成一个完整的语句,即为最终语句。
需要说明的是,步骤S401和步骤S402可以同步执行,也可以按照任意顺序先后执行,这种灵活地调整和改变并不偏离本发明的原理和范围,均应限定在本发明的保护范围之内。
优选地,步骤S404(根据判断结果,选择性地保留第一意图词或第二意图词)的步骤具体包括:
如果第一意图词和第二意图词的语义相似度达到要求,则保留第一意图词,或者,保留第二意图词,或者,随机地保留第一意图词或第二意图词中的一个;
如果第一意图词和第二意图词的语义相似度未达到要求,则根据环境噪音的大小,选择性地保留第一意图词或第二意图词。
即,在对同一类别中的第一意图词和第二意图词进行分析对比时,会出现以下两种情形:
第一种情形,第一意图词和第二意图词的语义相似度达到要求,说明第一意图词和第二意图词所要表达的意图是基本一致的,在这种情形,可以直接保留第一意图词,或者,也可以直接保留第二意图词,再或者,还可以随机地保留第一意图词或者第二意图词中的一个。
第二中情形,第一意图词和第二意图词的语义相似度未达到要求,说明第一意图词和第二意图词所要表达的意图相差较大,在这种情形,就不能随意地选择其中一个了,优选根据环境噪音的大小,来选择性地保留第一意图词或者第二意图词。
优选地,“根据环境噪音的大小,选择性地保留第一意图词或第二意图词”的步骤具体包括:
如果环境噪音位于低噪音区,则保留第一意图词;
如果环境噪音位于中度噪音区且第一意图词和所述第二意图词属于高稳定性类别,则保留第一意图词;
如果环境噪音位于中度噪音区且第一意图词和第二意图词属于低稳定性类别,则保留第二意图词;
如果环境噪音位于高噪音区,则保留第二意图词,
其中,高稳定类别的词语受环境噪音的影响程度小于低稳定性类别的词语受环境噪音的影响程度。
即,当环境噪音位于低噪音区时,对语音信息判断的影响较小,因此以第一意图词为准;反之,当环境噪音位于高噪音区时,对语音信息判断影响较大,因此以第二意图词为准。
然而,当环境噪音位于中度噪音区时,需要考虑第一意图词和第二意图词的具体类别,发明人经过大量的试验研究发现,有些类别的词语受环境噪音的影响较小,将这些类别记为高稳定性类别,还有一些类别的词语受环境噪音的影响较大,将这些类别记为低稳定性类别,因此,当环境噪音位于中度噪音区且第一意图词和第二意图词属于高稳定类别时,保留第一意图词,反之,当环境噪音位于中度噪音区且第一意图词和第二意图词属于低稳定类别时,保留第二意图词。
下面结合一个具体的实施例来详细地介绍本发明的技术方案。
针对洗衣机,我们会将意图分成主功能意图和辅助功能意图两大类。其中,主要功能意图可以包括程序类型意图、衣物类型意图等,辅助功能意图主要涉及各个洗涤参数,例如洗涤时间、漂洗次数等。
需要说明的是,主功能意图的词语均属于高稳定性类别,辅助功能意图的词语均属于低稳定性类别。
用户在对洗衣机进行操控时,根据获取到的语音信息生成的第一语句是“洗涤羊毛衫,时间30分钟,漂洗2次”,根据获取到的唇语信息生成的第二语句是“洗羽绒服,洗涤时间40分钟,漂洗3次”。
然后,分别对第一语句和第二语句进行拆解,从而得到多个不同类别的第一意图词和多个不同类别的第二意图词,为了更清楚的表示,采用表格方式进行对比,表格如下:
意图类别 | 第一意图词 | 第二意图词 |
程序类型 | 洗涤 | 洗 |
衣物类型 | 羊毛衫 | 羽绒服 |
洗涤时间 | 30分钟 | 40分钟 |
漂洗次数 | 2次 | 2次 |
经过分析比较可知:
针对程序类型,“洗涤”和“洗”的意思相近,即第一意图词和第二意图词的语义相似度达到要求,在这种情形下,可以保留第一意图词,也可以保留第二意图词,以保留第一意图词为例,即,程序类型为“洗涤”;
针对衣物类型,“羊毛衫”和“羽绒服”的意思明显不同,即第一意图词和第二意图词的语义相似度未达到要求,在这种情形下,需要根据环境噪音的大小,来选择性地保留第一意图词或第二意图词,具体如下:
当环境噪音属于低噪音区(例如,小于70分贝为低噪音区)时,保留第一意图词,即,衣物类型为“羊毛衫”;
当环境噪音属于中度噪音区(例如,70-90分贝为中度噪音区)时,因为衣物类型属于高稳定性类别,因此保留第一意图词,即,衣物类型为“羊毛衫”;
当环境噪音属于高噪音区(例如,大于90分贝为高噪音区)时,则保留第二意图词,即衣物类型为“羽绒服”;
针对洗涤时间,“30分钟”和“40分钟”的意思明显不同,即第一意图词和第二意图词的语义相似度未达到要求,在这种情形下,需要根据环境噪音的大小,来选择性地保留第一意图词或第二意图词,具体如下:
当环境噪音属于低噪音区时,保留第一意图词,即,洗涤时间为“30分钟”;
当环境噪音属于中度噪音区时,因为洗涤时间属于低稳定性类别,因此保留第二意图词,即,洗涤时间为“40分钟”;
当环境噪音属于高噪音区时,则保留第二意图词,即洗涤时间为“40分钟”;
针对漂洗次数,“2次”和“2次”的意思相同,即第一意图词和第二意图词的语义相似度达到要求,在这种情形下,可以保留第一意图词,也可以保留第二意图词,以保留第一意图词为例,即,漂洗次数为“2次”;
假设环境噪音为80分贝,属于中度噪音区,最终获得的语句是“洗涤羊毛衫,洗涤时间40分钟,漂洗2次”。
最后,需要说明的是,可以通过隐马尔可夫(HMM)、时间延迟神经网络(TDNN)或卷积神经网络(CNN)等通用算法模型对语音信息进行分析并转化成语句。
此外,还需要说明的是,唇语识别是指通过观察说话者的口型变化,识别出其所要说的内容。在噪音环境下,我们可以通过观察说话者嘴部运动的特征来“猜测”其所说的内容,从而弥补听觉信号的不足,视觉信号对噪音敏感的音素可以提供更多可以区分的信息,例如,在语音信号通道难以区分的部分发音,在视觉上是容易区分的。
实现一个完整的唇语识别系统,需要完成从说话人视频信息采集,经历唇检测、特征提取、识别等多个复杂的工作环节,根据实现功能的不同,可以把唇语识别系统划分为以下三个主要环节:
第一步,唇的检测,就是从给定的图像或视频中找到唇的大致位置,这是进行唇语识别的前提条件,主要可以通过以下几种方法来确定唇的大致范围:方法一,根据人脸的生理结构确定,由于眼睛瞳孔与周围面部相比较灰度较低,相对容易定位,因此通常先定位瞳孔,然后根据人眼的位置以及眼睛和嘴的位置关系确定出唇的大致位置;方法二,根据唇的灰度信息或者颜色信息确定唇的位置;方法三,根据运动信息监测唇。
第二步,唇动定位与特征提取,在唇语识别系统中能够自动实时地定位和跟踪唇动,提取唇动特征是进一步识别的先决条件,定位与特征提取的质量直接影响到唇语识别的结果,可以通过可变模板和Snake方法、主成分分析或者光流分析法等方法来实现。
第三,唇语识别,对提取的特征量进行唇语识别,唇语识别和语音识别同属于动态序列特征识别的范畴,也可以通过隐马尔可夫(HMM)、时间延迟神经网络(TDNN)或卷积神经网络(CNN)等通用算法模型对唇语信息进行分析并转化成语句。
此外,还需要说明的是,可以采用循环神经网络或者LSTM(Long Short TermMermory network)神经网络模型等语句进行分析处理。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
Claims (10)
1.一种语音识别方法,其特征在于,所述语音识别方法包括:
获取语音信息和唇语信息,
根据所述语音信息生成第一语句;
根据所述唇语信息生成第二语句;
根据所述第一语句和所述第二语句生成最终语句。
2.根据权利要求1所述的语音识别方法,其特征在于,“根据所述第一语句和所述第二语句生成最终语句”的步骤具体包括:
将所述第一语句拆解以获得多个不同类别的第一意图词;
将所述第二语句拆解以获得多个不同类别的第二意图词;
分别判断同一类别中的所述第一意图词和所述第二意图词的语义相似度是否达到要求;
根据判断结果,选择性地保留所述第一意图词或所述第二意图词;
根据最终保留的所述第一意图词和所述第二意图词生成最终语句。
3.根据权利要求2所述的语音识别方法,其特征在于,“根据判断结果,选择性地保留所述第一意图词或所述第二意图词”的步骤具体包括:
如果所述第一意图词和所述第二意图词的语义相似度未达到要求,则根据环境噪音的大小,选择性地保留所述第一意图词或所述第二意图词。
4.根据权利要求3所述的语音识别方法,其特征在于,“根据环境噪音的大小,选择性地保留所述第一意图词或所述第二意图词”的步骤具体包括:
如果所述环境噪音位于低噪音区,则保留所述第一意图词;
如果所述环境噪音位于中度噪音区且所述第一意图词和所述第二意图词属于高稳定性类别,则保留所述第一意图词;
如果所述环境噪音位于中度噪音区且所述第一意图词和所述第二意图词属于低稳定性类别,则保留所述第二意图词;
如果所述环境噪音位于高噪音区,则保留所述第二意图词;
其中,所述高稳定类别的词语受环境噪音的影响程度小于所述低稳定性类别的词语受环境噪音的影响程度。
5.根据权利要求3或4所述的语音识别方法,其特征在于,“根据判断结果,选择性地保留所述第一意图词或所述第二意图词”的步骤还包括:
如果所述第一意图词和所述第二意图词的语义相似度达到要求,则保留所述第一意图词,或者,保留所述第二意图词,或者,随机地保留所述第一意图词或所述第二意图词中的一个。
6.一种语音识别系统,其特征在于,所述语音识别系统包括:
声音获取装置,其配置成能够采集语音信息;
图像获取装置,其配置成能够采集唇语信息;
信息处理装置,其配置成能够分别根据所述声音获取装置采集的语音信息和所述图像获取装置采集的唇语信息生成第一语句和第二语句以及根据所述第一语句和所述第二语句生成最终语句。
7.根据权利要求6所述的语音识别系统,其特征在于,所述信息处理装置包括:
声音信息处理模块,其配置成能够根据所述语音信息生成所述第一语句;
图像信息处理模块,其配置成能够根据所述唇语信息生成所述第二语句;
语句分析处理模块,其配置成能够分别将所述第一语句和所述第二语句拆解以获得多个不同类别的第一意图词和多个不同类别的第二意图词,以及能够分别判断同一类别中的所述第一意图词和所述第二意图词的语义相似度是否达到要求,并根据判断结果,选择性地保留所述第一意图词或所述第二意图词,最后能够根据最终保留的所述第一意图词和所述第二意图词生成最终语句。
8.根据权利要求7所述的语音识别系统,其特征在于,所述语句分析处理模块还其配置成:
当所述第一意图词和所述第二意图词的语义相似度达到要求时,留所述第一意图词,或者,保留所述第二意图词,或者,随机地保留所述第一意图词或所述第二意图词中的一个;
当所述第一意图词和所述第二意图词的语义相似度未达到要求时,根据所述声音获取装置采集的环境噪音的大小,选择性地保留所述第一意图词或所述第二意图词。
9.根据权利要求8所述的语音识别系统,其特征在于,所述语句分析处理模块还其配置成:
在所述第一意图词和所述第二意图词的语义相似度未达到要求的情形下,
当所述环境噪音位于低噪音区时,保留所述第一意图词;
当所述环境噪音位于中度噪音区且所述第一意图词和所述第二意图词属于高稳定性类别时,保留所述第一意图词;
当所述环境噪音位于中度噪音区且所述第一意图词和所述第二意图词属于低稳定性类别时,保留所述第二意图词;
当所述环境噪音位于高噪音区时,保留所述第二意图词,
其中,所述高稳定类别的词语受环境噪音的影响程度小于所述低稳定性类别的词语受环境噪音的影响程度。
10.一种电器设备,其特征在于,所述电器设备包括权利要求6至9中任一项所述的语音识别系统。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010485180.2A CN113763941A (zh) | 2020-06-01 | 2020-06-01 | 语音识别方法、语音识别系统和电器设备 |
PCT/CN2021/093352 WO2021223765A1 (zh) | 2020-06-01 | 2021-05-12 | 语音识别方法、语音识别系统和电器设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010485180.2A CN113763941A (zh) | 2020-06-01 | 2020-06-01 | 语音识别方法、语音识别系统和电器设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113763941A true CN113763941A (zh) | 2021-12-07 |
Family
ID=78468642
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010485180.2A Pending CN113763941A (zh) | 2020-06-01 | 2020-06-01 | 语音识别方法、语音识别系统和电器设备 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113763941A (zh) |
WO (1) | WO2021223765A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115171676A (zh) * | 2022-05-30 | 2022-10-11 | 青岛海尔科技有限公司 | 意图行为的确定方法和装置、存储介质及电子装置 |
CN116721661B (zh) * | 2023-08-10 | 2023-10-31 | 深圳中检实验室技术有限公司 | 用于智能安全生物柜的人机交互管理系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104409075B (zh) * | 2014-11-28 | 2018-09-04 | 深圳创维-Rgb电子有限公司 | 语音识别方法和系统 |
CN106875941B (zh) * | 2017-04-01 | 2020-02-18 | 彭楚奥 | 一种服务机器人的语音语义识别方法 |
CN107799125A (zh) * | 2017-11-09 | 2018-03-13 | 维沃移动通信有限公司 | 一种语音识别方法、移动终端及计算机可读存储介质 |
CN108346427A (zh) * | 2018-02-05 | 2018-07-31 | 广东小天才科技有限公司 | 一种语音识别方法、装置、设备及存储介质 |
CN109377995B (zh) * | 2018-11-20 | 2021-06-01 | 珠海格力电器股份有限公司 | 一种控制设备的方法与装置 |
KR20190106921A (ko) * | 2019-08-30 | 2019-09-18 | 엘지전자 주식회사 | 커뮤니케이션 로봇 및 그의 구동 방법 |
-
2020
- 2020-06-01 CN CN202010485180.2A patent/CN113763941A/zh active Pending
-
2021
- 2021-05-12 WO PCT/CN2021/093352 patent/WO2021223765A1/zh active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2021223765A1 (zh) | 2021-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107799126B (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
US7620547B2 (en) | Spoken man-machine interface with speaker identification | |
US10013977B2 (en) | Smart home control method based on emotion recognition and the system thereof | |
US7373301B2 (en) | Method for detecting emotions from speech using speaker identification | |
US11854550B2 (en) | Determining input for speech processing engine | |
CN102298443B (zh) | 结合视频通道的智能家居语音控制系统及其控制方法 | |
WO2016150001A1 (zh) | 语音识别的方法、装置及计算机存储介质 | |
TWI245259B (en) | Sensor based speech recognizer selection, adaptation and combination | |
KR100820141B1 (ko) | 음성 구간 검출 장치 및 방법 그리고 음성 인식 시스템 | |
JP3584458B2 (ja) | パターン認識装置およびパターン認識方法 | |
CN106294774A (zh) | 基于对话服务的用户个性化数据处理方法及装置 | |
WO2008069519A1 (en) | Gesture/speech integrated recognition system and method | |
CN113763941A (zh) | 语音识别方法、语音识别系统和电器设备 | |
CN106971714A (zh) | 一种应用于机器人的语音去噪识别方法及装置 | |
CN111326152A (zh) | 语音控制方法及装置 | |
CN111341350A (zh) | 人机交互控制方法、系统、智能机器人及存储介质 | |
US20220392485A1 (en) | System and Method For Identifying Sentiment (Emotions) In A Speech Audio Input | |
KR20210066774A (ko) | 멀티모달 기반 사용자 구별 방법 및 장치 | |
Poorjam et al. | Quality control of voice recordings in remote Parkinson’s disease monitoring using the infinite hidden Markov model | |
EP1387350A1 (en) | Spoken man-machine interface with speaker identification | |
CN114466178A (zh) | 语音与图像同步性的衡量方法及装置 | |
Han et al. | A new information fusion method for SVM-based robotic audio-visual emotion recognition | |
US11878244B2 (en) | Customizable user input recognition systems | |
Kavya et al. | Conversion of LIP movement to speech: An aid to physically impaired and dumb people | |
Ding et al. | Speaker Identity Recognition by Acoustic and Visual Data Fusion through Personal Privacy for Smart Care and Service Applications. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |