CN114220428A - 一种语音识别方法、装置、设备及计算机存储介质 - Google Patents

一种语音识别方法、装置、设备及计算机存储介质 Download PDF

Info

Publication number
CN114220428A
CN114220428A CN202111471223.2A CN202111471223A CN114220428A CN 114220428 A CN114220428 A CN 114220428A CN 202111471223 A CN202111471223 A CN 202111471223A CN 114220428 A CN114220428 A CN 114220428A
Authority
CN
China
Prior art keywords
keyword
floor
elevator
information
instruction information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111471223.2A
Other languages
English (en)
Inventor
李良斌
陈孝良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SoundAI Technology Co Ltd
Original Assignee
Beijing SoundAI Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SoundAI Technology Co Ltd filed Critical Beijing SoundAI Technology Co Ltd
Priority to CN202111471223.2A priority Critical patent/CN114220428A/zh
Publication of CN114220428A publication Critical patent/CN114220428A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Indicating And Signalling Devices For Elevators (AREA)
  • Elevator Control (AREA)

Abstract

本申请公开了一种语音识别方法、装置、设备及计算机存储介质,该方法包括:获取乘梯语音指令信息;识别乘梯语音指令信息,得到所述乘梯语音指令信息的语音识别结果,所述语音识别结果中至少包括第一楼层信息关键词;检测所述语音识别结果中是否存在与第一楼层信息关键词对应的第二楼层信息关键词,所述第二楼层信息关键词包括第一楼层关键词以及位于所述第一楼层信息关键词之前的关键词段;若存在所述第二楼层关键词,将第二楼层信息关键词确定为所述乘梯语音指令信息的最终识别结果。通过本申请,能够有效地克服由于用户乘梯语音指令信息中的关键词存在发音等干扰因素带来的问题,使用户能准确有效地对电梯进行语音控制,提升用户乘梯满意度。

Description

一种语音识别方法、装置、设备及计算机存储介质
技术领域
本申请属于音频处理技术领域,尤其涉及一种语音识别方法、装置、设备及计算机存储介质。
背景技术
在音频处理技术领域,通常会对获取到的语音指令进行处理识别,进而执行对应的功能。现有的语音识别技术的应用包括语音拨号、室内电梯设备控制、语音文档检索、简单的听写数据录入等。
在基于语音识别的智能电梯应用中,通过相应的音频处理模块,对获取的用户乘梯语音指令进行处理识别,得到目标楼层关键词的对应得分,从而将得分最高的目标楼层信息关键词作为用户乘梯语音指令的最终识别结果。
但是,由于用户发出的乘梯语音指令信息时常受到用户发音或口音等因素的干扰,而现有的智能电梯系统在做语音识别时,仅仅输出得分最高的目标楼层信息关键词,无法克服由于目标楼层关键词存在发音或口音等干扰因素所带来的问题,如此会导致,根据现有的智能电梯系统的语音识别方法,通常无法正确识别到用户的真实目标楼层,从而导致用户无法准确有效地对电梯进行语音控制。
发明内容
本申请实施例提供一种语音识别方法、装置、设备及计算机存储介质,能够有效地克服由于关键词存在发音等干扰因素所带来的问题,从而使用户能准确有效地对电梯进行语音控制。
第一方面,本申请实施例提供一种语音识别方法,方法包括:
获取乘梯语音指令信息;
识别乘梯语音指令信息,得到乘梯语音指令信息的语音识别结果,乘梯语音指令信息的语音识别结果中至少包括第一楼层信息关键词;
检测该乘梯语音指令信息的语音识别结果中是否存在与第一楼层信息关键词对应的第二楼层信息关键词,第二楼层信息关键词包括第一楼层关键词以及位于第一楼层信息关键词之前的关键词段;
在乘梯语音指令信息的语音识别结果中存在第二楼层关键词的情况下,将第二楼层信息关键词确定为乘梯语音指令信息的最终识别结果。
在一些实施例中,识别乘梯语音指令信息,得到乘梯语音指令信息的语音识别结果,包括:
根据目标识别模型识别乘梯语音指令信息里的关键词,得到乘梯语音指令信息里的关键词的对应得分;
根据关键词的对应得分,得到乘梯语音指令信息的语音识别结果;
其中,第一楼层信息关键词为乘梯语音指令信息里得分最高的关键词。
在一些实施例中,第二楼层信息关键词的得分与第一楼层信息关键词的得分的差值小于预设阈值。
在一些实施例中,识别乘梯语音指令信息,得到乘梯语音指令信息的语音识别结果,包括:
利用声学模型和语言模型分别识别乘梯语音指令信息里的关键词,得到由声学模型输出的关键词的第一得分和由语言模型输出的关键词的第二得分;
根据关键词的第一得分和第二得分,得到乘梯语音指令信息的语音识别结果。
在一些实施例中,将第二楼层信息关键词确定为乘梯语音指令信息的最终识别结果,包括:
当第二楼层信息关键词的数量为多个时,将得分最高的第二楼层信息关键词确定为乘梯语音指令信息的最终识别结果。
在一些实施例中,该语音识别方法还包括:
在乘梯语音指令信息的语音识别结果中不存在第二楼层关键词的情况下,将第一楼层信息关键词确定为乘梯语音指令信息的最终识别结果。
第二方面,本申请实施例提供了一种语音识别装置,该语音识别装置包括:
获取模块,用于获取乘梯语音指令信息;
识别模块,用于识别乘梯语音指令信息,得到乘梯语音指令信息的语音识别结果,乘梯语音指令信息的语音识别结果中至少包括第一楼层信息关键词;
检测模块,用于检测乘梯语音指令信息的语音识别结果中是否存在与所述第一楼层信息关键词对应的第二楼层信息关键词,第二楼层信息关键词包括第一楼层关键词以及位于第一楼层信息关键词之前的关键词段;
确定模块,用于在乘梯语音指令信息的语音识别结果中存在第二楼层关键词的情况下,将第二楼层信息关键词确定为乘梯语音指令信息的最终识别结果。
第三方面,本申请实施例提供了一种语音识别设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如上述本申请实施例中任意一项提供的语音识别方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如上述本申请实施例中任意一项提供的语音识别方法。
本申请实施例提供的一种语音识别方法、装置、设备及计算机存储介质,通过对用户乘梯语音指令信息进行识别,得到乘梯语音指令信息的语音识别结果,利用目标识别模型识别乘梯语音指令信息里的关键词,得到乘梯语音指令信息里的关键词的对应得分。该方法由于考虑到了用户乘梯语音指令中的关键词存在发音等因素,不根据现有技术直接输出第一楼层信息关键词作为最终识别结果,而是先检测语音识别结果中是否存在与第一楼层信息关键词对应的第二楼层信息关键词。若乘梯语音指令信息的语音识别结果中存在第二楼层关键词的情况下,确定第二楼层信息关键词为最终识别结果,从而能够有效地克服由于关键词存在发音等干扰因素所带来的问题,使用户能准确有效地对电梯进行语音控制,提升用户乘梯满意度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单的介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的语音识别方法的流程示意图;
图2是本申请又一个实施例提供的语音识别装置的结构示意图;
图3是本申请又一个实施例提供的语音识别设备的结构示意图。
具体实施方式
下面将详细描述本申请的各个方面的特征和示例性实施例,为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及具体实施例,对本申请进行进一步详细描述。应理解,此处所描述的具体实施例仅意在解释本申请,而不是限定本申请。对于本领域技术人员来说,本申请可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本申请的示例来提供对本申请更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如背景技术部分所述,通常现有的智能电梯系统通过获取用户的乘梯语音指令信息,得到用户乘梯语音指令信息的语音识别结果。现有的智能电梯系根据目标识别模型识别用户乘梯语音指令信息里的关键词,以得到用户乘梯语音指令信息里的关键词的对应得分,并将得分最高的关键词作为用户乘梯语音指令信息的最终识别结果。
而发明人经过研究发现,很多用户说出乘梯语音指令信息时,由于存在发音或口音等问题,会使得指令信息中包含的关键词,即具体的楼层信息存在由于发音或口音带来的干扰因素,例如,用户真正想去的楼层为十六楼,但由于用户所说的实际关键词为“十六楼”存在发音问题,如此,仅仅通过将识别处理后得分最高的关键词作为最终识别结果进行输出,很有可能会使得乘梯最终得到的控制指令是去“六楼”。这种情况下,现有技术无法克服上述的现有技术问题。
发明人经过研究还发现,以上述示例进行举例,若用户乘梯语音指令信息中包含的真实目标楼层是“六楼”,此时“六楼”为最高得分关键词,那么语音识别结果中不太可能出现与“六楼”得分相近的“十六楼”“二十六楼”等目标楼层关键词,该目标楼层关键词通常包括“六楼”以及位于“六楼”之前的关键词段。也就是说,例如,在得分最高的关键词为“六楼”的情况下,若对语音识别结果进行检测后发现,识别结果中还包括与“六楼”得分相近的关键词“十六楼”,此时,“十六楼”往往才更可能是用户真实的目标楼层。
如此,基于该研究发现,为了解决现有技术问题,本申请提供了一种语音识别方法、装置、设备及计算机存储介质。下面结合附图,详细描述本发明实施例的语音识别方法、装置、设备及计算机存储介质。应注意,本申请的实施例并不是用来限制本发明公开的范围。
下面首先对本申请实施例所提供的语音识别方法进行介绍。
图1示出了本申请一个实施例提供的语音识别方法的流程示意图。如图1所示,本发明实施例中的语音识别方法包括以下步骤S110至S140:
S110,获取乘梯语音指令信息。
S120,识别该乘梯语音指令信息,得到对应语音识别结果。
S130,检测该乘梯语音指令信息的语音识别结果中的第二楼层信息关键词。
S140,将该第二楼层信息关键词确定为乘梯语音指令信息的最终识别结果。
本申请实施例提供的一种语音识别方法,该语音识别方法通过对用户乘梯语音指令信息进行识别,得到乘梯语音指令信息的语音识别结果,利用目标识别模型识别所述乘梯语音指令信息里的关键词,得到乘梯语音指令信息里的关键词的对应得分。该方法由于考虑到了用户乘梯语音指令中的关键词存在发音等因素,不根据现有技术直接输出第一楼层信息关键词作为最终识别结果,而是先检测语音识别结果中是否存在与第一楼层信息关键词对应的第二楼层信息关键词。若乘梯语音指令信息的语音识别结果中存在第二楼层关键词的情况下,确定第二楼层信息关键词为最终识别结果,从而能够有效地克服由于关键词存在发音等干扰因素所带来的问题,使用户能准确有效地对电梯进行语音控制,提升用户乘梯满意度。
在一些实施例中,在S110中,通过相应的语音接收装置,实现对电梯内用户发出的语音信息的接收,即获取用户乘梯语音指令信息。
作为一个示例,乘梯语音指令信息可以为电梯使用用户发出的语音指令,例如,用户发出的语音指令可以为“上去十六楼”,该语音指令中包含关键词,即用户的目标楼层信息,在本示例中“十六楼”即为该用户语音指令信息中包含的目标楼层信息关键词,智能电梯系统通过相应的语音接收装置,对电梯内用户发出的语音信息实现接收动作,即获取了乘梯语音指令信息。
在一些实施例中,为了提高乘梯语音指令信息的语音识别结果准确率,在S120中,具体可以包括如下步骤:
根据目标识别模型识别乘梯语音指令信息里的关键词,得到乘梯语音指令信息里的关键词的对应得分;
根据关键词的对应得分,得到该乘梯语音指令信息的语音识别结果;
其中,乘梯语音指令信息所对应的语音识别结果中至少包括第一楼层信息关键词。
第一楼层信息关键词为乘梯语音指令信息里得分最高的关键词。
作为一个示例,上述目标识别模型可以具体包括声学模型和语言模型中的至少一个模型。
在上述目标识别模型包括声学模型和语言模型的情况下,通过将乘梯语音指令信息输出到声学模型中,利用声学模型对所接收的用户语音指令信息里的目标楼层信息关键词进行识别,得到目标楼层信息关键词的第一得分;通过将乘梯语音指令信息输出到语言模型中,利用语言模型对所接收的用户语音指令信息里的目标楼层信息关键词进行识别,得到目标楼层信息关键词的第二得分。
基于目标楼层信息关键词的第一得分和第二得分,具体的,最终得到的得分结果可以为:第一得分与第二得分之和,从而得到识别出的多个目标楼层信息关键词所对应的得分结果。
下面结合乘梯场景进行具体描述,例如,乘梯用户发出的乘梯语音指令信息可以为“上去十六楼”,通过利用内部存储的声学模型和语言模型分别对所接收的用户语音指令信息里的目标楼层信息关键词进行识别,所识别出的目标楼层信息关键词可能存在多个,如“六楼”、“十六楼”“三十六楼”以及“九楼等”。
根据上述的声学模型和语言模型,可以得到各个可能目标楼层信息关键词的得分,以百分制为例,由于该用户的语音指令受到其发音或者口音的影响,所得到的最终得分结果为“六楼-90分”、“十六楼-87分”、“三十六楼-60分”以及“九楼-50分”等,在上述结果中,“六楼”的得分最高,即“六楼”就是本申请一个实施例中对应的第一楼层信息关键词。
在一些实施例中,为了提高语音识别结果的准确率,在S130中,检测乘梯语音指令信息的语音识别结果中的第二楼层信息关键词。
其中,第二楼层信息关键词与第一楼层信息关键词相对应,第二楼层信息关键词包括第一楼层关键词以及位于第一楼层信息关键词之前的关键词段。
具体的,根据上述步骤120所识别得出的用户语音指令信息中的可能目标楼层信息关键词的对应得分,对识别结果中的第二楼层信息关键词进行查找检测,在本申请实施例中,通过上述步骤所确定的第一楼层信息关键词为“六楼”,根据对第二楼层信息关键词的定义可知,在本示例中,与第一楼层信息关键词“六楼”所对应的第二楼层信息关键词可以“十六楼”、“二十六楼”以及“三十六楼”等,通过对上述识别结果中第二楼层信息关键词的查找、检测,从而可以检测出识别结果中的“三十六楼”和“十六楼”为上述第一楼层信息关键词所对应的第二楼层信息关键词。
作为一个示例,为了提高该语音识别方法的准确率,减少电梯误操作,步骤S130还可以包括:
根据上述第二楼层信息关键词的得分与上述第一楼层信息关键词的得分的差值,将该差值与预先设定的某一阈值进行比较。
对于差值小于该预设阈值的第二楼层信息关键词,将其确定为上述第一楼层信息关键词最终的第二楼层信息关键词。
具体的,在百分制中,预设阈值可以预先设定为10分,即第一楼层信息关键词和对应的第二楼层信息关键词之间的得分差值需要小于10分。
在本申请实施例中,检测出的识别结果中的“三十六楼”和“十六楼”可以为上述第一楼层信息关键词所对应的第二楼层信息关键词,但为了最终得到更为准确的语音识别结果,对上述第二楼层信息关键词“三十六楼”和“十六楼”做进一步筛选。
通过与第一楼层信息关键词“六楼”的得分“90分”的差值不超过10分的限定,根据“十六楼-87分”、“三十六楼-60分”的得分情况,得到最终的第二楼层信息关键词“十六楼”。
需要说明的是,上述实施例仅提供了一种可能情况,并不用来限制本发明公开的范围。
在一些实施例中,为了提高乘梯语音识别结果的准确率,提升用户满意度,在S140中,通过S110至S130得到最终的第二楼层关键词,将所得的第二楼层信息关键词确定为识别的乘梯语音指令信息的最终识别结果。
具体的,在本申请实施例中,将第二楼层信息关键词确定为乘梯语音指令信息最终的识别结果,并根据所确定的语音识别结果,从而使用户发出语音指令后,能够控制电梯去到第二楼层信息关键词所对应的目标楼层。
在具体的乘梯场景下,用户语音指令信息可以为“上去十六楼”,第一楼层信息关键词为“六楼”,最终得到的对应的第二楼层信息关键词为“十六楼”。
通过将第二楼层信息关键词“十六楼”确定为用户语音指令信息的最终识别结果,并根据所确定的最终识别结果“十六楼”,从而能够控制电梯去到用户的真实目标楼层“十六楼”,而不是将关键词得分最高的第一楼层信息关键词“六楼”作为最终识别结果,从而控制电梯去到“六楼”。如此,有效地克服了由于关键词存在发音等干扰因素带来的问题,使用户能准确有效地对电梯进行语音控制,提升用户乘梯满意度。
作为一个示例,为了使语音识别结果最接近用户的真实目标楼层信息,步骤S140具体还可以包括:
在最终得到的第二楼层信息关键词的数量为多个的情况下,将得分最高的第二楼层信息关键词确定为乘梯语音指令信息的最终识别结果。
具体的,用户语音指令信息可以为“上去十六楼”,第一楼层信息关键词为“六楼”,最终得到两个第二楼层信息关键词分别为“十六楼”和“二十六楼”,两个第二楼层信息关键词对应的得分分别为“十六楼-87分”、“二十六楼-82分”。
此时,通过对所得的两个第二楼层关键词进行选取,即选取两者中得分高的第二楼层关键词,并将其作为乘梯语音指令信息的最终识别结果,在本申请实施例中,“十六楼”的得分高于“二十六楼”,故最终确定“十六楼”为最终语音识别结果,并根据所确定的最终识别结果“十六楼”控制电梯去到用户的真实目标楼层“十六楼”。
作为一个示例,为了提高电梯运行效率,步骤S140具体还可以包括:
在检测到乘梯语音指令信息的语音识别结果中不存在第二楼层关键词的情况下,将第一楼层信息关键词确定为乘梯语音指令信息的最终识别结果。
具体的,在实际乘梯场景下,用户乘梯语音指令信息识别后得到的可能目标楼层信息关键词中不包含第二楼层关键词,例如,用户的乘梯语音指令信息可以为“去六楼”,“六楼”为识别结果中得分最高的楼层信息关键词,即第一楼层信息关键词,在识别结果中并未检测到与“六楼”对应的第二楼层关键词,此时,通过将“六楼”确定为最终语音识别结果,并根据所确定的最终识别结果“六楼”,控制电梯去到目标楼层“六楼”。
下面通过图2详细介绍根据本申请实施例的语音识别装置,语音识别装置与语音识别方法相对应。
图2示出了本申请又一个实施例提供的语音识别装置的结构示意图。
图2示出的语音识别装置包括:
获取模块210,用于获取乘梯语音指令信息。
识别模块220,用于识别乘梯语音指令信息,得到乘梯语音指令信息的语音识别结果,乘梯语音指令信息的语音识别结果中至少包括第一楼层信息关键词。
检测模块230,用于检测乘梯语音指令信息的语音识别结果中是否存在与所述第一楼层信息关键词对应的第二楼层信息关键词,第二楼层信息关键词包括第一楼层关键词以及位于第一楼层信息关键词之前的关键词段。
确定模块240,用于在乘梯语音指令信息的语音识别结果中存在第二楼层关键词的情况下,将第二楼层信息关键词确定为乘梯语音指令信息的最终识别结果。
本申请实施例提供的一种语音识别装置,通过各个功能模块对用户乘梯语音指令信息进行识别,得到乘梯语音指令信息的语音识别结果,利用目标识别模型识别乘梯语音指令信息里的关键词,得到乘梯语音指令信息里的关键词的对应得分。该方法由于考虑到了用户乘梯语音指令中的关键词存在发音等因素,不根据现有技术直接输出第一楼层信息关键词作为最终识别结果,而是先检测语音识别结果中是否存在与第一楼层信息关键词对应的第二楼层信息关键词。若乘梯语音指令信息的语音识别结果中存在第二楼层关键词的情况下,确定第二楼层信息关键词为最终识别结果,从而能够有效地克服由于关键词存在发音等干扰因素所带来的问题,使用户能准确有效地对电梯进行语音控制,提升了用户乘梯满意度。
在一些实施例中,为了提高语音识别结果的准确率,识别模块220,可以包括:
识别子模块,可以用于根据目标识别模型识别乘梯语音指令信息里的关键词,得到乘梯语音指令信息里的关键词的对应得分;
处理子模块,可以用于根据关键词的对应得分,得到乘梯语音指令信息的语音识别结果。
其中,第一楼层信息关键词为乘梯语音指令信息里得分最高的关键词。
在一些实施例中,识别子模块,具体可以用于利用声学模型和语言模型分别识别乘梯语音指令信息里的关键词,得到由声学模型输出的关键词的第一得分和由语言模型输出的关键词的第二得分;
处理子模块,具体可以用于根据关键词的第一得分和第二得分,得到乘梯语音指令信息的语音识别结果。
在一些实施例中,为了提高使最终识别结果更接近用户真实目标楼层,第二楼层信息关键词的得分与第一楼层信息关键词的得分的差值小于预设阈值。
在一些实施例中,为了提高乘梯语音控制准确率,进而提升用户满意度,确定模块240,可以包括:
第一确定子模块,可以用于当第二楼层信息关键词为多个时,将得分最高的第二楼层信息关键词确定为乘梯语音指令信息的最终识别结果。
在一些实施例中,为了提升乘梯运行效率,确定模块240,可以还包括:
第二确定子模块,可以用于在乘梯语音指令信息的语音识别结果中不存在第二楼层关键词的情况下,将第一楼层信息关键词确定为乘梯语音指令信息的最终识别结果。
图3示出了本申请又一个实施例提供的语音识别设备的结构示意图。
语音识别设备可以包括处理器301以及存储有计算机程序指令的存储器302。
具体地,上述处理器301可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
存储器302可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器302可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器302可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器302可在综合网关容灾设备的内部或外部。在特定实施例中,存储器302是非易失性固态存储器。
存储器可包括只读存储器(ROM),随机存取存储器(RAM),磁盘存储介质设备,光存储介质设备,闪存设备,电气、光学或其他物理/有形的存储器存储设备。因此,通常,存储器包括一个或多个编码有包括计算机可执行指令的软件的有形(非暂态)计算机可读存储介质(例如,存储器设备),并且当该软件被执行(例如,由一个或多个处理器)时,其可操作来执行参考根据本申请的一方面的方法所描述的操作。
处理器301通过读取并执行存储器302中存储的计算机程序指令,以实现上述实施例中的任意一种语音识别方法。
在一个示例中,语音识别设备还可包括通信接口303和总线310。其中,如图3所示,处理器301、存储器302、通信接口303通过总线310连接并完成相互间的通信。
通信接口303,主要用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。
总线310包括硬件、软件或两者,将在线数据流量计费设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线310可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线,但本申请考虑任何合适的总线或互连。
该语音识别设备可以基于获取的用户乘梯语音指令信息执行本申请实施例中的语音识别方法,从而实现结合图1和图2描述的语音识别方法和装置。
另外,结合上述实施例中的语音识别方法,本申请实施例可提供一种计算机存储介质来实现。该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种语音识别方法。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本申请的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本申请中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本申请不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
需要明确的是,本申请并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本申请的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本申请的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
上面参考根据本公开的实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各方面。应当理解,流程图和/或框图中的每个方框以及流程图和/或框图中各方框的组合可以由计算机程序指令实现。这些计算机程序指令可被提供给通用计算机、专用计算机、或其它可编程数据处理装置的处理器,以产生一种机器,使得经由计算机或其它可编程数据处理装置的处理器执行的这些指令使能对流程图和/或框图的一个或多个方框中指定的功能/动作的实现。这种处理器可以是但不限于是通用处理器、专用处理器、特殊应用处理器或者现场可编程逻辑电路。还可理解,框图和/或流程图中的每个方框以及框图和/或流程图中的方框的组合,也可以由执行指定的功能或动作的专用硬件来实现,或可由专用硬件和计算机指令的组合来实现。
以上所述,仅为本申请的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
获取乘梯语音指令信息;
识别所述乘梯语音指令信息,得到所述乘梯语音指令信息的语音识别结果,所述乘梯语音指令信息的语音识别结果中至少包括第一楼层信息关键词;
检测所述乘梯语音指令信息的语音识别结果中是否存在与所述第一楼层信息关键词对应的第二楼层信息关键词,所述第二楼层信息关键词包括第一楼层关键词以及位于所述第一楼层信息关键词之前的关键词段;
在所述乘梯语音指令信息的语音识别结果中存在所述第二楼层关键词的情况下,将所述第二楼层信息关键词确定为所述乘梯语音指令信息的最终识别结果。
2.根据权利要求1所述的方法,其特征在于,所述识别所述乘梯语音指令信息,得到所述乘梯语音指令信息的语音识别结果,包括:
根据目标识别模型识别所述乘梯语音指令信息里的关键词,得到所述乘梯语音指令信息里的关键词的对应得分;
根据所述关键词的对应得分,得到所述乘梯语音指令信息的语音识别结果;
其中,所述第一楼层信息关键词为所述乘梯语音指令信息里得分最高的关键词。
3.根据权利要求2所述的方法,其特征在于,所述第二楼层信息关键词的得分与所述第一楼层信息关键词的得分的差值小于预设阈值。
4.根据权利要求2所述的方法,其特征在于,所述识别所述乘梯语音指令信息,得到所述乘梯语音指令信息的语音识别结果,包括:
利用声学模型和语言模型分别识别所述乘梯语音指令信息里的关键词,得到由所述声学模型输出的关键词的第一得分和由所述语言模型输出的关键词的第二得分;
根据所述关键词的第一得分和第二得分,得到所述乘梯语音指令信息的语音识别结果。
5.根据权利要求2-3任意一项所述的方法,其特征在于,所述将所述第二楼层信息关键词确定为所述乘梯语音指令信息的最终识别结果,包括:
当第二楼层信息关键词的数量为多个时,将得分最高的第二楼层信息关键词确定为所述乘梯语音指令信息的最终识别结果。
6.根据权利要求1-3任意一项所述的方法,其特征在于,所述方法还包括:
在所述乘梯语音指令信息的语音识别结果中不存在所述第二楼层关键词的情况下,将所述第一楼层信息关键词确定为所述乘梯语音指令信息的最终识别结果。
7.一种语音识别装置,其特征在于,所述装置包括:
获取模块,用于获取乘梯语音指令信息;
识别模块,用于识别所述乘梯语音指令信息,得到所述乘梯语音指令信息的语音识别结果,所述乘梯语音指令信息的语音识别结果中至少包括第一楼层信息关键词;
检测模块,用于检测所述乘梯语音指令信息的语音识别结果中是否存在与所述第一楼层信息关键词对应的第二楼层信息关键词,所述第二楼层信息关键词包括第一楼层关键词以及位于所述第一楼层信息关键词之前的关键词段;
确定模块,用于在所述乘梯语音指令信息的语音识别结果中存在所述第二楼层关键词的情况下,将所述第二楼层信息关键词确定为所述乘梯语音指令信息的最终识别结果。
8.一种语音识别设备,其特征在于,所述设备包括:处理器以及存储有计算机程序指令的存储器;
所述处理器执行所述计算机程序指令时实现如权利要求1-6任意一项所述的语音识别方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-6任意一项所述的语音识别方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品中的指令由电子设备的处理器执行时,使得所述电子设备执行如权利要求1-6任意一项所述的语音识别方法。
CN202111471223.2A 2021-12-03 2021-12-03 一种语音识别方法、装置、设备及计算机存储介质 Pending CN114220428A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111471223.2A CN114220428A (zh) 2021-12-03 2021-12-03 一种语音识别方法、装置、设备及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111471223.2A CN114220428A (zh) 2021-12-03 2021-12-03 一种语音识别方法、装置、设备及计算机存储介质

Publications (1)

Publication Number Publication Date
CN114220428A true CN114220428A (zh) 2022-03-22

Family

ID=80699613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111471223.2A Pending CN114220428A (zh) 2021-12-03 2021-12-03 一种语音识别方法、装置、设备及计算机存储介质

Country Status (1)

Country Link
CN (1) CN114220428A (zh)

Similar Documents

Publication Publication Date Title
EP2486562B1 (en) Method for the detection of speech segments
US9530401B2 (en) Apparatus and method for reporting speech recognition failures
US10733986B2 (en) Apparatus, method for voice recognition, and non-transitory computer-readable storage medium
CN112200273B (zh) 数据标注方法、装置、设备及计算机存储介质
CN109525607B (zh) 对抗攻击检测方法、装置及电子设备
CN105336324A (zh) 一种语种识别方法及装置
CN110875059B (zh) 收音结束的判断方法、装置以及储存装置
CN108039181B (zh) 一种声音信号的情感信息分析方法和装置
KR20180056281A (ko) 키워드 인식 장치 및 방법
CN111538823A (zh) 信息处理方法、模型训练方法、装置、设备及介质
CN105609105A (zh) 语音识别系统和语音识别方法
CN112509561A (zh) 情绪识别方法、装置、设备及计算机可读存储介质
Zeghidour et al. DIVE: End-to-end speech diarization via iterative speaker embedding
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
CN114220428A (zh) 一种语音识别方法、装置、设备及计算机存储介质
CN114360515A (zh) 信息处理方法、装置、电子设备、介质及计算机程序产品
CN112908305B (zh) 一种提升语音识别准确性的方法和设备
CN114229637A (zh) 电梯楼层确定方法、装置、设备及计算机可读存储介质
CN111883109B (zh) 语音信息处理及验证模型训练方法、装置、设备及介质
CN112992174A (zh) 一种语音分析方法及其语音记录装置
CN115311649A (zh) 一种卡证类别识别方法、装置、电子设备及存储介质
CN112822666A (zh) 一种通信方法、装置、电子设备及存储介质
KR20210130494A (ko) 다중 디바이스의 음성인식 제어를 위한 다채널 보이스 트리거 시스템 및 그 제어 방법
CN116416988A (zh) 语音交互方法、装置、设备、车辆及存储介质
CN116978374A (zh) 语音指令响应方法、装置、设备、存储介质及车辆

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination