CN114203178A - 一种智能语音系统拒识方法、装置及计算机设备 - Google Patents
一种智能语音系统拒识方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN114203178A CN114203178A CN202111514511.1A CN202111514511A CN114203178A CN 114203178 A CN114203178 A CN 114203178A CN 202111514511 A CN202111514511 A CN 202111514511A CN 114203178 A CN114203178 A CN 114203178A
- Authority
- CN
- China
- Prior art keywords
- result
- rejection
- audio information
- rule
- application field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 65
- 230000015654 memory Effects 0.000 claims description 18
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 8
- 238000009826 distribution Methods 0.000 description 6
- 238000001914 filtration Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种智能语音系统拒识方法、装置及计算机设备,该方法包括,获取待识别音频信息,对音频信心分别进行通用识别和应用领域专用识别;分别对通用识别的结果和应用领域专用的识别结果进行分析得到第一信心分和第二信心分;若第一信心分高于第一预设阈值,将通用识别结果输入到预设拒识模型来判断是否拒识;若不拒识,基于第一规则对第一拒识结果进行规则判断;基于规则判断的结果确定是否对音频信息拒识;和/或若第二信心分高于第二预设阈值,将应用领域专用识别结果输入到预设的拒识模型来判断是否拒识;若不拒识,基于第二规则对第二拒识结果进行规则判断;基于规则判断的结果确定是否对音频信息拒识。
Description
技术领域
本发明涉及语音识别技术领域,具体涉及一种智能语音系统拒识方法、装置及计算机设备。
背景技术
随着智能语音对话系统应用在越来越多的场景中,人们对交互体验的要求也越来越高,然而在使用智能语音系统处于连续对话的环境中时,常常会出现不是对智能语音系统发出的指令却被识别成某些指令的情况,进而触发智能语音系统做出一些不在预期范围内的动作。这种情况发生在一些特定的场景下时,甚至会造成较为严重的后果。例如,在车载语音系统中,对于误识指令执行动作,可能会危害车辆行驶安全等。因此,亟需一种更加准确的针对语音系统的拒识方案,以规避上述风险。
发明内容
因此,本发明要解决的技术问题在于克服现有智能语音系统中不能准确的区分连续对话中的语音是否是对智能语音系统发出的指令,从而导致智能语音系统发生错误识别的缺陷,从而提供一种智能语音系统拒识方法、装置及计算机设备。
根据第一方面,本发明实施例公开了一种智能语音系统拒识方法,该方法包括:获取待识别的音频信息,对所述音频信心分别进行通用识别和应用领域专用识别,得到所述音频信息的通用识别结果和应用领域专用识别结果;分别对所述通用识别结果和应用领域专用识别结果进行分析得到第一信心分和第二信心分;若所述第一信心分高于第一预设阈值,则将所述通用识别结果输入到预设的拒识模型得到第一拒识结果;基于所述第一拒识结果判断是否进行拒识;若不进行拒识,则基于第一规则对所述第一拒识结果进行规则判断;基于所述规则判断的结果确定是否对所述音频信息进行拒识;和/或若所述第二信心分高于第二预设阈值,则将所述应用领域专用识别结果输入到预设的拒识模型得到第二拒识结果;基于所述第二拒识结果判断是否进行拒识;若不进行拒识,则基于第二规则对所述第二拒识结果进行规则判断;基于所述规则判断的结果确定是否对所述音频信息进行拒识。
可选地,所述方法还包括:若基于所述规则判断的结果确定不对所述音频信息进行拒识,则执行若所诉第二信心分高于第二预设阈值,则将所述通用识别结果输入到预设的拒识模型得到第二拒识结果至基于所述规则判断的结果确定是否对所述音频信息进行拒识的步骤。
可选地,所述方法还包括:若基于所述规则判断的结果确定不对所述音频信息进行拒识,则执行若所述第一信心分高于第一预设阈值,则将所述应用领域专用识别结果输入到预设的拒识模型得到第一拒识结果至基于所述规则判断的结果确定是否对所述音频信息进行拒识的步骤。
可选地,所述对所述音频信心分别进行通用识别和应用领域专用识别,得到所述音频信息的通用识别结果和应用领域专用识别结果,包括:将所述音频信息输入到通用声学模型,得到所述音频信息的通用声学概率;将所述音频信息输入到通用语言模型,得到所述音频信息的通用语言概率;基于解码器对所述通用声学概率和通用语言概率进行解码,得到所述通用识别结果;将所述音频信息输入到应用领域专用声学模型,得到所述音频信息的应用领域专用声学概率;将所述音频信息输入到应用领域专用语言模型,得到所述音频信息的应用领域专用语言概率;基于解码器对所述应用领域专用声学概率和应用领域专用语言概率进行解码,得到所述应用领域专用识别结果。
可选地,所述对所述音频信心分别进行通用识别和应用领域专用识别,得到所述音频信息的通用识别结果和应用领域专用识别结果,包括:将所述音频信息输入到通用声学模型,得到所述音频信息的通用声学概率;将所述音频信息输入到通用语言模型,得到所述音频信息的通用语言概率;基于解码器对所述通用声学概率和通用语言概率进行解码,得到所述通用识别结果;将所述音频信息输入到应用领域专用声学模型,得到所述音频信息的应用领域专用声学概率;将所述音频信息输入到应用领域专用语言模型,得到所述音频信息的应用领域专用语言概率;基于解码器对所述应用领域专用声学概率和应用领域专用语言概率进行解码,得到所述应用领域专用识别结果。
可选地,基于第一规则对所述第一拒识结果进行规则判断,基于所述规则判断的结果确定是否对所述音频信息进行拒识的过程,包括:将所述第一拒识结果进行语义分析得到相应的第一领域信息和第一意图信息;判断所述第一领域信息和第一意图信息是否匹配;若所述第一领域信息和第一意图信息匹配,则不需要拒识;否则需要拒识。
可选地,基于第二规则对所述第二拒识结果进行规则判断,基于所述规则判断的结果确定是否对所述音频信息进行拒识的过程,包括:将所述第二拒识结果进行语义分析得到相应的第二领域信息和第二意图信息;判断所述第二领域信息和第二意图信息是否匹配;若所述第二领域信息和第二意图信息匹配,则不需要拒识;否则需要拒识。
根据第二方面,本发明实施例还公开了一种智能语音系统拒识装置,包括:获取模块,用于获取待识别的音频信息,对所述音频信心分别进行通用识别和应用领域专用识别,得到所述音频信息的通用识别结果和应用领域专用识别结果;信心分评价模块,用于分别对所述通用识别结果和应用领域专用识别结果进行分析得到第一信心分和第二信心分;第一模型识别模块,用于若所述第一信心分高于第一预设阈值,则将所述通用识别结果输入到预设的拒识模型得到第一拒识结果;第一判断模块,用于基于所述第一拒识结果判断是否进行拒识;第一规则识别模块,用于若不进行拒识,则基于第一规则对所述第一拒识结果进行规则判断;第二判断模块,用于基于所述规则判断的结果确定是否对所述音频信息进行拒识;和/或第二模型识别模块,用于若所述第二信心分高于第二预设阈值,则将所述应用领域专用识别结果输入到预设的拒识模型得到第二拒识结果;第三判断模块,用于基于所述第二拒识结果判断是否进行拒识;第二规则识别模块,用于若不进行拒识,则基于第二规则对所述第二拒识结果进行规则判断;第四判断模块,用于基于所述规则判断的结果确定是否对所述音频信息进行拒识。
根据第三方面,本发明实施例还公开了一种计算机设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面或第一方面任一可选实施方式所述的智能语音系统拒识方法的步骤。
根据第四方面,本发明实施方式还公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面或第一方面任一可选实施方式所述的智能语音系统拒识方法的步骤。
本发明技术方案,具有如下优点:
本发明提供的智能语音系统拒识方法、装置及计算机设备,该方法包括:该方法包括,获取待识别音频信息,对音频信心分别进行通用识别和应用领域专用识别;分别对通用识别的结果和应用领域专用的识别结果进行分析得到第一信心分和第二信心分;若第一信心分高于第一预设阈值,将通用识别结果输入到预设拒识模型来判断是否拒识;若不拒识,基于第一规则对第一拒识结果进行规则判断;基于规则判断的结果确定是否对音频信息拒识;和/或若第二信心分高于第二预设阈值,将应用领域专用识别结果输入到预设的拒识模型来判断是否拒识;若不拒识,基于第二规则对第二拒识结果进行规则判断;基于规则判断的结果确定是否对音频信息拒识。通过对待识别的音频信息进行通用识别和应用领域专用识别可以准确对待识音频进行信心分的分析,根据信心分的分析结果来判断当前的音频信息是否是对智能语音系统的发出的指令,从而判断是否对音频信息进行拒识,若不进行拒识,则将通用识别结果和应用领域专用识别结果进行模型判断和规则判断,经过通用识别和应用领域专业识别各三个层次的拒识可以准确的对音频信息进行过滤,从而保证了智能语音系统识别到的音频信息的正确性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中智能语音系统拒识方法的一个具体示例的流程图;
图2为本发明实施例中智能语音系统拒识装置的一个具体示例的原理框图;
图3为本发明实施例中计算机设备的一个具体示例图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
智能语音对话系统应用在越来越多的场景中,本发明实施例以车载语音系统为例进行介绍。本发明实施例公开了一种智能语音系统拒识方法,如图1所示,该方法包括如下步骤:
步骤101:获取待识别的音频信息,对所述音频信心分别进行通用识别和应用领域专用识别,得到所述音频信息的通用识别结果和应用领域专用识别结果。
示例性地,待识别的音频信息可以是车载语音对话系统识别到的车辆中乘客的对话的内容,或者是驾驶人打电话的内容等,在获取到音频信息后,车载语音对话系统不会直接根据音频信息执行相应指令,需要对音频信息进行分析,判断当前的音频信息是否是对车载语音对话系统的指令。通用识别可以是由公开网络的语料构成,本发明实施例中应用领域专用识别在可以是车载场景的用词构成。本发明实施例对音频信息的类型不作限定,本领域技术人员可以根据实际需要确定。
步骤102:分别对所述通用识别结果和应用领域专用识别结果进行分析得到第一信心分和第二信心分。示例性地,对识别到的通用识别结果和应用领域专用识别结果进行分析,得到对应的信心分分数。信心分数是指对得到通用识别结果和专用领域识别结果进行分析得到的分数。
基于第一信心分,通过以下步骤103-106判断是否对该音频进行拒识,其中,步骤103:若所述第一信心分高于第一预设阈值,则将所述通用识别结果输入到预设的拒识模型得到第一拒识结果。
步骤104:基于所述第一拒识结果判断是否进行拒识。示例性地,第一拒识结果为根据上述步骤103中训练好的预设的拒识模型进行判断得到的是否拒识的结果,根据判断的结果执行相应的步骤。
示例性地,第一预设阈值为界定第一信心分的分数高低的范围,第一预设阈值的具体数值可以根据历史数据得出。如果第一信心分的分数低于第一预设阈值,则直接对相应的音频信息进行拒识,例如音频信息为“啦啦啦”,很显然并不是对车载语音对话系统发出的一段指令,此时该通用识别结果进行信心分数判断会得出较低的分数,该分数也就是判断此次对话是否是跟车载语音对话系统交互的第一信心分。拒识的目的就在于对于这些无意义的话(不太可能是对车机发出的指令的话)作出一些不响应或者忽略的动作,而不是把这些话也当作指令层层向下传递和处理,对音频信息进行拒识后不需要再执行后续的步骤。
若第一信心分的分数较高且超过设定的第一预设阈值,则说明对识别的结果不需要拒识,则将通用识别结果输入到预设的拒识模型进行判断。其中构建预设的拒识模型的过程可以是:获取音频样本信息,所述音频样本信息中标注有表征是否进行拒识的标签;将所述音频样本信息输入到神经网络模型,得到训练好的预设的拒识模型。其中音频样本为网络公开的语料。本发明实施例对第一预设阈值的大小不作限定,本领域技术人员可以根据实际需要确定。
步骤105:若不进行拒识,则基于第一规则对所述第一拒识结果进行规则判断。示例性地,第一规则为根据的公开网络的语料构成的规则形式,若上述步骤104中的第一拒识结果为不进行拒识,则将第一拒识结果进行规则判断,判断是否需要进行拒识。规则判断可以是根据识别到音频信息的语义和对应的意图进行综合判断,例如,当获取到车内连续识别的音频信息的语义为“天气真好”,对应的意图为夸赞天气,并没有对车载对话系统发出进行天气播报的指令,此时需要对该音频信息进行拒识。但是若上述音频信息的语义为“今天天气怎么样”,对应的意图为需要播报天气情况,当语义和意图是一致的,则不拒识该音频信息。
步骤106:基于所述规则判断的结果确定是否对所述音频信息进行拒识。示例性地,如上述步骤105中,语义和意图是不一致的,则拒识该音频信息,若是一致的,则不拒识音频信息,继续进行下一步骤的判断。
基于第二信心分,通过以下步骤107-110判断是否对该音频进行拒识,其中,步骤107:若所述第二信心分高于第二预设阈值,则将所述应用领域专用识别结果输入到预设的拒识模型得到第二拒识结果。
示例性地,第二预设阈值为界定第二信心分的分数高低的范围,第二预设阈值的具体数值可以根据历史数据得出。如果第二信心分的分数较低,则直接对相应的音频信息进行拒识,对音频信息进行拒识后不需要再执行后续的步骤。预设的拒识模型和步骤103中的预设的拒识模型的构建方法相同,不同的是音频样本由车载场景用词构成。例如音频信息为“刹车”,此时该应用领域专用识别结果会得出较高的分数,该分数也就是判断此次对话是否是跟车载语音对话系统交互的第二信心分。
步骤108:基于所述第二拒识结果判断是否进行拒识。示例性地,第二拒识结果为根据上述步骤107中训练好的预设的拒识模型进行判断得到的是否拒识的结果,根据判断的结果执行相应的步骤。
步骤109:若不进行拒识,则基于第二规则对所述第二拒识结果进行规则判断。示例性地,第二规则为根据的车载场景用词构成的规则形式,若上述步骤108中的第二拒识结果为不进行拒识,则将第二拒识结果进行规则判断,判断是否需要进行拒识。
步骤110:基于所述规则判断的结果确定是否对所述音频信息进行拒识。示例性地,如上述步骤109中,语义和意图是不一致的,则拒识该音频信息,若是一致的,则不拒识音频信息,继续进行下一步骤的判断。
本发明提供的智能语音系统拒识方法,该方法包括:该方法包括,获取待识别音频信息,对音频信心分别进行通用识别和应用领域专用识别;分别对通用识别的结果和应用领域专用的识别结果进行分析得到第一信心分和第二信心分;若第一信心分高于第一预设阈值,将通用识别结果输入到预设拒识模型来判断是否拒识;若不拒识,基于第一规则对第一拒识结果进行规则判断;基于规则判断的结果确定是否对音频信息拒识;和/或若第二信心分高于第二预设阈值,将应用领域专用识别结果输入到预设的拒识模型来判断是否拒识;若不拒识,基于第二规则对第二拒识结果进行规则判断;基于规则判断的结果确定是否对音频信息拒识。通过对待识别的音频信息进行通用识别和应用领域专用识别可以准确对待识音频进行信心分的分析,根据信心分的分析结果来判断当前的音频信息是否是对智能语音系统的发出的指令,从而判断是否对音频信息进行拒识,若不进行拒识,则将通用识别结果和应用领域专用识别结果进行模型判断和规则判断,经过通用识别和应用领域专业识别各三个层次的拒识可以准确的对音频信息进行过滤,从而保证了智能语音系统识别到的音频信息的正确性。
作为本发明一个可选实施方式,步骤103-步骤106与步骤107-步骤110之间可以是相互关联的,所述方法还包括:若基于所述规则判断的结果确定不对所述音频信息进行拒识,则执行步骤107-步骤110至步骤103-步骤106。
作为本发明一个可选实施方式,步骤103-步骤106与步骤107-步骤110之间可以是相互关联的,所述方法还包括:若基于所述规则判断的结果确定不对所述音频信息进行拒识,则执行步骤103-步骤106至步骤107-步骤110。
需要说明的是,本发明实施例中对于步骤103-步骤106与步骤107-步骤110的执行顺序并不限制,两者的执行顺序可以是依次顺序执行的,且可以是先执行步骤103-步骤106再执行步骤107-步骤110,如图1A所示;也可以是先执行步骤107-步骤110再执行步骤103-步骤106,如图1B所示;此外,步骤103-步骤106与步骤107-步骤110也可以是并行的,如图1C及图1D所示,在执行的过程中只要有一个步骤判断音频信息可以拒识,则不再执行后续的步骤。
作为本发明一个可选实施方式,步骤101中,对所述音频信息进行通用识别,得到所述音频信息的通用识别结果步骤,包括:将所述音频信息输入到通用声学模型,得到所述音频信息的通用声学概率;将所述音频信息输入到通用语言模型,得到所述音频信息的通用语言概率;基于解码器对所述通用声学概率和通用语言概率进行解码,得到所述通用识别结果。
示例性地,通用声学模型是根据网络公开的语料得到的声学模型,例如,大量的文章、对话等非特定车载领域的语料进行训练得到,根据将音频信息输入到通用声学模型进行得到声学概率,具体地,对于输入的音频提取它的fbank特征,声学模型会对每一帧的音频fbank特征,给出每个发音分类的概率分布。将音频信息输入到通用语言模型得到相匹配语言概率,具体地,根据语料库的不同,每个词出现的频度也不同,按照事先设定好的统一参数进行过滤(通用语言模型和专用领域语言模型的参数是统一的),形成关键的频率分布表,所以基于不同的语料库,n-gram模型会有不同的概率分布。根据解码器对通用声学概率和通用语言概率进行解码,具体的,上述每个发音分类的概率分布按照帧级别依次输入到解码图里,结合语言模型给出的概率分布(这个概率分布影响了解码图的每条边上的权重),利用路经搜索算法,寻找最大化语言模型得分加声学模型得分的词序列,做为识别结果输出。
步骤101中,对所述音频信息进行应用领域专用识别,得到所述音频信息的应用领域专用识别结果的步骤,包括:将所述音频信息输入到应用领域专用声学模型,得到所述音频信息的应用领域专用声学概率;将所述音频信息输入到应用领域专用语言模型,得到所述音频信息的应用领域专用语言概率;基于解码器对所述应用领域专用声学概率和应用领域专用语言概率进行解码,得到所述应用领域专用识别结果。
示例性地,应用领域专用声学模型是根据车载语音专用词得到的声学模型,根据将音频信息输入到应用领域专用声学模型进行得到应用领域专用声学概率,具体地,专用领域识别结果和通用识别结果的声学模型是统一的,只有语言模型有差异,所以是专用语言模型+声学模型+解码器=>专用识别结果;通用语言模型+声学模型+解码器=>通用识别结果(其中声学模型可以理解为专用声学模型,是车载领域的专用声学模型)。将音频信息输入到应用领域专用语言模型得到相匹配语言概率,具体地,得到语言概率的方法也与上述通用语言概率的方法一致,只是用的语料不一样。根据解码器对应用领域专用声学概率和应用领域专用语言概率进行解码,具体的,解码过程也是统一的,所以这里与上述内容是一样的。
作为本发明一个可选实施方式,所述通用识别结果和应用领域专用识别结果分别包括识别结果、解码代价分数以及音频帧数,其中,所述解码代价分数与对应的信心分成反比;所述通用识别结果和应用领域专用识别结果为所述音频信息识别出的语言字数,所述语言字数与所述音频信息的帧数长度的差值与信心分成反比;所述解码代价分数包括声学代价分数与语言代价分数,所述声学代价分数为所述声学概率的负对数,所述语言代价分数为所述语言概率的负对数。示例性地,解码代价分数越高,对应的信心分越低,识别结果为所述语音音频识别出的语言文字,该语言文字字数与所述音频帧数的匹配度越低,对应的信心分越低。
作为本发明一个可选实施方式,步骤105,包括:将所述第一拒识结果进行语义分析得到相应的第一领域信息和第一意图信息;判断所述第一领域信息和第一意图信息是否匹配;若所述第一领域信息和第一意图信息匹配,则不需要拒识;否则需要拒识。
示例性地,在进行规则的判断前,我们会将当前音频信息输入语义理解相关模型(可以是nlu模型),根据nlu模型对音频信息进行分类(分类信息将一句话可以区分为任务型、闲聊型、问答型、查询用户手册型等几个大类,在车载场景中,一般发出的指令都以任务型为主)以及一些具体的词槽信息,当中包含意图、领域等。
其中第一规则可以包含以下几大类规则:
如果音频信息经过nlu模型后,当前分类信息中不包含任务型信息,就直接判定为满足拒识规则去拒识;
如果音频信息经过nlu模型后,判定是任务型,但是它的意图和领域信息并不匹配,例如一句话解析出它的意图信息是open_car_window(打开车窗),但是它的领域信息是weather(天气相关领域),显然打开车窗相匹配的领域信息应该是车辆控制领域(打开车窗的操作是对于车辆部件的控制),此时就不满足该匹配原则,也会判定为经由规则的拒识。所述意图和领域的匹配信息配置于车载语音系统中,可灵活更改。
如果音频信息经过nlu模型后,词槽(slot)类型又与当前的意图不完全匹配,如音频信息为“来广营”,在车载场景下,可能会生成“导航去指定地点”这类意图,但是slot中并不包含“去/导航”这类动词,并非是对机器发出的指令而是闲聊中提到的一个地点,则会触发拒识规则。
对话系统针对一些特定的语义和动作在连续对话中是不支持的(根据车辆类型的不同,每种型号的车也具备不同的功能,可对相应车型配置一些针对性的需要拒识的意图等内容)。
作为本发明一个可选实施方式,步骤109,包括:将所述第二拒识结果进行语义分析得到相应的第二领域信息和第二意图信息;判断所述第二领域信息和第二意图信息是否匹配;若所述第二领域信息和第二意图信息匹配,则不需要拒识;否则需要拒识。
示例性地,此处的具体实施方式和上述步骤105中的类似,只是在对应的领域信息改为了本发明实施例中车载场所。例如两人在车中闲聊,A问B:“你最喜欢的歌手是谁?”“周杰伦”。此时B回答的内容经过专用邻域模型以及通用模型都被识别正确为“周杰伦”,且在前几层并不会由于专用识别结果的信心分数过低或者用通用识别结果被拒识模型或者规则判定为拒识,进而使用他的专用识别结果输入拒识模型以及在整个对话逻辑中,根据上文判定是否需要拒识,如本例,上述音频信息是“你最喜欢的歌手是谁”,与音乐播放的意图无关且当前的音频信息“周杰伦”并未携带任何动词,且判断本句未能与上一句构成多轮,综合一系列规则,判定当前音频信息并非对车机发出的指令,进而设置为拒识,且拒识的类型为使用专用识别结果走规则的拒识。
本发明实施例还公开了一种智能语音系统拒识装置,如图2所示,该装置包括:
获取模块201,用于获取待识别的音频信息,对所述音频信心分别进行通用识别和应用领域专用识别,得到所述音频信息的通用识别结果和应用领域专用识别结果。示例性地,详细内容见上述方法实施例中步骤101的内容,此处不再赘述。
信心分评价模块202,用于分别对所述通用识别结果和应用领域专用识别结果进行分析得到第一信心分和第二信心分。示例性地,详细内容见上述方法实施例中步骤102的内容,此处不再赘述。
第一模型识别模块203,用于若所述第一信心分高于第一预设阈值,则将所述通用识别结果输入到预设的拒识模型得到第一拒识结果。示例性地,详细内容见上述方法实施例中步骤103的内容,此处不再赘述。
第一判断模块204,用于基于所述第一拒识结果判断是否进行拒识。示例性地,详细内容见上述方法实施例中步骤104的内容,此处不再赘述。
第一规则识别模块205,用于若不进行拒识,则基于第一规则对所述第一拒识结果进行规则判断。示例性地,详细内容见上述方法实施例中步骤105的内容,此处不再赘述。
第二判断模块206,用于基于所述规则判断的结果确定是否对所述音频信息进行拒识。示例性地,详细内容见上述方法实施例中步骤106的内容,此处不再赘述。
第二模型识别模块207,用于若所述第二信心分高于第二预设阈值,则将所述应用领域专用识别结果输入到预设的拒识模型得到第二拒识结果。示例性地,详细内容见上述方法实施例中步骤107的内容,此处不再赘述。
第三判断模块208,用于基于所述第二拒识结果判断是否进行拒识。示例性地,详细内容见上述方法实施例中步骤108的内容,此处不再赘述。
第二规则识别模块209,用于若不进行拒识,则基于第二规则对所述第二拒识结果进行规则判断。示例性地,详细内容见上述方法实施例中步骤109的内容,此处不再赘述。
第四判断模块210,用于基于所述规则判断的结果确定是否对所述音频信息进行拒识。示例性地,详细内容见上述方法实施例中步骤110的内容,此处不再赘述。
本发明提供的智能语音系统拒识装置,获取模块201,用于获取待识别的音频信息,对所述音频信心分别进行通用识别和应用领域专用识别,得到所述音频信息的通用识别结果和应用领域专用识别结果;信心分评价模块202,用于分别对所述通用识别结果和应用领域专用识别结果进行分析得到第一信心分和第二信心分;第一模型识别模块203,用于若所述第一信心分高于第一预设阈值,则将所述通用识别结果输入到预设的拒识模型得到第一拒识结果;第一判断模块204,用于基于所述第一拒识结果判断是否进行拒识;第一规则识别模块205,用于若不进行拒识,则基于第一规则对所述第一拒识结果进行规则判断;第二判断模块206,用于基于所述规则判断的结果确定是否对所述音频信息进行拒识;和/或第二模型识别模块207,用于若所述第二信心分高于第二预设阈值,则将所述应用领域专用识别结果输入到预设的拒识模型得到第二拒识结果;第三判断模块208,用于基于所述第二拒识结果判断是否进行拒识;第二规则识别模块209,用于若不进行拒识,则基于第二规则对所述第二拒识结果进行规则判断;第四判断模块210,用于基于所述规则判断的结果确定是否对所述音频信息进行拒识。通过对待识别的音频信息进行通用识别和应用领域专用识别可以准确对待识音频进行信心分的分析,根据信心分的分析结果来判断当前的音频信息是否是对智能语音系统的发出的指令,从而判断是否对音频信息进行拒识,若不进行拒识,则将通用识别结果和应用领域专用识别结果进行模型判断和规则判断,经过通用识别和应用领域专业识别各三个层次的拒识可以准确的对音频信息进行过滤,从而保证了智能语音系统识别到的音频信息的正确性。
作为本发明一个可选实施方式,所述装置还包括:若基于所述规则判断的结果确定不对所述音频信息进行拒识,则执行第二模型识别模块207至第四判断模块210。示例性地,详细内容见上述方法实施例中的内容,此处不再赘述。
作为本发明一个可选实施方式,所述装置还包括:若基于所述规则判断的结果确定不对所述音频信息进行拒识,则执行第一模型识别模块203至模块第二判断模块206。示例性地,详细内容见上述方法实施例中的内容,此处不再赘述。
作为本发明一个可选实施方式,获取模块201中,包括:第一声学概率模块,用于将所述音频信息输入到通用声学模型,得到所述音频信息的通用声学概率;第一语言概率模块,用于将所述音频信息输入到通用语言模型,得到所述音频信息的通用语言概率;第一解码模块,用于基于解码器对所述通用声学概率和通用语言概率进行解码,得到所述通用识别结果。示例性地,详细内容见上述方法实施例中步骤101的内容,此处不再赘述。
作为本发明一个可选实施方式,获取模块201中,包括:第二声学概率模块,用于将所述音频信息输入到应用领域专用声学模型,得到所述音频信息的应用领域专用声学概率;第二语言概率模块,用于将所述音频信息输入到应用领域专用语言模型,得到所述音频信息的应用领域专用语言概率;第二解码模块,用于基于解码器对所述应用领域专用声学概率和应用领域专用语言概率进行解码,得到所述应用领域专用识别结果。示例性地,详细内容见上述方法实施例中步骤101的内容,此处不再赘述。
作为本发明一个可选实施方式,第一规则识别模块205,包括:第一分析模块,用于将所述第一拒识结果进行语义分析得到相应的第一领域信息和第一意图信息;第一匹配模块,用于判断所述第一领域信息和第一意图信息是否匹配,若所述第一领域信息和第一意图信息匹配,则不需要拒识,否则需要拒识。示例性地,详细内容见上述方法实施例中步骤105的内容,此处不再赘述。
作为本发明一个可选实施方式,第二规则识别模块209,包括:第一分析模块,用于将所述第二拒识结果进行语义分析得到相应的第二领域信息和第二意图信息;第一匹配模块,用于判断所述第二领域信息和第二意图信息是否匹配,若所述第二领域信息和第二意图信息匹配,则不需要拒识,否则需要拒识。示例性地,详细内容见上述方法实施例中步骤109的内容,此处不再赘述。
本发明实施例还提供了一种计算机设备,如图3所示,该计算机设备可以包括处理器301和存储器302,其中处理器301和存储器302可以通过总线或者其他方式连接,图3中以通过总线连接为例。
处理器301可以为中央处理器(Central Processing Unit,CPU)。处理器301还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器302作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的智能语音系统拒识方法对应的程序指令/模块。处理器301通过运行存储在存储器302中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的智能语音系统拒识方法。
存储器302可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器301所创建的数据等。此外,存储器302可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器302可选包括相对于处理器301远程设置的存储器,这些远程存储器可以通过网络连接至处理器301。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器302中,当被所述处理器301执行时,执行如图1所示实施例中的智能语音系统拒识方法。
上述计算机设备具体细节可以对应参阅图1所示的实施例中对应的相关描述和效果进行理解,此处不再赘述。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下作出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种智能语音系统拒识方法,其特征在于,包括:
获取待识别的音频信息,对所述音频信心分别进行通用识别和应用领域专用识别,得到所述音频信息的通用识别结果和应用领域专用识别结果;
分别对所述通用识别结果和应用领域专用识别结果进行分析得到第一信心分和第二信心分;
若所述第一信心分高于第一预设阈值,则将所述通用识别结果输入到预设的拒识模型得到第一拒识结果;
基于所述第一拒识结果判断是否进行拒识;
若不进行拒识,则基于第一规则对所述第一拒识结果进行规则判断;
基于所述规则判断的结果确定是否对所述音频信息进行拒识;和/或
若所述第二信心分高于第二预设阈值,则将所述应用领域专用识别结果输入到预设的拒识模型得到第二拒识结果;
基于所述第二拒识结果判断是否进行拒识;
若不进行拒识,则基于第二规则对所述第二拒识结果进行规则判断;
基于所述规则判断的结果确定是否对所述音频信息进行拒识。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若基于所述规则判断的结果确定不对所述音频信息进行拒识,则执行若所诉第二信心分高于第二预设阈值,则将所述通用识别结果输入到预设的拒识模型得到第二拒识结果至基于所述规则判断的结果确定是否对所述音频信息进行拒识的步骤。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若基于所述规则判断的结果确定不对所述音频信息进行拒识,则执行若所述第一信心分高于第一预设阈值,则将所述应用领域专用识别结果输入到预设的拒识模型得到第一拒识结果至基于所述规则判断的结果确定是否对所述音频信息进行拒识的步骤。
4.根据权利要求1所述的方法,其特征在于,所述对所述音频信心分别进行通用识别和应用领域专用识别,得到所述音频信息的通用识别结果和应用领域专用识别结果,包括:
将所述音频信息输入到通用声学模型,得到所述音频信息的通用声学概率;
将所述音频信息输入到通用语言模型,得到所述音频信息的通用语言概率;
基于解码器对所述通用声学概率和通用语言概率进行解码,得到所述通用识别结果;
将所述音频信息输入到应用领域专用声学模型,得到所述音频信息的应用领域专用声学概率;
将所述音频信息输入到应用领域专用语言模型,得到所述音频信息的应用领域专用语言概率;
基于解码器对所述应用领域专用声学概率和应用领域专用语言概率进行解码,得到所述应用领域专用识别结果。
5.根据权利要求1所述的方法,其特征在于,所述通用识别结果和应用领域专用识别结果分别包括识别结果、解码代价分数以及音频帧数,其中,
所述解码代价分数与对应的信心分成反比;
所述通用识别结果和应用领域专用识别结果为所述音频信息识别出的语言字数,所述语言字数与所述音频信息的帧数长度的差值与信心分成反比;
所述解码代价分数包括声学代价分数与语言代价分数,所述声学代价分数为所述声学概率的负对数,所述语言代价分数为所述语言概率的负对数。
6.根据权利要求1所述的方法,其特征在于,基于第一规则对所述第一拒识结果进行规则判断,基于所述规则判断的结果确定是否对所述音频信息进行拒识的过程,包括:
将所述第一拒识结果进行语义分析得到相应的第一领域信息和第一意图信息;
判断所述第一领域信息和第一意图信息是否匹配;
若所述第一领域信息和第一意图信息匹配,则不需要拒识;否则需要拒识。
7.根据权利要求1所述的方法,其特征在于,基于第二规则对所述第二拒识结果进行规则判断,基于所述规则判断的结果确定是否对所述音频信息进行拒识的过程,包括:
将所述第二拒识结果进行语义分析得到相应的第二领域信息和第二意图信息;
判断所述第二领域信息和第二意图信息是否匹配;
若所述第二领域信息和第二意图信息匹配,则不需要拒识;否则需要拒识。
8.一种智能语音系统拒识装置,其特征在于,包括:
获取模块,用于获取待识别的音频信息,对所述音频信心分别进行通用识别和应用领域专用识别,得到所述音频信息的通用识别结果和应用领域专用识别结果;
信心分评价模块,用于分别对所述通用识别结果和应用领域专用识别结果进行分析得到第一信心分和第二信心分;
第一模型识别模块,用于若所述第一信心分高于第一预设阈值,则将所述通用识别结果输入到预设的拒识模型得到第一拒识结果;
第一判断模块,用于基于所述第一拒识结果判断是否进行拒识;
第一规则识别模块,用于若不进行拒识,则基于第一规则对所述第一拒识结果进行规则判断;
第二判断模块,用于基于所述规则判断的结果确定是否对所述音频信息进行拒识;和/或
第二模型识别模块,用于若所述第二信心分高于第二预设阈值,则将所述应用领域专用识别结果输入到预设的拒识模型得到第二拒识结果;
第三判断模块,用于基于所述第二拒识结果判断是否进行拒识;
第二规则识别模块,用于若不进行拒识,则基于第二规则对所述第二拒识结果进行规则判断;
第四判断模块,用于基于所述规则判断的结果确定是否对所述音频信息进行拒识。
9.一种计算机设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-7任一所述的智能语音系统拒识方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的智能语音系统拒识方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111514511.1A CN114203178B (zh) | 2021-12-10 | 2021-12-10 | 一种智能语音系统拒识方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111514511.1A CN114203178B (zh) | 2021-12-10 | 2021-12-10 | 一种智能语音系统拒识方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114203178A true CN114203178A (zh) | 2022-03-18 |
CN114203178B CN114203178B (zh) | 2022-09-20 |
Family
ID=80652687
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111514511.1A Active CN114203178B (zh) | 2021-12-10 | 2021-12-10 | 一种智能语音系统拒识方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114203178B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150371639A1 (en) * | 2014-06-24 | 2015-12-24 | Google Inc. | Dynamic threshold for speaker verification |
CN105575386A (zh) * | 2015-12-18 | 2016-05-11 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN107665708A (zh) * | 2016-07-29 | 2018-02-06 | 科大讯飞股份有限公司 | 智能语音交互方法及系统 |
CN111583919A (zh) * | 2020-04-15 | 2020-08-25 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
WO2021208392A1 (zh) * | 2020-04-15 | 2021-10-21 | 思必驰科技股份有限公司 | 用于人机对话的语音技能跳转方法、电子设备及存储介质 |
-
2021
- 2021-12-10 CN CN202111514511.1A patent/CN114203178B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150371639A1 (en) * | 2014-06-24 | 2015-12-24 | Google Inc. | Dynamic threshold for speaker verification |
CN105575386A (zh) * | 2015-12-18 | 2016-05-11 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN107665708A (zh) * | 2016-07-29 | 2018-02-06 | 科大讯飞股份有限公司 | 智能语音交互方法及系统 |
CN111583919A (zh) * | 2020-04-15 | 2020-08-25 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
WO2021208392A1 (zh) * | 2020-04-15 | 2021-10-21 | 思必驰科技股份有限公司 | 用于人机对话的语音技能跳转方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114203178B (zh) | 2022-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112804400B (zh) | 客服呼叫语音质检方法、装置、电子设备及存储介质 | |
JP6458149B2 (ja) | 車載音声命令の認識方法、装置及び記憶媒体 | |
CN107240398B (zh) | 智能语音交互方法及装置 | |
CN108364650B (zh) | 语音识别结果的调整装置及方法 | |
CN109920410B (zh) | 用于基于车辆的环境确定推荐的可靠性的装置和方法 | |
CN111191450B (zh) | 语料清洗方法、语料录入设备及计算机可读存储介质 | |
CN108388553B (zh) | 对话消除歧义的方法、电子设备及面向厨房的对话系统 | |
CN105931644A (zh) | 一种语音识别方法及移动终端 | |
CN113221580B (zh) | 语义拒识方法、语义拒识装置、交通工具及介质 | |
CN113506574A (zh) | 自定义命令词的识别方法、装置和计算机设备 | |
CN112581938B (zh) | 基于人工智能的语音断点检测方法、装置和设备 | |
CN108595406B (zh) | 一种用户状态的提醒方法、装置、电子设备及存储介质 | |
CN110910903A (zh) | 语音情绪识别方法、装置、设备及计算机可读存储介质 | |
CN112992191B (zh) | 语音端点检测方法、装置、电子设备及可读存储介质 | |
CN117407507A (zh) | 基于大语言模型的事件处理方法、装置、设备及介质 | |
CN114203178B (zh) | 一种智能语音系统拒识方法、装置及计算机设备 | |
CN111640450A (zh) | 多人声音频处理方法、装置、设备及可读存储介质 | |
CN115512687A (zh) | 一种语音断句方法、装置、存储介质及电子设备 | |
CN111970311B (zh) | 会话切分方法、电子设备及计算机可读介质 | |
CN112735384A (zh) | 应用于说话人分离的转折点检测方法、装置以及设备 | |
CN115132198B (zh) | 数据处理方法、装置、电子设备、程序产品及介质 | |
CN116189680B (zh) | 一种展演智能设备的语音唤醒方法 | |
CN116206598A (zh) | 一种数据生成和车载语音识别方法、装置及电子设备 | |
US20230178071A1 (en) | Method for determining a vehicle domain and a speech recognition system for a vehicle | |
CN116913249A (zh) | 一种多方言智能语音交互方法、智能座舱、电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |