CN110473543A

CN110473543A - 一种语音识别方法、装置

Info

Publication number: CN110473543A
Application number: CN201910913836.3A
Authority: CN
Inventors: 张伟萌; 戴帅湘
Original assignee: Beijing Suddenly Cognitive Technology Co Ltd
Current assignee: Beijing Suddenly Cognitive Technology Co Ltd
Priority date: 2019-09-25
Filing date: 2019-09-25
Publication date: 2019-11-19
Anticipated expiration: 2039-09-25
Also published as: CN110473543B

Abstract

本发明公开了一种语音识别方法，包括：接收用户输入的语音指令；对语音指令进行初始语音识别，确定语音指令的一个或多个初始候选分词识别结果；判断是否有未识别的分词，如果有，判断该分词在所述语音指令的重要程度，如果重要，判断是否已存在针对所述未识别的分词的第一候选识别结果集，如果存在，获取第一候选识别结果集中的多个候选答案的属性信息；根据所述属性信息，确定第一候选答案；根据所述第一候选答案以及所述初始候选分词识别结果构建语音指令的识别结果；向用户反馈识别结果和/或执行所述语音指令。通过本发明的方法，能够加快对未登录词的理解，加强人机对话和自然语言理解的智能化水平，提高语音识别效率，提升用户使用体验。

Description

一种语音识别方法、装置

技术领域

本发明实施例涉及信息处理技术领域，特别涉及一种语音识别方法、装置。

背景技术

随着语音识别技术的不断发展，语音交互也在改变与智能设备的对话模式和提升日常应用的便捷度。语音交互过程不但需要基于声学的语音识别，还需要自然语言处理(Natural Language Process，NLP)，但在NLP过程中，一旦用户的表述中出现未登录词，即各类没有被现有知识收录的专有名词(人名、地名、企业名等)、缩写词、新增词汇等，则会严重影响NLP的处理效果。

如何加快对未登录词的理解，加强人机对话和自然语言理解的智能化水平，提高语音识别效率，提升用户使用体验成为一个亟待解决的问题。

发明内容

针对现有技术中的问题，本发明提供一种语音识别方法、装置、终端设备和计算机可读存储介质。

本发明提供一种语音识别方法，其特征在于，所述方法包括：

步骤101，接收用户输入的语音指令；

步骤102，对所述用户输入的语音指令进行初始语音识别，确定所述语音指令的一个或多个初始候选分词识别结果；

步骤103，判断是否有未识别的分词，如果有未识别的分词，判断该分词在所述语音指令的重要程度，如果重要，则执行步骤104；

步骤104，判断是否已存在针对所述未识别的分词的第一候选识别结果集，如果存在，获取第一候选识别结果集中的多个候选答案的属性信息，所述属性信息包括候选答案的反馈值和/或反馈用户；

步骤105，根据所述属性信息，确定第一候选答案；

步骤106，根据所述第一候选答案以及所述初始候选分词识别结果构建语音指令的识别结果；

步骤107，向用户反馈所述语音指令的识别结果和/或执行所述语音指令。

本发明还提供一种语音识别装置，其特征在于，所述装置包括：

输入单元，接收用户输入的语音指令；

初始识别单元，对所述用户输入的语音指令进行初始语音识别，确定所述语音指令的一个或多个初始候选分词识别结果；

词性判断单元，判断是否有未识别的分词，如果有未识别的分词，判断该分词在所述语音指令的重要程度，如果重要，则触发答案获取单元；

答案获取单元，判断是否已存在针对所述未识别的分词的第一候选识别结果集，如果存在，获取所述第一候选识别结果集中的多个候选答案的属性信息，所述属性信息包括候选答案的反馈值和/或反馈用户；

答案确定单元，根据所述属性信息，确定第一候选答案；

结果生成单元，根据所述第一候选答案以及所述初始候选分词识别结果构建语音指令的识别结果；

输出单元，向用户反馈所述语音指令的识别结果和/或执行所述语音指令。

本发明还提供一种终端设备，其特征在于，所述终端设备包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如上所述的方法。

本发明还提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。

通过本发明的方法，能够提高对未登录词的理解，提高人机对话和自然语言理解的智能化水平，提升了用户的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例中的一种语音识别方法。

图2是本发明一个实施例中的一种语音识别装置。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。本发明的实施例以及实施例的具体特征是对本发明实施例技术方案的详细说明，而非对本发明说明书技术方案的限定，在不冲突的情况下，本发明的实施例以及实施例的技术特征可以相互结合。

实施例一

参考图1，本发明实施例一提供一种语音识别方法，其特征在于，所述方法包括：

步骤101，接收用户输入的语音指令；

步骤105，根据所述属性信息，确定第一候选答案；

优选地，所述步骤103还包括

如果不重要，则忽略该分词，基于其他分词的初始候选分词识别结果，构建语音指令的识别结果，执行步骤107。

优选地，步骤104还包括

判断是否已存在针对所述未识别的分词的第一候选识别结果集，如果不存在，拆分所述未识别的分词为多个独立字，基于所述独立字确定所述未识别的分词的第一候选识别结果集，所述第一候选识别结果集包含多个候选答案，根据置信度对所述多个候选答案进行优先级排序。

优选地，步骤105包括

根据所述反馈用户信息，确定所述用户与反馈用户之间相似度，如果所述相似度大于等于第一阈值，则根据候选答案的反馈值，确定第一候选答案。

优选地，步骤107之后还包括

步骤108，接收用户的反馈信息，所述反馈信息包含第二语音指令和/或用户情绪数据。

具体地，所述方法应用于具有语音助手或具有语音识别功能的终端，所述终端可以是移动终端，车载终端，计算机，智能家电等电子设备；所述步骤101中，可以通过终端的麦克风接收用户的语音指令。

在所述步骤102中，对所述用户输入的语音指令进行初始语音识别，确定所述语音指令包含的一个或多个音素；基于所述一个或多个音素，确定所述语音指令的一个或多个初始候选分词识别结果。

所述步骤103中判断是否有未识别的分词，如果有未识别的分词，判断该分词在所述语音指令的重要程度。在用户的语音指令中，可能出现无意义的未收录专有名词，例如，用户自创名词，但并未对语音指令的整体含义有影响，例如，用户发出语音指令，“xiangchi***daohangquxidandayuecheng”，通过步骤102中的初始语音识别得到初始候选分词识别结果“想吃，***，导航，去，西单大悦城”，其中“***”作为未识别的分词，在步骤103中判断该未识别的分词对用户语音指令的意图并不重要，如果此时，反馈一个***的可能答案，如果该答案错误，用户可能会对结果不满，但由于其意图也不是要终端理解具体要吃什么，而是设定导航路线，执行导航任务。此时，该分词在所述语音指令的重要程度为不重要，忽略该分词，基于其他分词的初始候选分词识别结果，构建语音指令的识别结果。如果用户发出的语音指令为“daohangqushilunkaoyuefan”，通过步骤102中的分词初始识别结果，“导航，去，shilunkao，约饭”，其中“shilunkao”为未识别的结果，根据上下文语义分析，发现该分词关系到语音指令的具体含义以及执行目的地，缺少该分词将导致语音指令的无法识别以及无法执行。因此，该未识别分词的重要程度为重要。

在步骤104，判断是否已存在针对所述未识别的分词的第一候选识别结果集，如果存在，获取候选识别结果集中的多个候选答案的属性信息，所述属性信息包括候选答案的反馈值和/或反馈用户；

具体地，使用同一或不同的语音识别应用的用户可共用语音识别的识别模型以及多个语料数据库，可存储用户的使用记录，以根据用户的反馈训练识别模型和语料数据库；

比如用户A使用语音助手时，输入语音指令“xianzaiqushilunkao”，语音指令包含“shilunkao”未被识别，而系统中尚无用户输入过“shilunkao”，显然此时，识别模型以及语料数据库不存在针对该未识别的分词的第一候选识别结果集，此时拆分所述未识别的分词为多个独立字，例如上述“shilunkao”可以被拆分为“shi”、“lun”、“kao”、，或者“shi”、“lun”、“ka”、“o”，基于所述独立字确定所述未识别的分词的第一候选识别结果集，所述第一候选识别结果集包含多个候选答案，例如：时论考、诗论考，食论烤，时论烤，什伦卡欧……，根据置信度对所述多个候选答案进行优先级排序，例如基于语音指令上下文，或者基于采集的语音指令外的对话、用户最近的检索信息，或者用户当前打开的应用，确定候选答案置信度，对候选答案进行排序：食论烤，时论烤、时论考、诗论考，什伦卡欧。此时，向用户反馈的优选识别结果为排位第一的答案“食论烤”。用户针对该结果可提供反馈，例如，在向用户反馈识别结果和/或执行所述语音指令的同时，采集用户是否进行再次语音输入，或者通过图像传感器，例如摄像头等采集用户表情和/或肢体姿势；确定用户对本次识别结果是否认同，如果用户对本次识别结果不认同，则认为针对该未识别分词的候选答案错误，此时，基于用户的反馈，对候选集中的候选答案进行属性标记，例如，登记反馈值-1，以及用户A的ID。

所述每一候选答案可映射存储一个属性信息，其中，候选答案的反馈值包括对候选答案的正向反馈值和负向反馈值，候选答案的反馈用户包括对该候选答案给出正向反馈和负向反馈的用户。例如，用户A反馈该答案不可信，此时，食论烤的属性信息为{-1，用户A，0，null}，其中，-1表示负向反馈，+1表示正向反馈，即用户A登记反馈值-1，无反馈该答案为正确的用户；此时针对第一候选识别结果集包含的多个候选答案进行重新排序，由于初始的多个候选答案的正向反馈值和负向反馈值均默认置0，因此，将用户A不认同的候选答案置为序列最后。如果存在用户C反馈该答案可信，则可标记属性信息为{-1，用户A，+1，用户C}。此时，尽管针对该答案存在非0的正向反馈值和负向反馈值，但反馈总值为0，且初始的其他多个候选答案的正向反馈值和负向反馈值还是默认值0，因此，第一候选识别结果集包含的多个候选答案可不进行重新排序。即，基于反馈总值和正向反馈值执行排序，如果反馈总值相同，则基于正向反馈值排序，例如，如果存在另一候选答案a，其属性信息为{-2，用户A、用户D，+2，用户C、用户E}，此时属性信息为{-1，用户A，+1，用户C}的答案b优先级小于答案a，此时第一候选识别结果集中答案a排在该答案b之前。

进而，如果用户B在输入的语音指令中也包含“shilunkao”，此时，无需再进行拆分处理单字识别，构建第一候选识别结果集的过程，而是直接获取第一候选识别结果集，进而获取所述第一候选识别结果集中的多个候选答案的属性信息，所述属性信息包括候选答案的反馈值和/或反馈用户。

在所述步骤105中，如果第一候选识别结果集中排序首位的候选答案属性信息中正向反馈值和负向反馈值均为0，反馈用户为空，则，提供该候选答案作为第一候选答案。

此外，当属性信息中反馈用户不为空时，在所述步骤105中，根据所述反馈用户信息，确定所述用户与反馈用户之间相似度，如果所述相似度大于等于第一阈值，则根据候选答案的属性信息中所述反馈用户的反馈值，确定第一候选答案，即根据所述反馈用户给出的是正反馈还是负反馈，确定第一候选答案。

具体地，假设用户X为候选答案i的属性信息中正向反馈的用户，例如在前的用户C、用户E；用户Y为候选答案i的属性信息中负向反馈的用户，例如在前的用户A、用户D；对用户相似度的计算，可以基于云端大数据统计，例如用户X、Y和用户B兴趣点的相似度，用户X、Y和用户B地理位置的相似度，用户X，Y和用户B籍贯的相似度等，当所述相似度大于等于第一阈值时，可以认为用户X、Y和用户B表述的分词相同，此时，根据属性信息中用户X、Y的反馈值如+1(正向)、-1(负向)，确定候选答案i可能是或可能不是用户B表述的分词真正含义，如果用户B与候选答案i的属性信息中用户X的相似度大于等于第一阈值，由于此时用户X的反馈值为正向，则将候选答案i作为提供给用户B的第一候选答案。如果用户B与候选答案i的属性信息中用户Y的相似度大于等于第一阈值，由于此时用户Y的反馈值为负向，排除候选答案i，将其他候选答案中排序最高，即在其他候选答案中具有最高优先级的候选答案作为第一候选答案。

在所述步骤106中，根据所述第一候选答案以及所述初始候选分词识别结果构建语音指令的识别结果。

具体地，例如在前用户B使用语音助手时，输入语音指令“daohangqushilunkaoyuefan”，根据第一候选答案“时论烤”以及所述初始候选分词识别“导航”、“去”、“约饭”，构建语音指令的识别结果：导航/去/时论烤/约饭。

在所述步骤107中，向用户反馈所述语音指令的识别结果和/或执行所述语音指令。

具体地，向用户反馈识别结果：是需要导航去时论烤么？

可以在反馈识别结果的同时或之后，执行语音指令；或者直接执行语音指令，例如直接进入导航应用，将导航目的地设置为时论烤。

在所述步骤108中，接收用户的反馈信息，所述反馈信息包含第二语音指令和/或用户情绪数据。

监测用户反馈，例如接收用户的第二语音指令，所述第二语音指令指示用户表达的对答案的认可度，如对或不对，或者所述第二语音指令为重复的指令；如果用户表达认可，则认为识别结果正确，如果用户表达不对，或者重复，则认为用户不认可该识别结果；或者采集用户的情绪数据，例如，通过图像传感器，或其他人体可穿戴设备，判断用户时处于认可，满意，或不开心、愤怒，如果用户情绪为不开心或愤怒，则认为用户不认可该识别结果；如果用户情绪为认可，满意，则认为识别结果正确，或者用户无反应，例如2秒内，无反馈，默认识别结果正确。

此外，在用户反馈识别结果不正确时，可主动向用户提问未识别分词的含义，基于用户修正的答案，补充第一候选识别结果集，并基于该修正的答案更新其属性信息，例如将该修正的答案的属性信息中正反馈值+1，并记录用户ID。

当第一候选识别结果集中候选答案z的正向反馈值大于等于第二阈值时，认为候选答案为针对该未识别分词的专有名词，此时，可以将其收录至专有名词库，从而优选语音识别，提高人机对话和自然语言理解NLP的智能化水平。

通过本发明的方法，能够加快对未登录词的理解，加强人机对话和自然语言理解的智能化水平，提高语音识别效率，提升用户使用体验。

实施例二

参考图2，本发明实施例二还提供一种语音识别装置，其特征在于，所述装置包括：

输入单元，接收用户输入的语音指令；

答案获取单元，判断是否已存在针对所述未识别的分词的第一候选识别结果集，如果存在，获取候选识别结果集中的多个候选答案的属性信息，所述属性信息包括候选答案的反馈值和/或反馈用户；

答案确定单元，根据所述属性信息，确定第一候选答案；

优选地，所述词性判断单元还用于，如果不重要，则忽略该分词；

所述结果生成单元还用于，基于其他分词的初始候选分词识别结果，构建语音指令的识别结果。

优选地，所述答案获取单元，还用于

优选地，所述答案确定单元，还用于

根据所述反馈用户信息，确定所述用户与反馈用户之间相似度，如果所述相似度大于等于第一阈值，则根据候选答案的属性信息中所述反馈用户的反馈值，确定第一候选答案。

优选地，所述输入单元还用于

接收用户的反馈信息，所述反馈信息包含第二语音指令和/或用户情绪数据。

通过本发明的装置，能够加快对未登录词的理解，加强人机对话和自然语言理解的智能化水平，提高语音识别效率，提升用户使用体验。

本发明提供一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质可以包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、闪存、可擦式可编程只读存储器(EPROM)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码。

以上说明只是为了方便理解本发明而举出的例子，不用于限定本发明的范围。在具体实现时，本领域技术人员可以根据实际情况对装置的部件进行变更、增加、减少，在不影响方法所实现的功能的基础上可以根据实际情况对方法的步骤进行变更、增加、减少或改变顺序。

尽管已经示出和描述了本发明的实施例，本领域技术人员应当理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同替换所限定，在未经创造性劳动所作的改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音识别方法，其特征在于，所述方法包括：

步骤101，接收用户输入的语音指令；

步骤104，判断是否已存在针对所述未识别的分词的第一候选识别结果集，如果存在，获取所述第一候选识别结果集中的多个候选答案的属性信息，所述属性信息包括候选答案的反馈值和/或反馈用户；

步骤105，根据所述属性信息，确定第一候选答案；

2.根据权利要求1所述的方法，其特征在于，所述步骤103还包括

3.根据权利要求1所述的方法，其特征在于，步骤104还包括

4.根据权利要求1所述的方法，其特征在于，步骤105包括

5.根据权利要求1所述的方法，其特征在于，步骤107之后还包括

6.一种语音识别装置，其特征在于，所述装置包括：

输入单元，接收用户输入的语音指令；

答案确定单元，根据所述属性信息，确定第一候选答案；

7.根据权利要求6所述的装置，其特征在于，

所述词性判断单元还用于，如果不重要，则忽略该分词；

8.根据权利要求6所述的装置，其特征在于，所述答案获取单元，还用于

9.根据权利要求6所述的装置，其特征在于，所述答案确定单元，还用于

10.根据权利要求6所述的装置，其特征在于，所述输入单元还用于

11.一种终端设备，其特征在于，所述终端设备包括处理器和存储器，所述存储器中存储有可在处理器上运行的计算机程序，所述计算机程序在被所述处理器执行时实现如权利要求1至5任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如权利要求1至5任一项所述的方法。