CN112530421B

CN112530421B - 语音识别方法、电子设备及存储装置

Info

Publication number: CN112530421B
Application number: CN202011210822.4A
Authority: CN
Inventors: 吴思远
Original assignee: iFlytek Co Ltd
Current assignee: University of Science and Technology of China USTC; iFlytek Co Ltd
Priority date: 2020-11-03
Filing date: 2020-11-03
Publication date: 2023-04-07
Anticipated expiration: 2040-11-03
Also published as: CN112530421A

Abstract

本申请公开了一种语音识别方法、电子设备比及存储装置，其中，语音识别方法包括：采集语音数据；获取语音数据的识别结果；对识别结果进行候选扩展，得到候选识别结果；显示候选识别结果。上述方案，能够提高语音识别的准确性。

Description

语音识别方法、电子设备及存储装置

技术领域

本申请涉及语音识别领域，特别是涉及一种语音识别方法、电子设备比及存储装置。

背景技术

随着电子信息技术的飞速发展，语音识别已应用到人们日常生活、工作的方方面面，从语音输入法，到视频/电话会议的实时转写，乃至智能机器人，都离不开语音识别。故此，如何提高语音识别的准确性成为极具研究价值的课题。

发明内容

本申请主要解决的技术问题是提供一种语音识别方法、电子设备以及存储装置，能够提高语音识别的准确性。

为了解决上述问题，本申请第一方面提供了一种语音识别方法，包括：采集语音数据；获取语音数据的识别结果；对识别结果进行候选扩展，得到候选识别结果；显示候选识别结果。

为了解决上述问题，本申请第二方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的语音识别方法。

为了解决上述问题，本申请第三方面提供了一种存储装置，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面中的语音识别方法。

上述方案，通过采集语音数据，获取语音数据的识别结果，从而对识别结果进行候选扩展，得到候选识别结果，以显示候选识别结果。故此，能够在识别结果的基础上，进一步对识别结果进行候选扩展，从而能够有利于通过候选扩展，弥补因多音字等可能导致的识别结果中存在识别误差，进而能够有利于提高语音识别的准确性。

附图说明

图1是本申请语音识别方法一实施例的流程示意图；

图2是图1中步骤S12一实施例的流程示意图；

图3是图1中步骤S13一实施例的流程示意图；

图4是候选扩展模型一实施例的框架示意图；

图5是本申请语音识别方法另一实施例的流程示意图；

图6是本申请电子设备一实施例的框架示意图；

图7是本申请存储装置一实施例的框架示意图。

具体实施方式

下面结合说明书附图，对本申请实施例的方案进行详细说明。

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、接口、技术之类的具体细节，以便透彻理解本申请。

本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。此外，本文中的“多”表示两个或者多于两个。

请参阅图1，图1是本申请语音识别方法一实施例的流程示意图。具体而言，可以包括如下步骤：

步骤S11：采集语音数据。

本公开实施例中的步骤具体由电子设备执行，电子设备可以包括但不限于：手机、笔记本电脑、平板电脑等，在此不做限定。

在一个实施场景中，电子设备可以是诸如手机、平板电脑等集成有麦克风的设备，以通过电子设备内置的麦克风，采集得到语音数据；在另一个实施场景中，电子设备也可以是诸如台式计算机等本身并不集成麦克风的设备，在此情形下，电子设备可以外接麦克风，以通过电子设备外接的麦克风，采集得到语音数据。

在一个实施场景中，为了提高后续语音识别的准确性，在通过麦克风采集得到原始音频之后，还可以对该原始音频进行降噪处理，并将降噪处理之后的数据，作为语音数据。例如，可以通过以下任一者方式进行降噪处理：非线性谱减法、多带谱减法、扩展谱减法等，在此不做限定。

在另一个实施场景中，为了提高语音识别的实时性，可以每隔预设时长执行采集语音数据的步骤，以分别采集得到若干个预设时长的语音数据，从而依次对预设时长的语音数据进行识别，进而通过本公开实施例中下述步骤，依次得到每一语音数据对应的候选识别结果。故此，能够避免在用户长时间输入语音的情况下，因等待用户输入完毕语音而导致的识别迟滞，从而能够有利于提高语音识别的实时性，提高用户体验。例如，在会议发言、演讲等场景中，往往存在用户在较长一段时间内持续不断地输入语音，若等用户输入完毕，再对语音数据进行识别，则将大大影响语音识别的实时性，故可以每隔预设时长(如，30秒、1分钟等)执行采集语音数据的步骤，以在用户持续输入语音的过程中，依次获取若干个预设时长的语音数据，并依次对预设时长的语音数据进行识别，提高语音识别的实时性；或者，也可以持续采集语音数据，每次对其中预设时长的语音数据进行识别，以实现边采集边识别，提高语音识别的实时性。

步骤S12：获取语音数据的识别结果。

在一个实施场景中，电子设备可以具有语音识别功能，从而电子设备在得到语音数据之后，可以对其进行识别，得到识别结果。例如，电子设备内可以运行有语音识别模型，用于识别语音数据。语音识别模型可以利用标注有对应的样本文本的样本语音数据预先训练得到的。语音识别模型具体可以是以下任一者：Wave-Net、LAS(Listen Attend andSpell)、CLAS(Contextual LAS)等，在此不做限定。

在另一个实施场景中，还可以将语音数据上传到云端(如，服务器等)，从而利用云端对语音数据进行识别，得到识别结果，并接收来自云端的识别结果。上述方式，可以通过云端分担识别语音数据的计算负荷，从而能够大大降低电子设备本地的计算负荷，降低电子设备的软硬件要求，有利于降低电子设备的成本。

在又一个实施场景中，在采集得到语音数据之后，还可以提取语音数据的特征，并将语音数据的特征发送给云端，从而接收来自于云端的识别结果，且识别结果是云端对语音数据的特征进行语音识别而得到的。上述方式，相较于前述实施场景所述的直接将语音数据上传至云端，能够减轻云端的负载压力，特别是在高峰期云端需要执行高达数百万次的交互的情况下，能够大大减轻云端的负载压力，并降低高峰期发生交互延迟的概率，有利于提升用户体验。

在一个具体的实施场景中，语音数据的特征具体可以包括通用音频特征和说话人特征。通用音频特征包括语音数据内容的特征表示，说话人特征包括语音数据表现出的用户口音、语调等的特征表示。上述方式，可以结合通用音频特征和说话人特征两者共同进行语音识别，从而一方面能够基于通用音频特征确保通用的识别率，另一面能够基于说话人特征提高对不同地区、不同性别等用户说话的个性化差异的适应性，进而能够有利于提高语音识别的准确性。此外，在语音数据的特征包括通用音频特征和说话人特征的情况下，可以将通用音频特征和说话人特征进行拼接，作为语音数据的特征，并上传至云端。

在另一个具体的实施场景中，在语音数据的特征包括通用音频特征和说话人特征的情况下，通用音频特征具体可以采用第一预设维度(如120维等)的向量予以表示，说话人特征具体可以采用第二预设维度(如100维等)的向量予以表示，为了便于描述，通用音频特征可以记为F，说话人音频特征可以记为V，故对于一段持续时长为3秒的音频数据，在每个10毫秒提取一段特征，且第一预设维度为120维，第二预设维度为100维的情况下，总计提取3*100*120+3*100*100＝66000维特征，若每一维占1个bit，则3秒的音频数据总共占66kbit。与此同时，对于3秒的音频数据，在音频数据的采样率为16kHz，且采用16bit量化的情况下，音频数据本身需占用16000*16*3＝768kbit。由此可见，语音数据的特征的数据量远小于语音数据本身的数据量，故此，通过对语音数据提取特征，并将语音数据的特征上传至云端，能够大大降低上传的传输字节，并大大降低音频数据所需的上传带宽。

步骤S13：对识别结果进行候选扩展，得到候选识别结果。

在一个实施场景中，基于电子设备本地所存储的属于用户的个性化词汇，对识别结果中的各个词汇进行匹配，在个性化词汇能够匹配上识别结果中的词汇的情况下，可以在识别结果中与个性化词汇匹配上的词汇位置处插入发音相似度匹配的个性化词汇，以进行候选扩展。上述方式，既能够提高用户个性化词汇的识别准确率，也能够减少通用识别的误串扰。

在一个具体的实施场景中，用户的个性化词汇可以包括但不限于：通讯录词汇、用户的自造词汇，以及用户喜欢的歌曲、电影、明星等，在此不做限定。由于用户的个性化词汇通常涉及到用户隐私，故可以经用户授权使用个性化词汇后，此在电子设备本地进行候选扩展，而不在云端进行候选扩展，能够避免因上传个性化词汇而可能导致的隐私泄露，且也能够大大减少云端所需的存储空间。

在另一个具体的实施场景中，由于用户的个性化词汇通常不会被用户主动标记，故可以在用户使用过程中，基于一定的自动挖掘机制，自动获取用户的个性化词汇。以输入法为例，在用户对语音识别后的识别文字进行修改的情况下，可以计算用户的修改文字和原始的识别文字之间的发音相似度，若两者之间的发音相似度大于预设相似度阈值，则可以将用户的修改文字，作为用户的个性化词汇。例如，用户输入语音“帮我订一张去丽水的车票”，经语音识别，得到识别文字“帮我订一张去溧水的车票”，用户发现错误，并将“溧水”手动修改为“丽水”，由此而得到修改文字“丽水”和原始的识别文字“溧水”，经发音相似度计算，两者的相似度大于预设相似度阈值，则可以将用户的修改文字“丽水”，作为用户的个性化词汇。

在又一个具体的实施场景中，若通过在识别结果中与个性化词汇匹配上的词汇位置处插入对应的个性化词汇，进行候选扩展，则可以在用户选择对应的个性化词汇的情况下，将与个性化词汇匹配的词汇替换为对应的个性化词汇。仍以用户输入语音“帮我订一张去溧水的车票”为例，通过在识别结果“帮我订一张去溧水的车票”中与个性化词汇“丽水”匹配的词汇“溧水”位置处插入对应的个性化词汇“丽水”，从而完成候选扩展，得到候选识别结果“帮我订一张去溧水/丽水的车票”，在用户选择个性化词汇“丽水”的情况下，可以将与其匹配的词汇“溧水”替换为对应的个性化词汇“丽水”，得到修正后的识别结果“帮我订一张去丽水的车票”。

在另一个实施场景中，还可以基于注意力机制，确定在识别结果中的词汇处是否扩展个性化词汇，以及在需要扩展个性化词汇的情况下，确定在识别结果中所需扩展的个性化词汇。上述区别于利用发音相似度进行候选扩展，基于注意力机制扩展能够降低因人工设置发音相似度阈值不当、字数不一致等情况而可能发生候选扩展不准确的概率。基于注意力机制进行候选扩展的具体方式可以参阅本申请后述公开实施例，在此暂不赘述。

步骤S14：显示候选识别结果。

在一个实施场景中，为了便于用户快速感知候选识别结果中的候选扩展得到的个性化词汇以及识别结果中与个性化词汇对应的词汇，可以将个性化词汇和上述与个性化词汇对应的词汇采用第一预设表示方式与采样第二预设表示方式的其他词汇进行区别，且第一预设表示方式与第二预设表示不同。具体地，第一预设表示方式和第二预设方式可以包括以下至少一者：颜色、字号、字体等，在此不做限定。例如，第一预设表示方式具体可以包括：红色、楷体、四号，第二预设表示方式具体可以包括：黑色、楷体、四号，或者，第二预设表示也可以包括：黑色、宋体、小四号，在此不做限定。

在一个实施场景中，为了便于用户快速区分个性化词汇以及识别结果中与个性化词汇对应的词汇，可以将个性化词汇和上述与个性化词汇对应的词汇之间采用预设字符隔开。具体地，预设字符可以包括但不限于：“/”、“|”、“\”等等，在此不做限定。

在一些公开实施例中，在获取语音数据的识别结果的过程中，可以提取语音数据的特征，并将语音数据的特征发送至云端，从而接收来自云端的识别结果。基于此，可以参阅图2，图2是提取语音数据的特征一实施例的流程示意图。具体可以包括如下步骤：

步骤S21：将语音数据划分为多个音频帧。

在一个实施场景中，每个音频帧的持续时长相同，持续时长具体可以设置为10毫秒、20毫秒、30毫秒等等，在此不做限定。以持续时长为10毫秒为例，可以将3秒的语音数据划分为300个音频帧，其他情况可以以此类推，在此不再一一举例。

步骤S22：利用特征提取网络提取每个音频帧的特征。

本公开实施例中，音频帧的特征包括通用音频特征和说话人特征。通用音频特征和说话人特征的具体含义可以参阅前述公开实施例中的相关描述，在此不再赘述。

在一个实施场景中，特征提取网络包括卷积神经网络(Convolutional NeuralNetwork，CNN)和长短期记忆网络(Long Short Term Network，LSTM)，音频帧经卷积神经网络的输出分别输入两个长短期记忆网络，其中一个长短期记忆网络输出音频帧的通用音频特征，另一个长短期记忆网络输出音频帧的说话人特征。

步骤S23：利用多个音频帧的特征，得到语音数据的特征。

在一个实施场景中，可以将各个音频帧的通用音频特征和说话人音频特征的组合，作为语音数据的特征。例如，可以将各个音频帧的通用音频特征和说话人特征进行拼接，并将拼接后的特征，作为对应音频帧的特征，从而将各个音频帧的特征的组合，作为语音数据的特征。

在另一个实施场景中，同一说话人的说话人特征相同，由于在实际使用鲜有绝对安静的情况，故音频数据中有可能掺杂除用户之外的其他说话人的语音，由此可能导致语音数据的特征中包含其他说话人的通用音频特征和说话人特征，进而可能造成后续识别不准确。在此情形下，在得到每个音频帧的特征之后，可以分别将每个音频帧作为当前帧，并在检测到当前帧与当前帧的前一音频帧的说话人特征是否满足预设条件，预设条件具体可以包括：当前帧的说话人特征与当前帧的前一音频帧的说话人特征间的相似度小于预设阈值。在检测到当前帧与当前帧的前一音频帧的说话人特征满足预设条件的情况下，可以获取当前帧的前一音频帧的说话人特征，以及当前帧之前且未被获取的音频帧的通用音频特征，得到语音数据的特征。上述方式，可以在语音数据的特征中，有效过滤除用户之外的说话人的语音特征，从而能够有利于提高语音识别的准确性。

在一个具体的实施场景中，预设阈值可以根据实际应用需要进行设置。例如，在对语音识别精度要求较高时，预设阈值可以设置地较大，如预设阈值可以设置为1，即表示预设条件包括：当前帧的说话人特征与当前帧的前一音频帧的说话人特征不同；或者，在对语音识别精度要求相对宽松时，预设阈值可以设置地稍小，如预设阈值可以设置为0.8、0.7等等，在此不做限定。

在另一个具体的实施场景中，可以将当前帧之前且未被获取的音频帧的通用音频特征分别与当前帧的前一音频帧的说话人特征进行拼接，得到当前帧之前且未被获取的音频帧的特征，并将当前帧之前且未被获取的所有音频帧的特征的组合，作为语音数据的特征。例如，语音数据共包含M个音频帧，在提取得到每个音频帧的通用音频特征和说话人特征之后，分别将各个音频帧作为当前帧，并执行上述步骤，在第k个音频帧作为当前帧时，其说话人特征和第k-1个音频帧的说话人特征不同，则可以认为至少在第k个音频帧中掺杂了其他说话人的语音，因此，可以获取第1至第k-1个音频帧的通用音频特征和第k-1个音频帧的说话人特征，并将第1个音频帧的通用音频特征和第k-1个音频帧的说话人特征进行拼接，作为第1个音频帧的特征，将第2个音频帧的通用音频特征和第k-1个音频帧的说话人特征进行拼接，作为第2个音频帧的特征，以此类推，将第k-1个音频帧的通用音频特征和说话人特征进行拼接，得到第k-1个音频帧的特征，最终将第1个音频帧的特征至第k-1个音频帧的特征的组合，作为语音数据的特征，其他情况可以以此类推，在此不再一一举例。

在又一个具体的实施场景中，也可以分别将当前帧之前且未被获取的音频帧的通用音频特征和说话人特征进行拼接，得到当前帧之前且未被获取的音频帧的特征，并将当前帧之前且未被获取的所有音频帧的特征的组合，作为语音数据的特征。仍以前述包含M个音频帧的语音数据为例，可以将第1个音频帧的通用音频特征和说话人特征进行拼接，得到第1个音频帧的特征，将第2个音频帧的通用音频特征和第2个音频帧的说话人特征进行拼接，得到第2个音频帧的特征，以此类推，将第k-1个音频帧的通用音频特征和说话人特征进行拼接，得到第k-1个音频帧的特征，最终将第1个音频帧的特征至第k-1个音频帧的特征的组合，作为语音数据的特征，其他情况可以以此类推，在此不再一一举例。

在又一个具体的实施场景中，为了降低由于缺失当前帧而导致语音识别错误的概率，还可以在采用前述任一种方式得到语音数据的特征的同时，获取当前帧，从而利用当前帧之前且未被获取的音频帧的特征以及当前帧，进行语音识别。仍以前述包含M个音频帧的语音数据为例，可以获取第1个音频帧的特征至第k-1个音频帧的特征的组合，作为语音数据的特征，与此同时，获取第k个音频帧，从而可以利用第1个音频帧的特征至第k-1个音频帧的特征的组合，以及第k个音频帧进行语音识别，例如，可以将上述第1个音频帧的特征至第k-1个音频帧的特征的组合，以及第k个音频帧上传至服务器进行识别。上述方式，在语音识别过程中，由于既能够包含说话人特征满足预设条件的音频帧的特征，也能够包含说话人特征不满足预设条件的音频帧，故能够有利于降低由于缺失音频帧而导致识别错误的概率，并在利用服务器进行语音识别的情况下，还能够降低音频数据所需的上传带宽，减轻云端负载压力。

区别于前述实施例，将语音数据划分为多个音频帧，并利用特征提取网络提取每个音频帧的特征，且音频帧的特征包括通用音频特征和说话人特征，一方面能够基于通用音频特征确保通用的识别率，另一面能够基于说话人特征提高对不同地区、不同性别等用户说话的个性化差异的适应性，进而能够有利于提高语音识别的准确性。

请参阅图3，图3是图1中步骤S13一实施例的流程示意图。本公开实施例中，识别结果可以包括至少一个第一词汇，第一词汇可以通过对识别结果进行分词得到。具体可以包括如下步骤：

步骤S131：提取第一词汇的语义特征，得到第一特征表示，并提取第二词汇的语义特征，得到第二特征表示。

本公开实施例中，第二词汇是用户的个性化词汇，关于个性化词汇的具体可以参阅前述公开实施例中的相关描述，在此不再赘述。

在一个实施场景中，为了提高候选扩展的效率，可以预先训练一候选扩展模型，且候选扩展模型中包含输入层和编码网络，候选扩展模型的训练过程在此暂不赘述。基于此，可以将识别结果输入输入层以对识别结果进行分词，得到至少一个第一词汇，并对第一词汇进行映射得到第一嵌入表示，将第一嵌入表示送入编码网络，以提取第一嵌入表示的语义特征，得到第一特征表示。

在一个具体的实施场景中，对于每一个第一词汇，可以利用字嵌入(embedding)函数和位置嵌入(embedding)函数分别对第一词汇进行映射，得到对应第一词汇的字嵌入表示和位置嵌入表示，再将第一词汇的字嵌入表示和位置嵌入表示拼接，即可得到对应第一词汇的第一嵌入表示。

在另一个具体的实施场景中，为了丰富第一特征表示的表现维度，编码网络具体可以包括第一丢弃网络、第一正向长短期记忆网络、反向长短期记忆网络和第二丢弃网络，从而可以将第一嵌入表示送入第一丢弃网络，防止因数据稀疏而可能带来的过拟合，再将第一丢弃网络的输出分别送入第一正向长短期网络和方向长短期记忆网络，得到一正向特征表示和反向特征表示。第一正向长短期记忆网络在处理过程中，t时刻隐层输出可以记为

其中，

表示t-1时刻隐层输出，w_t表示第一嵌入表示，类似地，反向长短期记忆网络在处理过程中，t时刻隐层输出可以记为

其中，

表示t+1时刻隐层输出，w_t表示第一嵌入表示。在得到第一正向特征表示和反向特征表示之后，可以将第一正向特征表示和反向特征表示拼接后送入第二丢弃网络，以再次去除过拟合，并计算第二丢弃网络的输出与第一嵌入表示的加权和，并对加权和进行降维，得到第一特征表示。上述方式，由于经第一嵌入表示经第一正向长短期记忆网络和反向长短期记忆网络处理之后，能够结合上下文得到高层特征，而最终计算与第一嵌入表示的加权和，能够使得第一特征表示不仅能够表现第一词汇的浅层特征，还能够表现高层特征，进而能够进一步丰富第一特征表示的表现维度，有利于提高后续候选扩展的准确。

在另一个实施场景中，如前描述，为了提高候选扩展的效率，可以预先训练一候选扩展模型，且候选扩展模块还可以包括输入层和解码网络，候选扩展模型的训练过程在此暂不赘述。基于此，可以将第二词汇送入输入层，以对第二词汇进行分词和映射，得到第二嵌入表示，并将第二嵌入表示送入解码网络以提取第二嵌入表示的语义特征，得到第二特征表示。

在一个具体的实施场景中，对于每一个第二词汇，可以利用字嵌入(embedding)函数和位置嵌入(embedding)函数分别对第二词汇进行映射，得到对应第二词汇的字嵌入表示和位置嵌入表示，再将第二词汇的字嵌入表示和位置嵌入表示拼接，即可得到对应第二词汇的第二嵌入表示。

在另一个具体的实施场景中，解码网络具体可以包括第三丢弃网络和第二正向长短期记忆网络，从而可以将第二嵌入表示送入第三丢弃网络，防止因数据稀疏而可能带来的过拟合，再将第三丢弃网络的输出送入第二正向长短期记忆网络，得到第二特征表示。

需要说明的是，本公开实施例中所指的“嵌入(embedding)”具体是指将高维数据(如，第一词汇、第二词汇等)映射到低维流形。丢弃网络(如，第一丢弃网络、第二丢弃网络、第三丢弃网络、第四丢弃网络等)，用于防止网络中数据过度拟合，可以为dropout网络，或用于防止数据过拟合的其它网络模型。

步骤S132：基于注意力机制，利用第一特征表示和第二特征表示，得到加权系数。

本公开实施例中，加权系数表示每一第一词汇在扩展候选时的重要度。

在一个实施场景中，该重要度可以用于衡量是否在对应第一词汇位置进行候选扩展。为了便于描述，识别结果所包含的至少一个第一词汇的第一特征表示可以记为H_识别结果＝h₁,h₂,…,h_M，其中，h_i表示识别结果中第i个第一词汇的第一特征表示，M表示识别结果中所包含的第一词汇的总个数，第二词汇的第二特征表示可以记为S_个性化＝S₁,S₂,…,S_N，其中，S_j表示第j个第二词汇的第二特征表示，N表示第二词汇的总个数，则可以基于注意力机制，得到第j个第二词汇对第i个第一词汇的注意力权重e_j,i，具体可以表示为：

e_j,i＝tanh(W_hh_i+W_sS_j+b)……(1)

上述公式(1)中，W_h、W_s、b均为注意力机制的参数，具体可以在候选扩展模型的训练过程中进行调整。在得到第j个第二词汇对第i个第一词汇的注意力权重e_j,i之后，可以基于注意力权重e_j,i，得到每个第一词汇的加权系数

具体可以表示为：

在另一个实施场景中，候选扩展模型还可以进一步包括注意力层，从而可以将第一特征表示和第二特征表述送入注意力层，得到加权系数。注意力层具体可以执行前述实施场景所描述的步骤，在此不再赘述。

步骤S133：基于加权系数和第二特征表示进行预测，得到在每个第一词汇的位置进行候选扩展的第一概率以及对应各个第二词汇被选中的第二概率。

在一个实施场景中，如前所述，为了提高候选扩展的效率，可以预先训练一候选扩展模型，且候选扩展模型还可以进一步包括输出层，从而可以将加权次数送入解码网络以进一步提取第二嵌入表示的语义特征，得到最终第二特征表示，并将加权系数以及最终第二特征表示送入输出层，以预测在每个第一词汇的位置进行候选扩展的第一概率以及对应各个第二词汇被选中的第二概率。

在一个具体的实施场景中，解码网络可以进一步包括第三正向长短期记忆网络和第四丢弃网络，从而可以利用加权系数对第二特征表示进行加权后作为第二正向长短期记忆网络的输出，并将第二正向长短期记忆网络的输出与加权系数拼接后送入第三正向长短期记忆网络，进而将第三正向长短期记忆网络的输出送入第四丢弃网络，并计算第四丢弃网络的输出与第二正向长短期记忆网络的输出的加权和，得到最终第二特征表示。上述方式，能够有利于通过加权联合上下文，使候选扩展模型具有更好的区分性。

在一个实施场景中，请结合参阅图4，图4是候选扩展模型一实施例的框架示意图。如图4所示，在识别结果层面，将识别结果送入输入层以对识别结果进行分词，得到至少一个第一词汇，并对第一词汇进行映射得到第一嵌入表示，从而将第一嵌入表示送入第一丢弃网络，将第一丢弃网络的输出分别送入第一正向长短期记忆网络和反向长短期记忆网络，得到第一正向特征表示和反向特征表示，将第一正向特征表示和反向特征表示拼接后送入第二丢弃网络，并计算第二丢弃网络的输出与第一嵌入表示的加权和对加权和进行降维，得到第一特征表示；而在第二词汇方面，将第二词汇送入输入层，以对第二词汇进行分词和映射，得到第二嵌入表示，将第二嵌入表示送入第三丢弃网络，并将第三丢弃网络的输出送入第二正向长短期记忆网络，得到第二特征表示，进而将第一特征表示和第二特征表示送入注意力层，得到加权系数，且加权系数表示每一第一词汇在候选扩展时的重要度。自此之后，利用加权系数对第二特征表示进行加权后作为第二正向长短期记忆网络的输出，并将第二正向长短期记忆网络的输出与加权系数拼接后送入第三正向长短期记忆网络，将第三正向长短期记忆网络的输出送入第四丢弃网络，从而计算第四丢弃网络的输出与第二正向长短期记忆网络的输出的加权和，得到最终第二特征表示，进而将加权系数以及最终第二特征表示送入输出层，以预测在每个第一词汇的位置进行候选扩展的第一概率以及对应各个第二词汇被选中的第二概率。

步骤S134：基于第一概率和第二概率，得到候选识别结果。

具体地，对于识别结果中的每一第一词汇，在对应的第一概率大于预设阈值的情况下，将最大的第二概率对应的第二词汇，作为候选词汇，并将候选词汇插入对应的第一词汇的位置，得到候选识别结果。

在一个实施场景，预设阈值可以根据实际应用需要进行设置。例如，在候选扩展的精度要求比较高的情况下，预设阈值可以设置地较大，如：95％、97％等等；或者，在候选扩展的精度要求相对宽松的情况下，预设阈值可以设置地相对较小，如：75％、80％等等，在此不做限定。

在一个具体的实施场景中，仍以语音数据的识别结果为“我要订一张到溧水的车票”为例，通过候选扩展，得到在第一词汇“溧水”处进行候选扩展的第一概率98％，以及对应各个第二词汇被选中的第二概率分别为：第二词汇“丽水”95％、“里水”80％，则可以将最大的第二概率对应的第二词汇“丽水”作为候选词汇，并将其插入到第一词汇“溧水”的位置，从而得到候选识别结果，如可以表示为“我要订一张到溧水/丽水的车票”，或者也可以表示为“我要订一张到溧水|丽水的车票”，在此不做限定。

区别于前述实施例，通过提取第一词汇的语义特征，得到第一特征表示，并提取第二词汇的语义特征，得到第二特征表示，且第二词汇是用户的个性化词汇，从而基于注意力机制，利用第一特征表示和第二特征表示，得到加权系数，并基于加权系数和第二特征表示进行预测，得到在每个第一词汇的位置进行候选扩展的第一概率以及对应各个第二词汇被选中的第二概率，进而基于第一概率和第二概率，得到候选识别结果。故此，基于注意力机制能够免于人工设置发音相似度阈值，从而能够降低因人工设置发音相似度阈值不当、字数不一致等情况而可能发生候选扩展不准确的概率，从而能够有利于提高候选扩展的准确性。

请参阅图5，图5是本申请语音识别方法另一实施例的流程示意图。具体可以包括如下步骤：

步骤S51：采集语音数据。

具体可以参阅前述公开实施例中的相关步骤，在此不再赘述。

步骤S52：获取语音数据的识别结果。

步骤S53：对识别结果进行候选扩展，得到候选识别结果。

步骤S54：显示候选识别结果。

步骤S55：收集用户对候选识别结果的选择结果。

如前述公开实施例中所述，对于每个第一词汇，在对应的第一概率大于预设阈值的情况下，将最大的第二概率对应的第二词汇，作为候选词汇，从而将候选词汇插入对应的第一词汇的位置，得到候选识别结果。基于此，在第一词汇和对应的候选词汇中，用户可能选择第一词汇，也可能选择候选词汇，故可以收集用户对候选识别结果的选择结果，作为训练样本。

仍以前述公开实施例中的识别结果“我要订一张到溧水的车票”为例，候选识别结果为可以表示为“我要订一张到溧水/丽水的车票”，在用户未选择候选词汇“丽水”的情况下，可以将识别结果“我要订一张到溧水的车票”和对应的选择结果“我要订一张到溧水的车票”作为训练样本，其他情况可以以此类推，从而可以收集到若干训练样本。

步骤S56：利用选择结果对候选扩展模型进行修正。

具体地，可以基于训练样本中的识别结果和选择结果，得到识别结果的第一词汇位置进行候选扩展的第一实际概率以及对应各个第二词汇被选中的第二实际概率，从而可以将训练样本中的识别结果和用于表示用户个性化词汇的第二词汇输入前述公开实施例所述的候选扩展模型，最终得到识别结果的第一词汇位置进行候选扩展的第一概率以及对应各个第二词汇被选中的第二概率，进而可以基于第一实际概率和第一概率的差异，得到候选扩展模型的第一损失值，并基于第二实际概率和第二概率的差异，得到候选扩展模型的第二损失值，最终可以基于第一损失值和第二损失值，调整候选扩展模型的网络参数。

在一个实施场景中，可以基于训练样本中的识别结果和选择结果，得到第一词汇是否需要候选扩展的第一实际概率，为了便于描述，可以用第一实际概率0表示无需候选扩展，第一实际概率1表示需要候选扩展。以训练样本包括：识别结果“我要订一张到溧水的车票”和对应的选择结果“我要订一张到溧水的车票”为例，由于第一词汇“溧水”无需扩展，故第一实际概率为0，其他情况可以以此类推，在此不再一一举例。在得到第一实际概率和第一概率之后，可以基于二分类交叉熵损失函数(Binary Cross Entropy，BCE)，计算预测得到的第一概率以及第一实际概率之间的第一损失值。

在另一个实施场景中，还可以基于训练样本中的识别结果和选择结果，得到对应各个第二词汇被选中的第二实际概率，为了便于描述，可以用第二实际概率0表示未被选中，第二实际概率1表示被选中，以训练样本包括：识别结果“我要订一张到溧水的车票”和对应的选择结果“我要订一张到丽水的车票”为例，由于第一词汇“溧水”需扩展为“丽水”，故第二词汇“丽水”的第二实际概率为1，其他诸如“里水”的第二实际概率为0，其他情况可以以此类类推，在此不再一一举例。在得到第二实际概率和第二概率之后，可以基于交叉熵损失函数(CrossEntropy，CE)，计算得到第二概率以及第二实际概率之间的第二损失值。

在又一个实施场景中，具体可以将第一损失值和第二损失值进行加权处理，得到加权损失值，从而可以基于加权损失值，调整候选扩展模型的网络参数。

在又一个具体的实施场景中，具体可以采用随机梯度下降(Stochastic GradientDescent，SGD)、批量梯度下降(Batch Gradient Descent，BGD)、小批量梯度下降(Mini-Batch Gradient Descent，MBGD)等方式，对候选扩展模型的网络参数进行调整，其中，批量梯度下降是指在每一次迭代时，使用所有样本来进行参数更新；随机梯度下降是指在每一次迭代时，使用一个样本来进行参数更新；小批量梯度下降是指在每一次迭代时，使用一批样本来进行参数更新，在此不再赘述。

需要说明的是，预先训练候选扩展模型的具体流程，也可以参照上述描述，在此不再赘述。

区别于前述实施例，通过收集用户对候选识别结果的选择结果，并利用选择结果对候选扩展模型进行修正，能够有利于进一步提高候选扩展模型的准确性。

请参阅图6，图6是本申请电子设备60一实施例的框架示意图。电子设备60包括相互耦接的存储器61和处理器62，存储器61中存储有程序指令，处理器62用于执行程序指令以实现任一语音识别方法实施例中的步骤。具体地，电子设备60可以包括但不限于：手机、平板电脑等，在此不做限定。

具体而言，处理器62用于控制其自身以及存储器61以实现上述任一语音识别方法实施例中的步骤。处理器62还可以称为CPU(Central Processing Unit，中央处理单元)。处理器62可能是一种集成电路芯片，具有信号的处理能力。处理器62还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器62可以由集成电路芯片共同实现。

本公开实施例中，处理器62用于控制与其耦接的麦克风采集语音数据；处理器62用于获取语音数据的识别结果；处理器62用于对识别结果进行候选扩展，得到候选识别结果；处理器62用于控制与耦接的人机交互电路显示候选识别结果。

在一些公开实施例中，识别结果包括至少一个第一词汇，处理器62用于提取第一词汇的语义特征，得到第一特征表示，并提取第二词汇的语义特征，得到第二特征表示；第二词汇是用户的个性化词汇；处理器62用于基于注意力机制，利用第一特征表示和第二特征表示，得到加权系数；其中，加权系数表示每一第一词汇在候选扩展时的重要度；处理器62用于基于加权系数和第二特征表示进行预测，得到在每个第一词汇的位置进行候选扩展的第一概率以及对应各个第二词汇被选中的第二概率；处理器62用于基于第一概率和第二概率，得到候选识别结果。

在一些公开实施例中，候选扩展由候选扩展模型执行，候选扩展模型包括输入层、编码网络、解码网络和输出层，处理器62用于将识别结果送入输入层以对识别结果进行分词，得到至少一个第一词汇，并对第一词汇进行映射得到第一嵌入表示，将第一嵌入表示送入编码网络以提取第一嵌入表示的语义特征，得到第一特征表示，处理器62用于将第二词汇送入输入层，以对第二词汇进行分词和映射，得到第二嵌入表示，并将第二嵌入表示送入解码网络以提取第二嵌入表示的语义特征，得到第二特征表示，处理器62用于将加权系数送入解码网络以进一步提取第二嵌入表示的语义特征，得到最终第二特征表示；处理器62用于将加权系数以及最终第二特征表示送入输出层，以预测在每个第一词汇的位置进行候选扩展的第一概率以及对应各个第二词汇被选中的第二概率。

区别于前述实施例，通过候选扩展模型执行候选扩展，并利用候选识别模型的输入层进行分词、映射，利用候选扩展模型的网络层、解码层进行语义特征提取，利用候选扩展模型的输出层进行概率预测，能够有利于提高候选扩展的效率。

在一些公开实施例中，编码网络包括第一丢弃网络、第一正向长短期记忆网络、反向长短期记忆网络和第二丢弃网络，处理器62用于将第一嵌入表示送入第一丢弃网络；处理器62用于将第一丢弃网络的输出分别送入第一正向长短期记忆网络和反向长短期记忆网络，得到第一正向特征表示和反向特征表示；处理器62用于将第一正向特征表示和反向特征表示拼接后送入第二丢弃网络；处理器62用于计算第二丢弃网络的输出与第一嵌入表示的加权和对加权和进行降维，得到第一特征表示。

区别于前述实施例，经第一嵌入表示经第一正向长短期记忆网络和反向长短期记忆网络处理之后，能够结合上下文得到高层特征，而最终计算与第一嵌入表示的加权和，能够使得第一特征表示不仅能够表现第一词汇的浅层特征，还能够表现高层特征，进而能够进一步丰富第一特征表示的表现维度，有利于提高后续候选扩展的准确。

在一些公开实施例中，解码网络包括第三丢弃网络、第二正向长短期记忆网络、第三正向长短期记忆网络和第四丢弃网络，处理器62用于将第二嵌入表示送入第三丢弃网络，处理器62用于将第三丢弃网络的输出送入第二正向长短期记忆网络，得到第二特征表示，处理器62用于利用加权系数对第二特征表示进行加权后作为第二正向长短期记忆网络的输出，处理器62用于将第二正向长短期记忆网络的输出与加权系数拼接后送入第三正向长短期记忆网络，处理器62用于将第三正向长短期记忆网络的输出送入第四丢弃网络，处理器62用于计算第四丢弃网络的输出与第二正向长短期记忆网络的输出的加权和，得到最终第二特征表示。

区别于前述实施例，利用第三丢弃网络处理第二嵌入表示，能够有利于降低因数据稀疏而带来过拟合的概率；而利用加权系数对第二特征表示进行加权后作为第二正向长短期记忆网络的输出，并将第二正向长短期记忆网络的输出与加权系数拼接后送入第三正向长短期记忆网络，从而将第三正向长短期记忆网络的输出送入第四丢弃网络，并计算第四丢弃网络的输出与第二正向长短期记忆网络的输出的加权和，得到最终第二特征表示，能够有利于通过加权联合上下文，使候选扩展模型具有更好的区分性。

在一些公开实施例中，处理器62用于对于每个第一词汇，在对应的第一概率大于预设阈值的情况下，将最大的第二概率对应的第二词汇，作为候选词汇；处理器62用于将候选词汇插入对应的第一词汇的位置，得到候选识别结果。

区别于前述实施例，通过对于每个第一词汇，在对应的第一概率大于预设阈值的情况下，将最大的第二概率对应的第二词汇，作为候选词汇，并将候选词汇插入对应的第一词汇的位置，得到候选识别结果，能够基于在各个第一词汇预测得到的第一概率和第二概率，得到候选识别结果，从而能够有利于提高候选识别结果的精度和准确性。

在一些公开实施例中，候选扩展是由候选扩展模型执行的，处理器62用于收集用户对候选识别结果的选择结果；处理器62用于利用选择结果对候选扩展模型进行修正。

在一些公开实施例中，处理器62用于提取语音数据的特征，并控制与其耦接的通信电路将语音数据的特征发送给云端；处理器62用于控制与其耦接的通信电路接收来自于云端的识别结果；其中，识别结果是云端对语音数据的特征进行语音识别而得到的。

区别于前述实施例，通过提取语音数据的特征，并将语音数据的特征发送给云端，从而接收来自于云端的识别结果，且识别结果是云端对语音数据的特征进行语音识别而得到的。故此，通过云端分担识别语音数据的计算负荷，从而能够大大降低电子设备本地的计算负荷，降低电子设备的软硬件要求，有利于降低电子设备的成本，此外，由于特征的数据量远小于语音数据本身，故通过将提取到语音数据的特征上传至云端，而非直接将语音数据上传至云端，能够节省上传带宽，减轻的云端的负载压力，特别是在高峰期云端需要执行高达数百万次的交互的情况下，能够大大减轻云端的负载压力，并降低高峰期发生交互延迟的概率，有利于提升用户体验。

在一些公开实施例中，语音数据的特征包括通用音频特征和说话人特征。

区别于前述实施例，将语音数据的特征设置为包括通用音频特征和说话人特征，结合通用音频特征和说话人特征两者共同进行语音识别，从而一方面能够基于通用音频特征确保通用的识别率，另一面能够基于说话人特征提高对不同地区、不同性别等用户说话的个性化差异的适应性，进而能够有利于提高语音识别的准确性。

请参阅图7，图7是本申请存储装置70一实施例的框架示意图。存储装置70存储有能够被处理器运行的程序指令71，程序指令71用于实现上述任一语音识别方法实施例中的步骤。

上述方案，能够提高语音识别的准确性。

在一些实施例中，本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法，其具体实现可以参照上文方法实施例的描述，为了简洁，这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处，其相同或相似之处可以互相参考，为了简洁，本文不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种语音识别方法，其特征在于，包括：

采集语音数据；

获取所述语音数据的识别结果；

对所述识别结果进行候选扩展，得到候选识别结果；

显示所述候选识别结果；

其中，所述识别结果包括至少一个第一词汇；所述对所述识别结果进行候选扩展，得到候选识别结果，包括：

提取所述第一词汇的语义特征，得到第一特征表示，并提取第二词汇的语义特征，得到第二特征表示；所述第二词汇是用户的个性化词汇；

基于注意力机制，利用所述第一特征表示和所述第二特征表示，得到加权系数；其中，所述加权系数表示每一所述第一词汇在扩展候选时的重要度；

基于所述加权系数和所述第二特征表示进行预测，得到在每个所述第一词汇的位置进行候选扩展的第一概率以及对应各个所述第二词汇被选中的第二概率；

基于所述第一概率和所述第二概率，得到所述候选识别结果。

2.根据权利要求1所述的方法，其特征在于，所述候选扩展由候选扩展模型执行，所述候选扩展模型包括输入层、编码网络、解码网络和输出层；

所述提取所述第一词汇的语义特征，得到第一特征表示，包括：

将所述识别结果送入所述输入层以对所述识别结果进行分词，得到所述至少一个第一词汇，并对所述第一词汇进行映射得到第一嵌入表示，将所述第一嵌入表示送入所述编码网络以提取所述第一嵌入表示的语义特征，得到所述第一特征表示；

所述提取第二词汇的语义特征，得到第二特征表示，包括：

将所述第二词汇送入所述输入层，以对所述第二词汇进行分词和映射，得到第二嵌入表示，并将所述第二嵌入表示送入所述解码网络以提取所述第二嵌入表示的语义特征，得到所述第二特征表示；

所述基于所述加权系数和所述第二特征表示进行预测，得到在每个所述第一词汇的位置进行候选扩展的第一概率以及对应各个所述第二词汇被选中的第二概率，包括：

将所述加权系数送入所述解码网络以提取所述第二嵌入表示的语义特征，得到最终第二特征表示；

将所述加权系数以及所述最终第二特征表示送入所述输出层，以预测在每个所述第一词汇的位置进行候选扩展的第一概率以及对应各个所述第二词汇被选中的第二概率。

3.根据权利要求2所述的方法，其特征在于，所述编码网络包括第一丢弃网络、第一正向长短期记忆网络、反向长短期记忆网络和第二丢弃网络；

所述将所述第一嵌入表示送入所述编码网络以提取所述第一嵌入表示的语义特征，得到所述第一特征表示，包括：

将所述第一嵌入表示送入所述第一丢弃网络；

将所述第一丢弃网络的输出分别送入所述第一正向长短期记忆网络和所述反向长短期记忆网络，得到第一正向特征表示和反向特征表示；

将所述第一正向特征表示和反向特征表示拼接后送入所述第二丢弃网络；

计算所述第二丢弃网络的输出与所述第一嵌入表示的加权和对所述加权和进行降维，得到所述第一特征表示。

4.根据权利要求2所述的方法，其特征在于，所述解码网络包括第三丢弃网络、第二正向长短期记忆网络、第三正向长短期记忆网络和第四丢弃网络；

所述将所述第二嵌入表示送入所述解码网络以提取所述第二嵌入表示的语义特征，得到所述第二特征表示，包括：

将所述第二嵌入表示送入所述第三丢弃网络；

将所述第三丢弃网络的输出送入所述第二正向长短期记忆网络，得到所述第二特征表示；

所述将所述加权系数送入所述解码网络以提取所述第二嵌入表示的语义特征，得到最终第二特征表示，包括：

利用所述加权系数对所述第二特征表示进行加权后作为所述第二正向长短期记忆网络的输出；

将所述第二正向长短期记忆网络的输出与所述加权系数拼接后送入所述第三正向长短期记忆网络；

将所述第三正向长短期记忆网络的输出送入所述第四丢弃网络；

计算所述第四丢弃网络的输出与所述第二正向长短期记忆网络的输出的加权和，得到所述最终第二特征表示。

5.根据权利要求1所述的方法，其特征在于，所述基于所述第一概率和所述第二概率，得到所述候选识别结果，包括：

对于每个所述第一词汇，在对应的所述第一概率大于预设阈值的情况下，将最大的所述第二概率对应的所述第二词汇，作为候选词汇；

将所述候选词汇插入对应的所述第一词汇的位置，得到所述候选识别结果。

6.根据权利要求1所述的方法，其特征在于，所述候选扩展是由候选扩展模型执行的，所述方法还包括：

收集用户对所述候选识别结果的选择结果；

利用所述选择结果对所述候选扩展模型进行修正。

7.根据权利要求1所述的方法，其特征在于，所述获取所述语音数据的识别结果，包括：

提取所述语音数据的特征，并将所述语音数据的特征发送给云端；

接收来自于所述云端的识别结果；其中，所述识别结果是所述云端对所述语音数据的特征进行语音识别而得到的。

8.根据权利要求7所述的方法，其特征在于，所述语音数据的特征包括通用音频特征和说话人特征。

9.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述存储器中存储有程序指令，所述处理器用于执行所述程序指令以实现权利要求1至8任一项所述的语音识别方法。

10.一种存储装置，其特征在于，存储有能够被处理器运行的程序指令，所述程序指令用于实现权利要求1至8任一项所述的语音识别方法。