CN113761843B

CN113761843B - 语音编辑方法、电子设备及计算机可读存储介质

Info

Publication number: CN113761843B
Application number: CN202010484871.0A
Authority: CN
Inventors: 晏小辉; 左利鹏; 皮特
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2023-11-28
Anticipated expiration: 2040-06-01
Also published as: WO2021244099A1; CN113761843A

Abstract

本申请涉及AI领域，提供了一种语音编辑方法、电子设备及计算机可读存储介质，语音编辑方法包括：获取输入的语音数据，将语音数据转换为文本数据，并将文本数据划分为t个句子，计算t个句子中第t个句子与第t个句子之前的c个句子的语义一致性置信度，其中，语义一致性置信度用于描述第t个句子与c个句子的语义关联程度；若语义一致性置信度小于预设值，说明第t个句子与c个句子的语义关联程度较低，进一步说明第t个句子相对于c个句子进行了话题转换，此时，对第t个句子进行识别，并将识别结果作为编辑指令对文本数据进行编辑，能够不需要用户进行额外的交互，也可实现对文本数据的编辑操作，操作简便，从而提高了用户体验。

Description

语音编辑方法、电子设备及计算机可读存储介质

技术领域

本申请涉及人工智能(Artificial Intelligence，AI)领域，尤其涉及一种语音编辑方法、电子设备及计算机可读存储介质。

背景技术

人工智能技术的发展深刻改变了人与机器交互的方式：从以PC、智能手机为代表的通过键盘、鼠标、触摸屏的交互，发展到以智能对话系统(如手机语音助手、智能音箱、智能车载等)为代表的语音交互。语音对话的交互方式比传统的点击、触摸方式更具有便利性和灵活性，在越来越多的领域得到应用。

在语音对话过程中，电子设备识别用户输入的语音数据，将语音数据转换为文本，以执行对应的操作。当用户发现语音识别出错，或者用户想主动变换说法时，需要对输入的语音数据进行修改。现有的对输入的语音数据进行修改的方法，一般需要手动切换输入模式，例如，将语音输入切换为文本输入，以对由语音数据所转换的文本数据进行修改，或者在检测到用户输入对应的前缀词时，根据用户输入的修改指令对文本数据进行修改，因此，增加了交互成本，操作复杂，影响用户体验。

发明内容

本申请提供一种语音编辑方法、电子设备及计算机可读存储介质，在不增加额外的交互成本的情况下，实现对文本数据的编辑，操作简便，提高用户体验。

第一方面，提供一种语音编辑方法，包括：获取输入的语音数据；将所述语音数据转换为文本数据，并将所述文本数据划分为t个句子，所述t为大于1的整数；计算所述t个句子中第t个句子与所述第t个句子之前的c个句子的语义一致性置信度，其中，所述语义一致性置信度用于描述所述第t个句子与所述c个句子的语义关联程度，所述c为大于0的整数；若所述语义一致性置信度小于预设值，对所述第t个句子进行识别，并将识别结果作为编辑指令对所述文本数据进行编辑。

上述实施例中，通过获取语音数据，将语音数据转换为文本数据，将文本数据划分为t个句子，计算t个句子中第t个句子与第t个句子之前的c个句子的语义一致性置信度，若语义一致性置信度小于预设值，说明第t个句子与c个句子的语义关联程度较低，即第t个句子与c个句子不是连贯的语句，进一步说明第t个句子相对于c个句子进行了话题转换，是不同于前面c个句子的指令，此时，对第t个句子进行识别，并将识别结果作为编辑指令对文本数据进行编辑，能够不需要用户进行额外的交互，也可实现对文本数据的编辑操作，操作简便，从而提高了用户体验。

在第一方面的一种可能的实现方式中，所述计算所述t个句子中第t个句子与所述第t个句子之前的c个句子的语义一致性置信度，包括：将所述t个句子输入预设的语义一致性模型，得到所述语义一致性模型输出的所述t个句子中第t个句子与所述第t个句子之前的c个句子的语义一致性置信度。由于预设的语义一致性模型是根据大量训练样本训练后得到的，通过预设的语义一致性模型计算语义一致性置信度，提高了计算结果的准确性和稳定性。

在第一方面的一种可能的实现方式中，所述预设的语义一致性模型用于：根据所述第t个句子和所述c个句子计算第t个句子的综合表示向量，其中，所述第t个句子的综合表示向量用于描述所述第t个句子与所述c个句子的语义关联，以及所述第t个句子与所述c个句子中每个句子的语义关联，因此综合表示向量可以表征第t个句子和c个句子之间更多的关联信息，再根据所述第t个句子的综合表示向量确定语义一致性置信度，提高了语义一致性置信度的准确性。

在第一方面的一种可能的实现方式中，所述根据所述第t个句子和所述c个句子计算第t个句子的综合表示向量，包括：根据所述第t个句子和所述c个句子确定第t个句子各词语的上下文向量，以及确定c个句子各词语的上下文向量；根据所述第t个句子各词语的上下文向量，以及所述c个句子各词语的上下文向量计算第t个句子的综合表示向量。

在第一方面的一种可能的实现方式中，所述根据所述第t个句子和所述c个句子确定第t个句子各词语的上下文向量，以及确定c个句子各词语的上下文向量，包括：对所述第t个句子和所述c个句子进行注意力运算，从而可以捕捉到第t个句子和c个句子之间更多的内部特征，得到第t个句子与上文的注意力；根据所述第t个句子与上文的注意力计算第t个句子各词语的上下文向量，以及c个句子各词语的上下文向量。

在第一方面的一种可能的实现方式中，所述对所述第t个句子和所述c个句子进行注意力运算，得到第t个句子与上文的注意力，包括：对所述第t个句子进行分词处理，根据分词处理后的第t个句子确定所述第t个句子的各词语对应的隐向量；对所述c个句子进行分词处理，根据分词处理后的所述c个句子确定所述c个句子的各词语对应的隐向量；对所述第t个句子的各词语对应的隐向量，以及所述c个句子的各词语对应的隐向量，进行注意力运算，得到第t个句子与上文的注意力。

在第一方面的一种可能的实现方式中，所述根据所述第t个句子与上文的注意力计算第t个句子各词语的上下文向量，以及c个句子各词语的上下文向量，包括：根据所述第t个句子与上文的注意力，以及所述c个句子的各词语对应的隐向量，计算第t个句子各词语的上下文表示；对所述第t个句子各词语的上下文表示，以及所述第t个句子的各词语对应的隐向量，进行残差连接运算，得到第t个句子各词语的上下文向量；根据所述第t个句子与上文的注意力，以及所述第t个句子的各词语对应的隐向量，计算c个句子各词语的上下文表示；对所述c个句子各词语的上下文表示，以及所述c个句子的各词语对应的隐向量，进行残差连接运算，得到c个句子各词语的上下文向量，从而可以减少信号损失，提高了计算的准确度。

在第一方面的一种可能的实现方式中，所述根据所述第t个句子各词语的上下文向量，以及所述c个句子各词语的上下文向量计算第t个句子的综合表示向量，包括：对所述第t个句子各词语的上下文向量，以及所述c个句子各词语的上下文向量进行注意力运算，得到第t个句子与c个句子对应的注意力；根据所述第t个句子与c个句子对应的注意力计算第t个句子的综合表示向量。

在第一方面的一种可能的实现方式中，所述根据所述第t个句子与c个句子对应的注意力计算第t个句子的综合表示向量，包括：根据所述第t个句子与c个句子对应的注意力，以及c个句子各词语的上下文向量，计算第t个句子各词语与c个句子对应的上下文表示；对所述第t个句子各词语与c个句子对应的上下文表示，以及第t个句子各词语的上下文向量，进行残差连接运算，得到第t个句子的综合表示向量，从而可以减少信号损失，提高了计算的准确度。

在第一方面的一种可能的实现方式中，所述根据所述第t个句子的综合表示向量确定语义一致性置信度，包括：根据所述c个句子各词语的上下文向量，确定c个句子的综合表示向量；对所述第t个句子的综合表示向量以及所述c个句子的综合表示向量进行拼接，根据拼接后的向量确定语义一致性置信度。

在第一方面的一种可能的实现方式中，所述对所述第t个句子进行识别，包括：将所述第t个句子输入预设的意图识别模型，得到所述预设的意图识别模型输出的识别结果。

在第一方面的一种可能的实现方式中，在所述计算所述t个句子中第t个句子与所述第t个句子之前的c个句子的语义一致性置信度之后，所述语音编辑方法还包括：若所述语义一致性置信度大于或者等于所述预设值，存储所述文本数据。

第二方面，提供一种语音编辑装置，包括：

获取模块，用于获取输入的语音数据；

分句模块，用于将所述语音数据转换为文本数据，并将所述文本数据划分为t个句子，所述t为大于1的整数；

计算模块，用于计算所述t个句子中第t个句子与所述第t个句子之前的c个句子的语义一致性置信度，其中，所述语义一致性置信度用于描述所述第t个句子与所述c个句子的语义关联程度,所述c为大于0的整数；

识别模块，用于若所述语义一致性置信度小于预设值，对所述第t个句子进行识别，并将识别结果作为编辑指令对所述文本数据进行编辑。

在第二方面的一种可能的实现方式中，所述计算模块具体用于：

将所述t个句子输入预设的语义一致性模型，得到所述语义一致性模型输出的所述t个句子中第t个句子与所述第t个句子之前的c个句子的语义一致性置信度。

在第二方面的一种可能的实现方式中，所述计算模块包括：

第一计算单元，用于根据所述第t个句子和所述c个句子计算第t个句子的综合表示向量，其中，所述第t个句子的综合表示向量用于描述所述第t个句子与所述c个句子的语义关联，以及所述第t个句子与所述c个句子中每个句子的语义关联；

第二计算单元，用于根据所述第t个句子的综合表示向量确定语义一致性置信度。

在第二方面的一种可能的实现方式中，所述第一计算单元具体用于：

根据所述第t个句子和所述c个句子确定第t个句子各词语的上下文向量，以及确定c个句子各词语的上下文向量；

根据所述第t个句子各词语的上下文向量，以及所述c个句子各词语的上下文向量计算第t个句子的综合表示向量。

在第二方面的一种可能的实现方式中，所述第一计算单元具体还用于：

对所述第t个句子和所述c个句子进行注意力运算，得到第t个句子与上文的注意力；

根据所述第t个句子与上文的注意力计算第t个句子各词语的上下文向量，以及c个句子各词语的上下文向量。

对所述第t个句子进行分词处理，根据分词处理后的第t个句子确定所述第t个句子的各词语对应的隐向量；

对所述c个句子进行分词处理，根据分词处理后的所述c个句子确定所述c个句子的各词语对应的隐向量；

对所述第t个句子的各词语对应的隐向量，以及所述c个句子的各词语对应的隐向量，进行注意力运算，得到第t个句子与上文的注意力。

根据所述第t个句子与上文的注意力，以及所述c个句子的各词语对应的隐向量，计算第t个句子各词语的上下文表示；

对所述第t个句子各词语的上下文表示，以及所述第t个句子的各词语对应的隐向量，进行残差连接运算，得到第t个句子各词语的上下文向量；

根据所述第t个句子与上文的注意力，以及所述第t个句子的各词语对应的隐向量，计算c个句子各词语的上下文表示；

对所述c个句子各词语的上下文表示，以及所述c个句子的各词语对应的隐向量，进行残差连接运算，得到c个句子各词语的上下文向量。

对所述第t个句子各词语的上下文向量，以及所述c个句子各词语的上下文向量进行注意力运算，得到第t个句子与c个句子对应的注意力；

根据所述第t个句子与c个句子对应的注意力计算第t个句子的综合表示向量。

根据所述第t个句子与c个句子对应的注意力，以及c个句子各词语的上下文向量，计算第t个句子各词语与c个句子对应的上下文表示；

对所述第t个句子各词语与c个句子对应的上下文表示，以及第t个句子各词语的上下文向量，进行残差连接运算，得到第t个句子的综合表示向量。

在第二方面的一种可能的实现方式中，所述第二计算单元具体用于：

根据所述c个句子各词语的上下文向量，确定c个句子的综合表示向量；

对所述第t个句子的综合表示向量以及所述c个句子的综合表示向量进行拼接，根据拼接后的向量确定语义一致性置信度。

在第二方面的一种可能的实现方式中，所述识别模块具体用于：

将所述第t个句子输入预设的意图识别模型，得到所述预设的意图识别模型输出的识别结果。

在第二方面的一种可能的实现方式中，所述识别模块具体还用于：

若所述语义一致性置信度大于或者等于所述预设值，存储所述文本数据。

第三方面，提供一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的语音编辑方法。

第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述第一方面所述的语音编辑方法。

第五方面，提供一种计算机程序产品，当计算机程序产品在终端设备上运行时，使得终端设备执行上述第一方面所述的语音编辑方法。

可以理解的是，上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

附图说明

图1为本申请实施例提供的语音编辑方法的一种应用场景图；

图2为本申请实施例提供的语音编辑方法的另一种应用场景图；

图3为本申请实施例提供的语音编辑方法的流程示意图；

图4为本申请实施例提供的分句处理的示意图；

图5为本申请实施例提供的计算语义一致性置信度的示意图；

图6是本申请实施例提供的语义一致性模型的示意图；

图7是本申请实施例提供的语音编辑方法的具体实现流程示意图；

图8为本申请实施例提供的电子设备的示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

本申请实施例提供的语音编辑方法应用于电子设备，其中，电子设备可以是手机、平板、电脑、智能音箱、车载设备等终端，也可以是服务器，本申请实施例对该电子设备的具体形态/类型不作特殊限制。本申请实施例提供的方法可以全部执行于终端，也可以全部执行于服务器，也可以部分执行于终端，部分执行于服务器。

如图1所示，为本申请实施例提供的语音编辑方法的一种应用场景图，电子设备，例如智能音箱，获取用户输入的语音数据，将语音数据转换为文本数据，将文本数据划分为t个句子，计算第t个句子与第t个句子之前的c个句子的语义一致性置信度，其中，语义一致性置信度用于描述第t个句子与c个句子的语义关联程度。若语义一致性置信度小于预设值，对第t个句子进行识别，并将识别结果作为编辑指令对文本数据进行编辑，得到更新文本。例如，转换后的文本数据中，第t个句子为：将“酒店”替换为“九点”，第t个句子之前的句子，即第c个句子为：明天酒店有什么安排，第t个句子与第c个句子的语义一致性置信度小于预设值，则对第t个句子进行识别，根据识别结果对文本数据进行编辑，得到的更新文本为“明天九点有什么安排”。若语义一致性置信度大于或等于预设值，则记录文本数据，根据记录的文本数据更新电子设备中缓存的文本，得到更新文本。得到更新文本后，电子设备识别更新文本的意图，再根据更新文本的意图生成对应的回复文本，再将回复文本转换为语音数据，最后输出语音数据。例如，若更新文本的意图是获取日程信息，则电子设备获取日程信息对应的回复文本，再将该回复文本转换为语音数据并进行播放；若更新文本的意图是播放歌曲××，则电子设备搜索歌曲××，若搜索到对应歌曲，则获取歌曲××的音频，生成“即将为您播放歌曲××”的回复文本，再将该回复文本转换为语音数据并进行播放，最后播放搜索到的歌曲××的音频，能够不需要用户进行额外的交互，也可实现对文本数据的语音编辑，从而使电子设备可以及时获取用户的真实意图并进行响应，提高了用户体验。

如图2所示，为本申请实施例提供的语音编辑方法的另一种应用场景图，用户在语音输入端，例如手机的应用软件或者电脑的网页页面输入语音数据，语音输入端将用户输入的语音数据发送至服务器，服务器将语音数据转换为文本数据，将文本数据划分为t个句子，计算第t个句子与第t个句子之前的c个句子的语义一致性置信度，若语义一致性置信度小于预设值，则对第t个句子进行识别，并将识别结果作为编辑指令对文本数据进行编辑，得到更新文本；若语义一致性置信度大于或等于预设值，则记录文本数据，根据记录的文本数据更新服务器中缓存的文本，得到更新文本，以根据更新文本执行进一步的操作，例如，服务器识别更新文本的意图，根据更新文本的意图将对应的资源发送至语音输入端，或者将更新文本发送至语音输入端以进行显示。从而不需要用户进行额外的交互，即可实现对文本数据的编辑操作。

下面以本申请实施例提供的方法全部执行于同一个电子设备为例，介绍本申请实施例提供的语音编辑方法。

如图3所示，本申请实施例提供的语音编辑方法，包括：

S101：获取语音数据。

具体地，电子设备通过麦克风采集用户输入的语音数据。

S102：将语音数据转换为文本数据，并将文本数据划分为t个句子，所述t为大于1的整数。

具体地，将采集的语音数据经过降噪、滤波后，输入预设的语音识别模型，得到预设的语音识别模型输出的文本数据。其中，语音识别模型是以语音数据和对应的文本数据作为训练样本，采用机器学习的算法对预设的算法模型进行训练后所得到的模型。

如图4所示，在得到文本数据后，对文本数据进行分句处理，以将文本数据划分为t个句子，其中，第t个句子是由用户当前输入的语音数据转换得到的，第t个句子之前的句子是由用户输入的历史语音数据转换得到的，第t个句子之前的句子是第t个句子的上文。

在一种可能的实现方式中，根据用户输入语音数据时的停顿间隔生成的标点符号或者空格。例如，若用户输入语音数据的过程中，其中两个词语之间的停顿间隔大于预设时长，则在语音转换时，在该两个词语之间添加标点符号或者空格，其中，标点符号可以为逗号。在根据停顿间隔生成标点符号或者空格后，再根据的标点符号或者空格对文本数据进行句子划分。需要说明的是，可以是在用户输入当前语音数据之前，对第t个句子之前的句子进行划分，也可以是在用户输入当前语音数据，且在所有语音数据转换为文本数据后，对文本数据的句子进行划分。

S103：计算t个句子中第t个句子与第t个句子之前的c个句子的语义一致性置信度，其中，所述语义一致性置信度用于描述所述第t个句子与所述c个句子的语义关联程度，所述c为大于0的整数，c≤t-1。

在一种可能的实现方式中，如图5所示，将第t个句子以及第t个句子之前的c个句子输入预设的语义一致性模型，得到预设的语义一致性模型输出的语义一致性置信度。其中，语义一致性模型是以文本数据以及文本数据各句子之间的语义一致性置信度为训练样本，采用机器学习的算法对预设的算法模型进行训练后得到的。

语义一致性模型在训练过程中的计算原理和语义一致性模型的应用原理相同。下面以语义一致性模型的应用为例，介绍语义一致性模型在计算语义一致性置信度时的计算过程。本申请实施例中，语义一致性模型用于根据计算t个句子中第t个句子和c个句子的语义关联，根据该语音关联确定语义一致性置信度。其中，该语义关联可以是第t个句子与c个句子的语义关联，也可以是第t个句子与c个句子中每个句子的语义关联，也可以既包括第t个句子与c个句子的语义关联，也包括第t个句子与c个句子中每个句子的语义关联。其中，第t个句子与c个句子的语义关联表示第t个句子与上文整体的语义关联，第t个句子与c个句子中每个句子的语义关联表示第t个句子与c个句子在句子级别的语义关联。本申请实施例中，语义一致性模型用于计算第t个句子与c个句子的语义关联，以及第t个句子与c个句子中每个句子的语义关联，从而能够提取出第t个句子与c个句子更有效的关联信息，进而使得输出的语义一致性置信度更具鲁棒性。

本申请实施例中，采用第t个句子的综合表示向量描述第t个句子与c个句子的语义关联，以及第t个句子与c个句子中每个句子的语义关联，即语义一致性模型首先根据第t个句子和c个句子计算第t个句子的综合表示向量，再根据第t个句子的综合表示向量确定语义一致性置信度。

具体地，首先对t个句子中的每个句子进行分词处理，得到c个句子的各词语以及第t个句子的各词语。其中，若文本数据为英文，则按照英文单词对每个句子进行分词处理，若文本数据为中文，则根据文本数据与设定的词语库的对比结果对文本进行分词处理。示例性地，设定第t个句子用S_t表示，其中，t表示第t个句子的句子序号，/>表示第t个句子中的词语，L_t表示第t个句子中的词语数量，设定第t个句子之前的c个句子用S_τ表示，τ∈{t-1,…t-c}，则/>其中，/>表示c个句子中的词语，_τ表示c个句子中每个句子的词语数量。在得到c个句子的各词语以及第t个句子的各词语后，将c个句子的各词语以及第t个句子的各词语输入预设的语义一致性模型，计算出第t个句子的综合表示向量，再根据第t个句子的综合表示向量确定语义一致性置信度。

如图6所示，在一种可能的实现方式中，预设的语义一致性模型包括嵌入层、上下文编码器、池化层和全连接层。将第t个句子的各词语输入嵌入层，得到第t个句子的各词语对应的语义嵌入表示其中，/>d_e代表嵌入表示对应的向量的维度；将c个句子的各词语输入嵌入层，得到c个句子的各词语对应的语义嵌入表示/>其中，

在得到第t个句子各词语对应的嵌入表示以及c个句子各词语对应的嵌入表示后，将第t个句子的各词语对应的语义嵌入表示输入上下文编码器，得到第t个句子的各词语对应的隐向量其中，/>d_h表示隐向量的维度；将c个句子的各词语对应的语义嵌入表示输入上下文编码器，得到c个句子的各词语对应的隐向量/>其中，在一种可能的实现方式中，上下文编码器采用循环神经网络(Recurrent Neural Network，RNN)进行编码，编码的计算公式为h_i＝tanh(Ue_i+Wh_i-1+b),i∈{1,…,L}，其中，{U,W,b}为编码器的参数；e_i表示第个词语的嵌入表示，i表示第个词语对应的隐向量。

对第t个句子的各词语对应的隐向量c个句子的各词语对应的隐向量/>进行注意力运算，即将第t个句子的每个词语对应的隐向量，依次与c个句子的每个词语对应的隐向量进行注意力运算，得到第t个句子与上文的注意力。在一种可能的实现方式中，第t个句子与上文的注意力运算的公式为：/> 其中，/>代表第t个句子与上文的注意力，g_α是注意力权重函数，权重函数的公式为其中，a,b表示输入注意力权重函数的两个向量，a^t表示a的转置，/>为待学习参数。需要说明的是，在其他可行的实现方式中，可以将第t个句子和c个句子分别用向量表示，对第t个句子的向量和c个句子的向量进行注意力运算，得到第t个句子与上文的注意力。

在得到第t个句子与上文的注意力后，根据第t个句子与上文的注意力，以及c个句子的各词语对应的隐向量计算第t个句子各词语的上下文表示。根据第t个句子与上文的注意力，以及第t个句子的各词语对应的隐向量/>计算c个句子各词语的上下文表示。在一种可能的实现方式中，根据下述公式计算第t个句子各词语的上下文表示和c个句子各词语的上下文表示：

其中，softmax是逻辑回归运算，表示第t个句子各词语的上下文表示，/>表示c个句子各词语的上下文表示。由公式可以看出，第t个句子各词语的上下文表示和c个句子各词语的上下文表示可以用于描述第t个句子与c个句子每个词语的语义关联信息，即第t个句子与c个句子整体的关联信息。

如图6所示，在一种可能的实现方式中，为了减少信息损失，在得到第t个句子各词语的上下文表示和c个句子各词语的上下文表示/>后，对第t个句子各词语的上下文表示，以及第t个句子的各词语对应的隐向量，进行残差连接运算，得到第t个句子各词语的上下文向量，即/>则/>表示第t个句子各词语的上下文向量。对c个句子各词语的上下文表示，以及c个句子的各词语对应的隐向量，进行残差连接运算，得到c个句子各词语的上下文向量，即/> 则表示c个句子各词语的上下文向量。需要说明的是，在其他可行的实现方式中，可以将第t个句子各词语的上下文表示作为第t个句子各词语的上下文向量，将c个句子各词语的上下文表示作为c个句子各词语的上下文向量。

在得到第t个句子各词语的上下文向量以及c个句子各词语的上下文向量后，对第t个句子各词语的上下文向量以及c个句子各词语的上下文向量进行注意力运算，即将第t个句子各词语的上下文向量依次与c个句子的每个句子中的各词语的上下文向量进行注意力运算，得到第t个句子与c个句子对应的注意力。在一种可能的实现方式中，第t个句子与c个句子对应的注意力计算公式为：/> 其中，/>表示第t个句子与c个句子对应的注意力，g_β是注意力权重函数，/>a,b表示输入注意力权重函数的两个向量，a^t表示a的转置，/>为待学习参数。

在得到第t个句子与c个句子对应的注意力后，根据第t个句子与c个句子对应的注意力，以及c个句子各词语的上下文向量，计算第t个句子各词语与c个句子对应的上下文表示。在一种可能的实现中，采用下述公式计算第t个句子各词语与c个句子对应的上下文表示：

其中，表示第t个句子各词语与c个句子对应的上下文表示，/>表示第t个句子各词语与c个句子的每个句子对应的关联向量。由公式可以看出，第t个句子各词语与c个句子对应的上下文表示可以用于描述第t个句子与c个句子在句子级别的语义关联。需要说明的是，在其他可行的实现方式中，也可以对第t个句子各词语的上下文表示和c个句子各词语的上下文表示，进行注意力运算，得到第t个句子与c个句子对应的注意力。

如图6所示，在一种可能的实现方式中，在对第t个句子各词语与c个句子的每个句子对应的关联向量进行池化运算，得到第t个句子各词语与c个句子对应的上下文表示/>后，再对第t个句子各词语与c个句子对应的上下文表示/>以及第t个句子各词语的上下文向量/>进行残差连接运算，得到第t个句子各词语的综合表示向量。具体地，根据公式/>计算第t个句子各词语的综合表示向量，其中，/>表示第t个句子各词语的综合表示向量。

在得到第t个句子各词语的综合表示向量后，将第t个句子各词语的综合表示向量/>形成的集合整合为第t个句子的综合表示向量，将c个句子各词语的上下文向量形成的集合整合为c个句子的综合表示向量，对第t个句子的综合表示向量以及c个句子的综合表示向量进行拼接，根据拼接后的向量确定语义一致性置信度。具体地，将拼接后的向量经过全连接层，输出语义一致性置信度。

在一种可能的实现方式中，如图6所示，将第t个句子的综合表示向量以及c个句子的综合表示向量输入池化层，分别进行池化运算后，再进行拼接，以降低运算过程中引入的误差。具体地，根据公式和/> 进行池化运算，其中，r表示池化运算后的第t个句子的综合表示向量，r_ctx表示池化运算后的c个句子的综合表示向量。进行池化运算后，将r和r_ctx进行拼接，将拼接后的向量输入全连接层，输出语义一致性置信度。即根据公式Coh(S_t)＝MLP([r_ctx；r])计算语义一致性置信度，其中，Coh(S_t)表示语义一致性置信度，MLP为全连接运算。

需要说明的是，在其他可行的实现方式中，可以通过预设的相似度计算规则，例如，编辑距离的计算方法或者欧几里得距离的计算方法，计算第t个句子与c个句子的相似度，将相似度作为第t个句子与c个句子的语义一致性置信度。

S104：判断语义一致性置信度是否小于预设值。

在一种可能的实现方式中，语义一致性置信度为0至1之间的数字。预设值是判定第t个句子与c个句子的语义关联程度的指标。

S105：若所述语义一致性置信度小于预设值，对所述第t个句子进行识别，并将识别结果作为编辑指令对所述文本数据进行编辑。

具体地，若语义一致性置信度小于预设值，说明第t个句子与c个句子的语义关联较低，第t个句子与c个句子不连贯，进一步说明第t个句子相对于c个句子进行了话题转换，是不同于c个句子的语音指令。此时，将第t个句子输入预设的意图识别模型，识别出第t个句子的意图，将第t个句子的意图作为编辑指令，对文本数据进行编辑。示例性地，编辑指令可以是移动光标、词语替换、词语删除的指令，例如，“光标前移N个字”、“光标移动至第i句第j个字”、“光标移动到××后”、“将××替换为××”、“删除××”等。

在一种可能的实现方式中，用于识别第t个句子的意图识别模型，可以用于提取第t个句子中的特征词或者关键词，根据特征词或者关键词来确定编辑指令，例如，若提取的特征词或者关键词包括“光标”、“移动”、“向前”等，则根据识别结果对光标进行移动；若提取的关键词包括“替换”，则根据识别结果确定出替换的词语和待替换的词语，进而进行词语替换。意图识别模型也可以用于将第t个句子与预设的模板进行匹配，根据匹配结果确定编辑指令，例如，模板包括“光标向左移动××”、“光标移动至××”、“将××替换为××”等，每个模板对应一种编辑方式，根据第t个句子与模板的匹配结果确定对应的编辑方式，根据该编辑方式执行对应的编辑指令。

由于汉语中的同音字很普遍，对于词语替换的编辑指令，用户一般采用词语特指的说法，例如，将“子”替换为“紫色”的“紫”、将“记入”的“记”替换为“计算机”的“计”等，由于同音词语的存在，在对第t个句子进行识别的过程中，有可能替换后的词语仍然不能代表用户意图，例如，将“紫色的紫”识别为“姿色的姿”，将“计算机的计”识别为“计算机的机”。

本申请实施例中，电子设备在识别出词语替换的编辑命令时，确定编辑命令中的目标描述词以及目标同音字，其中，目标描述词为目标同音字所在的词语，例如，将“子”替换为“紫色”的“紫”中，目标描述词为“紫色”，目标同音字为“紫”；将“记”的记替换为“计算机”的“计”中，目标描述词为“计算机”，目标同音字为“计”。确定目标描述词以及目标同音字后，将目标描述词的拼音序列输入拼音转汉字的序列标注模型，获得拼音转汉字的序列标注模型输出的目标同音字的拼音对应的候选汉字及其先验概率分布，再将目标同音字的拼音对应的候选汉字，以及第t个句子之前的待替换的词语输入同音字分类模型中，得到各候选汉字对应的关联概率，对先验概率和关联概率进行加权平均，得到各候选汉字的最终概率，输出最终概率最大的候选汉字，作为替换汉字，用于替换第t个句子之前的待替换的汉字。其中，先验概率是：目标描述词对应的拼音序列中，候选汉字是目标同音字的概率；关联概率用于表征候选汉字与待替换词语之间的语义关联。通过将两种模型结合，可以输出准确的替换汉字。

例如，编辑指令为将“记入”的“记”替换为“计算机”的“计”，将“jisuanji”输入拼音转汉字的序列标注模型，得到“计”的先验概率为0.3，“机”的先验概率为0.7；将“计”和“机”，以及“记入”输入同音字分类模型，得到“计”的关联概率为0.9，“机”的关联概率为0.1，对先验概率和关联概率进行加权平均，得到“计”的最终概率为0.6，“机”的关联概率为0.4。

S106：若所述语义一致性置信度大于或者等于所述预设值，存储所述文本数据。

具体地，若语义一致性置信度大于或者等于预设值，说明第t个句子与第t个句子之前的c个句子的语义关联较高，第t个句子和c个句子为连贯的文本数据，将第t个句子记录于c个句子后，存储文本数据，将存储的文本数据输入意图识别模型，识别出文本数据的意图，根据识别出的意图执行对应的操作。

下面结合具体的应用场景，对本申请实施例提供的语音编辑方法的具体实现流程进行进一步说明。如图7所示，首先采集训练语料，训练语料包括文本数据，文本数据包括至少两个句子，其中，部分文本数据的最后一个句子为编辑指令，部分文本数据的最后一个句子为非编辑指令，标注文本数据的上文的语义一致性置信度，生成训练样本，对训练样本进行训练，生成语义一致性模型。将用户输入的语音数据转换为文本数据，将文本数据划分为t个句子，将第t个句子和c个句子输入语义一致性模型，根据语义一致性模型输出的语义一致性置信度判断第t个句子是否是编辑指令；若是编辑指令，则执行编辑指令，得到更新文本；若不是编辑指令，则记录文本数据，更新电子设备中存储的文本，得到更新文本。得到更新文本后，根据更新文本执行对应的操作，同时存储未正确识别的文本数据，将其作为新的训练语料，并进行标注，添加至训练样本，对语义一致性模型进行优化。

上述实施例中，通过将用户输入的语音数据转换为文本数据，将文本数据划分为t个句子，将t个句子输入语义一致性模型，计算第t个句子与c个句子的语义一致性置信度，由于语义一致性模型用于描述第t个句子与c个句子，以及第t个句子与c个中每个句子的语义关联，从而能够提取出第t个句子与c个句子更有效的关联信息，进而使得输出的语义一致性置信度更具鲁棒性。上述实施例中，若语义一致性置信度小于预设值，说明第t个句子与c个句子的语义关联度较低，即第t个句子相对于c个句子进行了话题转换，是不同于上文的指令，此时将第t个句子作为编辑指令，并执行该编辑指令，从而可以在不需要额外的交互的情况下，即可实现对c个句子的编辑，操作简便，提高用户体验。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

基于同一发明构思，本申请实施例还提供了一种电子设备。如图8所示，本申请实施例提供的电子设备可以包括：处理器210、存储器220、网络接口230。处理器210、存储器220和网络接口230通过通信总线240相连。

所述处理器210可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。可选的，处理器210可包括一个或多个处理单元。

所述存储器220可以是电子设备的内部存储单元，例如电子设备的硬盘或内存。所述存储器220也可以是电子设备的外部存储设备，例如电子设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器220还可以既包括电子设备的内部存储单元也包括外部存储设备。所述存储器220用于存储计算机程序以及电子设备所需的其他程序和数据。所述存储器220还可以用于暂时地存储已经输出或者将要输出的数据。

网络接口230可以用于收发信息，可以包括有线接口和/或无线接口，通常用于在该电子设备与其他电子设备之间建立通信连接。

可选地，该电子设备还可以包括用户接口250，用户接口250可以包括显示器(Display)、输入单元比如键盘(Keyboard)，可选的用户接口250还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备中处理的信息以及用于显示可视化的用户界面。

本领域技术人员可以理解，图8仅仅是电子设备的举例，并不构成对电子设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本实施例提供的电子设备可以执行上述方法实施例，其实现原理与技术效果类似，此处不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括：能够将计算机程序代码携带到拍照装置/电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

在本申请所提供的实施例中，应该理解到，所揭露的装置/网络设备和方法，可以通过其它的方式实现。例如，以上所描述的装置/网络设备实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口，装置或单元的间接耦合或通讯连接，可以是电性，机械或其它的形式。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

最后应说明的是：以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音编辑方法，其特征在于，包括：

获取输入的语音数据；

将所述语音数据转换为文本数据，并将所述文本数据划分为t个句子，所述t为大于1的整数；

计算所述t个句子中第t个句子与所述第t个句子之前的c个句子的语义一致性置信度，其中，所述语义一致性置信度用于描述所述第t个句子与所述c个句子的语义关联程度,所述c为大于0的整数；

若所述语义一致性置信度小于预设值，对所述第t个句子进行识别，并将识别结果作为编辑指令对所述文本数据进行编辑。

2.根据权利要求1所述的语音编辑方法，其特征在于，所述计算所述t个句子中第t个句子与所述第t个句子之前的c个句子的语义一致性置信度，包括：

3.根据权利要求2所述的语音编辑方法，其特征在于，所述预设的语义一致性模型用于：

根据所述第t个句子和所述c个句子计算第t个句子的综合表示向量，其中，所述第t个句子的综合表示向量用于描述所述第t个句子与所述c个句子的语义关联，以及所述第t个句子与所述c个句子中每个句子的语义关联；

根据所述第t个句子的综合表示向量确定语义一致性置信度。

4.根据权利要求3所述的语音编辑方法，其特征在于，所述根据所述第t个句子和所述c个句子计算第t个句子的综合表示向量，包括：

5.根据权利要求4所述的语音编辑方法，其特征在于，所述根据所述第t个句子和所述c个句子确定第t个句子各词语的上下文向量，以及确定c个句子各词语的上下文向量，包括：

6.根据权利要求5所述的语音编辑方法，其特征在于，所述对所述第t个句子和所述c个句子进行注意力运算，得到第t个句子与上文的注意力，包括：

对所述c个句子进行分词处理，根据分词处理后的c个句子确定所述c个句子的各词语对应的隐向量；

7.根据权利要求6所述的语音编辑方法，其特征在于，所述根据所述第t个句子与上文的注意力计算第t个句子各词语的上下文向量，以及c个句子各词语的上下文向量，包括：

8.根据权利要求4所述的语音编辑方法，其特征在于，所述根据所述第t个句子各词语的上下文向量，以及所述c个句子各词语的上下文向量计算第t个句子的综合表示向量，包括：

9.根据权利要求8所述的语音编辑方法，其特征在于，所述根据所述第t个句子与c个句子对应的注意力计算第t个句子的综合表示向量，包括：

10.根据权利要求4所述的语音编辑方法，其特征在于，所述根据所述第t个句子的综合表示向量确定语义一致性置信度，包括：

11.根据权利要求1所述的语音编辑方法，其特征在于，所述对所述第t个句子进行识别，包括：

12.根据权利要求1所述的语音编辑方法，其特征在于，在所述计算所述t个句子中第t个句子与所述第t个句子之前的c个句子的语义一致性置信度之后，所述语音编辑方法还包括：

13.一种电子设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至12任一项所述的语音编辑方法。

14.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至12任一项所述的语音编辑方法。