CN116013277A

CN116013277A - 语音处理方法、装置、电子设备和存储介质

Info

Publication number: CN116013277A
Application number: CN202211678115.7A
Authority: CN
Inventors: 葛学志; 华磊; 刘权; 陈志刚; 刘聪; 胡国平
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2022-12-26
Filing date: 2022-12-26
Publication date: 2023-04-25

Abstract

本发明提供一种语音处理方法、装置、电子设备和存储介质，其中方法包括：确定待处理语音的识别文本；基于所述待处理语音中各字符的停顿信息，以及所述识别文本中各字符之间的相关度，对所述识别文本中的各字符进行编码，得到所述识别文本中各字符的停顿上下文信息；基于所述各字符的停顿上下文信息，对所述待处理语音进行语音处理。本发明提供的语音处理方法、装置、电子设备和存储介质，得到的停顿上下文信息既能够反映待处理语音在发音上的声学停顿信息，同时能够反映对应的文本在内容语义上的语义信息，基于停顿上下文信息进行语音处理能够消除语义理解过程中的歧义，进一步提高语音处理的准确性。

Description

语音处理方法、装置、电子设备和存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音处理方法、装置、电子设备和存储介质。

背景技术

智能语音助手越来越普及，借助语音助手可以完成各种各样复杂的任务。比如，人们在开车的时候，可以通过语音进行导航、查天气、放音乐，操控空调、车窗等一系列任务。然而这一系列复杂指令的执行过程都离不开自然语言理解技术。

在相关技术中，通常是基于语音识别文本中包含的字词，从字词中提取文本的语义特征进行语音处理。然而在一些字词容易出现歧义的场景下，会导致语义理解不准确，语音处理的准确性欠佳。

发明内容

本发明提供一种语音处理方法、装置、电子设备和存储介质，用以解决现有技术中语义理解不准确，语音处理的准确性欠佳的缺陷。

本发明提供一种语音处理方法，包括：

确定待处理语音的识别文本；

基于所述待处理语音中各字符的停顿信息，以及所述识别文本中各字符之间的相关度，对所述识别文本中的各字符进行编码，得到所述识别文本中各字符的停顿上下文信息；

基于所述各字符的停顿上下文信息，对所述待处理语音进行语音处理。

根据本发明提供的语音处理方法，在所述语音处理包括实体抽取的情况下，所述基于所述各字符的停顿上下文信息，对所述待处理语音进行语音处理，包括：

基于所述识别文本中的字符串与预设字符串之间的匹配结果，对所述识别文本中的各字符进行编码，得到各字符的边界匹配信息；

基于所述各字符的停顿上下文信息，以及所述各字符的边界匹配信息，对所述待处理语音进行实体抽取。

根据本发明提供的语音处理方法，所述基于所述各字符的停顿上下文信息，以及所述各字符的边界匹配信息，对所述待处理语音进行实体抽取，包括：

基于所述各字符的停顿上下文信息以及边界匹配信息的重要性，将所述各字符的停顿上下文信息以及所述各字符的边界匹配信息进行融合，得到融合信息；

基于所述融合信息，对所述待处理语音进行实体抽取。

根据本发明提供的语音处理方法，所述基于所述各字符的停顿上下文信息以及边界匹配信息的重要性，将所述各字符的停顿上下文信息以及所述各字符的边界匹配信息进行融合，得到融合信息，包括：

基于所述各字符的停顿上下文信息以及所述各字符的边界匹配信息的重要性，确定融合权重；

基于所述融合权重，将所述各字符的停顿上下文信息以及所述各字符的边界匹配信息进行加权融合，得到融合信息。

根据本发明提供的语音处理方法，所述基于所述识别文本中的字符串与预设字符串之间的匹配结果，对所述识别文本中的各字符进行编码，得到各字符的边界匹配信息，包括：

将所述识别文本中连续字符对应的字符串与预设字符串进行匹配，得到匹配结果；

基于所述匹配结果，对所述识别文本中的各字符进行编码，得到各字符的边界匹配信息。

根据本发明提供的语音处理方法，所述待处理语音中各字符的停顿信息的确定方法包括：

对所述待处理语音进行解码，得到所述待处理语音中各语音帧的时长；

对所述各语音帧的时长进行转换，得到所述待处理语音中各字符的停顿信息。

根据本发明提供的语音处理方法，所述基于所述待处理语音中各字符的停顿信息，以及所述识别文本中各字符之间的相关度，对所述识别文本中的各字符进行编码，得到所述识别文本中各字符的停顿上下文信息，包括：

基于语言模型，应用所述待处理语音中各字符的停顿信息，以及所述识别文本中各字符之间的相关度，对所述识别文本中的各字符进行编码，得到所述识别文本中各字符的停顿上下文信息；

所述语言模型的模型损失是基于样本文本中各字符的上下文编码损失，以及所述样本文本中各字符的停顿编码损失确定的，所述样本文本中各字符的停顿编码损失基于所述样本文本对应的语音确定。

本发明还提供一种语音处理装置，包括：

文本确定单元，用于确定待处理语音的识别文本；

字符编码单元，用于基于所述待处理语音中各字符的停顿信息，以及所述识别文本中各字符之间的相关度，对所述识别文本中的各字符进行编码，得到所述识别文本中各字符的停顿上下文信息；

语音处理单元，用于基于所述各字符的停顿上下文信息，对所述待处理语音进行语音处理。

本发明还提供一种电子设备，包括麦克风、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述麦克风用于采集待处理语音；所述处理器执行所述计算机程序以确定待处理语音的识别文本，基于所述待处理语音中各字符的停顿信息，以及所述识别文本中各字符之间的相关度，对所述识别文本中的各字符进行编码，得到所述识别文本中各字符的停顿上下文信息，基于所述各字符的停顿上下文信息，对所述待处理语音进行语音处理。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音处理方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音处理方法。

本发明提供的语音处理方法、装置、电子设备和存储介质，通过基于待处理语音中各字符的停顿信息，以及待处理语音的识别文本中各字符之间的相关度，对识别文本中的各字符进行编码，得到识别文本中各字符的停顿上下文信息，由此得到的停顿上下文信息既能够反映待处理语音在发音上的声学停顿信息，同时能够反映对应的文本在内容语义上的语义信息，在此基础上，基于停顿上下文信息进行语音处理能够消除语义理解过程中的歧义，进一步提高语音处理的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的语音处理方法的流程示意图之一；

图2是本发明提供的语音处理方法中步骤130的流程示意图；

图3是本发明提供的语音处理方法的流程示意图之二；

图4是本发明提供的语音处理方法的流程示意图之三；

图5是本发明提供的语音处理方法的流程示意图之四；

图6是本发明提供的语音处理方法的流程示意图之五；

图7是本发明提供的预训练任务的架构图；

图8是本发明提供的实体抽取方法的流程示意图之六；

图9是本发明提供的语音处理装置的结构示意图；

图10是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

相关技术中，语音交互系统仅仅通过对识别文本进行建模，虽然这种方法取得了显著的效果，但是仅仅依靠文本特征建模在有些场景下往往是不够充分的。例如在实体抽取场景下，对于有歧义类型的实体，同一个实体可以对应不同的类别并且对应同一个上下文，因此无法根据实体和上下文本身去判断标签的类型，导致语义理解出现偏差，准确性欠佳。

针对上述问题，本发明提供一种语音处理方法，通过基于待处理语音中各字符的停顿信息，以及待处理语音的识别文本中各字符之间的相关度，对识别文本中的各字符进行编码，得到识别文本中各字符的停顿上下文信息，由此得到的停顿上下文信息既能够反映待处理语音在发音上的声学停顿信息，同时能够反映对应的文本在内容语义上的语义信息，在此基础上，基于停顿上下文信息进行语音处理能够消除语义理解过程中的歧义，进一步提高语音处理的准确性。

需说明的是，本发明实施例提供的语音处理方法可应用于基于语音的产品和场景，如智能家居、智能汽车各类语音交互场景，还可应用于手机语音助手、会议内容转录、翻译系统等。

下面将结合附图详细描述本发明的语音处理方法的技术方案。图1是本发明提供的语音处理方法的流程示意图之一，该方法可应用于终端，也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、智能音箱、智能空调和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现，也可以为区块链中的节点。如图1所示，本发明实施例提供的语音处理方法可以包括如下步骤：

步骤110，确定待处理语音的识别文本。

具体地，待处理语音即需要进行语义理解的语音，待处理语音可以通过拾音设备得到，此处拾音设备可以是智能手机、平板电脑，还可以是智能电器例如音响、电视和空调等，拾音设备在经过麦克风阵列拾音得到待识别语音后，还可以对待识别语音进行放大和/或降噪等，本发明实施例对此不作具体限定。

待处理语音的识别文本可通过离线和/或在线的方式获取。比如，可预先在智能设备上设置语音识别装置，由语音识别装置输出待处理语音的识别文本，即可实现离线语音识别。其中，语音识别装置可包括语音识别模型。

再比如，智能设备可与服务器建立网络连接，智能设备可将待处理语音发送至服务器，由服务器中的语音识别装置输出待处理语音的识别文本，再将识别文本发送至智能设备，即可实现在线语音识别。其中，服务器可包括云端服务器。

需说明的是，此处的待处理语音与识别文本相对应，即识别文本中的各字符与待处理语音中的各字符对应。

步骤120，基于待处理语音中各字符的停顿信息，以及识别文本中各字符之间的相关度，对识别文本中的各字符进行编码，得到识别文本中各字符的停顿上下文信息；

步骤130，基于各字符的停顿上下文信息，对待处理语音进行语音处理。

具体地，考虑到相关技术中仅仅通过对识别文本进行建模，在有些场景下往往是不够充分的。比如：“打开车窗关”，“车窗”和“关”之间的停顿时间是比较长的，可以用来辅助判断用户要打开的对象是“车窗”还是“车窗关”。因此，在本发明中，充分利用待处理语音中各字符的停顿信息来消除语义理解过程中的歧义，以提高语音处理的准确性。

各字符的停顿信息可以表示任一字符与其相邻的下个字符之间的停顿时长。通常用户在发音时，针对每个字符会有一定时长的停顿。语言学工作已经发现，与动词相比，名词周围的语音停顿时间更长。也就是说，连续字符之间的停顿时长可以在一定程度上反映连续字符属于同一实体的概率。连续字符之间的停顿时长越长，则该连续字符属于同一实体的概率越小；反之，连续字符之间的停顿时长越短，则该连续字符属于同一实体的概率越大。

针对待处理语音中各字符的停顿信息，可通过识别待处理语音中各字符对应的音节片段，并基于各音节片段与待处理语音中各语音帧的时长之间的对应关系，得到各字符的停顿信息。还可以通过静音检测得到各字符的停顿信息。

针对识别文本中的任一字符进行编码时，不仅提取反映该字符本身的含义的特征，还会联系该字符在识别文本中的上下文，提取反映该字符在整个识别文本中的含义的特征，因此还可基于识别文本中各字符之间的相关度，对识别文本中的各字符进行编码。

由此得到的各字符的停顿上下文信息不仅可以表征字符本身的语义以及该字符在文本信息中的语义，还可以表征相邻字符之间的停顿信息。

在此基础上，基于各字符的停顿上下文信息，对待处理语音进行语音处理，能够进一步提高语音处理的准确性。此处的语音处理可包括实体抽取、翻译、语音交互等各种基于语音的场景，本发明实施例对此不做具体限定。

本发明实施例提供的方法，通过基于待处理语音中各字符的停顿信息以及各字符之间的相关度，对识别文本中的各字符进行编码，得到识别文本中各字符的停顿上下文信息，由此得到的停顿上下文信息既能够反映待处理语音在发音上的声学停顿信息，同时能够反映对应的文本在内容语义上的语义信息，在此基础上，基于停顿上下文信息进行语音处理能够消除语义理解过程中的歧义，进一步提高语音处理的准确性。

基于上述实施例，图2是本发明提供的语音处理方法中步骤130的流程示意图，如图2所示，在语音处理包括实体抽取的情况下，步骤130具体包括：

步骤131，基于识别文本中的字符串与预设字符串之间的匹配结果，对识别文本中的各字符进行编码，得到各字符的边界匹配信息；

步骤132，基于各字符的停顿上下文信息，以及各字符的边界匹配信息，对待处理语音进行实体抽取。

具体地，考虑到相关的实体抽取技术中，基于深度学习的方法是基于大数据驱动的，严重依赖于训练数据中的模式。此外，模型的训练数据是基于过去的数据训练得到的，对于新产生的资源，可能无法解决。尤其对于媒资类场景，互联网每天都在产生各种丰富的歌曲、歌手信息，在当前的神经网络训练范式下，无法解决实体资源快速更新的问题。

基于此，本发明实施例为了提高模型对新产生的实体资源边界准确切分，基于各字符的停顿上下文信息，以及各字符的边界匹配信息，对待处理语音进行实体抽取。

此处各字符的边界匹配信息可以表征待抽取语音中各字符与外部实体资源的边界匹配信息。针对各字符的边界匹配信息，可通过基于识别文本中的字符串与预设字符串之间的匹配结果，对识别文本中的各字符进行编码实现。

识别文本中的字符串可以是相邻字符组成的字符串，也可以是以每两个字符作为起始字符在识别文本中截取得到的。预设字符串可以存储在预先构建好的字典中，将识别文本中的字符串与预设字符串进行匹配，得到匹配结果。此处的匹配结果可以是匹配成功，也可以是匹配失败。进一步地，还可以用数字或者符号表示匹配成功或者匹配失败。

在此基础上，根据得到的匹配结果对识别文本中的各字符进行编码，得到各字符的边界匹配信息。由此编码得到的各字符的边界匹配信息不仅涵盖了各字符本身的语义信息，还涵盖了与字符可连接构成实体词汇的其他的字符的语义信息，从而能够反映出字符本身作为实体边界的可能性。

然后执行步骤132，基于各字符的停顿上下文信息，以及各字符的边界匹配信息，对待处理语音进行实体抽取。此处可以是对各字符的停顿上下文信息，和各字符的边界匹配信息分别进行解码，得到实体抽取预测结果，并综合基于停顿上下文信息得到的预测结果和基于各字符的边界匹配信息得到的预测结果，确定待处理语音的实体抽取结果。也可以是将各字符的停顿上下文信息和各字符的边界匹配信息输入至预先训练好的实体抽取模型，由训练好的实体抽取模型对各字符的停顿上下文信息和各字符的边界匹配信息进行多模态数据融合，并基于融合结果预测待处理语音的实体抽取结果，本发明实施例对此不作具体限定。

本发明实施例提供的语音处理方法，在语音处理包括实体抽取的情况下，基于各字符的停顿上下文信息，以及各字符的边界匹配信息，对待处理语音进行实体抽取，能够提高对新产生的实体资源边界准确切分，从而进一步提高实体抽取的准确性。

基于上述任一实施例，图3是本发明提供的语音处理方法的流程示意图之二，如图3所示，基于各字符的停顿上下文信息，以及各字符的边界匹配信息，对待处理语音进行实体抽取，即步骤132具体包括：

步骤132-1，基于各字符的停顿上下文信息和边界匹配信息的重要性，将各字符的停顿上下文信息以及各字符的边界匹配信息进行融合，得到融合信息；

步骤132-2，基于融合信息，对待处理语音进行实体抽取。

具体地，针对各字符的停顿上下文信息以及各字符的边界匹配信息，对待处理语音进行实体抽取，可通过先将各字符的停顿上下文信息和边界匹配信息进行融合得到融合信息，然后基于融合信息进行实体抽取实现。

考虑到针对任一字符，停顿上下文信息和边界匹配信息对实体抽取的重要程度不同，因此，可以根据各字符的停顿上下文信息和边界匹配信息对实体抽取的重要程度，对各字符的停顿上下文信息和边界匹配信息进行融合，得到融合信息。融合信息中，可以着重体现对实体抽取的重要程度较高的信息，相应地，可以弱化对实体抽取的重要程度较低的信息。

可理解的是，融合信息中不仅包含了各字符的停顿上下文信息，同时包含了各字符的边界匹配信息，在实现融合之后，即可基于融合所得的融合信息进行实体抽取。

本发明实施例提供的方法，基于各字符的停顿上下文信息和边界匹配信息的重要性进行融合，并基于融合信息进行实体抽取，能够进一步提高实体抽取的准确性。

基于上述任一实施例，图4是本发明提供的语音处理方法的流程示意图之三，如图4所示，步骤132-1具体包括：

步骤132-11，基于各字符的停顿上下文信息以及各字符的边界匹配信息的重要性，确定各字符的停顿上下文信息以及边界匹配信息的融合权重；

步骤132-12，基于融合权重，将各字符的停顿上下文信息以及各字符的边界匹配信息进行加权融合，得到融合信息。

具体地，针对融合信息可通过加权融合的方式实现，首先基于各字符的停顿上下文信息以及各字符的边界匹配信息的重要性，确定各字符的停顿上下文信息以及边界匹配信息的融合权重。此处在确定融合权重时，可以基于融合模型自适应学习停顿上下文信息以及边界匹配信息与融合权重之间的映射关系，后续应用时即可直接将当前的停顿上下文信息以及边界匹配信息代入映射关系，从而得到当前的停顿上下文信息以及边界匹配信息的融合权重。

在此基础上，可以直接将融合权重作为对应信息的权重，也可以在得到各个字符的停顿上下文信息以及边界匹配信息的融合权重之后，对融合权重进行归一化处理，从而得到归一化之后的融合权重。可理解的时，归一化之后各个字符的停顿上下文信息以及边界匹配信息的融合权重之和为1。

在得到各字符的停顿上下文信息以及边界匹配信息的融合权重之后，即可通过加权融合的方式，实现停顿上下文信息以及各字符的边界匹配信息的融合，此处的加权融合可以是加权求和，也可以是加权求和后取均值，还可以是停顿上下文信息以及边界匹配信息分别与其对应的权重相乘之后进行拼接，本发明实施例对此不作具体限定。

本发明实施例提供的方法，通过对各字符的停顿上下文信息以及边界匹配信息分配不同的融合权重，对于实体抽取贡献较大的信息可以分配更高的权重，可以进一步提高实体抽取的准确性。

在一些实施例中，可通过融合模型自适应学习各字符的停顿上下文信息以及边界匹配信息的融合权重，然后基于融合权重进行信息融合。融合过程可通过如下公式实现：

w_e＝σ(θ[h_word，h_cgr])

h＝w_e·h_word+(1-w_e)·h_cgr

式中，h_word表示各字符的停顿上下文信息，h_cgr表示各字符的边界匹配信息，w_e表示停顿上下文信息的融合权重，h表示融合信息。

基于上述任一实施例，图5是本发明提供的语音处理方法的流程示意图之四，如图5所示，步骤131具体包括：

步骤131-1，将识别文本中连续字符对应的字符串与预设字符串进行匹配，得到匹配结果；

步骤131-2，基于匹配结果，对识别文本中的各字符进行编码，得到各字符的边界匹配信息。

具体地，针对各字符的边界匹配信息，可通过首先将识别文本中连续字符对应的字符串与预设字符串进行匹配得到匹配结果，再基于匹配结果对各字符进行编码实现。

识别文本中连续字符对应的字符串与预设字符串匹配可通过字典匹配器实现，比如将识别文本中连续字符对应的字符串输入到字典匹配器，经过字典匹配器后，可以得到一个矩阵，即匹配结果。该矩阵可以用离散数值0和1组成。其中1可以表示该字符串在字典库中有对应的匹配词，0表示没有匹配到对应的匹配词，然后将该矩阵通过全连接层和两层Bilstm(Bi-directional Long Short-Term Memory)网络编码得到各字符的边界匹配信息。

可理解的是，各字符的边界匹配信息不仅涵盖了各字符本身的语义信息，还涵盖了与字符可连接构成实体词汇的其他的字符的语义信息，从而能够反映出字符本身作为实体边界的可能性。

本发明实施例提供的方法，将识别文本中连续字符对应的字符串与预设字符串进行匹配得到匹配结果，基于匹配结果对识别文本中的各字符进行编码，由此得到的各字符的边界匹配信息，能够准确的反映出字符本身作为实体边界的可能性。

基于上述任一实施例，图6是本发明提供的语音处理方法的流程示意图之五，如图6所示，待处理语音中各字符的停顿信息的确定方法包括：

步骤610，对待处理语音进行解码，得到待处理语音中各语音帧的时长；

步骤620，对各语音帧的时长进行转换，得到待处理语音中各字符的停顿信息。

具体地，待处理语音中各字符的停顿信息可以表征任意两个字符之间的停顿时长。针对各字符的停顿信息可通过待处理语音中各语音帧的时长实现。首先对待处理语音进行解码，得到待处理语音中各语音帧的时长，具体可将待处理语音输入到语音识别转写引擎后，可以得到这段音频解码后每一帧的时长(例如，每一帧的时间长度为10ms)。

在此基础上，可以将各语音帧的时长进行转换，得到待处理语音中各字符的停顿信息，即转换成每相邻两个字符之间的停顿时长。

在此基础上，可以直接将每相邻两个字符之间的停顿时长作为各对应字符的停顿信息，也可以在得到每相邻两个字符之间的停顿时长之后，对停顿时长进行归一化处理，从而得到归一化之后的停顿信息。例如，将停顿时长归一化成0-1之间的取值，得到各字符的停顿信息。

本发明实施例提供的方法，通过对各语音帧的时长进行转换得到待处理语音中各字符的停顿信息，为后续对各字符进行编码提供了基础，

基于上述任一实施例，步骤120具体包括：

基于语言模型，应用待处理语音中各字符的停顿信息，以及识别文本中各字符之间的相关度，对识别文本中的各字符进行编码，得到识别文本中各字符的停顿上下文信息；

语言模型的模型损失是基于样本文本中各字符的上下文编码损失，以及样本文本中各字符的停顿编码损失确定的，样本文本中各字符的停顿编码损失基于样本文本对应的语音确定。

具体地，针对识别文本中各字符的停顿上下文信息，可通过语言模型得到。由于待处理语音中的各字符与识别文本中的各字符是对应的，因此可首先将待处理语音中各字符的停顿信息转换成识别文本中各字符的停顿信息。

随即，将识别文本的各字符，以及各字符的停顿信息输入至语言模型，由语言模型对识别文本中的各字符进行编码，得到语言模型输出的识别文本中各字符的停顿上下文信息。

在此之前，可对语言模型进行训练，语言模型可以是对传统的预训练语言模型进行拓展得到的。在Masked language Modeling任务的基础上增加停顿时长预测任务，两个任务进行联合训练。

预训练任务的损失函数由两部分组成：样本文本中各字符的上下文编码损失和各字符的停顿编码损失。将样本文本和样本文本中各字符的停顿信息输入至初始模型，得到初始模型输出的样本文本中各字符在上下文编码任务上的概率输出值，同时得到样本文本中各字符在停顿时长任务上的预测停顿时长。

各字符的上下文编码损失可基于样本文本中各字符在上下文编码任务上的概率输出值确定；各字符的停顿编码损失可基于样本文本对应的语音确定，即样本文本对应的语音可确定各字符的真实停顿时长，初始模型在训练过程中不断学习各字符的预测停顿时长与真实停顿时长的差异，从而更好的模拟各字符的停顿时长。

预训练语言模型的损失函数可表示如下：

L_loss＝L_BERT+α*L_NLR

式中，L_loss表示语言模型的损失值，L_BERT表示上下文编码损失，L_NLR表示停顿编码损失，α是参数，t_i表示第i个字符的语义表示，

表示第i个字符在上下文编码任务上的概率输出值，

为停顿编码任务上第i个字符的真实停顿时长，

为停顿编码任务上第i个字符的预测停顿时长。

图7是本发明提供的预训练任务的架构图，如图7所示，样本文本是“播放歌曲忘情水”，其中“放、曲、情”三个字被掩码，预训练任务包括上下文编码任务，即掩码字符的预测，和各字符的停顿时长预测。

本发明实施例提供的方法，通过上下文编码任务和停顿时长预测任务联合训练，可以得到能感知停顿信号的上下文编码信息。

基于上述任一实施例，图8是本发明提供的实体抽取方法的流程示意图之六，如图8所示，提供一种实体抽取方法，包括：

对传统的预训练语言模型进行拓展，在Masked language Modeling任务的基础上增加停顿时长预测任务，两个任务进行联合训练，得到语言模型。

确定待处理语音的识别文本，识别文本中各字符例如可以是“播放孤勇者”。

将识别文本输入语言模型，对识别文本中的各字符进行编码，得到所述识别文本中各字符的停顿上下文信息。

将所述识别文本中连续字符对应的字符串与预设字符串进行匹配，得到匹配结果。将各字符经过字典匹配器后，可以得到一个矩阵，该矩阵中的1可以表示该字符串在字典库中有对应的匹配词，0表示没有匹配到任务信息，然后将该矩阵通过全连接层和第一编码层和第二编码层，得到各字符的边界匹配信息。

将各字符的停顿上下文信息和各字符的边界匹配信息输入融合网络，融合网络自适应学习各字符的停顿上下文信息和各字符的边界匹配信息的重要性，确定融合权重，并基于融合权重进行融合，得到融合网络输出融合信息。

基于融合信息，对待处理语音进行实体抽取，借助CRF解码得到最终的实体抽取结果。

下面对本发明提供的语音处理装置进行描述，下文描述的语音处理装置与上文描述的语音处理方法可相互对应参照。

基于上述任一实施例，图9是本发明提供的语音处理装置的结构示意图，如图9所示，语音处理装置包括文本确定单元910、字符编码单元920和语音处理单元930，其中，

文本确定单元910，用于确定待处理语音的识别文本；

字符编码单元920，用于基于所述待处理语音中各字符的停顿信息，以及所述识别文本中各字符之间的相关度，对所述识别文本中的各字符进行编码，得到所述识别文本中各字符的停顿上下文信息；

语音处理单元930，用于基于所述各字符的停顿上下文信息，对所述待处理语音进行语音处理。

本发明实施例提供的语音处理装置，通过基于待处理语音中各字符的停顿信息，以及待处理语音的识别文本中各字符之间的相关度，对识别文本中的各字符进行编码，得到识别文本中各字符的停顿上下文信息，由此得到的停顿上下文信息既能够反映待处理语音在发音上的声学停顿信息，同时能够反映对应的文本在内容语义上的语义信息，在此基础上，基于停顿上下文信息进行语音处理能够消除语义理解过程中的歧义，进一步提高语音处理的准确性。

基于上述任一实施例，在所述语音处理包括实体抽取的情况下，语音处理单元进一步用于：

基于上述任一实施例，语音处理单元进一步用于：

基于所述融合信息，对所述待处理语音进行实体抽取。

基于上述任一实施例，语音处理单元进一步用于：

基于所述融合权重，将所述各字符的停顿上下文信息以及所述各字符的边界匹配信息进行融合，得到融合信息。

基于上述任一实施例，语音处理单元进一步用于：

基于上述任一实施例，语音处理装置还包括停顿信息获取单元，用于：

基于上述任一实施例，字符编码单元进一步用于：

图10示例了一种电子设备的实体结构示意图，如图10所示，该电子设备可以包括：处理器(processor)1010、通信接口(Communications Interface)1020、存储器(memory)1030和通信总线1040，其中，处理器1010，通信接口1020，存储器1030通过通信总线1040完成相互间的通信。处理器1010可以调用存储器1030中的逻辑指令，以执行语音处理方法，该方法包括：

确定待处理语音的识别文本；

此外，上述的存储器1030中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语音处理方法，该方法包括：

确定待处理语音的识别文本；

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语音处理方法，该方法包括：

确定待处理语音的识别文本；

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音处理方法，其特征在于，包括：

确定待处理语音的识别文本；

2.根据权利要求1所述的语音处理方法，其特征在于，在所述语音处理包括实体抽取的情况下，所述基于所述各字符的停顿上下文信息，对所述待处理语音进行语音处理，包括：

3.根据权利要求2所述的语音处理方法，其特征在于，所述基于所述各字符的停顿上下文信息，以及所述各字符的边界匹配信息，对所述待处理语音进行实体抽取，包括：

基于所述融合信息，对所述待处理语音进行实体抽取。

4.根据权利要求3所述的语音处理方法，其特征在于，所述基于所述各字符的停顿上下文信息以及边界匹配信息的重要性，将所述各字符的停顿上下文信息以及所述各字符的边界匹配信息进行融合，得到融合信息，包括：

5.根据权利要求2所述的语音处理方法，其特征在于，所述基于所述识别文本中的字符串与预设字符串之间的匹配结果，对所述识别文本中的各字符进行编码，得到各字符的边界匹配信息，包括：

6.根据权利要求1所述的语音处理方法，其特征在于，所述待处理语音中各字符的停顿信息的确定方法包括：

7.根据权利要求1至6中任一项所述的语音处理方法，其特征在于，所述基于所述待处理语音中各字符的停顿信息，以及所述识别文本中各字符之间的相关度，对所述识别文本中的各字符进行编码，得到所述识别文本中各字符的停顿上下文信息，包括：

8.一种语音处理装置，其特征在于，包括：

文本确定单元，用于确定待处理语音的识别文本；

9.一种电子设备，包括麦克风、存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于：

所述麦克风用于采集待处理语音；

所述处理器执行所述计算机程序以确定待处理语音的识别文本，基于所述待处理语音中各字符的停顿信息，以及所述识别文本中各字符之间的相关度，对所述识别文本中的各字符进行编码，得到所述识别文本中各字符的停顿上下文信息，基于所述各字符的停顿上下文信息，对所述待处理语音进行语音处理。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语音处理方法。