CN113314108A

CN113314108A - 语音数据的处理方法、装置、设备、存储介质和程序产品

Info

Publication number: CN113314108A
Application number: CN202110668661.1A
Authority: CN
Inventors: 周楠楠; 于夕畔; 汤耀华; 杨海军; 徐倩
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2021-06-16
Filing date: 2021-06-16
Publication date: 2021-08-27
Anticipated expiration: 2041-06-16
Also published as: CN113314108B

Abstract

本发明公开了一种语音数据的处理方法、装置、设备、存储介质和程序产品，所述语音数据的处理方法包括：对用户输入的语音数据进行去口语化处理，得到至少一个口语化词语；基于预设分析模型，确定所述语音数据中各个所述口语化词语在所述语音数据对应的语句中的成分类型；若所述口语化词语的成分类型为非核心类型，则去除所述口语化词语，以得到去口语化处理后的核心语句，通过对口语化词语成分的进一步分析，提高了去口语化的准确度，有效避免了用户的语音数据中的核心成分被误去除，进而提高了用户意图识别的准确度。

Description

语音数据的处理方法、装置、设备、存储介质和程序产品

技术领域

本发明涉及语音识别领域，尤其涉及一种语音数据的处理方法、装置、设备、存储介质和程序产品。

背景技术

随着语音识别技术的飞速发展，具备语音交互功能的智能机器人广泛应用于各个领域。

当机器人与用户进行语音交互时，往往需要对用户输入的语音数据进行去口语化处理，从而降低口语化词语对意图识别的影响，提高意图识别的准确度，从而基于用户的意图，进行回复或者打开相应的界面等。

现有的，去口语化处理方式，仅通过预设规则，将符合规则的词语作为口语化词语去除，由于语音表达的丰富性和多变性，容易导致一些词语被去除，去口语化准确度较低，从而影响用户意图的识别，导致机器人误响应，用户体验较差。

发明内容

本发明的主要目的在于提供一种语音数据的处理方法、装置、设备、存储介质和程序产品，提供一种语音数据的去口语处理方案，旨在解决现有技术中通过预设规则去口语化，准确度较低的问题。

为实现上述目的，第一方面，本发明提供一种语音数据的处理方法，包括：

对用户输入的语音数据进行去口语化处理，得到至少一个口语化词语；基于预设分析模型，确定所述语音数据中各个所述口语化词语在所述语音数据对应的语句中的成分类型；若所述口语化词语的成分类型为非核心类型，则去除所述口语化词语，以得到去口语化处理后的核心语句。

在一种具体实施方式中，基于预设分析模型，确定所述语音数据中各个所述口语化词语在所述语音数据对应的语句中的成分类型，包括：

基于所述预设分析模型的特征提取模块，对所述语音数据进行特征提取，得到特征矩阵，其中，所述特征矩阵包括多个特征向量；基于所述预设分析模型的成分确定模块，根据各个所述特征向量，确定各个口语化词语的依存关系，并根据各个所述口语化词语的依存关系，确定各个所述口语化词语的成分类型。

在一种具体实施方式中，所述成分确定模块包括第一网络层、第二网络层和预设分类器，基于所述预设分析模型的成分确定模块，根据各个所述特征向量，确定各个口语化词语的依存关系，并根据各个所述口语化词语的依存关系，确定各个所述口语化词语的成分类型，包括：

基于所述第一网络层和所述第二网络层，根据所述特征矩阵，分别确定核心矩阵和依存矩阵，其中，所述核心矩阵为所述第一网络层输出的当各个词向量作为核心词时对应的向量组成的矩阵，所述依存矩阵为所述第二网络层输出的各个词向量作为依存词时对应的向量组成的矩阵，所述词向量为所述语音数据中各个分词对应的向量；基于所述预设分析模型的预设分类器，根据所述核心矩阵和所述依存矩阵，确定各个所述词向量的依存关系，并根据各个所述口语化词语的依存关系，确定各个所述口语化词语的成分类型。

在一种具体实施方式中，所述预设分类器包括双仿射层、依存分析层和输出层，基于所述预设分析模型的预设分类器，根据所述核心矩阵和所述依存矩阵，确定各个所述口语化词语的成分类型，并根据各个所述口语化词语的依存关系，确定各个所述口语化词语的成分类型，包括：

基于所述双仿射层，根据所述核心矩阵和所述依存矩阵，确定得分矩阵，其中，所述得分矩阵包括各个词向量及其核心分数，所述核心分数用于表征所述词向量对应的分词属于核心词的程度；基于所述依存分析层，根据各个所述口语化词语对应的词向量的核心分数，确定各个所述口语化词语的依存关系；基于所述输出层，根据各个所述口语化词语的依存关系，确定各个所述口语化词语的成分类型。

在一种具体实施方式中，所述方法还包括所述预设分析模型的训练过程，具体为：

获取训练数据集和验证数据集，并确定所述验证数据集中每个验证语音语句中各个训练词的依存关系；根据各个训练词的依存关系，确定各个训练词的实际成分类型；对所述训练数据集中的每个训练语音语句进行向量化处理，得到各个训练向量；基于所述各个训练向量，对所述预设分析模型进行训练，得到所述预设分析模型输出的各个所述训练词的预测成分类型；根据各个所述预测成分类型及其对应的实际成分类型，计算模型误差；通过所述模型误差的反向传播，更新所述预设分析模型的参数，直至所述预设分析模型收敛。

在一种具体实施方式中，对用户输入的语音数据进行去口语化处理，得到至少一个口语化词语，包括：

获取用户输入的语音数据，并将所述语音数据转化为文本数据；识别所述文本数据中的各个口语化词语。

在一种具体实施方式中，在得到去口语化处理后的核心语句之后，所述方法还包括：

将所述核心语句输入语音意图识别模型，以得到所述用户的用户意图；根据所述用户意图，生成响应信息，以显示和/或播放所述响应信息。

第二方面，本发明还提供一种语音数据的处理装置，包括：

口语词获取模块，用于对用户输入的语音数据进行去口语化处理，得到至少一个口语化词语；口语词成分确定模块，用于基于预设分析模型，确定所述语音数据中各个所述口语化词语在所述语音数据对应的语句中的成分类型；口语词去除模块，用于若所述口语化词语的成分类型为非核心类型，则去除所述口语化词语，以得到去口语化处理后的核心语句。

第三方面，本发明还提供一种语音设备，所述电子设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现第一方面任一实施方式所述的语音数据的处理方法的步骤。

第四方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面任一实施方式提供的语音数据的处理方法的步骤。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，当所述计算机程序被处理器执行时实现第一方面任一实施方式所述的语音数据的处理方法。

本发明中，针对用户输入的语音数据，在对语音数据进行去口语化处理之后，基于预设分析模型确定各个口语化词语的成分类型，根据成分类型，判断是否将该口语化词语去除，具体为：当口语化词语的成分类型为非核心类型时，则将该口语化词语去除，实现了对口语化词语的进一步分析，从而提高了语音数据去口语化的准确性，有效避免了起到核心左右的词语被误去除，提高了用户意图识别的准确度。

附图说明

图1为本发明实施例提供的一种应用场景示意图；

图2为本发明提供的语音数据的处理方法实施例一的流程示意图；

图3为本发明提供的语音数据的处理方法实施例二的流程示意图；

图4为本发明一个实施例提供的依存关系的示意图；

图5为本发明图3所示实施例中步骤S305的流程图；

图6为本发明提供的预设分析模型的训练方法实施例一的流程示意图；

图7为本发明提供的语音数据的处理装置实施例一的结构示意图；

图8为本发明提供的语音设备实施例一的结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1为本发明实施例提供的一种应用场景示意图，如图1所示，在智能语音交互场景中，语音设备110，如语音机器人或语音平台，需要将用户输入的语音数据先进行去口语化处理，如将“那你告诉我今天天气怎么样”处理为“今天天气怎么样”，即将“那你告诉我”口语化的描述词从原本的语句中去除，从而语音设备110基于处理后的语句进行用户意图的识别，进而基于所识别的用户意图，与用户进行交互，如生成交互信息或打开相应的界面、视频等等。通过去口语化，可以降低口语化词语对意图识别的影响，提高意图识别的准确性。

然而，在现有技术中，往往基于一定的匹配规则或者口语化词语的识别算法，通过预设的口语化词库，对用户输入的语音数据的文本进行口语化词语的识别，得到口语化词语之后，直接去除该口语化词语，由于语言表达的丰富多样性，采用上述方式直接从原语句中去除口语化词语，容易导致一些核心词语被误去除，从而影响用户真正意图的识别，导致意图识别准确度低，语音交互体验较差。

基于上述问题，本发明提供一种语音数据的处理方法，通过对所得到的口语化词语进行进一步的成分分析，从而确定各个口语化词语的成分类型，基于成分类型确定是否将该口语化词语去除，仅当口语化词语为非核心类型时，才将该口语化词语去除，提高了口语化词语去除的准确性，避免了核心词语被误去除，进而提高了意图识别的准确性。

具体的，本方案的主要构思是基于预先训练的预设分析模型，确定用户输入的语音数据中各个口语化词语的成分类型，通过大量数据进行模型训练和验证，提高了模型的准确度，进而提高了口语化词语去除的准确度。

本发明提供的语音数据的处理方法可以应用在可以进行语音交互的服务器、计算机、机器人或其他智能终端等电子设备中，对此本方案不做限制。

图2为本发明提供的语音数据的处理方法实施例一的流程示意图，该语音数据的处理方法可以由语音设备，该语音设备可以为语音机器人、语音盒子等具备语音交互功能的电子设备，如图2所示，该语音数据的处理方法包括以下步骤：

S201：对用户输入的语音数据进行去口语化处理，得到至少一个口语化词语。

其中，语音数据可以是用户以语音形式输入的数据，该语音数据中可能会包括口语化词语。口语化词语通常指的是不影响对用户输入的语音数据对应的语句的意图识别的词语或字，如“好吧”、“那么”、“我感觉”等。

具体的，用户可以通过语音设备的麦克风输入语音数据，从而将该语音数据发送至语音设备的处理器，处理器对该语音数据进行去口语化处理，从而得到各个口语化词语。

具体的，可以基于口语词识别算法，识别用户输入的语音数据中的各个口语化词语。该口语词识别算法可以是基于关键词匹配的识别算法，该可以是基于神经网络模型的口语词识别算法。

进一步地，可以基于该口语词识别算法对用户输入的语音数据进行逐字分析，从而确定其中的各个口语化词语。

进一步地，在得到用户输入的语音数据之后，先将该语音数据转换为文本数据，得到用户输入的意图语句，对该意图语句进行分词处理，进而基于该口语词识别算法判断各个分词是否为口语化词语，从而得到各个口语化词语。

当确定用户输入的语音数据中不包括口语化词语时，则可以直接对用户输入的语音数据进行意图识别，从而确定用户意图，并基于用户意图进行响应，如回复或显示响应信息、打开相应的界面等。

S202：基于预设分析模型，确定所述语音数据中各个所述口语化词语在所述语音数据对应的语句中的成分类型。

其中，预设分析模型可以是预先训练的一种网络模型。成分类型可以包括核心类型和非核心类型。核心类型的词语在所在语句中对句意的表达起关键作用，可以用于对所在语句进行句意分析，如主语、谓语、宾语等，非核心类的词语在其所在语句中对句意的表达可以起辅助作用或者不起作用，当非核心类词语被去除时，不会影响所在语句的句意表达，如定语、状语等。

具体的，该预设分析模型可以由多种网络模型构成，如可以包括一个或多个多层感知器(MLP，Multilayer Perceptron)神经网络模型、Transformer模型、长短期记忆神经网络(LSTM，Long Short-Term Memory)、双向长短记忆神经网络(BiLSTM，Bi-directionalLong Short-Term Memory)中的一种或多种组成。

进一步地，该预设分析模型可以基于双仿射注意力机制或双仿射层，确定各个口语化词语在所在语句中的成分类型。

进一步地，在基于预设分析模型，确定所述语音数据中各个所述口语化词语在所述语音数据对应的语句中的成分类型之前，还可以对语音数据进行预处理，该预处理可以包括分词、词性标注等操作，从而预设分析模型基于预处理后的语音数据以及各个口语化词语，确定各个口语化词语在所在的语句中的成分类型。

具体的，对语音数据进行预处理包括：

对语音数据进行分词处理，得到各个分词，并对每个分词进行词性标注，如动词采用v标注，形容词采用a标注等。

进一步地，可以采用jieba等开源数据对语音数据进行分词处理和词性标注。

可选的，基于预设分析模型，确定所述语音数据中各个所述口语化词语在所述语音数据对应的语句中的成分类型，包括：

其中，依存关系用于描述一个语句中不同的词语之间的联系，可以是主谓关系、动宾关系等。

具体的，通过对语音数据的预处理，即分词和词性标注，并对预处理后的语音数据的各个分词进行词向量化，得到各个分词的向量，分词的向量包括词向量、词性向量和位置向量。其中，词向量，即对每个分词进行向量化后得到的向量，如可以通过word2vec(wordto vector，文本向量化)、Glove(Global vectors for word representation，基于全局向量的词向量)、ELMO(Embeddings from Language Models，语音嵌入模型)、BERT(Bidirectional Encoder Representations from Transformers，双编码器的transformer模型)等模型，对各个分词进行向量化，进而得到各个分词对应的词向量。词性向量即表示每个分词的词性，动词、名词等，对应的向量，位置向量即表示每个分词的位置的向量。

具体的，第i个分词Xi的向量为：

其中，Ew_i表示分词Xi的词向量，Et_i表示分词Xi的词性向量，Ep_i表示分词Xi的位置向量。

进一步地，在对语音数据进行向量化后，将得到各个分词的向量输入特征提取模块，从而得到各个特征向量。

在一些实施例中，特征提取模块可以包括Transformer模型，通过该Transformer模型的编码器和解码器，确定语音数据中的各个特征向量。

具体的，在得到特征矩阵之后，将该特征矩阵输入预设分析模型的成分确定模块，基于该成分确定模块确定各个口语化词语在对应的语句中的依存关系，进而基于该依存关系确定各个口语化词语的成分类型。

进一步地，该成分确定模块可以输出各个口语化词语的成分类型的标签，从而基于该成分类型的标签进行后续非核心类型判断的步骤。

在一些实施例中，该成分确定模块可以包括双仿射层，以计算各个口语化词语的核心分数，从而基于该核心分数确定各个口语化词语的成分类型。

S203：若所述口语化词语的成分类型为非核心类型，则去除所述口语化词语，以得到去口语化处理后的核心语句。

具体的，可以根据口语化词语的成分类型的标签，判断该口语化词语的成分类型是否为非核心类型，若是，则从语音数据对应的语句中去除该口语化词语，从而得到去口语化处理后的核心语句，实现对用户输入的语音数据的去口语化处理，且口语化词语去除准确度高。

进一步地，当口语化词语的成分类型为核心类型时，则保留该口语化词语，即不去除该口语化词语，从而避免核心词语被去除，影响基于语音数据的用户意图的识别的准确度。

进一步地，在得到去口语化处理后的核心语句之后，还可以基于该核心语句生成响应信息，并播报和/或显示该响应信息，实现语音交互。

进一步地，在得到去口语化处理后的核心语句之后，还可以基于该核心语句控制语音设备当前显示的内容，以响应用户输入的语音数据，实现语音交互。

本实施例提供的语音数据的处理方法，针对用户输入的语音数据，在对语音数据进行去口语化处理之后，基于预设分析模型确定各个口语化词语的成分类型，根据成分类型，判断是否将该口语化词语去除，具体为：当口语化词语的成分类型为非核心类型时，则将该口语化词语去除，实现了对口语化词语的进一步分析，从而提高了语音数据去口语化的准确性，有效避免了起到核心左右的词语被误去除，提高了用户意图识别的准确度。

图3为本发明提供的语音数据的处理方法实施例二的流程示意图，如图3所示，本实施例是在图2所示实施例的基础上，对步骤S201和步骤S202的进一步细化，以及在步骤S203之后增加用户意图识别以及响应信息生成的相关步骤，在本实施例中，语音数据的处理方法还可以包括以下步骤：

S301：获取用户输入的语音数据，并将所述语音数据转化为文本数据。

具体的，在得到用户输入的语音数据之后或者在获取用户输入的语音数据的同时，可以对该语音数据进行识别，从而得到对应的文本数据。

进一步地，可以通过任意一种已有的语音识别算法，将语音数据转化为文本数据，本发明对此不进行限定。

S302：识别所述文本数据中的各个口语化词语。

具体的，可以基于预设口语词库，确定所述文本数据中的各个口语化词语。

其中，该预设口语词库中包括各个预设口语化词语，从而可以判断文本数据中是否存在与预设口语词库中的预设口语化词语匹配的词语，若是，则该词语即为口语化词语。

具体的，可以基于口语识别模型或去口语化模块，识别用户输入的语音数据对应的文本数据中的各个口语化词语。

其中，口语识别模型可以是基于机器学习的网络模型。

S303：对所述文本数据进行分词，并根据各个分词、各个分词的词性和位置，生成各个分词的向量。

其中，各个分词的向量包括各个分词的词向量、词性向量和位置向量。

具体的，对文本数据进行分词，具体为将文本数据对应的语句拆分为各个词语或分词，进而根据各个分词的内容、词性和位置，依次得到各个分词的词向量、词性向量和位置向量。

进一步的，可以采用开源工具，如jieba，或者预先训练的网络模型，对文本数据进行分词和词性标注，进而根据所得到的各个分词、各个分词的词性以及位置，生成各个分词的向量。

示例性的，文本数据对应的语句为“操作简单”，则进行分词之后得到的各个分词为“操作”和“简单”，分词“操作”的词性为v(动词)，“简单”的词性为a(形容词)。

S304：基于所述预设分析模型的特征提取模块，对各个分词的向量进行特征提取，得到各个特征向量。

具体的，对各个分词的向量进行特征提取与对语音数据进行特征提取的过程相似，仅将对象由语音数据替换为各个分词的向量即可，在此不再赘述。

S305：基于所述第一网络层和所述第二网络层，根据所述特征矩阵，分别确定核心矩阵和依存矩阵。

其中，所述核心矩阵为所述第一网络层输出的当各个词向量作为核心词时对应的向量组成的矩阵，所述依存矩阵为所述第二网络层输出的各个词向量作为依存词时对应的向量组成的矩阵，所述词向量为所述语音数据中各个分词对应的向量。第一网络层和第二网络层可以均为预先训练好的神经网络。

具体的，在通过特征提取，得到文本数据的各个分词对应的一个或多个特征向量，进而得到特征矩阵，将该特征矩阵输入该第一网络层和第二网络层中，分别得到各个口语化词语对应的核心矩阵Rh和依存矩阵Rd。

具体的，一个自然语句中的词与词之间存在依存关系，构成一个依存对，其中一个是核心词或者支配词，采用head表示；另一个则为依存词或从属词，采用dependent表示。依存关系可以采用一个有向弧表示，即依存弧，依存弧的方向为由依存词指向核心词。

具体的，针对每个分词对应的词向量，分别计算该分词作为依存词和核心词时对应的向量，进而得到核心矩阵和依存矩阵，核心矩阵中的各个向量表示对应的分词作为核心词时得到的各个向量，依存矩阵中的各个向量则表示对应的分词作为依存词时得到的各个向量。

示例性的，图4为本发明一个实施例提供的依存关系的示意图，图4以文本数据对应的语句为“不仅操作简单，而且到账快”为例，各个分词之间的依存关系如图4所示，每个依存弧连接两个词，由依存词指向核心词，分词“操作”和“简单”的依存关系为状中结构(ADV，Adverbial)，核心词为“简单”，依存词为“操作”；分词“简单”和“快”的依存关系为并列关系(COO，Coordinate)，核心词为“简单”，依存词为“快”，依次类推。

具体的，第一网络层用于接收特征矩阵，根据特征矩阵中的各个分词对应的特征向量，确定该分词作为核心词时对应的向量，进而得到核心矩阵；第二网络层用于接收特征矩阵，根据特征矩阵中的各个分词对应的特征向量，确定该分词作为依存词时对应的向量，进而得到依存矩阵。

在一些实施例中，第一网络层和第二网络层可以均为MLP(MultilayerPerceptron，多层感知层)。

进一步地，可以预先对第一网络层和第二网络层进行训练和验证，从而确定第一网络层和第二网络层的各个神经元的连接强度，即权重，得到训练号的第一网络层和第二网络层，以用于得到核心矩阵和依存矩阵。

S306：基于所述预设分析模型的预设分类器，根据所述核心矩阵和所述依存矩阵，确定各个所述词向量的依存关系，并根据各个所述口语化词语的依存关系，确定各个所述口语化词语的成分类型。

其中，预设分类器用于确定文本数据中的各个分词的依存关系。可以是基于注意力机制的分类器，如单仿射分类器、双仿射分类器等。

具体的，可以将上述步骤得到的核心矩阵和依存矩阵输入预设分类器中，进而该预设分类器输出各个分词或词向量的依存关系。

进一步地，可以基于预设分类器，根据核心矩阵和依存矩阵，计算各个分词或词向量的核心分数，进而基于核心分数，确定各个分词或词向量的依存关系，进而输出上述口语化词语的依存关系。

其中，核心分数为用于表征分词属于核心词的程度，核心分数越高，则表示分词为核心词的可能性越大。

可选的，所述预设分类器包括双仿射层、依存分析层和输出层，双仿射层用于基于核心矩阵和依存矩阵，计算各个分词或词向量的核心分数，依存分析层用于基于核心分数确定各个分词的依存关系，包括上述口语化词语的依存关系，进而输出层输出上述口语化词语的依存关系。

具体的，在得到各个口语化词语的依存关系之后，根据各个口语化词语的依存关系，确定各个口语化词语在对应的语句中的成分类型。

进一步地，若口语化词语在对应的任意依存关系总为核心词，则确定该口语化词语的成分类型为核心类型。

进一步地，可以根据各个口语化词语的词性以及依存关系，确定各个口语化词语在对应的语句中的成分类型。

具体的，若口语化词语的词性为主语、宾语、谓语，或者口语化词语在任意对应的依存关系中为核心词，则确定该口语化词语的成分类型为核心类型。

可选的，图5为本发明图3所示实施例中步骤S306的流程图，如图5所示，步骤S306包括以下步骤：

步骤S3061：基于所述双仿射层，根据所述核心矩阵和所述依存矩阵，确定得分矩阵。

其中，所述得分矩阵包括各个词向量及其核心分数，所述核心分数用于表征所述词向量对应的分词属于核心词的程度。

具体的，双仿射(Biaffine)层，通过对核心矩阵Rh和依存矩阵Rd进行双仿射变换，得到得分矩阵S。

步骤S3062：基于所述依存分析层，根据各个所述口语化词语对应的词向量的核心分数，确定各个所述口语化词语的依存关系。

具体的，将得分矩阵S输入依存分析层，基于最大生成树算法，得到用户输入的语音数据中的各个分词的依存关系，包括各个口语化词语的依存关系。

步骤S3063：基于所述输出层，根据各个所述口语化词语的依存关系，确定各个所述口语化词语的成分类型。

具体的，在确定各个口语化词语的成分类型之后，输出层可以基于成分类型为设置每个口语化词语的成分标签。

S307：若所述口语化词语的成分类型为非核心类型，则去除所述口语化词语，以得到去口语化处理后的核心语句。

具体的，可以根据口语化词语的成分标签，判断口语化词语的成分类型是否为核心类型，若否，则去除该口语化词语，若是，则保留该口语化词语，从而得到去口语化处理后的核心语句。

S308：将所述核心语句输入语音意图识别模型，以得到所述用户的用户意图。

其中，语音意图识别模型可以为现有技术中提供的任意一种语音识别模型，用于识别用户的用户意图。

通过本实施例提供的去口语化处理方式，通过对口语化词语的进一步筛选，提高了口语化词语去除的准确度，避免了核心词语或重要词语被去除，进而提高了用户意图识别的准确度。

S309：根据所述用户意图，生成响应信息，以显示和/或播放所述响应信息。

其中，响应信息可以为语音信息、文本信息、语音设备的控制信息等。

具体的，在得到用户意图之后，语音设备可以根据用户意图，生成响应信息，该响应信息可以是语音交互信息，以通过播放该语音交互信息与用户进行语音交互；该响应信息还可以是语音设备的显示器界面的控制信息，以打开与用户意图匹配的界面。

在本实施例中，针对用户输入的语音数据，在对语音数据进行去口语化处理之后，通过对语音数据进行特征提取，得到特征矩阵，进而基于第一网络层、第二网络层和预设分类器，确定用户输入的语音数据中各个分词的依存关系，基于该依存关系，确定各个口语化词语的成分类型，并基于成分类型对口语化词语进行进一步筛选，以确定是否去除该口语化词语，实现了对口语化词语的进一步筛选，避免了核心词或重要词语被误去除，提高了语音数据去口语化的准确性以及用户意图识别的准确度，以基于准确度高的用户意图控制语音设备与用户交互，提高了语音设备交互的准确性，提高了用户体验。

图6为本发明提供的预设分析模型的训练方法实施例一的流程示意图，如图6所示，该预设分析模型的训练方法包括以下步骤：

步骤S601：获取训练数据集和验证数据集，并确定所述验证数据集中每个验证语音语句中各个训练词的依存关系。

其中，原始数据集D可以包括各个语音设备的历史通话数据，还可以包括公开数据集。进而将该原始数据集按照设定比例，得到训练数据集和验证数据集，如7:3、2:8等。还可以将原始数据集按照一定比例划分为训练数据集、验证数据集和测试数据集，如7:2:1。训练词为每一原始数据中的各个分词。

具体的，在得到原始数据集之后，可以对该原始数据集中每一数据进行分词和词性标注，得到每一数据对应的各个训练词或分词，以及各个训练词或分词的词性，即得到处理后的原始数据集。进而基于每个训练词及其词性，标注处理后的验证数据集中每个训练词的依存关系。

具体的，可以基于语言技术平台(Language Technology Plantform，LTP)对处理后的验证数据集，进行各训练词的依存关系的标注。

示例性的，以“X不仅操作简单，而且到账快”为例，表1为本发明实施例一提供的分词及其依存关系标注结果，如表1所示，其中，SBV(Subject Verb)表示主谓关系，ADV(Adverbial)表示状中结构，HED(Head)表示核心关系，即语音数据对应的语句的核心，WP(Punctuation)表示标点符合，COO(Coordinate)表示并列关系。索引表示当前的分词的根节点或对应的核心词的词编号，当索引为0时，表示该词为根节点，是最核心的分词，采用HED表示。在表1中，子节点分词“不仅”与根节点分词“简单”的依存关系为ADV，子节点分词“到账”与父节点分词“快”的依存关系为ADV，依次类推。

表1分词及其依存关系标注结果

词编号	分词	索引	依存关系
				1	X	4	SBV
2	不仅	4	ADV
				3	操作	4	ADV
4	简单	0	HED
				5	，	4	WP
6	而且	8	ADV
				7	到账	8	ADV
8	快	4	COO

步骤S602：根据各个训练词的依存关系，确定各个训练词的实际成分类型。

具体的，可以基于各个训练词的依存关系，手动确定各个训练词的实际成分类型。

具体的，针对每个训练词，可以根据该训练词的依存关系，确定该训练词是否为任意其他训练词的核心词，若是，则该训练词的成分类型为核心类型。

进一步地，可以根据各个训练词的词性和依存关系，确定各个训练词的成分类型。

具体的，可以预先建立成分类型、词性和依存关系的第一对应关系，进而结合该第一对应关系，确定各个训练词的成分类型。

步骤S603：对所述训练数据集中的每个训练语音语句进行向量化处理，得到各个训练向量。

其中，训练语音语句即为训练数据集中每一数据集对应的语句。

具体的，可以先对训练数据集中每一数据进行分词和词性标注，得到各个训练词及其词性，进而基于各个训练词及其词性，对每一数据中的每个训练词进行向量化，得到每个训练词的向量。每个训练词的向量包括该训练词的词向量、词性向量和位置向量。对训练词进行向量化的具体步骤与对分词进行向量化类似，在此不再赘述。

步骤S604：基于所述各个训练向量，对所述预设分析模型进行训练，得到所述预设分析模型输出的各个所述训练词的预测成分类型。

其中，预设分析模型可以为本发明任意实施例提供的预设分析模型，可以包括特征提取模块，如Transformer模型，和成分确定模块，该成分确定模块可以包括第一网络层、第二网络层和预设分类器，第一网络层和第二网络层可以为MLP层，预设分类器可以包括双仿射分类器。

步骤S605：根据各个所述预测成分类型及其对应的实际成分类型，计算模型误差。

步骤S606：通过所述模型误差的反向传播，更新所述预设分析模型的参数，直至所述预设分析模型收敛。

具体的，预设分析模型收敛可以为：模型误差小于预先设定的误差阈值；或者，相邻两次迭代之间的权值的变化小于设定的变化阈值；或者达到设定最大迭代次数。当预设分析模型收敛之后，则停止训练，输出训练后的预设分析模型。

进一步地，可以基于验证集和测试集对训练后的预设分析模型进行进一步验证和测试，若均通过，则输出训练好的预设分析模型，以基于该预设分析模型确定用户输入的语音数据中口语化词语的成分类型。

图7为本发明提供的语音数据的处理装置实施例一的结构示意图，如图7所示，该语音数据的处理装置，包括：

口语词获取模块710，用于对用户输入的语音数据进行去口语化处理，得到至少一个口语化词语；口语词成分确定模块720，用于基于预设分析模型，确定所述语音数据中各个所述口语化词语在所述语音数据对应的语句中的成分类型；口语词去除模块730，用于若所述口语化词语的成分类型为非核心类型，则去除所述口语化词语，以得到去口语化处理后的核心语句。

本实施例提供的语音数据的处理装置，用于执行前述任一方法实施例的技术方案，其实现原理和技术效果类似，基于成分类型确定是否去除口语化词语，提高了语音数据去口语化的准确性，有效避免了起到核心左右的词语被误去除，提高了用户意图识别的准确度。

在上述实施例的基础上，该语音数据的处理装置的具体实施方式中，口语词成分确定模块720，具体包括：

特征提取单元，用于基于所述预设分析模型的特征提取模块，对所述语音数据进行特征提取，得到特征矩阵，其中，所述特征矩阵包括多个特征向量；成分类型确定单元，用于基于所述预设分析模型的成分确定模块，根据各个所述特征向量，确定各个口语化词语的依存关系，并根据各个所述口语化词语的依存关系，确定各个所述口语化词语的成分类型。

可选的，成分确定模块包括第一网络层、第二网络层和预设分类器，该成分类型确定单元，包括：

核心矩阵确定子单元，用于基于所述第一网络层和所述第二网络层，根据所述特征矩阵，分别确定核心矩阵和依存矩阵，其中，所述核心矩阵为所述第一网络层输出的当各个词向量作为核心词时对应的向量组成的矩阵，所述依存矩阵为所述第二网络层输出的各个词向量作为依存词时对应的向量组成的矩阵，所述词向量为所述语音数据中各个分词对应的向量；成分确定子单元，用于基于所述预设分析模型的预设分类器，根据所述核心矩阵和所述依存矩阵，确定各个所述词向量的依存关系，并根据各个所述口语化词语的依存关系，确定各个所述口语化词语的成分类型。

可选的，所述预设分类器包括双仿射层、依存分析层和输出层，成分确定子单元，具体用于：

可选的，语音数据的处理装置还包括：

模型训练模块，用于获取训练数据集和验证数据集，并确定所述验证数据集中每个验证语音语句中各个训练词的依存关系；根据各个训练词的依存关系，确定各个训练词的实际成分类型；对所述训练数据集中的每个训练语音语句进行向量化处理，得到各个训练向量；基于所述各个训练向量，对所述预设分析模型进行训练，得到所述预设分析模型输出的各个所述训练词的预测成分类型；根据各个所述预测成分类型及其对应的实际成分类型，计算模型误差；通过所述模型误差的反向传播，更新所述预设分析模型的参数，直至所述预设分析模型收敛。

可选的，口语词获取模块710，具体用于：

可选的，语音数据的处理装置还包括：

在得到去口语化处理后的核心语句之后，将所述核心语句输入语音意图识别模型，以得到所述用户的用户意图；根据所述用户意图，生成响应信息，以显示和/或播放所述响应信息。

前述任一实施例提供的语音数据的处理装置，用于执行前述任一方法实施例的技术方案，其实现原理和技术效果类似，在此不再赘述。

图8为本发明提供的语音设备实施例一的结构示意图，如图8所示，该语音设备包括：存储器810、处理器820及存储在所述存储器810上并可在所述处理器820上运行的计算机程序，所述计算机程序被所述处理器820执行时实现前述任一方法实施例提供的语音数据的处理方法的步骤。

可选的，该语音设备还可以包括麦克风，以获取用户输入的语音数据。

可选的，该语音设备还可以包括显示器。

该语音设备的上述各个器件之间可以通过总线连接。

存储器810可以是单独的存储单元，也可以是集成在处理器820中的存储单元。处理器820的数量为一个或者多个。

在上述在语音设备的实现中，存储器810和处理器820之间直接或间接地电性连接，以实现数据的传输或交互，也就是存储器810和处理器820可以通过接口连接，也可以集成在一起。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线连接。存储器810可以是，但不限于，随机存取存储器(Random AccessMemory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-Only Memory，简称：PROM)，可擦除只读存储器(ErasableProgrammable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(ElectricErasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。进一步地，上述存储器内的软件程序以及模块还可包括操作系统，其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动，并可与各种硬件或软件组件相互通信，从而提供其他软件组件的运行环境。

处理器820可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、图像处理器等，可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如前述任一方法实施例提供的语音数据的处理方法的步骤。

本发明还提供一种计算机程序产品，包括计算机程序，该计算机程序被语音设备的处理器执行时，使得语音数据的处理装置实现如前述任一方法实施例提供的语音数据的处理方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台电子设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音数据的处理方法，其特征在于，包括：

对用户输入的语音数据进行去口语化处理，得到至少一个口语化词语；

基于预设分析模型，确定所述语音数据中各个所述口语化词语在所述语音数据对应的语句中的成分类型；

若所述口语化词语的成分类型为非核心类型，则去除所述口语化词语，以得到去口语化处理后的核心语句。

2.根据权利要求1所述的方法，其特征在于，基于预设分析模型，确定所述语音数据中各个所述口语化词语在所述语音数据对应的语句中的成分类型，包括：

基于所述预设分析模型的特征提取模块，对所述语音数据进行特征提取，得到特征矩阵，其中，所述特征矩阵包括多个特征向量；

基于所述预设分析模型的成分确定模块，根据各个所述特征向量，确定各个口语化词语的依存关系，并根据各个所述口语化词语的依存关系，确定各个所述口语化词语的成分类型。

3.根据权利要求2所述的方法，其特征在于，所述成分确定模块包括第一网络层、第二网络层和预设分类器，基于所述预设分析模型的成分确定模块，根据各个所述特征向量，确定各个口语化词语的依存关系，并根据各个所述口语化词语的依存关系，确定各个所述口语化词语的成分类型，包括：

基于所述第一网络层和所述第二网络层，根据所述特征矩阵，分别确定核心矩阵和依存矩阵，其中，所述核心矩阵为所述第一网络层输出的当各个词向量作为核心词时对应的向量组成的矩阵，所述依存矩阵为所述第二网络层输出的各个词向量作为依存词时对应的向量组成的矩阵，所述词向量为所述语音数据中各个分词对应的向量；

基于所述预设分析模型的预设分类器，根据所述核心矩阵和所述依存矩阵，确定各个所述词向量的依存关系，并根据各个所述口语化词语的依存关系，确定各个所述口语化词语的成分类型。

4.根据权利要求3所述的方法，其特征在于，所述预设分类器包括双仿射层、依存分析层和输出层，基于所述预设分析模型的预设分类器，根据所述核心矩阵和所述依存矩阵，确定各个所述口语化词语的成分类型，包括：

基于所述双仿射层，根据所述核心矩阵和所述依存矩阵，确定得分矩阵，其中，所述得分矩阵包括各个词向量及其核心分数，所述核心分数用于表征所述词向量对应的分词属于核心词的程度；

基于所述依存分析层，根据各个所述口语化词语对应的词向量的核心分数，确定各个所述口语化词语的依存关系；

基于所述输出层，根据各个所述口语化词语的依存关系，确定各个所述口语化词语的成分类型。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述方法还包括所述预设分析模型的训练过程，具体为：

获取训练数据集和验证数据集，并确定所述验证数据集中每个验证语音语句中各个训练词的依存关系；

根据各个训练词的依存关系，确定各个训练词的实际成分类型；

对所述训练数据集中的每个训练语音语句进行向量化处理，得到各个训练向量；

基于所述各个训练向量，对所述预设分析模型进行训练，得到所述预设分析模型输出的各个所述训练词的预测成分类型；

根据各个所述预测成分类型及其对应的实际成分类型，计算模型误差；

通过所述模型误差的反向传播，更新所述预设分析模型的参数，直至所述预设分析模型收敛。

6.根据权利要求1至4任一项所述的方法，其特征在于，对用户输入的语音数据进行去口语化处理，得到至少一个口语化词语，包括：

获取用户输入的语音数据，并将所述语音数据转化为文本数据；

识别所述文本数据中的各个口语化词语。

7.根据权利要求1至4任一项所述的方法，其特征在于，在得到去口语化处理后的核心语句之后，所述方法还包括：

将所述核心语句输入语音意图识别模型，以得到所述用户的用户意图；

根据所述用户意图，生成响应信息，以显示和/或播放所述响应信息。

8.一种语音数据的处理装置，其特征在于，包括：

口语词获取模块，用于对用户输入的语音数据进行去口语化处理，得到至少一个口语化词语；

口语词成分确定模块，用于基于预设分析模型，确定所述语音数据中各个所述口语化词语在所述语音数据对应的语句中的成分类型；

口语词去除模块，用于若所述口语化词语的成分类型为非核心类型，则去除所述口语化词语，以得到去口语化处理后的核心语句。

9.一种语音设备，其特征在于，所述语音设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至7任一项所述的语音数据的处理方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音数据的处理方法的步骤。

11.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7任一项所述的语音数据的处理方法。