CN115409038A

CN115409038A - 自然语言处理方法及装置、电子设备和存储介质

Info

Publication number: CN115409038A
Application number: CN202211030338.2A
Authority: CN
Inventors: 李林峰
Original assignee: Hubei Xingji Shidai Technology Co Ltd
Current assignee: Hubei Xingji Shidai Technology Co Ltd
Priority date: 2022-08-26
Filing date: 2022-08-26
Publication date: 2022-11-29
Also published as: WO2024040831A1

Abstract

一种自然语言处理方法及装置、电子设备和存储介质。该自然语言处理方法包括：获取待进行自然语言处理的任务文本，其中，任务文本包括多个字符；利用共享神经网络对任务文本进行特征提取，得到任务文本的共享特征，其中，共享特征包含多个字符的字符特征以及多个字符之间的全局联系；将共享特征输入多个功能神经网络，得到多个功能神经网络分别输出的多个处理结果，其中，多个功能神经网络用于分别执行多个不同的自然语言处理任务。该自然语言处理方法采用具有共享神经网络的用于自然语言处理的多个神经网络来执行多个不同的自然语言处理任务，减少了多任务神经网络的参数规模，从而节省了计算资源，节约了计算成本。

Description

自然语言处理方法及装置、电子设备和存储介质

技术领域

本公开的实施例涉及一种自然语言处理方法及装置、电子设备和存储介质。

背景技术

自然语言处理(Natural Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向，用于研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。随着人工智能技术的不断发展，自然语言处理开始广泛地应用在诸如客服系统等的多种应用场景中，替代了大量的人工操作。

深度学习是机器学习的一大分支，在自然语言处理中应用深度学习模型，如卷积神经网络、循环神经网络等，通过将词或句子的向量化，不断学习语言特征，以完成自然语言分类、理解的过程，满足大量特征工程的自然语言处理要求。

发明内容

本公开至少一实施例提供一种自然语言处理方法。该自然语言处理方法包括：获取待进行所述自然语言处理的任务文本，其中，所述任务文本包括多个字符；利用共享神经网络对所述任务文本进行特征提取，得到所述任务文本的共享特征，其中，所述共享特征包含所述多个字符的字符特征以及所述多个字符之间的全局联系；将所述共享特征输入多个功能神经网络，得到所述多个功能神经网络分别输出的多个处理结果，其中，所述多个功能神经网络用于分别执行多个不同的自然语言处理任务。

例如，在本公开至少一实施例提供的自然语言处理方法中，所述共享神经网络包括输入子网络、字嵌入子网络和特征提取子网络，所述利用所述共享神经网络对所述任务文本进行特征提取，得到所述任务文本的所述共享特征，包括：利用所述输入子网络将所述任务文本转换为字索引数组，其中，所述字索引数组包括的多个索引值与所述多个字符一一对应；利用所述字嵌入子网络将所述字索引数组编码为多个字向量，其中，所述多个字向量与所述多个字符一一对应，所述多个字向量中的每个字向量包括对应字符的字符特征；基于所述多个字向量，利用所述特征提取子网络提取所述多个字符之间的所述全局联系，得到所述共享特征。

例如，在本公开至少一实施例提供的自然语言处理方法中，所述特征提取子网络包括卷积神经网络和长短期记忆网络。

例如，在本公开至少一实施例提供的自然语言处理方法中，所述自然语言处理任务包括问答型功能任务，所述问答型功能任务用于解析所述任务文本中的问题，给出所述问题对应的答案，所述多个功能神经网络包括第一功能神经网络，所述第一功能神经网络用于执行所述问答型功能任务，所述将所述共享特征输入所述多个功能神经网络，得到所述多个功能神经网络分别输出的所述多个处理结果，包括：利用所述第一功能神经网络对所述共享特征进行第一处理，得到句向量，其中，所述句向量包括所述任务文本中所述问题的类别信息；将所述句向量与数据库中预存的多个知识信息向量进行比较，以将所述多个知识信息向量中的与所述句向量的向量距离最小的知识信息向量对应的答案作为对应于所述第一功能神经网络的处理结果。

例如，在本公开至少一实施例提供的自然语言处理方法中，所述第一处理包括卷积处理、池化处理、特征融合处理和全连接处理。

例如，在本公开至少一实施例提供的自然语言处理方法中，所述自然语言处理任务包括闲聊型功能任务，所述闲聊型功能任务用于解析所述任务文本中的无目的性对话信息，给出所述无目的性对话信息对应的系统回答，所述多个功能神经网络包括第二功能神经网络，所述第二功能神经网络用于执行所述闲聊型功能任务，所述将所述共享特征输入所述多个功能神经网络，得到所述多个功能神经网络分别输出的所述多个处理结果，包括：利用所述第二功能神经网络对所述共享特征进行第二处理，得到输出句子以作为对应于所述第二功能神经网络的处理结果，并将对应于所述第二功能神经网络的处理结果作为所述任务文本对应的系统回答。

例如，在本公开至少一实施例提供的自然语言处理方法中，所述第二功能神经网络包括编码子网络和解码子网络，所述利用所述第二功能神经网络对所述共享特征进行所述第二处理，得到所述输出句子以作为对应于所述第二功能神经网络的处理结果，包括：利用所述编码子网络对所述共享特征进行编码处理得到中间索引数组；利用所述解码子网络对所述中间索引数组进行解码处理得到所述输出句子，以作为对应于所述第二功能神经网络的处理结果。

例如，在本公开至少一实施例提供的自然语言处理方法中，所述自然语言处理任务包括任务型功能任务，所述任务型功能任务用于解析所述任务文本中的任务目的信息和任务关键词信息，根据所述任务目的信息和所述任务关键词信息得到系统追问或问答结果，所述多个功能神经网络包括第三功能神经网络，所述第三功能神经网络用于执行所述任务型功能任务，所述将所述共享特征输入所述多个功能神经网络，得到所述多个功能神经网络分别输出的所述多个处理结果，包括：利用所述第三功能神经网络对所述共享特征进行第三处理，得到对应于所述任务文本的意图特征和至少一个命名实体，其中，所述意图特征包含所述任务文本中的所述任务目的信息，所述至少一个命名实体包含所述任务关键词信息；对所述意图特征和所述至少一个命名实体进行对话管理，得到所述系统追问或所述问答结果以作为对应于所述第三功能神经网络的处理结果。

例如，在本公开至少一实施例提供的自然语言处理方法中，所述第三功能神经网络包括意图识别子网络和命名实体识别子网络，所述利用所述第三功能神经网络对所述共享特征进行所述第三处理，得到对应于所述任务文本的所述意图特征和所述至少一个命名实体，包括：利用所述意图识别子网络，基于所述共享特征进行意图识别，得到对应于所述任务文本的所述意图特征；利用所述命名实体识别子网络，基于所述共享特征执行命名实体识别，得到对应于所述任务文本的所述至少一个命名实体。

例如，在本公开至少一实施例提供的自然语言处理方法中，所述获取所述待进行所述自然语言处理的所述任务文本，包括：获取所述待进行所述自然语言处理的语音片段；将所述语音片段转换为文字形式，以得到所述任务文本。

例如，本公开至少一实施例提供的自然语言处理方法，还包括通过仲裁选择从所述多个处理结果中选择一个处理结果作为所述自然语言处理的输出结果。

例如，本公开至少一实施例提供的自然语言处理方法，在获取所述自然语言对应的所述任务文本之前，还包括：获取训练文本；基于所述训练文本，对待训练的多个功能神经网络进行训练，以得到训练好的所述多个功能神经网络，其中，所述多个功能神经网络的数量为N，N为大于1的整数，其中，在训练待训练的N个功能神经网络过程中，所述N个功能神经网络同时训练，且计算所述N个功能神经网络对应的M个中间损失值的加权和作为损失值以更新所述N个功能神经网络的参数，所述M个中间损失值分别对应的M个权重，所述M个权重根据所述N个功能神经网络的输出准确度进行动态调整，M为大于等于N的整数。

例如，在本公开至少一实施例提供的自然语言处理方法中，所述N个功能神经网络包括第一功能神经网络、第二功能神经网络和第三功能神经网络，所述第三功能神经网络包括意图识别子网络和命名实体识别子网络，所述基于所述训练文本，对所述待训练的多个功能神经网络进行训练，包括：利用待训练的共享神经网络对所述训练文本进行特征提取，得到所述训练文本的训练共享特征；利用所述N个功能神经网络对所述训练共享特征分别进行处理，得到所述N个功能神经网络分别输出的M组第一中间结果，其中，所述M组第一中间结果包括所述第一功能神经网络输出的第一中间结果、所述第二功能神经网络输出的第一中间结果、所述意图识别子网络输出的第一中间结果和所述命名实体识别子网络输出的第一中间结果。

例如，在本公开至少一实施例提供的自然语言处理方法中，所述基于所述训练文本，对所述待训练的多个功能神经网络进行训练，还包括：基于所述训练文本和所述M组第一中间结果计算所述N个功能神经网络对应的M个中间损失值，其中，所述M个中间损失值包括所述第一功能神经网络对应的中间损失值、所述第二功能神经网络对应的中间损失值、所述意图识别子网络对应的中间损失值和所述命名实体识别子网络对应的中间损失值；计算所述M个中间损失值的加权和作为所述损失值；在所述损失值未满足预定收敛条件时，基于所述损失值更新所述待训练的所述共享神经网络和所述N个功能神经网络的参数。

例如，在本公开至少一实施例提供的自然语言处理方法中，所述基于所述训练文本，对所述待训练的多个功能神经网络进行训练，还包括：获取测试文本；利用训练后的所述共享神经网络和训练后的所述N个功能神经网络对所述测试文本进行处理，得到M组第二中间结果；基于所述M组第二中间结果和所述测试文本，确定分别对应于所述训练后的N个功能神经网络的M个输出准确度，其中，所述M个输出准确度包括所述第一功能神经网络的输出准确度、所述第二功能神经网络的输出准确度、所述意图识别子网络的输出准确度和所述命名实体识别子网络的输出准确度；基于所述M个输出准确度调整所述M个中间损失值分别对应的M个权重；根据调整后的所述M个权重继续对所述待训练的多个功能神经网络进行训练。

例如，在本公开至少一实施例提供的自然语言处理方法中，所述基于所述M个输出准确度调整所述M个中间损失值分别对应的M个权重，包括：确定所述M个输出准确度中的最大输出准确度对应的权重作为第一权重；保持所述第一权重不变，增大所述M个权重中除所述第一权重以外的其他M-1个权重。

例如，在本公开至少一实施例提供的自然语言处理方法中，所述增大所述M个权重中除所述第一权重以外的其他M-1个权重，包括：根据所述M-1个权重对应的M-1个输出准确度的大小关系，确定所述M-1个权重的M-1个放大因子，其中，对于所述M-1个输出准确度中的任一个输出准确度，响应于所述任一个输出准确度越大，所述任一个输出准确度对应的权重的放大因子越小；根据所述M-1个权重的放大因子，调整所述M-1个权重。

本公开至少一实施例还提供一种自然语言处理装置。该自然语言处理装置包括：获取模块，配置为获取待进行所述自然语言处理的任务文本，其中，所述任务文本包括多个字符；提取模块，配置为利用共享神经网络对所述任务文本进行特征提取，得到所述任务文本的共享特征，其中，所述共享特征包含所述多个字符的字符特征以及所述多个字符之间的全局联系；处理模块，配置为将所述共享特征输入多个功能神经网络，得到所述多个功能神经网络分别输出的多个处理结果，其中，所述多个功能神经网络用于执行多个不同的自然语言处理任务。

例如，在本公开至少一实施例提供的自然语言处理装置中，所述获取模块还配置为获取训练文本。

例如，本公开至少一实施例提供的自然语言处理装置，还包括训练模块，所述训练模块配置为，基于所述训练文本，对待训练的多个功能神经网络进行训练，以得到训练好的所述多个功能神经网络，其中，所述多个功能神经网络的数量为N，N为大于1的整数，其中，在训练所述待训练的N个功能神经网络过程中，所述N个功能神经网络同时训练，且计算所述N个功能神经网络对应的M个中间损失值的加权和作为损失值以更新所述N个功能神经网络的参数，所述M个中间损失值分别对应的M个权重，对所述M个权重根据所述N个功能神经网络的输出准确度进行动态调整，M为大于等于N的整数。

本公开至少一实施例还提供一种电子设备。该电子设备包括：处理器；存储器，包括一个或多个计算机程序模块；其中，所述一个或多个计算机程序模块被存储在所述存储器中并被配置为由所述处理器执行，所述一个或多个计算机程序模块包括用于实现本公开任一实施例提供的自然语言处理方法。

本公开至少一实施例还提供一种存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时可以实现本公开任一实施例提供的自然语言处理方法。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例的附图作简单地介绍，显而易见地，下面描述中的附图仅仅涉及本公开的一些实施例，而非对本公开的限制。

图1为一种多任务神经网络自然语言处理系统的示意图；

图2为本公开至少一实施例提供的一种自然语言处理方法的示例性流程图；

图3为本公开至少一实施例提供的共享神经网络和多个功能神经网络的一个示例的示意图；

图4为图2中步骤S120的一个示例的示例性流程图；

图5为本公开至少一实施例提供的共享神经网络和多个功能神经网络的另一示例的示意图；

图6为本公开至少一实施例提供的第一功能神经网络的一个示例的示意图；

图7为本公开至少一实施例提供的第二功能神经网络的一个示例的示意图；

图8为本公开至少一实施例提供的第三功能神经网络的一个示例的示意图；

图9为本公开至少一实施例提供的自然语言处理方法的训练部分的示意图；

图10为图9中步骤S150的一个示例的示意图；

图11为图9中步骤S150的另一示例的示意图；

图12为本公开至少一实施例提供的共享神经网络和多个功能神经网络的损失函数的一个示例的示意图；

图13为本公开的至少一实施例提供的自然语言处理装置的示意框图；

图14为本公开的至少一实施例提供的一种电子设备的示意框图；

图15为本公开的至少一实施例提供的另一种电子设备的示意框图；以及

图16为本公开的至少一实施例提供的一种存储介质的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。同样，“一个”、“一”或者“该”等类似词语也不表示数量限制，而是表示存在至少一个。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

下面通过几个具体的实施例对本公开进行说明。为了保持本公开实施例的以下说明清楚且简明，可省略已知功能和已知部件的详细说明。当本公开实施例的任一部件在一个以上的附图中出现时，该部件在每个附图中由相同或类似的参考标号表示。

自然语言处理是指利用人类交流所使用的自然语言与机器进行交互通讯的技术，涉及语音、语法、语义、语用等多维度的操作。简单而言，自然语言处理的基本任务是基于本体词典、词频统计、上下文语义分析等方式对待处理语料进行分词，形成以最小词性为单位，且富含语义的词项单元。

自然语言处理广泛应用于人机交互通信场合，例如，汽车车内人机语音交互和手机语音助手等。汽车车内人机语音交互和手机语音助手是多垂直领域、支持开放域的应用，其中的人机对话既包含类似百科的知识问答，也包含无目的闲聊，还包含为完成某个特定任务的交互，如控制车辆、查火车票机票等。例如，根据对话类型的不同，可以把自然语言处理任务分成问答型功能任务、闲聊型功能任务和任务型功能任务：

(1)问答型功能任务可以处理基于知识库的问答，举例：

用户：珠穆朗玛峰高多少米？

系统：珠穆朗玛峰高8848米。

(2)闲聊型功能任务可以处理无目的的对话，举例：

用户：我今天心情不好。

系统：笑口常开，才能延年益寿。

(3)任务型功能任务可以处理带有词槽或者多轮的对话，举例：

用户：帮我查下去北京的车票。

系统：查到如下车票，请问您要几点出发的？

用户：3点半左右的，一等座的高铁。

系统：有如下车次，请问从虹桥站出发还是上海站出发？

用户：上海站。

系统：好的，下面是今天3:30左右从上海站去北京的高铁一等座车票。

例如，由于不同的自然语言处理任务所执行的功能不同，为完成相应的功能所要执行的处理也不同，例如，为完成如上三种不同的对话类型，需要使用不同结构的神经网络实现。由于神经网络的结构不同，各个神经网络均独立执行对神经网络输入的处理，并输出该神经网络的处理结果。

图1为一种用于自然语言处理的多任务神经网络的示意图。例如，如图1所示，该多任务神经网络由3个不同的神经网络组成：问答型神经网络、闲聊型神经网络和任务型神经网络，3个神经网络独立设置，分别包含输入层、NLP特征提取部分、多个隐藏层(例如图1中的隐藏层1-1、...、隐藏层1-x等)以及输出层，隐藏层可以为根据实际需要选择适合的神经网络结构。例如，3个神经网络的各层的权重参数以及隐藏层的具体结构和层数可能均不相同，从而各自完成不同的功能。例如，问答型神经网络用于执行问答型功能任务，闲聊型神经网络用于执行闲聊型功能任务，任务型神经网络用于执行任务型功能任务。例如，可以将同一个任务文本分别输入3个神经网络，3个神经网络分别对任务文本进行不同的推理得到各自的处理结果，最后仲裁选择最佳的处理结果作为对任务文本的回答。

对于例如图1的多任务神经网络，3个神经网络分别由多个网络层(如输入层、隐藏层等)组成，每个神经网络的规模都较大，这会导致神经网络模型太多，并且模型尺寸较大，因而占用了过多的计算资源；特别是在资源受限的端侧设备上，同时设置和运行3个神经网络，常常出现资源不够的问题。

例如，如图1所示，3个神经网络均包括输入层和特征提取部分，该三个网络层功能接近，均是提取输入的任务文本中的特征；由于输入的3个神经网络为相同的任务文本，3个神经网络的输入层和NLP特征提取部分可以共享参数权重。然而，由于3个神经网络独立设置，可以共享参数权重的前三层也分别设置，导致计算资源的重复和浪费。

本公开至少一实施例提供一种自然语言处理方法。该自然语言处理方法包括：获取待进行自然语言处理的任务文本，其中，任务文本包括多个字符；利用共享神经网络对任务文本进行特征提取，得到任务文本的共享特征，其中，共享特征包含多个字符的字符特征以及多个字符之间的全局联系；将共享特征输入多个功能神经网络，得到多个功能神经网络分别输出的多个处理结果，其中，多个功能神经网络用于分别执行多个不同的自然语言处理任务。

本公开的多个实施例还提供一种对应于执行上述自然语言处理方法的装置、电子设备或存储介质。

在本公开至少一实施例提供的自然语言处理方法中，利用共享神经网络提取不同功能任务之间可以共享的共享特征，例如任务文本自身的字符特征、字符之间的上下文联系等，各个共享神经网络对共享特征进行不同的后续处理，从而执行不同的自然语言处理任务，由此使得多个功能神经网络能够共享该共享神经网络的权重参数，减少了神经网络参数规模，进而节省了计算资源，避免计算资源的重复和浪费，节约了计算成本。

下面，将参考附图详细地说明本公开至少一实施例。应当注意的是，不同的附图中相同的附图标记将用于指代已描述的相同的元件。

图2为本公开至少一实施例提供的一种自然语言处理方法的示例性流程图。

例如，如图2所示，本公开至少一实施例提供的自然语言处理方法，用于同时对多个不同的自然语言任务进行处理。例如，该自然语言处理方法包括以下步骤S110～S130。

步骤S110：获取待进行自然语言处理的任务文本；

步骤S120：利用共享神经网络对任务文本进行特征提取，得到任务文本的共享特征；

步骤S130：将共享特征输入多个功能神经网络，得到多个功能神经网络分别输出的多个处理结果。

例如，在步骤S110中，待进行自然语言处理的任务文本例如为人机交互过程中的用户输入句子的字符串，即该任务文本包括多个字符。

例如，任务文本可以是各种语言的文本，例如，中文、英文、日文等。例如，当任务文本为中文文本时，字符为单个汉字的形式，当任务文本为英文文本时，字符为单个单词的形式。例如，任务文本还可以包括各种数字等，单个数字也可以作为一个字符。

例如，任务文本可以是单一语言的文本，例如纯中文文本，例如，任务文本也可以是多种语言混合的文本，例如，中英文混合文本。本公开对任务文本的形式、语言不作具体限制。

例如，在一些示例中，步骤S110可以包括：获取待进行自然语言处理的语音片段；将语音片段转换为文字形式，以得到任务文本。例如，在例如人机语音交互等应用场合中，首先获取用户的语音片段，再将语音片段转换为文字形式以作为任务文本。本公开对语音片段转任务文本的具体转换方法不作具体限制。

例如，在步骤S120中，共享特征包含多个字符的字符特征以及多个字符之间的全局联系。例如，任务文本经过共享神经网络的特征提取转化为多个特征向量，共享特征被包含在多个特征向量中，即多个特征向量既包含每个字符的含义，又包含所有字符之间的联系(即全局联系)，从而包含了整个输入句子的有效信息。这里，多个字符之间的全局联系为多个字符之间的上下文联系，字符特征体现了单个字符的含义，而多个字符之间的全局联系体现了多个字符之间有意义的前后文关系，表达了句子的有效消息。

例如，在步骤S130中，多个功能神经网络对共享特征进行处理得到多个处理结果。例如，多个功能神经网络用于分别执行多个不同的自然语言处理任务。例如，根据对话类型的不同，多个不同的自然语言处理任务可以包括问答型功能任务、闲聊型功能任务和任务型功能任务，或者也可以包括人机交互过程中根据用户输入文本产生的其他类型的功能任务，本公开的实施例对自然语言处理任务的类型不作限制。

图3为本公开至少一实施例提供的共享神经网络和多个功能神经网络的一个示例的示意图。例如，在一些示例中，可以通过如图3所示的共享神经网络和N个功能神经网络实施图2所示的自然语言处理方法，N个功能神经网络用于分别执行N个不同的自然语言处理任务，这里N为正整数。

例如，如图3所示，共享神经网络可以用于在步骤S120中对任务文本进行特征提取，得到任务文本的共享特征；N个功能神经网络用于在步骤S130中对共享特征输入进行处理，分别输出多个处理结果。

例如，相比于图1中3个独立的神经网络的输入层和NLP特征提取部分独立设置，本公开至少一实施例提供的自然语言处理方法可以共享图3中共享神经网络的参数权重，共享神经网络例如可以由图1中3个独立的神经网络的输入层和NLP特征提取部分融合而成；共享神经网络也可以由其他多个独立神经网络中共享权重的网络层融合而成，本公开的实施例对此不作限制。

例如，如图3所示，共享神经网络包括输入子网络S1、字嵌入子网络S2和特征提取子网络S3。

例如，输入子网络S1可以实现为独热(One-Hot)转换层，配置为对任务文本中的各个字符进行独热编码，将各个字符转换为其对应的索引值，各个索引值构成字索引数组。当然，输入子网络S1也可以实现为其他结构，索引值不限为独热码形式，只要能将任务文本的各个字符转换成唯一对应的索引值即可。

例如，字嵌入子网络S2可以将字索引数组转换为多维字向量，用以表示每个字的意思(即字符特征)；字嵌入子网络S2可以根据实际需要实现为适合的神经网络结构。

例如，特征提取子网络S3配置为提取出任务文本的多个字符之间的全局联系，得到多个特征向量。例如，特征提取子网络S可以包括卷积神经网络(Convolutional NeuralNetwork，CNN)和长短记忆网络(Long-Stort Term Memory，LSTM)，甚至是更大规模的BERT(Bidirectional Encoder Representation from Transformer)网络，也可以是其他卷积、全连接或者是更大规模的神经网络，本公开的实施例对于特征提取子网络S3的网络结构不作限制。

由于共享神经网络需要提取N个功能神经网络可以共享的共享特征，因此需要设置共享神经网络的网络规模或参数规模相对于图1中分别独立设置的NLP提取部分要大一些，例如，可以增加特征提取子网络S3的参数规模，例如可以增加特征提取子网络S3中的权重参数增加20％的参数规模，当然，也可以根据需要选择增大的具体参数规模，本公开的实施例对此不作限制。

例如，如图3所示，N个功能神经网络(S4、S5、……、S(N+3))分别包括多个隐藏层和输出层，隐藏层可以为根据实际需要选择的适合的神经网络结构。例如N个功能神经网络的各个网络层的网络参数以及隐藏层的具体结构和层数可以根据需要设置，以各自执行不同的自然语言处理任务(例如包括但不限于问答型功能任务、闲聊型功能任务和任务型功能任务等)。

需要说明的是，图3所示仅为用于本公开实施例提出的自然语言处理方法的共享神经网络和多个功能神经网络的一个示例，本公开对多个功能神经网络的具体神经网络层结构和功能神经网络的数量等均不作限制。

图4为图2中步骤S120的一个示例的示例性流程图。

例如，如图4所示，图2所示自然语言处理方法中的步骤S120包括以下步骤S121～S123。

步骤S121：利用输入子网络将任务文本转换为字索引数组；

步骤S122：利用字嵌入子网络将字索引数组编码为多个字向量；

步骤S123：基于多个字向量，利用特征提取子网络提取多个字符之间的全局联系，得到共享特征。

在步骤S121中，将任务文本输入到输入子网络S1后，输入子网络S1输出的字索引数组包括的多个索引值与任务文本中的多个字符一一对应。例如，每个字符对应一个索引值，则整个任务文本转换为一个由索引值组成的数组。例如，可以预先为任务文本使用的语言中需要用到的所有可能字符都编码一个对应的索引值，索引值可以是整型数值，代表各个字符的索引。

例如，为使得字嵌入子网络S2输入数据的维度固定，数组的长度可以是预设的固定值step(例如设置step＝70)，若任务文本的字符长度超过step，则任务文本中第step+1个字符及之后部分将被截断丢弃，若任务文本的字符长度小于step，不足部分用特定的无意义的字符补齐，例如这里特定的无意义的字符可以对应预先规定的一个索引值，该索引值与任何字符对应的索引值都不同，该索引值出现时表示其对应的字符是没有意义的字符。

例如，以任务文本为“放一首刘德华的忘情水”为例，任务文本经过输入子网络S1后，输出的字索引数组的长度为step，其中数组中的前10个元素为任务文本中的10个字符对应的索引值，其余step-10个索引值使用上述特定的无意义字符对应的索引值表示，由此将用户输入句子转换为一个由索引值组成的字索引数组。

在步骤S122中，字嵌入子网络S2对任务文本中每一个字符对应的索引值进行嵌入表示，将字索引数组编码为多个字向量。多个字向量与多个索引值一一对应，从而与多个字符一一对应；多个字向量中的每个字向量包括对应字符的字符特征(例如每个字符本身的含义)以及该字符与前后字符之间的联系(例如某个词的含义)。

例如，输入子网络S1输出的字索引数组经过字嵌入子网络S2变成一个一个多维字向量。多维字向量即为多个字向量构成一个多维的浮点数矩阵，用于表示每个字的意思(即字符特征)。例如，如果多维字向量为32维(DIM)矩阵，则每个字就用32个元素的一维数组(即字向量)表示；当字索引数组长度step＝70时，多维字向量为一个[70,32]的矩阵，矩阵中的每个元素是一个浮点数。

例如，同样以任务文本为“放一首刘德华的忘情水”为例，任务文本经过输入子网络S1后输出长度为step的字索引数组，字索引数组经过字嵌入子网络S2变成一个多维字向量。例如，前10个字向量对应于任务文本中的10个字符，前10个字向量包含10个字符的字符特征(例如任务文本中每个字符本身的含义)以及10个字符中每个字符与前后字符之间的联系(例如任务文本中每个词的含义)；其余step-10个字向量使用上述特定的无意义字符对应的浮点数(例如null)表示，由此将任务文本对应的字索引数组转换为一个由多个字向量组成的多维浮点数矩阵。

在步骤S123中，基于字嵌入子网络S2输出的多个字向量，特征提取子网络S3从多个字向量中提取出任务文本的多个字符之间的全局联系，得到多个特征向量，多个特征向量中包含共享特征。因此，多个特征向量既包含每个字符的含义，又包含所有字符之间的联系(即全局联系)，从而包含了整个任务文本的有效信息。

例如，同样以任务文本为“放一首刘德华的忘情水”为例，任务文本经过输入子网络S1和字嵌入子网络S2后输出由多个字向量组成的多维浮点数矩阵，多维浮点数矩阵经过特征提取子网络S3变成多个特征向量。例如，多个特征向量既包含10个字符中每个字符的含义，又包含10个字符之间的联系(即全局联系)，从而包含了整个任务文本的有效信息(例如，包括用户要求播放歌曲的意图信息，以及“一首”、“刘德华”、“忘情水”等关键词信息)。

图5为本公开至少一实施例提供的共享神经网络和多个功能神经网络的另一示例的示意图。例如，图5所示的用于自然语言处理的多个神经网络可以包括图3所示的共享神经网络和N个功能神经网络，在图5所示的示例中，N＝3。

例如，如图5所示，N个功能神经网络包括第一功能神经网络S4、第二功能神经网络S5和第三功能神经网络S6，分别用于执行不同的自然语言处理任务。

例如，在一些示例中，第一功能神经网络S4可以用于处理问答型功能任务，第二功能神经网络S5可以用于处理闲聊型型功能任务，第三功能神经网络S6可以用于处理任务型功能任务；第一功能神经网络S4、第二功能神经网络S5和第三功能神经网络S6也可以分别用于执行其他类型的自然语言处理任务，本公开的实施例对此不作限制。

下面结合图5，具体描述三个功能神经网络的结构及得到处理结果的具体过程。

例如，在一些示例中，自然语言处理任务包括问答型功能任务，问答型功能任务处理基于知识库的问答，例如，问答型功能任务用于解析任务文本中的问题，给出问题对应的答案。

例如，如图5所示，N个功能神经网络包括第一功能神经网络S4，第一功能神经网络S4用于执行问答型功能任务，并输出句向量，例如，句向量包括所述任务文本中所述问题的类别信息(例如，常识类、科学类等)；之后，需要对句向量进行第一后处理，得到任务文本中问题对应的答案。

例如，基于第一功能神经网络S4，在一些示例中，图2中的步骤S130可以进一步包括：利用第一功能神经网络S4对共享特征进行第一处理，得到句向量；将句向量与数据库中预存的多个知识信息向量进行比较，以将多个知识信息向量中的与句向量的向量距离最小的知识信息向量对应的答案作为对应于第一功能神经网络的处理结果。

例如，第一处理包括卷积处理、池化处理、特征融合处理和全连接处理。

例如，第一功能神经网络可以是卷积神经网络。图6为本公开至少一实施例提供的第一功能神经网络的一个示例的示意图。

例如，如图6所示，在一个示例中，第一功能神经网络S4可以包括卷积层、池化层、融合层、全连接层、输出层，分别用于上述第一处理中的卷积处理、池化处理、特征融合处理和全连接处理，最终得到句向量。关于卷积层、池化层、融合层、全连接层、输出层的具体结构可以根据需要进行设置，本公开对此不作具体限制。

需要说明的是，第一功能神经网络可以为如图6所示的卷积全连接的网络(例如，TextCNN等)，或者也可以使用双塔模型作为第一功能神经网络S4，或者也可以为其他能够实现提取句向量任务的网络结构，本公开的实施例对第一功能神经网络的结构不作限制。

例如，预先可以设置大量包含各类百科知识信息的问题及其答案，并提取预设问题的句向量作为知识信息向量存储在数据库中。在对句向量的第一后处理过程中，将句向量与数据库中预存的多个知识信息向量进行向量比较，例如计算各个知识信息向量和句向量之间的距离，以找到与句向量的向量距离最小的知识信息向量，该知识信息向量对应的答案即可以作为第一功能神经网络S4的处理结果，即任务文本中问题对应的答案，也即是用户提出问题的答案。

需要说明的是，关于第一后处理的具体过程也可以采用其他可行的方式根据句向量得到答案，本公开对此不作具体限制。

例如，在执行问答型功能任务时，第一功能神经网络输出的是任务文本对应的句向量，还需对句向量进行后处理以得到最终的处理结果作为第一功能神经网络S4的处理结果。

例如，在另一些示例中，自然语言处理任务包括闲聊型功能任务，闲聊型功能任务可以处理无目的的对话。例如，闲聊型功能任务用于解析任务文本中的无目的性对话信息，给出无目的性对话信息对应的系统回答。

例如，如图5所示，N个功能神经网络包括第二功能神经网络S5，第二功能神经网络S5用于执行闲聊型功能任务，并可以直接得到输出句子作为任务文本对应的系统回答，无需进一步的后处理操作。

例如，基于第二功能神经网络S5，在一些示例中，图2中的步骤S130可以进一步包括：利用第二功能神经网络S5对共享特征进行第二处理，得到输出句子以作为对应于第二功能神经网络的处理结果，并将对应于第二功能神经网络的处理结果作为任务文本对应的系统回答。

例如，第二处理包括编码处理和解码处理。例如第二功能神经网络典型的是基于循环神经网络的架构，包括编码子网络和解码子网络。图7为本公开至少一实施例提供的第二功能神经网络的一个示例的示意图。

例如，如图7所示，在一个示例中，编码子网络包含循环网络，解码子网络包括循环网络、全连接层和解码层。在一些示例中，解码子网络中的解码层一般使用维特比解码，也可以采用其他解码方式；编码子网络和解码子网络也可以为能够实现编码或解码功能的其他结构，本公开的实施例对此不作限制。

例如，利用第二功能神经网络S5对共享特征进行第二处理的过程可以进一步包括：利用编码子网络对共享特征进行编码处理得到中间索引数组；利用解码子网络对中间索引数组进行解码处理得到输出句子，以作为对应于第二功能神经网络的处理结果。

例如，中间索引数组为共享特征经过编码子网络的编码处理得到的编码结果，中间索引数组再经过解码子网络的解码处理得到输出句子。将输出句子直接作为第二功能神经网络S5的处理结果，即任务文本对应的系统回答，也即是对于用户发出的无目的闲聊对话的回应。

需要说明的是，第二功能神经网络可以为如图7所示的循环神经网络的架构(例如，循环网络为RNN(Recurrent Neural Network)、LSTM或GRU(Gate Recurrent Unit)等)，也可以为能够实现共享特征到输出句子转换的其他网络结构，本公开的实施例对此不作限制。

例如，在又一些示例中，自然语言处理任务包括任务型功能任务，任务型功能任务可以处理带有词槽的对话或者多轮对话。任务型功能任务用于解析任务文本中的任务目的信息和任务关键词信息，根据任务目的信息和任务关键词信息得到系统追问或问答结果。例如，任务型功能任务包括处理一些复杂的对话流程，例如，带词槽的句子，考虑上下文的多轮对话等。

例如，为了执行任务型功能任务，需要完成意图识别、命名实体识别、对话管理等。例如，如图5所示，N个功能神经网络可以包括第三功能神经网络S6，第三功能神经网络S6用于执行任务型功能任务，并输出意图特征和命名实体，意图特征和命名实体分别对应于任务文本中的任务目的信息和任务关键词信息；通过第二后处理操作对意图特征和命名实体进行后处理，得到对应于任务文本的系统追问或问答结果。

例如，基于第三功能神经网络S6，在一些示例中，图2中的步骤S130可以进一步包括：利用第三功能神经网络S6对共享特征进行第三处理，得到对应于任务文本的意图特征和至少一个命名实体；对意图特征和至少一个命名实体进行对话管理，得到系统追问或问答结果以作为对应于第三功能神经网络的处理结果。

例如，第三功能神经网络S6包括意图识别子网络S61和命名实体识别子网络S62。利用第三功能神经网络S6对共享特征进行第三处理，得到对应于任务文本的意图特征和至少一个命名实体，可以包括：利用意图识别子网络S61，基于共享特征进行意图识别，得到对应于任务文本的意图特征；利用命名实体识别子网络S62，基于共享特征执行命名实体识别，得到对应于任务文本的至少一个命名实体。

例如，意图特征包含任务文本中的任务目的信息，也即是，意图特征代表了用户所想要表达的隐含信息。例如，在一些具体的示例中，“给我放一首刘德华的忘情水”的意图是播放某个歌手的一首歌，“明天上海的天气怎么样”的意图是天气查询。

例如，至少一个命名实体包含任务关键词信息(也称为命名实体信息或词槽信息)，也即是，命名实体识别(Named Entity Recognition，NER)就是识别用户一句话中的命名实体信息(包括关键词的位置、类型)。

例如，在一个示例中，用户要订火车票，共享神经网络和多个功能神经网络需要完成与用户的交互对话并最终完成订票任务，举例：

用户：帮我订一张火车票。

系统：好的，请问要去哪里？

用户：上海。

系统：可以，那什么时候出发呢？

用户：明天上午10点吧。

系统：好的，查到G0001次列车，明天上10点1刻从北京南站到上海虹桥站，请问要预定吗？

用户：是的。

系统：好的，已经定好车票了。

例如，为了实现上述任务型功能任务，需要解析用户发出的语音片段对应的任务文本中的任务目的信息和任务关键词信息。对于解析任务文本中的任务目的信息，例如需要理解用户每一个句子中包含的意图，比如第一句的意图是“订火车票”；对于解析任务文本中的任务关键词信息，例如需要提取出每一句中的关键词(命名实体，也叫词槽)，比如“上海”、“10点”等；另外，基于获得的任务目的信息和任务关键词信息，还需要向用户追问完成订票所需的其他信息，比如在以上示例中系统追问了地点和时间。

例如，包括上述任务目的信息和任务关键词信息的任务文本经共享神经网络被转换为共享特征；通过意图识别字网络S61对共享特征进行意图识别，输出意图特征(例如，意图特征包含用户要求订火车票的意图信息)，利用命名实体子网络S62基于共享特征执行命名实体识别，得到一个或多个命名实体(例如，命名实体包含“上海”、“10点”等关键词信息)；再对意图特征和命名实体进行第二后处理，得到对应于任务文本的系统追问(例如，追问地点和时间等)或问答结果(例如，完成订票的回答)。

例如，如图5所示，可以在第二后处理过程中对意图特征和至少一个命名实体进行对话管理(Dialog Management，DM)。例如，对话管理就是维护和更新任务型功能任务所需的状态信息和上下文，比如下一句需要追问什么信息，什么时候结束回话，什么时候追问等。例如，在人机交互过程中，通过系统追问产生对话，从而不断完善沟通，获得有价值的信息，以得到问答结果。

图8为本公开至少一实施例提供的第三功能神经网络的一个示例的示意图。

例如，如图8所示，在一个示例中，意图识别子网络可以包括卷积层、池化层、融合层、全连接层、激活函数层(例如SOFTMAX层)，分别用于对共享特征进行卷积处理、池化处理、特征融合处理、全连接处理和分类处理等，以得到对应于任务文本的意图特征。命名实体识别子网络可以包括双向长短记忆网络(Bidirectional Long-Short Term Memorry，Bi-LSTM)层、全连接层和解码层，分别用于对共享特征进行上下文的信息处理、全连接处理和解码处理等。

需要说明的是，第三功能神经网络也可以为能够实现共享特征到意图特征和命名实体转换的其他网络结构，意图识别子网络和命名实体识别子网络也可以为能够实现意图识别或命名实体识别功能的其他结构，本公开的实施例对意图识别子网络和命名实体识别子网络的具体结构不作限制。

例如，本公开至少一实施例提供的自然语言处理方法还包括：通过仲裁选择从多个处理结果中选择一个处理结果作为自然语言处理的输出结果。例如，一个任务文本经过共享神经网络和多个功能神经网络的处理会产生多个处理结果；可以根据任务文本对应的自然语言处理任务的不同，通过仲裁从多个处理结果中选择出一个最终输出结果。例如，如图5所示，第一神经网络对应的处理结果为任务文本中问题对应的答案，第二神经网络对应的处理结果为无目的性对话信息对应的系统回答，第三神经网络对应的处理结果为系统追问或问答结果。

例如，如果任务本文为用户提出的问题，也即是，自然语言处理任务为问答型功能任务，则选择用于执行问答型功能任务的功能神经网络输出的问题对应的答案作为最终输出结果；如果任务本文中主要包含无目的性对话信息，也即是，自然语言处理任务为闲聊型功能任务，则选择用于执行闲聊型功能任务的功能神经网络输出的系统回答作为最终输出结果；如果任务本文中主要包含任务目的信息和任务关键词信息，也即是，自然语言处理任务为任务型功能任务，则选择用于执行任务型功能任务的功能神经网络输出的系统追问或问答结果作为最终输出结果。

例如，在一些示例中，仲裁选择可以包括以下方式：如果检测到上下文信息，也即是多轮会话场景，则选择系统追问或问答结果作为最终输出结果；如果没有检测到多轮会话场景，则基于提前设置的静态优先级(例如问答型任务和任务型任务的优先级)，选择优先级高任务对应的功能神经网络的输出作为最终输出结果；除了提前设置的静态优先级，还需要考虑批判度(例如词槽数)、模型推理出来的置信度等。需要说明的是，仲裁选择还可以根据实际需要选择其他实施方式，本公开的实施例对此不作限制。

本公开至少一实施例提供的自然语言处理方法，采用具有共享神经网络的用于自然语言处理的多个神经网络来执行多个不同的自然语言处理任务，减少了神经网络参数规模，进而节省了计算资源，节约了计算成本。

例如，本公开至少一实施例提供的共享神经网络和多个功能神经网络都是提前通过训练获得的。图9为本公开至少一实施例提供的自然语言处理方法的训练部分的示意图。

例如，如图9所示，在如图2中的步骤S110之前，自然语言处理方法还包括以下步骤S140～S150。

步骤S140：获取训练文本；

步骤S150：基于训练文本，对待训练的多个功能神经网络进行训练，以得到训练好的多个功能神经网络。

例如，多个功能神经网络的数量为N，这里N为大于1的整数。例如，在训练待训练的N个功能神经网络过程中，N个功能神经网络同时训练，且计算N个功能神经网络对应的M个中间损失值的加权和作为损失值以更新N个功能神经网络的参数。例如，M个中间损失值分别对应M个权重，M个权重根据N个功能神经网络的输出准确度进行动态调整，这里M为大于等于N的整数。

例如，参考图5所示，在自然语言处理任务包括三个任务时，N＝3，也即N个功能神经网络包括第一功能神经网络、第二功能神经网络和第三功能神经网络，并且其中第三功能神经网络包括意图识别子网络和命名实体识别子网络，从而M＝4。

例如，在训练待训练的第一功能神经网络、第二功能神经网络和第三功能神经网络的过程中，3个功能神经网络同时训练。第一功能神经网络、第二功能神经网络、意图识别子网络和命名实体识别子网络分别对应4个中间损失值(即M＝4)，计算4个中间损失值的加权和作为损失值以更新3个功能神经网络的参数。例如，4个中间损失值分别对应4个权重，4个权重可以根据4个功能神经网络的输出准确度进行动态调整。

图10为图9中步骤S150的一个示例的示意图。

例如，如图10所示，图9中的步骤S150可以包括以下步骤S151～S155。

步骤S151：利用待训练的共享神经网络对训练文本进行特征提取，得到训练文本的训练共享特征。

例如，关于待训练的共享神经网络的结构可以参考图3相关内容，这里不再赘述。

例如，训练文本为神经网络训练过程中使用的任务文本，训练文本经过待训练的共享神经网络S1～S3的特征提取转化为多个训练特征向量，训练共享特征被包含在多个训练特征向量中，训练共享特征包含训练文本中的多个字符的字符特征以及多个字符之间的全局联系。

例如，可以预先构造大量的任务文本和任务文本对应的标准处理结果对神经网络进行训练，从中选择任意一个任务文本作为训练文本。

步骤S152：利用N个功能神经网络对训练共享特征分别进行处理，得到N个功能神经网络分别输出的M组第一中间结果。

例如，在N个功能神经网络包括第一功能神经网络、第二功能神经网络、第三功能神经网络时，M组第一中间结果包括第一功能神经网络S4输出的第一中间结果、第二功能神经网络S5输出的第一中间结果、意图识别子网络输出的第一中间结果和命名实体识别子网络输出的第一中间结果。

例如，对于用于执行问答型功能任务的第一功能神经网络S4，输出的第一中间结果为训练句向量，训练句向量包括训练文本中问题的类别信息；对于用于执行闲聊型功能任务的第二功能神经网络S5，输出的第一中间结果为训练输出句子，训练输出句子包括训练文本对应的系统回答；对于用于执行任务型功能任务的第三功能神经网络S6，意图识别子网络输出的第一中间结果为训练意图特征，命名实体识别子网络输出的第一中间结果为一个或多个训练命名实体。

步骤S153：基于训练文本和M组第一中间结果计算N个功能神经网络对应的M个中间损失值。

例如，基于训练文本和N个功能神经网络分别输出的M组第一中间结果，例如训练句向量、训练输出句子、训练意图特征和训练命名实体等，根据各个功能神经网络对应的损失函数计算各个功能神经网络分别对应的中间损失值。

例如，M可以等于N也可以不等于N，例如，在第三功能神经网络包括两个子网络时，M＝N+1。

步骤S154：计算M个中间损失值的加权和作为损失值。

例如，N个功能神经网络对应的M个中间损失值分别为Loss1、Loss2……LossM，经步骤S151～S154训练后的共享神经网络和N个功能神经网络的损失函数可以用如下公式(1)表示：

Loss＝k₁*Loss1+k₂*Loss2+……+k_M*LossM (1)

其中，k₁为中间损失值Loss1的权重，k₂为中间损失值Loss2的权重，……，k_M为中间损失值LossM的权重。例如，k₁、k₂……k_M的初始值都设置为1。

步骤S155：在损失值未满足预定收敛条件时，基于损失值更新待训练的共享神经网络和N个功能神经网络的参数。

例如，若损失值满足预定收敛条件，则得到训练好的功能神经网络。

例如，在训练过程中，步骤S154中计算损失值时的各个中间损失值的权重可以动态调整。

例如，训练过程中同时训练N个功能神经网络，但由于训练数据的偏差不均衡以及N个功能神经网络的差异，N个功能神经网络不可能同时收敛，甚至部分网络很难收敛。

例如，为了加速训练过程，可以在训练过程中测量共享神经网络和N个功能神经网络的输出准确度(例如，每训练总轮数的1/10时，测量一次输出准确度)，根据N个功能神经网络的输出准确度动态调整损失函数的M个权重。

例如，图11为图9中步骤S150的另一示例的示意图。例如，图11所示的方法即为通过测量N个功能神经网络的输出准确度来动态调整损失函数的M个权重的一个示例。

例如，如图11所示，图9中的步骤S150还可以包括以下步骤S156～S1510。

步骤S156：获取测试文本；

步骤S157：利用训练后的共享神经网络和训练后的N个功能神经网络对测试文本进行处理，得到M组第二中间结果；

步骤S158：基于M组第二中间结果和测试文本，确定分别对应于训练后的N个功能神经网络的M个输出准确度；

步骤S159：基于M个输出准确度调整M个中间损失值分别对应的M个权重；

步骤S1510：根据调整后的M个权重继续对待训练的多个功能神经网络进行训练。

例如，步骤S159进一步包括：确定M个输出准确度中的最大输出准确度对应的权重作为第一权重；保持第一权重不变，增大M个权重中除第一权重以外的其他M-1个权重。

例如，同样以图3或图5所示的共享神经网络和多个功能神经网络为例，在步骤S156中，测试文本为神经网络测试过程中使用的任务文本。

例如，在步骤S157中，测试文本经过训练后的(例如每训练总轮数的1/10后的)共享神经网络S1～S3的特征提取转化为多个测试特征向量，测试共享特征被包含在多个测试特征向量中，测试共享特征包含测试文本中的多个字符的字符特征以及多个字符之间的全局联系。

例如，在步骤S158中，基于测试文本和N个功能神经网络分别输出的M组第二中间结果，确定分别对应于训练后的N个功能神经网络的M个输出准确度P1、P2、……、PM。

例如，在步骤S159中，基于M个输出准确度P1、P2、……、PM调整M个中间损失值分别对应的M个权重k₁、k₂……k_M；在步骤S1510中，再根据调整后的M个权重继续对待训练的多个功能神经网络进行训练。

图12为本公开至少一实施例提供的共享神经网络和多个功能神经网络的损失函数的一个示例的示意图。例如，图12中共享神经网络和多个功能神经网络例如为图3或图5中的共享神经网络和多个功能神经网络。

例如，如图12所示，4个中间损失值包括第一功能神经网络S4对应的中间损失值Loss1、第二功能神经网络S5对应的中间损失值Loss2、意图识别子网络S6-1对应的中间损失值Loss3和命名实体识别子网络S6-2对应的中间损失值Loss4。

例如，如图12所示，计算4个中间损失值的加权和作为损失值Loss，经步骤S151～S154训练后的共享神经网络和3个功能神经网络的损失函数可以用如下公式(2)表示：

Loss＝a*Loss1+b*Loss2+c*Loss3+d*Loss4 (2)

其中，a为中间损失值Loss1的权重，b为中间损失值Loss2的权重，c为中间损失值Loss3的权重，d为中间损失值Loss4的权重。例如，a、b、c、d的初始值都设置为1。

例如，在步骤S155中，如果损失值Loss未满足预定收敛条件，则基于损失值Loss更新待训练的共享神经网络S1～S3和3个功能神经网络的参数。

例如，为了加速训练过程，可以在训练过程中测量共享神经网络和N个功能神经网络的输出准确度(例如，每训练总轮数的1/10时，测量一次准确度)，根据N个功能神经网络的输出准确度动态调整损失函数的M个权重。

例如，3个功能神经网络对测试共享特征分别进行处理得到4组第二中间结果，4组第二中间结果包括第一功能神经网络S4输出的第二中间结果、第二功能神经网络S5输出的第二中间结果、意图识别子网络输出的第二中间结果和命名实体识别子网络输出的第二中间结果。

例如，对于用于执行问答型功能任务的第一功能神经网络S4，输出的第二中间结果为测试句向量，测试句向量包括测试文本中问题的类别信息；对于用于执行闲聊型功能任务的第二功能神经网络S5，输出的第二中间结果为测试输出句子，测试输出句子包括测试文本对应的系统回答；对于用于执行任务型功能任务的第三功能神经网络S6，意图识别子网络输出的第二中间结果为测试意图特征，命名实体识别子网络输出的第二中间结果为至少一个测试命名实体。

例如，在步骤S158中，基于测试文本和3个功能神经网络分别输出的4组第二中间结果(即测试句向量、测试输出句子、测试意图特征和至少一个测试命名实体)，确定分别对应于训练后的3个功能神经网络的4个输出准确度。例如，对于如图12所示的共享神经网络和多个功能神经网络，3个输出准确度包括第一功能神经网络S4的输出准确度P1、第二功能神经网络S5的输出准确度P2、意图识别子网络S6-1的输出准确度P3和命名实体识别子网络S6-2的输出准确度P4。

例如，在步骤S159中，基于4个输出准确度P1、P2、P3、P4调整4个中间损失值分别对应的4个权重a、b、c、d。

例如，按照从大到小对P1、P2、P3、P4排序，在一些示例中，例如P2>P1>P3>P4，也即是，4个输出准确度中的最大输出准确度为第二功能神经网络S5的输出准确度P2，以输出准确度P2对应的权重b作为第一权重；保持第一权重b不变，增大4个权重中除第一权重b以外的其他3个权重a、c、d。

例如，可以根据3个权重a、c、d对应的3个输出准确度的大小关系，即P1>P3>P4，确定该3个权重a、c、d的3个放大因子α、β、γ。例如，对于3个输出准确度中的任一个输出准确度，响应于任一个输出准确度越大，该输出准确度对应的权重的放大因子越小。例如，对于P1>P3>P4，可以确定α<β<γ，例如，设置α＝0.5，β＝1.0，γ＝1.5。

例如，根据上述3个权重的放大因子，调整上述3个权重。例如，调整后的4个权重a’、b’、c’、d’可以用如下公式(3)～(6)表示：

a′＝a*(1+α) (3)

b′＝b (4)

c′＝c*(1+β) (5)

d′＝d*(1+γ) (6)

也即是，最大输出准确度P2对应的权重b不变，将另外3个输出准确度对应的权重a、c、d分别扩大到原来的1.5倍、2倍和2.5倍。

需要说明的是，以上以图3、图5或图12所示的共享神经网络和多个功能神经网络为例对训练过程和测试过程的描述仅为一个示例(即N＝3，M＝4)，还可以根据实际需要或基于功能神经网络的数量选择其他对应的N和M，本公开的实施例对此不作限制。

本公开的至少一实施例提供的自然语言处理方法，通过在训练过程中动态调整联合训练的各个神经网络的权重，可以加速训练过程中神经网络模型的收敛，从而减少了训练时间。

图13为本公开的至少一实施例提供的自然语言处理装置的示意框图。

例如，本公开至少一实施例提供一种自然语言处理装置。如图13所示，该自然语言处理装置300包括获取模块310、提取模块320、处理模块330和训练模块340。

例如，获取模块310配置为为获取待进行自然语言处理的任务文本，该任务文本包括多个字符；即该获取模块310可以被配置为执行例如图2所示的步骤S110。

例如，提取模块320配置为利用共享神经网络对任务文本进行特征提取，得到任务文本的共享特征，该共享特征包含多个字符的字符特征以及多个字符之间的全局联系；即该提取模块320可以被配置为执行例如图2所示的步骤S120。

例如，处理模块330配置为将共享特征输入多个功能神经网络，得到多个功能神经网络分别输出的多个处理结果，多个功能神经网络用于执行多个不同的自然语言处理任务；即该处理模块330可以被配置为执行例如图6所示的步骤S30～S50。

例如，在训练共享神经网络和多个功能神经网络的过程中，获取模块310还配置为获取训练文本；即该获取模块310还可以被配置为执行例如图9所示的步骤S140。

例如，训练模块340配置为，基于训练文本，对待训练的多个功能神经网络进行训练，以得到训练好的多个功能神经网络，多个功能神经网络的数量为N，这里N为大于1的整数；即该测量模块340可以被配置为执行例如图9所示的步骤S150。

由于在描述例如图2和图9所示的自然语言处理方法的过程中，已经对上述自然语言处理装置300的操作所涉及的内容的细节进行了介绍，因此这里为简洁起见不再赘述，相关细节可参照以上关于图1～图12的描述。

需要说明的是，图13所示的自然语言处理装置300中上述的各个模块可被分别配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，这些模块可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。作为示例，参照图13描述的装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其它能够执行程序指令的装置，但不限于此。

另外，尽管以上在描述自然语言处理装置300时将其划分为用于分别执行相应处理的模块，然而，本领域技术人员清楚的是，各模块执行的处理也可以在装置中不进行任何具体模块划分或者各模块之间并无明确划界的情况下执行。此外，以上参照图13描述的自然语言处理装置300并不限于包括以上描述的模块，而是还可以根据需要增加一些其它模块(例如，存储模块、数据处理模块等)，或者以上模块也可被组合。

本公开的至少一实施例还提供一种电子设备，该电子设备包括处理器和存储器；该存储器包括一个或多个计算机程序模块；一个或多个计算机程序模块被存储在存储器中并被配置为由处理器执行，一个或多个计算机程序模块包括用于实现上文所述的本公开的实施例提供的自然语言处理方法。

图14为本公开的至少一实施例提供的一种电子设备的示意框图。

例如，如图14所示，该电子设备400包括处理器410和存储器420。例如，存储器420用于存储非暂时性计算机可读指令(例如一个或多个计算机程序模块)。处理器410用于运行非暂时性计算机可读指令，非暂时性计算机可读指令被处理器410运行时可以执行根据上文所述的自然语言处理方法的一个或多个步骤。存储器420和处理器410可以通过总线系统和/或其它形式的连接机构(未示出)互连。

例如，处理器410可以是中央处理单元(CPU)、数字信号处理器(DSP)或者具有数据处理能力和/或程序执行能力的其它形式的处理单元，例如现场可编程门阵列(FPGA)等；例如，中央处理单元(CPU)可以为X86或ARM架构等。处理器410可以为通用处理器或专用处理器，可以控制电子设备400中的其它组件以执行期望的功能。

例如，存储器420可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序模块，处理器410可以运行一个或多个计算机程序模块，以实现电子设备400的各种功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据以及应用程序使用和/或产生的各种数据等。

需要说明的是，本公开的实施例中，电子设备400的具体功能和技术效果可以参考上文中关于本公开至少一实施例提供的自然语言处理方法的描述，此处不再赘述。

图15为本公开的至少一实施例提供的另一种电子设备的示意框图。

例如，如图15所示，该电子设备500例如适于用来实施本公开实施例提供的自然语言处理方法。需要注意的是，图15示出的电子设备500仅是一个示例，其不会对本公开实施例的功能和使用范围带来任何限制。

例如，如图15所示，电子设备500可以包括处理装置(例如中央处理器、图形处理器等)51，该处理装置51例如包括根据本公开任一实施例的自然语言处理装置，并且其可以根据存储在只读存储器(ROM)52中的程序或者从存储装置48加载到随机访问存储器(RAM)53中的程序而执行各种适当的动作和处理。在RAM 53中，还存储有温度误差检测设备500操作所需的各种程序和数据。处理装置51、ROM 52以及RAM 53通过总线54彼此相连。输入/输出(I/O)接口55也连接至总线54。通常，以下装置可以连接至I/O接口55：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置56；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置57；包括例如磁带、硬盘等的存储装置58；以及通信装置59。通信装置59可以允许温度误差检测设备500与其他电子设备进行无线或有线通信以交换数据。

虽然图15示出了具有各种装置的电子设备500，但应理解的是，并不要求实施或具备所有示出的装置，电子设备500可以替代地实施或具备更多或更少的装置。

关于电子设备500的详细说明和技术效果，可以参考上文关于自然语言处理方法的相关描述，此处不再赘述。

例如，如图16所示，存储介质600用于存储非暂时性计算机可读指令610。例如，当非暂时性计算机可读指令610由计算机执行时可以执行根据上文所述的自然语言处理方法中的一个或多个步骤。

例如，该存储介质600可以应用于上述电子设备400中。例如，存储介质600可以为图15所示的电子设备400中的存储器420。例如，关于存储介质600的相关说明可以参考图15所示的电子设备400中的存储器420的相应描述，此处不再赘述。

对于本公开，有以下几点需要说明：

(1)本公开实施例附图中，只涉及到与本公开实施例涉及到的结构，其他结构可参考通常设计。

(2)在不冲突的情况下，本公开同一实施例及不同实施例中的特征可以相互组合。

以上，仅为本公开的具体实施方式，但本公开的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本公开揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本公开的保护范围之内。因此，本公开的保护范围应以权利要求的保护范围为准。

Claims

1.一种自然语言处理方法，包括：

获取待进行所述自然语言处理的任务文本，其中，所述任务文本包括多个字符；

利用共享神经网络对所述任务文本进行特征提取，得到所述任务文本的共享特征，其中，所述共享特征包含所述多个字符的字符特征以及所述多个字符之间的全局联系；

将所述共享特征输入多个功能神经网络，得到所述多个功能神经网络分别输出的多个处理结果，其中，所述多个功能神经网络用于分别执行多个不同的自然语言处理任务。

2.根据权利要求1所述的自然语言处理方法，其中，所述共享神经网络包括输入子网络、字嵌入子网络和特征提取子网络，

所述利用所述共享神经网络对所述任务文本进行特征提取，得到所述任务文本的所述共享特征，包括：

利用所述输入子网络将所述任务文本转换为字索引数组，其中，所述字索引数组包括的多个索引值与所述多个字符一一对应；

利用所述字嵌入子网络将所述字索引数组编码为多个字向量，其中，所述多个字向量与所述多个字符一一对应，所述多个字向量中的每个字向量包括对应字符的字符特征；

基于所述多个字向量，利用所述特征提取子网络提取所述多个字符之间的所述全局联系，得到所述共享特征。

3.根据权利要求2所述的自然语言处理方法，其中，所述特征提取子网络包括卷积神经网络和长短期记忆网络。

4.根据权利要求1所述的自然语言处理方法，其中，所述自然语言处理任务包括问答型功能任务，所述问答型功能任务用于解析所述任务文本中的问题，给出所述问题对应的答案，

所述多个功能神经网络包括第一功能神经网络，所述第一功能神经网络用于执行所述问答型功能任务，

所述将所述共享特征输入所述多个功能神经网络，得到所述多个功能神经网络分别输出的所述多个处理结果，包括：

利用所述第一功能神经网络对所述共享特征进行第一处理，得到句向量，其中，所述句向量包括所述任务文本中所述问题的类别信息；

将所述句向量与数据库中预存的多个知识信息向量进行比较，以将所述多个知识信息向量中的与所述句向量的向量距离最小的知识信息向量对应的答案作为对应于所述第一功能神经网络的处理结果。

5.根据权利要求4所述的自然语言处理方法，其中，所述第一处理包括卷积处理、池化处理、特征融合处理和全连接处理。

6.根据权利要求1所述的自然语言处理方法，其中，所述自然语言处理任务包括闲聊型功能任务，所述闲聊型功能任务用于解析所述任务文本中的无目的性对话信息，给出所述无目的性对话信息对应的系统回答，

所述多个功能神经网络包括第二功能神经网络，所述第二功能神经网络用于执行所述闲聊型功能任务，

利用所述第二功能神经网络对所述共享特征进行第二处理，得到输出句子以作为对应于所述第二功能神经网络的处理结果，并将对应于所述第二功能神经网络的处理结果作为所述任务文本对应的系统回答。

7.根据权利要求6所述的自然语言处理方法，其中，所述第二功能神经网络包括编码子网络和解码子网络，

所述利用所述第二功能神经网络对所述共享特征进行所述第二处理，得到所述输出句子以作为对应于所述第二功能神经网络的处理结果，包括：

利用所述编码子网络对所述共享特征进行编码处理得到中间索引数组；

利用所述解码子网络对所述中间索引数组进行解码处理得到所述输出句子，以作为对应于所述第二功能神经网络的处理结果。

8.根据权利要求1所述的自然语言处理方法，其中，所述自然语言处理任务包括任务型功能任务，所述任务型功能任务用于解析所述任务文本中的任务目的信息和任务关键词信息，根据所述任务目的信息和所述任务关键词信息得到系统追问或问答结果，

所述多个功能神经网络包括第三功能神经网络，所述第三功能神经网络用于执行所述任务型功能任务，

利用所述第三功能神经网络对所述共享特征进行第三处理，得到对应于所述任务文本的意图特征和至少一个命名实体，其中，所述意图特征包含所述任务文本中的所述任务目的信息，所述至少一个命名实体包含所述任务关键词信息；

对所述意图特征和所述至少一个命名实体进行对话管理，得到所述系统追问或所述问答结果以作为对应于所述第三功能神经网络的处理结果。

9.根据权利要求8所述的自然语言处理方法，其中，所述第三功能神经网络包括意图识别子网络和命名实体识别子网络，

所述利用所述第三功能神经网络对所述共享特征进行所述第三处理，得到对应于所述任务文本的所述意图特征和所述至少一个命名实体，包括：

利用所述意图识别子网络，基于所述共享特征进行意图识别，得到对应于所述任务文本的所述意图特征；

利用所述命名实体识别子网络，基于所述共享特征执行命名实体识别，得到对应于所述任务文本的所述至少一个命名实体。

10.根据权利要求1所述的自然语言处理方法，其中，所述获取所述待进行所述自然语言处理的所述任务文本，包括：

获取所述待进行所述自然语言处理的语音片段；

将所述语音片段转换为文字形式，以得到所述任务文本。

11.根据权利要求1-10任一项所述的自然语言处理方法，还包括：

通过仲裁选择从所述多个处理结果中选择一个处理结果作为所述自然语言处理的输出结果。

12.根据权利要求1所述的自然语言处理方法，在获取所述自然语言对应的所述任务文本之前，还包括：

获取训练文本；

基于所述训练文本，对待训练的多个功能神经网络进行训练，以得到训练好的所述多个功能神经网络，其中，所述多个功能神经网络的数量为N，N为大于1的整数，

其中，在训练待训练的N个功能神经网络过程中，所述N个功能神经网络同时训练，且计算所述N个功能神经网络对应的M个中间损失值的加权和作为损失值以更新所述N个功能神经网络的参数，所述M个中间损失值分别对应M个权重，所述M个权重根据所述N个功能神经网络的输出准确度进行动态调整，M为大于等于N的整数。

13.根据权利要求12所述的自然语言处理方法，其中，所述N个功能神经网络包括第一功能神经网络、第二功能神经网络和第三功能神经网络，所述第三功能神经网络包括意图识别子网络和命名实体识别子网络，

所述基于所述训练文本，对所述待训练的多个功能神经网络进行训练，包括：

利用待训练的共享神经网络对所述训练文本进行特征提取，得到所述训练文本的训练共享特征；

利用所述N个功能神经网络对所述训练共享特征分别进行处理，得到所述N个功能神经网络分别输出的M组第一中间结果，其中，所述M组第一中间结果包括所述第一功能神经网络输出的第一中间结果、所述第二功能神经网络输出的第一中间结果、所述意图识别子网络输出的第一中间结果和所述命名实体识别子网络输出的第一中间结果。

14.根据权利要求13所述的自然语言处理方法，其中，所述基于所述训练文本，对所述待训练的多个功能神经网络进行训练，还包括：

基于所述训练文本和所述M组第一中间结果计算所述N个功能神经网络对应的M个中间损失值，其中，所述M个中间损失值包括所述第一功能神经网络对应的中间损失值、所述第二功能神经网络对应的中间损失值、所述意图识别子网络对应的中间损失值和所述命名实体识别子网络对应的中间损失值；

计算所述M个中间损失值的加权和作为所述损失值；

在所述损失值未满足预定收敛条件时，基于所述损失值更新所述待训练的所述共享神经网络和所述N个功能神经网络的参数。

15.根据权利要求13所述的自然语言处理方法，其中，所述基于所述训练文本，对所述待训练的多个功能神经网络进行训练，还包括：

获取测试文本；

利用训练后的所述共享神经网络和训练后的所述N个功能神经网络对所述测试文本进行处理，得到M组第二中间结果；

基于所述M组第二中间结果和所述测试文本，确定分别对应于所述训练后的N个功能神经网络的M个输出准确度，其中，所述M个输出准确度包括所述第一功能神经网络的输出准确度、所述第二功能神经网络的输出准确度、所述意图识别子网络的输出准确度和所述命名实体识别子网络的输出准确度；

基于所述M个输出准确度调整所述M个中间损失值分别对应的M个权重；

根据调整后的所述M个权重继续对所述待训练的多个功能神经网络进行训练。

16.根据权利要求15所述的自然语言处理方法，其中，所述基于所述M个输出准确度调整所述M个中间损失值分别对应的M个权重，包括：

确定所述M个输出准确度中的最大输出准确度对应的权重作为第一权重；

保持所述第一权重不变，增大所述M个权重中除所述第一权重以外的其他M-1个权重。

17.根据权利要求16所述的自然语言处理方法，其中，所述增大所述M个权重中除所述第一权重以外的其他M-1个权重，包括：

根据所述M-1个权重对应的M-1个输出准确度的大小关系，确定所述M-1个权重的M-1个放大因子，其中，对于所述M-1个输出准确度中的任一个输出准确度，响应于所述任一个输出准确度越大，所述任一个输出准确度对应的权重的放大因子越小；

根据所述M-1个权重的放大因子，调整所述M-1个权重。

18.一种自然语言处理装置，包括：

获取模块，配置为获取待进行所述自然语言处理的任务文本，其中，所述任务文本包括多个字符；

提取模块，配置为利用共享神经网络对所述任务文本进行特征提取，得到所述任务文本的共享特征，其中，所述共享特征包含所述多个字符的字符特征以及所述多个字符之间的全局联系；

处理模块，配置为将所述共享特征输入多个功能神经网络，得到所述多个功能神经网络分别输出的多个处理结果，其中，所述多个功能神经网络用于执行多个不同的自然语言处理任务。

19.根据权利要求18所述的自然语言处理装置，其中，所述获取模块还配置为获取训练文本。

20.根据权利要求19所述的自然语言处理装置，还包括训练模块，

所述训练模块配置为，基于所述训练文本，对待训练的多个功能神经网络进行训练，以得到训练好的所述多个功能神经网络，其中，所述多个功能神经网络的数量为N，N为大于1的整数，

其中，在训练所述待训练的N个功能神经网络过程中，所述N个功能神经网络同时训练，且计算所述N个功能神经网络对应的M个中间损失值的加权和作为损失值以更新所述N个功能神经网络的参数，所述M个中间损失值分别对应的M个权重，对所述M个权重根据所述N个功能神经网络的输出准确度进行动态调整，M为大于等于N的整数。

21.一种电子设备，包括：

处理器；

存储器，包括一个或多个计算机程序模块，

其中，所述一个或多个计算机程序模块被存储在所述存储器中并被配置为由所述处理器执行，所述一个或多个计算机程序模块用于实现权利要求1-17任一所述的自然语言处理方法。

22.一种存储介质，用于存储非暂时性计算机可读指令，当所述非暂时性计算机可读指令由计算机执行时可以实现权利要求1-17任一所述的自然语言处理方法。