CN110532562B

CN110532562B - 神经网络训练方法、成语误用检测方法、装置和电子设备

Info

Publication number: CN110532562B
Application number: CN201910821030.1A
Authority: CN
Inventors: 杨双涛
Original assignee: Lenovo Beijing Ltd
Current assignee: Lenovo Beijing Ltd
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2021-07-16
Anticipated expiration: 2039-08-30
Also published as: CN110532562A

Abstract

本公开提供了一种用于训练神经网络的方法，包括：获取多个语句文本；对于所述多个语句文本中的任一语句文本，从所述任一语句文本中提取成语文本，并获取所述成语文本的语义信息，其中由所述任一语句文本和所述语义信息构成一个样本对；为所述一个样本对添加标签，所述标签表征所述语义信息与所述任一语句文本的语境信息之间是否相适配；以及利用与所述多个语句文本对应的多个带有标签的样本对对所述神经网络进行训练，得到用于检测成语误用的目标神经网络。本公开还提供了一种用于训练神经网络的装置、成语误用检测方法及其装置、以及电子设备。

Description

神经网络训练方法、成语误用检测方法、装置和电子设备

技术领域

本公开涉及一种用于训练神经网络的方法及其装置、成语误用检测方法及其装置、以及电子设备。

背景技术

成语是汉语经过漫长历史积累的语言精华，虽然多数仅由四个字构成，但其含义却十分丰富，且部分成语有着特定的情感色彩和使用方式。合理的运用成语可以有效提高文章内涵，为文章增色。但在实际应用中，在日常生活使用、各类刊物、网络平台内，存在较多的成语误用，为企业或个人造成不良影响。

发明内容

本公开的一个方面提供了一种用于训练神经网络的方法，包括：获取多个语句文本。对于所述多个语句文本中的任一语句文本，从该任一语句文本中提取成语文本，并获取该成语文本的语义信息，其中由该任一语句文本和所获取的相应的语义信息构成一个样本对。为每个样本对添加标签，标签用于表征一个样本对中的语义信息与语句文本的语境信息之间是否相适配。然后，利用与多个语句文本对应的多个带有标签的样本对对神经网络进行训练，得到用于检测成语误用的目标神经网络。

可选地，神经网络包括第一编码器、第二编码器和分类器。上述利用与多个语句文本对应的多个带有标签的样本对对神经网络进行训练包括：将一个样本对输入至神经网络，由第一编码器和第二编码器分别对该样本对中的语句文本和语义信息进行编码，得到语句表示向量和语义表示向量，再由分类器基于该语句表示向量和语义表示向量输出分类结果。然后，基于分类结果和该样本对的标签确定损失函数是否实现收敛。如果是，则确定训练完成，得到目标神经网络。如果否，则调整神经网络的参数后重复上述对神经网络进行训练的操作，直至损失函数实现收敛。

可选地，上述由分类器基于语句表示向量和语义表示向量输出分类结果包括：对语句表示向量和语义表示向量进行组合，得到第一特征向量。接着对第一特征向量进行全连接映射，得到关于该样本对中的语义信息与语句文本的语境信息之间是否相适配的分类结果。

本公开的另一方面提供了一种成语误用检测方法，包括：获取输入语句文本。获取基于如上所述的用于训练神经网络的方法训练得到的目标神经网络。从输入语句文本中提取输入成语文本，并获取该输入成语文本的语义信息。然后，利用目标神经网络处理该输入语句文本和该输入成语文本的语义信息，得到表征输入成语文本的语义信息与输入语句文本的语境信息之间是否相适配的检测结果。

可选地，目标神经网络包括第一优化编码器、第二优化编码器和分类器。上述利用目标神经网络处理输入语句文本和输入成语文本的语义信息包括：利用第一优化编码器对输入语句文本进行编码，得到输入语句表示向量。利用第二优化编码器对输入成语文本的语义信息进行编码，得到成语语义表示向量。然后，利用优化分类器基于输入语句表示向量和成语语义表示向量进行分类处理，得到检测结果。

可选地，上述利用优化分类器基于输入语句表示向量和成语语义表示向量进行分类处理包括：对输入语句表示向量和成语语义表示向量进行组合，得到第二特征向量。然后，对第二特征向量进行全连接映射，得到检测结果。

可选地，上述对输入语句表示向量和成语语义表示向量进行组合包括：对输入语句表示向量和成语语义表示向量进行拼接。并且/或者，对输入语句表示向量和成语语义表示向量进行指定运算。

本公开的另一方面提供了一种用于训练神经网络的装置，包括：语句获取模块、样本构建模块、标记模块、以及训练模块。其中，语句获取模块用于获取多个语句文本。样本构建模块用于对于多个语句文本中的任一语句文本，从该任一语句文本中提取成语文本，并获取该成语文本的语义信息，其中由该任一语句文本和该语义信息构成一个样本对。标记模块用于为上述一个样本对添加标签，标签表征一个样本对中的语义信息与语句文本的语境信息之间是否相适配。训练模块用于利用与多个语句文本对应的多个带有标签的样本对对神经网络进行训练，得到用于检测成语误用的目标神经网络。

本公开的另一方面提供了一种成语误用检测装置，包括：输入获取模块、模型获取模块、成语提取模块、以及检测模块。其中，输入获取模块用于获取输入语句文本。模型获取模块用于获取基于如上所述的用于训练神经网络的装置训练得到的目标神经网络。成语提取模块用于从输入语句文本中提取输入成语文本，并获取输入成语文本的语义信息。检测模块用于利用目标神经网络处理输入语句文本和输入成语文本的语义信息，得到表征输入成语文本的语义信息与输入语句文本的语境信息之间是否相适配的检测结果。

本公开的另一方面提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序。处理器执行所述程序时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机可读存储介质，存储有计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序，所述计算机程序包括计算机可执行指令，所述指令在被执行时用于实现如上所述的方法。

附图说明

为了更完整地理解本公开及其优势，现在将参考结合附图的以下描述，其中：

图1示意性示出了根据本公开实施例的用于训练神经网络的方法及其装置、成语误用检测方法及其装置、以及电子设备的应用场景；

图2示意性示出了根据本公开实施例的用于训练神经网络的方法的流程图；

图3A示意性示出了根据本公开实施例的神经网络的结构示意图；

图3B示意性示出了根据本公开实施例的利用样本对对神经网络进行训练的过程的流程图；

图4示意性示出了根据本公开实施例的成语误用检测方法的流程图；

图5A示意性示出了根据本公开实施例的目标神经网络的结构示意图；

图5B示意性示出了根据本公开实施例的利用目标神经网络进行检测的过程的流程图；

图6示意性示出了根据本公开实施例的用于训练神经网络的装置的框图；

图7示意性示出了根据本公开实施例的成语误用检测装置的框图；以及

图8示意性示出了根据本公开实施例的电子设备的框图。

具体实施方式

以下，将参照附图来描述本公开的实施例。但是应该理解，这些描述只是示例性的，而并非要限制本公开的范围。在下面的详细描述中，为便于解释，阐述了许多具体的细节以提供对本公开实施例的全面理解。然而，明显地，一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如，“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。

附图中示出了一些方框图和/或流程图。应理解，方框图和/或流程图中的一些方框或其组合可以由计算机程序指令来实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，从而这些指令在由该处理器执行时可以创建用于实现这些方框图和/或流程图中所说明的功能/操作的装置。本公开的技术可以硬件和/或软件(包括固件、微代码等)的形式来实现。另外，本公开的技术可以采取存储有指令的计算机可读存储介质上的计算机程序产品的形式，该计算机程序产品可供指令执行系统使用或者结合指令执行系统使用。

本公开的实施例提供了一种用于训练神经网络的方法及其装置、成语误用检测方法及其装置、以及电子设备。其中，用于训练神经网络的方法可以包括语句获取过程、样本构建过程、标记过程、以及训练过程。首先在语句获取过程，获取多个语句文本以用于构建训练样本。然后进行样本构建过程，对于所获取的每个语句文本，从该语句文本中提取成语文本，并获取该成语文本的语义信息，然后由该语句文本和所获取的语义信息构成一个样本对。经过上述样本构建过程，多个语句文本可以构建得到多个样本对。接着进行标记过程，为每个样本对添加标签。其中，标签表征样本对中的语义信息与语句文本的语境信息之间是否相适配。最后进行训练过程，利用与多个语句文本对应的多个带有标签的样本对对神经网络进行训练，得到用于检测成语误用的目标神经网络。

图1示意性示出了根据本公开实施例的用于训练神经网络的方法及其装置、成语误用检测方法及其装置、以及电子设备的应用场景。需要注意的是，图1所示仅为可以应用本公开实施例的场景的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，展示了用户通过终端设备101中的即时通信应用与其他用户进行即时通信聊天的场景。当用户输入语句文本“他的基本功很好，一定会不孚众望的”时，基于本公开实施例的技术方案可以检测出该语句文本中的成语“不孚众望”为误用，“不孚众望”的正确语义信息为：“不能使大家信服”，不能放在褒义的语境信息中。在检测到成语误用时，可以对用户进行成语误用提示。例如，可以展示一些提示标记以及提示信息，或者，也可以对该误用的成语进行替换，如将上述语句文本中的“不孚众望”更改为“不负众望”，等等。

在进行上述成语误用检测时，终端设备101可以将待检测的语句文本发送至相应的服务器或服务器集群进行检测并接收服务器返回的检测结果。或者，在终端设备101具有足够计算能力的前提下，终端设备101自身也可以进行上述成语误用检测，直接得到相应的检测结果。

本例中，终端设备101为智能手机，在其他例子中，终端设备101可以是具有输入输出功能的各种类型的电子设备，包括但不限于智能手机、平板电脑、智能手表、膝上型便携计算机和台式计算机等等。

需要说明的是，根据本公开实施例的用于训练神经网络的方法可以应用于终端设备中，相应地，根据本公开实施例的用于训练神经网络的装置可以配置于终端设备中。或者，根据本公开实施例的用于训练神经网络的方法可以应用于与终端设备连接的服务器或服务器集群中，相应地，根据本公开实施例的用于训练神经网络的装置可以配置于与终端设备连接的服务器或服务器集群中。根据本公开实施例的成语误用检测方法可以应用于终端设备中，相应地，根据本公开实施例的成语误用检测装置可以配置于终端设备中。或者，根据本公开实施例的成语误用检测方法可以应用于与终端设备连接的服务器或服务器集群中，相应地，根据本公开实施例的成语误用检测装置可以配置于与终端设备连接的服务器或服务器集群中。

图2示意性示出了根据本公开实施例的用于训练神经网络的方法的流程图。

如图2所示，该方法可以包括操作S210～S240。

在操作S210，获取多个语句文本。

其中，语句文本是指由多个词构成的完整或部分的句子或段落等的文本形式，可以通过一种或多种方式获取多个语句文本。例如，收集用户历史输入的语句文本，利用爬虫从网页中爬取语句文本，对已有的文章进行切分处理，获取其中的一个或多个语句文本，等等，在此不做限制。本操作S210所获取的多个语句文本后续用于构建训练样本。

然后，在操作S220，对于多个语句文本中的任一语句文本，从任一语句文本中提取成语文本，并获取所述成语文本的语义信息，由所述任一语句文本和所述语义信息构成一个样本对。

其中，从语句文本中提取成语文本可以采用抽取方式或检索方式。示例性地，对于任一语句文本，可以先对该语句文本进行分词处理，得到多个分词结果，然后对多个分词结果进行关于成语特征规则的匹配，以确定该语句文本中所包含的成语文本。如果语句文本中不包含成语文本，则可将该语句文本丢弃，保留包含成语文本的语句文本。成语文本的语义信息可以通过查询成语知识库获得。例如，从语句文本“这部作品一问世便洛阳纸贵”中提取出成语文本“洛阳纸贵”。接着查询该成语文本“洛阳纸贵”的语义信息为：“比喻作品为世所重，风行一时，流传甚广”。在本例中，可以将语句文本“这部作品一问世便洛阳纸贵”映射为数学表示A，将语义信息“比喻作品为世所重，风行一时，流传甚广”映射为数学表示B。由数学表示A与数学表示B可以构成一个样本对(A，B)。对于一个样本对(A，B)，A用于表征成语所在的语境，B用于表征成语的正确含义。经过本操作S220，可以得到与多个语句文本一一对应的多个样本对。

接着，在操作S230，为所构建的样本对添加标签。

其中，标签用于表征样本对中的语义信息与语句文本的语境信息之间是否相适配。例如，当一个样本对中的语义信息与语句文本的语境信息不相适配时，可以为该样本对添加标签“1”，当一个样本对中的语义信息与语句文本的语境信息相适配时，可以为该样本对添加标签“0”。以上文构建得到的样本对(A，B)为例，由于A表示“这部作品一问世便洛阳纸贵”，B表示“比喻作品为世所重，风行一时，流传甚广”，可以确定，A所表示的语境信息与B相适配。因此可以为该样本对(A，B)添加标签“1”。本操作S230分别为所构建的一个或多个样本对添加标签，用于进行后续的有监督训练过程。

接着，在操作S240，利用与多个语句文本对应的多个带有标签的样本对对神经网络进行训练，得到用于检测成语误用的目标神经网络。

其中，用于进行训练的神经网络可以包括如下至少一种：深度神经网络(DeepNeural Networks，DNN)模型、卷积神经网络(Convolutional Neural Networks，CNN)模型、循环神经网络(Recurrent Neural Networks，RNN)模型等，也可以包括以上各种神经网络的变形或迁移。该神经网络可以包括一个或多个隐藏层。本操作S240利用多个带有标签的样本对对神经网络进行训练，基于神经网络的输出和各样本对的标签不断对神经网络的参数进行优化，直至得到目标神经网络。

本领域技术人员可以理解，图2所示的方法构建多个样本对，每个样本对由语句文本以及该语句文本所包含的成语文本的语义信息构成，并根据每个样本对中语句文本的语境信息与该样本对中的语义信息的适配情况添加标签。再利用带有标签的多个样本对对神经网络进行有监督训练，能够得到目标神经网络，以用于进行成语误用检测。即基于深度学习实现了对于语句文本的成语误用检测，补充了现有技术中的空缺。

图3A示意性示出了根据本公开实施例的神经网络的结构示意图。

如图3A所示，在本公开的一个实施例中，神经网络可以包括第一编码器301、第二编码器302和分类器303。其中，第一编码器301的训练目标是对样本对中的语句文本进行编码，得到语句表示向量，作为语义文本的特征向量。第二编码器302的训练目标是对样本对中的语义信息进行编码，得到语义表示向量，作为语义信息的特征向量。分类器303的训练目标是对包含上述语句表示向量和语义表示向量的输入进行分类，以确认语句表示向量和语义表示向量之间的相关性。第一编码器301内部可以包括一个或多个网络层，第二编码器302内部可以包括一个或多个网络层，分类器303内部可以包括一个或多个网络层。三个部分相互独立，任意两个可以具有相同或不同的内部结构。

在图3A所示的神经网络的结构的基础上，图3B示意性示出了根据本公开实施例的利用样本对对神经网络进行训练的过程的流程图，以示例性地说明上述操作S240利用与多个语句文本对应的多个带有标签的样本对对神经网络进行训练的实施过程。

如图3B所示，该方法可以包括操作S241～S244。

在操作S241，将一个样本对输入至神经网络，由第一编码器和第二编码器分别对该样本对中的语句文本和语义信息进行编码，得到语句表示向量和语义表示向量，再由分类器基于语句表示向量和语义表示向量输出分类结果。

其中，如上文所述，第一编码器的训练目标是获取成语文本的语境信息的向量形式的编码，为后续计算与成语的语义信息之间的相关性提供基础。第二编码器的训练目标是获取成语的语义信息的向量形式的编码，为后续计算与语境信息之间的相关性提供基础。分类器本质为分类函数，其训练目标是分类结果能够分辨语句文本的语境信息与成语文本的语义信息之间的相关性。神经网络的参数包括以上三部分结构的参数，通过对参数的优化，可以使得各部分结构逐渐趋向各自的训练目标。

然后，在操作S242，基于分类结果和所述一个样本对的标签确定神经网络的损失函数是否实现收敛。

其中，损失函数用于计算分类结果与同一样本对的标签之间的损失值，可以采用各种损失计算方式，在此不做限制。当神经网络与自身训练目标相差越远，损失值越大。当损失函数实现收敛时，说明神经网络的参数已优化完成。

在操作S243，如果是，则确定训练完成，得到目标神经网络。

在操作S244，如果否，则调整神经网络的参数后重复上述对神经网络进行训练的操作，直至损失函数实现收敛。

上述过程利用带有标签的样本对对神经网络的参数进行多次迭代优化，直至得到目标神经网络。该目标神经网络中的各部分结构接近于各自的训练目标，第一编码器能够对样本对中的语句文本进行编码，得到语句表示向量。第二编码器302能够对样本对中的语义信息进行编码，得到语义表示向量。分类器303能够对包含上述语句表示向量和语义表示向量的输入进行分类，输出能够表征语句表示向量和语义表示向量之间的相关性的分类结果。

在本公开的一个实施例中，上述由分类器基于语句表示向量和语义表示向量输出分类结果包括：对语句表示向量和语义表示向量进行组合，得到第一特征向量。然后，对第一特征向量进行全连接映射，得到关于所述语义信息与所述任一语句文本的语境信息之间是否相适配的分类结果。

例如，上述对语句表示向量和语义表示向量进行组合，得到第一特征向量的过程可以是：对语句表示向量和语义表示向量进行直接拼接，如将x维的语句表示向量和y维的语义表示向量直接拼接为(x+y)维的第一特征向量，其中x和y均为正整数。或者也可以是通过对语句表示向量和语义表示向量进行指定运算，如将语句表示向量和语义表示向量进行点乘，得到第一特征向量。

根据本公开实施例的用于训练神经网络的方法能够训练得到用于检测成语误用的目标神经网络。在训练得到目标神经网络后，即可进行如下检测过程。

图4示意性示出了根据本公开实施例的成语误用检测方法的流程图。

如图4所示，该方法可以包括操作S410～S440。

在操作S410，获取输入语句文本。

在操作S420，获取目标神经网络。

其中，目标神经网络是基于上文所述的用于训练神经网络的方法训练得到的，训练过程在上文中已详细说明，在此不再赘述。

然后，在操作S430，从输入语句文本中提取输入成语文本，并获取输入成语文本的语义信息。

其中，从输入语句文本中提取输入成语文本并获取相应语义信息的过程与上文描述的从语句文本中提取成语文本并获取相应语义信息的过程类似，提取过程可以采用抽取方式或检索方式，语义信息可以通过查询成语知识库获得。沿用图1所示的例子，基于用户输入获取到输入语句文本Q“他的基本功很好，一定会不孚众望的”，从中提取出输入成语文本I“不孚众望”。接着查询该输入成语文本I“不孚众望”的语义信息I’为：“不能使大家信服”。

接着，在操作S440，利用目标神经网络处理输入语句文本和输入成语文本的语义信息得到表征输入成语文本的语义信息与输入语句文本的语境信息之间是否相适配的检测结果。

例如，沿用上文中输入语句文本Q的例子，利用目标神经网络处理输入语句文本Q“他的基本功很好，一定会不孚众望的”以及语义信息I’“不能使大家信服”的数学表示，得到表征语义信息I’与输入语句文本Q的语境信息之间是否相适配的检测结果。假设表征相适配的检测结果为“1”，表征不相适配的检测结果为“0”，本例中，输出的检测结果为“0”，表示存在成语误用。

本领域技术人员可以理解，图4所示的方法利用上文训练得到的目标神经网络对输入语句文本以及输入语句文本中的输入成语文本的语义信息进行处理。由于输入语句文本能够反映成语所在的语境，而语义信息能够反映成语的正确含义，目标神经网络也是基于这两方面的信息训练得到的，因此最终训练得到的目标神经网络通过计算能够得出正确的检测结果，实现了深度学习在成语误用检测中的应用。在确定输入语句文本中所使用的成语不合适时，可以给用户以提示或帮助用户进行修改，避免因成语误用给个人或企业带来的不良影响。

图5A示意性示出了根据本公开实施例的目标神经网络的结构示意图。

如图5A所示，在本公开的一个实施例中，目标神经网络可以包括第一优化编码器501、第二优化编码器502和优化分类器503。其中，第一优化编码器501是上文中图3A所示的第一编码器301在训练结束后得到的最终优化结果，第二优化编码器502是上文中图3A所示的第二编码器302在训练结束后得到的最终优化结果，优化分类器503是上文中图3A所示的分类器303在训练结束后得到的最终优化结果。

第一优化编码器501用于对输入语句文本进行编码，得到用户使用成语的语境信息的向量表示，为后续计算与成语解释之间的相关性提供基础。第二优化编码器502用于对输入成语文本的语义信息进行编码，得到成语解释的向量表示，为后续计算与语境信息之间的相关性提供基础。优化分类器503用于计算语境信息与成语解释之间的相关性，输出相应的检测结果。

在图5A所示的目标神经网络的结构的基础上，图5B示意性示出了根据本公开实施例的利用目标神经网络进行检测的过程的流程图，以示例性地说明上述操作S440利用目标神经网络处理输入语句文本和输入成语文本的语义信息得到检测结果的实施过程。

如图5B所示，该方法可以包括操作S441～S443。

在操作S441，利用第一优化编码器对输入语句文本进行编码，得到输入语句表示向量。

在操作S442，利用第二优化编码器对输入成语文本的语义信息进行编码，得到成语语义表示向量。

在操作S443，利用优化分类器基于输入语句表示向量和成语语义表示向量进行分类处理，得到检测结果。

例如，沿用上文中输入语句文本Q的例子，利用目标神经网络中的第一优化编码器对输入语句文本Q“他的基本功很好，一定会不孚众望的”进行编码，得到输入语句表示向量Q_E。利用目标神经网络中的第二优化编码器对语义信息I’“不能使大家信服”进行编码，得到成语语义表示向量I_E。利用目标神经网络中的优化分类器对输入语句表示向量Q_E和成语语义表示向量I_E进行分类处理，得到表征二者是否适配的检测结果。

示例性地，上述利用优化分类器基于输入语句表示向量和成语语义表示向量进行分类处理包括：先对输入语句表示向量和成语语义表示向量进行组合，得到第二特征向量。然后对第二特征向量进行全连接映射，得到检测结果。

例如，上述对输入语句表示向量和成语语义表示向量进行组合，得到第二特征向量的过程可以是：对输入语句表示向量和成语语义表示向量进行拼接。如将x维的输入语句表示向量和y维的成语语义表示向量直接拼接为(x+y)维的第二特征向量，其中x和y均为正整数。或者也可以是对输入语句表示向量和成语语义表示向量进行指定运算。如将输入语句表示向量和成语语义表示向量进行点乘，得到第二特征向量。

进一步地，根据本公开的实施例，目标神经网络可以通过成语误用检测中的输入语句文本的不断积累，不断进行学习优化。从而逐渐提高上述成语误用检测的精确性。

应注意，以上各方法中各个步骤的序号仅作为该步骤的表示以便描述，而不应被看作表示该各个步骤的执行顺序。除非明确指出，否则该方法不需要完全按照所示顺序来执行。

图6示意性示出了根据本公开实施例的用于训练神经网络的装置的框图。

如图6所示，用于训练神经网络的装置600包括：语句获取模块610、样本构建模块620、标记模块630、以及训练模块640。

语句获取模块610用于获取多个语句文本。

样本构建模块620用于对于多个语句文本中的任一语句文本，从该任一语句文本中提取成语文本，并获取该成语文本的语义信息，其中由该任一语句文本和该语义信息构成一个样本对。

标记模块630用于为上述一个样本对添加标签，标签表征一个样本对中的语义信息与语句文本的语境信息之间是否相适配。

训练模块640用于利用与多个语句文本对应的多个带有标签的样本对对神经网络进行训练，得到用于检测成语误用的目标神经网络。

图7示意性示出了根据本公开实施例的成语误用检测装置的框图。

如图7所示，成语误用检测装置700包括：输入获取模块710、模型获取模块720、成语提取模块730、以及检测模块740。

输入获取模块710用于获取输入语句文本。

模型获取模块720用于获取基于如上所述的用于训练神经网络的装置训练得到的目标神经网络。

成语提取模块730用于从输入语句文本中提取输入成语文本，并获取输入成语文本的语义信息。

检测模块740用于利用目标神经网络处理输入语句文本和输入成语文本的语义信息，得到表征输入成语文本的语义信息与输入语句文本的语境信息之间是否相适配的检测结果。

需要说明的是，装置部分实施例中各模块/单元/子单元等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似，在此不再赘述。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

例如，语句获取模610、样本构建模块620、标记模块630、以及训练模块640中的任意多个可以合并在一个模块中实现，或者其中的任意一个模块可以被拆分成多个模块。或者，这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合，并在一个模块中实现。根据本公开的实施例，语句获取模610、样本构建模块620、标记模块630、以及训练模块640中的至少一个可以至少被部分地实现为硬件电路，例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC)，或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现，或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者，语句获取模610、样本构建模块620、标记模块630、以及训练模块640中的至少一个可以至少被部分地实现为计算机程序模块，当该计算机程序模块被运行时，可以执行相应的功能。

图8示意性示出了根据本公开的实施例的适于实现上文描述的方法的电子设备的框图。图8示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，电子设备800包括处理器810和计算机可读存储介质820。该电子设备800可以执行根据本公开实施例的方法。

具体地，处理器810例如可以包括通用微处理器、指令集处理器和/或相关芯片组和/或专用微处理器(例如，专用集成电路(ASIC))，等等。处理器810还可以包括用于缓存用途的板载存储器。处理器810可以是用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

计算机可读存储介质820，例如可以是非易失性的计算机可读存储介质，具体示例包括但不限于：磁存储装置，如磁带或硬盘(HDD)；光存储装置，如光盘(CD-ROM)；存储器，如随机存取存储器(RAM)或闪存；等等。

计算机可读存储介质820可以包括计算机程序821，该计算机程序821可以包括代码/计算机可执行指令，其在由处理器810执行时使得处理器810执行根据本公开实施例的方法或其任何变形。

计算机程序821可被配置为具有例如包括计算机程序模块的计算机程序代码。例如，在示例实施例中，计算机程序821中的代码可以包括一个或多个程序模块，例如包括821A、模块821B、……。应当注意，模块的划分方式和个数并不是固定的，本领域技术人员可以根据实际情况使用合适的程序模块或程序模块组合，当这些程序模块组合被处理器810执行时，使得处理器810可以执行根据本公开实施例的方法或其任何变形。

根据本发明的实施例，语句获取模610、样本构建模块620、标记模块630、以及训练模块640中的至少一个可以实现为参考图8描述的计算机程序模块，其在被处理器810执行时，可以实现上文所述的用于训练神经网络的方法。

根据本发明的实施例，输入获取模块710、模型获取模块720、成语提取模块730、以及检测模块740中的至少一个可以实现为参考图8描述的计算机程序模块，其在被处理器810执行时，可以实现上文所述的成语误用检测方法。

本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的；也可以是单独存在，而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被执行时，实现根据本公开实施例的方法。

根据本公开的实施例，计算机可读存储介质可以是非易失性的计算机可读存储介质，例如可以包括但不限于：便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

本领域技术人员可以理解，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合，即使这样的组合或结合没有明确记载于本公开中。特别地，在不脱离本公开精神和教导的情况下，本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。

尽管已经参照本公开的特定示例性实施例示出并描述了本公开，但是本领域技术人员应该理解，在不背离所附权利要求及其等同物限定的本公开的精神和范围的情况下，可以对本公开进行形式和细节上的多种改变。因此，本公开的范围不应该限于上述实施例，而是应该不仅由所附权利要求来进行确定，还由所附权利要求的等同物来进行限定。

Claims

1.一种用于训练神经网络的方法，包括：

获取多个语句文本；

对于所述多个语句文本中的任一语句文本，从所述任一语句文本中提取成语文本，并获取所述成语文本的语义信息，其中由所述任一语句文本和所述语义信息构成一个样本对；

为所述一个样本对添加标签，所述标签表征所述语义信息与所述任一语句文本的语境信息之间是否相适配；以及

利用与所述多个语句文本对应的多个带有标签的样本对对所述神经网络进行训练，得到用于检测成语误用的目标神经网络。

2.根据权利要求1所述的方法，其中，所述神经网络包括第一编码器、第二编码器和分类器；

所述利用与所述多个语句文本对应的多个带有标签的样本对对所述神经网络进行训练包括：

将所述一个样本对输入至所述神经网络，由所述第一编码器和所述第二编码器分别对所述任一语句文本和所述语义信息进行编码，得到语句表示向量和语义表示向量，再由所述分类器基于所述语句表示向量和语义表示向量输出分类结果；

基于所述分类结果和所述一个样本对的标签确定损失函数是否实现收敛；

如果是，则确定训练完成，得到所述目标神经网络；以及

如果否，则调整所述神经网络的参数后重复上述对所述神经网络进行训练的操作，直至所述损失函数实现收敛。

3.根据权利要求2所述的方法，其中，所述由所述分类器基于所述语句表示向量和语义表示向量输出分类结果包括：

对所述语句表示向量和所述语义表示向量进行组合，得到第一特征向量；以及

对所述第一特征向量进行全连接映射，得到关于所述语义信息与所述任一语句文本的语境信息之间是否相适配的分类结果。

4.一种成语误用检测方法，包括：

获取输入语句文本；

获取基于如权利要求1～3所述的方法训练得到的目标神经网络；

从所述输入语句文本中提取输入成语文本，并获取所述输入成语文本的语义信息；以及

利用所述目标神经网络处理所述输入语句文本和所述输入成语文本的语义信息，得到表征所述输入成语文本的语义信息与所述输入语句文本的语境信息之间是否相适配的检测结果。

5.根据权利要求4所述的方法，其中，所述目标神经网络包括第一优化编码器、第二优化编码器和优化分类器；

所述利用所述目标神经网络处理所述输入语句文本和所述输入成语文本的语义信息包括：

利用所述第一优化编码器对所述输入语句文本进行编码，得到输入语句表示向量；

利用所述第二优化编码器对所述输入成语文本的语义信息进行编码，得到成语语义表示向量；以及

利用所述优化分类器基于所述输入语句表示向量和所述成语语义表示向量进行分类处理，得到所述检测结果。

6.根据权利要求5所述的方法，其中，所述利用所述优化分类器基于所述输入语句表示向量和所述成语语义表示向量进行分类处理包括：

对所述输入语句表示向量和所述成语语义表示向量进行组合，得到第二特征向量；以及

对所述第二特征向量进行全连接映射，得到所述检测结果。

7.根据权利要求6所述的方法，其中，所述对所述输入语句表示向量和所述成语语义表示向量进行组合包括：

对所述输入语句表示向量和所述成语语义表示向量进行拼接；并且/或者

对所述输入语句表示向量和所述成语语义表示向量进行指定运算。

8.一种用于训练神经网络的装置，包括：

语句获取模块，用于获取多个语句文本；

样本构建模块，用于对于所述多个语句文本中的任一语句文本，从所述任一语句文本中提取成语文本，并获取所述成语文本的语义信息，其中由所述任一语句文本和所述语义信息构成一个样本对；

标记模块，用于为所述一个样本对添加标签，所述标签表征所述语义信息与所述任一语句文本的语境信息之间是否相适配；以及

训练模块，用于利用与所述多个语句文本对应的多个带有标签的样本对对所述神经网络进行训练，得到用于检测成语误用的目标神经网络。

9.一种成语误用检测装置，包括：

输入获取模块，用于获取输入语句文本；

模型获取模块，用于获取基于如权利要求8所述的装置训练得到的目标神经网络；

成语提取模块，用于从所述输入语句文本中提取输入成语文本，并获取所述输入成语文本的语义信息；以及

检测模块，用于利用所述目标神经网络处理所述输入语句文本和所述输入成语文本的语义信息，得到表征所述输入成语文本的语义信息与所述输入语句文本的语境信息之间是否相适配的检测结果。

10.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序；

所述处理器执行所述程序时用于实现：

获取多个语句文本；

利用与所述多个语句文本对应的多个带有标签的样本对对神经网络进行训练，得到用于检测成语误用的目标神经网络；并且/或者

所述处理器执行所述程序时用于实现：

获取输入语句文本；

获取所述目标神经网络；