CN110096588A

CN110096588A - 跨语言文本分类

Info

Publication number: CN110096588A
Application number: CN201910082027.2A
Authority: CN
Inventors: S·B·特亚马贡德鲁·纳加布尚
Original assignee: Accenture Global Solutions Ltd
Current assignee: Accenture Global Solutions Ltd
Priority date: 2018-01-30
Filing date: 2019-01-28
Publication date: 2019-08-06
Also published as: US20190236135A1; EP3518142A1

Abstract

本公开的实施例涉及跨语言文本分类。设备可以被配置为从文档获得文本。设备可以执行嵌入以获得指示与文本中所包括的字符相关联的概率的数据结构，并且将第一卷积应用于数据结构以获得文本中所包括的字符的不同表示。另外，设备可以将并行卷积应用于不同表示以获得字符表示的多个集合，对字符表示的多个集合进行子采样，并且将经子采样后的字符表示的多个集合池化到合并数据结构中。设备可以向卷积神经网络的全连接层提供合并数据结构以产生表示文本的特征的数据；并且向卷积神经网络的推理层提供表示文本的特征的数据，推理层提供指示针对文本的分类的数据。

Description

跨语言文本分类

技术领域

本公开的实施例涉及文本分类的领域，并且更具体地涉及跨语言文本分类。

背景技术

文本分类(也被称为文档分类)是将一个或多个分类、标签或类别指派给文档或文本的其它主体的方法。可以以各种方式(例如，根据主题、意图、类型和/或其它属性)并且出于各种原因(例如，为了组织文本、对文本进行排序、搜索文本等)来对文本进行分类。

发明内容

根据一些实施方式，设备可以包括：一个或多个存储器设备；以及一个或多个处理器，该一个或多个处理器被通信地连接至一个或多个存储器设备，以：从文档获得文本；执行嵌入以获得指示与文本中所包括的字符相关联的概率的数据结构；将第一卷积应用于数据结构以获得文本中所包括的字符的不同表示；将并行卷积应用于不同表示以获得字符表示的多个集合；对字符表示的多个集合进行子采样；将子采样后的字符表示的多个集合池化到合并数据结构中；将合并数据结构提供给卷积神经网络的全连接层以产生表示文本的特征的数据；以及将表示文本的特征的数据提供给卷积神经网络的推理层，该推理层提供指示针对文本的分类的数据。

根据一些实施方式，方法可以包括：通过设备，从训练文档获得文本；通过设备，获得指示与训练文档相关联的输入分类的数据；通过设备，执行嵌入以获得指示与文本中所包括的字符相关联的概率的字符向量；通过设备，将层叠卷积应用于字符向量以获得文本中所包括的字符的不同表示；通过设备，将并行卷积应用于不同表示以获得字符表示的多个集合；通过设备，对字符表示的多个集合进行子采样；通过设备，池化子采样后的字符表示的多个集合以获得与文本相关联的合并特征向量；通过设备，将合并向量提供给卷积神经网络的全连接层以产生表示文本的特征的数据；通过设备，将表示文本的特征的数据提供给卷积神经网络的推理层，该推理层提供指示针对文本的一个或多个分类的数据；以及通过设备，使用随机梯度下降、指示输入分类的数据和指示一个或多个分类的数据通过反向传播来训练卷积神经网络。

根据一些实施方式，非瞬态计算机可读介质可以存储指令，该指令包括：一个或多个指令，该一个或多个指令在由一个或多个处理器执行时使一个或多个处理器：从第一文档获得第一文本；执行嵌入以获得指示与第一文本中所包括的字符相关联的概率的字符向量；将第一卷积应用于字符向量以获得第一文本中所包括的字符的不同表示；将并行卷积应用于不同表示以获得字符表示的多个集合，并行卷积中所包括的卷积的每个性能不同于并行卷积中所包括的卷积的其它性能；对字符表示的多个集合进行子采样；池化字符表示的多个集合以获得合并数据结构；将合并数据结构提供给卷积神经网络的多个全连接层以产生表示第一文本的特征的数据；以及将表示第一文本的特征的数据提供给卷积神经网络的推理层，该推理层提供指示第一文档的第一分类的数据。

在一些实施例中，一种设备，包括：一个或多个存储器设备；以及一个或多个处理器，一个或多个处理器被通信地连接至一个或多个存储器设备，以：从文档获得文本；执行嵌入，以获得指示与文本中所包括的字符相关联的概率的数据结构；将第一卷积应用于数据结构，以获得文本中所包括的字符的不同表示；将并行卷积应用于不同表示，以获得字符表示的多个集合；对字符表示的多个集合进行子采样；将经子采样后的字符表示的多个集合池化到合并数据结构中；向卷积神经网络的全连接层提供合并数据结构，以产生表示文本的特征的数据；以及向卷积神经网络的推理层提供表示文本的特征的数据，推理层提供指示针对文本的分类的数据。

在一些实施例中，一个或多个处理器进一步用于：使用随机梯度下降和指示针对文本的分类的数据来执行反向传播。

在一些实施例中，一个或多个处理器进一步用于：在执行嵌入之前使用独热编码对文本进行编码。

在一些实施例中，数据结构包括至少一个字符向量。

在一些实施例中，一个或多个处理器在对字符表示的多个集合进行子采样以获得合并数据结构时进一步用于：将字符表示的多个集合并置成并置向量；以及对并置向量执行最大超时池化。

在一些实施例中，全连接层使用修正线性单元激活。

在一些实施例中，第一卷积包括第一卷积神经网络阶段和第二卷积神经网络阶段，第二卷积神经网络阶段在第一卷积神经网络阶段之后。

在一些实施例中，第一卷积神经网络阶段被应用于一组数据结构。

在一些实施例中，第一卷积神经网络阶段被应用于一组七个数据结构。

在一些实施例中，并行卷积包括：第一卷积神经网络阶段，第二卷积神经网络阶段，以及第三卷积神经网络阶段，第一卷积神经网络阶段和第二卷积神经网络阶段和第三卷积神经网络阶段并行。

在一些实施例中，第一卷积神经网络阶段被应用于一组四个数据结构。

在一些实施例中，第二卷积神经网络阶段被应用于一组五个数据结构。

在一些实施例中，第三卷积神经网络阶段被应用于一组六个数据结构。

在一些实施例中，一种方法，包括：由设备从训练文档获得文本；由设备获得指示与训练文档相关联的输入分类的数据；由设备执行嵌入，以获得指示与文本中所包括的字符相关联的概率的字符向量；由设备将层叠卷积应用于字符向量，以获得文本中所包括的字符的不同表示；由设备将并行卷积应用于不同表示，以获得字符表示的多个集合；由设备对字符表示的多个集合进行子采样；由设备池化经子采样后的字符表示的多个集合，以获得与文本相关联的合并特征向量；由设备向卷积神经网络的全连接层提供合并向量，以产生表示文本的特征的数据；由设备向卷积神经网络的推理层提供表示文本的特征的数据，推理层提供指示针对文本的一个或多个分类的数据；以及由设备使用随机梯度下降、指示输入分类的数据和指示一个或多个分类的数据通过反向传播来训练卷积神经网络。

在一些实施例中，将层叠卷积应用于字符向量以获得文本中所包括的字符的不同表示包括：针对层叠卷积的每个卷积层，使用字符的滑动窗口来产生文本中所包括的字符的多个不同表示。

在一些实施例中，将并行卷积应用于不同表示以获得字符表示的多个集合包括：使用X的滑动窗口来执行卷积，其中X是整数；使用X+1的滑动窗口来执行卷积；以及使用X+2的滑动窗口来执行卷积。

在一些实施例中，方法进一步包括：使用多个训练文档作为输入来训练卷积神经网络，多个训练文档包括具有第一自然语言的文本的第一文档和具有第二自然语言的文本的第二文档，第二自然语言不同于第一自然语言。

在一些实施例中，一种存储指令的非瞬态计算机可读介质，指令包括：一个或多个指令，一个或多个指令在由一个或多个处理器执行时使一个或多个处理器：从第一文档获得第一文本；执行嵌入，以获得指示与第一文本中所包括的字符相关联的概率的字符向量；将第一卷积应用于字符向量，以获得第一文本中所包括的字符的不同表示；将并行卷积应用于不同表示，以获得字符表示的多个集合；并行卷积中所包括的卷积的每个性能不同于并行卷积中所包括的卷积的其它性能；对字符表示的多个集合进行子采样；池化字符表示的多个集合以获得合并数据结构；向卷积神经网络的多个全连接层提供合并数据结构，以产生表示第一文本的特征的数据；以及向卷积神经网络的推理层提供表示第一文本的特征的数据，推理层提供指示针对第一文档的第一分类的数据。

在一些实施例中，一个或多个指令在由一个或多个处理器执行时进一步使一个或多个处理器：从第二文档获得第二文本，第二文本与第二自然语言相关联，第二自然语言不同于与第一文档相关联的第一自然语言；执行嵌入，以获得指示与第二文本中所包括的字符相关联的概率的第二字符向量；将第一卷积应用于第二字符向量，以获得第二文本中所包括的字符的不同表示；将并行卷积应用于不同表示，以获得第二字符表示的多个集合，对第二字符表示的多个集合进行子采样；池化第二字符表示的多个集合，以获得第二合并数据结构；向卷积神经网络的多个全连接层提供第二合并数据结构，以产生表示第二文本的特征的数据；以及向推理层提供表示第二文本的特征的数据，推理层提供指示针对第二文档的第二分类的数据。

在一些实施例中，全连接层各自包括用于随机地丢弃表示第一文本的特征的数据的部分的丢弃操作。

附图说明

图1A和1B是本文所描述的示例实施方式的概述的示意图；

图2是本文所描述的系统和/或方法可以被实施的示例环境的示意图；

图3是图2的一个或多个设备的示例部件的示意图；

图4是用于跨语言文本分类的示例过程的流程图；以及

图5是与图4所示的示例过程相关的示例实施方式的示意图。

具体实施方式

示例实施方式的以下详细描述参照附图。不同附图中的相同附图标记可以标识相同或类似的元件。

各种不同的文本分类技术可能能够以各种方式对文本进行分类。示例文本分类技术可以包括和/或以其它方式利用各种机器学习技术，诸如，朴素贝叶斯分类、潜在语义索引、支持向量机(SVM)、K最近邻、人工神经网络等。取决于各种因素，包括文本的类型、文本量、文本的差异、分类的类型和/或其它因素，一些文本分类技术的性能优于其它技术(例如，在不同情况下)。例如，通常涉及文本的复杂语义分析的根据意图或主题对文本进行分类可能对于一些技术来说较困难，尤其是在文本的类型和文本量较复杂的情况下，诸如，跨语言文本(多种语言的文本)。

本文所描述的一些实施方式可以提供文本分类平台，该文本分类平台使用卷积神经网络来以被设计为对于文本的自然语言不可知的方式对文本进行分类。例如，文本分类平台可以接收文档作为输入，将文档的字符作为输入提供给输入层，使用嵌入层来使用数据结构(例如，字符向量)提供每个文档的表示，将一个或多个层叠卷积层应用于数据结构，将具有不同滤波器大小的并行卷积层应用于层叠卷积层的输出，针对每个并行卷积层执行最大超时池化，合并并行卷积层的输出，将合并输出提供给一个或多个全连接层以计算与分类相关联的概率，并且将计算得到的概率提供给推理层以选择针对文档的一个或多个分类。另外，文本分类平台可以利用反向传播技术来以被设计为提高卷积神经网络的准确性的方式训练卷积神经网络。

以这种方式，文本分类平台可以将文本分类成一个或多个分类(例如，类、类别、标签等)。所分类的文本可以以各种方式变化，包括通过自然语言，并且文本分类平台不需要针对不同语言训练或者以其它方式利用单独的模型或者人工神经网络。由文本分类平台执行的文本分类可以提高文本分类的效率，例如，通过使用比其它文本分类技术更少的计算资源(诸如，处理资源、存储器资源等)来执行文本分类。另外，在一些实施方式中，文本分类平台可以实现来自数百、数千、数百万等的源的数百、数千、数百万等的文档的分类。相应地，文本分类平台可以对不能够由人类行动者客观地处理的数据项目进行操作。

图1A和图1B是本文所描述的示例实施方式的概述的示意图。如图1A所示，示例实施方式100包括文本分类平台。在一些实施方式中，文本分类平台可以包括云计算平台、一个或多个服务器设备等。文本分类平台可以与希望出于各种目的(例如，针对用户情绪对微博帖子进行分类、出于预期目的对电子邮件进行分类、针对主题对学术文章进行分类等)对文档进行分类的实体相关联。

如在图1A中并且通过附图标记110示出的，文本分类平台接收训练文档。训练文档可以是各种语言的并且与各种分类相关联。通过示例，训练文档可以是以各种语言书写的电子邮件消息并且出于各种目的被发送。例如，一个电子邮件可以包括以英语书写并且属于第一分类的训练文本1；另一电子邮件可以包括以西班牙语书写并且也属于第一分类的训练文本2；第三电子邮件可以包括以德语书写并且属于第二分类的训练文本3；并且示例第N个电子邮件可以包括以英语书写并且属于第二分类的训练文本N。训练文本(例如，在该示例中，被包括在电子邮件文档中)可以来自各种源，包括客户端设备、服务器设备等。

如在图1A中并且通过附图标记120进一步示出的，文本分类平台训练卷积神经网络以执行跨语言文本分类。上面概述了训练卷积神经网络的过程并且在下面进一步详细描述。在示例实施方式100中，使用监督式机器学习(例如，使用先前提供的为训练文档所提供的分类)来训练卷积神经网络，尽管机器学习技术的具体细节可以变化(例如，不同标签等)。

如图1B所示，示例实施方式150包括文本分类平台(例如，以与上面参照示例实施方式100所示出和描述的类似方式训练的)。如通过附图标记160示出的，文本分类平台接收输入文档(例如，包括输入文本1、2、3…M)。输入文本可以是任何语言的，例如，如通过西班牙语的输入文本1、英语的输入文本2和3以及德语的输入文本M所指示的。另外，可以从任何数目的源提供输入文档。

如在图1B中并且通过附图标记170进一步示出的，文本分类平台应用为跨语言文本分类所训练的卷积神经网络，诸如，在示例实施方式100中所训练的卷积神经网络。可以以与训练卷积神经网络类似的方式来执行卷积神经网络的应用，例如，如上面所概述的和下面进一步详细描述的。

如在图1B中并且通过附图标记180进一步示出的，文本分类平台针对每个输入文档产生分类(例如，类别、标签等)作为来自卷积神经网络的应用的输出。在示例实施方式150中，输入文本1已经被分类为属于类别2，输入文本2已经被分类为属于类别2，输入文本3已经被分类为属于类别1，并且输入文本M已经被分类为属于类别2。这些分类可以以各种方式与输入文档相关联，并且在一些实施方式中，文本分类平台可以存储、传达、显示或者以其它方式利用指示与输入文档相关联的分类的数据。

如上面所提到的，所分类的文本可以以各种方式变化，包括文本的自然语言，并且文本分类平台不需要针对不同语言训练或者以其它方式利用单独的模型或者人工神经网络。由文本分类平台执行的文本分类可以改进文本分类的效率，例如，通过使用比其它文本分类技术更少的计算资源(诸如，处理资源、存储器资源等)来执行文本分类。另外，在一些实施方式中，文本分类平台可以实现来自数百、数千、数百万等的源的数百、数千、数百万等的文档的分类。

如上面所指示的，图1A和1B仅被提供为示例。其它示例是可能的，并且可以与关于图1A和1B所描述的不同。

图2是本文所描述的系统和/或方法可以被实施的示例环境200的示意图。如图2所示，环境200可以包括源设备210、网络220和在云计算环境230内被托管的文本分类平台225。环境200的设备可以经由有线连接、无线连接或者有线和无线连接的组合互连。

源设备210包括能够接收、生成、存储、处理和/或提供与文档相关联的信息(例如，表示文本的数据)的一个或多个设备。例如，源设备210可以包括通信和/或计算设备，诸如，移动电话(例如，智能电话、无线电话等)、膝上型计算机、平板计算机、手持式计算机、服务器计算机、游戏设备、可穿戴通信设备(例如，智能手表、一对智能眼镜等)或者类似类型的设备。在一些实施方式中，源设备210可以包括系统，该系统包括多个设备，诸如，与文档相关联的一组服务器设备、与文档的数据库相关联的一组服务器设备、数据中心的一组服务器设备等。源设备210可以包括用于向文本分类平台225提供文档的一个或多个应用，诸如，网页浏览应用、电子邮件管理应用、文档管理应用等。

网络220包括一个或多个有线和/或无线网络。例如，网络220可以包括蜂窝网络(例如，长期演进(LTE)网络、码分多址(CDMA)网络、3G网络、4G网络、5G网络、另一类型的下一代网络等)、公共陆地移动网络(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如，公共交换电话网络(PSTN))、私有网络、自组织(ad hoc)网、内联网、互联网、基于光纤的网络、云计算网络等和/或这些或其它类型的网络的组合。

文本分类平台225包括能够接收、生成、存储、处理和/或提供与文档相关联的信息和与文档相关联的分类的一个或多个设备。尽管示例环境200指示文本分类平台225被实施在云计算环境230中，但是在一些实施方式中，文本分类平台225也可以由一个或多个其它类型的设备实施，诸如，云计算环境外的服务器计算器等。文本分类平台225能够使用由一个源设备210或者许多源设备210提供的包括文档的数据来训练和/或应用卷积神经网络以用于分类文档中所包括的文本。

云计算环境230包括将计算作为服务递送的环境，由此可以提供共享资源、服务等。云计算环境230可以提供计算、软件、数据访问、存储和/或其它服务，这些服务不要求终端用户对递送服务的系统和/或设备的物理位置和配置的了解。如图所示，云计算环境230可以包括文本分类平台225和计算资源235。

计算资源235包括一个或多个个人计算机、工作站计算机、服务器设备或者另一类型的计算和/或通信设备。在一些实施方式中，计算资源235可以托管文本分类平台225。云资源可以包括在计算资源235中执行的计算实例、在计算资源235中被提供的存储设备、由计算资源235提供的数据传送设备等。在一些实施方式中，计算资源235可以经由有线连接、无线连接或者有线和无线连接的组合与其它计算资源235通信。

如在图2中进一步所示，计算资源235可以包括一组云资源，诸如，一个或多个应用(“APP”)235-1、一个或多个虚拟机(“VM”)235-2、虚拟化存储装置(“VS”)235-3、一个或多个管理程序(“HYP”)235-4等。

应用235-1包括可以向源设备210提供或者由源设备210访问的一个或多个软件应用。应用235-1可以消除在源设备210上安装和执行软件应用的需要。例如，应用235-1可以包括与文本分类平台225相关联的软件和/或能够经由云计算环境230而被提供的任何其它软件。在一些实施方式中，一个应用235-1可以经由虚拟机235-2向一个或多个其它应用235-1发送信息/从一个或多个其它应用235-1接收信息。

虚拟机235-2包括像物理机一样执行程序的机器(例如，计算机)的软件实施方式。虚拟机235-2可以是系统虚拟机或者过程虚拟机，取决于由虚拟机235-2对任何真实机器的使用和对应程度。系统虚拟机可以提供支持完整操作系统(“OS”)的执行的完整系统平台。过程虚拟机可以执行单个程序，并且可以支持单个过程。在一些实施方式中，虚拟机235-2可以代表用户执行(例如，使用源设备210)，并且可以管理云计算环境230的基础设施，诸如，数据管理、同步或者长时间数据传送。

虚拟化存储235-3包括在计算资源235的存储系统或设备内使用虚拟化技术的一个或多个存储系统和/或一个或多个设备。在一些实施方式中，在存储系统的上下文内，虚拟化的类型可以包括块虚拟化和文件虚拟化。块虚拟化可以指逻辑存储与物理存储的抽象(或分离)，使得可以访问存储系统，而不考虑物理存储或者异构结构。这种分离可以允许存储系统的管理员在管理员如何为终端用户管理存储方面的灵活性。文件虚拟化可以消除在文件级被访问的数据与物理地存储文件的位置之间的依赖性。这可以实现存储使用、服务器整合和/或无中断文件迁移性能的优化。

管理程序235-4提供允许多个操作系统(例如，“客户操作系统”)在主机计算机(诸如，计算资源235)上同时执行的硬件虚拟化技术。管理程序235-4可以向客户操作系统呈现虚拟操作平台，并且可以管理客户操作系统的执行。各种操作系统的多个实例可以共享虚拟化硬件资源。

图2所示的设备和网络的数目和布置被提供作为示例。实际上，与图2所示的那些设备和网络相比，可能存在附加的设备和/或网络、更少设备和/或网络、不同设备和/或网络或者被不同布置的设备和/或网络。此外，图2所示的两个或多个设备可以被实施在单个设备内，或者图2所示的单个设备可以被实施为多个分布式设备。附加地或者备选地，环境200的设备集合(例如，一个或多个设备)可以执行被描述为由环境200的另一设备集合执行的一个或多个功能。

图3是设备300的示例部件的示意图。设备300可以对应于源设备210和/或文本分类平台225。在一些实施方式中，源设备210和/或文本分类平台225可以包括一个或多个设备300和/或设备300的一个或多个部件。如图3所示，设备300可以包括总线310、处理器320、存储器330、存储部件340、输入部件350、输出部件360和通信接口370。

总线310包括允许在设备300的部件之间通信的部件。处理器320被实施在硬件、固件或者硬件和软件的组合中。处理器320是中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)、微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、专用集成电路(ASIC)或者另一类型的处理部件。在一些实施方式中，处理器320包括能够被编程以执行功能的一个或多个处理器。存储器330包括随机存取存储器(RAM)、只读存储器(ROM)和/或存储供处理器320使用的信息和/或指令的另一类型的动态或静态存储设备(例如，闪速存储器、磁性存储器和/或光学存储器)。

存储部件340存储与设备300的操作和使用相关的信息和/或软件。例如，存储部件340可以包括硬盘(例如，磁盘、光盘、磁光盘和/或固态盘)、压缩盘(CD)、数字多功能盘(DVD)、软盘、磁带盒、磁带和/或另一类型的非瞬态计算机可读介质以及对应的驱动器。

输入部件350包括允许设备300诸如经由用户输入(例如，触摸屏显示器、键盘、小键盘、鼠标、按钮、开关和/或麦克风)接收信息的部件。附加地或者备选地，输入部件350可以包括用于感测信息的传感器(例如，全球定位系统(GPS)部件、加速度计、陀螺仪和/或致动器)。输出部件360包括从设备300提供输出信息的部件(例如，显示器、扬声器和/或一个或多个发光二极管(LED))。

通信接口370包括使设备300能够诸如经由有线连接、无线连接或者有线和无线连接的组合与其它设备通信的收发器类部件(例如，收发器和/或单独的接收器和发射器)。通信接口370可以允许设备300从另一设备接收信息和/或向另一设备提供信息。例如，通信接口370可以包括以太网接口、光接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、Wi-Fi接口、蜂窝网络接口等。

设备300可以执行本文所描述的一个或多个过程。设备300可以基于执行由诸如存储器330和/或存储部件340等非瞬态计算机可读介质存储的软件指令的处理器320来执行这些过程。计算机可读介质在本文中被限定为非瞬态存储器设备。存储器设备包括单个物理存储设备内的存储器空间或者分布在多个物理存储设备上的存储器空间。

可以经由通信接口370从另一计算机可读介质或者从另一设备将软件指令读取到存储器330和/或存储部件340中。在被执行时，被存储在存储器330和/或存储部件340中的软件指令可以使处理器320执行本文所描述的一个或多个过程。附加地或者备选地，硬线电路可以代替软件指令被使用或者与软件指令组合被使用以执行本文所描述的一个或多个过程。因此，本文所描述的实施方式并不限于硬件电路和软件的任何特定组合。

图3所示的部件的数目和布置被提供作为示例。实际上，与图3所示的部件相比，设备300可以包括附加部件、更少部件、不同元件或者被不同布置的部件。附加地或者备选地，设备300的部件集合(例如，一个或多个部件)可以执行被描述为由设备300的另一部件集合执行的一个或多个功能。

图4是用于跨语言文本分类的示例过程400的流程图。在一些实施方式中，图4的一个或多个过程框可以由文本分类平台225执行。在一些实施方式中，图4的一个或多个过程框可以由与文本分类平台225分离或包括文本分类平台225的另一设备或者一组设备执行，诸如，源设备210。在一些实施方式中，过程400可以被用来训练卷积神经网络(例如，使用具有预定分类的多个训练文档作为输入)。在一些实施方式中，过程400可以被用来应用经训练后的卷积神经网络(例如，使用要产生分类的文档作为输入)。

如图4所示，过程400可以包括从文档获得文本(框410)。例如，文本分类平台225可以接收表示文档的文本的数据。可以以各种方式获得文本，包括使用输入流、对包括文本、文本文件等的图像进行光学字符识别。可以从源设备210或者多个源设备210获得文本(例如，作为微博帖子、电子邮件、学术文章等)。文本分类平台225可以读取字符级(例如，而不是句子级或词级)的输入文本。

在一些实施方式中，文本分类平台225可以对文本进行编码，例如，以被设计为使得能够对编码后的文本执行各种动作的方式。例如，可以使用字符级独热编码对文本进行编码以获得1乘Z的矩阵(例如，独热向量)以将文本中的每个字符与每个其它字符区分开。在这种情况下，独热向量可以包括所有小区中的0，除了被用来唯一地标识字符的小区中的1之外。如上面所提到的，对输入文本使用独热编码可以使得能够对独热向量执行动作，该独热向量唯一地标识文本中所包括的每个字符，无论语言，相对于其他文本分类技术，这可以提高文本分类过程的效率并且节省处理资源。

通过这种方式，文本分类平台225可以从文档获得文本，使得文本分类平台225能够执行被设计为对文本进行分类的各种操作。

如在图4中进一步示出的，过程400可以包括执行嵌入以获得指示与文本中的字符相关联的概率的数据结构(框420)。例如，文本分类平台225可以将文本提供给卷积神经网络的嵌入层。该嵌入层在数据结构中产生文本的表示，诸如，字符向量。

在一些实施方式中，文本分类平台225使用嵌入层来产生字符向量，该字符向量是字符词汇表的表示(例如，针对文本中所包括的任何字符，字符向量可以指示与文本中所包括的每个其它字符相关联的概率)。这使得文本分类平台225能够产生相对密集的、连续的和分布式的词汇表表示，与可以通过将字符表示为独热编码而被获得的稀疏表示相反。例如，与字符相关联的概率可以指示在考虑到另一字符出现的情况下字符出现的可能性的度量或者在考虑到字符的情况下其它字符出现的概率。嵌入层可以使用各种技术(诸如，跳字和/或连续词袋技术)来为文档的文本产生字符向量。文本分类平台225可以使用嵌入层来以被设计为使得能够捕获与文本相关的信息(诸如，句法和/或语音信息)的方式产生字符向量，这些信息在没有嵌入层的情况下可能无法被捕获。

通过这种方式，文本分类平台225可以执行嵌入以获得指示与文本中的字符相关联的概率的数据结构，使得文本分类平台225能够对字符向量执行卷积。

如在图4中进一步示出的，过程400可以包括将第一卷积应用于数据结构以获得字符的不同表示(框430)。例如，文本分类平台225可以对字符向量执行文本卷积，以获得与文本相关的表示(例如，与字符序列有关的隐藏表示)。例如，文本分类平台225可以通过使用滑动窗口来执行卷积以分析和学习由字符向量的序列指示的隐藏表示。

通过示例，文本分类平台225可以使用7个字符的滑动窗口来执行卷积(尽管可以使用附加字符或更少字符的窗口)。滑动窗口的长度可以是预定的，或者在一些实施方式中，作为下面进一步详细描述的反向传播和卷积神经网络训练的一部分而变化。卷积可以被设计为标识与文本相关的256个表示(尽管可以标识附加表示或者更少表示)。在这种情况下，文本分类平台225可以产生与文本相关的256个不同的字符表示作为来自第一卷积的输出。例如，字符表示可以包括关于字符串末尾处的“-ing”或“-es”的含义、字符序列开头处的“pre-”或“in-”的含义等的表示。

在一些实施方式中，文本分类平台225可以执行层叠卷积。通过堆叠卷积神经网络的卷积层，文本分类平台225可以确定与文本相关的其它表示。例如，文本分类平台225可以向第二卷积层提供来自第一卷积层的输出(例如，在上面的示例中，与文本相关的256个表示可以作为输入被提供给第二卷积层)。在这种情况下，第二卷积层产生与由第一卷积层产生的表示相关的表示。第二卷积层可以使用相同的卷积参数(例如，用于产生256个表示的7个字符的滑动窗口)或者不同的卷积参数。

从第一卷积层(或者在应用多个卷积层的情况下，从层叠卷积层)获得的表示可以提供结果向量，该结果向量指示文本的句法、语义、语音和/或形态特征。例如，可以通过以出现的序列向(多个)卷积层提供字符向量来获得这些特征。

通过这种方式，文本分类平台225可以将第一卷积应用于数据结构以获得字符的不同表示，使得另外的卷积操作能够被应用于字符的不同表示。

如在图4中进一步示出的，过程400可以包括将并行卷积应用于不同表示以获得多个字符表示(框440)。例如，文本分类平台225可以对由第一卷积提供的输出(例如，由第一卷积产生的表示)执行多种不同类型的卷积。并行卷积可以引起被提供为来自并行卷积的输出的各种字符表示。

在一些实施方式中，并行卷积中所包括的每个卷积操作可以与第一卷积类似，其中滑动窗口被用来学习与字符相关的表示。在这种情况下，每个并行卷积都是不同的，并且对第一卷积的输出执行。通过示例，文本分类平台225可以通过执行多个卷积操作来执行并行卷积，例如，一个卷积操作利用4个字符的滑动窗口，另一卷积操作利用5个字符的滑动窗口，并且另一卷积操作利用6个字符的滑动窗口。与第一卷积操作一样，由文本分类平台225用于并行卷积的滑动窗口可以是不同的。附加地或者备选地，被产生作为输出的相关表示的数目可以是不同的，例如，每个不同的并行卷积操作可以提供相同或不同数目的表示，诸如，256个表示、512个表示等。在一些实施方式中，一个或多个并行卷积操作可以包括下面进一步详细描述的子采样或者池化，诸如，最大超时池化。

通过这种方式，文本分类平台225可以将并行卷积应用于不同字符表示以获得字符表示的多个集合，使得文本分类平台225能够对字符表示的多个集合执行子采样并且产生包括与文本相关的字符表示的合并数据结构。

如在图4中进一步示出的，过程400可以包括对多个字符表示进行子采样(框450)。例如，文本分类平台225可以对字符表示的集合(例如，从并行卷积的输出获得的)进行子采样。子采样被设计为对字符表示的集合进行下采样以减少数据的维数，例如，以防止由卷积神经网络过拟合。

在一些实施方式中，文本分类平台225可以使用最大超时池化来对字符表示的集合进行子采样。例如，可以使用滑动窗口来对字符表示的每个集合进行子采样以分析和减少字符表示的维数。文本分类平台225也可以使用其它形式的子采样(例如，随机池化、加权子采样等)来减少要被用于分类的字符表示量。在一些实施方式中，子采样的输出可以是字符表示的集合的简化版本(例如，子采样版本)，该简化版本可以被减小到预定大小以进行进一步的处理。

通过这种方式，文本分类平台225可以对多个字符表示进行子采样，使得文本分类平台225能够将经子采样后的字符表示合并到合并数据结构中(例如，池化层中)，并且对经子采样后的合并数据结构使用全连接层。在一些实施方式中，合并数据结构可以是与文本相关联的合并特征向量。在一些实施方式中，可以通过并置作为并行卷积和子采样的结果而被获得的向量来获得合并数据结构。

如在图4中进一步示出的，过程400可以包括将合并数据结构提供给全连接层以产生表示文本的特征的数据(框460)。例如，文本分类平台225可以将合并数据结构提供给卷积神经网络的全连接层，该全连接层能够产生表示文本的特征的数据，该特征可能有助于对文本进行分类。在一些实施方式中，文本分类平台225可以使用被串行应用的多个全连接层(例如，来自一个全连接层的输出被用作针对随后的全连接层的输入)。来自(多个)全连接层的输出可以由卷积神经网络的推理层用来对文本进行分类。

每个全连接层的应用包括以被设计为使得卷积神经网络能够学习表示文本的特征的数据中的非线性表示的方式来使用被设计为引入非线性的激活函数(例如，修正线性单元(ReLU)、Sigmoid、tanh等)。通过示例，文本分类平台225可以使用ReLU激活来应用两个全连接层，从而引起表示文本的各种特征的非线性函数。在一些实施方式中，被提供为来自每个全连接层的输出的特征的数目可以变化(例如，来自第一全连接层的文本的512个特征和来自第二全连接层的文本的256个特征等)，并且在一些实施方式中，针对每个全连接层，特征的数目可以是相同的。

在一些实施方式中，例如，文本分类平台225可以以被设计为避免过拟合的方式将丢弃操作应用于一个或多个全连接层。例如，可以在随机或非随机的基础上应用丢弃，诸如，从合并数据结构丢弃特征的50％。在一些实施方式中，当使用多个全连接层时，可以针对一个或多个全连接层应用丢弃(例如，在全连接层的每次应用之后，在全连接层的每隔一次应用之后，在全连接层的所有应用之后等)。通过示例，文本分类平台225可以将合并数据结构提供给两个全连接层，每个都具有50％的丢弃率，第一全连接层被配置为提供文本的512个特征，并且第二全连接层被配置为使用第一全连接层的输出来提供文本的256个特征。

通过这种方式，文本分类平台225可以将合并数据结构提供给全连接层以产生表示文本的特征的数据，使得文本分类平台225能够利用卷积神经网络的推理层来对文档的文本进行分类。

如在图4中进一步示出的，过程400可以包括将表示文本的特征的数据提供给推理层，该推理层为文本提供分类(框470)。例如，文本分类平台225可以将从(多个)全连接层输出的特征提供给推理层，该推理层使用特征来确定要与文本相关联的一个或多个分类。

在一些实施方式中，推理层确定潜在分类上的概率分布。该概率可以被用来对文档的文本进行分类。例如，文本分类平台225可以使用阈值概率来确定满足针对给定分类或标签的特定阈值的概率可以与文档的文本相关联。在一些实施方式中，文本分类平台225可以使用全连接Softmax(软最大)层来计算分类上的概率分布。Softmax使用任意实值分数的向量(例如，从在框460处被应用的全连接层提供的数据导出的)并且产生在0与1之间的值的向量，其和为1。

在一些实施方式中，文本分类平台225使用反向传播来训练卷积神经网络。反向传播支持更新卷积神经网络的各种参数以及与被用来对文本进行分类的特征相关联的特征和值。例如，文本分类平台225可以使用随机梯度下降来迭代地调整卷积神经网络。使用反向传播可能会引起与以下类似的卷积神经网络训练过程：例如，使用随机值来初始化卷积神经网络层的参数和与特征相关联的权重；例如，经历上面相对于框410至470所描述的卷积神经网络过程；例如，使用在框470处输出的概率和与训练文档(预定分类)一起被提供的预期概率来计算输出中的误差；以及使用反向传播来相对于与文本的特征相关联的权重计算误差的梯度，并且例如，以被设计为最小化输出误差的方式使用梯度下降来更新卷积神经网络层的参数和与特征相关联的权重；以及使用与预定分类一起被提供的训练文档来迭代地重复前述过程。

文本分类平台225可以使用前述的前向传播和反向传播技术来训练卷积神经网络(例如，调整与特征相关联的参数和权重)，使得卷积神经网络能够被应用于新文档的新文本(例如，针对尚未预定分类的文本)。当将卷积神经网络应用于新文档时，不需要反向传播。在一些实施方式中，可以使用新的训练文档(或者新的训练文档和预先存在的训练文档的组合)来重新训练或更新卷积神经网络，该新的训练文档可以包括文本分类平台225先前所分类的文档(例如，在手动确认或更新分类的情况下)。

通过这种方式，文本分类平台225可以将表示文本的特征的数据提供给推理层，该推理层提供针对文本的分类，使得文本分类平台225能够同时训练和应用卷积神经网络以对文本进行分类。

尽管图4示出了过程400的示例框，但是在一些实施方式中，与图4所描绘的框相比，过程400可以包括附加框、更少框、不同框或者被不同布置的框。附加地或者备选地，可以并行执行过程400的两个或多个框。

图5是与图4所示的示例过程相关的示例实施方式500的示意图。例如，图5示出了可以由文本分类平台225实施的示例跨语言文本分类过程。示例实施方式500图示了卷积神经网络的应用(例如，前向传播505)和卷积神经网络的训练(例如，前向传播505和反向传播555的迭代应用)两者。

如通过附图标记510所示出的，卷积神经网络包括接收字符(诸如，电子邮件或者其它文档中所包括的字符)作为输入的输入层。如通过附图标记515所示出的，卷积神经网络包括对输入字符或者在对字符进行编码的情况下的字符的表示执行嵌入的嵌入层。例如，嵌入层可以产生字符向量，该字符向量指示在考虑到另一字符出现的情况下字符出现的概率的度量。

如通过附图标记520和525所示出的，卷积神经网络包括两个卷积层或卷积阶段。两个卷积层使用7个字符的滑动窗口来对嵌入输出的字符(例如，字符向量)进行操作以获得与文本相关联的256个特征。在示例实施方式500中，卷积层串行操作，使得第一卷积层(例如，第一卷积神经网络阶段)的输出被用作针对第二卷积层(例如，第二卷积神经网络阶段)的输入。

如通过附图标记530所示出的，卷积神经网络包括并行卷积层，在示例实施方式500中，该并行卷积层提供对来自先前卷积层的输出执行的三个单独的卷积层。并行卷积层在分别使用长度4、5和6的滑动窗口的同时各自产生与文本相关联的256个特征。尽管被描述为被并行执行，但是并行卷积实际上不需要被并行执行，例如，可以对相同的输入数据单独执行并行卷积。如示例实施方式500所示，每次并行卷积可以具有对应的子采样层以单独池化来自每次并行卷积的特征。如通过附图标记535所示出的，卷积神经网络包括池化层以一起池化来自并行卷积层的输出。例如，池化层可以包括以被设计为丢弃由并行卷积层提供的特征并且避免卷积神经网络的过拟合的方式的子采样。

如通过附图标记540和545所示出的，卷积神经网络包括丢弃率为0.5的两个全连接层，指示随机地丢弃由每层产生的特征的一半(例如，由第一全连接层产生的512个特征的一半和由第二全连接层产生的256个特征的一半)。

如通过附图标记550所示出的，卷积神经网络包括推理层以使用由全连接层提供的特征和权重对文本进行分类(例如，关联分类、类别、标签等)。在先前训练了卷积神经网络的情况下，可以将分类提供为输出(例如，提供给单独设备，诸如，源设备210、存储设备或者另一设备)。分类可以被用来指示与文本所来自的文档相关联的分类、类别、标签等。分类可以被用于各种目的，包括文本分类、索引、排序、分析等。在正在训练卷积神经网络的情况下，误差的计算和反向传播555可以被用来迭代地重复过程并且相应地调整与特征相关联的参数和权重。

如上面所指示的，图5仅被提供作为示例。其它示例是可能的，并且可以不同于关于图5所描述的。

前述公开内容提供了说明和描述，但并非旨在穷举实施方式或将实施方式限制于所公开的精确形式。鉴于以上公开内容，修改和变型是可能的，或者可以从实施方式的实践中获取修改和变型。

如本文所使用的，术语部件旨在被广义地解释为硬件、固件和/或硬件和软件的组合。

本文结合阈值描述了一些实施方式。如本文所使用的，满足阈值可以指值大于阈值、多于阈值、高于阈值、大于或等于阈值、小于阈值、少于阈值、低于阈值、小于或等于阈值、等于阈值等。

明显的是，本文所描述的系统和/或方法可以被实施在不同形式的硬件、固件或者硬件和软件的组合中。被用来实施这些系统和/或方法的实际专用控制硬件或软件代码并不限制实施方式。因此，本文描述了系统和/或方法的操作和行为，而没有参照特定的软件代码：要理解，软件和硬件可以被设计为基于本文的描述来实施系统和/或方法。

即使特征的特定组合被叙述在权利要求书中和/或公开在说明书中，但是这些组合并不旨在限制可能的实施方式的公开内容。实际上，这些特征中的许多特征可以以未被具体叙述在权利要求书中和/或公开在说明书中的方式而被组合。尽管下面所列举的每项从属权利要求都可以仅直接依赖于一项权利要求，但是可能的实施方式的公开内容包括与权利要求集合中的每项其它权利要求组合的每项从属权利要求。

除非明确地这样描述，否则本文所使用的元件、动作或指令不应被解释为关键或必要的。如本文所使用的，除非另有明确规定，否则术语“等(or the like)”旨在包括在内(例如，如同“等(and/or the like)”)。而且，如本文所使用的，冠词“一(a)”和“一个(an)”旨在包括一个或多个项目，并且可以与“一个或多个(one or more)”互换使用。此外，如本文所使用的，术语“集合(set)”旨在包括一个或多个项目(例如，相关项目、不相关项目、相关项目和不相关项目的组合等)，并且可以与“一个或多个(one or more)”互换使用。在仅有一个项目被预期的情况下，术语“一个(one)”或类似语言被使用。而且，如本文所使用的，术语“具有(has)”、“具有(have)”、“具有(having)”等旨在被作为开放式术语。进一步地，除非另有明确规定，否则短语“基于”旨在表示“至少部分地基于”。

Claims

1.一种设备，包括：

用于从文档获得文本的装置；

用于执行嵌入以获得指示与所述文本中所包括的字符相关联的概率的数据结构的装置；

用于将第一卷积应用于所述数据结构以获得所述文本中所包括的所述字符的不同表示的装置；

用于将并行卷积应用于所述不同表示以获得字符表示的多个集合的装置；

用于对所述字符表示的多个集合进行子采样的装置；

用于将经子采样后的所述字符表示的多个集合池化到合并数据结构中的装置；

用于向卷积神经网络的全连接层提供所述合并数据结构以产生表示所述文本的特征的数据的装置；以及

用于向所述卷积神经网络的推理层提供表示所述文本的特征的所述数据的装置，所述推理层提供指示针对所述文本的分类的数据。

2.根据权利要求1所述的设备，进一步包括：

用于使用随机梯度下降和指示针对所述文本的所述分类的所述数据来执行反向传播的装置。

3.根据权利要求1所述的设备，进一步包括：

用于在执行所述嵌入之前使用独热编码对所述文本进行编码的装置。

4.根据权利要求1所述的设备，其中所述数据结构包括至少一个字符向量。

5.根据权利要求1所述的设备，其中用于对所述字符表示的多个集合进行子采样以获得所述合并数据结构的装置进一步包括：

用于将所述字符表示的多个集合并置成并置向量的装置；以及

用于对所述并置向量执行最大超时池化的装置。

6.根据权利要求1所述的设备，其中所述全连接层使用修正线性单元激活。

7.根据权利要求1所述的设备，其中所述第一卷积包括第一卷积神经网络阶段和第二卷积神经网络阶段，所述第二卷积神经网络阶段在所述第一卷积神经网络阶段之后。

8.根据权利要求1所述的设备，其中所述第一卷积神经网络阶段被应用于一组数据结构。

9.根据权利要求1所述的设备，其中所述第一卷积神经网络阶段被应用于一组七个数据结构。

10.根据权利要求1所述的设备，其中所述并行卷积包括：

第一卷积神经网络阶段，

第二卷积神经网络阶段，以及

第三卷积神经网络阶段，

所述第一卷积神经网络阶段和所述第二卷积神经网络阶段和所述第三卷积神经网络阶段并行。

11.根据权利要求10所述的设备，其中所述第一卷积神经网络阶段被应用于一组四个数据结构。

12.根据权利要求10所述的设备，其中所述第二卷积神经网络阶段被应用于一组五个数据结构。

13.根据权利要求10所述的设备，其中所述第三卷积神经网络阶段被应用于一组六个数据结构。

14.一种方法，包括：

由设备从训练文档获得文本；

由所述设备获得指示与所述训练文档相关联的输入分类的数据；

由所述设备执行嵌入，以获得指示与所述文本中所包括的字符相关联的概率的字符向量；

由所述设备将层叠卷积应用于所述字符向量，以获得所述文本中所包括的所述字符的不同表示；

由所述设备将并行卷积应用于所述不同表示，以获得字符表示的多个集合；

由所述设备对所述字符表示的多个集合进行子采样；

由所述设备池化经子采样后的所述字符表示的多个集合，以获得与所述文本相关联的特征的合并向量；

由所述设备向卷积神经网络的全连接层提供所述合并向量，以产生表示所述文本的特征的数据；

由所述设备向所述卷积神经网络的推理层提供表示所述文本的特征的所述数据，所述推理层提供指示针对所述文本的一个或多个分类的数据；以及

由所述设备使用随机梯度下降、指示所述输入分类的所述数据和指示所述一个或多个分类的数据通过反向传播来训练所述卷积神经网络。

15.根据权利要求14所述的方法，其中将所述层叠卷积应用于所述字符向量以获得所述文本中所包括的所述字符的不同表示包括：

针对所述层叠卷积的每个卷积层，使用字符的滑动窗口来产生所述文本中所包括的所述字符的多个不同表示。

16.根据权利要求14所述的方法，其中将所述并行卷积应用于所述不同表示以获得字符表示的多个集合包括：

使用X的滑动窗口来执行卷积，

其中X是整数；

使用X+1的滑动窗口来执行卷积；以及

使用X+2的滑动窗口来执行卷积。

17.根据权利要求14所述的方法，进一步包括：

使用多个训练文档作为输入来训练所述卷积神经网络，

所述多个训练文档包括具有第一自然语言的文本的第一文档和具有第二自然语言的文本的第二文档，

所述第二自然语言不同于所述第一自然语言。

18.一种存储指令的非瞬态计算机可读介质，所述指令包括：

一个或多个指令，所述一个或多个指令在由一个或多个处理器执行时使所述一个或多个处理器：

从第一文档获得第一文本；

执行嵌入，以获得指示与所述第一文本中所包括的字符相关联的概率的字符向量；

将第一卷积应用于所述字符向量，以获得所述第一文本中所包括的所述字符的不同表示；

将并行卷积应用于所述不同表示，以获得字符表示的多个集合，

所述并行卷积中所包括的卷积的每个性能不同于所述并行卷积中所包括的卷积的其它性能；

对所述字符表示的多个集合进行子采样；

池化所述字符表示的多个集合以获得合并数据结构；

向卷积神经网络的多个全连接层提供所述合并数据结构，以产生表示所述第一文本的特征的数据；以及

向所述卷积神经网络的推理层提供表示所述第一文本的特征的所述数据，所述推理层提供指示针对所述第一文档的第一分类的数据。

19.根据权利要求18所述的非瞬态计算机可读介质，其中所述一个或多个指令在由所述一个或多个处理器执行时进一步使所述一个或多个处理器：

从第二文档获得第二文本，

所述第二文本与第二自然语言相关联，所述第二自然语言不同于与所述第一文档相关联的第一自然语言；

执行嵌入，以获得指示与所述第二文本中所包括的字符相关联的概率的第二字符向量；

将所述第一卷积应用于所述第二字符向量，以获得所述第二文本中所包括的所述字符的不同表示；

将所述并行卷积应用于所述不同表示，以获得第二字符表示的多个集合；

对所述第二字符表示的多个集合进行子采样；

池化所述第二字符表示的多个集合，以获得第二合并数据结构；

向所述卷积神经网络的多个全连接层提供所述第二合并数据结构，以产生表示所述第二文本的特征的数据；以及

向所述推理层提供表示所述第二文本的特征的所述数据，所述推理层提供指示针对所述第二文档的第二分类的数据。

20.根据权利要求18所述的非瞬态计算机可读介质，其中所述全连接层各自包括用于随机地丢弃表示所述第一文本的特征的所述数据的部分的丢弃操作。