CN111199157A

CN111199157A - 一种文本数据处理方法及其装置

Info

Publication number: CN111199157A
Application number: CN201811378805.4A
Authority: CN
Inventors: 贺国秀; 高喆; 康杨杨; 孙常龙; 刘晓钟; 司罗
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2018-11-19
Filing date: 2018-11-19
Publication date: 2020-05-26
Anticipated expiration: 2038-11-19
Also published as: CN111199157B

Abstract

本申请公开了一种文本数据处理方法及其装置，所述方法包括：获取与待测文本对应的结构，所述结构包括待测段落到待测分句到待测词语的结构；基于所述结构，获取与所述待测段落对应的全局语义信息；针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息：获取待测词语对应的上下文语义信息，其中，所述上下文语义信息包括所述待测词语的远程依赖信息；将所述待测词语输入至语义机器学习模型组件，获取与所述待测词语对应的词语语义信息，其中，所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。采用本申请，可准确理解待测段落的语义信息。

Description

一种文本数据处理方法及其装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种文本数据处理方法及其装置。

背景技术

随着互联网的兴起，网络文学蓬勃发展。很多作家为了吸引用户点击，会在网络文学(例如，小说)中添加色情内容，而这些色情内容可能会对读者(特别是青少年读者)的身心健康造成极大影响，并可能危害社会安全。为此，需要有效鉴定出网络文学中的色情内容。目前，色情内容的识别方法主要包括以下几种：

1)基于敏感词汇的识别方法。该方法预先存储敏感词构成的敏感词汇表，随后，按照敏感词汇表遍历待测文本，若待测文本中所包括的敏感词的数量超过某一阈值，则确定待测文本包括色情内容。该方法的缺点在于完全依赖敏感词汇表，若色情内容是由隐晦词语而非敏感词构成，则无法鉴定出色情内容。

2)基于特征提取的识别方法。该方法利用机器学习方法(例如，支持向量机的学习方法)学习色情内容中各敏感词组合的权重，随后确定待测文本是否具有该权重组合。该方法相较于基于敏感词汇的匹配识别具有较高的准确性，但是该方法依然依赖于敏感词汇表，存在与基于敏感词汇的匹配识别相同的问题。

3)基于深度学习模型的识别方法。该方法基于卷积神经网络或递归神经网络，通过循环训练大量的样本，得到包括色情内容的语义特征的检测模型，并通过该检测模型对待测文本进行识别。该方法的缺点在于仅从时间/空间上对色情内容进行判断，依然无法准确鉴定出由隐晦词语构成的色情内容。

因此，需要一种从文本中鉴定出色情内容(特别是由隐晦词语构成的色情内容)的技术方案。

发明内容

本申请的主要目的在于提供一种文本数据处理方法及其装置，旨在解决以上提到的从文本中鉴定出色情内容的技术问题。

本申请的示例性实施例提供一种文本数据处理方法，所述方法包括：获取与待测文本对应的结构，所述结构包括待测段落到待测分句到待测词语的结构；基于所述结构，获取与所述待测段落对应的全局语义信息；针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息：获取待测词语对应的上下文语义信息，其中，所述上下文语义信息包括所述待测词语的远程依赖信息，其中，所述远程依赖信息是待测词语与和待测词语不相邻的词语的依赖关系的信息；将所述待测词语输入至语义机器学习模型组件，获取与所述待测词语对应的词语语义信息，其中，所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。

本申请的另一示例性实施例提供一种计算机可读存储介质，其上存储有计算机指令，其特征在于，所述指令被执行时实现上述方法。

本申请的另一示例性实施例提供一种文本数据处理装置，所述装置包括处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：基于所述结构，获取与所述待测段落对应的全局语义信息；针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息：获取待测词语对应的上下文语义信息，其中，所述上下文语义信息包括所述待测词语的远程依赖信息，其中，所述远程依赖信息是待测词语与和待测词语不相邻的词语的依赖关系的信息；将所述待测词语输入至语义机器学习模型组件，获取与所述待测词语对应的词语语义信息，其中，所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。

本申请的另一示例性实施例提供一种文本数据处理方法，所述方法包括：获取与待测文本对应的结构，所述结构包括待测段落到待测分句到待测词语的结构；基于所述结构，获取与所述待测段落对应的全局语义信息；针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息：获取待测词语对应的上下文语义信息，其中，所述上下文语义信息包括所述待测词语的远程依赖信息；将所述待测词语输入至语义机器学习模型组件，获取与所述待测词语对应的词语语义信息，其中，所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。

本申请的另一示例性实施例提供一种色情文学鉴定方法，其特征在于，包括：获取与待测文本对应的结构，所述结构包括待测段落到待测分句到待测词语的结构；基于所述结构，获取与所述待测段落对应的全局语义信息；针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息：获取待测词语对应的上下文语义信息，其中，所述上下文语义信息包括所述待测词语的远程依赖信息；将所述待测词语输入至语义机器学习模型组件，获取与所述待测词语对应的词语语义信息，其中，所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。

本申请的另一示例性实施例提供一种文本数据处理装置，所述装置包括处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：获取与待测文本对应的结构，所述结构包括待测段落到待测分句到待测词语的结构；基于所述结构，在待测段落层面上，将待测段落输入到通读机器学习模型组件中，获取与所述待测段落对应的全局语义信息，其中，所述通读机器学习模型组件根据待测段落与待测段落语义之间的对应关系进行训练得到；基于所述结构，在待测词语层面上，将待测词语输入精读机器学习模型组件中，获取所述待测词语的词语语义信息，其中，所述精读机器学习模型组件是利用通读机器学习组件获取的全局语义信息进行训练得到。

本申请示例性实施例采用的上述至少一个技术方案能够达到以下有益效果：

综上所述，根据本申请的示例性实施例的文本数据处理方法可结合全局语义信息确定每个词语的词语语义信息，从而能够准确理解每个词语所表达的含义，并且在此过程中，所述方法不仅可挖掘出具有空间关系的语义信息还可挖掘出具有远程依赖并且依赖程度高的语义信息，这样可在更准确地理解文本含义的情况下准确地鉴定出色情内容。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请的示例性实施例的文本数据处理系统的示图；

图2是根据本申请的示例性实施例的文本数据处理方法的流程图；

图3是根据本申请的示例性实施例的语义机器学习模型组件的原理图；

图4是根据本申请的示例性实施例的文本数据处理方法的示意图；

图5是根据本申请的示例性实施例的文本数据处理装置的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在介绍本申请的示例性实施例前，为了方便本领域技术人员更好的理解本申请，首先对本申请中涉及的术语进行解释。

张量(tensor)是指多维向量，在本申请中，多个词向量可构成张量。

词嵌入(word embedding)是指将单个词语在预定义的向量空间中表示为实数向量的技术。举例来说，可将“挣扎”用向量(0.1,0.2,0.3)表示，将“不用”用向量(0.7,0.3,0.3)表示。

正余弦位置嵌入(position embedding)是指基于正余弦函数获取每个词语的位置信息，在本申请中，可利用正余弦位置嵌入为每个词语增加时序信息。

神经网络是由具有适应性的简单单元组成的广泛并行互连的网络，他的组织能够模拟生物神经系统对真实世界物体所做出的交互反应。在本申请中，涉及到的神经网络是卷积神经网络。

卷积神经网络(Convolutional Neural Network，CNN)是一种前馈神经网络，其利用滑动窗口实现参数共享，从而能够获取具有空间关系的特征向量。在本申请中，利用卷积神经网络，可获取具有空间依赖的语义信息。

在本申请中，在对文本执行色情内容鉴定时，可从词语到分句再到段落，在不同层次上执行鉴定，在具体鉴定过程中，可通过通读机制获取具有空间依赖的语义信息，并在所述语义信息的基础上确定具有远程依赖并且依赖程度高的词语，这样可以在理解上下文信息的背景下更准确地理解每句话的含义，可有效精准地鉴定出色情内容，特别是对于由隐晦词语构成的色情内容。

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在描述本申请的各实施例的进一步细节之前，将参考图1来描述可用于实现本申请的原理的一个合适的计算体系结构。在以下描述中，除非另外指明，否则将参考由一个或多个计算机执行的动作和操作的符号表示来描述本申请的各实施例。由此，可以理解，有时被称为计算机执行的这类动作和操作包括计算机的处理单元对以结构化形式表示数据的电信号的操纵。这一操纵转换了数据或在计算机的存储器系统中的位置上维护它，这以本领域的技术人员都理解的方式重配置或改变了计算机的操作。维护数据的数据结构是具有数据的格式所定义的特定属性的存储器的物理位置。然而，尽管在上述上下文中描述本申请，但它并不意味着限制性的，如本领域的技术人员所理解的，后文所描述的动作和操作的各方面也可用硬件来实现。

转向附图，其中相同的参考标号指代相同的元素，本申请的原理被示为在一个合适的计算环境中实现。以下描述基于所述的本申请的实施例，并且不应认为是关于此处未明确描述的替换实施例而限制本申请。

图1是根据本申请的示例性实施例的文本数据处理系统的示图。出于描述的目的，所绘的体系结构仅为合适环境的一个示例，并非对本申请的使用范围或功能提出任何局限。也不应将该计算系统解释为对图1所示的任一组件或其组合具有任何依赖或需求。

本申请的原理可以使用其它通用或专用计算或通信环境或配置来操作。适用于本申请的众所周知的计算系统、环境和配置的示例包括但不限于，个人计算机、服务器，多处理器系统、基于微处理的系统、小型机、大型计算机、以及包括任一上述系统或设备的分布式计算环境。

在其最基本的配置中，图1中的文本数据处理系统100至少包括：一个或多个客户端104以及对所述一个或多个客户端104发送的文本执行文本数据处理的服务器102。服务器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置、用于存储数据的存储装置以及与客户端通信的传输装置；客户端104可以包括：微处理器MCU、与服务器通信的传输装置、与用户交互的显示装置。在本说明书和权利要求书中，“系统”也可以被定义为能够执行软件、固件或微码来实现功能的任何硬件组件或硬件组件的组合，网页处理系统100甚至可以是分布式的，以实现分布式功能。

如本申请所使用的，术语“模块”、“组件”或“单元”可以指在配置信息的更新系统100上执行的软件对象或例程。此处所描述的不同组件、模块、单元、引擎和服务可被实现为在文本数据处理方法100上执行(例如，作为单独的线程)的对象或进程。尽管此处所描述的系统和方法较佳地以软件来实现，但是硬件或软件和硬件的组合的实现也是可能并被构想的。

在实际处理中，网络文学的创造者可通过客户端104创造并发布网络文学，而服务器102可在客户端可发布网络文学之前，对网络文学自行根据示例性实施例的文本数据处理方法，确保所述网络文学中不包含色情内容。

如图1所示，客户端104可不直接与服务器102连接，也就是说，客户端104可将创造者创造的网络文学对应的文本数据发送到相应的文学网站服务器200(例如，“起点文学”服务器)，随后，文学网站服务器200可将所述文本数据发送到服务器102，最后，服务器102可根据本申请的示例性实施例的文本数据处理方法对所述文本数据执行色情内容鉴定。以下将结合图2至图3具体解释服务器102执行色情内容鉴定的操作。

在对图2示出的流程图进行详细描述之前，应注意，在本申请中鉴定色情内容的最小级别/单位是段落，若需要对由多个段落形成的文本执行处理时，可先对所述文本执行分段处理，随后对每一段落执行所述方法。

图2示出了根据本申请的示例性实施例的文本数据处理方法的流程图。如图2所示，在步骤S210，将待测文本转换为待测段落到待测分句到待测词语的结构。具体来说，可对所述待测段落执行分句处理，获取与所述待测段落对应的多个待测分句；对所述多个待测分句中的每个待测分句执行分词处理，获取与所述多个待测分句中的每个待测分句对应的各个待测词语；根据获取的多个待测分句以及与所述多个待测分句中的每个待测分句对应的各个待测词语，生成待测段落到待测分句到待测词语的结构。在此过程中，所涉及的分句/分词处理可利用本领域已知的分句/分词方法实现，在此将不再赘述。

在步骤S220，基于所述结构，获取与所述待测段落对应的全局语义信息，其中，所述全局语义信息实际上是指对待测段落执行通读处理后获取的语义信息。这里可将计算机形象比喻为“用户”，这样计算机在对待测文本执行色情鉴定时，可先对待测文本“通读”。

具体来说，可先获取与所述待测段落对应的张量，获取与所述待测段落对应的张量可包括对在步骤S210中获取的各个待测词语执行词嵌入处理，生成与各个待测词语对应的各个词向量，最后，利用与各个词语对应的各个词向量，生成与所述待测段落对应的张量。

随后，将所述张量输入到全局语义机器学习模型组件，获取与所述待侧文本对应的全局语义信息，其中，所述全局语义机器学习模型组件根据多个文本与文本语义信息之间的对应关系进行训练得到。举例来说，所述全局语义机器学习模型组件可以是卷积神经网络组件。也就是说，在全局语义机器学习模型组件学习大量的本文数据获知文本与文本语义之间的关系后，将待测文本对应的张量输入到所述全局语义机器学习模型组件后，即可获知该待测段落的语义信息。

应注意，所述语义信息是粗略且不准确地，正如之前所举示例，所述语义信息是计算机对所述文本执行通读后获取的语义信息。虽然粗略，但该语义信息包括空间依赖关系的语义信息。在完成段落级别的“通读”后，可按照以下操作“精读”每个分句，从而获取准确的语义信息。

在步骤S230，针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息：获取待测词语对应的上下文语义信息，其中，所述上下文语义信息包括所述待测词语的远程依赖信息，其中，远程依赖信息是指待测词语与不相邻的词语之间的对应关系；将所述待测词语输入至语义机器学习模型组件，获取与所述待测词语对应的词语语义信息，其中，所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。

具体来说，针对所述待测段落中的每个待测分句，在生成的与各个待测词语中的每个待测词语对应的词向量的基础上，对所述词向量执行利用正余弦位置嵌入处理，获取与各个待测词语对应的时序信息作为每个待测词语的上下文语义信息，换言之，可在已生成的词向量的基础上，利用公式1获取每个词向量的时序信息，随后将该时序信息添加到词向量中。

其中，PE_2i(P)是指分句中的第p个分词的偶数位上的向量值，PE_2i+1(P)是指分句中的第p个分词的奇数位上的向量值。也就是说，利用公式1，可以计算出每个词向量对应的正余弦位置信息，随后，通过在词向量中添加正余弦位置信息生成上下文语义信息。

可选地，可在获取包括正余弦位置信息的词向量后，对对各个待测词语分别执行卷积核处理，获取各个待测词语的邻近语义信息，其中，所述卷积核优选为2k+1，这样可获取待测词语邻近前后的邻近语义信息。然后，通过将与每个待测词语对应的时序信息以及邻近语义信息执行拼接来获取上下文语义信息。

最后，针对所述待测段落中的每个待测分句，将构成每个待测分句的各个待测词语分别输入至语义机器学习模型组件，获取与各个待测词语对应的词语语义信息，其中，所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息以及所述待测词语的词语语义信息之间的对应关系进行训练得到。

具体来说，所述语义机器学习模型组件如图3所述，在图3中，所述语义机器学习模型包括更新门和重置门，其中，更新门用于控制前一时刻的状态信息被带入到当前状态中的程度，更新门的值越大说明前一时刻的状态信息带入越多。重置门用于控制忽略前一时刻的状态信息的程度，重置门的值越小说明忽略得越多。

在本申请中，所述更新门用于表示全局语义信息，而重置门用于表示上下文语义信息。

所述语义机器学习模型可按照以下公式2进行训练，从而获取参数W_r、W_z、W_h、W_o，应注意在公式2中，h(t-1)表示全局语义信息，x(t)表示待测词语的上下文语义信息，h(t)表示每个词语的词语语义信息。

在对所述语义机器学习模型训练后，可将所述待测分句中的每个待测词语分别输入机器学习模型组件，这样可获取到每个词语的词语语义信息。在将每个待测词语都执行所述操作后，可获取与多个待测词语对应的多个词语语义信息。

随后，利用各个待测词语对应的词语语义信息，获取与每个待测分句对应的初步分句语义信息。举例来说，将每个待测词语的词语语义信息拼接起来，即可获得每个待测分句的初步分句语义信息。

根据本申请的示例性实施例，在获取与每个待测分句对应的初步分句语义信息后还可将所述分句语义信息输入注意力模型，获取与所述分句语义信息对应的最终分句语义信息，其中，所述注意力模型根据分句中每个词语的注意力分布与分句的对应关系进行学习得到。也就是说，可在获取到每个词语的注意力后，从初步分句语义信息中筛选出注意力级别高的词语作为该分句的语义信息。

以上已经完成了在分句级别上确定每个分句的语义信息，随后，可将每个分句的语义信息作为待测词语，而将包括这些分句的段落作为待测句子，重复执行步骤S230。也就是说，将初步段落语义信息作为待测分句输入至所述语义机器学习模型组件，获取与第一段落语义信息对应的第二段落语义信息。随后，可将第二段落语义信息输入注意力模型，获取与所述第二段落语义信息对应的第三段落语义信息作为所述待测段落的语义信息。

根据本申请的示例性实施例的文本数据处理方法包括：获取与待测文本对应的结构，所述结构包括待测段落到待测分句到待测词语的结构；基于所述结构，在待测段落层面上，将待测段落输入到通读机器学习模型组件中，获取与所述待测段落对应的全局语义信息，其中，所述通读机器学习模型组件根据待测段落与待测段落语义之间的对应关系进行训练得到；基于所述结构，在待测词语层面上，将待测词语输入精读机器学习模型组件中，获取所述待测词语的词语语义信息，其中，所述精读机器学习模型组件是利用通读机器学习组件获取的全局语义信息进行训练得到。

可选地，所述精读机器学习模型组件被设置为按照下述方式训练得到：所述精读机器学习模型组件根据获取的全局语义信息与待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到，其中，所述待测词语对应的上下文语义信息包括所述待测词语的远程依赖信息。

可选地，在获取所述待测词语的词语语义信息后还包括：将各个待测词语的词语语义信息整合为待测分句对应的初步分句语义信息；将所述初步分句语义信息输入注意力模型，获取与所述分句语义信息对应的最终分句语义信息，其中，所述注意力模型根据分句中的每个词语的注意力分布与分句的对应关系进行学习得到。

可选地，在获取与所述分句语义信息对应的最终分句语义信息后还包括：在待测段落层面上，将待测分句对应的最终分句语义信息作为待测词语输入至所述精读机器学习模型组件中，获取初步段落语义信息。

可选地，在获取初步段落语义信息后还包括：将初步段落语义信息输入注意力模型，获取与初步段落语义信息对应的最终段落语义信息作为所述待测段落的语义信息，其中，所述注意力模型根据分句中的每个词语的注意力分布与分句的对应关系进行学习得到。

综上所述，根据本申请的示例性实施例的文本数据处理方法可结合全局语义信息确定每个词语的词语语义信息，从而能够准确理解每个词语所表达的含义，并且在此过程中，所述方法不仅可挖掘出具有空间关系的语义信息还可挖掘出具有远程依赖并且依赖程度高的语义信息，这样可在更准确地理解文本含义的情况下准确地鉴定出色情内容。更进一步地，所述方法可从不同层次上对待测段落进行递进式处理，从而更准确地确定所述待测段落的语义信息。

为了更清楚地描述本申请，以下将结合图4从另一角度上对根据本申请的示例性实施例的文本数据处理方法进行描述。

图4示出了根据本申请的示例性实施例的文本数据处理方法的示意图。

如图4中所示，可先获取与待测文本对应的结构，所述结构包括待测段落到待测分句到待测词语的结构，也就是说，先对待测文本执行分段处理，随后对每一段执行分句处理，最后对每一句执行分词处理，这样最终生成了以词语为最小划分单位的结构。

随后，针对所述结构中的每个词语执行词嵌入操作，生成词向量。在段落层次上执行操作时，可生成与所述段落对应的多维词向量，即，张量。

可将该张量输入到通读机器学习模型组件中，获取与所述待测段落对应的全局语义信息，其中，所述通读机器学习模型组件根据待测段落与待测段落语义之间的对应关系进行训练得到。

随后，可在词语层面上执行精读操作，也就是说，将待测词语输入精读机器学习模型组件中，获取所述待测词语的词语语义信息，其中，所述精读机器学习模型组件是利用通读机器学习组件获取的全局语义信息进行训练得到。

在获取与各个待测词语对应的词语语义信息后，可利用各个待测词语对应的词语语义信息，获取与每个待测分句对应的初步分句语义信息。

如图4所示，可将所述初步分句语义信息输入注意力模型，获取与所述分句语义信息对应的最终分句语义信息，其中，所述注意力模型根据分句中的每个词语的注意力分布与分句的对应关系进行学习得到。随后，根据与所述待测段落中的每个待测分句对应的最终分句语义信息，获取与所述待测段落对应的第一段落语义信息。

此时，可将第一段落语义信息中的各个词语作为待测词语输入至语义机器学习模型组件，获取与第一段落语义信息对应的第二段落语义信息。为了更准确地确定语义信息，可将第二段落语义信息输入注意力模型，获取与所述第二段落语义信息对应的第三段落语义信息作为所述待测段落的语义信息，其中，所述注意力模型根据分句中的每个词语的注意力分布与分句的对应关系进行学习得到。

为了更清楚地明白本申请的示例性实施例的发明构思，以下将参照图5描述本申请的示例性实施例的文本数据处理装置的框图。本领域普通技术人员将理解：图5中的装置仅示出了与本示例性实施例相关的组件，所述装置中还包括除了图5中示出的组件之外的通用组件。

图5示出本申请的示例性实施例的文本数据处理装置的框图。参考图5，在硬件层面，该装置包括处理器、内部总线和计算机可读存储介质，其中，所述计算机可读存储介质包括易失性存储器和非易失性存储器。处理器从非易失性存储器中读取对应的计算机程序然后运行。当然，除了软件实现方式之外，本申请并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

具体来说，所述处理器执行以下操作：获取与待测文本对应的结构，所述结构包括待测段落到待测分句到待测词语的结构；基于所述结构，获取与所述待测段落对应的全局语义信息；针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息：获取待测词语对应的上下文语义信息，其中，所述上下文语义信息包括所述待测词语的远程依赖信息；将所述待测词语输入至语义机器学习模型组件，获取与所述待测词语对应的词语语义信息，其中，所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。

可选地，所述处理器在实现步骤在获取与各个待测词语对应的词语语义信息后包括：利用各个待测词语对应的词语语义信息，获取与每个待测分句对应的初步分句语义信息。

可选地，所述处理器在实现步骤获取与每个待测分句对应的初步分句语义信息后还包括：将所述初步分句语义信息输入注意力模型，获取与所述分句语义信息对应的最终分句语义信息，其中，所述注意力模型根据分句中的每个词语的注意力分布与分句的对应关系进行学习得到。

可选地，所述处理器在实现步骤在获取最终分句语义信息后还包括：将最终分句语义信息中的各个词语作为待测词语输入至语义机器学习模型组件，获取初步段落语义信息。

可选地，所述处理器在实现步骤在获取初步段落语义信息后还包括：将初步段落语义信息输入注意力模型，获取与所述初步段落语义信息对应的最终段落语义信息作为所述待测段落的语义信息，其中，所述注意力模型根据分句中的每个词语的注意力分布与分句的对应关系进行学习得到。

可选地，所述处理器在实现步骤获取待测词语对应的上下文语义信息包括：在生成的与各个待测词语中的每个待测词语对应的词向量的基础上，对所述词向量执行利用正余弦位置嵌入处理，获取与各个待测词语对应的时序信息作为每个待测词语的上下文语义信息。

可选地，所述处理器在实现步骤获取待测词语对应的上下文语义信息包括：在生成的与各个待测词语对应的词向量的基础上，对所述词向量执行利用正余弦位置嵌入处理，获取与各个待测词语对应的时序信息；对各个待测词语分别执行卷积核处理，获取各个待测词语的邻近语义信息；通过将与各个待测词语对应的时序信息以及邻近语义信息执行拼接来获取各个待测词语的上下文语义信息。

根据本申请的示例性实施例，提供一种文本数据处理装置，所述装置包括处理器；以及被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行以下操作：获取与待测文本对应的结构，所述结构包括待测段落到待测分句到待测词语的结构；基于所述结构，在待测段落层面上，将待测段落输入到通读机器学习模型组件中，获取与所述待测段落对应的全局语义信息，其中，所述通读机器学习模型组件根据待测段落与待测段落语义之间的对应关系进行训练得到；基于所述结构，在待测词语层面上，将待测词语输入精读机器学习模型组件中，获取所述待测词语的词语语义信息，其中，所述精读机器学习模型组件是利用通读机器学习组件获取的全局语义信息进行训练得到。

可选地，所述处理器在实现步骤获取所述待测词语的词语语义信息后还包括：将各个待测词语的词语语义信息整合为待测分句对应的初步分句语义信息；将所述初步分句语义信息输入注意力模型，获取与所述分句语义信息对应的最终分句语义信息，其中，所述注意力模型根据分句中的每个词语的注意力分布与分句的对应关系进行学习得到。

可选地，所述处理器在实现步骤获取与所述分句语义信息对应的最终分句语义信息后还包括：在待测段落层面上，将待测分句对应的最终分句语义信息作为待测词语输入至所述精读机器学习模型组件中，获取初步段落语义信息。

可选地，所述处理器在实现步骤获取初步段落语义信息后还包括：将初步段落语义信息输入注意力模型，获取与初步段落语义信息对应的最终段落语义信息作为所述待测段落的语义信息，其中，所述注意力模型根据分句中的每个词语的注意力分布与分句的对应关系进行学习得到。

综上所述，根据本申请的示例性实施例的文本数据处理装置可结合全局语义信息确定每个词语的词语语义信息，从而能够准确理解每个词语所表达的含义，并且在此过程中，所述方法不仅可挖掘出具有空间关系的语义信息还可挖掘出具有远程依赖并且依赖程度高的语义信息，这样可在更准确地理解文本含义的情况下准确地鉴定出色情内容。更进一步地，所述方法可从不同层次上对待测段落进行递进式处理，从而更准确地确定所述待测段落的语义信息。

需要说明的是，实施例1所提供方法的各步骤的执行主体均可以是同一设备，或者，该方法也由不同设备作为执行主体。比如，步骤21和步骤22的执行主体可以为设备1，步骤23的执行主体可以为设备2；又比如，步骤21的执行主体可以为设备1，步骤22和步骤23的执行主体可以为设备2；等等。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种文本数据处理方法，其特征在于，包括：

获取与待测文本对应的结构，所述结构包括待测段落到待测分句到待测词语的结构；

基于所述结构，获取与所述待测段落对应的全局语义信息；

针对各个待测词语中的每个待测词语执行以下操作来获取与各个待测词语对应的词语语义信息：

获取待测词语对应的上下文语义信息，其中，所述上下文语义信息包括所述待测词语的远程依赖信息，其中，所述远程依赖信息包括待测词语与和待测词语不相邻的词语的依赖关系的信息；

将所述待测词语输入至语义机器学习模型组件，获取与所述待测词语对应的词语语义信息，其中，所述语义机器学习模型组件根据全局语义信息与所述待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到。

2.如权利要求1所述的方法，其特征在于，还包括：

利用各个待测词语对应的词语语义信息，获取与包括所述各个待测词语的待测分句对应的初步分句语义信息。

3.如权利要求2所述的方法，其特征在于，还包括：

将所述初步分句语义信息输入注意力模型，获取与所述分句语义信息对应的最终分句语义信息，其中，所述注意力模型根据分句中的每个词语的注意力分布与分句的对应关系进行训练得到。

4.如权利要求3所述的方法，其特征在于，在获取与包括所述各个待测分句的待测段落对应的第一段落语义信息后还包括：

将最终分句语义信息中的各个词语作为待测词语输入至语义机器学习模型组件，获取初步段落语义信息。

5.如权利要求4所述的方法，其特征在于，在获取初步段落语义信息后还包括：

将初步段落语义信息输入注意力模型，获取与初步段落语义信息对应的最终段落语义信息作为所述待测段落的语义信息，其中，所述注意力模型根据分句中的每个词语的注意力分布与分句的对应关系进行训练得到。

6.如权利要求1所述的方法，其特征在于，将待测文本转换为待测段落到待测分句到待测词语的结构的文本数据包括：

对所述待测段落执行分句处理，获取与所述待测段落对应的多个待测分句；

对所述多个待测分句中的每个待测分句执行分词处理，获取与所述多个待测分句中的每个待测分句对应的各个待测词语；

根据获取的多个待测分句以及与所述多个待测分句中的每个待测分句对应的各个待测词语，生成待测段落到待测分句到待测词语的结构。

7.如权利要求6所述的方法，其特征在于，利用所述结构获取与待测段落对应的全局语义信息包括：

利用所述结构获取与所述文本数据对应的张量；

将所述张量输入到全局语义机器学习模型组件，获取与所述待测段落对应的全局语义信息，其中，所述全局语义机器学习模型组件根据多个文本与文本语义信息之间的对应关系进行训练得到。

8.如权利要求7所述的方法，其特征在于，利用所述结构获取与所述文本数据对应的张量包括：

对所述结构中的各个待测词语执行词嵌入处理，生成与各个待测词语对应的各个词向量；

利用与各个词语对应的各个词向量，生成与所述待测段落对应的张量。

9.如权利要求6所述的方法，其特征在于，全局语义机器学习模型组件包括卷积神经网络组件。

10.如权利要求8所述的方法，其特征在于，获取待测词语对应的上下文语义信息包括：

在生成的与各个待测词语中的每个待测词语对应的词向量的基础上，对所述词向量执行利用正余弦位置嵌入处理，获取与各个待测词语对应的时序信息作为每个待测词语的上下文语义信息。

11.如权利要求8所述的方法，其特征在于，获取与待测词语对应的上下文语义信息包括：

在生成的与各个待测词语对应的词向量的基础上，对所述词向量执行利用正余弦位置嵌入处理，获取与各个待测词语对应的时序信息；

对各个待测词语分别执行卷积核处理，获取各个待测词语的邻近语义信息；

通过将与各个待测词语对应的时序信息以及邻近语义信息执行拼接来获取各个待测词语的上下文语义信息。

12.如权利要求1所述的方法，其特征在于，所述语义机器学习模型包括更新门和重置门，其中，更新门用于表示所述全局语义信息，重置门用于表示所述上下文语义信息。

13.一种文本数据处理装置，其特征在于，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行权利要求1至11中的任一权利要求所述的方法。

14.一种色情文学鉴定方法，其特征在于，包括：

基于所述结构，获取与所述待测段落对应的全局语义信息；

获取待测词语对应的上下文语义信息，其中，所述上下文语义信息包括所述待测词语的远程依赖信息，其中，所述远程依赖信息是待测词语与和待测词语不相邻的词语的依赖关系的信息；

15.一种文本数据处理方法，其特征在于，包括：

基于所述结构，在待测段落层面上，将待测段落输入到通读机器学习模型组件中，获取与所述待测段落对应的全局语义信息，其中，所述通读机器学习模型组件根据待测段落与待测段落语义之间的对应关系进行训练得到；

基于所述结构，在待测词语层面上，将待测词语输入精读机器学习模型组件中，获取所述待测词语的词语语义信息，其中，所述精读机器学习模型组件是利用通读机器学习组件获取的全局语义信息进行训练得到。

16.如权利要求15所述的方法，其特征在于，所述精读机器学习模型组件被设置为按照下述方式训练得到：

所述精读机器学习模型组件根据获取的全局语义信息与待测词语的上下文语义信息及其词语语义信息之间的对应关系进行训练得到，其中，所述待测词语对应的上下文语义信息包括所述待测词语的远程依赖信息，其中，所述远程依赖信息是待测词语与和待测词语不相邻的词语的依赖关系的信息。

17.如权利要求16所述的方法，其特征在于，在获取所述待测词语的词语语义信息后还包括：

将各个待测词语的词语语义信息整合为待测分句对应的初步分句语义信息；

将所述初步分句语义信息输入注意力模型，获取与所述分句语义信息对应的最终分句语义信息，其中，所述注意力模型根据分句中的每个词语的注意力分布与分句的对应关系进行学习得到。

18.如权利要求17所述的方法，其特征在于，在获取与所述分句语义信息对应的最终分句语义信息后还包括：

在待测段落层面上，将待测分句对应的最终分句语义信息作为待测词语输入至所述精读机器学习模型组件中，获取初步段落语义信息。

19.如权利要求18所述的方法，其特征在于，在获取初步段落语义信息后还包括：

将初步段落语义信息输入注意力模型，获取与初步段落语义信息对应的最终段落语义信息作为所述待测段落的语义信息，其中，所述注意力模型根据分句中的每个词语的注意力分布与分句的对应关系进行学习得到。

20.一种文本数据处理装置，其特征在于，包括：

处理器；以及

被安排成存储计算机可执行指令的存储器，所述可执行指令在被执行时使所述处理器执行权利要求15至19中的任一权利要求所述的方法。