CN111191026A

CN111191026A - 一种能够标定特定片段的文本分类方法

Info

Publication number: CN111191026A
Application number: CN201911257149.7A
Authority: CN
Inventors: 张勇; 朱立松
Original assignee: Cntv Wuxi Co ltd
Current assignee: Cntv Wuxi Co ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-05-22

Abstract

本发明是一种能够标定特定片段的文本分类方法，该方法包括以下步骤：第1步：对文章进行分词；第2步：输入模型进行预测；第3步：标定文章中的特定片段。本发明的优点：可自动给出文本分类建议；可通过多种颜色高亮标注的形式给出分类的原因；不使用关键词高亮标注方法，可避免过多的高亮显示对审核员造成干扰；可以兼容多种行文错误。有效改善了使用效果，方便使用。本发明不仅可以正确地给出审核建议，还可以精确的标记出现错误的片段，可有助于审核人员进行快速审核。

Description

一种能够标定特定片段的文本分类方法

技术领域

本发明涉及的是一种能够标定特定片段的文本分类方法，属于计算机文本信息处理技术领域。

背景技术

互联网能够产生大量的文本，例如某网站接受用户在线投稿，由于作者写作水平的良莠不齐，就需要人工对这些文章进行审核，以确定哪些文章可以被发表在网站上，哪些文章应该被拒绝。

现有技术中，为了加快审核速度，审核业务员一般会总结一组关键词，利用火狐浏览器等软件的高亮标记功能将投稿文章中的关键词标红，以此来辅助审核人员进行快速审核。审核的本质是文本的二分类问题。也就是将文本分类为“PASS”和“REJECT”这两类。

现有技术存在以下缺陷：错误的文本样式千万种，而关键词标记的方法只能标记少量的已知关键词；关键词标记方法会导致大量的高亮显示，也就是上下文存在错误的关键词或上下文不存在错误的关键词都会被高亮标记，过多的高亮标记会对审核员形成干扰。

发明内容

本发明提出的是一种能够标定特定片段的文本分类方法，其目的旨在克服现有技术存在的上述缺陷，实现使用计算机不仅给出文章“PASS” 或“REJECT”的审核建议，而且通过高亮标记文章中特定片段的方式将文章被“REJECT”的原因标记出来，改善使用效果。

本发明的技术解决方案：一种能够标定特定片段的文本分类方法，该方法包括以下步骤：

第1步：对文章进行分词；

第2步：输入模型进行预测；

第3步：标定文章中的特定片段。

优选的，所述的第1步：根据分词算法对文章进行分词，将一篇文章切分为一个词序列，其中的标点符号也作为一个词对待，分词之后在序列的头部加上SOS标记表示文章的开头，在序列的末尾加上EOS标记表示文章的结尾。

优选的，所述的第2步：输入模型进行预测，将词序列输入到循环神经网络+注意力机制的机器学习模型中，最后的输出为预测分类标签，即0或1，0表示“REJECT”，1表示“PASS”。

优选的，所述的第2步：输入模型进行预测，详细步骤如下：

(1)将词序列映射为特定长度的向量序列，“SOS”→V₁，……，“EOS” →V_N；

(2)将向量序列V₁，V₂，V₃，…，V_N作为RNN在循环神经网络中在时间序列方向上的输入；RNN为任意一种循环神经网络；h₀是RNN的初始隐藏状态、初始化为全零向量；所有的RNN都共享参数权值；当time＝1时， h₀和V₁作为RNN的输入，输出为O₁和RNN的隐状态h₁；当time＝2时，O₁和V₂作为RNN的输入，输出为O₂和RNN的隐状态h₂；依次类推；

(3)将RNN最后一步的输出O_N输入一个单层的前向神经网络：

Z＝sigmoid(W0_N+B)-0.5,

W和B是该单层神经网络的权值；最终权值在模型经过训练后得到； sigmoid函数的输出在0～1之间，通过减去0.5将实际输出控制在 -0.5～+0.5范围内；向量Z的维度与0_N的维度相同；

(4)将向量Z与RNN每一个时间步的隐藏状态h₁，h₂，…，h_N作内积，得到标量

表示代表RNN的最终输出Z与每一个词的对齐程度。

(5)将标量s₁，……，s_N输入到Softmax层中进行概率归一化，即

标量a_i代表了RNN的最终输出Z与每一个词的对齐概率；

(6)根据a_i计算RNN在所有时间步上隐状态的加权和，即

(8)将向量Q和向量Z连接之后输入到一个分类器中进行分类。

优选的，所述的RNN为LSTM长短期记忆或GRU循环门单元，模型使用多层双向的RNN对词序列进行处理。

优选的，所述的第3步：标定文章中的特定片段，根据a_i值标定文章中的特定片段，标定的原则是标定a_i的峰值对应的词片段。

优选的，所述的第3步：标定文章中的特定片段，具体为：因为a_i为经过softmax归一化后的概率值，所以

其中N表示文章分词后的长度；于是其平均值为1/N，对于超过平均值1/N的a_i值采用多种颜色进行高亮标示。

本发明的优点：可自动给出文本分类建议；可通过多种颜色高亮标注的形式给出分类的原因；不使用关键词高亮标注方法，可避免过多的高亮显示对审核员造成干扰；可以兼容多种行文错误。有效改善了使用效果，方便使用。本发明不仅可以正确地给出审核建议，还可以精确的标记出现错误的片段，可有助于审核人员进行快速审核。

附图说明

图1是本发明能够标定特定片段的文本分类方法中循环神经网络+注意力机制的机器学习模型一个实施例的示意图。

图2是本发明能够标定特定片段的文本分类方法一个实施例的示意图。

具体实施方式

下面结合实施例和具体实施方式对本发明作进一步详细的说明。

实施例

一种能够标定特定片段的文本分类方法，该方法包括以下步骤：

第1步：对文章进行分词。例如下面是一篇网友的投稿文章：

来自速报网站情报，热门动画《鬼灭之刃》决定游戏化，将会推出一款在PS4平台，以对战格斗为主题的动作游戏，同时玩家可扮演男主角「炭治郎」体验原作剧情，预计2021年发售。另外，还有一款手机游戏，将是一款非对称对战求生动作游戏，玩家可选择鬼阵营和鬼杀队阵营相互进行战斗。

这篇文章将被切分为一个词序列，其中的标点符号也作为一个词对待，分词之后在序列的头部加上SOS(Start Of Sequence)标记表示文章的开头，在序列的末尾加上EOS(End Of Sequence)标记表示文章的结尾。分词后的结果如下所示：

[“SOS”,“来自”,“速”,“报”,“网站”,“情报”,“，”,“热门”,“动画”,“《”,“鬼”,“灭”,“之”,“刃”,“》”,“决定”, “游戏”,“化”,“，”,“将”,“会”,“推出”,“一款”,“在”,“PS4”, “平台”,“，”,“以”,“对战”,“格斗”,“为”,“主题”,“的”, “动作”,“游戏”,“，”,“同时”,“玩家”,“可”,“扮演”,“男”, “主角”,“「”,“炭”,“治”,“郎”,“」”,“体验”,“原作”,“剧情”,“，”,“预计”,“2021”,“年”,“发售”,“。”,“另外”,“，”, “还有”,“一款”,“手机”,“游戏”,“，”,“将是”,“一款”,“非”, “对称”,“对战”,“求生”,“动作”,“游戏”,“，”,“玩家”,“可”, “选择”,“鬼”,“阵营”,“和”,“鬼杀”,“队”,“阵营”,“相互”, “进行”,“战斗”,“。”,“EOS”]

分词算法是现有技术自然语言处理技术中已经成熟的基础算法，在此不再赘述。

第2步：输入模型进行预测

将词序列输入到图1所示的模型中，最后的输出为预测分类标签(0 或1)，0表示“REJECT”，1表示“PASS”。详细步骤描述如下：

第2.1步：

将词序列映射为特定长度的向量序列。例如：“SOS”→V₁，“抓好” →V₂，“干部”→V₃，……，“EOS”→V_N。映射的具体方法在模型经过训练后得到。

第2.2步：

将向量序列V₁，V₂，V₃，…，V_N作为RNN在循环神经网络中在时间序列方向上的输入。RNN可以是任意一种循环神经网络，例如LSTM(Long Short Term Memory，长短期记忆)，或者GRU(Gated Recurrent Unit，循环门单元)。h₀是RNN的初始隐藏状态，一般可初始化为全零向量。图 1中所有的RNN都是共享参数权值的。当time＝1时，h₀和V₁作为RNN的输入，输出为O₁和RNN的隐状态h₁；当time＝2时，O₁和V₂作为RNN的输入，输出为O₂和RNN的隐状态h₂；后续依次类推。模型也可以使用多层双向的RNN对词序列进行处理。RNN是现有技术机器学习领域公知的模型，在此不作赘述。

第2.3步：

将RNN最后一步的输出O_N输入一个单层的前向神经网络：

Z＝sigmoid(W0_N+B)-0.5,

W和B是该单层神经网络的权值。最终权值在模型经过训练后得到。因为sigmoid函数的输出在0～1之间，通过减去0.5可以将实际输出控制在-0.5～+0.5范围内。此处注意向量Z的维度与0_N的维度是相同的。

第2.4步：

将向量Z与RNN每一个时间步的隐藏状态h₁，h₂，…，h_N作内积，得到标量

这些表示代表RNN的最终输出Z与每一个词的对齐程度。

第2.5步：

将标量s₁，……，s_N输入到Softmax层中进行概率归一化，即

标量a_i代表了RNN的最终输出Z与每一个词的对齐概率。

第2.6步：

根据a_i计算RNN在所有时间步上隐状态的加权和，即

第2.7步：

将向量Q和向量Z连接之后输入到一个分类器中进行分类。图1中给出的例子是使用了两层全连接的前向神经网络层加上一个Softmax层进行分类。

第3步：根据a_i值标定文章中的特定片段。标定的原则是标定a_i的峰值对应的词片段。具体办法为：因为a_i为经过softmax归一化后的概率值，所以有

其中显然N表示文章分词后的长度。于是其平均值为1/N，对于超过1/N(平均值)的a_i值可以采用多种颜色进行高亮标示。例如：

1)当

时，对应的词高亮标示为“颜色0”；

2)当

时，对应的词高亮标示为“颜色1”；

3)当

时，对应的词高亮标示为“颜色2”；

4)当

时，对应的词高亮标示为“颜色3”；

5)当

时，对应的词高亮标示为“颜色4”；

6)当

时，对应的词高亮标示为“颜色5”；

7)当

时，对应的词高亮标示为“颜色6”；

8)当

时，对应的词高亮标示为“颜色7”；

9)当

时，对应的词高亮标示为“颜色8”。

图2是一个实例。计算机给出的审核建议为“REJECT”，高亮标示的区域为第2行“求生动作”。文章的错误之处在于“非对称对战求生动作游戏”应表述为“非对称对战游戏”。

由此可见，该AI模型不仅可以正确地给出审核建议，还可以精确的标记出现错误的片段。这样有助于审核人员进行快速审核。

图1中涉及模型的参数全部由现有技术机器学习的训练过程得到，训练过程在此不赘述。

以上所述的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种能够标定特定片段的文本分类方法，其特征是该方法包括以下步骤：

第1步：对文章进行分词；

第2步：输入模型进行预测；

第3步：标定文章中的特定片段。

2.如权利要求1所述的一种能够标定特定片段的文本分类方法，其特征是所述的第1步：根据分词算法对文章进行分词，将一篇文章切分为一个词序列，其中的标点符号也作为一个词对待，分词之后在序列的头部加上SOS标记表示文章的开头，在序列的末尾加上EOS标记表示文章的结尾。

3.如权利要求2所述的一种能够标定特定片段的文本分类方法，其特征是所述的第2步：输入模型进行预测，将词序列输入到循环神经网络+注意力机制的机器学习模型中，最后的输出为预测分类标签，即0或1，0表示“REJECT”，1表示“PASS”。

4.如权利要求3所述的一种能够标定特定片段的文本分类方法，其特征是所述的第2步：输入模型进行预测，详细步骤如下：

(1)将词序列映射为特定长度的向量序列，“SOS”→V₁，……，“EOS”→V_N；

(2)将向量序列V₁，V₂，V₃，…，V_N作为RNN在循环神经网络中在时间序列方向上的输入；RNN为任意一种循环神经网络；h₀是RNN的初始隐藏状态、初始化为全零向量；所有的RNN都共享参数权值；当time＝1时，h₀和V₁作为RNN的输入，输出为O₁和RNN的隐状态h₁；当time＝2时，O₁和V₂作为RNN的输入，输出为O₂和RNN的隐状态h₂；依次类推；

(3)将RNN最后一步的输出O_N输入一个单层的前向神经网络：

Z＝sigmoid(W0_N+B)-0.5,

W和B是该单层神经网络的权值；最终权值在模型经过训练后得到；sigmoid函数的输出在0～1之间，通过减去0.5将实际输出控制在-0.5～+0.5范围内；向量Z的维度与0_N的维度相同；

表示代表RNN的最终输出Z与每一个词的对齐程度。

标量a_i代表了RNN的最终输出Z与每一个词的对齐概率；

(6)根据a_i计算RNN在所有时间步上隐状态的加权和，即

(7)将向量Q和向量Z连接之后输入到一个分类器中进行分类。

5.如权利要求4所述的一种能够标定特定片段的文本分类方法，其特征是所述的RNN为LSTM长短期记忆或GRU循环门单元，模型使用多层双向的RNN对词序列进行处理。

6.如权利要求4或5所述的一种能够标定特定片段的文本分类方法，其特征是所述的第3步：标定文章中的特定片段，根据a_i值标定文章中的特定片段，标定的原则是标定a_i的峰值对应的词片段。

7.如权利要求6所述的一种能够标定特定片段的文本分类方法，其特征是所述的第3步：标定文章中的特定片段，具体为：因为a_i为经过softmax归一化后的概率值，所以