CN111191026A - 一种能够标定特定片段的文本分类方法 - Google Patents

一种能够标定特定片段的文本分类方法 Download PDF

Info

Publication number
CN111191026A
CN111191026A CN201911257149.7A CN201911257149A CN111191026A CN 111191026 A CN111191026 A CN 111191026A CN 201911257149 A CN201911257149 A CN 201911257149A CN 111191026 A CN111191026 A CN 111191026A
Authority
CN
China
Prior art keywords
rnn
vector
article
word
specific
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911257149.7A
Other languages
English (en)
Inventor
张勇
朱立松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cntv Wuxi Co ltd
Original Assignee
Cntv Wuxi Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cntv Wuxi Co ltd filed Critical Cntv Wuxi Co ltd
Priority to CN201911257149.7A priority Critical patent/CN111191026A/zh
Publication of CN111191026A publication Critical patent/CN111191026A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明是一种能够标定特定片段的文本分类方法,该方法包括以下步骤:第1步:对文章进行分词;第2步:输入模型进行预测;第3步:标定文章中的特定片段。本发明的优点:可自动给出文本分类建议;可通过多种颜色高亮标注的形式给出分类的原因;不使用关键词高亮标注方法,可避免过多的高亮显示对审核员造成干扰;可以兼容多种行文错误。有效改善了使用效果,方便使用。本发明不仅可以正确地给出审核建议,还可以精确的标记出现错误的片段,可有助于审核人员进行快速审核。

Description

一种能够标定特定片段的文本分类方法
技术领域
本发明涉及的是一种能够标定特定片段的文本分类方法,属于计算 机文本信息处理技术领域。
背景技术
互联网能够产生大量的文本,例如某网站接受用户在线投稿,由于 作者写作水平的良莠不齐,就需要人工对这些文章进行审核,以确定哪 些文章可以被发表在网站上,哪些文章应该被拒绝。
现有技术中,为了加快审核速度,审核业务员一般会总结一组关键 词,利用火狐浏览器等软件的高亮标记功能将投稿文章中的关键词标红, 以此来辅助审核人员进行快速审核。审核的本质是文本的二分类问题。 也就是将文本分类为“PASS”和“REJECT”这两类。
现有技术存在以下缺陷:错误的文本样式千万种,而关键词标记的 方法只能标记少量的已知关键词;关键词标记方法会导致大量的高亮显 示,也就是上下文存在错误的关键词或上下文不存在错误的关键词都会 被高亮标记,过多的高亮标记会对审核员形成干扰。
发明内容
本发明提出的是一种能够标定特定片段的文本分类方法,其目的旨 在克服现有技术存在的上述缺陷,实现使用计算机不仅给出文章“PASS” 或“REJECT”的审核建议,而且通过高亮标记文章中特定片段的方式将 文章被“REJECT”的原因标记出来,改善使用效果。
本发明的技术解决方案:一种能够标定特定片段的文本分类方法, 该方法包括以下步骤:
第1步:对文章进行分词;
第2步:输入模型进行预测;
第3步:标定文章中的特定片段。
优选的,所述的第1步:根据分词算法对文章进行分词,将一篇文 章切分为一个词序列,其中的标点符号也作为一个词对待,分词之后在 序列的头部加上SOS标记表示文章的开头,在序列的末尾加上EOS标记 表示文章的结尾。
优选的,所述的第2步:输入模型进行预测,将词序列输入到循环 神经网络+注意力机制的机器学习模型中,最后的输出为预测分类标签, 即0或1,0表示“REJECT”,1表示“PASS”。
优选的,所述的第2步:输入模型进行预测,详细步骤如下:
(1)将词序列映射为特定长度的向量序列,“SOS”→V1,……,“EOS” →VN
(2)将向量序列V1,V2,V3,…,VN作为RNN在循环神经网络中在时 间序列方向上的输入;RNN为任意一种循环神经网络;h0是RNN的初始隐 藏状态、初始化为全零向量;所有的RNN都共享参数权值;当time=1时, h0和V1作为RNN的输入,输出为O1和RNN的隐状态h1;当time=2时,O1和V2作为RNN的输入,输出为O2和RNN的隐状态h2;依次类推;
(3)将RNN最后一步的输出ON输入一个单层的前向神经网络:
Z=sigmoid(W0N+B)-0.5,
W和B是该单层神经网络的权值;最终权值在模型经过训练后得到; sigmoid函数的输出在0~1之间,通过减去0.5将实际输出控制在 -0.5~+0.5范围内;向量Z的维度与0N的维度相同;
(4)将向量Z与RNN每一个时间步的隐藏状态h1,h2,…,hN作内 积,得到标量
Figure BDA0002310587940000021
表示代表RNN的 最终输出Z与每一个词的对齐程度。
(5)将标量s1,……,sN输入到Softmax层中进行概率归一化,即
Figure RE-GDA0002412106800000022
标量ai代表了RNN的最终输出Z与每一个词的对齐概率;
(6)根据ai计算RNN在所有时间步上隐状态的加权和,即
Figure RE-GDA0002412106800000023
(8)将向量Q和向量Z连接之后输入到一个分类器中进行分类。
优选的,所述的RNN为LSTM长短期记忆或GRU循环门单元,模型使 用多层双向的RNN对词序列进行处理。
优选的,所述的第3步:标定文章中的特定片段,根据ai值标定文 章中的特定片段,标定的原则是标定ai的峰值对应的词片段。
优选的,所述的第3步:标定文章中的特定片段,具体为:因为ai为经过softmax归一化后的概率值,所以
Figure BDA0002310587940000031
其中N表示文章分词 后的长度;于是其平均值为1/N,对于超过平均值1/N的ai值采用多种颜 色进行高亮标示。
本发明的优点:可自动给出文本分类建议;可通过多种颜色高亮标 注的形式给出分类的原因;不使用关键词高亮标注方法,可避免过多的 高亮显示对审核员造成干扰;可以兼容多种行文错误。有效改善了使用 效果,方便使用。本发明不仅可以正确地给出审核建议,还可以精确的 标记出现错误的片段,可有助于审核人员进行快速审核。
附图说明
图1是本发明能够标定特定片段的文本分类方法中循环神经网络+注 意力机制的机器学习模型一个实施例的示意图。
图2是本发明能够标定特定片段的文本分类方法一个实施例的示意 图。
具体实施方式
下面结合实施例和具体实施方式对本发明作进一步详细的说明。
实施例
一种能够标定特定片段的文本分类方法,该方法包括以下步骤:
第1步:对文章进行分词。例如下面是一篇网友的投稿文章:
来自速报网站情报,热门动画《鬼灭之刃》决定游戏化,将会推出 一款在PS4平台,以对战格斗为主题的动作游戏,同时玩家可扮演男主 角「炭治郎」体验原作剧情,预计2021年发售。另外,还有一款手机游 戏,将是一款非对称对战求生动作游戏,玩家可选择鬼阵营和鬼杀队阵 营相互进行战斗。
这篇文章将被切分为一个词序列,其中的标点符号也作为一个词对 待,分词之后在序列的头部加上SOS(Start Of Sequence)标记表示文 章的开头,在序列的末尾加上EOS(End Of Sequence)标记表示文章的 结尾。分词后的结果如下所示:
[“SOS”,“来自”,“速”,“报”,“网站”,“情报”,“,”,“热 门”,“动画”,“《”,“鬼”,“灭”,“之”,“刃”,“》”,“决定”, “游戏”,“化”,“,”,“将”,“会”,“推出”,“一款”,“在”,“PS4”, “平台”,“,”,“以”,“对战”,“格斗”,“为”,“主题”,“的”, “动作”,“游戏”,“,”,“同时”,“玩家”,“可”,“扮演”,“男”, “主角”,“「”,“炭”,“治”,“郎”,“」”,“体验”,“原作”,“剧情”,“,”,“预计”,“2021”,“年”,“发售”,“。”,“另外”,“,”, “还有”,“一款”,“手机”,“游戏”,“,”,“将是”,“一款”,“非”, “对称”,“对战”,“求生”,“动作”,“游戏”,“,”,“玩家”,“可”, “选择”,“鬼”,“阵营”,“和”,“鬼杀”,“队”,“阵营”,“相互”, “进行”,“战斗”,“。”,“EOS”]
分词算法是现有技术自然语言处理技术中已经成熟的基础算法,在 此不再赘述。
第2步:输入模型进行预测
将词序列输入到图1所示的模型中,最后的输出为预测分类标签(0 或1),0表示“REJECT”,1表示“PASS”。详细步骤描述如下:
第2.1步:
将词序列映射为特定长度的向量序列。例如:“SOS”→V1,“抓好” →V2,“干部”→V3,……,“EOS”→VN。映射的具体方法在模型经过训练 后得到。
第2.2步:
将向量序列V1,V2,V3,…,VN作为RNN在循环神经网络中在时间序 列方向上的输入。RNN可以是任意一种循环神经网络,例如LSTM(Long Short Term Memory,长短期记忆),或者GRU(Gated Recurrent Unit, 循环门单元)。h0是RNN的初始隐藏状态,一般可初始化为全零向量。图 1中所有的RNN都是共享参数权值的。当time=1时,h0和V1作为RNN的 输入,输出为O1和RNN的隐状态h1;当time=2时,O1和V2作为RNN的输 入,输出为O2和RNN的隐状态h2;后续依次类推。模型也可以使用多层 双向的RNN对词序列进行处理。RNN是现有技术机器学习领域公知的模 型,在此不作赘述。
第2.3步:
将RNN最后一步的输出ON输入一个单层的前向神经网络:
Z=sigmoid(W0N+B)-0.5,
W和B是该单层神经网络的权值。最终权值在模型经过训练后得到。 因为sigmoid函数的输出在0~1之间,通过减去0.5可以将实际输出控 制在-0.5~+0.5范围内。此处注意向量Z的维度与0N的维度是相同的。
第2.4步:
将向量Z与RNN每一个时间步的隐藏状态h1,h2,…,hN作内积,得 到标量
Figure BDA0002310587940000071
这些表示代表RNN的最 终输出Z与每一个词的对齐程度。
第2.5步:
将标量s1,……,sN输入到Softmax层中进行概率归一化,即
Figure RE-GDA0002412106800000052
标量ai代表了RNN的最终输出Z与每一个词的对齐概率。
第2.6步:
根据ai计算RNN在所有时间步上隐状态的加权和,即
Figure RE-GDA0002412106800000053
第2.7步:
将向量Q和向量Z连接之后输入到一个分类器中进行分类。图1中 给出的例子是使用了两层全连接的前向神经网络层加上一个Softmax层 进行分类。
第3步:根据ai值标定文章中的特定片段。标定的原则是标定ai的 峰值对应的词片段。具体办法为:因为ai为经过softmax归一化后的概 率值,所以有
Figure BDA0002310587940000074
其中显然N表示文章分词后的长度。于是其平均 值为1/N,对于超过1/N(平均值)的ai值可以采用多种颜色进行高亮标 示。例如:
1)当
Figure BDA0002310587940000081
时,对应的词高亮标示为“颜色0”;
2)当
Figure BDA0002310587940000082
时,对应的词高亮标示为“颜色1”;
3)当
Figure BDA0002310587940000083
时,对应的词高亮标示为“颜色2”;
4)当
Figure BDA0002310587940000084
时,对应的词高亮标示为“颜色3”;
5)当
Figure BDA0002310587940000085
时,对应的词高亮标示为“颜色4”;
6)当
Figure BDA0002310587940000086
时,对应的词高亮标示为“颜色5”;
7)当
Figure BDA0002310587940000087
时,对应的词高亮标示为“颜色6”;
8)当
Figure BDA0002310587940000088
时,对应的词高亮标示为“颜色7”;
9)当
Figure BDA0002310587940000089
时,对应的词高亮标示为“颜色8”。
图2是一个实例。计算机给出的审核建议为“REJECT”,高亮标示的 区域为第2行“求生动作”。文章的错误之处在于“非对称对战求生动作 游戏”应表述为“非对称对战游戏”。
由此可见,该AI模型不仅可以正确地给出审核建议,还可以精确的 标记出现错误的片段。这样有助于审核人员进行快速审核。
图1中涉及模型的参数全部由现有技术机器学习的训练过程得到, 训练过程在此不赘述。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的 普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若 干变形和改进,这些都属于本发明的保护范围。

Claims (7)

1.一种能够标定特定片段的文本分类方法,其特征是该方法包括以下步骤:
第1步:对文章进行分词;
第2步:输入模型进行预测;
第3步:标定文章中的特定片段。
2.如权利要求1所述的一种能够标定特定片段的文本分类方法,其特征是所述的第1步:根据分词算法对文章进行分词,将一篇文章切分为一个词序列,其中的标点符号也作为一个词对待,分词之后在序列的头部加上SOS标记表示文章的开头,在序列的末尾加上EOS标记表示文章的结尾。
3.如权利要求2所述的一种能够标定特定片段的文本分类方法,其特征是所述的第2步:输入模型进行预测,将词序列输入到循环神经网络+注意力机制的机器学习模型中,最后的输出为预测分类标签,即0或1,0表示“REJECT”,1表示“PASS”。
4.如权利要求3所述的一种能够标定特定片段的文本分类方法,其特征是所述的第2步:输入模型进行预测,详细步骤如下:
(1)将词序列映射为特定长度的向量序列,“SOS”→V1,……,“EOS”→VN
(2)将向量序列V1,V2,V3,…,VN作为RNN在循环神经网络中在时间序列方向上的输入;RNN为任意一种循环神经网络;h0是RNN的初始隐藏状态、初始化为全零向量;所有的RNN都共享参数权值;当time=1时,h0和V1作为RNN的输入,输出为O1和RNN的隐状态h1;当time=2时,O1和V2作为RNN的输入,输出为O2和RNN的隐状态h2;依次类推;
(3)将RNN最后一步的输出ON输入一个单层的前向神经网络:
Z=sigmoid(W0N+B)-0.5,
W和B是该单层神经网络的权值;最终权值在模型经过训练后得到;sigmoid函数的输出在0~1之间,通过减去0.5将实际输出控制在-0.5~+0.5范围内;向量Z的维度与0N的维度相同;
(4)将向量Z与RNN每一个时间步的隐藏状态h1,h2,…,hN作内积,得到标量
Figure RE-FDA0002412106790000021
表示代表RNN的最终输出Z与每一个词的对齐程度。
(5)将标量s1,……,sN输入到Softmax层中进行概率归一化,即
Figure RE-FDA0002412106790000022
标量ai代表了RNN的最终输出Z与每一个词的对齐概率;
(6)根据ai计算RNN在所有时间步上隐状态的加权和,即
Figure RE-FDA0002412106790000023
(7)将向量Q和向量Z连接之后输入到一个分类器中进行分类。
5.如权利要求4所述的一种能够标定特定片段的文本分类方法,其特征是所述的RNN为LSTM长短期记忆或GRU循环门单元,模型使用多层双向的RNN对词序列进行处理。
6.如权利要求4或5所述的一种能够标定特定片段的文本分类方法,其特征是所述的第3步:标定文章中的特定片段,根据ai值标定文章中的特定片段,标定的原则是标定ai的峰值对应的词片段。
7.如权利要求6所述的一种能够标定特定片段的文本分类方法,其特征是所述的第3步:标定文章中的特定片段,具体为:因为ai为经过softmax归一化后的概率值,所以
Figure FDA0002310587930000024
其中N表示文章分词后的长度;于是其平均值为1/N,对于超过平均值1/N的ai值采用多种颜色进行高亮标示。
CN201911257149.7A 2019-12-10 2019-12-10 一种能够标定特定片段的文本分类方法 Pending CN111191026A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911257149.7A CN111191026A (zh) 2019-12-10 2019-12-10 一种能够标定特定片段的文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911257149.7A CN111191026A (zh) 2019-12-10 2019-12-10 一种能够标定特定片段的文本分类方法

Publications (1)

Publication Number Publication Date
CN111191026A true CN111191026A (zh) 2020-05-22

Family

ID=70709195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911257149.7A Pending CN111191026A (zh) 2019-12-10 2019-12-10 一种能够标定特定片段的文本分类方法

Country Status (1)

Country Link
CN (1) CN111191026A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779173A (zh) * 2012-06-25 2012-11-14 北京奇虎科技有限公司 网页文本高亮显示方法及系统
US20170083484A1 (en) * 2015-09-21 2017-03-23 Tata Consultancy Services Limited Tagging text snippets
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
CN108170680A (zh) * 2017-12-29 2018-06-15 厦门市美亚柏科信息股份有限公司 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质
CN109086355A (zh) * 2018-07-18 2018-12-25 北京航天云路有限公司 基于新闻主题词的热点关联关系分析方法及系统
CN109992780A (zh) * 2019-03-29 2019-07-09 哈尔滨理工大学 一种基于深度神经网络特定目标情感分类方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779173A (zh) * 2012-06-25 2012-11-14 北京奇虎科技有限公司 网页文本高亮显示方法及系统
US20170083484A1 (en) * 2015-09-21 2017-03-23 Tata Consultancy Services Limited Tagging text snippets
CN108121700A (zh) * 2017-12-21 2018-06-05 北京奇艺世纪科技有限公司 一种关键词提取方法、装置及电子设备
CN108170680A (zh) * 2017-12-29 2018-06-15 厦门市美亚柏科信息股份有限公司 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质
CN109086355A (zh) * 2018-07-18 2018-12-25 北京航天云路有限公司 基于新闻主题词的热点关联关系分析方法及系统
CN109992780A (zh) * 2019-03-29 2019-07-09 哈尔滨理工大学 一种基于深度神经网络特定目标情感分类方法

Similar Documents

Publication Publication Date Title
CN110852087B (zh) 中文纠错方法和装置、存储介质及电子装置
CN107133224B (zh) 一种基于主题词的语言生成方法
CN110287320B (zh) 一种结合注意力机制的深度学习多分类情感分析模型
Li et al. Imbalanced text sentiment classification using universal and domain-specific knowledge
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
Mao et al. Explain images with multimodal recurrent neural networks
CN111563166B (zh) 一种针对数学问题分类的预训练模型方法
CN108830287A (zh) 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法
CN109783657A (zh) 基于受限文本空间的多步自注意力跨媒体检索方法及系统
CN107203511A (zh) 一种基于神经网络概率消歧的网络文本命名实体识别方法
CN108874997A (zh) 一种面向电影评论的人名命名实体识别方法
CN108763216A (zh) 一种基于中文数据集的文本情感分析方法
CN109977416A (zh) 一种多层次自然语言反垃圾文本方法及系统
CN110287323B (zh) 一种面向目标的情感分类方法
CN107862087A (zh) 基于大数据和深度学习的情感分析方法、装置和存储介质
Zhang et al. Building emotional conversation systems using multi-task Seq2Seq learning
CN109858039A (zh) 一种文本信息识别方法及识别装置
CN112015862B (zh) 基于层级多通道注意力的用户异常评论检测方法及系统
CN110502626A (zh) 一种基于卷积神经网络的方面级情感分析方法
CN111078866A (zh) 一种基于序列到序列模型的中文文本摘要生成方法
CN110727844B (zh) 一种基于生成对抗网络的在线评论商品特征观点提取方法
CN110276396B (zh) 基于物体显著性和跨模态融合特征的图片描述生成方法
CN110134934A (zh) 文本情感分析方法和装置
CN111538841B (zh) 基于知识互蒸馏的评论情感分析方法、装置及系统
CN107918778A (zh) 一种信息匹配方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination