CN111191026A - 一种能够标定特定片段的文本分类方法 - Google Patents
一种能够标定特定片段的文本分类方法 Download PDFInfo
- Publication number
- CN111191026A CN111191026A CN201911257149.7A CN201911257149A CN111191026A CN 111191026 A CN111191026 A CN 111191026A CN 201911257149 A CN201911257149 A CN 201911257149A CN 111191026 A CN111191026 A CN 111191026A
- Authority
- CN
- China
- Prior art keywords
- rnn
- vector
- article
- word
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明是一种能够标定特定片段的文本分类方法,该方法包括以下步骤:第1步:对文章进行分词;第2步:输入模型进行预测;第3步:标定文章中的特定片段。本发明的优点:可自动给出文本分类建议;可通过多种颜色高亮标注的形式给出分类的原因;不使用关键词高亮标注方法,可避免过多的高亮显示对审核员造成干扰;可以兼容多种行文错误。有效改善了使用效果,方便使用。本发明不仅可以正确地给出审核建议,还可以精确的标记出现错误的片段,可有助于审核人员进行快速审核。
Description
技术领域
本发明涉及的是一种能够标定特定片段的文本分类方法,属于计算 机文本信息处理技术领域。
背景技术
互联网能够产生大量的文本,例如某网站接受用户在线投稿,由于 作者写作水平的良莠不齐,就需要人工对这些文章进行审核,以确定哪 些文章可以被发表在网站上,哪些文章应该被拒绝。
现有技术中,为了加快审核速度,审核业务员一般会总结一组关键 词,利用火狐浏览器等软件的高亮标记功能将投稿文章中的关键词标红, 以此来辅助审核人员进行快速审核。审核的本质是文本的二分类问题。 也就是将文本分类为“PASS”和“REJECT”这两类。
现有技术存在以下缺陷:错误的文本样式千万种,而关键词标记的 方法只能标记少量的已知关键词;关键词标记方法会导致大量的高亮显 示,也就是上下文存在错误的关键词或上下文不存在错误的关键词都会 被高亮标记,过多的高亮标记会对审核员形成干扰。
发明内容
本发明提出的是一种能够标定特定片段的文本分类方法,其目的旨 在克服现有技术存在的上述缺陷,实现使用计算机不仅给出文章“PASS” 或“REJECT”的审核建议,而且通过高亮标记文章中特定片段的方式将 文章被“REJECT”的原因标记出来,改善使用效果。
本发明的技术解决方案:一种能够标定特定片段的文本分类方法, 该方法包括以下步骤:
第1步:对文章进行分词;
第2步:输入模型进行预测;
第3步:标定文章中的特定片段。
优选的,所述的第1步:根据分词算法对文章进行分词,将一篇文 章切分为一个词序列,其中的标点符号也作为一个词对待,分词之后在 序列的头部加上SOS标记表示文章的开头,在序列的末尾加上EOS标记 表示文章的结尾。
优选的,所述的第2步:输入模型进行预测,将词序列输入到循环 神经网络+注意力机制的机器学习模型中,最后的输出为预测分类标签, 即0或1,0表示“REJECT”,1表示“PASS”。
优选的,所述的第2步:输入模型进行预测,详细步骤如下:
(1)将词序列映射为特定长度的向量序列,“SOS”→V1,……,“EOS” →VN;
(2)将向量序列V1,V2,V3,…,VN作为RNN在循环神经网络中在时 间序列方向上的输入;RNN为任意一种循环神经网络;h0是RNN的初始隐 藏状态、初始化为全零向量;所有的RNN都共享参数权值;当time=1时, h0和V1作为RNN的输入,输出为O1和RNN的隐状态h1;当time=2时,O1和V2作为RNN的输入,输出为O2和RNN的隐状态h2;依次类推;
(3)将RNN最后一步的输出ON输入一个单层的前向神经网络:
Z=sigmoid(W0N+B)-0.5,
W和B是该单层神经网络的权值;最终权值在模型经过训练后得到; sigmoid函数的输出在0~1之间,通过减去0.5将实际输出控制在 -0.5~+0.5范围内;向量Z的维度与0N的维度相同;
(5)将标量s1,……,sN输入到Softmax层中进行概率归一化,即
标量ai代表了RNN的最终输出Z与每一个词的对齐概率;
(6)根据ai计算RNN在所有时间步上隐状态的加权和,即
(8)将向量Q和向量Z连接之后输入到一个分类器中进行分类。
优选的,所述的RNN为LSTM长短期记忆或GRU循环门单元,模型使 用多层双向的RNN对词序列进行处理。
优选的,所述的第3步:标定文章中的特定片段,根据ai值标定文 章中的特定片段,标定的原则是标定ai的峰值对应的词片段。
优选的,所述的第3步:标定文章中的特定片段,具体为:因为ai为经过softmax归一化后的概率值,所以其中N表示文章分词 后的长度;于是其平均值为1/N,对于超过平均值1/N的ai值采用多种颜 色进行高亮标示。
本发明的优点:可自动给出文本分类建议;可通过多种颜色高亮标 注的形式给出分类的原因;不使用关键词高亮标注方法,可避免过多的 高亮显示对审核员造成干扰;可以兼容多种行文错误。有效改善了使用 效果,方便使用。本发明不仅可以正确地给出审核建议,还可以精确的 标记出现错误的片段,可有助于审核人员进行快速审核。
附图说明
图1是本发明能够标定特定片段的文本分类方法中循环神经网络+注 意力机制的机器学习模型一个实施例的示意图。
图2是本发明能够标定特定片段的文本分类方法一个实施例的示意 图。
具体实施方式
下面结合实施例和具体实施方式对本发明作进一步详细的说明。
实施例
一种能够标定特定片段的文本分类方法,该方法包括以下步骤:
第1步:对文章进行分词。例如下面是一篇网友的投稿文章:
来自速报网站情报,热门动画《鬼灭之刃》决定游戏化,将会推出 一款在PS4平台,以对战格斗为主题的动作游戏,同时玩家可扮演男主 角「炭治郎」体验原作剧情,预计2021年发售。另外,还有一款手机游 戏,将是一款非对称对战求生动作游戏,玩家可选择鬼阵营和鬼杀队阵 营相互进行战斗。
这篇文章将被切分为一个词序列,其中的标点符号也作为一个词对 待,分词之后在序列的头部加上SOS(Start Of Sequence)标记表示文 章的开头,在序列的末尾加上EOS(End Of Sequence)标记表示文章的 结尾。分词后的结果如下所示:
[“SOS”,“来自”,“速”,“报”,“网站”,“情报”,“,”,“热 门”,“动画”,“《”,“鬼”,“灭”,“之”,“刃”,“》”,“决定”, “游戏”,“化”,“,”,“将”,“会”,“推出”,“一款”,“在”,“PS4”, “平台”,“,”,“以”,“对战”,“格斗”,“为”,“主题”,“的”, “动作”,“游戏”,“,”,“同时”,“玩家”,“可”,“扮演”,“男”, “主角”,“「”,“炭”,“治”,“郎”,“」”,“体验”,“原作”,“剧情”,“,”,“预计”,“2021”,“年”,“发售”,“。”,“另外”,“,”, “还有”,“一款”,“手机”,“游戏”,“,”,“将是”,“一款”,“非”, “对称”,“对战”,“求生”,“动作”,“游戏”,“,”,“玩家”,“可”, “选择”,“鬼”,“阵营”,“和”,“鬼杀”,“队”,“阵营”,“相互”, “进行”,“战斗”,“。”,“EOS”]
分词算法是现有技术自然语言处理技术中已经成熟的基础算法,在 此不再赘述。
第2步:输入模型进行预测
将词序列输入到图1所示的模型中,最后的输出为预测分类标签(0 或1),0表示“REJECT”,1表示“PASS”。详细步骤描述如下:
第2.1步:
将词序列映射为特定长度的向量序列。例如:“SOS”→V1,“抓好” →V2,“干部”→V3,……,“EOS”→VN。映射的具体方法在模型经过训练 后得到。
第2.2步:
将向量序列V1,V2,V3,…,VN作为RNN在循环神经网络中在时间序 列方向上的输入。RNN可以是任意一种循环神经网络,例如LSTM(Long Short Term Memory,长短期记忆),或者GRU(Gated Recurrent Unit, 循环门单元)。h0是RNN的初始隐藏状态,一般可初始化为全零向量。图 1中所有的RNN都是共享参数权值的。当time=1时,h0和V1作为RNN的 输入,输出为O1和RNN的隐状态h1;当time=2时,O1和V2作为RNN的输 入,输出为O2和RNN的隐状态h2;后续依次类推。模型也可以使用多层 双向的RNN对词序列进行处理。RNN是现有技术机器学习领域公知的模 型,在此不作赘述。
第2.3步:
将RNN最后一步的输出ON输入一个单层的前向神经网络:
Z=sigmoid(W0N+B)-0.5,
W和B是该单层神经网络的权值。最终权值在模型经过训练后得到。 因为sigmoid函数的输出在0~1之间,通过减去0.5可以将实际输出控 制在-0.5~+0.5范围内。此处注意向量Z的维度与0N的维度是相同的。
第2.4步:
第2.5步:
将标量s1,……,sN输入到Softmax层中进行概率归一化,即
标量ai代表了RNN的最终输出Z与每一个词的对齐概率。
第2.6步:
根据ai计算RNN在所有时间步上隐状态的加权和,即
第2.7步:
将向量Q和向量Z连接之后输入到一个分类器中进行分类。图1中 给出的例子是使用了两层全连接的前向神经网络层加上一个Softmax层 进行分类。
第3步:根据ai值标定文章中的特定片段。标定的原则是标定ai的 峰值对应的词片段。具体办法为:因为ai为经过softmax归一化后的概 率值,所以有其中显然N表示文章分词后的长度。于是其平均 值为1/N,对于超过1/N(平均值)的ai值可以采用多种颜色进行高亮标 示。例如:
图2是一个实例。计算机给出的审核建议为“REJECT”,高亮标示的 区域为第2行“求生动作”。文章的错误之处在于“非对称对战求生动作 游戏”应表述为“非对称对战游戏”。
由此可见,该AI模型不仅可以正确地给出审核建议,还可以精确的 标记出现错误的片段。这样有助于审核人员进行快速审核。
图1中涉及模型的参数全部由现有技术机器学习的训练过程得到, 训练过程在此不赘述。
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的 普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若 干变形和改进,这些都属于本发明的保护范围。
Claims (7)
1.一种能够标定特定片段的文本分类方法,其特征是该方法包括以下步骤:
第1步:对文章进行分词;
第2步:输入模型进行预测;
第3步:标定文章中的特定片段。
2.如权利要求1所述的一种能够标定特定片段的文本分类方法,其特征是所述的第1步:根据分词算法对文章进行分词,将一篇文章切分为一个词序列,其中的标点符号也作为一个词对待,分词之后在序列的头部加上SOS标记表示文章的开头,在序列的末尾加上EOS标记表示文章的结尾。
3.如权利要求2所述的一种能够标定特定片段的文本分类方法,其特征是所述的第2步:输入模型进行预测,将词序列输入到循环神经网络+注意力机制的机器学习模型中,最后的输出为预测分类标签,即0或1,0表示“REJECT”,1表示“PASS”。
4.如权利要求3所述的一种能够标定特定片段的文本分类方法,其特征是所述的第2步:输入模型进行预测,详细步骤如下:
(1)将词序列映射为特定长度的向量序列,“SOS”→V1,……,“EOS”→VN;
(2)将向量序列V1,V2,V3,…,VN作为RNN在循环神经网络中在时间序列方向上的输入;RNN为任意一种循环神经网络;h0是RNN的初始隐藏状态、初始化为全零向量;所有的RNN都共享参数权值;当time=1时,h0和V1作为RNN的输入,输出为O1和RNN的隐状态h1;当time=2时,O1和V2作为RNN的输入,输出为O2和RNN的隐状态h2;依次类推;
(3)将RNN最后一步的输出ON输入一个单层的前向神经网络:
Z=sigmoid(W0N+B)-0.5,
W和B是该单层神经网络的权值;最终权值在模型经过训练后得到;sigmoid函数的输出在0~1之间,通过减去0.5将实际输出控制在-0.5~+0.5范围内;向量Z的维度与0N的维度相同;
(5)将标量s1,……,sN输入到Softmax层中进行概率归一化,即
标量ai代表了RNN的最终输出Z与每一个词的对齐概率;
(6)根据ai计算RNN在所有时间步上隐状态的加权和,即
(7)将向量Q和向量Z连接之后输入到一个分类器中进行分类。
5.如权利要求4所述的一种能够标定特定片段的文本分类方法,其特征是所述的RNN为LSTM长短期记忆或GRU循环门单元,模型使用多层双向的RNN对词序列进行处理。
6.如权利要求4或5所述的一种能够标定特定片段的文本分类方法,其特征是所述的第3步:标定文章中的特定片段,根据ai值标定文章中的特定片段,标定的原则是标定ai的峰值对应的词片段。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911257149.7A CN111191026A (zh) | 2019-12-10 | 2019-12-10 | 一种能够标定特定片段的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911257149.7A CN111191026A (zh) | 2019-12-10 | 2019-12-10 | 一种能够标定特定片段的文本分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111191026A true CN111191026A (zh) | 2020-05-22 |
Family
ID=70709195
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911257149.7A Pending CN111191026A (zh) | 2019-12-10 | 2019-12-10 | 一种能够标定特定片段的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111191026A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779173A (zh) * | 2012-06-25 | 2012-11-14 | 北京奇虎科技有限公司 | 网页文本高亮显示方法及系统 |
US20170083484A1 (en) * | 2015-09-21 | 2017-03-23 | Tata Consultancy Services Limited | Tagging text snippets |
CN108121700A (zh) * | 2017-12-21 | 2018-06-05 | 北京奇艺世纪科技有限公司 | 一种关键词提取方法、装置及电子设备 |
CN108170680A (zh) * | 2017-12-29 | 2018-06-15 | 厦门市美亚柏科信息股份有限公司 | 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质 |
CN109086355A (zh) * | 2018-07-18 | 2018-12-25 | 北京航天云路有限公司 | 基于新闻主题词的热点关联关系分析方法及系统 |
CN109992780A (zh) * | 2019-03-29 | 2019-07-09 | 哈尔滨理工大学 | 一种基于深度神经网络特定目标情感分类方法 |
-
2019
- 2019-12-10 CN CN201911257149.7A patent/CN111191026A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779173A (zh) * | 2012-06-25 | 2012-11-14 | 北京奇虎科技有限公司 | 网页文本高亮显示方法及系统 |
US20170083484A1 (en) * | 2015-09-21 | 2017-03-23 | Tata Consultancy Services Limited | Tagging text snippets |
CN108121700A (zh) * | 2017-12-21 | 2018-06-05 | 北京奇艺世纪科技有限公司 | 一种关键词提取方法、装置及电子设备 |
CN108170680A (zh) * | 2017-12-29 | 2018-06-15 | 厦门市美亚柏科信息股份有限公司 | 基于隐马尔科夫模型的关键词识别方法、终端设备及存储介质 |
CN109086355A (zh) * | 2018-07-18 | 2018-12-25 | 北京航天云路有限公司 | 基于新闻主题词的热点关联关系分析方法及系统 |
CN109992780A (zh) * | 2019-03-29 | 2019-07-09 | 哈尔滨理工大学 | 一种基于深度神经网络特定目标情感分类方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110852087B (zh) | 中文纠错方法和装置、存储介质及电子装置 | |
CN107133224B (zh) | 一种基于主题词的语言生成方法 | |
CN110287320B (zh) | 一种结合注意力机制的深度学习多分类情感分析模型 | |
Li et al. | Imbalanced text sentiment classification using universal and domain-specific knowledge | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
Mao et al. | Explain images with multimodal recurrent neural networks | |
CN111563166B (zh) | 一种针对数学问题分类的预训练模型方法 | |
CN108830287A (zh) | 基于残差连接的Inception网络结合多层GRU的中文图像语义描述方法 | |
CN109783657A (zh) | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 | |
CN107203511A (zh) | 一种基于神经网络概率消歧的网络文本命名实体识别方法 | |
CN108874997A (zh) | 一种面向电影评论的人名命名实体识别方法 | |
CN108763216A (zh) | 一种基于中文数据集的文本情感分析方法 | |
CN109977416A (zh) | 一种多层次自然语言反垃圾文本方法及系统 | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN107862087A (zh) | 基于大数据和深度学习的情感分析方法、装置和存储介质 | |
Zhang et al. | Building emotional conversation systems using multi-task Seq2Seq learning | |
CN109858039A (zh) | 一种文本信息识别方法及识别装置 | |
CN112015862B (zh) | 基于层级多通道注意力的用户异常评论检测方法及系统 | |
CN110502626A (zh) | 一种基于卷积神经网络的方面级情感分析方法 | |
CN111078866A (zh) | 一种基于序列到序列模型的中文文本摘要生成方法 | |
CN110727844B (zh) | 一种基于生成对抗网络的在线评论商品特征观点提取方法 | |
CN110276396B (zh) | 基于物体显著性和跨模态融合特征的图片描述生成方法 | |
CN110134934A (zh) | 文本情感分析方法和装置 | |
CN111538841B (zh) | 基于知识互蒸馏的评论情感分析方法、装置及系统 | |
CN107918778A (zh) | 一种信息匹配方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |