CN113065341A - 一种环境类投诉举报文本自动标注和分类方法 - Google Patents
一种环境类投诉举报文本自动标注和分类方法 Download PDFInfo
- Publication number
- CN113065341A CN113065341A CN202110274415.8A CN202110274415A CN113065341A CN 113065341 A CN113065341 A CN 113065341A CN 202110274415 A CN202110274415 A CN 202110274415A CN 113065341 A CN113065341 A CN 113065341A
- Authority
- CN
- China
- Prior art keywords
- text
- word
- words
- texts
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 238000002372 labelling Methods 0.000 title claims abstract description 29
- 230000007613 environmental effect Effects 0.000 title claims description 14
- 238000004364 calculation method Methods 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 8
- 238000013145 classification model Methods 0.000 claims abstract description 8
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 19
- 238000011176 pooling Methods 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 238000011109 contamination Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000009849 deactivation Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 230000009191 jumping Effects 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims description 2
- 239000000126 substance Substances 0.000 claims description 2
- 238000013139 quantization Methods 0.000 claims 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000003915 air pollution Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000010840 domestic wastewater Substances 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000010842 industrial wastewater Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000010865 sewage Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 239000002351 wastewater Substances 0.000 description 1
- 238000003911 water pollution Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种环境类投诉举报文本自动标注和分类方法,属于文本特征提取与文本分类领域。本发明通过从大量无标签数据中提取出不同领域对应的特征触发词,构建出对应领域特征词典;利用词典和文本相似度计算可以对不同领域的文本进行自动标注,将无标签数据转化为有标签数据,并利用其对神经网络进行训练,得到合适的分类模型。相比于现有技术,本发明减少了由人工标注数据所引起的误差,节省人力与时间;避免了无监督学习方式带来的准确率低、模型复杂、算力要求高等问题;构建的分类模型具有较强的泛化能力,并且可以在模型部署上线后,不断进行升级与改进。
Description
技术领域
本发明涉及文本特征提取与文本分类领域,具体涉及一种环境类投诉举报文本自动标注和分类方法。
背景技术
涉及环境类的监督举报类型多种多样,将投诉举报经过分类,快速准确定位投诉原因后,再交由相应主管部门会提升一定的事件处理效率。但就目前所获取到的数据来看,绝大多数的投诉数据没有标签,再结合投诉举报文本具有口语化严重、表述不清的特点,直接构建分类器面临着诸多困难;而通过人工进行标注开销昂贵,费时费力,且容易受到标注者主观的影响。因此,本发明提出将自动标注与深度学习模型相结合,实现投诉举报类文本自动分类的任务。
投诉举报分类问题的实质就是文本分类问题。针对文本分类领域,目前相关的工作主要分为两种方式:基于知识工程的分类方法和基于机器学习的分类方法。基于知识工程等方法要求在领域专家的辅助下对每一个分类的特征进行人工判定,给出识别规则,这种方法耗时耗力,并且很依赖专家的水平。随着科学技术的不断发展,很多学者提出利用机器学习的方法实现文本分类,针对特定领域实现了投诉举报文本的自动分类功能,一定程度上节省了人力物力。
目前在文本分类研究领域中,针对投诉举报文本进行分类的研究不多,并且都只集中在少数特定领域,并没有关于环境类投诉举报文本进行专门研究的先例,而且环境类投诉举报文本自动分类尚面临如下问题:
1)不同领域、行业所存在的问题各不相同,例如电信行业的投诉信息往往会包含通话、手机信号、网络质量等大量相关的专业词汇;而环境类的投诉信息更多的是有关大气污染、噪音污染等的描述。因此,根据某一领域建立起的分类模型其普适性就显得较差。
2)投诉举报文本存在语句冗长、表述不清、语法随意等问题。例如,有关水环境的投诉举报文本大概率会包括“污水”、“污染”等词汇,这些词汇并不能反映水污染具体原因。
3)针对水环境领域,结合从相关部门获取的数据来看,仅有少部分数据带有污染源类别标注,并且其分类模式较为粗放,仅有“工业废水”、“矿山废水”、“生活废水”、“其他”四大类。这种分类体系无法快速准确地根据其所分类定位问题所在,给处理污染事件的相关工作人员带来了一定的困难。
综上所述,绝大多数的环境类投诉举报数据没有标签,为文本分类任务带来了巨大的困难。传统的人工标注方式开销昂贵,费时费力,且容易受到标注者主观的影响,而直接利用深度学习网络搭建分类器,则会面临模型复杂、算量巨大的问题。所以,发明一种环境类投诉举报文本自动标注和分类方法具有重要的意义。
投诉举报文本的口语化、非结构化等特点使得仅依靠少量带有标签的样本进行监督学习的方式往往不具备较强的泛化能力;选择不依赖标签的无监督学习,则需要面临搭建复杂的深度神经网络的问题,况且,这些无标签数据又来源于不同的领域,而这些不同的领域又拥有各自独特的知识表达方式,对于机器学习模型来说,要解决上述问题,需要花费大量算力和时间去学习该领域独有的特征,并且无法保证训练得到的模型的性能。
发明内容
针对以上问题,本发明提供一种可以对环境类投诉举报文本进行自动标注和分类的方法,能够解决环境类投诉举报数据标签缺失以及无法根据污染源类型自动分类的问题,具体包括以下步骤:
S1:从海量无标签数据中进行随机抽样,构成一定规模的样本集;
S2:对样本数据进行预处理,包括中文分词、去停用词、滤除过短文本。
S3:利用Single-Pass算法对描述相似的文本进行聚类得到各种话题簇;
S4:分别计算各簇中每个词语的信息熵,将含信息量大、可以较为明显反映出投诉主要问题所在的词语提取出来,构建领域关键词典;
S5:通过相似度计算,从维基百科语料库中提取出近义词,扩展领域关键词典,进一步收录大量未登录词,提高领域关键词典的覆盖率;
S6:将领域关键词典作为自动分类的依据来为大量无标签数据进行标注;
S7:通过深度学习网络TextCNN对数据进行特征提取,进行监督学习,构建分类模型。相比于现有技术,本发明针对投诉举报构建专用词典可以实现对大量无标签数据进行标注的功能,为有监督学习创造了样本数据。相比于直接进行无监督学习,本方法降低了深度学习网络模型的复杂程度与提取特征的计算量。本发明可以通过大量无标签数据中提取出不同领域对应的特征触发词,并构建出对应领域特征词典;利用词典和文本相似度计算可以对不同领域的文本进行自动标注,将无标签数据转化为有标签数据,并利用其对神经网络进行训练,得到合适的分类模型。本发明的有益效果为:
(1)减少了由人工标注数据所引起的误差,节省人力与时间;
(2)避免了无监督学习方式带来的准确率低、模型复杂、算力要求高等问题;
(3)构建的分类模型具有较强的泛化能力,并且可以在模型部署上线后,不断进行升级与改进。
本发明以水环境类投诉举报为实施例,因此,具体到实施例中,在上述方法的
附图说明
图1为本发明所提出的自动标注和分类方法的流程示意图
图2为TextCNN网络模型结构图
具体实施方式
下面将结合本发明的附图,以水环境类投诉举报数据为实施例,对本发明中包含的技术路线进行完整的描述。本文中所描述的实施例仅是本发明中的一部分实施例,因此,本领域中其他研究人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
参阅图1,该图为本发明所提出的自动标注和分类方法的流程示意图,包括如下步骤:
步骤S1:从海量无标签数据中进行随机抽样,构成一定规模的样本集;
步骤S2:对样本数据进行预处理,包括中文分词、去停用词。
步骤S3:利用Single-Pass算法对描述相似的文本进行聚类得到各种话题簇;
步骤S4:将可以较为明显反映投诉主要问题的词语提取出来,构建领域关键词典;
步骤S5:通过相似度计算,从维基百科语料库中提取出近义词,扩展领域关键词典,进一步收录大量未登录词,提高领域关键词典的覆盖率;
步骤S6:将领域关键词典作为自动分类的依据来为大量无标签数据进行标注;
步骤S7:通过深度学习网络TextCNN对数据进行特征提取,进行监督学习,构建分类模型。
在本发明中,步骤S2预处理包括:
步骤S201针对原始语料,采用Python的第三方库Jieba进行中文分词;
步骤S202引入中文停用词表,去除语料中一些无意义的功能词,提高工作效率;
步骤S203滤除经过步骤S201、S202后长度小于5个字的语句。有效地将较短的、无意义的投诉举报文本去除掉以避免对后续模型准确率的影响。
步骤S3为聚类过程,目的是为了将无标签的投诉举报数据根据其内在结构、属性、信息进行归类。在本发明的实施例中,根据水环境投诉举报文本中的污染源类型将数据划分为不同的簇,从而便于后续从不同的簇中进行特征提取。该过程主要包括以下步骤:
步骤S301,从输入文本序列D=D(d1,d2,...,dn)中选择第一条文本d1作为第一个话题簇c1;
步骤S302,选择第二条文本d2,根据下面公式,计算d2与c1中所有文本的相似度值并求平均数,得到Simavg(d2,c1);
上述公式中,w1i与w2i为分别代表了文档d2和c1中的向量;
步骤S303,若Simavg(d2,c1)大于相似度阈值Th,则将d2归入话题簇c1,跳转至步骤S305,否则跳转至步骤S304;
步骤S304,以d2为基础创建新的话题簇c2,跳转至步骤S306;
步骤S305,取d3,重复步骤S302
步骤S306,取d3,计算d3与目前所有话题簇,即c1和c2中所有文本的相似度值并求平均数,得到Simavg(d3,c1),Simavg(d3,c2)
步骤S307,若MAX(Simavg(d3,c1),Simavg(d3,c2))≥Th,则将d3归入具有最大相似度值的话题簇中,否则以d3创建新的话题簇;
步骤S308,等待下一篇文档进入。
步骤S4和S5分别为构建、扩充领域特征词典。在本发明中,领域特征词典的作用是实现自动标注功能。
步骤S401,对步骤S3得到的话题簇分别进行词频统计,得到第i个簇中所有词汇的频次,记作ci=c(p1,p2,...,pn),其中pj(j=1,2,...,n)代表该簇中第j个词汇出现的频次,也即TF值;
步骤S402,再根据公式(2)计算ci中所有词汇的IDF值,记作ci=c(q1,q2,...,qn),其中qj(j=1,2,…,n)代表该簇中第j个词汇的IDF值;
其中,N代表语料库中文本的总数,N(x)代表包含词语x的文本总数。
步骤S403,结合每个词语的词频及TF-IDF值,筛选出一批词频高、特征清晰的领域特征词,以这些词作为种子词,构建细胞词库。
这些领域特征词是通过投诉举报文本集经过聚类、词频统计得到的,由于自身数据集规模不大,导致种子词库包含的领域特征词较少,无法全面地描述领域属性。因此,在利用投诉举报文本集建立的种子词库基础之上,引入通过维基百科语料库训练得来的词向量模型进行同义词扩展,可以使词库更加丰富、全面。
更进一步,在步骤S5中,遍历步骤S4中得到的种子词库中的领域特征词,根据公式(3)计算外部词库中与种子词库领域特征词的相似度值。将高于阈值的词汇填充到词典中,使得词典进一步丰富。
其中,S(D1,D2)表示任意两个文档D1和D2文本相似度,w1i与w2i为分别代表了文档D1和D2中的向量。
以步骤S4中得到的领域词典中的领域关联词为细胞词库,遍历词库中所有已存在的种子词,获取与种子词相似度高于阈值的词汇填充到领域特征词典中,使得领域词典进一步丰富。至此,领域特征词典构建完毕。
更进一步,步骤S6目的是实现通过领域特征词典对无标签数据进行标注。标注的详细过程如下:
步骤S601,设定备选列表R,未经标注的文本序列D=D(d1,d2,...,dn),相似度阈值Th,领域词典Dict={K1:V1,K2:V2,...,K9:V9},其中,{Ki:Vi,i∈1,2,...,9}表示第i组污染源类型及其对应的触发词组集合;
步骤S602,选取文本d1,计算d1与触发词组Vi7中所有触发词的相似度值,得到Simmax(1,i),代表第1条文档与第i组触发词的最大相似度值,以此来代表d1与Vi的关联程度;
步骤S603,若Simmax(1,i)≥Th,则将Vi所对应的污染源类别Ki添加至备选列表R中,否则说明该文本与当前污染源类别没有太大关联。
步骤S604,改变i的取值循环步骤S601,直至计算结束;
步骤S605,若遍历i值后,备选列表R仍为空,则说明该文本无法通过有限的信息为其进行标注,需要人工处理。
步骤S606,若备选列表不为空,选出最大的Simmax(1,i)值,其对应的Ki代表着与d1最具明显关联性的污染类型;
步骤S607,将d1标注为Ki,完成本轮自动标注,进行下一轮循环。
步骤S608,最终的输出为对应文本序列顺序的标签序列K={d1:K1,d2:K2,...dn:Kn},其中,diKi(i=1,2,...,n)代表第i条文本di所对应的标签名Ki。
更进一步,步骤S7的目的是利用经过步骤S6自动标注的有标签文本数据来训练神经网络。本发明使用TextCNN作为进一步提取投诉举报文本中的高维特征的神经网络,构建了由三层不同卷积核尺寸的一维卷积层、三层最大池化层的TextCNN模型,可以提高分类的准确性和泛化能力。
本发明中所构建的深度神经网络TextCNN主要网络结构如附图2所示,包括输入层、卷积层、池化层、输出层。
步骤S701,神经网络模型的第一层为输入层。输入层输入为n*k的矩阵,其中n为投诉举报文本经过预处理后的词语数,k为每个词语对应的词向量维度。为了使向量长度一致,需要对向量化后的文本进行填充(Padding)操作,使得每个句子的长度都为n,对于太长的句子则进行截断。每条投诉举报文本可表示为:
其中,表示句子中的第i个词汇的k维词嵌入,运算符表示将每个词向量进行拼。对于句子词汇量小于n的语句,采用k维零向量进行补齐;对于词汇量大于n的语句,则进行截断,使每个句子都可以表示为一个n*k的矩阵。
步骤S702中,神经网络模型的第二层为卷积层。在一条投诉举报文本中,相邻的词语关联性总是很高的,因此可以通过一维卷积来提取语句中的特征。如附图2所示,本文设计了三种不同规模的卷积核,分别是3×k,4×k,5×k,卷积核的宽度固定为词向量维度k,不同高度的卷积核可以帮助模型在不同长度的上下文中提取特征。
步骤S703中,神经网络模型的第三层池化层目的是将经过卷积得到的向量进行特征降维和数据压缩,这样可以减少过拟合,提高模型的容错性。如附图2所示,本文采用了最大池化(Max Pooling)操作,即从卷积操作后产生的特征向量中筛选出最大的特征,然后将特征拼接起来,达到将不同长度的句子通过池化成为定长的向量表示。
步骤S704,神经网络模型的最后一层全连接的softmax层,可以输出预期分类类别的概率。
步骤S705将经过本发明自动标注方法标注的数据作为输入,实现有监督学习,从而提高模型的各项性能指标。
综上,本发明提出通过无监督聚类从大批量无标签数据中提取粗粒度特征词,再借助维基百科语料库通过语义相似度计算对特征词进行扩展,构建领域特征词典,并利用相似度计算实现对无标签数据的自动标注;使用经过自动标注的数据训练得到的神经网络模型具有更好的泛用性和较高的准确率。
本发明所展现的投诉举报自动标注和分类的解决方案有助于相关部门节省人力物力,并快速精准定位到问题所在,从而有针对性地安排人员妥善处理。
Claims (6)
1.一种环境类投诉举报类文本自动标注和分类的方法,其特征在于:具体包括以下步骤:
S1:从海量无标签数据中进行随机抽样,构成一定规模的样本集;
S2:对样本数据进行预处理,包括中文分词、去停用词、滤除过短文本;
S3:利用Single-Pass算法对描述相似的文本进行聚类得到各种话题簇;
S4:分别计算各簇中每个词语的信息熵,将含信息量大、可以较为明显反映出投诉主要问题所在的词语提取出来,构建领域关键词典;
S5:通过相似度计算,从维基百科语料库中提取出近义词,扩展领域关键词典,进一步收录大量未登录词,提高领域关键词典的覆盖率;
S6:将领域关键词典作为自动分类的依据为大量无标签数据进行标注;
S7:通过深度学习网络TextCNN对数据进行特征提取,进行监督学习,构建分类模型。
2.按照权利要求1所述的一种环境类投诉举报类文本自动标注和分类的方法其特征生在于:,
所述步骤S2的预处理过程包括:
S201针对原始语料,采用Python的第三方库Jieba进行中文分词;
S202引入中文停用词表,去除语料中一些无意义的功能词,提高工作效率;
S203滤除经过步骤S201、S202后长度小于5个字的语句。
3.按照权利要求1所述的一种环境类投诉举报类文本自动标注和分类的方法,其特征在于:
所述步骤S3、S4和S5共同为构建领域特征词典的过程;步骤S3利用Single-Pass算法对少量数据进行聚类,提取粗粒度的特征词,构建种子词库;具体步骤为:
步骤S301,从输入文本序列D=D(d1,d2,...,dn)中选择第一条文本d1作为第一个话题簇c1;
步骤S302,选择第二条文本d2,根据下面公式,计算d2与c1中所有文本的相似度值并求平均数,得到Simavg(d2,c1);
上述公式中,w1i与w2i为分别代表了文档d2和c1中的向量;
步骤S303,若Simavg(d2,c1)大于相似度阈值Th,则将d2归入话题簇c1,跳转至步骤S305,否则跳转至步骤S304;
步骤S304,以d2为基础创建新的话题簇c2,跳转至步骤S306;
步骤S305,取d3,重复步骤S302;
步骤S306,取d3,计算d3与目前所有话题簇,即c1和c2中所有文本的相似度值并求平均数,得到Simavg(d3,c1),Simavg(d3,c2);
步骤S307,若MAX(Simavg(d3,c1),Simavg(d3,c2))≥Th,则将d3归入具有最大相似度值的话题簇中,否则以d3创建新的话题簇;
步骤S308,等待下一篇文档进入;
步骤S4和S5分别为构建、扩充领域特征词典。在本发明中,领域特征词典的作用是实现自动标注功能;
步骤S401,对步骤S3得到的话题簇分别进行词频统计,得到第i个簇中所有词汇的频次,记作ci=c(p1,p2,...,pn),其中pj(j=1,2,...,n)代表该簇中第j个词汇出现的频次,也即TF值;
步骤S402,再根据公式(2)计算ci中所有词汇的IDF值,记作ci=c(q1,q2,...,qn),其中qj(j=1,2,...,n)代表该簇中第j个词汇的IDF值;
其中,N代表语料库中文本的总数,N(x)代表包含词语x的文本总数;
步骤S403,结合每个词语的词频及TF-IDF值,筛选出一批词频高、特征清晰的领域特征词,以这些词作为种子词,构建细胞词库。
4.按照权利要求1所述的一种环境类投诉举报类文本自动标注和分类的方法,在扩充种子词库时,其特征在于:
所述步骤S5中,遍历步骤S4建立的种子词库中所有已存在的种子词,获取维基百科语料库中与种子词相似度高的词汇填充到领域特征词典中。
5.按照权利要求1所述的一种环境类投诉举报类文本自动标注和分类的方法,其特征在于:
所述步骤6通过领域特征词典对无标签数据进行标注,标注的详细过程如下:
步骤S601,设定备选列表R,未经标注的文本序列D=D(d1,d2,...,dn),相似度阈值Th,领域词典Dict={K1:V1,K2:V2,...,K9:V9},其中,{Ki:Vi,i∈1,2,...,9}表示第i组污染源类型及其对应的触发词组集合;
步骤S602,选取文本d1,计算d1与触发词组Vi中所有触发词的相似度值,得到Simmax(1,i),代表第1条文档与第i组触发词的最大相似度值,以此来代表d1与Vi的关联程度;
步骤S603,若Simmax(1,i)≥Th,则将Vi所对应的污染源类别Ki添加至备选列表R中,否则说明该文本与当前污染源类别没有太大关联;
步骤S604,改变i的取值循环步骤S601,直至计算结束;
步骤S605,若遍历i值后,备选列表R仍为空,则说明该文本无法通过有限的信息为其进行标注,需要人工处理;
步骤S606,若备选列表不为空,选出最大的Simmax(1,i)值,其对应的Ki代表着与d1最具明显关联性的污染类型;
步骤S607,将d1标注为Ki,完成本轮自动标注,进行下一轮循环;
步骤S608,最终的输出为对应文本序列顺序的标签序列K={d1:K1,d2:K2,...dn:Kn},其中,diKi(i=1,2,...,n)代表第i条文本di所对应的标签名Ki。
6.按照权利要求1所述的一种环境类投诉举报类文本自动标注和分类的方法其特征在于:
所述步骤S7利用经过步骤S6自动标注的有标签文本数据来训练神经网络,使用TextCNN作为进一步提取投诉举报文本中的高维特征的神经网络构建了由三层不同卷积核尺寸的一维卷积层、三层最大池化层的TextCNN模型,具体步骤如下:
步骤S701,神经网络模型的第一层为输入层;输入层输入为n*k的矩阵,其中n为投诉举报文本经过预处理后的词语数,k为每个词语对应的词向量维度;对向量化后的文本进行填充(Padding)操作,使得每个句子的长度都为n,对于太长的句子则进行截断;每条投诉举报文本可表示为:
其中,表示句子中的第i个词汇的k维词嵌入,运算符表示将每个词向量进行拼;对于句子词汇量小于n的语句,采用k维零向量进行补齐;对于词汇量大于n的语句,则进行截断,使每个句子都可以表示为一个n*k的矩阵;
步骤S702中,神经网络模型的第二层为卷积层;在一条投诉举报文本中,相邻的词语关联性总是很高的,因此可以通过一维卷积来提取语句中的特征;本发明包括三种不同规模的卷积核,分别是3×k,4×k,5×k,卷积核的宽度固定为词向量维度k,不同高度的卷积核可以帮助模型在不同长度的上下文中提取特征;
步骤S703中,采用了最大池化(Max Pooling)操作,即从卷积操作后产生的特征向量中筛选出最大的特征,然后将特征拼接起来,达到将不同长度的句子通过池化成为定长的向量表示;
步骤S704,神经网络模型的最后一层全连接的softmax层,可以输出预期分类类别的概率;
步骤S705将经过本发明自动标注方法标注的数据作为输入,实现有监督学习,从而提高模型的各项性能指标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110274415.8A CN113065341A (zh) | 2021-03-14 | 2021-03-14 | 一种环境类投诉举报文本自动标注和分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110274415.8A CN113065341A (zh) | 2021-03-14 | 2021-03-14 | 一种环境类投诉举报文本自动标注和分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113065341A true CN113065341A (zh) | 2021-07-02 |
Family
ID=76560545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110274415.8A Pending CN113065341A (zh) | 2021-03-14 | 2021-03-14 | 一种环境类投诉举报文本自动标注和分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113065341A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969321A (zh) * | 2022-03-14 | 2022-08-30 | 北京工业大学 | 基于多权重自训练的环境类投诉举报文本分类方法 |
CN115080750A (zh) * | 2022-08-16 | 2022-09-20 | 之江实验室 | 基于融合提示序列的弱监督文本分类方法、系统和装置 |
CN115204318A (zh) * | 2022-09-15 | 2022-10-18 | 天津汇智星源信息技术有限公司 | 事件自动层级分类方法及电子设备 |
WO2023178903A1 (zh) * | 2022-03-24 | 2023-09-28 | 上海帜讯信息技术股份有限公司 | 行业专业文本自动标注方法、装置、终端及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298032A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 文本分类语料标注训练系统 |
CN111177374A (zh) * | 2019-12-13 | 2020-05-19 | 航天信息股份有限公司 | 一种基于主动学习的问答语料情感分类方法及系统 |
CN111414479A (zh) * | 2020-03-16 | 2020-07-14 | 北京智齿博创科技有限公司 | 基于短文本聚类技术的标签抽取方法 |
CN111694958A (zh) * | 2020-06-05 | 2020-09-22 | 深兰人工智能芯片研究院(江苏)有限公司 | 基于词向量与single-pass融合的微博话题聚类方法 |
-
2021
- 2021-03-14 CN CN202110274415.8A patent/CN113065341A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110298032A (zh) * | 2019-05-29 | 2019-10-01 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 文本分类语料标注训练系统 |
CN111177374A (zh) * | 2019-12-13 | 2020-05-19 | 航天信息股份有限公司 | 一种基于主动学习的问答语料情感分类方法及系统 |
CN111414479A (zh) * | 2020-03-16 | 2020-07-14 | 北京智齿博创科技有限公司 | 基于短文本聚类技术的标签抽取方法 |
CN111694958A (zh) * | 2020-06-05 | 2020-09-22 | 深兰人工智能芯片研究院(江苏)有限公司 | 基于词向量与single-pass融合的微博话题聚类方法 |
Non-Patent Citations (2)
Title |
---|
张兆芝;陈翔;高敏;卢燕?;张钟杰;: "基于自然语言的国网投诉工单智能分类模型构建", 微型电脑应用, no. 07, 20 July 2020 (2020-07-20) * |
郭蕾蕾;俞璐;段国仑;陶性留;: "基于伴随文本信息的Web图像批量标注方法", 信息技术与网络安全, no. 09, 10 September 2018 (2018-09-10) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114969321A (zh) * | 2022-03-14 | 2022-08-30 | 北京工业大学 | 基于多权重自训练的环境类投诉举报文本分类方法 |
CN114969321B (zh) * | 2022-03-14 | 2024-03-22 | 北京工业大学 | 基于多权重自训练的环境类投诉举报文本分类方法 |
WO2023178903A1 (zh) * | 2022-03-24 | 2023-09-28 | 上海帜讯信息技术股份有限公司 | 行业专业文本自动标注方法、装置、终端及存储介质 |
CN115080750A (zh) * | 2022-08-16 | 2022-09-20 | 之江实验室 | 基于融合提示序列的弱监督文本分类方法、系统和装置 |
CN115080750B (zh) * | 2022-08-16 | 2022-11-08 | 之江实验室 | 基于融合提示序列的弱监督文本分类方法、系统和装置 |
CN115204318A (zh) * | 2022-09-15 | 2022-10-18 | 天津汇智星源信息技术有限公司 | 事件自动层级分类方法及电子设备 |
CN115204318B (zh) * | 2022-09-15 | 2022-12-02 | 天津汇智星源信息技术有限公司 | 事件自动层级分类方法及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109800310B (zh) | 一种基于结构化表达的电力运维文本分析方法 | |
CN110275936B (zh) | 一种基于自编码神经网络的相似法律案例检索方法 | |
CN113065341A (zh) | 一种环境类投诉举报文本自动标注和分类方法 | |
CN110298032A (zh) | 文本分类语料标注训练系统 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN110020438A (zh) | 基于序列识别的企业或组织中文名称实体消歧方法和装置 | |
CN110879831A (zh) | 基于实体识别技术的中医药语句分词方法 | |
CN111897917B (zh) | 基于多模态自然语言特征的轨道交通行业术语提取方法 | |
CN111191051B (zh) | 一种基于中文分词技术的应急知识图谱的构建方法及系统 | |
CN112364623A (zh) | 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法 | |
CN111858842A (zh) | 一种基于lda主题模型的司法案例筛选方法 | |
CN112989813A (zh) | 一种基于预训练语言模型的科技资源关系抽取方法及装置 | |
CN112463944A (zh) | 一种基于多模型融合的检索式智能问答方法及装置 | |
CN112417132A (zh) | 一种利用谓宾信息筛选负样本的新意图识别方法 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN113360647B (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN113987175A (zh) | 一种基于医学主题词表增强表征的文本多标签分类方法 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
CN115600602B (zh) | 一种长文本的关键要素抽取方法、系统及终端设备 | |
CN107562774A (zh) | 小语种词嵌入模型的生成方法、系统及问答方法和系统 | |
CN112765314B (zh) | 一种基于电力本体知识库的电力信息检索方法 | |
CN113312903B (zh) | 一种5g移动业务产品词库的构建方法及系统 | |
CN115481636A (zh) | 一种面向技术文献的技术功效矩阵构建方法 | |
CN114969087A (zh) | 基于多视角特征解耦的nl2sql方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |