CN113378567B - 一种针对低频词进行改善的中文短文本分类方法 - Google Patents
一种针对低频词进行改善的中文短文本分类方法 Download PDFInfo
- Publication number
- CN113378567B CN113378567B CN202110755585.8A CN202110755585A CN113378567B CN 113378567 B CN113378567 B CN 113378567B CN 202110755585 A CN202110755585 A CN 202110755585A CN 113378567 B CN113378567 B CN 113378567B
- Authority
- CN
- China
- Prior art keywords
- word
- words
- frequency
- low
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computing Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种针对低频词进行改进的中文短文本分类方法,包括:获取文本数据集并进行训练集的划分,对训练集中的文本数据进行预处理,得到文本数据对应的词列表集合并构建低频词集;根据训练集中各个类别标签的文本数据分别构造出相应的类别特征词典;建立文本表示,将文本中的词分为三类,使用不同的转化方法,将文本数据对应的词列表集合转化为计算机能识别的文本对应的词向量列表集合;构建所述分类模型包括输入层、词注意力层、特征提取网络以及输出层,其中,所述输入层为词向量列表集合,词注意力层用于对文本数据中的词进行加权,词注意力层输出的加权后的词向量经过特征提取网络处理后,在输出层得到文本数据的分类结果。
Description
技术领域
本发明涉及计算机自然语言处理领域,具体涉及一种针对低频词进行改进的中文短文本分类方法。
背景技术
近年来,随着社交网络的发展,人们能够非常便捷的在社交平台上发布和获取消息,社交平台已经成为了新的信息聚集地。社交平台上每天会产生海量的数据,其中大部分文本形式的数据是短文本,例如:微博、聊天信息、新闻主题、观点评论、问题文本、手机短信等,对这些短文本进行准确分类具有重要的理论意义和现实应用价值:有利于信息抽取、情感分析等下游任务的研究发展;政府可利用短文本快速了解民情民心从而进行决策,维护社会和谐稳定。因此,怎样提高中文短文本分类的效果成为了计算机自然语言处理领域的一个热点研究方向。
在中文短文本分类任务中,由于短文本篇幅较短,内容口语化较重,未登录词偏多,所以与长文本相比,短文本进行分词后低频词的数量会更多,而这些低频词中含有丰富的类别信息,利用好文本中低频词的信息能够有效的提高中文短文本分类的效果。但同样低频词中含有的噪音信息更多,处理不好反而会降低分类的精度,所以,怎样利用低频词来提高短文本分类的效果还有待研究。
在现有的文本分类研究中,对低频词都是直接进行删除处理的,这样低频词的信息无法获取。虽然也有人注意到了中文短文本分类任务中低频词的问题,并提出了一种利用预训练词向量来构造低频词的词向量来获取低频词的信息。但是,该文存在以下问题:首先,该文是针对英文文本,与中文有所差异,而且短文本中低频词更多,这样噪音词更多;其次,在实际应用中有些低频词本身就不存在于预训练的词向量中,无法进行构造;最后,构造的低频词向量会引入噪音信息,其并未做任何处理,在应用中会影响分类的效果。所以,对低频词问题的研究还有待改进。
发明内容
本发明的目的在于克服现有技术的不足,提供针对低频词进行改进的中文短文本分类方法,用以解决基于词向量的现有文本分类研究中低频词信息未被利用的问题和利用低频词信息过程中噪音过多的问题。
为实现上述目的,本发明所提供的技术方案为:
一种针对低频词进行改善的中文短文本分类方法,包括以下步骤:
获取文本数据集并进行训练集的划分,对训练集中的文本数据进行预处理,得到文本数据对应的词列表集合;统计每个词在所有文本数据中出现的总词频数,构建低频词集;
根据训练集中各个类别标签的文本数据分别构造出相应的类别特征词典;
建立文本表示,将文本数据对应的词列表集合转化为计算机能识别的文本对应的词向量列表集合;对每一条文本数据,将其对应的词列表集合中的词分为A类低频词、B类低频词、其它非低频词三类,A类低频词为存在于所述低频词集且存在于预训练的词向量模型中的词;所述B类低频词为存在于低频词集但未存在于词向量模型中的词;所述非低频词为不存在于低频词集中的词;分别针对每一类词进行词向量的转换,将文本数据中的词列表集合转化为词向量形式;
构建所述分类模型包括输入层、词注意力层、特征提取网络以及输出层,其中,所述输入层为词向量列表集合,词注意力层用于对文本数据中的词进行加权,权重值越大,该词对该文本分类的作用越大;词注意力层输出的加权后的词向量经过特征提取网络处理后,在输出层得到文本数据的分类结果。
进一步地,所述文本数据的预处理过程主要包括噪声信息去除、分词处理和停用词处理;
噪声信息去除,对于需要进行分类的中文短文本,采用正则表达式去除文本中的非中文字符;
分词处理,对经过噪声信息去除后的中文短文本数据,利用分词工具实现对文本的分词,将文本序列转换为分词后对应的词列表;
停用词处理,对于中文分词后得到的词列表集合,采用停用词表进行停用词处理,优化分词后的结果。
进一步地,所述类别特征词典中的特征词通过以下公式进行选择:
其中tk表示特征词,ci表示类别,χ2(tk,ci)表示特征词tk与类别的相关性ci强弱,值越大说明该特征词与类别ci的相关性越强;A为训练集中类别为ci而且包含tk的文本数,C为训练集中类别为ci但不包含tk的文本数,B为训练集中非类别ci但包含tk的文本数;D为训练集中非类别ci且不含tk的文本数;
对每一个类别ci,只取非低频的特征词计算出AD-BC的值,如果AD-BC<0则代表负相关,直接去除该特征词,AD-BC>0时是正相关,该词保留下来,进行下面计算:
对上一步保留下来的所有特征词进行上述公式计算χ2(tk,ci)值,并根据其值从大到小排序,从前M个特征词中选取其中A/(A+B)大于设定阈值的特征词,并以2A/(A+B)对这些选择出来的词进行加权,以“特征词:权重值”的形式保存,这样就得到了每个类别的特征词典。
进一步地,所述A类低频词转化为词向量的过程如下:
(1)对于一条文本数据中的某一A类低频词Wi,利用余弦相似度从预训练的词向量模型中找到距离它最近的k个高频词并记录训练词向量模型中A类词Wi的词向量E0[Wi];
(2)对上述低频词Wi的k个高频词进行遍历,判断其中的高频词hi是否存在于某一个类别特征词典中,如果高频词hi存在于i类别对应的特征词典中,并且低频词Wi所在文本数据的类别标签不为类别i,则删除高频词hi,不参与低频词Wi的词向量构造,其它情况则参与低频词Wi的词向量构造;
如果高频词hi不存在于某一个类别特征词典中,则该高频词hi参与词Wi的词向量的构造;对k个高频词进行遍历后得到j个用于构造低频词Wi词向量的高频词;
(3)针对预训练的词向量模型,用建立的中文短文本训练集对其进行训练,记录上一步得到的j个高频词在模型更新前的词向量E0[Wh]和更新后的词向量E1[Wh],接下来利用这些记录的数据进A类低频词Wi的词向量的构造,如下式:
其中E1[Wi]为Wi的词向量,其余参数均与(3)所述一致
进一步地,所述B类低频词转化为词向量的过程为:
(1)对于一条文本数据中某一B类低频词Wb,使用中文近义词工具包获取其前n个近义词,即得低频词Wb的多个近义词;
(2)对于获取到的每一个近义词,若它不在预训练的词向量模型中则删除该近义词;经删除后,对剩下的每一个近义词Wnear,判断词Wnear是否存在于某一个类别特征词典中:如果词Wnear存在于某一个类别特征词典中,并且该类别特征词典对应的类别与B类低频词Wb则所在文本数据的类别相同,则保留该近义词,并进行步骤(3),其它情况则删除该近义词;如果词Wnear不存在于某一个类别特征词典中,则进行步骤(4);
(3)利用预训练的词向量模型将上一步保留下来近义词转化为词向量,并按类别特征词典中的低频词Wb权重值乘以该词向量,即给该近义词一个初始权重,得到词向量集合Vnear1;
(4)利用词向量模型将(2)中不存在于某一个类别特征词典中的近义词转化为词向量,得到词向量集合Vnear2;
(5)用(3)和(4)获得的词向量集合Vnear1和词向量集合Vnear2代表B类低频词Wb的词向量表示,直接将词向量集合Vnear1和词向量集合Vnear2中的元素一一添加到文本数据的词向量集合中,这样将B类低频词转化成了词向量。
进一步地,所述其它非低频词转化为词向量的过程为:
利用中文短文本训练集对所述预训练的词向量模型进行训练,得到微调后的词向量模型;然后通过微调后的模型,调用内置函数求得每一个非低频词的词向量。
进一步地,所述词注意力层对文本数据中的词进行加权的过程为:
对于一个文本数据的词向量表示S:
S=(w1,w2,w3……wn)
其中,wt(t=1,2...,n)是词向量,对每一个词进行加权,权重值计算公式如下:
qt=tanh(wtWs1+bw)
at=softmax(qtWs2)
xt=atwt
其中的Ws1,Ws2,bw是自定义参数,随着分类模型的训练进行更新;at代表词的权重;wt加权后的词向量xt将作为特征提取网络的输入;经过特征提取网络的处理后,输出层输出文本数据的分类结果。
进一步地,所述特征提取网络采用textcnn模型、textrnn模型或textrcnn模型。
一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行计算机程序时实现前述针对低频词进行改善的中文短文本分类方法的步骤。
一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现前述针对低频词进行改善的中文短文本分类方法的步骤。
本发明与现有技术相比,具有如下优点和有益效果:
1.本发明通过将低频词分为两类不同类型的词来进行两种形式的知识引入操作,以此获取低频词中的信息,并且针对知识引入过程中噪音词过多的问题,引入了特征选择方法和注意力机制。
2.本发明对中文短文本分类中低频词过多的问题进行了处理,改善了现有研究中未能有效利用低频词的问题,设计自注意层、利用类别特征词典处理了获取低频词信息过程中噪音过多的问题。因此,有效地利用了文本中低频词的信息,提高了文本分类的准确率。
附图说明
图1为本发明针对低频词进行改善的中文短文本分类方法的流程示意图;
图2为本发明用于说明词注意力层位置的训练模型简图;
图3为实施例TextCNN模型的结构;
图4为实施例TextRNN+attention模型的结构图;
图5为实施例递归卷积神经网络的结构图。
具体实施方式
下面结合具体实施例对本发明作进一步说明,但本发明的实施方式不限于此。
如图1所示,本实施例提供的一种针对低频词进行改进的中文短文本分类方法,具体包括以下步骤:
S1,获取文本数据集并进行训练集的划分,对训练集中的文本数据进行预处理,得到文本数据对应的词列表集合;统计每个词在所有文本数据中出现的总词频数,选择总词频数小于N的词构成低频词集,该低频词集保存为元素为词的数组类型;所述预处理包括噪声信息去除、分词处理和停用词处理;所述N可调节,本实施例中N的取值为10。所述文本数据集是从THUCNews数据集上抽取的20万新闻标题,文本长度主要在20-30之间。数据集一共分为10个类别,分别是财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐,每个类别2万条数据。文本数据集划分:训练集18万(每个类别各18,000条),验证集和测试集各1万(每个类别各1000条)。
文本数据的预处理过程主要包括噪声信息去除、分词处理和停用词处理。
S1.1噪声信息去除
对于需要进行分类的中文短文本,采用正则表达式去除文本中的非中文字符。
S1.2分词处理
对经过噪声信息去除后的中文短文本数据,利用jieba分词工具实现对文本的分词,将文本序列转换为分词后对应的词列表。
S1.3停用词处理
对于中文分词后得到的词列表集合,采用哈工大停用词表进行停用词处理,优化分词后的结果。
S2,根据文本数据集中训练集各个类别标签的文本数据构造出相应的类别特征词典,为每个类别都构造一个与之对应的类别特征词典。类别特征词典中的词是与其对应类别具有强相关性的词,类别特征词典用于建立文本表示的过程中,作用是去除噪音词对文本分类的效果的影响。
如:使用训练集中属于财经类别的1.8万条文本数据构造出财经类别所对应的类别特征词典;类别特征词典中的特征词是依据以下公式选择出来的;
其中tk表示特征词,ci表示类别,χ2(tk,ci)表示特征词tk与类别ci相关性强弱,值越大说明该特征词与类别ci的相关性越强;A为训练集中类别为ci而且包含tk的文本数,C为训练集中类别为ci但不包含tk的文本数,B为训练集中非类别ci但包含tk的文本数;D为训练集中非类别ci且不含tk的文本数。
对每一个类别ci,只取非低频的特征词计算出AD-BC的值,如果AD-BC<0则代表负相关,直接去除该特征词,AD-BC>0时是正相关,该词保留下来,进行下面计算:
对上一步保留下来的所有特征词进行上述公式计算χ2(tk,ci)值,并根据其值从大到小排序,从前M个特征词中选取其中A/(A+B)大于设定阈值0.8(该数字可调节)的特征词,并以2A/(A+B)对这些选择出来的词进行加权,以“特征词:权重值”的形式保存在python的dict(python得某一数据类型)实例中,记该dict实例为dict_weight,其权重的含义为包含特征tk的文本中属于类别ci的比例的两倍,这样就得到了每个类别的特征词典,即为每个类别选择出了与其具有强相关性的词,本文称这些词为强类别词;将所有强类别词以“类别标签:词list(python得某一数据类型)”的形式保存在一个dict实例中,记该dict实例为dict_feature,该dict实例的长度就是文本数据集中类别的个数;本实施例中,参数M取值为1000。
S3,建立文本表示,将文本数据对应的词列表集合转化为计算机能识别的文本对应的词向量列表集合。
对每一条文本数据,将其对应的词列表集合中的词分为A类低频词、B类低频词、其它非低频词三类,每类词转化为词向量的过程不同,这样就得到了每一条文本的词向量表示。
所述A类低频词为存在于步骤S1中求得的低频词集且存在于预训练的词向量模型中的词;所述B类低频词为存在于低频词集但未存在于预训练的词向量模型中词;所述非低频词为不存在于低频词集中的词。下面具体介绍怎样获取这三类词的词向量。
所述预训练的词向量模型采用现有模型,本实施例下载的预训练的词向量模型是基于搜狗新闻语料库采用带负采样的skip-gram训练的,文本特征是词和n-gram,词向量维度为300。通过调用内置函数就能完成将词或n-gram表示成向量形式,获取与某个词的词向量距离相近的词等操作。下文所提及的中文近义词工具包Synonyms为github网站上下载工具包,调用内置函数就能获取某一个词(传入参数)的前n(传入参数n+1)个相似词。
S3.1 A类低频词(简称A类词)转化为词向量的过程
(1)对于一条文本数据中的某一A类低频词Wi,利用余弦相似度从预训练的词向量模型中找到距离它最近的k个高频词并记录训练词向量模型中A类词Wi的词向量E0[Wi];
(2)对上述低频词Wi的k个高频词进行遍历,判断其中的高频词hi是否存在于某一个步骤S2求得的类别特征词典中,如果高频词hi存在于i类别对应的特征词典中,并且低频词Wi所在文本数据的类别标签不为类别i,即低频词Wi与高频词hi是词向量相似、但语义相反的词,则删除高频词hi,不参与低频词Wi的词向量构造,其它情况则参与低频词Wi的词向量构造;如果高频词hi不存在于某一个类别特征词典中,则该高频词hi参与词Wi的词向量的构造;对k个高频词进行遍历后得到j个用于构造低频词Wi词向量的高频词;本实施例中k取值为3。
(3)针对预训练的词向量模型,用建立的中文短文本训练集对其进行训练,记录上一步得到的j个高频词在模型更新前的词向量E0[Wh]和更新后的词向量E1[Wh],接下来利用这些记录的数据进A类低频词Wi的词向量的构造,如下式:
按照上述相同的方法分别对每个A类低频词进行词向量构造,这样就完成了A类词转化为词向量过程,得到了A类词的词向量表达。
S3.2 B类低频词(简称B类词)转化为词向量的过程
(1)对于一条文本数据中某一B类低频词Wb,使用中文近义词工具包Synonyms获取其前n个近义词,即得低频词Wb的n-1个近义词。
(2)对于获取到的每一个近义词,若它不在预训练的词向量模型中则删除该近义词;经删除后,对剩下的每一个近义词Wnear,判断词Wnear是否存在于某一个类别特征词典中:如果词Wnear存在于某一个类别特征词典中,并且该类别特征词典对应的类别与B类低频词Wb则所在文本数据的类别相同,则保留该近义词,并进行步骤(3),其它情况则删除该近义词;如果词Wnear不存在于某一个类别特征词典中,则进行步骤(4)。
(3)利用预训练的词向量模型将上一步保留下来近义词转化为词向量,并按类别特征词典中的低频词Wb权重值乘以该词向量,即给该近义词一个初始权重,这也是一种注意力的思想,给重要的词更高的注意力,降低无关词的影响,这样就得到词向量集合Vnear1。
(4)利用预训练的词向量模型将(2)中不存在于某一个类别特征词典中的近义词转化为词向量,得到词向量集合Vnear2。
(5)用(3)和(4)获得的词向量集合Vnear1和词向量集合Vnear2代表B类低频词Wb的词向量表示,直接将词向量集合Vnear1和词向量集合Vnear2中的元素一一添加到文本数据的词向量集合中即可,这样B类低频词转化成了词向量。
S3.3其它非低频词(简称other词)转化为词向量的过程
利用中文短文本训练集对所述预训练的词向量模型进行训练,得到微调后的词向量模型;然后通过微调后的模型,调用内置函数求得每一个非低频词的词向量即可。
以上为各类词的转化方法,将每条文本数据中的词分为以上三类按各自的转化方法将词转化为词向量,就得到了每条文本数据对应的词向量列表集合,这样建立文本表示过程完毕。
S4,构建分类模型,所述分类模型包括输入层、词注意力层、特征提取网络以及输出层,其中:
所述输入层为经过步骤3处理得到的词向量列表集合;
词注意力层用于对文本数据中的词进行加权,权重值越大,该词对该文本分类的作用越大;同时,注意力层能减少噪音的影响,同时还能够提取句子中隐藏的语义信息。
如图2所示,具体如下:
对于一个文本数据的词向量表示S:
S=(w1,w2,w3……wn),
其中,wt(t=1,2...,n)是词向量,1*300的行向量;要对每一个词进行加权,权重值计算公式如下:
qt=tanh(wtWs1+bw)
at=softmax(qtWs2)
xt=atwt
其中qt可以看作注意力机制中的Query,其中的Ws1,Ws2,bw是自定义参数,都是向量,随着图2所示分类模型的训练进行更新(实验中Ws1,大小设为300*300,Ws2大小设为300*1),at代表词的权重;将wt加权后的词向量xt作为图2中特征提取网络的输入;经过特征提取网络的处理后,输出层输出文本数据的分类结果。
本实例选择三种分类网络作为特征提取网络,即textcnn模型、textrnn模型和textrcnn模型,分别如图3、图4和图5所示;具体介绍如下:
TextCNN模型如图3所示,包含四层结构:输入层为经过了词注意力层加权后的词嵌入矩阵;卷积层中不同大小的卷积核代表提取不同词数的特征词,同时每种大小的卷积核有多个,这样每一个提取一种特征,能提取丰富的特征;池化层将每个卷积核提取到的信息,做一个全局max-pooling操作得到一个标量,即每种特征只有取其中一个最明显的;输出层将每个卷积核得到的标量进行拼接输入到一个全连接层,得到每个类别的概率得分。
添加注意力层的TextRNN模型如图4所示,模型采用的是双向长短时记忆循环神经,这样能提供给输出层文本中每个词的过去和未来的上下文信息,同时通过对输入文本序列信息的记忆和遗忘,能过保留重要的信息和无用的信息。注意力层就是将每个时间步在前向和反向LSTM过程中得到的两个隐藏状态进行简单拼接后,作为注意力机制中的Query和Value进行注意力加权。最后,将加权平均后的特征向量输入到输出层,得到各类别的概率得分。
TextRCNN本质上就是用循环神经网络来代替TextCNN中不同大小的卷积核提取单词的上下文信息。利用正向的RNN对文本中该词前面所有词做一个信息提取,将得到的语义向量作为该词的左语境,右语境的获取同理。其计算公式如下:
yi=tanh(Wxi+b),
其中yi在代表着表示文本最有用的语义因素,xi代表文本中某一个词的上下文语义。
然后通过最大池化层,获取这些语义因素中最明显的语义信息;最后,将这些最大值进行拼接输入到一个全连接层,获取分类的概率。
本方案中,对于分类模型训练时,特征提取网络的参数配置参考原模型,本文方法设计的参数,参考各个步骤;损失函数选择的是交叉熵损失函数,即最后输出一个维度为类别数的数组,将其与one-hot编码的类别的交叉熵。
在实际应用时,对于每一条待分类的文本数据,经过S1的预处理、S3的文本表示后输入到训练好的分类模型(图2所示)中,就能得到该条文本数据的分类类别,利用自己选择的相关评估函数进行评估即可。
为证实本实施例的有效性和实验性,技术人员已进行过相应的实证,具体如实验结果所示:
表1
其中原模型代表不作改进的原模型TextCNN,TextRNN,TextRCNN;普通知识引入代表基于原模型,直接将低频词的前n个相似词扩展到文本后面,不进行本文方法的改进;改进1代表不设计词注意力层对词进行加权;改进1+改进2代表即进行了知识引入和词注意力层加权。表2是以每个行名+每个列名的组合为一次实验,记录其F1值,如:3行1列的值90.91是TextCNN+改进1的实验结果。
如表1所示,本发明能够有效利用中文短文本中低频词的信息,提升文本分类效果。
本申请实施例进一步提供一种终端设备,该终端设备可以为计算机、服务器;包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述针对低频词进行改善的中文短文本分类方法的步骤,例如,前述的S1至S4。
计算机程序也可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器中,并由处理器执行,以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在终端设备中的执行过程,例如,计算机程序可以被分割为对应于前述步骤S1至S4的模块,不再赘述。
本申请的实施提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述针对低频词进行改善的中文短文本分类方法的步骤,例如,前述的S1至S4。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (7)
1.一种针对低频词进行改善的中文短文本分类方法,其特征在于,包括以下步骤:
获取文本数据集并进行训练集的划分,对训练集中的文本数据进行预处理,得到文本数据对应的词列表集合;统计每个词在所有文本数据中出现的总词频数,构建低频词集;
根据训练集中各个类别标签的文本数据分别构造出相应的类别特征词典;
建立文本表示,将文本数据对应的词列表集合转化为计算机能识别的文本对应的词向量列表集合;对每一条文本数据,将其对应的词列表集合中的词分为A类低频词、B类低频词、其它非低频词三类,所述A类低频词为存在于所述低频词集且存在于预训练的词向量模型中的词;所述B类低频词为存在于低频词集但未存在于词向量模型中的词;所述非低频词为不存在于低频词集中的词;分别针对每一类词进行词向量的转换,将文本数据中的词列表集合转化为词向量形式;
构建分类模型,包括输入层、词注意力层、特征提取网络以及输出层,其中,所述输入层为词向量列表集合,词注意力层用于对文本数据中的词进行加权,权重值越大,该词对该文本分类的作用越大;词注意力层输出的加权后的词向量经过特征提取网络处理后,在输出层得到文本数据的分类结果;
所述类别特征词典中的特征词通过以下公式进行选择:
其中tk表示特征词,ci表示类别,χ2(tk,ci)表示特征词tk与类别ci的相关性强弱,值越大说明该特征词与类别ci的相关性越强;A为训练集中类别为ci而且包含tk的文本数,C为训练集中类别为ci但不包含tk的文本数,B为训练集中不为类别ci但包含tk的文本数;D为训练集中不为类别ci且不含tk的文本数;
对每一个类别ci,只取非低频的特征词计算出AD-BC的值,如果AD-BC<0则代表负相关,直接去除该特征词,AD-BC>0时是正相关,该词保留下来,进行下面计算:
对上一步保留下来的所有特征词进行上述公式计算χ2(tk,ci)值,并根据其值从大到小排序,从前M个特征词中选取其中A/(A+B)大于设定阈值的特征词,并以2A/(A+B)对这些选择出来的词进行加权,以“特征词:权重值”的形式保存,这样就得到了每个类别的特征词典;
所述A类低频词转化为词向量的过程如下:
(1)对于一条文本数据中的某一A类低频词Wi,利用余弦相似度从预训练的词向量模型中找到距离它最近的k个高频词并记录训练词向量模型中A类词Wi的词向量E0[Wi];
(2)对上述低频词Wi的k个高频词进行遍历,判断其中的高频词hi是否存在于某一个类别特征词典中,如果高频词hi存在于i类别对应的特征词典中,并且低频词Wi所在文本数据的类别标签不为类别i,则删除高频词hi,不参与低频词Wi的词向量构造,其它情况则参与低频词Wi的词向量构造;
如果高频词hi不存在于某一个类别特征词典中,则该高频词hi参与词Wi的词向量的构造;对k个高频词进行遍历后得到j个用于构造低频词Wi词向量的高频词;
(3)针对预训练的词向量模型,用建立的中文短文本训练集对其进行训练,记录上一步得到的j个高频词在模型更新前的词向量E0[Wh]和更新后的词向量E1[Wh],接下来利用这些记录的数据进A类低频词Wi的词向量的构造,如下式:
所述B类低频词转化为词向量的过程为:
(1)对于一条文本数据中某一B类低频词Wb,使用中文近义词工具包获取其前n个近义词,即得低频词Wb的多个近义词;
(2)对于获取到的每一个近义词,若它不在预训练的词向量模型中则删除该近义词;经删除后,对剩下的每一个近义词Wnear,判断词Wnear是否存在于某一个类别特征词典中:如果词Wnear存在于某一个类别特征词典中,并且该类别特征词典对应的类别与B类低频词Wb则所在文本数据的类别相同,则保留该近义词,并进行步骤(3),其它情况则删除该近义词;如果词Wnear不存在于某一个类别特征词典中,则进行步骤(4);
(3)利用预训练的词向量模型将上一步保留下来近义词转化为词向量,并按类别特征词典中的低频词Wb权重值乘以该词向量,即给该近义词一个初始权重,得到词向量集合Vnear1;
(4)利用词向量模型将(2)中不存在于某一个类别特征词典中的近义词转化为词向量,得到词向量集合Vnear2;
(5)用(3)和(4)获得的词向量集合Vnear1和词向量集合Vnear2代表B类低频词Wb的词向量表示,直接将词向量集合Vnear1和词向量集合Vnear2中的元素一一添加到文本数据的词向量集合中,这样将B类低频词转化成了词向量。
2.根据权利要求1所述的针对低频词进行改善的中文短文本分类方法,其特征在于,所述文本数据的预处理过程主要包括噪声信息去除、分词处理和停用词处理;
噪声信息去除,对于需要进行分类的中文短文本,采用正则表达式去除文本中的非中文字符;
分词处理,对经过噪声信息去除后的中文短文本数据,利用分词工具实现对文本的分词,将文本序列转换为分词后对应的词列表;
停用词处理,对于中文分词后得到的词列表集合,采用停用词表进行停用词处理,优化分词后的结果。
3.根据权利要求1所述的针对低频词进行改善的中文短文本分类方法,其特征在于,所述其它非低频词转化为词向量的过程为:
利用中文短文本训练集对所述预训练的词向量模型进行训练,得到微调后的词向量模型;然后通过微调后的模型,调用内置函数求得每一个非低频词的词向量。
4.根据权利要求1所述的针对低频词进行改善的中文短文本分类方法,其特征在于,所述词注意力层对文本数据中的词进行加权的过程为:
对于一个文本数据的词向量表示S:
S=(w1,w2,w3……wn)
其中,wt(t=1,2...,n)是词向量,对每一个词进行加权,权重值计算公式如下:
qt=tanh(wtWs1+bw)
at=softmax(qtWs2)
xt=atwt
其中的Ws1,Ws2,bw是自定义参数,随着分类模型的训练进行更新;at代表词的权重;wt加权后的词向量xt将作为特征提取网络的输入;经过特征提取网络的处理后,输出层输出文本数据的分类结果。
5.根据权利要求1所述的针对低频词进行改善的中文短文本分类方法,其特征在于,所述特征提取网络采用textcnn模型、textrnn模型或textrcnn模型。
6.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,处理器执行计算机程序时实现根据权利要求1至5中任一权利要求所述的针对低频词进行改善的中文短文本分类方法的步骤。
7.一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,其特征在于,计算机程序被处理器执行时实现根据权利要求1至5中任一权利要求所述的针对低频词进行改善的中文短文本分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110755585.8A CN113378567B (zh) | 2021-07-05 | 2021-07-05 | 一种针对低频词进行改善的中文短文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110755585.8A CN113378567B (zh) | 2021-07-05 | 2021-07-05 | 一种针对低频词进行改善的中文短文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113378567A CN113378567A (zh) | 2021-09-10 |
CN113378567B true CN113378567B (zh) | 2022-05-10 |
Family
ID=77580991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110755585.8A Active CN113378567B (zh) | 2021-07-05 | 2021-07-05 | 一种针对低频词进行改善的中文短文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113378567B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512311A (zh) * | 2015-12-14 | 2016-04-20 | 北京工业大学 | 一种基于卡方统计的自适应特征选择方法 |
CN105893380A (zh) * | 2014-12-11 | 2016-08-24 | 成都网安科技发展有限公司 | 一种改良的文本分类特征选择方法 |
CN109871448A (zh) * | 2019-03-12 | 2019-06-11 | 苏州大学 | 一种短文本分类的方法及系统 |
CN109960730A (zh) * | 2019-04-19 | 2019-07-02 | 广东工业大学 | 一种基于特征扩展的短文本分类方法、装置以及设备 |
CN111104513A (zh) * | 2019-12-13 | 2020-05-05 | 中山大学 | 一种游戏平台用户问答业务的短文本分类方法 |
CN111274826A (zh) * | 2020-01-19 | 2020-06-12 | 南京新一代人工智能研究院有限公司 | 一种基于语义信息融合的低频词翻译方法 |
CN111460146A (zh) * | 2020-03-23 | 2020-07-28 | 南京邮电大学 | 一种基于多特征融合的短文本分类方法及系统 |
CN111475642A (zh) * | 2020-02-29 | 2020-07-31 | 新华三大数据技术有限公司 | 一种文本分类方法、装置及模型训练方法 |
CN111767397A (zh) * | 2020-06-30 | 2020-10-13 | 国网新疆电力有限公司电力科学研究院 | 一种电力系统二次设备故障短文本数据分类方法 |
CN112434720A (zh) * | 2020-10-22 | 2021-03-02 | 暨南大学 | 一种基于图注意力网络的中文短文本分类方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3726401A1 (en) * | 2019-04-18 | 2020-10-21 | Siemens Healthcare GmbH | Encoding textual information for text analysis |
-
2021
- 2021-07-05 CN CN202110755585.8A patent/CN113378567B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893380A (zh) * | 2014-12-11 | 2016-08-24 | 成都网安科技发展有限公司 | 一种改良的文本分类特征选择方法 |
CN105512311A (zh) * | 2015-12-14 | 2016-04-20 | 北京工业大学 | 一种基于卡方统计的自适应特征选择方法 |
CN109871448A (zh) * | 2019-03-12 | 2019-06-11 | 苏州大学 | 一种短文本分类的方法及系统 |
CN109960730A (zh) * | 2019-04-19 | 2019-07-02 | 广东工业大学 | 一种基于特征扩展的短文本分类方法、装置以及设备 |
CN111104513A (zh) * | 2019-12-13 | 2020-05-05 | 中山大学 | 一种游戏平台用户问答业务的短文本分类方法 |
CN111274826A (zh) * | 2020-01-19 | 2020-06-12 | 南京新一代人工智能研究院有限公司 | 一种基于语义信息融合的低频词翻译方法 |
CN111475642A (zh) * | 2020-02-29 | 2020-07-31 | 新华三大数据技术有限公司 | 一种文本分类方法、装置及模型训练方法 |
CN111460146A (zh) * | 2020-03-23 | 2020-07-28 | 南京邮电大学 | 一种基于多特征融合的短文本分类方法及系统 |
CN111767397A (zh) * | 2020-06-30 | 2020-10-13 | 国网新疆电力有限公司电力科学研究院 | 一种电力系统二次设备故障短文本数据分类方法 |
CN112434720A (zh) * | 2020-10-22 | 2021-03-02 | 暨南大学 | 一种基于图注意力网络的中文短文本分类方法 |
Non-Patent Citations (4)
Title |
---|
Word Vector Enrichment of Low FrequencyWords in the Bag-of-Words Model for Short Text Multi-class Classification Problems;Bradford Heap et.al;《arXiv:1709.05778Vv1[cs.CL]》;20170918;第1-8页 * |
一种低频词词向量优化方法及其在短文本分类中的应用;程婧等;《计算机科学》;20200831;第47卷(第8期);第255-260页 * |
基于类别和改进的CHI相结合的特征选择方法;高宝林等;《计算机应用研究》;20180630;第35卷(第6期);第1660-1662页 * |
融合多头自注意力机制的中文短文本分类模型;张小川等;《计算机应用》;20201231;第40卷(第12期);第3485-3489页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113378567A (zh) | 2021-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN110209806B (zh) | 文本分类方法、文本分类装置及计算机可读存储介质 | |
CN110096698B (zh) | 一种考虑主题的机器阅读理解模型生成方法与系统 | |
CN113962315A (zh) | 模型预训练方法、装置、设备、存储介质以及程序产品 | |
CN111310476B (zh) | 一种使用基于方面的情感分析方法的舆情监控方法和系统 | |
CN109271524B (zh) | 知识库问答系统中的实体链接方法 | |
CN110362819A (zh) | 基于卷积神经网络的文本情感分析方法 | |
CN109299277A (zh) | 舆情分析方法、服务器及计算机可读存储介质 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
Youssef et al. | MoArLex: an Arabic sentiment lexicon built through automatic lexicon expansion | |
JP2019082841A (ja) | 生成プログラム、生成方法及び生成装置 | |
CN116542297A (zh) | 基于文本数据训练生成对抗网络的方法及装置 | |
CN110969005B (zh) | 一种确定实体语料之间的相似性的方法及装置 | |
CN110728144A (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN112949293A (zh) | 一种相似文本生成方法、相似文本生成装置及智能设备 | |
CN112883713A (zh) | 基于卷积神经网络的评价对象抽取方法及装置 | |
CN112632272A (zh) | 基于句法分析的微博情感分类方法和系统 | |
CN113378567B (zh) | 一种针对低频词进行改善的中文短文本分类方法 | |
CN111460147A (zh) | 一种基于语义增强的标题短文本分类方法 | |
CN114547294A (zh) | 一种基于传播过程综合信息的谣言检测方法及系统 | |
Constantin et al. | Hateful meme detection with multimodal deep neural networks | |
CN109815490B (zh) | 文本分析方法、装置、设备及存储介质 | |
CN108595434B (zh) | 一种基于条件随机场和规则调整的句法依存方法 | |
CN114117057A (zh) | 产品反馈信息的关键词提取方法及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |