CN107180023B - 一种文本分类方法及系统 - Google Patents

一种文本分类方法及系统 Download PDF

Info

Publication number
CN107180023B
CN107180023B CN201610141931.2A CN201610141931A CN107180023B CN 107180023 B CN107180023 B CN 107180023B CN 201610141931 A CN201610141931 A CN 201610141931A CN 107180023 B CN107180023 B CN 107180023B
Authority
CN
China
Prior art keywords
classification
text
text data
input
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610141931.2A
Other languages
English (en)
Other versions
CN107180023A (zh
Inventor
胡加学
孙瑜声
金重九
赵乾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN201610141931.2A priority Critical patent/CN107180023B/zh
Publication of CN107180023A publication Critical patent/CN107180023A/zh
Application granted granted Critical
Publication of CN107180023B publication Critical patent/CN107180023B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本分类方法及系统,该方法包括:预先构建基于分类特征进行文本分类的文本分类模型,所述分类特征包括以下任意一种或多种:字特征、词特征,还包括以下任意一种或多种:词性特征、依存句法特征;获取待分类文本数据;提取待分类文本数据的分类特征;将所述分类特征输入所述文本分类模型,得到待分类文本数据的文本类别。由于本发明提供的方法可以用字特征、词特征、词性特征、依存句法特征等特征从多角度表达文本数据的语义信息,能更完整的表达文本数据的信息,使得利用所述分类特征进行文本类型预测时,获取的预测结果的准确度更高。

Description

一种文本分类方法及系统
技术领域
本发明涉及自然语言处理领域,具体涉及一种文本分类方法及系统。
背景技术
随着信息技术的不断发展以及互联网的快速普及,人们面对的信息量越来越多,在获取到丰富信息的同时,也带来信息困扰,即很多非目标信息充斥其中,这导致人们需要通过浏览所有的信息,以选择出有用的或者感兴趣的信息,给用户带来了极大的不便。人们所面临的信息中大部分都是文本信息,如何在众多的文本数据中快速、高效地找出自己所需要的文本数据成为迫切需要解决的问题。
为了解决上述问题,产生了文本自动分类技术,所述文本分类指依据文本的内容,根据自动分类算法把大量文本判断并归类为预先定义好的一个或多个类别的过程。现有文本分类方法通常通过提取文本数据的词特征,利用预先训练好的分类模型进行文本分类,得到文本数据的文本类别。一种文本分类方法的流程图如图1所示,包括:1.接收待分类文本数据;2.对待分类文本数据进行分词处理,得到文本数据的词特征;3.以句为单位对待分类文本数据的长度进行规整;4.利用预先训练好的词向量模型,将规整后的文本数据的词特征向量化,得到文本数据的词向量;5.利用预先训练的卷积神经网络模型对文本数据进行分类。现有文本分类方法只是简单的把文本数据包含的词特征堆积起来作为分类模型的输入,这样会丢失文本数据中大量的其它特征信息,使得输入特征过于单一,不能从多角度表达文本数据的语义信息等,导致文本数据的信息丢失过多使得文本分类的准确度降低。此外,现有文本分类方法输入的词特征中,噪声过多,如表现形式多样化的数词或停用词等,增加了词特征的噪声,进一步降低了文本分类的准确度。
发明内容
本发明实施例提供一种文本分类方法及系统,以解决现有文本分类方法不能从多角度表达文本数据的语义信息,导致文本分类的准确度低的问题。
为此,本发明实施例提供如下技术方案:
一种文本分类方法,包括:
预先构建基于分类特征进行文本分类的文本分类模型,所述分类特征包括以下任意一种或多种:字特征、词特征,还包括以下任意一种或多种:词性特征、依存句法特征;
获取待分类文本数据;
提取待分类文本数据的分类特征;
将所述分类特征输入所述文本分类模型,得到待分类文本数据的文本类别。
优选地,所述预先构建基于分类特征进行文本分类的文本分类模型包括:
收集训练文本数据,所述训练文本数据为具有文本类别标注信息的文本数据;
提取所述训练文本数据的分类特征;
确定基于分类特征进行文本分类的文本分类模型的拓扑结构;
基于所述训练文本数据和所述训练文本数据的分类特征,,训练得到所述文本分类模型。
优选地,所述文本分类模型为多窗口卷积神经网络模型,所述文本分类模型的拓扑结构包括:输入层、卷积层、池化层、全连接层以及输出层,所述输入层包含输入模块的个数不少于所述分类特征的种类个数,,每个输入模块存在独享的卷积层和池化层,每种分类特征输入一个或多个输入模块,所述输入模块的大小根据待分类文本数据或训练文本数据规整后长度以及输入的各向量化后分类特征的维数确定。
优选地,当所述分类特征中一种或多种特征输入多个输入模块时,同一种分类特征输入的多个输入模块各自独享的卷积层的输入窗口大小不同。
优选地,提取待分类文本数据或训练文本数据的分类特征包括:
对文本数据进行分字和/或分词,以及词性标注和/或依存句法分析,提取分类特征;
对文本数据的长度进行规整;
将规整后的文本数据的分类特征向量化。
优选地,所述方法还包括:
对文本数据的长度进行规整之前,对超过一种表示形式、且每种表示形式的意义相同或相近的词特征进行抽象化;和/或
删除词特征中的停用词。
相应地,还提供了一种文本分类系统,包括:
模型构建模块,用于预先构建基于分类特征进行文本分类的文本分类模型,所述分类特征包括以下任意一种或多种:字特征、词特征,还包括以下任意一种或多种:词性特征、依存句法特征;
获取模块,用于获取待分类文本数据;
提取模块,用于提取待分类文本数据的分类特征;
分类模块,用于将所述分类特征输入所述文本分类模型,得到待分类文本数据的文本类别。
优选地,所述模型构建模块包括:
收集单元,用于收集训练文本数据,所述训练文本数据为具有文本类别标注信息的文本数据;
提取单元,用于提取所述训练文本数据的分类特征;
拓扑确定单元,用于确定基于分类特征进行文本分类的文本分类模型的拓扑结构;
训练单元,用于基于所述训练文本数据和所述训练文本数据的分类特征,训练得到所述文本分类模型。
优选地,所述文本分类模型为多窗口卷积神经网络模型,所述文本分类模型的拓扑结构包括:输入层、卷积层、池化层、全连接层以及输出层,所述输入层包含输入模块的个数不少于所述分类特征的种类个数,,每个输入模块存在独享的卷积层和池化层,每种分类特征输入一个或多个输入模块,所述输入模块的大小根据待分类文本数据或训练文本数据规整后长度以及输入的各向量化后分类特征的维数确定。
优选地,当所述分类特征中一种或多种特征输入多个输入模块时,同一种分类特征输入的多个输入模块各自独享的卷积层的输入窗口大小不同。
优选地,所述提取模块包括:
特征提取单元,用于对文本数据进行分字和/或分词,以及词性标注和/或依存句法分析,提取分类特征;
规整单元,用于对文本数据的长度进行规整;
向量化单元,用于将规整后文本数据的分类特征向量化。
优选地,所述提取模块还包括:
抽象单元,用于在所述规整单元对文本数据的长度进行规整之前,对超过一种表示形式、且每种表示形式的意义相同或相近的词特征进行抽象化;和/或
停用词删除单元,用于删除词特征中的停用词。
本发明实施例提供的文本分类方法及系统,通过预先构建基于分类特征进行文本分类的文本分类模型;利用所述文本分类模型及从待分类文本数据中提取的分类特征,获取待分类文本数据的文本类别。由于所述分类特征,包括以下任意一种或多种:字特征、词特征,还包括以下任意一种或多种:词性特征、依存句法特征,这些特征能从多角度表达文本数据的语义信息等,使得分类特征能够更完整的表达文本数据的信息,以便提升利用该分类特征进行文本类别预测的准确度。
进一步地,本发明实施例中所述文本分类模型可以采用卷积神经网络模型,所述文本分类模型的拓扑结构包括:输入层、卷积层、池化层、全连接层以及输出层,所述输入层包含输入模块的个数不少于所述分类特征的种类个数,每个输入模块存在独享的卷积层和池化层,所述输入模块的大小根据待分类文本数据或训练文本数据规整后长度以及输入的各向量化后分类特征的维数确定,可以适用于多种不同分类特征的同时输入;进一步地,所述文本分类模型还可以采用多窗口卷积神经网络模型,每种分类特征可以使用一个或多个输入模块输入,当某种分类特征使用多个输入模块输入时,该多个输入模块各自独享的卷积层的输入窗口大小不同,例如字特征使用两个输入模块:输入模块1和输入模块2,输入模块1对应卷积层的窗口大小为4,输入模块2卷积层的窗口大小为3,从而在卷积层得到了不同的字特征信息,这样可以更全面地表达文本数据的语义信息等,从而进一步提升利用该分类特征进行文本类别预测的准确度。
进一步地,本发明实施例在提取待分类文本数据或训练文本数据的分类特征之后,对文本数据的长度进行规整之前,对超过一种表示形式、且每种表示形式的意义相同或相近的词特征进行抽象化和/或删除词特征中的停用词,这样可以有效减少词特征的噪声,进一步保证提取词特征的准确性,从而提高了文本分类的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1是现有技术中文本分类方法的一种流程图;
图2是本发明实施例提供的文本分类方法的一种流程图;;
图3是本发明实施例构建基于分类特征进行文本分类的文本分类模型的一种流程图;
图4是本发明实施例提供的文本分类模型的拓扑结构示意图;
图5是本发明实施例提取数据的分类特征的一种流程图;;
图6是本发明实施例提供的文本分类系统的一种结构示意图;
图7是本发明实施例提供的提取模块的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
如图2所示,是本发明实施例提供的文本分类方法的一种流程图,包括以下步骤:
步骤S01,预先构建基于分类特征进行文本分类的文本分类模型,所述分类特征包括以下任意一种或多种:字特征、词特征,还包括以下任意一种或多种:词性特征、依存句法特征。
在本实施例中,所述文本分类模型可以将多种不同类型的分类特征作为输入,根据预先设定的各分类特征的不同维数,可以设定不同的输入窗口(为了便于与卷积层的窗口进行区别表示,以下以输入模块表示)的大小以输入不同维数的分类特征。优选地,所述文本分类模型为多窗口卷积神经网络模型,所述文本分类模型的拓扑结构包括:输入层、卷积层、池化层、全连接层以及输出层,所述输入层包含的输入模块的个数不少于所述分类特征的种类个数,每个输入模块存在独享的卷积层和池化层,每种分类特征输入一个或多个输入模块,所述输入模块的大小根据待分类文本数据或训练文本数据规整后长度以及输入的各向量化后分类特征的维数确定。
进一步地,当某种分类特征使用多个输入模块输入时,该多个输入模块各自独享的卷积层的输入窗口大小不同,这样可以在卷积层得到该种分类特征的不同的特征信息,这样可以更全面地表达文本数据的语义信息,从而进一步提升利用该分类特征进行文本类别预测的准确度。
如图3所示,是本发明实施例构建基于分类特征进行文本分类的文本分类模型的一种流程图。
在本实施例中,所述预先构建基于分类特征进行文本分类的文本分类模型包括:
步骤S31,收集训练文本数据,所述训练文本数据为具有文本类别标注信息的文本数据。
在本实施例中,文本类别标注信息可以是通过人工标注的方式对收集的数据进行标注,当然也可以是直接收集已经具有文本类别标注信息的文本数据。需要说明的是,所述文本数据可以为包含多个领域的通用文本数据,也可以为只包含一个领域的定制文本数据,所述待分类文本数据可以根据实际应用需求定制,如待分类文本为智能客服相关文本数据,标注的文本类别可以根据业务分为查询话费、查询流量、办理流量、查询套餐。
步骤S32,提取所述训练文本数据的分类特征。
在本实施例中,可以以句为单位,提取收集得到的文本数据的分类特征。具体可以包括分字、分词、词性标注以及依存句法分析等步骤,详细参照步骤S03。
步骤S33,确定基于分类特征进行文本分类的文本分类模型的拓扑结构。
所述文本分类模型采用多窗口卷积神经网络表示,其拓扑结构可以如图4所示,所述多窗口卷积神经网络包括输入层、卷积层、池化层、全连接层及输出层,所述多窗口指每种分类特征可以使用多个输入模块输入,同一种分类特征输入的多个输入模块各自独享的卷积层的输入窗口大小可以不同,即多窗口。
为了适应不同类型分类特征的同时输入,输入层包含多个输入模块,每种类型的分类特征可以使用一个或多个输入模块输入,以下以字特征为例进行说明,如图4所示,当字特征使用两个输入模块输入时,这两个输入模块的输入相同,都为字特征向量。每个输入模块根据该模块对应输入特征向量的维数和文本数据规整后的长度确定输入模块的大小,例如对于字特征,规整后文本数据包含50个字特征,字特征向量为128维,则输入模块的大小为50行128列,即50*128。每个输入模块存在独享的卷积层和池化层,当同一种分类特征使用多个模块输入时,输入模块的卷积层输入窗口大小不同,从而可以得到同一种分类特征不同的特征信息;如字特征使用两个输入模块:输入模块1和输入模块2,输入模块1对应的卷积层的窗口大小为4,输入模块2对应的卷积层的窗口大小为3,从而在卷积层得到不同的字特征的信息。所有输入模块对应的池化层使用一个全连接层连接,最后通过输出层获取输出结果。
所述文本分类模型的运算过程可以如下所示:
将每个文本数据的每种分类特征分别作为每个输入模块的输入特征,使用Vi表示第i个输入模块的输入特征,该输入模块对应的卷积层对输入特征Vi进行滤波后,得到卷积层的输出特征为yi,然后经过池化层的计算后,得到池化层的输出特征为zi,在得到每个输入模块对应池化层的输出特征zi后,将所述输出特征作为全连接层的输入特征,经过全连接层的转换后,得到全连接层的输出特征d,具体转换方法如式(1)所示::
Figure BDA0000939836250000081
其中,M为输入模块总数,Wi和bi分别为第i个输入模块对应池化层到全连接层的转换矩阵和偏置项,即需要训练的模型参数,f为激活函数,通常使用tanh函数,即正切函数,当然,也可以使用其它激活函数,例如sigmoid函数。
最后将全连接层的输出特征作为输出层的输入特征,经过输出层的转换后,得到当前文本数据属于每个类别的概率p,即输出特征,所述输出层的转换方法可以如式(2)所示:
p=f(Wd+b) (2)
其中,W和b分别为全连接层到输出层的转换矩阵和偏置项,f为激活函数,通常使用softmax函数等。
步骤S34,基于所述训练文本数据和所述训练文本数据的分类特征,训练得到所述文本分类模型。
具体训练时,首先对神经网络的数学模型上的每个连接的权重值进行随机初始化或直接初始化为0等;训练时将提取的文本数据的分类特征作为多窗口卷积神经网络的输入特征,输出为当前文本数据是每个类别的概率,将当前文本数据人工标注的类别作为正确的类别,其它类别为错误的类别,根据输出结果可以得到当前文本数据正确分类的概率和错误分类的概率,以最大化正确分类概率和最小化错误分类概率为准则,采用逆向误差传播方法进行模型参数的训练,具体训练过程与现有技术相同,本案不再详述。
在本实施例中,所述文本分类模型的各参数,主要为每个输入模块输入分类特征的转换矩阵以及偏置项。
步骤S02,获取待分类文本数据。
所述文本数据包括但不限于:媒体新闻、科技、报告、电子邮件、技术专利、网页、书籍或其中的一部分。在本实施例中,文本数据可以为包含多个领域的通用文本数据,也可以为只包含一个领域的定制文本数据,如接收的文本数据为智能客服相关文本数据,文本类别可以根据业务分为查询话费、查询流量、办理流量、查询套餐等。
步骤S03,提取待分类文本数据的分类特征。
在本实施例中,如图5所示,提取数据的分类特征可以包括以下步骤:
步骤S51,对文本数据进行分字和/或分词,以及词性标注和/或依存句法分析,提取分类特征。
在一个具体实施例中,可以以句为单位,提取收集得到的文本数据的分类特征,所述分类特征共四种类型,即待分类文本数据的字特征、词特征、词性特征及依存句法特征。具体提取时,首先去除每句文本数据中的无意义字符及非法字符,所述无意义字符如“#”、“@”,所述非法字符如“\”、“/”,得到纯文本数据后。
随后将纯文本数据按字切分,得到待分类文本数据的单字,作为文本数据的字特征,如文本数据“取消已经开通的十元一百兆的流量”,按字切分后得到的单字特征为“取消已经开通的十元一百兆的流量”。
接着,对所述纯文本数据进行分词,得到文本数据的词特征,可以采用现有的分词方法进行分词及词性标注,如基于条件随机场对纯文本数据进行分词及词性标注,得到文本数据的词特征及词性特征,如文本数据“取消已经开通的十元一百兆的流量”,经过分词和词性标注后得到的词特征和词性特征为“取消/v 已经/d 开通/v 的/u 十/m 元/q 一百/m 兆/q 的/u 流量/n”,其中每个词的词性特征分别为“v d v u m q m q u n”,字符表示词性,n表示名词,m表示数词,v表示动词,u表示助词,q表示量词,d表示副词。
最后对分词和词性标注后的文本数据进行依存句法分析,,所述依存句法分析指针对给定的句子使用某一依存句法对自然语言进行自动分析构建句子对应依存句法树的一种方法,具体可以采用现有方法进行依存句法分析。当然,也可以基于一些公开的依存句法分析工具进行分析,如基于斯坦福自然语言处理工具(Stanford Parser)、哈工大LTP分析工具等对每句文本进行依存句法分析,得到每句文本中词与词之间的依存关系,将所述依存关系作为文本数据的依存句法特征。
如“取消/v 已经/d 开通/v 的/u 十/m 元/q 一百/m 兆/q 的/u 流量/n”进行依存句法分析后,得到该句中词与词之间的依存关系如下:
root(ROOT-0,取消-1)
adv(开通-3,已经-2)
att(流量-10,开通-3)
rad(开通-3,的-4)
att(元-6,十-5)
att(流量-10,元-6)
att(兆-8,一百-7)
att(流量-10,兆-8)
rad(兆-8,的-9)
vob(取消-1,流量-10),
其中,括号前面的“att”、“vob”、“adv”、“rad”表示依存句法分析后得到的词与词之间的依存关系,括号中第一个词表示依存句法树中的父节点词,第二个词表示依存句法树中的子节点词,每个词后的数字表示词在句子中的位置,ROOT表示依存句法树的根节点,该节点为虚节点,其与子节点之间的关系为root关系,即虚关系,文本数据的依存句法特征分别为“root、adv、att、rad、att、att、att、att、rad、vob”。root表示为虚关系,adv表示状中结构,att表示定中关系,rad表示后附加关系,vob表示动宾关系。
步骤S52,对文本数据的长度进行规整。
在本实施例中,将所有文本数据的长度规整到指定的长度。具体地,将每句待分类文本规整到指定文本长度,所述文本长度指文本包含的词特征总数,如果当前文本数据的长度小于指定文本长度,则可以在当前文本数据一端添加固定的词特征,如使用“NULL”表示固定的词特征直接添加到当前文本数据的前端,直到当前文本数据的长度与指定文本长度相同;如果当前文本数据的长度大于指定文本长度,则直接从当前文本数据的一端开始删除词特征,直至当前文本数据的长度与指定文本长度相同。
例如,“取消已经开通的十元一百兆的流量”,经过分词之后得到“取消/已经/开通/的/十/元/一百/兆/的/流量”,当前文本长度为10。
如果指定文本度为12时,当前文本长度小于指定文本长度,则对本句文本数据进行规整时,从当前文本数据的一端补充两个词特征,,如从前端补充,得到规整后的文本数据为“NULL/NULL/取消/已经/开通/的/十/元/一百/兆/的/流量”,其中,“NULL”表示固定的词特征。
如果指定文本长度为8时,当前文本长度大于指定文本长度,则对本句文本数据进行规整时,从当前文本数据的一端删除两个词特征,,如从前端删除,得到规整后的文本数据为“开通/的/十/元/一百/兆/的/流量”。
步骤S53,将规整后的文本数据的分类特征向量化。
在本实施例中,利用预先训练好的词向量模型,将规整后的文本数据的分类特征向量化,得到文本数据的分类特征向量。具体向量化时,每个类型的分类特征单独向量化,向量化后的维数可以相同,也可以不同,具体维数可以根据每种分类特征的取值数确定,如字特征的取值较多,常用的字约有5000多个,字特征的取值有5000多种。
在一个具体实施例中,字特征及词特征可以直接使用word2vec技术向量化,由于字特征或词特征的取值较多,因此,向量维数可以设置大一些,如设置为128维;词性特征及依存句法特征的取值较少,可以使用较少维数表示,如使用64维表示,直接使用相应维数的向量表示,向量的初始值可以采用随机初始化的方法得到。
进一步地,为了提升提取词特征的准确性,以提高文本分类的准确度,本实施例还可以对数词等表现形式多样化的词特征进行抽象化和/或删除无实际意义的停用词等后处理,这样可以有效减少词特征的噪声。例如,现有方法输入的词特征中噪声过多,如表现形式多样化的数词或无实际意义的停用词等,所述表现形式多样化的数词如“十元套餐”和“二十元套餐”中的“十元”和“二十元”都表示套餐金额,但具体表现形式不同,如果作为两个不同的词特征处理,增加了词特征的噪声。具体的,本实施例中可以对数据进行分词之后,对文本数据的长度进行规整之前,对超过一种表示形式、且每种表示形式的意义相同或相近的词特征进行抽象化和/或删除词特征中的停用词。
在一个具体实施例中,首先对存在超过一种表示形式、且每种表示形式的意义相同或相近的词特征进行抽象化,如对数词、同义词及上下位词等词特征进行抽象化。在分词得到的词组中存在大量词特征的表示形式较多,而每种表示形式的意义一般都相同或相近,每种表现形式的含义对文本分类的作用较小,甚至会形成噪声:以数词为例,如“我需要办理一个十元的套餐”和“我需要办理一个二十元的套餐”中的“十元”和“二十元”表现形式不同,但都是表示套餐金额,在文本分类时仅需要根据数字后的文本数据来判断数字的含义即可,具体数值对文本分类意义较小,并且不同表现形式的数字容易增加文本数据的噪声;如同义词“查询”,“咨询”,“查一下”等词特征的表现形式不同,但含义相同。因此,为了使提取的词特征更准确,本案对提取的词特征进行抽象化,将词特征的多种表现形式统一为一种表现形式,具体抽象时,根据预先构建的词集等,查找待分类文本中表现形式多样的词特征,将其抽象成相应词特征的词集名,所述词集可以通过预先收集大量数据,将每个词的不同表现形式放到一个词集中得到,每个词集有相应的词集名;为了区分词集名和普通词特征,需要在抽象后的词集名前添加抽象符号,如使用“@”表示抽象符号,抽象后的词集名为“@数字”、“@时间”、“@地点”等,如文本数据的词特征为“取消 已经 开通 的 十 元 一百 兆 的 流量”,抽象化后的词特征为“取消 已经 开通 的 @数字 元 @数字 兆 的 流量”,其中数字为词集名。
然后,删除词特征中的停用词。为了减少文本数据的噪声数据,提高分类准确度,本案还可以删除文本数据的停用词,所述停用词指句子中出现频率较高,但没有实际含义的词,如“的、那、这”等,具体可以通过预先建立停用词表,通过文本匹配的方法,将文本数据中相应停用词删除,当然删除停用词的操作可以在词特征抽象化之前或之后进行,以在词特征抽象化之后删除停用词为例,如抽象化后的词特征为“取消 已经 开通 的 @数字元 @数字 兆 的 流量”,删除停用词后的词特征为“取消 已经 开通 @数字 元 @数字 兆流量”,将停用词“的”删除了。然后将经过后处理的文本数据进行长度规整。
需要说明的是,提取训练文本数据的分类特征与提取待分类文本数据的分类特征的过程可以相同,在此不再详述。
步骤S04,将所述分类特征输入所述文本分类模型,得到待分类文本数据的文本类别。
在本实施例中,将待分类文本数据的分类特征输入所述文本分类模型,经过如步骤S33中示例的运算过程后,由输出层输出文本分类结果。具体地,可以将输出结果中概率最大的类别作为待分类文本数据的文本类型。
本发明实施例提供的文本分类方法,该方法在提取待分类文本数据的分类特征之后,利用预先构建的文本分类模型对待分类文本数据的文本类型进行预测。由于所述分类特征包括以下任意一种或多种:字特征、词特征,还包括以下任意一种或多种:词性特征、依存句法特征,这些特征能从多角度表达文本数据的语义信息等,因而可以更完整的表达文本数据的信息,能够提升利用该分类特征进行文本类别预测的准确度。
相应地,本发明实施例还提供了一种文本分类系统,如图6所示,是该系统的一种结构示意图。
在该实施例中,所述系统包括:
模型构建模块601,用于预先构建基于分类特征进行文本分类的文本分类模型,所述分类特征包括以下任意一种或多种:字特征、词特征,还包括以下任意一种或多种:词性特征、依存句法特征;
获取模块702,用于获取待分类文本数据;
提取模块703,用于提取待分类文本数据的分类特征;
分类模块704,用于将所述分类特征输入所述文本分类模型,得到待分类文本数据的文本类别。
其中,所述模型构建模块601包括:
收集单元,用于收集训练文本数据,所述训练文本数据为具有文本类别标注信息的文本数据;
提取单元,用于提取所述训练文本数据的分类特征;
拓扑确定单元,用于确定基于分类特征进行文本分类的文本分类模型的拓扑结构;
训练单元,用于基于所述训练文本数据和所述训练文本数据的分类特征,训练得到所述文本分类模型。在本实施例中,可以根据所述分类特征确定每个输入模块的大小。
优选地,所述提取模块703包括:
特征提取单元7031,用于对文本数据进行分字和/或分词,以及词性标注和/或依存句法分析,提取分类特征;
规整单元7032,用于对文本数据的长度进行规整;
向量化单元7033,用于将规整后的文本数据的分类特征向量化。
在其它实施例中,如图7所示,是本发明实施例提供的一种提取模块的结构示意图,为了减少词特征的噪声,以保证提取词特征的准确性,所述提取模块还包括:
抽象单元7034,用于在所述规整单元对文本数据的长度进行规整之前,对超过一种表示形式、且每种表示形式的意义相同或相近的词特征进行抽象化;和/或
停用词删除单元7035,用于删除词特征中的停用词。
在本实施例中,所述文本分类模型为多窗口卷积神经网络模型,所述文本分类模型的拓扑结构包括:输入层、卷积层、池化层、全连接层以及输出层,所述输入层包含输入模块的个数不少于所述分类特征的种类个数,每个输入模块存在独享的卷积层和池化层,每种分类特征输入一个或多个输入模块,所述输入模块的大小根据待分类文本数据或训练文本数据规整后长度以及输入的各向量化后分类特征的维数确定。其中,所述分类特征的字特征向量和词特征向量的维数可以为128维,所述分类特征的词性特征向量和依存句法特征向量的维数可以为64维。
进一步地,当所述分类特征中一种或多种特征输入多个输入模块时,同一种分类特征输入的多个输入模块各自独享的卷积层的输入窗口大小不同。这样可以更全面地表达文本数据的语义信息等,从而进一步提升利用该分类特征进行文本类别预测的准确度。
当然,该系统还可以进一步包括存储模块(未图示),用于保存模型参数、分类特征等相关信息,如转换矩阵、词特征等。这样,以方便计算机进行自动处理。并可以用于存储文本数据的文本类型。
本发明实施例提供的文本分类系统,该系统通过模型构建模块601预先构建基于分类特征进行文本分类的文本分类模型,然后利用该模型以及提取模块703获取的待分类文本数据的分类特征,通过分类模块704获取待分类文本数据的文本类别。由于所述分类特征包括以下任意一种或多种:字特征、词特征,还包括以下任意一种或多种:词性特征、依存句法特征,这些特征能从多角度表达文本数据的语义信息等,因而提取模块703获取的分类特征能更完整的表达文本数据的信息,能够提升利用分类模块704进行文本类别预测的准确度。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及系统;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种文本分类方法,其特征在于,包括:
预先构建基于分类特征进行文本分类的文本分类模型,所述分类特征包括以下任意一种或多种:字特征、词特征,还包括以下任意一种或多种:词性特征、依存句法特征;所述文本分类模型为一个卷积神经网络模型,所述文本分类模型的输入层用于多种不同分类特征的同时输入,其中所述输入层包括多个输入模块,且所述输入模块的个数不少于所述分类特征的种类个数,以使每种分类特征能够输入一个或多个输入模块;其中,每个所述输入模块存在独享的卷积层;
获取待分类文本数据;
提取待分类文本数据的分类特征;
将所述分类特征输入所述文本分类模型,得到待分类文本数据的文本类别。
2.根据权利要求1所述的方法,其特征在于,所述预先构建基于分类特征进行文本分类的文本分类模型包括:
收集训练文本数据,所述训练文本数据为具有文本类别标注信息的文本数据;
提取所述训练文本数据的分类特征;
确定基于分类特征进行文本分类的文本分类模型的拓扑结构;
基于所述训练文本数据和所述训练文本数据的分类特征,训练得到所述文本分类模型。
3.根据权利要求2所述的方法,其特征在于,所述文本分类模型为多窗口卷积神经网络模型,所述文本分类模型的拓扑结构包括:输入层、卷积层、池化层、全连接层以及输出层,所述输入层的每个输入模块存在独享的池化层,所述输入模块的大小根据待分类文本数据或训练文本数据规整后长度以及输入的各向量化后分类特征的维数确定。
4.根据权利要求1所述的方法,其特征在于,当所述分类特征中一种或多种特征输入多个输入模块时,同一种分类特征输入的多个输入模块各自独享的卷积层的输入窗口大小不同。
5.根据权利要求1至4任一项所述的方法,其特征在于,提取待分类文本数据或训练文本数据的分类特征包括:
对文本数据进行分字和/或分词,以及词性标注和/或依存句法分析,提取分类特征;
对文本数据的长度进行规整;
将规整后的文本数据的分类特征向量化。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
对文本数据的长度进行规整之前,对超过一种表示形式、且每种表示形式的意义相同或相近的词特征进行抽象化;和/或
删除词特征中的停用词。
7.一种文本分类系统,其特征在于,包括:
模型构建模块,用于预先构建基于分类特征进行文本分类的文本分类模型,所述分类特征包括以下任意一种或多种:字特征、词特征,还包括以下任意一种或多种:词性特征、依存句法特征;所述文本分类模型为一个卷积神经网络模型,所述文本分类模型的输入层用于多种不同分类特征的同时输入,其中所述输入层包括多个输入模块,且所述输入模块的个数不少于所述分类特征的种类个数,以使每种分类特征能够输入一个或多个输入模块;其中,每个所述输入模块存在独享的卷积层;
获取模块,用于获取待分类文本数据;
提取模块,用于提取待分类文本数据的分类特征;
分类模块,用于将所述分类特征输入所述文本分类模型,得到待分类文本数据的文本类别。
8.根据权利要求7所述的系统,其特征在于,所述模型构建模块包括:
收集单元,用于收集训练文本数据,所述训练文本数据为具有文本类别标注信息的文本数据;
提取单元,用于提取所述训练文本数据的分类特征;
拓扑确定单元,用于确定基于分类特征进行文本分类的文本分类模型的拓扑结构;
训练单元,用于基于所述训练文本数据和所述训练文本数据的分类特征,训练得到所述文本分类模型。
9.根据权利要求8所述的系统,其特征在于,所述文本分类模型为多窗口卷积神经网络模型,所述文本分类模型的拓扑结构包括:输入层、卷积层、池化层、全连接层以及输出层,所述输入层的每个输入模块存在独享的池化层,所述输入模块的大小根据待分类文本数据或训练文本数据规整后长度以及输入的各向量化后分类特征的维数确定。
10.根据权利要求7所述的系统,其特征在于,当所述分类特征中一种或多种特征输入多个输入模块时,同一种分类特征输入的多个输入模块各自独享的卷积层的输入窗口大小不同。
11.根据权利要求7至10任一项所述的系统,其特征在于,所述提取模块包括:
特征提取单元,用于对文本数据进行分字和/或分词,以及词性标注和/或依存句法分析,提取分类特征;
规整单元,用于对文本数据的长度进行规整;
向量化单元,用于将规整后文本数据的分类特征向量化。
12.根据权利要求11所述的系统,其特征在于,所述提取模块还包括:
抽象单元,用于在所述规整单元对文本数据的长度进行规整之前,对超过一种表示形式、且每种表示形式的意义相同或相近的词特征进行抽象化;和/或
停用词删除单元,用于删除词特征中的停用词。
CN201610141931.2A 2016-03-11 2016-03-11 一种文本分类方法及系统 Active CN107180023B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610141931.2A CN107180023B (zh) 2016-03-11 2016-03-11 一种文本分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610141931.2A CN107180023B (zh) 2016-03-11 2016-03-11 一种文本分类方法及系统

Publications (2)

Publication Number Publication Date
CN107180023A CN107180023A (zh) 2017-09-19
CN107180023B true CN107180023B (zh) 2022-01-04

Family

ID=59830315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610141931.2A Active CN107180023B (zh) 2016-03-11 2016-03-11 一种文本分类方法及系统

Country Status (1)

Country Link
CN (1) CN107180023B (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019784B (zh) * 2017-09-29 2021-10-15 北京国双科技有限公司 一种文本分类方法及装置
CN108073677B (zh) * 2017-11-02 2021-12-28 中国科学院信息工程研究所 一种基于人工智能的多级文本多标签分类方法及系统
CN107992594A (zh) * 2017-12-12 2018-05-04 北京锐安科技有限公司 一种文本属性的划分方法、装置、服务器和存储介质
CN108304468B (zh) * 2017-12-27 2021-12-07 中国银联股份有限公司 一种文本分类方法以及文本分类装置
CN108304501B (zh) * 2018-01-17 2020-09-04 腾讯科技(深圳)有限公司 一种无效上位词的过滤方法、装置及存储介质
CN110059310B (zh) * 2018-01-19 2022-10-28 腾讯科技(深圳)有限公司 上位词网络的扩充方法及装置、电子设备、存储介质
CN108334605B (zh) * 2018-02-01 2020-06-16 腾讯科技(深圳)有限公司 文本分类方法、装置、计算机设备及存储介质
CN108549723B (zh) * 2018-04-28 2022-04-05 北京神州泰岳软件股份有限公司 一种文本概念分类方法、装置及服务器
CN108628834B (zh) * 2018-05-14 2022-04-15 国家计算机网络与信息安全管理中心 一种基于句法依存关系的词语表示学习方法
CN108763402B (zh) * 2018-05-22 2021-08-27 广西师范大学 基于依存关系、词性和语义词典的类中心向量文本分类法
CN108874942B (zh) * 2018-06-04 2021-07-06 科大讯飞股份有限公司 一种信息确定方法、装置、设备及可读存储介质
CN110991161B (zh) * 2018-09-30 2023-04-18 北京国双科技有限公司 相似文本确定方法、神经网络模型获得方法及相关装置
CN109522407A (zh) * 2018-10-26 2019-03-26 平安科技(深圳)有限公司 企业关系预测方法、装置、计算机设备和存储介质
CN111180076B (zh) * 2018-11-13 2023-09-05 零氪科技(北京)有限公司 一种基于多层语义分析的医疗信息提取方法
CN109684477A (zh) * 2018-12-11 2019-04-26 北京极智感科技有限公司 一种专利文本特征提取方法及系统
CN111401508A (zh) * 2018-12-13 2020-07-10 北京京东尚科信息技术有限公司 文本数据的处理方法、装置和计算机可读存储介质
CN109753564A (zh) * 2018-12-13 2019-05-14 四川大学 基于机器学习的中文rct智能分类器的构建方法
CN110209825B (zh) * 2019-06-17 2021-02-12 大连海事大学 一种基于宽度学习系统的快速网络表征学习方法
CN110413773B (zh) * 2019-06-20 2023-09-22 平安科技(深圳)有限公司 智能文本分类方法、装置及计算机可读存储介质
CN110362684B (zh) * 2019-06-27 2022-10-25 腾讯科技(深圳)有限公司 一种文本分类方法、装置及计算机设备
CN111400452B (zh) * 2020-03-16 2023-04-07 腾讯科技(深圳)有限公司 文本信息分类处理方法、电子设备及计算机可读存储介质
CN111476028A (zh) * 2020-04-02 2020-07-31 言图科技有限公司 一种汉语短语识别方法、系统、存储介质及电子设备
CN113901787A (zh) * 2020-06-22 2022-01-07 江苏税软软件科技有限公司 一种数值信息与文本信息的智能提取方法
CN111611393A (zh) * 2020-06-29 2020-09-01 支付宝(杭州)信息技术有限公司 一种文本分类方法、装置及设备
CN112380868B (zh) * 2020-12-10 2024-02-13 广东泰迪智能科技股份有限公司 一种基于事件三元组的信访目的多分类装置及其方法
CN112699944B (zh) * 2020-12-31 2024-04-23 中国银联股份有限公司 退单处理模型训练方法、处理方法、装置、设备及介质
CN113434686A (zh) * 2021-07-07 2021-09-24 中国银行股份有限公司 一种基于多重语义信息的资讯分类方法及系统
CN113822019B (zh) * 2021-09-22 2024-07-12 科大讯飞股份有限公司 文本规整方法、相关设备及可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462066A (zh) * 2014-12-24 2015-03-25 北京百度网讯科技有限公司 语义角色标注方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6128606A (en) * 1997-03-11 2000-10-03 At&T Corporation Module for constructing trainable modular network in which each module inputs and outputs data structured as a graph
US8504361B2 (en) * 2008-02-07 2013-08-06 Nec Laboratories America, Inc. Deep neural networks and methods for using same
US20120253792A1 (en) * 2011-03-30 2012-10-04 Nec Laboratories America, Inc. Sentiment Classification Based on Supervised Latent N-Gram Analysis
US9665823B2 (en) * 2013-12-06 2017-05-30 International Business Machines Corporation Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition
CN105045779A (zh) * 2015-07-13 2015-11-11 北京大学 一种基于深度神经网络与多标记分类的病句检测方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462066A (zh) * 2014-12-24 2015-03-25 北京百度网讯科技有限公司 语义角色标注方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Relation Classification via Recurrent Neural Network;Dongxu Zhang 等;《arXiv:1508.01006v2》;20151225;第1-11页 *
Relation Extraction:Perspective from Convolutional Neural Networks;Thien Huu Nguyen 等;《Proceedings of NAACL-HLT 2015》;20150605;第39-48页 *

Also Published As

Publication number Publication date
CN107180023A (zh) 2017-09-19

Similar Documents

Publication Publication Date Title
CN107180023B (zh) 一种文本分类方法及系统
CN108304468B (zh) 一种文本分类方法以及文本分类装置
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN107085581B (zh) 短文本分类方法和装置
CN106502994B (zh) 一种文本的关键词提取的方法和装置
CN106776562B (zh) 一种关键词提取方法和提取系统
CN111325029B (zh) 一种基于深度学习集成模型的文本相似度计算方法
CN104834747B (zh) 基于卷积神经网络的短文本分类方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
WO2018028077A1 (zh) 一种基于深度学习的中文语义分析的方法及装置
CN111221944B (zh) 文本意图识别方法、装置、设备和存储介质
CN110619051B (zh) 问题语句分类方法、装置、电子设备及存储介质
CN109885686A (zh) 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN112347778A (zh) 关键词抽取方法、装置、终端设备及存储介质
CN110502742B (zh) 一种复杂实体抽取方法、装置、介质及系统
CN109902303B (zh) 一种实体识别方法及相关设备
CN113254643B (zh) 文本分类方法、装置、电子设备和
CN110532328A (zh) 一种文本概念图构造方法
CN107832290B (zh) 中文语义关系的识别方法及装置
CN113836938B (zh) 文本相似度的计算方法及装置、存储介质、电子装置
CN111191442A (zh) 相似问题生成方法、装置、设备及介质
Benzebouchi et al. Multi-classifier system for authorship verification task using word embeddings
CN110633467A (zh) 一种基于改进特征融合的语义关系抽取方法
CN110134950B (zh) 一种字词结合的文本自动校对方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant