CN108304468A - 一种文本分类方法以及文本分类装置 - Google Patents

一种文本分类方法以及文本分类装置 Download PDF

Info

Publication number
CN108304468A
CN108304468A CN201711441846.9A CN201711441846A CN108304468A CN 108304468 A CN108304468 A CN 108304468A CN 201711441846 A CN201711441846 A CN 201711441846A CN 108304468 A CN108304468 A CN 108304468A
Authority
CN
China
Prior art keywords
words
word
gram
user session
triple
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711441846.9A
Other languages
English (en)
Other versions
CN108304468B (zh
Inventor
佘萧寒
姜梦晓
万四爽
费志军
王宇
张莉敏
张琦
邱雪涛
乐旭
刘想
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201711441846.9A priority Critical patent/CN108304468B/zh
Publication of CN108304468A publication Critical patent/CN108304468A/zh
Application granted granted Critical
Publication of CN108304468B publication Critical patent/CN108304468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本发明涉及一种文本分类方法以及文本分类装置。该方法包括下述步骤:NLP预处理步骤,对用户对话文字进行自然语言处理方法的分析,得到关于该用户对话文字的词集合和语义标注结果;多维度特征选择步骤,对于所述词集合和语义标注结果按照多种规则组合,得到用户对话文字所包含的语义信息的向量化表征形式;以及分类步骤,对于所述多维度特征选择步骤得到的用户对话分类计算概率估计值。根据本发明的文本分类方法以及文本分类系统,能够整合统计和深度学习方法的优势,通过多维度特征选择实现面向客户需求的文本分类解决方案。

Description

一种文本分类方法以及文本分类装置
技术领域
本发明涉及文本处理技术,具体涉及一种文本分类方法以及文本分类装置。
背景技术
现阶段有关文本分类技术的实现方案,主要分为统计学习方法和深度学习方法。前者主要以特征选择方法为主,通过诸如TF-IDF、PMI、卡方值等指标对文本的词、句级别特征进行选择,得到代表文本的特征向量,并用机器学习的方法得出该特征向量之于各标签的概率,作为最终的分类标准;后者则以模型构建为主,将文本的离散信息作为输入,通过多层神经网络的串、并联结构,辅以反向传播算法更新网络权重,直接得到该文本之于各标签的概率。
然而,无论是统计学习方法或是深度学习方法,都有其缺陷。前者对特征选择的过于依赖导致后续算法的提升空间有限,且离散化的特征常会导致诸如数据稀疏、语义鸿沟等问题;后者则是黑盒结构,端到端的学习方法难以泛化,也很难实现领域迁移,极其依赖训练数据的规模。
发明内容
鉴于所述问题,本发明旨在提供一种能够整合统计学习方法和深度学习方法的基于多维度特征选择的文本分类方法。
本发明的文本分类方法,其特征在于,包括下述步骤:
NLP预处理步骤,对用户对话文字进行自然语言处理方法的分析,得到关于该用户对话文字的词集合和语义标注结果;以及
多维度特征选择步骤,对于所述词集合和语义标注结果按照多种规则组合,得到用户对话文字所包含的语义信息的向量化表征形式。
优选地,所述NLP预处理步骤包括下述子步骤:
将用户对话文字以词为单位进行分词和词性标注并得到词集合和语义标注结果,其中,所述自然语言处理方法使用LTP工具包实现;以及
根据停用词词表,去除所述词集合中的停用词,其中,所述停用词词表是根据训练语料中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。
优选地,所述多维度特征选择步骤包括下述子步骤:
抽取n-gram离散特征的子步骤;
抽取依存三元组特征的子步骤;以及
抽取WE分布式特征的子步骤。
优选地,所述抽取n-gram离散特征的子步骤包括:
从所述NLP预处理步骤得到的用户对话词集合中抽取Unigram、Bigram和Trigram集合,其中,gram指代单词,Unigram、Bigram、Trigram分别指代一、二、三个单词连续出现的情形;以及
根据n-gram索引表,将n-gram离散特征向量中的对应位置置1,其中,根据训练语料中的n-gram统计结果,将出现次数高的gram添加到gram索引表中。
优选地,所述抽取依存三元组特征的子步骤包括:
将去除了所述词集合中的停用词的词集合以句为单位进行依存句法分析,其中,依存句法分析使用LTP工具包实现;以及
根据依存关系三元组索引表,将依存关系三元组特征向量中的对应位置置1,其中,根据是否包含客服业务的关键词,由训练语料中的依存关系三元组生成对应的索引表。
优选地,所述抽取WE分布式特征的子步骤包括:
将去除了所述词集合中的停用词的词集合进行词向量检索匹配,其中,词向量匹配使用到深度学习模型训练得到的词向量文件;以及
将各词向量的每一维度进行最大值Max、最小值Min、平均值Avg计算,生成三个新的特征向量;
优选地,在所述多维度特征选择步骤之后,进一步具备:
分类步骤,对于所述多维度特征选择步骤得到的用户对话分类计算概率估计值。
优选地,所述分类步骤包括:
将通过所述多维度特征选择步骤得到的向量化的用户对话文字所包含的语义信息进行拼接;
将拼接后的特征向量作为规定分类系统的输入;以及
根据分类系统的输出概率,将其中最大项对应的用户对话意图,作为用户对话文本的分类标签。
优选地,所述规定分类系统包括:神经网络、支持向量机、逻辑回归分类系统等中的一种。
本发明的文本分类装置,其特征在于,具备:
NLP预处理装置,对用户对话文字进行自然语言处理方法的分析,得到关于该用户对话文字的词级别特征;以及
多维度特征选择装置,对于所述词级别特征分别从多个层面向量化用户对话词集合。
优选地,所述NLP预处理装置包括:
词集合和语义标注结果获取子模块,将用户对话文字以词为单位进行分词和词性标注并得到词集合和语义标注结果,其中,所述自然语言处理方法使用LTP工具包实现;以及
停用词去除子模块,根据停用词词表,去除所述词集合中的停用词,其中,所述停用词词表是根据训练语料中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。
优选地,所述多维度特征选择装置具备:
用于抽取n-gram离散特征的n-gram离散特征子模块;
用于抽取依存三元组特征的依存三元组特征子模块;以及
用户抽取WE分布式特征的WE分布式特征子模块。
优选地,所述n-gram离散特征子模块将从所述NLP预处理装置获得的用户对话词集合中抽取Unigram、Bigram和Trigram集合,其中,gram指代单词,Unigram、Bigram、Trigram分别指代一、二、三个单词连续出现的情形,并且,根据n-gram索引表,将n-gram离散特征向量中的对应位置置1,其中,根据训练语料中的n-gram统计结果,将出现次数高的gram添加到gram索引表中。
优选地,所述抽取依存三元组特征的三元组特征子模块将去除了所述词集合中的停用词的词集合以句为单位进行依存句法分析,其中,依存句法分析使用LTP工具包实现,并且,根据依存关系三元组索引表,将依存关系三元组特征向量中的对应位置置1,其中,根据是否包含客服业务的关键词,由训练语料中的依存关系三元组生成对应的索引表。
优选地,所述WE分布式特征子模块将去除了所述词集合中的停用词的词集合进行词向量检索匹配,其中,词向量匹配使用到word2vec或GloVe深度学习模型训练得到的词向量文件,并且将各词向量的每一维度进行最大值Max、最小值Min、平均值Avg计算,生成三个新的特征向量。
优选地,进一步具备:
分类模块,对于从所述多维度特征选择装置得到的用户对话分类计算概率估计值。
优选地,所述分类模块包括:
拼接子模块,将通过所述多维度特征选择装置得到的向量化的用户对话文字所包含的语义信息进行拼接;以及
分类系统,将拼接后的特征向量作为输入并且根据输出概率将其中最大项对应的用户对话意图,作为用户对话文本的分类标签。
优选地,所述规定分类系统为神经网络、支持向量机、逻辑回归分类系统等中的一种。
如上所述,根据本发明的文本分类方法以及文本分类系统,能够整合统计和深度学习方法的优势,通过多维度特征选择实现面向客户需求的文本分类解决方案。而且,本发明的文本分类方法以及文本分类系统,领域适应性佳,再者,由于利用特征选择的方法,得以在小规模训练数据上进行学习。
附图说明
图1是本发明一实施方式的文本分类方法的流程图。
图2是本发明实施例1的文本分类方法的流程图。
图3是本发明的文本分类装置的构造示意图。
具体实施方式
下面介绍的是本发明的多个实施例中的一些,旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。
本方案的目的是针对现有的文本分类方法存在的诸如数据稀疏以及模型泛化等问题,提出一种基于多维度特征选择的文本分类方法以及文本分类系统。本发明的主要技术构思在于,首先对用户对话文本进行分词、词性标注、去除停用词等常规NLP预处理,然后分别抽取对话文本中的n-gram特征、Word Embedding特征、依存句法关系三元组特征,将其拼接后输入到神经网络分类系统中,最终得到分类标签对应的概率。
图1是本发明一实施方式的文本分类方法的流程图。图1中箭头表示数据流向。
如图1所示,本发明一实施方式的文本分类方法包括下述步骤:
NLP预处理步骤S10:对用户对话文本进行自然语言处理方法的分析,得到关于该用户对话文字的词级别特征,具体地例如,针对用户对话文字进行分词、词性标注和去除停用词等自然语言处理技术的分析,得到关于该段文字的词集合和语义标注结果(其中,NLP是指Natural Language Processing,自然语言处理方法);
多维度特征选择步骤S20:对于所述词级别特征分别从多个层面向量化用户对话词集合,例如在本实施方式中,分别是抽取n-gram(n元语法)离散特征、抽取依存三元组特征、以及抽取WE(Word Embedding,词向量)分布式特征;以及
利用分类系统实现的分类步骤S30:对于所述多维度特征选择步骤S20得到的用户对话分类计算概率估计值。
接着,对于本发明的文本分类方法的一个具体实施例进行说明。
图2是本发明实施例1的文本分类方法的流程图。
如图2所示,本发明实施例1的文本分类方法包括下述步骤:NLP预处理步骤S100、多维度特征选择步骤S200以及分类步骤S300。
接着,对于各个步骤进行详细说明。
NLP预处理步骤S200包括下述子步骤:
将用户对话文字以词为单位进行分词和词性标注并得到词集合,其中,所述自然语言处理方法使用LTP(语言技术平台)工具包实现;以及
根据停用词词表,去除上述步骤中得到的词集合中的停用词,其中,所述停用词词表是根据训练语料中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。
所述多维度特征选择步骤S200包括下述子步骤(在图2中S200的虚线框中的从左到右的顺序表示):
抽取n-gram离散特征的子步骤S210;
抽取依存三元组特征的子步骤S220;以及
抽取WE分布式特征的子步骤S230。
具体地,在抽取n-gram离散特征的子步骤S210中包括下述内容:
从所述NLP预处理步骤得到的用户对话词集合中抽取Unigram、Bigram和Trigram集合,其中,gram指代单词,Unigram、Bigram、Trigram分别指代一、二、三个单词连续出现的情形;以及
根据n-gram索引表,将n-gram离散特征向量中的对应位置置1,其中,根据训练语料中的n-gram统计结果,将出现次数高的gram添加到gram索引表中。
在抽取依存三元组特征的子步骤S220中包括下述内容:
将去除了所述词集合中的停用词的词集合以句为单位进行依存句法分析,其中,依存句法分析使用LTP工具包实现;以及
根据依存关系三元组索引表,将依存关系三元组特征向量中的对应位置置1,其中,根据是否包含客服业务的关键词,由训练语料中的依存关系三元组生成对应的索引表,其中,可以将包含客服业务关键词的依存关系(例如发起词、接收词以及关系类型)集合作为依存三元组特征。
在抽取WE分布式特征的子步骤S230中包括下述内容:
将去除了所述词集合中的停用词的词集合进行词向量检索匹配,其中,词向量匹配使用到深度学习模型(例如,word2vec或GloVe)训练得到的词向量文件;以及
将各词向量的每一维度进行最大值Max、最小值Min、平均值Avg计算,生成三个新的特征向量作为WE(Word Embedding,词向量)分布式特征。
接着,在分类步骤S300中包括下述内容:
将通过所述多维度特征选择步骤S200得到的多个层面向量化用户对话词集合的结果进行拼接的步骤S310;
将拼接后的特征向量作为规定分类系统例如神经网络分类器的输入的步骤S320;以及
根据分类系统的输出概率,将其中最大项对应的用户对话意图,作为用户对话文本的分类标签,得到用户对话分类概率。
作为变换方式,规定分类系统除了神经网络之外,例如也可以是支持向量机、逻辑回归等分类算法。
接着,对于本发明的文本分类方法的变形例进行说明。
在上述实施方式的文本分类方式中,上述自然语言处理方法使用LTP工具实现,可替换为其他自然语言处理的工具。进一步,在多维度特征选择步骤中使用word2vec训练得到的词向量实现,可替换为GloVe等其他工具实现。进一步,在分类步骤中使用的神经网络分类器,可替换为其他分类模型。
接着对于本发明的文本分类方法的一变形例进行说明。
该变形例的文本分类方法包括下述步骤:
一、NLP预处理步骤,其包括:
(1) 将用户对话文字以词为单位进行分词和词性标注,以句为单位进行依存句法分析,其中,分词、词性标注、依存句法分析属于自然语言处理方法范畴,可以使用诸如LTP、Stanford Parser等工具包实现,属于可替换技术方案;
(2)去除(1)中得到的词集合中的停用词,其中,去除停用词是自然语言处理方法中的一种技术,可选择诸如词频、词性等策略进行去除停用词操作,属于可替换技术方案。
二、多维度特征选择步骤,其包括:
(1) 根据NLP预处理步骤得到的词序列,抽取Unigram、Bigram和Trigram集合,作为n-gram离散特征;以及
(2) 根据NLP预处理步骤得到的依存句法分析结果,将包含客服业务关键词的依存关系 (发起词,接收词,关系类型)集合,作为依存三元组特征;
(3)使用深度学习方法训练词向量,并将步骤一词序列中各词对应向量的每一维度进行最大值Max、最小值Min、平均值Avg计算,生成三个新的特征向量,作为WE分布式特征,其中,训练词向量的方法,可以使用诸如Wordvec、GloVe等工具包实现;
三、分类步骤(该步骤可以省略,属于补充实施例),其包括:
(1)将多维度特征选择步骤中的三部分特征向量进行拼接;
(2)将拼接后的特征向量作为神经网络分类器的输入,其中,特征向量可以作为诸如神经网络、支持向量机、逻辑回归等分类器的输入,属于可替换技术方案;
(3)根据分类器的输出概率,将其中最大项作为用户对话文本的分类标签。
以上对于本发明的文本分类方法进行了说明。接着,对于本发明的文本分类装置进行说明。
图3是本发明的文本分类装置的构造示意图。
如图3所示,本发明的文本分类装置具备:
NLP预处理装置100,对用户对话文字进行自然语言处理方法的分析,得到关于该用户对话文字的词集合和语义标注结果;以及
多维度特征选择装置200,对于所述词集合和语义标注结果按照多种规则组合,得到用户对话文字所包含的语义信息的向量化表征形式;以及
分类模块300,对于从所述多维度特征选择装置得到的用户对话分类计算的概率估计值。
其中,NLP预处理装置100包括:
词集合和语义标注结果获取子模块110,将用户对话文字以词为单位进行分词和词性标注并得到词集合和语义标注结果,其中,所述自然语言处理方法使用LTP工具包实现;以及
停用词去除子模块120,根据停用词词表,去除所述词集合中的停用词,其中,所述停用词词表是根据训练语料中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。
其中,多维度特征选择装置200具备:
用于抽取n-gram离散特征的n-gram离散特征子模块210;
用于抽取依存三元组特征的依存三元组特征子模块220;以及
用户抽取WE分布式特征的WE分布式特征子模块230。
具体地,n-gram离散特征子模块210将从所述NLP预处理装置100获得的用户对话词集合中抽取Unigram、Bigram和Trigram集合,其中,gram指代单词,Unigram、Bigram、Trigram分别指代一、二、三个单词连续出现的情形,并且,根据各gram索引表,将n-gram离散特征向量中的对应位置置1,其中,根据训练语料中的n-gram统计结果,将出现次数高的gram添加到gram索引表中。
再者,抽取依存三元组特征的三元组特征子模块220将去除了所述词集合中的停用词的词集合以句为单位进行依存句法分析,其中,依存句法分析使用LTP工具包实现,并且,根据依存关系三元组索引表,将依存关系三元组特征向量中的对应位置置1,其中,根据是否包含客服业务的关键词,由训练语料中的依存关系三元组生成对应的索引表。
再者,WE分布式特征子模块230将去除了所述词集合中的停用词的词集合进行词向量检索匹配,其中,词向量匹配使用到word2vec或GloVe深度学习模型训练得到的词向量文件,并且将各词向量的每一维度进行最大值Max、最小值Min、平均值Avg计算,生成三个新的特征向量。
分类模块300包括:
拼接子模块310,将通过所述多维度特征选择装置200得到的向量化的用户对话文字所包含的语义信息进行拼接;以及
分类系统320,将拼接后的特征向量作为输入并且根据输出概率将其中最大项对应的用户对话意图作为用户对话文本的分类标签。
根据本发明的文本分类方法以及文本分类系统,能够整合统计和深度学习方法的优势,通过多维度特征选择实现面向客户需求的文本分类解决方案。而且,本发明的文本分类方法以及文本分类系统,领域适应性佳,再者,由于利用特征选择的方法,得以在小规模训练数据上进行学习。
以上例子主要说明了本发明的文本分类方法以及文本分类系统。尽管只对其中一些本发明的具体实施方式进行了描述,但是本领域普通技术人员应当了解,本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此,所展示的例子与实施方式被视为示意性的而非限制性的,在不脱离如所附各权利要求所定义的本发明精神及范围的情况下,本发明可能涵盖各种的修改与替换。

Claims (18)

1.一种文本分类方法,其特征在于,包括下述步骤:
NLP预处理步骤,对用户对话文字进行自然语言处理方法的分析,得到关于该用户对话文字的词集合和语义标注结果;以及
多维度特征选择步骤,对于所述词集合和语义标注结果按照多种规则组合,得到用户对话文字所包含的语义信息的向量化表征形式。
2.如权利要求1所述文本分类方法,其特征在于,
所述NLP预处理步骤包括下述子步骤:
将用户对话文字以词为单位进行分词和词性标注并得到词集合和语义标注结果,其中,所述自然语言处理方法使用LTP工具包实现;以及
根据停用词词表,去除所述词集合中的停用词,其中,所述停用词词表是根据训练语料中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。
3.如权利要求2所述文本分类方法,其特征在于,
所述多维度特征选择步骤包括下述子步骤:
抽取n-gram离散特征的子步骤;
抽取依存三元组特征的子步骤;以及
抽取WE分布式特征的子步骤。
4.如权利要求3所述文本分类方法,其特征在于,
所述抽取n-gram离散特征的子步骤包括:
从所述NLP预处理步骤得到的用户对话词集合中抽取Unigram、Bigram和Trigram集合,其中,gram指代单词,Unigram、Bigram、Trigram分别指代一、二、三个单词连续出现的情形;以及
根据n-gram索引表,将n-gram离散特征向量中的对应位置置1,其中,根据训练语料中的n-gram统计结果,将出现次数高的gram添加到gram索引表中。
5.如权利要求3所述文本分类方法,其特征在于,
所述抽取依存三元组特征的子步骤包括:
将去除了所述词集合中的停用词的词集合以句为单位进行依存句法分析,其中,依存句法分析使用LTP工具包实现;以及
根据依存关系三元组索引表,将依存关系三元组特征向量中的对应位置置1,其中,根据是否包含客服业务的关键词,由训练语料中的依存关系三元组生成对应的索引表。
6.如权利要求3所述文本分类方法,其特征在于,
所述抽取WE分布式特征的子步骤包括:
将去除了所述词集合中的停用词的词集合进行词向量检索匹配,其中,词向量匹配使用到深度学习模型训练得到的词向量文件;以及
将各词向量的每一维度进行最大值Max、最小值Min、平均值Avg计算,生成三个新的特征向量。
7.如权利要求1~6任意一项所述文本分类方法,其特征在于,在所述多维度特征选择步骤之后,进一步具备:
分类步骤,对于所述多维度特征选择步骤得到的用户对话分类计算概率估计值。
8.如权利要求7所述文本分类方法,其特征在于,
所述分类步骤包括:
将通过所述多维度特征选择步骤得到的向量化的用户对话文字所包含的语义信息进行拼接;
将拼接后的特征向量作为规定分类系统的输入;以及
根据分类系统的输出概率,将其中最大项对应的用户对话意图,作为用户对话文本的分类标签。
9.如权利要求7所述文本分类方法,其特征在于,
所述规定分类系统包括:神经网络、支持向量机、逻辑回归分类系统等中的一种。
10.一种文本分类装置,其特征在于,具备:
NLP预处理装置,对用户对话文字进行自然语言处理方法的分析,得到关于该用户对话文字的词集合和语义标注结果;以及
多维度特征选择装置,对于所述词集合和语义标注结果按照多种规则组合,得到用户对话文字所包含的语义信息的向量化表征形式。
11.如权利要求10所述文本分类装置,其特征在于,
所述NLP预处理装置包括:
词集合和语义标注结果获取子模块,将用户对话文字以词为单位进行分词和词性标注并得到词集合和语义标注结果,其中,所述自然语言处理方法使用LTP工具包实现;以及
停用词去除子模块,根据停用词词表,去除所述词集合中的停用词,其中,所述停用词词表是根据训练语料中的分词和词性标注结果将出现次数过高的虚词作为停用词而生成。
12.如权利要求11所述文本分类系统,其特征在于,
所述多维度特征选择装置具备:
用于抽取n-gram离散特征的n-gram离散特征子模块;
用于抽取依存三元组特征的依存三元组特征子模块;以及
用户抽取WE分布式特征的WE分布式特征子模块。
13.如权利要求12所述文本分类系统,其特征在于,
所述n-gram离散特征子模块将从所述NLP预处理装置获得的用户对话词集合中抽取Unigram、Bigram和Trigram集合,其中,gram指代单词,Unigram、Bigram、Trigram分别指代一、二、三个单词连续出现的情形,并且,根据n-gram索引表,将n-gram离散特征向量中的对应位置置1,其中,根据训练语料中的n-gram统计结果,将出现次数高的gram添加到gram索引表中。
14.如权利要求13所述文本分类系统,其特征在于,
所述抽取依存三元组特征的三元组特征子模块将去除了所述词集合中的停用词的词集合以句为单位进行依存句法分析,其中,依存句法分析使用LTP工具包实现,并且,根据依存关系三元组索引表,将依存关系三元组特征向量中的对应位置置1,其中,根据是否包含客服业务的关键词,由训练语料中的依存关系三元组生成对应的索引表。
15.如权利要求3所述文本分类方法,其特征在于,
所述WE分布式特征子模块将去除了所述词集合中的停用词的词集合进行词向量检索匹配,其中,词向量匹配使用到word2vec或GloVe深度学习模型训练得到的词向量文件,并且将各词向量的每一维度进行最大值Max、最小值Min、平均值Avg计算,生成三个新的特征向量。
16.如权利要求10~15任意一项所述文本分类系统,其特征在于,进一步具备:
分类模块,对于从所述多维度特征选择装置得到的用户对话分类计算概率估计值。
17.如权利要求16所述文本分类系统,其特征在于,
所述分类模块包括:
拼接子模块,将通过所述多维度特征选择装置得到的向量化的用户对话文字所包含的语义信息进行拼接;以及
分类系统,将拼接后的特征向量作为输入并且根据输出概率将其中最大项对应的用户对话意图,作为用户对话文本的分类标签。
18.如权利要求17所述文本分类系统,其特征在于,
所述规定分类系统为神经网络、支持向量机、逻辑回归分类系统等中的一种。
CN201711441846.9A 2017-12-27 2017-12-27 一种文本分类方法以及文本分类装置 Active CN108304468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711441846.9A CN108304468B (zh) 2017-12-27 2017-12-27 一种文本分类方法以及文本分类装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711441846.9A CN108304468B (zh) 2017-12-27 2017-12-27 一种文本分类方法以及文本分类装置

Publications (2)

Publication Number Publication Date
CN108304468A true CN108304468A (zh) 2018-07-20
CN108304468B CN108304468B (zh) 2021-12-07

Family

ID=62867494

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711441846.9A Active CN108304468B (zh) 2017-12-27 2017-12-27 一种文本分类方法以及文本分类装置

Country Status (1)

Country Link
CN (1) CN108304468B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241530A (zh) * 2018-08-29 2019-01-18 昆明理工大学 一种基于N-gram向量和卷积神经网络的中文文本多分类方法
CN109376230A (zh) * 2018-12-18 2019-02-22 广东博维创远科技有限公司 犯罪定罪预测方法、系统、存储介质及服务器
CN109409529A (zh) * 2018-09-13 2019-03-01 北京中科闻歌科技股份有限公司 一种事件认知分析方法、系统及存储介质
CN109460434A (zh) * 2018-10-25 2019-03-12 北京知道创宇信息技术有限公司 数据提取模型建立方法及装置
CN109471980A (zh) * 2018-12-20 2019-03-15 厦门笨鸟电子商务有限公司 一种基于文本匹配的搜索推荐相关度计算方法
CN109522407A (zh) * 2018-10-26 2019-03-26 平安科技(深圳)有限公司 企业关系预测方法、装置、计算机设备和存储介质
CN110209812A (zh) * 2019-05-07 2019-09-06 北京地平线机器人技术研发有限公司 文本分类方法和装置
CN110222180A (zh) * 2019-06-04 2019-09-10 江南大学 一种文本数据分类与信息挖掘方法
CN110321557A (zh) * 2019-06-14 2019-10-11 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN110879832A (zh) * 2019-10-23 2020-03-13 支付宝(杭州)信息技术有限公司 目标文本检测方法、模型训练方法、装置及设备
CN111274399A (zh) * 2020-01-20 2020-06-12 上海市大数据中心 一种基于自然语言预处理的公共数据分级方法
CN111428489A (zh) * 2020-03-19 2020-07-17 北京百度网讯科技有限公司 一种评论生成方法、装置、电子设备及存储介质
CN111523062A (zh) * 2020-04-24 2020-08-11 浙江口碑网络技术有限公司 多维度信息展示方法及装置
CN111625628A (zh) * 2019-02-12 2020-09-04 阿里巴巴集团控股有限公司 信息处理方法及装置、存储介质和处理器
CN111639162A (zh) * 2020-06-03 2020-09-08 贝壳技术有限公司 信息交互方法和装置、电子设备和存储介质
CN112347779A (zh) * 2020-11-23 2021-02-09 军工保密资格审查认证中心 一种涉密文本密级自动判定的方法和装置
CN112580681A (zh) * 2019-09-30 2021-03-30 北京星选科技有限公司 用户分类方法、装置、电子设备及可读存储介质
WO2021237550A1 (zh) * 2020-05-28 2021-12-02 深圳市欢太科技有限公司 文本处理方法、电子设备和计算机可读存储介质
CN114579709A (zh) * 2022-03-15 2022-06-03 西南交通大学 一种基于知识图谱的智能问答意图识别方法
US11854528B2 (en) 2020-12-22 2023-12-26 Samsung Electronics Co., Ltd. Method and system for detecting unsupported utterances in natural language understanding

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080243487A1 (en) * 2007-03-29 2008-10-02 International Business Machines Corporation Hybrid text segmentation using n-grams and lexical information
US20140215326A1 (en) * 2013-01-30 2014-07-31 International Business Machines Corporation Information Processing Apparatus, Information Processing Method, and Information Processing Program
CN104298651A (zh) * 2014-09-09 2015-01-21 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统
CN104899298A (zh) * 2015-06-09 2015-09-09 华东师范大学 一种基于大规模语料特征学习的微博情感分析方法
CN105678327A (zh) * 2016-01-05 2016-06-15 北京信息科技大学 一种面向中文专利的实体间非分类关系抽取方法
US20160275180A1 (en) * 2015-03-19 2016-09-22 Abbyy Infopoisk Llc System and method for storing and searching data extracted from text documents
CN105975594A (zh) * 2016-05-09 2016-09-28 清华大学 基于组合特征向量和SVMperf的情感分类方法及装置
CN106445919A (zh) * 2016-09-28 2017-02-22 上海智臻智能网络科技股份有限公司 一种情感分类方法及装置
US20170177715A1 (en) * 2015-12-21 2017-06-22 Adobe Systems Incorporated Natural Language System Question Classifier, Semantic Representations, and Logical Form Templates
CN107066446A (zh) * 2017-04-13 2017-08-18 广东工业大学 一种嵌入逻辑规则的循环神经网络文本情感分析方法
CN107180023A (zh) * 2016-03-11 2017-09-19 科大讯飞股份有限公司 一种文本分类方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080243487A1 (en) * 2007-03-29 2008-10-02 International Business Machines Corporation Hybrid text segmentation using n-grams and lexical information
US20140215326A1 (en) * 2013-01-30 2014-07-31 International Business Machines Corporation Information Processing Apparatus, Information Processing Method, and Information Processing Program
CN104298651A (zh) * 2014-09-09 2015-01-21 大连理工大学 一种基于深度学习的生物医学命名实体识别和蛋白质交互关系抽取在线系统
US20160275180A1 (en) * 2015-03-19 2016-09-22 Abbyy Infopoisk Llc System and method for storing and searching data extracted from text documents
CN104899298A (zh) * 2015-06-09 2015-09-09 华东师范大学 一种基于大规模语料特征学习的微博情感分析方法
US20170177715A1 (en) * 2015-12-21 2017-06-22 Adobe Systems Incorporated Natural Language System Question Classifier, Semantic Representations, and Logical Form Templates
CN105678327A (zh) * 2016-01-05 2016-06-15 北京信息科技大学 一种面向中文专利的实体间非分类关系抽取方法
CN107180023A (zh) * 2016-03-11 2017-09-19 科大讯飞股份有限公司 一种文本分类方法及系统
CN105975594A (zh) * 2016-05-09 2016-09-28 清华大学 基于组合特征向量和SVMperf的情感分类方法及装置
CN106445919A (zh) * 2016-09-28 2017-02-22 上海智臻智能网络科技股份有限公司 一种情感分类方法及装置
CN107066446A (zh) * 2017-04-13 2017-08-18 广东工业大学 一种嵌入逻辑规则的循环神经网络文本情感分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘林: "面向论坛文本的大学生情绪识别研究", 《中国博士学位论文全文数据库社会科学Ⅱ辑》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241530B (zh) * 2018-08-29 2021-08-20 昆明理工大学 一种基于N-gram向量和卷积神经网络的中文文本多分类方法
CN109241530A (zh) * 2018-08-29 2019-01-18 昆明理工大学 一种基于N-gram向量和卷积神经网络的中文文本多分类方法
CN109409529A (zh) * 2018-09-13 2019-03-01 北京中科闻歌科技股份有限公司 一种事件认知分析方法、系统及存储介质
CN109409529B (zh) * 2018-09-13 2020-12-08 北京中科闻歌科技股份有限公司 一种事件认知分析方法、系统及存储介质
CN109460434A (zh) * 2018-10-25 2019-03-12 北京知道创宇信息技术有限公司 数据提取模型建立方法及装置
CN109522407A (zh) * 2018-10-26 2019-03-26 平安科技(深圳)有限公司 企业关系预测方法、装置、计算机设备和存储介质
CN109376230A (zh) * 2018-12-18 2019-02-22 广东博维创远科技有限公司 犯罪定罪预测方法、系统、存储介质及服务器
CN109471980A (zh) * 2018-12-20 2019-03-15 厦门笨鸟电子商务有限公司 一种基于文本匹配的搜索推荐相关度计算方法
CN111625628A (zh) * 2019-02-12 2020-09-04 阿里巴巴集团控股有限公司 信息处理方法及装置、存储介质和处理器
CN111625628B (zh) * 2019-02-12 2023-05-02 阿里巴巴集团控股有限公司 信息处理方法及装置、存储介质和处理器
CN110209812A (zh) * 2019-05-07 2019-09-06 北京地平线机器人技术研发有限公司 文本分类方法和装置
CN110222180B (zh) * 2019-06-04 2021-05-28 江南大学 一种文本数据分类与信息挖掘方法
CN110222180A (zh) * 2019-06-04 2019-09-10 江南大学 一种文本数据分类与信息挖掘方法
CN110321557A (zh) * 2019-06-14 2019-10-11 广州多益网络股份有限公司 一种文本分类方法、装置、电子设备及存储介质
CN112580681A (zh) * 2019-09-30 2021-03-30 北京星选科技有限公司 用户分类方法、装置、电子设备及可读存储介质
CN110879832A (zh) * 2019-10-23 2020-03-13 支付宝(杭州)信息技术有限公司 目标文本检测方法、模型训练方法、装置及设备
CN111274399A (zh) * 2020-01-20 2020-06-12 上海市大数据中心 一种基于自然语言预处理的公共数据分级方法
CN111428489A (zh) * 2020-03-19 2020-07-17 北京百度网讯科技有限公司 一种评论生成方法、装置、电子设备及存储介质
CN111428489B (zh) * 2020-03-19 2023-08-29 北京百度网讯科技有限公司 一种评论生成方法、装置、电子设备及存储介质
CN111523062A (zh) * 2020-04-24 2020-08-11 浙江口碑网络技术有限公司 多维度信息展示方法及装置
CN111523062B (zh) * 2020-04-24 2024-02-27 浙江口碑网络技术有限公司 多维度信息展示方法及装置
WO2021237550A1 (zh) * 2020-05-28 2021-12-02 深圳市欢太科技有限公司 文本处理方法、电子设备和计算机可读存储介质
CN111639162A (zh) * 2020-06-03 2020-09-08 贝壳技术有限公司 信息交互方法和装置、电子设备和存储介质
CN112347779A (zh) * 2020-11-23 2021-02-09 军工保密资格审查认证中心 一种涉密文本密级自动判定的方法和装置
US11854528B2 (en) 2020-12-22 2023-12-26 Samsung Electronics Co., Ltd. Method and system for detecting unsupported utterances in natural language understanding
CN114579709A (zh) * 2022-03-15 2022-06-03 西南交通大学 一种基于知识图谱的智能问答意图识别方法
CN114579709B (zh) * 2022-03-15 2023-04-07 西南交通大学 一种基于知识图谱的智能问答意图识别方法

Also Published As

Publication number Publication date
CN108304468B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN108304468A (zh) 一种文本分类方法以及文本分类装置
Poongodi et al. Chat-bot-based natural language interface for blogs and information networks
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110245229B (zh) 一种基于数据增强的深度学习主题情感分类方法
CN108446271B (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
US20030004716A1 (en) Method and apparatus for determining a measure of similarity between natural language sentences
US20170169355A1 (en) Ground Truth Improvement Via Machine Learned Similar Passage Detection
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
US11669740B2 (en) Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition
CN107943940A (zh) 数据处理方法、介质、系统和电子设备
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
JP2019144706A (ja) 関係性推定モデル学習装置、方法、及びプログラム
CN113360654B (zh) 文本分类方法、装置、电子设备及可读存储介质
CN114358017A (zh) 标签分类方法、装置、设备和存储介质
Addepalli et al. A proposed framework for measuring customer satisfaction and product recommendation for ecommerce
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
Ajees et al. A named entity recognition system for Malayalam using neural networks
US11599580B2 (en) Method and system to extract domain concepts to create domain dictionaries and ontologies
US20200184521A1 (en) Method and system for initiating an interface concurrent with generation of a transitory sentiment community
Forsati et al. An efficient meta heuristic algorithm for pos-tagging
CN113255368B (zh) 针对文本数据进行情感分析的方法、装置及相关设备
CN110851572A (zh) 会话标注方法、装置、存储介质及电子设备
CN115169370A (zh) 语料数据增强方法、装置、计算机设备及介质
WO2023173554A1 (zh) 坐席违规话术识别方法、装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant