CN111090746B - 确定最佳主题数量的方法、情感分类器的训练方法和装置 - Google Patents
确定最佳主题数量的方法、情感分类器的训练方法和装置 Download PDFInfo
- Publication number
- CN111090746B CN111090746B CN201911198992.2A CN201911198992A CN111090746B CN 111090746 B CN111090746 B CN 111090746B CN 201911198992 A CN201911198992 A CN 201911198992A CN 111090746 B CN111090746 B CN 111090746B
- Authority
- CN
- China
- Prior art keywords
- topic
- score
- text
- iteration
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Abstract
本发明实施例公开了一种确定最佳主题数量的方法、情感分类器的训练方法和装置,确定最佳主题数量的方法通过多轮迭代来选取最佳主题数量,每一轮迭代基于该轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型在该轮迭代中的及格分数,并仅将该轮迭代中分数大于对应的及格分数的主题模型对应的主题数量进行下一轮迭代,由于每一轮迭代过程中,不同主题数量对应的及格分数描绘了随主题数量增长的分数值的增长曲线,分数位于增长曲线以下说明该主题模型劣于该轮迭代的最小主题数量对应的主题模型,分数位于增长曲线以上说明该主题模型优于该轮迭代的最小主题数量对应的主题模型,从而提高了最终确定的最佳主题数量的准确度。
Description
技术领域
本发明实施例涉及但不限于计算机领域,尤指一种确定最佳主题数量的方法、情感分类器的训练方法和装置。
背景技术
目前对于网络信息的舆情监控,在各个行业都有越来越重要的作用,以汽车行业的头部垂直媒体为例,各车系、车型都会伴有大量的评价信息,这些评价信息有些体现出了消费者的肯定意见,有些则是否定意见。从垂直媒体自身,乃至车辆生产厂商,如果能够对这些评价进行情感分类,并周期性查看各类评价的分布情况,便可以有针对性的产品设计、售前售后服务等方面做出调整。
目前的文本的情感分类方法大致包括:将文本的主题特征、正面词语数量、负面词语数量、否定词数量、转折词数量和句式情况(包括句子数和字数)作为特征,使用基于分类回归树(CART,Classification and Regression Trees)的扩展算法进行情感分类的训练和预测。
目前的文本的情感分类方法中,由于文本的主题特征是指文本所属的虚拟主题的概率关系,因此,主题特征的准确度取决于虚拟主题的构建,主要取决于主题数量的确定,目前的主题数量的确定方式大致包括:分别确定每一个主题数量对应的指标,选择指标最优的主题数量。这种方式确定的主题数量下,由于指标的取值随主题数量的变化并不是单调递增或者单调递减的趋势,因此,最优的指标取值对应的主题数量往往较大,而不是最佳主题特征,较大的主题数量伴随的一个直接的问题就是不同主题包括的关键词重复率较高,采用指标最优的主题数量来构建的主题特征也会较为相似,使得主题特征缺乏区分度,从而导致分类不准确。
另外,上述汽车评论文本的情感分类方式尚未有较好的解决方案。
发明内容
本发明实施例提供了一种确定最佳主题数量的方法、情感分类器的训练方法和装置,能够提高确定的最佳主题数量的准确度。
本发明实施例提供了一种确定最佳主题数量的方法,包括:
根据所有第一文本分别建立每一个主题数量对应的主题模型,分别计算建立的每一个主题模型的分数;
在第i轮迭代中,根据第i轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型的第i轮迭代的及格分数;当至少一个主题模型的分数大于主题模型对应的第i轮迭代的及格分数时,确定进行第(i+1)轮迭代的主题数量为分数大于对应的及格分数的主题模型对应的主题数量;当所有主题模型的分数均小于或等于对应的第i轮迭代的及格分数时,确定第i轮迭代中的最小主题数量为最佳主题数量;其中,i为大于或等于1的整数。
在本发明实施例中,所述根据所有第一文本分别建立每一个主题数量对应的主题模型包括:
分别对每一条所述第一文本进行分词;
根据所有所述第一文本中分词得到的词语分别建立每一个所述主题模型。
在本发明实施例中,所述第一文本为汽车评论文本;所述分别对每一条第一文本进行分词之前,该方法还包括:
分别去除每一条所述第一文本中满足过滤规则的部分;其中,所述过滤规则用于过滤与车辆描述、车辆评价和情感表达无关的信息;
所述分别对每一条第一文本进行分词包括:
分别对每一条去除满足过滤规则的部分后的第一文本进行分词。
在本发明实施例中,所述分别对每一条去除满足过滤规则的部分后的第一文本进行分词包括:
采用加入车辆类专属词典的分词工具分别对每一条所述去除满足过滤规则的部分后的第一文本进行分词;其中,所述车辆类专属词典包括汽车领域的专有名词。
在本发明实施例中,所述分别对每一条去除满足过滤规则的部分后的第一文本进行分词后,在所述根据所有第一文本中分词得到的词语分别建立每一个主题模型之前,该方法还包括:
去除分词得到的词语中的停用词和黑名单字典中的词语;其中,所述黑名单字典包括地名、人物称呼、中文常用人名;
所述根据所有第一文本中分词得到的词语分别建立每一个主题数量对应的主题模型包括:
根据所有所述第一文本中去除停用词和黑名单字典中的词语后的词语分别建立每一个主题数量对应的主题模型。
在本发明实施例中,所述分别计算建立的每一个主题模型的分数包括:
其中,Bm为第m个主题模型的分数,cosθj,k为第l个主题中第j个词向量和第k个词向量之间的余弦值,n为每个主题模型下每个主题中在所有第一文本中出现的概率最高的词语数量,第j个词向量表示为第j个词语与第l个主题的n个词语中每一个词语之间的逐点交互信息PMI值的归一化值,第k个词向量表示为第k个词语与第l个主题的n个词语中每一个词语之间的PMI值的归一化值,Lm为第l个主题的主题数量;
其中,两个词语之间的PMI值为:score(vx,vy,ε)为词语vx和词语vy之间的PMI值,p(vx,vy)为词语vx和vy联合概率分布值,p(vx)为词语vx在所有第一文本中出现的概率,p(vy)为词语vy在所有第一文本中出现的概率,ε为平滑因子。
在本发明实施例中,所述根据第i轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题数量对应的主题模型的第i轮迭代的及格分数包括:
按照公式计算第m个主题数量对应的主题模型的第i轮迭代的及格分数;其中,Am为第m个主题数量对的主题模型的第i轮迭代的及格分数,F为第i轮迭代的最小主题数量对应的主题模型的分数,a,b为常数,xm为第m个主题数量与第i轮迭代的最小主题数量之间的比值。
本发明实施例提出了一种情感分类器的训练方法,包括:
根据所有第一文本分别建立每一个主题数量对应的主题模型,分别计算建立的每一个主题模型的分数;
在第i轮迭代中,根据第i轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型的第i轮迭代的及格分数;当至少一个主题模型的分数大于主题模型对应的第i轮迭代的及格分数时,确定进行第(i+1)轮迭代的主题数量为分数大于对应的及格分数的主题模型对应的主题数量;当所有主题模型的分数均小于或等于对应的第i轮迭代的及格分数时,确定第i轮迭代中的最小主题数量为最佳主题数量;其中,i为大于或等于1的整数;
分别确定每一条所述第一文本的融合特征;其中,所述融合特征包括:主题特征、情感特征和句式特征;所述第一文本的主题特征根据所述最佳主题数量和所述第一文本确定;
根据所有所述第一文本的融合特征训练情感分类器。
在本发明实施例中,所述根据所有第一文本的融合特征训练情感分类器后,该方法还包括:
确定第二文本的融合特征;其中,所述第二文本的主题特征根据最佳主题数量和所述第二文本确定;
将所述第二文本的融合特征输入训练好的情感分类器中得到第二文本对应的情感类别。
在本发明实施例中,所述第一文本和所述第二文本为汽车评论文本;所述融合特征还包括汽车专有名词特征。
本发明实施例提出了一种确定最佳主题数量的装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种确定最佳主题数量的方法。
本发明实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种确定最佳主题数量的方法的步骤。
本发明实施例提出了一种情感分类器的训练装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种情感分类器的方法的步骤。
本发明实施例提出了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一种情感分类器的训练方法的步骤。
本发明一个实施例包括:根据所有第一文本分别建立每一个主题数量对应的主题模型,分别计算建立的每一个主题模型的分数;在第i轮迭代中,根据第i轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型的第i轮迭代的及格分数;当至少一个主题模型的分数大于主题模型对应的第i轮迭代的及格分数时,确定进行第(i+1)轮迭代的主题数量为分数大于对应的及格分数的主题模型对应的主题数量;当所有主题模型的分数均小于或等于对应的第i轮迭代的及格分数时,确定第i轮迭代中的最小主题数量为最佳主题数量;其中,i为大于或等于1的整数。本发明实施例通过多轮迭代来选取最佳主题数量,每一轮迭代基于该轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型在该轮迭代中的及格分数,并仅将该轮迭代中分数大于对应的及格分数的主题数量进行下一轮迭代,由于每一轮迭代过程中,不同主题数量对应的及格分数描绘了随主题数量增长的分数值的增长曲线,分数位于增长曲线以下说明该主题模型劣于该轮迭代的最小主题数量对应的主题模型,分数位于增长曲线以上说明该主题模型优于该轮迭代的最小主题数量对应的主题模型,从而提高了最终确定的最佳主题数量的准确度。
本发明另一个实施例包括:根据所有第一文本分别建立每一个主题数量对应的主题模型,分别计算建立的每一个主题模型的分数;在第i轮迭代中,根据第i轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型的第i轮迭代的及格分数;当至少一个主题模型的分数大于主题模型对应的第i轮迭代的及格分数时,确定进行第(i+1)轮迭代的主题数量为分数大于对应的及格分数的主题模型对应的主题数量;当所有主题模型的分数均小于或等于对应的第i轮迭代的及格分数时,确定第i轮迭代中的最小主题数量为最佳主题数量;其中,i为大于或等于1的整数;分别确定每一条所述第一文本的融合特征;其中,所述融合特征包括:主题特征、情感特征和句式特征;所述第一文本的主题特征根据所述最佳主题数量和所述第一文本确定;根据所有所述第一文本的融合特征训练情感分类器。本发明实施例通过多轮迭代来选取最佳主题数量,每一轮迭代基于该轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型在该轮迭代中的及格分数,并仅将该轮迭代中分数大于对应的及格分数的主题数量进行下一轮迭代,由于每一轮迭代过程中,不同主题数量对应的及格分数描绘了随主题数量增长的分数值的增长曲线,分数位于增长曲线以下说明该主题模型劣于该轮迭代的最小主题数量对应的主题模型,分数位于增长曲线以上说明该主题模型优于该轮迭代的最小主题数量对应的主题模型,从而在主题模型获得较高的评价指标与控制主题数量之间取得平衡,较高的评价指标说明了主题模型的概率分布准确,较少的主题数量保证了不同主题间的关键词重复率较低。综上,采用该最佳主题数量来构建的主题特征区分度也更高,从而提高了分类的准确度。
本发明实施例的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明实施例而了解。本发明实施例的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明实施例技术方案的进一步理解,并且构成说明书的一部分,与本发明实施例的实施例一起用于解释本发明实施例的技术方案,并不构成对本发明实施例技术方案的限制。
图1为本发明一个实施例提出的确定最佳主题数量的方法的流程图;
图2为本发明另一个实施例提出的情感分类器的训练方法的流程图;
图3为本发明另一个实施例提出的最佳主题数量的装置的结构组成示意图;
图4为本发明另一个实施例提出的情感分类器的训练装置的结构组成示意图。
具体实施方式
下文中将结合附图对本发明实施例进行详细说明。需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互任意组合。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
参见图1,本发明一个实施例提出了一种确定最佳主题数量的方法,包括:
步骤100、根据所有第一文本分别建立每一个主题数量对应的主题模型,分别计算建立的每一个主题模型的分数。
在一个示例性实例中,根据所有第一文本分别建立每一个主题数量对应的主题模型包括:分别对每一条第一文本进行分词,根据所有第一文本中分词得到的词语分别建立每一个主题数量对应的主题模型。
在本发明另一个实施例中,所述第一文本为汽车评论文本;分别对每一条第一文本进行分词之前,该方法还包括:
分别去除每一条第一文本中满足过滤规则的部分;
分别对每一条第一文本进行分词包括:
分别对每一条去除满足过滤规则的部分后的第一文本进行分词。
在一个示例性实例中,可以采用分词工具分别对每一条第一文本进行分词。
在一个示例性实例中,当第一文本为汽车评论文本时,可以采用加入车辆类专属词典的分词工具分别对每一条第一文本进行分词,或采用加入车辆类专属词典的分词工具分别对每一条去除满足过滤规则的部分后的第一文本进行分词。
在一个示例性实例中,车辆类专属词典中包括业务方长期积累的汽车领域的专有名词,包括但不限于汽车的零部件名称、故障类型及描述、车主使用感受等相关词语,将车辆类专属词典加入分词工具后,分词工具在对汽车评论文本进行分词时,优先将车辆类专属词典中的词语划分为一个词语,然后对汽车评论文本剩下的部分采用分词工具原本的分词逻辑进行分词。
将车辆类专属词典加入分词工具中是为了后续在提取第一文本的融合特征时,加入汽车专有名词特征,之所以要加入汽车专有名词特征,是基于业务考虑。因为当一条汽车评论文本不包括任何正面词语和负面词语时,即使仅包含一些车辆位置的故障描述,也有很大概率被业务人员打上“负面”评论的标签,当然这种情况相对是比较少的,但是为了兼顾识别这种情况,才要加入一个“汽车专有名词特征”。这些汽车专有名词特征就是统计每条汽车评论文本的分词结果有多少在车辆类专属词典中。当然,为此也需要在分词阶段时将车辆类专属词典输入到分词工具,以确保优先对这个车辆类专属词典里的词语分词,这样才不会错过评论中可能有的车辆描述信息。
在本发明另一个实施例中,分别对每一条第一文本进行分词或分别对每一条去除满足过滤规则的部分后的第一文本进行分词后,在根据所有第一文本中分词得到的词语分别建立每一个主题数量对应的主题模型之前,该方法还包括:
去除分词得到的词语中的停用词和黑名单字典中的词语;
根据所有第一文本中分词得到的词语分别建立每一个主题数量对应的主题模型包括:
根据所有第一文本中去除停用词和黑名单字典中的词语后的词语分别建立每一个主题数量对应的主题模型。
在一个示例性实例中,过滤规则用于过滤与车辆描述、车辆评价和情感表达无关的信息,过滤规则可以是预先定义的任意规则,例如可以过滤一些基于规则可寻的信息,例如:车辆底盘号是以L、W字母开头的17位字母数字组合而成的字符串;又如,车牌号以省份简称汉字开头,第二位为英文字母,总位数为7位,后五位只能包含字母或数字的字符串;又如,经销商代码(基于某品牌),以SA字母开头,以连续5位数字结尾,总位数为7位的字符串。这些过滤规则可以编译成正则表达式进行过滤。
在一个示例性实例中,停用词主要包括标点、连接词语、特殊网络符号等。
在一个示例性实例中,黑名单字典可以包含地名、人物称呼、中文常用人名等,这些可以取自完全开放的词典。
在一个示例性实例中,分别建立每一个主题数量对应的主题模型是指对于每一个主题数量,分别确定每一条第一文本对应的主题,以及第一文本中每一个分词得到的词语对应的主题。
在一个示例性实例中,可以采用潜在狄利克雷分布(LDA,Latent DirichletAllocation)、潜在语义索引(LSI,Latent Semantic Indexing)、潜在语义分析(LSA,Latent Semantic Analysis)、概率隐语义分析(PLSA,Probabilistic Latent SemanticAnalysis)等来分别建立每一个主题数量对应的主题模型。
其中,Bm为第m个主题模型的分数,cosθj,k为第j个词向量和第k个词向量之间的余弦值,n为每个主题模型下每个主题中在所有第一文本中出现的概率最高的词语数量,如表1所示,第j个词向量表示为第j个词语与第l个主题的n个词语中每一个词语之间的逐点交互信息(PMI,Pointwise Mutual Information)值的归一化值,第k个词向量表示为第k个词语与第l个主题的n个词语中每一个词语之间的PMI值的归一化值,Lm为第l个主题的主题数量。
词1 | 词2 | …… | 词n | |
词1 | PMI值 | PMI值 | …… | PMI值 |
词2 | PMI值 | …… | …… | PMI值 |
…… | …… | …… | …… | PMI值 |
词n | PMI值 | PMI值 | PMI值 | PMI值 |
表1
其中,两个词语之间的PMI值为:score(vx,vy,ε)为词语vx和词语vy之间的PMI值,p(vx,vy)为词语vx和vy联合概率分布值,p(vx)为词语vx在所有第一文本中出现的概率,p(vy)为词语vy在所有第一文本中出现的概率,ε为平滑因子。
其中,词语vx在所有第一文本中出现的概率,即词语vx在所有第一文本中出现的次数和所有第一文本的词语数之间的比值。
当然,也可以采用其他的一致性打分方式来分别计算建立的每一个主题模型的分数,具体的打分方式不用于限定本发明实施例的保护范围。
步骤101、在第i轮迭代中,根据第i轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型的第i轮迭代的及格分数;当至少一个主题模型的分数大于对应的第i轮迭代的及格分数时,确定进行第(i+1)轮迭代的主题数量为分数大于对应的及格分数的主题模型对应的主题数量;当所有主题模型的分数均小于或等于对应的第i轮迭代的及格分数时,确定第i轮迭代中的最小主题数量为最佳主题数量;其中,i为大于或等于1的整数。
在一个示例性实例中,根据第i轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型的第i轮迭代的及格分数包括:
按照公式计算第m个主题数量对应的主题模型的第i轮迭代的及格分数;其中,Am为第m个主题数量对的主题模型的第i轮迭代的及格分数,F为第i轮迭代的最小主题数量对应的主题模型的分数,a,b为常数,xm为第m个主题数量与第i轮迭代的最小主题数量之间的比值。
其中,a,b取值为10时效果比较好。
为了更加直观的说明上述最佳主题数量的确定过程,下面列举一个具体是实例进行说明。
假设设定的先验主题数量分别为5,10,15,20,25,30,35,40,45,分别建立每一个主题数量对应的主题模型,分别计算每一个主题模型的分数,如表2所示,在第1轮迭代中,根据主题数量5分别计算每一个主题数量对应的主题模型的第1轮迭代的增长系数根据主题数量为5的主题模
型的分数分别计算每一个主题数量对应的主题模型的第1轮迭代的及格分数从表2可以看出,主题数量为10,15,20,25,30,35,40,45的主题模型的分数均大于对应的及格分数,则进行第2轮迭代的主题数量分别为10,15,20,25,30,35,40,45。
表2
在第2轮迭代中,根据主题数量10分别计算每一个主题数量对应的主题模型的第2轮迭代的增长系数根据主题数量为10的主题模型的分数分别计算每一个主题数量对应的主题模型的第2轮迭代的及格分数从表3可以看出,主题数量为10,15,20,25,30,35的主题模型的分数均大于对应的及格分数,则进行第3轮迭代的主题数量分别为10,15,20,25,30,35。以此类推,直到所有主题数量对应的主题模型的分数均小于或等于主题模型的及格分数时,迭代结束,取最后一轮迭代的最小主题数量为最佳主题数量。
表3
通过上述迭代过程,在主题模型下的不同主题的关键词的重复率和主题模型的分数之间达到一种平衡,使得最佳主题数量对应的主题模型下的不同主题的关键词的重复率和主题模型的分数均达到最优化。
本发明实施例通过多轮迭代来选取最佳主题数量,每一轮迭代基于该轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型在该轮迭代中的及格分数,并仅将该轮迭代中分数大于对应的及格分数的主题数量进行下一轮迭代,由于每一轮迭代过程中,不同主题数量对应的及格分数描绘了随主题数量增长的分数值的增长曲线,分数位于增长曲线以下说明该主题模型劣于该轮迭代的最小主题数量对应的主题模型,分数位于增长曲线以上说明该主题模型优于该轮迭代的最小主题数量对应的主题模型,从而提高了最终确定的最佳主题数量的准确度。
参见图2,本发明另一个实施例提出了一种情感分类器的训练方法,包括:
步骤200、根据所有第一文本分别建立每一个主题数量对应的主题模型,分别计算建立的每一个主题模型的分数。
步骤201、在第i轮迭代中,根据第i轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型的第i轮迭代的及格分数;当至少一个主题模型的分数大于对应的第i轮迭代的及格分数时,确定进行第(i+1)轮迭代的主题数量为分数大于对应的及格分数的主题模型对应的主题数量;当所有主题模型的分数均小于或等于对应的第i轮迭代的及格分数时,确定第i轮迭代中的最小主题数量为最佳主题数量;其中,i为大于或等于1的整数。
步骤200与前述实施例步骤100的具体实现过程相同,步骤201与前述实施例步骤101的具体实现过程相同,这里不再赘述。
步骤202、分别确定每一条第一文本的融合特征;其中,所述融合特征包括:主题特征、情感特征和句式特征;所述第一文本的主题特征根据最佳主题数量和第一文本确定。
在一个示例性实例中,情感特征包括:第一文本中在正面情感词典中出现的词语的数量、在负面情感词典中出现的词语的数量、在否定词情感词典中出现的词语的数量和在转折词情感词典中出现的词语的数量。
在一个示例性实例中,当第一文本为汽车评论文本时,融合特征还包括:汽车专有名词特征。汽车专有名词特征包括:第一文本中在车辆类专属词典中出现的词语的数量。之所以要加入汽车专有名词特征,是基于业务考虑。因为当一条汽车评论文本不包括任何正面词语和负面词语时,即使仅包含一些车辆位置的故障描述,也有很大概率被业务人员打上“负面”评论的标签,当然这种情况相对是比较少的,但是为了兼顾识别这种情况,才要加了一个“汽车专有名词特征”。这些汽车专有名词特征就是统计每条汽车评论文本的分词结果有多少在车辆类专属词典中。当然,为此也需要在分词阶段时将车辆类专属词典输入到分词工具,以确保优先对这个车辆类专属词典里的词语分词,这样才不会错过评论中可能有的车辆描述信息。
在一个示例性实例中,句式特征包括第一文本的字数和句子数。
步骤203、根据所有第一文本的融合特征训练情感分类器。
在一个示例性实例中,可以对第一文本进行人工标注,标注第一文本所属的情感类别(如1为褒义,0为贬义,2为中性),然后将所有第一文本的融合特征输入到情感分类器中进行情感分类器的训练。
在一个示例性实例中,可以采用XGBoost算法进行情感分类器的训练。
本发明实施例通过多轮迭代来选取最佳主题数量,每一轮迭代基于该轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型在该轮迭代中的及格分数,并仅将该轮迭代中分数大于对应的及格分数的主题数量进行下一轮迭代,由于每一轮迭代过程中,不同主题数量对应的及格分数描绘了随主题数量增长的分数值的增长曲线,分数位于增长曲线以下说明该主题模型劣于该轮迭代的最小主题数量对应的主题模型,分数位于增长曲线以上说明该主题模型优于该轮迭代的最小主题数量对应的主题模型,从而提高了最终确定的最佳主题数量的准确度,较准确的最佳主题数量使得不同主题包括的关键词重复率较低,区分度更高,采用该最佳主题数量来构建的主题特征区分度也更高,从而提高了分类的准确度。
在另一个实施例中,根据所有第一文本的融合特征训练情感分类器后,该方法还包括:
确定第二文本的融合特征;其中,所述第二文本的主题特征根据最佳主题数量和所述第二文本确定;将所述第二文本的融合特征输入训练好的情感分类器中得到第二文本对应的情感类别。
在一个示例性实例中,确定第二文本的融合特征包括:
对第二文本进行分词;根据分词得到的词语确定第二文本的融合特征。
在本发明另一个实施例中,所述第二文本为汽车评论文本;分别对每一条第二文本进行分词之前,该方法还包括:
分别去除每一条第二文本中满足过滤规则的部分;
分别对每一条第二文本进行分词包括:
分别对每一条去除满足过滤规则的部分后的第二文本进行分词。
在本发明另一个实施例中,分别对每一条第二文本进行分词或分别对每一条去除满足过滤规则的部分后的第二文本进行分词后,在根据分词得到的词语确定第二文本的融合特征之前,该方法还包括:
去除分词得到的词语中的停用词和黑名单字典中的词语;
根据分词得到的词语确定第二文本的融合特征包括:
根据所有第二文本中去除停用词和黑名单字典中的词语后的词语确定第二文本的融合特征。
具体的,上述对第二文本的分词过程与前述实施例对第一文本的分词过程相同,这里不再赘述。
本发明另一个实施例提出了一种确定最佳主题数量的装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种确定最佳主题数量的方法。
本发明另一个实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~7任一项所述的确定最佳主题数量的方法的步骤。
本发明另一个实施例提出了一种情感分类器的训练装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令被所述处理器执行时,实现上述任一种情感分类器的方法的步骤。
本发明另一个实施例提出了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述任一种情感分类器的训练方法的步骤。
参见图3,本发明另一个实施例提出了一种确定最佳主题数量的装置,包括:
第一模型建立模块301,用于根据所有第一文本分别建立每一个主题数量对应的主题模型,分别计算建立的每一个主题模型的分数;
第一最佳主题数量确定模块302,用于在第i轮迭代中,根据第i轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型的第i轮迭代的及格分数;当至少一个主题模型的分数大于主题模型对应的第i轮迭代的及格分数时,确定进行第(i+1)轮迭代的主题数量为分数大于对应的及格分数的主题模型对应的主题数量;当所有主题模型的分数均小于或等于对应的第i轮迭代的及格分数时,确定第i轮迭代中的最小主题数量为最佳主题数量;其中,i为大于或等于1的整数。
在本发明实施例中,第一模型建立模块301具体用于采用以下方式实现所述根据所有第一文本分别建立每一个主题数量对应的主题模型:
分别对每一条所述第一文本进行分词;
根据所有所述第一文本中分词得到的词语分别建立每一个所述主题模型。
在本发明实施例中,所述第一文本为汽车评论文本;第一模型建立模块301还用于:
分别去除每一条所述第一文本中满足过滤规则的部分;其中,所述过滤规则用于过滤与车辆描述、车辆评价和情感表达无关的信息;
分别对每一条去除满足过滤规则的部分后的第一文本进行分词。
在本发明实施例中,第一模型建立模块301具体用于采用以下方式实现所述分别对每一条去除满足过滤规则的部分后的第一文本进行分词:
采用加入车辆类专属词典的分词工具分别对每一条所述去除满足过滤规则的部分后的第一文本进行分词;其中,所述车辆类专属词典包括汽车领域的专有名词。
在本发明实施例中,第一模型建立模块301还用于:
去除分词得到的词语中的停用词和黑名单字典中的词语;其中,所述黑名单字典包括地名、人物称呼、中文常用人名;
根据所有所述第一文本中去除停用词和黑名单字典中的词语后的词语分别建立每一个主题数量对应的主题模型。
在本发明实施例中,第一模型建立模块301具体用于采用以下方式实现分别计算建立的每一个主题模型的分数:
其中,Bm为第m个主题模型的分数,cosθj,k为第l个主题中第j个词向量和第k个词向量之间的余弦值,n为每个主题模型下每个主题中在所有第一文本中出现的概率最高的词语数量,第j个词向量表示为第j个词语与第l个主题的n个词语中每一个词语之间的PMI值的归一化值,第k个词向量表示为第k个词语与第l个主题的n个词语中每一个词语之间的PMI值的归一化值,Lm为第l个主题的主题数量;
其中,两个词语之间的PMI值为:score(vx,vy,ε)为词语vx和词语vy之间的PMI值,p(vx,vy)为词语vx和vy联合概率分布值,p(vx)为词语vx在所有第一文本中出现的概率,p(vy)为词语vy在所有第一文本中出现的概率,ε为平滑因子。
在本发明实施例中,第一最佳主题数量确定模块302具体用于采用以下方式实现所述根据第i轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题数量对应的主题模型的第i轮迭代的及格分数:
按照公式计算第m个主题数量对应的主题模型的第i轮迭代的及格分数;其中,Am为第m个主题数量对的主题模型的第i轮迭代的及格分数,F为第i轮迭代的最小主题数量对应的主题模型的分数,a,b为常数,xm为第m个主题数量与第i轮迭代的最小主题数量之间的比值。
上述确定最佳主题数量的装置的具体实现过程与前述实施例确定最佳主题数量的方法的具体实现过程相同,这里不再赘述。
参见图4,本发明另一个实施例提出了一种情感分类器的训练装置,包括:
第二模型建立模块401,用于根据所有第一文本分别建立每一个主题数量对应的主题模型,分别计算建立的每一个主题模型的分数;
第二最佳主题数量确定模块402,用于在第i轮迭代中,根据第i轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型的第i轮迭代的及格分数;当至少一个主题模型的分数大于主题模型对应的第i轮迭代的及格分数时,确定进行第(i+1)轮迭代的主题数量为分数大于对应的及格分数的主题模型对应的主题数量;当所有主题模型的分数均小于或等于对应的第i轮迭代的及格分数时,确定第i轮迭代中的最小主题数量为最佳主题数量;其中,i为大于或等于1的整数;
融合特征确定模块403,用于分别确定每一条所述第一文本的融合特征;其中,所述融合特征包括:主题特征、情感特征和句式特征;所述第一文本的主题特征根据所述最佳主题数量和所述第一文本确定;
情感分类器训练模块404,用于根据所有所述第一文本的融合特征训练情感分类器。
在本发明实施例中,融合特征确定模块403还用于:
确定第二文本的融合特征;其中,所述第二文本的主题特征根据最佳主题数量和所述第二文本确定;
还包括:情感分类模块405,用于将所述第二文本的融合特征输入训练好的情感分类器中得到第二文本对应的情感类别。
在本发明实施例中,所述第一文本和所述第二文本为汽车评论文本;所述融合特征还包括汽车专有名词特征。
上述情感分类器的训练装置的具体实现过程与前述实施例情感分类器的训练方法的具体实现过程相同,这里不再赘述。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中,在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分;例如,一个物理组件可以具有多个功能,或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器,如数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
虽然本发明实施例所揭露的实施方式如上,但所述的内容仅为便于理解本发明实施例而采用的实施方式,并非用以限定本发明实施例。任何本发明实施例所属领域内的技术人员,在不脱离本发明实施例所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明实施例的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (12)
1.一种确定最佳主题数量的方法,包括:
根据所有第一文本分别建立每一个主题数量对应的主题模型;
分别计算建立的每一个主题模型的分数,包括:按照公式计算第m个主题模型的分数;
其中,Bm为第m个主题模型的分数,为第l个主题中第j个词向量和第k个词向量之间的余弦值,n为每个主题模型下每个主题中在所有第一文本中出现的概率最高的词语数量,第j个词向量表示为第j个词语与第l个主题的n个词语中每一个词语之间的逐点交互信息PMI值的归一化值,第k个词向量表示为第k个词语与第l个主题的n个词语中每一个词语之间的PMI值的归一化值,Lm为第l个主题的主题数量;
其中,两个词语之间的PMI值为:,为词语vx和词语vy之间的PMI值,为词语vx和vy联合概率分布值,为词语vx在所有第一文本中出现的概率,为词语vy在所有第一文本中出现的概率,为平滑因子;
在第i轮迭代中,根据第i轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型的第i轮迭代的及格分数,包括:按照公式计算第m个主题数量对应的主题模型的第i轮迭代的及格分数;其中,Am为第m个主题数量对的主题模型的第i轮迭代的及格分数,F为第i轮迭代的最小主题数量对应的主题模型的分数,a,b为常数,xm为第m个主题数量与第i轮迭代的最小主题数量之间的比值;
当至少一个主题模型的分数大于主题模型对应的第i轮迭代的及格分数时,确定进行第(i+1)轮迭代的主题数量为分数大于对应的及格分数的主题模型对应的主题数量;当所有主题模型的分数均小于或等于对应的第i轮迭代的及格分数时,确定第i轮迭代中的最小主题数量为最佳主题数量;其中,i为大于或等于1的整数。
2.根据权利要求1所述的方法,其特征在于,所述根据所有第一文本分别建立每一个主题数量对应的主题模型包括:
分别对每一条所述第一文本进行分词;
根据所有所述第一文本中分词得到的词语分别建立每一个所述主题模型。
3.根据权利要求2所述的方法,其特征在于,所述第一文本为汽车评论文本;所述分别对每一条第一文本进行分词之前,该方法还包括:
分别去除每一条所述第一文本中满足过滤规则的部分;其中,所述过滤规则用于过滤与车辆描述、车辆评价和情感表达无关的信息;
所述分别对每一条第一文本进行分词包括:
分别对每一条去除满足过滤规则的部分后的第一文本进行分词。
4.根据权利要求3所述的方法,其特征在于,其中,所述分别对每一条去除满足过滤规则的部分后的第一文本进行分词包括:
采用加入车辆类专属词典的分词工具分别对每一条所述去除满足过滤规则的部分后的第一文本进行分词;其中,所述车辆类专属词典包括汽车领域的专有名词。
5.根据权利要求3所述的方法,其特征在于,所述分别对每一条去除满足过滤规则的部分后的第一文本进行分词后,在所述根据所有第一文本中分词得到的词语分别建立每一个主题模型之前,该方法还包括:
去除分词得到的词语中的停用词和黑名单字典中的词语;其中,所述黑名单字典包括地名、人物称呼、中文常用人名;
所述根据所有第一文本中分词得到的词语分别建立每一个主题数量对应的主题模型包括:
根据所有所述第一文本中去除停用词和黑名单字典中的词语后的词语分别建立每一个主题数量对应的主题模型。
6.一种情感分类器的训练方法,包括:
根据所有第一文本分别建立每一个主题数量对应的主题模型;
分别计算建立的每一个主题模型的分数,包括:按照公式计算第m个主题模型的分数;
其中,Bm为第m个主题模型的分数,为第l个主题中第j个词向量和第k个词向量之间的余弦值,n为每个主题模型下每个主题中在所有第一文本中出现的概率最高的词语数量,第j个词向量表示为第j个词语与第l个主题的n个词语中每一个词语之间的逐点交互信息PMI值的归一化值,第k个词向量表示为第k个词语与第l个主题的n个词语中每一个词语之间的PMI值的归一化值,Lm为第l个主题的主题数量;
其中,两个词语之间的PMI值为:,为词语vx和词语vy之间的PMI值,为词语vx和vy联合概率分布值,为词语vx在所有第一文本中出现的概率,为词语vy在所有第一文本中出现的概率,为平滑因子;
在第i轮迭代中,根据第i轮迭代的最小主题数量和最小主题数量对应的主题模型的分数分别计算每一个主题模型的第i轮迭代的及格分数,包括:按照公式计算第m个主题数量对应的主题模型的第i轮迭代的及格分数;其中,Am为第m个主题数量对的主题模型的第i轮迭代的及格分数,F为第i轮迭代的最小主题数量对应的主题模型的分数,a,b为常数,xm为第m个主题数量与第i轮迭代的最小主题数量之间的比值;
当至少一个主题模型的分数大于主题模型对应的第i轮迭代的及格分数时,确定进行第(i+1)轮迭代的主题数量为分数大于对应的及格分数的主题模型对应的主题数量;当所有主题模型的分数均小于或等于对应的第i轮迭代的及格分数时,确定第i轮迭代中的最小主题数量为最佳主题数量;其中,i为大于或等于1的整数;
分别确定每一条所述第一文本的融合特征;其中,所述融合特征包括:主题特征、情感特征和句式特征;所述第一文本的主题特征根据所述最佳主题数量和所述第一文本确定;
根据所有所述第一文本的融合特征训练情感分类器。
7.根据权利要求6所述的方法,其特征在于,所述根据所有第一文本的融合特征训练情感分类器后,该方法还包括:
确定第二文本的融合特征;其中,所述第二文本的主题特征根据最佳主题数量和所述第二文本确定;
将所述第二文本的融合特征输入训练好的情感分类器中得到第二文本对应的情感类别。
8.根据权利要求6或7所述的方法,其特征在于,所述第一文本和第二文本为汽车评论文本;所述融合特征还包括汽车专有名词特征。
9.一种确定最佳主题数量的装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现如权利要求1~5任一项所述的确定最佳主题数量的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1~5任一项所述的确定最佳主题数量的方法的步骤。
11.一种情感分类器的训练装置,包括处理器和计算机可读存储介质,所述计算机可读存储介质中存储有指令,其特征在于,当所述指令被所述处理器执行时,实现如权利要求6~8任一项所述的情感分类器的训练 方法的步骤。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求6~8任一项所述的情感分类器的训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911198992.2A CN111090746B (zh) | 2019-11-29 | 2019-11-29 | 确定最佳主题数量的方法、情感分类器的训练方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911198992.2A CN111090746B (zh) | 2019-11-29 | 2019-11-29 | 确定最佳主题数量的方法、情感分类器的训练方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111090746A CN111090746A (zh) | 2020-05-01 |
CN111090746B true CN111090746B (zh) | 2023-04-28 |
Family
ID=70393792
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911198992.2A Active CN111090746B (zh) | 2019-11-29 | 2019-11-29 | 确定最佳主题数量的方法、情感分类器的训练方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111090746B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704495A (zh) * | 2017-08-25 | 2018-02-16 | 平安科技(深圳)有限公司 | 主题分类器的训练方法、装置及计算机可读存储介质 |
CN108763539A (zh) * | 2018-05-31 | 2018-11-06 | 华中科技大学 | 一种基于词性分类的文本分类方法和系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8886623B2 (en) * | 2010-04-07 | 2014-11-11 | Yahoo! Inc. | Large scale concept discovery for webpage augmentation using search engine indexers |
-
2019
- 2019-11-29 CN CN201911198992.2A patent/CN111090746B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107704495A (zh) * | 2017-08-25 | 2018-02-16 | 平安科技(深圳)有限公司 | 主题分类器的训练方法、装置及计算机可读存储介质 |
CN108763539A (zh) * | 2018-05-31 | 2018-11-06 | 华中科技大学 | 一种基于词性分类的文本分类方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111090746A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109543178B (zh) | 一种司法文本标签体系构建方法及系统 | |
CN108509425B (zh) | 一种基于新颖度的中文新词发现方法 | |
CN102576358B (zh) | 单词对取得装置、单词对取得方法及其程序 | |
CN111079412B (zh) | 文本纠错方法及装置 | |
CN111008274B (zh) | 特征扩展卷积神经网络的案件微博观点句识别构建方法 | |
EP2581843B1 (en) | Bigram Suggestions | |
CN109299280B (zh) | 短文本聚类分析方法、装置和终端设备 | |
CN106156145A (zh) | 一种地址数据的管理方法和装置 | |
CN103914548A (zh) | 信息搜索方法和装置 | |
CN107832297B (zh) | 一种面向特征词粒度的领域情感词典构建方法 | |
CN103838798A (zh) | 页面分类系统及页面分类方法 | |
CN103473217A (zh) | 从文本中抽取关键词的方法和装置 | |
CN111159412A (zh) | 分类方法、装置、电子设备及可读存储介质 | |
CN112149387A (zh) | 财务数据的可视化方法、装置、计算机设备及存储介质 | |
McLaughlin et al. | RegData 3.0 User's Guide | |
US8862586B2 (en) | Document analysis system | |
CN111090746B (zh) | 确定最佳主题数量的方法、情感分类器的训练方法和装置 | |
CN107391504A (zh) | 新词识别方法与装置 | |
CN112417088B (zh) | 一种社群内文本价值的评估方法及装置 | |
US10929453B2 (en) | Verifying textual claims with a document corpus | |
CN111985212A (zh) | 文本关键字识别方法、装置、计算机设备及可读存储介质 | |
CN107609006B (zh) | 一种基于地方志研究的搜索优化方法 | |
US10296585B2 (en) | Assisted free form decision definition using rules vocabulary | |
CN111666274B (zh) | 数据融合方法、装置、电子设备及计算机可读存储介质 | |
CN112528021B (zh) | 一种模型训练方法、模型训练装置及智能设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |