CN110472056A - 一种评论数据分类方法及系统 - Google Patents

一种评论数据分类方法及系统 Download PDF

Info

Publication number
CN110472056A
CN110472056A CN201910775543.3A CN201910775543A CN110472056A CN 110472056 A CN110472056 A CN 110472056A CN 201910775543 A CN201910775543 A CN 201910775543A CN 110472056 A CN110472056 A CN 110472056A
Authority
CN
China
Prior art keywords
sample
prediction model
data
indicate
mark
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910775543.3A
Other languages
English (en)
Inventor
许诚强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Meizhu Meisu Technology Co Ltd
Original Assignee
Beijing Meizhu Meisu Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Meizhu Meisu Technology Co Ltd filed Critical Beijing Meizhu Meisu Technology Co Ltd
Priority to CN201910775543.3A priority Critical patent/CN110472056A/zh
Publication of CN110472056A publication Critical patent/CN110472056A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例涉及一种评论数据分类方法及装置,其中,所述方法包括:获取评论数据样本,并对所述评论数据样本进行预处理后,通过预测模型对预处理后的结果进行训练,以得到数据训练集;确定所述数据训练集中各个词汇的词向量,并构建词向量的N‑gram特征,并对所述词向量和所述N‑gram特征进行叠加平均;采用层次softmax对叠加平均后的数据进行分类,以确定所述数据训练集对应的分类结果。本申请提供的技术方案,能够降低数据分类时间。

Description

一种评论数据分类方法及系统
技术领域
本申请涉及数据处理技术领域,特别涉及一种评论数据分类方法及系统。
背景技术
酒店行业作为服务业的重要组成部分,用户评论的倾向也会对它的营收产生重要的影响。而社交媒体的流行,对酒店行业的诸多方面也起着越来越重要的作用。能够正确而快速地将酒店评论数据进行拆分,挑选出其中涉及的维度、情感倾向,让酒店获悉并管理和改善差评所涉及的内容,对于推动酒店盈利有着很大的促进作用。
目前用于文本分类的算法很多,基于字典的关键词匹配算法耗时耗力,后期维护成本巨大,由于极其依赖字典词库,导致其无法对新文本分类,且存在着类目歧义问题。基于特征的的传统机器学习算法,如支持向量机、朴素贝叶斯等过于依赖人工设计的特征,设计的特征对文本长度有所依赖,而酒店评论文本长度不一,验证特征的过程费时费力。基于深度学习如LSTM(Long Short-Term Memory,长短期记忆网络)等算法,准确率较高,但需要额外训练词向量,同时网络的构建及训练、调参过程也复杂耗时,更需要昂贵的GPU(Graphics Processing Unit,图形处理器)设备进行支撑。
发明内容
本申请的目的在于提供一种评论数据分类方法及系统,能够降低数据分类时间。
为实现上述目的,本申请提供一种评论数据分类方法,所述方法包括:获取评论数据样本,并对所述评论数据样本进行预处理后,通过预测模型对预处理后的结果进行训练,以得到数据训练集;确定所述数据训练集中各个词汇的词向量,并构建词向量的N-gram特征,并对所述词向量和所述N-gram特征进行叠加平均;采用层次softmax对叠加平均后的数据进行分类,以确定所述数据训练集对应的分类结果。
进一步地,对所述评论数据样本进行预处理包括:
去除所述评论数据样本中的非文本部分,并对剩余的文本进行分词和去除停用词处理;
从去除停用词后的结果中提取关键词,并将提取的所述关键词作为预处理后的结果。
进一步地,通过预设分类器对预处理后的结果进行训练包括:
将所述预处理后的结果划分为多个指定类型,所述指定类型包括带标注样本、未标注样本以及用于验证预测模型的带标注样本;
利用初始化的预测模型预测所述未标注样本,并对选用的未标注样本进行人工标注后,将人工标注后的结果放入带标注样本中;
利用当前的带标注样本对所述初始化的预测模型进行校正,得到更新后的预测模型;
利用所述用于验证预测模型的带标注样本对更新后的预测模型进行验证,并根据验证结果判断训练过程是否结束。
进一步地,根据验证结果判断训练过程是否结束包括:
若验证结果与所述用于验证预测模型的带标注样本的标注结果一致,判定训练过程结束;
若验证结果与所述用于验证预测模型的带标注样本的标注结果不一致,利用当前的预测模型预测未标注样本,并对选用的未标注样本进行人工标注后,将人工标注后的结果放入带标注样本中,以及利用当前的带标注样本对当前的预测模型进行校正,得到再次更新后的预测模型。
进一步地,所述层次softmax中根据标签和频率构建哈夫曼树,所述哈夫曼树中的叶子节点表征标签,非叶子节点表征频率。
进一步地,采用层次softmax进行分类的分类概率值按照以下公式确定:
其中,Lj表示第j种分类结果,P(Lj)表示第j种分类结果的分类概率值,Q(Lj)表示第j种分类结果对应的路径长度,l表示哈夫曼树中的层数,p(Lj,l+1)表示第j中分类结果中第l+1层的节点,LC(p(Lj,l)表示节点p(Lj,l)的左孩子,为预设函数,其中,若*为真,若*为假,σ表示sigmoid函数,表示节点p(Lj,l)的参数,X表示输入的叠加平均后的数据。
为实现上述目的,本申请还提供一种评论数据分类装置,所述装置包括:数据训练集获取单元,用于获取评论数据样本,并对所述评论数据样本进行预处理后,通过预测模型对预处理后的结果进行训练,以得到数据训练集;叠加平均单元,用于确定所述数据训练集中各个词汇的词向量,并构建词向量的N-gram特征,并对所述词向量和所述N-gram特征进行叠加平均;分类单元,用于采用层次softmax对叠加平均后的数据进行分类,以确定所述数据训练集对应的分类结果。
进一步地,所述数据训练集获取单元包括:
数据划分模块,用于将所述预处理后的结果划分为多个指定类型,所述指定类型包括带标注样本、未标注样本以及用于验证预测模型的带标注样本;
标注模块,用于利用初始化的预测模型预测所述未标注样本,并对选用的未标注样本进行人工标注后,将人工标注后的结果放入带标注样本中;
模型更新模块,用于利用当前的带标注样本对所述初始化的预测模型进行校正,得到更新后的预测模型;
验证模块,用于利用所述用于验证预测模型的带标注样本对更新后的预测模型进行验证,并根据验证结果判断训练过程是否结束。
进一步地,所述层次softmax中根据标签和频率构建哈夫曼树,所述哈夫曼树中的叶子节点表征标签,非叶子节点表征频率。
进一步地,所述分类单元按照以下公式确定采用层次softmax进行分类的分类概率值:
其中,Lj表示第j种分类结果,P(Lj)表示第j种分类结果的分类概率值,Q(Lj)表示第j种分类结果对应的路径长度,l表示哈夫曼树中的层数,p(Lj,l+1)表示第j中分类结果中第l+1层的节点,LC(p(Lj,l)表示节点p(Lj,l)的左孩子,为预设函数,其中,若*为真,若*为假,σ表示sigmoid函数,表示节点p(Lj,l)的参数,X表示输入的叠加平均后的数据。
由上可见,本发明提出的技术方案,使用了主动学习来发现训练数据集中高信息量的样本来高效的训练模型,减少了大量的人工标注成本。同时使用FastText算法来进行文本分类,只使用浅层的神经网络,避免了过长的训练和分类时间,同时利用了层次softmax和文本的N-gram信息,在加速训练过程的同时保证了文本分类的准确率。
附图说明
图1为本申请实施例中评论数据分类方法的步骤图;
图2为本申请实施例中训练语料的获取步骤示意图;
图3为本申请实施例中评论数据分类装置的功能模块示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施方式中的附图,对本申请实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本申请一部分实施方式,而不是全部的实施方式。基于本申请中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式,都应当属于本申请保护的范围。
本申请提供一种评论数据分类方法,请参阅图1,所述方法包括以下步骤。
S1:获取评论数据样本,并对所述评论数据样本进行预处理后,通过预测模型对预处理后的结果进行训练,以得到数据训练集。
S2:确定所述数据训练集中各个词汇的词向量,并构建词向量的N-gram特征,并对所述词向量和所述N-gram特征进行叠加平均。
S3:采用层次softmax对叠加平均后的数据进行分类,以确定所述数据训练集对应的分类结果。
具体地,对所述评论数据样本进行预处理包括:
去除所述评论数据样本中的非文本部分,并对剩余的文本进行分词和去除停用词处理;
从去除停用词后的结果中提取关键词,并将提取的所述关键词作为预处理后的结果。
在一个实施方式中,通过预设分类器对预处理后的结果进行训练包括:
将所述预处理后的结果划分为多个指定类型,所述指定类型包括带标注样本、未标注样本以及用于验证预测模型的带标注样本;
利用初始化的预测模型预测所述未标注样本,并对选用的未标注样本进行人工标注后,将人工标注后的结果放入带标注样本中;
利用当前的带标注样本对所述初始化的预测模型进行校正,得到更新后的预测模型;
利用所述用于验证预测模型的带标注样本对更新后的预测模型进行验证,并根据验证结果判断训练过程是否结束。
在一个实施方式中,根据验证结果判断训练过程是否结束包括:
若验证结果与所述用于验证预测模型的带标注样本的标注结果一致,判定训练过程结束;
若验证结果与所述用于验证预测模型的带标注样本的标注结果不一致,利用当前的预测模型预测未标注样本,并对选用的未标注样本进行人工标注后,将人工标注后的结果放入带标注样本中,以及利用当前的带标注样本对当前的预测模型进行校正,得到再次更新后的预测模型。
在一个具体应用场景中,可以就酒店行业本身对评论分为卫生、服务、位置、价格和其他(消费总体感受及再次消费意愿)五个维度,根据一条评论是否涉及该维度及感情色彩情况,使用-2、-1、0和1分别代表未涉及、差评、中评和好评。
在数据预处理阶段,首先去除评论中的非文本部分,再对文本进行分词、去除停用词,并提取去除停用词之后的高频词作为关键词,以初步对文本进行维度和情感分类来作为训练集。
请参阅图2,下面是选取训练集的步骤:
1.使用SVM(Support Vector Machine,支持向量机)作为分类器,把数据划分为train、valid和active三类,它们分别表示训练模型的带标注样本、用于验证模型性能的带标注样本、未标注的数据集;
2.随机初始化并进行训练得到模型model;
3.使用当前模型model预测active中的样本;
4.人工对选择的样本进行标注,并将标注后的样本放到train目录下;
5.使用当前train目录下的样本对model进行调优,更新model;
6.使用model对valid中的数据进行验证,如果当前模型性能已得到目标则结束迭代,否则循环步骤3-6。
在得到训练集之后,需要将其作为FastText算法的输入,该算法模型主要包括三层:输入层、隐含层、输出层。其中:
输入层(embedding层)的输入是经过数据预处理后的词汇集合的索引序列,输入层包括词向量查找表xi,输入层将每个单词映射成向量,以便后续计算,该向量的维度自定义。同时一并作为输入的还有N-gram特征(假设是第N个词的出现只与前面N-1个词相关),这样可以保留一定的上下文关系,避免丢失词顺序信息,将N-gram特征引入,具体做法是把N-gram当成一个词,也用词向量来表示,如:某条评论文本包含3个词:x1,x2,x3,当N-gram的N取2时,那么x12、x23将连同x1、x2、x3一起参加运算。
隐含层(hidden层)用于将输入的所有单词的向量进行叠加平均。
输出层,采用层次softmax分类。具体地,根据标签和频率构造哈夫曼树,树中叶子结点代表label(标签),非叶子节点表征频率。在每一个非叶子节点处都需要作一次二分类,从根节点到某个叶子节点经过的节点和边形成一条路径。
具体地,采用层次softmax进行分类的分类概率值按照以下公式确定:
其中,Lj表示第j种分类结果,P(Lj)表示第j种分类结果的分类概率值,Q(Lj)表示第j种分类结果对应的路径长度,l表示哈夫曼树中的层数,p(Lj,l+1)表示第j中分类结果中第l+1层的节点,LC(p(Lj,l)表示节点p(Lj,l)的左孩子,为预设函数,其中,若*为真,若*为假,σ表示sigmoid函数,表示节点p(Lj,l)的参数,X表示输入的叠加平均后的数据。
它的基本思想是使用树型层级结构来代替扁平化的标准softmax,这样计算概率值时只需计算某一条路径上所有节点的概率值,而无需考虑其他节点。
在酒店评论文本中,一部分类目(如卫生、服务)的数据量很大,而另一部分类目(如位置)数据量较少,这种类目之间有着严重倾斜的不平衡数据集,使用常规方法通常需要额外对数据集进行处理。而由于层次softmax在对某个节点进行计算时,完全不依赖于它的上一层的叶子节点,也就是数量占比较大的label不能影响数量占比较小的label,所以可以很好解决数据集不平衡问题。并且,采用层次softmax可以提升模型训练速度,当类目数为k,词向量为n维时,计算复杂度可以从O(kn)降到O(nlog(k))。通过使用该训练策略,在普通的CPU上即可以对百万级别数据实现分钟级别的训练,在训练速度上比需要使用GPU的深度学习模型要快几个数量级。
请参阅图3,本申请还提供一种评论数据分类装置,所述装置包括:
数据训练集获取单元,用于获取评论数据样本,并对所述评论数据样本进行预处理后,通过预测模型对预处理后的结果进行训练,以得到数据训练集;
叠加平均单元,用于确定所述数据训练集中各个词汇的词向量,并构建词向量的N-gram特征,并对所述词向量和所述N-gram特征进行叠加平均;
分类单元,用于采用层次softmax对叠加平均后的数据进行分类,以确定所述数据训练集对应的分类结果。
在一个实施方式中,所述数据训练集获取单元包括:
数据划分模块,用于将所述预处理后的结果划分为多个指定类型,所述指定类型包括带标注样本、未标注样本以及用于验证预测模型的带标注样本;
标注模块,用于利用初始化的预测模型预测所述未标注样本,并对选用的未标注样本进行人工标注后,将人工标注后的结果放入带标注样本中;
模型更新模块,用于利用当前的带标注样本对所述初始化的预测模型进行校正,得到更新后的预测模型;
验证模块,用于利用所述用于验证预测模型的带标注样本对更新后的预测模型进行验证,并根据验证结果判断训练过程是否结束。
在一个实施方式中,所述层次softmax中根据标签和频率构建哈夫曼树,所述哈夫曼树中的叶子节点表征标签,非叶子节点表征频率。
在一个实施方式中,所述分类单元按照以下公式确定采用层次softmax进行分类的分类概率值:
其中,Lj表示第j种分类结果,P(Lj)表示第j种分类结果的分类概率值,Q(Lj)表示第j种分类结果对应的路径长度,l表示哈夫曼树中的层数,p(Lj,l+1)表示第j中分类结果中第l+1层的节点,LC(p(Lj,l)表示节点p(Lj,l)的左孩子,为预设函数,其中,若*为真,若*为假,σ表示sigmoid函数,表示节点p(Lj,l)的参数,X表示输入的叠加平均后的数据。
由上可见,本发明提出的技术方案,使用了主动学习来发现训练数据集中高信息量的样本来高效的训练模型,减少了大量的人工标注成本。同时使用FastText算法来进行文本分类,只使用浅层的神经网络,避免了过长的训练和分类时间,同时利用了层次softmax和文本的N-gram信息,在加速训练过程的同时保证了文本分类的准确率。
上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述,本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此,虽然已经具体讨论了一些另选的实施方式,但是其它实施方式将是显而易见的,或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本发明的所有替代、修改、和变化,以及落在上述申请的精神和范围内的其它实施方式。

Claims (10)

1.一种评论数据分类方法,其特征在于,所述方法包括:
获取评论数据样本,并对所述评论数据样本进行预处理后,通过预测模型对预处理后的结果进行训练,以得到数据训练集;
确定所述数据训练集中各个词汇的词向量,并构建词向量的N-gram特征,并对所述词向量和所述N-gram特征进行叠加平均;
采用层次softmax对叠加平均后的数据进行分类,以确定所述数据训练集对应的分类结果。
2.根据权利要求1所述的方法,其特征在于,对所述评论数据样本进行预处理包括:
去除所述评论数据样本中的非文本部分,并对剩余的文本进行分词和去除停用词处理;
从去除停用词后的结果中提取关键词,并将提取的所述关键词作为预处理后的结果。
3.根据权利要求1或2所述的方法,其特征在于,通过预设分类器对预处理后的结果进行训练包括:
将所述预处理后的结果划分为多个指定类型,所述指定类型包括带标注样本、未标注样本以及用于验证预测模型的带标注样本;
利用初始化的预测模型预测所述未标注样本,并对选用的未标注样本进行人工标注后,将人工标注后的结果放入带标注样本中;
利用当前的带标注样本对所述初始化的预测模型进行校正,得到更新后的预测模型;
利用所述用于验证预测模型的带标注样本对更新后的预测模型进行验证,并根据验证结果判断训练过程是否结束。
4.根据权利要求3所述的方法,其特征在于,根据验证结果判断训练过程是否结束包括:
若验证结果与所述用于验证预测模型的带标注样本的标注结果一致,判定训练过程结束;
若验证结果与所述用于验证预测模型的带标注样本的标注结果不一致,利用当前的预测模型预测未标注样本,并对选用的未标注样本进行人工标注后,将人工标注后的结果放入带标注样本中,以及利用当前的带标注样本对当前的预测模型进行校正,得到再次更新后的预测模型。
5.根据权利要求1所述的方法,其特征在于,所述层次softmax中根据标签和频率构建哈夫曼树,所述哈夫曼树中的叶子节点表征标签,非叶子节点表征频率。
6.根据权利要求5所述的方法,其特征在于,采用层次softmax进行分类的分类概率值按照以下公式确定:
其中,Lj表示第j种分类结果,P(Lj)表示第j种分类结果的分类概率值,Q(Lj)表示第j种分类结果对应的路径长度,l表示哈夫曼树中的层数,p(Lj,l+1)表示第j中分类结果中第l+1层的节点,LC(p(Lj,l)表示节点p(Lj,l)的左孩子,为预设函数,其中,若*为真,若*为假,σ表示sigmoid函数,表示节点p(Lj,l)的参数,X表示输入的叠加平均后的数据。
7.一种评论数据分类装置,其特征在于,所述装置包括:
数据训练集获取单元,用于获取评论数据样本,并对所述评论数据样本进行预处理后,通过预测模型对预处理后的结果进行训练,以得到数据训练集;
叠加平均单元,用于确定所述数据训练集中各个词汇的词向量,并构建词向量的N-gram特征,并对所述词向量和所述N-gram特征进行叠加平均;
分类单元,用于采用层次softmax对叠加平均后的数据进行分类,以确定所述数据训练集对应的分类结果。
8.根据权利要求7所述的装置,其特征在于,所述数据训练集获取单元包括:
数据划分模块,用于将所述预处理后的结果划分为多个指定类型,所述指定类型包括带标注样本、未标注样本以及用于验证预测模型的带标注样本;
标注模块,用于利用初始化的预测模型预测所述未标注样本,并对选用的未标注样本进行人工标注后,将人工标注后的结果放入带标注样本中;
模型更新模块,用于利用当前的带标注样本对所述初始化的预测模型进行校正,得到更新后的预测模型;
验证模块,用于利用所述用于验证预测模型的带标注样本对更新后的预测模型进行验证,并根据验证结果判断训练过程是否结束。
9.根据权利要求7所述的装置,其特征在于,所述层次softmax中根据标签和频率构建哈夫曼树,所述哈夫曼树中的叶子节点表征标签,非叶子节点表征频率。
10.根据权利要求9所述的装置,其特征在于,所述分类单元按照以下公式确定采用层次softmax进行分类的分类概率值:
其中,Lj表示第j种分类结果,P(Lj)表示第j种分类结果的分类概率值,Q(Lj)表示第j种分类结果对应的路径长度,l表示哈夫曼树中的层数,p(Lj,l+1)表示第j中分类结果中第l+1层的节点,LC(p(Lj,l)表示节点p(Lj,l)的左孩子,为预设函数,其中,若*为真,若*为假,σ表示sigmoid函数,表示节点p(Lj,l)的参数,X表示输入的叠加平均后的数据。
CN201910775543.3A 2019-08-21 2019-08-21 一种评论数据分类方法及系统 Pending CN110472056A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910775543.3A CN110472056A (zh) 2019-08-21 2019-08-21 一种评论数据分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910775543.3A CN110472056A (zh) 2019-08-21 2019-08-21 一种评论数据分类方法及系统

Publications (1)

Publication Number Publication Date
CN110472056A true CN110472056A (zh) 2019-11-19

Family

ID=68513468

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910775543.3A Pending CN110472056A (zh) 2019-08-21 2019-08-21 一种评论数据分类方法及系统

Country Status (1)

Country Link
CN (1) CN110472056A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402014A (zh) * 2020-06-04 2020-07-10 江苏省质量和标准化研究院 一种基于胶囊网络的电商缺陷产品的预测方法
CN111695017A (zh) * 2020-06-15 2020-09-22 山东浪潮云服务信息科技有限公司 一种基于产品评论分析用户情感倾向的方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160063395A1 (en) * 2014-08-28 2016-03-03 Baidu Online Network Technology (Beijing) Co., Ltd Method and apparatus for labeling training samples
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类系统
CN107169001A (zh) * 2017-03-31 2017-09-15 华东师范大学 一种基于众包反馈和主动学习的文本分类模型优化方法
CN108205542A (zh) * 2016-12-16 2018-06-26 北京酷我科技有限公司 一种歌曲评论的分析方法和系统
CN109739986A (zh) * 2018-12-28 2019-05-10 合肥工业大学 一种基于深度集成学习的投诉短文本分类方法
CN109831373A (zh) * 2019-03-01 2019-05-31 论客科技(广州)有限公司 基于FastText算法的邮件系统高精度智能防误判方法及装置
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160063395A1 (en) * 2014-08-28 2016-03-03 Baidu Online Network Technology (Beijing) Co., Ltd Method and apparatus for labeling training samples
CN105930411A (zh) * 2016-04-18 2016-09-07 苏州大学 一种分类器训练方法、分类器和情感分类系统
CN108205542A (zh) * 2016-12-16 2018-06-26 北京酷我科技有限公司 一种歌曲评论的分析方法和系统
CN107169001A (zh) * 2017-03-31 2017-09-15 华东师范大学 一种基于众包反馈和主动学习的文本分类模型优化方法
CN109739986A (zh) * 2018-12-28 2019-05-10 合肥工业大学 一种基于深度集成学习的投诉短文本分类方法
CN109831373A (zh) * 2019-03-01 2019-05-31 论客科技(广州)有限公司 基于FastText算法的邮件系统高精度智能防误判方法及装置
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LY-林雨: "入学习"主动学习":如何显著地减少标注代价", 《CSDN》 *
达观数据王江: "fastText原理及实践", 《微信公众号平台》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402014A (zh) * 2020-06-04 2020-07-10 江苏省质量和标准化研究院 一种基于胶囊网络的电商缺陷产品的预测方法
CN111695017A (zh) * 2020-06-15 2020-09-22 山东浪潮云服务信息科技有限公司 一种基于产品评论分析用户情感倾向的方法及系统

Similar Documents

Publication Publication Date Title
CN103646088B (zh) 基于CRFs和SVM的产品评论细粒度情感要素提取
CN103336766B (zh) 短文本垃圾识别以及建模方法和装置
CN103268339B (zh) 微博消息中命名实体识别方法及系统
CN108874997A (zh) 一种面向电影评论的人名命名实体识别方法
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN107729309A (zh) 一种基于深度学习的中文语义分析的方法及装置
CN106227722A (zh) 一种基于上市公司公告摘要的自动提取方法
CN105740236B (zh) 结合写作特征和序列特征的中文情感新词识别方法和系统
CN109885670A (zh) 一种面向话题文本的交互注意力编码情感分析方法
Maharjan et al. A multi-task approach to predict likability of books
CN110390018A (zh) 一种基于lstm的社交网络评论生成方法
CN109871443A (zh) 一种基于记账场景的短文本分类方法及装置
WO2020114302A1 (zh) 一种行为预测方法
CN110232123A (zh) 文本的情感分析方法及其装置、计算设备与可读介质
CN110188197A (zh) 一种用于标注平台的主动学习方法及装置
CN112434535A (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN107357785A (zh) 主题特征词抽取方法及系统、情感极性判断方法及系统
CN110059177A (zh) 一种基于用户画像的活动推荐方法及装置
Nam et al. Padding methods in convolutional sequence model: an application in Japanese handwriting recognition
CN105869058B (zh) 一种多层潜变量模型用户画像提取的方法
CN114387061A (zh) 产品推送方法、装置、电子设备及可读存储介质
CN109949174A (zh) 一种异构社交网络用户实体锚链接识别方法
Pham Transferring, transforming, ensembling: the novel formula of identifying fake news
CN114997288A (zh) 一种设计资源关联方法
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191119