CN112215003A - 一种基于albert预训练模型和kmean算法的评论标签提取的方法 - Google Patents

一种基于albert预训练模型和kmean算法的评论标签提取的方法 Download PDF

Info

Publication number
CN112215003A
CN112215003A CN202011243154.5A CN202011243154A CN112215003A CN 112215003 A CN112215003 A CN 112215003A CN 202011243154 A CN202011243154 A CN 202011243154A CN 112215003 A CN112215003 A CN 112215003A
Authority
CN
China
Prior art keywords
data
model
transformer block
albert
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011243154.5A
Other languages
English (en)
Inventor
廖杰
邓方华
张衍彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Hongbao Wisdom Food And Drink Technology Co ltd
Original Assignee
Shenzhen Hongbao Wisdom Food And Drink Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Hongbao Wisdom Food And Drink Technology Co ltd filed Critical Shenzhen Hongbao Wisdom Food And Drink Technology Co ltd
Priority to CN202011243154.5A priority Critical patent/CN112215003A/zh
Publication of CN112215003A publication Critical patent/CN112215003A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及自然语言处理技术领域,具体为一种基于albert预训练模型和kmean算法的评论标签提取的方法,该方法的步骤如下:步骤一、爬取门店的评论数据,数据导入到数据库中;步骤二、对数据库的数据进行数据清洗;步骤三、利用albert预训练模型获得词向量;步骤四、评估模型的平均准确率,本发明利用albert作为预训练模型,模型小,训练速度快,对于大规模数据情况下,效果更好,本发明利用kmean算法作为无监督的聚类算法,通过获取albert的最后一层词向量作为输入,并最终通过kmean聚类算法聚类,达到更为准确的预估准确率。

Description

一种基于albert预训练模型和kmean算法的评论标签提取的 方法
技术领域
本发明涉及自然语言处理技术领域,具体为一种基于albert预训练模型和kmean算法的评论标签提取的方法。
背景技术
在外卖领域中,针对外卖评论数据,客户的评论内容作为和商家的沟通桥梁,从评论中提取有用的信息对于商家改进自身的情况有着重要的作用,将自然语言处理技术应用到外卖评论的标签提提取中能够达到较为理想的效果,在该过程中一般利用tfidf算法进行识别分析,但在tf不断增加时,TF Score会无限制增加,导致文本相关性的逻辑偏离,外卖评论数据一般长度短,因此前文利用的信息有限,一般的训练模型在短时序中效果有限,训练速度慢,消耗的算理资源多。鉴于此,我们提出一种基于albert预训练模型和kmean算法的评论标签提取的方法。
发明内容
本发明的目的在于提供一种基于albert预训练模型和kmean算法的评论标签提取的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于albert预训练模型和kmean算法的评论标签提取的方法,该方法的步骤如下:
步骤一、爬取门店的评论数据,数据导入到数据库中;
步骤二、对数据库的数据进行数据清洗;
步骤三、利用albert预训练模型获得词向量;
步骤四、评估模型的平均准确率。
作为本发明优选的技术方案,步骤二中的清洗步骤包括:去停用词、去html格式、去掉空格,对少量数据进行人工标注,将清洗的数据导入到数据库中。
作为本发明优选的技术方案,步骤三的具体操作为:基于少量的标注数据,取albert预训练模型的最后一层对少量的标注数据进行fine-tuning得到word_embedding。
作为本发明优选的技术方案,步骤四的具体操作为:将经过步骤三获取到的word_embedding输入到kmean算法并评估模型的平均准确率。
作为本发明优选的技术方案,步骤三中的Fine-tuning过程是利用现有的少量出预训练模型的参数更新从而获得较好的能够表示全局信息的词向量,embedding的过程中以词为单位。
作为本发明优选的技术方案,步骤三中的albert预训练模型是BERT模型的改进版,其本身就已经具有大量的信息存在,具有更少的参数以及更佳的训练效果,albert预训练模型的网络结构为15层,分别为:输入、Embedding、Transformer Block 1、TransformerBlock 2、Transformer Block 3、Transformer Block 4、Transformer Block 5、Transformer Block 6、Transformer Block 7、Transformer Block 8、Transformer Block9、Transformer Block 10、Transformer Block 11、Transformer Block 12以及下游任务。
作为本发明优选的技术方案,步骤四中的kmean算法具体的算法内容如下:
1)随机选择K个中心点;
2)把每个数据点分配到离它最近的中心点;
3)重新计算每类中的点到该类中心点距离的平均值;
4)分配每个数据到它最近的中心点;
5)重复步骤3和4,直到所有的观测值不再被分配或是达到最大的迭代次数。
作为本发明优选的技术方案,步骤四中评估模型的平均准确率的具体步骤如下:
1)人工标注好的1500条数据测试集;
2)将训练好的模型对测试集进行预测,得到结果;
3)将预测结果和已有结果进行比较,算出准确率;
4)重复3步骤5次,取平均结果即可得到平均准确率。
与现有技术相比,本发明的有益效果是:
本发明利用albert作为预训练模型,模型小,训练速度快,对于大规模数据情况下,效果更好,本发明利用kmean算法作为无监督的聚类算法,通过获取albert的最后一层词向量作为输入,并最终通过kmean聚类算法聚类,达到更为准确的预估准确率。
附图说明
图1为本发明的主流程图;
图2为本发明中albert预训练模型的网络结构;
图3为本发明中kmean算法训练流程图。
具体实施方式
下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本实施例提供的技术方案为:一种基于albert预训练模型和kmean算法的评论标签提取的方法,该方法的步骤如下:
步骤一、爬取门店的评论数据,数据导入到数据库中;
步骤二、对数据库的数据进行数据清洗;
步骤三、利用albert预训练模型获得词向量;
步骤四、评估模型的平均准确率。
作为本实施例的优选,步骤二中的清洗步骤包括:去停用词、去html格式、去掉空格,对少量数据进行人工标注,将清洗的数据导入到数据库中,下面用实际样例进行分析,数据如下表所示:
Figure BDA0002767871350000031
Figure BDA0002767871350000041
作为本实施例的优选,步骤三的具体操作为:基于少量的标注数据,取albert预训练模型的最后一层对少量的标注数据进行fine-tuning得到word_embedding。
作为本实施例的优选,步骤四的具体操作为:将经过步骤三获取到的word_embedding输入到kmean算法并评估模型的平均准确率。
作为本实施例的优选,步骤三中的Fine-tuning过程是利用现有的少量出预训练模型的参数更新从而获得较好的能够表示全局信息的词向量,embedding的过程中以词为单位。
作为本实施例的优选,步骤三中的albert预训练模型是BERT模型的改进版,其本身就已经具有大量的信息存在,具有更少的参数以及更佳的训练效果,albert预训练模型的网络结构为15层,分别为:输入、Embedding、Transformer Block 1、Transformer Block2、Transformer Block 3、Transformer Block 4、Transformer Block 5、TransformerBlock 6、Transformer Block 7、Transformer Block 8、Transformer Block 9、Transformer Block 10、Transformer Block 11、Transformer Block 12以及下游任务。
作为本实施例的优选,步骤四中的kmean算法具体的算法内容如下:
1)随机选择K个中心点;
2)把每个数据点分配到离它最近的中心点;
3)重新计算每类中的点到该类中心点距离的平均值;
4)分配每个数据到它最近的中心点;
5)重复步骤3和4,直到所有的观测值不再被分配或是达到最大的迭代次数。
作为本实施例的优选,步骤四中评估模型的平均准确率的具体步骤如下:
1)人工标注好的1500条数据测试集;
2)将训练好的模型对测试集进行预测,得到结果;
3)将预测结果和已有结果进行比较,算出准确率;
4)重复3步骤5次,取平均结果即可得到平均准确率。
对比例1
本对比例提供的技术方案为:一种基于tfidf和kmean算法的评论标签提取的方法,该方法的步骤如下:
步骤一、爬取门店的评论数据,数据导入到数据库中;
步骤二、对数据库的数据进行数据清洗;
步骤三、利用tfidf加权技术获得词向量;
步骤四、评估模型的平均准确率。
作为本对比例的优选,步骤二中的清洗步骤包括:去停用词、去html格式、去掉空格,对少量数据进行人工标注,将清洗的数据导入到数据库中,下面用实际样例进行分析,数据如下表所示:
Figure BDA0002767871350000051
Figure BDA0002767871350000061
作为本对比例的优选,步骤三的具体操作为:利用tfidf加权技术对标注数据进行fine-tuning得到word_embedding。
作为本对比例的优选,步骤四的具体操作为:将经过步骤三获取到的word_embedding输入到kmean算法并评估模型的平均准确率。
作为本对比例的优选,步骤三中的Fine-tuning过程是利用现有的少量出预训练模型的参数更新从而获得较好的能够表示全局信息的词向量,embedding的过程中以词为单位。
作为本对比例的优选,步骤四中的kmean算法具体的算法内容如下:
1)随机选择K个中心点;
2)把每个数据点分配到离它最近的中心点;
3)重新计算每类中的点到该类中心点距离的平均值;
4)分配每个数据到它最近的中心点;
5)重复步骤3和4,直到所有的观测值不再被分配或是达到最大的迭代次数。
作为本对比例的优选,步骤四中评估模型的平均准确率的具体步骤如下:
1)人工标注好的1500条数据测试集;
2)将训练好的模型对测试集进行预测,得到结果;
3)将预测结果和已有结果进行比较,算出准确率;
4)重复3步骤5次,取平均结果即可得到平均准确率。
对比例2
本对比例提供的技术方案为:一种基于albert预训练模型和kmean算法的评论标签提取的方法,该方法的步骤如下:
步骤一、爬取门店的评论数据,数据导入到数据库中;
步骤二、对数据库的数据进行数据清洗;
步骤三、利用albert预训练模型获得词向量;
步骤四、评估模型的平均准确率。
作为本对比例的优选,步骤二中的清洗步骤包括:去停用词、去html格式、去掉空格,对少量数据进行人工标注,将清洗的数据导入到数据库中,下面用实际样例进行分析,数据如下表所示:
Figure BDA0002767871350000071
作为本对比例的优选,步骤三的具体操作为:基于少量的标注数据,取albert预训练模型对少量的标注数据进行fine-tuning得到word_embedding。
作为本对比例的优选,步骤四的具体操作为:将经过步骤三获取到的word_embedding输入到kmean算法并评估模型的平均准确率。
作为本对比例的优选,步骤三中的Fine-tuning过程是利用现有的少量出预训练模型的参数更新从而获得较好的能够表示全局信息的词向量,embedding的过程中以词为单位。
作为本对比例的优选,步骤三中的albert预训练模型是BERT模型的改进版,其本身就已经具有大量的信息存在,具有更少的参数以及更佳的训练效果,albert预训练模型的网络结构为15层,分别为:输入、Embedding、Transformer Block 1、Transformer Block2、Transformer Block 3、Transformer Block 4、Transformer Block 5、TransformerBlock 6、Transformer Block 7、Transformer Block 8、Transformer Block 9、Transformer Block 10、Transformer Block 11、Transformer Block 12以及下游任务。
作为本对比例的优选,步骤四中的kmean算法具体的算法内容如下:
1)随机选择K个中心点;
2)把每个数据点分配到离它最近的中心点;
3)重新计算每类中的点到该类中心点距离的平均值;
4)分配每个数据到它最近的中心点;
5)重复步骤3和4,直到所有的观测值不再被分配或是达到最大的迭代次数。
作为本对比例的优选,步骤四中评估模型的平均准确率的具体步骤如下:
1)人工标注好的1500条数据测试集;
2)将训练好的模型对测试集进行预测,得到结果;
3)将预测结果和已有结果进行比较,算出准确率;
4)重复3步骤5次,取平均结果即可得到平均准确率。
对比例3
本对比例提供的技术方案为:一种基于albert预训练模型和kmean算法的评论标签提取的方法,该方法的步骤如下:
步骤一、爬取门店的评论数据,数据导入到数据库中;
步骤二、对数据库的数据进行数据清洗;
步骤三、利用albert预训练模型获得词向量;
步骤四、评估模型的平均准确率。
作为本对比例的优选,步骤二中的清洗步骤包括:去停用词、去html格式、去掉空格,对少量数据进行人工标注,将清洗的数据导入到数据库中,下面用实际样例进行分析,数据如下表所示:
Figure BDA0002767871350000081
Figure BDA0002767871350000091
作为本对比例的优选,步骤三的具体操作为:基于少量的标注数据,取albert预训练模型的倒数第二层对少量的标注数据进行fine-tuning得到word_embedding。
作为本对比例的优选,步骤四的具体操作为:将经过步骤三获取到的word_embedding输入到kmean算法并评估模型的平均准确率。
作为本对比例的优选,步骤三中的Fine-tuning过程是利用现有的少量出预训练模型的参数更新从而获得较好的能够表示全局信息的词向量,embedding的过程中以词为单位。
作为本对比例的优选,步骤三中的albert预训练模型是BERT模型的改进版,其本身就已经具有大量的信息存在,具有更少的参数以及更佳的训练效果,albert预训练模型的网络结构为15层,分别为:输入、Embedding、Transformer Block 1、Transformer Block2、Transformer Block 3、Transformer Block 4、Transformer Block 5、TransformerBlock 6、Transformer Block 7、Transformer Block 8、Transformer Block 9、Transformer Block 10、Transformer Block 11、Transformer Block 12以及下游任务。
作为本对比例的优选,步骤四中的kmean算法具体的算法内容如下:
1)随机选择K个中心点;
2)把每个数据点分配到离它最近的中心点;
3)重新计算每类中的点到该类中心点距离的平均值;
4)分配每个数据到它最近的中心点;
5)重复步骤3和4,直到所有的观测值不再被分配或是达到最大的迭代次数。
作为本对比例的优选,步骤四中评估模型的平均准确率的具体步骤如下:
1)人工标注好的1500条数据测试集;
2)将训练好的模型对测试集进行预测,得到结果;
3)将预测结果和已有结果进行比较,算出准确率;
4)重复3步骤5次,取平均结果即可得到平均准确率。
将本发明的实施例和上述三个对比例提供的评论标签提取方法进行试验数据对比,得到如下数据:
方法 平均准确率
tfidf+kmean(对比例1) 53.54%
Albert+Kmean(对比例2) 56.74%
Albert-fine-tuning(11layer)+kmean(对比例3) 73.51%
Albert-fine-tuning(12layer)+kmean(实施例) 91.23%
通过上述表格的数据可知,通过本发明提供的基于albert预训练模型和kmean算法的评论标签提取的方法相比较其它两种方法评估平均准确率更高,经过fine-tuning后能够学习到领域的更多知识,取第12层Transformer-11FeedForward-Norm网络的词向量作为kmean的输入明显比第11层的要好,对词向量没有经过处理的方式相比,效果上有明显的提升,且相对于tfidf的词向量和没有经过微调的albert词向量效果要好。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (8)

1.一种基于albert预训练模型和kmean算法的评论标签提取的方法,其特征在于:该方法的步骤如下:
步骤一、爬取门店的评论数据,数据导入到数据库中;
步骤二、对数据库的数据进行数据清洗;
步骤三、利用albert预训练模型获得词向量;
步骤四、评估模型的平均准确率。
2.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法,其特征在于:步骤二中的清洗步骤包括:去停用词、去html格式、去掉空格,对少量数据进行人工标注,将清洗的数据导入到数据库中。
3.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法,其特征在于:步骤三的具体操作为:基于少量的标注数据,取albert预训练模型的最后一层对少量的标注数据进行fine-tuning得到word_embedding。
4.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法,其特征在于:步骤四的具体操作为:将经过步骤三获取到的word_embedding输入到kmean算法并评估模型的平均准确率。
5.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法,其特征在于:步骤三中的Fine-tuning过程是利用现有的少量出预训练模型的参数更新从而获得较好的能够表示全局信息的词向量,embedding的过程中以词为单位。
6.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法,其特征在于:步骤三中的albert预训练模型是BERT模型的改进版,其本身就已经具有大量的信息存在,具有更少的参数以及更佳的训练效果,albert预训练模型的网络结构为15层,分别为:输入、Embedding、Transformer Block 1、Transformer Block 2、TransformerBlock 3、Transformer Block 4、Transformer Block 5、Transformer Block 6、Transformer Block 7、Transformer Block 8、Transformer Block 9、Transformer Block10、Transformer Block 11、Transformer Block 12以及下游任务。
7.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法,其特征在于:步骤四中的kmean算法具体的算法内容如下:
1)随机选择K个中心点;
2)把每个数据点分配到离它最近的中心点;
3)重新计算每类中的点到该类中心点距离的平均值;
4)分配每个数据到它最近的中心点;
5)重复步骤3和4,直到所有的观测值不再被分配或是达到最大的迭代次数。
8.根据权利要求1所描述的基于albert预训练模型和kmean算法的评论标签提取的方法,其特征在于:步骤四中评估模型的平均准确率的具体步骤如下:
1)人工标注好的1500条数据测试集;
2)将训练好的模型对测试集进行预测,得到结果;
3)将预测结果和已有结果进行比较,算出准确率;
4)重复3步骤5次,取平均结果即可得到平均准确率。
CN202011243154.5A 2020-11-09 2020-11-09 一种基于albert预训练模型和kmean算法的评论标签提取的方法 Pending CN112215003A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011243154.5A CN112215003A (zh) 2020-11-09 2020-11-09 一种基于albert预训练模型和kmean算法的评论标签提取的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011243154.5A CN112215003A (zh) 2020-11-09 2020-11-09 一种基于albert预训练模型和kmean算法的评论标签提取的方法

Publications (1)

Publication Number Publication Date
CN112215003A true CN112215003A (zh) 2021-01-12

Family

ID=74056742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011243154.5A Pending CN112215003A (zh) 2020-11-09 2020-11-09 一种基于albert预训练模型和kmean算法的评论标签提取的方法

Country Status (1)

Country Link
CN (1) CN112215003A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130290222A1 (en) * 2012-04-27 2013-10-31 Xerox Corporation Retrieval system and method leveraging category-level labels
CN107391483A (zh) * 2017-07-13 2017-11-24 武汉大学 一种基于卷积神经网络的商品评论数据情感分类方法
CN110825876A (zh) * 2019-11-07 2020-02-21 上海德拓信息技术股份有限公司 电影评论观点情感倾向性分析方法
CN111209401A (zh) * 2020-01-03 2020-05-29 西安电子科技大学 网络舆情文本信息情感极性分类处理系统及方法
CN111242083A (zh) * 2020-01-21 2020-06-05 腾讯云计算(北京)有限责任公司 基于人工智能的文本处理方法、装置、设备、介质
CN111709241A (zh) * 2020-05-27 2020-09-25 西安交通大学 一种面向网络安全领域的命名实体识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130290222A1 (en) * 2012-04-27 2013-10-31 Xerox Corporation Retrieval system and method leveraging category-level labels
CN107391483A (zh) * 2017-07-13 2017-11-24 武汉大学 一种基于卷积神经网络的商品评论数据情感分类方法
CN110825876A (zh) * 2019-11-07 2020-02-21 上海德拓信息技术股份有限公司 电影评论观点情感倾向性分析方法
CN111209401A (zh) * 2020-01-03 2020-05-29 西安电子科技大学 网络舆情文本信息情感极性分类处理系统及方法
CN111242083A (zh) * 2020-01-21 2020-06-05 腾讯云计算(北京)有限责任公司 基于人工智能的文本处理方法、装置、设备、介质
CN111709241A (zh) * 2020-05-27 2020-09-25 西安交通大学 一种面向网络安全领域的命名实体识别方法

Similar Documents

Publication Publication Date Title
CN110209823B (zh) 一种多标签文本分类方法及系统
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN111078876A (zh) 一种基于多模型集成的短文本分类方法和系统
CN110019779B (zh) 一种文本分类方法、模型训练方法及装置
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN113505225A (zh) 一种基于多层注意力机制的小样本医疗关系分类方法
CN111159332A (zh) 一种基于bert的文本多意图识别方法
CN109299263A (zh) 文本分类方法、电子设备及计算机程序产品
CN112597298A (zh) 融合知识图谱的深度学习文本分类方法
CN111507528A (zh) 一种基于cnn-lstm的股票长期趋势预测方法
CN114416991A (zh) 一种基于prompt的文本情感原因分析方法和系统
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN117112749A (zh) 面向rnn驱动的电商智能客服对话意图识别方法和系统
CN116186266A (zh) Bert、ner实体抽取以及知识图谱的物料分类优化方法及系统
CN112215003A (zh) 一种基于albert预训练模型和kmean算法的评论标签提取的方法
CN116070642A (zh) 一种基于表情嵌入的文本情感分析方法及相关装置
CN111339303B (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置
CN110162629B (zh) 一种基于多基模型框架的文本分类方法
CN112699242A (zh) 一种中文文本作者识别方法
CN109726286B (zh) 一种基于lda主题模型的图书自动分类方法
Lu et al. Slot transferability for cross-domain slot filling
CN115618092A (zh) 一种信息推荐方法和信息推荐系统
CN113821642B (zh) 一种基于gan聚类的文本清洗方法及系统
CN112784033B (zh) 一种时效等级识别模型训练及应用的方法、及电子设备
CN116522932B (zh) 一种文本分析方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210112

RJ01 Rejection of invention patent application after publication