CN109710770A - 一种基于迁移学习的文本分类方法及装置 - Google Patents
一种基于迁移学习的文本分类方法及装置 Download PDFInfo
- Publication number
- CN109710770A CN109710770A CN201910101012.6A CN201910101012A CN109710770A CN 109710770 A CN109710770 A CN 109710770A CN 201910101012 A CN201910101012 A CN 201910101012A CN 109710770 A CN109710770 A CN 109710770A
- Authority
- CN
- China
- Prior art keywords
- text
- file
- training
- semantic
- bert model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明提供了一种基于迁移学习的文本分类方法及装置,所述方法包括:S1:使用未标注的文本训练BERT模型,得到预训练好的词表示BERT模型;S2:过滤所述待分类的文本中的链接、转发符号以及用户名的内容;S3:将过滤后的所述文本输入所述S1中训练好的所述词表示BERT模型,得到文本的语义文件;S4:将所述文本的语义文件输入卷积神经网络处理,得到所述语义文件中的句子的类别标签。发明方法使用迁移学习进行文本分类,提出了一种使用基于大规模无标注的语料训练出的BERT词表示模型。该词表示模型具有通用性,不依赖于具体的文本领域,也可以用在其他的任务如实体抽取、情感分析等。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其是涉及一种基于迁移学习的文本分类方法及装置。
背景技术
Web2.0时代,每一个网民都成了互联网的信息发布源。各种用途的信息发布平台应运而生,诸如FaceBook、校内网、新浪微博等,供用户发表、获取、分享各种信息。由于互联网用户基数大,每个信息发布平台信息发布平台平均每天产生的信息量也大,所以互联网每天产生的信息量也巨大。文本分类是指在给定分类体系下,根据文本内容自动确定文本类别的过程。文本分类是文本处理中一个很重要的模块,应用也十分广泛,包括垃圾过滤,新闻分类,情感分类,词性标注等。基于互联网每天产生的巨大信息量,对互联网数据进行分析的难度也非常大。
在文本情感分析方面,外国学者主要是针对Twitter上的短文本信息作为语料进行分析。比如国外学者利用网站带情感标签的文本作为训练语料,采用文本抽象特征训练各种分类器进行主客观分类和情感极性分类。中文文本情感极性分析近来呈现高速发展的趋向,然而中文文本的复杂性比英文文本的复杂性要高得多,所以中文文本的分词质量往往对最后的分类结果影响很大。除此之外,由于中文的信息熵更大,中文文本内容丰富多彩,有很多网络词和新词加入其中,在研究工作中都是挑战。
就文本分类而言,伴随着统计学习方法的发展,特别是90年代后互联网在线文本数量增长和机器学习学科的兴起,逐渐形成了一套解决大规模文本分类问题的经典玩法,这个阶段的主要套路是人工特征工程和浅层分类模型,整个文本分类问题就拆分成了特征工程和分类器两部分。但是这种方法依赖于大量的特征工程工作,耗时耗力,且对结果影响巨大。而基于深度学习的文本分类方法则依赖于大量的标注语料,标注语料的数量决定了最后模型效果的好坏,也依赖于大量的人工工作。
发明内容
针对现有技术存在的缺陷,第一方面,本发明提供了一种基于迁移学习的文本分类方法,包括:
S1:使用未标注的文本训练BERT模型,得到预训练好的词表示BERT模型;
S2:过滤所述待分类的文本中的链接、转发符号以及用户名的内容;
S3:将过滤后的所述文本输入所述S1中训练好的所述词表示BERT模型,得到文本的语义文件;
S4:将所述文本的语义文件输入卷积神经网络处理,得到所述语义文件中的句子的类别标签。
进一步,所述S1中使用未标注中文文本训练BERT模型,得到所述中文文本的语义文件,构成了预训练好的词表示BERT模型。
进一步,所述文本的语义为句子的语义文件。
进一步,所述经卷积神经网络处理的过程包括:
将所述文本的语义文件经卷积层处理得到特征图;
将所述特征图输入池化层,经最大池化处理得到词向量并将所述词向量串联成特征向量;
将所述特征向量输入softmax层进行归一化处理得到所述语义文件中的句子的类别标签。
第二方面,本发明提供了一种基于迁移学习的文本分类装置,包括:
预训练模块,用于使用未标注的文本训练BERT模型,得到预训练好的词表示BERT模型;
预处理模块,用于过滤所述待分类的文本中的链接、转发符号以及用户名的内容;
文本训练模块,用于将过滤后的所述文本再次输入所述预训练模块中训练好的所述词表示BERT模型,得到文本的语义;
计算分类模块,用于将所述文本的语义文件输入卷积神经网络处理,得到所述语义文件中的句子的类别标签。
进一步,所述预训练模块中使用无标注中文文本训练BERT模型,得到所述中文文本的语义表示,构成了预训练好的词表示BERT模型。
进一步,所述文本的语义为句子的语义文件。
进一步,所述经卷积神经网络处理的过程包括:
将所述文本的语义文件经卷积层处理得到特征图;
将所述特征图输入池化层,经最大池化处理得到词向量并将所述词向量串联成特征向量;
将所述特征向量输入softmax层进行归一化处理得到所述语义文件中的句子的类别标签。
与现有技术相比,本发明具有以下的优点和有益效果:
1、本发明方法使用迁移学习进行文本分类,提出了一种使用基于大规模无标注的语料训练出的BERT词表示模型。该词表示模型具有通用性,不依赖于具体的文本领域,也可以用在其他的任务如实体抽取、情感分析等。
2、本发明方法使用基于端到端的模型,不依赖于特征工程,避免了特征工程带来的工作量。
3、本发明方法使用基于迁移学习的文本分类方法,降低了深度学习模型对训练数据量的需求,仅使用少量的标注数据就可以达到很好的效果,减少了数据标注带来的人工工作量。
附图说明
图1是本发明的一种基于迁移学习的文本分类方法的流程示意图;
图2为BERT中字的特征表示组成示意图;
图3为BERT词表示模型示意图;
图4为TextCNN文本分类模型示意图;
图5为本发明的一种基于迁移学习的文本分类装置的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定装备结构、接口、技术之类的具体细节,以便透彻理解本发明。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本发明。在其它情况中,省略对众所周知的装置、电路以及方法的详细说明,以免不必要的细节妨碍本发明的描述。
如图1所示,一种基于迁移学习的文本分类方法,包括:
S1:使用未标注的文本训练BERT模型,得到预训练好的词表示BERT模型;
S2:过滤所述待分类的文本中的链接、转发符号以及用户名的内容;
S3:将过滤后的所述文本输入所述S1中训练好的所述词表示BERT模型,得到文本的语义文件;
S4:将所述文本的语义文件输入卷积神经网络处理,得到所述语义文件中的句子的类别标签。
步骤一,使用大规模无标注中文文本语料,预训练BERT词表示模型。所述S1中的所述预训练好的词表示模型为BERT模型的一种变形。具体的,对一个句子x=x1,x2,......,xn,句子中的每一个字使用token embedding、segment embedding、position embedding三个表示相加产生。并使用Masked Language Model和Next Sentence Prediction为优化目标,对字的三种表示进行优化。
步骤二,对分类对象微博文本,进行预处理。使用正则表达式将文本中的链接、转发符号、用户名等噪声部分过滤,得到相对纯净的文本。
步骤三,将步骤二得到的过滤后的文本输入经过步骤一预训练得到的BERT词表示模型,得到句子的文本。
步骤四,对于步骤三得到的句子的文本,使用TextCNN模型进行特征抽取。TextCNN模型是一个由多个感受野的CNN并列组成的层叠模型,可以对句子中的表示对分类有帮助的特征进行很好的抽取,对抽取出的特征进行池化操作后,得到句子最终的分类特征表示。得到的句子分类特征表示,使用SoftMax将句子的类别概率归一化,得到句子最终所属的类别。
在一些说明性实施例中,所述S1中使用未标注中文文本训练BERT模型,得到所述中文文本的语义文件,构成了预训练好的词表示BERT模型。
在一些说明性实施例中,所述文本的语义为句子的语义文件。
在一些说明性实施例中,所述经卷积神经网络处理的过程包括:
将所述文本的语义文件经卷积层处理得到特征图;
将所述特征图输入池化层,经最大池化处理得到词向量并将所述词向量串联成特征向量;
将所述特征向量输入softmax层进行归一化处理得到所述语义文件中的句子的类别标签。
图2,显示了BERT词表示模型中,每一个字的表示的组成成分。每一个字的表示由Token Embedding、Segment Embedding、Position Embedding三个部分相加得到。其中Token Embedding是一个简答的查表操作,Segment Embedding表示该词语所属的句子,Position Embedding是对该字在句子中对应的位置的信息,也是一个查表操作。
图3,显示了BERT词表示模型的结构。BERT模型是由双向Transformer组成的一个特征抽取模型。图中E表示字的embedding,T表示经过BERT编码后每个字的新的特征表示,Trm表示Transformer特征抽取器。在训练中使用masked language model,随机mask输入中的一些tokens,然后在预训练中对它们进行预测,并增加句子级别的任务,next sentenceprediction,随机替换一些句子,然后利用上一句进行IsNext/NotNext的预测。通过这两项任务,使用大规模的无标注语料对词的三种表示进行优化,得到预训练好的BERT词表示模型。
图4,显示了TextCNN文本分类器的结构。TextCNN由多个不同卷积层并列组成。通过多个大小不同的卷积核进行计算,使用多个大小不同的有利于句子语义特征和句型特征的提取;池化层对卷积后的结果进行池化操作,提取卷积计算后最重要的特征;输出层则利用池化层的结果,得到文本的最终文本类别。
如图5所示,一种基于迁移学习的文本分类装置,包括:
预训练模块100,用于使用未标注的文本训练BERT模型,得到预训练好的词表示BERT模型;
预处理模块200,用于过滤所述待分类的文本中的链接、转发符号以及用户名的内容;
文本训练模块300,用于将过滤后的所述文本再次输入所述预训练模块中训练好的所述词表示BERT模型,得到文本的语义;
计算分类模块400,用于将所述文本的语义文件输入卷积神经网络处理,得到所述语义文件中的句子的类别标签。
在一些说明性实施例中,所述预训练模块100中使用无标注中文文本训练BERT模型,得到所述中文文本的语义表示,构成了预训练好的词表示BERT模型。
在一些说明性实施例中,所述文本的表示为句子的语义文件。
在一些说明性实施例中,所述计算分类模块400中
所述经卷积神经网络处理的过程包括:
将所述文本的语义文件经卷积层处理得到特征图;
将所述特征图输入池化层,经最大池化处理得到词向量并将所述词向量串联成特征向量;
将所述特征向量输入softmax层进行归一化处理得到所述语义文件中的句子的类别标签。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (8)
1.一种基于迁移学习的文本分类方法,其特征在于,包括:
S1:使用未标注的文本训练BERT模型,得到预训练好的词表示BERT模型;
S2:过滤所述待分类的文本中的链接、转发符号以及用户名的内容;
S3:将过滤后的所述文本输入所述S1中训练好的所述词表示BERT模型,得到文本的语义文件;
S4:将所述文本的语义文件输入卷积神经网络处理,得到所述语义文件中的句子的类别标签。
2.根据权利要求1所述的基于迁移学习的文本分类方法,其特征在于,所述S1中使用未标注中文文本训练BERT模型,得到所述中文文本的语义文件,构成了预训练好的词表示BERT模型。
3.根据权利要求1所述的基于迁移学习的文本分类方法,其特征在于,所述文本的语义为句子的语义文件。
4.根据权利要求1所述的基于迁移学习的文本分类方法,其特征在于,所述经卷积神经网络处理的过程包括:
将所述文本的语义文件经卷积层处理得到特征图;
将所述特征图输入池化层,经最大池化处理得到词向量并将所述词向量串联成特征向量;
将所述特征向量输入softmax层进行归一化处理得到所述语义文件中的句子的类别标签。
5.一种基于迁移学习的文本分类装置,其特征在于,包括:
预训练模块,用于使用未标注的文本训练BERT模型,得到预训练好的词表示BERT模型;
预处理模块,用于过滤所述待分类的文本中的链接、转发符号以及用户名的内容;
文本训练模块,用于将过滤后的所述文本再次输入所述预训练模块中训练好的所述词表示BERT模型,得到文本的语义;
计算分类模块,用于将所述文本的语义文件输入卷积神经网络处理,得到所述语义文件中的句子的类别标签。
6.根据权利要求5所述的基于迁移学习的文本分类装置,其特征在于,所述预训练模块中使用无标注中文文本训练BERT模型,得到所述中文文本的语义表示,构成了预训练好的词表示BERT模型。
7.根据权利要求5所述的基于迁移学习的文本分类装置,其特征在于,所述文本的语义为句子的语义文件。
8.根据权利要求5所述的基于迁移学习的文本分类装置,其特征在于,所述计算分类模块中所述经卷积神经网络处理的过程包括:
将所述文本的语义文件经卷积层处理得到特征图;
将所述特征图输入池化层,经最大池化处理得到词向量并将所述词向量串联成特征向量;
将所述特征向量输入softmax层进行归一化处理得到所述语义文件中的句子的类别标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910101012.6A CN109710770A (zh) | 2019-01-31 | 2019-01-31 | 一种基于迁移学习的文本分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910101012.6A CN109710770A (zh) | 2019-01-31 | 2019-01-31 | 一种基于迁移学习的文本分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109710770A true CN109710770A (zh) | 2019-05-03 |
Family
ID=66264075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910101012.6A Pending CN109710770A (zh) | 2019-01-31 | 2019-01-31 | 一种基于迁移学习的文本分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109710770A (zh) |
Cited By (48)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188926A (zh) * | 2019-05-10 | 2019-08-30 | 重庆天蓬网络有限公司 | 一种订单信息预测系统和方法 |
CN110196909A (zh) * | 2019-05-14 | 2019-09-03 | 北京来也网络科技有限公司 | 基于强化学习的文本去噪方法及装置 |
CN110264997A (zh) * | 2019-05-30 | 2019-09-20 | 北京百度网讯科技有限公司 | 语音断句的方法、装置和存储介质 |
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN110309306A (zh) * | 2019-06-19 | 2019-10-08 | 淮阴工学院 | 一种基于wsd层级记忆网络的文档建模分类方法 |
CN110321562A (zh) * | 2019-06-28 | 2019-10-11 | 广州探迹科技有限公司 | 一种基于bert的短文本匹配方法及装置 |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN110377714A (zh) * | 2019-07-18 | 2019-10-25 | 泰康保险集团股份有限公司 | 基于迁移学习的文本匹配方法、装置、介质及设备 |
CN110413785A (zh) * | 2019-07-25 | 2019-11-05 | 淮阴工学院 | 一种基于bert和特征融合的文本自动分类方法 |
CN110427627A (zh) * | 2019-08-02 | 2019-11-08 | 北京百度网讯科技有限公司 | 基于语义表示模型的任务处理方法和装置 |
CN110489521A (zh) * | 2019-07-15 | 2019-11-22 | 北京三快在线科技有限公司 | 文本类别检测方法、装置、电子设备和计算机可读介质 |
CN110489548A (zh) * | 2019-07-12 | 2019-11-22 | 北京邮电大学 | 一种基于语义、时间和社交关系的中文微博话题检测方法及系统 |
CN110532380A (zh) * | 2019-07-12 | 2019-12-03 | 杭州电子科技大学 | 一种基于记忆网络的文本情感分类方法 |
CN110543561A (zh) * | 2019-08-15 | 2019-12-06 | 阿里巴巴集团控股有限公司 | 对文本进行情感分析的方法及装置 |
CN110543242A (zh) * | 2019-07-25 | 2019-12-06 | 北京智慧章鱼科技有限公司 | 基于bert技术的表情输入法及其装置 |
CN110580287A (zh) * | 2019-08-20 | 2019-12-17 | 北京亚鸿世纪科技发展有限公司 | 基于迁移学习和on-lstm的情感分类方法 |
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN110728153A (zh) * | 2019-10-15 | 2020-01-24 | 天津理工大学 | 基于模型融合的多类别情感分类方法 |
CN110781672A (zh) * | 2019-10-30 | 2020-02-11 | 北京爱学习博乐教育科技有限公司 | 基于机器智能的题库生产方法及系统 |
CN110795559A (zh) * | 2019-10-10 | 2020-02-14 | 上海易点时空网络有限公司 | 用于客服问答的数据处理方法及装置 |
CN110825874A (zh) * | 2019-10-29 | 2020-02-21 | 北京明略软件系统有限公司 | 一种中文文本分类方法和装置及计算机可读存储介质 |
CN110866539A (zh) * | 2019-10-10 | 2020-03-06 | 天津大学 | 基于多迁移学习策略hpv疫苗接种态度的情感分析模型 |
CN110991535A (zh) * | 2019-12-04 | 2020-04-10 | 中山大学 | 一种基于多类型医学数据的pCR预测方法 |
CN111027737A (zh) * | 2019-10-16 | 2020-04-17 | 平安科技(深圳)有限公司 | 基于大数据的职业兴趣预测方法、装置、设备及存储介质 |
CN111078886A (zh) * | 2019-12-18 | 2020-04-28 | 成都迪普曼林信息技术有限公司 | 基于dmcnn的特殊事件提取系统 |
CN111104516A (zh) * | 2020-02-10 | 2020-05-05 | 支付宝(杭州)信息技术有限公司 | 一种文本分类方法、装置及电子设备 |
CN111177380A (zh) * | 2019-12-21 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种意图数据质检方法及系统 |
CN111414520A (zh) * | 2020-03-19 | 2020-07-14 | 南京莱斯网信技术研究院有限公司 | 一种舆情信息中敏感信息的智能挖掘系统 |
CN111460820A (zh) * | 2020-03-06 | 2020-07-28 | 中国科学院信息工程研究所 | 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置 |
CN111563143A (zh) * | 2020-07-20 | 2020-08-21 | 上海二三四五网络科技有限公司 | 一种新词的确定方法及装置 |
CN111601314A (zh) * | 2020-05-27 | 2020-08-28 | 北京亚鸿世纪科技发展有限公司 | 预训练模型加短信地址双重判定不良短信的方法和装置 |
CN111651986A (zh) * | 2020-04-28 | 2020-09-11 | 银江股份有限公司 | 事件关键词提取方法、装置、设备及介质 |
CN111723203A (zh) * | 2020-06-15 | 2020-09-29 | 苏州意能通信息技术有限公司 | 一种基于终生学习的文本分类方法 |
CN111797229A (zh) * | 2020-06-10 | 2020-10-20 | 南京擎盾信息科技有限公司 | 文本表示方法、装置和文本分类方法 |
CN112052331A (zh) * | 2019-06-06 | 2020-12-08 | 武汉Tcl集团工业研究院有限公司 | 一种处理文本信息的方法及终端 |
WO2020252950A1 (zh) * | 2019-06-17 | 2020-12-24 | 五邑大学 | 基于预训练模型和微调技术的医疗文本命名实体识别方法 |
CN112201339A (zh) * | 2019-07-08 | 2021-01-08 | 四川大学华西医院 | 一种精神医学辅助诊断系统 |
CN112559750A (zh) * | 2020-12-21 | 2021-03-26 | 珠海格力电器股份有限公司 | 文本数据的分类方法、装置、非易失性存储介质、处理器 |
CN112632271A (zh) * | 2019-10-08 | 2021-04-09 | 中国移动通信集团浙江有限公司 | 文本分类服务部署方法、装置、设备及计算机存储介质 |
WO2021081945A1 (zh) * | 2019-10-31 | 2021-05-06 | 深圳市欢太科技有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN112905794A (zh) * | 2021-02-24 | 2021-06-04 | 珠海高凌信息科技股份有限公司 | 基于迁移学习的互联网垃圾信息检测方法及系统 |
CN112990388A (zh) * | 2021-05-17 | 2021-06-18 | 成都数联铭品科技有限公司 | 基于概念词的文本聚类方法 |
CN112990345A (zh) * | 2021-04-09 | 2021-06-18 | 北京有竹居网络技术有限公司 | 书写质量评价方法、装置和电子设备 |
CN113011533A (zh) * | 2021-04-30 | 2021-06-22 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN114357168A (zh) * | 2021-12-31 | 2022-04-15 | 成都信息工程大学 | 一种文本分类方法 |
CN115221873A (zh) * | 2022-09-20 | 2022-10-21 | 深圳大道云科技有限公司 | 输入词汇的补全方法、装置、设备及存储介质 |
CN115329069A (zh) * | 2022-06-10 | 2022-11-11 | 黑龙江省网络空间研究中心 | 基于bert无监督文本分类的舆情分析方法和系统 |
CN112307769B (zh) * | 2019-07-29 | 2024-03-15 | 武汉Tcl集团工业研究院有限公司 | 一种自然语言模型的生成方法和计算机设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
WO2019012908A1 (ja) * | 2017-07-13 | 2019-01-17 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答装置 |
-
2019
- 2019-01-31 CN CN201910101012.6A patent/CN109710770A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105740349A (zh) * | 2016-01-25 | 2016-07-06 | 重庆邮电大学 | 一种结合Doc2vec和卷积神经网络的情感分类方法 |
CN107038480A (zh) * | 2017-05-12 | 2017-08-11 | 东华大学 | 一种基于卷积神经网络的文本情感分类方法 |
WO2019012908A1 (ja) * | 2017-07-13 | 2019-01-17 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答装置 |
Non-Patent Citations (2)
Title |
---|
XIAYTO: "词向量经典模型:从word2vec、glove、ELMo到BERT", 《HTTPS://BLOG.CSDN.NET/XIAYTO/ARTICLE/DETAILS/84730009》 * |
修炼打怪的小乌龟: "文本处理——基于word2vec和CNN的文本分类", 《HTTPS://BLOG.CSDN.NET/U010417185/ARTICLE/DETAILS/80649356?UTM_MEDIUM=DISTRIBUTE.PC_RELEVANT_T0.NONE-TASK-BLOG-BLOGCOMMENDFROMMACHINELEARNPAI2-1.NONECASE》 * |
Cited By (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110188926B (zh) * | 2019-05-10 | 2020-11-13 | 重庆天蓬网络有限公司 | 一种订单信息预测系统和方法 |
CN110188926A (zh) * | 2019-05-10 | 2019-08-30 | 重庆天蓬网络有限公司 | 一种订单信息预测系统和方法 |
CN110196909B (zh) * | 2019-05-14 | 2022-05-31 | 北京来也网络科技有限公司 | 基于强化学习的文本去噪方法及装置 |
CN110196909A (zh) * | 2019-05-14 | 2019-09-03 | 北京来也网络科技有限公司 | 基于强化学习的文本去噪方法及装置 |
CN110264997A (zh) * | 2019-05-30 | 2019-09-20 | 北京百度网讯科技有限公司 | 语音断句的方法、装置和存储介质 |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN112052331A (zh) * | 2019-06-06 | 2020-12-08 | 武汉Tcl集团工业研究院有限公司 | 一种处理文本信息的方法及终端 |
WO2020252950A1 (zh) * | 2019-06-17 | 2020-12-24 | 五邑大学 | 基于预训练模型和微调技术的医疗文本命名实体识别方法 |
CN110309306A (zh) * | 2019-06-19 | 2019-10-08 | 淮阴工学院 | 一种基于wsd层级记忆网络的文档建模分类方法 |
CN110321562A (zh) * | 2019-06-28 | 2019-10-11 | 广州探迹科技有限公司 | 一种基于bert的短文本匹配方法及装置 |
CN110287494A (zh) * | 2019-07-01 | 2019-09-27 | 济南浪潮高新科技投资发展有限公司 | 一种基于深度学习bert算法的短文本相似匹配的方法 |
CN112201339A (zh) * | 2019-07-08 | 2021-01-08 | 四川大学华西医院 | 一种精神医学辅助诊断系统 |
CN110532380A (zh) * | 2019-07-12 | 2019-12-03 | 杭州电子科技大学 | 一种基于记忆网络的文本情感分类方法 |
CN110489548A (zh) * | 2019-07-12 | 2019-11-22 | 北京邮电大学 | 一种基于语义、时间和社交关系的中文微博话题检测方法及系统 |
CN110489521A (zh) * | 2019-07-15 | 2019-11-22 | 北京三快在线科技有限公司 | 文本类别检测方法、装置、电子设备和计算机可读介质 |
CN110377714A (zh) * | 2019-07-18 | 2019-10-25 | 泰康保险集团股份有限公司 | 基于迁移学习的文本匹配方法、装置、介质及设备 |
CN110543242A (zh) * | 2019-07-25 | 2019-12-06 | 北京智慧章鱼科技有限公司 | 基于bert技术的表情输入法及其装置 |
CN110413785A (zh) * | 2019-07-25 | 2019-11-05 | 淮阴工学院 | 一种基于bert和特征融合的文本自动分类方法 |
CN110543242B (zh) * | 2019-07-25 | 2023-07-04 | 北京智慧章鱼科技有限公司 | 基于bert技术的表情输入法及其装置 |
CN110413785B (zh) * | 2019-07-25 | 2021-10-19 | 淮阴工学院 | 一种基于bert和特征融合的文本自动分类方法 |
CN112307769B (zh) * | 2019-07-29 | 2024-03-15 | 武汉Tcl集团工业研究院有限公司 | 一种自然语言模型的生成方法和计算机设备 |
CN110427627B (zh) * | 2019-08-02 | 2023-04-28 | 北京百度网讯科技有限公司 | 基于语义表示模型的任务处理方法和装置 |
CN110427627A (zh) * | 2019-08-02 | 2019-11-08 | 北京百度网讯科技有限公司 | 基于语义表示模型的任务处理方法和装置 |
CN110543561A (zh) * | 2019-08-15 | 2019-12-06 | 阿里巴巴集团控股有限公司 | 对文本进行情感分析的方法及装置 |
CN110580287A (zh) * | 2019-08-20 | 2019-12-17 | 北京亚鸿世纪科技发展有限公司 | 基于迁移学习和on-lstm的情感分类方法 |
CN110598213A (zh) * | 2019-09-06 | 2019-12-20 | 腾讯科技(深圳)有限公司 | 一种关键词提取方法、装置、设备及存储介质 |
CN112632271A (zh) * | 2019-10-08 | 2021-04-09 | 中国移动通信集团浙江有限公司 | 文本分类服务部署方法、装置、设备及计算机存储介质 |
CN110866539A (zh) * | 2019-10-10 | 2020-03-06 | 天津大学 | 基于多迁移学习策略hpv疫苗接种态度的情感分析模型 |
CN110795559A (zh) * | 2019-10-10 | 2020-02-14 | 上海易点时空网络有限公司 | 用于客服问答的数据处理方法及装置 |
CN110728153A (zh) * | 2019-10-15 | 2020-01-24 | 天津理工大学 | 基于模型融合的多类别情感分类方法 |
CN111027737A (zh) * | 2019-10-16 | 2020-04-17 | 平安科技(深圳)有限公司 | 基于大数据的职业兴趣预测方法、装置、设备及存储介质 |
CN111027737B (zh) * | 2019-10-16 | 2024-02-09 | 平安科技(深圳)有限公司 | 基于大数据的职业兴趣预测方法、装置、设备及存储介质 |
CN110825874A (zh) * | 2019-10-29 | 2020-02-21 | 北京明略软件系统有限公司 | 一种中文文本分类方法和装置及计算机可读存储介质 |
CN110781672B (zh) * | 2019-10-30 | 2024-01-30 | 北京爱学习博乐教育科技有限公司 | 基于机器智能的题库生产方法及系统 |
CN110781672A (zh) * | 2019-10-30 | 2020-02-11 | 北京爱学习博乐教育科技有限公司 | 基于机器智能的题库生产方法及系统 |
WO2021081945A1 (zh) * | 2019-10-31 | 2021-05-06 | 深圳市欢太科技有限公司 | 一种文本分类方法、装置、电子设备及存储介质 |
CN110991535A (zh) * | 2019-12-04 | 2020-04-10 | 中山大学 | 一种基于多类型医学数据的pCR预测方法 |
CN111078886A (zh) * | 2019-12-18 | 2020-04-28 | 成都迪普曼林信息技术有限公司 | 基于dmcnn的特殊事件提取系统 |
CN111177380A (zh) * | 2019-12-21 | 2020-05-19 | 厦门快商通科技股份有限公司 | 一种意图数据质检方法及系统 |
CN111104516B (zh) * | 2020-02-10 | 2023-07-04 | 支付宝(杭州)信息技术有限公司 | 一种文本分类方法、装置及电子设备 |
CN111104516A (zh) * | 2020-02-10 | 2020-05-05 | 支付宝(杭州)信息技术有限公司 | 一种文本分类方法、装置及电子设备 |
CN111460820A (zh) * | 2020-03-06 | 2020-07-28 | 中国科学院信息工程研究所 | 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置 |
CN111460820B (zh) * | 2020-03-06 | 2022-06-17 | 中国科学院信息工程研究所 | 一种基于预训练模型bert的网络空间安全领域命名实体识别方法和装置 |
CN111414520B (zh) * | 2020-03-19 | 2021-03-19 | 南京莱斯网信技术研究院有限公司 | 一种舆情信息中敏感信息的智能挖掘系统 |
CN111414520A (zh) * | 2020-03-19 | 2020-07-14 | 南京莱斯网信技术研究院有限公司 | 一种舆情信息中敏感信息的智能挖掘系统 |
CN111651986A (zh) * | 2020-04-28 | 2020-09-11 | 银江股份有限公司 | 事件关键词提取方法、装置、设备及介质 |
CN111651986B (zh) * | 2020-04-28 | 2024-04-02 | 银江技术股份有限公司 | 事件关键词提取方法、装置、设备及介质 |
CN111601314A (zh) * | 2020-05-27 | 2020-08-28 | 北京亚鸿世纪科技发展有限公司 | 预训练模型加短信地址双重判定不良短信的方法和装置 |
CN111601314B (zh) * | 2020-05-27 | 2023-04-28 | 北京亚鸿世纪科技发展有限公司 | 预训练模型加短信地址双重判定不良短信的方法和装置 |
CN111797229A (zh) * | 2020-06-10 | 2020-10-20 | 南京擎盾信息科技有限公司 | 文本表示方法、装置和文本分类方法 |
CN111723203A (zh) * | 2020-06-15 | 2020-09-29 | 苏州意能通信息技术有限公司 | 一种基于终生学习的文本分类方法 |
CN111563143A (zh) * | 2020-07-20 | 2020-08-21 | 上海二三四五网络科技有限公司 | 一种新词的确定方法及装置 |
CN111563143B (zh) * | 2020-07-20 | 2020-11-03 | 上海二三四五网络科技有限公司 | 一种新词的确定方法及装置 |
CN112559750A (zh) * | 2020-12-21 | 2021-03-26 | 珠海格力电器股份有限公司 | 文本数据的分类方法、装置、非易失性存储介质、处理器 |
CN112905794A (zh) * | 2021-02-24 | 2021-06-04 | 珠海高凌信息科技股份有限公司 | 基于迁移学习的互联网垃圾信息检测方法及系统 |
CN112990345A (zh) * | 2021-04-09 | 2021-06-18 | 北京有竹居网络技术有限公司 | 书写质量评价方法、装置和电子设备 |
WO2022227207A1 (zh) * | 2021-04-30 | 2022-11-03 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN113011533A (zh) * | 2021-04-30 | 2021-06-22 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN113011533B (zh) * | 2021-04-30 | 2023-10-24 | 平安科技(深圳)有限公司 | 文本分类方法、装置、计算机设备和存储介质 |
CN112990388A (zh) * | 2021-05-17 | 2021-06-18 | 成都数联铭品科技有限公司 | 基于概念词的文本聚类方法 |
CN112990388B (zh) * | 2021-05-17 | 2021-08-24 | 成都数联铭品科技有限公司 | 基于概念词的文本聚类方法 |
CN114357168A (zh) * | 2021-12-31 | 2022-04-15 | 成都信息工程大学 | 一种文本分类方法 |
CN114357168B (zh) * | 2021-12-31 | 2022-08-02 | 成都信息工程大学 | 一种文本分类方法 |
CN115329069A (zh) * | 2022-06-10 | 2022-11-11 | 黑龙江省网络空间研究中心 | 基于bert无监督文本分类的舆情分析方法和系统 |
CN115329069B (zh) * | 2022-06-10 | 2023-10-13 | 黑龙江省网络空间研究中心 | 基于bert无监督文本分类的舆情分析方法和系统 |
CN115221873B (zh) * | 2022-09-20 | 2023-01-17 | 深圳大道云科技有限公司 | 输入词汇的补全方法、装置、设备及存储介质 |
CN115221873A (zh) * | 2022-09-20 | 2022-10-21 | 深圳大道云科技有限公司 | 输入词汇的补全方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109710770A (zh) | 一种基于迁移学习的文本分类方法及装置 | |
CN109933664B (zh) | 一种基于情感词嵌入的细粒度情绪分析改进方法 | |
CN108363743B (zh) | 一种智能问题生成方法、装置和计算机可读存储介质 | |
Dos Santos et al. | Deep convolutional neural networks for sentiment analysis of short texts | |
CN110287323B (zh) | 一种面向目标的情感分类方法 | |
CN110502753A (zh) | 一种基于语义增强的深度学习情感分析模型及其分析方法 | |
CN108536756A (zh) | 基于双语信息的情绪分类方法及系统 | |
CN111858935A (zh) | 一种航班点评的细粒度情感分类系统 | |
CN106446147A (zh) | 一种基于结构化特征的情感分析方法 | |
Huang et al. | Character-level convolutional network for text classification applied to chinese corpus | |
CN110750648A (zh) | 一种基于深度学习和特征融合的文本情感分类方法 | |
CN105975497A (zh) | 微博话题自动推荐方法及装置 | |
CN111339772B (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
CN110472245A (zh) | 一种基于层次化卷积神经网络的多标记情绪强度预测方法 | |
Uddin et al. | Depression analysis of bangla social media data using gated recurrent neural network | |
Nerabie et al. | The impact of Arabic part of speech tagging on sentiment analysis: A new corpus and deep learning approach | |
Sotelo et al. | Gender identification in social media using transfer learning | |
CN113220964B (zh) | 一种基于网信领域短文本的观点挖掘方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN113011154A (zh) | 一种基于深度学习的作业查重方法 | |
Wang et al. | YNU-HPCC at semeval-2018 task 2: Multi-ensemble Bi-GRU model with attention mechanism for multilingual emoji prediction | |
CN115906835B (zh) | 一种基于聚类和对比学习的中文问句文本表示学习的方法 | |
Dutta et al. | Sentiment Analysis on Multilingual Code-Mixed Kannada Language. | |
CN113254590B (zh) | 一种基于多核双层卷积神经网络的中文文本情绪分类方法 | |
CN114817533A (zh) | 基于时间特征的弹幕情感分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190503 |
|
RJ01 | Rejection of invention patent application after publication |