CN113342970B - 一种多标签复杂文本分类方法 - Google Patents

一种多标签复杂文本分类方法 Download PDF

Info

Publication number
CN113342970B
CN113342970B CN202011328247.8A CN202011328247A CN113342970B CN 113342970 B CN113342970 B CN 113342970B CN 202011328247 A CN202011328247 A CN 202011328247A CN 113342970 B CN113342970 B CN 113342970B
Authority
CN
China
Prior art keywords
result
information
input
bert
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011328247.8A
Other languages
English (en)
Other versions
CN113342970A (zh
Inventor
王志鹏
孙力泽
朱西华
邓强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Wanwei Information Technology Co Ltd
Original Assignee
China Telecom Wanwei Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Wanwei Information Technology Co Ltd filed Critical China Telecom Wanwei Information Technology Co Ltd
Priority to CN202011328247.8A priority Critical patent/CN113342970B/zh
Publication of CN113342970A publication Critical patent/CN113342970A/zh
Application granted granted Critical
Publication of CN113342970B publication Critical patent/CN113342970B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及的技术领域为人工智能领域,具体是一种基于Bert对多标签复杂文本分类方法。本发明旨在解决文本在数量多的情况下且类别复杂的文本分类问题。方法步骤包括:a)利用Bert提取文本信息;b)将Bert提取出来信息分别放入Attention和Cnn两个层中继续做特征提取;c)根据结果进行迭代学习。在海量的信息中挑出有效的信息,利用模型提取出其中信息并进行准确分类。

Description

一种多标签复杂文本分类方法
技术领域
本发明涉及的技术领域为人工智能领域,具体是一种基于Bert对多标签复杂文本分类方法。
背景技术
信息爆炸式的发展,人对于无限的信息接收程度是有限的,如何在海量的信息中挑出有效的信息,这就是本发明要解决的问题。文章、短新闻、一句话等等都有其信息,该信息可能是有用的,可能是无用的,也可能隐含着其他信息,如何利用模型提取出其中信息并进行准确分类,这就是急需解决的问题。
深度学习之前常用的方法是通过“关键词词频计算”,“重复出现的句子”等作为辅助来对文本进行分类,这样在某种情况下可以达到很好的分类效果,但是对于专业类文本等是不合理的,因为人在判断这篇文章是否属于哪一类时,是通过意思去理解得出的结论,当然通过上述方法去判断类别是一种高效的方法和简单的策略,但是如果出现歧义问题就无法准确的进行分类,那么这就需要能提取较多信息的模型来帮我们解决该类问题。
基于自然语言处理的Bert模型进行展开。一种基于Bert对多标签复杂文本分类方法。Bert模型与2018年提出,一经提出就在11个NLP任务上刷新了之前的记录,这种现象级表现引爆了自然语言处理行业,成为NLPer必用的工具之一。
Bert模型也就是Transformer的Encoding(编码)部分,Encoding部分的工作原理是把输入到模型的句子进行信息提取,分别提取出原句子字的位置信息部分,段落的位置信息部分,再加上句首的CLS类别标记,两句话之间的SEP句子分割符,通过此数据构造就可以提取出句子级或文章级的信息,接着就可以进行多种NLP下游任务。Bert的损失函数如下:Loss = x - x * z + log(1 + exp(-x))/ n。x:预测值概率、z:真实值、n:样本数量。
现有技术缺陷主要在于以下几个方面:1.数据标注的是否准确,标注人是否按照培训时的要求去做,这个会影响到最后模型的效果。2.需要强劲的硬件支撑,训练费时耗力。
发明内容
本发明的目的旨在解决复杂多类别文本的分类问题,解决人工误分问题,提高工作效率。
一种多标签复杂文本分类方法,其特征在于包括如下步骤:
数据来源于互联网督查平台的留言,将留言处理成bert模型输入的格式, bert标准模型在输入时需要同时输入两个句子,每次只输入一个句子来进行接下来的任务;把数据分别处理成字的高阶向量Token Embeddings,其中CLS是该段句子的类别, SEP是句子结尾处的标记;段落信息的高阶向量Segment Embeddings,数据放入多头注意力机制Mutilate-Head Attention,首先会有q,k,v三个矩阵,这三个矩阵即输入的输入段落转化的高阶向量Input Embedding,三个矩阵分别做随机初始化,q和k矩阵相乘,q*k得出结果r1;得到的结果除以
Figure 729562DEST_PATH_IMAGE001
,其中64为每个头的隐层深度,得到结果r2=r1/
Figure 564925DEST_PATH_IMAGE001
;然后将上步结果带代入公式中
Figure 779875DEST_PATH_IMAGE002
,其中
Figure 384294DEST_PATH_IMAGE003
是第i个节点的输出值,C为节点的个数,∑为连加符号,e是一个无理数,约为2.718281828。得到概率值
Figure 262382DEST_PATH_IMAGE004
,最后得到结果r3=p1*v,多头机制出现的结果r3先进入神经网络得出结果再和未做任何操作的Input Embedding做残差连接,即r3通过concat操作处理Input Embedding,得到r4;
将上述结果在接入到相同的神经网络中得出结果r5=f(wx+b),f为激活函数W为神经网络参数,x为输入值,b为偏置项;
此步结果和上步结果再做残差连接,r5与r4最后再做层归一化layer_normal得到最终输出,将上述步骤重复操作12次。
所述bert模型输出结果分别投入到attention和cnn这两个模块中做信息抽取;cnn模块主要做卷积工作,对bert模型最后一层的输出结果进行信息的不断提取,通过CnnBlock模块通过重复做卷积的方式进行信息抽取,最终的信息用Max pooling和MeanPooling的Concat结果作为信息提取的输出。
本发明旨在解决文本在数量多的情况下且类别复杂的文本分类问题。方法步骤包括:利用Bert提取文本信息、将Bert提取出来信息分别放入Attention和Cnn两个层中继续做特征提取、根据结果进行迭代学习。在海量的信息中挑出有效的信息,利用模型提取出其中信息并进行准确分类。
附图说明
图1为本发明的流程示意图;
图2为本发明处理数据示意图;
图3为本发明数据投入到bert模型示意图;
图4为本发明数据信息抽取示意图;
图5为本发明的模块流程示意图。
具体实施方式
一种多标签复杂文本分类方法,其特征在于包括如下步骤:
数据来源于互联网督查平台的留言,将留言处理成bert模型输入的格式, bert标准模型在输入时需要同时输入两个句子,每次只输入一个句子来进行接下来的任务;把数据分别处理成字的高阶向量Token Embeddings,其中CLS是该段句子的类别, SEP是句子结尾处的标记;段落信息的高阶向量Segment Embeddings,数据放入多头注意力机制Mutilate-Head Attention,首先会有q,k,v三个矩阵,这三个矩阵即输入的输入段落转化的高阶向量Input Embedding,三个矩阵分别做随机初始化,q和k矩阵相乘,q*k得出结果r1;得到的结果除以
Figure 381779DEST_PATH_IMAGE001
,其中64为每个头的隐层深度,得到结果r2=r1/
Figure 541365DEST_PATH_IMAGE001
;然后将上步结果带代入公式中
Figure 62607DEST_PATH_IMAGE002
,其中
Figure 751078DEST_PATH_IMAGE003
是第i个节点的输出值,C为节点的个数,∑为连加符号,e是一个无理数,约为2.718281828,节点处e为
Figure 826612DEST_PATH_IMAGE005
。得到概率值
Figure 743884DEST_PATH_IMAGE004
,最后得到结果r3=p1*v,多头机制出现的结果r3先进入神经网络得出结果再和未做任何操作的Input Embedding做残差连接,即r3通过concat操作处理InputEmbedding,得到r4;
将上述结果在接入到相同的神经网络中得出结果r5=f(wx+b),f为激活函数W为神经网络参数,x为输入值,b为偏置项;
此步结果和上步结果再做残差连接,r5与r4最后再做层归一化layer_normal得到最终输出,将上述步骤重复操作12次。
所述bert模型输出结果分别投入到attention和cnn这两个模块中做信息抽取;cnn模块主要做卷积工作,对bert模型最后一层的输出结果进行信息的不断提取,通过CnnBlock模块通过重复做卷积的方式进行信息抽取,最终的信息用Max pooling和MeanPooling的Concat结果作为信息提取的输出。
其中图1包括如下:
处理数据——将准备好的20类数据,数据来源于互联网督查平台的群众留言,将留言处理成bert模型输入的格式,正常来说,bert标准模型在输入时需要同时输入两个句子,但是我们这回是分类问题,所以每次只输入一个句子来进行接下来的任务。
如图2所示,把数据分别处理成Token Embeddings(字的高阶向量),其中[CLS]是该段句子的类别,[SEP]是句子结尾处的标记;Segment Embeddings(段落信息的高阶向量),存在的意义就在于分辨该句属于哪一句;Position Embedding(字位置的高阶向量),其主要的目的在于确定字的位置信息,保证输入的顺序。还要加入attention_mask(注意力掩码机制),这个掩码机制的作用就是增加字与字之间的联系,这个掩码shape=[batch_size,seq_length,seq_length],seq_length为序列长度,这个矩阵后两位为相同数值的意义在于,让序列中的每个字相互之间存在存在联系,而不是单单只与较近的字存在联系。
就本案例来说本质上做的是分类任务,只需要一句或者一段文字进行描述就可以了,其次作为有监督学习,就需要相应的文本标签,所以label=【CLS】。除了这些信息外,我们还需要确定这段文字是属于哪一段,所以需要Segment Embeddings的存在。当然最重要的就是字的位置信息,因为一段话是有顺序的,如果不幸顺序被打乱了,那么就无法得知这段话表达的正确含义,所以Position Embedding是至关重要的,让机器知道这段文字是以何种顺序进行输入的,同时也为了模型输出时,预测结果将以何种顺序输出做了铺垫。
由于今年关于疫情的话题较多,且疫情期间发生的事情不能简单的归为一类,经过人工筛选后,将疫情问题划分为20个小类,每个类别为了数据尽量的均衡,我采用了同义词进行了数据的增量,保证了样本均衡。
将数据投入到bert模型中——数据处理完毕,输入到模型中,模型的结构如图4,数据放入Mutilate-Head Attention(多头注意力机制),多头注意力运作的机制是这样的,首先会有q,k,v三个矩阵,这三个矩阵即输入的Input Embedding(输入段落转化的高阶向量),不同的是,三个矩阵分别做了随机初始化,让本来三个相同的矩阵稍显不同。
“我是谁”--> Input Embedding,将文字转化为高维向量
q,k,v --> Input Embedding做随机初始化的结果
在Mutilate-Head Attention(多头注意力机制)中每个Head主要做了这几件事:
q和k矩阵相乘,q*k得出结果r1;
得到的结果除以
Figure 791737DEST_PATH_IMAGE006
(64为每个头的隐层深度),得到结果r2=r1/
Figure 277207DEST_PATH_IMAGE006
;
然后将上步结果带到softmax中
Figure 72993DEST_PATH_IMAGE007
,其中
Figure 934901DEST_PATH_IMAGE008
是第i个节点的输出值,C为节点的个数,得到概率值p1*v矩阵相乘得到结果r3;
多头机制出现的结果r3先进入神经网络得出结果再和未做任何操作的InputEmbedding做残差连接,即r3+Input Embedding(“+”为concat操作),得到r4;
将上述结果在接入到相同的神经网络中得出结果r5=f(wx+b),f为激活函数,W为神经网络参数,x为输入值,b为偏置项。此步结果和上步结果再做残差连接,r5+r4最后再做layer_normal得到最终输出。以上步骤重复12次。
如图4所示把bert模型输出结果分别投入到attention和cnn这两个特定模块中做信息的进一步抽取,
cnn模块:如上图4所示,该模块主要做卷积工作,对bert模型最后一层的输出结果进行信息的不断提取。尤其是Cnn Block模块通过重复做卷积的方式进行信息抽取,最终的信息用Max pooling和Mean Pooling的Concat结果作为信息提取的输出。
工作流程:
输入为bert模型最后一层的结果,先做一次卷积,f1 = wx+b;
卷积后做batch normalize操作,然后再加上一个bias,f2 = batch_f(f1+b);
再做激活得到的结果放入CnnBlock中进行多轮卷积操作,f3 = [i*(f(f2)) fori in times];
将卷积后的结果和CNNBlock的结果做残差连接,f5 = f4+Output2;
取该结果的Mean pooling和Max pooling然后相加作为最后的输出结果。f6 =Mean(f5) + Max(f6);
attention模块:该模块的目的很明确,保证全面性。模块输入是Bert模型的最后一层结果和首个位置的信息,既[CLS]。Cnn模块抽取的是整个的信息,attention模块的目的就是找到字与字之间的信息,这样有了两种信息,信息就会更全面,让分类效果更好。
模块流程如下:
输入为Bert模型最后一层的结果和第一个位置的结果即[CLS];
先做一次tanh的激活,L1 = tanh(last_layer_result);
激活后做一次卷积后再softmax一下得到各个字的概率α = softmax(f(w*L1+b));
该权重再和最后一层的输出结果相乘;
再进入卷积提取最终的信息;
求损失,继续迭代学习。
名词解释
BatchSize:即批量大小,每次训练传入模型的数据数量;
Dropout:即随机失效,防止过拟合的常见方法;
Adam:即一种优化算法,基于训练数据迭代地更新模型权重;
Tanh:双曲正切,神经网络的激活函数;
Relu:即修正线性单元,常用在神经网络激活层;
Encoding:解码部分;
Mutilate-Head Attention:多头注意力机制;
随机初始化:对参数选取初始值;
Max pooling:保留卷积中的最大特征值,抛弃其他特征值;
Mean pooling:取特征值的平均值作为池化后的特征值;
Attention: 注意力机制;
Cnn: 卷积神经网络;
layer_normal:层归一化;
Concat: 拼接,将两种不同的信息组合到一起,成为复合信息。

Claims (2)

1.一种多标签复杂文本分类方法,其特征在于包括如下步骤:
数据来源于互联网督查平台的留言,将留言处理成bert模型输入的格式,bert标准模型在输入时需要同时输入两个句子,每次只输入一个句子来进行接下来的任务;把数据分别处理成字的高阶向量Token Embeddings,其中CLS是该段句子的类别, SEP是句子结尾处的标记;段落信息的高阶向量Segment Embeddings,数据放入多头注意力机制Mutilate-Head Attention,首先会有q,k,v三个矩阵,这三个矩阵即输入的输入段落转化的高阶向量Input Embedding,三个矩阵分别做随机初始化,q和k矩阵相乘,q*k得出结果r1;得到的结果除以
Figure 866460DEST_PATH_IMAGE001
,其中64为每个头的隐层深度,得到结果r2=r1/
Figure 12402DEST_PATH_IMAGE001
;然后将上步结果带代入公式中
Figure 623512DEST_PATH_IMAGE002
,其中
Figure 259024DEST_PATH_IMAGE003
是第i个节点的输出值,C为节点的个数,∑为连加符号,e是一个无理数,约为2.718281828;得到概率值
Figure 276789DEST_PATH_IMAGE004
,最后得到结果r3=p1*v,多头机制出现的结果r3先进入神经网络得出结果再和未做任何操作的InputEmbedding做残差连接,即r3通过concat操作处理Input Embedding,得到r4;
将上述结果在接入到相同的神经网络中得出结果r5=f(wx+b),f为激活函数W为神经网络参数,x为输入值,b为偏置项;
此步结果和上步结果再做残差连接,r5与r4最后再做层归一化layer_normal得到最终输出,将上述步骤重复操作12次。
2. 根据权利要求1所述的一种多标签复杂文本分类方法,其特征在于所述bert模型输出结果分别投入到attention和cnn这两个模块中做信息抽取;cnn模块主要做卷积工作,对bert模型最后一层的输出结果进行信息的不断提取,通过Cnn Block模块通过重复做卷积的方式进行信息抽取,最终的信息用Max pooling和Mean Pooling的Concat结果作为信息提取的输出。
CN202011328247.8A 2020-11-24 2020-11-24 一种多标签复杂文本分类方法 Active CN113342970B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011328247.8A CN113342970B (zh) 2020-11-24 2020-11-24 一种多标签复杂文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011328247.8A CN113342970B (zh) 2020-11-24 2020-11-24 一种多标签复杂文本分类方法

Publications (2)

Publication Number Publication Date
CN113342970A CN113342970A (zh) 2021-09-03
CN113342970B true CN113342970B (zh) 2023-01-03

Family

ID=77467564

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011328247.8A Active CN113342970B (zh) 2020-11-24 2020-11-24 一种多标签复杂文本分类方法

Country Status (1)

Country Link
CN (1) CN113342970B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200209A (zh) * 2014-08-29 2014-12-10 南京烽火星空通信发展有限公司 一种图像文字检测方法
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN108241610A (zh) * 2016-12-26 2018-07-03 上海神计信息系统工程有限公司 一种文本流的在线主题检测方法和系统
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法
CN111309918A (zh) * 2020-03-17 2020-06-19 湖南大学 一种基于标签关联性的多标签文本分类方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015219840A (ja) * 2014-05-20 2015-12-07 国立研究開発法人科学技術振興機構 情報処理装置、情報処理方法、および、プログラム
CN108846017A (zh) * 2018-05-07 2018-11-20 国家计算机网络与信息安全管理中心 基于Bi-GRU和字向量的大规模新闻文本的端到端分类方法
CN111368536A (zh) * 2018-12-07 2020-07-03 北京三星通信技术研究有限公司 自然语言处理方法及其设备和存储介质
CN111694949B (zh) * 2019-03-14 2023-12-05 京东科技控股股份有限公司 一种多文本分类方法和装置
CN110297870B (zh) * 2019-05-30 2022-08-30 南京邮电大学 一种金融领域中文新闻标题情感分类方法
CN110210037B (zh) * 2019-06-12 2020-04-07 四川大学 面向循证医学领域的类别检测方法
CN110209824B (zh) * 2019-06-13 2021-06-22 中国科学院自动化研究所 基于组合模型的文本情感分析方法、系统、装置
JP7041281B2 (ja) * 2019-07-04 2022-03-23 浙江大学 ディープニューラルネットワークモデルに基づくアドレス情報特徴抽出方法
CN110532386A (zh) * 2019-08-12 2019-12-03 新华三大数据技术有限公司 文本情感分类方法、装置、电子设备及存储介质
CN110457585B (zh) * 2019-08-13 2023-11-07 腾讯科技(深圳)有限公司 负面文本的推送方法、装置、系统及计算机设备
CN110580288B (zh) * 2019-08-23 2022-09-09 腾讯科技(深圳)有限公司 基于人工智能的文本分类方法和装置
CN110569508A (zh) * 2019-09-10 2019-12-13 重庆邮电大学 融合词性和自注意力机制的情感倾向性分类方法及系统
CN110851596B (zh) * 2019-10-11 2023-06-27 平安科技(深圳)有限公司 文本分类方法、装置及计算机可读存储介质
CN111177376B (zh) * 2019-12-17 2023-08-15 东华大学 一种基于bert与cnn层级连接的中文文本分类方法
CN111475642A (zh) * 2020-02-29 2020-07-31 新华三大数据技术有限公司 一种文本分类方法、装置及模型训练方法
CN111680131B (zh) * 2020-06-22 2022-08-12 平安银行股份有限公司 基于语义的文档聚类方法、系统及计算机设备
CN111554268B (zh) * 2020-07-13 2020-11-03 腾讯科技(深圳)有限公司 基于语言模型的语言识别方法、文本分类方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200209A (zh) * 2014-08-29 2014-12-10 南京烽火星空通信发展有限公司 一种图像文字检测方法
CN108241610A (zh) * 2016-12-26 2018-07-03 上海神计信息系统工程有限公司 一种文本流的在线主题检测方法和系统
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法
CN109582789A (zh) * 2018-11-12 2019-04-05 北京大学 基于语义单元信息的文本多标签分类方法
CN109543183A (zh) * 2018-11-16 2019-03-29 西安交通大学 基于深度神经网络和标注策略的多标签实体-关系联合提取方法
CN111309918A (zh) * 2020-03-17 2020-06-19 湖南大学 一种基于标签关联性的多标签文本分类方法

Also Published As

Publication number Publication date
CN113342970A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
US11631007B2 (en) Method and device for text-enhanced knowledge graph joint representation learning
CN112487203B (zh) 一种融入动态词向量的关系抽取系统
CN112231562B (zh) 一种网络谣言识别方法及系统
CN111767725B (zh) 一种基于情感极性分析模型的数据处理方法及装置
CN108363816A (zh) 基于句义结构模型的开放式实体关系抽取方法
CN106294322A (zh) 一种基于lstm的汉语零指代消解方法
CN112069831B (zh) 基于bert模型和增强混合神经网络的不实信息检测方法
CN109657230A (zh) 融合词向量和词性向量的命名实体识别方法及装置
CN113312501A (zh) 基于知识图谱的安全知识自助查询系统的构建方法及装置
CN107944014A (zh) 一种基于深度学习的中文文本情感分析方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN113315789B (zh) 一种基于多级联合网络的Web攻击检测方法及系统
CN113268974B (zh) 多音字发音标注方法、装置、设备及存储介质
CN110717330A (zh) 基于深度学习的词句级短文本分类方法
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及系统
CN114564563A (zh) 一种基于关系分解的端到端实体关系联合抽取方法及系统
CN115687609A (zh) 一种基于Prompt多模板融合的零样本关系抽取方法
CN111353032B (zh) 面向社区问答的问题分类方法及系统
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统
CN113342970B (zh) 一种多标签复杂文本分类方法
CN116070620A (zh) 一种基于大数据的信息处理方法及系统
CN110472243B (zh) 一种中文拼写检查方法
CN114707508A (zh) 基于图结构的多跳邻居信息融合的事件检测方法
CN114021658A (zh) 一种命名实体识别模型的训练方法、应用方法及其系统
CN114386425A (zh) 用于对自然语言文本内容进行处理的大数据体系建立方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant