CN116205221A - 实体识别和文本分类的方法、存储介质和计算机设备 - Google Patents
实体识别和文本分类的方法、存储介质和计算机设备 Download PDFInfo
- Publication number
- CN116205221A CN116205221A CN202310497375.2A CN202310497375A CN116205221A CN 116205221 A CN116205221 A CN 116205221A CN 202310497375 A CN202310497375 A CN 202310497375A CN 116205221 A CN116205221 A CN 116205221A
- Authority
- CN
- China
- Prior art keywords
- text
- neural network
- network model
- entity
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000003062 neural network model Methods 0.000 claims abstract description 95
- 238000002372 labelling Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 3
- 238000013528 artificial neural network Methods 0.000 claims 1
- 230000006870 function Effects 0.000 abstract description 4
- 238000013145 classification model Methods 0.000 description 5
- 230000010355 oscillation Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
Abstract
本申请涉及电数字数据处理技术领域,特别是涉及实体识别和文本分类的方法、存储介质和计算机设备。所述方法包括以下步骤:S100,获取目标文本;S200,使用经训练的目标神经网络模型对目标文本进行实体识别和文本分类;目标神经网络模型包括第一神经网络模型、第二神经网络模型和第三神经网络模型,第一神经网络模型的输入为目标文本,第一神经网络模型的输出为第二神经网络模型和第三神经网络模型的输入,第一神经网络模型用于获取目标文本的编码向量,第二神经网络模型用于根据编码向量识别目标文本中的实体,第三神经网络模型用于根据编码向量获取目标文本的类型。本发明的目标神经网络模型具有对文本进行分类和实体识别的功能。
Description
技术领域
本发明涉及电数字数据处理技术领域,特别是涉及实体识别和文本分类的方法、存储介质和计算机设备。
背景技术
现有技术中的实体识别任务和文本分类任务是相对独立的,即利用一个实体识别模型完成实体识别任务,利用另一个分类模型完成文本分类任务,对实体识别模型的训练过程和对分类模型的训练过程是分开进行的,两训练过程互不影响。对于用户想要同时对文本进行实体识别以及获取文本的类型的场景,若用户需要分别将文本输入到实体识别模型和分类模型,那么操作较为繁琐,用户的体验较差。
发明内容
本发明目的在于,提供一种实体识别和文本分类的方法、存储介质和计算机设备,用户只需将目标文本输入到经训练的目标神经网络模型,就能够获取对目标文本进行实体识别的结果以及对目标文本进行分类的结果,操作较为简便,用户体验感较好。
根据本发明的第一方面,提供了一种实体识别和文本分类的方法,包括以下步骤:
S100,获取目标文本。
S200,使用经训练的目标神经网络模型对所述目标文本进行实体识别和文本分类;所述目标神经网络模型包括第一神经网络模型、第二神经网络模型和第三神经网络模型,所述第一神经网络模型的输入为所述目标文本,所述第一神经网络模型的输出为所述第二神经网络模型和第三神经网络模型的输入,所述第一神经网络模型用于获取所述目标文本的编码向量,所述第二神经网络模型用于根据所述编码向量识别目标文本中的实体,所述第三神经网络模型用于根据所述编码向量获取目标文本的类型。
所述目标神经网络模型的训练方法包括:
S210,获取第一文本样本集Text={text1,text2,…,textn,…,textN},textn为第一文本样本集中的第n个文本样本,n的取值范围为1到N,N为第一文本样本集包括的文本样本的数量。
S220,遍历Text,获取textn中实体的集合En={en,1,en,2,…,en,m,…,en,M},en,m为En中的第m个实体,m的取值范围为1到M,M为En中实体的数量。
S230,遍历Text,获取en,m在textn中出现的词频fn,m,如果fn,m≥f0,则将en,m追加至预设的第n集合An;否则,不将en,m追加至An;An的初始化为空集;f0为预设的词频阈值。
S240,遍历Text,如果An不为空集,且An中存在实体与textn的类型匹配,则将An追加至第二文本样本集Text’;否则,不将An追加至第二文本样本集Text’;Text’ 的初始化为空集。
S250,利用Text’对目标神经网络模型进行训练。
根据本发明的第二方面,还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的实体识别和文本分类的方法。
根据本发明的第三方面,还提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现上述的实体识别和文本分类的方法。
本发明与现有技术相比至少具有以下有益效果:
本发明的经训练的目标神经网络模型具有对文本进行实体识别和对文本进行分类的功能,由此,对于用户想要同时对文本进行实体识别以及获取文本的类型的场景,用户只需将目标文本输入到经训练的目标神经网络模型,就能够获取对目标文本进行实体识别的结果以及对目标文本进行分类的结果,操作较为简便,用户体验感较好。
而且,本发明中对目标神经网络模型进行训练的文本样本集是经过筛选的特定文本样本集,被选择作为训练样本的每个文本样本中存在与对应文本的类型匹配的实体(即文本中的实体与文本对应的类型之间存在一定的关联),且该实体的词频大于预设的词频阈值(即该实体在所在的样本文本中出现的次数相对较多);由此,目标神经网络模型能够快速学习到文本的类型与文本中实体相关这个知识(未经训练的模型并不知道该知识),减少了目标神经网络模型在刚开始训练的过程中乱预测的情况,也就减少了训练过程中的损失,进而提高了对目标神经网络模型的模型参数的拟合速度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的实体识别和文本分类的方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
根据本发明的第一方面,提供了一种实体识别和文本分类的方法,如图1所示,包括以下步骤:
S100,获取目标文本。
S200,使用经训练的目标神经网络模型对所述目标文本进行实体识别和文本分类;所述目标神经网络模型包括第一神经网络模型、第二神经网络模型和第三神经网络模型,所述第一神经网络模型的输入为所述目标文本,所述第一神经网络模型的输出为所述第二神经网络模型和第三神经网络模型的输入,所述第一神经网络模型用于获取所述目标文本的编码向量,所述第二神经网络模型用于根据所述编码向量识别目标文本中的实体,所述第三神经网络模型用于根据所述编码向量获取目标文本的类型。
可选的,第一神经网络模型为BERT模型。本领域技术人员知悉,现有技术中任何的可用于获取文本的编码向量的神经网络模型均落入本发明的保护范围。
根据本发明,第二神经网络模型即为NER模型。本领域技术人员知悉,现有技术中任何的NER模型均落入本发明的保护范围。
根据本发明,第三神经网络模型即文本分类模型。本领域技术人员知悉,现有技术中任何的文本分类模型均落入本发明的保护范围。
可选的,所述目标神经网络模型第j次迭代对应的损失为Lossj,Lossj=αj×loss1,j+βj×loss2,j,loss1,j为实体识别任务在第j次迭代对应的损失,loss2,j为文本分类任务在第j次迭代对应的损失,αj为实体识别任务在第j次迭代对应的权重,βj为文本分类任务在第j次迭代对应的权重。
优选的,,r1,j为实体识别任务在第j次迭代对应的收敛速度,r1,j=loss1,j/loss1,j-1,loss1,j-1为实体识别任务在第j-1次迭代对应的损失, />,r2,j为文本分类任务在第j次迭代对应的收敛速度,r2,j=loss2,j/loss2,j-1,loss2,j-1为文本分类任务在第j-1次迭代对应的损失。
应当理解的是,实体识别任务的损失由第一神经网络模型和第二神经网络模型的误差共同决定,文本分类任务的损失由第一神经网络模型和第三神经网络模型的误差共同决定。
根据本发明,当loss1,j<loss1,j-1时,说明实体识别任务的损失有所下降,r1,j的取值范围为(0, 1);r1,j越小,说明实体识别任务的损失下降的速度越快,对应的αj越小,以减少对文本分类任务收敛的影响;当loss1,j>loss1,j-1时,说明实体识别任务的损失有所震荡,r1,j的取值范围为(1,+∞);r1,j越大,说明实体识别任务的损失震荡的幅度越大,对应的αj越小,以避免实体识别任务的损失出现震荡时权重较大情况的发生,减少对文本分类任务收敛的影响。
同理,当loss2,j<loss2,j-1时,说明文本分类任务的损失有所下降,r2,j的取值范围为(0, 1);r2,j越小,说明文本分类任务的损失下降的速度越快,对应的βj越小,以减少对实体识别任务收敛的影响;当loss2,j>loss2,j-1时,说明文本分类任务的损失有所震荡,r2,j的取值范围为(1,+∞);r2,j越大,说明文本分类任务的损失震荡的幅度越大,对应的βj越小,避免文本分类任务的损失出现震荡时权重较大情况的发生,减少对实体识别任务收敛的影响。
可选的,所述第二神经网络模型对应的损失和所述第三神经网络模型对应的损失均为交叉熵损失。本领域技术人员知悉,现有技术中任何类型的损失均落入本发明的保护范围。
根据本发明,所述目标神经网络模型的训练方法包括:
S210,获取第一文本样本集Text={text1,text2,…,textn,…,textN},textn为第一文本样本集中的第n个文本样本,n的取值范围为1到N,N为第一文本样本集包括的文本样本的数量。
S220,遍历Text,获取textn中实体的集合En={en,1,en,2,…,en,m,…,en,M},en,m为En中的第m个实体,m的取值范围为1到M,M为En中实体的数量。
S230,遍历En,获取en,m在textn中出现的词频fn,m,如果fn,m≥f0,则将en,m追加至预设的第n集合An;否则,不将en,m追加至An;An的初始化为空集;f0为预设的词频阈值。
可选的,f0根据用户经验值设置。应当理解的是,An中存储的实体为在textn中出现频次较多的实体;若textn中出现的实体对应的词频均小于f0,则遍历En得到的An为空集。
S240,遍历{A1,A2,…,An,…,AN},如果An不为空集,且An中存在实体与textn的类型匹配,则将An追加至第二文本样本集Text’;否则,不将An追加至第二文本样本集Text’;Text’ 的初始化为空集。
可选的,判断An中是否存在实体与textn的类型匹配的方法包括:
S241,获取第三文本样本集B={b1,b2,…,bq,…,bQ},bq为第三文本样本集中的第q个文本样本,q的取值范围为1到Q,Q为第三文本样本集中文本样本的数量。
S242,遍历B,对bq中各实体进行标注,得到B对应的文本样本标注集D;其中,当bq中某实体与预设的第r种类型匹配时,将bq中该实体标注为第r个预设类型值;r的取值范围为1到R,R为预设的类型数量;第r个预设类型值不等于第i个预设类型值,i的取值范围为1到R,i≠r。
作为一个实施例,预设类型的数量为4,设置第一种类型对应的第1个预设类型值为1,设置第二种类型对应的第2个预设类型值为2,设置第三种类型对应的第3个预设类型值为3,设置第四种类型对应的第4个预设类型值为4;由此,当bq中某实体与预设的第1种类型匹配时,将bq中该实体标注为1;当bq中某实体与预设的第2种类型匹配时,将bq中该实体标注为2;当bq中某实体与预设的第3种类型匹配时,将bq中该实体标注为3;当bq中某实体与预设的第4种类型匹配时,将bq中该实体标注为4。
可选的,采用人工标注的方法对bq中各实体进行标注。
S243,利用B和D对第四神经网络模型进行训练,得到经训练的第四神经网络模型。
本发明的第四神经网络模型为命名实体识别模型,本领域技术人员知悉,现有技术中的任何的命名实体识别模型均落入本发明的保护范围。应当理解的是,经训练的第四神经网络模型具备识别文本中属于上述预设类型的实体的功能。
S244,使用经训练的第四神经网络模型对An中各实体进行推理,得到An中各实体对应的预设类型值。
S245,如果An中存在实体对应的预设类型值与textn的类型对应的预设类型值相同,则判定An中存在实体与textn的类型匹配。
根据本发明,如果An中任一实体对应的预设类型值与textn的类型对应的预设类型值均不同,则判定An中不存在实体与textn的类型匹配。
可选的,通过将textn的类型在预设的类型关系库进行检索的方法获取textn的类型对应的预设类型值,所述预设的类型关系库中存储有文本的类型与预设类型值之间的对应关系。
S250,利用Text’对目标神经网络模型进行训练。
本发明中对目标神经网络模型进行训练的文本样本集Text’是经过筛选的特定文本样本集,被选择作为训练样本的每个文本样本中存在与对应文本的类型匹配的实体(即文本中的实体与文本对应的类型之间存在一定的关联),且该实体的词频大于预设的词频阈值(即该实体在所在的样本文本中出现的次数相对较多);由此,目标神经网络模型能够快速学习到文本的类型与文本中实体相关这个知识(未经训练的模型并不知道该知识),减少了目标神经网络模型在刚开始训练的过程中乱预测的情况,也就减少了训练过程中的损失,进而提高了对目标神经网络模型的模型参数的拟合速度。
作为一个具体实施方式,目标文本为一条警情,所述第二神经网络模型用于识别目标文本中的被盗物品实体、作案工具实体、被抢财物实体或丢失财物实体,所述目标文本的类型包括盗窃类型、抢劫类型、纠纷类型、诈骗类型或求助类型。
例如,目标文本为:张三在早上8点报警称手机被偷了,手机是白色的手机;使用目标神经网络模型中的第二神经网络模型可以识别出手机为被盗物品,使用目标神经网络模型中的第三神经网络模型可以识推理出目标文本本的类型为盗窃类型。
本发明的经训练的目标神经网络模型具有对文本进行实体识别和对文本进行分类的功能,由此,对于用户想要同时对文本进行实体识别以及获取文本的类型的场景,用户只需将目标文本输入到经训练的目标神经网络模型,就能够获取对目标文本进行实体识别的结果以及对目标文本进行分类的结果,操作较为简便,用户体验感较好。
根据本发明的第二方面,还提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的实体识别和文本分类的方法。
根据本发明的第三方面,还提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现上述的实体识别和文本分类的方法。
虽然已经通过示例对本发明的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本发明的范围。本领域的技术人员还应理解,可以对实施例进行多种修改而不脱离本发明的范围和精神。本发明的范围由所附权利要求来限定。
Claims (9)
1.一种实体识别和文本分类的方法,其特征在于,包括以下步骤:
S100,获取目标文本;
S200,使用经训练的目标神经网络模型对所述目标文本进行实体识别和文本分类;所述目标神经网络模型包括第一神经网络模型、第二神经网络模型和第三神经网络模型,所述第一神经网络模型的输入为所述目标文本,所述第一神经网络模型的输出为所述第二神经网络模型和第三神经网络模型的输入,所述第一神经网络模型用于获取所述目标文本的编码向量,所述第二神经网络模型用于根据所述编码向量识别目标文本中的实体,所述第三神经网络模型用于根据所述编码向量获取目标文本的类型;
所述目标神经网络模型的训练方法包括:
S210,获取第一文本样本集Text={text1,text2,…,textn,…,textN},textn为第一文本样本集中的第n个文本样本,n的取值范围为1到N,N为第一文本样本集包括的文本样本的数量;
S220,遍历Text,获取textn中实体的集合En={en,1,en,2,…,en,m,…,en,M},en,m为En中的第m个实体,m的取值范围为1到M,M为En中实体的数量;
S230,遍历En,获取en,m在textn中出现的词频fn,m,如果fn,m≥f0,则将en,m追加至预设的第n集合An;否则,不将en,m追加至An;An的初始化为空集;f0为预设的词频阈值;
S240,遍历{A1,A2,…,An,…,AN},如果An不为空集,且An中存在实体与textn的类型匹配,则将An追加至第二文本样本集Text’;否则,不将An追加至第二文本样本集Text’;Text’ 的初始化为空集;
S250,利用Text’对目标神经网络模型进行训练。
2.根据权利要求1所述的实体识别和文本分类的方法,其特征在于,S240中,判断An中是否存在实体与textn的类型匹配的方法包括:
S241,获取第三文本样本集B={b1,b2,…,bq,…,bQ},bq为第三文本样本集中的第q个文本样本,q的取值范围为1到Q,Q为第三文本样本集中文本样本的数量;
S242,遍历B,对bq中各实体进行标注,得到B对应的文本样本标注集D;其中,当bq中某实体与预设的第r种类型匹配时,将bq中该实体标注为第r个预设类型值;r的取值范围为1到R,R为预设的类型数量;第r个预设类型值不等于第i个预设类型值,i的取值范围为1到R,i≠r;
S243,利用B和D对第四神经网络模型进行训练,得到经训练的第四神经网络模型;
S244,使用经训练的第四神经网络模型对An中各实体进行推理,得到An中各实体对应的预设类型值;
S245,如果An中存在实体对应的预设类型值与textn的类型对应的预设类型值相同,则判定An中存在实体与textn的类型匹配。
3.根据权利要求2所述的实体识别和文本分类的方法,其特征在于,S245中,通过将textn的类型在预设的类型关系库进行检索的方法获取textn的类型对应的预设类型值,所述预设的类型关系库中存储有文本的类型与预设类型值之间的对应关系。
4.根据权利要求1所述的实体识别和文本分类的方法,其特征在于,所述目标神经网络模型第j次迭代对应的损失为Lossj,Lossj=αj×loss1,j+βj×loss2,j,loss1,j为实体识别任务在第j次迭代对应的损失,loss2,j为文本分类任务在第j次迭代对应的损失,αj为实体识别任务在第j次迭代对应的权重,βj为文本分类任务在第j次迭代对应的权重。
6.根据权利要求5所述的实体识别和文本分类的方法,其特征在于,所述第二神经网络模型对应的损失和所述第三神经网络模型对应的损失均为交叉熵损失。
7.根据权利要求1所述的实体识别和文本分类的方法,其特征在于,所述第一神经网络模型为BERT模型。
8.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的实体识别和文本分类的方法。
9.一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器上存储有计算机可读指令,其特征在于,所述计算机可读指令被所述处理器执行时实现如权利要求1-7中任一项所述的实体识别和文本分类的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310497375.2A CN116205221B (zh) | 2023-05-05 | 2023-05-05 | 实体识别和文本分类的方法、存储介质和计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310497375.2A CN116205221B (zh) | 2023-05-05 | 2023-05-05 | 实体识别和文本分类的方法、存储介质和计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116205221A true CN116205221A (zh) | 2023-06-02 |
CN116205221B CN116205221B (zh) | 2023-07-14 |
Family
ID=86519481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310497375.2A Active CN116205221B (zh) | 2023-05-05 | 2023-05-05 | 实体识别和文本分类的方法、存储介质和计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116205221B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021114840A1 (zh) * | 2020-05-28 | 2021-06-17 | 平安科技(深圳)有限公司 | 基于语义分析的评分方法、装置、终端设备及存储介质 |
CN113408284A (zh) * | 2021-01-12 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 文本处理模型的训练方法、装置、电子设备及存储介质 |
CN113515942A (zh) * | 2020-12-24 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备及存储介质 |
CN113792122A (zh) * | 2021-09-29 | 2021-12-14 | 中国银行股份有限公司 | 实体关系的抽取方法及装置、电子设备、存储介质 |
CN115204156A (zh) * | 2022-07-14 | 2022-10-18 | 北京金山数字娱乐科技有限公司 | 关键词提取方法及装置 |
-
2023
- 2023-05-05 CN CN202310497375.2A patent/CN116205221B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021114840A1 (zh) * | 2020-05-28 | 2021-06-17 | 平安科技(深圳)有限公司 | 基于语义分析的评分方法、装置、终端设备及存储介质 |
CN113515942A (zh) * | 2020-12-24 | 2021-10-19 | 腾讯科技(深圳)有限公司 | 文本处理方法、装置、计算机设备及存储介质 |
CN113408284A (zh) * | 2021-01-12 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 文本处理模型的训练方法、装置、电子设备及存储介质 |
CN113792122A (zh) * | 2021-09-29 | 2021-12-14 | 中国银行股份有限公司 | 实体关系的抽取方法及装置、电子设备、存储介质 |
CN115204156A (zh) * | 2022-07-14 | 2022-10-18 | 北京金山数字娱乐科技有限公司 | 关键词提取方法及装置 |
Non-Patent Citations (1)
Title |
---|
贝超;胡珀;: "语言先验知识对神经网络模型自然语言处理任务的影响", 中文信息学报, no. 06 * |
Also Published As
Publication number | Publication date |
---|---|
CN116205221B (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Du et al. | Novel efficient RNN and LSTM-like architectures: Recurrent and gated broad learning systems and their applications for text classification | |
US6397200B1 (en) | Data reduction system for improving classifier performance | |
Zhu et al. | Adaptive layerwise quantization for deep neural network compression | |
CN112347367B (zh) | 信息服务提供方法、装置、电子设备和存储介质 | |
CN112148877A (zh) | 语料文本的处理方法、装置及电子设备 | |
CN110633745A (zh) | 一种基于人工智能的图像分类训练方法、装置及存储介质 | |
CN116596095B (zh) | 基于机器学习的碳排放量预测模型的训练方法及装置 | |
JPH05210648A (ja) | 自己組織型パタ−ン分類システム及び分類方法 | |
CN112488316B (zh) | 事件意图推理方法、装置、设备及存储介质 | |
CN109036380A (zh) | 对话状态跟踪方法、系统、电子设备及存储介质 | |
CN113723070A (zh) | 文本相似度模型训练方法、文本相似度检测方法及装置 | |
CN112749737A (zh) | 图像分类方法及装置、电子设备、存储介质 | |
CN116722992A (zh) | 一种基于多模态融合的诈骗网站识别方法及装置 | |
CN116205221B (zh) | 实体识别和文本分类的方法、存储介质和计算机设备 | |
CN114036283A (zh) | 一种文本匹配的方法、装置、设备和可读存储介质 | |
CN112613032B (zh) | 基于系统调用序列的主机入侵检测方法及装置 | |
CN111582382A (zh) | 状态识别方法、装置以及电子设备 | |
CN113779244B (zh) | 文档情感分类方法、装置、存储介质以及电子设备 | |
CN114385843A (zh) | 分类网络构建方法以及图像检索方法 | |
CN115511015B (zh) | 一种样本筛选方法、装置、设备及计算机可读存储介质 | |
CN115273819B (zh) | 声音事件检测模型建立方法、装置及可读存储介质 | |
CN116386730A (zh) | 数据处理、模型训练、检测、任务处理方法、设备及介质 | |
CN113570046B (zh) | 一种数据增强方法、系统、装置及计算机可读存储介质 | |
CN118301124B (zh) | 一种垃圾邮件检测和归因告警方法、装置、计算机设备、可读存储介质和程序产品 | |
CN113033212B (zh) | 文本数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |