CN110598213A - 一种关键词提取方法、装置、设备及存储介质 - Google Patents

一种关键词提取方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN110598213A
CN110598213A CN201910843003.4A CN201910843003A CN110598213A CN 110598213 A CN110598213 A CN 110598213A CN 201910843003 A CN201910843003 A CN 201910843003A CN 110598213 A CN110598213 A CN 110598213A
Authority
CN
China
Prior art keywords
text
corpus
model
corpus text
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910843003.4A
Other languages
English (en)
Inventor
智绪浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910843003.4A priority Critical patent/CN110598213A/zh
Publication of CN110598213A publication Critical patent/CN110598213A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及文本处理技术领域,具体是一种关键词提取方法、装置、设备及存储介质,所述方法包括:获取待提取语料文本;将所述待提取语料文本输入文本标注模型进行字符类型标注处理,得到所述待提取语料文本中每个字符对应的标签;其中,所述文本标注模型通过使用带有样本标签的训练语料文本基于预设神经网络模型进行有监督的训练确定,所述预设神经网络模型包括语义表示模型、与所述语义表示模型连接的全连接层、与所述全连接层连接的条件随机场以及与所述条件随机场连接的输出层;获取所述待提取语料文本中对应预设标签的字符;根据所述对应预设标签的字符确定所述待提取语料文本的关键词。本发明的方法能够提高关键词提取的准确度和召回率。

Description

一种关键词提取方法、装置、设备及存储介质
技术领域
本发明涉及文本处理技术领域,特别涉及一种关键词提取方法、装置、设备及存储介质。
背景技术
随着网络的发展,线上文本信息的数量呈现爆炸式增长,手工获取所需文本信息的难度日益增大。因此,如何快速、有效地归纳总结出某个领域或者话题下的文本的关键信息成为一个重要问题。
为了能够有效地处理海量的文本数据,研究人员在文本分类、文本聚类、自动文摘和信息检索等方向进行了大量的研究,而这些研究都涉及到如何获取文本中的关键词的问题。关键词是对文本主题信息的精炼,高度概括了文本的主要内容,能帮助用户快速理解文本的主旨;另外,还可以利用关键词以较低的复杂度进行文本相关性的计算,从而高效地进行文本分类、文本聚类和信息检索等处理。
现有技术中,一些常用的机器学习方法逐渐应用到关键词提取领域中,现有的基于机器学习的关键词提取方法首先需要对待提取文本进行分词处理,并提取候选词的特征,然后根据提取出的特征使用机器学习模型对每个候选词进行分类操作。其中,所述候选词的特征一般包括词语的词法特征、句法特征以及所述词语在待提取文本和/或不同领域语料文本中的统计学特征等。但是采用这种方法提取关键词需要对待提取文本进行分词处理,所以提取的关键词的效果非常依赖于分词的精度,当分词的精度较差时关键词提取的准确度较低;另外,这种方法没有考虑候选词的语义特征,在专有领域的关键词提取中可能表现不佳。
发明内容
针对现有技术的上述问题,本发明的目的在于提供一种关键词提取方法、装置、设备及存储介质,能够提高关键词提取的准确度和召回率。
为了解决上述问题,本发明提供一种关键词提取方法,包括:
获取待提取语料文本;
将所述待提取语料文本输入文本标注模型进行字符类型标注处理,得到所述待提取语料文本中每个字符对应的标签;其中,所述文本标注模型通过使用带有样本标签的训练语料文本基于预设神经网络模型进行有监督的训练确定,所述预设神经网络模型包括语义表示模型、与所述语义表示模型连接的全连接层、与所述全连接层连接的条件随机场以及与所述条件随机场连接的输出层;
获取所述待提取语料文本中对应预设标签的字符;
根据所述对应预设标签的字符确定所述待提取语料文本的关键词。
本发明另一方面提供一种关键词提取装置,包括:
第一获取模块,用于获取待提取语料文本;
标注模块,用于将所述待提取语料文本输入文本标注模型进行字符类型标注处理,得到所述待提取语料文本中每个字符对应的标签;其中,所述文本标注模型通过使用带有样本标签的训练语料文本基于预设神经网络模型进行有监督的训练确定,所述预设神经网络模型包括语义表示模型、与所述语义表示模型连接的全连接层、与所述全连接层连接的条件随机场以及与所述条件随机场连接的输出层;
第二获取模块,用于获取所述待提取语料文本中对应预设标签的字符;
确定模块,用于根据所述对应预设标签的字符确定所述待提取语料文本的关键词。
本发明另一方面提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述的关键词提取方法。
本发明另一方面提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的关键词提取方法。
由于上述技术方案,本发明具有以下有益效果:
本发明的关键词提取方法、装置、设备及存储介质,通过使用大量未标注标签的训练语料文本对预设双向编码表示模型进行预训练,得到语义表示模型,然后通过少量带有标注标签的训练语料文本基于语义表示模型、全连接层以及条件随机场进行有监督的训练得到文本标注模型。在进行关键词提取时,只需要将待提取语料文本输入所述文本标注模型即可得到所述待提取语料文本中各个字符对应的标签,从而确定所述待提取语料文本的关键词,无需对所述待提取语料文本进行分词处理,避免了分词精度对关键词提取的影响;另外,所述文本标注模型充分地利用了待提取语料文本的语义特征,极大地提高了关键词提取的准确度和召回率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本发明一个实施例提供的关键词提取方法的流程图;
图2是本发明一个实施例提供的预设神经网络模型模型的结构示意图;
图3是本发明一个实施例提供的语义表示模型的训练方法的流程图;
图4是本发明一个实施例提供的文本标注模型的训练方法的流程图;
图5是本发明另一个实施例提供的文本标注模型的训练方法的流程图;
图6是本发明另一个实施例提供的文本标注模型的训练方法的流程图;
图7是本发明一个实施例提供的关键词提取装置的结构示意图;
图8是本发明另一个实施例提供的关键词提取装置的结构示意图;
图9是本发明一个实施例提供的终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了使本发明实施例公开的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明实施例进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明实施例,并不用于限定本发明实施例。首先,本发明实施例对下述概念进行解释:
BIO标注模型:BIO(B-begin,I-inside,O-outside)标注模型将每个元素标注为“B-X”、“I-X”或者“O”,其中,“B-X”表示此元素所在的片段属于X类型并且此元素在此片段的开头,“I-X”表示此元素所在的片段属于X类型并且此元素在此片段的中间位置,“O”表示此元素不属于任何类型。
神经网络模型:人工神经网络(Artificial Neural Networks,ANN)模型,是由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
预训练模型:在NLP领域,目前比较流行的一种解决实际问题的方法是,用大量无标签的语料训练出词向量模型,语言模型等,统称为预训练模型,预训练模型得到的词向量、句子向量等特征可以用于其它具体的NLP任务。
Transformer模型:Transformer模型是首个完全依靠自注意力来计算其输入和输出表示,而不使用序列对齐的循环神经网络或卷积的转换模型,其中,“转换”是指将输入序列转换成输出序列。
BERT模型:Bidirectional Encoder Representation from Transformers,即双向Transformer的编码器,是2018年谷歌提出的一种预训练模型。BERT模型的主体是一个Transformer模型,用于提取文本特征,能够充分描述字符级、词级、句子级甚至句间关系特征。
条件随机场:条件随机场是一种判别式概率模型,表示的是给定一组输入随机变量X的条件下另一组输出随机变量Y的马尔可夫随机场。
词向量:词向量是NLP中语言模型与表征学习技术的统称。指把一个维数为所有词的数量的高维空间嵌入到一个维数很低的实数向量空间中,也称为词嵌入。即将词映射到多维的实数向量空间,以便于后续的相关性计算。
请参考说明书附图1,其示出了本发明一个实施例提供的关键词提取方法的流程,所述关键词提取方法可以应用于本发明实施例提供的关键词提取装置,所述关键词提取装置可以配置于电子设备中,所述电子设备可以是终端或者服务器。其中,终端可以是智能手机、台式电脑、平板电脑、笔记本电脑等具有各种操作系统的硬件设备。服务器可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。
如图1所示,所述方法可以包括以下步骤:
S110:获取待提取语料文本。
本发明实施例中,可以通过搜集的方式得到所述待提取语料文本。比如,以游戏领域为例,可以从目标游戏的客户端中采集游戏玩家对游戏的评论信息文本或者反馈信息文本,得到所述待提取语料文本。需要说明的是,获取待提取语料文本并不限定于上述方式,还可以是能够实现相同功能的其他方式。
在一个可能的实施例中,获取到所述待提取语料文本后,可以先对所述待提取语料文本进行预处理,所述进行预处理可以包括对所述待提取语料文本进行数据清洗操作,所述数据清洗操作可以包括关键信息定位提取、去除日期帐号等无效信息、去除特殊符号统一资源定位符等。
S120:将所述待提取语料文本输入文本标注模型进行字符类型标注处理,得到所述待提取语料文本中每个字符对应的标签;其中,所述文本标注模型通过使用带有样本标签的训练语料文本基于预设神经网络模型进行有监督的训练确定,所述预设神经网络模型包括语义表示模型、与所述语义表示模型连接的全连接层、与所述全连接层连接的条件随机场以及与所述条件随机场连接的输出层。
本发明实施例中,通过文本标注模型可以对所述待提取语料文本的各个字符的字符类型进行标注,标注的结果为所述待提取语料文本中各个字符对应的标签,所述标签可以为预先设置的标签集中的标签。具体地,可以预先设置至少一个字符类型,根据不同的字符类型形成不同的标签,生成一个标签集。示例性地,可以设置实体词和问题词两种字符类型,采用BIO标注模式,可以生成包括标签“实体词开头(B-ENTITY)”、“实体词后续(I-ENTITY)”、“问题词开头(B-PROBLEM)”、“问题词后续(I-PROBLEM)”和“无关类(O)”的标签集。
本发明实施例中,可以通过大量目标领域(例如游戏领域)内的没有标注样本标签的语料文本对预设双向编码表示模型进行训练,得到语义表示模型,能够使得所述语义表示模型在目标领域具有更强的特征表达能力,然后通过使用少量带有样本标签的训练语料文本对预设神经网络模型进行训练,得到所述文本标注模型。
结合参考说明书附图2,其示例性示出了本发明一个实施例提供的预设神经网络模型的结构示意图,如图2所示,所述预设神经网络模型包括语义表示模型210,与所述语义表示模型210连接的全连接层220,与所述全连接层220连接的条件随机场230,以及与所述条件随机场230连接的输出层。
所述语义表示模型210可以将输入的待提取语料文本的每个字符转换为词向量表示,并通过线性变换、非线性变换等将所述词向量表示转换为基于上下文的语义表示向量。在一个具体的实施例中,所述语义表示模型可以通过对双向编码表示模型进行训练确定,所述双向编码表示模型可以为基于注意力机制的双向编码表示模型,例如BERT模型,所述语义表示向量可以为512维。
所述全连接层220用于将字符的语义表示向量映射为字符标注上标签集中的各个标签的概率。在一个具体的实施例中,所述全连接层可以用公式y=Wx+b表示,其中x是输入(例如语义表示向量),W为一个[512×5]的矩阵,b为一个5维的向量,所述全连接层的输出也为5维向量,分别对应当前字符为实体词开头、实体词后续、问题词开头、问题词后续和无关类的概率。需要说明的是,表示字符标注上所述标签集中的各个标签的概率的向量可以根据标签集中的标签的数目的不同而具有不同的维度。
所述条件随机场230可以为一个判别式模型,用于根据字符标注上所述标签集中的各个标签的概率确定所述字符的标签。
S130:获取所述待提取语料文本中对应预设标签的字符。
S140:根据所述对应预设标签的字符确定所述待提取语料文本的关键词。
本发明实施例中,所述预设标签可以为预设的字符类型对应的标签,获取到对应预设标签的字符后,可以根据这些字符确定所述待提取语料文本的关键词。
在一个具体的实施例中,假设所述待提取语料文本为“游戏优化,出拳速度有点快,打击感不足,移动键优化一下”,将所述待提取语料文本输入所述文本标注模型可以得到所述待提取语料文本中各个字符对应的标签“游(B-ENTITY)戏(I-ENTITY)优(O)化(O),(O)出(O)拳(O)速(B-ENTITY)度(I-ENTITY)有(O)点(O)快(O),(O)打(O)击(O)感(O)不(B-PROBLEM)足(I-PROBLEM),(O)移(B-ENTITY)动(I-ENTITY)键(I-ENTITY)优(O)化(O)一(O)下(O)”,可以获取对应标签“B-ENTITY”和“I-ENTITY”的字符“游”、“戏”、“速”、“度”、“移”、“动”和“键”,对应标签“B-PROBLEM”和“I-PROBLEM”的字符“不”和“足”,可以将对应标签“B-ENTITY”和“I-ENTITY”的字符组合成关键词“游戏”、“速度”和“移动键”,将对应标签“B-PROBLEM”和“I-PROBLEM”的字符也组合成关键词“不足”,则可以得到所述待提取语料文本的关键词“游戏”、“速度”、“不足”和“移动键”。
在一个可能的实施例中,所述待提取语料文本的关键词可以存储于区块链节点中。
其中,区块链(Block Chain)是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实施状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
请参考说明书附图3,其示出了本发明一个实施例提供的语义表示模型的训练方法的流程,如图3所示,所述语义表示模型的训练方法可以包括:
S310:构建预设双向编码表示模型。
S320:获取第一训练语料文本集。
S330:使用所述第一训练语料文本集中的训练语料文本对所述预设双向编码表示模型进行预训练,得到所述语义表示模型。
本发明实施例中,所述第一训练语料文本集中的训练语料文本可以为目标领域(例如游戏领域)的未标注标签的语料文本,所述预设双向编码表示模型可以为基于注意力机制的双向编码表示模型,例如BERT模型,通过大量训练语料文本对BERT模型进行预训练,可以使得所述语义表示模型在所述目标领域有更强的特征表达能力。需要说明的是,BERT模型为现有的预训练模型,本发明实施例在此不再赘述。
请参考说明书附图4,其示出了本发明实施例提供的文本标注模型的训练方法的流程,如图4所示,所述文本标注模型的训练方法可以包括:
S410:构建预设神经网络模型。
本发明实施例中,所述预设神经网络模型可以包括语义表示模型、与所述语义表示模型连接的全连接层、与所述全连接层连接的条件随机场以及与所述条件随机场连接的输出层。
S420:获取第二训练语料文本集,所述第二训练语料文本集包括多个带有样本标签的训练语料文本,所述样本标签用于标记所述训练语料文本中每个字符的字符类型。
本发明实施例中,所述第二训练语料文本集中的训练语料文本可以为目标领域(例如游戏领域)的标注有样本标签的语料文本,所述样本标签可以为人工标注的用于标记所述训练语料文本的关键词(如实体词和问题词)的标签,所述标签可以为预先设置的标签集中的标签。实际应用中,只需要标注少量训练语料文本即可通过训练得到所述文本标注模型。
S430:使用所述第二训练语料文本集中的训练语料文本对所述预设神经网络模型进行训练,得到所述文本标注模型。
在一个可能的实施例中,如图5所示,所述使用所述第二训练语料文本集中的训练语料文本对所述预设神经网络模型进行训练,得到所述文本标注模型可以包括:
S510:将所述第二训练语料文本集中的训练语料文本以及所述训练语料文本的样本标签输入所述预设神经网络模型,得到训练样本数据。
在一个可能的实施例中,如图6所示,所述将所述第二训练语料文本集中的训练语料文本以及所述训练语料文本的样本标签输入所述预设神经网络模型,得到训练样本数据可以包括:
S511:将所述第二训练语料文本集中的训练语料文本输入所述语义表示模型,得到所述训练语料文本中每个字符基于上下文的语义向量。
S512:将所述语义向量输入所述全连接层,得到所述训练语料文本中每个字符对应标签集中的各个标签的概率向量。
S513:将所述概率向量以及所述训练语料文本的样本标签输入所述条件随机场,得到根据所述概率向量输出的预测标签为所述样本标签的概率。
S520:将所述训练样本数据输入预设损失函数,得到损失函数值。
本发明实施例中,所述预设损失函数可以设置为:
其中,xn表示所述训练语料文本中第n(n为所述训练语料文本的字符个数)个字符的预测标签为所述样本标签的概率。
S530:根据所述损失函数值调整所述预设神经网络模型的参数,得到所述文本标注模型。
本发明实施例中,可以根据所述损失函数值调整所述预设神经网络模型的参数,直至所述损失函数收敛至最小值,然后将当前模型参数对应的预设神经网络模型作为所述文本标注模型。
综上所述,本发明的关键词提取方法,通过使用大量未标注标签的训练语料文本对预设双向编码表示模型进行预训练,得到语义表示模型,然后通过少量带有标注标签的训练语料文本基于语义表示模型、全连接层以及条件随机场进行有监督的训练得到文本标注模型。在进行关键词提取时,只需要将待提取语料文本输入所述文本标注模型即可得到所述待提取语料文本中各个字符对应的标签,从而确定所述待提取语料文本的关键词,无需对所述待提取语料文本进行分词处理,避免了分词精度对关键词提取的影响;另外,所述文本标注模型充分地利用了待提取语料文本的语义特征,极大地提高了关键词提取的准确度和召回率。
请参考说明书附图7,其示出了本发明一个实施例提供的关键词提取装置700的结构示意图,如图7所示,所述装置700可以包括:
第一获取模块710,用于获取待提取语料文本;
标注模块720,用于将所述待提取语料文本输入文本标注模型进行字符类型标注处理,得到所述待提取语料文本中每个字符对应的标签;其中,所述文本标注模型通过使用带有样本标签的训练语料文本基于预设神经网络模型进行有监督的训练确定,所述预设神经网络模型包括语义表示模型、与所述语义表示模型连接的全连接层、与所述全连接层连接的条件随机场以及与所述条件随机场连接的输出层;
第二获取模块730,用于获取所述待提取语料文本中对应预设标签的字符;
确定模块740,用于根据所述对应预设标签的字符确定所述待提取语料文本的关键词。
在一个可能的实施例中,如图7所示,所述装置700还可以包括:
构建模块750,用于构建预设双向编码表示模型;
第三获取模块760,用于获取第一训练语料文本集;
训练模块770,用于使用所述第一训练语料文本集中的训练语料文本对所述预设双向编码表示模型进行预训练,得到所述语义表示模型。
在另一个可能的实施例中,所述构建模块750还可以用于构建预设神经网络模型;
所述第三获取模块760还可以用于获取第二训练语料文本集,所述第二训练语料文本集包括多个带有样本标签的训练语料文本,所述样本标签用于标记所述训练语料文本中每个字符的字符类型;
所述训练模块770还可以用于使用所述第二训练语料文本集中的训练语料文本对所述预设神经网络模型进行训练,得到所述文本标注模型。
在另一个可能的实施例中,如图8所示,所述训练模块770可以包括:
第一输入单元771,用于将所述第二训练语料文本集中的训练语料文本以及所述训练语料文本的样本标签输入所述预设神经网络模型,得到训练样本数据;
第二输入单元772,用于将所述训练样本数据输入预设损失函数,得到损失函数值;
训练单元773,用于根据所述损失函数值调整所述预设神经网络模型的参数,得到所述文本标注模型。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
本发明实施例还提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方法实施例提供的关键词提取方法。
存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及关键词提取。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本发明实施例所提供的方法实施例可以在终端、服务器或者类似的运算装置中执行,即上述电子设备可以包括终端、服务器或者类似的运算装置。以运行在终端上为例,如图9所示,其示出了本发明一个实施例提供的运行一种关键词提取方法的终端的结构示意图。所述终端900可以包括一个或一个以上计算机可读存储介质的存储器910、一个或者一个以上处理核心的处理器920、输入单元930、显示单元940、射频(Radio Frequency,RF)电路950、无线保真(wireless fidelity,WiFi)模块960以及电源970等部件。本领域技术人员可以理解,图9中示出的终端结构并不构成对终端900的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
所述存储器910可用于存储软件程序以及模块,所述处理器920通过运行或执行存储在所述存储器910的软件程序以及模块,以及调用存储在存储器910内的数据,从而执行各种功能应用以及数据处理。所述存储器910可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据所述终端的使用所创建的数据等。此外,存储器910可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器910还可以包括存储器控制器,以提供处理器920对存储器910的访问。
所述处理器920是终端900的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器910内的软件程序和/或模块,以及调用存储在存储器910内的数据,执行终端900的各种功能和处理数据,从而对终端900进行整体监控。所述处理器920可以是中央处理器,还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述输入单元930可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元930可包括图像输入设备931以及其他输入设备932。图像输入设备931可以是摄像头,也可以是光电扫描设备。除了图像输入设备931,输入单元930还可以包括其他输入设备932。具体地,其他输入设备932可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
所述显示单元940可用于显示由用户输入的信息或提供给用户的信息以及终端的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元940可包括显示面板941,可选的,可以采用液晶显示器(Liquid CrystalDisplay,LCD)、有机发光二极管(Organic Light-Emitting Diode,OLED)等形式来配置显示面板941。
所述RF电路950可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器920处理;另外,将涉及上行的数据发送给基站。通常,RF电路950包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、低噪声放大器(Low Noise Amplifier,LNA)、双工器等。此外,RF电路950还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于全球移动通讯系统(Global System of Mobilecommunication,GSM)、通用分组无线服务(General Packet Radio Service,GPRS)、码分多址(Code Division Multiple Access,CDMA)、宽带码分多址(Wideband Code DivisionMultiple Access,WCDMA)、长期演进(Long Term Evolution,LTE)、电子邮件、短消息服务(Short Messaging Service,SMS)等。
WiFi属于短距离无线传输技术,终端900通过WiFi模块960可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图9示出了WiFi模块960,但是可以理解的是,其并不属于终端900的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
所述终端900还包括给各个部件供电的电源970(比如电池),优选的,电源可以通过电源管理系统与处理器920逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源970还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
需要说明的是,尽管未示出,所述终端900还可以包括蓝牙模块等,在此不再赘述。
本发明一个实施例还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、该至少一段程序、该代码集或指令集可由终端的处理器加载并执行以实现如上述方法实施例中所提供的关键词提取方法的各个步骤。
可选地,在本发明实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、终端和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种关键词提取方法,其特征在于,包括:
获取待提取语料文本;
将所述待提取语料文本输入文本标注模型进行字符类型标注处理,得到所述待提取语料文本中每个字符对应的标签;其中,所述文本标注模型通过使用带有样本标签的训练语料文本基于预设神经网络模型进行有监督的训练确定,所述预设神经网络模型包括语义表示模型、与所述语义表示模型连接的全连接层、与所述全连接层连接的条件随机场以及与所述条件随机场连接的输出层;
获取所述待提取语料文本中对应预设标签的字符;
根据所述对应预设标签的字符确定所述待提取语料文本的关键词。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括训练语义表示模型,所述训练语义表示模型包括:
构建预设双向编码表示模型;
获取第一训练语料文本集;
使用所述第一训练语料文本集中的训练语料文本对所述预设双向编码表示模型进行预训练,得到所述语义表示模型。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括训练文本标注模型,所述训练文本标注模型包括:
构建预设神经网络模型;
获取第二训练语料文本集,所述第二训练语料文本集包括多个带有样本标签的训练语料文本,所述样本标签用于标记所述训练语料文本中每个字符的字符类型;
使用所述第二训练语料文本集中的训练语料文本对所述预设神经网络模型进行训练,得到所述文本标注模型。
4.根据权利要求3所述的方法,其特征在于,所述使用所述第二训练语料文本集中的训练语料文本对所述预设神经网络模型进行训练,得到所述文本标注模型包括:
将所述第二训练语料文本集中的训练语料文本以及所述训练语料文本的样本标签输入所述预设神经网络模型,得到训练样本数据;
将所述训练样本数据输入预设损失函数,得到损失函数值;
根据所述损失函数值调整所述预设神经网络模型的参数,得到所述文本标注模型。
5.根据权利要求4所述的方法,其特征在于,所述将所述第二训练语料文本集中的训练语料文本以及所述训练语料文本的样本标签输入所述预设神经网络模型,得到训练样本数据包括:
将所述第二训练语料文本集中的训练语料文本输入所述语义表示模型,得到所述训练语料文本中每个字符基于上下文的语义向量;
将所述语义向量输入所述全连接层,得到所述训练语料文本中每个字符对应标签集中的各个标签的概率向量;
将所述概率向量以及所述训练语料文本的样本标签输入所述条件随机场,得到根据所述概率向量输出的预测标签为所述样本标签的概率。
6.根据权利要求1或2所述的方法,其特征在于,所述待提取文本的关键词存储于区块链节点中。
7.一种关键词提取装置,其特征在于,包括:
第一获取模块,用于获取待提取语料文本;
标注模块,用于将所述待提取语料文本输入文本标注模型进行字符类型标注处理,得到所述待提取语料文本中每个字符对应的标签;其中,所述文本标注模型通过使用带有样本标签的训练语料文本基于预设神经网络模型进行有监督的训练确定,所述预设神经网络模型包括语义表示模型、与所述语义表示模型连接的全连接层、与所述全连接层连接的条件随机场以及与所述条件随机场连接的输出层;
第二获取模块,用于获取所述待提取语料文本中对应预设标签的字符;
确定模块,用于根据所述对应预设标签的字符确定所述待提取语料文本的关键词。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
构建模块,用于构建预设双向编码表示模型;
第三获取模块,用于获取第一训练语料文本集;
训练模块,用于使用所述第一训练语料文本集中的训练语料文本对所述预设双向编码表示模型进行预训练,得到所述语义表示模型。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-6任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-6任意一项所述的方法。
CN201910843003.4A 2019-09-06 2019-09-06 一种关键词提取方法、装置、设备及存储介质 Pending CN110598213A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910843003.4A CN110598213A (zh) 2019-09-06 2019-09-06 一种关键词提取方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910843003.4A CN110598213A (zh) 2019-09-06 2019-09-06 一种关键词提取方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN110598213A true CN110598213A (zh) 2019-12-20

Family

ID=68858040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910843003.4A Pending CN110598213A (zh) 2019-09-06 2019-09-06 一种关键词提取方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN110598213A (zh)

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274815A (zh) * 2020-01-15 2020-06-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
CN111291564A (zh) * 2020-03-03 2020-06-16 腾讯科技(深圳)有限公司 一种用于词向量获取的模型训练方法、装置和存储介质
CN111325571A (zh) * 2019-12-30 2020-06-23 北京航空航天大学 一种多任务学习的商品评论标签自动生成方法、装置及系统
CN111339268A (zh) * 2020-02-19 2020-06-26 北京百度网讯科技有限公司 实体词识别方法和装置
CN111506729A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN111506696A (zh) * 2020-03-03 2020-08-07 平安科技(深圳)有限公司 基于少量训练样本的信息抽取方法及装置
CN111611807A (zh) * 2020-05-18 2020-09-01 北京邮电大学 一种基于神经网络的关键词提取方法、装置及电子设备
CN111738791A (zh) * 2020-01-20 2020-10-02 北京沃东天骏信息技术有限公司 一种文本处理方法、装置、设备和存储介质
CN111885000A (zh) * 2020-06-22 2020-11-03 网宿科技股份有限公司 一种基于图神经网络的网络攻击检测方法、系统及装置
CN111914535A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 一种单词识别方法、装置、计算机设备和存储介质
CN111950265A (zh) * 2020-08-25 2020-11-17 中国电子科技集团公司信息科学研究院 一种领域词库构建方法和装置
CN112084334A (zh) * 2020-09-04 2020-12-15 中国平安财产保险股份有限公司 语料的标签分类方法、装置、计算机设备及存储介质
CN112101023A (zh) * 2020-10-29 2020-12-18 深圳市欢太科技有限公司 文本处理方法、装置以及电子设备
CN112270184A (zh) * 2020-10-23 2021-01-26 平安科技(深圳)有限公司 自然语言处理方法、装置及存储介质
CN112329477A (zh) * 2020-11-27 2021-02-05 上海浦东发展银行股份有限公司 基于预训练模型的信息抽取方法、装置、设备及存储介质
CN112364659A (zh) * 2020-07-08 2021-02-12 西湖大学 一种无监督的语义表示自动识别方法及装置
CN112434510A (zh) * 2020-11-24 2021-03-02 北京字节跳动网络技术有限公司 一种信息处理方法、装置、电子设备和存储介质
CN112464654A (zh) * 2020-11-27 2021-03-09 科技日报社 关键词生成方法、装置、电子设备和计算机可读介质
CN112507190A (zh) * 2020-12-17 2021-03-16 新华智云科技有限公司 一种财经快讯的关键词提取方法和系统
CN112559770A (zh) * 2020-12-15 2021-03-26 北京邮电大学 文本数据的关系抽取方法、装置、设备及可读存储介质
CN112800226A (zh) * 2021-01-29 2021-05-14 上海明略人工智能(集团)有限公司 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备
CN112860842A (zh) * 2021-03-05 2021-05-28 联仁健康医疗大数据科技股份有限公司 病历标注方法、装置及存储介质
CN112906367A (zh) * 2021-02-08 2021-06-04 上海宏原信息科技有限公司 消费者文本的信息提取结构,标注方法和识别方法
CN113055386A (zh) * 2021-03-12 2021-06-29 哈尔滨安天科技集团股份有限公司 一种攻击组织的识别分析方法和装置
WO2021135469A1 (zh) * 2020-06-17 2021-07-08 平安科技(深圳)有限公司 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN113378556A (zh) * 2020-02-25 2021-09-10 华为技术有限公司 提取文本关键字的方法及装置
CN113392641A (zh) * 2020-10-26 2021-09-14 腾讯科技(深圳)有限公司 文本处理方法、装置、存储介质和设备
CN113407610A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备和可读存储介质
CN113468322A (zh) * 2021-05-31 2021-10-01 北京达佳互联信息技术有限公司 关键词识别模型的训练、提取方法、装置、设备及介质
CN113488034A (zh) * 2020-04-27 2021-10-08 海信集团有限公司 一种语音信息的处理方法、装置、设备及介质
CN113705194A (zh) * 2021-04-12 2021-11-26 腾讯科技(深圳)有限公司 简称抽取方法及电子设备
CN113722422A (zh) * 2021-04-14 2021-11-30 腾讯科技(深圳)有限公司 模型训练方法、文本标签生成方法、装置、设备及介质
CN113742785A (zh) * 2020-05-28 2021-12-03 深信服科技股份有限公司 一种网页分类方法、装置、电子设备及存储介质
CN113807095A (zh) * 2021-03-03 2021-12-17 京东科技控股股份有限公司 实体词提取模型的训练方法、装置、设备和存储介质
CN113806487A (zh) * 2021-09-23 2021-12-17 平安科技(深圳)有限公司 基于神经网络的语义搜索方法、装置、设备和存储介质
CN115248855A (zh) * 2021-04-27 2022-10-28 腾讯科技(深圳)有限公司 文本处理方法及装置、电子设备、计算机可读存储介质
CN115599903A (zh) * 2021-07-07 2023-01-13 腾讯科技(深圳)有限公司(Cn) 对象标签获取方法、装置、电子设备及存储介质
CN115758990A (zh) * 2022-10-14 2023-03-07 美的集团(上海)有限公司 文本的规范化方法、装置、存储介质和电子设备
CN116151194A (zh) * 2023-04-04 2023-05-23 上海燧原科技有限公司 中文通用语言的生成方法、装置、设备及存储介质
CN116361422A (zh) * 2023-06-02 2023-06-30 深圳得理科技有限公司 关键词提取方法、文本检索方法及相关设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446514A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 新闻实体识别模型的构建方法、装置和计算机设备
CN109657239A (zh) * 2018-12-12 2019-04-19 电子科技大学 基于注意力机制和语言模型学习的中文命名实体识别方法
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置
CN109885773A (zh) * 2019-02-28 2019-06-14 广州寄锦教育科技有限公司 一种文章个性化推荐方法、系统、介质及设备
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置
CN110032730A (zh) * 2019-02-18 2019-07-19 阿里巴巴集团控股有限公司 一种文本数据的处理方法、装置和设备
CN110110330A (zh) * 2019-04-30 2019-08-09 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109446514A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 新闻实体识别模型的构建方法、装置和计算机设备
CN109657239A (zh) * 2018-12-12 2019-04-19 电子科技大学 基于注意力机制和语言模型学习的中文命名实体识别方法
CN109710770A (zh) * 2019-01-31 2019-05-03 北京牡丹电子集团有限责任公司数字电视技术中心 一种基于迁移学习的文本分类方法及装置
CN110032730A (zh) * 2019-02-18 2019-07-19 阿里巴巴集团控股有限公司 一种文本数据的处理方法、装置和设备
CN109885773A (zh) * 2019-02-28 2019-06-14 广州寄锦教育科技有限公司 一种文章个性化推荐方法、系统、介质及设备
CN109960800A (zh) * 2019-03-13 2019-07-02 安徽省泰岳祥升软件有限公司 基于主动学习的弱监督文本分类方法及装置
CN110134772A (zh) * 2019-04-18 2019-08-16 五邑大学 基于预训练模型与微调技术的医疗文本关系抽取方法
CN110110330A (zh) * 2019-04-30 2019-08-09 腾讯科技(深圳)有限公司 基于文本的关键词提取方法和计算机设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
安磊: "构建金融知识图谱的知识抽取服务的设计与实现", 《中国优秀硕士学位论文全文数据库信息科技辑(月刊)》 *

Cited By (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325571B (zh) * 2019-12-30 2023-08-18 北京航空航天大学 一种多任务学习的商品评论标签自动生成方法、装置及系统
CN111325571A (zh) * 2019-12-30 2020-06-23 北京航空航天大学 一种多任务学习的商品评论标签自动生成方法、装置及系统
CN111274815A (zh) * 2020-01-15 2020-06-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
US11775761B2 (en) 2020-01-15 2023-10-03 Beijing Baidu Netcom Science And Technology Co., Ltd. Method and apparatus for mining entity focus in text
CN111274815B (zh) * 2020-01-15 2024-04-12 北京百度网讯科技有限公司 用于挖掘文本中的实体关注点的方法和装置
CN111738791A (zh) * 2020-01-20 2020-10-02 北京沃东天骏信息技术有限公司 一种文本处理方法、装置、设备和存储介质
CN111738791B (zh) * 2020-01-20 2024-05-24 北京沃东天骏信息技术有限公司 一种文本处理方法、装置、设备和存储介质
CN111339268A (zh) * 2020-02-19 2020-06-26 北京百度网讯科技有限公司 实体词识别方法和装置
CN111339268B (zh) * 2020-02-19 2023-08-15 北京百度网讯科技有限公司 实体词识别方法和装置
CN113378556B (zh) * 2020-02-25 2023-07-14 华为技术有限公司 提取文本关键字的方法及装置
CN113378556A (zh) * 2020-02-25 2021-09-10 华为技术有限公司 提取文本关键字的方法及装置
CN111506696A (zh) * 2020-03-03 2020-08-07 平安科技(深圳)有限公司 基于少量训练样本的信息抽取方法及装置
CN111291564B (zh) * 2020-03-03 2023-10-31 腾讯科技(深圳)有限公司 一种用于词向量获取的模型训练方法、装置和存储介质
CN111291564A (zh) * 2020-03-03 2020-06-16 腾讯科技(深圳)有限公司 一种用于词向量获取的模型训练方法、装置和存储介质
CN111506729A (zh) * 2020-04-17 2020-08-07 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN111506729B (zh) * 2020-04-17 2023-08-29 腾讯科技(深圳)有限公司 一种信息处理方法、装置及计算机可读存储介质
CN113488034A (zh) * 2020-04-27 2021-10-08 海信集团有限公司 一种语音信息的处理方法、装置、设备及介质
CN111611807A (zh) * 2020-05-18 2020-09-01 北京邮电大学 一种基于神经网络的关键词提取方法、装置及电子设备
CN113742785A (zh) * 2020-05-28 2021-12-03 深信服科技股份有限公司 一种网页分类方法、装置、电子设备及存储介质
WO2021135469A1 (zh) * 2020-06-17 2021-07-08 平安科技(深圳)有限公司 基于机器学习的信息抽取方法、装置、计算机设备及介质
CN111885000A (zh) * 2020-06-22 2020-11-03 网宿科技股份有限公司 一种基于图神经网络的网络攻击检测方法、系统及装置
CN111885000B (zh) * 2020-06-22 2022-06-21 网宿科技股份有限公司 一种基于图神经网络的网络攻击检测方法、系统及装置
CN112364659B (zh) * 2020-07-08 2024-05-03 西湖大学 一种无监督的语义表示自动识别方法及装置
CN112364659A (zh) * 2020-07-08 2021-02-12 西湖大学 一种无监督的语义表示自动识别方法及装置
CN111914535A (zh) * 2020-07-31 2020-11-10 平安科技(深圳)有限公司 一种单词识别方法、装置、计算机设备和存储介质
CN111914535B (zh) * 2020-07-31 2023-03-24 平安科技(深圳)有限公司 一种单词识别方法、装置、计算机设备和存储介质
CN111950265A (zh) * 2020-08-25 2020-11-17 中国电子科技集团公司信息科学研究院 一种领域词库构建方法和装置
CN112084334A (zh) * 2020-09-04 2020-12-15 中国平安财产保险股份有限公司 语料的标签分类方法、装置、计算机设备及存储介质
CN112084334B (zh) * 2020-09-04 2023-11-21 中国平安财产保险股份有限公司 语料的标签分类方法、装置、计算机设备及存储介质
CN112270184B (zh) * 2020-10-23 2023-11-14 平安科技(深圳)有限公司 自然语言处理方法、装置及存储介质
CN112270184A (zh) * 2020-10-23 2021-01-26 平安科技(深圳)有限公司 自然语言处理方法、装置及存储介质
CN113392641A (zh) * 2020-10-26 2021-09-14 腾讯科技(深圳)有限公司 文本处理方法、装置、存储介质和设备
CN112101023A (zh) * 2020-10-29 2020-12-18 深圳市欢太科技有限公司 文本处理方法、装置以及电子设备
CN112434510A (zh) * 2020-11-24 2021-03-02 北京字节跳动网络技术有限公司 一种信息处理方法、装置、电子设备和存储介质
CN112434510B (zh) * 2020-11-24 2024-03-29 北京字节跳动网络技术有限公司 一种信息处理方法、装置、电子设备和存储介质
CN112329477A (zh) * 2020-11-27 2021-02-05 上海浦东发展银行股份有限公司 基于预训练模型的信息抽取方法、装置、设备及存储介质
CN112464654A (zh) * 2020-11-27 2021-03-09 科技日报社 关键词生成方法、装置、电子设备和计算机可读介质
CN112559770A (zh) * 2020-12-15 2021-03-26 北京邮电大学 文本数据的关系抽取方法、装置、设备及可读存储介质
CN112507190A (zh) * 2020-12-17 2021-03-16 新华智云科技有限公司 一种财经快讯的关键词提取方法和系统
CN112800226A (zh) * 2021-01-29 2021-05-14 上海明略人工智能(集团)有限公司 用于获取文本分类模型的方法、用于文本分类的方法、装置及设备
CN112906367A (zh) * 2021-02-08 2021-06-04 上海宏原信息科技有限公司 消费者文本的信息提取结构,标注方法和识别方法
CN113807095A (zh) * 2021-03-03 2021-12-17 京东科技控股股份有限公司 实体词提取模型的训练方法、装置、设备和存储介质
CN113807095B (zh) * 2021-03-03 2024-05-17 京东科技控股股份有限公司 实体词提取模型的训练方法、装置、设备和存储介质
CN112860842A (zh) * 2021-03-05 2021-05-28 联仁健康医疗大数据科技股份有限公司 病历标注方法、装置及存储介质
CN113055386B (zh) * 2021-03-12 2023-03-24 安天科技集团股份有限公司 一种攻击组织的识别分析方法和装置
CN113055386A (zh) * 2021-03-12 2021-06-29 哈尔滨安天科技集团股份有限公司 一种攻击组织的识别分析方法和装置
CN113705194A (zh) * 2021-04-12 2021-11-26 腾讯科技(深圳)有限公司 简称抽取方法及电子设备
CN113722422A (zh) * 2021-04-14 2021-11-30 腾讯科技(深圳)有限公司 模型训练方法、文本标签生成方法、装置、设备及介质
CN115248855A (zh) * 2021-04-27 2022-10-28 腾讯科技(深圳)有限公司 文本处理方法及装置、电子设备、计算机可读存储介质
CN113468322A (zh) * 2021-05-31 2021-10-01 北京达佳互联信息技术有限公司 关键词识别模型的训练、提取方法、装置、设备及介质
CN113407610A (zh) * 2021-06-30 2021-09-17 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备和可读存储介质
CN113407610B (zh) * 2021-06-30 2023-10-24 北京百度网讯科技有限公司 信息抽取方法、装置、电子设备和可读存储介质
CN115599903A (zh) * 2021-07-07 2023-01-13 腾讯科技(深圳)有限公司(Cn) 对象标签获取方法、装置、电子设备及存储介质
CN115599903B (zh) * 2021-07-07 2024-06-04 腾讯科技(深圳)有限公司 对象标签获取方法、装置、电子设备及存储介质
CN113806487B (zh) * 2021-09-23 2023-09-05 平安科技(深圳)有限公司 基于神经网络的语义搜索方法、装置、设备和存储介质
CN113806487A (zh) * 2021-09-23 2021-12-17 平安科技(深圳)有限公司 基于神经网络的语义搜索方法、装置、设备和存储介质
CN115758990A (zh) * 2022-10-14 2023-03-07 美的集团(上海)有限公司 文本的规范化方法、装置、存储介质和电子设备
CN116151194A (zh) * 2023-04-04 2023-05-23 上海燧原科技有限公司 中文通用语言的生成方法、装置、设备及存储介质
CN116151194B (zh) * 2023-04-04 2023-07-07 上海燧原科技有限公司 中文通用语言的生成方法、装置、设备及存储介质
CN116361422B (zh) * 2023-06-02 2023-09-19 深圳得理科技有限公司 关键词提取方法、文本检索方法及相关设备
CN116361422A (zh) * 2023-06-02 2023-06-30 深圳得理科技有限公司 关键词提取方法、文本检索方法及相关设备

Similar Documents

Publication Publication Date Title
CN110598213A (zh) 一种关键词提取方法、装置、设备及存储介质
CN111553162B (zh) 一种意图识别的方法以及相关装置
CN110705301B (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN109299458A (zh) 实体识别方法、装置、设备及存储介质
CN110598070B (zh) 应用类型识别方法及装置、服务器及存储介质
WO2012126259A1 (zh) 一种具有信息发布和搜索功能的系统及信息发布方法
CN111737432A (zh) 一种基于联合训练模型的自动对话方法和系统
CN112131368B (zh) 对话生成方法、装置、电子设备及存储介质
Wu et al. Cascade recurrent neural network for image caption generation
CN111523324A (zh) 命名实体识别模型的训练方法及装置
Windiatmoko et al. Developing facebook chatbot based on deep learning using rasa framework for university enquiries
CN110516035A (zh) 一种混合模块的人机交互方法和系统
CN112528654A (zh) 自然语言处理方法、装置及电子设备
CN112862021B (zh) 一种内容标注方法和相关装置
CN115062617A (zh) 基于提示学习的任务处理方法、装置、设备及介质
CN113609819B (zh) 标点符号确定模型及确定方法
Prakash et al. Chatterbot implementation using transfer learning and LSTM encoder-decoder architecture
CN113821587A (zh) 文本相关性确定方法、模型训练方法、装置及存储介质
CN113312924A (zh) 一种基于nlp高精解析标签的风险规则分类方法及装置
CN112925895A (zh) 自然语言软件运维方法及装置
CN116186295B (zh) 基于注意力的知识图谱链接预测方法、装置、设备及介质
Li et al. Deep binary constraint hashing for fast image retrieval
CN112417874A (zh) 命名实体的识别方法和装置、存储介质、电子装置
CN115378890B (zh) 信息输入方法、装置、存储介质及计算机设备
CN116340516A (zh) 实体关系的聚类提取方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20191220