CN112364136A - 关键词生成方法、装置、设备及存储介质 - Google Patents
关键词生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112364136A CN112364136A CN202110036768.4A CN202110036768A CN112364136A CN 112364136 A CN112364136 A CN 112364136A CN 202110036768 A CN202110036768 A CN 202110036768A CN 112364136 A CN112364136 A CN 112364136A
- Authority
- CN
- China
- Prior art keywords
- target text
- word
- score
- text
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 239000011159 matrix material Substances 0.000 claims abstract description 116
- 239000013598 vector Substances 0.000 claims abstract description 66
- 230000007246 mechanism Effects 0.000 claims abstract description 25
- 238000003062 neural network model Methods 0.000 claims abstract description 19
- 238000012417 linear regression Methods 0.000 claims description 59
- 230000015654 memory Effects 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 13
- 230000002457 bidirectional effect Effects 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000007726 management method Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000006978 adaptation Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请提供了一种关键词生成方法,包括:获取目标文本对应的词向量矩阵;将目标文本对应的词向量矩阵输入至神经网络模型,得到目标文本中每个词对应的得分,得分包括拼音维度的得分、词性维度的得分以及单词维度的得分;根据目标文本中每个词对应的得分,确定目标文本的搜索关键词。本申请实施例基于注意力机制的Bi‑LSTM网络,提取目标文本更深层次、更丰富的特征信息,同时结合拼音、词性、单词三个维度的得分,进一步得到更多尺度的信息特征,进而提高了目标文本关键词生成的准确率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种关键词生成方法、装置、设备及存储介质。
背景技术
随着互联网技术的快速发展,人们在生活、学习和工作中越来越依赖于互联网,例如通过互联网查找需要的视频或者文本资料。人们在查找资料时,只需在搜索引擎中输入需要查找的资料的关键词,即可得到需要的信息。但是,搜索引擎在根据用户输入的关键词进行查找时,主要是将用户输入的关键词与每个资料对应的关键词进行匹配,将匹配度高的资料呈现给用户。因此,搜索引擎查找到的资料与用户需要的资料的匹配程度依赖于资料对应的关键词,如果资料对应的关键词不能准确的表示该资料的主要内容,则搜索引擎的搜索到的资料不能很好的满足用户的需求。
发明内容
本申请提供了一种关键词生成方法、装置、设备及存储介质,能够提高目标文本关键词生成的准确率。
第一方面,本申请实施例提供了一种关键词生成方法,包括:获取目标文本对应的词向量矩阵;将目标文本对应的词向量矩阵输入至神经网络模型,得到目标文本中每个词对应的得分,得分包括拼音维度的得分、词性维度的得分以及单词维度的得分;根据目标文本中每个词对应的得分,确定目标文本的搜索关键词。
在一种可能的实现方式中,根据目标文本中每个词对应的得分,确定目标文本的搜索关键词,包括:对拼音维度的得分、词性维度的得分以及单词维度的得分进行加权求和,得到目标文本中的每个词对应的最终得分;将目标文本中的每个词根据最终得分从大到小进行排序,将排列在前的预设数量的词作为目标文本的搜索关键词。
在一种可能的实现方式中,获取目标文本对应的词向量矩阵之前,还包括:获取目标文本,对目标文本进行分词处理,得到目标文本对应的多个词;对目标文本对应的多个词采用词向量模型进行处理,得到目标文本对应的词向量矩阵。
在一种可能的实现方式中,获取目标文本对应的词向量矩阵之前,还包括:获取训练文本对应的词向量矩阵;将训练文本的词向量矩阵输入至基于注意力机制的双向长短期记忆人工神经网络模型,得到训练文本对应的文本表示矩阵;文本表示矩阵与拼音维度的实际得分训练第一线性回归模型,得到训练文本对应的拼音维度的预测得分,根据拼音维度的预测得分与拼音维度的实际得分,确定第一损失函数值;根据第一损失函数值更新第一线性回归模型的拼音维度的权重矩阵和第一线性回归模型的拼音维度的偏置矩阵,得到训练好的第一线性回归模型;文本表示矩阵与词性维度的实际得分训练第二线性回归模型,得到训练文本对应的词性维度的预测得分,根据词性维度的预测得分与词性维度的实际得分,确定第二损失函数值;根据第二损失函数值更新第二线性回归模型的词性维度的权重矩阵和第二线性回归模型的词性维度的偏置矩阵,得到训练好的第二线性回归模型;文本表示矩阵与单词维度的实际得分训练第三线性回归模型,得到训练文本对应的单词维度的预测得分,根据单词维度的预测得分与单词维度的实际得分,确定第三损失函数值;根据第三损失函数值更新第三线性回归模型的单词维度的权重矩阵和第三线性回归模型的单词维度的偏置矩阵,得到训练好的第三线性回归模型。
在一种可能的实现方式中,上述将目标文本对应的词向量矩阵输入至神经网络模型,得到目标文本中每个词对应的得分,包括:将目标文本对应的词向量矩阵输入至基于注意力机制的双向长短期记忆人工神经网络模型,得到目标文本对应的文本表示矩阵;根据训练好的第一线性回归模型中的拼音维度的权重矩阵、拼音维度的偏置矩阵以及文本表示矩阵,确定所述目标文本中每个词对应的拼音维度的得分。
在一种可能的实现方式中,上述将目标文本对应的词向量矩阵输入至神经网络模型,得到目标文本中每个词对应的得分,包括:将目标文本对应的词向量矩阵输入至基于注意力机制的双向长短期记忆人工神经网络模型,得到目标文本对应的文本表示矩阵;根据训练好的第二线性回归模型中词性维度的权重矩阵、词性维度的偏置矩阵以及文本表示矩阵,确定所述目标文本中每个词对应的词性维度的得分。
在一种可能的实现方式中,上述将将目标文本对应的词向量矩阵输入至神经网络模型,得到目标文本中每个词对应的得分,包括:将目标文本对应的词向量矩阵输入至基于注意力机制的双向长短期记忆人工神经网络模型,得到目标文本对应的文本表示矩阵;根据训练好的第三线性回归模型中单词维度的权重矩阵、单词维度的偏置矩阵以及文本表示矩阵,确定目标文本中每个词对应的单词维度的得分。
本申请实施例通过采用基于注意力机制的双向长短期记忆人工神经网络,采用双向长短期记忆人工神经网络学习目标文本的语义信息,从两个方向去捕捉目标文本语义之间的依赖关系,利用目标文本的上下文信息,挖掘了目标文本更丰富的信息;采用意力机制学习句子中不同单词的权重分布,为目标文本重新分配单词权重,突出对目标文本中关键词的关注,进一步地提取目标文本中更深层次的信息。
第二方面,本申请实施例提供了一种关键词生成装置,包括:获取单元,用于获取目标文本对应的词向量矩阵;处理单元,用于将目标文本对应的词向量矩阵输入至神经网络模型,得到目标文本中每个词对应的得分,得分包括拼音维度的得分、词性维度的得分以及单词维度的得分;确定单元,用于根据目标文本中每个词对应的得分,确定目标文本的搜索关键词。
第三方面,本申请实施例提供了一种关键词生成设备,包括:处理器和存储器,处理器执行存储器中的代码执行如第一方面或第一方面任意一种实现方式提供的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,包括指令,当指令在计算机上运行时,使得计算机执行如第一方面或第一方面任意一种实现方式提供的方法。
本申请实施例通过利用注意力机制的双向长短期记忆人工神经网络与线性回归模型,同时根据拼音、词性、单词三个维度的得分,确定目标文本对应的关键词。利用了目标文本的上下文信息、突出对目标文本中关键词的关注,分别从三个维度对关键词进行评分,提取目标文本中更丰富、更深层次、更多尺度的特征信息,进而提高了目标文本关键词生成的准确率。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1是本申请实施例提供的一种关键词生成方法示意流程图;
图2是本申请实施例提供的一种关键词生成方法的过程示意图;
图3是本申请实施例提供的一种关键词生成装置结构示意图;
图4是本申请实施例提供的一种电子设备结构框图。
具体实施方式
本申请的实施例部分使用的术语仅用于对本申请的具体实施例进行解释,而非旨在限定本申请。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本申请说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
本申请实施例提供的关键词生成方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述关键词生成方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次数据的信息,例如在一个周期内获取的实例的性能数据和访问数据,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
本申请主要应用于提取文本资料的关键词,将文本对应的词向量矩阵输入到本申请实施例提供的训练好的神经网络模型中之后,能够得到该文本中每个词对应的拼音维度的得分、词性维度的得分以及单词维度的得分,进而根据这三个维度的得分进行加权计算得到每个词的最终得分,并根据每个词的最终得分确定该文本对应的搜索关键词。
本申请提供的神经网络模型包括基于注意力机制的双向长短期记忆人工神经网络模型(Bi-Long Short-Term Memory,Bi-LSTM)、第一线性回归模型、第二线性回归模型与第三线性回归模型。在训练阶段,将训练文本对应的词向量矩阵输入至基于注意力机制的Bi-LSTM中,通过基于注意力机制的Bi-LSTM的处理后,得到训练文本对应的文本表示矩阵,然后将文本表示矩阵与该训练文本中每个词对应的拼音维度的实际得分输入至第一线性回归模型中,训练第一线性回归模型,得到该训练文本中每个词对应的拼音维度的预测得分,通过拼音维度的预测得分与拼音维度的实际得分,计算该训练文本对应的第一损失函数值,然后根据第一损失函数值更新该第一线性回归模型的权重矩阵和第一线性回归模型的偏置矩阵。根据上述相同的过程,通过多个训练文本训练第一线性回归模型,直至模型收敛或者训练次数达到预设训练次数,得到训练好的所述第一线性回归模型,即得到训练好的第一线性回归模型对应的权重矩阵和偏置矩阵。根据上述相同的方法,将训练文本对应的文本表示矩阵与该训练文本中每个词对应的词性维度的实际得分输入至第二线性回归模型中,训练第二线性回归模型,能够得到训练好的第二线性回归模型。将训练文本对应的文本表示矩阵与该训练文本中每个词对应的单词维度的实际得分输入至第三线性回归模型中,训练第三线性回归模型,能够得到训练好的第三线性回归模型。
本申请实施例提供了一种关键词生成方法,参见图1,图1是本申请实施例提供的一种关键词生成方法示意流程图,如图1所示,该方法包括:
S101:获取目标文本,对目标文本进行处理,得到目标文本对应的词向量矩阵。
本申请实施例中,目标文本为一个网络资源的简介,例如一段讲课视频的文字介绍、一篇论文的摘要或一本电子书的简介。在获取目标文本之后,使用分词器对目标文本中的每一句文本进行分词,得到每一句话对应的多个词,对每句话对应的多个词进行词性标注、拼音标注,并采用词向量模型进行处理,得到每句话对应词向量。对于目标文本的多句话,可以得到目标文本对应的词向量矩阵。
其中,分词器可以jieba分词器、elasticsesrch分词器、语言技术平台(LanguageTechnology Platform,LTP)等分词器中的任意一种,词向量模型可以是利用Gensim训练的Skip-Gram模型或者连续词袋(continuous bag of word)模型,本申请实施例不做具体限定。
可选地,在使用词向量模型将每个词转换为词向量之前,还可以包括去除停用词的步骤。
S102:将目标文本对应的词向量矩阵输入至神经网络模型,得到目标文本中每个词对应的得分。
在得到目标文本对应的词向量矩阵之后,将目标文本对应的词向量矩阵输入至神经网络模型中,分别得到目标文本中每个关键词对应的拼音维度的得分、词性维度的得分以及单词维度的得分。
在一种具体的实现方式中,如图2所示,图2示出了本实施例提供的一种关键词生成方法的过程示意图,上述神经网络结构包括语义学习层、重点关注层、维度得分层。
首先将目标文本对应的词向量矩阵输入至语义学习层,本申请实施例语义学习层采用Bi-LSTM网络学习目标文本的语义信息,Bi-LSTM是由正反两个LSTM网络组成,从正、方两个方向去捕捉语义之间的依赖关系,利用目标文本上下文信息,可以挖掘目标文本更丰富的特征信息。具体地,Bi-LSTM通过遗忘门、输入门、输出门来控制记忆单元状态。xt表示t时刻LSTM单元的输入数据,ht是t时刻输出,Ct是t时刻记忆单元值。遗忘门ft控制记忆单元中哪些信息需要丢弃,通过接收上一个时刻LSTM的输出结果ht-1和当前时刻的输入xt信息,输出一个0-1之间的向量,该向量里面的0-1值表示记忆单元Ct-1中哪一些信息保留或者丢弃,其中0表示丢弃,1表示保留。t时刻遗忘门ft的输出计算公式为:
其中,σ为sigmoid函数,Wf是遗忘门的权重,bf为遗忘门偏置。
输入门it是控制当前的输入数据中应该保存哪些信息it到记忆单元中,同样,输入门通过接收上一个时刻LSTM的输出结果ht-1和当前时刻的输入xt信息,t时刻输入门的输出计算公式为:
其中,Wi是输入门的权重,bi为输入门偏置。
接下来跟新记忆单元的状态,当前时刻的记忆单元接收输入门和遗忘门的值,由状态由状态Ct-1至Ct状态,更新公式为:
其中,tanh为双曲正切函数,Wc为更新后的候选值权重,bc为更新候选值偏置。
输出门ot控制记忆单元中哪些信息需要输出:
其中,Wo更新输出值的权重,bo为更新输出值偏置。
当前单元的输出表示为:
其中,ht为最终输出值。
本申请实施例通过采用Bi-LSTM网络学习目标文本的语义信息,从两个方向去捕捉目标文本语义之间的依赖关系,利用目标文本的上下文信息,挖掘了目标文本更丰富的信息。
接下来,将Bi-LSTM隐含状态的输出作为重点关注层的输入,重点关注层采用注意力机制学习句子中不同单词的权重分布,为目标文本重新分配单词权重,突出目标文本中关键词的权重,即使模型突出对目标文本中关键词的关注。
具体的计算方式为:
本申请实施例采用注意力机制学习句子中不同单词的权重分布,为目标文本重新分配单词权重,突出对目标文本中关键词的关注,进一步地提取目标文本中更深层次的信息。
然后,将重点关注层输出的文本表示矩阵分别输入维度得分层,分别得到拼音维度、词性维度、单词维度得分。
具体地,经过重点关注层的注意力机制后,将注意力机制分别输出目标文本对应的句子表示矩阵h,将h分别输入至维度得分层,可以得到目标文本中每个词对应的拼音维度的得分、词性维度的得分、单词维度的得分。其中,维度得分层包括第一线性回归模型、第二线性回归模型、第三线性回归模型。
具体地,当注意力机制输出上述文本表示对应的矩阵h,将h输入第一线性回归模型,可以得到目标文本在拼音维度的得分为:
其中,W1为训练好的第一线性回归模型中拼音维度的权重矩阵,b1表示训练好的第一线性回归模型中拼音维度的偏置矩阵。
当注意力机制输出上述文本表示对应的矩阵h,将h输入第二线性回归模型,可以得到目标文本在词性维度的得分为:
其中,W2为训练好的第二线性回归模型中词性维度的权重矩阵,b2表示训练好的第二线性回归模型中词性维度的偏置矩阵。
当注意力机制输出单词维度的上述文本表示对应的矩阵h3,那么对于目标文本在单词维度的得分为:
其中,W3为训练好的第三线性回归模型中单词维度的权重矩阵,b3表示训练好的第三线性回归模型中单词维度的偏置矩阵。
本申请实施例通过结合拼音、词性、单词三个维度的得分,进一步得到更多尺度的信息特征,进而提高了目标文本关键词生成的准确率。
S103:根据目标文本中每个词对应的得分,确定目标文本的搜索关键词。
具体地,对目标文本中每个词对应的拼音维度的得分S1、词性维度的得分S2以及单词维度的得分S3进行加权求和,得到目标文本中的每个词对应的最终得分。将目标文本中的每个词根据最终得分从大到小进行排序,将排列在前的预设数量的词作为目标文本的搜索关键词。
本申请实施例通过将目标文本对应的词向量矩阵输入基于注意力机制的Bi-LSTM网络模型与线性回归模型,通过拼音、词性、单词三个维度的得分,确定目标文本对应的关键词。利用了目标文本的上下文信息、突出对目标文本中关键词的关注,分别从三个维度对关键词评分,提取目标文本中更丰富、更深层次、更多尺度的特征信息,进而提高了目标文本关键词生成的准确率。
本申请实施例还提供了一种关键词生成装置,该装置可用于实现本申请上述各关键词生成方法实施例。具体地,参见图3,图3是本申请实施例提供的一种关键词生成装置结构示意图。本实施例的装置300包括:
获取单元301,用于获取目标文本对应的词向量矩阵;
处理单元302,用于将目标文本对应的词向量矩阵输入至神经网络模型,得到目标文本中每个词对应的得分,得分包括拼音维度的得分、词性维度的得分以及单词维度的得分;
确定单元303,用于根据目标文本中每个词对应的得分,确定目标文本的搜索关键词。
本申请关键词生成装置的一个具体实施例中,上述获取单元301,用于在获取目标文本之后,使用分词器对目标文本中的每一句文本进行分词,得到每一句话对应的多个词,对每句话对应的多个词进行词性标注、拼音标注,并采用词向量模型进行处理,得到每句话对应词向量。对于目标文本的多句话,可以得到目标文本对应的词向量矩阵。其中,目标文本为一个网络资源的简介,例如一段讲课视频的文字介绍、一篇论文的摘要或一本电子书的简介。
本申请关键词生成装置的一个具体实施例中,上述处理单元302,用于在得到目标文本对应的词向量矩阵之后,将目标文本对应的词向量矩阵输入至神经网络模型中,分别得到目标文本中每个关键词对应的拼音维度的得分、词性维度的得分以及单词维度的得分。
本申请关键词生成装置的一个具体实施例中,上述确定单元303,用于对目标文本中每个词对应的拼音维度的得分、词性维度的得分以及单词维度的得分进行加权求和,得到目标文本中的每个词对应的最终得分。将目标文本中的每个词根据最终得分从大到小进行排序,将排列在前的预设数量的词作为目标文本的搜索关键词。
另外,本申请实施例提供了一种电子设备,其可以包括本申请上述任一实施例的代码补全方法。具体地,该电子设备例如可以是终端设备或者服务器等设备。
本申请实施例还提供了另一种电子设备,包括:
处理器和存储器,处理器执行存储器中的代码,从而完成本申请上述任一实施例代码补全方法的操作。
图4是本申请实施例提供的一种电子设备结构框图。下面参考图4,其示出了适于用来实现本申请实施例的终端设备或服务器的电子设备的结构示意图。如图4所示,该电子设备包括:一个或多个处理器401;通信接口402,存储器403。上述处理器401、通信接口402、和存储器403通过总线404连接。存储器403用于存储指令,处理器401用于执行存储器403存储的指令。其中,处理器401被配置用于调用程序指令执行:
获取目标文本对应的词向量矩阵;
将目标文本对应的词向量矩阵输入至神经网络模型,得到目标文本中每个词对应的得分,得分包括拼音维度的得分、词性维度的得分以及单词维度的得分;
根据目标文本中每个词对应的得分,确定目标文本的搜索关键词。
应当理解,在本申请实施例中,所称处理器401可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
通信接口402可以为有线接口或无线接口,用于与其他模块或设备进行通信,有线接口可以是以太接口、局域互联网络(local interconnect network,LIN)等,无线接口可以是蜂窝网络接口或使用无线局域网接口等。
存储器403可以是非易失性存储器,例如,只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。存储器1003也可以是易失性存储器,易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。
存储器403也可用于存储指令和数据,以便于处理器401调用存储器403中存储的指令实现上述代码补全装置执行的操作。
总线404可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。总线404可以分为地址总线、数据总线、控制总线等。为便于表示,图4中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选地,还可以包括输入/输出接口405,输入/输出接口405连接有输入/输出设备,用于接收输入的信息,输出操作结果。
具体实现中,本申请实施例中所描述的处理器401、通信接口402、可执行本申请实施例提供的一种代码补全方法和装置的各个实施例中所描述的实现方式,在此不再赘述。
在本申请实施例还提供一种计算机可读存储介质,上述的计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储有计算机程序,计算机程序包括程序指令,程序指令被处理器执行时实现:获取目标文本对应的词向量矩阵;将词向量矩阵输入至神经网络模型,得到目标文本中每个词对应的得分,得分包括拼音维度的得分、词性维度的得分以及单词维度的得分;根据目标文本中每个词对应的得分,确定目标文本的搜索关键词;存储数据区可存储根据区块链节点的使用所创建的数据等。其中,本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
计算机可读存储介质可以是前述任一实施例的电子设备的内部存储单元,例如终端的硬盘或内存。计算机可读存储介质也可以是终端的外部存储设备,例如终端上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,计算机可读存储介质还可以既包括电子设备的内部存储单元也包括外部存储设备。计算机可读存储介质用于存储计算机程序以及电子设备所需的其他程序和数据。计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的服务器、设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程,也可执行发明实施例所描述的电子设备的实现方式,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的服务器、设备和方法,可以通过其它的方式实现。例如,以上所描述的服务器实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种关键词生成方法,其特征在于,包括:
获取目标文本对应的词向量矩阵;
将所述目标文本对应的词向量矩阵输入至神经网络模型,得到所述目标文本中每个词对应的得分,所述得分包括拼音维度的得分、词性维度的得分以及单词维度的得分;
根据所述目标文本中每个词对应的得分,确定所述目标文本的搜索关键词。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本中每个词对应的得分,确定所述目标文本的搜索关键词,包括:
对所述拼音维度的得分、所述词性维度的得分以及所述单词维度的得分进行加权求和,得到所述目标文本中每个词对应的最终得分;
将所述目标文本中的每个词根据最终得分从大到小进行排序,将排列在前的预设数量的词作为所述目标文本的搜索关键词。
3.根据权利要求1所述的方法,其特征在于,所述获取目标文本对应的词向量矩阵之前,还包括:
获取目标文本,对所述目标文本进行分词处理,得到所述目标文本对应的多个词;
对所述目标文本对应的多个词分别采用词向量模型进行处理,得到所述目标文本对应的词向量矩阵。
4.根据权利要求3所述的方法,其特征在于,所述获取目标文本对应的词向量矩阵之前,还包括:
获取训练文本对应的词向量矩阵;
将所述训练文本的词向量矩阵输入至基于注意力机制的双向长短期记忆人工神经网络模型,得到所述训练文本对应的文本表示矩阵;
用所述文本表示矩阵与拼音维度的实际得分训练第一线性回归模型,得到所述训练文本对应的拼音维度的预测得分,根据所述拼音维度的预测得分与所述拼音维度的实际得分,确定第一损失函数值;根据所述第一损失函数值更新所述第一线性回归模型的拼音维度的权重矩阵和所述第一线性回归模型的拼音维度的偏置矩阵,得到训练好的第一线性回归模型;
用所述文本表示矩阵与词性维度的实际得分训练第二线性回归模型,得到所述训练文本对应的词性维度的预测得分,根据所述词性维度的预测得分与所述词性维度的实际得分,确定第二损失函数值;根据所述第二损失函数值更新所述第二线性回归模型的词性维度的权重矩阵和所述第二线性回归模型的词性维度的偏置矩阵,得到训练好的第二线性回归模型;
用所述文本表示矩阵与单词维度的实际得分训练第三线性回归模型,得到所述训练文本对应的单词维度的预测得分,根据所述单词维度的预测得分与所述单词维度的实际得分,确定第三损失函数值;根据所述第三损失函数值更新所述第三线性回归模型的单词维度的权重矩阵和所述第三线性回归模型的单词维度的偏置矩阵,得到训练好的第三线性回归模型。
5.根据权利要求4所述的方法,其特征在于,所述将所述目标文本对应的词向量矩阵输入至所述神经网络模型,得到所述目标文本中每个词对应的得分,包括:
将所述目标文本对应的词向量矩阵输入至所述基于注意力机制的双向长短期记忆人工神经网络模型,得到所述目标文本对应的所述文本表示矩阵;
根据所述训练好的第一线性回归模型中的拼音维度的权重矩阵、拼音维度的偏置矩阵以及所述文本表示矩阵,确定所述目标文本中每个词对应的拼音维度的得分。
6.根据权利要求4所述的方法,其特征在于,所述将所述目标文本对应的词向量矩阵输入至所述神经网络模型,得到所述目标文本中每个词对应的得分,包括:
将所述目标文本对应的词向量矩阵输入至所述基于注意力机制的双向长短期记忆人工神经网络模型,得到所述目标文本对应的所述文本表示矩阵;
根据所述训练好的第二线性回归模型中词性维度的权重矩阵、词性维度的偏置矩阵以及所述文本表示矩阵,确定所述目标文本中每个词对应的词性维度的得分。
7.根据权利要求4所述的方法,其特征在于,所述将所述目标文本对应的词向量矩阵输入至所述神经网络模型,得到所述目标文本中每个词对应的得分,包括:
将所述目标文本对应的词向量矩阵输入至所述基于注意力机制的双向长短期记忆人工神经网络模型,得到所述目标文本对应的所述文本表示矩阵;
根据所述训练好的第三线性回归模型中单词维度的权重矩阵、单词维度的偏置矩阵以及所述文本表示矩阵,确定所述目标文本中每个词对应的单词维度的得分。
8.一种关键词生成装置,其特征在于,包括:
获取单元,用于获取目标文本对应的词向量矩阵;
处理单元,用于将所述目标文本对应的词向量矩阵输入至所述神经网络模型,得到所述目标文本中每个词对应的得分,所述得分包括拼音维度的得分、词性维度的得分以及单词维度的得分;
确定单元,用于根据所述目标文本中每个词对应的得分,确定所述目标文本的搜索关键词。
9.一种关键词生成设备,其特征在于,包括:处理器和存储器,所述处理器执行所述存储器中的代码时,执行如权利要求1至7任一权利要求所述的方法。
10.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得所述计算机执行如权利要求1至7任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110036768.4A CN112364136B (zh) | 2021-01-12 | 2021-01-12 | 关键词生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110036768.4A CN112364136B (zh) | 2021-01-12 | 2021-01-12 | 关键词生成方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364136A true CN112364136A (zh) | 2021-02-12 |
CN112364136B CN112364136B (zh) | 2021-04-23 |
Family
ID=74534835
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110036768.4A Active CN112364136B (zh) | 2021-01-12 | 2021-01-12 | 关键词生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364136B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377965A (zh) * | 2021-06-30 | 2021-09-10 | 中国农业银行股份有限公司 | 感知文本关键词的方法及相关装置 |
CN118171648A (zh) * | 2024-05-11 | 2024-06-11 | 中移(苏州)软件技术有限公司 | 文本提取方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133045A (zh) * | 2018-01-12 | 2018-06-08 | 广州杰赛科技股份有限公司 | 关键词提取方法与系统、关键词提取模型生成方法与系统 |
US20180189269A1 (en) * | 2016-12-30 | 2018-07-05 | Microsoft Technology Licensing, Llc | Graph long short term memory for syntactic relationship discovery |
CN108363790A (zh) * | 2018-02-12 | 2018-08-03 | 百度在线网络技术(北京)有限公司 | 用于对评论进行评估的方法、装置、设备和存储介质 |
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
CN109712083A (zh) * | 2018-12-06 | 2019-05-03 | 南京邮电大学 | 一种基于卷积神经网络的单幅图像去雾方法 |
CN110263122A (zh) * | 2019-05-08 | 2019-09-20 | 北京奇艺世纪科技有限公司 | 一种关键词获取方法、装置及计算机可读存储介质 |
US20200057632A1 (en) * | 2018-08-20 | 2020-02-20 | Accenture Global Solutions Limited | Automatically evaluating software project requirements |
US20200104367A1 (en) * | 2018-09-30 | 2020-04-02 | International Business Machines Corporation | Vector Representation Based on Context |
-
2021
- 2021-01-12 CN CN202110036768.4A patent/CN112364136B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180189269A1 (en) * | 2016-12-30 | 2018-07-05 | Microsoft Technology Licensing, Llc | Graph long short term memory for syntactic relationship discovery |
CN108133045A (zh) * | 2018-01-12 | 2018-06-08 | 广州杰赛科技股份有限公司 | 关键词提取方法与系统、关键词提取模型生成方法与系统 |
CN108363790A (zh) * | 2018-02-12 | 2018-08-03 | 百度在线网络技术(北京)有限公司 | 用于对评论进行评估的方法、装置、设备和存储介质 |
CN108664473A (zh) * | 2018-05-11 | 2018-10-16 | 平安科技(深圳)有限公司 | 文本关键信息的识别方法、电子装置及可读存储介质 |
US20200057632A1 (en) * | 2018-08-20 | 2020-02-20 | Accenture Global Solutions Limited | Automatically evaluating software project requirements |
US20200104367A1 (en) * | 2018-09-30 | 2020-04-02 | International Business Machines Corporation | Vector Representation Based on Context |
CN109712083A (zh) * | 2018-12-06 | 2019-05-03 | 南京邮电大学 | 一种基于卷积神经网络的单幅图像去雾方法 |
CN110263122A (zh) * | 2019-05-08 | 2019-09-20 | 北京奇艺世纪科技有限公司 | 一种关键词获取方法、装置及计算机可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113377965A (zh) * | 2021-06-30 | 2021-09-10 | 中国农业银行股份有限公司 | 感知文本关键词的方法及相关装置 |
CN113377965B (zh) * | 2021-06-30 | 2024-02-23 | 中国农业银行股份有限公司 | 感知文本关键词的方法及相关装置 |
CN118171648A (zh) * | 2024-05-11 | 2024-06-11 | 中移(苏州)软件技术有限公司 | 文本提取方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112364136B (zh) | 2021-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111506722B (zh) | 基于深度学习技术的知识图谱问答方法、装置及设备 | |
CN109992664B (zh) | 争议焦点的标注分类方法、装置、计算机设备和存储介质 | |
CN113688221B (zh) | 基于模型的话术推荐方法、装置、计算机设备和存储介质 | |
CN112347310A (zh) | 事件处理信息的查询方法、装置、计算机设备和存储介质 | |
WO2021204017A1 (zh) | 文本意图识别方法、装置以及相关设备 | |
CN112612894A (zh) | 意图识别模型的训练方法、装置、计算机设备和存储介质 | |
CN111368926B (zh) | 图像筛选方法、装置和计算机可读存储介质 | |
CN112364136B (zh) | 关键词生成方法、装置、设备及存储介质 | |
CN110866119B (zh) | 一种文章质量的确定方法、装置、电子设备及存储介质 | |
CN113204968B (zh) | 医学实体的概念识别方法、装置、设备及存储介质 | |
CN113821587B (zh) | 文本相关性确定方法、模型训练方法、装置及存储介质 | |
CN110688478A (zh) | 一种答案排序方法、装置及存储介质 | |
WO2021174923A1 (zh) | 概念词序列生成方法、装置、计算机设备及存储介质 | |
CN112988963A (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN111966811A (zh) | 意图识别和槽填充方法、装置、可读存储介质及终端设备 | |
Kim et al. | An online learning network for biometric scores fusion | |
CN112347254A (zh) | 新闻文本的分类方法、装置、计算机设备和存储介质 | |
CN110597956A (zh) | 一种搜索方法、装置及存储介质 | |
CN113128196A (zh) | 文本信息处理方法及其装置、存储介质 | |
CN113704410A (zh) | 情绪波动检测方法、装置、电子设备及存储介质 | |
CN116956896A (zh) | 基于人工智能的文本分析方法、系统、电子设备及介质 | |
CN111639164A (zh) | 问答系统的问答匹配方法、装置、计算机设备及存储介质 | |
CN118277573A (zh) | 基于ChatGLM模型的院前急救文本分类标注方法、电子设备、存储介质及计算机程序产品 | |
CN113220828B (zh) | 意图识别模型处理方法、装置、计算机设备及存储介质 | |
CN114398902A (zh) | 基于人工智能的中文语义提取方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |