CN111859940B - 一种关键词提取方法、装置、电子设备及存储介质 - Google Patents

一种关键词提取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111859940B
CN111859940B CN201910330302.8A CN201910330302A CN111859940B CN 111859940 B CN111859940 B CN 111859940B CN 201910330302 A CN201910330302 A CN 201910330302A CN 111859940 B CN111859940 B CN 111859940B
Authority
CN
China
Prior art keywords
text
processed
word
feature vector
keyword extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910330302.8A
Other languages
English (en)
Other versions
CN111859940A (zh
Inventor
潘慧
陈坦访
王伟玮
李奘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN201910330302.8A priority Critical patent/CN111859940B/zh
Publication of CN111859940A publication Critical patent/CN111859940A/zh
Application granted granted Critical
Publication of CN111859940B publication Critical patent/CN111859940B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种关键词提取方法、装置、电子设备及存储介质,其中,该方法包括:获取待处理文本;对所述待处理文本进行分词处理,并基于处理后的各个分词,生成所述待处理文本的特征向量;基于所述待处理文本的特征向量,启用注意力机制解析所述待处理文本的特征向量所表征的各个分词的权重值;基于所述待处理文本的特征向量所表征的各个分词的权重值,从所述各个分词中选择所述待处理文本的关键词。本申请实施例通过启用自注意力机制进行关键词提取,无需进行语料标注,加快了关键词的提取效率,提高了选取的关键词的准确度,能够提取到符合任务实际需求的关键词。

Description

一种关键词提取方法、装置、电子设备及存储介质
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种关键词提取方法、装置、电子设备及存储介质。
背景技术
关键词抽取具有各种各样的应用场景,比如信息搜索,信息推送等。在这些场景中需要找到输入文本的关键词,并基于该关键词进行信息搜索和信息推送。
目前,关键词提取方法是基于已经标注好的训练语料,并利用已标注好的语料训练关键词提取模型,并基于训练好的关键词提取模型提取输入文本中的关键词。但是,上述关键词提取方法中,需要预先对训练语料进行标注,标注工作量大且标注过程复杂,影响了关键词的提取效率。
发明内容
有鉴于此,本申请实施例的目的在于提供一种关键词提取方法、装置、电子设备及存储介质,加快了关键词的提取效率,提高了选取的关键词的准确度。
第一方面,本申请实施例提供了一种关键词提取装置,所述装置包括:
获取模块,用于获取待处理文本;
编码模块,用于对所述待处理文本进行分词处理,并基于处理后的各个分词,生成所述待处理文本的特征向量;
解析模块,用于基于所述待处理文本的特征向量,启用注意力机制解析所述待处理文本的特征向量所表征的各个分词的权重值;
选择模块,用于基于所述待处理文本的特征向量所表征的各个分词的权重值,从所述各个分词中选择所述待处理文本的关键词。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,所述编码模块,具体用于根据以下步骤基于处理后的各个分词,生成所述待处理文本的特征向量:
对所述待处理文本中的各个分词进行编码处理,得到各个分词对应的分词特征向量;所述分词特征向量至少包括所述分词对应的第一语义特征向量;
基于所述待处理文本中各个分词对应的分词特征向量,生成所述待处理文本的语义特征向量。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述编码模块,具体用于根据以下步骤基于所述待处理文本中各个分词对应的分词特征向量,生成所述待处理文本的语义特征向量:
针对所述待处理文本中的每一分词,基于该分词对应的分词特征向量以及该分词之前各个分词对应的分词特征向量,生成该分词对应的第二语义特征向量;
将所述待处理文本中各个分词对应的第二语义特征向量进行组合,得到所述待处理文本的语义特征向量。
结合第一方面,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述编码模块,具体用于根据以下步骤对所述待处理文本进行分词处理:
提取所述待处理文本中的原始分词;
从所述原始分词中查找匹配预设的停用词表的停用词;
将所述原始分词中除去所述停用词的各个分词,确定为参与处理的各个分词。
结合第一方面的第二种可能的实施方式,本申请实施例提供了第一方面的第四种可能的实施方式,其中,所述解析模块,具体用于根据以下步骤启用注意力机制解析所述待处理文本的特征向量所表征的各个分词的权重值:
基于所述待处理文本的语义特征向量,对所述待处理文本中的各个分词进行特征提取,得到各个分词对应的第三语义特征向量;
针对所述待处理文本中的每一分词,基于该分词对应的第三语义特征向量以及所述待处理文本中的基准分词对应的第三语义特征向量,确定该分词与所述基准分词的相似度,并将该相似度确定为该分词对应的权重值;其中,所述基准分词为位于所述待处理文本中任一位置的分词。
结合第一方面的第四种可能的实施方式,本申请实施例提供了第一方面的第五种可能的实施方式,其中,所述解析模块,具体用于根据以下步骤基于所述待处理文本的语义特征向量,对所述待处理文本中的各个分词进行特征提取,得到各个分词对应的第三语义特征向量:
基于预设的多个卷积核通道分别对所述待处理文本的语义特征向量进行处理,得到所述待处理文本中的各个分词在每个卷积核通道下的第三语义特征向量;其中,每个所述卷积核通道中包括至少一个卷积核且不同卷积核通道中的卷积核不同;
将多个卷积核通道下的第三语义特征向量进行拼接处理,得到所述待处理文本中的各个分词对应的第三语义特征向量。
结合第一方面,本申请实施例提供了第一方面的第六种可能的实施方式,其中,所述获取模块,具体用于根据以下步骤获取待处理文本:
获取原始文本;
判断所述原始文本的文本长度是否超过预设处理长度;
若是,则按照所述预设处理长度将所述原始文本划分为多个待处理文本。
结合第一方面,本申请实施例提供了第一方面的第七种可能的实施方式,其中,所述选择模块,具体用于根据以下步骤基于所述待处理文本的特征向量所表征的各个分词的权重值,从所述各个分词中选择所述待处理文本的关键词:
将所述待处理文本中各个分词的权重值分别与预设阈值进行比较;
将对应的权重值大于所述预设阈值的目标分词,确定为所述待处理文本的关键词。
结合第一方面,本申请实施例提供了第一方面的第八种可能的实施方式,其中,所述装置还包括:
查找模块,用于从预设的问答数据库中,查找与所述待处理文本的关键词相匹配的问题关键词;其中,所述问答数据库中包括多个问题关键词以及每个所述问题关键词对应的答案内容;
发送模块,用于将所述问题关键词对应的答案内容返回给相应的用户端。
结合第一方面,本申请实施例提供了第一方面的第九种可能的实施方式,其中,所述装置还包括:
获取模块,用于获取所述待处理文本的文本属性信息;
生成模块,用于基于所述待处理文本的文本属性信息和所述待处理文本的关键词,生成所述待处理文本的记录信息。
结合第一方面的第九种可能的实施方式,本申请实施例提供了第一方面的第十种可能的实施方式,其中,所述文本属性信息包括以下信息中的一种或多种:文本标识信息、用户标识信息、时间信息。
第二方面,本申请实施例还提供了一种关键词提取方法,所述方法包括:
获取待处理文本;
对所述待处理文本进行分词处理,并基于处理后的各个分词,生成所述待处理文本的特征向量;
基于所述待处理文本的特征向量,启用注意力机制解析所述待处理文本的特征向量所表征的各个分词的权重值;
基于所述待处理文本的特征向量所表征的各个分词的权重值,从所述各个分词中选择所述待处理文本的关键词。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,所述基于处理后的各个分词,生成所述待处理文本的特征向量,具体包括:
对所述待处理文本中的各个分词进行编码处理,得到各个分词对应的分词特征向量;所述分词特征向量至少包括所述分词对应的第一语义特征向量;
基于所述待处理文本中各个分词对应的分词特征向量,生成所述待处理文本的语义特征向量。
结合第二方面的第一种可能的实施方式,本申请实施例提供了第二方面的第二种可能的实施方式,其中,所述基于所述待处理文本中各个分词对应的分词特征向量,生成所述待处理文本的语义特征向量,具体包括:
针对所述待处理文本中的每一分词,基于该分词对应的分词特征向量以及该分词之前各个分词对应的分词特征向量,生成该分词对应的第二语义特征向量;
将所述待处理文本中各个分词对应的第二语义特征向量进行组合,得到所述待处理文本的语义特征向量。
结合第二方面,本申请实施例提供了第二方面的第三种可能的实施方式,其中,所述对所述待处理文本进行分词处理,具体包括:
提取所述待处理文本中的原始分词;
从所述原始分词中查找匹配预设的停用词表的停用词;
将所述原始分词中除去所述停用词的各个分词,确定为参与处理的各个分词。
结合第二方面的第二种可能的实施方式,本申请实施例提供了第二方面的第四种可能的实施方式,其中,所述启用注意力机制解析所述待处理文本的特征向量所表征的各个分词的权重值,具体包括:
基于所述待处理文本的语义特征向量,对所述待处理文本中的各个分词进行特征提取,得到各个分词对应的第三语义特征向量;
针对所述待处理文本中的每一分词,基于该分词对应的第三语义特征向量以及所述待处理文本中的基准分词对应的第三语义特征向量,确定该分词与所述基准分词的相似度,并将该相似度确定为该分词对应的权重值;其中,所述基准分词为位于所述待处理文本中任一位置的分词。
结合第二方面的第四种可能的实施方式,本申请实施例提供了第二方面的第五种可能的实施方式,其中,所述基于所述待处理文本的语义特征向量,对所述待处理文本中的各个分词进行特征提取,得到各个分词对应的第三语义特征向量,具体包括:
基于预设的多个卷积核通道分别对所述待处理文本的语义特征向量进行处理,得到所述待处理文本中的各个分词在每个卷积核通道下的第三语义特征向量;其中,每个所述卷积核通道中包括至少一个卷积核且不同卷积核通道中的卷积核不同;
将多个卷积核通道下的第三语义特征向量进行拼接处理,得到所述待处理文本中的各个分词对应的第三语义特征向量。
结合第二方面,本申请实施例提供了第二方面的第六种可能的实施方式,其中,所述获取待处理文本,具体包括:
获取原始文本;
判断所述原始文本的文本长度是否超过预设处理长度;
若是,则按照所述预设处理长度将所述原始文本划分为多个待处理文本。
结合第二方面,本申请实施例提供了第二方面的第七种可能的实施方式,其中,所述基于所述待处理文本的特征向量所表征的各个分词的权重值,从所述各个分词中选择所述待处理文本的关键词,具体包括:
将所述待处理文本中各个分词的权重值分别与预设阈值进行比较;
将对应的权重值大于所述预设阈值的目标分词,确定为所述待处理文本的关键词。
结合第二方面,本申请实施例提供了第二方面的第八种可能的实施方式,其中,所述从所述各个分词中选择所述待处理文本的关键词之后,所述方法还包括:
从预设的问答数据库中,查找与所述待处理文本的关键词相匹配的问题关键词;其中,所述问答数据库中包括多个问题关键词以及每个所述问题关键词对应的答案内容;
将所述问题关键词对应的答案内容返回给相应的用户端。
结合第二方面,本申请实施例提供了第二方面的第九种可能的实施方式,其中,所述从所述各个分词中选择所述待处理文本的关键词之后,所述方法还包括:
获取所述待处理文本的文本属性信息;
基于所述待处理文本的文本属性信息和所述待处理文本的关键词,生成所述待处理文本的记录信息。
结合第二方面的第九种可能的实施方式,本申请实施例提供了第二方面的第十种可能的实施方式,其中,所述文本属性信息包括以下信息中的一种或多种:文本标识信息、用户标识信息、时间信息。
第三方面,本申请实施例还提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如第二方面任一所述的关键词提取方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第二方面任一所述的关键词提取方法的步骤。
本申请实施例提供的一种关键词提取方法、装置、电子设备及存储介质,通过对待处理文本进行分词处理,并基于处理后的各个分词生成该待处理文本的特征向量,启用自注意力机制解析上述待处理文本的特征向量所表征的各个分词的权重值,并基于各个分词的权重值从各个分词中选择待处理文本的关键词。在本申请实施例中,通过自学习待处理文本的语义特征进行关键词提取,无需预先进行语料标注即可实现对待处理文本的关键词提取,加快了关键词的提取效率,提高了选取的关键词的准确度,使得提取到的关键词更符合任务实际需求。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的一种服务系统的结构示意图;
图2示出了本申请实施例所提供的一种关键词提取方法的流程图。
图3示出了本申请实施例所提供的另一种关键词提取方法的流程图。
图4示出了本申请实施例所提供的关键词提取模型的结构示意图。
图5示出了本申请实施例所提供的另一种关键词提取方法的流程图。
图6示出了本申请实施例所提供的另一种关键词提取方法的流程图。
图7示出了本申请实施例所提供的另一种关键词提取方法的流程图。
图8示出了本申请实施例所提供的模型应用场景下注意力层中CNN模型结构示意图。
图9示出了本申请实施例所提供的关键词提取模型的训练方法的流程图。
图10示出了本申请实施例所提供的模型训练场景下注意力层中CNN模型的结构示意图。
图11示出了本申请实施例所提供的训练场景下注意力层中自注意力机制的结构示意图。
图12示出了本申请实施例所提供的一种关键词提取模型中输出部分(即Decoder部分)的结构示意图。
图13示出了本申请实施例所提供的一种关键词提取装置的结构示意图。
图14示出了本申请实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请实施例中将会用到术语“包括”,用于指出其后所声明的特征的存在,但并不排除增加其它的特征。
考虑到现有技术中的有监督的关键词提取方法,需要预先标注大量的训练语料,标注工作量大且标注过程复杂,影响了关键词的提取效率;同时,上述关键词提取方法忽略了词与词之间的关联性,进而导致提取的关键词的准确度较低。
另外,现有技术中的无监督的关键词提取方法,比如TextRank方法,该TextRank方法生成的关键词依赖于输入文本中的词频,这就导致了生成的关键词不一定符合任务的实际需求。比如,对于输入的新闻文本,通过TextRank方法确定赞、满意为关键词,而实际中,赞和满意并非新闻场景中的关键词。
基于上述问题,本申请实施例提供了一种关键词提取方法、装置、电子设备及存储介质,加快了关键词的提取效率,提高了选取的关键词的准确度,使得提取到的关键词更符合任务实际需求。本申请实施例可以应用在各种应用场景,比如,新闻领域、网约车领域等。
下面网约车领域中,对用户终端与客服终端的对话场景中产生的客服工单数据进行关键词提取为例进行说明。
如图1所示,本申请实施例提供了一种服务系统100,上述服务系统100包括服务器110、网络120、用户终端130、客服终端140和数据库150。
在一些实施例中,服务器110可以包括处理器。处理器可以对客服工单数据进行处理,以执行本申请中描述的一个或多个功能。例如,处理器可以提取客服工单数据中关键词。在一些实施例中,处理器可以包括一个或多个处理核(例如,单核处理器(S)或多核处理器(S))。仅作为举例,处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application Specific Integrated Circuit,ASIC)、专用指令集处理器(Application Specific Instruction-set Processor,ASIP)、图形处理单元(GraphicsProcessing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field Programmable GateArray,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(Reduced Instruction Set Computing,RISC)、或微处理器等,或其任意组合。
在一些实施例中,用户终端130和客服终端140对应的设备类型可以是移动设备,比如可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等,也可以是平板计算机,或者机动车辆中的内置设备等。
在一些实施例中,数据库150可以连接到网络120以与服务系统100中的一个或多个组件(例如,服务器110,用户终端130、客服终端140等)通信。服务系统100中的一个或多个组件可以经由网络120访问存储在数据库150中的数据或指令。在一些实施例中,数据库150可以直接连接到服务系统100中的一个或多个组件,或者,数据库150也可以是服务器110的一部分。
下面通过实施例对本申请实施例提供的一种关键词提取方法、装置、电子设备及存储介质进行说明:
基于上述服务系统,本申请实施例提供了一种关键词提取方法,所述方法可以应用于服务器110,如图2所示,所述方法具体包括以下步骤:
S201、获取待处理文本。
本申请实施例中,服务器中预先中预存有待处理文本的预设处理长度,服务器在获取了原始文本后,判断该原始文本的文本长度是否超过预设处理长度;若是,则按照上述预设处理长度将原始文本划分为多个待处理文本,以便后续对每个待处理文本进行的关键词提取。
作为一种实施方式,预设的处理长度为500字,如果输入的原始文本超过500个字,服务器将该原始文本切分成多个待处理文本。
其中,在网约车领域,上述待处理文本可以是用户终端与客服终端的对话文本(也即客服工单数据)。在新闻领域,上述待处理文本可以是新闻内容文本。
S202、对所述待处理文本进行分词处理,并基于处理后的各个分词,生成所述待处理文本的特征向量。
本申请实施例中,以提取待处理文本的中文关键词为例,针对每一个待处理文本,服务器可以基于语言技术平台(Language Technology Plantform,LTP)工具提取该待处理文本中的分词,并基于提取的分词构建该待处理文本对应的分词表;然后,服务器对分词表中的每个分词进行编码,得到各个分词对应的向量表示,并将各个分词对应的向量表示组合成该待处理文本对应的向量表示。
S203、基于所述待处理文本的特征向量,启用注意力机制解析所述待处理文本的特征向量所表征的各个分词的权重值。
本申请实施例中,注意力机制包括卷积神经网络和自注意力机制;其中,服务器基于卷积神经网络对待处理文本的特征向量进行处理,以对待处理文本进行更深层次的语义特征提取,然后,在通过注意力机制解析深层次的语义特征向量所表征的各个分词的权重值,将解析得到的各个分词的权重值作为提取该待处理文本的关键词的依据。
S204、基于所述待处理文本的特征向量所表征的各个分词的权重值,从所述各个分词中选择所述待处理文本的关键词。
本申请实施例中,针对待处理文本中的每一个分词,将该分词的权重值与预设阈值进行比较,若该分词的权重值大于预设阈值,则确定该分词为该待处理文本的关键词。将待处理文本中的各个分词均按照上述种方式与预设阈值进行比较,得到各个分词对应的比较结果。服务器将对应的权重值大于上述预设阈值的目标分词,确定为该待处理文本的关键词。
本申请实施例中,上述预设阈值可以根据需要进行设置,比如设置为0.5。
进一步的,如图3所示,本申请实施例提供的关键词提取方法中,所述基于处理后的各个分词,生成所述待处理文本的特征向量,具体包括:
S301、对所述待处理文本中的各个分词进行编码处理,得到各个分词对应的分词特征向量;所述分词特征向量至少包括所述分词对应的第一语义特征向量。
本申请实施例中,服务器在构建了待处理文本的分词表后,服务器对分词表中的各个分词进行编码,得到各个分词对应的分词特征向量。
作为一种实施方式,服务器对各个分词进行embedding编码,得到各个分词对应的第一语义特征向量,并将该第一语义特征向量作为各个分词的分词特征向量。
作为另一种实施方式,服务器对分词表中的各个分词进行编码,得到各个分词对应的第一语义特征向量、词性特征以及命名实体特征,并将上述三个特征进行拼接处理,然后将拼接结果作为各个分词的分词特征向量。这里,词性特征指的是各个分词所属的词性,比如,可以为形容词、名词、动词等;命名实体特征指的是各个分词所属的命名实体类型,比如,人名、地名等。
本申请实施例中,服务器中存储有预先训练好的关键词提取模型,如图4所示,该关键词提取模型包括嵌入层、表示层、注意力层和输出层;本申请实施例中,服务器通过关键词提取模型中的嵌入层对待处理文本进行分词处理,并对得到的各个分词进行编码处理,得到各个分词对应的分词特征向量。
S302、基于所述待处理文本中各个分词对应的分词特征向量,生成所述待处理文本的语义特征向量。
作为一种实施方式,服务器将待处理文本中各个分词对应的分词特征向量进行组合,得到表示该待处理文本的浅层语义的浅层语义特征向量;
作为另一种实施方式,服务器在获得了待处理文本中各个分词对应的分词特征向量之后,针对所述待处理文本中的每一分词,服务器基于该分词对应的分词特征向量以及该分词之前各个分词对应的分词特征向量,生成该分词对应的第二语义特征向量;将所述待处理文本中各个分词对应的第二语义特征向量进行组合,得到所述待处理文本的深层语义特征向量。
举例来讲,待处理文本中包括10个分词,每个分词均对应有相应的分词特征向量。针对第1个分词,将该第1个分词对应的分词特征向量,确定为该第1个分词对应的第二语义特征向量;针对第2个分词,基于第1个分词的分词特征向量和该第2个分词对应的分词特征向量,生成该第2个分词的第二语义特征向量;针对第3个分词,基于第1个分词的分词特征向量、第2个分词的分词特征向量和该第3个分词对应的分词特征向量,生成该第3个分词的第二语义特征向量,以此类推,直至生成第10个分词的第二语义特征向量。服务器将上述10个分词各自对应的第二语义特征向量进行组合,得到该待处理文本的深层语义特征向量。
本申请实施例中,关键词提取模型的嵌入层将待处理文本中各个分词对应的分词特征向量输入到表示层中,通过表示层确定待处理文本的语义特征向量。
作为一种实施方式,上述表示层可以采用长短期记忆网络LSTM(Long Short-TermMemory,LSTM)模型,也可以采用门控循环单元(Gated Recurrent Unit,GRU)模型。其中,LSTM模型中包括做输入门、遗忘门和输出门,当采用LSTM模型时,针对任一分词,LSTM模型通过输入门输入该分词和该分词之前的各个分词对应的分词特征向量,通过遗忘门来选择该分词之前各个分词对该分词的影响,通过输出门输出该分词对应的第二语义特征向量。
其中,GRU模型包括更新门和重置门,当采用GRU模型时,针对任一分词,通过重置门来写入对该分词产生影响的该分词之前各个分词的信息,其中,距离该分词越远的分词对应的重置门越小,相应的,这些分词被写入用于影响该分词的信息越少;更新门基于该分词对应的分词特征向量和重置门写入的信息,生成该分词对应的第二语义特征向量。
进一步的,如图5所示,本申请实施例提供的关键词提取方法中,所述对所述待处理文本进行分词处理,具体包括:
S501、提取所述待处理文本中的原始分词。
本申请实施例中,以提取待处理文本的中文关键词为例,针对待处理文本,服务器利用LTP工具提取该待处理文本中的原始分词,并基于提取的原始分词,构建该待处理文本对应的原始分词表。
S502、从所述原始分词中查找匹配预设的停用词表的停用词。
本申请实施例中,考虑到原始分词表中的有些分词并不能表征该待处理文本的语义信息,比如“这个”、“的”、“我”等分词,这些分词不能表征上述待处理文本的语义。基于此,服务器中预先设置有停用词表,该停用词表中包括上述“这个”、“的”、“我”等不能表征该待处理文本的语义信息的停用词。服务器在获取原始分词表后,从上述原始分词表中查找匹配预设的停用词表的停用词。
S503、将所述原始分词中除去所述停用词的各个分词,确定为参与处理的各个分词。
本申请实施例中,服务器在查找到匹配预设的停用词表的停用词后,从原始分词表中去除上述停用词,并将去除上述停用词后的分词表,作为确定为待使用分词表;其中,上述待使用分词表中包括参与处理的各个分词。
本申请实施例中,关键词提取模型中的注意力层(即attention)部分,具体包括卷积神经网络和自注意力机制(即self-attention);其中,上述卷积神经网络可以为CNN模型。如图6所示,本申请实施例提供的关键词提取方法中,启用注意力机制解析所述待处理文本的特征向量所表征的各个分词的权重值,具体包括:
S601、基于所述待处理文本的语义特征向量,对所述待处理文本中的各个分词进行特征提取,得到各个分词对应的第三语义特征向量。
本申请实施例中,关键词提取模型中的表示层将得到的待处理文本的深层语义特征向量输入到注意力层中,注意力层基于卷积神经网络对待处理文本的深层语义特征向量进行处理。作为一种实施方式,注意力层基于多路卷积核通道对待处理文本的深层语义特征向量进行处理,以提取各个分词对应的第三语义特征向量,并将待处理文本中各个分词对应的第三语义特征向量进行组合,得到能够表征该待处理文本更深层语义的更深层语义特征向量。
S602、针对所述待处理文本中的每一分词,基于该分词对应的第三语义特征向量以及所述待处理文本中的基准分词对应的第三语义特征向量,确定该分词与所述基准分词的相似度,并将该相似度确定为该分词对应的权重值;其中,所述基准分词为位于所述待处理文本中任一位置的分词。
本申请实施例中,注意力层基于自注意力机制(即self-attention)对各个分词对应的第三语义特征向量进行处理。
作为一种实施方式,注意力层选取待处理文本中最后位置的分词(也即该待处理文本最后时刻输出的分词)作为基准分词,然后,将待处理文本中的各个分词的第三语义特征向量均与该基准分词的第三语义特征向量进行相似度计算,将相似度计算结果作为各个分词对应的权重值。
本申请实施例中,注意力层中self-attention的目的是计算待处理文本中每个分词与基准分词的相似度,其中,self-attention的计算公式如下:
在上述self-attention中,Attention表待处理文本对应的权重分布;Query为基准分词对应的第三语义特征向量;Key为待处理文本中每个分词对应的第三语义特征向量;softmax表示多分类的激活函数;T表示对Key进行转置处理;dk表示任一第三语义特征向量的维度。
进一步的,如图7所示,本申请实施例提供的关键词提取方法中,基于所述待处理文本的语义特征向量,对所述待处理文本中的各个分词进行特征提取,得到各个分词对应的第三语义特征向量,具体包括:
S701、基于预设的多个卷积核通道分别对所述待处理文本的语义特征向量进行处理,得到所述待处理文本中的各个分词在每个卷积核通道下的第三语义特征向量;其中,每个所述卷积核通道中包括至少一个卷积核且不同卷积核通道中的卷积核不同。
本申请实施例中,服务器中预先构建CNN模型结构,该CNN模型结构包括多个卷积核通道,每个卷积核通道中包括至少一个卷积核且不同卷积核通道对应卷积核不同;然后,关键词提取模型的表示层将待处理文本的深层语义特征向量(即待处理文本中各个分词对应的第三语义特征向量)分别输入到每个卷积核通道中,每个卷积核通道卷积核对输入的深层语义特征向量进行处理,得到每个通道对应的第三语义特征向量。其中,上述卷积核不同包括以下不同的一种或多种:卷积核数量不同、卷积核大小不同、或者卷积核参数不同。本申请实施例中,卷积核大小选取基数值。
其中,每个卷积核通道中的任一卷积核的处理过程如下:针对待处理文本中的每一个分词,选取该分词作为中间分词、选取该分词之前预设个数的分词作为第一候选分词,选取该分词之后预设个数的分词作为第二候选分词,对所述中间分词对应目标语义特征向量、所述第一候选分词对应目标语义特征向量以及所述第二候选分词对应目标语义特征向量进行处理,得到能够更准确的表征该分词的在整个待处理文本中的语义信息的第三语义特征向量;其中,上述预设个数是根据卷积核的大小确定的,具体确定方式为:预设个数=(k-1)/2;其中,k表示卷积核大小。上述目标语义特征向量可以为第二语义特征向量,也可以为上一个卷积核处理得到的中间语义特征向量。
作为一种实施方式,如图8所示,CNN模型结构包括三个卷积核通道,第一卷积核通道包括一个卷积核(即卷积核1),第二卷积核通道包括两个卷积核(即卷积核2和卷积核3),第三卷积核通道包括三个卷积核(即卷积核4、卷积核5和卷积核6;表示层将待处理文本的语义特征向量分别输入到第一卷积核通道、第二卷积核通道和第三卷积核通道中。在图9中,上述三个卷积核通道中卷积核的数量不同。
作为一种实施方式,卷积核1的大小表示为k=1;卷积核2的大小表示为k=1,该卷积核2的参数与卷积核1的参数不同;卷积核3的大小表示为k=3;卷积核4的大小表示为k=1,其中,卷积核4、卷积核1和卷积核2的参数均不同;卷积核5和卷积核6的大小表示为k=3,卷积核3、卷积核5和卷积核6的参数均不同。
在第一卷积核通道中,卷积核1对输入的待处理文本的深层语义特征向量进行处理,得到第一卷积核通道下各个分词对应的第三语义特征向量。其中,卷积核1对待处理文本中各个分词对应的第二语义特征向量进行处理,得到能够更准确的表征各个分词的在整个待处理文本中的语义信息的第三语义特征向量。
在第二卷积核通道中,卷积核2对输入的待处理文本的深层语义特征向量进行处理,并将处理结果输入到卷积核3,卷积核3对输入的处理结果进行处理,得到第二卷积核通道下各个分词对应的第三语义特征向量。其中,卷积核2对待处理文本中各个分词对应的第二语义特征向量进行处理,得到能够更准确的表征各个分词在整个待处理文本中的语义信息的中间语义特征向量,然后,将中间语义特征向量输入到卷积核3中,卷积核3对待处理文本中各个分词对应的中间语义特征向量进行处理,得到能够更准确的表征各个分词在整个待处理文本中的语义信息的第三语义特征向量。
这里,卷积核3的处理过程如下:针对每一个分词,卷积核3对该分词对应的中间语义特征向量、该分词的前一个分词对应的中间语义特征向量,和该分词的后一个分词对应的中间语义特征向量进行处理,得到能够更准确的表征该分词在整个待处理文本中的语义信息的第三语义特征向量。
在第三卷积核通道中,卷积核4对输入的语义特征向量进行处理,并将处理结果输入给卷积核5,卷积核5对输入的特征向量进行处理,并将处理结果输入给卷积核6,卷积核6对输入的特征向量进行处理,得到第三卷积核通道下的第三语义特征向量。其中,卷积核4处理过程同卷积核1和卷积核2;卷积核5、卷积核6的处理过程同卷积核3。
S702、将多个卷积核通道下的第三语义特征向量进行拼接处理,得到所述待处理文本中的各个分词对应的第三语义特征向量。
本申请实施例中,服务器将第一卷积核通道、第二卷积核通道和第三卷积核通道分别对应的第三语义特征向量进行拼接处理,得到待处理文本中的各个分词对应的第三语义特征向量;上述待处理文本中的各个分词对应的第三语义特征向量的组合结果即待处理文本的更深层语义特征向量。其中,第三语义特征向量能够更深层次的表示各个分词在待处理文本中的语义信息。
本申请实施例中,卷积神经网络中输出的每个分词的第三语义特征向量的维度与表示层输出的每个分词的第二语义特征向量的维度相同。需要说明的是,在保证上述第三语义特征向量的维度与第二语义特征向量的维度相同的条件下,本申请实施例中不限定上述CNN模型的具体结构。
在本申请实施例中,服务器是将待处理文本输入到训练好的关键词提取模型中,由到关键词提取模型中输出该待处理文中各个分词的权重值。因此,本申请实施例中,服务器需要预先训练上述关键词提取模型,如图9所示,关键词提取模型的具体训练方法如下:
S901、获取训练样本集;其中,所述训练样本集包括多个训练文本以及每个训练文本对应的参考文本摘要。
S902、将所述训练文本输入到预设模型中,通过所述预设模型输出所述训练文本对应的训练文本摘要;基于所述训练文本摘要与所述训练文本对应的参考文本摘要,确定所述预设模型对应的损失信息;若所述损失信息不满足预设条件,则调整所述预设模型的相关模型参数,直至所述损失信息满足所述预设条件,得到包括训练好的模型参数的关键词提取模型。
结合上述步骤901和步骤902,上述预设模型选取Encoder–Decoder+Attention模型,其中,Encoder–Decoder部分采用GRU模型或者LSTM模型,上述Attention部分采用卷积神经网络(如CNN)和self-Attention机制。
其中,关键词提取模型的具体训练步骤如下:
步骤1:选择训练样本集,该训练样本集即文本摘要数据集,以客服场景下的关键词提取为例,选择客服工单对话记录作为训练文本,并将上述客服工单对话记录的摘要描述作为的参考文本摘要;其中,预设模型的输入为上述客服工单对话记录,预设模型输出为上述客服工单对话记录的摘要描述;以新闻领域为例,选取新闻平台中的新闻内容作为训练文本,并将该新闻内容的标题作为参考文本摘要;其中,预设模型的输入为新闻内容,预设模型输出为该新闻内容的标题。
本申请实施例中,训练文本在500字之内,如果服务器判断输入的训练文本大于500字,则将训练文本进行切分成多个训练文本,然后分段输入到模型中。
步骤2:对训练文本进行分词处理,构建该训练文本的词汇表,并对输入的训练文本进行编码处理,获得训练文本的向量表示。
其中,假设训练文本经预处理后长度为n,表示为A=[A1,A2,A3,A4,A5,…,An],Encoder部分循环神经网络(这里,Encoder部分选取GRU模型)包括n个神经元,且每个神经元代表一个词。其中,A表示训练文本对应的语义特征向量(即浅层语义特征向量),A1~An分别表示训练文本中的各个分词对应的第一语义特征向量。
步骤3:将训练文本的向量表示输入到Encoder中,并对Encoder的输出进行卷积处理和self-attention处理,得到训练文本中各个分词的权重向量,然后,依据训练文本中各个分词的权重向量对训练文本进行加权,获得该训练文本的最终语义表示。
其中,Encoder的输出记为H=[H1,H2,H3,H4,H5,…,Hn]。其中,H表示训练文本对应的语义特征向量(即深层语义特征向量),H1~Hn分别表示训练文本中的各个分词对应的第二语义特征向量。如图10所示,用一维卷积对输入的训练文本进行特征提取,卷积之后得到的文本向量表示进行拼接,得到C=[C1,C2,C3,C4,C5,…,Cn;其中,C表示训练文本对应的语义特征向量(即更深层语义特征向量),C1~Cn分别表示训练文本中的各个分词对应的第三语义特征向量。如图11所示,将拼接之后的语义特征向量进行Self-Attention。
Self-Attention目的是计算训练文本中每个分词之间的相似度,然后依据该相似度得到包括各个分词的输入文本的加权向量表示,Attention计算公式如下:
其中,在Self-Attention中,Query,Key和Value相同,均为训练文本中的各个分词对应的第三语义特征向量;其中,softmax表示多分类的激活函数,T表示Key的转置,dk表示上述第三语义特征向量的维度。
上述Encoder的输出记为H=[H1,H2,H3,H4,H5,…,Hn],记Self-Attention输出得到的权重分布为G,更新之后的H′如下式所示:
H′=H⊙σ(G);其中,⊙表示按元素乘操作;σ表示缩放(scale)函数,其作用是将G中的元素缩放在0-1之间;G表示Self-Attention输出的权重分布;H表示训练文本对应的语义特征向量(即深层语义特征向量);H′表示H与G加权后得到的最终语义特征向量。
步骤4:将Encoder最后一个词的最终语义特征向量(也即hidden向量)作为Decoder的初始输入,依赖attention机制,通过Decoder得到训练文本对应的训练文本摘要。
如图12所示,Decoder部分也采用attention机制,但是,在Decoder部分,Query为当前时刻的hidden向量,Key和Value都为Encoder输出的最终语义特征向量(即H′),Decoder部分的最终输出为该训练文本的训练文本摘要。其中,图12中,X1、X2、X3、X4分别表示训练文本中的各个分词;C1、C2和C3表示Encoder的输出结果;Y1、Y2、Y3分别表示训练文本对应的训练文本摘要中的各个分词。
步骤5:通过参考摘要和生成摘要计算损失,训练模型。
这里,基于预设模型的Decoder部分输出的训练文本摘要与相应训练文本对应的参考文本摘要,计算预设模型对应的损失函数;若损失函数大于预设阈值,则调整预设模型的相关模型参数,在基于训练文本对调整了相关模型参数后的预设模型进行训练,直至损失函数满足预设条件,得到包括训练好的模型参数的关键词提取模型。
本申请实施例中,在模型训练结束后,将需要提取关键词的待处理文本输入到Encoder中,长度记为n,提取出Self-Attention输出的权重向量,该向量维度为n,然后依据该权重向量即可提取出待处理文本的关键词。
本申请实施例中,通过训练文本,训练文本对应的参考摘要组成的数据集对预设模型进行训练,可基于预设模型提取与该训练文本同类型的关键词。比如:(1)客服对话文本,即可提取客服对话文本中的关键词;(2)新闻内容文本,即可提取新闻内容文本中的关键词。
需要说明的是,如果将上述预设模型的Decoder部分修改成分类网络,即可用于任务分类;比如将修改后的网络用于情感分类任务,预设模型经过情感分类数据训练后,可以依据Self-Attention得到的权重提取待处理文本的关键词,该种情况下,提取的关键词即为偏向于情感相关的词汇。
需要说明的是,本申请实施例中的预设模型可以用于任何需要Encoder的自然语言处理任务,然后,依据Self-Attention的输出结果即可提取出与相应任务匹配的关键词。
在本申请实施例中,上述关键词提取方法可以具有如下应用场景:
第一种应用场景:基于选取的关键词,选取该关键词相应的答案;选取的答案可用于辅助客服回答用户对应的问题。相应的,在从所述各个分词中选择所述待处理文本的关键词之后,所述方法还包括:
从预设的问答数据库中,查找与所述待处理文本的关键词相匹配的问题关键词;其中,所述问答数据库中包括多个问题关键词以及每个所述问题关键词对应的答案内容;将所述问题关键词对应的答案内容返回给相应的用户端。
本申请实施例中,服务器中预先存储有问答数据库,服务器在选取了待处理文本的关键词后,计算该关键词与预设的问答数据库中每一个关键词的相似度,然后,从问答数据库中选取大于相似度阈值且相似度最高的问题关键词,然后,将该问题关键词对应的答案内容返回给相应的用户端。
第二种应用场景,基于选取的关键词,对客服工单数据进行备案记录。相应的,在从所述各个分词中选择所述待处理文本的关键词之后,所述方法还包括:
获取所述待处理文本的文本属性信息;其中,所述文本属性信息包括以下信息中的一种或多种:文本标识信息、用户标识信息、时间信息。基于所述待处理文本的文本属性信息和所述待处理文本的关键词,生成所述待处理文本的记录信息。
本申请实施例提供的一种关键词提取方法,通过对待处理文本进行分词处理,并基于处理后的各个分词生成该待处理文本的特征向量,启用自注意力机制解析上述待处理文本的特征向量所表征的各个分词的权重值,并基于各个分词的权重值从各个分词中选择待处理文本的关键词。在本申请实施例中,通过自学习待处理文本的语义特征进行关键词提取,无需预先进行语料标注即可实现对待处理文本的关键词提取,加快了关键词的提取效率,提高了选取的关键词的准确度,使得提取到的关键词更符合任务实际需求。
基于与上述关键词提取方法同样的发明构思,如图13所示,本申请实施例还提供了一种关键词提取装置,所述装置包括:
获取模块1301,用于获取待处理文本;
编码模块1302,用于对所述待处理文本进行分词处理,并基于处理后的各个分词,生成所述待处理文本的特征向量;
解析模块1303,用于基于所述待处理文本的特征向量,启用注意力机制解析所述待处理文本的特征向量所表征的各个分词的权重值;
选择模块1304,用于基于所述待处理文本的特征向量所表征的各个分词的权重值,从所述各个分词中选择所述待处理文本的关键词。
进一步的,本申请实施例提供的关键词提取装置中,编码模块1302,具体用于根据以下步骤基于处理后的各个分词,生成所述待处理文本的特征向量:
对所述待处理文本中的各个分词进行编码处理,得到各个分词对应的分词特征向量;所述分词特征向量至少包括所述分词对应的第一语义特征向量;
基于所述待处理文本中各个分词对应的分词特征向量,生成所述待处理文本的语义特征向量。
进一步的,本申请实施例提供的关键词提取装置中,编码模块1302,具体用于根据以下步骤基于所述待处理文本中各个分词对应的分词特征向量,生成所述待处理文本的语义特征向量:
针对所述待处理文本中的每一分词,基于该分词对应的分词特征向量以及该分词之前各个分词对应的分词特征向量,生成该分词对应的第二语义特征向量;
将所述待处理文本中各个分词对应的第二语义特征向量进行组合,得到所述待处理文本的语义特征向量。
进一步的,本申请实施例提供的关键词提取装置中,编码模块1302,具体用于根据以下步骤对所述待处理文本进行分词处理:
提取所述待处理文本中的原始分词;
从所述原始分词中查找匹配预设的停用词表的停用词;
将所述原始分词中除去所述停用词的各个分词,确定为参与处理的各个分词。
进一步的,本申请实施例提供的关键词提取装置中,解析模块1303,具体用于根据以下步骤启用注意力机制解析所述待处理文本的特征向量所表征的各个分词的权重值:
基于所述待处理文本的语义特征向量,对所述待处理文本中的各个分词进行特征提取,得到各个分词对应的第三语义特征向量;
针对所述待处理文本中的每一分词,基于该分词对应的第三语义特征向量以及所述待处理文本中的基准分词对应的第三语义特征向量,确定该分词与所述基准分词的相似度,并将该相似度确定为该分词对应的权重值;其中,所述基准分词为位于所述待处理文本中任一位置的分词。
进一步的,本申请实施例提供的关键词提取装置中,解析模块1303,具体用于根据以下步骤基于所述待处理文本的语义特征向量,对所述待处理文本中的各个分词进行特征提取,得到各个分词对应的第三语义特征向量:
基于预设的多个卷积核通道分别对所述待处理文本的语义特征向量进行处理,得到所述待处理文本中的各个分词在每个卷积核通道下的第三语义特征向量;其中,每个所述卷积核通道中包括至少一个卷积核且不同卷积核通道中的卷积核不同;
将多个卷积核通道下的第三语义特征向量进行拼接处理,得到所述待处理文本中的各个分词对应的第三语义特征向量。
进一步的,本申请实施例提供的关键词提取装置中,获取模块1301,具体用于根据以下步骤获取待处理文本:
获取原始文本;
判断所述原始文本的文本长度是否超过预设处理长度;
若是,则按照所述预设处理长度将所述原始文本划分为多个待处理文本。
进一步的,本申请实施例提供的关键词提取装置中,选择模块1304,具体用于根据以下步骤基于所述待处理文本的特征向量所表征的各个分词的权重值,从所述各个分词中选择所述待处理文本的关键词:
将所述待处理文本中各个分词的权重值分别与预设阈值进行比较;
将对应的权重值大于所述预设阈值的目标分词,确定为所述待处理文本的关键词。
进一步的,本申请实施例提供的关键词提取装置中,所述装置还包括:
查找模块,用于从预设的问答数据库中,查找与所述待处理文本的关键词相匹配的问题关键词;其中,所述问答数据库中包括多个问题关键词以及每个所述问题关键词对应的答案内容;
发送模块,用于将所述问题关键词对应的答案内容返回给相应的用户端。
进一步的,本申请实施例提供的关键词提取装置中,所述装置还包括:
获取模块,用于获取所述待处理文本的文本属性信息;
生成模块,用于基于所述待处理文本的文本属性信息和所述待处理文本的关键词,生成所述待处理文本的记录信息。
进一步的,本申请实施例提供的关键词提取装置中,所述文本属性信息包括以下信息中的一种或多种:文本标识信息、用户标识信息、时间信息。
如图14所示,本申请实施例提供的一种电子设备140,包括:处理器1401、存储器1402和总线,所述存储器1402存储有所述处理器1401可执行的机器可读指令,当电子设备运行时,所述处理器1401与所述存储器1402之间通过总线通信,所述处理器1401执行所述机器可读指令,以执行如上述关键词提取方法的步骤。
具体地,上述存储器1402和处理器1401能够为通用的存储器和处理器,这里不做具体限定,当处理器1401运行存储器1402存储的计算机程序时,能够执行上述关键词提取方法。
对应于上述关键词提取方法,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述关键词提取方法的步骤。
本申请实施例所提供的关键词提取装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本申请实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (12)

1.一种关键词提取装置,其特征在于,所述装置包括:
获取模块,用于获取待处理文本;
编码模块,用于对所述待处理文本进行分词处理,并基于处理后的各个分词,生成所述待处理文本的特征向量;
解析模块,用于基于预设的多个卷积核通道分别对所述待处理文本的特征向量进行处理,得到所述待处理文本中的各个分词在每个卷积核通道下的第三语义特征向量;其中,每个所述卷积核通道中包括至少一个卷积核且不同卷积核通道中的卷积核不同;将多个卷积核通道下的第三语义特征向量进行拼接处理,得到所述待处理文本中的各个分词对应的第三语义特征向量;针对所述待处理文本中的每一分词,基于该分词对应的第三语义特征向量以及所述待处理文本中的基准分词对应的第三语义特征向量,确定该分词与所述基准分词的相似度,并将该相似度确定为该分词对应的权重值;其中,所述基准分词为位于所述待处理文本中任一位置的分词;
选择模块,用于基于所述待处理文本的特征向量所表征的各个分词的权重值,从所述各个分词中选择所述待处理文本的关键词。
2.根据权利要求1所述的关键词提取装置,其特征在于,所述编码模块,具体用于根据以下步骤基于处理后的各个分词,生成所述待处理文本的特征向量:
对所述待处理文本中的各个分词进行编码处理,得到各个分词对应的分词特征向量;所述分词特征向量至少包括所述分词对应的第一语义特征向量;
针对所述待处理文本中的每一分词,基于该分词对应的分词特征向量以及该分词之前各个分词对应的分词特征向量,生成该分词对应的第二语义特征向量;
将所述待处理文本中各个分词对应的第二语义特征向量进行组合,得到所述待处理文本的语义特征向量。
3.根据权利要求1所述的关键词提取装置,其特征在于,所述编码模块,具体用于根据以下步骤对所述待处理文本进行分词处理:
提取所述待处理文本中的原始分词;
从所述原始分词中查找匹配预设的停用词表的停用词;
将所述原始分词中除去所述停用词的各个分词,确定为参与处理的各个分词。
4.根据权利要求2所述的关键词提取装置,其特征在于,所述对所述待处理文本中的各个分词进行编码处理,得到各个分词对应的分词特征向量,包括:
通过关键词提取模型中的嵌入层对所述待处理文本进行分词处理,并对得到的各个分词进行编码处理,得到所述各个分词对应的分词特征向量。
5.根据权利要求4所述的关键词提取装置,其特征在于,所述关键词提取模型包括包括嵌入层、表示层、注意力层和输出层。
6.根据权利要求1所述的关键词提取装置,其特征在于,所述获取模块,具体用于根据以下步骤获取待处理文本:
获取原始文本;
判断所述原始文本的文本长度是否超过预设处理长度;
若是,则按照所述预设处理长度将所述原始文本划分为多个待处理文本。
7.根据权利要求1所述的关键词提取装置,其特征在于,所述选择模块,具体用于根据以下步骤基于所述待处理文本的特征向量所表征的各个分词的权重值,从所述各个分词中选择所述待处理文本的关键词:
将所述待处理文本中各个分词的权重值分别与预设阈值进行比较;
将对应的权重值大于所述预设阈值的目标分词,确定为所述待处理文本的关键词。
8.根据权利要求1所述的关键词提取装置,其特征在于,所述装置还包括:
查找模块,用于从预设的问答数据库中,查找与所述待处理文本的关键词相匹配的问题关键词;其中,所述问答数据库中包括多个问题关键词以及每个所述问题关键词对应的答案内容;
发送模块,用于将所述问题关键词对应的答案内容返回给相应的用户端。
9.根据权利要求1所述的关键词提取装置,其特征在于,所述装置还包括:
获取模块,用于获取所述待处理文本的文本属性信息;
生成模块,用于基于所述待处理文本的文本属性信息和所述待处理文本的关键词,生成所述待处理文本的记录信息。
10.一种关键词提取方法,其特征在于,所述方法包括:
获取待处理文本;
对所述待处理文本进行分词处理,并基于处理后的各个分词,生成所述待处理文本的特征向量;
基于预设的多个卷积核通道分别对所述待处理文本的特征向量进行处理,得到所述待处理文本中的各个分词在每个卷积核通道下的第三语义特征向量;其中,每个所述卷积核通道中包括至少一个卷积核且不同卷积核通道中的卷积核不同;将多个卷积核通道下的第三语义特征向量进行拼接处理,得到所述待处理文本中的各个分词对应的第三语义特征向量;针对所述待处理文本中的每一分词,基于该分词对应的第三语义特征向量以及所述待处理文本中的基准分词对应的第三语义特征向量,确定该分词与所述基准分词的相似度,并将该相似度确定为该分词对应的权重值;其中,所述基准分词为位于所述待处理文本中任一位置的分词;
基于所述待处理文本的特征向量所表征的各个分词的权重值,从所述各个分词中选择所述待处理文本的关键词。
11.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行时执行如权利要求10所述的关键词提取方法的步骤。
12.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求10所述的关键词提取方法的步骤。
CN201910330302.8A 2019-04-23 2019-04-23 一种关键词提取方法、装置、电子设备及存储介质 Active CN111859940B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910330302.8A CN111859940B (zh) 2019-04-23 2019-04-23 一种关键词提取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910330302.8A CN111859940B (zh) 2019-04-23 2019-04-23 一种关键词提取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111859940A CN111859940A (zh) 2020-10-30
CN111859940B true CN111859940B (zh) 2024-05-14

Family

ID=72951970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910330302.8A Active CN111859940B (zh) 2019-04-23 2019-04-23 一种关键词提取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111859940B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580352B (zh) * 2021-03-01 2021-06-04 腾讯科技(深圳)有限公司 关键词提取方法、装置和设备及计算机存储介质
CN113065780B (zh) * 2021-04-09 2023-06-30 平安国际智慧城市科技股份有限公司 任务分配方法、装置、存储介质和计算机设备
CN113033190B (zh) * 2021-04-19 2024-05-17 北京有竹居网络技术有限公司 字幕生成方法、装置、介质及电子设备
CN113297835B (zh) * 2021-06-24 2024-03-29 中国平安人寿保险股份有限公司 文本相似度计算方法、装置、设备及存储介质
CN114444497A (zh) * 2021-12-20 2022-05-06 厦门市美亚柏科信息股份有限公司 一种基于多源特征的文本分类方法、终端设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009158586A1 (en) * 2008-06-27 2009-12-30 Cbs Interactive, Inc. Personalization engine for classifying unstructured documents
CN108304365A (zh) * 2017-02-23 2018-07-20 腾讯科技(深圳)有限公司 关键词提取方法及装置
CN108376131A (zh) * 2018-03-14 2018-08-07 中山大学 基于seq2seq深度神经网络模型的关键词抽取方法
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009158586A1 (en) * 2008-06-27 2009-12-30 Cbs Interactive, Inc. Personalization engine for classifying unstructured documents
CN108304365A (zh) * 2017-02-23 2018-07-20 腾讯科技(深圳)有限公司 关键词提取方法及装置
WO2018153265A1 (zh) * 2017-02-23 2018-08-30 腾讯科技(深圳)有限公司 关键词提取方法、计算机设备和存储介质
CN109255118A (zh) * 2017-07-11 2019-01-22 普天信息技术有限公司 一种关键词提取方法及装置
CN108376131A (zh) * 2018-03-14 2018-08-07 中山大学 基于seq2seq深度神经网络模型的关键词抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于BiLSTM-CRF的关键词自动抽取;陈伟;吴友政;陈文亮;张民;;计算机科学(S1);全文 *
基于词注意力卷积神经网络模型的情感分析研究;王盛玉;曾碧卿;商齐;韩旭丽;;中文信息学报(09);全文 *

Also Published As

Publication number Publication date
CN111859940A (zh) 2020-10-30

Similar Documents

Publication Publication Date Title
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
CN111859940B (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN111460807B (zh) 序列标注方法、装置、计算机设备和存储介质
CN111914568B (zh) 文本修辞句的生成方法、装置、设备及可读存储介质
US11544474B2 (en) Generation of text from structured data
CN110263150B (zh) 文本生成方法、装置、计算机设备及存储介质
KR20210151281A (ko) Bert의 문장 임베딩 벡터를 이용한 텍스트랭크 기반 핵심 문장 추출 방법 및 장치
CN111858843B (zh) 一种文本分类方法及装置
CN113887215A (zh) 文本相似度计算方法、装置、电子设备及存储介质
CN113705315B (zh) 视频处理方法、装置、设备及存储介质
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN113128203A (zh) 基于注意力机制的关系抽取方法、系统、设备及存储介质
US20230205994A1 (en) Performing machine learning tasks using instruction-tuned neural networks
CN109753661A (zh) 一种机器阅读理解方法、装置、设备及存储介质
CN113449081A (zh) 文本特征的提取方法、装置、计算机设备及存储介质
CN114936274B (zh) 模型训练方法、对话生成方法和装置、设备及存储介质
CN115238143A (zh) 查询语句生成方法及装置、模型训练方法、设备、介质
CN111814479A (zh) 一种企业简称生成及其模型的训练方法及装置
CN114492661A (zh) 文本数据分类方法和装置、计算机设备、存储介质
CN111401070B (zh) 词义相似度确定方法及装置、电子设备及存储介质
CN112215005A (zh) 实体识别方法及装置
CN111680136A (zh) 一种口语语义匹配的方法及装置
CN115796141A (zh) 文本数据增强方法和装置、电子设备、存储介质
CN115017886A (zh) 文本匹配方法、文本匹配装置、电子设备及存储介质
CN113297353B (zh) 文本匹配方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant