CN112328655B - 文本标签挖掘方法、装置、设备及存储介质 - Google Patents
文本标签挖掘方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112328655B CN112328655B CN202011203145.3A CN202011203145A CN112328655B CN 112328655 B CN112328655 B CN 112328655B CN 202011203145 A CN202011203145 A CN 202011203145A CN 112328655 B CN112328655 B CN 112328655B
- Authority
- CN
- China
- Prior art keywords
- text
- mined
- vector
- keywords
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000005065 mining Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 180
- 238000012545 processing Methods 0.000 claims abstract description 47
- 238000012549 training Methods 0.000 claims description 105
- 238000013527 convolutional neural network Methods 0.000 claims description 29
- 239000011159 matrix material Substances 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 12
- 238000011176 pooling Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 11
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000010801 machine learning Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请适用于自然语言处理、机器学习技术领域,提供一种文本标签挖掘方法、装置、设备及存储介质,其方法包括:接收待挖掘文本并获取与待挖掘文本对应的文本关键词;对待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取待挖掘文本的文本向量以及文本关键词的词向量;根据待挖掘文本的文本向量以及文本关键词的词向量计算出文本关键词与待挖掘文本之间的相似度值,并根据相似度值确定文本关键词是否被设定为是待挖掘文本的文本标签。上述方法通过文本向量与词向量匹配的方式来确定的文本标签,可以准确地表达文本的主题,解决传统的文本标签生成方法中不能准确表达文章主题的问题,还可以帮助用户对文档内容进行正确的归类和理解。
Description
技术领域
本申请涉及自然语言处理、机器学习技术领域,尤其涉及一种文本标签挖掘方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,网络上的信息量与日俱增,各类信息充斥于互联网,而每个人感兴趣的信息只是其中的一小部分,如何帮助用户查找到其感兴趣的信息变得越来越难。目前无论是网络文本还是纸版文本中,通常会采用一些文本标签来代表文本内容,比如阅读新闻、论文时所看到的关键字标签。现有技术中传统文本标签生成方式通常是按照预先设定好的关键词提取规则从标签库中进行匹配获得,虽然此种方式限定了关键词会落入标签库中,但是这种方式挖掘得到的文本标签也难以准确地表达文本的主题,使得用户难以对文档内容进行正确的归类和理解。
发明内容
有鉴于此,本申请实施例提供了一种文本标签挖掘方法、装置、设备及存储介质,可以通过向量匹配的方式准确地表达文本的主题,解决了传统文本标签生成不能准确表达文章主题的问题,也可以帮助用户对文档内容进行正确的归类和理解。
本申请实施例的第一方面提供了一种文本标签挖掘方法,包括:
接收待挖掘文本并获取与所述待挖掘文本对应的文本关键词;
对所述待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量;
根据所述待挖掘文本的文本向量以及所述文本关键词的词向量计算出所述文本关键词与所述待挖掘文本之间的相似度值,并根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签。
结合第一方面,在第一方面的第一种可能实现方式中,所述文本标签挖掘方法基于采用深度学习算法进行模型训练获得的挖掘模型实现,其中,所述挖掘模型中包括有用于获取文本向量的第一向量匹配模型以及用于获取词向量的第二向量匹配模型;所述对所述待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量的步骤之前,包括:
采用训练样本文本训练卷积神经网络获得所述第一向量匹配模型;以及
对词库中的关键词进行向量表达获得所述第二向量匹配模型,其中,所述词库通过对基于训练样本文本获得的用于表示训练样本文本主题的关键词进行统一存储生成。
结合第一方面的第一种可能实现方式,在第一方面的第二种可能实现方式中,所述采用训练样本文本训练卷积神经网络获得所述第一向量匹配模型的步骤,包括:
获取训练样本文本;
将所述训练样本文本按照字段转化为对应的字符向量;
将所述字符向量输入到卷积神经网络的嵌入层进行映射处理,生成与所述字符向量对应的向量矩阵;
将所述向量矩阵输入到卷积神经网络卷积层及池化层分别进行卷积处理和池化处理,获取表征所述训练样本文本的距离数值;
结合卷积神经网络的卷积核数量,通过卷积神经网络的全连接层对所述表征训练样本文本的距离数值进行向量转化处理,以训练获得用于获取文本向量所述第一向量匹配模型。
结合第一方面的第一种可能实现方式,在第一方面的第三种可能实现方式中,所述对词库中的关键词进行向量表达获得所述第二向量匹配模型的步骤,包括:
根据训练样本文本获取用于表征所述训练样本文本主题的关键词并将所述关键词存储于词库中;
对所述词库中的关键词进行编码处理生成与所述关键词对应的词编码;
通过卷积神经网络的嵌入层对所述词编码进行映射处理,生成所述词库的词向量表达矩阵,所述词向量表达矩阵为用于获取词向量第二向量匹配模型。
结合第一方面的第一种可能实现方式,在第一方面的第四种可能实现方式中,在所述挖掘模型中还包括有一用于获取文本关键词与待挖掘文本之间相似度值的相似度计算模型,所述根据所述待挖掘文本的文本向量以及所述文本关键词的词向量计算出所述文本关键词与所述待挖掘文本之间的相似度值,并根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签的步骤之前,包括:
根据所述训练样本文本构建用于训练生成所述相似度计算模型的正样本和负样本,其中,所述正样本包含有一训练样本文本以及一表达所述训练样本文本主题的关键词;所述负样本包含有一训练样本文本以及表达其他训练样本文本主题的关键词,且所述表达其他训练样本文本主题的关键词不存在于所述训练样本文本中;
结合hinge损失函数,将相似度计算模型训练至正样本与负样本之间的相似关系满足预设阈值要求。
结合第一方面和第一方面的第一至第四种可能实现方式中的任意一种,在第一方面的第五种可能实现方式中,所述根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签的步骤,包括:
获取所述待挖掘文本中文本关键词与所述待挖掘文本之间的相似度值;
将所述相似度值与预设的相似度阈值进行比对;
若所述相似度值满足所述预设的相似度阈值要求,则将该文本关键词设定为是所述待挖掘文本的文本标签。
结合第一方面和第一方面的第一至第四种可能实现方式中的任意一种,在第一方面的第六种可能实现方式中,所述根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签的步骤,包括:
获取所述待挖掘文本中的文本关键词与所述待挖掘文本之间的相似度值;
按照相似度值由大至小对所述待挖掘文本中的文本关键词进行排序并生成排序列表;
从所述排序列表中由大至小选取预设的文本标签数量个文本关键词设定为是所述待挖掘文本的文本标签。
本申请实施例的第二方面提供了一种文本标签挖掘装置,所述文本标签挖掘装置包括:
接收模块,用于接收待挖掘文本并获取与所述待挖掘文本对应的文本关键词;
处理模块,用于对所述待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量;
执行模块,用于根据所述待挖掘文本的文本向量以及所述文本关键词的词向量计算出所述文本关键词与所述待挖掘文本之间的相似度值,并根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签。
本申请实施例的第三方面提供了一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在电子设备上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面提供的文本标签挖掘方法的各步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现第一方面提供的文本标签挖掘方法的各步骤。
本申请实施例提供的一种文本标签挖掘方法、装置、设备和存储介质具有以下有益效果:
本申请通过接收待挖掘文本并获取与待挖掘文本对应的文本关键词;对待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取待挖掘文本的文本向量以及文本关键词的词向量;根据待挖掘文本的文本向量以及文本关键词的词向量计算出文本关键词与待挖掘文本之间的相似度值,并根据相似度值确定文本关键词是否被设定为是待挖掘文本的文本标签。上述方法通过文本向量与词向量匹配的方式来确定的文本标签,可以准确地表达文本的主题,解决传统的文本标签生成方法中不能准确表达文章主题的问题,还可以帮助用户对文档内容进行正确的归类和理解。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请第一实施例提供的一种文本标签挖掘方法的实现流程图;
图2为本申请第二实施例提供的一种文本标签挖掘方法的实现流程图;
图3为本申请第三实施例提供的一种文本标签挖掘方法的实现流程图;
图4为本申请第四实施例提供的一种文本标签挖掘方法的实现流程图;
图5为本申请第五实施例提供的一种文本标签挖掘方法的实现流程图;
图6为本申请第六实施例提供的一种文本标签挖掘方法的实现流程图;
图7为本申请第七实施例提供的一种文本标签挖掘装置的结构框图;
图8为本申请第八实施例提供的一种电子设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
请参阅图1,图1为本申请第一实施例提供的一种文本标签挖掘方法的实现流程图。详述如下:
步骤S11:接收待挖掘文本并获取与所述待挖掘文本对应的文本关键词。
本实施例中,对于一篇新的文章,即待挖掘文本,可以通过将该待挖掘文本与预先构建好的词库进行比对,从词库中获取在所述待挖掘文本中出现过的关键词,该关键词即为与待挖掘文本对应的文本关键词。具体地,可以通过AC自动机多模匹配算法(Aho-Corasick automation)匹配词库中所有在待挖掘文本中出现的标签,这些标签即为与该待挖掘文本对应的文本关键词。
在一些具体实现中,上述预先构建好的标签库具体通过对大量的样本文本进行jieba分词处理以及使用TextRank算法抽取关键词标签获得。
步骤S12:对所述待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量。
本实施例中,所述文本标签挖掘方法基于采用深度学习算法进行模型训练获得的挖掘模型实现。在该挖掘模型中包括有用于获取文本向量的第一向量匹配模型以及用于获取词向量的第二向量匹配模型。所述第一向量匹配模型通过采用训练样本文本训练卷积神经网络获得。所述第二向量匹配模型通过对词库中的关键词进行向量表达获得,其中,该词库通过对基于训练样本文本获得的用于表示训练样本文本主题的关键词进行统一存储生成。在本实施例中,通过将获得的待挖掘文本输入至第一向量匹配模型中即可通过卷积神经网络生成该待挖掘文本对应的文本向量;通过将获得的待挖掘文本对应的文本关键词输入至第二向量匹配模型中即可通过向量矩阵生成该文本关键词对应的词向量。
步骤S13:根据所述待挖掘文本的文本向量以及所述文本关键词的词向量计算出所述文本关键词与所述待挖掘文本之间的相似度值,并根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签。
本实施例中,获得待挖掘文本的文本向量及其对应的文本关键词的词向量后,根据该获得文本向量以及词向量,通过对文本向量与词向量进行点积求和处理计算出文本关键词与待挖掘文本之间的相似度值。本实施例中,当待挖掘文本中有多个与所述待挖掘文本对应的文本关键词时,可以针对于待挖掘文本中的每一个文本关键词,都计算出其与待挖掘文本之间的相似度值。然后,按照需求预先设定规则,对各个文本关键词与待挖掘文本之间的相似度值进行比较,从而根据相似度值确定文本关键词是否被设定为是待挖掘文本的文本标签。在本实施例中,该预先设定的规则可以配置为:按照各文本关键词按相似度值的高低,确定将与待挖掘文本之间的相似度值较高的N个文本关键词设定为该待挖掘文本的文本标签,N的值可以根据需求自定义设置。
以上可以看出,本实施例提供的文本标签挖掘方法接收待挖掘文本并获取与待挖掘文本对应的文本关键词;对待挖掘文本及其对应的文本关键词进行向量匹配处理来获取待挖掘文本的文本向量以及文本关键词的词向量,通过文本向量与词向量匹配的方式来分析文本关键词与待挖掘文本之间的关系,通过计算出文本关键词与待挖掘文本之间的相似度值,基于相似度值,将相似度值较高的文本关键词设定为待挖掘文本的文本标签,由此,可以准确地表达文本的主题,解决传统的文本标签生成方法中不能准确表达文章主题的问题,还可以帮助用户对文档内容进行正确的归类和理解。
本申请的一些实施例中,请参阅图2,图2为本申请第二实施例提供的一种文本标签挖掘方法的实现流程图。详述如下:
步骤S21:获取训练样本文本;
步骤S22:将所述训练样本文本按照字段转化为对应的字符向量;
步骤S23:将所述字符向量输入到卷积神经网络嵌入层进行映射处理,生成与所述字符向量对应的向量矩阵;
步骤S24:将所述向量矩阵输入到卷积神经网络卷积层及池化层分别进行卷积处理和池化处理,获取表征所述训练样本文本的距离数值;
步骤S25:结合卷积神经网络的卷积核数量,通过卷积神经网络的全连接层对所述表征训练样本文本的距离数值进行向量转化处理,以训练获得用于获取文本向量所述第一向量匹配模型。
本实施例中,通过训练样本文本训练卷积神经网络模型来获得第一向量匹配模型,以使第一向量匹配模型具备获取文本向量的能力。在本实施例中,训练卷积神经网络模型来获得第一向量匹配模型的过程具体包括:通过收集相关文本来作为训练样本文本,训练样本文本包括有文本以及用于代表该文本主题的关键词。通过将训练样本文本按照字段转化为对应的字符向量(字符ID)。将该字符向量输入至卷积神经网络的嵌入层(embedding层)中进行映射处理。训练该嵌入层实现将字符向量从语义空间到向量空间的映射,同时尽可能在向量空间保持原样本在语义空间的关系。以此使得字符向量经过卷积神经网络的嵌入层(embedding层)生成与所述字符向量对应的向量矩阵。在获得与字符向量对应的向量矩阵后,进一步将该向量矩阵输入到卷积神经网络的卷积层以及池化层中分别进行卷积处理和池化处理,从而获得一个可以表征该训练文本的距离数值。最后,结合卷积神经网络的卷积核数量,通过卷积神经网络的全连接层对所述表征训练样本文本的距离数值进行向量转化处理,可以生成所述训练样本文本的文本向量。例如,卷积神经网络中预设的卷积核数为H个,则针对该训练样本文本生成的文本向量即为具有H个维度的文本向量。至此,卷积神经网络完成一个训练样本文本的训练。本实施例通过采用大量这样的训练样本文本进入卷积神经网络进行嵌入层的映射处理、卷积层的卷积处理以及池化层的池化处理,使卷积神经网络训练至收敛状态,即可获得第一向量匹配模型。
本申请的一些实施例中,请参阅图3,图3为本申请第三实施例提供的一种文本标签挖掘方法的实现流程图。详细如下:
步骤S31:根据训练样本文本获取用于表征所述训练样本文本的关键词并将所述关键词存储于词库中;
步骤S32:对所述词库中的关键词进行编码处理生成与所述关键词对应的词编码;
步骤S33:通过卷积神经网络的嵌入层对所述词编码进行映射处理,生成所述词库的词向量表达矩阵,所述词向量表达矩阵为用于获取词向量第二向量匹配模型。
本实施例中,收集相到训练样本文本后,将训练样本文本中用于代表各训练样本文本主题的有限数量个关键词存储于一词库中。通过对该词库中存储的关键词逐一进行编码处理得到每个关键词对应一个词编码(词ID)。进而,通过卷积神经网络的嵌入层(embedding层)将各个词编码进行映射处理转换为对应的词向量,以训练该卷积神经网络的嵌入层(embedding层)成为词库的词向量表达矩阵,该词向量表达矩阵即为第二向量匹配模型。在本实施例中,步骤S11中所述的预先构建好的词库可以设定为是该词库。即经过步骤S11获得待挖掘文本的对应的文本关键词存在于该词库中,通过将该文本关键词输入至该词向量表达矩阵中,即可输出与该文本关键词对应的词向量。
本申请的一些实施例中,请参阅图4,图4为本申请第四实施例提供的一种文本标签挖掘方法的实现流程图。详细如下:
步骤S41:根据所述训练样本文本构建用于训练生成所述相似度计算模型的正样本和负样本,其中,所述正样本包含有一训练样本文本以及一表达所述训练样本文本主题的关键词;所述负样本包含有一训练样本文本以及表达其他训练样本文本主题的关键词,且所述表达其他训练样本文本主题的关键词不存在于所述训练样本文本中。
步骤S42:结合hinge损失函数,将相似度计算模型训练至正样本与负样本之间的相似关系满足预设阈值要求。
本实施例中,对用于计算文本关键词与挖掘文本之间相似度值的相似度计算模型加入hinge损失函数进行训练,使得相似度计算模型损失最小,保证相似度计算模型在计算文本关键词与挖掘文本之间相似度值时的精确度。在本实施例中,基于收集到的训练样本文本,根据训练样本文本中的文本以及用于代表文本主题的关键词,构建用于训练生成所述相似度计算模型的正样本和负样本,其中,所述正样本包含有一训练样本文本以及一表达所述训练样本文本主题的关键词;所述负样本包含有一训练样本文本以及表达其他训练样本文本主题的关键词,且所述表达其他训练样本文本主题的关键词不存在于所述训练样本文本中。构建得到多个正样本和多个负样本后,通过该构建的正样本和负样本结合hinge损失函数来训练正负两个样本之间的相似关系,使正样本的相似度比负样本的相似度大一个指定的阈值m,此时,损失为零,即获得最小化损失函数。在本实施例中,具体训练公式可以如下:
L=max{0,m-f(w,t+)+f(w,t-)}
其中,L表示为损失函数;m表示为预设阈值,该预设阈值为经验值;f(w,t+)表示为正样本的相似度,f(w,t-)表示为负样本的相似度。
在本实施例中,对于一个正样本,可能会出现一直无法获得使正样本的相似度比负样本的相似度大一个指定的阈值m得情况。由此,在训练时设定选择负样本的次数最大值为1000次,从而在该1000次训练中确定非零的最小化损失函数。
由此,基于上述训练使得相似度计算模型具有最小化损失函数,通过该相似度计算模型来计算文本关键词与待挖掘文本之间的相似度值,可以提高文本关键词与待挖掘文本之间相似度值的精确度。
本申请的一些实施例中,请参阅图5,图5为本申请第五实施例提供的一种文本标签挖掘方法的实现流程图。详细如下:
步骤S51:获取所述待挖掘文本中文本关键词与所述待挖掘文本之间的相似度值;
步骤S52:将所述相似度值与预设的相似度阈值进行比对;
步骤S53:若所述相似度值满足所述预设的相似度阈值要求,则将该文本关键词设定为是所述待挖掘文本的文本标签。
本实施例中,一个文本中可能会出现多个文本关键词,各个文本关键词与文本主题之间相似度存在着差异,可能存在未能准确表达文本主题的关键词。在本实施例中,在为待挖掘文本设定文本标签实时,可以通过预先设定一个相似度阈值,通过该相似度阈值来衡量一个关键词是否可以准确地表达文本主题。首先分别计算出待挖掘文本中各个文本关键词与该待挖掘文本之间的相似度值,进而将各个文本关键词对应计算得到的相似度值与预设的相似度阈值进行比对,确定其对应计算得到的相似度值是否满足预设的相似度阈值要求,若满足则将该文本关键词设定为该待挖掘文本的文本标签。
本申请的一些实施例中,请参阅图6,图6为本申请第六实施例提供的一种文本标签挖掘方法的实现流程图。详细如下:
步骤S61:获取所述待挖掘文本中的文本关键词与所述待挖掘文本之间的相似度值;
步骤S62:按照相似度值由大至小对所述待挖掘文本中的文本关键词进行排序并生成排序列表;
步骤S63:从所述排序列表中由大至小选取预设的文本标签数量个文本关键词设定为是所述待挖掘文本的文本标签。
本实施例中,在为待挖掘文本设定文本标签实时,还可以通过各关键词相互之间进行相似度值比较来选取出最适合待挖掘文本的文本标签。具体地,分别计算出待挖掘文本中各个文本关键词与该待挖掘文本之间的相似度值,进而按照相似度值的大小,相似度值由大至小对各文本关键词进行排序并生成排序列表。预先确定为待挖掘文本设定的文本标签数量,进而从生成的排序列表中由大至小选取对应数量个文本关键词设定为是所述待挖掘文本的文本标签。
请参阅图7,图7为本申请第七实施例提供的一种文本标签挖掘装置的结构框图。本实施例中该装置包括的各单元用于执行上述方法实施例中的各步骤。具体请参阅上述方法实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。如图7所示,文本标签挖掘装置包括:接收模块71、处理模块72以及执行模块73。其中:所述接收模块71用于接收待挖掘文本并获取与所述待挖掘文本对应的文本关键词。所述处理模块72用于对所述待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量。所述执行模块73用于根据所述待挖掘文本的文本向量以及所述文本关键词的词向量计算出所述文本关键词与所述待挖掘文本之间的相似度值,并根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签。
应当理解的是,上述文本标签挖掘装置,与上述的文本标签挖掘方法一一对应,此处不再赘述。
请参阅图8,图8为本申请第八实施例提供的一种电子设备的结构框图。如图8所示,该实施例的电子设备8包括:处理器81、存储器82以及存储在所述存储器82中并可在所述处理器81上运行的计算机程序83,例如文本标签挖掘方法的程序。处理器81执行所述计算机程序83时实现上述各个文本标签挖掘方法各实施例中的步骤。或者,所述处理器81执行所述计算机程序83时实现上述文本标签挖掘装置对应的实施例中各模块的功能。具体请参阅实施例中的相关描述,此处不赘述。
示例性的,所述计算机程序83可以被分割成一个或多个模块(单元),所述一个或者多个模块被存储在所述存储器82中,并由所述处理器81执行,以完成本申请。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序83在所述电子设备8中的执行过程。例如,所述计算机程序83可以被分割成获取模块、处理模块和执行模块,各模块具体功能如上所述。
所述电子设备可包括,但不仅限于,处理器81、存储器82。本领域技术人员可以理解,图8仅仅是电子设备8的示例,并不构成对电子设备8的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器81可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器82可以是所述电子设备8的内部存储单元,例如电子设备8的硬盘或内存。所述存储器82也可以是所述电子设备8的外部存储设备,例如所述电子设备8上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器82还可以既包括所述电子设备8的内部存储单元也包括外部存储设备。所述存储器82用于存储所述计算机程序以及所述电子设备所需的其他程序和数据。所述存储器82还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (8)
1.一种文本标签挖掘方法,其特征在于,包括:
接收待挖掘文本并获取与所述待挖掘文本对应的文本关键词;所述文本关键词为在所述待挖掘文本中出现过的关键词;
对所述待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量;
根据所述待挖掘文本的文本向量以及所述文本关键词的词向量计算出所述文本关键词与所述待挖掘文本之间的相似度值,并根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签;
所述文本标签挖掘方法基于采用深度学习算法进行模型训练获得的挖掘模型实现,其中,所述挖掘模型中包括有用于获取文本向量的第一向量匹配模型以及用于获取词向量的第二向量匹配模型;所述对所述待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量的步骤之前,包括:
采用训练样本文本训练卷积神经网络获得所述第一向量匹配模型;以及
对词库中的关键词进行向量表达获得所述第二向量匹配模型,其中,所述词库通过对基于训练样本文本获得的用于表示训练样本文本主题的关键词进行统一存储生成;
所述采用训练样本文本训练卷积神经网络获得所述第一向量匹配模型的步骤,包括:
获取训练样本文本;其中,所述训练样本文本包括文本以及用于代表所述文本主题的关键词;
将所述训练样本文本按照字段转化为对应的字符向量;
将所述字符向量输入到卷积神经网络的嵌入层进行映射处理,生成与所述字符向量对应的向量矩阵;
将所述向量矩阵输入到卷积神经网络卷积层及池化层分别进行卷积处理和池化处理,获取表征所述训练样本文本的距离数值;
结合卷积神经网络的卷积核数量,通过卷积神经网络的全连接层对所述表征训练样本文本的距离数值进行向量转化处理,以训练获得用于获取文本向量所述第一向量匹配模型。
2.根据权利要求1所述的文本标签挖掘方法,其特征在于,所述对词库中的关键词进行向量表达获得所述第二向量匹配模型的步骤,包括:
根据训练样本文本获取用于表征所述训练样本文本主题的关键词并将所述关键词存储于词库中;
对所述词库中的关键词进行编码处理生成与所述关键词对应的词编码;
通过卷积神经网络的嵌入层对所述词编码进行映射处理,生成所述词库的词向量表达矩阵,所述词向量表达矩阵为用于获取词向量第二向量匹配模型。
3.根据权利要求1所述的文本标签挖掘方法,其特征在于,在所述挖掘模型中还包括有一用于获取文本关键词与待挖掘文本之间相似度值的相似度计算模型,所述根据所述待挖掘文本的文本向量以及所述文本关键词的词向量计算出所述文本关键词与所述待挖掘文本之间的相似度值,并根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签的步骤之前,包括:
根据所述训练样本文本构建用于训练生成所述相似度计算模型的正样本和负样本,其中,所述正样本包含有一训练样本文本以及一表达所述训练样本文本主题的关键词;所述负样本包含有一训练样本文本以及表达其他训练样本文本主题的关键词,且所述表达其他训练样本文本主题的关键词不存在于所述训练样本文本中;
结合hinge损失函数,将相似度计算模型训练至正样本与负样本之间的相似关系满足预设阈值要求。
4.根据权利要求1-3任意一项所述的文本标签挖掘方法,其特征在于,所述根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签的步骤,包括:
获取所述待挖掘文本中文本关键词与所述待挖掘文本之间的相似度值;
将所述相似度值与预设的相似度阈值进行比对;
若所述相似度值满足所述预设的相似度阈值要求,则将该文本关键词设定为是所述待挖掘文本的文本标签。
5.根据权利要求1-3任意一项所述的文本标签挖掘方法,其特征在于,所述根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签的步骤,包括:
获取所述待挖掘文本中的文本关键词与所述待挖掘文本之间的相似度值;
按照相似度值由大至小对所述待挖掘文本中的文本关键词进行排序并生成排序列表;
从所述排序列表中由大至小选取预设的文本标签数量个文本关键词设定为是所述待挖掘文本的文本标签。
6.一种文本标签挖掘装置,其特征在于,包括:
接收模块,用于接收待挖掘文本并获取与所述待挖掘文本对应的文本关键词;所述文本关键词为在所述待挖掘文本中出现过的关键词;
处理模块,用于对所述待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量;
执行模块,用于根据所述待挖掘文本的文本向量以及所述文本关键词的词向量计算出所述文本关键词与所述待挖掘文本之间的相似度值,并根据所述相似度值确定所述文本关键词是否被设定为是所述待挖掘文本的文本标签;
其中,所述文本标签挖掘方法基于采用深度学习算法进行模型训练获得的挖掘模型实现,其中,所述挖掘模型中包括有用于获取文本向量的第一向量匹配模型以及用于获取词向量的第二向量匹配模型;所述对所述待挖掘文本及其对应的文本关键词进行向量匹配处理,以获取所述待挖掘文本的文本向量以及所述文本关键词的词向量的步骤之前,包括:
采用训练样本文本训练卷积神经网络获得所述第一向量匹配模型;以及
对词库中的关键词进行向量表达获得所述第二向量匹配模型,其中,所述词库通过对基于训练样本文本获得的用于表示训练样本文本主题的关键词进行统一存储生成;
其中,所述采用训练样本文本训练卷积神经网络获得所述第一向量匹配模型的步骤,包括:
获取训练样本文本;其中,所述训练样本文本包括文本以及用于代表所述文本主题的关键词;
将所述训练样本文本按照字段转化为对应的字符向量;
将所述字符向量输入到卷积神经网络的嵌入层进行映射处理,生成与所述字符向量对应的向量矩阵;
将所述向量矩阵输入到卷积神经网络卷积层及池化层分别进行卷积处理和池化处理,获取表征所述训练样本文本的距离数值;
结合卷积神经网络的卷积核数量,通过卷积神经网络的全连接层对所述表征训练样本文本的距离数值进行向量转化处理,以训练获得用于获取文本向量所述第一向量匹配模型。
7.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011203145.3A CN112328655B (zh) | 2020-11-02 | 2020-11-02 | 文本标签挖掘方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011203145.3A CN112328655B (zh) | 2020-11-02 | 2020-11-02 | 文本标签挖掘方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112328655A CN112328655A (zh) | 2021-02-05 |
CN112328655B true CN112328655B (zh) | 2024-05-24 |
Family
ID=74324165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011203145.3A Active CN112328655B (zh) | 2020-11-02 | 2020-11-02 | 文本标签挖掘方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112328655B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818686B (zh) * | 2021-03-23 | 2023-10-31 | 北京百度网讯科技有限公司 | 领域短语挖掘方法、装置和电子设备 |
CN113722493B (zh) * | 2021-09-09 | 2023-10-13 | 北京百度网讯科技有限公司 | 文本分类的数据处理方法、设备、存储介质 |
CN113807436A (zh) * | 2021-09-16 | 2021-12-17 | 未鲲(上海)科技服务有限公司 | 用户挖掘方法、装置、计算机设备及可读存储介质 |
CN114298007A (zh) * | 2021-12-24 | 2022-04-08 | 北京字节跳动网络技术有限公司 | 一种文本相似度确定方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168954A (zh) * | 2017-05-18 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 文本关键词生成方法及装置和电子设备及可读存储介质 |
CN109190111A (zh) * | 2018-08-07 | 2019-01-11 | 北京奇艺世纪科技有限公司 | 一种文档正文关键词提取方法及装置 |
CN109635273A (zh) * | 2018-10-25 | 2019-04-16 | 平安科技(深圳)有限公司 | 文本关键词提取方法、装置、设备及存储介质 |
CN109918641A (zh) * | 2019-01-17 | 2019-06-21 | 平安城市建设科技(深圳)有限公司 | 文章主题成分分解方法、装置、设备和存储介质 |
CN111611807A (zh) * | 2020-05-18 | 2020-09-01 | 北京邮电大学 | 一种基于神经网络的关键词提取方法、装置及电子设备 |
-
2020
- 2020-11-02 CN CN202011203145.3A patent/CN112328655B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168954A (zh) * | 2017-05-18 | 2017-09-15 | 北京奇艺世纪科技有限公司 | 文本关键词生成方法及装置和电子设备及可读存储介质 |
CN109190111A (zh) * | 2018-08-07 | 2019-01-11 | 北京奇艺世纪科技有限公司 | 一种文档正文关键词提取方法及装置 |
CN109635273A (zh) * | 2018-10-25 | 2019-04-16 | 平安科技(深圳)有限公司 | 文本关键词提取方法、装置、设备及存储介质 |
CN109918641A (zh) * | 2019-01-17 | 2019-06-21 | 平安城市建设科技(深圳)有限公司 | 文章主题成分分解方法、装置、设备和存储介质 |
CN111611807A (zh) * | 2020-05-18 | 2020-09-01 | 北京邮电大学 | 一种基于神经网络的关键词提取方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112328655A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027327B (zh) | 机器阅读理解方法、设备、存储介质及装置 | |
CN112328655B (zh) | 文本标签挖掘方法、装置、设备及存储介质 | |
CN109885692B (zh) | 知识数据存储方法、装置、计算机设备和存储介质 | |
CN110851596B (zh) | 文本分类方法、装置及计算机可读存储介质 | |
CN106951422B (zh) | 网页训练的方法和装置、搜索意图识别的方法和装置 | |
CN110781276A (zh) | 文本抽取方法、装置、设备及存储介质 | |
CN113378970B (zh) | 语句相似性检测方法、装置、电子设备及存储介质 | |
WO2022174496A1 (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN112632264A (zh) | 智能问答方法、装置、电子设备及存储介质 | |
CN114492669B (zh) | 关键词推荐模型训练方法、推荐方法和装置、设备、介质 | |
CN114970553A (zh) | 基于大规模无标注语料的情报分析方法、装置及电子设备 | |
CN115495636A (zh) | 网页搜索方法、装置及存储介质 | |
CN112948526A (zh) | 用户画像的生成方法及装置、电子设备、存储介质 | |
CN112364068A (zh) | 课程标签生成方法、装置、设备及介质 | |
CN113988085B (zh) | 文本语义相似度匹配方法、装置、电子设备及存储介质 | |
CN114943306A (zh) | 意图分类方法、装置、设备及存储介质 | |
CN113705692A (zh) | 基于人工智能的情感分类方法、装置、电子设备及介质 | |
CN113434650A (zh) | 问答对扩展方法、装置、电子设备及可读存储介质 | |
CN113128234A (zh) | 一种实体识别模型的建立方法、系统、电子设备及介质 | |
Yang et al. | Automatic metadata information extraction from scientific literature using deep neural networks | |
CN107622129B (zh) | 一种知识库的组织方法及装置、计算机存储介质 | |
CN112445910B (zh) | 一种信息分类方法及系统 | |
CN112507126B (zh) | 一种基于循环神经网络的实体链接装置和方法 | |
Jony et al. | Domain specific fine tuning of pre-trained language model in NLP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |