CN109753563B - 基于大数据的标签提取方法、装置及计算机可读存储介质 - Google Patents

基于大数据的标签提取方法、装置及计算机可读存储介质 Download PDF

Info

Publication number
CN109753563B
CN109753563B CN201910246350.9A CN201910246350A CN109753563B CN 109753563 B CN109753563 B CN 109753563B CN 201910246350 A CN201910246350 A CN 201910246350A CN 109753563 B CN109753563 B CN 109753563B
Authority
CN
China
Prior art keywords
information entry
corpus
user
data
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910246350.9A
Other languages
English (en)
Other versions
CN109753563A (zh
Inventor
张勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Coocaa Network Technology Co Ltd
Original Assignee
Shenzhen Coocaa Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Coocaa Network Technology Co Ltd filed Critical Shenzhen Coocaa Network Technology Co Ltd
Priority to CN201910246350.9A priority Critical patent/CN109753563B/zh
Publication of CN109753563A publication Critical patent/CN109753563A/zh
Application granted granted Critical
Publication of CN109753563B publication Critical patent/CN109753563B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种基于大数据的标签提取方法,包括在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并利用神经网络算法计算生成二次标签矩阵;将形成的排名最高的预设数量的信息词条以及预设数量的对应的父子层级集合进行概率转换计算,形成一次标签矩阵;将生成的一次标签矩阵与二次标签矩阵相乘得到三次矩阵;基于形成的三次矩阵,取三次矩阵中预设数量标签。此外本发明还提供一种基于大数据的标签提取装置。此外本发明还提供一种计算机可读存储介质。提高标签的提取准确率和效率。

Description

基于大数据的标签提取方法、装置及计算机可读存储介质
技术领域
本发明涉及大数据技术领域,尤其涉及基于大数据的标签提取方法、装置及计算机可读存储介质。
背景技术
标签作为对内容的刻画特征,对于内容理解及推荐系统起到至关重要的作用。
目前业界对于标签的提取,常见于利用专业字典对专业文献进行标签的提取。例如,通过对旅游相关网页的文本数据进行分词得到的多个词语,在该多个词语中,若存在旅游字典预存的关键词,且该关键词出现的频率大于设定阈值,则将该关键词作为该网页文本内容的标签。随着大数据的发展,现有提取标签的方法已经不能满足各业务发展要求,对于用户输入的内容进行标签的提取往往准确率低、效率低下。
如何保证标签的提取准确率高、效率高目前尚未有有效的解决方案。
发明内容
本发明的主要目的在于提供基于大数据的标签提取方法、装置及计算机可读存储介质,旨在提高标签的提取准确率、效率。
为实现上述目的,本发明提出一种基于大数据的标签提取方法,包括:
根据接收到的用户的输入文本指令,使用TextRnk关键词提取算法进行计算获得用户输入文本关键词;
基于获得的用户输入文本关键词,使用数据模型计算出形成的排名最高的预设数量信息词条以及预设数量的信息词条对应的父子层级集合中,与用户输入文本关键词之间距离最近的M个信息词条以及信息词条对应的父子层级集合;
将获得用户输入文本关键词与M个信息词条语料以及信息词条对应的父子层级集合生成一个列表,其中M为正整数;
将生成的列表进行补0,扩展生成二次标签矩阵;
在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并利用神经网络算法计算生成二次标签矩阵;
将形成的排名最高的预设数量的信息词条以及预设数量的对应的父子层级集合进行条件概率转换计算,形成一次标签矩阵;
将生成的一次标签矩阵与二次标签矩阵相乘得到三次矩阵;
基于形成的三次矩阵,取三次矩阵中预设数量标签。
可选的,所述在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并计算生成二次标签矩阵步骤之前包括:
采集行业语料;
将采集到的行业语料进行nlp分词,生成N份行业语料数据;
对N份行业语料数据,进行训练形成数据模型,其中N为正整数。
可选的,将形成的排名最高的预设数量的信息词条以及预设数量的对应的父子层级集合进行条件概率转换计算,形成一次标签矩阵的步骤之前包括:
采集信息词条语料;
基于采集到的信息词条语料,对每条信息词条语料计算排名值;
利用每条信息词条语料排名值,提取排名最高的预设数量的信息词条以及预设数量的信息词条对应的父子层级集合。
可选的,所述对N份行业语料数据,进行训练形成数据模型其中N为正整数的步骤之后包括:
对形成的数据模型进行验证。
可选的,在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并计算生成二次标签矩阵的步骤包括:
根据接收到的用户的输入文本指令,使用TextRnk关键词提取算法进行计算获得用户输入文本关键词;
基于获得的用户输入文本关键词,使用数据模型计算出形成的排名最高的预设数量信息词条以及预设数量的信息词条对应的父子层级集合中,与用户输入文本关键词之间距离最近的M个信息词条以及信息词条对应的父子层级集合;
将获得用户输入文本关键词与M个信息词条语料以及信息词条对应的父子层级集合生成一个列表,其中M为正整数;
将生成的列表进行补0,扩展生成二次标签矩阵。
可选的,所述对形成的数据模型进行验证的步骤包括:
将训练样本数据分成F份;
利用训练样本数据的F-1份数据进行训练,并用第F份数据来判断数据模型结果偏差,其中F为大于2的正整数;
若偏差小于预设阈值,则数据模型训练成功;
若偏差大于或者等于预设阈值,则重新训练数据模型。
另一方面本发明还提供了一种基于大数据的标签提取装置,所述基于大数据的标签提取装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于大数据的标签提取程序,所述基于大数据的标签提取程被所述处理器执行时实现如下步骤:
根据接收到的用户的输入文本指令,使用TextRnk关键词提取算法进行计算获得用户输入文本关键词;
基于获得的用户输入文本关键词,使用数据模型计算出形成的排名最高的预设数量信息词条以及预设数量的信息词条对应的父子层级集合中,与用户输入文本关键词之间距离最近的M个信息词条以及信息词条对应的父子层级集合;
将获得用户输入文本关键词与M个信息词条语料以及信息词条对应的父子层级集合生成一个列表,其中M为正整数;
将生成的列表进行补0,扩展生成二次标签矩阵;
在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并利用神经网络算法计算生成二次标签矩阵;
将形成的排名最高的预设数量的信息词条以及预设数量的对应的父子层级集合进行条件概率转换计算,形成一次标签矩阵;
将生成的一次标签矩阵与二次标签矩阵相乘得到三次矩阵;
基于形成的三次矩阵,取三次矩阵中预设数量标签。
可选的,所述基于大数据的标签提取程被所述处理器执行时还实现如下步骤:
采集行业语料;
将采集到的行业语料进行nlp分词,生成N份行业语料数据;
对N份行业语料数据,进行训练形成数据模型,其中N为正整数。
可选的,所述基于大数据的标签提取程被所述处理器执行时还实现如下步骤:
采集信息词条语料;
基于采集到的信息词条语料,对每条信息词条语料计算排名值;
利用每条信息词条语料排名值,提取排名最高的预设数量的信息词条以及预设数量的信息词条对应的父子层级集合。
此外本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于大数据的标签提取程序,所述基于大数据的标签提取程序被处理器执行时实现上述任一项所述的基于大数据的标签提取方法的步骤。
本发明具有以下有益技术效果:本发明提供的基于大数据的标签提取方法通过获取信息词条数据并计算生成一次标签矩阵;在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并计算生成二次标签矩阵;基于二次标签矩阵与预先生成的一次标签矩阵生成用户文本标签。提高标签的提取准确率和效率。
附图说明
图1为本发明基于大数据的标签提取方法第一实施例的流程示意图;
图2为本发明基于大数据的标签提取方法第二实施例的流程示意图;
图3为本发明基于大数据的标签提取方法第三实施例的流程示意图;
图4为本发明基于大数据的标签提取方法第四实施例的流程示意图;
图5为本发明基于大数据的标签提取方法第六实施例的流程示意图。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参照图1,图1为本发明基于大数据的标签提取方法的流程示意图,提出本发明的第一实施例,本发明实施例提出一种基于大数据的标签提取方法,包括:
步骤S10,在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并利用神经网络算法计算生成二次标签矩阵;
在本实施例中,人工神经网络(artificial neural networks, ANN)系统是20世纪40年代后出现的,它是由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点,在信息处理、模式识别、智能控制及系统建模等领域得到越来越广泛的应用。尤其误差反向传播算法(Error Back-propagationTraining,简称BP网络)可以逼近任意连续函数,具有很强的非线性映射能力,而且网络的中间层数、各层的处理单元数及网络的学习系数等参数可根据具体情况设定,灵活性很大,所以它在许多应用领域中起到重要作用。
BP算法是一种有监督式的学习算法,其主要思想是:输入学习样本,使用反向传播算法对网络的权值和偏差进行反复的调整训练,使输出的向量与期望向量尽可能地接近,当网络输出层的误差平方和小于指定的误差时训练完成,保存网络的权值和偏差。具体步骤如下:
(1)初始化,随机给定各连接权[w],[v]及阈值
(2)由给定的输入输出模式对计算隐层、输出层各单元输出
-) =f()
式中:为隐层第j个神经元实际输出;为输出层第t个神经元的实际输出;为输入层至隐层的连接权;为隐层至输出层的连接权。
-) =[])
(3)选取下一个输入模式对返回第(2)步反复训练直到网络输出误差达到要求结束训练。
传统的BP算法,实质上是把一组样本输入/输出问题转化为一个非线性优化问题,并通过负梯度下降算法,利用迭代运算求解权值问题的一种学习方法。
步骤S20,将形成的排名最高的预设数量的信息词条以及预设数量的对应的父子层级集合进行概率转换计算,形成一次标签矩阵;
在本实施例中,2-3万个信息词条(标签)之间的转换概率。获得一个 3W * 3W 的矩阵 MA,将形成的排名最高的前2-3万条信息词条以及2-3万条信息词条对应的父子层级集合进行概率转换计算,形成一次标签矩阵 MA具体的分为:标签之前无父子层级关系,转换概率计算公式=(标签A/标签B)*0.5;标签之前有父子层级关系,转换概率计算公式=(标签A/标签B)*0.8。
步骤S30,将预先生成的一次标签矩阵与二次标签矩阵相乘得到三次矩阵;
在本实施例中,运用计算公式一次标签矩阵*二次标签矩阵, 获取一个1*3万的三次矩阵。
步骤S40,基于形成的三次矩阵,取三次矩阵中预设数量标签;
在本实施例中,取三次矩阵其中值最高的20个,就是这篇文本的标签。整个算法围绕P(A|B) = P(AB)/P(B) 这个公式来实现。
文本标签。在本实施例中,在本实施例中,获取的信息语料不仅来自于从互联网下载百度百科,wiki(维基)等词条数据,还包括词典、杂志以及期刊上的内容,便于使标签来源的范围足够大;基于采集到的信息词条语料,对每条信息词条语料计算排名值;利用每条信息词条语料排名值,提取排名最高的前2-3万条信息词条以及2-3万条信息词条对应的父子层级集合;将形成的排名最高的前2-3万条信息词条以及2-3万条信息词条对应的父子层级集合进行概率转换计算,形成一次标签矩阵。
以需要查找的对象为有关于特朗普的新闻为例,现有的标签提取内容是单一的,用户在查找有关特朗普的新闻时终端根据用户输入的文本内容推送的内容都是以特朗普全篇描述的新闻,本申请通过运送算法P(A|B) = P(AB)/P(B)来实现;具体的,p(国际政治|川普) =F(国际政治|普京)*Distance(普京,川普)+F(国际政治|普京)*Distance(普京,川普);即国际政治中的川普新闻可以通过国际政治中的普金新闻(新闻中有涉及到川普相近信息)+国际政治中的普京信息(新闻中有涉及到川普相近信息),实现了能够更加精确的找到用户所需要查找的标签。
在本实施例中,基于预先生成的一次标签矩阵与二次标签矩阵,进行计算生成标签,具体的为:通过一次标签矩阵*二次标签矩阵运算, 获取一个1*3万的三次矩阵, 其中值最高的20个,就是这篇文本的标签。整个算法围绕P(A|B) = P(AB)/P(B) 这个公式来实现;本发明对语料库建设规模和稀疏数据问题具有较高的鲁棒性和稳定性:通过标签矩阵和经过模型处理的矩阵运算,得出文本的标签。
在本实施例中,根据接收到的用户输入文本指令,使用排名算法进行计
算获得用户输入文本关键词,在获得关键词后,使用数据模型计算出形成的排名最高的前2-3万条信息词条以及2-3万条信息词条对应的父子层级集合中,与用户输入文本关键词之间距离最近的4000-6000个信息词条以及信息词条对应的父子层级集合,将获得用户输入文本关键词与4000-6000个信息词条语料以及信息词条对应的父子层级集合生成一个列表,将生成的列表进行补0,扩展生成二次标签矩阵。
在本实施例中,本发明提供的基于大数据的标签提取方法通过获取信息词条数据并计算生成一次标签矩阵;在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并计算生成二次标签矩阵;基于二次标签矩阵与预先生成的一次标签矩阵生成用户文本标签。由于现有的标签提取往往采用专业字典对专业文献进行标签的提取不进行精确运算,导致准确率低、效率低,从而解决了如何保证标签的提取准确率高、效率高的问题。
基于本发明第一实施例提出本发明第二实施例,请参照图2,图2为本发明基于大数据的标签提取方法第二实施例的流程示意图,上述步骤S30之前包括:
步骤S7,采集行业语料;
在本实施例中,获取各个行业的语料,语料同样可以来自百度百科,wiki(维基)等词条数据,还包括词典、杂志以及期刊,例如说要对电影(或者音乐书籍)进行打标签,就采集海量的电影语料。
在本实施例中,采集行业语料具体的是指:对各个行业的语料进行采集例如要对电影(或者音乐书籍)进行打标签,就采集海量的电影语料。
步骤S8,将采集到的行业语料进行nlp分词,生成N份行业语料数据;
在本实施例中,将采集到的行业语料进行nlp分词,生成N份行业语料数据,类似于将采集到的所有行业语料分成不定份数的行业语料数据。
步骤S9,对N份行业语料数据,进行训练形成数据模型,其中N为正整数。
在本实施例中,将N份行业语料数据进行训练,并创建模型文件,创建模型文件为代表N份样本数据的每个词项的TF-IDF值,向量表示方式如下:
[v1,v2,v3,.........., v100000, d]
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度 。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF反文档频率(Inverse Document Frequency)。TF表示词条在文档d中出现的频率(另一说:TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数)。
需要说明的是,训练样本数据的数量和质量需要根据实际应用场景进行组织。
基于本发明第一实施例提出本发明第三实施例,请参照图3,图3为本发明基于大数据的标签提取方法第三实施例的流程示意图,上述步骤S20之前包括:
步骤S17,采集信息词条语料;
在本实施例中,采集信息词条语料来自于从互联网下载百度百科,wiki(维基)等词条数据,还包括词典、杂志以及期刊上的内容。
步骤S18,基于采集到的信息词条语料,对每条信息词条语料计算排名值;
在本实施例中,基于采集到的信息词条语料,对每条信息词条语料计算排名值类似于Page页码排名的计算,计算维基每个条目的排名值以及提取词条的父子层级。
Page页码排名的主要思想是:预先给每个网页一个PR查询值,由于PR查询值物理意义上为一个网页被访问概率,所以一般是1/N,其中N为网页总数。另外,一般情况下,所有网页的PR值的总和为1。如果不为1的话也不是不行,最后算出来的不同网页之间PR值的大小关系仍然是正确的,只是不能直接地反映概率了。预先给定PR值后,通过下面的算法不断迭代,直至达到平稳分布为止。
步骤S19,利用每条信息词条语料排名值,提取排名最高的预设数量的信息词条以及预设数量的信息词条对应的父子层级集合;
需要说明的是,提取排名最高的前2-3万条信息词条是在这个区间的词条出现错误的效率低,提取排名最高的前2-3万条信息词条以及2-3万条信息词条对应的父子层级集合,范围不限于2-3万条。
基于本发明第一实施例提出本发明第四实施例,请参照图4,图4为本发明基于大数据的标签提取方法第四实施例的流程示意图,上述步骤S20包括:
基于本发明第二实施例提出本发明第四实施例,上述步骤S19之后包括:
步骤S91,对形成的数据模型进行验证。
在本实施例中,对形成的数据模型进行试验,具体的方式是指:将训练样本数据分成F份,利用F-1份数据训练模型并用第M份来验证模型结果偏差,如果偏差小于某个E(例如0.15)则认为模型成功。
基于本发明第一实施例提出本发明第五实施例,请参照图4,图4为本发明基于大数据的标签提取方法第五实施例的流程示意图,上述步骤S10包括:
步骤S101,根据接收到的用户的输入文本指令,使用TextRank关键词提取算法进行计算获得用户输入文本关键词;
在本实施例中,对于需要打标签的内容,使用TextRank关键词提取算法计算关键词,获得内容的关键词系列,例如20个关键词 w1, w2, w3.. w20;TextRank关键词提取算法为:将文本中的语法单元视作图中的节点,如果两个语法单元存在一定语法关系(例如共现),则这两个语法单元在图中就会有一条边相互连接,通过一定的迭代次数,最终不同的节点会有不同的权重,权重高的语法单元可以作为关键词;
其中,节点的权重不仅依赖于它的入度结点,还依赖于这些入度结点的权重,入度结点越多,入度结点的权重越大,说明这个结点的权重越高;
Text排名迭代计算公式为:WS()=(1−d)+d∗∑∈In()∈Out()∗WS()。
步骤S102,基于获得的用户输入文本关键词,使用数据模型计算出形成的排名最高的预设数量信息词条以及预设数量的信息词条对应的父子层级集合中,与用户输入文本关键词之间距离最近的M个信息词条以及信息词条对应的父子层级集合;
步骤S103,将获得用户输入文本关键词与M个信息词条语料以及信息词条对应的父子层级集合生成一个列表,其中M为正整数;
在本实施例中,获得用户关键词w1, w2... w20使用训练过的数据模型计算出每个w与这个3万条信息词条距离最近的标签,挑选4000-6000个信息词条,生成一个列表(w1,l1), (w1, l2 ), (w2, l3).....(w5000,l5000)
步骤S104,将生成的列表进行补0,扩展生成二次标签矩阵。
在本实施例中,以获取一个5000个信息词条的矩阵 1*5000为例, 补充0,重新扩展成3万标签的 1*30000矩阵。
基于本发明第四实施例提出本发明第六实施例,请参照图5,图5为本发明基于大数据的标签提取方法第六实施例的流程示意图,上述步骤S191包括:
步骤S911,将训练样本数据分成F份;
步骤S912,利用训练样本数据的F-1份数据进行训练,并用第F份数据来判断数据模型结果偏差,其中F为大于2的正整数;
步骤S913,若偏差小于预设阈值,则数据模型训练成功;
步骤S914,若偏差大于或者等于预设阈值,则重新训练数据模型。
此外本发明还提供了一种基于大数据的标签提取装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于大数据的标签提取程序,所述基于大数据的标签提取程序被所述处理器执行时实现如下步骤:
在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并计算生成二次标签矩阵;
基于生成的二次标签矩阵与预先生成的一次标签矩阵生成用户文本标签。
进一步地,所述在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并计算生成二次标签矩阵步骤之前包括:
采集行业语料;
将采集到的行业语料进行nlp分词,生成N份行业语料数据;
对N份行业语料数据,进行训练形成数据模型,其中N为正整数。
进一步地,基于生成的二次标签矩阵与预先生成的一次标签矩阵生成用户文本标签的步骤之前包括:
采集信息词条语料;
基于采集到的信息词条语料,对每条信息词条语料计算排名值;
利用每条信息词条语料排名值,提取排名最高的预设数量的信息词条以及预设数量的信息词条对应的父子层级集合;
将形成的排名最高的预设数量的信息词条以及预设数量的对应的父子层级集合进行概率转换计算,形成一次标签矩阵。
进一步地,所述基于生成的二次标签矩阵与预先生成的一次标签矩阵生成用户文本标签的步骤包括:
将预先生成的一次标签矩阵与二次标签矩阵相乘得到三次矩阵;
基于形成的三次矩阵,取三次矩阵中预设数量标签。
进一步地,所述对N份行业语料数据,进行训练形成数据模型,其中N为正整数的步骤之后包括:
对形成的数据模型进行验证。
进一步地,在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并计算生成二次标签矩阵的步骤包括:
根据接收到的用户的输入文本指令,使用TextRnk关键词提取算法进行计算获得用户输入文本关键词;
基于获得的用户输入文本关键词,使用数据模型计算出形成的排名最高的预设数量信息词条以及预设数量的信息词条对应的父子层级集合中,与用户输入文本关键词之间距离最近的M个信息词条以及信息词条对应的父子层级集合;
将获得用户输入文本关键词与M个信息词条语料以及信息词条对应的父子层级集合生成一个列表,其中M为正整数;
将生成的列表进行补0,扩展生成二次标签矩阵。
进一步地,所述对形成的数据模型进行验证的步骤包括:
将训练样本数据分成F份;
利用训练样本数据的F-1份数据进行训练,并用第F份数据来判断数据模型结果偏差,其中F为大于2的正整数;
若偏差小于预设阈值,则数据模型训练成功;
若偏差大于或者等于预设阈值,则重新训练数据模型。
基于上述目的,本发明实施例提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时可执行上述任意方法实施例中的基于大数据的标签提取方法与实现上述任意装置/系统实施例中的基于大数据的标签提取装置/系统。所述计算机可读存储介质的实施例,可以达到与之对应的前述任意方法与装置/系统实施例相同或者相类似的效果。
基于上述目的,本发明实施例提出了一种计算机程序产品,该计算机程序产品包括存储在计算机可读存储介质上的计算程序,该计算机程序包括指令,当该指令被计算机执行时,使该计算机执行上述任意方法实施例中的基于大数据的标签提取方法与实现上述任意装置/系统实施例中的基于大数据的标签提取装置/系统。所述计算机程序产品的实施例,可以达到与之对应的前述任意方法与装置/系统实施例相同或者相类似的效果。
最后需要说明的是,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。所述计算机程序的实施例,可以达到与之对应的前述任意方法实施例相同或者相类似的效果。
此外,典型地,本发明实施例公开所述的装置、设备等可为各种电子终端设备,例如手机、个人数字助理(PDA)、平板电脑(PAD)、智能电视等,也可以是大型终端设备,如服务器等,因此本发明实施例公开的保护范围不应限定为某种特定类型的装置、设备。本发明实施例公开所述的客户端可以是以电子硬件、计算机软件或两者的组合形式应用于上述任意一种电子终端设备中。
此外,根据本发明实施例公开的方法还可以被实现为由CPU执行的计算机程序,该计算机程序可以存储在计算机可读存储介质中。在该计算机程序被CPU执行时,执行本发明实施例公开的方法中限定的上述功能。
此外,上述方法步骤以及系统单元也可以利用控制器以及用于存储使得控制器实现上述步骤或单元功能的计算机程序的计算机可读存储介质实现。
此外,应该明白的是,本文所述的计算机可读存储介质(例如,存储器)可以是易失性存储器或非易失性存储器,或者可以包括易失性存储器和非易失性存储器两者。作为例子而非限制性的,非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦写可编程ROM(EEPROM)或快闪存储器。易失性存储器可以包括随机存取存储器(RAM),该RAM可以充当外部高速缓存存储器。作为例子而非限制性的,RAM可以以多种形式获得,比如同步RAM(DRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDR SDRAM)、增强SDRAM(ESDRAM)、同步链路DRAM(SLDRAM)以及直接Rambus RAM(DRRAM)。所公开的方面的存储设备意在包括但不限于这些和其它合适类型的存储器。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现所述的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
结合这里的公开所描述的各种示例性逻辑块、模块和电路可以利用被设计成用于执行这里所述功能的下列部件来实现或执行:通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。通用处理器可以是微处理器,但是可替换地,处理器可以是任何传统处理器、控制器、微控制器或状态机。处理器也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP(需求方平台)和/或任何其它这种配置。
结合这里的公开所描述的方法或算法的步骤可以直接包含在硬件中、由处理器执行的软件模块中或这两者的组合中。软件模块可以驻留在RAM存储器、快闪存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域已知的任何其它形式的存储介质中。示例性的存储介质被耦合到处理器,使得处理器能够从该存储介质中读取信息或向该存储介质写入信息。在一个替换方案中,所述存储介质可以与处理器集成在一起。处理器和存储介质可以驻留在ASIC中。ASIC可以驻留在用户终端中。在一个替换方案中,处理器和存储介质可以作为分立组件驻留在用户终端中。
在一个或多个示例性设计中,所述功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将所述功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
以上是本发明公开的示例性实施例,但是应当注意,在不背离权利要求限定的本发明实施例公开的范围的前提下,可以进行多种改变和修改。根据这里描述的公开实施例的方法权利要求的功能、步骤和/或动作不需以任何特定顺序执行。此外,尽管本发明实施例公开的元素可以以个体形式描述或要求,但除非明确限制为单数,也可以理解为多个。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”(“a”、“an”、“the”)旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (9)

1.一种基于大数据的标签提取方法,其特征在于,包括:
根据接收到的用户的输入文本指令,使用TextRnk关键词提取算法进行计算获得用户输入文本关键词;
基于获得的用户输入文本关键词,使用数据模型计算出形成的排名最高的预设数量信息词条以及预设数量的信息词条对应的父子层级集合中,与用户输入文本关键词之间距离最近的M个信息词条以及信息词条对应的父子层级集合;
将获得用户输入文本关键词与M个信息词条语料以及信息词条对应的父子层级集合生成一个列表,其中M为正整数;
将生成的列表进行补0,扩展生成二次标签矩阵;
在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并利用神经网络算法计算生成二次标签矩阵;
将形成的排名最高的预设数量的信息词条以及预设数量的对应的父子层级集合进行条件概率转换计算,形成一次标签矩阵;
将生成的一次标签矩阵与二次标签矩阵相乘得到三次矩阵;
基于形成的三次矩阵,取三次矩阵中预设数量标签。
2.根据权利要求1所述的基于大数据的标签提取方法,其特征在于,所述在接收到用户输入的文本指令时,基于用户输入的文本指令在数据模型中进行标签提取并计算生成二次标签矩阵步骤之前包括:
采集行业语料;
将采集到的行业语料进行nlp分词,生成N份行业语料数据;
对N份行业语料数据,进行训练形成数据模型,其中N为正整数。
3.根据权利要求1所述的基于大数据的标签提取方法,其特征在于,将形成的排名最高的预设数量的信息词条以及预设数量的对应的父子层级集合进行条件概率转换计算,形成一次标签矩阵的步骤之前包括:
采集信息词条语料;
基于采集到的信息词条语料,对每条信息词条语料计算排名值;
利用每条信息词条语料排名值,提取排名最高的预设数量的信息词条以及预设数量的信息词条对应的父子层级集合。
4.根据权利要求2所述的基于大数据的标签提取方法,其特征在于,所述对N份行业语料数据,进行训练形成数据模型其中N为正整数的步骤之后包括:
对形成的数据模型进行验证。
5.根据权利要求4所述的基于大数据的标签提取方法,其特征在于,所述对形成的数据模型进行验证的步骤包括:
将训练样本数据分成F份;
利用训练样本数据的F-1份数据进行训练,并用第F份数据来判断数据模型结果偏差,其中F为大于2的正整数;
若偏差小于预设阈值,则数据模型训练成功;
若偏差大于或者等于预设阈值,则重新训练数据模型。
6.一种基于大数据的标签提取装置,其特征在于,所述基于大数据的标签提取装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于大数据的标签提取程序,所述基于大数据的标签提取程被所述处理器执行时实现如下步骤:
根据接收到的用户的输入文本指令,使用TextRnk关键词提取算法进行计算获得用户输入文本关键词;
基于获得的用户输入文本关键词,使用数据模型计算出形成的排名最高的预设数量信息词条以及预设数量的信息词条对应的父子层级集合中,与用户输入文本关键词之间距离最近的M个信息词条以及信息词条对应的父子层级集合;
将获得用户输入文本关键词与M个信息词条语料以及信息词条对应的父子层级集合生成一个列表,其中M为正整数;
将生成的列表进行补0,扩展生成二次标签矩阵;
将形成的排名最高的预设数量的信息词条以及预设数量的对应的父子层级集合进行条件概率转换计算,形成一次标签矩阵;
将生成的一次标签矩阵与二次标签矩阵相乘得到三次矩阵;
基于形成的三次矩阵,取三次矩阵中预设数量标签。
7.根据权利要求6所述的基于大数据的标签提取装置,其特征在于,所述基于大数据的标签提取程被所述处理器执行时还实现如下步骤:
采集行业语料;
将采集到的行业语料进行nlp分词,生成N份行业语料数据;
对N份行业语料数据,进行训练形成数据模型,其中N为正整数。
8.根据权利要求6所述的基于大数据的标签提取装置,其特征在于,所述基于大数据的标签提取程序被所述处理器执行时还实现如下步骤:
采集信息词条语料;
基于采集到的信息词条语料,对每条信息词条语料计算排名值;
利用每条信息词条语料排名值,提取排名最高的预设数量的信息词条以及预设数量的信息词条对应的父子层级集合。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于大数据的标签提取程序,所述基于大数据的标签提取程序被处理器执行时实现如权利要求1至5中任一项所述的基于大数据的标签提取方法的步骤。
CN201910246350.9A 2019-03-28 2019-03-28 基于大数据的标签提取方法、装置及计算机可读存储介质 Active CN109753563B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910246350.9A CN109753563B (zh) 2019-03-28 2019-03-28 基于大数据的标签提取方法、装置及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910246350.9A CN109753563B (zh) 2019-03-28 2019-03-28 基于大数据的标签提取方法、装置及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN109753563A CN109753563A (zh) 2019-05-14
CN109753563B true CN109753563B (zh) 2019-09-10

Family

ID=66409504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910246350.9A Active CN109753563B (zh) 2019-03-28 2019-03-28 基于大数据的标签提取方法、装置及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN109753563B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990823B (zh) * 2019-11-13 2024-03-15 北京数字联盟网络科技有限公司 一种基于智能手机传感器的设备指纹提取方法
CN113536107B (zh) * 2020-10-06 2022-07-29 西安创业天下网络科技有限公司 基于区块链的大数据决策方法、系统及云端服务中心

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528894A (zh) * 2016-12-28 2017-03-22 北京小米移动软件有限公司 设置标签信息的方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063589B (zh) * 2014-06-16 2018-01-16 百度移信网络技术(北京)有限公司 一种推荐方法以及系统
CN107301199B (zh) * 2017-05-17 2021-02-12 北京融数云途科技有限公司 一种数据标签生成方法和装置
CN107357889B (zh) * 2017-07-11 2020-07-17 北京工业大学 一种基于内容或情感相似性的跨社交平台图片推荐算法
CN107704632B (zh) * 2017-10-31 2018-12-14 河海大学 基于同义词和反义词的中文标签推荐修正方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528894A (zh) * 2016-12-28 2017-03-22 北京小米移动软件有限公司 设置标签信息的方法及装置

Also Published As

Publication number Publication date
CN109753563A (zh) 2019-05-14

Similar Documents

Publication Publication Date Title
Chu et al. Automatic image captioning based on ResNet50 and LSTM with soft attention
Sung et al. Improving short answer grading using transformer-based pre-training
CN111967242B (zh) 一种文本信息的抽取方法、装置及设备
JP5128629B2 (ja) 品詞タグ付けシステム、品詞タグ付けモデルのトレーニング装置および方法
Leimeister et al. Skip-gram word embeddings in hyperbolic space
JP2023539532A (ja) テキスト分類モデルのトレーニング方法、テキスト分類方法、装置、機器、記憶媒体及びコンピュータプログラム
Yan et al. Named entity recognition by using XLNet-BiLSTM-CRF
CN114580424B (zh) 一种用于法律文书的命名实体识别的标注方法和装置
Wang et al. Syntactically meaningful and transferable recursive neural networks for aspect and opinion extraction
Hui et al. Few-shot relation classification by context attention-based prototypical networks with BERT
CN112328759A (zh) 自动问答方法、装置、设备及存储介质
Park et al. S2‐Net: Machine reading comprehension with SRU‐based self‐matching networks
CN109753563B (zh) 基于大数据的标签提取方法、装置及计算机可读存储介质
Wang et al. Data set and evaluation of automated construction of financial knowledge graph
Ye et al. Chinese Named Entity Recognition Based on Character‐Word Vector Fusion
CN112989024B (zh) 文本内容的关系提取方法、装置、设备及存储介质
Tang et al. AttenSy-SNER: software knowledge entity extraction with syntactic features and semantic augmentation information
Zadeh Preliminary draft notes on a similarity‐based analysis of time‐series with applications to prediction, decision and diagnostics
Ge et al. A semisupervised framework for automatic image annotation based on graph embedding and multiview nonnegative matrix factorization
CN116796730A (zh) 基于人工智能的文本纠错方法、装置、设备及存储介质
Zhao et al. Relation extraction: advancements through deep learning and entity-related features
Shang et al. Deep learning generic features for cross-media retrieval
Zhang et al. An attentive memory network integrated with aspect dependency for document-level multi-aspect sentiment classification
CN113591493B (zh) 翻译模型的训练方法及翻译模型的装置
CN114880485A (zh) 阅读理解答案生成的方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: 2306, east block, Skyworth semiconductor design building, 18 Gaoxin South 4th Road, high tech Zone community, Yuehai street, Nanshan District, Shenzhen, Guangdong 518000

Patentee after: Shenzhen Kukai Network Technology Co.,Ltd.

Address before: 518108 Room 601, block C, Skyworth building, 008 Gaoxin South 1st Road, Nanshan District, Shenzhen City, Guangdong Province

Patentee before: Shenzhen Coocaa Network Technology Co.,Ltd.