CN111325030A - 文本标签构建方法、装置、计算机设备和存储介质 - Google Patents

文本标签构建方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111325030A
CN111325030A CN202010243103.6A CN202010243103A CN111325030A CN 111325030 A CN111325030 A CN 111325030A CN 202010243103 A CN202010243103 A CN 202010243103A CN 111325030 A CN111325030 A CN 111325030A
Authority
CN
China
Prior art keywords
word segmentation
words
word
segmentation set
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010243103.6A
Other languages
English (en)
Inventor
周鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Original Assignee
Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhuo Erzhi Lian Wuhan Research Institute Co Ltd filed Critical Zhuo Erzhi Lian Wuhan Research Institute Co Ltd
Priority to CN202010243103.6A priority Critical patent/CN111325030A/zh
Publication of CN111325030A publication Critical patent/CN111325030A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种上述文本标签构建方法、装置、计算机设备和存储介质,获取待处理文本数据,对待处理文本数据进行分词处理,得到分词集合,通过word2vec训练所述分词集合,得到所述分词集合中词语之间相似度,基于词语之间相似度进行词语聚类,并根据词语聚类结果构建文本标签。整个过程中,通过word2vec训练来准确获取文本数据中各个词语之间相似度,并基于词语之间相似度进行聚类并且在聚类过程采用迭代聚类的方式能够实现准确聚类,再基于准确聚类的聚类结果可以合理且准确构建出文本数据的标签。

Description

文本标签构建方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种文本标签中标签构建方法、装置、计算机设备和存储介质。
背景技术
随着计算机与互联网的飞速发展,文本文档数据呈指数增长。然而面对如此庞大的数据,如何从中挖掘出有用信息,如何快速检索数据一直是人们面临的一个重要问题。
其中利用标签构建在文档数据的利用方面发挥着重大作用,比如根据标签可以进行UGC(User Generated Content,用户原创内容)的分类聚类、建立索引、主题搜索、主题爬虫以及推荐系统等等。除了以上应用之外,标签构建的另一个常见的用处是新闻或博客。通过对新闻或博客进行关键词提取,读者可以在很短时间内了解文章的内容,从而决定是否深入阅读;通过对某一位博主的UGC进行标签构建,读者可以迅速了解该博主的主要发文领域,从而决定是否进行关注。
可见在文本中标签的合理构建有利于在海量数据中高效实现大数据处理。然而,常规标签构建方式多是基于主题词等方式构建,这类标签实现方式一般适用于站点、文章地域等情境,其并不适合于大数据文本中标签的创建,无法准确实现大数据文本中标签创建。
发明内容
基于此,有必要针对上述技术问题,提供一种适用于大数据文本中标签创建的文本标签构建方法、装置、计算机设备和存储介质。
一种文本标签构建方法,所述方法包括:
获取待处理文本数据;
对所述待处理文本数据进行分词处理,得到分词集合;
调用word2vec训练所述分词集合,得到所述分词集合中词语之间相似度;
随机选取所述分词集合中K个词语作为初始聚类中心;根据所述分词集合中词语之间相似度,获取所述分词集合中其他词语与所述初始聚类中心之间距离;根据所述分词集合中其他词语分至距离最近的所述初始聚类中心对应的簇中;重新计算每个所述簇的质心,将所述质心重新作为所述初始聚类中心,迭代返回所述根据所述分词集合中词语之间相似度,获取所述分词集合中其他词语与所述初始聚类中心之间距离的步骤,直至满足预设迭代停止条件;根据迭代结束时所述簇的质心,构建文本标签。
在其中一个实施例中,所述对所述待处理文本数据进行分词处理,得到分词集合包括:
对所述待处理文本数据进行分词处理,得到初始分词集合;
去除所述初始分词集合中噪音词语,得到分词集合,所述噪音词语为在所述待处理文本数据中各类文档均出现且累计出现次数大于预设次数阈值的词语。
在其中一个实施例中,所述对所述待处理文本数据进行分词处理,得到初始分词集合包括:
对所述待处理文本数据进行分词和停用词去除处理,得到初始分词集合。
在其中一个实施例中,所述对所述待处理文本数据进行分词处理,得到分词集合包括:
获取分词配置参数,所述分词配置参数包括需分词的字符串、分词模式参数以及HMM参数,所述分词模式包括精确模式、全模式以及搜索引擎模式;
根据所述分词配置参数配置分词工具;
调用配置后的所述分词工具对所述待处理文本数据进行分词处理,得到分词集合。
在其中一个实施例中,所述调用word2vec训练所述分词集合,得到所述分词集合中词语之间相似度包括:
将所述分词集合中词串联成文本;
调用word2vec训练对所述文本进行训练,得到每个词的词向量;
根据所述每个词的词向量计算每两个词语之间相似度,得到所述分词集合中词语之间相似度。
在其中一个实施例中,所述对所述待处理文本数据进行分词处理,得到分词集合包括:
获取分词配置参数,所述分词配置参数包括需分词的字符串、分词模式参数以及HMM参数,所述分词模式包括精确模式、全模式以及搜索引擎模式;
根据所述分词配置参数配置分词工具;
调用配置后的所述分词工具对所述待处理文本数据进行分词处理,得到第一分词集合;
对所述第一分词集合进行分词和停用词去除处理,得到第二分词集合;
去除所述第二分词集合中噪音词语,得到分词集合,所述噪音词语为在所述待处理文本数据中各类文档均出现且累计出现次数大于预设次数阈值的词语。
一种文本标签构建装置,所述装置包括:
数据获取模块,用于获取待处理文本数据;
分词模块,用于对所述待处理文本数据进行分词处理,得到分词集合;
相似度获取模块,用于调用word2vec训练所述分词集合,得到所述分词集合中词语之间相似度;
标签构建模块,用于随机选取所述分词集合中K个词语作为初始聚类中心;根据所述分词集合中词语之间相似度,获取所述分词集合中其他词语与所述初始聚类中心之间距离;根据所述分词集合中其他词语分至距离最近的所述初始聚类中心对应的簇中;重新计算每个所述簇的质心,将所述质心重新作为所述初始聚类中心,迭代返回所述根据所述分词集合中词语之间相似度,获取所述分词集合中其他词语与所述初始聚类中心之间距离的步骤,直至满足预设迭代停止条件;根据迭代结束时所述簇的质心,构建文本标签。
在其中一个实施例中,所述分词模块还用于对所述待处理文本数据进行分词处理,得到初始分词集合;去除所述初始分词集合中噪音词语,得到分词集合,所述噪音词语为在所述待处理文本数据中各类文档均出现且累计出现次数大于预设次数阈值的词语。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实如上述的方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的方法的步骤。
上述文本标签构建方法、装置、计算机设备和存储介质,获取待处理文本数据,对待处理文本数据进行分词处理,得到分词集合,通过word2vec训练所述分词集合,得到所述分词集合中词语之间相似度,基于词语之间相似度进行词语聚类,并根据词语聚类结果构建文本标签。整个过程中,通过word2vec训练来准确获取文本数据中各个词语之间相似度,并基于词语之间相似度进行聚类并且在聚类过程采用迭代聚类的方式能够实现准确聚类,再基于准确聚类的聚类结果可以合理且准确构建出文本数据的标签。
附图说明
图1为一个实施例中文本标签构建方法的应用环境图;
图2为一个实施例中文本标签构建方法的流程示意图;
图3为另一个实施例中文本标签构建方法的流程示意图;
图4为一个实施例中文本标签构建装置的结构框图;
图5为在应用实例中文本标签构建流程阶段示意图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的文本标签构建方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。终端102上传待处理文本数据至服务器104,服务器104获取待处理文本数据,对待处理文本数据进行分词处理,得到分词集合;通过word2vec训练分词集合,得到分词集合中词语之间相似度,随机选取分词集合中K个词语作为初始聚类中心;根据分词集合中词语之间相似度,获取分词集合中其他词语与初始聚类中心之间距离;根据分词集合中其他词语分至距离最近的初始聚类中心对应的簇中;重新计算每个簇的质心,将质心重新作为初始聚类中心,迭代返回根据分词集合中词语之间相似度,获取分词集合中其他词语与初始聚类中心之间距离的步骤,直至满足预设迭代停止条件;根据迭代结束时簇的质心,构建文本标签,服务器104可以将创建的文本标签反馈至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
可以理解的是,本申请提供的文本标签构建方法还可以直接应用于终端,由终端自动爬取或响应用户输入操作得到待处理文本数据,执行本申请文本标签构建方法得到准确的文本标签,其实现过程与上述服务器实现过程类似,在此不再赘述。
在一个实施例中,如图2所示,提供了一种文本标签构建方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
S200:获取待处理文本数据。
待处理文本数据是指本次文本标签创建对象,该待处理文本数据具体可以是外部直接输入至服务器,例如用户直接上传文本数据至服务器;还可以是服务器自动在互联网/云端爬取得到的文本数据。在实际应用中,使用方赋予服务器(系统)调用自身API(Application Programming Interface,应用程序的调用接口)的权限,允许系统自动对独立用户的UGC文本内容进行自动爬取,例如用户的好友、用户的关注用户、用户的博文等,来得到待处理文本数据。进一步的,服务器还可以根据不同的场景设置不同的参数,从而划分不同的训练集,例如,训练集设定为“评论信息”、“博文信息”、“点赞信息”,从而构建三个训练集,这三个参数可以定位到一个用户的基本特征,从而可以基于这部分文本数据更加准确来构建标签。
S400:对待处理文本数据进行分词处理,得到分词集合。
对待处理文本数据进行分词,在分词过程可以调用分词工具来实现,得到分词集合,在分词集合中包含多个由待处理文本数据分词之后得到的词语。进一步的,在分词处理的同时还可以进行去噪处理,以去除分词处理之后得到分词集合中噪音词语。
如图3所示,在其中一个实施例中,上述S400包括:
S420:对待处理文本数据进行分词处理,得到初始分词集合;
S440:去除初始分词集合中噪音词语,得到分词集合,噪音词语为在待处理文本数据中各类文档均出现且累计出现次数大于预设次数阈值的词语。
在各类文档均出现且累计出现次数大于预设次数阈值的词语属于噪音词语,一般这类词语无法构建文本标签(简单来说这类词语不具备代表性),例如开心、流泪等。上述各类文档是指待处理文本数据中包含的不同类文档,在获取待处理文本数据时,通过采集(爬取)各类文档中的文本数据得到的,如采集不同微博文本得到待处理文本数据,则各类文档即指不同微博博主的文档,如果一个词“开心”,在各个博主的文档中都出现而且频次很高,那么这个词也是没有意义的,因为它不具有作为代表某博主标签的作用,去噪就是删除这一类词语的影响。预设次数阈值是根据经验预先设定的阈值,其可以根据实际情况的需要进行设定,例如设定为100,即若一个词在待处理文本数据中各类文档均出现且累计出现次数大于100次时,则将该词定义为噪音词语。
更进一步来说,在对待处理文本数据进行分词处理的同时还可以进行停用词去除处理,得到初始分词集合。停用词指的是例如“的”,“吧”之类的广泛在各个文本中出现,但没有意义的词,这些词需要去除。可以理解的是,后续去噪步骤是在已经去停用词基础上对初始分词集合继续进行的处理,采用去除停用词+去噪双重操作,去除分词处理后得到分词结果中不必要的词语,准确得到分词集合,有效减少后续数据处理量并且可以提高后续标签创建的准确度。
S600:调用word2vec训练分词集合,得到分词集合中词语之间相似度。
word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。通过Word2vec可以得到分词集合中每个词语的词向量,基于每个词语的词向量可以准确计算出词语之间相似度。
具体来说,利用word2vec对文进行训练、得到词向量。word2vec中n-gram模型的目的是要得到给定前n-1个词W1到W(n-1)取值的条件下,第n个词W(n)取值的条件概率分布。也即是说,如果词典中共有D个词的话,那么n-gram模型的学习内容就是要从数据中学习出上下文W的条件概率分布,word2vec的目标也是如此,不过word2vec假设该概率分布是用一个神经网络表示的函数F,而对于continue bag of word模型,这个概率的值只需要经过F计算即可,该函数首先将词映射为一个词向量,然后将词向量相加,最后计算出F的值。
S800:随机选取分词集合中K个词语作为初始聚类中心;根据分词集合中词语之间相似度,获取分词集合中其他词语与初始聚类中心之间距离;根据分词集合中其他词语分至距离最近的初始聚类中心对应的簇中;重新计算每个簇的质心,将质心重新作为初始聚类中心,迭代返回根据分词集合中词语之间相似度,获取分词集合中其他词语与初始聚类中心之间距离的步骤,直至满足预设迭代停止条件;根据迭代结束时簇的质心,构建文本标签。
步骤S600中计算得到分词集合中词语之间相似度,基于词语之间相似度进行词语聚类,并且根据词语聚类结果构建文本标签。简单来说,聚类的过程是将相似的词语聚集到一起形成一个个由词语组成的“簇”,每一个“簇”的“质心”是最能代表这一个“簇”的词语,因此可以直接选择“簇”的“质心”作为文本标签。具体来说,在进行词语聚类过程中,可以随机选择一些对象(词语)作为初始的聚类中心(初始质心),基于词语之间相似度确定词语之间的距离,基于词语之间的距离,将词语分配至与之距离最新的聚类中心,在不断聚类过程中迭代调整“簇”的“质心”(聚类中心),直至最终得到的“质心”不在发生改变,即完成最终的聚类。在词语聚类中可以选用K-means词语聚类,K-means算法是一种广泛应用的聚类方法。
预设迭代停止条件可以是质心不再改变。具体来说,对分词集合中处理好的词进行k-means聚类,在聚类过程中使用词向量计算两个词之间的距离,最后选择每个类别中距离聚类中心最近的词作为标签,先随机选取K个对象(分词集合中的词语)作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,聚类中心以及分配给它们的对象就代表一个聚类,一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算,这个过程将不断重复直到满足某个迭代停止条件。迭代停止条件可以是以下任何一个:没有(或最小数目)对象被重新分配给不同的聚类;没有(或最小数目)聚类中心再发生变化;误差平方和局部最小。举例来说,Word2vec训练后有ABCDEF六个词,每个词之间的相似度都可以通过上文计算,随机选A和B作为聚类对象,计算得到与A最相似的有CD,与B最相似的有EF。所以第一个簇是ACD,第二个簇是BEF。再通过计算质心,第一个簇的质心变成了C,第二个簇质心是E,那么第二次迭代计算后的簇变成了CAB和EDF,多次迭代计算后簇不会再改变了,那么各个簇的质心,就是推荐的标签。
上述文本标签构建方法,获取待处理文本数据,对待处理文本数据进行分词处理,得到分词集合,通过word2vec训练分词集合,得到分词集合中词语之间相似度,基于词语之间相似度进行词语聚类,并根据词语聚类结果构建文本标签。整个过程中,通过word2vec训练来准确获取文本数据中各个词语之间相似度,并基于词语之间相似度进行聚类并且在聚类过程采用迭代聚类的方式能够实现准确聚类,再基于准确聚类的聚类结果可以合理且准确构建出文本数据的标签。
在其中一个实施例中,对待处理文本数据进行分词处理,得到分词集合包括:
获取分词配置参数,分词配置参数包括需分词的字符串、分词模式参数以及HMM参数,分词模式包括精确模式、全模式以及搜索引擎模式;根据分词配置参数配置分词工具;调用配置后的分词工具对待处理文本数据进行分词处理,得到分词集合。
在分词过程中可以通过调用分词工具来实现,为了满足特定场景或者用户的使用需求,还可以选择支持自定义配置的分词工具,先获取分词配置参数,基于分词配置参数配置分词工具,调用配置后的分词工具对待处理文本数据进行分词处理,得到分词集合。以jieba分词工具为例,用户自定义输入三个参数,jieba.cut方法接收用户输入的三个参数,其中三个参数包括需要分词的字符串;cut_all参数用来控制是否采用全模式;HMM参数用来控制是否使用HMM模型。分词模式包括精确模式、全模式以及搜索引擎模式,其中,精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来,速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。在本实施例中,分词过程采用支持用户自定义方式的分词工具,用户可以根据需要自定义输入需分词的字符串、分词模式参数以及HMM参数,并且在分词模式选择上精确模式、全模式以及搜索引擎模式三种模式满足不同需求,可以在高效且准确实现分词的同时给用户带来便捷。
在其中一个实施例中,对待处理文本数据进行分词处理,得到分词集合包括:
获取分词配置参数,分词配置参数包括需分词的字符串、分词模式参数以及HMM参数,分词模式包括精确模式、全模式以及搜索引擎模式;根据分词配置参数配置分词工具;调用配置后的分词工具对待处理文本数据进行分词处理,得到第一分词集合;对第一分词集合进行分词和停用词去除处理,得到第二分词集合;去除第二分词集合中噪音词语,得到分词集合,噪音词语为在待处理文本数据中各类文档均出现且累计出现次数大于预设次数阈值的词语。
在其中一个实施例中,调用word2vec训练分词集合,得到分词集合中词语之间相似度包括:将分词集合中词串联成文本;调用word2vec训练对文本进行训练,得到每个词的词向量;根据每个词的词向量计算每两个词语之间相似度,得到分词集合中词语之间相似度。
串联的过程可以理解将分词集合中词语按照原有顺序组合在一起。进一步的,不同词语之间可以采用空格来分隔,以提高词向量训练的准确性,通过调用word2vec计算分词集合中每两个词语之间相似度,最终得到分词集合中词语之间相似度。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
如图4所示,本申请还提供一种文本标签构建装置,装置包括:
数据获取模块200,用于获取待处理文本数据;
分词模块400,用于对待处理文本数据进行分词处理,得到分词集合;
相似度获取模块600,用于调用word2vec训练分词集合,得到分词集合中词语之间相似度;
标签构建模块800,用于随机选取分词集合中K个词语作为初始聚类中心;根据分词集合中词语之间相似度,获取分词集合中其他词语与初始聚类中心之间距离;根据分词集合中其他词语分至距离最近的初始聚类中心对应的簇中;重新计算每个簇的质心,将质心重新作为初始聚类中心,迭代返回根据分词集合中词语之间相似度,获取分词集合中其他词语与初始聚类中心之间距离的步骤,直至满足预设迭代停止条件;根据迭代结束时簇的质心,构建文本标签。
上述文本标签构建装置,获取待处理文本数据,对待处理文本数据进行分词处理,得到分词集合,通过word2vec训练分词集合,得到分词集合中词语之间相似度,基于词语之间相似度进行词语聚类,并根据词语聚类结果构建文本标签。整个过程中,通过word2vec训练来准确获取文本数据中各个词语之间相似度,并基于词语之间相似度进行聚类并且在聚类过程采用迭代聚类的方式能够实现准确聚类,再基于准确聚类的聚类结果可以合理且准确构建出文本数据的标签。
在其中一个实施例中,分词模块400还用于对待处理文本数据进行分词处理,得到初始分词集合;去除初始分词集合中噪音词语,得到分词集合,噪音词语为在待处理文本数据中各类文档均出现且累计出现次数大于预设次数阈值的词语。
在其中一个实施例中,分词模块400还用于对待处理文本数据进行分词和停用词去除处理,得到初始分词集合。
在其中一个实施例中,分词模块400还用于获取分词配置参数,分词配置参数包括需分词的字符串、分词模式参数以及HMM参数,分词模式包括精确模式、全模式以及搜索引擎模式;根据分词配置参数配置分词工具;调用配置后的分词工具对待处理文本数据进行分词处理,得到分词集合。
在其中一个实施例中,分词模块400还用于获取分词配置参数,分词配置参数包括需分词的字符串、分词模式参数以及HMM参数,分词模式包括精确模式、全模式以及搜索引擎模式;根据分词配置参数配置分词工具;调用配置后的分词工具对待处理文本数据进行分词处理,得到第一分词集合;对第一分词集合进行分词和停用词去除处理,得到第二分词集合;去除第二分词集合中噪音词语,得到分词集合,噪音词语为在待处理文本数据中各类文档均出现且累计出现次数大于预设次数阈值的词语。
在其中一个实施例中,相似度获取模块600还用于将分词集合中词串联成文本;调用word2vec训练对文本进行训练,得到每个词的词向量;根据每个词的词向量计算每两个词语之间相似度,得到分词集合中词语之间相似度。
在其中一个实施例中,标签构建模块800还用于根据分词集合中词语之间相似度进行K-means词语聚类,并根据词语聚类结果构建文本标签。
在其中一个实施例中,标签构建模块800还用于随机选取分词集合中K个词语作为初始聚类中心;根据分词集合中词语之间相似度,获取分词集合中其他词语与初始聚类中心之间距离;根据分词集合中其他词语分至距离最近的初始聚类中心对应的簇中;重新计算每个簇的质心,将质心重新作为初始聚类中心,迭代返回根据分词集合中词语之间相似度,获取分词集合中其他词语与初始聚类中心之间距离的操作,直至满足预设迭代停止条件;根据迭代结束时簇的质心,构建文本标签。
关于文本标签构建装置的具体限定可以参见上文中对于文本标签构建方法的限定,在此不再赘述。上述文本标签构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在实际应用中,如图5所示,本申请文本标签构建方法与装置具体实现过程包括以下阶段:
第一阶段:数据采集与预处理阶段,主要包含用户自定义分词参数设定和训练集区分;
第二阶段:调用jieba模块分词,主要包括去除停用词和模型、模式选择;
第三阶段:针对分词结果进行去噪,主要包括查找出在各类文档中都出现且累计出现次数大于100的词;
第四阶段:word2vec训练,主要包括模型设定和参数设定,得到词语之间相似度;
第五阶段:K-means聚类,主要包括文本聚类处理和随机选择聚类中心,最终确定“簇”的质心,构建文本标签。
在实际应用中,标签构建在文档数据的利用方面发挥着重大作用,比如根据标签可以进行UGC的分类聚类、建立索引、主题搜索、主题爬虫以及推荐系统等等。除了以上应用之外,标签构建的另一个常见的用处是新闻或博客。通过对新闻或博客进行关键词提取,读者可以在很短时间内了解文章的内容,从而决定是否深入阅读;通过对某一位博主的UGC进行标签构建,读者可以迅速了解该博主的主要发文领域,从而决定是否进行关注。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储Word2vec相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本标签构建方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待处理文本数据;
对待处理文本数据进行分词处理,得到分词集合;
调用word2vec训练分词集合,得到分词集合中词语之间相似度;
随机选取分词集合中K个词语作为初始聚类中心;根据分词集合中词语之间相似度,获取分词集合中其他词语与初始聚类中心之间距离;根据分词集合中其他词语分至距离最近的初始聚类中心对应的簇中;重新计算每个簇的质心,将质心重新作为初始聚类中心,迭代返回根据分词集合中词语之间相似度,获取分词集合中其他词语与初始聚类中心之间距离的步骤,直至满足预设迭代停止条件;根据迭代结束时簇的质心,构建文本标签。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对待处理文本数据进行分词处理,得到初始分词集合;去除初始分词集合中噪音词语,得到分词集合,噪音词语为在待处理文本数据中各类文档均出现且累计出现次数大于预设次数阈值的词语。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
对待处理文本数据进行分词和停用词去除处理,得到初始分词集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取分词配置参数,分词配置参数包括需分词的字符串、分词模式参数以及HMM参数,分词模式包括精确模式、全模式以及搜索引擎模式;根据分词配置参数配置分词工具;调用配置后的分词工具对待处理文本数据进行分词处理,得到分词集合。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取分词配置参数,分词配置参数包括需分词的字符串、分词模式参数以及HMM参数,分词模式包括精确模式、全模式以及搜索引擎模式;根据分词配置参数配置分词工具;调用配置后的分词工具对待处理文本数据进行分词处理,得到第一分词集合;对第一分词集合进行分词和停用词去除处理,得到第二分词集合;去除第二分词集合中噪音词语,得到分词集合,噪音词语为在待处理文本数据中各类文档均出现且累计出现次数大于预设次数阈值的词语。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
将分词集合中词串联成文本;调用word2vec训练对文本进行训练,得到每个词的词向量;根据每个词的词向量计算每两个词语之间相似度,得到分词集合中词语之间相似度。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待处理文本数据;
对待处理文本数据进行分词处理,得到分词集合;
调用word2vec训练分词集合,得到分词集合中词语之间相似度;
随机选取分词集合中K个词语作为初始聚类中心;根据分词集合中词语之间相似度,获取分词集合中其他词语与初始聚类中心之间距离;根据分词集合中其他词语分至距离最近的初始聚类中心对应的簇中;重新计算每个簇的质心,将质心重新作为初始聚类中心,迭代返回根据分词集合中词语之间相似度,获取分词集合中其他词语与初始聚类中心之间距离的步骤,直至满足预设迭代停止条件;根据迭代结束时簇的质心,构建文本标签。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对待处理文本数据进行分词处理,得到初始分词集合;去除初始分词集合中噪音词语,得到分词集合,噪音词语为在待处理文本数据中各类文档均出现且累计出现次数大于预设次数阈值的词语。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
对待处理文本数据进行分词和停用词去除处理,得到初始分词集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取分词配置参数,分词配置参数包括需分词的字符串、分词模式参数以及HMM参数,分词模式包括精确模式、全模式以及搜索引擎模式;根据分词配置参数配置分词工具;调用配置后的分词工具对待处理文本数据进行分词处理,得到分词集合。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取分词配置参数,分词配置参数包括需分词的字符串、分词模式参数以及HMM参数,分词模式包括精确模式、全模式以及搜索引擎模式;根据分词配置参数配置分词工具;调用配置后的分词工具对待处理文本数据进行分词处理,得到第一分词集合;对第一分词集合进行分词和停用词去除处理,得到第二分词集合;去除第二分词集合中噪音词语,得到分词集合,噪音词语为在待处理文本数据中各类文档均出现且累计出现次数大于预设次数阈值的词语
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
将分词集合中词串联成文本;调用word2vec训练对文本进行训练,得到每个词的词向量;根据每个词的词向量计算每两个词语之间相似度,得到分词集合中词语之间相似度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种文本标签构建方法,其特征在于,所述方法包括:
获取待处理文本数据;
对所述待处理文本数据进行分词处理,得到分词集合;
调用word2vec训练所述分词集合,得到所述分词集合中词语之间相似度;
随机选取所述分词集合中K个词语作为初始聚类中心;根据所述分词集合中词语之间相似度,获取所述分词集合中其他词语与所述初始聚类中心之间距离;根据所述分词集合中其他词语分至距离最近的所述初始聚类中心对应的簇中;重新计算每个所述簇的质心,将所述质心重新作为所述初始聚类中心,迭代返回所述根据所述分词集合中词语之间相似度,获取所述分词集合中其他词语与所述初始聚类中心之间距离的步骤,直至满足预设迭代停止条件;根据迭代结束时所述簇的质心,构建文本标签。
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本数据进行分词处理,得到分词集合包括:
对所述待处理文本数据进行分词处理,得到初始分词集合;
去除所述初始分词集合中噪音词语,得到分词集合,所述噪音词语为在所述待处理文本数据中各类文档均出现且累计出现次数大于预设次数阈值的词语。
3.根据权利要求2所述的方法,其特征在于,所述对所述待处理文本数据进行分词处理,得到初始分词集合包括:
对所述待处理文本数据进行分词和停用词去除处理,得到初始分词集合。
4.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本数据进行分词处理,得到分词集合包括:
获取分词配置参数,所述分词配置参数包括需分词的字符串、分词模式参数以及HMM参数,所述分词模式包括精确模式、全模式以及搜索引擎模式;
根据所述分词配置参数配置分词工具;
调用配置后的所述分词工具对所述待处理文本数据进行分词处理,得到分词集合。
5.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本数据进行分词处理,得到分词集合包括:
获取分词配置参数,所述分词配置参数包括需分词的字符串、分词模式参数以及HMM参数,所述分词模式包括精确模式、全模式以及搜索引擎模式;
根据所述分词配置参数配置分词工具;
调用配置后的所述分词工具对所述待处理文本数据进行分词处理,得到第一分词集合;
对所述第一分词集合进行分词和停用词去除处理,得到第二分词集合;
去除所述第二分词集合中噪音词语,得到分词集合,所述噪音词语为在所述待处理文本数据中各类文档均出现且累计出现次数大于预设次数阈值的词语。
6.根据权利要求1所述的方法,其特征在于,所述调用word2vec训练所述分词集合,得到所述分词集合中词语之间相似度包括:
将所述分词集合中词串联成文本;
调用word2vec训练对所述文本进行训练,得到每个词的词向量;
根据所述每个词的词向量计算每两个词语之间相似度,得到所述分词集合中词语之间相似度。
7.一种文本标签构建装置,其特征在于,所述装置包括:
数据获取模块,用于获取待处理文本数据;
分词模块,用于对所述待处理文本数据进行分词处理,得到分词集合;
相似度获取模块,用于调用word2vec训练所述分词集合,得到所述分词集合中词语之间相似度;
标签构建模块,用于随机选取所述分词集合中K个词语作为初始聚类中心;根据所述分词集合中词语之间相似度,获取所述分词集合中其他词语与所述初始聚类中心之间距离;根据所述分词集合中其他词语分至距离最近的所述初始聚类中心对应的簇中;重新计算每个所述簇的质心,将所述质心重新作为所述初始聚类中心,迭代返回所述根据所述分词集合中词语之间相似度,获取所述分词集合中其他词语与所述初始聚类中心之间距离的步骤,直至满足预设迭代停止条件;根据迭代结束时所述簇的质心,构建文本标签。
8.根据权利要求7所述的装置,其特征在于,所述分词模块还用于对所述待处理文本数据进行分词处理,得到初始分词集合;去除所述初始分词集合中噪音词语,得到分词集合,所述噪音词语为在所述待处理文本数据中各类文档均出现且累计出现次数大于预设次数阈值的词语。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN202010243103.6A 2020-03-31 2020-03-31 文本标签构建方法、装置、计算机设备和存储介质 Pending CN111325030A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010243103.6A CN111325030A (zh) 2020-03-31 2020-03-31 文本标签构建方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010243103.6A CN111325030A (zh) 2020-03-31 2020-03-31 文本标签构建方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN111325030A true CN111325030A (zh) 2020-06-23

Family

ID=71173605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010243103.6A Pending CN111325030A (zh) 2020-03-31 2020-03-31 文本标签构建方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111325030A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069824A (zh) * 2020-11-11 2020-12-11 北京智慧星光信息技术有限公司 基于上下文概率和引证的地域识别方法、装置及介质
CN112182213A (zh) * 2020-09-27 2021-01-05 中润普达(十堰)大数据中心有限公司 一种基于异常流泪特征认知的建模方法
CN112699237A (zh) * 2020-12-24 2021-04-23 百度在线网络技术(北京)有限公司 标签确定方法、设备和存储介质
CN113656579A (zh) * 2021-07-23 2021-11-16 北京亿欧网盟科技有限公司 文本分类方法、装置、设备及介质
CN114443850A (zh) * 2022-04-06 2022-05-06 杭州费尔斯通科技有限公司 基于语义相似模型的标签生成方法、系统、装置和介质
CN116127077A (zh) * 2023-04-17 2023-05-16 长沙数智融媒科技有限公司 基于Kmeans的内容均匀聚类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268449A (zh) * 2018-02-10 2018-07-10 北京工业大学 一种基于词项聚类的文本语义标签抽取方法
CN108399228A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN108595660A (zh) * 2018-04-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体资源的标签信息生成方法、装置、存储介质及设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108268449A (zh) * 2018-02-10 2018-07-10 北京工业大学 一种基于词项聚类的文本语义标签抽取方法
CN108399228A (zh) * 2018-02-12 2018-08-14 平安科技(深圳)有限公司 文章分类方法、装置、计算机设备及存储介质
CN108595660A (zh) * 2018-04-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体资源的标签信息生成方法、装置、存储介质及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
施彤年等: "多类多标签汉语文本自动分类的研究", 《情报学报》, no. 03, pages 50 - 53 *
李泽等: "基于Python的文本分析方法研究", 《电脑编程技巧与维护》, no. 04, pages 27 - 28 *
甄志龙: "文本分类中的特征选择方法研究", vol. 1, 长春:吉林大学出版社, pages: 19 *
郭蕾蕾等: "基于伴随文本信息的Web图像批量标注方法", 《信息技术与网络安全》, no. 09, pages 210 - 211 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182213A (zh) * 2020-09-27 2021-01-05 中润普达(十堰)大数据中心有限公司 一种基于异常流泪特征认知的建模方法
CN112182213B (zh) * 2020-09-27 2022-07-05 中润普达(十堰)大数据中心有限公司 一种基于异常流泪特征认知的建模方法
CN112069824A (zh) * 2020-11-11 2020-12-11 北京智慧星光信息技术有限公司 基于上下文概率和引证的地域识别方法、装置及介质
CN112699237A (zh) * 2020-12-24 2021-04-23 百度在线网络技术(北京)有限公司 标签确定方法、设备和存储介质
CN112699237B (zh) * 2020-12-24 2021-10-15 百度在线网络技术(北京)有限公司 标签确定方法、设备和存储介质
CN113656579A (zh) * 2021-07-23 2021-11-16 北京亿欧网盟科技有限公司 文本分类方法、装置、设备及介质
CN113656579B (zh) * 2021-07-23 2024-01-26 北京亿欧网盟科技有限公司 文本分类方法、装置、设备及介质
CN114443850A (zh) * 2022-04-06 2022-05-06 杭州费尔斯通科技有限公司 基于语义相似模型的标签生成方法、系统、装置和介质
CN114443850B (zh) * 2022-04-06 2022-07-22 杭州费尔斯通科技有限公司 基于语义相似模型的标签生成方法、系统、装置和介质
CN116127077A (zh) * 2023-04-17 2023-05-16 长沙数智融媒科技有限公司 基于Kmeans的内容均匀聚类方法

Similar Documents

Publication Publication Date Title
US11227118B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN111325030A (zh) 文本标签构建方法、装置、计算机设备和存储介质
WO2019136993A1 (zh) 文本相似度计算方法、装置、计算机设备和存储介质
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN112256822A (zh) 文本搜索方法、装置、计算机设备和存储介质
CN112115232A (zh) 一种数据纠错方法、装置及服务器
CN111737997A (zh) 一种文本相似度确定方法、设备及储存介质
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN110674301A (zh) 一种情感倾向预测方法、装置、系统及存储介质
CN112632261A (zh) 智能问答方法、装置、设备及存储介质
CN113660541A (zh) 新闻视频的摘要生成方法及装置
CN111651675A (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN111512304B (zh) 在二维方面立方体上进行方面聚类的方法和系统
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
CN117076946A (zh) 一种短文本相似度确定方法、装置及终端
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN108197295B (zh) 基于多粒度属性树的属性约简在文本分类中的应用方法
CN113761104A (zh) 知识图谱中实体关系的检测方法、装置和电子设备
CN111428144A (zh) 基于dcn与lda结合的推荐方法、装置和计算机设备
CN110930189A (zh) 基于用户行为的个性化营销方法
CN115688771B (zh) 一种文书内容比对性能提升方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200623