CN114860923A - 基于大数据的多维属性标签提取方法、系统、终端及介质 - Google Patents

基于大数据的多维属性标签提取方法、系统、终端及介质 Download PDF

Info

Publication number
CN114860923A
CN114860923A CN202210385301.5A CN202210385301A CN114860923A CN 114860923 A CN114860923 A CN 114860923A CN 202210385301 A CN202210385301 A CN 202210385301A CN 114860923 A CN114860923 A CN 114860923A
Authority
CN
China
Prior art keywords
attribute
keywords
tag
main
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210385301.5A
Other languages
English (en)
Inventor
田俊峰
陈丁
李立现
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiujiang University
Original Assignee
Jiujiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiujiang University filed Critical Jiujiang University
Priority to CN202210385301.5A priority Critical patent/CN114860923A/zh
Publication of CN114860923A publication Critical patent/CN114860923A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于大数据的多维属性标签提取方法、系统、终端及介质,涉及标签技术领域,其技术方案要点是:提取目标文本中的关键词;以主成分分析方法对关键词集进行降维处理,得到主关键词;依据主关键词的词概率由大到小排列,并依据属性标签的维度值选取主关键词作为属性标签的标签集;选取词概率最大的主关键词作为标签名,并剩余的主关键词作为属性名,通过标签名和属性名的标定值对相应属性名的属性进行描述,得到最终的属性标签;将不同维度的属性标签集成得到多维属性标签。本发明既考虑频率较高的关键词作为主要的标签描述,同时又考虑了不同关键词之间的关联关系,使得文本数据的标签描述更加准确与详细,利于文本数据的精准匹配。

Description

基于大数据的多维属性标签提取方法、系统、终端及介质
技术领域
本发明涉及标签技术领域,更具体地说,它涉及基于大数据的多维属性标签提取方法、系统、终端及介质。
背景技术
随着互联网技术的不断发展,网络中的存在大量信息,为了方便管理一般会通过文本标签对各种数据进行标记分类。
目前,对于标签提取主要是利用专业字典对专业文献进行标签的提取。如对文本数据进行分词得到的多个关键词,以出现频率较高的一个或多个作为相应文本数据的标签,并通过标签的属性对文本数据进行分类标签。然而,随着智能化技术的不断发展,人们对标签的属性对文本数据进行描述的精确度提出了更高的要求,而传统的仅以频率相对高的关键词作为文本数据的标签,容易存在标签不能体现出文本数据的真实情况,从而导致数据匹配、信息搜索等过程存在一定误差,在一定程度上不利于网络信息的精准推送和详细刻画。
因此,如何研究设计一种能够克服上述缺陷的基于大数据的多维属性标签提取方法、系统、终端及介质是我们目前急需解决的问题。
发明内容
为解决现有技术中的不足,本发明的目的是提供基于大数据的多维属性标签提取方法、系统、终端及介质,既考虑频率较高的关键词作为主要的标签描述,同时又考虑了不同关键词之间的关联关系,使得文本数据的标签描述更加准确与详细,利于文本数据的精准匹配,可应用于数据匹配、信息搜索等操作过程。
本发明的上述技术目的是通过以下技术方案得以实现的:
第一方面,提供了基于大数据的多维属性标签提取方法,包括以下步骤:
提取目标文本中的关键词,得到包含多类的关键词集;
以主成分分析方法对关键词集进行降维处理,得到至少两个主关键词;
依据各个主关键词的词概率由大到小排列,并依据属性标签的维度值从排序最后的主关键词开始选取对应数量的主关键词作为相应属性标签的标签集;
从标签集中选取词概率最大的主关键词作为标签名,并选取剩余的主关键词作为属性名,以及通过标签名和属性名的标定值对相应属性名的属性进行描述,得到最终的属性标签;
将不同维度的属性标签集成得到多维属性标签。
进一步的,若多维属性标签的总维度为K,则多维属性标签的表达式具体为:
Figure BDA0003594756010000021
其中,A1、A2...AK表示词概率由大到小排列的主关键词;a1、a2...aK表示不同关键词所对应的标定值;{·}外的主关键词为标签名,{·}内的主关键词为属性名。
进一步的,所述属性名的属性以标签名的标定值和属性名的标定值乘积进行描述。
进一步的,所述标定值为对应主关键词的词概率。
进一步的,所述词概率为相应主关键词的频次数与所有主关键词的频次数之和的比值。
进一步的,所述词概率为相应主关键词的频次数与所有关键词的频次数之和的比值。
进一步的,所述多维属性标签的总维度选取过程具体为:
计算关键词集中各个关键词的词概率均值;
选取词概率大于词概率均值的关键词数量作为多维属性标签的总维度。
第二方面,提供了基于大数据的多维属性标签提取系统,包括:
提取模块,用于提取目标文本中的关键词,得到包含多类的关键词集;
降维模块,用于以主成分分析方法对关键词集进行降维处理,得到至少两个主关键词;
排序分析模块,用于依据各个主关键词的词概率由大到小排列,并依据属性标签的维度值从排序最后的主关键词开始选取对应数量的主关键词作为相应属性标签的标签集;
词分类模块,用于从标签集中选取词概率最大的主关键词作为标签名,并选取剩余的主关键词作为属性名,以及通过标签名和属性名的标定值对相应属性名的属性进行描述,得到最终的属性标签;
标签集成模块,用于将不同维度的属性标签集成得到多维属性标签。
第三方面,提供了一种计算机终端,包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面中任意一项所述的基于大数据的多维属性标签提取方法。
第四方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行可实现如第一方面中任意一项所述的基于大数据的多维属性标签提取方法。
与现有技术相比,本发明具有以下有益效果:
1、本发明提供的基于大数据的多维属性标签提取方法,既考虑频率较高的关键词作为主要的标签描述,同时又考虑了不同关键词之间的关联关系,使得文本数据的标签描述更加准确与详细,利于文本数据的精准匹配,可应用于数据匹配、信息搜索等操作过程;
2、本发明以不同关键词所对应的出现频率对整个文本数据的贡献情况来形成标签的属性,使得不同的文本数据能够保持最小的概率出现相同或相似的标签,有利于数据的精准化分析。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1是本发明实施例中的流程图;
图2是本发明实施例中的系统框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例1:基于大数据的多维属性标签提取方法,如图1所示,包括以下步骤:
S1:提取目标文本中的关键词,得到包含多类的关键词集;
S2:以主成分分析方法对关键词集进行降维处理,得到至少两个主关键词;
S3:依据各个主关键词的词概率由大到小排列,并依据属性标签的维度值从排序最后的主关键词开始选取对应数量的主关键词作为相应属性标签的标签集;
S4:从标签集中选取词概率最大的主关键词作为标签名,并选取剩余的主关键词作为属性名,以及通过标签名和属性名的标定值对相应属性名的属性进行描述,得到最终的属性标签;
S5:将不同维度的属性标签集成得到多维属性标签。
本发明既考虑频率较高的关键词作为主要的标签描述,同时又考虑了不同关键词之间的关联关系,使得文本数据的标签描述更加准确与详细,利于文本数据的精准匹配,可应用于数据匹配、信息搜索等操作过程。
在本实施例中,若多维属性标签的总维度为K,则多维属性标签的表达式具体为:
Figure BDA0003594756010000031
其中,A1、A2...AK表示词概率由大到小排列的主关键词;a1、a2...aK表示不同关键词所对应的标定值;{·}外的主关键词为标签名,{·}内的主关键词为属性名。
在本实施例中,属性名的属性以标签名的标定值和属性名的标定值乘积进行描述。其中,标定值为对应主关键词的词概率。
作为一种可选的实施方式,词概率为相应主关键词的频次数与所有主关键词的频次数之和的比值。
作为另一种可选的实施方式,词概率为相应主关键词的频次数与所有关键词的频次数之和的比值。
此外,多维属性标签的总维度选取过程具体为:计算关键词集中各个关键词的词概率均值;选取词概率大于词概率均值的关键词数量作为多维属性标签的总维度。
本发明以不同关键词所对应的出现频率对整个文本数据的贡献情况来形成标签的属性,使得不同的文本数据能够保持最小的概率出现相同或相似的标签,有利于数据的精准化分析。
实施例2:基于大数据的多维属性标签提取系统,包括提取模块、降维模块、排序分析模块、词分类模块和标签集成模块。
其中,提取模块,用于提取目标文本中的关键词,得到包含多类的关键词集;降维模块,用于以主成分分析方法对关键词集进行降维处理,得到至少两个主关键词;排序分析模块,用于依据各个主关键词的词概率由大到小排列,并依据属性标签的维度值从排序最后的主关键词开始选取对应数量的主关键词作为相应属性标签的标签集;词分类模块,用于从标签集中选取词概率最大的主关键词作为标签名,并选取剩余的主关键词作为属性名,以及通过标签名和属性名的标定值对相应属性名的属性进行描述,得到最终的属性标签;标签集成模块,用于将不同维度的属性标签集成得到多维属性标签。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于大数据的多维属性标签提取方法,其特征是,包括以下步骤:
提取目标文本中的关键词,得到包含多类的关键词集;
以主成分分析方法对关键词集进行降维处理,得到至少两个主关键词;
依据各个主关键词的词概率由大到小排列,并依据属性标签的维度值从排序最后的主关键词开始选取对应数量的主关键词作为相应属性标签的标签集;
从标签集中选取词概率最大的主关键词作为标签名,并选取剩余的主关键词作为属性名,以及通过标签名和属性名的标定值对相应属性名的属性进行描述,得到最终的属性标签;
将不同维度的属性标签集成得到多维属性标签。
2.根据权利要求1所述的基于大数据的多维属性标签提取方法,其特征是,若多维属性标签的总维度为K,则多维属性标签的表达式具体为:
Figure FDA0003594755000000011
其中,A1、A2...AK表示词概率由大到小排列的主关键词;a1、a2...aK表示不同关键词所对应的标定值;{·}外的主关键词为标签名,{·}内的主关键词为属性名。
3.根据权利要求1所述的基于大数据的多维属性标签提取方法,其特征是,所述属性名的属性以标签名的标定值和属性名的标定值乘积进行描述。
4.根据权利要求1所述的基于大数据的多维属性标签提取方法,其特征是,所述标定值为对应主关键词的词概率。
5.根据权利要求1所述的基于大数据的多维属性标签提取方法,其特征是,所述词概率为相应主关键词的频次数与所有主关键词的频次数之和的比值。
6.根据权利要求1所述的基于大数据的多维属性标签提取方法,其特征是,所述词概率为相应主关键词的频次数与所有关键词的频次数之和的比值。
7.根据权利要求1所述的基于大数据的多维属性标签提取系统,其特征是,所述多维属性标签的总维度选取过程具体为:
计算关键词集中各个关键词的词概率均值;
选取词概率大于词概率均值的关键词数量作为多维属性标签的总维度。
8.基于大数据的多维属性标签提取方法,其特征是,包括:
提取模块,用于提取目标文本中的关键词,得到包含多类的关键词集;
降维模块,用于以主成分分析方法对关键词集进行降维处理,得到至少两个主关键词;
排序分析模块,用于依据各个主关键词的词概率由大到小排列,并依据属性标签的维度值从排序最后的主关键词开始选取对应数量的主关键词作为相应属性标签的标签集;
词分类模块,用于从标签集中选取词概率最大的主关键词作为标签名,并选取剩余的主关键词作为属性名,以及通过标签名和属性名的标定值对相应属性名的属性进行描述,得到最终的属性标签;
标签集成模块,用于将不同维度的属性标签集成得到多维属性标签。
9.一种计算机终端,包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现如权利要求1-7中任意一项所述的基于大数据的多维属性标签提取方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征是,所述计算机程序被处理器执行可实现如权利要求1-7中任意一项所述的基于大数据的多维属性标签提取方法。
CN202210385301.5A 2022-04-13 2022-04-13 基于大数据的多维属性标签提取方法、系统、终端及介质 Pending CN114860923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210385301.5A CN114860923A (zh) 2022-04-13 2022-04-13 基于大数据的多维属性标签提取方法、系统、终端及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210385301.5A CN114860923A (zh) 2022-04-13 2022-04-13 基于大数据的多维属性标签提取方法、系统、终端及介质

Publications (1)

Publication Number Publication Date
CN114860923A true CN114860923A (zh) 2022-08-05

Family

ID=82631349

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210385301.5A Pending CN114860923A (zh) 2022-04-13 2022-04-13 基于大数据的多维属性标签提取方法、系统、终端及介质

Country Status (1)

Country Link
CN (1) CN114860923A (zh)

Similar Documents

Publication Publication Date Title
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN110851598B (zh) 文本分类方法、装置、终端设备及存储介质
CN108027814B (zh) 停用词识别方法与装置
KR101472451B1 (ko) 디지털 콘텐츠 관리 시스템 및 방법
CN111538846A (zh) 基于混合协同过滤的第三方库推荐方法
CN113934848B (zh) 一种数据分类方法、装置和电子设备
CN114661890A (zh) 一种知识推荐方法、装置、系统及存储介质
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN110929509B (zh) 一种基于louvain社区发现算法的领域事件触发词聚类方法
CN111401056A (zh) 一种从多类文本中提取关键词的方法
CN111460088A (zh) 相似文本的检索方法、装置和系统
CN114860923A (zh) 基于大数据的多维属性标签提取方法、系统、终端及介质
CN111339303B (zh) 一种基于聚类与自动摘要的文本意图归纳方法及装置
CN114282119A (zh) 一种基于异构信息网络的科技信息资源检索方法及系统
CN114372148A (zh) 一种基于知识图谱技术的数据处理方法及终端设备
Ramachandran et al. Document Clustering Using Keyword Extraction
CN117688140B (zh) 文档查询方法、装置、计算机设备和存储介质
CN115310564B (zh) 一种分类标签更新方法及系统
Ajitha et al. EFFECTIVE FEATURE EXTRACTION FOR DOCUMENT CLUSTERING TO ENHANCE SEARCH ENGINE USING XML.
CN117972123B (zh) 一种基于5g消息的客服信息系统、方法、设备及介质
CN114860227B (zh) 基于刻面的构件描述与检索方法、设备及介质
Xu Cross-Media Retrieval: Methodologies and Challenges
CN107122392B (zh) 词库构建方法、识别搜索需求的方法及相关装置
Li et al. rLLM: Relational Table Learning with LLMs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination