CN117112858A - 基于关联规则挖掘的对象筛选方法、处理器及存储介质 - Google Patents

基于关联规则挖掘的对象筛选方法、处理器及存储介质 Download PDF

Info

Publication number
CN117112858A
CN117112858A CN202311377923.4A CN202311377923A CN117112858A CN 117112858 A CN117112858 A CN 117112858A CN 202311377923 A CN202311377923 A CN 202311377923A CN 117112858 A CN117112858 A CN 117112858A
Authority
CN
China
Prior art keywords
association rule
screening
keywords
text data
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311377923.4A
Other languages
English (en)
Other versions
CN117112858B (zh
Inventor
戴亦斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Bote Intelligent Technology Co ltd
Original Assignee
Wuhan Bote Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Bote Intelligent Technology Co ltd filed Critical Wuhan Bote Intelligent Technology Co ltd
Priority to CN202311377923.4A priority Critical patent/CN117112858B/zh
Publication of CN117112858A publication Critical patent/CN117112858A/zh
Application granted granted Critical
Publication of CN117112858B publication Critical patent/CN117112858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种基于关联规则挖掘的对象筛选方法、处理器及存储介质,属于计算机技术领域。其方法包括:获取待测对象集,其中,待测对象集包括多个待测对象,待测对象为文本数据和/或非文本数据;提取待测对象集的文本数据的关键词;在文本数据的关键词中筛选得到与预设关键词相关的目标关键词;采用卷积神经网络对待测对象集的非文本数据进行特征提取,得到非文本数据的特征向量;对目标关键词和特征向量进行关联规则挖掘,得到目标关键词和特征向量的关联规则;根据关联规则,在待测对象集中筛除与目标关键词相关的对象。本申请可以有效提高对互联网上平台和应用形式中内容筛选的准确性。

Description

基于关联规则挖掘的对象筛选方法、处理器及存储介质
技术领域
本发明涉及计算机技术领域,具体地涉及一种基于关联规则挖掘的对象筛选方法、处理器及存储介质。
背景技术
随着互联网的兴起,互联网上产生了各种平台和应用形式,例如网站、社交媒体、移动应用等,以进行信息传播和交流,由此对互联网上平台和应用形式的内容进行内容审核,以规避出现表述不当及违法违规的内容十分重要。
在现有技术中,主要采用图像识别的方式对互联网上平台和应用形式中的图像和视频进行分析,以识别出其中的敏感或违规元素并进行筛除;通过设定敏感词对互联网上平台和应用形式中的文本内容进行识别,以识别出其中的敏感词汇并进行筛除。
本申请发明人在实现本发明的过程中发现,随着互联网上平台和应用形式中内容的多样化和复杂化,现有技术的上述方案对文本数据和图像视频数据进行分别识别,无法覆盖所有可能的违规内容,导致筛选准确性较差。
发明内容
本发明实施例的目的是提供一种基于关联规则挖掘的对象筛选方法、处理器及存储介质,以有效提高对互联网上平台和应用形式中内容筛选的准确性。
为了实现上述目的,本发明实施例提供一种基于关联规则挖掘的对象筛选方法,包括:
获取待测对象集,其中,所述待测对象集包括多个待测对象,所述待测对象为文本数据和/或非文本数据;
提取所述待测对象集的文本数据的关键词;
在所述文本数据的关键词中筛选得到与预设关键词相关的目标关键词;
采用卷积神经网络对所述待测对象集的非文本数据进行特征提取,得到所述非文本数据的特征向量;
对所述目标关键词和所述特征向量进行关联规则挖掘,得到所述目标关键词和所述特征向量的关联规则;
根据所述关联规则,在所述待测对象集中筛除与所述目标关键词相关的对象。
可选的,所述提取所述待测对象集的文本数据的关键词,包括:
去除所述文本数据的停用词,并对所述文本数据进行分词处理,得到至少一个分词词语;
对所述分词词语进行词性标注,并统计每个所述分词词语的词频;
根据每个所述分词词语的词频,确定每个进行词性标注后的所述分词词语的重要程度指标;
在所述重要程度指标大于或等于预设指标值的情况下,确定与所述重要程度指标对应的分词词语为关键词。
可选的,在所述文本数据的关键词中筛选得到与预设关键词相关的目标关键词之后,包括:
根据预设的词向量模型,获取所述目标关键词的词向量;
对进行词性标注后的所述分词词语进行聚类处理;
获取每个所述目标关键词所在的聚类,并根据所述目标关键词的词向量在所述聚类中获取所述目标关键词与其他分词词语的相似度;
将大于预设相似度阈值的相似度对应的分词词语作为所述目标关键词。
可选的,所述对所述目标关键词和所述特征向量进行关联规则挖掘,得到所述目标关键词和所述特征向量的关联规则,包括:
将所述目标关键词和所述特征向量均转换为二进制变量;
基于预设的关联规则挖掘算法对所述二进制变量进行关联规则挖掘,得到初始关联规则;
根据预设的评估指标对所述初始关联规则进行评估,得到关联规则。
可选的,所述根据所述关联规则,在所述待测对象集中筛除与所述目标关键词相关的对象,包括:
根据构建的强化学习模型,得到最优筛除策略;
根据所述最优筛除策略,在所述待测对象集中根据所述关联规则筛除与所述目标关键词相关的对象。
可选的,所述强化学习模型的构建方法包括:
定义状态和动作空间,其中所述状态包括所述待测对象集中每个待测对象的特征向量,所述动作空间包括筛除操作;
根据筛除结果的准确性设计奖励函数;
根据预设的强化学习算法,构建初始强化学习模型;
确定所述初始强化学习模型的学习过程,其中,所述学习过程包括环境交互、动作选择、参数更新和状态更新;
迭代优化所述初始强化学习模型的参数,在迭代结束时,使所述初始强化学习模型通过所述奖励函数学习最优筛除策略;
将迭代结束后的初始强化学习模型作为强化学习模型。
可选的,在所述对所述目标关键词和所述特征向量进行关联规则挖掘,得到所述目标关键词和所述特征向量的关联规则之后,包括:
获取关联规则的支持度和置信度;
根据所述支持度和所述置信度,确定所述关联规则是否产生冗余;
在所述关联规则产生冗余的情况下,筛除冗余的关联规则。
可选的,在所述根据所述关联规则,在所述待测对象集中筛除与所述目标关键词相关的对象之后,包括:
获取所述待测对象集中的剩余对象;
对所述剩余对象进行特征提取,得到多个数据特征;
对多个数据特征进行融合,得到综合特征向量;
对每个所述剩余对象,均设置对应的向量阈值;
将所述综合特征向量分别与每个所述剩余对象对应的向量阈值进行比较;
筛除大于所述向量阈值的所述综合特征向量对应的剩余对象。
第二方面,本发明提供一种计算设备处理器,用于运行程序,其中,所述程序被运行时用于执行上述的基于关联规则挖掘的对象筛选方法。
第三方面,本发明提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行本申请上述任一项的基于关联规则挖掘的对象筛选方法。
通过上述技术方案,首先通过提取待测对象集中文本数据的关键词,并筛选与预设关键词相关的目标关键词;其次,采用卷积神经网络对待测对象集的非文本数据进行特征提取,得到非文本数据的特征向量,从而捕捉到非文本数据中的关键特征;然后,对目标关键词和特征向量进行关联规则挖掘,得到目标关键词和特征向量之间的关联规则,以便于进一步筛选出与目标关键词相关的对象;最后,根据关联规则,在待测对象集中筛除与目标关键词相关的对象,即可实现对违规内容的准确筛选,本方案通过综合考虑文本数据和非文本数据,并利用关联规则挖掘的方法,能够更全面地识别和筛选出可能存在的违规内容,从而提高内容审核的效果,进而有效提高了对互联网上平台和应用形式中内容的筛选准确性。
本发明实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1示出了本申请实施例一种基于关联规则挖掘的对象筛选方法的整体流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的电网覆冰的预测方法进行详细地说明。
本申请实施例公开一种基于关联规则挖掘的对象筛选方法。
参照图1,一种基于关联规则挖掘的对象筛选方法包括如下步骤:
S110、获取待测对象集,其中,待测对象集包括多个待测对象,待测对象为文本数据和/或非文本数据。
待测对象集指互联网上平台和应用形式的内容的集合,其中,待测对象集包括多个待测对象,具体的,待测对象指具体的互联网上平台和应用形式的内容,且待测对象可以为文本数据和/或非文本数据,非文本数据可以为图片、视频等。
S120、提取待测对象集的文本数据的关键词。
可以采用关键词提取算法对待测对象集的文本数据的关键词进行提取,关键词提取算法可以为TF-IDF(Term Frequency-Inverse Document Frequency)算法、RAKE(RapidAutomatic Keyword Extraction)算法等,在此不作限制。
S130、在文本数据的关键词中筛选得到与预设关键词相关的目标关键词。
在得到文本数据的关键词后,在关键词中筛选出与预设关键词相关的目标关键词,具体的,可以采用字符串匹配算法等将与预设关键词相关的目标关键词在文本数据的关键词中筛选出。
S140、采用卷积神经网络对待测对象集的非文本数据进行特征提取,得到非文本数据的特征向量。
将待测对象集的非文本数据作为卷积神经网络的输入数据,即可对待测对象集的非文本数据进行特征提取,得到非文本数据的特征向量。
具体的,卷积神经网络(Convolutional Neural Network,CNN)是一种深度学习模型,主要用于处理具有网格结构的数据,如图像、视频和音频等,其通过多个卷积层、激活函数、池化层和全连接层的组合,逐渐提取输入数据的抽象特征,并通过反向传播算法进行训练,以优化网络参数和权重。训练完成后,卷积神经网络可以用于对新的输入数据进行特征识别。
采用卷积神经网络对待测对象集的非文本数据进行特征提取,得到非文本数据的特征向量的步骤如下:
S141、对非文本数据进行预处理;
预处理包括数据清洗、归一化、尺寸调整等操作,以确保数据的质量和一致性。
S142、确定卷积神经网络模型;
本实施例中可以根据任务的复杂度和数据集的特点选择卷积神经网络模型。常用的卷积神经网络模型包括VGG、ResNet、Inception等;除此之外,卷积神经网络模型还可以为自定义卷积神经网络模型。
S143、使用预设数据集,对卷积神经网络模型进行训练。
S144、将非文本数据输入训练后的卷积神经网络模型中,得到非文本数据的特征向量。
将非文字数据输入卷积神经网络模型中,得到卷积层的输出特征图,本实施例中选择不同层的特征图,并将特征图转换为固定长度的特征向量。
S150、对目标关键词和特征向量进行关联规则挖掘,得到目标关键词和特征向量的关联规则。
关联规则挖掘本实施例中,用于挖掘目标关键词和特征向量的关联规则,从而提高后续筛除的准确性。具体的,关联规则挖掘是一种数据挖掘技术,用于在数据集中发现项之间的关联关系。
S160、根据关联规则,在待测对象集中筛除与目标关键词相关的对象。
在得到目标关键词和特征向量的关联规则后,即可利用挖掘得到的关联规则来筛除待测对象集中与目标关键词相关的对象,实现更全面地识别和筛选出可能存在的违规内容,从而提高内容审核的效果,进而有效提高了对互联网上平台和应用形式中内容的筛选准确性。
本实施例首先通过提取待测对象集中文本数据的关键词,并筛选与预设关键词相关的目标关键词;其次,采用卷积神经网络对待测对象集的非文本数据进行特征提取,得到非文本数据的特征向量,从而捕捉到非文本数据中的关键特征;然后,对目标关键词和特征向量进行关联规则挖掘,得到目标关键词和特征向量之间的关联规则,以便于进一步筛选出与目标关键词相关的对象;最后,根据关联规则,在待测对象集中筛除与目标关键词相关的对象,即可实现对违规内容的准确筛选,本方案通过综合考虑文本数据和非文本数据,并利用关联规则挖掘的方法,能够更全面地识别和筛选出可能存在的违规内容,从而提高内容审核的效果,进而有效提高了对互联网上平台和应用形式中内容的筛选准确性。
在本实施例的其中一种实施方式中,提取待测对象集的文本数据的关键词,包括如下步骤:
S210、去除文本数据的停用词,并对文本数据进行分词处理,得到至少一个分词词语。
停用词指在文本分析或自然语言处理中,对于理解文本内容没有太多帮助的常见词汇,如介词、连词、代词等,包括但不限于"的"、“了”、“和”、"是"等。这些词汇通常情况下并不具有明确的语义信息。具体的,可以根据预设的停用词库对文本数据的停用词进行去除。
分词处理指将文本数据的句子或段落切分成词语,本实施例中,可以采用分词工具,例如jieba分词、NLTK等。
S220、对分词词语进行词性标注,并统计每个分词词语的词频。
对分词词语进行词性标注,即标注每个分词词语的词性,如名词、动词、形容词等,本实施例中,可以采用预设的词性标注工具对分词词语进行词性标注。
词频指每个分词词语在文本数据中出现的次数。
S230、根据每个分词词语的词频,确定每个进行词性标注后的分词词语的重要程度指标。
本实施例中,分词词语的重要程度指标指分词词语的TF-IDF(Term Frequency-Inverse Document Frequency)值,具体的,TF-IDF是一种用于评估一个词语在文本中重要程度的指标,其由分词词语的TF值和IDF值相乘得到。TF值表示一个分词词语的词频,IDF值表示一个分词词语在全部文本数据集合中的重要程度。其中,TF-IDF值越高,表示该分词词语在文本数据中越重要。
具体实施步骤包括:
计算每个分词词语的TF值;
其中,TF值为词频除以分词词语的总数;
计算每个分词词语的IDF值;
其中,IDF值为文本数据总数除以包含该分词词语的文本数据的对数。
S240、在重要程度指标大于或等于预设指标值的情况下,确定与重要程度指标对应的分词词语为关键词。
在重要程度指标大于或等于预设指标值的情况下,判定与重要程度指标对应的分词词语为关键词。
本实施方式去除停用词可以减少文本数据的噪音,提高关键词提取的准确性;将文本数据进行分词处理,能够更好地捕捉文本的语义信息和特征,为后续的词性标注和词频统计提供基础;对分词后的词语进行词性标注,便于确定每个分词词语在句子或段落中的词性,便于更好地理解分词词语的含义;根据词频统计的结果和预设的重要程度指标,可以确定分词词语是否为关键词,实现对关键词的提取。
在本实施例的其中一种实施方式中,在文本数据的关键词中筛选得到与预设关键词相关的目标关键词之后,包括如下步骤:
S310、根据预设的词向量模型,获取目标关键词的词向量。
词向量模型为对预构建的词向量模型进行训练得到,可以采用Word2Vec或者GloVe等模型作为词向量模型,在此不做限制。
根据预设的词向量模型,即可将目标关键词转换为对应的词向量。
S320、对进行词性标注后的分词词语进行聚类处理。
本实施例中,通过预设的聚类算法对进行词性标注后的分词词语进行聚类处理。
S330、获取每个目标关键词所在的聚类,并根据目标关键词的词向量在聚类中获取目标关键词与其他分词词语的相似度。
在对分词词语进行聚类处理后,对于每个目标关键词,得到每个目标关键词所在的分词词语的聚类,即可根据目标关键词的词向量在聚类中获取目标关键词与其他分词词语的相似度。具体的,采用预设的词向量模型计算目标关键词与其他分词词语之间的相似度。
S340、将大于预设相似度阈值的相似度对应的分词词语作为目标关键词。
将大于预设相似度阈值的相似度对应的分词词语判定为目标关键词。
本实施方式通过使用预设的词向量模型、聚类处理和相似度计算,可以筛选得到与预设关键词相关的目标关键词,从而实现对提取得到的目标关键词进行进一步提取,进一步地提升关键词提取的准确性。
在本实施例的其中一种实施方式中,对目标关键词和特征向量进行关联规则挖掘,得到目标关键词和特征向量的关联规则,包括如下步骤:
S410、将目标关键词和特征向量均转换为二进制变量。
本实施例中,将目标关键词和特征向量均转换为二进制变量,以使目标关键词和特征向量均适用于关联规则挖掘算法进行处理。
S420、基于预设的关联规则挖掘算法对二进制变量进行关联规则挖掘,得到初始关联规则。
关联规则挖掘算法可以为Apriori算法、FP-Growth算法等,可以根据实际需求进行选择,在此不做限定。根据预设的关联规则挖掘算法对二进制变量进行关联规则挖掘,即可得到初始关联规则。
S430、根据预设的评估指标对初始关联规则进行评估,得到关联规则。
评估指标指用于对初始关联规则进行评估的指标,包括但不限于置信度、支持度等,其中,置信度是指在一个初始关联规则中,当前提出现时,结论也同时出现的概率,用于表示结论在给定前提的条件下出现的可靠程度;支持度是指在初始关联规则中同时包含前提和结论的概率,用于表示了初始关联规则在整个初始关联规则集合中的频繁程度。根据预设的评估指标对初始关联规则进行评估,即可得到关联规则。
本实施方式通过对目标关键词和特征向量进行关联规则挖掘,可以得到目标关键词和特征向量之间的关联规则,便于了解目标关键词和特征向量之间的关联关系。
在本实施例的其中一种实施方式中,根据关联规则,在待测对象集中筛除与目标关键词相关的对象,包括如下步骤:
S510、根据构建的强化学习模型,得到最优筛除策略。
强化学习模型为对预构建的强化学习模型进行训练后得到,根据构建的强化学习模型,可以通过训练和优化得到最优的筛除策略。最优筛除策略指在给定的环境和目标下,能够以最佳方式筛除不必要的信息或选择最优的行动。
S520、根据最优筛除策略,在待测对象集中根据关联规则筛除与目标关键词相关的对象。
在得到最优筛除策略后,即可根据最优筛除策略,在待测对象集中根据关联规则筛除与目标关键词相关的对象。
本实施方式通过在待测对象集中执行最优筛除策略,从而便于有效地筛除与目标关键词无关的对象,提高筛除的准确性。
在本实施例的其中一种实施方式中,强化学习模型的构建方法,包括如下步骤:
S610、定义状态和动作空间,其中状态包括待测对象集中每个待测对象的特征向量,动作空间包括筛除操作。
本实施例中,状态包括待测对象集中每个待测对象的特征向量,动作空间包括筛除操作,其中,筛除操作指的是将某些对象从待测对象集中移除或标记为不相关的操作。通过定义状态空间和动作空间,可以将问题转化为强化学习问题,使得初始强化学习模型可以根据当前状态选择一个动作来执行,以最大化某个目标,即筛除准确性,初始强化学习模型可以通过与环境的交互,不断学习和优化策略,以找到最优筛除策略。
S620、根据筛除结果的准确性设计奖励函数。
奖励函数用于评估强化学习模型的行为,具体的,奖励模型基于问题的目标定义,即根据筛除结果的准确性设计奖励函数。
S630、根据预设的强化学习算法,构建初始强化学习模型。
本实施例中,首先根据筛除结果的稳定性确定初始强化学习模型的模型架构,包括基于表格的方法、基于函数逼近的方法或深度强化学习方法,即可根据预设的强化学习算法根据初始强化学习模型的模型架构,构建初始强化学习模型。
S640、确定初始强化学习模型的学习过程,其中,学习过程包括环境交互、动作选择、参数更新和状态更新。
学习过程包括初始强化学习模型与环境的交互、动作选择、状态更新和参数更新等。
具体的,环境交互指在初始强化学习模型学习过程中,初始强化学习模型与环境进行交互,其中模型接收环境的当前状态作为输入,并根据当前状态选择一个动作来执行,执行动作后,初始强化学习模型会观察到环境的反馈,包括奖励或惩罚,以及下一个状态;动作选择指初始强化学习模型根据当前状态选择一个动作来执行,动作选择可以基于初始强化学习模型的策略函数,该函数根据当前状态和学习到的参数来决定选择哪一动作;参数更新指在强化学习中,初始强化学习模型需要通过与环境的交互来更新参数,以优化策略函数,参数更新的目标是使模型能够选择更优的动作,以获得更高的奖励。参数更新可以使用梯度下降等方法,根据模型的损失函数和反馈信号来调整参数的值;状态更新指将当前状态更新为下一个状态,以便初始强化学习模型能够根据新的状态做出下一步的动作选择。
S650、迭代优化初始强化学习模型的参数,在迭代结束时,使初始强化学习模型通过奖励函数学习最优筛除策略。
通过在初始强化学习模型的学习过程中迭代优化初始强化学习模型的参数,使得初始强化学习模型通过奖励函数即可学习最优筛除策略。
具体的,迭代优化初始强化学习模型的参数的步骤包括:
S1、初始化初始强化学习模型的参数。
可以使用随机初始化或者根据先验知识设置初始强化学习模型的初始参数。
S2、将初始化的初始强化学习模型与环境进行交互,根据当前状态,使用初始强化学习模型选择一个动作,并执行该动作,获得环境反馈,包括下一个状态和相应的奖励。
S3、根据环境反馈和奖励函数,更新模型的参数。
可以使用梯度下降法等优化算法来最小化奖励函数的损失,并调整模型的参数。
S4、重复执行步骤S2和步骤S3,通过与环境的交互和参数更新,逐步优化初始强化学习模型的参数。
本实施例中可以设置迭代次数或者根据收敛条件来确定迭代的停止条件。
S5、在每次迭代中,评估当前初始强化学习模型的筛除策略的性能。
可以使用测试数据集或者与环境的交互数据来评估策略的准确性和效果,并根据评估结果,对初始强化学习模型进行改进和调整。
通过迭代优化初始强化学习模型的参数,使初始强化学习模型能够通过奖励函数学习到最优的筛除策略,在每次迭代中,模型通过与环境的交互获取反馈,并根据奖励函数的指导来调整参数,逐步提升筛除策略的准确性和效果。重复迭代过程,直到模型达到所需的性能水平。
S660、将迭代结束后的初始强化学习模型作为强化学习模型。
本实施方式构建的强化学习模型,通过迭代优化模型参数学习最优筛除策略,该策略能够根据待测对象的特征向量选择合适的筛除操作,以提高筛除结果的准确性,因此构建的强化学习模型能够有效地筛除与目标关键词无关的对象,从而提高筛除的准确性。
在本实施例的其中一种实施方式中,在对目标关键词和特征向量进行关联规则挖掘,得到目标关键词和特征向量的关联规则之后,包括如下步骤:
S710、获取关联规则的支持度和置信度。
根据关联规则挖掘,即可得到关联规则的支持度和置信度。
S720、根据支持度和置信度,确定关联规则是否产生冗余。
对于一条关联规则,支持度表示包含该关联规则的对象集的比例,置信度表示在满足前提条件的对象集中,同时满足结论条件的比例。如果两条关联规则具有相同的前提条件和结论条件,但支持度和置信度差别较小,则判定其中一条关联规则冗余。
S730、在关联规则产生冗余的情况下,筛除冗余的关联规则。
本实施例中,在关联规则产生冗余的情况下,筛除冗余的关联规则,使得仅保留一个关联规则。
本实施方式通过在关联规则在产生冗余的情况下,筛除冗余的关联规则,便于提高关联规则的质量和有效性,使其更好地用于筛除与目标关键词无关的对象,提高筛除的准确性。
在本实施例的其中一种实施方式中,在根据关联规则,在待测对象集中筛除与目标关键词相关的对象之后,包括如下步骤:
S810、获取待测对象集中的剩余对象。
在筛除与目标关键词相关的对象之后,待测对象集中剩余的对象即为剩余对象。
S820、对剩余对象进行特征提取,得到多个数据特征。
由于剩余对象包括文本数据和非文本数据,故可以对剩余对象中的文本数据采用预设的特征提取算法进行文本特征提取,对剩余对象中的非文本数据采用预设的特征提取算法进行非文本特征提取,即图像特征提取、视频特征提取、音频特征提取等,得到多个数据特征。
S830、对多个数据特征进行融合,得到综合特征向量。
本实施例中,采用预设的特征组合算法对多个数据特征进行融合,得到综合特征向量。
S840、对每个剩余对象,均设置对应的向量阈值。
本实施例中,可以根据实际情况和需求设置向量阈值。
S850、将综合特征向量分别与每个剩余对象对应的向量阈值进行比较。
S860、筛除大于向量阈值的综合特征向量对应的剩余对象。
在综合特征向量小于或等于剩余对象对应的向量阈值的情况下,表明该剩余对象与目标关键词的相关性较低;同理,在综合特征向量大于剩余对象对应的向量阈值的情况下,表明该剩余对象与目标关键词的相关性较高,故筛除大于向量阈值的综合特征向量对应的剩余对象,以进一步提高筛除的准确性。
本实施方式根据综合特征向量和向量阈值对剩余对象进行筛除,从而进一步排除与目标关键词相关的对象,提高筛除的准确性和效率。
本发明实施例还提供了一种计算设备处理器,用于运行程序,其中,程序被运行时用于执行上述的基于关联规则挖掘的对象筛选方法。
本发明实施例还提供了一种存储介质,该机器可读存储介质上存储有指令,该指令在被处理器执行时使得处理器被配置成执行上述的基于关联规则挖掘的对象筛选方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器 (SRAM)、动态随机存取存储器 (DRAM)、其他类型的随机存取存储器 (RAM)、只读存储器 (ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于关联规则挖掘的对象筛选方法,其特征在于,包括:
获取待测对象集,其中,所述待测对象集包括多个待测对象,所述待测对象为文本数据和/或非文本数据;
提取所述待测对象集的文本数据的关键词;
在所述文本数据的关键词中筛选得到与预设关键词相关的目标关键词;
采用卷积神经网络对所述待测对象集的非文本数据进行特征提取,得到所述非文本数据的特征向量;
对所述目标关键词和所述特征向量进行关联规则挖掘,得到所述目标关键词和所述特征向量的关联规则;
根据所述关联规则,在所述待测对象集中筛除与所述目标关键词相关的对象。
2.根据权利要求1所述的基于关联规则挖掘的对象筛选方法,其特征在于,所述提取所述待测对象集的文本数据的关键词,包括:
去除所述文本数据的停用词,并对所述文本数据进行分词处理,得到至少一个分词词语;
对所述分词词语进行词性标注,并统计每个所述分词词语的词频;
根据每个所述分词词语的词频,确定每个进行词性标注后的所述分词词语的重要程度指标;
在所述重要程度指标大于或等于预设指标值的情况下,确定与所述重要程度指标对应的分词词语为关键词。
3.根据权利要求2所述的基于关联规则挖掘的对象筛选方法,其特征在于,在所述文本数据的关键词中筛选得到与预设关键词相关的目标关键词之后,包括:
根据预设的词向量模型,获取所述目标关键词的词向量;
对进行词性标注后的所述分词词语进行聚类处理;
获取每个所述目标关键词所在的聚类,并根据所述目标关键词的词向量在所述聚类中获取所述目标关键词与其他分词词语的相似度;
将大于预设相似度阈值的相似度对应的分词词语作为所述目标关键词。
4.根据权利要求1所述的基于关联规则挖掘的对象筛选方法,其特征在于,所述对所述目标关键词和所述特征向量进行关联规则挖掘,得到所述目标关键词和所述特征向量的关联规则,包括:
将所述目标关键词和所述特征向量均转换为二进制变量;
基于预设的关联规则挖掘算法对所述二进制变量进行关联规则挖掘,得到初始关联规则;
根据预设的评估指标对所述初始关联规则进行评估,得到关联规则。
5.根据权利要求1所述的基于关联规则挖掘的对象筛选方法,其特征在于,所述根据所述关联规则,在所述待测对象集中筛除与所述目标关键词相关的对象,包括:
根据构建的强化学习模型,得到最优筛除策略;
根据所述最优筛除策略,在所述待测对象集中根据所述关联规则筛除与所述目标关键词相关的对象。
6.根据权利要求5所述的基于关联规则挖掘的对象筛选方法,其特征在于,所述强化学习模型的构建方法包括:
定义状态和动作空间,其中所述状态包括所述待测对象集中每个待测对象的特征向量,所述动作空间包括筛除操作;
根据筛除结果的准确性设计奖励函数;
根据预设的强化学习算法,构建初始强化学习模型;
确定所述初始强化学习模型的学习过程,其中,所述学习过程包括环境交互、动作选择、参数更新和状态更新;
迭代优化所述初始强化学习模型的参数,在迭代结束时,使所述初始强化学习模型通过所述奖励函数学习最优筛除策略;
将迭代结束后的初始强化学习模型作为强化学习模型。
7.根据权利要求1所述的基于关联规则挖掘的对象筛选方法,其特征在于,在所述对所述目标关键词和所述特征向量进行关联规则挖掘,得到所述目标关键词和所述特征向量的关联规则之后,包括:
获取关联规则的支持度和置信度;
根据所述支持度和所述置信度,确定所述关联规则是否产生冗余;
在所述关联规则产生冗余的情况下,筛除冗余的关联规则。
8.根据权利要求1所述的基于关联规则挖掘的对象筛选方法,其特征在于,在所述根据所述关联规则,在所述待测对象集中筛除与所述目标关键词相关的对象之后,包括:
获取所述待测对象集中的剩余对象;
对所述剩余对象进行特征提取,得到多个数据特征;
对多个数据特征进行融合,得到综合特征向量;
对每个所述剩余对象,均设置对应的向量阈值;
将所述综合特征向量分别与每个所述剩余对象对应的向量阈值进行比较;
筛除大于所述向量阈值的所述综合特征向量对应的剩余对象。
9.一种计算设备处理器,其特征在于,用于运行程序,其中,所述程序被运行时用于执行:如权利要求1至8中任意一项所述的基于关联规则挖掘的对象筛选方法。
10.一种机器可读存储介质,该机器可读存储介质上存储有指令,其特征在于,该指令在被处理器执行时使得所述处理器被配置成执行根据权利要求1至8中任一项所述的基于关联规则挖掘的对象筛选方法。
CN202311377923.4A 2023-10-24 2023-10-24 基于关联规则挖掘的对象筛选方法、处理器及存储介质 Active CN117112858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311377923.4A CN117112858B (zh) 2023-10-24 2023-10-24 基于关联规则挖掘的对象筛选方法、处理器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311377923.4A CN117112858B (zh) 2023-10-24 2023-10-24 基于关联规则挖掘的对象筛选方法、处理器及存储介质

Publications (2)

Publication Number Publication Date
CN117112858A true CN117112858A (zh) 2023-11-24
CN117112858B CN117112858B (zh) 2024-02-02

Family

ID=88809555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311377923.4A Active CN117112858B (zh) 2023-10-24 2023-10-24 基于关联规则挖掘的对象筛选方法、处理器及存储介质

Country Status (1)

Country Link
CN (1) CN117112858B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法
CN109614466A (zh) * 2018-11-15 2019-04-12 阿里巴巴集团控股有限公司 基于频繁集挖掘的关键词规则生成方法及其装置
KR20190047940A (ko) * 2017-10-30 2019-05-09 한림대학교 산학협력단 텍스트 데이터의 연관 규칙 분석을 위한 텍스트 데이터 수집 및 분석 방법 및 장치
CN110879963A (zh) * 2019-09-18 2020-03-13 北京印刷学院 一种敏感表情包检测方法、装置与电子设备
US10831839B1 (en) * 2017-08-21 2020-11-10 Facet Labs, Llc Computing architecture for multiple search bots and behavior bots and related devices and methods
CN112052424A (zh) * 2020-10-12 2020-12-08 腾讯科技(深圳)有限公司 一种内容审核方法及装置
CN113257253A (zh) * 2021-06-29 2021-08-13 明品云(北京)数据科技有限公司 一种文本提取方法、系统、设备及介质
CN114138969A (zh) * 2021-12-10 2022-03-04 珠海金山数字网络科技有限公司 文本处理方法及装置
KR20220064016A (ko) * 2020-11-11 2022-05-18 주식회사 한국건설방재연구원 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법
CN114996489A (zh) * 2022-05-27 2022-09-02 中国联合网络通信集团有限公司 新闻数据的违规检测方法、装置、设备及存储介质
CN115618371A (zh) * 2022-07-11 2023-01-17 上海期货信息技术有限公司 一种非文本数据的脱敏方法、装置及存储介质
CN115858773A (zh) * 2022-04-06 2023-03-28 北京中关村科金技术有限公司 适用于长文档的关键词挖掘方法、装置及介质
CN115859372A (zh) * 2023-03-04 2023-03-28 成都安哲斯生物医药科技有限公司 医疗数据脱敏方法及系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106446232A (zh) * 2016-10-08 2017-02-22 深圳市彬讯科技有限公司 一种基于规则的敏感文本过滤方法
US10831839B1 (en) * 2017-08-21 2020-11-10 Facet Labs, Llc Computing architecture for multiple search bots and behavior bots and related devices and methods
KR20190047940A (ko) * 2017-10-30 2019-05-09 한림대학교 산학협력단 텍스트 데이터의 연관 규칙 분석을 위한 텍스트 데이터 수집 및 분석 방법 및 장치
CN109614466A (zh) * 2018-11-15 2019-04-12 阿里巴巴集团控股有限公司 基于频繁集挖掘的关键词规则生成方法及其装置
CN110879963A (zh) * 2019-09-18 2020-03-13 北京印刷学院 一种敏感表情包检测方法、装置与电子设备
CN112052424A (zh) * 2020-10-12 2020-12-08 腾讯科技(深圳)有限公司 一种内容审核方法及装置
KR20220064016A (ko) * 2020-11-11 2022-05-18 주식회사 한국건설방재연구원 빅데이터를 활용한 데이터마이닝기반 건설사고 객체정보 추출 방법
CN113257253A (zh) * 2021-06-29 2021-08-13 明品云(北京)数据科技有限公司 一种文本提取方法、系统、设备及介质
CN114138969A (zh) * 2021-12-10 2022-03-04 珠海金山数字网络科技有限公司 文本处理方法及装置
CN115858773A (zh) * 2022-04-06 2023-03-28 北京中关村科金技术有限公司 适用于长文档的关键词挖掘方法、装置及介质
CN114996489A (zh) * 2022-05-27 2022-09-02 中国联合网络通信集团有限公司 新闻数据的违规检测方法、装置、设备及存储介质
CN115618371A (zh) * 2022-07-11 2023-01-17 上海期货信息技术有限公司 一种非文本数据的脱敏方法、装置及存储介质
CN115859372A (zh) * 2023-03-04 2023-03-28 成都安哲斯生物医药科技有限公司 医疗数据脱敏方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
何梦娇;吴戈;梁华;唐倩;: "基于多源文本挖掘的城市交通舆情分析――以苏州为例", 交通信息与安全, no. 03, pages 111 - 117 *
胥桂仙等: "关联规则算法在中文文本挖掘中的应用研究", 中央民族大学学报, pages 332 - 338 *
苟元琴;刘小强;: "基于敏感信息挖掘的网络舆情监测系统探讨", 吉林广播电视大学学报, no. 03, pages 32 - 33 *

Also Published As

Publication number Publication date
CN117112858B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN112464656B (zh) 关键词抽取方法、装置、电子设备和存储介质
KR101837262B1 (ko) 단어 자질 가중치를 적용한 딥 러닝 기반 개체 유형 분류 방법
CN113806482B (zh) 视频文本跨模态检索方法、装置、存储介质和设备
CN113220886A (zh) 文本分类方法、文本分类模型训练方法及相关设备
JP6848091B2 (ja) 情報処理装置、情報処理方法、及びプログラム
KR101877161B1 (ko) 문서 문맥정보를 고려하는 상황기반 추천 방법 및 장치
CN112183994A (zh) 一种设备状态的评估方法、装置、计算机设备和存储介质
CN111985228A (zh) 文本关键词提取方法、装置、计算机设备和存储介质
JP6230987B2 (ja) 言語モデル作成装置、言語モデル作成方法、プログラム、および記録媒体
KR20200106108A (ko) 딥러닝 기반의 특허정보 워드임베딩 방법 및 그 시스템
Wong et al. Feature selection and feature extraction: Highlights
Lindén et al. Evaluating combinations of classification algorithms and paragraph vectors for news article classification
CN112835798A (zh) 聚类学习方法、测试步骤聚类方法及相关装置
CN117112858B (zh) 基于关联规则挖掘的对象筛选方法、处理器及存储介质
CN116257601A (zh) 一种基于深度学习的违法词库构建方法及系统
JP7452623B2 (ja) 学習装置、情報処理装置、学習方法、情報処理方法及びプログラム
JP5379812B2 (ja) データ抽出装置、データ抽出方法、及びプログラム
CN116150306A (zh) 问答机器人的训练方法、问答方法及装置
CN111339783B (zh) 一种基于rntm的话题挖掘方法与装置
KR102215259B1 (ko) 주제별 단어 또는 문서의 관계성 분석 방법 및 이를 구현하는 장치
CN109684442B (zh) 一种文本检索方法、装置、设备及程序产品
CN114048395A (zh) 基于时间感知与关键信息抽取的用户转发预测方法和系统
CN115114425A (zh) 文本推送方法、装置、电子设备及计算机可读存储介质
Rungta et al. Two-phase multimodal neural network for app categorization using APK resources
Hameed User ticketing system with automatic resolution suggestions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant