CN115510330A - 基于数据挖掘的信息智能处理方法及系统 - Google Patents

基于数据挖掘的信息智能处理方法及系统 Download PDF

Info

Publication number
CN115510330A
CN115510330A CN202211355172.1A CN202211355172A CN115510330A CN 115510330 A CN115510330 A CN 115510330A CN 202211355172 A CN202211355172 A CN 202211355172A CN 115510330 A CN115510330 A CN 115510330A
Authority
CN
China
Prior art keywords
information
user
simulated
processed
feature information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211355172.1A
Other languages
English (en)
Other versions
CN115510330B (zh
Inventor
刘静
孙立文
董世新
于谦
刘淑君
孟晓亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Affiliated Hospital of Weifang Medical University
Original Assignee
Affiliated Hospital of Weifang Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Affiliated Hospital of Weifang Medical University filed Critical Affiliated Hospital of Weifang Medical University
Priority to CN202211355172.1A priority Critical patent/CN115510330B/zh
Publication of CN115510330A publication Critical patent/CN115510330A/zh
Application granted granted Critical
Publication of CN115510330B publication Critical patent/CN115510330B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及信息处理领域,尤其涉及一种基于数据挖掘的信息智能处理方法及系统,该方法包括:接收若干待模拟信息;根据创建时间将待模拟处理信息按预设比例分为训练集和测试集,获取训练集中待模拟处理信息的特征信息,对标注的特征信息进行处理,进行挖掘模型训练和测试;利用挖掘模型提取第一特征信息并与特征信息库进行匹配和推送目标信息;利用挖掘模型提取第二特征信息并与特征信息库的第一特征信息进行匹配,根据匹配结果决策是否对第一特征信息进行更新。通过对挖掘模型训练和测试提高了挖掘模型的准确性,挖掘模型进行特征信息挖掘,根据特征信息为用户进行准确推送,并定期更新第一特征信息,提高推送的准确性。

Description

基于数据挖掘的信息智能处理方法及系统
技术领域
本发明涉及信息处理领域,尤其涉及一种基于数据挖掘的信息智能处理方法及系统。
背景技术
由于生活节奏和工作节奏的加快,人们的休闲时间呈现碎片化倾向,新媒体应运而生并不断发展,满足了人们随时随地互动表达、娱乐与了解信息的需要,而面对大量繁杂的视频信息会给用户造成困扰,因此从中挖掘对用户有用的信息非常重要。
申请号为202011595752 .9的专利公开的一种基于数据挖掘的视频内容推送技术包括:S1:根据数据模型进行数据挖掘;S2:评估数据模型;S3:推送关联视频内容,其中S2包括:S21:结构化文本数据挖掘;S22:元数据或者关键帧的图像挖掘。
现有技术只是通过构建数据挖掘模型进行视频内容推送,但由于视频内容复杂和关联的数据复杂,存在众多局限性,且视频和用户行为在实时变化,导致推送视频准确性不高。
发明内容
为此,本发明提供一种基于数据挖掘的信息智能处理方法及系统,可以解决推送视频准确性不高的问题。
为实现上述目的,本发明一方面提供一种基于数据挖掘的信息智能处理方法,该方法包括:
接收若干待模拟信息,所述待模拟信息包括模拟用户基本信息和待模拟处理信息,所述模拟用户基本信息包括模拟用户ID和创建时间,将待模拟处理信息与模拟用户ID进行关联;
根据所述创建时间将所述待模拟处理信息根据用户ID按预设比例分为训练集和测试集,获取训练集中已标注好的待模拟处理信息的特征信息,对标注的特征信息进行处理,将处理的特征信息对应的待模拟处理信息进行挖掘模型训练,将训练完成的挖掘模型在测试集上进行测试,若测试成功,则完成挖掘模型的训练,若测试失败,则继续对挖掘模型进行训练;
在完成挖掘模型训练后,获取用户基本信息和待处理信息,用户基本信息包括用户ID,将所述用户基本信息进行分析,判断所述待处理信息是否为空,若不为空,则将待处理信息利用挖掘模型提取第一特征信息,根据提取的第一特征信息对待处理信息进行打标签,生成目标信息,标签内容为第一特征信息,用户基本信息包括用户ID,将第一特征信息与用户ID进行关联,将关联后的第一特征信息存储到特征信息库;
将所述第一特征信息与所述特征信息库进行匹配,将匹配到的第一特征信息对应的目标信息发送到对应用户ID的用户端进行显示;
在预设时间时,获取用户ID的历史记录信息,对历史记录信息进行筛选,得到目标历史记录信息,将所述目标历史记录信息利用挖掘模型提取第二特征信息,将所述第二特征信息与所述特征信息库中相同用户ID的所述第一特征信息进行匹配,根据匹配结果决策是否对第一特征信息进行更新。
进一步地,在对标注的特征信息进行处理时,特征信息包括对象名称、对象类别和对象轮廓,根据对象类别对特征信息进行划分,统计任意用户ID的标注的特征信息的对象类别数量,将对象类别数量最多的特征信息生成目的特征信息。
进一步地,将任意对象类别的标注的特征信息中对象名称和对象轮廓进行关联和存储,对比各个对象名称对应的待模拟处理信息的相邻帧图像中的对象轮廓是否相同,计算重合率P,P=N/M,其中,N为重合次数,M为对比总次数,将重合率P与预设重合率P0进行对比,
若P≥P0,则判定该待模拟处理信息的相邻帧图像的对象轮廓重合率高;
若P<P0,则判定该待模拟处理信息的相邻帧图像的对象轮廓重合率低。
进一步地,在判定待模拟处理信息的相邻帧图像的对象轮廓重合率高时,统计相同用户ID的各个待模拟处理信息的相邻帧图像的对象轮廓重合率高的数量E,将对象轮廓重合率高的数量E与预设对象轮廓重合率高的数量E0,
若E≥E0,则判定各个待模拟处理信息的相邻帧图像的对象轮廓重合率高的容易等级为一级;
若E<E0,则判定各个待模拟处理信息的相邻帧图像的对象轮廓重合率高的容易等级为二级;其中,一级>二级。
进一步地,判定各个待模拟处理信息的相邻帧图像的对象轮廓重合率高的容易等级为一级时,则调整挖掘规则,当F≥F0时,其中,F为任意待模拟处理信息的帧数F,F0为预设帧数,则将每间隔k帧进行一次挖掘,其中,k为预设间隔帧数,当F<F0时,则逐帧进行挖掘。
进一步地,在判断所述待处理信息是否为空时,若为空,所述用户基本信息包括用户头像和用户介绍,对所述用户头像进行实体识别,得到目标实体和实体名称,将用户介绍的文本信息进行关键词提取,根据预设关键词库对用户介绍的文本信息进行关键词提取,将提取的关键词与实体名称进行匹配,若匹配成功,则将匹配成功的关键词作为第一特征信息,若匹配不成功,则获取关键词和实体名称的类别,将类别相同的类别作为第一特征信息。
进一步地,在获取到预设时间内每个用户ID的历史记录信息后,统计历史记录信息的数量k和每个历史记录信息的触发次数h,将历史记录信息的数量k与预设历史记录信息的数量k0进行比较,将每个历史记录信息的触发次数h与预设触发次数h0进行比较,若k>k0且h≥h0,则将该历史记录信息筛选出,得到目标历史记录信息;若k≤k0,则将历史记录信息都作为目标历史记录信息。
进一步地,在决策是否对所述第一特征信息进行更新时,根据匹配结果进行决策,若匹配失败,则根据第二特征信息对第一特征信息进行更新,若匹配成功,则不对第一特征信息进行更新。
本发明另一方面还提供一种基于数据挖掘的信息智能处理系统,该系统包括:
接收模块,用以接收若干待模拟信息,所述待模拟信息包括模拟用户基本信息和待模拟处理信息,所述模拟用户基本信息包括模拟用户ID和创建时间,将待模拟处理信息与模拟用户ID进行关联;
构建模块,用以根据所述创建时间将所述待模拟处理信息根据用户ID按预设比例分为训练集和测试集,获取训练集中已标注好的待模拟处理信息的特征信息,对标注的特征信息进行处理,将处理的特征信息对应的待模拟处理信息进行挖掘模型训练,将训练完成的挖掘模型在测试集上进行测试,若测试成功,则完成挖掘模型的训练,若测试失败,则继续对挖掘模型进行训练;
处理模块,用以在完成挖掘模型训练后,获取用户基本信息和待处理信息,用户基本信息包括用户ID,将所述用户基本信息进行分析,判断所述待处理信息是否为空,若不为空,则将待处理信息利用挖掘模型提取第一特征信息,根据提取的第一特征信息给待处理信息进行打标签,生成目标信息,标签内容为第一特征信息,用户基本信息包括用户ID,将第一特征信息与用户ID进行关联,将关联后的第一特征信息存储到特征信息库;
匹配模块,用以将所述第一特征信息与所述特征信息库进行匹配,将匹配到的第一特征信息对应的目标信息发送到对应用户ID的用户端进行显示;
更新模块,用以在预设时间时,获取用户ID的历史记录信息,将所述历史记录信息利用挖掘模型提取第二特征信息,将所述第二特征信息与所述特征信息库中相同用户ID的所述第一特征信息进行匹配,若匹配失败,则根据第二特征信息对第一特征信息进行更新,若匹配成功,则不对第一特征信息进行更新。
进一步地,所述构建模块包括划分单元、统计单元和生成单元,在对标注的特征信息进行处理时,特征信息包括对象名称、对象类别和对象轮廓,所述划分单元根据对象类别对特征信息进行划分,所述统计单元统计任意用户ID的标注的特征信息的对象类别数量,所述生成单元将对象类别数量最多的特征信息生成目的特征信息。
与现有技术相比,本发明的有益效果在于,通过模拟过程进行训练挖掘模型,并通过测试集测试挖掘模型,进一步提高了挖掘模型的准确性,在测试成功后,挖掘模型正式开始对待处理信息进行特征信息挖掘,根据特征信息为用户推送相关视频,通过定期对用户的历史记录信息进行特征信息挖掘,确保了用户因喜好发生变化而及时更新用户的特征信息,提高推送的准确性。
尤其,通过将标注的特征信息进行对象类别数量统计,将对象类别数量最多的作为目标特征信息,即用户的喜好,进而对挖掘模型进行训练,使推送更加准确。
尤其,通过将同一对象名称的待模拟处理信息相邻帧的对象轮廓进行对比,并计算相邻帧对象轮廓的重合率,进而使挖掘模型挖掘得更加准确,进而提高推送的准确率。
尤其,例通过在判定待模拟处理信息的相邻帧图像的对象轮廓重合率高时,统计相同用户ID的各个待模拟处理信息的相邻帧图像的对象轮廓重合率高的数量,通过数量判定各个待模拟处理信息的相邻帧图像的对象轮廓是否容易重合,进而使后续数据挖掘时可以改变挖掘形式,进而既节约挖掘时间,还挖掘到更精准的特征信息,提高推送效率。
尤其,通过在判定各个待模拟处理信息相邻帧图像的对象轮廓容易重合率高时,调整挖掘规则,即挖掘时是逐帧还是间隔帧挖掘,在帧数太多时,则间隔帧挖掘,减少了挖掘的数据量,避免多个相邻帧的对象轮廓相同而浪费时间,进而提高特征信息挖掘的速度,提高推送效率。
尤其,通过在判断所述待处理信息为空时,对所述用户基本信息中的用户头像和用户介绍进行分析处理,确定第一特征信息,使在用户为上传视频信息时,也可以获取用户的喜好,进而进行精准推送,提高推送效率。
尤其,通过获取预设时间内的每个用户ID的历史记录信息进行筛选,在历史记录信息超过预设数量时,将每个历史记录信息的触发次数超过预设触发次数的历史记录信息作为目标历史记录信息,在历史记录信息没有超过预设数量时,将所有获取的历史记录信息都作为目标历史记录信息,将触发次数最多的里浏览次数最多的历史记录信息也就是视频进行筛选,不但减少了数据量,而且把用户触发最多的视频信息筛选出来,提高了挖掘第二特征信息的准确性,及时更新第一特征信息,提高推送效率。
尤其,通过在一定时间后对用户的历史记录信息进行挖掘第二特征信息,通过第二特征信息与第一特征信息进行匹配,确定用户的喜好是否发生改变,若匹配失败,也表示用户喜好发生改变,则及时将第二特征信息更新为第一特征信息,及时推送用户喜欢的视频,提高推送准确性和效率。
尤其,通过构建模块在模拟过程中训练挖掘模型,并通过测试集测试挖掘模型,进一步提高了挖掘模型的准确性,在测试成功后,处理模块通过利用挖掘模型对待处理信息进行特征信息挖掘,根据特征信息为用户推送相关视频,通过更新模块定期对用户的历史记录信息进行特征信息挖掘,确保了用户因喜好发生变化而及时更新用户的特征信息,提高推送的准确性。
附图说明
图1为本发明实施例提供的基于数据挖掘的信息智能处理方法的流程示意图;
图2为本发明实施例提供的基于数据挖掘的信息智能处理系统的结构示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,本发明实施例提供的基于数据挖掘的信息智能处理方法包括:
步骤S110,接收若干待模拟信息,所述待模拟信息包括模拟用户基本信息和待模拟处理信息,所述模拟用户基本信息包括模拟用户ID和创建时间,将待模拟处理信息与模拟用户ID进行关联;
步骤S120,根据所述创建时间将所述待模拟处理信息根据用户ID按预设比例分为训练集和测试集,获取训练集中已标注好的待模拟处理信息的特征信息,对标注的特征信息进行处理,将处理的特征信息对应的待模拟处理信息进行挖掘模型训练,将训练完成的挖掘模型在测试集上进行测试,若测试成功,则完成挖掘模型的训练,若测试失败,则继续对挖掘模型进行训练;
步骤S130,在完成挖掘模型训练后,获取用户基本信息和待处理信息,用户基本信息包括用户ID,将所述用户基本信息进行分析,判断所述待处理信息是否为空,若不为空,则将待处理信息利用挖掘模型提取第一特征信息,根据提取的第一特征信息对待处理信息进行打标签,生成目标信息,标签内容为第一特征信息,用户基本信息包括用户ID,将第一特征信息与用户ID进行关联,将关联后的第一特征信息存储到特征信息库;
步骤S140,将所述第一特征信息与所述特征信息库进行匹配,将匹配到的第一特征信息对应的目标信息发送到对应用户ID的用户端进行显示;
步骤S150,在预设时间时,获取用户ID的历史记录信息,对历史记录信息进行筛选,得到目标历史记录信息,将所述目标历史记录信息利用挖掘模型提取第二特征信息,将所述第二特征信息与所述特征信息库中相同用户ID的所述第一特征信息进行匹配,根据匹配结果决策是否对第一特征信息进行更新。
具体而言,所述待模拟处理信息和待处理信息为用户上传的视频,模拟过程进行挖掘模型的训练和测试,挖掘模型训练完成之后进入正式挖掘过程,所述历史记录信息为用户浏览的视频信息。
具体而言,本发明实施例通过模拟过程进行训练挖掘模型,并通过测试集测试挖掘模型,进一步提高了挖掘模型的准确性,在测试成功后,挖掘模型正式开始对待处理信息进行特征信息挖掘,根据特征信息为用户推送相关视频,通过定期对用户的历史记录信息进行特征信息挖掘,确保了用户因喜好发生变化而及时更新用户的特征信息,提高推送的准确性。
具体而言,在对标注的特征信息进行处理时,特征信息包括对象名称、对象类别和对象轮廓,根据对象类别对特征信息进行划分,统计任意用户ID的标注的特征信息的对象类别数量,将对象类别数量最多的特征信息生成目的特征信息。
具体而言,本发明实施例通过将标注的特征信息进行对象类别数量统计,将对象类别数量最多的作为目标特征信息,即用户的喜好,进而对挖掘模型进行训练,使推送更加准确。
具体而言,将任意对象类别的标注的特征信息中对象名称和对象轮廓进行关联和存储,对比各个对象名称对应的待模拟处理信息的相邻帧图像中的对象轮廓是否相同,计算重合率P,P=N/M,其中,N为重合次数,M为对比总次数,将重合率P与预设重合率P0进行对比,
若P≥P0,则判定该待模拟处理信息的相邻帧图像的对象轮廓重合率高;
若P<P0,则判定该待模拟处理信息的相邻帧图像的对象轮廓重合率低。
具体而言,本发明实施例通过将同一对象名称的待模拟处理信息相邻帧的对象轮廓进行对比,并计算相邻帧对象轮廓的重合率,进而使挖掘模型挖掘得更加准确,进而提高推送的准确率。
具体而言,在判定待模拟处理信息的相邻帧图像的对象轮廓重合率高时,统计相同用户ID的各个待模拟处理信息的相邻帧图像的对象轮廓重合率高的数量E,将对象轮廓重合率高的数量E与预设对象轮廓重合率高的数量E0,
若E≥E0,则判定各个待模拟处理信息的相邻帧图像的对象轮廓重合率高的容易等级为一级;
若E<E0,则判定各个待模拟处理信息的相邻帧图像的对象轮廓重合率高的容易等级为二级;其中,一级>二级。
具体而言,一级表示各个待模拟处理信息的相邻帧图像的对象轮廓容易重合,二级表示各个待模拟处理信息的相邻帧图像的对象轮廓不容易重合。
具体而言,本发明实施例通过在判定待模拟处理信息的相邻帧图像的对象轮廓重合率高时,统计相同用户ID的各个待模拟处理信息的相邻帧图像的对象轮廓重合率高的数量,通过数量判定各个待模拟处理信息的相邻帧图像的对象轮廓是否容易重合,进而使后续数据挖掘时可以改变挖掘形式,进而既节约挖掘时间,还挖掘到更精准的特征信息,提高推送效率。
具体而言,判定各个待模拟处理信息的相邻帧图像的对象轮廓重合率高的容易等级为一级时,则调整挖掘规则,当F≥F0时,其中,F为任意待模拟处理信息的帧数F,F0为预设帧数,则将每间隔k帧进行一次挖掘,其中,k为预设间隔帧数,当F<F0时,则逐帧进行挖掘。
具体而言,本发明实施例通过在判定各个待模拟处理信息相邻帧图像的对象轮廓容易重合率高时,调整挖掘规则,即挖掘时是逐帧还是间隔帧挖掘,在帧数太多时,则间隔帧挖掘,减少了挖掘的数据量,避免多个相邻帧的对象轮廓相同而浪费时间,进而提高特征信息挖掘的速度,提高推送效率。
具体而言,在判断所述待处理信息是否为空时,若为空,所述用户基本信息包括用户头像和用户介绍,对所述用户头像进行实体识别,得到目标实体和实体名称,将用户介绍的文本信息进行关键词提取,根据预设关键词库对用户介绍的文本信息进行关键词提取,将提取的关键词与实体名称进行匹配,若匹配成功,则将匹配成功的关键词作为第一特征信息,若匹配不成功,则获取关键词和实体名称的类别,将类别相同的类别作为第一特征信息。
具体而言,本发明实施例通过在判断所述待处理信息为空时,对所述用户基本信息中的用户头像和用户介绍进行分析处理,确定第一特征信息,使在用户为上传视频信息时,也可以获取用户的喜好,进而进行精准推送,提高推送效率。
具体而言,在获取到预设时间内每个用户ID的历史记录信息后,统计历史记录信息的数量k和每个历史记录信息的触发次数h,将历史记录信息的数量k与预设历史记录信息的数量k0进行比较,将每个历史记录信息的触发次数h与预设触发次数h0进行比较,若k>k0且h≥h0,则将该历史记录信息筛选出,得到目标历史记录信息;若k≤k0,则将历史记录信息都作为目标历史记录信息。
具体而言,本发明实施例通过获取预设时间内的每个用户ID的历史记录信息进行筛选,在历史记录信息超过预设数量时,将每个历史记录信息的触发次数超过预设触发次数的历史记录信息作为目标历史记录信息,在历史记录信息没有超过预设数量时,将所有获取的历史记录信息都作为目标历史记录信息,将触发次数最多的里浏览次数最多的历史记录信息也就是视频进行筛选,不但减少了数据量,而且把用户触发最多的视频信息筛选出来,提高了挖掘第二特征信息的准确性,及时更新第一特征信息,提高推送效率。
具体而言,在决策是否对所述第一特征信息进行更新时,根据匹配结果进行决策,若匹配失败,则根据第二特征信息对第一特征信息进行更新,若匹配成功,则不对第一特征信息进行更新。
具体而言,本发明实施例通过在一定时间后对用户的历史记录信息进行挖掘第二特征信息,通过第二特征信息与第一特征信息进行匹配,确定用户的喜好是否发生改变,若匹配失败,也表示用户喜好发生改变,则及时将第二特征信息更新为第一特征信息,及时推送用户喜欢的视频,提高推送准确性和效率。
请参阅图2所示,本发明实施例提供的基于数据挖掘的信息智能处理系统包括:
接收模块210,用以接收若干待模拟信息,所述待模拟信息包括模拟用户基本信息和待模拟处理信息,所述模拟用户基本信息包括模拟用户ID和创建时间,将待模拟处理信息与模拟用户ID进行关联;
构建模块220,用以根据所述创建时间将所述待模拟处理信息根据用户ID按预设比例分为训练集和测试集,获取训练集中已标注好的待模拟处理信息的特征信息,对标注的特征信息进行处理,将处理的特征信息对应的待模拟处理信息进行挖掘模型训练,将训练完成的挖掘模型在测试集上进行测试,若测试成功,则完成挖掘模型的训练,若测试失败,则继续对挖掘模型进行训练;
处理模块230,用以在完成挖掘模型训练后,获取用户基本信息和待处理信息,用户基本信息包括用户ID,将所述用户基本信息进行分析,判断所述待处理信息是否为空,若不为空,则将待处理信息利用挖掘模型提取第一特征信息,根据提取的第一特征信息给待处理信息进行打标签,生成目标信息,标签内容为第一特征信息,用户基本信息包括用户ID,将第一特征信息与用户ID进行关联,将关联后的第一特征信息存储到特征信息库;
匹配模块240,用以将所述第一特征信息与所述特征信息库进行匹配,将匹配到的第一特征信息对应的目标信息发送到对应用户ID的用户端进行显示;
更新模块250,用以在预设时间时,获取用户ID的历史记录信息,将所述历史记录信息利用挖掘模型提取第二特征信息,将所述第二特征信息与所述特征信息库中相同用户ID的所述第一特征信息进行匹配,若匹配失败,则根据第二特征信息对第一特征信息进行更新,若匹配成功,则不对第一特征信息进行更新。
具体而言,本发明实施例通过构建模块在模拟过程中训练挖掘模型,并通过测试集测试挖掘模型,进一步提高了挖掘模型的准确性,在测试成功后,处理模块通过利用挖掘模型对待处理信息进行特征信息挖掘,根据特征信息为用户推送相关视频,通过更新模块定期对用户的历史记录信息进行特征信息挖掘,确保了用户因喜好发生变化而及时更新用户的特征信息,提高推送的准确性。
具体而言,所述接收模块包括接收单元和第一关联单元,所述接收单元接收若干待模拟信息,所述待模拟信息包括模拟用户基本信息和待模拟处理信息,所述模拟用户基本信息包括模拟用户ID和创建时间,所述第一关联单元将待模拟处理信息与模拟用户ID进行关联;
所述构建模块包括切分单元、第一获取单元、训练单元和测试单元,所述切分单元根据所述创建时间将所述待模拟处理信息根据用户ID按预设比例分为训练集和测试集,所述第一获取单元获取训练集中已标注好的待模拟处理信息的特征信息,对标注的特征信息进行处理,所述训练单元将处理的特征信息对应的待模拟处理信息进行挖掘模型训练,所述测试单元将训练完成的挖掘模型在测试集上进行测试,若测试成功,则完成挖掘模型的训练,若测试失败,则训练单元继续对挖掘模型进行训练;
所述处理模块包括第二获取单元、判断单元、第一提取单元、标记单元、第二关联单元和存储单元,所述第二获取单元在完成挖掘模型训练后,获取用户基本信息和待处理信息,用户基本信息包括用户ID,将所述用户基本信息进行分析,所述判断单元判断所述待处理信息是否为空,若不为空,则所述第一提取单元将待处理信息利用挖掘模型提取第一特征信息,所述标记单元根据提取的第一特征信息给待处理信息进行打标签,生成目标信息,标签内容为第一特征信息,用户基本信息包括用户ID,所述第二关联单元将第一特征信息与用户ID进行关联,所述存储单元将关联后的第一特征信息存储到特征信息库;
所述匹配模块包括第一匹配单元和发送单元,所述第一匹配单元将所述第一特征信息与所述特征信息库进行匹配,所述发送单元将匹配到的第一特征信息对应的目标信息发送到对应用户ID的用户端进行显示;
所述更新模块包括第三获取单元、第二提取单元、第二匹配单元和更新单元,所述第三获取单元在预设时间时,获取用户ID的历史记录信息,所述第二提取单元将所述历史记录信息利用挖掘模型提取第二特征信息,所述第二匹配单元将所述第二特征信息与所述特征信息库中相同用户ID的所述第一特征信息进行匹配,若匹配失败,则所述更新单元根据第二特征信息对第一特征信息进行更新,若匹配成功,则不对第一特征信息进行更新。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于数据挖掘的信息智能处理方法,其特征在于,包括:
接收若干待模拟信息,所述待模拟信息包括模拟用户基本信息和待模拟处理信息,所述模拟用户基本信息包括模拟用户ID和创建时间,将待模拟处理信息与模拟用户ID进行关联;
根据所述创建时间将所述待模拟处理信息根据用户ID按预设比例分为训练集和测试集,获取训练集中已标注好的待模拟处理信息的特征信息,对标注的特征信息进行处理,将处理的特征信息对应的待模拟处理信息进行挖掘模型训练,将训练完成的挖掘模型在测试集上进行测试,若测试成功,则完成挖掘模型的训练,若测试失败,则继续对挖掘模型进行训练;
在完成挖掘模型训练后,获取用户基本信息和待处理信息,用户基本信息包括用户ID,将所述用户基本信息进行分析,判断所述待处理信息是否为空,若不为空,则将待处理信息利用挖掘模型提取第一特征信息,根据提取的第一特征信息对待处理信息进行打标签,生成目标信息,标签内容为第一特征信息,用户基本信息包括用户ID,将第一特征信息与用户ID进行关联,将关联后的第一特征信息存储到特征信息库;
将所述第一特征信息与所述特征信息库进行匹配,将匹配到的第一特征信息对应的目标信息发送到对应用户ID的用户端进行显示;
在预设时间时,获取用户ID的历史记录信息,对历史记录信息进行筛选,得到目标历史记录信息,将所述目标历史记录信息利用挖掘模型提取第二特征信息,将所述第二特征信息与所述特征信息库中相同用户ID的所述第一特征信息进行匹配,根据匹配结果决策是否对第一特征信息进行更新。
2.根据权利要求1所述的基于数据挖掘的信息智能处理方法,其特征在于,在对标注的特征信息进行处理时,特征信息包括对象名称、对象类别和对象轮廓,根据对象类别对特征信息进行划分,统计任意用户ID的标注的特征信息的对象类别数量,将对象类别数量最多的特征信息生成目的特征信息。
3.根据权利要求2所述的基于数据挖掘的信息智能处理方法,其特征在于,将任意对象类别的标注的特征信息中对象名称和对象轮廓进行关联和存储,对比各个对象名称对应的待模拟处理信息的相邻帧图像中的对象轮廓是否相同,计算重合率P,P=N/M,其中,N为重合次数,M为对比总次数,将重合率P与预设重合率P0进行对比,
若P≥P0,则判定该待模拟处理信息的相邻帧图像的对象轮廓重合率高;
若P<P0,则判定该待模拟处理信息的相邻帧图像的对象轮廓重合率低。
4.根据权利要求3所述的基于数据挖掘的信息智能处理方法,其特征在于,在判定待模拟处理信息的相邻帧图像的对象轮廓重合率高时,统计相同用户ID的各个待模拟处理信息的相邻帧图像的对象轮廓重合率高的数量E,将对象轮廓重合率高的数量E与预设对象轮廓重合率高的数量E0,
若E≥E0,则判定各个待模拟处理信息的相邻帧图像的对象轮廓重合率高的容易等级为一级;
若E<E0,则判定各个待模拟处理信息的相邻帧图像的对象轮廓重合率高的容易等级为二级;其中,一级>二级。
5.根据权利要求4所述的基于数据挖掘的信息智能处理方法,其特征在于,判定各个待模拟处理信息的相邻帧图像的对象轮廓重合率高的容易等级为一级时,则调整挖掘规则,当F≥F0时,其中,F为任意待模拟处理信息的帧数F,F0为预设帧数,则将每间隔k帧进行一次挖掘,其中,k为预设间隔帧数,当F<F0时,则逐帧进行挖掘。
6.根据权利要求5所述的基于数据挖掘的信息智能处理方法,其特征在于,在判断所述待处理信息是否为空时,若为空,所述用户基本信息包括用户头像和用户介绍,对所述用户头像进行实体识别,得到目标实体和实体名称,将用户介绍的文本信息进行关键词提取,根据预设关键词库对用户介绍的文本信息进行关键词提取,将提取的关键词与实体名称进行匹配,若匹配成功,则将匹配成功的关键词作为第一特征信息,若匹配不成功,则获取关键词和实体名称的类别,将类别相同的类别作为第一特征信息。
7.根据权利要求6所述的基于数据挖掘的信息智能处理方法,其特征在于,在获取到预设时间内每个用户ID的历史记录信息后,统计历史记录信息的数量k和每个历史记录信息的触发次数h,将历史记录信息的数量k与预设历史记录信息的数量k0进行比较,将每个历史记录信息的触发次数h与预设触发次数h0进行比较,若k>k0且h≥h0,则将该历史记录信息筛选出,得到目标历史记录信息;若k≤k0,则将历史记录信息都作为目标历史记录信息。
8.根据权利要求7所述的基于数据挖掘的信息智能处理方法,其特征在于,在决策是否对所述第一特征信息进行更新时,根据匹配结果进行决策,若匹配失败,则根据第二特征信息对第一特征信息进行更新,若匹配成功,则不对第一特征信息进行更新。
9.一种应用如权利要求1-8任一所述的基于数据挖掘的信息智能处理方法的基于数据挖掘的信息智能处理系统,其特征在于,该系统包括:
接收模块,用以接收若干待模拟信息,所述待模拟信息包括模拟用户基本信息和待模拟处理信息,所述模拟用户基本信息包括模拟用户ID和创建时间,将待模拟处理信息与模拟用户ID进行关联;
构建模块,用以根据所述创建时间将所述待模拟处理信息根据用户ID按预设比例分为训练集和测试集,获取训练集中已标注好的待模拟处理信息的特征信息,对标注的特征信息进行处理,将处理的特征信息对应的待模拟处理信息进行挖掘模型训练,将训练完成的挖掘模型在测试集上进行测试,若测试成功,则完成挖掘模型的训练,若测试失败,则继续对挖掘模型进行训练;
处理模块,用以在完成挖掘模型训练后,获取用户基本信息和待处理信息,用户基本信息包括用户ID,将所述用户基本信息进行分析,判断所述待处理信息是否为空,若不为空,则将待处理信息利用挖掘模型提取第一特征信息,根据提取的第一特征信息给待处理信息进行打标签,生成目标信息,标签内容为第一特征信息,用户基本信息包括用户ID,将第一特征信息与用户ID进行关联,将关联后的第一特征信息存储到特征信息库;
匹配模块,用以将所述第一特征信息与所述特征信息库进行匹配,将匹配到的第一特征信息对应的目标信息发送到对应用户ID的用户端进行显示;
更新模块,用以在预设时间时,获取用户ID的历史记录信息,将所述历史记录信息利用挖掘模型提取第二特征信息,将所述第二特征信息与所述特征信息库中相同用户ID的所述第一特征信息进行匹配,若匹配失败,则根据第二特征信息对第一特征信息进行更新,若匹配成功,则不对第一特征信息进行更新。
10.根据权利要求9所述的基于数据挖掘的信息智能处理系统,其特征在于,所述构建模块包括划分单元、统计单元和生成单元,在对标注的特征信息进行处理时,特征信息包括对象名称、对象类别和对象轮廓,所述划分单元根据对象类别对特征信息进行划分,所述统计单元统计任意用户ID的标注的特征信息的对象类别数量,所述生成单元将对象类别数量最多的特征信息生成目的特征信息。
CN202211355172.1A 2022-11-01 2022-11-01 基于数据挖掘的信息智能处理方法及系统 Active CN115510330B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211355172.1A CN115510330B (zh) 2022-11-01 2022-11-01 基于数据挖掘的信息智能处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211355172.1A CN115510330B (zh) 2022-11-01 2022-11-01 基于数据挖掘的信息智能处理方法及系统

Publications (2)

Publication Number Publication Date
CN115510330A true CN115510330A (zh) 2022-12-23
CN115510330B CN115510330B (zh) 2023-02-10

Family

ID=84511676

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211355172.1A Active CN115510330B (zh) 2022-11-01 2022-11-01 基于数据挖掘的信息智能处理方法及系统

Country Status (1)

Country Link
CN (1) CN115510330B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116453641A (zh) * 2023-06-19 2023-07-18 潍坊医学院附属医院 一种中医辅助分析信息的数据处理方法及系统
CN116229097B (zh) * 2023-01-09 2024-06-07 钧捷科技(北京)有限公司 基于图像传感器的图像处理方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140177966A1 (en) * 2012-12-20 2014-06-26 Microsoft Corporation Discovering authoritative images of people entities
CN111881339A (zh) * 2020-06-05 2020-11-03 百度在线网络技术(北京)有限公司 资源信息的推送、通知方法、装置、电子设备及存储介质
CN112131472A (zh) * 2020-09-24 2020-12-25 腾讯科技(深圳)有限公司 信息推荐方法、装置、电子设备和存储介质
US20210263974A1 (en) * 2020-02-20 2021-08-26 Beijing Baidu Netcom Science Technology Co., Ltd. Category tag mining method, electronic device and non-transitory computer-readable storage medium
CN113705299A (zh) * 2021-03-16 2021-11-26 腾讯科技(深圳)有限公司 一种视频识别的方法、装置及存储介质
CN114580517A (zh) * 2022-02-28 2022-06-03 深圳云天励飞技术股份有限公司 一种图像识别模型的确定方法及装置
CN114911929A (zh) * 2022-04-11 2022-08-16 北京捷通华声科技股份有限公司 分类模型训练方法、文本挖掘方法、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140177966A1 (en) * 2012-12-20 2014-06-26 Microsoft Corporation Discovering authoritative images of people entities
US20210263974A1 (en) * 2020-02-20 2021-08-26 Beijing Baidu Netcom Science Technology Co., Ltd. Category tag mining method, electronic device and non-transitory computer-readable storage medium
CN111881339A (zh) * 2020-06-05 2020-11-03 百度在线网络技术(北京)有限公司 资源信息的推送、通知方法、装置、电子设备及存储介质
CN112131472A (zh) * 2020-09-24 2020-12-25 腾讯科技(深圳)有限公司 信息推荐方法、装置、电子设备和存储介质
CN113705299A (zh) * 2021-03-16 2021-11-26 腾讯科技(深圳)有限公司 一种视频识别的方法、装置及存储介质
CN114580517A (zh) * 2022-02-28 2022-06-03 深圳云天励飞技术股份有限公司 一种图像识别模型的确定方法及装置
CN114911929A (zh) * 2022-04-11 2022-08-16 北京捷通华声科技股份有限公司 分类模型训练方法、文本挖掘方法、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗莉等: "融合媒体下视频内容关联聚合的研究", 《电视技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116229097B (zh) * 2023-01-09 2024-06-07 钧捷科技(北京)有限公司 基于图像传感器的图像处理方法
CN116453641A (zh) * 2023-06-19 2023-07-18 潍坊医学院附属医院 一种中医辅助分析信息的数据处理方法及系统
CN116453641B (zh) * 2023-06-19 2023-09-05 潍坊医学院附属医院 一种中医辅助分析信息的数据处理方法及系统

Also Published As

Publication number Publication date
CN115510330B (zh) 2023-02-10

Similar Documents

Publication Publication Date Title
US20210166072A1 (en) Learning highlights using event detection
CN110292775B (zh) 获取差异数据的方法及装置
CN111353549B (zh) 图像标签的核验方法及装置、电子设备、存储介质
CN108090499A (zh) 基于最大信息三元组筛选网络的数据主动标注方法和系统
CN115510330B (zh) 基于数据挖掘的信息智能处理方法及系统
CN111429341B (zh) 一种视频处理方法、设备及计算机可读存储介质
CN112084812B (zh) 图像处理方法、装置、计算机设备及存储介质
Merler et al. The excitement of sports: Automatic highlights using audio/visual cues
CN109409294B (zh) 基于对象运动轨迹的停球事件的分类方法和系统
CN102194106B (zh) 一种用于门禁系统中的人脸识别方法
CN111488847B (zh) 体育比赛视频进球片段获取系统及方法、终端
CN112445897A (zh) 文本类数据大规模分类标注方法、系统、装置及存储介质
CN107977359A (zh) 一种影视剧本场景信息的提取方法
CN110555485A (zh) 穿模样本生成、模型训练、检测方法、装置及介质
CN108229285A (zh) 物体分类方法、物体分类器的训练方法、装置和电子设备
CN114639152A (zh) 基于人脸识别的多模态语音交互方法、装置、设备及介质
CN116010700B (zh) 一种基于知识图谱的用户画像方法
CN111597806A (zh) 一种基于统计模型识别短信文本模版的方法、设备及介质
CN107729486A (zh) 一种视频搜索方法及装置
CN105224957B (zh) 一种基于单样本的图像识别的方法及系统
CN116206319A (zh) 用于临床试验的数据处理系统
CN110309737A (zh) 一种应用于香烟柜台的信息处理方法、装置及系统
CN115599917A (zh) 基于改进蝙蝠算法的文本双聚类方法
CN113115107B (zh) 一种基于5g网络的手持视频采集终端系统
CN114898182A (zh) 一种基于目标检测学习算法的图片数据筛选方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant