CN116450635B - 基于人工智能的数据清理方法和系统 - Google Patents

基于人工智能的数据清理方法和系统 Download PDF

Info

Publication number
CN116450635B
CN116450635B CN202310712102.5A CN202310712102A CN116450635B CN 116450635 B CN116450635 B CN 116450635B CN 202310712102 A CN202310712102 A CN 202310712102A CN 116450635 B CN116450635 B CN 116450635B
Authority
CN
China
Prior art keywords
chat
group
cleaned
association degree
records
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310712102.5A
Other languages
English (en)
Other versions
CN116450635A (zh
CN116450635B8 (zh
Inventor
游子龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Duty Free Rishang Internet Technology Co ltd
China Tourism Group Cdfg
Original Assignee
China Tourism Group Cdfg
China Duty Free Rishang Internet Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Tourism Group Cdfg, China Duty Free Rishang Internet Technology Co ltd filed Critical China Tourism Group Cdfg
Priority to CN202310712102.5A priority Critical patent/CN116450635B8/zh
Publication of CN116450635A publication Critical patent/CN116450635A/zh
Application granted granted Critical
Publication of CN116450635B publication Critical patent/CN116450635B/zh
Publication of CN116450635B8 publication Critical patent/CN116450635B8/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/216Handling conversation history, e.g. grouping of messages in sessions or threads
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供的一种基于人工智能的数据清理方法和系统,该方法包括基于每个待清理聊天群信息中的群用户信息和用户信息确定用户与每个待清理聊天群的关联程度,基于每个待清理聊天群信息中的群聊天记录和用户信息确定每个待清理聊天群的群聊天记录的重要程度,基于用户与每个待清理聊天群的关联程度和每个待清理聊天群的群聊天记录的重要程度确定每个待清理聊天群的重要程度,将小于重要程度阈值所对应的多个清理聊天群的群聊天记录进行删除,将大于重要程度阈值所对应的多个保留聊天群的群聊天记录进行保留,该方法能够快速准确的对群聊天记录进行数据清理。

Description

基于人工智能的数据清理方法和系统
技术领域
本发明涉及数据清理技术领域,具体涉及一种基于人工智能的数据清理方法和系统。
背景技术
目前,在人们日常生活和工作中,借助移动设备或电脑通过聊天软件进行聊天已成为一种常见的沟通方式,而用户在聊天过程中会加入很多聊天群,在聊天群中由于人员众多,聊天群中的人员在聊天过程中会留下许多群聊天记录,这些群聊天记录有时会占据设备大量存储空间,使得设备运行缓慢,而且这些群聊天记录也不会被后续使用,也造成了存储空间的浪费。传统的群聊天记录的数据清理方法主要依靠用户手动勾选部分群聊天记录进行删除或通过搜索关键字对部分群聊天记录进行筛选后再删除,但这些方法效率低下、操作繁琐,而且有时候会出现对重要的群聊天记录进行误删除等情况。
因此如何快速准确的对群聊天记录进行数据清理是当前亟待解决的问题。
发明内容
本发明主要解决的技术问题是如何快速准确的对群聊天记录进行数据清理。
根据第一方面,本发明提供一种基于人工智能的数据清理方法,包括:获取用户信息和多个待清理聊天群信息,所述多个待清理聊天群信息中的每个待清理聊天群信息包括群用户信息和群聊天记录;基于所述每个待清理聊天群信息中的群用户信息和所述用户信息使用用户关联程度确定模型确定用户与每个待清理聊天群的关联程度;基于所述每个待清理聊天群信息中的群聊天记录和所述用户信息确定每个待清理聊天群的群聊天记录的重要程度;基于所述用户与每个待清理聊天群的关联程度和所述每个待清理聊天群的群聊天记录的重要程度确定每个待清理聊天群的重要程度;判断所述每个待清理聊天群的重要程度是否大于重要程度阈值;将小于重要程度阈值所对应的多个待清理聊天群作为多个清理聊天群,并将所述多个清理聊天群的群聊天记录进行删除,将大于重要程度阈值所对应的多个待清理聊天群作为多个保留聊天群,并将所述多个保留聊天群的群聊天记录进行保留。
更进一步地,所述方法还包括:获取所述多个保留聊天群的群聊天记录中的文字聊天记录和图片聊天记录;基于文字关联程度确定模型确定所述多个保留聊天群的群聊天记录中每一条图片聊天记录与前后N条文字聊天记录的关联程度,其中N为大于1的整数;判断所述每一条图片聊天记录与前后N条文字聊天记录的关联程度是否大于文字关联程度阈值;将小于文字关联程度阈值所对应的图片聊天记录进行删除,将大于文字关联程度阈值所对应的图片聊天记录进行保留。
更进一步地,所述方法还包括:获取所述多个保留聊天群的群聊天记录的多个视频;基于所述多个保留聊天群的群聊天记录的多个视频、用户信息使用长短期神经网络模型确定所述多个视频与用户的关联程度;判断所述多个视频与用户的关联程度是否大于视频关联程度阈值;将小于视频关联程度阈值所对应的视频进行删除,将大于视频关联程度阈值所对应的视频进行保留。
更进一步地,所述方法还包括:将一年未有新消息的保留聊天群的群聊天记录进行删除。
根据第二方面,本发明提供一种基于人工智能的数据清理系统,包括:获取模块,用于获取用户信息和多个待清理聊天群信息,所述多个待清理聊天群信息中的每个待清理聊天群信息包括群用户信息和群聊天记录;群用户信息处理模块,用于基于所述每个待清理聊天群信息中的群用户信息和所述用户信息使用用户关联程度确定模型确定用户与每个待清理聊天群的关联程度;群聊天记录处理模块,用于基于所述每个待清理聊天群信息中的群聊天记录和所述用户信息确定每个待清理聊天群的群聊天记录的重要程度;综合模块,用于基于所述用户与每个待清理聊天群的关联程度和所述每个待清理聊天群的群聊天记录的重要程度确定每个待清理聊天群的重要程度;判断模块,用于判断所述每个待清理聊天群的重要程度是否大于重要程度阈值;删除模块,用于将小于重要程度阈值所对应的多个待清理聊天群作为多个清理聊天群,并将所述多个清理聊天群的群聊天记录进行删除,将大于重要程度阈值所对应的多个待清理聊天群作为多个保留聊天群,并将所述多个保留聊天群的群聊天记录进行保留。
更进一步地,所述删除模块还用于:获取所述多个保留聊天群的群聊天记录中的文字聊天记录和图片聊天记录;基于文字关联程度确定模型确定所述多个保留聊天群的群聊天记录中每一条图片聊天记录与前后N条文字聊天记录的关联程度,其中N为大于1的整数;判断所述每一条图片聊天记录与前后N条文字聊天记录的关联程度是否大于文字关联程度阈值;将小于文字关联程度阈值所对应的图片聊天记录进行删除,将大于文字关联程度阈值所对应的图片聊天记录进行保留。
更进一步地,所述删除模块还用于:获取所述多个保留聊天群的群聊天记录的多个视频;基于所述多个保留聊天群的群聊天记录的多个视频、用户信息使用长短期神经网络模型确定所述多个视频与用户的关联程度;判断所述多个视频与用户的关联程度是否大于视频关联程度阈值;将小于视频关联程度阈值所对应的视频进行删除,将大于视频关联程度阈值所对应的视频进行保留。
更进一步地,所述删除模块还用于:将一年未有新消息的保留聊天群的群聊天记录进行删除。
根据第三方面,本发明提供一种电子设备,包括:存储器;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并配置为由所述处理器执行以实现上述的方法。
根据第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述方面中任一项所述的方法。
本发明提供的一种基于人工智能的数据清理方法和系统,该方法包括获取用户信息和多个待清理聊天群信息,多个待清理聊天群信息中的每个待清理聊天群信息包括群用户信息和群聊天记录;基于每个待清理聊天群信息中的群用户信息和用户信息使用用户关联程度确定模型确定用户与每个待清理聊天群的关联程度;基于每个待清理聊天群信息中的群聊天记录和用户信息确定每个待清理聊天群的群聊天记录的重要程度;基于用户与每个待清理聊天群的关联程度和每个待清理聊天群的群聊天记录的重要程度确定每个待清理聊天群的重要程度;判断每个待清理聊天群的重要程度是否大于重要程度阈值;将小于重要程度阈值所对应的多个待清理聊天群作为多个清理聊天群,并将多个清理聊天群的群聊天记录进行删除,将大于重要程度阈值所对应的多个待清理聊天群作为多个保留聊天群,并将多个保留聊天群的群聊天记录进行保留,该方法能够快速准确的对群聊天记录进行数据清理。
附图说明
图1为本发明实施例提供的一种基于人工智能的数据清理方法的流程示意图;
图2为本发明实施例提供的一种对保留聊天群的群聊天记录中的图片聊天记录进行删除的流程示意图;
图3为本发明实施例提供的一种对保留聊天群的群聊天记录的多个视频进行删除的流程示意图;
图4为本发明实施例提供的一种基于人工智能的数据清理系统的示意图;
图5为本发明实施例提供的一种电子设备的示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本发明能被更好的理解。
本发明实施例中,提供了如图1所示的一种基于人工智能的数据清理方法,所述基于人工智能的数据清理方法包括步骤S1~S6:
步骤S1,获取用户信息和多个待清理聊天群信息,所述多个待清理聊天群信息中的每个待清理聊天群信息包括群用户信息和群聊天记录。
用户信息包括用户年龄、性别、用户发出的聊天信息、生日、所在地、职业、兴趣爱好、工作或学习状态、用户照片、用户收藏的文件、日志、表情包等。
待清理聊天群表示需要进行数据清理的群,所述多个待清理聊天群信息中的每个待清理聊天群信息包括群用户信息和群聊天记录。
群用户信息为待清理聊天群的所有群用户所具有的信息的统称。群用户信息包括所有群用户分别所具有的信息,例如,群用户信息可以包括群用户年龄、性别、群用户发出的聊天信息、生日、所在地、职业、兴趣爱好、群用户照片、群用户收藏的文件、日志、表情包等。在一些实施例中,群用户信息还包括群名称。例如待清理的聊天群的群名称为“Python学习群”。
群聊天记录表示待清理聊天群中历史的聊天记录。群聊天记录可以包括文字、图片、语音、视频等内容。
步骤S2,基于所述每个待清理聊天群信息中的群用户信息和所述用户信息使用用户关联程度确定模型确定用户与每个待清理聊天群的关联程度。
用户与每个待清理聊天群的关联程度表示用户在日常工作生活中与每个待清理聊天群的之间关系紧密的程度,用户与待清理聊天群的关联程度可以为0-1之间的数值,用户与待清理聊天群的关联程度越高则表示用户与该待清理聊天群在日常生活中交集很多,该待清理聊天群中的聊天记录与用户日常生活紧密相关。例如,待清理聊天群为用户的同事群,群里面都为用户的同事,则用户与待清理聊天群的关联程度较高,其数值为0.8,又例如,待清理聊天群为用户的家庭群,群里面都为用户的家庭成员,则用户与待清理聊天群的关联程度较高,其数值为0.9。
用户关联程度确定模型可以通过对所述每个待清理聊天群信息中的群用户信息和所述用户信息进行分析,确定用户与每个待清理聊天群的关联程度。用户关联程度确定模型为深度神经网络模型,深度神经网络模型包括深度神经网络(Deep Neural Networks,DNN)。深度神经网络模型为人工智能的一种实现方式。深度神经网络可以包括循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Networks,CNN)、生成对抗网络(Generative Adversarial Networks,GAN)等等。所述用户关联程度确定模型的输入为待清理聊天群信息中的群用户信息和所述用户信息,所述用户关联程度确定模型的输出为用户与待清理聊天群的关联程度。
用户关联程度确定模型可以通过训练得到,训练样本的输入包括待清理聊天群信息中的样本群用户信息和样本用户信息,训练样本的输出标签为用户与待清理聊天群的样本关联程度。训练样本的标签可以通过工作人员手动标注得到。在一些实施例中,可以通过梯度下降法对用户关联程度确定模型进行训练得到训练后的用户关联程度确定模型。
在一些实施例中,用户关联程度确定模型包括群用户分析子模型和综合输出子模型,其中群用户分析子模型和综合输出子模型都为深度神经网络模型。群用户分析子模型的输入为群用户信息和所述用户信息,群用户分析子模型的输出为用户与待清理聊天群中每一个群用户的关联程度,综合输出子模型的输入为用户与待清理聊天群中每一个群用户的关联程度和群名称,综合输出子模型的输出为用户与待清理聊天群的关联程度。
用户与待清理聊天群中每一个群用户的关联程度表示通过对用户信息和每一个群用户的信息进行分析得到的用户与每一个群用户的关联程度。综合输出子模型根据用户与待清理聊天群中每一个群用户的关联程度和群名称进行综合分析最终输出得到用户与待清理聊天群的关联程度。
步骤S3,基于所述每个待清理聊天群信息中的群聊天记录和所述用户信息确定每个待清理聊天群的群聊天记录的重要程度。
群聊天记录的重要程度表示群聊天记录本身对于用户的重要程度。群聊天记录的重要程度可以为0-1之间的数值,数值越大,则群聊天记录越重要。例如群聊天记录都为闲聊谈论的聊天记录,其聊天记录对用户不太重要,则群聊天记录的重要程度为0.2。又例如,群聊天记录为用户的考研交流的聊天记录,其聊天记录对用户较为重要,则群聊天记录的重要程度为0.7。
在一些实施例中,可以通过对群聊天记录进行语言分析、情感分类、关键词提取、主题挖掘等操作后再通过向量匹配的方式确定与用户信息之间的关系,并基于与用户信息之间的关系确定群聊天记录的重要程度。例如,将群聊天记录和用户信息分别转化为向量,对群聊天记录的向量和用户信息的向量计算相似度,并将所述相似度确定为群聊天记录的重要程度。计算相似度的方法可以包括余弦相似度计算。
在一些实施例中,可以通过聊天记录确定模型确定每个待清理聊天群的群聊天记录的重要程度,聊天记录确定模型为深度神经网络模型,聊天记录确定模型的输入为群聊天记录、所述用户信息,聊天记录确定模型的输出为群聊天记录的重要程度。
步骤S4,基于所述用户与每个待清理聊天群的关联程度和所述每个待清理聊天群的群聊天记录的重要程度确定每个待清理聊天群的重要程度。
在一些实施例中,可以通过预设的权重对所述用户与每个待清理聊天群的关联程度和所述每个待清理聊天群的群聊天记录的重要程度进行加权求和得到每个待清理聊天群的重要程度。
在一些实施例中,还可以通过所述用户与每个待清理聊天群的关联程度和所述每个待清理聊天群的群聊天记录的重要程度的预设关系确定每个待清理聊天群的重要程度。
每个待清理聊天群的重要程度表示该待清理聊天群的重要程度。待清理聊天群的重要程度越大可以为0-1之间的数值,待清理聊天群的重要程度越大,则表示该待清理聊天群越重要,其聊天记录越应该被保留。
步骤S5,判断所述每个待清理聊天群的重要程度是否大于重要程度阈值。
重要程度阈值为预先设定的用于对待清理聊天群进行分类以确定哪些聊天群需要被清理,哪些聊天群需要被保留的阈值。
步骤S6,将小于重要程度阈值所对应的多个待清理聊天群作为多个清理聊天群,并将所述多个清理聊天群的群聊天记录进行删除,将大于重要程度阈值所对应的多个待清理聊天群作为多个保留聊天群,并将所述多个保留聊天群的群聊天记录进行保留。
清理聊天群表示需要被清理聊天记录的聊天群。
保留聊天群表示需要被保留聊天记录的聊天群。
例如,若设定的重要程度阈值为0.6,若有5个待清理聊天群a、b、c、d、e的重要程度分别为0.3、0.7、0.8、0.4、0.2,a、d、e的重要程度小于重要程度阈值,b、c的重要程度大于重要程度阈值,则清理聊天群为a、d、e,保留聊天群为b、c。
在一些实施例中,还可以将一年未有新消息的保留聊天群的群聊天记录进行删除。
在一些实施例中,还可以对保留聊天群的群聊天记录中的图片聊天记录进行删除。图2为本发明实施例提供的一种对保留聊天群的群聊天记录中的图片聊天记录进行删除的流程示意图。所述对保留聊天群的群聊天记录中的图片聊天记录进行删除包括步骤S21~S24:
步骤S21,获取所述多个保留聊天群的群聊天记录中的文字聊天记录和图片聊天记录。
文字聊天记录是指在聊天过程中通过文字方式进行交流所形成的聊天记录。文字聊天记录可以包含文字、表情、链接等信息。
图片聊天记录是指在聊天过程中通过图片的方式进行沟通所形成的聊天记录。
步骤S22,基于文字关联程度确定模型确定所述多个保留聊天群的群聊天记录中每一条图片聊天记录与前后N条文字聊天记录的关联程度,其中N为大于1的整数。
每一条图片聊天记录与前后N条文字聊天记录的关联程度表示该图片与前后的N条文字聊天之间的关联程度,关联程度可以为0-1之间的数值,数值越大,则表示关联程度越高。N可以为5、8、10等,前后N条文字聊天记录为按照时间排序的该图片聊天记录的前N条文字聊天记录和后N条文字聊天记录的总称。例如,图片聊天记录为一张工作报告照片,而该天气照片前后10条文字聊天记录为关于工作报告的讨论,则说明该图片聊天记录与前后10条文字聊天记录的关联程度高,关联程度越高,则说明该图片在聊天记录中占据的重要程度越大,则越需要被保留。又例如,图片聊天记录为一张风景照,而该风景照前后10条文字聊天记录为关于考研学校的讨论,则说明该风景照与前后10条文字聊天记录的关联程度较低,关联程度越低,则说明该图片在聊天记录中占据的重要程度越低,则可以被删除。
由于在聊天记录中图片占据存储空间的大小远大于文字的大小,所以删除聊天记录中的图片可以比删除文字更有效的释放存储空间。
文字关联程度确定模型为卷积神经网络模型,卷积神经网络模型包括卷积神经网络。卷积神经网络模型为人工智能的一种实现方式。所述文字关联程度确定模型的输入包括图片聊天记录和所述图片聊天记录的前后N条文字聊天记录,所述文字关联程度确定模型的输出为图片聊天记录与前后N条文字聊天记录的关联程度。
步骤S23,判断所述每一条图片聊天记录与前后N条文字聊天记录的关联程度是否大于文字关联程度阈值。
文字关联程度阈值为预先设定好的阈值。
步骤S24,将小于文字关联程度阈值所对应的图片聊天记录进行删除,将大于文字关联程度阈值所对应的图片聊天记录进行保留。
如果某条图片聊天记录与前后N条文字聊天记录的关联程度大于文字关联程度阈值,那么就说明这张图片和聊天内容较为相关,需要被保留。反之,某条图片聊天记录与前后N条文字聊天记录的关联程度小于文字关联程度阈值,那么就说明这张图片和聊天内容关联程度较低,则会被删除以减少存储空间的占用。
在一些实施例中,还可以对保留聊天群的群聊天记录的多个视频进行删除,图3为本发明实施例提供的一种对保留聊天群的群聊天记录的多个视频进行删除的流程示意图,所述对保留聊天群的群聊天记录的多个视频进行删除包括步骤S31~S34:
步骤S31,获取所述多个保留聊天群的群聊天记录的多个视频。
群聊天记录的多个视频表示聊天记录中用户接收或发送的多个视频。
步骤S32,基于所述多个保留聊天群的群聊天记录的多个视频、用户信息使用长短期神经网络模型确定所述多个视频与用户的关联程度。
长短期神经网络模型为人工智能的一种实现方式。长短期神经网络模型包括长短期神经网络(LSTM,Long Short-Term Memory),长短期神经网络是RNN(Recurrent NeuralNetwork,循环神经网络)中的一种。长短期神经网络模型能够处理任意长度的序列数据,捕捉序列的信息,输出基于序列中前后数据关联关系的结果。通过长短期神经网络模型处理连续时间段的群聊天记录的视频,能够输出得到综合考虑了各个时间点的群聊天记录的视频之间关联关系的特征,使得该输出的特征更加的准确和全面。
长短期神经网络模型的输入包括群聊天记录的视频、用户信息,长短期神经网络模型的输出为视频与用户的关联程度。例如,输入的是考研的学习视频和用户信息,且用户信息中显示用户是准备考研的学生,则通过长短期神经网络模型输出的视频与用户的关联程度则较高,说明视频较为重要,需要被保留。
长短期神经网络模型可以判断视频内容与用户信息是否相关,并输出视频用户的关联程度。视频与用户的关联程度可以为0-1之间的数值,数值越大,则视频与用户的关联程度越大。
步骤S33,判断所述多个视频与用户的关联程度是否大于视频关联程度阈值。
视频关联程度阈值为预先设定的阈值。
步骤S34,将小于视频关联程度阈值所对应的视频进行删除,将大于视频关联程度阈值所对应的视频进行保留。
如果视频与用户信息之间的关联程度大于视频关联程度阈值,那么就说明这个视频和用户相关,需要被保留。反之,如果视频与用户信息之间的关联程度小于视频关联程度阈值,那么就说明这个视频和用户关联程度较低,则该视频就可以被删除。
由于在群聊天记录中视频占据存储空间的大小较大,所以删除群聊天记录中的视频有效的释放存储空间。
基于同一发明构思,图4为本发明的实施例提供的一种基于人工智能的数据清理系统示意图,所述基于人工智能的数据清理系统包括:
获取模块41,用于获取用户信息和多个待清理聊天群信息,所述多个待清理聊天群信息中的每个待清理聊天群信息包括群用户信息和群聊天记录;
群用户信息处理模块42,用于基于所述每个待清理聊天群信息中的群用户信息和所述用户信息使用用户关联程度确定模型确定用户与每个待清理聊天群的关联程度;
群聊天记录处理模块43,用于基于所述每个待清理聊天群信息中的群聊天记录和所述用户信息确定每个待清理聊天群的群聊天记录的重要程度;
综合模块44,用于基于所述用户与每个待清理聊天群的关联程度和所述每个待清理聊天群的群聊天记录的重要程度确定每个待清理聊天群的重要程度;
判断模块45,用于判断所述每个待清理聊天群的重要程度是否大于重要程度阈值;
删除模块46,用于将小于重要程度阈值所对应的多个待清理聊天群作为多个清理聊天群,并将所述多个清理聊天群的群聊天记录进行删除,将大于重要程度阈值所对应的多个待清理聊天群作为多个保留聊天群,并将所述多个保留聊天群的群聊天记录进行保留。
基于同一发明构思,本发明的实施例提供了一种电子设备,如图5所示,包括:
包括:处理器51;存储器52;以及计算机程序;其中,所述计算机程序存储在所述存储器52中,并配置为由所述处理器51执行以实现如前述提供的基于人工智能的数据清理方法,所述方法包括:获取用户信息和多个待清理聊天群信息,所述多个待清理聊天群信息中的每个待清理聊天群信息包括群用户信息和群聊天记录;基于所述每个待清理聊天群信息中的群用户信息和所述用户信息使用用户关联程度确定模型确定用户与每个待清理聊天群的关联程度;基于所述每个待清理聊天群信息中的群聊天记录和所述用户信息确定每个待清理聊天群的群聊天记录的重要程度;基于所述用户与每个待清理聊天群的关联程度和所述每个待清理聊天群的群聊天记录的重要程度确定每个待清理聊天群的重要程度;判断所述每个待清理聊天群的重要程度是否大于重要程度阈值;将小于重要程度阈值所对应的多个待清理聊天群作为多个清理聊天群,并将所述多个清理聊天群的群聊天记录进行删除,将大于重要程度阈值所对应的多个待清理聊天群作为多个保留聊天群,并将所述多个保留聊天群的群聊天记录进行保留。
基于同一发明构思,本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器51执行时实现前述提供的基于人工智能的数据清理方法,所述方法包括: 获取用户信息和多个待清理聊天群信息,所述多个待清理聊天群信息中的每个待清理聊天群信息包括群用户信息和群聊天记录;基于所述每个待清理聊天群信息中的群用户信息和所述用户信息使用用户关联程度确定模型确定用户与每个待清理聊天群的关联程度;基于所述每个待清理聊天群信息中的群聊天记录和所述用户信息确定每个待清理聊天群的群聊天记录的重要程度;基于所述用户与每个待清理聊天群的关联程度和所述每个待清理聊天群的群聊天记录的重要程度确定每个待清理聊天群的重要程度;判断所述每个待清理聊天群的重要程度是否大于重要程度阈值;将小于重要程度阈值所对应的多个待清理聊天群作为多个清理聊天群,并将所述多个清理聊天群的群聊天记录进行删除,将大于重要程度阈值所对应的多个待清理聊天群作为多个保留聊天群,并将所述多个保留聊天群的群聊天记录进行保留。
最后,应当理解的是,本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此,作为示例而非限制,本说明书实施例的替代配置可视为与本说明书的教导一致。相应地,本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

Claims (8)

1.一种基于人工智能的数据清理方法,其特征在于,包括:
获取用户信息和多个待清理聊天群信息,所述多个待清理聊天群信息中的每个待清理聊天群信息包括群用户信息和群聊天记录;
基于所述每个待清理聊天群信息中的群用户信息和所述用户信息使用用户关联程度确定模型确定用户与每个待清理聊天群的关联程度;
基于所述每个待清理聊天群信息中的群聊天记录和所述用户信息确定每个待清理聊天群的群聊天记录的重要程度;
基于所述用户与每个待清理聊天群的关联程度和所述每个待清理聊天群的群聊天记录的重要程度确定每个待清理聊天群的重要程度;
判断所述每个待清理聊天群的重要程度是否大于重要程度阈值;
将小于重要程度阈值所对应的多个待清理聊天群作为多个清理聊天群,并将所述多个清理聊天群的群聊天记录进行删除,将大于重要程度阈值所对应的多个待清理聊天群作为多个保留聊天群,并将所述多个保留聊天群的群聊天记录进行保留;
所述方法还包括:
获取所述多个保留聊天群的群聊天记录中的文字聊天记录和图片聊天记录;
基于文字关联程度确定模型确定所述多个保留聊天群的群聊天记录中每一条图片聊天记录与前后N条文字聊天记录的关联程度,其中N为大于1的整数;
判断所述每一条图片聊天记录与前后N条文字聊天记录的关联程度是否大于文字关联程度阈值;
将小于文字关联程度阈值所对应的图片聊天记录进行删除,将大于文字关联程度阈值所对应的图片聊天记录进行保留。
2.如权利要求1所述的基于人工智能的数据清理方法,其特征在于,所述方法还包括:
获取所述多个保留聊天群的群聊天记录的多个视频;
基于所述多个保留聊天群的群聊天记录的多个视频、用户信息使用长短期神经网络模型确定所述多个视频与用户的关联程度;
判断所述多个视频与用户的关联程度是否大于视频关联程度阈值;
将小于视频关联程度阈值所对应的视频进行删除,将大于视频关联程度阈值所对应的视频进行保留。
3.如权利要求1所述的基于人工智能的数据清理方法,其特征在于,所述方法还包括:将一年未有新消息的保留聊天群的群聊天记录进行删除。
4.一种基于人工智能的数据清理系统,其特征在于,包括:
获取模块,用于获取用户信息和多个待清理聊天群信息,所述多个待清理聊天群信息中的每个待清理聊天群信息包括群用户信息和群聊天记录;
群用户信息处理模块,用于基于所述每个待清理聊天群信息中的群用户信息和所述用户信息使用用户关联程度确定模型确定用户与每个待清理聊天群的关联程度;
群聊天记录处理模块,用于基于所述每个待清理聊天群信息中的群聊天记录和所述用户信息确定每个待清理聊天群的群聊天记录的重要程度;
综合模块,用于基于所述用户与每个待清理聊天群的关联程度和所述每个待清理聊天群的群聊天记录的重要程度确定每个待清理聊天群的重要程度;
判断模块,用于判断所述每个待清理聊天群的重要程度是否大于重要程度阈值;
删除模块,用于将小于重要程度阈值所对应的多个待清理聊天群作为多个清理聊天群,并将所述多个清理聊天群的群聊天记录进行删除,将大于重要程度阈值所对应的多个待清理聊天群作为多个保留聊天群,并将所述多个保留聊天群的群聊天记录进行保留,
所述删除模块还用于:
获取所述多个保留聊天群的群聊天记录中的文字聊天记录和图片聊天记录;
基于文字关联程度确定模型确定所述多个保留聊天群的群聊天记录中每一条图片聊天记录与前后N条文字聊天记录的关联程度,其中N为大于1的整数;
判断所述每一条图片聊天记录与前后N条文字聊天记录的关联程度是否大于文字关联程度阈值;
将小于文字关联程度阈值所对应的图片聊天记录进行删除,将大于文字关联程度阈值所对应的图片聊天记录进行保留。
5.如权利要求4所述的基于人工智能的数据清理系统,其特征在于,所述删除模块还用于:
获取所述多个保留聊天群的群聊天记录的多个视频;
基于所述多个保留聊天群的群聊天记录的多个视频、用户信息使用长短期神经网络模型确定所述多个视频与用户的关联程度;
判断所述多个视频与用户的关联程度是否大于视频关联程度阈值;
将小于视频关联程度阈值所对应的视频进行删除,将大于视频关联程度阈值所对应的视频进行保留。
6.如权利要求4所述的基于人工智能的数据清理系统,其特征在于,所述删除模块还用于:
将一年未有新消息的保留聊天群的群聊天记录进行删除。
7.一种电子设备,其特征在于,包括:存储器;处理器;以及计算机程序;其中,所述计算机程序存储在所述存储器中,并配置为由所述处理器执行以实现如权利要求1至3任一项所述的基于人工智能的数据清理方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至3任一项所述的基于人工智能的数据清理方法。
CN202310712102.5A 2023-06-15 2023-06-15 基于人工智能的数据清理方法和系统 Active CN116450635B8 (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310712102.5A CN116450635B8 (zh) 2023-06-15 2023-06-15 基于人工智能的数据清理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310712102.5A CN116450635B8 (zh) 2023-06-15 2023-06-15 基于人工智能的数据清理方法和系统

Publications (3)

Publication Number Publication Date
CN116450635A CN116450635A (zh) 2023-07-18
CN116450635B true CN116450635B (zh) 2024-01-09
CN116450635B8 CN116450635B8 (zh) 2024-03-22

Family

ID=87134100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310712102.5A Active CN116450635B8 (zh) 2023-06-15 2023-06-15 基于人工智能的数据清理方法和系统

Country Status (1)

Country Link
CN (1) CN116450635B8 (zh)

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101272355A (zh) * 2008-05-08 2008-09-24 腾讯科技(深圳)有限公司 即时通信工具中主题讨论内容的管理及发布方法及装置
CN102045661A (zh) * 2010-09-29 2011-05-04 深圳市五巨科技有限公司 一种移动终端在线聊天的方法、装置和系统
CN105072279A (zh) * 2015-08-25 2015-11-18 努比亚技术有限公司 一种基于移动终端的备份装置和方法
CN105262675A (zh) * 2015-10-29 2016-01-20 北京奇虎科技有限公司 基于电子书进行的聊天控制方法和装置
CN105869012A (zh) * 2016-03-17 2016-08-17 石平安 一种基于或囊括商家信用系统及手机通讯录的营销系统
CN106713127A (zh) * 2017-02-20 2017-05-24 北京小米移动软件有限公司 即时聊天记录的获取及处理方法和装置
CN107864088A (zh) * 2017-12-16 2018-03-30 苏州燕云网络技术有限公司 聊天信息选择性清理方法及装置
CN107861688A (zh) * 2017-10-30 2018-03-30 努比亚技术有限公司 一种数据删除方法、终端及可读存储介质
CN107920017A (zh) * 2017-11-27 2018-04-17 唐佐 一种聊天记录与内容保密方法
CN108011811A (zh) * 2017-12-15 2018-05-08 苏州燕云网络技术有限公司 聊天信息清理方法及装置
CN108090079A (zh) * 2016-11-22 2018-05-29 阿里巴巴集团控股有限公司 一种即时聊天工具的聊天记录处理方法及装置
CN109831572A (zh) * 2018-12-14 2019-05-31 深圳壹账通智能科技有限公司 聊天图片控制方法、装置、计算机设备及存储介质
CN110401545A (zh) * 2019-06-18 2019-11-01 平安科技(深圳)有限公司 聊天群组创建方法、装置、计算机设备和存储介质
CN111357245A (zh) * 2017-11-15 2020-06-30 华为技术有限公司 一种信息搜索的方法、终端、网络设备和系统
CN112699264A (zh) * 2020-12-23 2021-04-23 绿瘦健康产业集团有限公司 一种基于聊天记录的风控管理方法及系统
CN114610682A (zh) * 2022-02-17 2022-06-10 深圳优美创新科技有限公司 聊天记录处理方法、装置、终端及存储介质
CN115599907A (zh) * 2021-07-09 2023-01-13 北京安云世纪科技有限公司(Cn) 定位聊天记录方法、设备、存储介质及装置
CN115759871A (zh) * 2022-12-05 2023-03-07 平安银行股份有限公司 聊天应用活动量计数方法、系统、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9787624B2 (en) * 2016-02-22 2017-10-10 Pebble Technology, Corp. Taking actions on notifications using an incomplete data set from a message
US10114525B2 (en) * 2016-12-28 2018-10-30 Byung Jin Kim Device and method for organizing and displaying instant messages in various structured fashions

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101272355A (zh) * 2008-05-08 2008-09-24 腾讯科技(深圳)有限公司 即时通信工具中主题讨论内容的管理及发布方法及装置
CN102045661A (zh) * 2010-09-29 2011-05-04 深圳市五巨科技有限公司 一种移动终端在线聊天的方法、装置和系统
CN105072279A (zh) * 2015-08-25 2015-11-18 努比亚技术有限公司 一种基于移动终端的备份装置和方法
CN105262675A (zh) * 2015-10-29 2016-01-20 北京奇虎科技有限公司 基于电子书进行的聊天控制方法和装置
CN105869012A (zh) * 2016-03-17 2016-08-17 石平安 一种基于或囊括商家信用系统及手机通讯录的营销系统
CN108090079A (zh) * 2016-11-22 2018-05-29 阿里巴巴集团控股有限公司 一种即时聊天工具的聊天记录处理方法及装置
CN106713127A (zh) * 2017-02-20 2017-05-24 北京小米移动软件有限公司 即时聊天记录的获取及处理方法和装置
CN107861688A (zh) * 2017-10-30 2018-03-30 努比亚技术有限公司 一种数据删除方法、终端及可读存储介质
CN111357245A (zh) * 2017-11-15 2020-06-30 华为技术有限公司 一种信息搜索的方法、终端、网络设备和系统
CN107920017A (zh) * 2017-11-27 2018-04-17 唐佐 一种聊天记录与内容保密方法
CN108011811A (zh) * 2017-12-15 2018-05-08 苏州燕云网络技术有限公司 聊天信息清理方法及装置
CN107864088A (zh) * 2017-12-16 2018-03-30 苏州燕云网络技术有限公司 聊天信息选择性清理方法及装置
CN109831572A (zh) * 2018-12-14 2019-05-31 深圳壹账通智能科技有限公司 聊天图片控制方法、装置、计算机设备及存储介质
CN110401545A (zh) * 2019-06-18 2019-11-01 平安科技(深圳)有限公司 聊天群组创建方法、装置、计算机设备和存储介质
CN112699264A (zh) * 2020-12-23 2021-04-23 绿瘦健康产业集团有限公司 一种基于聊天记录的风控管理方法及系统
CN115599907A (zh) * 2021-07-09 2023-01-13 北京安云世纪科技有限公司(Cn) 定位聊天记录方法、设备、存储介质及装置
CN114610682A (zh) * 2022-02-17 2022-06-10 深圳优美创新科技有限公司 聊天记录处理方法、装置、终端及存储介质
CN115759871A (zh) * 2022-12-05 2023-03-07 平安银行股份有限公司 聊天应用活动量计数方法、系统、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Android平台个人隐私保护研究;虞娟;;西安文理学院学报(自然科学版)(03);第66-69+78页 *

Also Published As

Publication number Publication date
CN116450635A (zh) 2023-07-18
CN116450635B8 (zh) 2024-03-22

Similar Documents

Publication Publication Date Title
US20190103111A1 (en) Natural Language Processing Systems and Methods
CN107346336B (zh) 基于人工智能的信息处理方法和装置
CN109862397B (zh) 一种视频分析方法、装置、设备和存储介质
KR102574279B1 (ko) 검색/생성된 디지털 미디어 파일을 기반으로 잠재적 관련성에 대한 주제 예측
CN109299344A (zh) 排序模型的生成方法、搜索结果的排序方法、装置及设备
CN104866557B (zh) 一种基于建构学习理论的个性化即时学习支持系统与方法
US20240037142A1 (en) Systems and methods for filtering of computer vision generated tags using natural language processing
CN110489578A (zh) 图片处理方法、装置及计算机设备
CN111723256A (zh) 一种基于信息资源库的政务用户画像构建方法及其系统
CN108347367B (zh) 一种电子邮件处理方法、装置、服务器及客户端
CN115687664A (zh) 中文图文检索方法及中文图文检索的数据处理方法
CN116450635B (zh) 基于人工智能的数据清理方法和系统
CN117173497A (zh) 一种图像生成方法、装置、电子设备及存储介质
CN112784011A (zh) 一种基于cnn和lstm的情感问题处理方法、装置和介质
CN107656760A (zh) 数据处理方法及装置、电子设备
WO2020098669A1 (zh) 一种表情输入的方法、装置、设备以及存储介质
CN105472405A (zh) 提醒生成方法及装置
CN116385830A (zh) 一种基于深度学习的素描作品智能评价方法
CN110413770A (zh) 将群消息归类到群话题的方法及装置
CN114550157A (zh) 弹幕聚集识别方法以及装置
CN112115237B (zh) 烟草科技文献数据推荐模型的构建方法及装置
EP3318021B1 (en) Managing and indexing communication data, and recommending communication type
CN115130453A (zh) 互动信息生成方法和装置
Hikmaturokhman et al. Deep Learning Algorithm Models for Spam Identification on Cellular Short Message Service.
CN110674330A (zh) 表情管理的方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20231220

Address after: 201207, Building 1, No. 515 Zhengding Road, Pudong New Area, Shanghai, A6 Warehouse Area, 1st Floor, No. 7 Warehouse Auxiliary Building, 2nd Floor

Applicant after: China Duty Free Rishang Internet Technology Co.,Ltd.

Applicant after: China Tourism Group CDFG

Address before: No. 3001A, Floor 4, Building 1-2, No. 69, Junlong Street, Jinjiang District, Chengdu, Sichuan 610000 (self number)

Applicant before: Chengdu Haojie Technology Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
CI03 Correction of invention patent
CI03 Correction of invention patent

Correction item: Patentee|Address|Patentee

Correct: China Duty Free Rishang Internet Technology Co., Ltd.|201207, Building 1, No. 515 Zhengding Road, Pudong New Area, Shanghai, A6 Warehouse Area, 1st Floor, No. 7 Warehouse Auxiliary Building, 2nd Floor|China Tourism Group Duty Free Co., Ltd.

False: China Free Rishang Internet Technology Co., Ltd.|201207, Building 1, No. 515 Zhengding Road, Pudong New Area, Shanghai, A6 Warehouse Area, 1st Floor, No. 7 Warehouse Auxiliary Building, 2nd Floor|China Tourism Group Duty Free Co., Ltd.

Number: 02-01

Page: The title page

Volume: 40

Correction item: Patentee|Address|Patentee

Correct: China Duty Free Rishang Internet Technology Co., Ltd.|201207, Building 1, No. 515 Zhengding Road, Pudong New Area, Shanghai, A6 Warehouse Area, 1st Floor, No. 7 Warehouse Auxiliary Building, 2nd Floor|China Tourism Group Duty Free Co., Ltd.

False: China Free Rishang Internet Technology Co., Ltd.|201207, Building 1, No. 515 Zhengding Road, Pudong New Area, Shanghai, A6 Warehouse Area, 1st Floor, No. 7 Warehouse Auxiliary Building, 2nd Floor|China Tourism Group Duty Free Co., Ltd.

Number: 02-01

Volume: 40

OR01 Other related matters
OR01 Other related matters