CN113536080B - 一种数据上传方法、装置及电子设备 - Google Patents
一种数据上传方法、装置及电子设备 Download PDFInfo
- Publication number
- CN113536080B CN113536080B CN202110820415.3A CN202110820415A CN113536080B CN 113536080 B CN113536080 B CN 113536080B CN 202110820415 A CN202110820415 A CN 202110820415A CN 113536080 B CN113536080 B CN 113536080B
- Authority
- CN
- China
- Prior art keywords
- information
- data processing
- model
- uploading
- interaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/06—Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种数据上传方法、装置及电子设备,获取数据上传信息,所述数据上传信息包括数据上传触发条件以及数据上传任务信息,在确定出满足数据上传触发规则的情况下,获取与所述数据上传任务信息对应的情感标签,将所述情感标签输入到预设数据处理模型中,以使所述预设数据处理模型得到与所述情感标签对应的交互信息,将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传。即本发明在获取到数据上传信息后,能够调用预设数据处理模型自动生成交互信息,并上传,人机交互简单,进而避免了由于需要多次响应人工操作带来数据处理效率较低的问题。
Description
技术领域
本发明涉及数据交互领域,更具体的说,涉及一种数据上传方法、装置及电子设备。
背景技术
随着数据交互功能的不断发展,用户能够将自己原创的内容通过互联网平台(如UGC平台)进行展示或者提供给其他用户,实现信息互动。
互联网平台中,为了提高信息互动频率,人工会登陆互联网平台并进行信息互动操作,如信息发布或评论操作,但是这种方式,需要服务器不断响应人工输入操作,人机交互复杂,降低数据处理效率。
发明内容
有鉴于此,本发明提供一种数据上传方法、装置及电子设备,以解决人工进行信息发布或评论操作,人机交互复杂,降低数据处理效率的问题。
为解决上述技术问题,本发明采用了如下技术方案:
一种数据上传方法,包括:
获取数据上传信息,所述数据上传信息包括数据上传触发条件以及数据上传任务信息;
在确定出满足数据上传触发规则的情况下,获取与所述数据上传任务信息对应的情感标签;
调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息;所述预设数据处理模型基于训练样本训练得到,所述训练样本包括交互信息样本以及所述交互信息样本对应的情感标签;
将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传。
可选地,调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息,包括:
调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的输出向量,并按照向量与文本的对应关系,将所述输出向量转换成交互信息。
可选地,调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息,包括:
获取预设数据处理模型;所述预设数据处理模型包括多个预设数据处理子模型,不同的所述预设数据处理子模型执行的数据上传操作不同;
确定与所述数据上传任务信息对应的预设数据处理子模型,并作为目标数据处理子模型;
将所述情感标签输入到目标数据处理子模型中,以使所述目标数据处理子模型得到与所述情感标签对应的交互信息。
可选地,在所述预设数据处理子模型为信息评论子模型的情况下,所述交互信息样本包括待评价信息样本以及所述待评价信息样本对应的评价信息样本;
将所述情感标签输入到目标数据处理子模型中,以使所述目标数据处理子模型得到与所述情感标签对应的交互信息,包括:
获取所述数据上传任务信息中的待评价信息;
将所述待评价信息以及所述情感标签输入到目标数据处理子模型中,以使所述目标数据处理子模型得到与所述待评价信息对应、且符合所述情感标签的交互信息。
可选地,所述预设数据处理子模型的生成过程包括:
获取训练样本,所述训练样本包括交互信息样本以及所述交互信息样本对应的情感标签;
使用所述训练样本对预设数据处理子模型进行训练,直至满足预设训练停止条件时停止。
可选地,获取训练样本,包括:
获取目标关键字以及目标数据源;
从所述目标数据源中爬取与所述目标关键字对应的爬取数据;
根据预设数据清洗规则,对所述爬取数据进行数据清洗操作,得到目标数据;
获取所述目标数据对应的情感标签,并将所述目标数据和所述目标数据对应的情感标签作为训练样本。
可选地,将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传之后,还包括;
获取对所述情感标签的交互信息进行修正后的参考交互信息;
将所述情感标签和所述参考交互信息添加到所述训练样本中。
一种数据上传装置,包括:
信息获取模块,用于获取数据上传信息,所述数据上传信息包括数据上传触发条件以及数据上传任务信息;
标签获取模块,用于在确定出满足数据上传触发规则的情况下,获取与所述数据上传任务信息对应的情感标签;
模型处理模块,用于调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息;所述预设数据处理模型基于训练样本训练得到,所述训练样本包括交互信息样本以及所述交互信息样本对应的情感标签;
数据上传模块,用于将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传。
可选地,所述模型处理模块具体用于:
调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的输出向量,并按照向量与文本的对应关系,将所述输出向量转换成交互信息。
一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取数据上传信息,所述数据上传信息包括数据上传触发条件以及数据上传任务信息;
在确定出满足数据上传触发规则的情况下,获取与所述数据上传任务信息对应的情感标签;
调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息;所述预设数据处理模型基于训练样本训练得到,所述训练样本包括交互信息样本以及所述交互信息样本对应的情感标签;
将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传。
相较于现有技术,本发明具有以下有益效果:
本发明提供了一种数据上传方法、装置及电子设备,获取数据上传信息,所述数据上传信息包括数据上传触发条件以及数据上传任务信息,在确定出满足数据上传触发规则的情况下,获取与所述数据上传任务信息对应的情感标签,将所述情感标签输入到预设数据处理模型中,以使所述预设数据处理模型得到与所述情感标签对应的交互信息,将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传。即本发明在获取到数据上传信息后,能够调用预设数据处理模型自动生成交互信息,并上传,人机交互简单,进而避免了由于需要多次响应人工操作带来数据处理效率较低的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种数据上传方法的方法流程图;
图2为本发明实施例提供的一种数据输入界面的场景示意图;
图3为本发明实施例提供的另一种数据上传方法的方法流程图;
图4为本发明实施例提供的又一种数据上传方法的方法流程图;
图5为本发明实施例提供的一种数据上传装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
互联网平台中,为了提高信息互动频率,会设置多个运营账号,人工可以登陆运营账号,在互联网平台上进行信息互动操作,如发表评论、内容发布等,如为明星打榜、发表一些心情感言、随机的主题发布以及恢复等等,通过多个用户在互联网平台上的信息互动操作,实现了互联网平台的互动性、用户活跃性,也提高互联网平台的使用率,为互联网平台提供数据流,让整个平台的互动变强,从而引入更多的新用户,形成优化闭环。
目前,在使用账号,如运营账号,进行信息互动时,人工会登陆互联网平台并进行信息互动操作,如信息发布或评论操作,在这个过程中,人工需要编辑想要发布的信息,然后确定在哪一地方发布,最后还需要点击上传,才能够将想要发布的信息上传到互联网平台中。整个过程,需要服务器多次响应用户操作,人机交互复杂,降低数据处理效率,同时也会浪费较多的人力。
为了解决上述技术问题,发明人经过研究发现,整个过程中,可以直接将数据上传要求信息发送给服务器,服务器自动根据要求信息自动生成所需上传的信息,并进行上传操作,整个过程只需要人工提供要求信息,后续不需要人工参与,降低了人机交互的复杂性,提高数据处理效率,节省人工。
具体的,获取数据上传信息,所述数据上传信息包括数据上传触发条件以及数据上传任务信息,在确定出满足数据上传触发规则的情况下,获取与所述数据上传任务信息对应的情感标签,将所述情感标签输入到预设数据处理模型中,以使所述预设数据处理模型得到与所述情感标签对应的交互信息,将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传。即本发明在获取到数据上传信息后,能够调用预设数据处理模型自动生成交互信息,并上传,人机交互简单,进而避免了由于需要多次响应人工操作带来数据处理效率较低的问题。
在上述内容的基础上,本发明的另一实施例提供了一种数据上传方法,参照图1,可以包括:
S11、获取数据上传信息。
在实际应用中,服务器上设置有基于django+mysq l开发的元数据管理模块,元数据管理模块可以实现数据上传信息、数据清洗规则、爬虫爬取规则等的设置。
参照图2,图2给出了元数据管理界面,可以进行基础数据管理、用户管理、清洗规则管理、爬虫配置管理,通过元数据可以对整个系统进行用户权限验证,不同权限用户对功能进行隔离,防止越权操作。可以对清洗规则进行配置,便于数据清洗模块动态调整清洗规则,生成合法数据。爬虫配置的管理定义爬虫从哪里爬数据,使用什么I P,存储到哪里。
以服务器为饭团服务器为例,图2给出了饭团关键词管理的界面,用户可以在该界面上输入爬取的关键词、最大抓取数等内容,点击保存,即可生成爬虫爬取规则。数据上传信息、数据清洗规则与饭团关键词管理相同,均是界面化展示,用户在界面上填写相关的信息即可。
此外,还可以实现用户权限管理,使得只有具有访问权限的用户,才能够访问服务器中的相应内容。
在实际应用中,数据上传信息是用户填写的,数据上传要求信息。所述数据上传信息包括数据上传触发条件以及数据上传任务信息。
其中,数据上传触发条件可以是满足一些条件时进行数据上传操作,具体条件可以是在具体某一时刻时上传、每隔预设时间段上传、或接收到用户的上传指令时上传等等,具体条件可以是技术人员根据实际场景设定。
数据上传任务信息是用户设定的数据上传任务,如为明星A打榜,发表一些与心情有关的信息。
数据上传任务信息中还可以包括用户选择的情感标签,如积极标签、开心标签、悲伤标签等,此外,用户还可以选择默认标签,默认标签是技术人员预先设定的一个标签,如开心标签。
此外,数据上传任务信息中还可以包括交互接口标识,在生成交互信息后,将该交互信息发送到交互接口标识对应的交互接口,该交互接口即可实现数据上传到互联网平台。
S12、在确定出满足数据上传触发规则的情况下,获取与所述数据上传任务信息对应的情感标签。
具体的,以条件是在具体某一时刻时上传为例,若是达到该时刻,则确定出满足数据上传触发规则,其他条件类似。
若是数据上传任务信息中包括用户选择的特定情感标签或者是默认标签,则直接将数据上传任务信息中用户选择的情感标签作为与所述数据上传任务信息对应的情感标签。
若是数据上传任务信息中不包括用户选择的情感标签,此时,可以对数据上传任务信息进行自然语言处理,分析得到与数据上传任务信息对应的情感标签。
举例来说,以数据上传任务信息为明星A打榜为例,则可以知道,打榜是高兴的场景,所以其对应的情感标签应该是开心的、高兴的,所以其情感标签可以是开心标签。
S13、调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息。
本实施例中,所述预设数据处理模型基于训练样本训练得到,所述训练样本包括交互信息样本以及所述交互信息样本对应的情感标签,使得预设数据处理模型能够在接收到情感标签时,输出与情感标签对应的交互信息。
在预设数据处理模型进行数据处理时,处理的对象是词向量,预先设定有预设数据处理模型使用的语料库,语料库中存储有各个文本与词向量的对应关系,本实施例中,将情感标签输入到预设数据处理模型,在接收到情感标签后,预设数据处理模型依据语料库,将情感标签转换成对应的词向量,然后得到与该词向量对应的输出向量,并依据语料库,将所述输出向量转换成交互信息。
也就是说,将所述情感标签输入到预设数据处理模型中,以使所述预设数据处理模型得到与所述情感标签对应的交互信息,包括:
将所述情感标签输入到预设数据处理模型中,以使所述预设数据处理模型得到与所述情感标签对应的输出向量,并按照向量与文本的对应关系,将所述输出向量转换成交互信息。
S14、将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传。
在确定了交互信息之后,获取数据上传任务信息中的交互接口标识,并调用与该交互接口标识对应的交互接口,即可通过该交互接口将交互信息上传到互联网平台,如UGC平台,用户可以看到发表的信息。
本实施例中,获取数据上传信息,所述数据上传信息包括数据上传触发条件以及数据上传任务信息,在确定出满足数据上传触发规则的情况下,获取与所述数据上传任务信息对应的情感标签,将所述情感标签输入到预设数据处理模型中,以使所述预设数据处理模型得到与所述情感标签对应的交互信息,将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传。即本发明在获取到数据上传信息后,能够调用预设数据处理模型自动生成交互信息,并上传,人机交互简单,进而避免了由于需要多次响应人工操作带来数据处理效率较低的问题。
另外,本发明能够在互联网平台初始阶段替代人工生产数据,降低人工成本,提升用户体验,提高用户留存。
在实际应用中,预设数据处理模型可以是独立的一个数据处理模型,用于实现内容发布功能或者是评价(或回复)功能。
此外,还可以是将实现内容发布功能的预设数据处理子模型和用于实现评价(或回复)功能的预设数据处理子模型的整合。
实现内容发布功能的预设数据处理子模型、和用于实现评价(或回复)功能的预设数据处理子模型的输入是不同的。
若是,实现内容发布功能的预设数据处理子模型,其输入只需要情感标签,对于用于实现评价(或回复)功能的预设数据处理子模型,其输入除了情感标签之外,还需要输入待评价信息,本实施例中待评价信息可以存在于数据上传任务信息,若是数据上传任务信息中包括待评价信息,则可以认为是评价(或回复),若不存在待评价信息,则认为是内容发布。
本实施例中,若是实现内容发布功能,则可以直接将情感标签输入模型,即可得到情感标签对应的交互信息。
若是实现评价(或回复)功能,则需要将将情感标签和数据上传任务信息中的待评价信息输入模型,得到交互信息。
本发明的另一实现方式中,参照图3,在预设数据处理模型为实现内容发布功能的预设数据处理子模型和用于实现评价(或回复)功能的预设数据处理子模型的整合时,调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息,可以包括:
S31、获取预设数据处理模型。
所述预设数据处理模型包括多个预设数据处理子模型,不同的所述预设数据处理子模型执行的数据上传操作不同。本实施例中的数据上传操作可以是内容发布、评价(或回复)。
S32、确定与所述数据上传任务信息对应的预设数据处理子模型,并作为目标数据处理子模型。
具体的,若是数据上传任务信息中包括待评价信息,则可以认为是评价(或回复),若不存在待评价信息,则认为是内容发布。
此外,还可以在数据上传任务信息中直接携带具体的数据上传操作,如内容发布、评价(或回复)。
进而根据携带的数据上传操作,确定对应的预设数据处理子模型,并作为目标数据处理子模型。
S33、将所述情感标签输入到目标数据处理子模型中,以使所述目标数据处理子模型得到与所述情感标签对应的交互信息。
在实际应用中,若是实现内容发布功能,则直接将所述情感标签输入到目标数据处理子模型中,以使所述目标数据处理子模型得到与所述情感标签对应的交互信息。
若是实现评价(或回复),需要将获取所述数据上传任务信息中的待评价信息,将所述待评价信息以及所述情感标签输入到目标数据处理子模型中,以使所述目标数据处理子模型得到与所述待评价信息对应、且符合所述情感标签的交互信息。
此时,实现评价(或回复)的预设数据处理子模型可以称为信息评论子模型,为了使得信息评论子模型实现能够识别待评价信息以及所述情感标签的功能,信息评论子模型的交互信息样本需要包括待评价信息样本以及所述待评价信息样本对应的评价信息样本。
本实施例中,能够根据不同的实现功能,调用不同的模型,以实现用户所需的多种功能。
本发明的另一实现方式中,给出了预设数据处理子模型的生成过程,具体包括:
1)获取训练样本,所述训练样本包括交互信息样本以及所述交互信息样本对应的情感标签。
具体的,在预设数据处理子模型为实现内容发布功能的内容发布子模型时,其训练样本为交互信息样本以及所述交互信息样本对应的情感标签。其中,交互信息样本可以是采集的一条数据,如可以是采集的发布的内容,如“为明星A加油”、“天气好好哦”。
在预设数据处理子模型为实现评价(或回复)的信息评论子模型时,其训练样本包括交互信息样本以及所述交互信息样本对应的情感标签。
其中,所述交互信息样本包括待评价信息样本以及所述待评价信息样本对应的评价信息样本。
举例来说,待评价信息样本可以是“为明星A加油”,待评价信息样本对应的评价信息样本可以是“我也为明星A加油”。
在实际应用中,参照图4,获取训练样本可以包括:
S31、获取目标关键字以及目标数据源。
本实施例中的目标关键字以及目标数据源,可以是用户通过图2中的界面输入的,目标数据源为用户指定的爬虫可以爬取数据的数据源,目标关键字可以是用户指定的想要爬取的内容的关键字,如关键字可以是“明星”、“文学”等等。若是用户不想建立专注于某一方面,如仅涉及“明星”的模型,则可以不设置目标关键字,此时,目标关键字为空。
S32、从所述目标数据源中爬取与所述目标关键字对应的爬取数据。
服务器调用爬虫模块,使得爬虫从所述目标数据源中爬取与所述目标关键字对应的爬取数据。
本实施例中的爬虫模块基于scrapyweb(一套基于python语言开发的爬虫框架)开发,支持分布式部署,通过ip(Internet Protocol Address,互联网协议地址)池合法的从元数据管理模型中配置的数据源获取数据,并落地到hadoop(分布式系统基础架构)、Amazon S3等存储器。
S33、根据预设数据清洗规则,对所述爬取数据进行数据清洗操作,得到目标数据。
本实施例中,服务器中的数据清洗模块根据预设数据清洗规则,对所述爬取数据进行数据清洗操作,得到目标数据。得到的目标数据可以作为训练数据。
具体的,由于爬虫爬取的数据各种各样,通过数据清洗可以对数据进行格式化,提取到需要的信息,数据清洗模块使用java基于mapreduce开发,通过元数据配置的清洗规则,将数据进行清洗处理并保存到hadoop、s3上。
本实施例中的数据清洗可以是将数据格式统一化、删除特殊符号和标签。删除掉与目标关键字不相关的内容等。
S34、获取所述目标数据对应的情感标签,并将所述目标数据和所述目标数据对应的情感标签作为训练样本。
本实施例中的情感标签可以是人工标注的,即人工根据目标数据的内容,确定对应的情感标签。
最终得到的目标数据和所述目标数据对应的情感标签即为训练样本。
2)使用所述训练样本对预设数据处理子模型进行训练,直至满足预设训练停止条件时停止。
在实际应用中,预设数据处理子模型主要有两个,分别为上述的内容发布子模型和信息评论子模型。
内容发布子模型可以是基于GAN(Generative Adversarial Networks,生成式对抗网络)的文本生成模型,使用LSTM(Long Short-Term Memory,长短期记忆网络)作为GAN的生成器、CNN作为GAN的判别器,主要用于文章的自动发布。
信息评论子模型可以是基于注意力机制attention技术的双向LSTM模型,主要应用于评论或回复。
本步骤可以通过服务器中的NLP(Natural Language Processing,自然语言处理)服务模块实现,基于tensorflow开发的NLP模型包括上述的内容发布子模型和信息评论子模型,能够对在supervisor(用Python开发的一套通用的进程管理程序)的监管下定时进行自动训练,通过httpclient(python的一个网络基础包)对指定的接口进行内容发布与回复。
在得到训练样本之后,使用所述训练样本对预设数据处理子模型进行训练,直至满足预设训练停止条件时停止。其中,预设训练停止条件可以是损失函数值小于预设阈值。
为了保证模型的准确性,可以每隔一段时间更新下模型的训练样本,并使用新的训练样本重新训练模型,具体的,在将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传之后,还包括;
获取对所述情感标签的交互信息进行修正后的参考交互信息,将所述情感标签和所述参考交互信息添加到所述训练样本中。
其中,参考交互信息是人工对情感标签的交互信息进行修正得到的,若是模型得到的情感标签的交互信息是正确的,则此时可以不进行修正,直接将情感标签的交互信息作为参考交互信息。
在训练样本中添加的数量达到一定的数量要求,或者是达到指定的时间间隔,使用更新后的训练样本对模型进行训练,得到更新后的模型。本步骤可以通过数据反馈模块实现。
此外,本发明实施例中的服务器中还设置有报警模块,报警模块提供整体服务的监控,在出现服务异常之后通过短信和邮件的形式提醒开发及运维人员进行检查与修复。
本实施例中,元数据管理模型实现对平台所有基础数据进行管理,分布式爬虫获取数据之后落地到指定存储,数据清洗对存储的数据进行清洗转换,NLP模型利用清洗之后的数据进行训练,NLP服务使用最新的NLP模型提供服务,同时,互联网平台产生的数据还会进入到存储,作为NLP模型的新数据,整体形成反馈闭环,优化模型。另外,警报在整体服务出现异常时对订阅人员进行提醒。
通过本实施例,能够极大的减少运营人员的工作量,从训练样本的获取、模型的训练、主题的自动发布及回复,需要人工干预的地方极少,并且可以在短时间对互联网平台的数据进行大量的丰富,对于用户来说,会实时感受到反馈,对于提升用户体验有较大的帮助。
可选地,在上述数据上传方法的实施例的基础上,本发明的另一实施例提供了一种数据上传装置,参照图5,可以包括:
信息获取模块11,用于获取数据上传信息,所述数据上传信息包括数据上传触发条件以及数据上传任务信息;
标签获取模块12,用于在确定出满足数据上传触发规则的情况下,获取与所述数据上传任务信息对应的情感标签;
模型处理模块13,用于调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息;所述预设数据处理模型基于训练样本训练得到,所述训练样本包括交互信息样本以及所述交互信息样本对应的情感标签;
数据上传模块14,用于将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传。
进一步,所述模型处理模块具体用于:
调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的输出向量,并按照向量与文本的对应关系,将所述输出向量转换成交互信息。
进一步,所述模型处理模块包括:
模型获取子模块,用于获取预设数据处理模型;所述预设数据处理模型包括多个预设数据处理子模型,不同的所述预设数据处理子模型执行的数据上传操作不同;
模型确定子模块,用于确定与所述数据上传任务信息对应的预设数据处理子模型,并作为目标数据处理子模型;
模型处理子模块,用于将所述情感标签输入到目标数据处理子模型中,以使所述目标数据处理子模型得到与所述情感标签对应的交互信息。
进一步,在所述预设数据处理子模型为信息评论子模型的情况下,所述交互信息样本包括待评价信息样本以及所述待评价信息样本对应的评价信息样本;
模型处理子模块具体用于:
获取所述数据上传任务信息中的待评价信息;
将所述待评价信息以及所述情感标签输入到目标数据处理子模型中,以使所述目标数据处理子模型得到与所述待评价信息对应、且符合所述情感标签的交互信息。
进一步,还包括模型生成模块,模型生成模块包括:
样本获取子模块,用于获取训练样本,所述训练样本包括交互信息样本以及所述交互信息样本对应的情感标签;
模型训练子模块,用于使用所述训练样本对预设数据处理子模型进行训练,直至满足预设训练停止条件时停止。
进一步,样本获取子模块包括:
数据获取单元,用于获取目标关键字以及目标数据源;
爬取单元,用于从所述目标数据源中爬取与所述目标关键字对应的爬取数据;
数据清洗单元,用于根据预设数据清洗规则,对所述爬取数据进行数据清洗操作,得到目标数据;
样本确定单元,用于获取所述目标数据对应的情感标签,并将所述目标数据和所述目标数据对应的情感标签作为训练样本。
进一步,还包括:
样本更新模块,用于获取对所述情感标签的交互信息进行修正后的参考交互信息,将所述情感标签和所述参考交互信息添加到所述训练样本中。
本实施例中,获取数据上传信息,所述数据上传信息包括数据上传触发条件以及数据上传任务信息,在确定出满足数据上传触发规则的情况下,获取与所述数据上传任务信息对应的情感标签,将所述情感标签输入到预设数据处理模型中,以使所述预设数据处理模型得到与所述情感标签对应的交互信息,将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传。即本发明在获取到数据上传信息后,能够调用预设数据处理模型自动生成交互信息,并上传,人机交互简单,进而避免了由于需要多次响应人工操作带来数据处理效率较低的问题。
需要说明的是,本实施例中的各个模块、子模块和单元的工作过程,请参照上述实施例中的相应说明,在此不再赘述。
可选地,在上述数据上传方法及装置的实施例的基础上,本发明的另一实施例提供了一种电子设备,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取数据上传信息,所述数据上传信息包括数据上传触发条件以及数据上传任务信息;
在确定出满足数据上传触发规则的情况下,获取与所述数据上传任务信息对应的情感标签;
调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息;所述预设数据处理模型基于训练样本训练得到,所述训练样本包括交互信息样本以及所述交互信息样本对应的情感标签;
将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传。
进一步,调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息,包括:
调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的输出向量,并按照向量与文本的对应关系,将所述输出向量转换成交互信息。
进一步,调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息,包括:
获取预设数据处理模型;所述预设数据处理模型包括多个预设数据处理子模型,不同的所述预设数据处理子模型执行的数据上传操作不同;
确定与所述数据上传任务信息对应的预设数据处理子模型,并作为目标数据处理子模型;
将所述情感标签输入到目标数据处理子模型中,以使所述目标数据处理子模型得到与所述情感标签对应的交互信息。
进一步,在所述预设数据处理子模型为信息评论子模型的情况下,所述交互信息样本包括待评价信息样本以及所述待评价信息样本对应的评价信息样本;
将所述情感标签输入到目标数据处理子模型中,以使所述目标数据处理子模型得到与所述情感标签对应的交互信息,包括:
获取所述数据上传任务信息中的待评价信息;
将所述待评价信息以及所述情感标签输入到目标数据处理子模型中,以使所述目标数据处理子模型得到与所述待评价信息对应、且符合所述情感标签的交互信息。
进一步,所述预设数据处理子模型的生成过程包括:
获取训练样本,所述训练样本包括交互信息样本以及所述交互信息样本对应的情感标签;
使用所述训练样本对预设数据处理子模型进行训练,直至满足预设训练停止条件时停止。
进一步,获取训练样本,包括:
获取目标关键字以及目标数据源;
从所述目标数据源中爬取与所述目标关键字对应的爬取数据;
根据预设数据清洗规则,对所述爬取数据进行数据清洗操作,得到目标数据;
获取所述目标数据对应的情感标签,并将所述目标数据和所述目标数据对应的情感标签作为训练样本。
进一步,将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传之后,还包括;
获取对所述情感标签的交互信息进行修正后的参考交互信息;
将所述情感标签和所述参考交互信息添加到所述训练样本中。
本实施例中,获取数据上传信息,所述数据上传信息包括数据上传触发条件以及数据上传任务信息,在确定出满足数据上传触发规则的情况下,获取与所述数据上传任务信息对应的情感标签,将所述情感标签输入到预设数据处理模型中,以使所述预设数据处理模型得到与所述情感标签对应的交互信息,将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传。即本发明在获取到数据上传信息后,能够调用预设数据处理模型自动生成交互信息,并上传,人机交互简单,进而避免了由于需要多次响应人工操作带来数据处理效率较低的问题。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (7)
1.一种数据上传方法,其特征在于,包括:
获取数据上传信息,所述数据上传信息包括数据上传触发条件以及数据上传任务信息;
在确定出满足数据上传触发规则的情况下,获取与所述数据上传任务信息对应的情感标签;
调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息;所述预设数据处理模型基于训练样本训练得到,所述训练样本包括交互信息样本以及所述交互信息样本对应的情感标签;
将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传;
调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息,包括:
调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的输出向量,并按照向量与文本的对应关系,将所述输出向量转换成交互信息;
调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息,包括:
获取预设数据处理模型;所述预设数据处理模型包括多个预设数据处理子模型,不同的所述预设数据处理子模型执行的数据上传操作不同,所述预设数据处理子模型包括内容发布子模型和信息评论子模型,其中,所述内容发布子模型为基于GAN的文本生成模型,用于文章的自动发布,所述信息评论子模型为基于注意力机制attention技术的双向LSTM模型,用于评论或回复;
确定与所述数据上传任务信息对应的预设数据处理子模型,并作为目标数据处理子模型;
将所述情感标签输入到目标数据处理子模型中,以使所述目标数据处理子模型得到与所述情感标签对应的交互信息。
2.根据权利要求1所述的数据上传方法,其特征在于,在所述预设数据处理子模型为信息评论子模型的情况下,所述交互信息样本包括待评价信息样本以及所述待评价信息样本对应的评价信息样本;
将所述情感标签输入到目标数据处理子模型中,以使所述目标数据处理子模型得到与所述情感标签对应的交互信息,包括:
获取所述数据上传任务信息中的待评价信息;
将所述待评价信息以及所述情感标签输入到目标数据处理子模型中,以使所述目标数据处理子模型得到与所述待评价信息对应、且符合所述情感标签的交互信息。
3.根据权利要求1所述的数据上传方法,其特征在于,所述预设数据处理子模型的生成过程包括:
获取训练样本,所述训练样本包括交互信息样本以及所述交互信息样本对应的情感标签;
使用所述训练样本对预设数据处理子模型进行训练,直至满足预设训练停止条件时停止。
4.根据权利要求3所述的数据上传方法,其特征在于,获取训练样本,包括:
获取目标关键字以及目标数据源;
从所述目标数据源中爬取与所述目标关键字对应的爬取数据;
根据预设数据清洗规则,对所述爬取数据进行数据清洗操作,得到目标数据;
获取所述目标数据对应的情感标签,并将所述目标数据和所述目标数据对应的情感标签作为训练样本。
5.根据权利要求1所述的数据上传方法,其特征在于,将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传之后,还包括;
获取对所述情感标签的交互信息进行修正后的参考交互信息;
将所述情感标签和所述参考交互信息添加到所述训练样本中。
6.一种数据上传装置,其特征在于,包括:
信息获取模块,用于获取数据上传信息,所述数据上传信息包括数据上传触发条件以及数据上传任务信息;
标签获取模块,用于在确定出满足数据上传触发规则的情况下,获取与所述数据上传任务信息对应的情感标签;
模型处理模块,用于调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息;所述预设数据处理模型基于训练样本训练得到,所述训练样本包括交互信息样本以及所述交互信息样本对应的情感标签;
数据上传模块,用于将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传;
所述模型处理模块具体用于:
调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的输出向量,并按照向量与文本的对应关系,将所述输出向量转换成交互信息;
调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息,包括:
获取预设数据处理模型;所述预设数据处理模型包括多个预设数据处理子模型,不同的所述预设数据处理子模型执行的数据上传操作不同,所述预设数据处理子模型包括内容发布子模型和信息评论子模型,其中,所述内容发布子模型为基于GAN的文本生成模型,用于文章的自动发布,所述信息评论子模型为基于注意力机制attention技术的双向LSTM模型,用于评论或回复;
确定与所述数据上传任务信息对应的预设数据处理子模型,并作为目标数据处理子模型;
将所述情感标签输入到目标数据处理子模型中,以使所述目标数据处理子模型得到与所述情感标签对应的交互信息。
7.一种电子设备,其特征在于,包括:存储器和处理器;
其中,所述存储器用于存储程序;
处理器调用程序并用于:
获取数据上传信息,所述数据上传信息包括数据上传触发条件以及数据上传任务信息;
在确定出满足数据上传触发规则的情况下,获取与所述数据上传任务信息对应的情感标签;
调用预设数据处理模型对所述情感标签进行处理,以使所述预设数据处理模型得到与所述情感标签对应的交互信息;所述预设数据处理模型基于训练样本训练得到,所述训练样本包括交互信息样本以及所述交互信息样本对应的情感标签;
将所述交互信息通过所述数据上传任务信息中的交互接口标识对应的交互接口上传。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110820415.3A CN113536080B (zh) | 2021-07-20 | 2021-07-20 | 一种数据上传方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110820415.3A CN113536080B (zh) | 2021-07-20 | 2021-07-20 | 一种数据上传方法、装置及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113536080A CN113536080A (zh) | 2021-10-22 |
CN113536080B true CN113536080B (zh) | 2023-06-20 |
Family
ID=78100492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110820415.3A Active CN113536080B (zh) | 2021-07-20 | 2021-07-20 | 一种数据上传方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536080B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153723A (zh) * | 2017-12-27 | 2018-06-12 | 北京百度网讯科技有限公司 | 热点资讯评论文章生成方法、装置及终端设备 |
CN108334497A (zh) * | 2018-02-06 | 2018-07-27 | 北京航空航天大学 | 自动生成文本的方法和装置 |
CN109523014A (zh) * | 2018-10-22 | 2019-03-26 | 广州大学 | 基于生成式对抗网络模型的新闻评论自动生成方法及系统 |
CN109670036A (zh) * | 2018-12-17 | 2019-04-23 | 广州大学 | 一种新闻评论自动生成方法及其装置 |
EP3640814A1 (en) * | 2018-10-17 | 2020-04-22 | Fujitsu Limited | User-friendly explanation production using generative adversarial networks |
CN112069781A (zh) * | 2020-08-27 | 2020-12-11 | 广州视源电子科技股份有限公司 | 一种评语生成方法、装置、终端设备及存储介质 |
CN112115257A (zh) * | 2019-06-20 | 2020-12-22 | 百度在线网络技术(北京)有限公司 | 用于生成信息评估模型的方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103888408B (zh) * | 2012-12-19 | 2016-03-09 | 腾讯科技(深圳)有限公司 | 将数据上传到社交平台的方法及装置 |
CN107832305A (zh) * | 2017-11-28 | 2018-03-23 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN109492229B (zh) * | 2018-11-23 | 2020-10-27 | 中国科学技术大学 | 一种跨领域情感分类方法和相关装置 |
CN110825876B (zh) * | 2019-11-07 | 2022-07-15 | 上海德拓信息技术股份有限公司 | 电影评论观点情感倾向性分析方法 |
CN110889076B (zh) * | 2019-11-29 | 2021-04-13 | 北京达佳互联信息技术有限公司 | 评论信息发布方法、装置、客户端、服务器、系统和介质 |
CN112631204A (zh) * | 2020-12-14 | 2021-04-09 | 成都航天科工大数据研究院有限公司 | 一种数控机床健康管理平台、终端、系统和方法 |
-
2021
- 2021-07-20 CN CN202110820415.3A patent/CN113536080B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108153723A (zh) * | 2017-12-27 | 2018-06-12 | 北京百度网讯科技有限公司 | 热点资讯评论文章生成方法、装置及终端设备 |
CN108334497A (zh) * | 2018-02-06 | 2018-07-27 | 北京航空航天大学 | 自动生成文本的方法和装置 |
EP3640814A1 (en) * | 2018-10-17 | 2020-04-22 | Fujitsu Limited | User-friendly explanation production using generative adversarial networks |
CN109523014A (zh) * | 2018-10-22 | 2019-03-26 | 广州大学 | 基于生成式对抗网络模型的新闻评论自动生成方法及系统 |
CN109670036A (zh) * | 2018-12-17 | 2019-04-23 | 广州大学 | 一种新闻评论自动生成方法及其装置 |
CN112115257A (zh) * | 2019-06-20 | 2020-12-22 | 百度在线网络技术(北京)有限公司 | 用于生成信息评估模型的方法和装置 |
CN112069781A (zh) * | 2020-08-27 | 2020-12-11 | 广州视源电子科技股份有限公司 | 一种评语生成方法、装置、终端设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113536080A (zh) | 2021-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190124020A1 (en) | Chatbot Skills Systems And Methods | |
US11188380B2 (en) | Method and apparatus for processing task in smart device | |
CN107957992B (zh) | 一种用户反馈信息的自动处理方法及系统 | |
CN105408919B (zh) | 查询响应设备 | |
LU101242B1 (en) | Method for chinese concept embedding generation based on wikipedia link structure | |
CN102185901B (zh) | 一种客户端报文转换方法 | |
CN109514586B (zh) | 实现智能客服机器人的方法及系统 | |
CN106202301A (zh) | 一种基于深度学习的智能应答系统 | |
US20190065498A1 (en) | System and method for rich conversation in artificial intelligence | |
CN111917878B (zh) | 消息处理方法、装置、设备及存储介质 | |
CN112035638B (zh) | 信息处理方法、装置、存储介质及设备 | |
CN110781180B (zh) | 一种数据筛选方法和数据筛选装置 | |
CN110162512A (zh) | 一种日志检索方法、装置及存储介质 | |
CN114373028A (zh) | 生成图片的方法及装置、电子设备 | |
CN116894078A (zh) | 一种信息交互方法、装置、电子设备及介质 | |
CN114218052B (zh) | 一种业务交互图生成方法、装置、设备及存储介质 | |
CN114830080A (zh) | 数据分发流程配置方法及装置、电子设备、存储介质 | |
CN115099239A (zh) | 一种资源识别方法、装置、设备以及存储介质 | |
CN113536080B (zh) | 一种数据上传方法、装置及电子设备 | |
US20200286012A1 (en) | Model application method, management method, system and server | |
CN111966885A (zh) | 一种用户画像的构建方法和装置 | |
CN113223121A (zh) | 视频生成方法、装置、电子设备及存储介质 | |
CN113868400A (zh) | 数字人问题应答的方法及装置、电子设备、存储介质 | |
CN112150021A (zh) | 时间表生成方法、装置、系统、存储介质及电子设备 | |
CN110516263A (zh) | 一种文本翻译方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |