CN116304232A - 跨模态训练数据生成方法、装置、设备及存储介质 - Google Patents

跨模态训练数据生成方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116304232A
CN116304232A CN202111576031.8A CN202111576031A CN116304232A CN 116304232 A CN116304232 A CN 116304232A CN 202111576031 A CN202111576031 A CN 202111576031A CN 116304232 A CN116304232 A CN 116304232A
Authority
CN
China
Prior art keywords
data
text
search behavior
modal
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111576031.8A
Other languages
English (en)
Inventor
谢春宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN202111576031.8A priority Critical patent/CN116304232A/zh
Publication of CN116304232A publication Critical patent/CN116304232A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种跨模态训练数据生成方法、装置、设备及存储介质,属于互联网技术领域,所述方法包括:获取预设时间段内的多个搜索行为数据;识别所述搜索行为数据中各数据对应的模态类型;根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据;根据所述目标搜索行为数据生成多个不同模态的训练数据。从而可通过自动化获取以及自动化筛选的方式,通过搜索行为数据中各数据对应的模态类型来从中选取目标搜索行为数据,并自动生成不同模态的训练数据,降低了人工成本以及数据获取周期,解决了跨模态训练数据难获取的问题。

Description

跨模态训练数据生成方法、装置、设备及存储介质
技术领域
本发明涉及互联网技术领域,尤其涉及一种跨模态训练数据生成方法、装置、设备及存储介质。
背景技术
在深度学习的训练中,常常面临数据层面的多种困难,而训练数据又是跨模态检索中的一个重要的部分。在数据获取上,训练样本普遍要求较高,训练途中会出现无可用样本集的问题,而使用人工获取和筛选样本会存在成本太高、周期太长的问题。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提出一种跨模态训练数据生成方法、装置、设备及存储介质,旨在解决如何自动生成训练数据,克服跨模态训练数据难获取的技术问题。
为实现上述目的,本发明提供一种跨模态训练数据生成方法,所述跨模态训练数据生成方法包括:
获取预设时间段内的多个搜索行为数据;
识别所述搜索行为数据中各数据对应的模态类型;
根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据;
根据所述目标搜索行为数据生成多个不同模态的训练数据。
可选地,所述根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据,包括:
根据所述模态类型从所述搜索行为数据中选取待选搜索行为数据;
根据所述模态类型对应的数据清洗策略对所述待选搜索行为数据进行数据清洗,得到目标搜索行为数据。
可选地,所述根据所述模态类型对应的数据清洗策略对所述待选搜索行为数据进行数据清洗,包括:
获取所述模态类型对应的数据清洗策略;
根据所述数据清洗策略对所述待选搜索行为数据中相应模态类型的数据进行数据清洗。
可选地,所述模态类型包括:第一模态类型和第二模态类型;
所述获取所述模态类型对应的数据清洗策略,包括:
获取所述第一模态类型对应的第一数据清洗策略,以及所述第二模态类型对应的第二数据清洗策略;
相应地,所述根据所述数据清洗策略对所述搜索行为数据中相应模态类型的数据进行数据清洗,包括:
将所述搜索行为数据中属于所述第一模态类型的数据作为第一行为数据;
将所述搜索行为数据中属于所述第二模态类型的数据作为第二行为数据;
根据所述第一数据清洗策略对所述第一行为数据进行数据清洗,并根据所述第二数据清洗策略对所述第二行为数据进行数据清洗。
可选地,所述根据所述第一数据清洗策略对所述第一行为数据进行数据清洗,包括:
根据所述第一数据清洗策略从所述第一行为数据中筛选出待清洗文本数据;
保留所述第一行为数据中除所述待清洗文本数据之外的其他数据,并对所述待清洗文本数据进行数据清洗。
可选地,所述根据所述第一数据清洗策略从所述第一行为数据中筛选出待清洗文本数据,包括:
根据所述第一数据清洗策略检测所述第一行为数据中各文本数据对应的文本字数;
根据所述文本字数从所述第一行为数据中筛选出第一待选文本数据;
根据所述第一待选文本数据确定待清洗文本数据。
可选地,所述根据所述第一待选文本数据确定待清洗文本数据,包括:
将所述第一行为数据中除所述第一待选文本数据之外的其他数据作为第一候选文本数据;
检测所述第一候选文本数据中各文本数据对应的生僻字占比;
根据所述生僻字占比从所述第一候选文本数据中筛选出第二待选文本数据;
根据所述第一待选文本数据和所述第二待选文本数据确定待清洗文本数据。
可选地,所述根据所述第一待选文本数据和所述第二待选文本数据确定待清洗文本数据,包括:
将所述第一候选文本数据中除所述第二待选文本数据之外的其他数据作为第二候选文本数据;
检测所述第二候选文本数据中各文本数据对应的文字完整度;
根据所述文字完整度从所述第二候选文本数据中筛选出第三待选文本数据;
根据所述第一待选文本数据、所述第二待选文本数据以及所述第三待选文本数据确定待清洗文本数据。
可选地,所述根据所述第二数据清洗策略对所述第二行为数据进行数据清洗,包括:
根据所述第二数据清洗策略从所述第二行为数据中筛选出待清洗图像数据;
保留所述第二行为数据中除所述待清洗图像数据之外的其他数据,并对所述待清洗图像数据进行数据清洗。
可选地,所述根据所述第二数据清洗策略从所述第二行为数据中筛选出待清洗图像数据,包括:
根据所述第二数据清洗策略检测所述第二行为数据中各图像数据对应的图像分辨率;
根据所述图像分辨率从所述第二行为数据中筛选出第一待选图像数据;
根据所述第一待选图像数据确定待清洗图像数据。
可选地,所述根据所述第一待选图像数据确定待清洗图像数据,包括:
将所述第二行为数据中除所述第一待选图像数据之外的其他数据作为第一候选图像数据;
检测所述第一候选图像数据中各图像数据对应的图像大小;
根据所述图像大小从所述第一候选图像数据中筛选出第二待选图像数据;
根据所述第一待选图像数据和所述第二待选图像数据确定待清洗图像数据。
可选地,所述根据所述第一待选图像数据和所述第二待选图像数据确定待清洗图像数据,包括:
将所述第一候选图像数据中除所述第二待选图像数据之外的其他数据作为第二候选图像数据;
检测所述第二候选图像数据中各图像数据对应的图像完整度;
根据所述图像完整度从所述第二候选图像数据中筛选出第三待选图像数据;
根据所述第一待选图像数据、所述第二待选图像数据以及所述第三待选图像数据生成待清洗图像数据。
可选地,所述识别所述搜索行为数据中各数据对应的模态类型,包括:
获取所述搜索行为数据中各数据对应的数据格式;
检测所述数据格式对应的格式类型;
根据所述格式类型识别所述搜索行为数据中各数据对应的模态类型。
可选地,所述根据所述目标搜索行为数据生成多个不同模态的训练数据,包括:
根据所述目标搜索行为数据确定用户查询行为信息;
根据所述用户查询行为信息和所述目标搜索行为数据生成多个不同模态的训练数据。
可选地,所述根据所述用户查询行为信息和所述目标搜索行为数据生成多个不同模态的训练数据,包括:
根据所述用户查询行为信息生成标注信息;
根据所述标注信息和所述目标搜索行为数据生成多个不同模态的训练数据。
此外,为实现上述目的,本发明还提出一种跨模态训练数据生成装置,所述跨模态训练数据生成装置包括:
数据获取模块,用于获取预设时间段内的多个搜索行为数据;
模态识别模块,用于识别所述搜索行为数据中各数据对应的模态类型;
数据筛选模块,用于根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据;
训练数据模块,用于根据所述目标搜索行为数据生成多个不同模态的训练数据。
可选地,所述数据筛选模块,还用于根据所述模态类型从所述搜索行为数据中选取待选搜索行为数据;根据所述模态类型对应的数据清洗策略对所述待选搜索行为数据进行数据清洗,得到目标搜索行为数据。
可选地,所述数据筛选模块,还用于获取所述模态类型对应的数据清洗策略;根据所述数据清洗策略对所述待选搜索行为数据中相应模态类型的数据进行数据清洗。
此外,为实现上述目的,本发明还提出一种跨模态训练数据生成设备,所述跨模态训练数据生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的跨模态训练数据生成程序,所述跨模态训练数据生成程序被处理器执行时实现如上所述的跨模态训练数据生成方法。
此外,为实现上述目的,本发明还提出一种存储介质,所述存储介质上存储有跨模态训练数据生成程序,所述跨模态训练数据生成程序被处理器执行时实现如上所述的跨模态训练数据生成方法。
本发明提出的跨模态训练数据生成方法中,获取预设时间段内的多个搜索行为数据;识别所述搜索行为数据中各数据对应的模态类型;根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据;根据所述目标搜索行为数据生成多个不同模态的训练数据。从而可通过自动化获取以及自动化筛选的方式,通过搜索行为数据中各数据对应的模态类型来从中选取目标搜索行为数据,并自动生成不同模态的训练数据,降低了人工成本以及数据获取周期,解决了跨模态训练数据难获取的问题。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的跨模态训练数据生成设备结构示意图;
图2为本发明跨模态训练数据生成方法第一实施例的流程示意图;
图3为本发明跨模态训练数据生成方法第二实施例的流程示意图;
图4为本发明跨模态训练数据生成方法第三实施例的流程示意图;
图5为本发明跨模态训练数据生成装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的跨模态训练数据生成设备结构示意图。
如图1所示,该跨模态训练数据生成设备可以包括:处理器1001,例如中央处理器(Central Processing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如按键,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速随机存取存储器(Random Access Memory,RAM),也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对跨模态训练数据生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及跨模态训练数据生成程序。
在图1所示的跨模态训练数据生成设备中,网络接口1004主要用于连接外网,与其他网络设备进行数据通信;用户接口1003主要用于连接用户设备,与所述用户设备进行数据通信;本发明设备通过处理器1001调用存储器1005中存储的跨模态训练数据生成程序,并执行本发明实施例提供的跨模态训练数据生成方法。
基于上述硬件结构,提出本发明跨模态训练数据生成方法实施例。
参照图2,图2为本发明跨模态训练数据生成方法第一实施例的流程示意图。
在第一实施例中,所述跨模态训练数据生成方法包括:
步骤S10,获取预设时间段内的多个搜索行为数据。
需要说明的是,本实施例的执行主体可为跨模态训练数据生成设备,例如具有数据处理功能的计算机设备,还可为其他可实现相同或相似功能的设备,本实施例对此不作限制,在本实施例中,以跨模态训练数据生成设备为例进行说明。
需要说明的是,本方案中的跨模态训练数据可用于跨模态检索,跨模态检索是跨模态领域中最为基础的任务,它以一种类型的数据作为查询去检索另一种类型的数据。例如,跨模态检索可以包括但不限于图文跨模态检索、音文跨模态检索等,还可包括其他类型的跨模态检索,本实施例对此不作限制,在本实施例中,以图文跨模态检索为例进行说明。
可以理解的是,在图文跨模态检索的场景下,可至少分为以下两种情况:第一种是将图像作为查询项,将文本作为检索项;第二种情况是将文本作为查询项,将图像作为检索项。具体的使用场景和使用方式,可由用户根据实际情况进行选择,本实施例对此不作限制。
应当理解的是,上述两种图文跨模态场景都涉及到文本数据和图像数据,因此,针对这样的图文跨模态场景,本实施例中需要生成文本数据和图像数据等不同模态的训练数据。
需要说明的是,在其他跨模态检索场景下,可相应地获取其他类型的训练数据,例如,针对音文跨模态检索场景,则需要生成文本数据和音频数据等不同模态的训练数据,本实施例对此不作限制。
应当理解的是,可从互联网上的搜索引擎中获取大量的搜索行为数据,这些搜索行为数据都是用户在搜索引擎上进行搜索时,与用户的搜索行为相关的数据。
需要说明的是,搜索行为数据可以包括多种模态的数据,例如,搜索行为数据可以包括但不限于文本数据、图像数据、音频数据以及视频数据等多种模态的数据,还可包含更多其他模态的数据,本实施例对此不作限制。
应当理解的是,由于搜索行为数据存在较强的时效性,可能存在一些数据容易过时,因此,可根据实际情况来选择预设时间段内的多个搜索行为数据。例如,可将预设时间段设置为一年内、一个月内等多种时间段,也可设置为其他时间段,本实施例对此不作限制。如果需要获取更多的数据,则可设置预设时间段为一年内,获取一年内的多个搜索行为数据;如果需要获取时效性更强的数据,则可设置预设时间段为一个月内,获取一个月内的多个搜索行为数据。
步骤S20,识别所述搜索行为数据中各数据对应的模态类型。
应当理解的是,由于搜索行为数据中可能包含多种不同模态的数据,而本实施例中需要得到与图文跨模态检索相关的图像数据和文本数据,因此,为了准确地随搜索行为数据进行筛选,可识别搜索行为数据中各数据对应的模态类型,然后基于模态类型来进行数据筛选。
进一步地,由于不同模态的数据一般对应不同的数据格式,因此,为了提高模态类型识别的准确性,所述识别所述搜索行为数据中各数据对应的模态类型,包括:
获取所述搜索行为数据中各数据对应的数据格式;检测所述数据格式对应的格式类型;根据所述格式类型识别所述搜索行为数据中各数据对应的模态类型。
应当理解的是,在得到搜索行为数据之后,为了进行模态类型识别,可以获取搜索行为数据中各数据对应的数据格式,然后检测这些数据格式对应的格式类型。例如,文本数据具有对应的文本格式类型,图像数据具有对应的图像格式类型,音频数据具有对应的音频格式类型,视频数据具有对应的视频格式类型等,本实施例对此不作限制。
可以理解的是,在确定格式类型之后,可以将格式类型与上述这些预设的格式类型进行匹配,以进行模态类型识别,进而根据匹配结果来确定搜索行为数据中各数据对应的模态类型。例如,假设搜索行为数据中有的数据的格式类型与文本格式类型相匹配,则可判定这些数据对应的模态类型为文本模态,假设搜索行为数据中有的数据的格式类型与图像格式类型相匹配,则可判定这些数据对应的模态类型为图像模态,本实施例对此不作限制。
步骤S30,根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据。
应当理解的是,在确定搜索行为中各数据对应的模态类型之后,可根据模态类型从搜索行为数据中选取图文跨模态检索相关的目标搜索行为数据,其中,目标搜索行为数据中可以包括图像模态的图像数据以及文本模态的文本数据,本实施例对此不作限制。
应当理解的是,由于互联网上的搜索行为较为繁杂,可能会存在一些无效数据或者低质量数据,因此,为了得到质量更高的训练数据,可以先根据模态类型从搜索行为数据中选取符合图文跨模态检索场景的待选搜索行为数据,然后根据模态类型对应的数据清洗策略对待选搜索行为数据进行数据清洗,得到高质量的目标搜索行为数据。
步骤S40,根据所述目标搜索行为数据生成多个不同模态的训练数据。
应当理解的是,在得到高质量的目标搜索行为数据之后,可根据目标搜索行为数据进行用户查询行为分析,以确定用户查询行为信息,然后根据用户查询行为信息来对目标搜索行为数据进行标注,以生成多个不同模态的高质量的训练数据。
应当理解的是,可直接根据搜索行为数据进行用户查询行为分析,在具体实现中,为了达到更好的行为分析效果,也可对搜索行为数据进行数据清洗,去除一些低质量数据,得到高质量数据,将这些高质量数据作为目标搜索行为数据,然后再根据目标搜索行为数据进行用户查询行为分析,本实施例对此不作限制。
在具体实现中,在图文跨模态检索场景下,可以生成多个图像模态和文本模态的高质量的训练数据,本实施例对此不作限制。
在本实施例中,获取预设时间段内的多个搜索行为数据;识别所述搜索行为数据中各数据对应的模态类型;根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据;根据所述目标搜索行为数据生成多个不同模态的训练数据。从而可通过自动化获取以及自动化筛选的方式,通过搜索行为数据中各数据对应的模态类型来从中选取目标搜索行为数据,并自动生成不同模态的训练数据,降低了人工成本以及数据获取周期,解决了跨模态训练数据难获取的问题。
在一实施例中,如图3所示,基于第一实施例提出本发明跨模态训练数据生成方法第二实施例,所述步骤S30,包括:
步骤S301,根据所述模态类型从所述搜索行为数据中选取待选搜索行为数据。
应当理解的是,可预先为不同模态的数据设置对应的数据清洗策略,在需要进行数据清洗时,可先识别搜索行为数据中各数据对应的模态类型,然后查找该模态类型对应的数据清洗策略,然后根据数据清洗策略对搜索行为数据中相应模态类型的数据进行数据清洗。
可以理解的是,在图文跨模态检索的场景下,只需要图像数据和文本数据,因此,在这种情况下,只需要针对图像数据和文本数据进行用户行为分析即可,所以,也只需要对图像数据和文本数据进行数据清洗。为了便于说明,可将模态类型分为第一模态类型和第二模态类型,其中,第一模态类型指的是文本类型,第二模态类型指的是图像类型。
应当理解的是,可以获取第一模态类型对应的第一数据清洗策略,以及第二模态类型对应的第二数据清洗策略,然后将搜索行为数据中属于第一模态类型的数据作为第一行为数据,将搜索行为数据中属于第二模态类型的数据作为第二行为数据,进而根据第一数据清洗策略对第一行为数据进行数据清洗,并根据第二数据清洗策略对第二行为数据进行数据清洗。
在具体实现中,可将搜索行为数据中属于文本类型的数据作为第一行为数据,将搜索行为数据中属于图像类型的数据作为第二行为数据。可以理解的是,针对第一行为数据,第一数据清洗策略可为清洗掉文字不完整、文字数量太少、生僻字太多等类型的文本数据,以进行文本数据清洗;针对第二行为数据,第二数据清洗策略可为清洗掉图像不完整、图像过小、图像分辨率过低等类型的图像数据,以进行图像数据清洗。
可以理解的是,可以根据模态类型从搜索行为数据中选取图像模态和文本模态的待选搜索行为数据,即待选搜索行为数据中包含图像模态的图像数据和文本模态的文本数据。
步骤S302,根据所述模态类型对应的数据清洗策略对所述待选搜索行为数据进行数据清洗,得到目标搜索行为数据。
应当理解的是,可根据模态类型来选择合适的数据清洗策略来进行数据清洗,例如,按照上述方式将待选搜索行为数据划分为文本模态的第一行为数据和图像模态的第二行为数据之后,可根据第一数据清洗策略对第一行为数据进行数据清洗,并根据第二数据清洗策略对第二行为数据进行数据清洗。
进一步地,为了达到更好的数据清洗效果,可针对文本数据的特点对第一行为数据进行数据清洗,所述根据所述第一数据清洗策略对所述第一行为数据进行数据清洗,包括:
根据所述第一数据清洗策略从所述第一行为数据中筛选出待清洗文本数据;保留所述第一行为数据中除所述待清洗文本数据之外的其他数据,并对所述待清洗文本数据进行数据清洗。
应当理解的是,由于有些文本数据字数较少,无法提供有效的信息,因此,可以将这些字数较少的文本数据当作低质量文本数据。所以,为了对这部分数据进行筛选,可根据第一数据清洗策略检测第一行为数据中各文本数据对应的文本字数,将文本字数与预设文本字数进行比较,根据比较结果将文本字数低于预设文本字数的文本数据作为第一待选文本数据,从第一行为数据中将这些第一待选文本数据筛选出来,进而根据第一待选文本数据确定待清洗文本数据。其中,预设文本字数可根据实际情况进行设置,本实施例对此不作限制。
应当理解的是,由于有些文本数据中的生僻字较多,不太符合常规的搜索场景,因此,也可将这些生僻字占比较多的文本数据当作低质量文本数据。所以,为了进一步筛选这部分数据,可将第一行为数据中除第一待选文本数据之外的其他数据作为第一候选文本数据,检测第一候选文本数据中各文本数据对应的生僻字占比,将生僻字占比与预设占比进行比较,根据比较结果将生僻字占比高于预设占比的文本数据作为第二待选文本数据,从第一候选文本数据中将这些第二待选文本数据筛选出来,进而根据第一待选文本和第二待选文本确定待清洗文本数据。其中,本实施例中的生僻字占比指的是,一个文本数据中生僻字占总字数的比例,生僻字可根据实际情况进行设置,预设占比也可根据实际情况进行设置,本实施例对此不作限制。
应当理解的是,由于有些文本数据中的文字不完整,无法理解其文字表示的准确含义,因此,也可将这些文字不完整的文本数据当前低质量文本数据。所以,为了进一步筛选这部分数据,可将第一候选文本数据中除第二待选文本数据之外的其他数据作为第二候选文本数据,检测第二候选文本数据中各文数据对应的文字完整度,根据文字完整度判断对应的文本数据中的文字是否完整,将文字不完整的文本数据作为第三待选文本数据,从第二候选文本数据中将这些第三待选文本数据筛选出来,进而可根据第一待选文本、第二待选文本以及第三待选文本确定待清洗文本数据。
可以理解的是,通过上述方式,可以筛选出一些低质量的文本数据,将这些低质量的文本数据作为待清洗文本数据,保留第一行为数据中除待清洗文本数据之外的其他数据,并对待清洗文本数据进行数据清洗。
进一步地,为了达到更好的数据清洗效果,可针对图像数据的特点对第二行为数据进行数据清洗,所述根据所述第二数据清洗策略对所述第二行为数据进行数据清洗,包括:
根据所述第二数据清洗策略从所述第二行为数据中筛选出待清洗图像数据;保留所述第二行为数据中除所述待清洗图像数据之外的其他数据,并对所述待清洗图像数据进行数据清洗。
应当理解的是,由于有些图像数据的图像分辨率太低,画面比较模糊,因此,可将这些图像分辨率较低的图像数据当作低质量图像数据。所以,为了对这部分数据进行筛选,可根据第二数据清洗策略检测第二行为数据中各图像数据对应的图像分辨率,将图像分辨率与预设分辨率进行比较,根据比较结果将图像分辨率低于预设分辨率的图像数据作为第一待选图像数据,从第二行为数据中将这些第一待选图像数据筛选出来,进而可根据第一待选图像数据确定待清洗图像数据。其中,预设分辨率可根据实际情况进行设置,本实施例对此不作限制。
应当理解的是,由于有些图像数据的图像太小,也无法达到较好的图像展示效果,因此,也可将这些图像太小的图像数据当作低质量图像数据。所以,为了进一步对这部分数据进行筛选,可将第二行为数据中除第一待选图像数据之外的其他数据作为第一候选图像数据,检测第一候选图像数据中各图像数据对应的图像大小,将图像大小与预设图像大小进行比较,根据比较结果将图像大小小于预设图像大小的图像数据作为第二待选图像数据,从第一候选图像数据中将这些第二待选图像数据筛选出来,进而可根据第一待选图像数据和第二待选图像数据确定待清洗图像数据。其中,预设图像大小可根据实际情况进行设置,本实施例对此不作限制。
应当理解的是,由于有些图像数据的图像不完整,无法准确地表达出其想要表达的含义,因此,也可将这些图像不完整的图像数据当作低质量图像数据。所以,为了进一步对这部分数据进行筛选,可将第一候选图像数据中除第二待选图像数据之外的其他数据作为第二候选图像数据,检测第二候选图像数据中各图像数据对应的图像完整度,根据图像完整度判断对应的图像数据中的图像是否完整,将图像不完整的图像数据作为第三待选图像数据,从第二候选图像数据中筛选出这些第三待选图像数据,进而可根据第一待选图像数据、第二待选图像数据以及第三待选图像数据确定待清洗图像数据。
可以理解的是,通过上述方式,可以筛选出一些低质量的图像数据,将这些低质量的图像数据作为待清洗图像数据,保留第二行为数据中除待清洗图像数据之外的其他数据,并对待清洗图像数据进行数据清洗。
在本实施例中,根据所述模态类型从所述搜索行为数据中选取待选搜索行为数据;根据所述模态类型对应的数据清洗策略对所述待选搜索行为数据进行数据清洗,得到目标搜索行为数据,从而可以清洗掉一些低质量数据,使得目标搜索行为数据均为高质量数据,使生成的跨模态训练数据效果更好。
在一实施例中,如图4所示,基于第一实施例或第二实施例提出本发明跨模态训练数据生成方法第三实施例,在本实施例中,基于第一实施例进行说明,所述步骤S40,包括:
步骤S401,根据所述目标搜索行为数据确定用户查询行为信息。
应当理解的是,可根据目标搜索行为数据进行用户查询行为分析,以确定用户查询行为信息。
可以理解的是,用户查询行为信息可以包括但不限于用户查询习惯信息、用户查询分布信息等信息,本实施例对此不作限制。
步骤S402,根据所述用户查询行为信息和所述目标搜索行为数据生成多个不同模态的训练数据。
应当理解的是,在确定用户查询行为信息之后,可以根据用户查询行为信息生成标注信息,进而根据标注信息对目标搜索行为数据进行标注,得到标注后的目标搜索行为数据,根据标注后的目标搜索行为数据生成多个不同模态的训练数据。
在具体实现中,由于目标搜索行为数据中包括目标文本数据和目标图像数据,因此,可对目标文本数据进行用户查询行为分析,得到第一用户查询行为信息,对目标图像数据进行用户查询行为分析,得到第二用户查询行为信息,然后分别根据第一用户查询行为信息和第二用户查询行为信息生成第一标注信息和第二标注信息,根据第一标注信息对目标文本数据进行标注,根据第二标注信息对目标图像数据进行标注,进而在标记完整之后,便可生成文本模态的文本训练数据以及图像模态的图像训练数据,从而达到生成跨模态训练数据的效果。
应当理解的是,在经过数据清洗以及用户查询行为分析之后,可根据用户查询行为分析结果确定多个不同模态的训练数据。可从这些训练数据中提取相匹配的文本训练数据和图像训练数据,通过这些训练数据来训练文本编辑模型和图像编辑模型,本实施例对此不作限制。
可以理解的是,在通过上述方式得到训练数据之后,还可将这些训练数据作为样本数据存储在数据库中,将该数据库作为搜索数据库。在接收到跨模态检索指令时,根据跨模态检索指令从搜索数据库中的训练数据中提取需要进行特征提取以及相似度检测的不同模态的第一信息和第二信息,进而根据第一信息与第二信息之间相似度来得到跨模态检索结果。
在本实施例中,根据所述目标搜索行为数据确定用户查询行为信息,根据所述用户查询行为信息和所述目标搜索行为数据生成多个不同模态的训练数据,从而自动化地可根据用户查询行为信息来对目标搜索行为数据进行标注,以生成多个不同模态的训练数据,解决了跨模态训练数据难标注的问题。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有跨模态训练数据生成程序,所述跨模态训练数据生成程序被处理器执行时实现如上文所述的跨模态训练数据生成方法的步骤。
由于本存储介质采用了上述所有实施例的全部技术方案,因此至少具有上述实施例的技术方案所带来的所有有益效果,在此不再一一赘述。
此外,参照图5,本发明实施例还提出一种跨模态训练数据生成装置,所述跨模态训练数据生成装置包括:
数据获取模块10,用于获取预设时间段内的多个搜索行为数据。
需要说明的是,本方案中的跨模态训练数据可用于跨模态检索,跨模态检索是跨模态领域中最为基础的任务,它以一种类型的数据作为查询去检索另一种类型的数据。例如,跨模态检索可以包括但不限于图文跨模态检索、音文跨模态检索等,还可包括其他类型的跨模态检索,本实施例对此不作限制,在本实施例中,以图文跨模态检索为例进行说明。
可以理解的是,在图文跨模态检索的场景下,可至少分为以下两种情况:第一种是将图像作为查询项,将文本作为检索项;第二种情况是将文本作为查询项,将图像作为检索项。具体的使用场景和使用方式,可由用户根据实际情况进行选择,本实施例对此不作限制。
应当理解的是,上述两种图文跨模态场景都涉及到文本数据和图像数据,因此,针对这样的图文跨模态场景,本实施例中需要生成文本数据和图像数据等不同模态的训练数据。
需要说明的是,在其他跨模态检索场景下,可相应地获取其他类型的训练数据,例如,针对音文跨模态检索场景,则需要生成文本数据和音频数据等不同模态的训练数据,本实施例对此不作限制。
应当理解的是,可从互联网上的搜索引擎中获取大量的搜索行为数据,这些搜索行为数据都是用户在搜索引擎上进行搜索时,与用户的搜索行为相关的数据。
需要说明的是,搜索行为数据可以包括多种模态的数据,例如,搜索行为数据可以包括但不限于文本数据、图像数据、音频数据以及视频数据等多种模态的数据,还可包含更多其他模态的数据,本实施例对此不作限制。
应当理解的是,由于搜索行为数据存在较强的时效性,可能存在一些数据容易过时,因此,可根据实际情况来选择预设时间段内的多个搜索行为数据。例如,可将预设时间段设置为一年内、一个月内等多种时间段,也可设置为其他时间段,本实施例对此不作限制。如果需要获取更多的数据,则可设置预设时间段为一年内,获取一年内的多个搜索行为数据;如果需要获取时效性更强的数据,则可设置预设时间段为一个月内,获取一个月内的多个搜索行为数据。
模态识别模块20,用于识别所述搜索行为数据中各数据对应的模态类型。
应当理解的是,由于搜索行为数据中可能包含多种不同模态的数据,而本实施例中需要得到与图文跨模态检索相关的图像数据和文本数据,因此,为了准确地随搜索行为数据进行筛选,可识别搜索行为数据中各数据对应的模态类型,然后基于模态类型来进行数据筛选。
进一步地,由于不同模态的数据一般对应不同的数据格式,因此,为了提高模态类型识别的准确性,所述识别所述搜索行为数据中各数据对应的模态类型,包括:
获取所述搜索行为数据中各数据对应的数据格式;检测所述数据格式对应的格式类型;根据所述格式类型识别所述搜索行为数据中各数据对应的模态类型。
应当理解的是,在得到搜索行为数据之后,为了进行模态类型识别,可以获取搜索行为数据中各数据对应的数据格式,然后检测这些数据格式对应的格式类型。例如,文本数据具有对应的文本格式类型,图像数据具有对应的图像格式类型,音频数据具有对应的音频格式类型,视频数据具有对应的视频格式类型等,本实施例对此不作限制。
可以理解的是,在确定格式类型之后,可以将格式类型与上述这些预设的格式类型进行匹配,以进行模态类型识别,进而根据匹配结果来确定搜索行为数据中各数据对应的模态类型。例如,假设搜索行为数据中有的数据的格式类型与文本格式类型相匹配,则可判定这些数据对应的模态类型为文本模态,假设搜索行为数据中有的数据的格式类型与图像格式类型相匹配,则可判定这些数据对应的模态类型为图像模态,本实施例对此不作限制。
数据筛选模块30,用于根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据。
应当理解的是,在确定搜索行为中各数据对应的模态类型之后,可根据模态类型从搜索行为数据中选取图文跨模态检索相关的目标搜索行为数据,其中,目标搜索行为数据中可以包括图像模态的图像数据以及文本模态的文本数据,本实施例对此不作限制。
应当理解的是,由于互联网上的搜索行为较为繁杂,可能会存在一些无效数据或者低质量数据,因此,为了得到质量更高的训练数据,可以先根据模态类型从搜索行为数据中选取符合图文跨模态检索场景的待选搜索行为数据,然后根据模态类型对应的数据清洗策略对待选搜索行为数据进行数据清洗,得到高质量的目标搜索行为数据。
训练数据模块40,用于根据所述目标搜索行为数据生成多个不同模态的训练数据。
应当理解的是,在得到高质量的目标搜索行为数据之后,可根据目标搜索行为数据进行用户查询行为分析,以确定用户查询行为信息,然后根据用户查询行为信息来对目标搜索行为数据进行标注,以生成多个不同模态的高质量的训练数据。
应当理解的是,可直接根据搜索行为数据进行用户查询行为分析,在具体实现中,为了达到更好的行为分析效果,也可对搜索行为数据进行数据清洗,去除一些低质量数据,得到高质量数据,将这些高质量数据作为目标搜索行为数据,然后再根据目标搜索行为数据进行用户查询行为分析,本实施例对此不作限制。
在具体实现中,在图文跨模态检索场景下,可以生成多个图像模态和文本模态的高质量的训练数据,本实施例对此不作限制。
在本实施例中,获取预设时间段内的多个搜索行为数据;识别所述搜索行为数据中各数据对应的模态类型;根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据;根据所述目标搜索行为数据生成多个不同模态的训练数据。从而可通过自动化获取以及自动化筛选的方式,通过搜索行为数据中各数据对应的模态类型来从中选取目标搜索行为数据,并自动生成不同模态的训练数据,降低了人工成本以及数据获取周期,解决了跨模态训练数据难获取的问题。
在一实施例中,所述数据筛选模块30,还用于根据所述模态类型从所述搜索行为数据中选取待选搜索行为数据;根据所述模态类型对应的数据清洗策略对所述待选搜索行为数据进行数据清洗,得到目标搜索行为数据。
在一实施例中,所述数据筛选模块30,还用于获取所述模态类型对应的数据清洗策略;根据所述数据清洗策略对所述待选搜索行为数据中相应模态类型的数据进行数据清洗。
在一实施例中,所述模态类型包括:第一模态类型和第二模态类型;所述数据筛选模块30,还用于获取所述第一模态类型对应的第一数据清洗策略,以及所述第二模态类型对应的第二数据清洗策略;将所述搜索行为数据中属于所述第一模态类型的数据作为第一行为数据;将所述搜索行为数据中属于所述第二模态类型的数据作为第二行为数据;根据所述第一数据清洗策略对所述第一行为数据进行数据清洗,并根据所述第二数据清洗策略对所述第二行为数据进行数据清洗。
在一实施例中,所述数据筛选模块30,还用于根据所述第一数据清洗策略从所述第一行为数据中筛选出待清洗文本数据;保留所述第一行为数据中除所述待清洗文本数据之外的其他数据,并对所述待清洗文本数据进行数据清洗。
在一实施例中,所述数据筛选模块30,还用于根据所述第一数据清洗策略检测所述第一行为数据中各文本数据对应的文本字数;根据所述文本字数从所述第一行为数据中筛选出第一待选文本数据;根据所述第一待选文本数据确定待清洗文本数据。
在一实施例中,所述数据筛选模块30,还用于将所述第一行为数据中除所述第一待选文本数据之外的其他数据作为第一候选文本数据;检测所述第一候选文本数据中各文本数据对应的生僻字占比;根据所述生僻字占比从所述第一候选文本数据中筛选出第二待选文本数据;根据所述第一待选文本数据和所述第二待选文本数据确定待清洗文本数据。
在一实施例中,所述数据筛选模块30,还用于将所述第一候选文本数据中除所述第二待选文本数据之外的其他数据作为第二候选文本数据;检测所述第二候选文本数据中各文本数据对应的文字完整度;根据所述文字完整度从所述第二候选文本数据中筛选出第三待选文本数据;根据所述第一待选文本数据、所述第二待选文本数据以及所述第三待选文本数据确定待清洗文本数据。
在一实施例中,所述数据筛选模块30,还用于根据所述第二数据清洗策略从所述第二行为数据中筛选出待清洗图像数据;保留所述第二行为数据中除所述待清洗图像数据之外的其他数据,并对所述待清洗图像数据进行数据清洗。
在一实施例中,所述数据筛选模块30,还用于根据所述第二数据清洗策略检测所述第二行为数据中各图像数据对应的图像分辨率;根据所述图像分辨率从所述第二行为数据中筛选出第一待选图像数据;根据所述第一待选图像数据确定待清洗图像数据。
在一实施例中,所述数据筛选模块30,还用于将所述第二行为数据中除所述第一待选图像数据之外的其他数据作为第一候选图像数据;检测所述第一候选图像数据中各图像数据对应的图像大小;根据所述图像大小从所述第一候选图像数据中筛选出第二待选图像数据;根据所述第一待选图像数据和所述第二待选图像数据确定待清洗图像数据。
在一实施例中,所述数据筛选模块30,还用于将所述第一候选图像数据中除所述第二待选图像数据之外的其他数据作为第二候选图像数据;检测所述第二候选图像数据中各图像数据对应的图像完整度;根据所述图像完整度从所述第二候选图像数据中筛选出第三待选图像数据;根据所述第一待选图像数据、所述第二待选图像数据以及所述第三待选图像数据生成待清洗图像数据。
在一实施例中,所述模态识别模块20,还用于获取所述搜索行为数据中各数据对应的数据格式;检测所述数据格式对应的格式类型;根据所述格式类型识别所述搜索行为数据中各数据对应的模态类型。
在一实施例中,所述训练数据模块40,还用于根据所述目标搜索行为数据确定用户查询行为信息;根据所述用户查询行为信息和所述目标搜索行为数据生成多个不同模态的训练数据。
在一实施例中,所述训练数据模块40,还用于根据所述用户查询行为信息生成标注信息;根据所述标注信息和所述目标搜索行为数据生成多个不同模态的训练数据。
在本发明所述跨模态训练数据生成装置的其他实施例或具体实现方法可参照上述各方法实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该估算机软件产品存储在如上所述的一个估算机可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台智能设备(可以是手机,估算机,跨模态训练数据生成设备,或者网络跨模态训练数据生成设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
本发明公开了A1、一种跨模态训练数据生成方法,所述跨模态训练数据生成方法包括:
获取预设时间段内的多个搜索行为数据;
识别所述搜索行为数据中各数据对应的模态类型;
根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据;
根据所述目标搜索行为数据生成多个不同模态的训练数据。
A2、如A1所述的跨模态训练数据生成方法,所述根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据,包括:
根据所述模态类型从所述搜索行为数据中选取待选搜索行为数据;
根据所述模态类型对应的数据清洗策略对所述待选搜索行为数据进行数据清洗,得到目标搜索行为数据。
A3、如A2所述的跨模态训练数据生成方法,所述根据所述模态类型对应的数据清洗策略对所述待选搜索行为数据进行数据清洗,包括:
获取所述模态类型对应的数据清洗策略;
根据所述数据清洗策略对所述待选搜索行为数据中相应模态类型的数据进行数据清洗。
A4、如A3所述的跨模态训练数据生成方法,所述模态类型包括:第一模态类型和第二模态类型;
所述获取所述模态类型对应的数据清洗策略,包括:
获取所述第一模态类型对应的第一数据清洗策略,以及所述第二模态类型对应的第二数据清洗策略;
相应地,所述根据所述数据清洗策略对所述搜索行为数据中相应模态类型的数据进行数据清洗,包括:
将所述搜索行为数据中属于所述第一模态类型的数据作为第一行为数据;
将所述搜索行为数据中属于所述第二模态类型的数据作为第二行为数据;
根据所述第一数据清洗策略对所述第一行为数据进行数据清洗,并根据所述第二数据清洗策略对所述第二行为数据进行数据清洗。
A5、如A4所述的跨模态训练数据生成方法,所述根据所述第一数据清洗策略对所述第一行为数据进行数据清洗,包括:
根据所述第一数据清洗策略从所述第一行为数据中筛选出待清洗文本数据;
保留所述第一行为数据中除所述待清洗文本数据之外的其他数据,并对所述待清洗文本数据进行数据清洗。
A6、如A5所述的跨模态训练数据生成方法,所述根据所述第一数据清洗策略从所述第一行为数据中筛选出待清洗文本数据,包括:
根据所述第一数据清洗策略检测所述第一行为数据中各文本数据对应的文本字数;
根据所述文本字数从所述第一行为数据中筛选出第一待选文本数据;
根据所述第一待选文本数据确定待清洗文本数据。
A7、如A6所述的跨模态训练数据生成方法,所述根据所述第一待选文本数据确定待清洗文本数据,包括:
将所述第一行为数据中除所述第一待选文本数据之外的其他数据作为第一候选文本数据;
检测所述第一候选文本数据中各文本数据对应的生僻字占比;
根据所述生僻字占比从所述第一候选文本数据中筛选出第二待选文本数据;
根据所述第一待选文本数据和所述第二待选文本数据确定待清洗文本数据。
A8、如A7所述的跨模态训练数据生成方法,所述根据所述第一待选文本数据和所述第二待选文本数据确定待清洗文本数据,包括:
将所述第一候选文本数据中除所述第二待选文本数据之外的其他数据作为第二候选文本数据;
检测所述第二候选文本数据中各文本数据对应的文字完整度;
根据所述文字完整度从所述第二候选文本数据中筛选出第三待选文本数据;
根据所述第一待选文本数据、所述第二待选文本数据以及所述第三待选文本数据确定待清洗文本数据。
A9、如A4所述的跨模态训练数据生成方法,所述根据所述第二数据清洗策略对所述第二行为数据进行数据清洗,包括:
根据所述第二数据清洗策略从所述第二行为数据中筛选出待清洗图像数据;
保留所述第二行为数据中除所述待清洗图像数据之外的其他数据,并对所述待清洗图像数据进行数据清洗。
A10、如A9所述的跨模态训练数据生成方法,所述根据所述第二数据清洗策略从所述第二行为数据中筛选出待清洗图像数据,包括:
根据所述第二数据清洗策略检测所述第二行为数据中各图像数据对应的图像分辨率;
根据所述图像分辨率从所述第二行为数据中筛选出第一待选图像数据;
根据所述第一待选图像数据确定待清洗图像数据。
A11、如A10所述的跨模态训练数据生成方法,所述根据所述第一待选图像数据确定待清洗图像数据,包括:
将所述第二行为数据中除所述第一待选图像数据之外的其他数据作为第一候选图像数据;
检测所述第一候选图像数据中各图像数据对应的图像大小;
根据所述图像大小从所述第一候选图像数据中筛选出第二待选图像数据;
根据所述第一待选图像数据和所述第二待选图像数据确定待清洗图像数据。
A12、如A11所述的跨模态训练数据生成方法,所述根据所述第一待选图像数据和所述第二待选图像数据确定待清洗图像数据,包括:
将所述第一候选图像数据中除所述第二待选图像数据之外的其他数据作为第二候选图像数据;
检测所述第二候选图像数据中各图像数据对应的图像完整度;
根据所述图像完整度从所述第二候选图像数据中筛选出第三待选图像数据;
根据所述第一待选图像数据、所述第二待选图像数据以及所述第三待选图像数据生成待清洗图像数据。
A13、如A1至A12中任一项所述的跨模态训练数据生成方法,所述识别所述搜索行为数据中各数据对应的模态类型,包括:
获取所述搜索行为数据中各数据对应的数据格式;
检测所述数据格式对应的格式类型;
根据所述格式类型识别所述搜索行为数据中各数据对应的模态类型。
A14、如A1至A12中任一项所述的跨模态训练数据生成方法,所述根据所述目标搜索行为数据生成多个不同模态的训练数据,包括:
根据所述目标搜索行为数据确定用户查询行为信息;
根据所述用户查询行为信息和所述目标搜索行为数据生成多个不同模态的训练数据。
A15、如A14所述的跨模态训练数据生成方法,所述根据所述用户查询行为信息和所述目标搜索行为数据生成多个不同模态的训练数据,包括:
根据所述用户查询行为信息生成标注信息;
根据所述标注信息和所述目标搜索行为数据生成多个不同模态的训练数据。
本发明还公开了B16、一种跨模态训练数据生成装置,所述跨模态训练数据生成装置包括:
数据获取模块,用于获取预设时间段内的多个搜索行为数据;
模态识别模块,用于识别所述搜索行为数据中各数据对应的模态类型;
数据筛选模块,用于根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据;
训练数据模块,用于根据所述目标搜索行为数据生成多个不同模态的训练数据。
B17、如B16所述的跨模态训练数据生成装置,所述数据筛选模块,还用于根据所述模态类型从所述搜索行为数据中选取待选搜索行为数据;根据所述模态类型对应的数据清洗策略对所述待选搜索行为数据进行数据清洗,得到目标搜索行为数据。
B18、如B17所述的跨模态训练数据生成装置,所述数据筛选模块,还用于获取所述模态类型对应的数据清洗策略;根据所述数据清洗策略对所述待选搜索行为数据中相应模态类型的数据进行数据清洗。
本发明还公开了C19、一种跨模态训练数据生成设备,所述跨模态训练数据生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的跨模态训练数据生成程序,所述跨模态训练数据生成程序被处理器执行时实现如上所述的跨模态训练数据生成方法。
本发明还公开了D20、一种存储介质,所述存储介质上存储有跨模态训练数据生成程序,所述跨模态训练数据生成程序被处理器执行时实现如上所述的跨模态训练数据生成方法。

Claims (10)

1.一种跨模态训练数据生成方法,其特征在于,所述跨模态训练数据生成方法包括:
获取预设时间段内的多个搜索行为数据;
识别所述搜索行为数据中各数据对应的模态类型;
根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据;
根据所述目标搜索行为数据生成多个不同模态的训练数据。
2.如权利要求1所述的跨模态训练数据生成方法,其特征在于,所述根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据,包括:
根据所述模态类型从所述搜索行为数据中选取待选搜索行为数据;
根据所述模态类型对应的数据清洗策略对所述待选搜索行为数据进行数据清洗,得到目标搜索行为数据。
3.如权利要求2所述的跨模态训练数据生成方法,其特征在于,所述根据所述模态类型对应的数据清洗策略对所述待选搜索行为数据进行数据清洗,包括:
获取所述模态类型对应的数据清洗策略;
根据所述数据清洗策略对所述待选搜索行为数据中相应模态类型的数据进行数据清洗。
4.如权利要求3所述的跨模态训练数据生成方法,其特征在于,所述模态类型包括:第一模态类型和第二模态类型;
所述获取所述模态类型对应的数据清洗策略,包括:
获取所述第一模态类型对应的第一数据清洗策略,以及所述第二模态类型对应的第二数据清洗策略;
相应地,所述根据所述数据清洗策略对所述搜索行为数据中相应模态类型的数据进行数据清洗,包括:
将所述搜索行为数据中属于所述第一模态类型的数据作为第一行为数据;
将所述搜索行为数据中属于所述第二模态类型的数据作为第二行为数据;
根据所述第一数据清洗策略对所述第一行为数据进行数据清洗,并根据所述第二数据清洗策略对所述第二行为数据进行数据清洗。
5.如权利要求4所述的跨模态训练数据生成方法,其特征在于,所述根据所述第一数据清洗策略对所述第一行为数据进行数据清洗,包括:
根据所述第一数据清洗策略从所述第一行为数据中筛选出待清洗文本数据;
保留所述第一行为数据中除所述待清洗文本数据之外的其他数据,并对所述待清洗文本数据进行数据清洗。
6.如权利要求5所述的跨模态训练数据生成方法,其特征在于,所述根据所述第一数据清洗策略从所述第一行为数据中筛选出待清洗文本数据,包括:
根据所述第一数据清洗策略检测所述第一行为数据中各文本数据对应的文本字数;
根据所述文本字数从所述第一行为数据中筛选出第一待选文本数据;
根据所述第一待选文本数据确定待清洗文本数据。
7.如权利要求6所述的跨模态训练数据生成方法,其特征在于,所述根据所述第一待选文本数据确定待清洗文本数据,包括:
将所述第一行为数据中除所述第一待选文本数据之外的其他数据作为第一候选文本数据;
检测所述第一候选文本数据中各文本数据对应的生僻字占比;
根据所述生僻字占比从所述第一候选文本数据中筛选出第二待选文本数据;
根据所述第一待选文本数据和所述第二待选文本数据确定待清洗文本数据。
8.一种跨模态训练数据生成装置,其特征在于,所述跨模态训练数据生成装置包括:
数据获取模块,用于获取预设时间段内的多个搜索行为数据;
模态识别模块,用于识别所述搜索行为数据中各数据对应的模态类型;
数据筛选模块,用于根据所述模态类型从所述搜索行为数据中选取目标搜索行为数据;
训练数据模块,用于根据所述目标搜索行为数据生成多个不同模态的训练数据。
9.一种跨模态训练数据生成设备,其特征在于,所述跨模态训练数据生成设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的跨模态训练数据生成程序,所述跨模态训练数据生成程序被处理器执行时实现如权利要求1至7中任一项所述的跨模态训练数据生成方法。
10.一种存储介质,其特征在于,所述存储介质上存储有跨模态训练数据生成程序,所述跨模态训练数据生成程序被处理器执行时实现如权利要求1至7中任一项所述的跨模态训练数据生成方法。
CN202111576031.8A 2021-12-21 2021-12-21 跨模态训练数据生成方法、装置、设备及存储介质 Pending CN116304232A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111576031.8A CN116304232A (zh) 2021-12-21 2021-12-21 跨模态训练数据生成方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111576031.8A CN116304232A (zh) 2021-12-21 2021-12-21 跨模态训练数据生成方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116304232A true CN116304232A (zh) 2023-06-23

Family

ID=86820872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111576031.8A Pending CN116304232A (zh) 2021-12-21 2021-12-21 跨模态训练数据生成方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116304232A (zh)

Similar Documents

Publication Publication Date Title
CN108052577B (zh) 一种通用文本内容挖掘方法、装置、服务器及存储介质
JP2004234228A (ja) 画像検索装置、画像検索装置におけるキーワード付与方法、及びプログラム
CN107909088B (zh) 获取训练样本的方法、装置、设备和计算机存储介质
US8467613B2 (en) Automatic retrieval of object interaction relationships
CN110298030B (zh) 语义分析模型准确度的校验方法、装置、存储介质及设备
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
US20210201367A1 (en) Method and system for dealing with public sentiments, user terminal and computer readable storage medium
CN110704603A (zh) 一种通过资讯发掘当前热点事件的方法和装置
CN111222409A (zh) 车辆品牌的标注方法、装置及系统
CN104142955A (zh) 一种推荐学习课程的方法和终端
CN113205046B (zh) 题册识别方法、系统、装置及介质
CN108921016B (zh) 一种基于图像识别的图书评分获取方法、电子设备及存储介质
US10963690B2 (en) Method for identifying main picture in web page
CN110188106B (zh) 一种数据管理方法和装置
CN111008519A (zh) 阅读页面的展示方法、电子设备及计算机存储介质
CN116304232A (zh) 跨模态训练数据生成方法、装置、设备及存储介质
CN112818984B (zh) 标题生成方法、装置、电子设备和存储介质
CN115294592A (zh) 理赔信息采集方法和采集装置、计算机设备、存储介质
US10095802B2 (en) Methods and systems for using field characteristics to index, search for, and retrieve forms
CN114780757A (zh) 短媒体标签抽取方法、装置、计算机设备和存储介质
CN109635688B (zh) 基于图像识别管理书架上书籍的方法与系统
CN112364640A (zh) 实体名词链接方法、装置、计算机设备和存储介质
CN108875770B (zh) 行人检测误报数据的标注方法、装置、系统和存储介质
CN112307195A (zh) 一种专利信息展示方法、装置、设备及存储介质
TWI293737B (zh)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination