CN112749313A - 标签标注方法、装置、计算机设备和存储介质 - Google Patents

标签标注方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112749313A
CN112749313A CN202010772268.2A CN202010772268A CN112749313A CN 112749313 A CN112749313 A CN 112749313A CN 202010772268 A CN202010772268 A CN 202010772268A CN 112749313 A CN112749313 A CN 112749313A
Authority
CN
China
Prior art keywords
search
data
classification
category
result data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010772268.2A
Other languages
English (en)
Inventor
黄剑辉
梁龙军
刘海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010772268.2A priority Critical patent/CN112749313A/zh
Publication of CN112749313A publication Critical patent/CN112749313A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/71Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种标签标注方法、装置、计算机设备和存储介质。方法包括:获取目标搜索系统中待标注的搜索记录,从外部搜索平台获取与搜索记录对应的搜索结果数据,将搜索结果数据输入预设的分类模型,得到搜索结果数据对应的分类结果,分类模型的分类类别与目标搜索系统的索引库分类类别相同,根据分类结果,对搜索记录进行类别标签标注。通过借助外部搜索平台来获取与搜索记录对应的搜索结果数据,通过分类处理对搜索记录进行类别标签标注,实现半监督式的标签标注,通过借助外部搜索平台,不受搜索系统是否存在大量的历史搜索点击数据的条件制约,适用于冷启动阶段的搜索系统,有效提高了对搜索记录的标注效率,快速积累训练数据。

Description

标签标注方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种标签标注方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术的发展,各种人工智能的数据处理模型得到了迅速的发展。模型的训练是构建模型过程中重要的一环,模型训练依赖于携带有标签的训练数据。
以搜索系统中的意图分析模型为例,传统的数据标志方式包括人工标注和基于历史搜索点击数据来构建训练数据。但是,由于冷启动阶段的搜索系统缺乏历史曝光点击数据,基于历史搜索点击数据构建训练数据的方式并不适用于冷启动阶段的搜索系统,而采用人工标注的处理方式面临着标注效率低下的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高冷启动阶段的搜索系统的训练标签标注效率的标签标注方法、装置、计算机设备和存储介质。
一种标签标注方法,方法包括:
获取目标搜索系统中待标注的搜索记录;
从外部搜索平台获取与搜索记录对应的搜索结果数据;
将搜索结果数据输入预设的分类模型,得到搜索结果数据对应的分类结果,分类模型的分类类别与目标搜索系统的索引库分类类别相同;
根据分类结果,对搜索记录进行类别标签标注。
一种标签标注装置,装置包括:
搜索记录获取模块,用于获取目标搜索系统中待标注的搜索记录;
外部数据获取模块,用于从外部搜索平台获取与搜索记录对应的搜索结果数据;
数据分类模块,用于将搜索结果数据输入预设的分类模型,得到搜索结果数据对应的分类结果,分类模型的分类类别与目标搜索系统的索引库分类类别相同;
标签标注模块,用于根据分类结果,对搜索记录进行类别标签标注。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现以下步骤:
获取目标搜索系统中待标注的搜索记录;
从外部搜索平台获取与搜索记录对应的搜索结果数据;
将搜索结果数据输入预设的分类模型,得到搜索结果数据对应的分类结果,分类模型的分类类别与目标搜索系统的索引库分类类别相同;
根据分类结果,对搜索记录进行类别标签标注。
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取目标搜索系统中待标注的搜索记录;
从外部搜索平台获取与搜索记录对应的搜索结果数据;
将搜索结果数据输入预设的分类模型,得到搜索结果数据对应的分类结果,分类模型的分类类别与目标搜索系统的索引库分类类别相同;
根据分类结果,对搜索记录进行类别标签标注。
上述标签标注方法、装置、计算机设备和存储介质,通过借助外部搜索平台来获取与搜索记录对应的搜索结果数据,实现了对搜索记录的搜索结果的扩展,并基于将搜索结果数据输入分类模型,得到与目标搜索系统的索引库分类类别相同的分类结果,实现了外部搜索结果数据与目标搜索系统的关联,然后根据分类结果对搜索记录进行类别标签标注,实现半监督式的标签标注,通过借助外部搜索平台,不受搜索系统是否存在大量的历史搜索点击数据的条件制约,适用于冷启动阶段的搜索系统,有效提高了对搜索记录的标注效率,快速积累训练数据。
附图说明
图1为一个实施例中标签标注方法的应用环境图;
图2为一个实施例中标签标注方法的流程示意图;
图3为另一个实施例中标签标注方法的流程示意图;
图4为再一个实施例中标签标注方法的流程示意图;
图5为又一个实施例中标签标注方法的流程示意图;
图6为一个实施例中标签标注方法的处理流程示意图;
图7为还一个实施例中标签标注方法的流程示意图;
图8为又一个实施例中标签标注方法的流程示意图;
图9为一个实施例中标签标注方法的一个应用场景的UI界面示意图;
图10为另一个实施例中标签标注方法的流程示意图;
图11为又一个实施例中标签标注方法的流程示意图;
图12为一个实施例中标签标注装置的结构框图;
图13为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的标签标注方法,可以应用于如图1所示的应用环境中。其中,冷启动阶段的搜索系统102通过网络与服务器104进行通信。服务器104与外部搜索平台通过网络进行通信。服务器104获取搜索系统102的搜索记录,并根据搜索记录从外部搜索平台104获取与搜索记录对应的搜索结果数据,并将搜索结果数据输入预设的分类模型,得到搜索结果数据对应的分类结果,分类模型的分类类别与目标搜索系统的索引库分类类别相同,根据分类结果,对搜索记录进行类别标签标注。其中,冷启动阶段的搜索系统102和外部搜索平台104可以通过应用程序的形式安装于终端,具体可以安装于同一个终端,终端可以但不限于是各种安装有对应的应用程序的个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。可以理解,在其他实施例中,冷启动阶段的搜索系统102和外部搜索平台104可以通过应用程序的形式安装于不同的终端。
在一个实施例中,如图2所示,提供了一种标签标注方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤202至步骤208。
步骤202,获取目标搜索系统中待标注的搜索记录。
目标搜索系统是指处于冷启动阶段的搜索系统,新的搜索系统的诞生阶段称之为冷启动阶段,在冷启动阶段,搜索系统面临着缺少用户及相关资源的问题,对于在冷启动阶段输入的搜索数据,由于缺乏历史搜索点击数据的支撑,难以分析出用户的搜索意图,无法反馈与搜索数据匹配度较高的搜索结果。query意图理解是搜索系统中核心的基础技术之一,是理解用户搜索意图,匹配排序并给出最相关结果的关键,query意图理解可以采用分类模型等有监督训练方式进行,但是往往面临着标注数据缺失的问题。尤其在冷启动阶段,往往缺少足够的历史点击数据可以运用,因此如何获取足够多query标注数据成为意图模型训练的关键点和难点。
搜索记录包括目标搜索系统中输入的搜索数据。在实施例中,通过遍历本系统中预设时间段的搜索记录日志文件,可以获取到该时间段的搜索记录。预设时间段可以是最近一周、最近一月等时间段。搜索记录中包括每一次输入的搜索数据,搜索数据具体可以是输入的文本数据。基于对文本数据进行意图理解和分析,可以得到与文本数据最相关的搜索结果。
步骤204,从外部搜索平台获取与搜索记录对应的搜索结果数据。
外部搜索平台是指被广泛应用的成熟搜索平台,例如百度搜索、腾讯视频搜索等。具体来说,可以是与目标搜索系统类型相同的搜索平台。例如,若目标搜索系统是文档搜索系统,外部搜索平台应当选择某个成熟的文档搜索平台。若目标搜索系统为视频搜索系统,则外部搜索平台应当选择某个成熟的视频搜索平台,例如提供搜索功能的视频播放平台。
在一个实施例中,由于外部搜索平台具有成熟的搜索系统,具有大量的历史搜索点击数据,用户在输入搜索数据获取到搜索结果后,会根据其想要的数据类型进行点击选择。举例来说,以外部搜索平台为视频搜索系统为例,在客户端的搜索界面提供有搜索框以及视频类型选择按钮,具体来说,视频类型选择按钮可以包括“全部”、“游戏”、“动漫”、“电视剧”、“其他”。通过在输入框输入搜索内容,确认搜索之后,用户可以根据需要选择点击对应的视频类型选择按钮,根据用户的实际视频播放记录,可以确定该搜索数据对应的用户搜索意图,基于大量的历史数据,可以对搜索结果进行优化,优先展示与输入的搜索数据最相关的视频。
与搜索记录对应的搜索结果数据是指在外部搜索平台中,将搜索记录作为输入的搜索内容进行搜索得到的结果。每一条搜索记录都可以对应多个搜索结果数据。
在一个实施例中,搜索结果数据可以按照外部搜索平台的搜索结果列表中的排序先后,取设定数量的搜索结果作为搜索记录对应的搜索结果数据。
步骤206,将搜索结果数据输入预设的分类模型,得到搜索结果数据对应的分类结果。
在实施例中,搜索结果数据可以是文本数据,例如文档的标题、视频或图片的简介或是标题等文本数据,文本数据一般用于对文档、视频、图片等数据进行简单介绍,能够便于了解数据内容。
分类模型的分类类别与目标搜索系统的索引库分类类别相同,在其中一个实施例中,可以采用BERT作为预设的分类模型,在其他实施例中,也可以替换为CNN、LSTM等多类文本分类模型。利用分类模型,可以将从外部搜索平台获取到的搜索结果数据按照目标搜索系统的索引库的分类类别进行分类处理,可以与目标搜索系统匹配度高的分类结果。具体来说,预设的训练模型可以通过携带有与目标搜索系统的索引库分类类别对应分类标签的样本数据进行训练得到。
搜索结果数据中的每一条数据对应一个分类结果,将文本数据输入预设的分类模型,分类模型通过对文本进行分类分析,输出该数据属于对应类别的概率。可以理解,分类模型输出的该数据对应类别为分类模型在对该进行分类分析的过程中概率最大的类别。
步骤208,根据分类结果,对搜索记录进行类别标签标注。
在实施例中,搜索结果数据携带有通过分类模型分析得到的分类结果,由于搜索结果数据是基于搜索记录获得的,其与搜索记录存在对应关系。在实施例中,可以根据搜索结果数据的数量来确定搜索记录对应的类别。具体来说,在搜索结果数据仅包含一条数据时,可以将该搜索结果数据对应的分类结果作为该搜索记录对应的分类类别并进行类别标签标注。在搜索结果数据包含多条数据时,每一条数据都有对应的分类结果,采用均等投票机制来决出最终与搜索记录对应的分类类别。
上述标签标注方法,通过借助外部搜索平台来获取与搜索记录对应的搜索结果数据,实现了对搜索记录的搜索结果的扩展,并基于将搜索结果数据输入分类模型,得到与目标搜索系统的索引库分类类别相同的分类结果,实现了外部搜索结果数据与目标搜索系统的关联,然后根据分类结果对搜索记录进行类别标签标注,实现半监督式的标签标注,通过借助外部搜索平台,不受搜索系统是否存在大量的历史搜索点击数据的条件制约,适用于冷启动阶段的搜索系统,有效提高了对搜索记录的标注效率,快速积累训练数据。
在一个实施例中,如图3所示,从外部搜索平台获取与搜索记录对应的搜索结果数据之前,即步骤204之前,还包括步骤302至步骤304。
步骤302,识别目标搜索系统的索引库数据类型。
步骤304,根据索引库数据类型,确定与索引库数据类型匹配的外部搜索平台。
目标搜索系统的索引库数据类型是指在目标搜索系统中输入搜索数据时,目标搜索系统的索引库能够提供的数据的数据类型。数据类型可以是文档、图像、视频等,在实施例中,数据类型可以是同时包括多个数据类型,也可以是仅包含一个数据类型。
以数据类型为视频为例。在目标搜索系统中输入搜索数据,反馈的搜索结果数据为与搜索数据相关的视频,具体来说,与该搜索数据相关的视频的数量很多,例如用户输入“跳一跳”并进行搜索,得到的相关视频可能是“跳一跳”的游戏视频、也可能是“跳一跳”的技能教学视频,还可能是类似“跳一跳”的搞笑视频。当目标搜索系统为视频搜索系统时,目标搜索系统的索引库中的数据是与视频对应的,从而使得搜索结果数据均为与搜索数据相关的视频。
根据搜索记录的数据类型,确定与数据类型匹配的外部搜索平台,实质上是匹配与目标搜索系统对应的外部搜索平台。通过借助外部搜索平台,能够利用提供相似或相同类型的搜索服务的平台的大量历史搜索点击数据,既能弥补目标搜索系统在冷启动阶段缺乏历史搜索点击数据的缺陷,以外部搜索平台的数据为参照,来得到目标搜索系统的搜索记录对应的分类标签。又能相较于现有技术中的人工标注的方式,很大程度地减小人工的参与,减低了标签标注成本。
在一个实施例中,如图4所示,从外部搜索平台获取与搜索记录对应的搜索结果数据,即步骤204包括步骤402至步骤404。
步骤402,根据搜索记录,构建爬取任务。
步骤404,执行爬取任务,在外部搜索平台进行数据爬取处理,得到与搜索记录对应的搜索结果数据。
爬取任务是根据指定的内容,利用爬虫在指定范围进行数据爬取的任务。爬虫是一种按照一定的规则,自动地抓取数据信息的程序或者脚本。在实施例中,指定的内容是目标搜索系统中的搜索记录,指定范围是外部搜索平台中的搜索点击数据,爬取到的数据是在外部搜索平台中输入搜索记录中的搜索数据得到的搜索结果数据。通过爬虫进行数据爬取,能提高数据获取效率,有针对行的获取到与搜索记录对应的搜索结果数据。
在一个实施例中,搜索结果数据的数量为多个。如图5所示,根据分类结果,对搜索记录进行类别标签标注,即步骤208包括步骤502至步骤508。
步骤502,获取每一项搜索结果数据的分类结果。
步骤504,对各搜索结果数据的分类结果进行分类统计,得到分类统计结果。
步骤506,根据分类统计结果,确定目标类别。
步骤508,将目标类别标记为搜索记录的类别标签,对搜索记录进行类别标签标注。
通过对搜索结果数据进行分类结果进行分类统计,确定属于同一类的搜索结果数据的数量,通过分类统计实现均等投票机制,来确定目标类别,然后将目标类别标记为搜索记录的类别标签,对搜索记录进行类别标签标注。
举例来说,如图6所示,针对“跳一跳”这一搜索记录,从外部搜索平台获取到前5条对应的搜索视频,每一条视频都有对应的文本数据(视频标题),其中,第一条视频对应的文本数据为“跳一跳:教你简单一招,轻松得到500分”;第二条视频对应的文本数据为“原创定个动画:跳一跳,定个动画这样玩很有趣啊”;第三条视频对应的文本数据为“现实版跳一跳,你们见过吗”;第四条视频对应的文本数据为“求玩跳一跳的心理阴影面积”;第五条视频对应的文本数据为“跳一跳幽默视频,我们不一样,太搞笑了”。将上述五个搜索结果数据分别输入分类模型,分类模型输出的处理结果为第一个视频的分类结果为“游戏”、第二个视频的分类结果为“游戏”、第三个视频的分类结果为“搞笑”、第四个视频的分类结果为“游戏”、第五个视频的分类结果为“搞笑”。
通过分类统计,可以得到“游戏”类视频的数量为3个,“搞笑”类视频的数量为2个,则确定“游戏”类为“跳一跳”对应的目标类别,然后将“游戏”作为“跳一跳”的类别标签进行标签标注。
在一个实施例中,如图7所示,根据分类统计结果,确定目标类别,即步骤506包括步骤702至步骤706。
步骤702,根据分类统计结果,筛选出包含的搜索结果数据的数量最多的类别。
步骤704,当类别的数量为一个时,确定该类别为目标类别。
步骤706,当类别的数量为多个时,分别获取各类别包含的搜索结果数据对应的类别概率数据,并根据各类别包含的搜索结果数据对应的类别概率数据,从筛选出的类别中选取目标类别。
通过按分类类别进行统计,将分类结果相同的搜索结果数据归集到一起,得到每一类分类结果相同的搜索结果数据的数量,将分类统计结果按数量多少的顺序进行排序,确定数量最多也就是包含的搜索结果数据的数量最多的类别。
在实施例中,数量最多的类别包括两种情况,一种是数量最多的类别只有一个,另一种是数量最多的类别同时包括多个(类别数≥2),即出现多个并列数量最多的分类,此时可以根据每个搜索结果数据对应的类别概率数据,从多个并列的分类中选取出概率较大的类别作为目标类别。
在一个具体的实施例中,将筛选出的搜索结果数据的数量最多的类别作为备选类别,将各个备选类别中包含的每个搜索结果数据的类别概率数据进行累加计算,将计算结果最大的备选类别作为目标类别。
在其他实施例中,分类统计还可以包括:通过按分类类别进行统计,将分类结果相同的搜索结果数据归集到一起,将同一类别中各搜索结果数据的类别概率数据进行累加计算,得到每一类别的概率总和,然后按概率总和的大小顺序进行排序,确定概率总和最大的类别为目标类别。
在一个实施例中,如图8所示,根据分类统计结果,确定目标类别,即步骤506包括步骤802至步骤806。
步骤802,获取搜索结果数据在外部搜索平台的搜索结果列表中的排序位置。
步骤804,根据排序位置与权重数据的预设关联关系,确定各项搜索结果数据对应的权重数据。
步骤806,根据分类统计结果和权重数据,确定目标类别。
外部搜索平台的搜索结果列表中的排序位置也可以表征各项搜索结果数据与搜索记录的相关程度,在实施例中,通过预先设定排序位置的权重数据的关联关系,为不同排序位置的搜索结果数据设定不同的权重数据,具体来说,排序越靠前的搜索结果数据,对应的权重数据数值越大。基于权重数据,对分类统计结果中的数据进行加权计算,将计算结果最大的类别作为目标类别。
具体来说,当分类统计以同类搜索结果数据的数量为标准时,各搜索结果数据的基数均为1,根据分类统计结果和权重数据,确定目标类别,包括:对于每一个类别,计算各个搜索结果数据的基数与权重数据的乘积,然后累加该类别中各个搜索结果数据的基数与权重数据的乘积,得到该类别的计算结果。同理,分类统计还可以以同类搜索结果数据的概率数据为标准,此时,各搜索结果数据的基数为搜索结果数据的概率数据。
在一个实施例中,方法还包括:将携带有类别标签的搜索数据作为训练数据输入初始搜索意图分类模型。对初始搜索意图分类模型进行模型训练,得到用于对输入的搜索数据进行搜索意图分类处理的搜索意图分类模型。
通过构建搜索意图分类模型,能够便于在搜索系统的数据处理过程中进行搜索意图的分析,在其中一个实施例中,如图9所示,用户通过输入搜索数据,例如“跳一跳”,搜索意图分类模型对输入的搜索数据进行意图分类分析,可以确定其对应的搜索意图为“游戏”,然后从游戏类别对应的索引库中获取与“跳一跳”对应的游戏类视频资源文档,然后经过粗排和精排对获取的视频资源文档进行排序,并给用户返回搜索意图相关的视频资源。举例来说,当输入搜索数据为“如何打开微信跳一跳”时,搜索意图分类模型分析得到的意图类别为“技能教学”,再例如,当输入搜索数据为“陈情令”时,搜索意图分类模型分析得到的意图类别为“电视剧”
本申请还提供一种应用场景,该应用场景应用上述的标签标注方法。具体地,该标签标注方法在该应用场景的应用如下:
以小程序视频子搜索系统为例,基于外部成熟的视频搜索平台来构建意图标注数据的基本流程。首先给定目标搜索系统的query数据,例如收集近期本系统中的query数据,作为外部平台定向爬取的基本query数据,然后基于给定具体的query,构建爬虫任务,爬取成熟的视频搜索平台的排序结果,例如外部视频搜索平台返回的排序结构中的前5篇doc(文本数据),将这5篇doc作为预先训练好的分类模型的输入,利用预训练好的分类模型对爬取doc进行分类,例如采用BERT作为分类模型,分类模型会为每篇doc预测一个类别标签,再选出5篇文章的类别标签出现最多的作为query的最终标签,从而实现在冷启动阶段利用外部搜索平台来构建query意图训练数据的半监督标注方式。通过上述处理过程,在缺少query-doc历史曝光点击数据以及人工标注的训练数据的情况下,该方式可以快速有效的获取质量不错的标注数据用于query意图模型的训练。该方法适用于大部分搜索系统中query意图标注数据的获取,是一种降低标注成本快速积累训练数据的有效方式。
在一个实施例中,提供了一种标签标注方法,如图10所示,标签标注方法包括以下步骤1002至步骤1024。
步骤1002,获取目标搜索系统中待标注的搜索记录。
步骤1004,根据搜索记录,构建爬取任务。
步骤1006,识别目标搜索系统的索引库数据类型,确定与索引库数据类型匹配的外部搜索平台。
步骤1008,执行爬取任务,在外部搜索平台进行数据爬取处理,得到与搜索记录对应的搜索结果数据。
步骤1010,将搜索结果数据输入预设的分类模型,得到每一项搜索结果数据的分类结果。
步骤1012,对各搜索结果数据的分类结果进行分类统计,得到分类统计结果。
步骤1014,根据分类统计结果,筛选出包含的搜索结果数据的数量最多的类别。
步骤1016,当类别的数量为一个时,确定该类别为目标类别。
步骤1018,当类别的数量为多个时,分别获取各类别包含的搜索结果数据对应的类别概率数据,并根据各类别包含的搜索结果数据对应的类别概率数据,从筛选出的类别中选取目标类别。
步骤1020,将目标类别标记为搜索记录的类别标签,对搜索记录进行类别标签标注。
步骤1022,将携带有类别标签的搜索数据作为训练数据输入初始搜索意图分类模型。
步骤1024,对初始搜索意图分类模型进行模型训练,得到用于对输入的搜索数据进行搜索意图分类处理的搜索意图分类模型。
在另一个实施例中,还提供了一种标签标注方法,如图11所示,标签标注方法包括以下步骤1102至步骤1128。
步骤1102,获取目标搜索系统中待标注的搜索记录。
步骤1104,根据搜索记录,构建爬取任务。
步骤1106,识别目标搜索系统的索引库数据类型,确定与索引库数据类型匹配的外部搜索平台。
步骤1108,执行爬取任务,在外部搜索平台进行数据爬取处理,得到与搜索记录对应的搜索结果数据。
步骤1110,将搜索结果数据输入预设的分类模型,得到每一项搜索结果数据的分类结果。
步骤1112,对各搜索结果数据的分类结果进行分类统计,得到分类统计结果。
步骤1114,获取搜索结果数据在外部搜索平台的搜索结果列表中的排序位置。
步骤1116,根据排序位置与权重数据的预设关联关系,确定各项搜索结果数据对应的权重数据。
步骤1118,根据分类统计结果和权重数据,确定目标类别。
步骤1120,将目标类别标记为搜索记录的类别标签,对搜索记录进行类别标签标注。
步骤1122,将携带有类别标签的搜索数据作为训练数据输入初始搜索意图分类模型。
步骤1124,对初始搜索意图分类模型进行模型训练,得到用于对输入的搜索数据进行搜索意图分类处理的搜索意图分类模型。
应该理解的是,虽然图2-5、图7-8、图10-11的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5、图7-8、图10-11中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图12所示,提供了一种标签标注装置1200,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:搜索记录获取模块1202、外部数据获取模块1204、数据分类模块1206和标签标注模块1208,其中:
搜索记录获取模块1202,用于获取目标搜索系统中待标注的搜索记录。
外部数据获取模块1204,用于从外部搜索平台获取与搜索记录对应的搜索结果数据。
数据分类模块1206,用于将搜索结果数据输入预设的分类模型,得到搜索结果数据对应的分类结果,分类模型的分类类别与目标搜索系统的索引库分类类别相同。
标签标注模块1208,用于根据分类结果,对搜索记录进行类别标签标注。
在其中一个实施例中,标签标注装置还包括外部搜索平台确定模块,用于识别目标搜索系统的索引库数据类型;根据索引库数据类型,确定与索引库数据类型匹配的外部搜索平台。
在其中一个实施例中,外部数据获取模块还用于根据搜索记录,构建爬取任务;执行爬取任务,在外部搜索平台进行数据爬取处理,得到与搜索记录对应的搜索结果数据。
在其中一个实施例中,搜索结果数据的数量为多个;标签标注模块还用于获取每一项搜索结果数据的分类结果;对各搜索结果数据的分类结果进行分类统计,得到分类统计结果;根据分类统计结果,确定目标类别;将目标类别标记为搜索记录的类别标签;对搜索记录进行类别标签标注。
在其中一个实施例中,标签标注模块还用于获取搜索结果数据在外部搜索平台的搜索结果列表中的排序位置;根据排序位置与权重数据的预设关联关系,确定各项搜索结果数据对应的权重数据;根据分类统计结果和权重数据,确定目标类别。
在其中一个实施例中,标签标注模块还用于根据分类统计结果,筛选出包含的搜索结果数据的数量最多的类别;当类别的数量为一个时,确定类别为目标类别。当类别的数量为多个时,分别获取各类别包含的搜索结果数据对应的类别概率数据,并根据各类别包含的搜索结果数据对应的类别概率数据,从筛选出的类别中选取目标类别。
在其中一个实施例中,标签标注装置还包括搜索意图分类模型训练模块,用于将携带有类别标签的搜索数据作为训练数据输入初始搜索意图分类模型;对初始搜索意图分类模型进行模型训练,得到用于对输入的搜索数据进行搜索意图分类处理的搜索意图分类模型。
上述标签标注装置,通过借助外部搜索平台来获取与搜索记录对应的搜索结果数据,实现了对搜索记录的搜索结果的扩展,并基于将搜索结果数据输入分类模型,得到与目标搜索系统的索引库分类类别相同的分类结果,实现了外部搜索结果数据与目标搜索系统的关联,然后根据分类结果对搜索记录进行类别标签标注,实现半监督式的标签标注,通过借助外部搜索平台,不受搜索系统是否存在大量的历史搜索点击数据的条件制约,适用于冷启动阶段的搜索系统,有效提高了对搜索记录的标注效率,快速积累训练数据。
关于标签标注装置的具体限定可以参见上文中对于标签标注方法的限定,在此不再赘述。上述标签标注装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储搜索结果数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种标签标注方法。
本领域技术人员可以理解,图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种标签标注方法,其特征在于,所述方法包括:
获取目标搜索系统中待标注的搜索记录;
从外部搜索平台获取与所述搜索记录对应的搜索结果数据;
将所述搜索结果数据输入预设的分类模型,得到所述搜索结果数据对应的分类结果,所述分类模型的分类类别与所述目标搜索系统的索引库分类类别相同;
根据所述分类结果,对所述搜索记录进行类别标签标注。
2.根据权利要求1所述的方法,其特征在于,所述从外部搜索平台获取与所述搜索记录对应的搜索结果数据之前,还包括:
识别所述目标搜索系统的索引库数据类型;
根据所述索引库数据类型,确定与所述索引库数据类型匹配的外部搜索平台。
3.根据权利要求1所述的方法,其特征在于,所述从外部搜索平台获取与所述搜索记录对应的搜索结果数据包括:
根据所述搜索记录,构建爬取任务;
执行所述爬取任务,在外部搜索平台进行数据爬取处理,得到与所述搜索记录对应的搜索结果数据。
4.根据权利要求1所述的方法,其特征在于,所述搜索结果数据的数量为多个;
所述根据所述分类结果,对所述搜索记录进行类别标签标注包括:
获取每一项搜索结果数据的分类结果;
对各所述搜索结果数据的分类结果进行分类统计,得到分类统计结果;
根据所述分类统计结果,确定目标类别;
将所述目标类别标记为所述搜索记录的类别标签,对所述搜索记录进行类别标签标注。
5.根据权利要求4所述的方法,其特征在于,所述根据所述分类统计结果,确定目标类别包括:
获取所述搜索结果数据在所述外部搜索平台的搜索结果列表中的排序位置;
根据所述排序位置与权重数据的预设关联关系,确定各项搜索结果数据对应的权重数据;
根据所述分类统计结果和所述权重数据,确定目标类别。
6.根据权利要求4所述的方法,其特征在于,所述根据所述分类统计结果,确定目标类别包括:
根据所述分类统计结果,筛选出包含的搜索结果数据的数量最多的类别;
当所述类别的数量为多个时,分别获取各类别包含的搜索结果数据对应的类别概率数据;
根据各类别包含的搜索结果数据对应的类别概率数据,从筛选出的类别中选取目标类别。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将携带有类别标签的搜索数据作为训练数据输入初始搜索意图分类模型;
对所述初始搜索意图分类模型进行模型训练,得到用于对输入的搜索数据进行搜索意图分类处理的搜索意图分类模型。
8.一种标签标注装置,其特征在于,所述装置包括:
搜索记录获取模块,用于获取目标搜索系统中待标注的搜索记录;
外部数据获取模块,用于从外部搜索平台获取与所述搜索记录对应的搜索结果数据;
数据分类模块,用于将所述搜索结果数据输入预设的分类模型,得到所述搜索结果数据对应的分类结果,所述分类模型的分类类别与所述目标搜索系统的索引库分类类别相同;
标签标注模块,用于根据所述分类结果,对所述搜索记录进行类别标签标注。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202010772268.2A 2020-08-04 2020-08-04 标签标注方法、装置、计算机设备和存储介质 Pending CN112749313A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010772268.2A CN112749313A (zh) 2020-08-04 2020-08-04 标签标注方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010772268.2A CN112749313A (zh) 2020-08-04 2020-08-04 标签标注方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN112749313A true CN112749313A (zh) 2021-05-04

Family

ID=75645263

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010772268.2A Pending CN112749313A (zh) 2020-08-04 2020-08-04 标签标注方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112749313A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344078A (zh) * 2021-06-09 2021-09-03 北京三快在线科技有限公司 一种模型训练的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899065A (zh) * 2015-06-11 2015-09-09 武汉虹信通信技术有限责任公司 一种可批量软件在线恢复与软件在线升级的方法和系统
WO2017024884A1 (zh) * 2015-08-07 2017-02-16 广州神马移动信息科技有限公司 一种搜索意图识别方法及装置
CN111078885A (zh) * 2019-12-18 2020-04-28 腾讯科技(深圳)有限公司 一种标签分类的方法、相关装置、设备以及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104899065A (zh) * 2015-06-11 2015-09-09 武汉虹信通信技术有限责任公司 一种可批量软件在线恢复与软件在线升级的方法和系统
WO2017024884A1 (zh) * 2015-08-07 2017-02-16 广州神马移动信息科技有限公司 一种搜索意图识别方法及装置
CN111078885A (zh) * 2019-12-18 2020-04-28 腾讯科技(深圳)有限公司 一种标签分类的方法、相关装置、设备以及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113344078A (zh) * 2021-06-09 2021-09-03 北京三快在线科技有限公司 一种模型训练的方法及装置
CN113344078B (zh) * 2021-06-09 2022-11-04 北京三快在线科技有限公司 一种模型训练的方法及装置

Similar Documents

Publication Publication Date Title
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN111241311B (zh) 媒体信息推荐方法、装置、电子设备及存储介质
US20190364123A1 (en) Resource push method and apparatus
CN110781391A (zh) 一种信息推荐方法、装置、设备及存储介质
CN106326391B (zh) 多媒体资源推荐方法及装置
CN111259173B (zh) 一种搜索信息推荐方法及装置
CN109753601B (zh) 推荐信息点击率确定方法、装置及电子设备
CN111126495B (zh) 模型训练方法、信息预测方法、装置、存储介质及设备
CN112364204B (zh) 视频搜索方法、装置、计算机设备及存储介质
CN113688167A (zh) 基于深度兴趣网络的深度兴趣捕获模型构建方法及装置
CN107844533A (zh) 一种智能问答系统及分析方法
CN110061908A (zh) 应用程序推荐、装置、电子设备及介质
CN112508609B (zh) 人群扩量的预测方法、装置、设备及存储介质
CN110347866B (zh) 信息处理方法、装置、存储介质及电子设备
CN111143684B (zh) 基于人工智能的泛化模型的训练方法及装置
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN110674144A (zh) 用户画像生成方法、装置、计算机设备和存储介质
CN111061954B (zh) 搜索结果排序方法、装置及存储介质
CN111159563A (zh) 用户兴趣点信息的确定方法、装置、设备及存储介质
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
CN108959453A (zh) 基于文本聚类的信息提取方法、装置及可读存储介质
CN111506727A (zh) 文本内容类别获取方法、装置、计算机设备和存储介质
CN111368141A (zh) 视频标签的扩展方法、装置、计算机设备和存储介质
CN112749330B (zh) 信息推送方法、装置、计算机设备和存储介质
CN112749313A (zh) 标签标注方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40048680

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination