CN112507066A - 标签标记的方法、装置、电子设备及可读存储介质 - Google Patents
标签标记的方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN112507066A CN112507066A CN202011300604.XA CN202011300604A CN112507066A CN 112507066 A CN112507066 A CN 112507066A CN 202011300604 A CN202011300604 A CN 202011300604A CN 112507066 A CN112507066 A CN 112507066A
- Authority
- CN
- China
- Prior art keywords
- text
- label
- search
- target
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种标签标记的方法、装置、电子设备及可读存储介质,所述方法包括:获得待标记标签的文本和目标对象的标识文本;将所述目标对象的标识文本和所述待标记标签的文本组成的文本对,输入预先训练的关联度预测模型,得到关联度得分;在所述关联度得分大于预设阈值时,为所述目标对象标记所述待标记标签。本申请实施例将待标记标签的文本信息应用于标签与对象的关联度预测,提高标签标记的精准度,进而提高在搜索场景下对象召回的命中率。
Description
技术领域
本申请实施例涉及计算机技术领域,尤其涉及一种标签标记的方法、装置、电子设备及可读存储介质。
背景技术
搜索召回,是指利用搜索信息,从指定的数据库中获取与搜索信息相匹配的数据,并返回给执行搜索的主体。比如,用户在购物网站的搜索栏中输入搜索文本,即可以获取与搜索文本相对应的商品列表。现有的搜索召回方法,一般是利用用户的搜索文本与数据库中的对象标识(比如商品名)进行匹配,错误率较高,容易出现漏召回和误召回。
相关技术已经开始利用对象的标签进行搜索召回,以此降低搜索召回的错误率。示例性地来说,用户输入搜索文本,利用搜索文本与数据库中对象的标签进行匹配,可以返回相应的对象。标签与对象之间的关联精准度,影响着搜索召回的正确率,而如何精准地对目标对象进行标签标记,进而实现标签与对象之间的精准地关联,是需要解决的问题。
发明内容
本申请实施例提供一种标签标记的方法、装置、电子设备及可读存储介质,用以精准地对目标对象进行标签标记。
根据本申请实施例的第一方面,提供了一种标签标记的方法,所述方法包括:
获得待标记标签的文本和目标对象的标识文本;
将所述目标对象的标识文本和所述待标记标签的文本组成的文本对,输入预先训练的关联度预测模型,得到关联度得分;
在所述关联度得分大于预设阈值时,为所述目标对象标记所述待标记标签。
可选地,在为所述目标对象标记所述待标记标签之后,所述方法还包括:
将所述待标记标签的文本添加到所述目标对象的描述文本中;
控制显示终端显示所述目标对象的包含所述待标记标签的文本的描述文本。
可选地,在为所述目标对象标记所述待标记标签之后,所述方法还包括:
获得搜索文本;
将所述搜索文本与为多个对象标记的多个标签的文本分别进行匹配,所述多个对象包括第一目标检索对象;
在所述搜索文本与为所述对象标记的一个标签的文本匹配时,将该标签所有标记的对象确定为第一目标检索对象;
将所述第一目标检索对象添加至第一目标检索对象集合,根据所述第一目标检索对象集合生成第一搜索结果,所述第一搜索结果包含所有的第一目标检索对象。
可选地,在为所述目标对象标记所述待标记标签之后,所述方法还包括:
获得第一目标检索对象集合中所有的目标检索对象;
将所述第一目标检索对象的标签与为多个对象分别标记的各个标签进行相似度比较,所述多个对象包括第二目标检索对象;
在所述第一目标检索对象的标签与为所述对象标记的一个标签之间的相似度大于预设相似度时,将该对象确定为第二目标检索对象;
将所述第二目标检索对象添加至第二目标检索对象集合,根据所述第一目标检索对象集合和所述第二目标检索对象集合生成第二搜索结果,所述第二搜索结果包含所有第一目标检索对象和所述第二目标检索对象。
可选地,所述方法还包括:
获得目标搜索文本,从所述目标搜索文本中提取标签的文本并加入标签文本集合中,所述目标搜索文本是根据对应的搜索次数、转换率、搜索结果中至少一者确定的;或者
对各个对象的文本进行实体识别,得到标签的文本并加入标签文本集合中,其中,一个对象的文本包括以下至少一者:该对象的描述文本、该对象的标识文本、该对象的品牌文本、该对象的属性文本;
获得待标记标签的文本,包括:从所述标签文本集合中确定待标记标签的文本。
可选地,所述方法还包括:
获得样本对象的多个搜索日志,每个搜索日志包括用户输入的样本搜索请求和搜索引擎输出的包含样本对象的样本搜索结果;
在用户针对所述样本搜索结果包含的样本对象执行过预设操作的情况下,根据所述搜索请求和所述样本对象,生成正样本对;和/或
在用户针对所述样本搜索结果包含的样本对象未执行过所述预设操作的情况下,根据所述搜索请求和所述样本对象,生成负样本对。
可选地,所述方法还包括:
对样本对象的文本进行实体识别,得到实体识别结果;
根据所述实体识别结果和所述样本对象,生成正样本对;和/或
根据除所述实体识别结果外的其他文本和所述样本对象,生成负样本对。
可选地,所述方法还包括:
获得基础模型,所述基础模型用于识别两个文本之间的关联度,所述基础模型是以标记有关联度标签的样本文本对为训练样本,对第二预设模型进行训练后得到的;
以所述多个样本对为训练样本,对所述基础模型进行训练,得到所述关联度预测模型。
可选地,所述方法还包括:
针对所述文本对,输出标注提示,以对所述目标对象标记人工标记的标签;
根据所述目标对象的标识文本和所述人工标记的标签的文本组成的文本对,对所述关联度预测模型进行更新。
根据本申请实施例的第二方面,提供了一种标签标记的装置,所述装置包括:
文本获取模块,用于获得待标记标签的文本和目标对象的标识文本;
关联度预测模块,用于将所述目标对象的标识文本和所述待标记标签的文本组成的文本对,输入预先训练的关联度预测模型,得到关联度得分;
标签标记模块,用于在所述关联度得分大于预设阈值时,为所述目标对象标记所述待标记标签。
可选地,所述装置还包括:
描述文本添加模块,用于将所述待标记标签的文本添加到所述目标对象的描述文本中;
描述文本显示模块,用于控制显示终端显示所述目标对象的包含所述待标记标签的文本的描述文本。
可选地,所述装置还包括:
搜索文本获取模块,用于获得搜索文本;
文本匹配模块,用于将所述搜索文本与为多个对象标记的多个标签的文本分别进行匹配,所述多个对象包括第一目标检索对象;
第一目标检索对象确定模块,用于在所述搜索文本与为所述对象标记的一个标签的文本匹配时,将该标签所有标记的对象确定为第一目标检索对象;
第一搜索结果生成模块,用于将所述第一目标检索对象添加至第一目标检索对象集合,根据所述第一目标检索对象集合生成第一搜索结果,所述第一搜索结果包含所有的第一目标检索对象。
可选地,所述装置还包括:
标签获取模块,用于获得第一目标检索对象集合中所有的目标检索对象;
相似度比对模块,用于将所述第一目标检索对象的标签与为多个对象分别标记的各个标签进行相似度比较,所述多个对象包括第二目标检索对象;
第二目标检索对象确定模块,用于在所述第一目标检索对象的标签与为所述对象标记的一个标签之间的相似度大于预设相似度时,将该对象确定为第二目标检索对象;
第二搜索结果生成模块,用于将所述第二目标检索对象添加至第二目标检索对象集合,根据所述第一目标检索对象集合和所述第二目标检索对象集合生成第二搜索结果,所述第二搜索结果包含所有第一目标检索对象和所述第二目标检索对象。
可选地,所述装置还包括:
第一标签文本添加模块,用于获得目标搜索文本,从所述目标搜索文本中提取标签的文本并加入标签文本集合中,所述目标搜索文本是根据对应的搜索次数、转换率、搜索结果中至少一者确定的;
第二标签文本添加模块,用于对各个对象的文本进行实体识别,得到标签的文本并加入标签文本集合中,其中,一个对象的文本包括以下至少一者:该对象的描述文本、该对象的标识文本、该对象的品牌文本、该对象的属性文本;
标签文本获取模块,用于获得待标记标签的文本,包括:从所述标签文本集合中确定待标记标签的文本。
可选地,所述装置还包括:
搜索日志获取模块,用于获得样本对象的多个搜索日志,每个搜索日志包括用户输入的样本搜索请求和搜索引擎输出的包含样本对象的样本搜索结果;
第一样本对获取模块,用于在用户针对所述样本搜索结果包含的样本对象执行过预设操作的情况下,根据所述搜索请求和所述样本对象,生成正样本对;和/或
在用户针对所述样本搜索结果包含的样本对象未执行过所述预设操作的情况下,根据所述搜索请求和所述样本对象,生成负样本对。
可选地,所述装置还包括:
实体识别模块,用于对样本对象的文本进行实体识别,得到实体识别结果;
第二样本对获取模块,用于根据所述实体识别结果和所述样本对象,生成正样本对;和/或
根据除所述实体识别结果外的其他文本和所述样本对象,生成负样本对。
可选地,所述装置还包括:
基础模型获取模块,用于获得基础模型,所述基础模型用于识别两个文本之间的关联度,所述基础模型是以标记有关联度标签的样本文本对为训练样本,对第二预设模型进行训练后得到的;
基础模型训练模块,用于以所述多个样本对为训练样本,对所述基础模型进行训练,得到所述关联度预测模型。
可选地,所述装置还包括:
人工标记模块,用于针对所述文本对,输出标注提示,以对所述目标对象标记人工标记的标签;
预测模型更新模块,用于根据所述目标对象的标识文本和所述人工标记的标签的文本组成的文本对,对所述关联度预测模型进行更新。
根据本申请实施例的第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。
根据本申请实施例的第四方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行时实现如本申请第一方面所述的方法中的步骤。
采用本申请实施例提供的标签标记的方法,利用标签自身的文本和对象的标识文本,进行标签和对象之间的关联度预测,进而完成标签标记。本申请实施例通过对标签自身文本信息的利用,有效提高了标签标记的准确度,可广泛用于对象召回的各类搜索场景,将本申请实施例提供的方法应用于搜索场景,可有效提高目标检索对象召回的命中率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的标签标记方法的步骤流程图;
图2是本申请一实施例提供的关联度预测模型上线使用的步骤流程图;
图3是本申请一实施例提供的第一搜索结果生成方法的步骤流程图;
图4是本申请一实施例提供的第二搜索结果生成方法的步骤流程图;
图5是一种用户终端展示对象信息的示例图;
图6是本申请一实施例提供的标签标记装置的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请实施例一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请实施例保护的范围。
上述背景技术中已经提到,目前的搜索场景中,通常直接将用户的搜索文本与对象标识进行匹配,这样的召回命中率较低,召回结果的错误率较高。以商品对象为例,商品的标识(即,商品名)难以对商品进行全方位的描述,如果仅根据商品名进行召回,第一存在漏召回的问题:商品名与搜索文本不一致,则无法召回商品;例如用户搜索“牛奶”时,对商品名进行匹配,可以召回商品名为“某牛奶”的商品,但是无法召回商品名为“某牛乳”的商品。第二存在误召回的问题:商品名与搜索文本误匹配,产生商品的误召回;例如用户搜索“牛奶”时,对商品名进行匹配,还会召回“牛奶味饼干”这种商品。
而如果预先为数据库中的每个对象标记标签,则用户在进行搜索召回时,由用户提供搜索文本,将搜索文本与数据库中所有对象的标签文本进行匹配,则可获得与标签相应的目标检索对象。由于标签具有良好的文本可拓展性、更强的场景兼容性等,尤其能够用于避免文本的一词多义或一义多词导致的语义误判,将对象的标签文本与搜索文本进行匹配,用于搜索召回,能够有效提高召回的命中率。
可以看得出,标签与对象的关联精准度,能够决定用户搜索召回目标对象的命中率;而如何为对象标记标签,则决定了标签标记的精准度,即,标签与对象之间的关联精准度。
如果仅利用对象标识包含的语义内容进行标签的标识,对对象进行标签标记,利用固有的标签进行搜索召回,由于标签标记的准确度实质提升不大,这样的做法对搜索准确度的改善依然十分有限。如,针对商品名:“XX品牌防蛀薄荷味儿童牙膏”,根据对象名包含的文本语义,为其标记标签“XX品牌”、“防蛀”、“薄荷味”、“儿童”。但是,假如用户搜索“蛀牙XX品牌”,本来应该是该用户潜在的目标检索对象(即,潜在的符合用户期望的对象),却不能出现在用户的搜索结果中。
基于上述考虑,本申请发明人将标签自身的文本信息引入标签标记的方法中,对标签的文本与对象的标识文本之间组成的文本对进行关联度打分,再根据关联度得分直接判断标签和对象是否关联,以此进行标签标记,进而提高标签标记的准确度。
本申请实施例将标签自身的文本信息作为标签标记的判定依据,并利用标签和对象的文本对关系,把标签标记转换为二分类的问题,二分类模型仅需要输出0或1,判断是否进行标记。同时,二分类模型的可扩展性更好,能够方便地加入、处理新的标签,使得标签标记的准确度也能得到提高。
本实施例中的标签标记的方法,能够利用待标记标签的文本和目标对象的标识文本组成的文本对,为目标对象标记与其关联度大于预设阈值的标签,在用户输入搜索文本时,同时基于对象的标识文本与搜索文本的匹配、为该对象所标记的标签文本与搜索文本的匹配,提高了搜索召回的命中率,即,在为用户返回包含与搜索文本相应的目标检索对象的搜索结果时,保证返回结果的正确率。
本申请标签标记的方法可应用于终端中,所述终端具体包括但不限于:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准音频层面3,Moving PictureExperts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准音频层面4,MovingPicture Experts GroupAudio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等。
图1示出了本申请一实施例提供的标签标记方法的步骤流程图。参照图1所示,所述方法包括:
步骤S11、获得待标记标签的文本和目标对象的标识文本。
具体包括如下步骤:
S11-1、获取目标对象的标识文本。
所述目标对象是可以作为搜索结果返回给用户客户端的对象,根据实际的搜索场景的不同而具有不同的含义,也就是说,在特定的搜索场景下,具有相应的目标对象。例如:在购物软件app或购物网页的商品搜索场景下,目标对象是商品;在图书馆的图书信息查询系统的图书搜索场景下,目标对象是图书或文献资料;在线下团购网站或软件app的商家搜索场景下,目标对象是商家。
所述目标对象的标识文本,可以是所述目标对象的名称文本,也可以同时包含目标对象的部分属性信息。相应地,商品的标识文本可以是商品名称的文本信息,如“A品牌B型号空调”,也可以为“A品牌B型号空调变频壁挂1.5匹新上市”。
其中,所述目标对象的标识文本,可以根据应用场景从相应的资料库中获取。
S11-2、获取待标记标签的文本。
在本实施例中,所述待标记标签作为目标对象的第二标识,用于对目标对象进行标记。标签的文本在一定程度上可以描述目标对象的属性相关信息。具体地,标签可以是目标对象的名称,也可以是目标对象的属性,还可以是目标对象的应用场景。
目前常见的标签标记的方法中,一般是从目标对象的标识文本中,通过语义分析、分词等手段,提取标签。例如,对于目标对象“罐装无糖可乐”,可以提取到其关联的标签有:“罐装”、“无糖”、“可乐”。
然而,仅仅从对象名提取文本作为标签,其实远远不足以适应实际的搜索场景,如果可以从更多的来源挖掘到新的、有效的标签,便能够实现更全面的标签标记。
实际上,用户的搜索文本中常常包含了隐含的标签信息,如用户的高频搜索词“蛀牙XX品牌”,即可以作为“XX品牌防蛀牙膏”的标签。当然,对对象的文本进行实体识别,也可以得到标签,如对“美白护肤品”进行实体识别,可得到标签“美白”、“护肤品”。此外,如果提前建立起对象名之间的知识图谱,可以利用对象的知识图谱,链接与目标对象相似或相同的样本对象,如“太阳眼镜”、“太阳镜”和“墨镜”之间可以互相链接,“牛乳”和“牛奶”之间可以互相链接。
鉴于上述考虑,本实施例可以利用用户的搜索文本、对对象的标识文本进行实体识别的结果、对象的知识图谱这三种途径中的一种或多种组合,获取待标记标签的文本。其中,获得待标记标签的文本,包括:从标签文本集合中确定待标记标签的文本。容易理解的是,本实施例的标签文本集合是一个通过吸纳新的标签文本、剔除无效标签文本,不断更新的、动态变化的文本集合,在最初可以是一个空集。
途径一,利用用户的搜索文本,获取标签文本。包括:
获得目标搜索文本,从所述目标搜索文本中提取标签的文本并加入标签文本集合中,所述目标搜索文本是根据对应的搜索次数、转换率、搜索结果中至少一者确定的;从所述标签文本集合中确定待标记标签的文本。
其中,所述目标搜索文本是至少一个用户在历史搜索行为中提供的、用于搜索的文本。也就是说,用于挖掘标签文本的搜索文本,可以从某一个特定的用户的历史搜索行为中获取,也可以从所有用户或者某一个指定用户群中的多个用户的历史搜索行为中获取。如果只从特定的一个或多个用户中获取了标签,并成功标记了对象,该标记关系也只应用于该特定的一个或多个用户后续的搜索召回。
示例性地,对于地图软件来说,从C地区用户的历史搜索文本挖掘出标签“明堂新派”,假设该标签“明堂新派”后续标记了C地区一家粤菜馆M,后续应用中只有C地区的用户搜索“明堂新派”才可以搜索得到该粤菜馆M;而从D地区用户的历史搜索文本也挖掘出了标签“明堂新派”,假设该标签“明堂新派”后续标记了D地区一家茶庄N,后续应用中只有D地区的用户搜索“明堂新派”才可以搜索得到该茶庄N。
第一,目标搜索文本根据对应的搜索次数确定,是指针对某一搜索文本,用户在历史时段或某一特定的历史时段内,使用该搜索文本的搜索次数大于预设阈值,说明该搜索文本为高频搜索文本,从该搜索文本中提取标签的文本并加入标签文本集合中。
相应地进行示例说明,在团购网站中,最近的3个月内用户使用搜索文本“海南椰子鸡”的搜索次数达到1500次,大于预设的搜索次数阈值500,将该搜索文本中提取的标签“海南椰子鸡”加入标签文本集合。
第二,目标搜索文本根据对应的转换率确定,具体可以包括:针对某一搜索文本,用户在历史时段或某一特定的历史时段内,使用该搜索文本后转换率高于预设阈值,说明该搜索文本为高效搜索文本,从该搜索文本中提取标签的文本并加入标签文本集合中。
用户通过搜索文本获取到期望的目标检索对象,成功进行了相应目标行动,则说明搜索转换成功。搜索的转换率,即,用户进行了相应目标行动的搜索次数与总搜索次数的比率。
相应地进行示例说明,在团购网站中,用户使用搜索文本“XX包子”的历史搜索次数达到200次。其中,在某一次搜索中,用户通过搜索操作中得到页面结果,点击进入了页面中的某一商家或商品信息,并成功下单商品,则认为该次搜索转换成功。若这300次搜索中,成功转换的次数为80,则转换率为40%,高于转换率预设阈值20%,说明该搜索文本指向的部分商品或商家可能是用户乐于见到的,可以用于标签标记,将从该搜索文本中提取的标签“XX包子”加入标签文本集合。
第三,目标搜索文本根据对应的搜索结果确定,具体可以包括:针对某一搜索文本,用户在历史时段或某一特定的历史时段内,使用该搜索文本得到的搜索结果数量小于预设阈值,说明该搜索文本为关联对象缺乏的搜索文本,从该搜索文本中提取标签的文本并加入标签文本集合中。
相应地进行示例说明,在团购网站中,用户使用搜索文本“核桃糖”进行搜索,搜索结果中没有相应的商家或商品,搜索结果数量为0,小于预设阈值3,需要则将从该搜索文本中提取的标签“核桃糖”加入标签文本集合。
此外,目标搜索文本根据对应的搜索次数、转换率、搜索结果中多者确定。具体可以包括:基于自适应多阈值算法,检测到目标搜索文本的搜索次数、转换率、搜索结果均符合相应的阈值,从该搜索文本中提取标签的文本并加入标签文本集合中。
示例地,在团购网站中,过去一个月内用户使用搜索文本“焦糖咖啡”的历史搜索次数达到300次,转换率15%,搜索结果数量为10,此时符合自适应算法给出的阈值:搜索次数阈值200,转换率10%,搜索结果数量不设阈值。说明该搜索文本“焦糖咖啡”的搜索频率、转换率和搜索结果达到了要求,可以将该搜索文本中的标签“焦糖咖啡”加入标签文本集合。
本实施例还可以根据用户的搜索结果,将搜索转换成功的目标搜索文本与其转换的目标检索对象的标识文本组成的文本对,作为正样本对。
途径二,利用对对象的标识文本进行实体识别的结果,获取标签文本。包括:
对各个对象的文本进行实体识别,得到标签的文本并加入标签文本集合中,其中,一个对象的文本包括以下至少一者:该对象的描述文本、该对象的标识文本、该对象的品牌文本、该对象的属性文本;从所述标签文本集合中确定待标记标签的文本。
实体识别是指识别文本中具有特定意义的实体,提取出人名、地名、机构名、属性等实体数据,针对一个对象的文本可以识别出一个或多个标签文本。示例性地,针对某一商品牛奶的描述文本“高钙脱脂中老年人群牛奶”,可以识别“高钙”、“脱脂”、“中老年人群”、“牛奶”。
途径三,利用对象的知识图谱,获取标签文本。包括:
因此,在本申请实施例中,还可以利用样本对象的知识图谱获取标签,包括:通过语义分析,预先建立样本对象的知识图谱,进而利用所述样本对象知识图谱,获取目标对象的同义实体名称,作为待标记标签。
示例性地,“土豆-马铃薯”、“西红柿-番茄”、“酸奶”和“酸牛奶”是同义词,将两者都添加到待标记标签的标签文本集合中,以此完善标签文本集合。
在本实施例中,还可以对标签文本集合中的所有已被用于标记对象的标签添加“已标记”标识,在从标签文本集合获取时待标记标签,将不再获取添加了“已标记”标识的标签。
步骤S12、将所述目标对象的标识文本和所述待标记标签的文本组成的文本对,输入预先训练的关联度预测模型,得到关联度得分。
考虑到前述步骤S11中获取了多个来源的标签文本,且由于用户搜索日志的不断更新,挖掘的标签也将不断更新,本实施例进一步将更新的标签作为待标记标签,计算目标对象的标识文本和待标记标签的文本组成的文本对之间的关联度得分。
关联度得分的精准度决定了标签标记的精准度,要让标签标记的的精准度达到一定水平,需要预先利用样本对对关联度预测模型进行训练。本实施例可以先获取用于训练所述关联度预测模型的样本对,再对预设模型进行训练,得到关联度预测模型,最后利用训练好的关联度预测模型获取关联度得分。
图2是本申请一实施例提供的关联度预测模型上线使用方法的步骤流程图,参考图2所示,具体可以包括以下步骤:
S12-11、获取用于训练所述关联度预测模型的样本对。
针对所述关联度预测模型,需要提前构造模型训练的样本数据,输入多个样本对到预设模型中预设模型进行训练,才能得到具有一定应用价值的关联度预测模型。因此,在本实施例中,所述关联度预测模型是以多个样本对为输入值,对预设模型进行训练所得到的模型。用于训练所述关联度预测模型的样本对,包括以下两种方法:
根据样本对象的搜索日志得到的样本对、利用实体识别结果获取的样本对。
其一,根据样本对象的搜索日志获取样本对,具体可以包括如下步骤:
获得样本对象的多个搜索日志,每个搜索日志包括用户输入的样本搜索请求和搜索引擎输出的包含样本对象的样本搜索结果;
在用户针对所述样本搜索结果包含的样本对象执行过预设操作的情况下,根据所述搜索请求和所述样本对象,生成正样本对;和/或
在用户针对所述样本搜索结果包含的样本对象未执行过所述预设操作的情况下,根据所述搜索请求和所述样本对象,生成负样本对。
其中,对于所述样本搜索结果包含的样本对象,用户存在点击行为的即为正样本对象,与对应的搜索文本组成正样本对;用户从未有点击行为的即为负样本对象,与对应的搜索文本组成负样本对。
示例性地,在一段时间内,针对某一搜索行为提供的多个对象,用户对某一对象E1有过点击行为,则该搜索行为下的搜索文本F1挖掘提取出的待标记标签的文本F2,与对象的标识文本E2组成的文本对F2-E2,即可作为正样本对;针对某一搜索行为提供的多个对象,用户对某一对象G1从未有点击行为,则该搜索行为下的搜索文本F1挖掘提取出的待标记标签的文本F2,与对象的标识文本G2组成的文本对F2-G2,可作为负样本对。
其二,利用实体识别结果获取的样本对,具体可以包括如下步骤:
对样本对象的文本进行实体识别,得到实体识别结果;
根据所述实体识别结果和所述样本对象,生成正样本对;和/或
根据除所述实体识别结果外的其他文本和所述样本对象,生成负样本对。
在本实施例的一种示例中,针对某一商品对象“XX半脱脂牛奶”,实体识别出其属性存在“半脱脂”,则可以构造“半脱脂”-“XX半脱脂牛奶”、“半脂”-“XX半脱脂牛奶”等文本对,作为正样本对;还可以根据该实体识别结果构造“脱脂”-“XX半脱脂牛奶”、“全脂”-“XX半脱脂牛奶”、“全脱脂”-“XX半脱脂牛奶”、“未脱脂”-“XX半脱脂牛奶”等文本对,作为负样本对。
S12-12、对预设模型进行训练,得到关联度预测模型。包括以下两种方法:
将第一预设模型作为关联度预测模型的原始模型,对第一预设模型进行训练,得到关联度预测模型;或者利用基础模型,基于迁移学习的方法完成模型训练。
其一,将第一预设模型作为关联度预测模型的原始模型,对第一预设模型进行训练,得到关联度预测模型。包括:
将获取的多个样本对输入到第一预设模型中,根据输出的多个关联度得分,对所述第一预设模型中网络权值、阈值进行自适应地调整,使样本对之间得到的关联度得分趋近实际环境,即,更加准确,进而提高标签标记的精准度。
具体地,第一预设模型可以选择常见的神经网络模型,在此不作赘述。
其二:利用基础模型,基于迁移学习的方法完成模型训练。
在本申请实施例中,还可以基于迁移学习的方法,获得一个具有先验知识的基础模型,作为关联度预测模型微调的起点,用于识别两个文本之间的关联度。具体包括:
获得基础模型,所述基础模型用于识别两个文本之间的关联度,所述基础模型是以标记有关联度标签的样本文本对为训练样本,对第二预设模型进行训练后得到的;
以所述多个样本对为训练样本,对所述基础模型进行训练,得到所述关联度预测模型。
其中,对所述第二预设模型进行训练,得到所述基础模型。对所述基础模型,只需要进行微调,且只进行1-2次迭代,以此平衡所述基础模型在新的应用场景下的效果和对所述基础模型中先验知识最大限度的利用。因此,可以说,所述关联度预测模型是微调完成后的基础模型。
具有先验知识的基础模型,对于特定的、缺乏大量标注数据的搜索场景来说可以起到补充作用,示例性地,“川东辣子”是一家火锅店的名称,但是,从“川东辣子”这两个字中无法读出其火锅店的属性;在某一网站或应用软件中,如果提前利用先验知识的基础模型对“川东辣子”-“火锅店”这一文本对进行了关联,则用户搜索“火锅店”时,得到的搜索结果中则将包含“川东辣子”这一对象。
另外,在不同的场景下,同一目标对象的标签集合的差异性较大,并不利于模型进行关联度的计算,因此,特定场景下的标签集合和标签与对象之间的标记关系可以由人工标记得到。因此,为了加快训练速度和模型的准确度,还可以在训练过程中,将人工标记的样本加入样本数据中,利用人工标记的数据引导模型向更加精准的方向学习,得到更加准确的模型。
基于上述分析,在本申请实施例中,可以针对所述文本对,输出标注提示,以对所述目标对象标记人工标记的标签;根据所述目标对象的标识文本和所述人工标记的标签的文本组成的文本对,对所述关联度预测模型进行更新。
此外,在所述关联度预测模型的训练初期,其关联度预测的效果较差,同样可以对预测结果进行人工标记,以对模型输出的关联度得分进行纠正;直到所述关联度预测模型的输出结果准确度超过预设阈值,则可取消人工标记,直接根据模型输出的关联度得分对所述目标对象进行标记。
S12-13、利用训练好的关联度预测模型获取关联度得分。
在本申请实施例中,将所述目标对象的标识文本和所述待标记标签的文本组成的文本对,输入预先训练的关联度预测模型,所述对关联度预测模型所述目标对象和所述待标记标签的关联度进行预测打分,得到关联度得分。
在经历了上述步骤,对所述关联度预测模型进行了足够的训练之后,输出的关联度得分将趋近于实际情况,这时关联度预测模型将具有实际的应用价值。所述关联度得分的取值可以在一个预设的范围内,示例性地,所述关联度得分可以是0~1中的任一数值,其中,当关联度得分为0时,表示当前的目标对象和待标记标签之间绝对不存在关联;当关联度得分为1时,表示当前的目标对象和待标记标签之间绝对关联。
步骤S13、在所述关联度得分大于预设阈值时,为所述目标对象标记所述待标记标签。
本实施例利用预设阈值,将计算待标记标签与目标对象的关联度程度的问题,转化为两者是否关联的问题,即,关联或者不关联,相当于将待标记标签与目标对象的关联问题建模成一个二分类的问题,对于任意给定一个目标对象和一个待标记标签,均可以直接得出是否关联的结论。由于二分类模型良好的可扩展性,本实施例对于新加入的标签,可以将其文本与目标对象的标识文本组成的文本对直接输入关联度预测模型,不需要对模型进行重新训练一次。
参考上述步骤S12中对于关联度得分的数值示例,相应地,所述预设阈值也可以是0~1中的任一数值,如0.5、0.6等等,在所述关联度得分大于预设阈值时,说明目标对象和待标记标签的关联度能够被判别为正,即,目标对象和待标记标签存在关联,则为所述目标对象标记所述待标记标签,完成标签标记。
所述预设阈值根据所述关联度预测模型的训练结果,进行自适应地调整。
在本实施例中,对目标对象的标签标记的应用可以由服务端操作完成,具体可以用于对目标检索对象的搜索召回、获取目标检索对象的相似对象、向用户终端展示对象信息、向用户终端主动推送对象和添加对象的描述文本。
应用一、将标签标记的方法用于搜索场景中对目标检索对象的搜索召回。
所述关联度预测模型的关联度打分精准度达到一定水平之后,标签标记的精准度即可具备一定的实际应用价值,这个时候可以将本实施例的标签标记的方法应用于对象的搜索场景。在用户进行对象的搜索时,通过搜索文本与对象标识文本的匹配、搜索文本与标签文本的匹配,为用户提供包含一个或多个目标检索对象的搜索结果。
图3是本申请一实施例提供的第一搜索结果生成方法的步骤流程图。参考图3所示,在本申请实施例中,在为所述目标对象标记所述待标记标签之后,还可以包括如下步骤:
步骤S13-11,获得搜索文本;
步骤S13-12,将所述搜索文本与为多个对象标记的多个标签的文本分别进行匹配,所述多个对象包括第一目标检索对象;
步骤S13-13,在所述搜索文本与为所述对象标记的一个标签的文本匹配时,将该标签所有标记的对象确定为第一目标检索对象;
步骤S13-14,将所述第一目标检索对象添加至第一目标检索对象集合,根据所述第一目标检索对象集合生成第一搜索结果,所述第一搜索结果包含所有的第一目标检索对象。
其中,所述多个对象可以是对象数据库中符合搜索筛选条件的所有对象。所述第一目标检索对象是与搜索文本相匹配的对象,是首批可能符合用户搜索需求的对象。本实施例将搜索文本分别与为所述多个对象标记的所有标签文本一一匹配,通过每一个匹配的标签与对象的标记关系,获得与搜索文本相匹配的第一目标检索对象。
示例一,在购物网站中,如果用户设置搜索筛选条件“包邮”、“发货地H”等,则“多个对象”为筛选条件下的所有商品,供用户搜索;用户搜索“牛奶糖”,将搜索文本“牛奶糖”与这些商品已经标记的所有标签的文本一一匹配,比如,文本为“牛奶糖”的标签一定与搜索文本“牛奶糖”匹配;可以将标记了标签“牛奶糖”的所有商品作为第一目标检索对象,将所述第一目标检索对象添加至第一目标检索对象集合;根据第一目标检索对象集合生成搜索结果,返回给用户。
示例二,在团购网站中,如果用户设置搜索筛选条件“餐厅”、“区域J”、“商家”等,则“多个对象”为筛选条件下的所有商家,供用户搜索;用户搜索“明月”,将搜索文本“明月”与这些商家已经标记的所有标签的文本一一匹配,比如,文本为“明月”的标签一定与搜索文本“明月”匹配;可以将标记了标签“明月”的所有商家作为第一目标检索对象,将所述第一目标检索对象添加至第一目标检索对象集合;根据第一目标检索对象集合生成搜索结果,返回给用户。
本实施例还可以将搜索文本与对象的标签文本的匹配、搜索文本与对象标识文本的匹配这两种方法结合,在搜索文本与任一对象的标签文本、搜索文本与该对象的标识文本均匹配时,将该对象作为目标检索对象,生成搜索结果,返回给用户。
应用二、将标签标记的方法用于获取目标检索对象的相似对象。
考虑到标签之间可能存在相近或相似的关系,为了避免前述步骤在标签标记和搜索召回的过程中,仍可能遗漏一些目标检索对象。
图4是本申请一实施例提供的第二搜索结果生成方法的步骤流程图。参考图3所示,在本实施例中,在为所述目标对象标记所述待标记标签之后,还可以实施包括如下的步骤:
步骤S13-21,获得第一目标检索对象集合中所有的目标检索对象;
步骤S13-22,将所述第一目标检索对象的标签与为多个对象分别标记的各个标签进行相似度比较,所述多个对象包括第二目标检索对象;
步骤S13-23,在所述第一目标检索对象的标签与为所述对象标记的一个标签之间的相似度大于预设相似度时,将该对象确定为第二目标检索对象;
步骤S13-24,将所述第二目标检索对象添加至第二目标检索对象集合,根据所述第一目标检索对象集合和所述第二目标检索对象集合生成第二搜索结果,所述第二搜索结果包含所有第一目标检索对象和所述第二目标检索对象。
可以将上述方法简单理解为,第一目标检索对象是直接通过用户的搜索文本匹配标签文本,与标签文本关联的对象;而第二目标检索对象是通过标签之间的相似度计算,确定的与第一目标检索对象相似的对象,使搜索结果的覆盖更加全面。
在本实施例的一种应用示例中,用户搜索“可口可乐”,此时将标签“可口可乐”作为独立的召回源,召回了“可口可乐”关联的多个第一目标检索对象;对于某一个第一目标检索对象K来说,其关联的标签包括“可乐”、“可口”、“碳酸饮料”,若其他某一个未被召回的对象L,其关联的一个标签“碳酸型饮料”,与第一目标检索对象K的标签“碳酸饮料”的相似度超过预设阈值,则对象L将作为相似对象,被确定为第二目标检索对象,添加到搜索结果中。
应用三、将标签标记的方法用于向用户终端展示对象信息。
生成搜索结果之后,服务端会将搜索结果中的目标检索对象返回给用户终端,控制用户终端展示对象信息。具体地,可以根据用户设置的筛选条件或根据获取用户的当前位置、历史行为等信息,确定目标检索对象的优先级排序,按照所述优先级排序,控制用户终端将一个或多个对象以图表列的形式展示给用户。
图5是一种用户终端展示对象信息的示例图。如图5所示,用户在团购软件中搜索“外婆”,应用本申请中标签标记的方法,获得了多个目标检索对象,根据用户的当前位置,将距离用户最近的“外婆卤肉饭(红牌楼店)”排在第一位展示给用户。
应用四、将标签标记的方法用于向用户终端主动推送对象。
生成搜索结果之后,服务端即获知了用户的可能的需求,还可以将搜索结果内的目标检索对象主动推送给用户,以便于用户快速选择需求的对象。
应用五、将标签标记的方法用于添加对象的描述文本。
标签文本在一定程度上可以反映被标记对象的相关信息,包括品牌、属性、类别等等。如果将一个对象的标签文本添加到该对象的描述文本中,在对象的展示页面中展示给用户,可以使用户更加直观地了解对象的信息。
因此,在本申请实施例中,在为所述目标对象标记所述待标记标签之后,还可以将所述待标记标签的文本添加到所述目标对象的描述文本中;控制显示终端显示所述目标对象的包含所述待标记标签的文本的描述文本。本实施例将标记后的标签的文本添加到对象的描述文本中,由终端显示这些描述文本,以此丰富对象的描述展示。
参照步骤12所述的应用示例进行举例说明,在本申请一种应用示例中,在为“川东辣子”标记了“火锅店”的标签之后,将“火锅店”的文本添加到“川东辣子”的描述文本中,则用户搜索“火锅店”,将利用网页或应用APP控制用户终端显示包含“火锅店”的描述文本,如“火锅店川东辣子”。如果用户在展示页面中只看到该商家“川东辣子”的描述文本,可能还不能确定该商家是做什么的,但是如果该商家的描述文本是“火锅店川东辣子”,用户能够清楚直观的了解这是一家火锅店。
最后,考虑到上述方法中多源的标签文本会不断更新,标签文本库数据量会逐渐增加,标签标记的数据计算量也将随之不断增加,为了减轻服务器数据库的负载压力,实现数据库长期高效的运行,在本申请实施例中,还可以根据数据库的负载能力,设置周期时序,定期剔除目标对象上长期未触发搜索正向行为的标签文本数据和标签标记数据,以降低数据库的负载压力,提高对象搜索的运算效率。所述搜索正向行为包括用户的搜索行为和用户在得到搜索结果后相应的目标行为,包括使用该搜索文本进行搜索、在搜索行为的结果页面中点击进入对象详情页、产生购买行为等。
基于同一发明构思,本申请一实施例提供一种标签标记的装置。图6示出了本申请一实施例提供的的标签标记装置的结构框图,参照图6所示,所述装置具体包括:
文本获取模块61,用于获得待标记标签的文本和目标对象的标识文本;
关联度预测模块62,用于将所述目标对象的标识文本和所述待标记标签的文本组成的文本对,输入预先训练的关联度预测模型,得到关联度得分;
标签标记模块63,用于在所述关联度得分大于预设阈值时,为所述目标对象标记所述待标记标签。
可选地,所述装置还包括:
描述文本添加模块,用于将所述待标记标签的文本添加到所述目标对象的描述文本中;
描述文本显示模块,用于控制显示终端显示所述目标对象的包含所述待标记标签的文本的描述文本。
可选地,所述装置还包括:
搜索文本获取模块,用于获得搜索文本;
文本匹配模块,用于将所述搜索文本与为多个对象标记的多个标签的文本分别进行匹配,所述多个对象包括第一目标检索对象;
第一目标检索对象确定模块,用于在所述搜索文本与为所述对象标记的一个标签的文本匹配时,将该标签所有标记的对象确定为第一目标检索对象;
第一搜索结果生成模块,用于将所述第一目标检索对象添加至第一目标检索对象集合,根据所述第一目标检索对象集合生成第一搜索结果,所述第一搜索结果包含所有的第一目标检索对象。
可选地,所述装置还包括:
标签获取模块,用于获得第一目标检索对象集合中所有的目标检索对象;
相似度比对模块,用于将所述第一目标检索对象的标签与为多个对象分别标记的各个标签进行相似度比较,所述多个对象包括第二目标检索对象;
第二目标检索对象确定模块,用于在所述第一目标检索对象的标签与为所述对象标记的一个标签之间的相似度大于预设相似度时,将该对象确定为第二目标检索对象;
第二搜索结果生成模块,用于将所述第二目标检索对象添加至第二目标检索对象集合,根据所述第一目标检索对象集合和所述第二目标检索对象集合生成第二搜索结果,所述第二搜索结果包含所有第一目标检索对象和所述第二目标检索对象。
可选地,所述装置还包括:
第一标签文本添加模块,用于获得目标搜索文本,从所述目标搜索文本中提取标签的文本并加入标签文本集合中,所述目标搜索文本是根据对应的搜索次数、转换率、搜索结果中至少一者确定的;
第二标签文本添加模块,用于对各个对象的文本进行实体识别,得到标签的文本并加入标签文本集合中,其中,一个对象的文本包括以下至少一者:该对象的描述文本、该对象的标识文本、该对象的品牌文本、该对象的属性文本;
标签文本获取模块,用于获得待标记标签的文本,包括:从所述标签文本集合中确定待标记标签的文本。
可选地,所述装置还包括:
搜索日志获取模块,用于获得样本对象的多个搜索日志,每个搜索日志包括用户输入的样本搜索请求和搜索引擎输出的包含样本对象的样本搜索结果;
第一样本对获取模块,用于在用户针对所述样本搜索结果包含的样本对象执行过预设操作的情况下,根据所述搜索请求和所述样本对象,生成正样本对;和/或
在用户针对所述样本搜索结果包含的样本对象未执行过所述预设操作的情况下,根据所述搜索请求和所述样本对象,生成负样本对。
可选地,所述装置还包括:
实体识别模块,用于对样本对象的文本进行实体识别,得到实体识别结果;
第二样本对获取模块,用于根据所述实体识别结果和所述样本对象,生成正样本对;和/或
根据除所述实体识别结果外的其他文本和所述样本对象,生成负样本对。
可选地,所述装置还包括:
基础模型获取模块,用于获得基础模型,所述基础模型用于识别两个文本之间的关联度,所述基础模型是以标记有关联度标签的样本文本对为训练样本,对第二预设模型进行训练后得到的;
基础模型训练模块,用于以所述多个样本对为训练样本,对所述基础模型进行训练,得到所述关联度预测模型。
可选地,所述装置还包括:
人工标记模块,用于针对所述文本对,输出标注提示,以对所述目标对象标记人工标记的标签;
预测模型更新模块,用于根据所述目标对象的标识文本和所述人工标记的标签的文本组成的文本对,对所述关联度预测模型进行更新。
基于同一发明构思,本申请另一实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种标签标记的方法、装置、电子设备及可读存储介质,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (12)
1.一种标签标记的方法,其特征在于,包括:
获得待标记标签的文本和目标对象的标识文本;
将所述目标对象的标识文本和所述待标记标签的文本组成的文本对,输入预先训练的关联度预测模型,得到关联度得分;
在所述关联度得分大于预设阈值时,为所述目标对象标记所述待标记标签。
2.根据权利要求1所述的方法,其特征在于,在为所述目标对象标记所述待标记标签之后,所述方法还包括:
将所述待标记标签的文本添加到所述目标对象的描述文本中;
控制显示终端显示所述目标对象的包含所述待标记标签的文本的描述文本。
3.根据权利要求1所述的方法,其特征在于,在为所述目标对象标记所述待标记标签之后,所述方法还包括:
获得搜索文本;
将所述搜索文本与为多个对象标记的多个标签的文本分别进行匹配,所述多个对象包括第一目标检索对象;
在所述搜索文本与为所述对象标记的一个标签的文本匹配时,将该标签所有标记的对象确定为第一目标检索对象;
将所述第一目标检索对象添加至第一目标检索对象集合,根据所述第一目标检索对象集合生成第一搜索结果,所述第一搜索结果包含所有的第一目标检索对象。
4.根据权利要求1所述的方法,其特征在于,在为所述目标对象标记所述待标记标签之后,所述方法还包括:
获得第一目标检索对象集合中所有的目标检索对象;
将所述第一目标检索对象的标签与为多个对象分别标记的各个标签进行相似度比较,所述多个对象包括第二目标检索对象;
在所述第一目标检索对象的标签与为所述对象标记的一个标签之间的相似度大于预设相似度时,将该对象确定为第二目标检索对象;
将所述第二目标检索对象添加至第二目标检索对象集合,根据所述第一目标检索对象集合和所述第二目标检索对象集合生成第二搜索结果,所述第二搜索结果包含所有第一目标检索对象和所述第二目标检索对象。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得目标搜索文本,从所述目标搜索文本中提取标签的文本并加入标签文本集合中,所述目标搜索文本是根据对应的搜索次数、转换率、搜索结果中至少一者确定的;或者
对各个对象的文本进行实体识别,得到标签的文本并加入标签文本集合中,其中,一个对象的文本包括以下至少一者:该对象的描述文本、该对象的标识文本、该对象的品牌文本、该对象的属性文本;
获得待标记标签的文本,包括:从所述标签文本集合中确定待标记标签的文本。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获得样本对象的多个搜索日志,每个搜索日志包括用户输入的样本搜索请求和搜索引擎输出的包含样本对象的样本搜索结果;
在用户针对所述样本搜索结果包含的样本对象执行过预设操作的情况下,根据所述搜索请求和所述样本对象,生成正样本对;和/或
在用户针对所述样本搜索结果包含的样本对象未执行过所述预设操作的情况下,根据所述搜索请求和所述样本对象,生成负样本对。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对样本对象的文本进行实体识别,得到实体识别结果;
根据所述实体识别结果和所述样本对象,生成正样本对;和/或
根据除所述实体识别结果外的其他文本和所述样本对象,生成负样本对。
8.根据权利要求1-7任一所述的方法,其特征在于,所述方法还包括:
获得基础模型,所述基础模型用于识别两个文本之间的关联度,所述基础模型是以标记有关联度标签的样本文本对为训练样本,对第二预设模型进行训练后得到的;
以所述多个样本对为训练样本,对所述基础模型进行训练,得到所述关联度预测模型。
9.根据权利要求1-7任一所述的方法,其特征在于,所述方法还包括:
针对所述文本对,输出标注提示,以对所述目标对象标记人工标记的标签;
根据所述目标对象的标识文本和所述人工标记的标签的文本组成的文本对,对所述关联度预测模型进行更新。
10.一种标签标记的装置,其特征在于,所述装置包括:
文本获取模块,用于获得待标记标签的文本和目标对象的标识文本;
关联度预测模块,用于将所述目标对象的标识文本和所述待标记标签的文本组成的文本对,输入预先训练的关联度预测模型,得到关联度得分;
标签标记模块,用于在所述关联度得分大于预设阈值时,为所述目标对象标记所述待标记标签。
11.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-9任一所述的方法中的步骤。
12.一种电子设备,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行时实现如权利要求1-9任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011300604.XA CN112507066A (zh) | 2020-11-18 | 2020-11-18 | 标签标记的方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011300604.XA CN112507066A (zh) | 2020-11-18 | 2020-11-18 | 标签标记的方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112507066A true CN112507066A (zh) | 2021-03-16 |
Family
ID=74958670
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011300604.XA Pending CN112507066A (zh) | 2020-11-18 | 2020-11-18 | 标签标记的方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112507066A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023103327A1 (zh) * | 2021-12-06 | 2023-06-15 | 深圳前海微众银行股份有限公司 | 一种标签匹配方法、装置、设备、计算机存储介质和程序 |
-
2020
- 2020-11-18 CN CN202011300604.XA patent/CN112507066A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023103327A1 (zh) * | 2021-12-06 | 2023-06-15 | 深圳前海微众银行股份有限公司 | 一种标签匹配方法、装置、设备、计算机存储介质和程序 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11907277B2 (en) | Method, apparatus, and computer program product for classification and tagging of textual data | |
CN110427563B (zh) | 一种基于知识图谱的专业领域系统冷启动推荐方法 | |
CN108536852B (zh) | 问答交互方法和装置、计算机设备及计算机可读存储介质 | |
US20180336193A1 (en) | Artificial Intelligence Based Method and Apparatus for Generating Article | |
CN107833082B (zh) | 一种商品图片的推荐方法和装置 | |
JP6515624B2 (ja) | 講義ビデオのトピックスを特定する方法及び非一時的なコンピュータ可読媒体 | |
CN111783518A (zh) | 训练样本生成方法、装置、电子设备及可读存储介质 | |
US9898464B2 (en) | Information extraction supporting apparatus and method | |
CN110955750A (zh) | 评论区域和情感极性的联合识别方法、装置、电子设备 | |
US11934785B2 (en) | Multi-task learning of query intent and named entities | |
CN107958406A (zh) | 查询数据的获取方法、装置及终端 | |
CN111260428A (zh) | 一种商品推荐方法和装置 | |
CN112084307A (zh) | 一种数据处理方法、装置、服务器及计算机可读存储介质 | |
CN112488781A (zh) | 搜索推荐方法、装置、电子设备及可读存储介质 | |
CN111428486B (zh) | 物品信息数据处理方法、装置、介质及电子设备 | |
CN112818088B (zh) | 商品搜索数据处理方法、装置、设备及存储介质 | |
CN112434173B (zh) | 搜索内容输出方法、装置、计算机设备及可读存储介质 | |
CN112507066A (zh) | 标签标记的方法、装置、电子设备及可读存储介质 | |
CN113988057A (zh) | 基于概念抽取的标题生成方法、装置、设备及介质 | |
CN111797622B (zh) | 用于生成属性信息的方法和装置 | |
CN112182126A (zh) | 用于确定匹配度的模型训练方法、装置、电子设备及可读存储介质 | |
CN116662495A (zh) | 问答处理方法、训练问答处理模型的方法及装置 | |
CN113868420A (zh) | 文本的特征的确定方法及装置 | |
CA3062986A1 (en) | Information pushing method and device based on search content | |
CN113139121A (zh) | 查询方法、模型训练方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |