CN104598439A - 信息对象的标题修正方法及装置和推送信息对象的方法 - Google Patents

信息对象的标题修正方法及装置和推送信息对象的方法 Download PDF

Info

Publication number
CN104598439A
CN104598439A CN201310528788.9A CN201310528788A CN104598439A CN 104598439 A CN104598439 A CN 104598439A CN 201310528788 A CN201310528788 A CN 201310528788A CN 104598439 A CN104598439 A CN 104598439A
Authority
CN
China
Prior art keywords
title
information object
participle
keyword
disappearance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310528788.9A
Other languages
English (en)
Other versions
CN104598439B (zh
Inventor
黄云平
王磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201310528788.9A priority Critical patent/CN104598439B/zh
Publication of CN104598439A publication Critical patent/CN104598439A/zh
Priority to HK15106035.7A priority patent/HK1205571A1/zh
Application granted granted Critical
Publication of CN104598439B publication Critical patent/CN104598439B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种信息对象的标题修正方法及装置和推送信息对象的方法,包括确定信息对象的一个或多个关联关键词;分别对信息对象的每一关联关键词及信息对象的标题分词;确定信息对象的标题对应于每一关联关键词的缺失分词;所述缺失分词包括在该关联关键词中出现但在信息对象标题中未出现的分词;及将对应于每一关联关键词的缺失分词分别插入到所述信息对象的标题中,分别形成对应于各关联关键词的标题。通过本申请方案,自动、快速地实现了基于关键词的广告标题的生成,降低了维护成本,而且通过对关键词与广告标题间相关度的检查,保证了动态插入关键词后广告标题的通顺性,从而提高了广告质量和推广效果。

Description

信息对象的标题修正方法及装置和推送信息对象的方法
技术领域
本申请涉及网络搜索领域,尤指一种信息对象的标题修正方法及装置和推送信息对象的方法。
背景技术
在搜索系统中,搜索引擎或信息发布系统可以根据用户输入的关键词提供与该关键词匹配的搜索结果。这里的搜索结果包括搜索引擎根据用户输入的关键词而向用户推荐的信息,比如广告信息。
搜索引擎或信息发布系统向用户推荐的信息通常是与该信息的发布方根据用户输入的关键词相关联的。搜索引擎预先为每一待发布的推荐信息指定关联的一个或多个关键词。当用户输入的关键词与待发布的推荐信息关联的关键词匹配或部分匹配时,将该推荐信息推送给用户,并随搜索结果页面展示。
所述的推荐信息需要能比较好的匹配用户的需求,因此,推荐信息的内容本身需要与该推荐信息的关联关键词具有良好的相关性。推荐信息的内容本身与该推荐信息的关联关键词的相关性较低时,搜索引擎进行信息推荐时,所推荐的信息将难以匹配用户的需求。
在这里,搜索引擎或信息发布系统向用户推送的推荐信息与关联关键词的相关性程度可以通过用户对该推荐信息的点击次数(或浏览次数)与该推荐信息的展现次数的比率来反映。
用户的需求可以通过用户输入的关键词反映,不同的关键词可以反映不同的用户需求。一般情况下,信息发布方在为待发布的推荐信息可以指定多个关联的关键词。对于引起用户的兴趣而言,推荐信息的标题具有重要的作用,因此,可以根据每一指定关联的关键词对应的用户需求为该推荐信息设置不同的标题。
因此,为了使得搜索引擎或信息发布系统推送的推荐信息能更好地引起用户的注意,可以在推荐信息的标题突出地显示与用户输入的关键词直接相关的部分内容。
由于用户使用的关键词变化比较快,相应地,信息发布方需要比较频繁地为待发布的推荐信息更新指定的关联关键词,以避免待发布的推荐信息与用户输入的关键词匹配效率过低的情形。
而待发布的推荐信息指定的关联关键词更新时,推荐信息对应于每一关联关键词的标题也需要相应地进行更新,如此,加大了搜索引擎或信息发布系统的信息处理量,降低了信息推荐的效率。
为了提升搜索引擎或信息发布系统推荐信息的效率,一种现有的技术是在推荐信息的标题中设置了一个或多个通配符。该通配符用于与关联关键词间的相互替代。当用户输入的关键词与信息发布方指定的某一关联关键词匹配时,在推荐信息的标题中使用该关联关键词替代所述通配符,将更新后的推荐信息向用户展示。
这样,信息发布方就不用为每个关联关键词设置标题,提升了搜索引擎或信息发布系统进行信息推荐的效率。
但是,通配符的使用在推荐信息的各关联关键词的结构比较类似时可能是比较适用的。但如果推荐信息的各关联关键词之间结构不相似,会因为对通配符的替换而导致广告标题的不通顺。
此外,信息发布方需要针对不同的关键关键词设定通配符的位置。这样一来,如果某一待发布的推荐信息的关联关键词的数据比较多时,该推荐信息的标题中的通配符的位置的设定将会是非常复杂的工作。可以看出,目前采用通配符的方式将关联关键词动态地插入到推荐信息的标题中的实现方式,需要信息发布方进行比较复杂维护工作。而且现有的方式未必能保证关联关键词与推荐信息的标题之间的相关度及推荐信息的标题的通顺度。
发明内容
为了解决上述技术问题,本申请提供了一种生成广告标题的方法及装置,能够快速更新广告标题,降低维护成本,从而提高广告质量和推广效果。
为了达到本申请目的,本申请提供一种信息对象的标题修正方法,包括:
确定信息对象的一个或多个关联关键词;
分别对信息对象的每一关联关键词及信息对象的标题进行分词处理;
确定信息对象的标题对应于每一关联关键词的缺失分词;所述缺失分词包括在该关联关键词中出现但在信息对象标题中未出现的分词;及
将对应于每一关联关键词的缺失分词分别插入到所述信息对象的标题中,分别形成对应于各关联关键词的标题。
所述方法还包括:
确定所述信息对象的关联关键词与所述信息对象的相关度;
当信息对象的关联关键词与所述信息对象的相关度大于或等于设定的相关度阈值时,执行将所述缺失分词分别插入到所述信息对象的标题的步骤。
所述确定信息对象的关联关键词与所述信息对象的相关度包括:
统计用户历史行为日志中用户搜索行为匹配到所述关联关键词时并向用户展示所述信息对象的次数,以及用户对基于所述搜索行为而展示的信息对象进行特定操作的次数;及
根据计算所述展示次数与特定操作的次数的比值确定所述关联关键词与所述信息对象的相关度。
所述相关度的确定方法还包括:
当所述展示次数与特定操作的次数的比值大于或等于设定的第一阈值时,则确定所述关联关键词与所述信息对象的相关度大于或等于设定的相关度阈值。
该方法还包括:根据确定关联关键词的类目和信息对象的类目是否一致,来确定关联关键词与信息对象的相关程度。
将所述缺失分词插入到所述信息对象的标题时,根据所述缺失分词与所述标题中各位置上的分词的相关度确定所述缺失分词的插入位置。
所述缺失分词为产品类分词时;所述选择缺失分词在信息对象的标题中的插入位置的方法包括:
确定信息对象的标题中的可插入位置;
分别计算缺失分词和在所述标题中每一个可插入位置相邻的两个分词的同现频率;
根据所述同现频率选择所述缺失分词的最佳插入位置。
本申请又提供一种信息对象的标题修正装置,包括预处理单元、相关度确定单元,以及生成单元,其中,
预处理单元,用于确定信息对象的一个或多个关联关键词,输出给分词单元;
分词单元,用于分别对信息对象的每一关联关键词及信息对象的标题进行分词处理,输出给确定单元;
确定单元,用于确定信息对象的标题对应于每一关联关键词的缺失分词,输出给确定单元;所述缺失分词包括在该关联关键词中出现但在信息对象标题中未出现的分词;
生成单元,用于将对应于每一关联关键词的缺失分词分别插入到所述信息对象的标题中,分别形成对应于各关联关键词的标题。
所述确定单元还用于,确定所述信息对象的关联关键词与所述信息对象的相关度;当信息对象的关联关键词与所述信息对象的相关度大于或等于设定的相关度阈值时,再将确定的缺失分词输出给生成单元。
所述确定单元确定相关度时,具体用于:
统计用户历史行为日志中用户搜索行为匹配到所述关联关键词时并向用户展示所述信息对象的次数,以及用户对基于所述搜索行为而展示的信息对象进行特定操作的次数;及
根据计算所述展示次数与特定操作的次数的比值确定所述关联关键词与所述信息对象的相关度。
所述确定单元,进一步用于根据确定关联关键词的类目和信息对象的类目是否一致,来确定关联关键词与信息对象的相关程度。
所述确定单元,还用于当所述展示次数与特定操作的次数的比值大于或等于设定的第一阈值时,则确定所述关联关键词与所述信息对象的相关度大于或等于设定的相关度阈值。
所述生成单元,具体用于:将所述缺失分词插入到所述信息对象的标题时,根据所述缺失分词与所述标题中各位置上的分词的相关度确定所述缺失分词的插入位置。
所述生成单元还用于,根据广告主偏好因素确定缺失分词在广告标题中的插入位置。
所述缺失分词为产品类分词;所述生成单元具体用于,确定信息对象的标题中的可插入位置;
分别计算缺失分词和在所述标题中每一个可插入位置相邻的两个分词的同现频率;
根据所述同现频率选择所述缺失分词的最佳插入位置。
本申请还提供一种推送信息对象的方法,包括:
接收用户输入的搜索词,确定用户输入的搜索词匹配的关联关键词,并确定所述关联关键词预先关联的信息对象;
对所述关联关键词及信息对象的标题进行分词处理;
比较所述关联关键词的分词序列和所述标题的分词序列,将在所述关联关键词的分词序列中出现但未在所述标题的分词序列中出现的分词作为所述标题对应于所述关联关键词的缺失分词;
将所述缺失分词插入到所述标题中,分别形成所述信息对象对应于所述关联关键词的修正后的标题;
根据关联关键词对信息对象的标题进行修改,将关联关键词中未曾出现在信息对象的标题的分词插入所述标题中;
将标题修正后的信息对象展示给用户。
本申请提供的方案包括确定信息对象的一个或多个关联关键词;分别对信息对象的每一关联关键词及信息对象的标题进行分词处理;确定信息对象的标题对应于每一关联关键词的缺失分词;所述缺失分词包括在该关联关键词中出现但在信息对象标题中未出现的分词;及将对应于每一关联关键词的缺失分词分别插入到所述信息对象的标题中,分别形成对应于各关联关键词的标题。通过本申请方案,自动、快速地实现了基于关键词的广告标题的生成,降低了维护成本,而且通过对关键词与广告标题间相关度的检查,以及通过双层转移模型,即缺失的词的类型(type)之间的转移模型,和缺失的词之间的转移模型,选择缺失分词在广告标题中的插入位置,保证了动态插入关键词后广告标题的通顺性,从而提高了广告质量和推广效果。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请信息对象的标题修正方法的流程图;
图2为本申请向用户推送信息的方法的流程图
图3为本申请信息对象的标题修正的装置的组成结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
在本申请一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1为本申请信息对象的标题修正方法的流程图。该方法包括:
步骤100:确定信息对象的一个或多个关联关键词。
所述关联关键词包括信息发布方指定的与信息对象相关联的关键词。当用户输入的搜索词与信息对象的任一关联关键词匹配时,搜索引擎或信息发布系统向用户推送该信息对象。
步骤101:分别对信息对象的每一关联关键词及信息对象的标题进行分词处理。
本步骤中,信息对象的每一关联关键词可以包括一个或多个分词。对信息对象的每一关联关键词及信息对象的标题分别进行分词处理后,可以得到每一关联关键词的分词序列和信息对象的标题的分词序列。
步骤102:确定信息对象的标题对应于每一关联关键词的缺失分词;所述缺失分词包括在该关联关键词中出现但在信息对象标题中未出现的分词。
本步骤中,对于每一个关联关键词,判断所述关联关键词的分词序列中是否存在未在标题中出现,如果存在这样的分词,则确定该分词为信息对象的标题对应于该关联关键词的缺失分词。
步骤103:将对应于每一关联关键词的缺失分词分别插入到所述信息对象的标题中,分别形成对应于各关联关键词的标题。
不同关联关键词对应的标题可以不同。也就是说,在本申请实施例中为每一个用于与用户输入的搜索词匹配的关联关键词分别分配信息对象的标题。
可以理解地,在信息对象的各关联关键词中可能存在与所述信息对象相关度并不高的关联关键词,对于这部分关联关键词,可以不用进行所述信息对象的标题的修改。
因此,本申请实施例还可以包括:根据用户历史行为日志确定信息对象的关联关键词与所述信息对象的相关度;当信息对象的关联关键词与所述信息对象的相关度大于或等于设定的相关度阈值时,则执行步骤103将缺失分词分别插入到所述信息对象的标题中;否则,不执行步骤103。
其中,用户历史行为日志确定信息对象的关联关键词与所述信息对象的相关度的方法包括:
统计用户历史行为日志中用户搜索行为匹配到所述关联关键词时并向用户展示所述信息对象的次数,以及用户对基于所述搜索行为而展示的信息对象进行特定操作(比如点击浏览、收藏或保存等操作行为)的次数;及
根据计算所述展示次数与特定操作的次数的比值确定所述关联关键词与所述信息对象的相关度。
当所述展示次数与特定操作的次数的比值较高时,赋予所述关联关键词与所述信息对象较高的相关度值;当所述展示次数与特定操作的次数的比值较低时,赋予所述关联关键词与所述信息对象较低的相关度值。
当所述展示次数与特定操作的次数的比值大于或等于设定的第一阈值时,则确定所述关联关键词与所述信息对象的相关度大于或等于设定的相关度阈值。
当所述信息对象为商品信息时,本步骤中还可以根据确定关联关键词的类目和信息对象的类目是否一致,来确定缺失分词与广告标题的相关程度。确定关联关键词的类目和信息对象的类目是否一致包括:对关联关键词和信息对象分别进行分类,确定每一关联关键词的最相关类目与信息对象的最相关类目,如果该关联关键词与信息对象的最相关类目一致,则确定该关联关键词与信息对象的相关度满足设定的相关度阈值。
在步骤103中,将所述缺失分词插入到所述信息对象的标题时,根据所述缺失分词与所述标题中各位置上的分词的相关度确定所述缺失分词的插入位置。
所述缺失分词的插入位置的选择方法包括如下子步骤:
确定信息对象的标题中的可插入位置;
分别计算缺失分词和在所述标题中每一个可插入位置相邻的两个分词的同现频率;及
根据所述同现频率选择所述缺失分词的最佳插入位置。
具体的,在选择所述缺失分词的插入位置时还可以采用双层转移模型,即不仅考虑缺失分词与各标题分词同现次数的比较,也考虑缺失分词的类型(type)与标题中各分词的类型的同现次数的比较,以此选择缺失分词在所述标题中的最佳插入位置,以保证标题的通顺。
缺失分词分为产品词和非产品词两种类型,其中产品词是指如手机、电视机、裙子等能够体现产品类别的词,非产品词是指如双卡双待、等离子、中大童等不能体现产品类别的词。下面具体介绍各自的选择缺失分词在广告标题中的插入位置的具体方法:
以信息对象为广告为例,对于缺失的关联关键词,选择其在广告标题中的插入位置包括:
首先,对广告标题中的每一个位置pos,按照公式(1)计算其初始得分startscore(pos),
startscore(pos)=1.0/(5+fabs(pos-j))     (1)
在公式(1)中,j是广告标题中产品词的位置,fabs表示取绝对值运算。
如果在广告标题中存在多个产品词,选择fabs(pos-j)的值最小的那个来计算当前位置pos的初始得分startscore(pos);如果在广告标题中没有产品词,则广告标题中的每一个位置的初始得分startscore(pos)都为初始值1/15;如果当前位置pos在括号中,那么,该位置的初始得分startscore(pos)乘以a(例如0.5)后作为其初始得分,a是一个预先设置的打折因子,其取值在0到1之间的一个数,需要说明的是,由于不希望term插入到括号中,因此对括号中的位置的得分做了打折,即人为降低其得分。
接着,对广告标题中的每一个位置pos,按照公式(1)计算其最终得分score(pos),
score[pos]=startscore[pos]*co(term[pos-1],t)    (2)
*co(type[pos-1],type)
公式(2)中,t和type分别表示缺失的词及其类型,这里,词(term)是小粒度的词,例如“白色”,而“白色连衣裙”是关键词。term[pos-1]是位于第(pos-1)个位置的词。当缺失的词t和term[pos-1]在关键词中出现即<term[pos-1],t >是关联关键词中的一部分时,对co(term[pos-1],t)进行放大,将其乘以b,b是一个预先设置的大于1的数值。
其中,co(term[pos-1],t)表示缺失分词与位于第(pos-1)个位置的词的同现次数,其中,co(type[pos-1],type)表示缺失分词的类型与位于第(pos-1)个位置的词的类型同现次数,type表示缺失分词的类型,如产品词、非产品词。同现次数参数是预先通过广告库的广告标题来统计并存储好的,具体的统计方法属于本领域技术人员的惯用技术手段,并不用于限定本申请的保护范围。根据上述计算,选择广告标题中的得分最大的位置maxpos作为该缺失分词在广告标题中的插入位置。如果通过上述计算后广告标题中的所有位置得分都为0,则表明不可插入,可返回该位置的最终得分为-1。
对于缺失的非产品类关键词,选择其在广告标题中的插入位置包括:
在关键词中查找与该缺失的词相关的产品词,
一方面,如果在关键词中查找到该缺失的词相关的产品词,那么,
寻找该相关的产品词在广告标题中出现的位置pos2,如果该位置pos2的得分不为-1(-1表示没有找到),那么,
要是缺失的词位于相关的产品词的左边,那么,从位置pos2往左寻找插入位置insertpos,title[insertpos]到title[pos2]这个子串,与关键词中的缺失的词到产品词之间的这个子串相同,假设关键词是“ABC”,广告标题为“。。。BC。。。,C”的位置为pos2,为了不让缺失关键词插入到BC之间,那么,insertpos从pos2-2开始,向左扫描,通过向左扫描,按照公式(3)计算每一个候选插入位置insertpos的得分,
score[insertpos]=startscore[insertpos]*co(term[insertpos-1],t)*co(t,term[insertpos-1])   (3)
*co(type[insertpos-1],type)*co(type,type[insertpos])
公式(3)中,startscore[]的计算与公式(1)一致。
如果关键词位于相关的产品词的右边,那么,从位置pos2往右寻找插入位置insertpos,title[pos2]到title[insertpos-1]这个子串,与关键词中的产品词到缺失词之间的这个子串相同。按照公式(4)计算插入位置insertpos的得分,
score[insertpos]=startscore[insertpos]*co(term[insertpos-1],t)*co(t,term[insertpos])   (4)
*co(type[insertpos-1],type)*co(type,type[insertpos])
公式(4)中,startscore[]的计算与公式(1)一致。
根据计算,选择广告标题中的得分最大的位置maxpos作为该缺失分词在广告标题中的插入位置。如果通过上述计算后广告标题中的所有位置得分都为0,则表明不可插入,可返回该位置的最终得分为-1。
另一方面,如果在缺失分词中未查找到与该非产品词相关的产品词,那么,对广告标题中的每一个位置pos,按照公式(1)计算其初始得分startscore(pos),然后对广告标题中的每一个位置pos,按照公式(5)计算其最终得分score(pos),
score[pos]=startscore[pos]*co(term[pos-1],t)*co(t,term[pos])   (5)
*co(type[pos-1],type)*co(type,type[pos])
公式(5)中,当<缺失词t,term[pos-1]>对或<缺失词t,term[pos]>对在关联关键词中出现时,对co(term[pos-1],t)或co(t,term[pos]进行放大,将其乘以b,b是一个预先设置的大于1的数值。
根据计算结果,选择广告标题中的得分最大的位置maxpos作为该缺失分词在广告标题中的插入位置。如果通过上述计算后广告标题中的所有位置得分都为0,则表明不可插入,可返回该位置的最终得分为-1。
在步骤102的选择缺失分词在广告标题中的插入位置中,最重要的是计算关键系之间的转移关系,关键词的类型之间的转移关系。由于关键词及其类型都是使用分词和词性标注得到的结果,因此,可以通过对广告库中的所有广告标题进行分词和词性标注,得到任意两个关键词对<term1,term2>的同现次数co(term1,term2),以及关键词类型对<type1,type2>的同现次数co(type1,type2),作为其转移关系。这个是线下预先统计的,通过广告库的广告标题来统计。
通过本申请方法,自动、快速地实现了基于关键词的广告标题的生成,降低了维护成本;而且通过对关键词与广告标题间相关度的检查,以及通过双层转移模型,即缺失的词的类型(type)之间的转移模型,和缺失的词(term)之间的转移模型,选择缺失分词在广告标题中的插入位置,保证了动态插入关键词后广告标题的通顺性,从而提高了广告质量和推广效果。
本申请方法还包括:在判断缺失分词是否能插入广告标题时,还可以进一步引入广告主偏好因素,比如广告主可以人工指定,或者根据关键词在这个广告标题中的展现点击情况来判断等。以及,
在计算term或type直接的转移概率时,可以进一步扩大数据规模,不仅采用广告库中的广告标题,还可以使用用户的查询集合等。这样能更好地保证了动态插入关键词后广告标题的通顺性。
本申请实施例也提供了一种向用户推送信息的方法,如图2所示,包括:
步骤200:接收用户输入的搜索词,确定用户输入的搜索词匹配的关联关键词,并确定所述关联关键词所关联的信息对象。
信息对象的关联关键词可以是预先由信息发布方通过搜索引擎或信息发布系统指定。通过指定信息对象的关联关键词,将信息对象与关联关键词建立对应的关联关系。
确定用户输入的搜索词与关联关键词的匹配可以是精确匹配,也可以是扩展匹配。这里的精确匹配是指用户输入的搜索词与某一关联关键词完全一致或互为同义词时的匹配情形。扩展匹配是指按照设定的扩展匹配算法用户输入的搜索词与某一关联关键词满足特定的相似度要求时的匹配情形。比如,用户输入的搜索词中的特定分词(如中心词、产品词等)与某一关联关键词相同时,可以认为用户输入的搜索词与该关联关键词形成扩展匹配。
步骤201:对所述关联关键词及信息对象的标题进行分词处理。
对所述关联关键词及信息对象的标题进行分词处理可以分别得到所述关联关键词的分词序列和信息对象的标题的分词序列。
步骤202:比较所述关联关键词的分词序列和所述标题的分词序列,将在所述关联关键词的分词序列中出现但未在所述标题的分词序列中出现的分词作为所述标题对应于所述关联关键词的缺失分词。
步骤203:将所述缺失分词插入到所述标题中,分别形成所述信息对象对应于所述关联关键词的修正后的标题。
根据关联关键词对信息对象的标题进行修改,将关联关键词中未曾出现在信息对象的标题的分词插入所述标题中。根据不同的关联关键词包括的分词的差别,可以分别得到所述信息对象的不同的标题。
步骤204:将标题修正后的信息对象返回给用户展示。
标题修正后的信息对象可以随用户输入的搜索词对应的搜索结果一同返回给用户,并在搜索结果页面上加载显示。
图3为本申请生成广告标题的装置的组成结构示意图,如图3所示,包括预处理单元、确定单元,以及生成单元,其中,
预处理单元,用于确定信息对象的一个或多个关联关键词,输出给分词单元;
分词单元,用于分别对信息对象的每一关联关键词及信息对象的标题分词,输出给确定单元;
确定单元,用于确定信息对象的标题对应于每一关联关键词的缺失分词,输出给确定单元;所述缺失分词包括在该关联关键词中出现但在信息对象标题中未出现的分词;
生成单元,用于将对应于每一关联关键词的缺失分词分别插入到所述信息对象的标题中,分别形成对应于各关联关键词的标题。
其中,确定单元还用于,确定所述信息对象的关联关键词与所述信息对象的相关度;当信息对象的关联关键词与所述信息对象的相关度大于或等于设定的相关度阈值时,再将确定的缺失分词输出给生成单元。
在确定单元确定相关度时,具体用于:
统计用户历史行为日志中用户搜索行为匹配到所述关联关键词时并向用户展示所述信息对象的次数,以及用户对基于所述搜索行为而展示的信息对象进行特定操作的次数;及
根据计算所述展示次数与特定操作的次数的比值确定所述关联关键词与所述信息对象的相关度。
确定单元,进一步用于根据确定关联关键词的类目和信息对象的类目是否一致,来确定关联关键词与信息对象的相关程度。
确定单元,还用于当所述展示次数与特定操作的次数的比值大于或等于设定的第一阈值时,则确定所述关联关键词与所述信息对象的相关度大于或等于设定的相关度阈值。
生成单元,具体用于:将所述缺失分词插入到所述信息对象的标题时,根据所述缺失分词与所述标题中各位置上的分词的相关度确定所述缺失分词的插入位置。
生成单元还用于,根据广告主偏好因素确定缺失分词在广告标题中的插入位置;
在缺失分词为产品类分词时,生成单元具体用于,确定信息对象的标题中的可插入位置;
分别计算缺失分词和在所述标题中每一个可插入位置相邻的两个分词的同现频率;
根据所述同现频率选择所述缺失分词的最佳插入位置。
本领域的技术人员应该明白,上述的本申请实施例所提供的装置的各组成部分,以及方法中的各步骤,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上。可选地,它们可以用计算装置可执行的程序代码来实现。从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (16)

1.一种信息对象的标题修正方法,其特征在于,包括:
确定信息对象的一个或多个关联关键词;
分别对信息对象的每一关联关键词及信息对象的标题进行分词处理;
确定信息对象的标题对应于每一关联关键词的缺失分词;所述缺失分词包括在该关联关键词中出现但在信息对象标题中未出现的分词;及
将对应于每一关联关键词的缺失分词分别插入到所述信息对象的标题中,分别形成对应于各关联关键词的标题。
2.根据权利要求1所述的标题修正方法,其特征在于,所述方法还包括:
确定所述信息对象的关联关键词与所述信息对象的相关度;
当信息对象的关联关键词与所述信息对象的相关度大于或等于设定的相关度阈值时,执行将所述缺失分词分别插入到所述信息对象的标题的步骤。
3.根据权利要求2所述的标题修正方法,其特征在于,所述确定信息对象的关联关键词与所述信息对象的相关度包括:
统计用户历史行为日志中用户搜索行为匹配到所述关联关键词时并向用户展示所述信息对象的次数,以及用户对基于所述搜索行为而展示的信息对象进行特定操作的次数;及
根据计算所述展示次数与特定操作的次数的比值确定所述关联关键词与所述信息对象的相关度。
4.根据权利要求3所述的标题修正方法,其特征在于,所述相关度的确定方法还包括:
当所述展示次数与特定操作的次数的比值大于或等于设定的第一阈值时,则确定所述关联关键词与所述信息对象的相关度大于或等于设定的相关度阈值。
5.根据权利要求2所述的标题修正方法,其特征在于,该方法还包括:根据确定关联关键词的类目和信息对象的类目是否一致,来确定关联关键词与信息对象的相关程度。
6.根据权利要求1所述的标题修正方法,其特征在于,将所述缺失分词插入到所述信息对象的标题时,根据所述缺失分词与所述标题中各位置上的分词的相关度确定所述缺失分词的插入位置。
7.根据权利要求6所述的标题修正方法,其特征在于,所述缺失分词为产品类分词时;所述选择缺失分词在信息对象的标题中的插入位置的方法包括:
确定信息对象的标题中的可插入位置;
分别计算缺失分词和在所述标题中每一个可插入位置相邻的两个分词的同现频率;
根据所述同现频率选择所述缺失分词的最佳插入位置。
8.一种信息对象的标题修正装置,其特征在于,包括预处理单元、相关度确定单元,以及生成单元,其中,
预处理单元,用于确定信息对象的一个或多个关联关键词,输出给分词单元;
分词单元,用于分别对信息对象的每一关联关键词及信息对象的标题进行分词处理,输出给确定单元;
确定单元,用于确定信息对象的标题对应于每一关联关键词的缺失分词,输出给确定单元;所述缺失分词包括在该关联关键词中出现但在信息对象标题中未出现的分词;
生成单元,用于将对应于每一关联关键词的缺失分词分别插入到所述信息对象的标题中,分别形成对应于各关联关键词的标题。
9.根据权利要求8所述的标题修正装置,其特征在于,所述确定单元还用于,确定所述信息对象的关联关键词与所述信息对象的相关度;当信息对象的关联关键词与所述信息对象的相关度大于或等于设定的相关度阈值时,再将确定的缺失分词输出给生成单元。
10.根据权利要求8所述的标题修正装置,其特征在于,所述确定单元确定相关度时,具体用于:
统计用户历史行为日志中用户搜索行为匹配到所述关联关键词时并向用户展示所述信息对象的次数,以及用户对基于所述搜索行为而展示的信息对象进行特定操作的次数;及
根据计算所述展示次数与特定操作的次数的比值确定所述关联关键词与所述信息对象的相关度。
11.根据权利要求10所述的标题修正装置,其特征在于,所述确定单元,进一步用于根据确定关联关键词的类目和信息对象的类目是否一致,来确定关联关键词与信息对象的相关程度。
12.根据权利要求8所述的标题修正装置,其特征在于,所述确定单元,还用于当所述展示次数与特定操作的次数的比值大于或等于设定的第一阈值时,则确定所述关联关键词与所述信息对象的相关度大于或等于设定的相关度阈值。
13.根据权利要求12所述的标题修正装置,其特征在于,所述生成单元,具体用于:将所述缺失分词插入到所述信息对象的标题时,根据所述缺失分词与所述标题中各位置上的分词的相关度确定所述缺失分词的插入位置。
14.根据权利要求13所述的标题修正装置,其特征在于,所述生成单元还用于,根据广告主偏好因素确定缺失分词在广告标题中的插入位置。
15.根据权利要求14所述的修正装置,其特征在于,所述缺失分词为产品类分词;所述生成单元具体用于,确定信息对象的标题中的可插入位置;
分别计算缺失分词和在所述标题中每一个可插入位置相邻的两个分词的同现频率;
根据所述同现频率选择所述缺失分词的最佳插入位置。
16.一种推送信息对象的方法,其特征在于,包括:
接收用户输入的搜索词,确定用户输入的搜索词匹配的关联关键词,并确定所述关联关键词预先关联的信息对象;
对所述关联关键词及信息对象的标题进行分词处理;
比较所述关联关键词的分词序列和所述标题的分词序列,将在所述关联关键词的分词序列中出现但未在所述标题的分词序列中出现的分词作为所述标题对应于所述关联关键词的缺失分词;
将所述缺失分词插入到所述标题中,分别形成所述信息对象对应于所述关联关键词的修正后的标题;
根据关联关键词对信息对象的标题进行修改,将关联关键词中未曾出现在信息对象的标题的分词插入所述标题中;
将标题修正后的信息对象展示给用户。
CN201310528788.9A 2013-10-30 2013-10-30 信息对象的标题修正方法及装置和推送信息对象的方法 Active CN104598439B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310528788.9A CN104598439B (zh) 2013-10-30 2013-10-30 信息对象的标题修正方法及装置和推送信息对象的方法
HK15106035.7A HK1205571A1 (zh) 2013-10-30 2015-06-25 信息對象的標題修正方法及裝置和推送信息對象的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310528788.9A CN104598439B (zh) 2013-10-30 2013-10-30 信息对象的标题修正方法及装置和推送信息对象的方法

Publications (2)

Publication Number Publication Date
CN104598439A true CN104598439A (zh) 2015-05-06
CN104598439B CN104598439B (zh) 2021-03-05

Family

ID=53124242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310528788.9A Active CN104598439B (zh) 2013-10-30 2013-10-30 信息对象的标题修正方法及装置和推送信息对象的方法

Country Status (2)

Country Link
CN (1) CN104598439B (zh)
HK (1) HK1205571A1 (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017063519A1 (zh) * 2015-10-16 2017-04-20 阿里巴巴集团控股有限公司 一种标题展示方法及装置
CN106610927A (zh) * 2016-12-19 2017-05-03 厦门二五八网络科技集团股份有限公司 一种基于翻译模板的互联网文章的建构方法与系统
CN107463600A (zh) * 2017-06-12 2017-12-12 百度在线网络技术(北京)有限公司 广告投放关键词推荐方法及装置、广告投放方法及装置
CN107506374A (zh) * 2017-07-14 2017-12-22 北京赛时科技有限公司 邮箱作者对应方法和装置及计算机可读存储介质
CN107608983A (zh) * 2016-07-11 2018-01-19 阿里巴巴集团控股有限公司 标题信息优化方法、装置、设备及系统
CN108229990A (zh) * 2016-12-14 2018-06-29 北京奇虎科技有限公司 一种广告标题生成方法、装置和设备
CN108269112A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 广告创意的更新方法及装置
CN109451018A (zh) * 2018-11-07 2019-03-08 掌阅科技股份有限公司 信息对象的推送方法、计算设备及计算机存储介质
CN110532344A (zh) * 2019-08-06 2019-12-03 北京如优教育科技有限公司 基于深度神经网络模型的自动选题系统
CN112016307A (zh) * 2020-08-13 2020-12-01 深圳市欢太科技有限公司 一种文本信息的标题生成方法、电子设备和存储介质
CN112132601A (zh) * 2019-06-25 2020-12-25 百度在线网络技术(北京)有限公司 广告标题改写方法、装置和存储介质
CN112528629A (zh) * 2019-08-29 2021-03-19 上海卓繁信息技术股份有限公司 语句通顺度判别方法及系统
US11328186B2 (en) * 2015-11-11 2022-05-10 Samsung Electronics Co., Ltd. Device and method for processing metadata

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005017784A1 (en) * 2003-08-14 2005-02-24 Google, Inc. A system and a method for presenting multiple sets of search results for a single query
CN102306201A (zh) * 2011-09-30 2012-01-04 邢飞 一种网页标题分析的方法和系统
CN102339294A (zh) * 2010-07-27 2012-02-01 卓望数码技术(深圳)有限公司 一种对关键词进行预处理的搜索方法和系统
CN102360358A (zh) * 2011-09-28 2012-02-22 百度在线网络技术(北京)有限公司 关键词推荐方法及系统
CN102790727A (zh) * 2011-05-19 2012-11-21 腾讯科技(深圳)有限公司 一种动态推送用户个人标签的方法和系统
US8504567B2 (en) * 2010-08-23 2013-08-06 Yahoo! Inc. Automatically constructing titles
CN103377232A (zh) * 2012-04-25 2013-10-30 阿里巴巴集团控股有限公司 标题关键词推荐方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005017784A1 (en) * 2003-08-14 2005-02-24 Google, Inc. A system and a method for presenting multiple sets of search results for a single query
CN102339294A (zh) * 2010-07-27 2012-02-01 卓望数码技术(深圳)有限公司 一种对关键词进行预处理的搜索方法和系统
US8504567B2 (en) * 2010-08-23 2013-08-06 Yahoo! Inc. Automatically constructing titles
CN102790727A (zh) * 2011-05-19 2012-11-21 腾讯科技(深圳)有限公司 一种动态推送用户个人标签的方法和系统
CN102360358A (zh) * 2011-09-28 2012-02-22 百度在线网络技术(北京)有限公司 关键词推荐方法及系统
CN102306201A (zh) * 2011-09-30 2012-01-04 邢飞 一种网页标题分析的方法和系统
CN103377232A (zh) * 2012-04-25 2013-10-30 阿里巴巴集团控股有限公司 标题关键词推荐方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
胡毅: "搜索引擎优化及其应用研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018537759A (ja) * 2015-10-16 2018-12-20 アリババ・グループ・ホールディング・リミテッドAlibaba Group Holding Limited タイトル表示方法及び装置
CN107038186A (zh) * 2015-10-16 2017-08-11 阿里巴巴集团控股有限公司 生成标题、搜索结果展示、标题展示的方法及装置
WO2017063519A1 (zh) * 2015-10-16 2017-04-20 阿里巴巴集团控股有限公司 一种标题展示方法及装置
US11328186B2 (en) * 2015-11-11 2022-05-10 Samsung Electronics Co., Ltd. Device and method for processing metadata
CN107608983B (zh) * 2016-07-11 2021-03-30 阿里巴巴集团控股有限公司 标题信息优化方法、装置、设备及系统
CN107608983A (zh) * 2016-07-11 2018-01-19 阿里巴巴集团控股有限公司 标题信息优化方法、装置、设备及系统
CN108229990B (zh) * 2016-12-14 2023-08-15 三六零科技集团有限公司 一种广告标题生成方法、装置和设备
CN108229990A (zh) * 2016-12-14 2018-06-29 北京奇虎科技有限公司 一种广告标题生成方法、装置和设备
CN106610927A (zh) * 2016-12-19 2017-05-03 厦门二五八网络科技集团股份有限公司 一种基于翻译模板的互联网文章的建构方法与系统
CN108269112A (zh) * 2016-12-30 2018-07-10 北京国双科技有限公司 广告创意的更新方法及装置
CN107463600A (zh) * 2017-06-12 2017-12-12 百度在线网络技术(北京)有限公司 广告投放关键词推荐方法及装置、广告投放方法及装置
CN107506374A (zh) * 2017-07-14 2017-12-22 北京赛时科技有限公司 邮箱作者对应方法和装置及计算机可读存储介质
CN107506374B (zh) * 2017-07-14 2020-02-21 北京赛时科技有限公司 邮箱作者对应方法和装置及计算机可读存储介质
CN109451018A (zh) * 2018-11-07 2019-03-08 掌阅科技股份有限公司 信息对象的推送方法、计算设备及计算机存储介质
CN109451018B (zh) * 2018-11-07 2021-03-19 掌阅科技股份有限公司 信息对象的推送方法、计算设备及计算机存储介质
CN112132601A (zh) * 2019-06-25 2020-12-25 百度在线网络技术(北京)有限公司 广告标题改写方法、装置和存储介质
CN112132601B (zh) * 2019-06-25 2023-07-25 百度在线网络技术(北京)有限公司 广告标题改写方法、装置和存储介质
CN110532344A (zh) * 2019-08-06 2019-12-03 北京如优教育科技有限公司 基于深度神经网络模型的自动选题系统
CN112528629A (zh) * 2019-08-29 2021-03-19 上海卓繁信息技术股份有限公司 语句通顺度判别方法及系统
CN112016307A (zh) * 2020-08-13 2020-12-01 深圳市欢太科技有限公司 一种文本信息的标题生成方法、电子设备和存储介质

Also Published As

Publication number Publication date
HK1205571A1 (zh) 2015-12-18
CN104598439B (zh) 2021-03-05

Similar Documents

Publication Publication Date Title
CN104598439A (zh) 信息对象的标题修正方法及装置和推送信息对象的方法
US9152674B2 (en) Performing application searches
US8645385B2 (en) System and method for automating categorization and aggregation of content from network sites
TWI652584B (zh) 文本資訊的匹配、業務對象的推送方法和裝置
KR101936362B1 (ko) 광고 캠페인 생성
WO2020248849A1 (zh) 一种网页语言的切换方法、装置及终端设备
US20130060769A1 (en) System and method for identifying social media interactions
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN104951468A (zh) 数据搜索处理方法和系统
CN102214208B (zh) 一种基于非结构化文本生成结构化信息实体的方法与设备
JP2015191655A (ja) 推奨ページを生成するための方法及び装置
CN109918555B (zh) 用于提供搜索建议的方法、装置、设备和介质
CN111046221A (zh) 歌曲推荐方法、装置、终端设备以及存储介质
US20150046781A1 (en) Browsing images via mined hyperlinked text snippets
CN104866511A (zh) 一种添加多媒体文件的方法及设备
WO2015185020A1 (en) Information category obtaining method and apparatus
US20230086735A1 (en) Systems and methods for retrieving videos using natural language description
CN110750975B (zh) 介绍文本生成方法及装置
CN108470289B (zh) 基于电商购物平台的虚拟物品发放方法及设备
CN116340617B (zh) 一种搜索推荐方法和装置
JP5310196B2 (ja) 分類体系改正支援プログラム、分類体系改正支援装置、および分類体系改正支援方法
Singh et al. Multi-feature segmentation and cluster based approach for product feature categorization
CN104102738A (zh) 一种扩充实体库的方法及装置
JP2008225584A (ja) 物品推薦装置、物品推薦システム、物品推薦方法及び物品推薦プログラム
JP6816621B2 (ja) 判別方法、判別プログラム及び判別装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1205571

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant