CN106708813A - 一种标题处理方法及设备 - Google Patents

一种标题处理方法及设备 Download PDF

Info

Publication number
CN106708813A
CN106708813A CN201510412405.0A CN201510412405A CN106708813A CN 106708813 A CN106708813 A CN 106708813A CN 201510412405 A CN201510412405 A CN 201510412405A CN 106708813 A CN106708813 A CN 106708813A
Authority
CN
China
Prior art keywords
presented
original header
title
word
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510412405.0A
Other languages
English (en)
Inventor
欧开日
顾洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510412405.0A priority Critical patent/CN106708813A/zh
Publication of CN106708813A publication Critical patent/CN106708813A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种标题处理方法及设备,在本案中,在进行标题的展示时,针对每一待展示原始标题,可仅展示由至少一个用于反映该待展示原始标题的关键语义的关键语义词所形成的、所占用的字数不大于设定第一阈值的短标题,从而避免了仅截取标题前面一部分内容进行展示时,展示内容并不准确的问题,同时,由于展示的标题包含有原始标题的关键语义信息,因而,可直接根据展示的标题获取物品的内容信息,从而提高了物品信息获取的效率。

Description

一种标题处理方法及设备
技术领域
本申请涉及互联网技术领域,尤其涉及一种标题处理方法及设备。
背景技术
目前,对于互联网搜索平台等互联网平台来说,其所存储的物品标题的长度一般为26个汉字左右,一方面可达到为相应物品展示用户获取更多的访问流量的效果,另一方面还可达到更为充分地描述各物品的内容信息,以给访问用户提供较为丰富的参考信息的效果。
但是,对于安装在智能手机、平板电脑等终端上的互联网平台应用软件(即客户端)来说,当其在相应的搜索结果页等页面中进行物品标题的展示时,由于受到终端屏幕大小的限制,一行通常仅能展示12个汉字左右,因而,无法将相应的物品标题完整地展示出来,而仅能截取物品标题的前面一部分内容进行展示。例如,对于完整内容为“首尚格释2015春装新女装圆领七分袖中长修身针织连衣裙LYQ-2084”的物品标题来说,由于受到终端屏幕大小的限制,仅能在相应的搜索结果页等页面中展示“首尚格释2015春装新女装”。
由于物品标题的前面一部分内容通常并不能够准确地反映物品的核心内容,因而,使得最终展示的标题并不能够准确地描述相应的物品特性,使得展示效果并不佳。另外,由于用户在根据展示的不完整标题进行物品内容的查看时,通常还需要通过点击展示的标题的方式,来获取相应的完整标题以实现物品内容信息的查看,从而使得获取物品信息的过程较为复杂,效率较低,降低用户的应用体验。
发明内容
本申请实施例提供了一种标题处理方法及设备,用以解决目前的标题展示方式所存在的效果不佳以及效率较低等的问题。
本申请实施例提供了一种标题处理方法,包括:
确定各待展示原始标题;
针对每一待展示原始标题,提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词,并根据提取的至少一个关键语义词生成短标题;其中,所提取的至少一个关键语义词组合后所占用的总字数不大于设定第一阈值;
在需要展示所述待展示原始标题时,展示与所述待展示原始标题相对应的短标题。
相应地,本申请实施例还提供了一种标题处理设备,包括:
标题确定模块,用于确定各待展示原始标题;
标题简化模块,用于针对每一待展示原始标题,提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词,并根据提取的至少一个关键语义词生成短标题;其中,所提取的至少一个关键语义词组合后所占用的总字数不大于设定第一阈值;
标题展示模块,用于在需要展示所述待展示原始标题时,展示与所述待展示原始标题相对应的短标题。
本申请有益效果如下:
本申请实施例提供了一种标题处理方法及设备,在本申请实施例所述技术方案中,在进行物品标题等标题的展示时,针对每一待展示原始标题,可仅展示由至少一个用于反映该待展示原始标题的关键语义的关键语义词所形成的、所占用的字数不大于设定第一阈值的短标题,从而避免了屏幕大小受限时,仅截取标题的前面一部分内容进行展示时,展示内容并不准确的问题,同时,由于展示的标题包含有原始标题的关键语义信息,因而,可直接根据展示的标题获取物品等待展示内容的内容信息,无需再次通过点击展示的标题的方式,来获取相应的完整标题以实现物品等待展示内容的内容信息的查看,从而提高了信息获取的效率,提高了用户的应用体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示为本申请实施例一中所述标题处理方法的流程示意图;
图2所示为本申请实施例二中所述标题处理设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
实施例一:
本申请实施例一提供了一种标题处理方法,所述标题处理方法可适用于安装于各终端内的客户端或各终端本身,本申请实施例对此不作赘述。具体地,如图1所示,其为本申请实施例一中所述标题处理方法的流程示意图,所述标题处理方法可包括以下步骤:
步骤101:确定各待展示原始标题;
步骤102:针对每一待展示原始标题,提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词,并根据提取的至少一个关键语义词生成短标题;其中,所提取的至少一个关键语义词组合后所占用的总字数不大于设定第一阈值;
步骤103:在需要展示所述待展示原始标题时,展示与所述待展示原始标题相对应的短标题。
也就是说,在本申请实施例所述技术方案中,在进行物品标题等标题的展示时,针对每一待展示原始标题,可仅展示由至少一个用于反映该待展示原始标题的关键语义的关键语义词所形成的、所占用的字数不大于设定第一阈值的短标题,从而避免了屏幕大小受限时,仅截取标题的前面一部分内容进行展示时,展示内容并不准确的问题,同时,由于展示的标题包含有原始标题的关键语义信息,因而,可直接根据展示的标题获取物品等待展示内容的内容信息,无需再次通过点击展示的标题的方式,来获取相应的完整标题以实现物品等待展示内容的内容信息的查看,从而提高了信息获取的效率,提高了用户的应用体验。
下面,将对本申请实施例中的各步骤进行详细说明:
可选地,以互联网平台客户端中的物品标题的展示为例,由于在进行物品标题的展示之前,通常可根据用户输入的搜索关键词等搜索条件信息,进行搜索结果的确定,以将搜索结果所包含的各物品标题展示给对应的用户,因而,在步骤101中,可将相应的搜索结果所包含的各原始标题作为待展示的原始标题。当然,需要说明的是,还可通过其他方式确定待展示的原始标题,本申请实施例对此不作赘述。
另外,需要说明的是,本申请实施例中所述的标题除了可为物品标题之外,还可为各种文章、作品等内容的标题,本申请实施例对此不作任何限定。
进一步地,为了更准确地实现标题的简化,针对每一待展示原始标题,在提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词之前,所述方法还可包括:
对所述待展示原始标题进行分词,得到多个分词。其中,进行分词时所使用的分词方式与现有技术相同,此处不再赘述。
例如,假设待展示原始标题为:韩语琳2015新款春装女装韩版时尚显瘦拼色真丝打底连衣裙礼服长裙;则,对所述待展示原始标题进行分词后,可得到以下多个分词:
韩语琳、2015新款、春装、女装、韩版、时尚、显瘦、拼色、真丝、打底连衣裙、礼服长裙。
进一步地,针对每一待展示原始标题,在对所述待展示原始标题进行分词,得到多个分词之后,所述方法还可包括:
对所述待展示原始标题所对应的多个分词中的每个分词进行属性标注,以更直观地得知各分词的分词属性信息,便于后续进行标题简化时使用。
其中,以物品标题为例,所述分词的分词属性可至少包括品牌词、营销词、产品词、材质词、风格词、修饰词等,本申请实施例对此不作赘述。
例如,假设待展示原始标题为:韩语琳2015新款春装女装韩版时尚显瘦拼色真丝打底连衣裙礼服长裙;则,对所述待展示原始标题进行分词且对各分词进行属性标注后,可得到以下多个分词:
韩语琳[品牌词]、2015新款[营销词]、春装[产品词]、女装[产品词]、韩版[风格词]、时尚[修饰词]、显瘦[风格词]、拼色[产品词]、真丝[材质词]、打底连衣裙[产品词]、礼服长裙[产品词]。
进一步地,需要说明的是,为了进一步提高标题简化的准确性,针对每一待展示原始标题,在提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词之前,所述方法还可包括:
对所述待展示原始标题进行预处理,以去除一些明显错误的词语或特殊符号等,使得所述待展示原始标题更为规范,本申请实施例对此不作赘述。
进一步地,针对每一待展示原始标题,在对所述待展示原始标题进行分词,得到多个分词之后,即可对所述待展示原始标题进行相应简化,以抽取出符合设定条件的短标题,即,可执行提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词,并根据提取的至少一个关键语义词生成短标题的操作。
可选地,针对每一待展示原始标题,提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词,可具体实施为:
基于设定的机器翻译模型,从所述待展示原始标题所对应的多个分词中,选取至少一个分词作为所提取的至少一个关键语义词;
其中,所述设定的机器翻译模型可以是通过对各原始标题样本以及与相应原始标题样本相对应的短标题样本(即,包含相应原始标题样本的关键语义且所占用的字数不大于设定第一阈值的短标题样本)进行训练学习所得到的。
需要说明的是,在通过训练学习得到相应的机器翻译模型之后,还可实时或定时地根据不断更新的样本材料对该机器翻译模型进行更新,以确保该机器翻译模型的准确性,进而提高短标题抽取的准确性,本申请实施例对此不作赘述。
另外,需要说明的是,所述设定第一阈值可根据实际情况(如终端屏幕大小等)灵活调整,本申请实施例对此也不作赘述。
也就是说,在本申请所述实施例中,可基于设定的机器翻译方法,从待展示原始标题所对应的多个分词中,抽取出至少一个分词以形成包含最大语义的短标题。
例如,假设待展示原始标题为:韩语琳2015新款春装女装韩版时尚显瘦拼色真丝打底连衣裙礼服长裙,且,设定第一阈值为9;则,可从上述待展示原始标题所对应的多个分词中抽取出以下分词:拼色、真丝、打底连衣裙;或,拼色、真丝、礼服长裙;并根据抽取出的分词形成相应的短标题“拼色打底真丝连衣裙”,或,“拼色真丝礼服长裙”,本申请实施例对此不作赘述。
进一步地,需要说明的是,本申请所述实施例所采用的机器翻译方法可为统计机器翻译方法等机器翻译方法。优选地,由于统计机器翻译方法是目前非限定领域机器翻译中性能较佳、准确性较高的一种方法,因而,在本申请所述实施例中,可优先采用统计机器翻译方法来进行短标题的抽取。也就是说,在本申请所述实施例中,所述设定的机器翻译模型可为设定的统计机器翻译模型,本申请实施例对此不作赘述。
另外,需要说明的是,参考现有技术关于统计机器翻译方法的相关描述可知,采用统计机器翻译方法进行短标题的抽取时,主要可包括以下三个步骤:
(1)分词对齐;(2)训练翻译模型;(3)解码。
其中,前两个步骤(1)和(2)即为相应的机器翻译模型的训练阶段,后一阶段(3)即为相应的根据机器翻译模型抽取待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词以形成相应的短标题的阶段,本申请实施例对此不作赘述。
进一步地,针对每一待展示原始标题,提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词,还可具体实施为:
根据设定的属性重要度词表(如,物品类目下的属性重要度词表)和/或属性权重词表(如,物品类目下的term weight词表),从所述待展示原始标题所对应的多个分词中,选取至少一个属性重要度不小于设定第二阈值(该第二阈值可根据实际情况进行灵活调整)和/或属性权重不小于设定第三阈值(该第三阈值可根据实际情况进行灵活调整)的分词作为所提取的至少一个关键语义词。
也就是说,在本申请所述实施例中,除了可采用机器翻译方法抽取相应的短标题之外,还可根据设定的属性重要度词表和/或属性权重词表,抽取相应的短标题,以提高短标题生成的灵活性与多样性,本申请实施例对此不作任何限定。
进一步地,需要说明的是,以物品标题为例,所述设定的属性重要度词表和/或属性权重词表通常是通过对大量物品的类目下的各属性的重要度进行挖掘所得到的,本申请实施例对此不作赘述。
另外,需要说明的是,在通过挖掘得到相应的属性重要度词表和/或属性权重词表之后,还可实时或定时地根据不断更新的样本材料对该属性重要度词表和/或属性权重词表进行更新,以确保词表的准确性,进而提高短标题抽取的准确性,本申请实施例对此不作赘述。
进一步地,在得到相应的短标题后,在需要展示所述待展示原始标题时,则可仅展示与所述待展示原始标题相对应的短标题,以避免屏幕大小受限时,仅截取标题的前面一部分内容进行展示时,展示内容并不准确的问题,同时,由于展示的标题包含有原始标题的关键语义信息,因而,可直接根据展示的标题获取物品等待展示内容的内容信息,无需再次通过点击展示的标题的方式,来获取相应的完整标题以实现物品等待展示内容的内容信息的查看,从而提高了信息获取的效率,提高了用户的应用体验。
需要说明的是,在展示相应的短标题时,具体可根据实际应用场景进行展示,如可在相应的搜索结果页等页面中进行短标题的展示等,本申请实施例对此不作赘述。
进一步地,为了减少短标题生成的次数,避免不必要的系统资源浪费,针对每一待展示原始标题,在提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词之前,所述方法还可包括:
确定所述待展示原始标题所占用的字数大于设定第一阈值。
也就是说,通常可在确定待展示原始标题所占用的字数大于设定第一阈值,如所占用的字数大于终端屏幕的一单行所能够显示的最大字数,进而无法在终端屏幕的一单行上完整显示时,再执行本申请实施例所述的提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词、以得到相应的短标题的操作。
当然,需要说明的是,为了避免原始标题中的词语的重复堆砌,即便确定待展示原始标题所占用的字数不大于设定第一阈值,也可执行本申请实施例所述的提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词、以得到相应的短标题的操作,本申请实施例对此不作赘述。
另外,需要说明的是,在本申请所述实施例中,通常可采用并行处理的方式对各待展示原始标题进行关键语义词的提取等操作,以提高标题处理的效率。
下面,将以在客户端的搜索结果页面中进行物品标题的展示为例,对本申请实施例中所述的标题处理方法进行具体说明,所述标题处理方法可包括以下步骤:
步骤一:客户端根据用户输入的搜索关键词等搜索条件信息,进行搜索结果的确定,以确定各待展示原始标题。
例如,当用户输入“连衣裙”这一搜索关键词时,客户端可根据该搜索关键词,搜索确定包含这一搜索关键词的所有标题信息,并将搜索到的标题信息作为各待展示原始标题。
步骤二:针对每一待展示原始标题,判断所述待展示原始标题所占用的字数是否大于设定第一阈值,若是,则执行步骤三,否则,可直接在相应的搜索结果页面中展示该待展示原始标题。
其中,该设定第一阈值可根据该客户端所在的终端屏幕的大小而确定。
步骤三:对所述待展示原始标题进行分词,得到多个分词,并对所述待展示原始标题所对应的多个分词中的每个分词进行属性标注。
例如,假设待展示原始标题为:韩语琳2015新款春装女装韩版时尚显瘦拼色真丝打底连衣裙礼服长裙;则,对所述待展示原始标题进行分词且对各分词进行属性标注后,可得到以下多个分词:
韩语琳[品牌词]、2015新款[营销词]、春装[产品词]、女装[产品词]、韩版[风格词]、时尚[修饰词]、显瘦[风格词]、拼色[产品词]、真丝[材质词]、打底连衣裙[产品词]、礼服长裙[产品词]。
步骤四:提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词,并根据提取的至少一个关键语义词生成短标题;其中,所提取的至少一个关键语义词组合后所占用的总字数不大于设定第一阈值。
可选地,可根据设定的属性重要度词表(如,物品类目下的属性重要度词表)和/或属性权重词表(如,物品类目下的term weight词表),从所述待展示原始标题所对应的多个分词中,选取至少一个属性重要度不小于设定第二阈值和/或属性权重不小于设定第三阈值的分词作为所提取的至少一个关键语义词。
例如,假设待展示原始标题为:韩语琳2015新款春装女装韩版时尚显瘦拼色真丝打底连衣裙礼服长裙,设定第一阈值为9,且,对应的属性为产品词或材质词的分词的属性重要度不小于设定第二阈值;则,可从上述待展示原始标题所对应的多个分词中抽取出以下分词:拼色、真丝、打底连衣裙;或,拼色、真丝、礼服长裙;并根据抽取出的分词形成相应的短标题“拼色打底真丝连衣裙”,或,“拼色真丝礼服长裙”。
步骤五:在相应的搜索结果页面中展示与所述待展示原始标题相对应的短标题,以实现相应物品标题的展示。
需要说明的是,由于在本申请所述实施例中,在进行机器翻译模型的训练、以及设定的属性重要度词表和/或属性权重词表的挖掘等操作时,需要对大量的离线数据进行统计,即,会牵涉到大规模的数据处理,因此,本申请实施例所述方案通常可存在大规模并行计算的需要,即通常可需要依赖于相应的云计算平台等具备较高数据处理能力的平台,本申请实施例对此也不作赘述。
本申请实施例一提供了一种标题处理方法,在本申请实施例一所述技术方案中,在进行物品标题等标题的展示时,针对每一待展示原始标题,可仅展示由至少一个用于反映该待展示原始标题的关键语义的关键语义词所形成的、所占用的字数不大于设定第一阈值的短标题,从而避免了屏幕大小受限时,仅截取标题的前面一部分内容进行展示时,展示内容并不准确的问题,同时,由于展示的标题包含有原始标题的关键语义信息,因而,可直接根据展示的标题获取物品等待展示内容的内容信息,无需再次通过点击展示的标题的方式,来获取相应的完整标题以实现物品等待展示内容的内容信息的查看,从而提高了信息获取的效率,提高了用户的应用体验。
实施例二:
基于同一发明构思,本申请实施例二提供了一种标题处理设备,该标题处理设备的具体实施可参见上述方法实施例一中的相关描述,重复之处不再赘述,如图2所示,该标题处理设备主要可包括:
标题确定模块21,可用于确定各待展示原始标题;
标题简化模块22,可用于针对每一待展示原始标题,提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词,并根据提取的至少一个关键语义词生成短标题;其中,所提取的至少一个关键语义词组合后所占用的总字数不大于设定第一阈值;
标题展示模块23,可用于在需要展示所述待展示原始标题时,展示与所述待展示原始标题相对应的短标题。
进一步地,所述设备还可包括标题切分模块24:
所述标题切分模块24,可用于针对每一待展示原始标题,在提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词之前,对所述待展示原始标题进行分词,得到多个分词。
相应地,所述标题简化模块22具体可用于基于设定的机器翻译模型,从所述待展示原始标题所对应的多个分词中,选取至少一个分词作为所提取的至少一个关键语义词;
其中,所述设定的机器翻译模型是通过对各原始标题样本以及与相应原始标题样本相对应的短标题样本进行训练学习所得到的。
进一步地,所述标题简化模块22具体还可用于根据设定的属性重要度词表和/或属性权重词表,从所述待展示原始标题所对应的多个分词中,选取至少一个属性重要度不小于设定第二阈值和/或属性权重不小于设定第三阈值的分词作为所提取的至少一个关键语义词。
进一步地,所述标题简化模块22还可用于针对每一待展示原始标题,在提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词之前,确定所述待展示原始标题所占用的字数大于设定第一阈值。
本领域技术人员应明白,本申请的实施例可提供为方法、装置(设备)、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、装置(设备)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

Claims (10)

1.一种标题处理方法,其特征在于,包括:
确定各待展示原始标题;
针对每一待展示原始标题,提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词,并根据提取的至少一个关键语义词生成短标题;其中,所提取的至少一个关键语义词组合后所占用的总字数不大于设定第一阈值;
在需要展示所述待展示原始标题时,展示与所述待展示原始标题相对应的短标题。
2.如权利要求1所述的方法,其特征在于,针对每一待展示原始标题,在提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词之前,所述方法还包括:
对所述待展示原始标题进行分词,得到多个分词。
3.如权利要求2所述的方法,其特征在于,针对每一待展示原始标题,提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词,包括:
基于设定的机器翻译模型,从所述待展示原始标题所对应的多个分词中,选取至少一个分词作为所提取的至少一个关键语义词;
其中,所述设定的机器翻译模型是通过对各原始标题样本以及与相应原始标题样本相对应的短标题样本进行训练学习所得到的。
4.如权利要求2所述的方法,其特征在于,针对每一待展示原始标题,提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词,包括:
根据设定的属性重要度词表和/或属性权重词表,从所述待展示原始标题所对应的多个分词中,选取至少一个属性重要度不小于设定第二阈值和/或属性权重不小于设定第三阈值的分词作为所提取的至少一个关键语义词。
5.如权利要求1所述的方法,其特征在于,针对每一待展示原始标题,在提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词之前,所述方法还包括:
确定所述待展示原始标题所占用的字数大于设定第一阈值。
6.一种标题处理设备,其特征在于,包括:
标题确定模块,用于确定各待展示原始标题;
标题简化模块,用于针对每一待展示原始标题,提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词,并根据提取的至少一个关键语义词生成短标题;其中,所提取的至少一个关键语义词组合后所占用的总字数不大于设定第一阈值;
标题展示模块,用于在需要展示所述待展示原始标题时,展示与所述待展示原始标题相对应的短标题。
7.如权利要求6所述的设备,其特征在于,所述设备还包括标题切分模块:
所述标题切分模块,用于针对每一待展示原始标题,在提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词之前,对所述待展示原始标题进行分词,得到多个分词。
8.如权利要求7所述的设备,其特征在于,
所述标题简化模块,具体用于基于设定的机器翻译模型,从所述待展示原始标题所对应的多个分词中,选取至少一个分词作为所提取的至少一个关键语义词;
其中,所述设定的机器翻译模型是通过对各原始标题样本以及与相应原始标题样本相对应的短标题样本进行训练学习所得到的。
9.如权利要求7所述的设备,其特征在于,
所述标题简化模块,具体用于根据设定的属性重要度词表和/或属性权重词表,从所述待展示原始标题所对应的多个分词中,选取至少一个属性重要度不小于设定第二阈值和/或属性权重不小于设定第三阈值的分词作为所提取的至少一个关键语义词。
10.如权利要求6所述的设备,其特征在于,
所述标题简化模块,还用于针对每一待展示原始标题,在提取所述待展示原始标题中的至少一个用于反映所述待展示原始标题的关键语义的关键语义词之前,确定所述待展示原始标题所占用的字数大于设定第一阈值。
CN201510412405.0A 2015-07-14 2015-07-14 一种标题处理方法及设备 Pending CN106708813A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510412405.0A CN106708813A (zh) 2015-07-14 2015-07-14 一种标题处理方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510412405.0A CN106708813A (zh) 2015-07-14 2015-07-14 一种标题处理方法及设备

Publications (1)

Publication Number Publication Date
CN106708813A true CN106708813A (zh) 2017-05-24

Family

ID=58895240

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510412405.0A Pending CN106708813A (zh) 2015-07-14 2015-07-14 一种标题处理方法及设备

Country Status (1)

Country Link
CN (1) CN106708813A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019662A (zh) * 2017-09-12 2019-07-16 阿里巴巴集团控股有限公司 一种标签重建方法及装置
CN110178130A (zh) * 2017-12-04 2019-08-27 华为技术有限公司 一种生成相册标题的方法及设备
CN110866377A (zh) * 2018-08-08 2020-03-06 北京优酷科技有限公司 文本内容的转换方法及装置
CN111353070A (zh) * 2020-02-18 2020-06-30 北京百度网讯科技有限公司 视频标题的处理方法、装置、电子设备及可读存储介质
CN111723566A (zh) * 2019-03-21 2020-09-29 阿里巴巴集团控股有限公司 产品信息的重构方法和装置
WO2021128914A1 (zh) * 2019-12-27 2021-07-01 苏宁云计算有限公司 商品短标题生成方法及装置
CN113536778A (zh) * 2020-04-14 2021-10-22 北京沃东天骏信息技术有限公司 标题的生成方法、装置和计算机可读存储介质
CN114387059A (zh) * 2022-01-10 2022-04-22 北京达佳互联信息技术有限公司 信息处理方法、装置、终端以及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1909522A (zh) * 2006-08-18 2007-02-07 北京金山软件有限公司 获取网页关键字的方法及其应用系统
CN102460430A (zh) * 2009-04-29 2012-05-16 谷歌公司 简短兴趣点标题生成
CN102929882A (zh) * 2011-08-09 2013-02-13 阿里巴巴集团控股有限公司 一种网页标题的抽取方法与装置
CN103020295A (zh) * 2012-12-28 2013-04-03 新浪网技术(中国)有限公司 一种问题标签标注方法及装置
CN103377232A (zh) * 2012-04-25 2013-10-30 阿里巴巴集团控股有限公司 标题关键词推荐方法及系统
CN104317931A (zh) * 2014-10-31 2015-01-28 北京奇虎科技有限公司 网页标题的确定方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1909522A (zh) * 2006-08-18 2007-02-07 北京金山软件有限公司 获取网页关键字的方法及其应用系统
CN102460430A (zh) * 2009-04-29 2012-05-16 谷歌公司 简短兴趣点标题生成
CN102929882A (zh) * 2011-08-09 2013-02-13 阿里巴巴集团控股有限公司 一种网页标题的抽取方法与装置
CN103377232A (zh) * 2012-04-25 2013-10-30 阿里巴巴集团控股有限公司 标题关键词推荐方法及系统
CN103020295A (zh) * 2012-12-28 2013-04-03 新浪网技术(中国)有限公司 一种问题标签标注方法及装置
CN104317931A (zh) * 2014-10-31 2015-01-28 北京奇虎科技有限公司 网页标题的确定方法和装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019662A (zh) * 2017-09-12 2019-07-16 阿里巴巴集团控股有限公司 一种标签重建方法及装置
CN110178130A (zh) * 2017-12-04 2019-08-27 华为技术有限公司 一种生成相册标题的方法及设备
CN110178130B (zh) * 2017-12-04 2021-08-13 华为技术有限公司 一种生成相册标题的方法及设备
CN110866377A (zh) * 2018-08-08 2020-03-06 北京优酷科技有限公司 文本内容的转换方法及装置
CN111723566A (zh) * 2019-03-21 2020-09-29 阿里巴巴集团控股有限公司 产品信息的重构方法和装置
CN111723566B (zh) * 2019-03-21 2024-01-23 阿里巴巴集团控股有限公司 产品信息的重构方法和装置
WO2021128914A1 (zh) * 2019-12-27 2021-07-01 苏宁云计算有限公司 商品短标题生成方法及装置
CN111353070A (zh) * 2020-02-18 2020-06-30 北京百度网讯科技有限公司 视频标题的处理方法、装置、电子设备及可读存储介质
CN111353070B (zh) * 2020-02-18 2023-08-18 北京百度网讯科技有限公司 视频标题的处理方法、装置、电子设备及可读存储介质
CN113536778A (zh) * 2020-04-14 2021-10-22 北京沃东天骏信息技术有限公司 标题的生成方法、装置和计算机可读存储介质
CN114387059A (zh) * 2022-01-10 2022-04-22 北京达佳互联信息技术有限公司 信息处理方法、装置、终端以及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN106708813A (zh) 一种标题处理方法及设备
US20190370305A1 (en) Method and apparatus for providing search results
US8725717B2 (en) System and method for identifying topics for short text communications
CN105279224B (zh) 信息推送方法及装置
EP2833271A1 (en) Multimedia question and answer system and method
WO2014005657A4 (en) A system and method for automatic generation of information-rich content from multiple microblogs, each microblog containing only sparse information
CN104537341B (zh) 人脸图片信息获取方法和装置
CN104765791A (zh) 一种信息输入方法和装置
CN105786930B (zh) 基于触摸交互的搜索方法及装置
CN103902535B (zh) 获取联想词的方法、装置及系统
CN103617290B (zh) 中文机器阅读系统
CN103076892A (zh) 一种用于提供输入字符串所对应的输入候选项的方法与设备
CN106325688A (zh) 一种文本处理方法及装置
CN104836726A (zh) 一种显示聊天表情的方法及装置
CN105869640A (zh) 识别针对当前页面中的实体的语音控制指令的方法和装置
CN105760522A (zh) 基于应用程序的信息搜索方法及装置
CN106067132A (zh) 商品属性的设置方法及装置
US9906588B2 (en) Server and method for extracting content for commodity
CN105279159B (zh) 联系人的提示方法和装置
CN103745012A (zh) 一种根据产品标题智能匹配显示网页推荐信息的方法和系统
CN112699232A (zh) 文本标签提取方法、装置、设备和存储介质
CN103886077A (zh) 短文本的聚类方法和系统
CN204537126U (zh) 一种图像文本识别翻译眼镜
CN112507139A (zh) 基于知识图谱的问答方法、系统、设备及存储介质
CN107533574A (zh) 基于随机索引模式匹配的电子邮件关系查找器系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1237446

Country of ref document: HK

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170524