CN110633398A - 中心词的确认方法、搜索方法、装置和存储介质 - Google Patents
中心词的确认方法、搜索方法、装置和存储介质 Download PDFInfo
- Publication number
- CN110633398A CN110633398A CN201810549131.3A CN201810549131A CN110633398A CN 110633398 A CN110633398 A CN 110633398A CN 201810549131 A CN201810549131 A CN 201810549131A CN 110633398 A CN110633398 A CN 110633398A
- Authority
- CN
- China
- Prior art keywords
- target sentence
- word
- central
- sentence
- headword
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000010801 machine learning Methods 0.000 claims abstract description 35
- 238000012549 training Methods 0.000 claims description 51
- 239000013598 vector Substances 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000002372 labelling Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 238000012423 maintenance Methods 0.000 description 6
- 238000012856 packing Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241001442234 Cosa Species 0.000 description 2
- 241000422846 Sequoiadendron giganteum Species 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种中心词的确认方法、搜索方法、装置和存储介质。其中,中心词的确认方法包括:获取目标语句,目标语句包括多个分词;利用语意机器学习模型组件计算各个分词分别与目标语句的语意相似度;将语意相似度中最大值对应的分词,确认为目标语句的中心词。上述实施例不仅可以提高工作效率,而且可以提高确定的中心词的精度。
Description
技术领域
本发明涉及网络通信技术领域,尤其涉及一种中心词的确认方法、搜索方法、装置和存储介质。
背景技术
随着网络通信技术的快速发展,零售业已经发生了巨大的变化。很多零售不再满足于线下,还发展到了线上。线上销售也不再限制于国内,还发展到了海外。如在搜索商品的业务场景中,当买家希望购买某标题(title)的商品时,会在购物网站中输入与title对应的搜索词(query)。网站从query中确认并提取出中心词,再利用中心词检索出对应商品。
申请人经研究发现:现有的确认中心词的方法是纯规则的方法。纯规则的方法是完全基于人工总结经验规则的方法。例如,网站维护工程师人工观察商品标题(title),之后总结出从title中确认中心词的经验规则。
随着电商交易的日益火爆,每日交易数据量达到了千万级别。显然,经验规则无法覆盖平台上亿的商品量以及每天多达上千万的query。在电商大数据的场景下,现有的完全基于人工总结经验规则的方法,不仅耗时费力,而且由于规则覆盖面较窄的问题,准确性也会较差。另外,规则越多越会出现规则之间自相矛盾的问题,维护困难、准确性较差,导致无法满足业务需求。
如何解决确认中心词耗时费力、准确性也会较差的问题,成为亟待解决的技术问题。
发明内容
鉴于此,为了解决上述技术问题中的至少一者,本发明实施例提供了一种中心词的确认方法、搜索方法、装置和存储介质。
第一方面,提供了一种中心词的确认方法。该方法包括以下步骤:
获取目标语句,目标语句包括多个分词;
利用语意机器学习模型组件计算各个分词分别与目标语句的语意相似度;
将语意相似度中最大值对应的分词,确认为目标语句的中心词。
第二方面,提供了一种搜索方法。该方法包括以下步骤:
获取目标语句,目标语句包括多个分词;
利用语意机器学习模型组件计算各个分词分别与目标语句的语意相似度;
将语意相似度中最大值对应的分词,确认为目标语句的中心词;
根据中心词进行搜索,并反馈搜索结果。
第三方面,提供了一种中心词的确认装置。该装置包括:
语句获取单元,用于获取目标语句,目标语句包括多个分词;
相似度计算单元,用于利用语意机器学习模型组件计算各个分词分别与目标语句的语意相似度;
中心词确认单元,用于将语意相似度中最大值对应的分词,确认为目标语句的中心词。
第四方面,提供了一种搜索装置。该装置包括:
语句获取单元,用于获取目标语句,目标语句包括多个分词;
相似度计算单元,用于利用语意机器学习模型组件计算各个分词分别与目标语句的语意相似度;
中心词确认单元,用于将语意相似度中最大值对应的分词,确认为目标语句的中心词;
中心词搜索单元,用于根据中心词进行搜索,并反馈搜索结果。
第五方面,提供了一种中心词的提取装置。该装置包括:
存储器,用于存放程序;
处理器,用于执行所述存储器存储的程序,所述程序使得所述处理器执行上述各方面所述的方法。
第六方面,提供了一种搜索装置。该装置包括:
存储器,用于存放程序;
处理器,用于执行所述存储器存储的程序,所述程序使得所述处理器执行上述各方面所述的方法。
第七方面,提供了一种计算机可读存储介质。该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
第八方面,提供了一种包含指令的计算机程序产品。当该产品在计算机上运行时,使得计算机执行上述各方面所述的方法。
第九方面,提供了一种计算机程序。当该计算机程序在计算机上运行时,使得计算机执行上述各方面所述的方法。
上述实施可以应用于如下场景:根据客户向网站输入的搜索语句(如,query词、query短语等),利用语意机器学习模型组件计算目标语句中各个分词分别与目标语句的语意相似度。然后,将语意相似度中最大值对应的词,确认为目标语句的中心词,以便可以根据确认的中心词在网站中搜索出对应的商品,并将搜索出的商品信息呈现给客户。
上述实施的应用场景还可以包括但不限于:为了向目标客户群推送某类商品信息,利用语意机器学习模型组件计算目标语句(网站中商品的较长的标题title)中各个分词分别与目标语句的语意相似度。然后,将语意相似度中最大值对应的词,确认为目标语句的中心词。之后,可以向目标客户群推送与中心词对应的商品信息。
一方面,上述实施例可以取消人工观察商品标题并总结经验规则的操作,使得提取中心词的操作可以自动执行,不仅可以节省人工成本,而且可以提高操作效率。
另一方面,上述实施例可以解决规则太多导致的自相矛盾的问题,不仅便于维护,而且可以提高中心词的提取精度。
又一方面,上述实施例可以利用语意机器学习模型组件不断学习的特性,不断的学习和优化语意机器学习模型组件,可以使得确认的中心词的精度越来越高。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例的中心词的确认系统架构示意图;
图2是本发明一实施例的中心词的确认方法的流程示意图;
图3是图2实施例的语意机器学习模型组件的训练方法流程示意图;
图4是本发明一实施例的搜索方法的流程示意图;
图5是本发明一实施例的中心词的确认装置的结构示意图;
图6是本发明一实施例的搜索装置的结构示意图;
图7是本发明一实施例的中心词的确认装置的框架示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1是本发明一实施例的中心词的确认系统架构示意图。
如图1所示,该系统架构可以包括:服务端100、卖家终端200、买家终端300和网络400。
其中,买家终端300可以是智能手机、平板电脑和计算机等电子设备。买家可以通过买家终端300访问销售网站,在搜索区域输入搜索语句(即目标语句),搜索心仪的商品,然后支付货款并完成购买交易。销售网站可以从商品的标题的各个分词中确认中心词,并向目标用户的买家终端300推送与中心词对应的商品信息。
卖家终端200可以是计算机、服务器等电子设备。卖家可以在销售网站上开设店铺,展示销售商品,收取货款,发货并完成购买交易。
服务端100可以是计算机、服务器等电子设备。网络工程师可以通过服务端100提供用于商品交易的电子商务平台,运营、维护销售该电子商品平台,为买家和卖家交易活动提供技术支持。例如,根据买家输入的目标语句提取出其中的中心词,根据中心词搜索卖家的对应商品,并将搜索出的商品排列呈现给买家等。
网络400可以用以在各种电子设备之间提供通信链路的介质。具体的,网络可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等。
可以理解,上述电子设备包括但不限于个人电脑、智能手机、平板电脑、个人数字助理、服务器等。这些电子设备可以安装有各种软件应用,例如手淘应用、交易即时通信工具、邮箱客户端、社交平台软件、音频视频软件等。其中,这些电子设备具有存储器和逻辑运算处理器、控制元件等。这些电子设备可以发送数据请求,或者可以接收数据请求,还可以对数据进行分析、验证和存储等处理。
应该理解,图1中的设备的数目仅仅是示意性的。根据实现需要,该系统架构可以具有任意数目的服务端100、卖家终端200、买家终端300等。下面各实施例均可以应用本实施例的系统架构进行各种商品交易、数据交互或者处理,相同或者类似的内容不再赘述。
图2是本发明一实施例的中心词的提取方法的流程示意图。
如图2所示,该方法包括以下步骤:S210,获取目标语句,目标语句包括多个分词;S220,利用语意机器学习模型组件计算各个分词分别与目标语句的语意相似度;S230,将语意相似度中最大值对应的分词,确认为目标语句的中心词。
参考图1的架构,本实施例的应用场景可以是:买家A打算在服务端100提供的购物网站B上购买磁带(tape)。买家A通过买家终端300在购物网站B的搜索栏中输入“Pure windstationery tape”。服务端100根据买家A的输入信息,从“Pure wind stationery tape”中确认中心词“tape”。在步骤S210中,目标语句可以是买家购物时输入的任意语句。目标语句可以是英文和/或中文,此方面内容不做限制。例如:铅笔裙、铅笔形状的裙子、瘦瘦的裙子、pen skirt、Pure wind stationery tape-8mmx 20 yard12rolls/packing film|tape等。
在步骤S220中,对“Pure wind stationery tape”进行词语分解(可以利用分词软件执行该分词操作),可以得到“Pure”、“wind”、“stationery”和“tape”这4个分词。
语意机器学习模型组件可以包括卷积的深度语意模型(Convolution DeepStructure Semantic Model,CDSSM)组件。CDSSM模型组件可以在Linux操作系统的运行环境下,利用C++、Python等语言等进行模型编写和实现,且可以利用Tensorflow深度学习框架对CDSSM模型组件进行模型训练。
在本实施例中,CDSSM模型组件可以包括:数据输入层、数据隐藏层和数据输出层。在不同情况下,可以保持数据输入层和数据输出层不变,仅变更数据隐藏层,如重新设置模型参数、数据类型和运算函数等,以匹配不同的应用场景。因此,CDSSM模型组件可以支持方便、快捷的变更功能,进而可以减少模型构建、训练和维护的成本。
在一些实施例中,语意机器学习模型组件还可以包括但不限于:长短期记忆(LongShort-Term Memory,LSTM)模型等。
在步骤S220中,语意相似度可以是在机器语言中,用于衡量词句与其所对应实体的相似程度。语意相似度的数值可以用余弦表示。例如,在句子“铅笔裙”中,分词“裙”与“铅笔裙”所表示的实体“铅笔形状的裙子”的语义相似度为90%,而分词“铅笔”与实体“铅笔形状的裙子”的语义相似度为10%。
在步骤S230中,利用语意机器学习模型组件计算各个分词分别与目标语句的语意相似度可以包括S231至S233的如下子步骤:
S231,根据CDSSN模型组件或者LSTM模型组件可以得到目标语句中各个分词的词向量。
各个分词的词向量例如可以是“Pure”、“wind”、“stationery”和“tape”的词向量。
S232,根据各个词向量计算各个分词分别与目标语句在空间向量上的夹角的余弦(cos)值。
例如,在空间坐标系(如三维坐标系)中,如果“Pure”这个词向量与“Pure windstationery tape”这个句子向量之间的夹角为a1,那么,该夹角的余弦值为cosa1。同理可以得到“wind”、“stationery”和“tape”对应的余弦值分别为:cosa2、cosa3和cosa4。
S233,根据各个余弦值得到各个分词分别与目标语句的语意相似度。
其中,余弦值越大,可以说明分词与句子越相似,即二者的语意相似度越大。
在步骤S240中,因为cosa4的数值最大,则将“tape”确认为“Pure windstationery tape”的中心词。
其中,中心词可以是在语句中,其语意上最能代表该语句的词语。通常,中心词是句子的关键词、核心词和热搜词等。例如,句子“双卡双待全屏手机”的中心词为“手机”。句子“装满水的水壶”的中心词为“水壶”。句子“开满鲜花的大树”的中心词为“大树”。
一方面,上述实施例可以取消人工观察商品标题并总结经验规则的操作,使得提取中心词的操作可以自动执行,不仅可以节省人工成本,而且可以提高操作效率。
另一方面,上述实施例可以解决规则太多导致的自相矛盾的问题,不仅便于维护,而且可以提高中心词的提取精度。
又一方面,上述实施例可以利用语意机器学习模型组件不断学习的特性,不断的学习和优化语意机器学习模型组件,可以使得确认中心词的精度越来越高。
图3是图2实施例的语意机器学习模型组件的训练方法流程示意图。
在本实施例中,首先,可以根据卖家商品的标题(title)或买家输入的搜索词句(query)与各个分词(term)进行语意建模。然后,可以通过建好的模型计算得到query或title与每个term的相似度分数。接着,可以根据相似度分数排序得到分数最高的term,将其作为中心词。
如图3所示,语意机器学习模型组件的训练方法可以包括以下步骤:
S310,预先按预设方式,从历史目标语句中提取出训练中心词;S320,将各个训练中心词和历史目标语句作为种子数据集;S330,从种子数据集中选取正样本和负样本;S340,基于正样本和负样本,训练生成语意机器学习模型组件(简称模型)。S350,将模型计算得到的数据确定为数据集(如,语义相似度的信息)。S360,将数据集正向反馈给模型。在步骤S310中,历史目标语句可以包括:title和/或query。
在一些实施例中,训练中心词可以是根据预设编写规则,从历史目标语句中提取出的中心词。
在一些实施例中,训练中心词可以是从搜索对象的属性描述信息中获取的中心词。其中,搜索对象可以是卖家的商品属性中所描述信息。例如,B网站中,国内卖家填写的商品标题title为:Pure wind stationery tape-8mmx20 yard 12rolls/packing film。商品属性为:tape。
在一些实施例中,训练中心词可以是采用人工(网站工程师)标注的方法从历史目标语句中提取的中心词。
其中,根据预设编写规则,从历史目标语句中提取出训练中心词可以包括如下步骤:根据连词和/或符号,将目标语句切分为多个句块;根据目标语句是否包括指定单词的情况,从多个句块中获取目标语句的中心句块;根据预设中心词的词语属性,从中心句块中提取训练中心词。例如,针对英文,采用预设规则的方法提取句子的中心词可以包括以下步骤:
S1,通过语法规则(如for、with、and以及标点符号等)对句子进行切分,得到若干个句块(称为名词短语)。
S2,在所有名词短语中根据英文语法结构规则提取中心名词短语(整个句子最核心的短语)。
英文语法结构规则例如可以是:中心短语一般出现在for前面;当没有for时,中心名词短语一般出现在句子最后等。
S3,在中心短语中提取中心词,使用规则(规则如中心词一般是名词,且出现在名词性短语末尾等)得到中心短语的中心词,进而得到整个句子的中心词。
在步骤S320中,因为电商交易平台中的交易业务更新较快,为了节约人工标注中心词(如给网站中的每个商品标题标注上对应的中心词)的成本,本实施例可以选择多种来源的标注结果(标注的中心词)。如种子数据集的来源可以包括三种来源:一是根据编写规则的自动生成;二是直接使用卖家在商品属性栏填写的中心词信息;三是使用人工进行标注的一部分数据。上述三种来源可以视不同业务场景而采用不同的比重。总的原则可以是尽可能降低种子训练集的获取成本,提高种子训练集的准确率。
种子训练集最终可以由一条条的记录组成,例如:记录1可以为:Pure windstationery tape-8mmx 20 yard 12rolls/packing film|tape。记录2可以为:标题Purewind stationery tape-8mmx 20 yard 12rolls/packing film。记录3可以为:中心词tape。
在步骤S330中,正样本(正例)可以是标题的中心词,负样本(负例)可以采用抽样的方法,从标题中心词以外的其他词中进行随机采样得到词。例如,标题为Pure windstationery tape-8mmx 20 yard 12rolls/packing film。选取的正样本可以是tape,负样本可以是:Pure、stationery、8mmx、20、yard、12rolls、packing、film。
在本实施例中,可以固定负样本个数的阈值(如8个),若不足8个,则使用占位符补足到8个,若超过8个,则可以自动进行截断,保证所有样本的负例个数相同。由此,可以便于编程规范,便于日后程序的修改和维护。
在S340中,在一些实施例中,语意机器学习模型组件的训练方式可以采用迭代的方式。
例如,在采样得到训练样本后,基于CDSSM的网络结构构造语义学习框架,模型最终输出title(或query)以及term的向量表示形式,使用余弦相似度计算title与每个term之间的语义距离。取距离最近的词作为标题的中心词,如上面例子中的标题,所有词的向量表示与原标题的向量表示计算距离后,得到距离最近的词即是中心词tape。
在步骤S360中,将数据集正向反馈给模型,以便将模型进行训练和数据迭代的结果加入数据集,如此循环迭代可以持续优化该模型。
在一些实施例中,可以将中心词作为训练中心词加入种子数据集,得到更新的种子数据集;从更新的种子数据集中选取更新的正样本和更新的负样本;基于更新的正样本和更新的负样本,利用循环迭代的方法持续优化语意机器学习模型组件。例如,通过学习得到的优化后的模型(如深度学习模型)反过来重新对新数据(title和/或query)进行标注,与原有数据进行融合后重新训练。通过多轮迭代可以使得模型准确率得到较大提升,迭代多轮结果稳定之后会确定最终的模型,进而可以提高提取中心词的准确率以及后期搜索的准确率。
上述发明实施例采用深度学习技术,通过对title或query与自身的term进行语意建模进而计算得到每个term与原title和query的语意相似度,进而完成中心词确认工作。语意机器学习模型组件的训练数据可以主要来自商品自身卖家所填写的相关信息以及若干人工标注的数据。如此设计,可以解决规则维护难的问题,便于语意机器学习模型构建和维护。例如,模型组件只需要训练数据中给出一个句子(可以是title或query)的中心词,模型组件采用自动学习出模式,可以自动完成中心词提取工作,无需人工介入,不仅可以节约人工成本,而且可以提高效率。
另外,由于模型的训练数据可以来自卖家填写的商品属性信息,因此,只要每隔一段时间进行模型的重新训练即可对新数据进行自适应,自动达到一定的精准水平。在本实施例中,通过大量的线下实验以及线上AB Test,均可以显著提升现有中心词的准确率。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
需要说明的是,在不冲突的情况下,本领域的技术人员可以按实际需要将上述的操作步骤的顺序进行灵活调整,或者将上述步骤进行灵活组合等操作。为了简明,不再赘述各种实现方式。另外,各实施例的内容可以相互参考引用。
图4是本发明一实施例的搜索方法的流程示意图。
如图4所示,搜索方法可以包括以下步骤:
S210,获取目标语句,目标语句包括多个分词。
在本实施例中,可以先对目标语句进行词语分解,得到一个或者多个分词。
S220,利用语意机器学习模型组件计算各个词分别与目标语句的语意相似度。
S230,将语意相似度中最大值对应的词,确认为目标语句中的中心词。
S240,根据中心词进行搜索,并反馈搜索结果。
参考图2和图4,本实施例是在图2实施例的区别主要在于,本实施例是在图4实施例的基础上,增加了步骤S240。
在一些实施例中,步骤S240的实现方式可以包括:将中心词分别与待搜索的目标商品的标题匹配;反馈与中心词相匹配的标题所对应的目标商品信息。
例如,用户输入query为“铅笔裙”。目标商品1的title1为:裙子图案铅笔;目标商品2的title2为:裙子;目标商品3的title2为:铅笔裙/薄款/开叉。首先,从“铅笔裙”中提取出的中心词是“裙”。然后,将“裙”分别与title1、title2和title3逐一匹配,并返回商品3和商品2。
可以理解,可以根据需要将中心词的格式设置为一个或者多个字符或者文字等,具体,可以根据具体场景和精度要求进行灵活设置。
在一些实施例中,步骤S240的实现方式可以包括:提取待搜索的目标商品的标题中的商品中心词;将query中的中心词与title中的商品中心词匹配;反馈与中心词相匹配的商品中心词所对应的目标商品信息。
例如,用户输入query为“铅笔裙”。目标商品1的title1为:裙子图案铅笔;目标商品2的title2为:裙子;目标商品3的title2为:铅笔裙/薄款/开叉。首先,从“铅笔裙”中提取出的中心词是“裙”。然后,分别从title1、title2和title3中提取中心词“笔”、“裙”和“裙”。接着,可以将“裙”分别与“笔”、“裙”和“裙”逐一匹配,并返回商品3和商品2。由此,本实施例可以直接将中心词进行比对,不仅可以提高比对精度,而且可以便于将反馈的商品进行排序。
图5是本发明一实施例的中心词的确认装置的结构示意图。
如图5所示,中心词的确认装置可以包括:语句获取单元510、相似度计算单元520和中心词确认单元530。
其中,语句获取单元510可以用于获取目标语句,目标语句包括多个分词;相似度计算单元520可以用于利用语意机器学习模型组件计算各个分词分别与目标语句的语意相似度;中心词确认单元530可以用于将语意相似度中最大值对应的分词,确认为目标语句的中心词。
在一些实施例中,中心词的确认装置还可以包括:模型训练单元。该模型训练单元可以用于:预先按预设方式,从历史目标语句中提取出训练中心词;将各个训练中心词和历史目标语句作为种子数据集;从种子数据集中选取正样本和负样本;基于正样本和负样本,训练生成语意机器学习模型组件。
在一些实施例中,该模型训练单元还可以用于:根据预设编写规则,从历史目标语句中提取出训练中心词;从搜索对象的属性描述信息中获取训练中心词;采用人工标注的方法从历史目标语句中提取训练中心词等。
在一些实施例中,该模型训练单元还可以用于:根据连词和/或符号,将目标语句切分为多个句块;根据目标语句是否包括指定单词的情况,从多个句块中获取目标语句的中心句块;根据预设中心词的词语属性,从中心句块中提取训练中心词。
在一些实施例中,该模型训练单元还可以用于:从种子数据集中选取训练中心词,将选取的训练中心词确认为正样本;从种子数据集中选获取对目标语句分词得到的各个词;将各个词中除训练中心词之外的词确认为负样本。
在一些实施例中,该模型训练单元还可以用于:将中心词作为训练中心词加入种子数据集,得到更新的种子数据集;从更新的种子数据集中选取更新的正样本和更新的负样本;基于更新的正样本和更新的负样本,利用循环迭代的方法持续优化语意机器学习模型。
在一些实施例中,相似度计算单元520可以用于:根据深度学习模型得到各个分词的词向量;根据各个词向量计算各个分词分别与目标语句在空间向量上的夹角的余弦值;根据各个余弦值得到各个分词分别与目标语句的语意相似度。
在一些实施例中,目标语句包括:卖家商品的标题(title)和/或买家用于购买商品而输入的搜索语句(query)。
图6是本发明一实施例的搜索装置的结构示意图。
如图6所示,搜索装置可以包括:语句获取单元510、相似度计算单元520、中心词确认单元530中心词搜索单元540。
图6实施例与图5实施例的主要区别在于,在图5实施例的基础上增加了中心词搜索单元540。其中,中心词搜索单元540可以用于根据中心词进行搜索,并反馈搜索结果。
需要说明的是,上述各实施例的装置可作为上述各实施例的用于各实施例的方法中的执行主体,可以实现各个方法中的相应流程,实现相同的技术效果,为了简洁,此方面内容不再赘述。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令,当其在计算机上运行时,使得计算机执行上述各个实施例中描述的方法。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
图7是本发明一实施例的中心词的确认装置的框架示意图。
如图7所示,该框架可以包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行图2实施例所做的各种操作。在RAM703中,还存储有系统架构操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。
可以理解,搜索装置的框架结构也可以适用于图7所示的框架,二者区别在于,本框架执行的操作步骤为图4实施例所做的操作。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (17)
1.一种中心词的确认方法,其特征在于,包括以下步骤:
获取目标语句,所述目标语句包括多个分词;
利用语意机器学习模型组件计算各个所述分词分别与所述目标语句的语意相似度;
将所述语意相似度中最大值对应的所述分词,确认为所述目标语句的中心词。
2.根据权利要求1所述的方法,其特征在于,所述语意机器学习模型组件是通过如下步骤来训练的:
预先按预设方式,从历史目标语句中提取出训练中心词;
将各个所述训练中心词和所述历史目标语句作为种子数据集;
从所述种子数据集中选取正样本和负样本;
基于所述正样本和所述负样本,训练生成所述语意机器学习模型组件。
3.根据权利要求2所述的方法,其特征在于,预先按预设方式,从所述历史目标语句中提取出训练中心词,包括:
根据预设编写规则,从所述历史目标语句中提取出所述训练中心词;
和/或
从搜索对象的属性描述信息中获取所述训练中心词;
和/或
采用人工标注的方法从所述历史目标语句中提取出所述训练中心词。
4.根据权利要求3所述的方法,其特征在于,根据预设编写规则,从所述历史目标语句中提取出所述训练中心词,包括:
根据连词和/或符号,将所述目标语句切分为多个句块;
根据所述目标语句是否包括指定单词的情况,从多个所述句块中获取所述目标语句的中心句块;
根据预设中心词的词语属性,从所述中心句块中提取出所述训练中心词。
5.根据权利要求2所述的方法,其特征在于,从所述种子数据集中选取正样本和负样本,包括:
从所述种子数据集中选取所述训练中心词,将选取的所述训练中心词确认为所述正样本;
从所述种子数据集中选获取所述目标语句的多个所述分词;
将多个所述分词中除所述训练中心词之外的所述分词确认为所述负样本。
6.根据权利要求2所述的方法,其特征在于,还包括:
将所述中心词作为所述训练中心词加入所述种子数据集,得到更新的种子数据集;
从所述更新的种子数据集中选取更新的正样本和更新的负样本;
基于所述更新的正样本和所述更新的负样本,利用循环迭代的方法持续优化所述语意机器学习模型组件。
7.根据权利要求1所述的方法,其特征在于,利用语意机器学习模型组件计算各个所述分词分别与所述目标语句的语意相似度,包括:
根据所述语意机器学习模型组件得到各个所述分词的词向量;
根据各个所述词向量计算各个所述分词分别与所述目标语句在空间向量上的夹角的余弦值;
根据各个所述余弦值得到各个所述分词分别与所述目标语句的语意相似度。
8.根据权利要求1所述的方法,其特征在于,还包括:
对所述目标语句进行词语分解,得到多个所述分词。
9.根据权利要求1-8中任一项所述的方法,其特征在于,所述目标语句包括:
卖家商品的标题和/或买家用于购买商品而输入的搜索语句。
10.根据权利要求1-8中任一项所述的方法,其特征在于,
所述目标语句包括:用英文和/或中文描述的语句。
11.一种搜索方法,其特征在于,包括以下步骤:
根据权利要求1-10中的任意一项所述的方法,确定所述中心词;
根据所述中心词进行搜索,并反馈搜索结果。
12.根据权利要求11所述的方法,其特征在于,根据所述中心词进行搜索,并反馈搜索结果,包括:
将所述中心词分别与搜索对象的标题匹配;
反馈与所述中心词相匹配的标题所对应的所述搜索对象;
或者,
提取待搜索的搜索对象的标题中的商品中心词;
将所述中心词与所述商品中心词匹配;
反馈与所述中心词相匹配的所述商品中心词所对应的所述搜索对象。
13.一种中心词的确认装置,其特征在于,包括:
语句获取单元,用于获取目标语句,所述目标语句包括多个分词;
相似度计算单元,用于利用语意机器学习模型组件计算各个所述分词分别与所述目标语句的语意相似度;
中心词确认单元,用于将所述语意相似度中最大值对应的所述分词,确认为所述目标语句的中心词。
14.一种搜索装置,其特征在于,包括:
语句获取单元,用于获取目标语句,所述目标语句包括多个分词;
相似度计算单元,用于利用语意机器学习模型组件计算各个所述分词分别与所述目标语句的语意相似度;
中心词确认单元,用于将所述语意相似度中最大值对应的所述分词,确认为所述目标语句的中心词;
中心词搜索单元,用于根据所述中心词进行搜索,并反馈搜索结果。
15.一种中心词的确认装置,其特征在于,包括:
存储器,用于存放程序;
处理器,用于执行所述存储器存储的程序,所述程序使得所述处理器执行如权利要求1-10中任意一项所述的方法。
16.一种搜索装置,其特征在于,包括:
存储器,用于存放程序;
处理器,用于执行所述存储器存储的程序,所述程序使得所述处理器执行如权利要求11或12所述的方法。
17.一种计算机可读存储介质,其特征在于,存储有指令,
当所述指令在计算机上运行时,使得计算机执行如权利要求1-12中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810549131.3A CN110633398A (zh) | 2018-05-31 | 2018-05-31 | 中心词的确认方法、搜索方法、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810549131.3A CN110633398A (zh) | 2018-05-31 | 2018-05-31 | 中心词的确认方法、搜索方法、装置和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110633398A true CN110633398A (zh) | 2019-12-31 |
Family
ID=68966227
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810549131.3A Pending CN110633398A (zh) | 2018-05-31 | 2018-05-31 | 中心词的确认方法、搜索方法、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110633398A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111460264A (zh) * | 2020-03-30 | 2020-07-28 | 口口相传(北京)网络技术有限公司 | 语义相似度匹配模型的训练方法及装置 |
CN111597823A (zh) * | 2020-06-01 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 中心词提取方法、装置、设备及存储介质 |
CN113065351A (zh) * | 2020-01-02 | 2021-07-02 | 阿里巴巴集团控股有限公司 | 中心词提取模型生成方法及装置和中心词提取方法及装置 |
CN113569099A (zh) * | 2020-04-29 | 2021-10-29 | 阿里巴巴集团控股有限公司 | 模型训练方法、装置、电子设备及存储介质 |
CN114090885A (zh) * | 2021-11-12 | 2022-02-25 | 北京百度网讯科技有限公司 | 产品标题核心词提取方法、相关装置及计算机程序产品 |
CN116010560A (zh) * | 2023-03-28 | 2023-04-25 | 青岛阿斯顿工程技术转移有限公司 | 一种国际技术转移数据服务系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636334A (zh) * | 2013-11-06 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种关键词推荐方法和装置 |
CN105138523A (zh) * | 2014-05-30 | 2015-12-09 | 富士通株式会社 | 在文本中确定语义关键词的方法和装置 |
CN105808541A (zh) * | 2014-12-29 | 2016-07-27 | 阿里巴巴集团控股有限公司 | 一种信息匹配处理方法和装置 |
US20170147691A1 (en) * | 2015-11-20 | 2017-05-25 | Guangzhou Shenma Mobile Information Technology Co. Ltd. | Method and apparatus for extracting topic sentences of webpages |
CN107239455A (zh) * | 2016-03-28 | 2017-10-10 | 阿里巴巴集团控股有限公司 | 核心词识别方法及装置 |
CN108073568A (zh) * | 2016-11-10 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
-
2018
- 2018-05-31 CN CN201810549131.3A patent/CN110633398A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104636334A (zh) * | 2013-11-06 | 2015-05-20 | 阿里巴巴集团控股有限公司 | 一种关键词推荐方法和装置 |
CN105138523A (zh) * | 2014-05-30 | 2015-12-09 | 富士通株式会社 | 在文本中确定语义关键词的方法和装置 |
CN105808541A (zh) * | 2014-12-29 | 2016-07-27 | 阿里巴巴集团控股有限公司 | 一种信息匹配处理方法和装置 |
US20170147691A1 (en) * | 2015-11-20 | 2017-05-25 | Guangzhou Shenma Mobile Information Technology Co. Ltd. | Method and apparatus for extracting topic sentences of webpages |
CN107239455A (zh) * | 2016-03-28 | 2017-10-10 | 阿里巴巴集团控股有限公司 | 核心词识别方法及装置 |
CN108073568A (zh) * | 2016-11-10 | 2018-05-25 | 腾讯科技(深圳)有限公司 | 关键词提取方法和装置 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113065351A (zh) * | 2020-01-02 | 2021-07-02 | 阿里巴巴集团控股有限公司 | 中心词提取模型生成方法及装置和中心词提取方法及装置 |
CN111460264A (zh) * | 2020-03-30 | 2020-07-28 | 口口相传(北京)网络技术有限公司 | 语义相似度匹配模型的训练方法及装置 |
CN113569099A (zh) * | 2020-04-29 | 2021-10-29 | 阿里巴巴集团控股有限公司 | 模型训练方法、装置、电子设备及存储介质 |
CN111597823A (zh) * | 2020-06-01 | 2020-08-28 | 腾讯科技(深圳)有限公司 | 中心词提取方法、装置、设备及存储介质 |
WO2021244424A1 (zh) * | 2020-06-01 | 2021-12-09 | 腾讯科技(深圳)有限公司 | 中心词提取方法、装置、设备及存储介质 |
CN111597823B (zh) * | 2020-06-01 | 2023-08-15 | 腾讯科技(深圳)有限公司 | 中心词提取方法、装置、设备及存储介质 |
CN114090885A (zh) * | 2021-11-12 | 2022-02-25 | 北京百度网讯科技有限公司 | 产品标题核心词提取方法、相关装置及计算机程序产品 |
CN116010560A (zh) * | 2023-03-28 | 2023-04-25 | 青岛阿斯顿工程技术转移有限公司 | 一种国际技术转移数据服务系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110633398A (zh) | 中心词的确认方法、搜索方法、装置和存储介质 | |
CN107330752B (zh) | 识别品牌词的方法和装置 | |
US10095782B2 (en) | Summarization of short comments | |
CN107832338B (zh) | 一种识别核心产品词的方法和系统 | |
US20180374141A1 (en) | Information pushing method and system | |
JP7451747B2 (ja) | コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
CN107798622B (zh) | 一种识别用户意图的方法和装置 | |
CN107729453B (zh) | 一种提取中心产品词的方法和装置 | |
CN110020312B (zh) | 提取网页正文的方法和装置 | |
CN111444304A (zh) | 搜索排序的方法和装置 | |
CN110795613B (zh) | 商品搜索方法、装置、系统及电子设备 | |
CN114547385A (zh) | 标签构建方法、装置、电子设备及存储介质 | |
CN108470289B (zh) | 基于电商购物平台的虚拟物品发放方法及设备 | |
CN113901318A (zh) | 一种用户画像构建系统 | |
CN111988668B (zh) | 一种视频推荐方法、装置、计算机设备及存储介质 | |
CN113806660A (zh) | 数据评估方法、训练方法、装置、电子设备以及存储介质 | |
CN113495991A (zh) | 一种推荐方法和装置 | |
CN116662495A (zh) | 问答处理方法、训练问答处理模型的方法及装置 | |
CN112862553A (zh) | 一种商品推荐的方法和装置 | |
CN111144122A (zh) | 评价处理方法、装置和计算机系统及介质 | |
CN109978645B (zh) | 一种数据推荐方法和装置 | |
CN110781365B (zh) | 商品搜索方法、装置、系统及电子设备 | |
CN113743973A (zh) | 分析市场热点趋势的方法和装置 | |
CN113327145A (zh) | 一种物品推荐方法和装置 | |
CN113127597A (zh) | 搜索信息的处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191231 |