CN107643835A - 下拉词确定方法、装置、电子设备及存储介质 - Google Patents

下拉词确定方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN107643835A
CN107643835A CN201710979533.2A CN201710979533A CN107643835A CN 107643835 A CN107643835 A CN 107643835A CN 201710979533 A CN201710979533 A CN 201710979533A CN 107643835 A CN107643835 A CN 107643835A
Authority
CN
China
Prior art keywords
word
drop
occurrence
trade name
name data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710979533.2A
Other languages
English (en)
Inventor
李玩伟
邵荣防
郝晖
欧阳硕
谢群群
李萧萧
纪强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201710979533.2A priority Critical patent/CN107643835A/zh
Publication of CN107643835A publication Critical patent/CN107643835A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明的实施例提供了一种下拉词确定方法、装置、电子设备以及存储介质,涉及数据处理技术领域。该下拉词确定方法包括:获取根据多个商品名称数据得到的词项集;从所述词项集中获取与目标关键词在所述多个商品名称数据中共现的共现词;以及基于所述共现词确定与目标关键词对应的下拉词。本发明实施例的技术方案能够显著提高用于挖掘下拉词的数据量,从而能够为用户推荐数量更多、内容更丰富的下拉词。

Description

下拉词确定方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种下拉词确定方法、下拉词确定装置、电子设备以及计算机可读存储介质。
背景技术
下拉词是指用户在搜索框输入关键词时,系统根据用户输入的关键词推荐的供用户选择的词条。用户点击下拉词便可以触发搜索行为,因此下拉词可以辅助用户输入,减少用户输入的成本。
目前,在一种挖掘下拉词的技术方案中,使用用户搜索行为日志作为数据源挖掘下拉词。参照图1所示,在该技术方案中,从用户搜索行为日志中抽取用户过去一段时间内搜索过的关键词作为下拉词挖掘的数据源,对该数据源中的词进行归一化处理,然后从该数据源中挖掘下拉词。
然而,在这种技术方案中,由于作为下拉词挖掘数据源的用户搜索行为日志的数据量较少,容易出现用户输入关键词后挖掘不到下拉词或者挖掘的下拉词太少的情况。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本发明背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明的目的在于提供一种下拉词确定方法、下拉词确定装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。
根据本发明实施例的第一方面,提供了一种下拉词确定方法,包括:获取根据多个商品名称数据得到的词项集;从所述词项集中获取与目标关键词在所述多个商品名称数据中共现的共现词;以及基于所述共现词确定与所述目标关键词对应的下拉词。
在本发明的一些实施例中,基于前述方案,基于所述共现词确定与所述目标关键词对应的下拉词,包括:获取各个共现词与所述目标关键词在所述多个商品名称数据中的位置关系;将在所述多个商品名称数据中位于所述目标关键词之后的共现词拼接在所述目标关键词之后,以得到所述目标关键词对应的下拉词。
在本发明的一些实施例中,基于前述方案,基于所述共现词确定与所述目标关键词对应的下拉词,包括:获取各个共现词与所述目标关键词在所述多个商品名称数据中的共现频次;根据所述共现频次选取预定数量的共现词,并根据选取出的共现词生成所述目标关键词对应的下拉词。
在本发明的一些实施例中,基于前述方案,基于所述共现词确定与所述目标关键词对应的下拉词,包括:获取各个共现词与所述目标关键词在所述多个商品名称数据中的位置关系,以及所述各个共现词与所述目标关键词在所述多个商品名称数据中的共现频次;根据所述共现频次,选择在所述多个商品名称数据中位于所述目标关键词之后的预定数量个共现词,并根据选取出的共现词以及所述位置关系生成所述目标关键词对应的下拉词。
在本发明的一些实施例中,基于前述方案,还包括:对所述各个共现词与所述目标关键词在所述多个商品名称数据中的共现频次进行归一化处理,得到所述各个共现词的共现得分,以基于所述共现得分选取所述预定数量个共现词。
在本发明的一些实施例中,基于前述方案,获取根据多个商品名称数据得到的词项集,包括:对所述多个商品名称数据进行分词处理,以获取所述多个商品名称数据的词项集。
在本发明的一些实施例中,基于前述方案,对多个商品名称数据进行分词处理,包括:对所述多个商品名称数据中除型号词与数量词之外的内容进行分词处理;对分词后的各词项与相邻的一个或多个词项进行组合,并保留组合后有实义的组合词项;将经组合后的各词项和未进行组合的词项作为所述多个商品名称数据的词项集。
在本发明的一些实施例中,基于前述方案,所述下拉词确定方法还包括:根据停用词词表从所述词项集中删除与所述停用词词表中的停用词对应的词项。
在本发明的一些实施例中,基于前述方案,在对所述多个商品名称数据进行分词处理之前,还包括:对所述多个商品名称数据进行归一化处理,所述归一化处理包括:标记所述多个商品名称数据中的型号词与数量词、繁简体转换、大小写转换以及符号处理。
在本发明的一些实施例中,基于前述方案,所述下拉词确定方法还包括:建立与所述目标关键词对应的下拉词的索引表;基于用户输入的关键词从所述索引表中查询并确定对应的下拉词。
根据本发明实施例的第二方面,提供了一种下拉词确定装置,包括:词项集获取单元,用于获取根据多个商品名称数据得到的词项集;共现词获取单元,用于从所述词项集中获取与目标关键词在所述多个商品名称数据中共现的共现词;以及下拉词确定单元,用于基于所述共现词确定与所述目标关键词对应的下拉词。
根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如上述第一方面所述的下拉词确定方法。
根据本发明实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的下拉词确定方法。
在本发明的一些实施例所提供的技术方案中,获取多个商品名称数据的词项集;从所述词项集中获取目标关键词的共现词,基于所述共现词确定对应的下拉词。一方面,获取多个商品名称数据的词项集,可以从商品名称数据中挖掘下拉词,与现有技术方案相比,可以显著增加下拉词挖掘的数据源的数据量;另一方面,从所述词项集中获取目标关键词的共现词,基于所述共现词确定对应的下拉词,与现有技术相比,由于共现词来自数据量较多的商品名称数据,不仅能够避免用户输入关键词后无法推荐下拉词的情况,还能够为用户推荐数量更多、内容更丰富的下拉词。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示出了一种技术方案中的下拉词确定方法的流程示意图;
图2示出了根据本发明的第一个示例性实施例的下拉词确定方法的流程示意图;
图3示出了根据本发明的第二个示例性实施例的下拉词确定方法的流程示意图;
图4示出了根据本发明的一个示例性实施例的对商品名称数据进行分词处理的流程图;
图5示出了根据本发明的一个示例性实施例的下拉词确定方法得到的下拉词列表与相关技术中基于用户行为日志挖掘到的下拉词列表的对比示意图;
图6示出了根据本发明的一个示例性实施例的下拉词确定装置的示意框图;
图7示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施例。然而,示例实施例能够以多种形式实施,且不应被理解为限于在此阐述的实施例;相反,提供这些实施例使得本发明将全面和完整,并将示例实施例的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图2示出了根据本发明的第一个示例性实施例的下拉词确定方法的流程图。参照图2所示,本示例实施例中的下拉词确定方法可以包括以下步骤S210至步骤S230,其中:
在步骤S210中,获取根据多个商品名称数据得到的词项集;
在步骤S220中,从所述词项集中获取与目标关键词在所述多个商品名称数据中共现的共现词;以及
在步骤S230中,基于所述共现词确定与所述目标关键词对应的下拉词。
根据本示例实施例中的下拉词确定方法,一方面,获取多个商品名称数据的词项集,可以从商品名称数据中挖掘下拉词,与现有技术方案相比,可以显著增加下拉词挖掘的数据源的数据量;另一方面,从所述词项集中获取目标关键词的共现词,基于所述共现词确定对应的下拉词,与现有技术相比,由于共现词来自数据量较多的商品名称数据,不仅能够避免用户输入关键词后无法推荐下拉词的情况,还能够为用户推荐数量更多、内容更丰富的下拉词。
下面,将结合附图对本发明的示例实施例中的下拉词确定方法进行详细的描述。
参照图2所示,在步骤S210中,获取根据多个商品名称数据得到的词项集。
在本示例性实施例中,多个商品名称数据可以为用户在过去一段时间的订单中的商品名称数据,也可以为在各商品品类下近期销售量较多的多个商品的商品名称数据,还可以为根据用户的历史行为数据获取的多个商品的商品名称数据,本发明的实施例对此不进行特殊限定。
图3示出了根据本发明的实施例的在获取到商品名称数据后如何进行处理的过程,具体地,参照图3所示,在步骤S310中获取多个商品名称数据,在步骤S320中对商品名称数据进行归一化处理。所述归一化处理可以包括:标记所述多个商品名称数据中的型号词与数量词、繁简体转换、大小写转换以及符号处理等。由于型号词和数量词不用进行分词处理,可以使用型号词提取算法标记商品名称中的型号信息,使用数量词提取算法标记商品中的数量词信息。
举例而言,以商品名称数据“【京东配送】美的(Midea)电饭煲涡轮除泡防溢锅金属拉丝机身圆灶釜4l电饭锅MB-WFS4037”为例进行说明,在该商品名称数据中,4l和MB-WFS4037为数量词和型号词,对4l和MB-WFS4037进行标记,去除“【京东配送】”中的特殊符号“【】”以及“(Midea)”中的特殊符号“()”,将4l中的小写l转换成大写L,经过归一化处理后的该商品名称数据为“京东配送美的midea电饭煲涡轮除泡防溢锅金属拉丝机身圆灶釜(4L:数量词)电饭锅(MB-WFS4037:型号词)”。
进一步地,参照图3所示,可以在步骤S330中对多个商品名称数据进行分词及分词组合处理,以获取多个商品名称数据的词项集。具体而言,参照图4所示,对商品名称数据进行分词处理可以包括:
步骤S410,对多个商品名称数据中除型号词与数量词之外的内容进行分词处理;
步骤S420,对分词后的各词项与相邻的一个或多个词项进行组合,并保留组合后有实义的组合词项;
步骤S430,将经组合后的各词项和未进行组合的词项作为所述多个商品名称数据的词项集。
举例而言,以商品名称数据“京东配送美的midea电饭煲涡轮除泡防溢锅金属拉丝机身圆灶釜4L电饭锅MB-WFS4037”为例进行说明,在该商品名称数据中,4L以及MB-WFS4037为型号词为数量词和型号词,不进行分词处理,在步骤S410中的分词处理后的结果为“京东配送/美的/midea/电饭煲/涡轮/除泡/防溢/锅/金属/拉丝/机身/圆灶/釜/(4L)/电饭锅/(MB-WFS4037)”;在步骤S420中对在步骤S410中的分词处理后的词项及其相邻的前后2个或3个(此处仅为示例)词项进行组合,例如分别将“防溢”与其之前的词项“除泡”以及之后的词项“锅”进行,组合后的结果为“除泡防溢”、“防溢锅”,然后可以根据存储有大量实义词的实义词表查找“除泡防溢”、“防溢锅”,查找到“防溢锅”时确定“防溢锅”为实义词,保留“防溢锅”,查找不到“除泡防溢”,则不保留“除泡防溢”;在步骤S430中将步骤S420中组合后的结果“京东配送/美的/midea/电饭煲/涡轮/除泡/防溢锅/金属/拉丝/机身/圆灶釜/(4L)/电饭锅(MB-WFS4037)”中的词项作为该商品名称数据的词项集,其中加粗的“防溢锅”和“圆灶釜”为步骤S430中保留的实义词。
进一步地,参照图3所示,为了提高减少后续步骤的数据处理量,在本示例实施例中,还可以在步骤S340中,根据停用词词表从所述词项集中删除与停用词词表中的停用词对应的词项。例如,在上述步骤S430中得到词项集“京东配送/美的/midea/电饭煲/涡轮/除泡/防溢锅/金属/拉丝/机身/圆灶釜/4l/电饭锅(MBWFS4037)”中,“京东配送”为停用词表中的停用词,则可以删除“京东配送”,删除停用词后的结果为“美的/midea/电饭煲/涡轮/除泡/防溢锅/金属/拉丝/机身/圆灶釜/(4l)/电饭锅(MBWFS4037)”
接下来,继续参照图2所示,在步骤S220中,从所述词项集中获取与目标关键词在所述多个商品名称数据中共现的共现词。
在本示例实施例中,设通过上述处理获得的所有商品名称数据的词项的集合为T={t1,t2,…,tm},ti为词项集T中的第i个词项,m为词项集T中的词项数量;设所有n个商品名称数据的集合为D={d1,d2,…,dn},di为商品名称数据集D中第i个商品名称数据,n为商品名称数据集D中商品名称数据的数量。
图2中所示的步骤S220对应于图3中所示的步骤S350,即进行词共现的统计。具体地,设目标关键词为词项集T中的词项ti,则计算词项ti与其他词项在所述商品名称数据集D中的商品名称数据中共现的共现频次,共现频次的计算结果如下表1所示:
词项 词t1 词t2 词t3 词t4 词t5
词t1 1 K12 K13 K14 K15
词t2 1 K23 K24 K25
词t3 1 K34 K35
词t4 1 K45
词t5 1
表1
在上表1中,K12至K45表示对应词项的共现频次,参照图3所示,可以在步骤S360中根据各词项与目标关键词的共现频次的大小从所述词项集T中选取预定数量的共现词,以生成目标关键词的下拉词,例如可以选取10个共现词。
进一步地,为了减少目标关键词与共现词在同一商品名称数据中出现多次对结果的影响,在本示例实施例中,可以对各个共现词与目标关键词在多个商品名称数据中的共现频次进行归一化处理,得到各个共现词的共现得分,例如,可以通过下式(1)对词项ti与词项tj的共现频次Kij进行归一化处理:
归一化的Kij=Kij/(Ki+Kj) (1)
在上式(1)中,Ki为词项t1出现在各商品名称数据的频次,Kj为词项tj出现在各商品名称数据的频次,Kij为词项ti与词项tj的共现频次,归一化的Kij即为词项ti与词项tj的共现得分。
接下来,参照图2所示,在步骤S230中,基于所述共现词确定与所述目标关键词对应的下拉词。
在本示例实施例中,根据目标关键词的各共现词的共现频次或共现得分选取预定数量的共现词,并根据选取出的共现词生成所述目标关键词对应的下拉词。例如,设目标关键词为“电风扇塔扇”,则选取共现频次或共现得分较高的10个共现词的集合为{“静音”、“无叶”、“家用”、“落地扇”、“风扇”、“遥控”、“摇头”、“台式”、“大厦扇”、“定时”}。
进一步地,在本示例实施例中,可以根据共现词集合中各共现词的共现频次的大小将各共现词分别拼接在目标关键词例如“电风扇塔扇”之后,生成的下拉词的结果如下表2所示。
用户输入的关键词 挖掘出来的下拉词1 挖掘出来的下拉词2
电风扇塔扇 电风扇 塔扇 静音 电风扇 塔扇 静音 家用
电风扇塔扇 电风扇 塔扇 无叶 电风扇 塔扇 无叶 家用
电风扇塔扇 电风扇 塔扇 家用 电风扇 塔扇 无叶 静音
电风扇塔扇 电风扇 塔扇 落地扇 电风扇 塔扇 无叶 风扇
电风扇塔扇 电风扇 塔扇 风扇 电风扇 塔扇 摇头 台式
电风扇塔扇 电风扇 塔扇 遥控 电风扇 塔扇 大厦扇 台式
电风扇塔扇 电风扇 塔扇 摇头 电风扇 塔扇 摇头 大厦扇
电风扇塔扇 电风扇 塔扇 台式 电风扇 塔扇 静音 大厦扇
电风扇塔扇 电风扇 塔扇 大厦扇 电风扇 塔扇 静音 台式
电风扇塔扇 电风扇 塔扇 定时 电风扇 塔扇 静音 摇头
表2
此外,为了使推荐的下拉词符合表达以及阅读习惯,还可以获取各个共现词与目标关键词在多个商品名称数据中的位置关系,将在所述多个商品名称数据中位于所述目标关键词之后的共现词拼接在所述目标关键词之后,以得到所述目标关键词对应的下拉词。
继续参照图3所示,为了节省在线上应用时下拉词确定方法的数据处理效率,在本示例实施例中,可以在步骤S360中针对各个商品品类选取相应的目标关键词来预先生成下拉词,例如,可以根据用户搜索行为日志中搜索次数较多的关键词作为目标关键词,应用上述下拉词确定方法预先生成与所述目标关键词对应的下拉词,当用户在线上输入相应的关键词时,直接从预先生成的下拉词中查找,这样可以快速地为用户推荐下拉词,提高了用户体验。当然,在本发明的其它实施例中,还可以从配置的关键词集中的获取目标关键词。
进一步地,参照图3所示,当生成下拉词之后,可以在步骤S370中进行下拉词线上检查,如相关性检查等。若检查无需,则在步骤S380中,还可以建立与目标关键词对应的下拉词的索引表,进而可以基于用户输入的关键词从所述索引表中查询并确定对应的下拉词。
图5示出了采用了本发明的示例实施例中的下拉词确定方法挖掘的下拉词与现有技术的差异。参照图5所示,与现有技术相比,本发明的示例实施例中的下拉词确定方法不仅能够挖掘到更多的下拉词,而且挖掘到的下拉词更符合表达与阅读习惯。
需要说明的是,尽管在附图中以特定顺序描述了本发明的实施例中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
此外,在本发明的实施例中,还提供了一种下拉词确定装置。参照图6所示,根据本发明的实施例的下拉词确定装置600可以包括:词项集获取单元610、共现词获取单元620以及下拉词确定单元630。其中:词项集获取单元610用于获取根据多个商品名称数据得到的词项集;共现词获取单元620用于从所述词项集中获取与目标关键词在所述多个商品名称数据中共现的共现词;以及下拉词确定单元630用于基于所述共现词确定与所述目标关键词对应的下拉词。
进一步地,在本发明的实施例中,基于前述方案,下拉词确定单元630被配置成:获取各个共现词与所述目标关键词在所述多个商品名称数据中的位置关系;将在所述多个商品名称数据中位于所述目标关键词之后的共现词拼接在所述目标关键词之后,以得到所述目标关键词对应的下拉词。
进一步地,在本发明的实施例中,基于前述方案,下拉词确定单元630被配置成:获取各个共现词与所述目标关键词在所述多个商品名称数据中的共现频次;根据所述共现频次选取预定数量的共现词,并根据选取出的共现词生成所述目标关键词对应的下拉词。
进一步地,在本发明的实施例中,基于前述方案,下拉词确定单元630被配置成:获取各个共现词与所述目标关键词在所述多个商品名称数据中的位置关系,以及所述各个共现词与所述目标关键词在所述多个商品名称数据中的共现频次;根据所述共现频次,选择在所述多个商品名称数据中位于所述目标关键词之后的预定数量个共现词,并根据选取出的共现词以及所述位置关系生成所述目标关键词对应的下拉词。
进一步地,在本发明的实施例中,基于前述方案,下拉词确定单元630被配置成:对所述各个共现词与所述目标关键词在所述多个商品名称数据中的共现频次进行归一化处理,得到所述各个共现词的共现得分,以基于所述共现得分选取所述预定数量个共现词。
进一步地,在本发明的实施例中,基于前述方案,词项集获取单元610包括:分词处理单元,用于对所述多个商品名称数据进行分词处理,以获取所述多个商品名称数据的词项集。
进一步地,在本发明的实施例中,基于前述方案,分词处理单元被配置成:对所述多个商品名称数据中除型号词与数量词之外的内容进行分词处理;对分词后的各词项与相邻的一个或多个词项进行组合,并保留组合后有实义的组合词项;将经组合后的各词项和未进行组合的词项作为所述多个商品名称数据的词项集。
进一步地,在本发明的实施例中,基于前述方案,词项集获取单元610还包括:删除单元,用于根据停用词词表从所述词项集中删除与所述停用词词表中的停用词对应的词项。
进一步地,在本发明的实施例中,基于前述方案,词项集获取单元610还包括:归一化单元,用于在所述分词处理单元对所述多个商品名称数据进行分词处理之前,对所述多个商品名称数据进行归一化处理,所述归一化处理包括:标记所述多个商品名称数据中的型号词与数量词、繁简体转换、大小写转换以及符号处理。
进一步地,在本发明的实施例中,基于前述方案,下拉词确定单元600还包括:索引建立单元,用于建立与所述目标关键词对应的下拉词的索引表;查询单元,用于基于用户输入的关键词从所述索引表中查询并确定对应的下拉词。
在本发明的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
下面参考图7,其示出了适于用来实现本发明实施例的电子设备的计算机系统700的结构示意图。图7示出的电子设备的计算机系统700仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统操作所需的各种程序和数据。CPU701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的单元也可以设置在处理器中。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的下拉词确定方法。
例如,所述电子设备可以实现如图2中所示的:步骤S210,获取根据多个商品名称数据得到的词项集;步骤S220,从所述词项集中获取与目标关键词在所述多个商品名称数据中共现的共现词;以及步骤S230,基于所述共现词确定与所述目标关键词对应的下拉词。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备或装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (13)

1.一种下拉词确定方法,其特征在于,包括:
获取根据多个商品名称数据得到的词项集;
从所述词项集中获取与目标关键词在所述多个商品名称数据中共现的共现词;以及
基于所述共现词确定与所述目标关键词对应的下拉词。
2.根据权利要求1所述的下拉词确定方法,其特征在于,基于所述共现词确定与所述目标关键词对应的下拉词,包括:
获取各个共现词与所述目标关键词在所述多个商品名称数据中的位置关系;
将在所述多个商品名称数据中位于所述目标关键词之后的共现词拼接在所述目标关键词之后,以得到所述目标关键词对应的下拉词。
3.根据权利要求1所述的下拉词确定方法,其特征在于,基于所述共现词确定与所述目标关键词对应的下拉词,包括:
获取各个共现词与所述目标关键词在所述多个商品名称数据中的共现频次;
根据所述共现频次选取预定数量的共现词,并根据选取出的共现词生成所述目标关键词对应的下拉词。
4.根据权利要求1所述的下拉词确定方法,其特征在于,基于所述共现词确定与所述目标关键词对应的下拉词,包括:
获取各个共现词与所述目标关键词在所述多个商品名称数据中的位置关系,以及所述各个共现词与所述目标关键词在所述多个商品名称数据中的共现频次;
根据所述共现频次,选择在所述多个商品名称数据中位于所述目标关键词之后的预定数量个共现词,并根据选取出的共现词以及所述位置关系生成所述目标关键词对应的下拉词。
5.根据权利要求3或4所述的下拉词确定方法,其特征在于,还包括:
对所述各个共现词与所述目标关键词在所述多个商品名称数据中的共现频次进行归一化处理,得到所述各个共现词的共现得分,以基于所述共现得分选取所述预定数量个共现词。
6.根据权利要求1所述的下拉词确定方法,其特征在于,获取根据多个商品名称数据得到的词项集,包括:
对所述多个商品名称数据进行分词处理,以获取所述多个商品名称数据的词项集。
7.根据权利要求6所述的下拉词确定方法,其特征在于,对多个商品名称数据进行分词处理,包括:
对所述多个商品名称数据中除型号词与数量词之外的内容进行分词处理;
对分词后的各词项与相邻的一个或多个词项进行组合,并保留组合后有实义的组合词项;
将经组合后的各词项和未进行组合的词项作为所述多个商品名称数据的词项集。
8.根据权利要求6所述的下拉词确定方法,其特征在于,所述下拉词确定方法还包括:
根据停用词词表从所述词项集中删除与所述停用词词表中的停用词对应的词项。
9.根据权利要求6所述的下拉词确定方法,其特征在于,在对所述多个商品名称数据进行分词处理之前,还包括:
对所述多个商品名称数据进行归一化处理,所述归一化处理包括:标记所述多个商品名称数据中的型号词与数量词、繁简体转换、大小写转换以及符号处理。
10.根据权利要求1至4、6至9中任一项所述的下拉词确定方法,其特征在于,所述下拉词确定方法还包括:
建立与所述目标关键词对应的下拉词的索引表;
基于用户输入的关键词从所述索引表中查询并确定对应的下拉词。
11.一种下拉词确定装置,其特征在于,包括:
词项集获取单元,用于获取根据多个商品名称数据得到的词项集;
共现词获取单元,用于从所述词项集中获取与目标关键词在所述多个商品名称数据中共现的共现词;以及
下拉词确定单元,用于基于所述共现词确定与所述目标关键词对应的下拉词。
12.一种电子设备,其特征在于,包括:
处理器;以及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如权利要求1至10中任一项所述的下拉词确定方法。
13.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述的下拉词确定方法。
CN201710979533.2A 2017-10-19 2017-10-19 下拉词确定方法、装置、电子设备及存储介质 Pending CN107643835A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710979533.2A CN107643835A (zh) 2017-10-19 2017-10-19 下拉词确定方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710979533.2A CN107643835A (zh) 2017-10-19 2017-10-19 下拉词确定方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN107643835A true CN107643835A (zh) 2018-01-30

Family

ID=61124247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710979533.2A Pending CN107643835A (zh) 2017-10-19 2017-10-19 下拉词确定方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN107643835A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263318A (zh) * 2018-04-23 2019-09-20 腾讯科技(深圳)有限公司 实体名称的处理方法、装置、计算机可读介质及电子设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079027A (zh) * 2007-06-27 2007-11-28 腾讯科技(深圳)有限公司 一种中文分词方法及系统
CN102375885A (zh) * 2011-10-21 2012-03-14 北京百度网讯科技有限公司 一种提供与查询序列相对应的搜索建议的方法与设备
CN102831185A (zh) * 2012-08-01 2012-12-19 北京百度网讯科技有限公司 一种词条推荐方法及装置
CN103544266A (zh) * 2013-10-16 2014-01-29 北京奇虎科技有限公司 一种搜索建议词生成的方法以及装置
JP5639549B2 (ja) * 2011-08-22 2014-12-10 日本電信電話株式会社 情報検索装置及び方法及びプログラム
CN105138576A (zh) * 2015-07-29 2015-12-09 百度在线网络技术(北京)有限公司 一种用于在移动搜索中提供推荐输入序列的方法和装置
CN106164889A (zh) * 2013-12-02 2016-11-23 丘贝斯有限责任公司 用于内存数据库搜索的系统和方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079027A (zh) * 2007-06-27 2007-11-28 腾讯科技(深圳)有限公司 一种中文分词方法及系统
JP5639549B2 (ja) * 2011-08-22 2014-12-10 日本電信電話株式会社 情報検索装置及び方法及びプログラム
CN102375885A (zh) * 2011-10-21 2012-03-14 北京百度网讯科技有限公司 一种提供与查询序列相对应的搜索建议的方法与设备
CN102831185A (zh) * 2012-08-01 2012-12-19 北京百度网讯科技有限公司 一种词条推荐方法及装置
CN103544266A (zh) * 2013-10-16 2014-01-29 北京奇虎科技有限公司 一种搜索建议词生成的方法以及装置
CN106164889A (zh) * 2013-12-02 2016-11-23 丘贝斯有限责任公司 用于内存数据库搜索的系统和方法
CN105138576A (zh) * 2015-07-29 2015-12-09 百度在线网络技术(北京)有限公司 一种用于在移动搜索中提供推荐输入序列的方法和装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263318A (zh) * 2018-04-23 2019-09-20 腾讯科技(深圳)有限公司 实体名称的处理方法、装置、计算机可读介质及电子设备
CN110263318B (zh) * 2018-04-23 2022-10-28 腾讯科技(深圳)有限公司 实体名称的处理方法、装置、计算机可读介质及电子设备

Similar Documents

Publication Publication Date Title
US20220351016A1 (en) Presentation module for webinterface production and deployment system
US9805717B2 (en) Voice-based input using natural language processing for interfacing with one or more devices
US11403532B2 (en) Method and system for finding a solution to a provided problem by selecting a winner in evolutionary optimization of a genetic algorithm
US11574201B2 (en) Enhancing evolutionary optimization in uncertain environments by allocating evaluations via multi-armed bandit algorithms
CN108171276A (zh) 用于生成信息的方法和装置
US20160117295A1 (en) Method and apparatus for forming a structured document from unstructured information
CN109446341A (zh) 知识图谱的构建方法及装置
CN107220386A (zh) 信息推送方法和装置
CN107491547A (zh) 基于人工智能的搜索方法和装置
CN107066449A (zh) 信息推送方法和装置
CN107105031A (zh) 信息推送方法和装置
CN107577763A (zh) 检索方法和装置
US20160259780A1 (en) Natural language processing (nlp) interfacing with devices
US11188837B2 (en) Dynamic field entry permutation sequence guidance based on historical data analysis
CN109697641A (zh) 计算商品相似度的方法和装置
CN111414561B (zh) 用于呈现信息的方法和装置
CN107657056A (zh) 基于人工智能展示评论信息的方法和装置
CN108984554A (zh) 用于确定关键词的方法和装置
CN114065750A (zh) 商品信息匹配、发布方法及其装置、设备、介质、产品
CN110276065A (zh) 一种处理物品评论的方法和装置
CN112380104A (zh) 用户属性识别方法、装置、电子设备及存储介质
CN110489649A (zh) 标签关联内容的方法及装置
US20210271637A1 (en) Creating descriptors for business analytics applications
US20230384910A1 (en) Using Attributes for Font Recommendations
CN107643835A (zh) 下拉词确定方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180130

RJ01 Rejection of invention patent application after publication