CN111695028A - 相似词确定方法及装置、电子设备、存储介质 - Google Patents
相似词确定方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN111695028A CN111695028A CN201910199068.XA CN201910199068A CN111695028A CN 111695028 A CN111695028 A CN 111695028A CN 201910199068 A CN201910199068 A CN 201910199068A CN 111695028 A CN111695028 A CN 111695028A
- Authority
- CN
- China
- Prior art keywords
- data
- search
- user behavior
- historical user
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种相似词确定方法及装置、电子设备、存储介质,涉及计算机技术领域。该相似词确定方法包括:获取历史用户行为数据;对所述历史用户行为数据进行识别处理,以获取所述历史用户行为数据对应的搜索关联数据;对所述搜索关联数据进行筛选处理,确定所述历史用户行为数据对应的相似词。本发明实施例的技术方案不仅能够提高相似词的准确率,而且能够使相似词更加完整,提高用户的使用体验。
Description
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种相似词确定方法、相似词确定装置、电子设备以及计算机可读存储介质。
背景技术
随着互联网行业的快速发展和电子商务技术的广泛应用,电商网站上的物品种类更加丰富,其数量加速增长。
用户在电商网站购买物品时喜欢通过搜索功能来查找物品,但由于用户使用的搜索词无法统一规范,使搜索词匹配结果的准确率较低,导致用户搜索不到需要的物品,降低了用户的使用体验。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本发明实施例的目的在于提供一种相似词确定方法、相似词确定装置、电子设备以及计算机可读存储介质,进而至少在一定程度上克服现有搜索服务匹配结果的准确率低以及匹配到的物品种类不完整的问题。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的第一方面,提供了一种相似词确定方法,包括:获取历史用户行为数据;对所述历史用户行为数据进行识别处理,以获取所述历史用户行为数据对应的搜索关联数据;对所述搜索关联数据进行筛选处理,确定所述历史用户行为数据对应的相似词。
在本发明的一些示例实施例中,基于前述方案,对所述历史用户行为数据进行识别处理,以获取所述历史用户行为数据对应的搜索关联数据包括:对所述历史用户行为数据进行分词处理,以识别所述历史用户行为数据中的多个关键词;根据预设的物品名称词库从所述多个关键词中获取所述历史用户行为数据对应的搜索关联数据。
在本发明的一些示例实施例中,基于前述方案,所述历史用户行为数据包括搜索交易数据和搜索点击数据;所述搜索关联数据包括交易关联词组和点击关联词组;根据预设的物品名称词库从所述多个关键词中获取所述历史用户行为数据对应的搜索关联数据包括:基于预设的物品名称词库,获取所述搜索交易数据中的搜索词以及交易物品名称词;将所述搜索词与所述交易物品名称词进行组合,以确定所述搜索交易数据对应的多个关联词组;根据所述搜索交易数据对所述多个关联词组中的每个关联词组进行交易量求和计算,以获取所述每个关联词组对应的交易量;根据所述交易量对所述多个关联词组进行排序,以获取符合预设条件的交易关联词组。
在本发明的一些示例实施例中,基于前述方案,所述根据预设的物品名称词库从所述多个关键词中获取所述历史用户行为数据对应的搜索关联数据还包括:基于预设的物品名称词库,获取所述搜索点击数据中的搜索词以及点击物品名称词;将所述搜索词与所述点击物品名称词进行组合,以确定所述搜索点击数据对应的多个关联词组;根据所述搜索点击数据对所述多个关联词组中的每个关联词组进行点击量求和计算,以获取所述每个关联词组对应的点击量;根据所述点击量对所述多个关联词组进行排序,以获取符合预设条件的点击关联词组。
在本发明的一些示例实施例中,基于前述方案,对所述搜索关联数据进行筛选处理,确定所述历史用户行为数据对应的相似词还包括:根据所述历史用户行为数据对应的数据量对所述搜索关联数据进行统计计算,确定所述搜索关联数据对应的统计数据;对所述统计数据进行交集运算,以确定所述搜索关联数据的交集结果数据。
在本发明的一些示例实施例中,基于前述方案,确定所述搜索关联数据的交集结果数据之后,所述对所述搜索关联数据进行筛选处理,确定所述历史用户行为数据对应的相似词包括:根据所述交集结果数据确定所述搜索关联数据对应的联合比例;对所述联合比例进行威尔逊转换得到所述搜索关联数据的威尔逊置信区间;根据预设阈值对所述威尔逊置信区间进行过滤处理,确定所述历史用户行为数据对应的相似词。
在本发明的一些示例实施例中,基于前述方案,通过所述搜索关联数据对所述统计数据进行交集运算,以确定所述搜索关联数据的交集结果数据还包括:对所述统计数据进行并集运算,以确定所述搜索关联数据的并集结果数据。
根据本发明实施例的第二方面,提供了一种相似词确定装置,包括:获取单元,用于获取历史用户行为数据;识别单元,用于对所述历史用户行为数据进行识别处理,以获取所述历史用户行为数据对应的搜索关联数据;筛选单元,用于对所述搜索关联数据进行筛选处理,确定所述历史用户行为数据对应的相似词。
根据本发明实施例的第三方面,提供了一种电子设备,包括:处理器;以及存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现上述任意一项所述的相似词确定方法。
根据本发明实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现根据上述任意一项所述的相似词确定方法。
本发明实施例提供的技术方案可以包括以下有益效果:
本发明的示例实施例中的相似词确定方法,在历史搜索日志中获取历史用户行为数据,识别历史用户行为数据以获取历史用户行为数据对应的搜索关联数据,对搜索关联数据进行筛选处理得到对应的相似词。一方面,对历史用户行为数据进行识别处理获取搜索关联数据,对搜索关联数据进行筛选处理得到历史用户行为数据对应的相似词,能够剔除干扰数据的影响,提高相似词的准确率;另一方面,从历史用户行为数据获取对应相似词,能够符合用户的搜索输入习惯,进一步提高相似词的准确率,使相似词的更加完整,提高用户的使用体验。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据本发明的一些实施例的相似词确定方法的示意图;
图2示意性示出了根据本发明的一些实施例的确定相似词流程的示意图;
图3示意性示出了根据本发明的一些实施例的用户搜索交易数据处理方法的示意图;
图4示意性示出了根据本发明的一些实施例的用户搜索点击数据处理方法的示意图;
图5示意性示出了根据本发明的一些实施例的相似词确定装置的示意图;
图6示意性示出了根据本发明的一些实施例的电子设备的计算机系统的结构示意图;
图7示意性示出了根据本发明的一些实施例的计算机可读存储介质的示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
此外,附图仅为示意性图解,并非一定是按比例绘制。附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
随着互联网行业的快速发展和电子商务技术的广泛应用,电商网站上的物品种类更加丰富,样式更加齐全。物品数量的持续增长以及物品信息统一规范和维护的困难性,以及用户在搜索时输入的搜索词个性化程度高,导致搜索词与物品匹配的准确率较低。
一种改善方法是使用“相似物品词”来匹配用户在搜索时输入的搜索词,举例而言,假设“小枕头”的相似物品词共有“小抱枕”和“小靠枕”两个,当用户搜索词包含“小枕头”时,返回“小枕头”“小抱枕”和“小靠枕”对应的搜索结果。但由于相似物品词库多由人工收集和规整,物品名称词之间的相似关系并不健全和完善,而且准确率较低,不能准确匹配到用户想要搜索到的物品,降低了用户的使用体验。
基于此,在本示例实施例中,首先提供了一种相似词确定方法。图1示意性示出了根据本发明的一些实施例的相似词确定方法的示意图。参考图1所示,该相似词确定方法可以包括以下步骤:
步骤S110,获取历史用户行为数据;
步骤S120,对所述历史用户行为数据进行识别处理,以获取所述历史用户行为数据对应的搜索关联数据;
步骤S130,对所述搜索关联数据进行筛选处理,确定所述历史用户行为数据对应的相似词。
根据本示例实施例中的相似词确定方法,一方面,对历史用户行为数据进行识别处理获取搜索关联数据,对搜索关联数据进行筛选处理得到历史用户行为数据对应的相似词,能够剔除干扰数据的影响,提高相似词的准确率;另一方面,从历史用户行为数据获取对应相似词,能够符合用户的输入习惯,进一步提高相似词的准确率,使相似词的更加完整,提高用户的使用体验。
下面,将对本示例实施例中的相似词确定方法进行进一步的说明。
继续参考图1所示,在步骤S110中,获取历史用户行为数据。
在本发明的一些示例实施例中,系统从用户搜索日志中收集并存储用户的操作行为数据,当收集并存储的有效用户操作行为数据(即用户输入搜索词后对搜索结果进行了收藏、购买、点击链接等操作行为数据可以视作有效数据,而用户输入搜索词后没有对搜索结果进行操作就退出搜索结果页面或者重新输入搜索词的数据可以视作无效数据,当然,有效或者无效数据根据实际情况不同也有不同的判定方式,本发明对此不做特殊限定)达到预设阈值后,获取有效用户操作行为数据作为本发明示例实施例的历史用户行为数据。历史用户行为数据可以是搜索交易数据(即用户输入搜索词后对某搜索结果进行了购买操作)和搜索点击数据(即用户输入搜索词后对某搜索结果进行了点击链接操作),当然,历史用户行为数据也可以是其他用户对搜索结果的操作行为数据,例如历史用户行为数据可以是对搜索结果进行追加购买或者收藏等操作行为数据,本发明对此不做特殊限定。
在步骤S120中,对历史用户行为数据进行识别处理,以获取历史用户行为数据对应的搜索关联数据。
在本发明的一些示例实施例中,由于历史用户行为数据中包括系统无法识别的较长的短语或者语句,例如用户输入的搜索内容为“结实耐用的三孔夹”,服务器无法识别该语句,因此需要对历史用户行为数据进行识别处理。识别处理可以是指通过相关的算法或者模型将历史用户行为数据中系统无法识别的短语或者语句进行处理生成系统能够识别的关键词的过程,例如对历史用户行为数据进行分词处理。当然,识别处理也可以是其他处理方式、算法或者模型,例如识别处理可以是指通过翻译词对齐算法进行处理,本发明对此不做特殊限定。搜索关联数据可以是指对历史用户行为数据进行识别处理后整理得到的关键词组,例如搜索关联数据可以是指从搜索交易数据中获取的交易关联词组,也可以是指从搜索点击数据中获取的点击关联词组,本发明对此不做特殊限定。
具体的,系统对历史用户行为数据进行分词处理,识别并确定历史用户行为数据中的多个关键词,根据预设的物品名称词库从多个关键词中获取历史用户行为数据对应的搜索关联数据。分词处理可以是指通过相关的分词处理算法对历史用户行为数据进行处理的过程,例如通过Word2vec(Word to Vector,产生词向量的相关模型)对搜索内容“结实耐用的三孔夹”进行分词处理,生成“结实”“耐用”“三孔夹”等关键词向量。物品名称词库可以是指相关工作人员根据实际情况提前设置好的包括所有物品名称的词库。系统根据物品名称词库提取多个关键词中包含的物品名称词构成搜索关联词组,例如对历史用户行为数据中用户搜索内容“结实耐用的三孔夹”进行分词处理,生成“结实”“耐用”“三孔夹”等关键词向量,对用户进行购买操作行为的搜索结果链接“结实的文件夹”以及“耐用的资料夹”等进行分词处理,生成“结实”“耐用”“文件夹”和“资料夹”,通过物品名称词库对前述多个关键词向量进行筛选得到“三孔夹,文件夹”以及“三孔夹,资料夹”两个搜索关联数据(搜索关联数据形式可以为词组“搜索词,物品名称词”,当然,搜索关联数据也可以是其他形式,例如搜索关联数据可以是表格形式,本发明对此不做特殊限定)。通过对历史用户行为数据进行分词处理不仅能够使系统更加准确地识别用户输入的搜索内容以及搜索结果中的物品名称词,而且能够提高系统处理数据的效率。
进一步的,系统根据物品名称词库获取搜索交易数据中的搜索词以及交易物品名称词,将搜索词与交易物品名称词进行组合确定搜索交易数据对应的多个关联词组。举例而言,对历史用户行为数据中用户搜索内容“结实耐用的三孔夹”进行分词处理,生成“结实”“耐用”“三孔夹”等关键词向量,对用户进行购买操作行为的搜索结果链接“结实的文件夹”以及“耐用的资料夹”等进行分词处理,生成“结实”“耐用”“文件夹”和“资料夹”,通过物品名称词库对前述多个关键词向量进行筛选得到“三孔夹,文件夹”以及“三孔夹,资料夹”两个搜索关联词组。同样地,对于用户进行购买操作行为的搜索结果链接的物品名称词“文件夹”,对应的有多个搜索词“三孔夹”、“资料夹”,得到两个关联词组“文件夹,三孔夹”和“文件夹,资料夹”(词组形式为“物品名称词,搜索词”)。通过将搜索词以及交易物品名称词进行组合,能够提高数据的准确性,并且不遗漏关键数据,保证数据的完整性。
系统根据搜索交易数据对前述步骤得到的多个关联词组中的每个关联词组进行交易量求和计算,确定每个关联词组对应的交易量,根据交易量对多个关联词组进行排序(排序可以是指降序排序,也可以是指升序排序,对此不做特殊限定),并获取符合预设条件的交易关联词组。预设条件可以是指根据实际情况规定的对多个关联词组进行筛选的数值,例如预设条件K为100,即系统根据每个关联词组对应的交易量对多个关联词组进行降序排序,获取排名在前100的关联词组作为后续计算的交易关联词组(搜索关联数据)。当然,也可以是系统根据每个关联词组对应的交易量对多个关联词组进行升序排序,剔除排名在前100的关联词组后将剩余的关联词组作为交易关联词组。通过交易量对得到的关联词组进行筛选,能够剔除数据中交易量为0或者数据缺失等无效数据,保证数据的准确性,提升系统处理的效率。
可选的,系统根据物品名称词库获取搜索点击数据中的搜索词以及点击物品名称词,将搜索词与点击物品名称词进行组合确定搜索点击数据对应的多个关联词组。系统根据搜索点击数据对多个关联词组中的每个关联词组进行点击量求和计算确定每个关联词组对应的点击量,根据点击量对多个关联词组进行排序,并获取符合预设条件的点击关联词组。该步骤对应的具体实施方式可以参考前述获取交易关联词组的步骤,在此不再详述。通过将搜索词以及点击物品名称词进行组合,能够提高数据的准确性,保证数据的完整性。通过点击量对得到的关联词组进行筛选,能够剔除数据中点击量为0或者数据缺失等无效数据,保证数据的准确性,提升系统处理的效率。
在步骤S130中,对搜索关联数据进行筛选处理,确定历史用户行为数据对应的相似词。
在本发明的一些示例实施例中,系统对历史用户行为数据进行识别处理得到的搜索关联数据进行筛选处理,该筛选处理可以是指能够提取搜索关联数据中的相似词的系列处理过程,例如筛选处理可以包括统计处理、转换处理、过滤处理等,本发明对此不做特殊限定。系统通过对搜索关联数据的筛选处理,得到历史用户行为数据对应的相似词列表(词库),并将该相似词列表(词库)用于对应的搜索服务,以提高用户输入的搜索词匹配到的物品词的准确率。
具体的,系统根据历史用户行为数据对应的数据量对搜索关联数据进行统计计算,确定搜索关联数据对应的统计数据;对统计数据进行交集运算确定搜索关联数据的交集结果数据。统计数据可以是指通过对搜索关联数据进行简单统计计算得到的特征数据,例如基于搜索关联数据对每个搜索词对应的交易物品名称词进行统计计算,交易关联数据中各搜索词对应的交易物品名称词对应的交易量(记为a),各搜索词对应的总交易量(对当前搜索词的所有交易物品名称词对应的下单量求和,记为b)以及计算对应的比例a/b,得到的统计数据记录为“搜索词,交易物品名称词,交易物品名称词对应的交易量a,搜索词对应的总交易量b,比例a/b”。举例而言,统计数据的结果可以记录为表格的形式,如表1所示:
表1每个搜索词对应的交易物品名称词的统计数据
同样地,基于搜索关联数据对每个交易物品名称词对应的搜索词进行统计计算,得到的统计数据记录为“交易物品名称词,搜索词,搜索词对应的交易量c,交易物品名称词对应的总下单量d,比例c/d”。举例而言,统计数据的结果可以记录为表格的形式,如表2所示:
表2每个交易物品名称词对应搜索词的统计数据
系统基于表1中的搜索词(例如搜索词“三孔夹”)以及表2中的交易物品名称词(例如交易物品名称词“文件夹”),对统计计算得到的每个搜索词对应的交易物品名称词的统计数据以及每个交易物品名称词对应的搜索词的统计数据进行交集计算,即只保留在上述两种统计数据中都出现的物品名称词组的记录,得到的交集结果数据记录为“物品名称词1,物品名称词2,交易物品名称词对应的交易量a,搜索词对应的总交易量b,比例a/b,搜索词对应的交易量c,交易物品名称词对应的总下单量d,比例c/d”,例如对前述表1以及表2中示例的统计数据进行交集得到“三孔夹,文件夹,3,12,0.25,1,3,0.33”。通过对搜索关联数据对应的统计数据进行交集运算,能够使最终得到的相似词更加准确,可以应用到准确率要求较高的搜索服务场景。
进一步的,在确定搜索关联数据的交集结果数据之后,系统根据交集结果数据确定搜索关联数据对应的联合比例;对联合比例进行威尔逊转换得到搜索关联数据的威尔逊置信区间值(威尔逊置信区间是一种统计度量,展现的是被测量参数的真实值有一定概率落在测量结果的周围的程度,即置信区间给出的是被测量参数的测量值的可信程度,也可以认为是结论的可信程度)。系统根据前述步骤得到的交集结果数据(即“物品名称词1,物品名称词2,交易物品名称词对应的交易量a,搜索词对应的总交易量b,比例a/b,搜索词对应的交易量c,交易物品名称词对应的总下单量d,比例c/d”)计算联合比例(记为e1),如式(1)所示:
对得到的联合比例进行威尔逊转换得到威尔逊置信区间值(记为e),如式(2)所示:
系统根据预设阈值对威尔逊置信区间值进行筛选处理,确定历史用户行为数据对应的相似词。预设阈值可以是指相关工作人员根据实际情况确定的对威尔逊置信区间值进行筛选的数值,例如预设阈值为0.1,则最终只保留e大于等于0.1的数据。此时筛选处理后的数据记录为“物品名称词1,物品名称词2,联合比例e1”。通过计算统计数据的联合比例以及根据联合比例对应的威尔逊执行区间值对数据进行筛选过滤,进一步提高数据的准确性和完整性。
可选的,也可以对统计数据进行并集运算,确定搜索关联数据的并集结果数据。并集结果数据的计算步骤与前述交集结果数据的计算步骤相同,只是最终得到的结果不同,详细过程在此不再赘述。同样地,根据并集结果数据计算对应的联合比例(记为f),并进行威尔逊转换得到并集结果数据的威尔逊置信区间值,并根据预设阈值对威尔逊置信区间值进行筛选处理得到结果数据,记录为“物品名称词1,物品名称词2,联合比例f”。通过对搜索关联数据进行并集运算,能够使得到的相似词覆盖范围较大,提高相似词的召回率,可以应用到召回率要求较高的搜索服务场景。
参考图2所示,图2示意性示出了根据本发明的一些实施例的确定相似词流程的示意图,下面对图中所述步骤进行详细描述。
步骤S210,对历史用户行为数据中的搜索交易数据进行处理,得到搜索交易数据对应的交易关联词组;
步骤S220,对历史用户行为数据中的搜索点击数据进行处理,得到搜索点击数据对应的点击关联词组;
步骤S230,将步骤S210得到的交易关联词组与步骤S220得到的点击关联词组进行统计计算、筛选处理,并将得到的结果数据进行合并;
步骤S240,将步骤S230得到的结果数据进行整理得到相似词列表(词库)。
参考图3所示,图3示意性示出了根据本发明的一些实施例的用户搜索交易数据处理方法的示意图,下面对图中所述步骤进行详细描述。
步骤S310,从用户搜索交易日志(即用户历史行为数据中的搜索交易数据)获取搜索内容以及搜索结果,并计算搜索内容以及搜索结果对应的交易量;
步骤S320,根据步骤S310得到的交易量对每个搜索内容对应的搜索结果进行降序排序,并获取每个搜索内容对应的排名前K的搜索结果;
步骤S330,基于预设的物品名称词库确定搜索内容以及搜索结果对应的产品词(搜索词),得到每个搜索内容产品词对应的排名前K的搜索结果产品词(交易物品名称词);
步骤S340,对步骤S330中每个搜索内容产品词对应的K个搜索结果产品词进行数据预处理以及统计计算得到对应统计数据;
步骤S350,同样地,根据步骤S310得到的交易量对每个搜索结果对应的搜索内容进行降序排序,并获取每个搜索结果对应的排名前K的搜索内容;
步骤S360,基于预设的物品名称词库确定搜索结果以及搜索内容对应的产品词,得到每个搜索结果产品词对应的排名前K的搜索内容产品词;
步骤S370,对步骤S360中每个搜索结果产品词对应的K个搜索内容产品词进行数据预处理以及统计计算得到对应统计数据;
步骤S380,计算步骤340以及步骤S370中得到的统计数据对应的联合比例,并对联合比例进行威尔逊转换得到威尔逊置信区间值,根据预设阈值对威尔逊置信区间值进行筛选处理;
步骤S390,将通过步骤S380筛选处理得到的统计数据对应的搜索交易数据中包含的相似词整理生成相似词列表(词库)。
参考图4所示,图4示意性示出了根据本发明的一些实施例的用户搜索点击数据处理方法的示意图,下面对图中所述步骤进行详细描述。
步骤S410,从用户搜索点击日志(即用户历史行为数据中的搜索点击数据)获取搜索内容以及搜索结果,并计算搜索内容以及搜索结果对应的交易量;
步骤S420,根据步骤S410得到的点击量对每个搜索内容对应的搜索结果进行降序排序,并获取每个搜索内容对应的排名前K的搜索结果;
步骤S430,基于预设的物品名称词库确定搜索内容以及搜索结果对应的产品词(搜索词),得到每个搜索内容产品词对应的排名前K的搜索结果产品词(交易物品名称词);
步骤S440,对步骤S430中每个搜索内容产品词对应的K个搜索结果产品词进行数据预处理以及统计计算得到对应统计数据;
步骤S450,同样地,根据步骤S410得到的点击量对每个搜索结果对应的搜索内容进行降序排序,并获取每个搜索结果对应的排名前K的搜索内容;
步骤S460,基于预设的物品名称词库确定搜索结果以及搜索内容对应的产品词,得到每个搜索结果产品词对应的排名前K的搜索内容产品词;
步骤S470,对步骤S460中每个搜索结果产品词对应的K个搜索内容产品词进行数据预处理以及统计计算得到对应统计数据;
步骤S480,计算步骤S440以及步骤S470中得到的统计数据对应的联合比例,并对联合比例进行威尔逊转换得到威尔逊置信区间值,根据预设阈值对威尔逊置信区间值进行筛选处理;
步骤S490,将通过步骤S480筛选处理得到的统计数据对应的搜索点击数据中包含的相似词整理生成相似词列表(词库)。
需要说明的是,本发明实施例中仅详细示意说明了历史用户行为数据中的搜索交易数据以及搜索点击数据的处理过程,历史用户行为数据还可以是对搜索结果进行追加购买或者收藏等操作行为数据,因此对历史用户行为数据的处理过程还可以包括用户对搜索结果进行追加购买或者收藏等操作行为数据的处理过程,详细的处理过程参考搜索交易数据以及搜索点击数据的处理过程,在此不再赘述。
需要说明的是,尽管在附图中以特定顺序描述了本发明中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
此外,在本示例实施例中,还提供了一种相似词确定装置。参照图5所示,该相似词确定装置500包括:获取单元510用于获取历史用户行为数据;识别单元520用于对所述历史用户行为数据进行识别处理,以获取所述历史用户行为数据对应的搜索关联数据;筛选单元530用于对所述搜索关联数据进行筛选处理,确定所述历史用户行为数据对应的相似词。
在本发明的一种示例性实施例中,基于前述方案,识别单元520还包括:分词处理单元,用于对所述历史用户行为数据进行分词处理,以识别所述历史用户行为数据中的多个关键词;搜索关联数据获取单元,用于根据预设的物品名称词库从所述多个关键词中获取所述历史用户行为数据对应的搜索关联数据。
在本发明的一种示例性实施例中,基于前述方案,搜索关联数据获取单元被配置为:基于所述物品名称词库,获取所述搜索交易数据中的搜索词以及交易物品名称词;将所述搜索词与所述交易物品名称词进行组合,以确定所述搜索交易数据对应的多个关联词组;根据所述搜索交易数据对所述多个关联词组中的每个关联词组进行交易量求和计算,以确定所述每个关联词组对应的交易量;根据所述交易量对所述多个关联词组进行排序,以获取符合预设条件的交易关联词组。
在本发明的一种示例性实施例中,基于前述方案,搜索关联数据获取单元被配置为:基于预设的物品名称词库,获取所述搜索点击数据中的搜索词以及点击物品名称词;将所述搜索词与所述点击物品名称词进行组合,以确定所述搜索点击数据对应的多个关联词组;根据所述搜索点击数据对所述多个关联词组中的每个关联词组进行点击量求和计算,以获取所述每个关联词组对应的点击量;根据所述点击量对所述多个关联词组进行排序,以获取符合预设条件的点击关联词组。
在本发明的一种示例性实施例中,基于前述方案,筛选单元530被配置为:根据所述历史用户行为数据对应的数据量对所述搜索关联数据进行统计计算,确定所述搜索关联数据对应的统计数据;对所述统计数据进行交集运算,以确定所述搜索关联数据的交集结果数据。
在本发明的一种示例性实施例中,基于前述方案,筛选单元530被配置为:根据所述交集结果数据确定所述搜索关联数据对应的联合比例;对所述联合比例进行威尔逊转换得到所述搜索关联数据的威尔逊置信区间值;根据预设阈值对所述威尔逊置信区间值进行筛选处理,以确定所述历史用户行为数据对应的相似词。
上述中相似词确定装置各模块的具体细节已经在对应的相似词确定方法中进行了详细的描述,因此此处不再赘述。
应当注意,尽管在上文详细描述中提及了相似词确定装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,在本公开的示例性实施例中,还提供了一种能够实现上述相似词确定方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施例、完全的软件实施例(包括固件、微代码等),或硬件和软件方面结合的实施例,这里可以统称为“电路”、“模块”或“系统”。
下面参照图6来描述根据本发明的这种实施例的电子设备600。图6所示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:上述至少一个处理单元610、上述至少一个存储单元620、连接不同系统组件(包括存储单元620和处理单元610)的总线630、显示单元640。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元610执行,使得所述处理单元610执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。例如,所述处理单元610可以执行如图1中所示的步骤S110,获取历史用户行为数据;步骤S120,对所述历史用户行为数据进行识别处理,以获取所述历史用户行为数据对应的搜索关联数据;步骤S130,对所述搜索关联数据进行筛选处理,确定所述历史用户行为数据对应的相似词。
存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)621和/或高速缓存存储单元622,还可以进一步包括只读存储单元(ROM)623。
存储单元620还可以包括具有一组(至少一个)程序模块625的程序/实用工具624,这样的程序模块625包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备600也可以与一个或多个外部设备670(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器660通过总线630与电子设备600的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。
参考图7所示,描述了根据本发明的实施例的用于实现上述相似词确定方法的程序产品700,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
通过以上的实施例的描述,本领域的技术人员易于理解,这里描述的示例实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本公开实施例的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (10)
1.一种相似词确定方法,其特征在于,包括:
获取历史用户行为数据;
对所述历史用户行为数据进行识别处理,以获取所述历史用户行为数据对应的搜索关联数据;
对所述搜索关联数据进行筛选处理,确定所述历史用户行为数据对应的相似词。
2.根据权利要求1所述的相似词确定方法,其特征在于,对所述历史用户行为数据进行识别处理,以获取所述历史用户行为数据对应的搜索关联数据包括:
对所述历史用户行为数据进行分词处理,以识别所述历史用户行为数据中的多个关键词;
根据预设的物品名称词库从所述多个关键词中获取所述历史用户行为数据对应的搜索关联数据。
3.根据权利要求2所述的相似词确定方法,其特征在于,所述历史用户行为数据包括搜索交易数据和搜索点击数据;所述搜索关联数据包括交易关联词组和点击关联词组;根据预设的物品名称词库从所述多个关键词中获取所述历史用户行为数据对应的搜索关联数据包括:
基于所述物品名称词库,获取所述搜索交易数据中的搜索词以及交易物品名称词;
将所述搜索词与所述交易物品名称词进行组合,以确定所述搜索交易数据对应的多个关联词组;
根据所述搜索交易数据对所述多个关联词组中的每个关联词组进行交易量求和计算,以确定所述每个关联词组对应的交易量;
根据所述交易量对所述多个关联词组进行排序,以获取符合预设条件的交易关联词组。
4.根据权利要求3所述的相似词确定方法,其特征在于,所述根据预设的物品名称词库从所述多个关键词中获取所述历史用户行为数据对应的搜索关联数据还包括:
基于所述物品名称词库,获取所述搜索点击数据中的搜索词以及点击物品名称词;
将所述搜索词与所述点击物品名称词进行组合,以确定所述搜索点击数据对应的多个关联词组;
根据所述搜索点击数据对所述多个关联词组中的每个关联词组进行点击量求和计算,以确定所述每个关联词组对应的点击量;
根据所述点击量对所述多个关联词组进行排序,以获取符合预设条件的点击关联词组。
5.根据权利要求1所述的相似词确定方法,其特征在于,对所述搜索关联数据进行筛选处理,确定所述历史用户行为数据对应的相似词还包括:
根据所述历史用户行为数据对应的数据量对所述搜索关联数据进行统计计算,确定所述搜索关联数据对应的统计数据;
对所述统计数据进行交集运算,以确定所述搜索关联数据的交集结果数据。
6.根据权利要求5所述的相似词确定方法,其特征在于,确定所述搜索关联数据的交集结果数据之后,所述对所述搜索关联数据进行筛选处理,确定所述历史用户行为数据对应的相似词包括:
根据所述交集结果数据确定所述搜索关联数据对应的联合比例;
对所述联合比例进行威尔逊转换得到所述搜索关联数据的威尔逊置信区间值;
根据预设阈值对所述威尔逊置信区间值进行筛选处理,以确定所述历史用户行为数据对应的相似词。
7.根据权利要求5所述的相似词确定方法,其特征在于,通过所述搜索关联数据对所述统计数据进行交集运算,以确定所述搜索关联数据的交集结果数据还包括:
对所述统计数据进行并集运算,以确定所述搜索关联数据的并集结果数据。
8.一种相似词确定装置,其特征在于,包括:
获取单元,用于获取历史用户行为数据;
识别单元,用于对所述历史用户行为数据进行识别处理,以获取所述历史用户行为数据对应的搜索关联数据;
筛选单元,用于对所述搜索关联数据进行筛选处理,确定所述历史用户行为数据对应的相似词。
9.一种电子设备,包括:
处理器;以及
存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时实现如权利要求1至7中任一项所述的相似词确定方法。
10.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的相似词确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910199068.XA CN111695028A (zh) | 2019-03-15 | 2019-03-15 | 相似词确定方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910199068.XA CN111695028A (zh) | 2019-03-15 | 2019-03-15 | 相似词确定方法及装置、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111695028A true CN111695028A (zh) | 2020-09-22 |
Family
ID=72475365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910199068.XA Pending CN111695028A (zh) | 2019-03-15 | 2019-03-15 | 相似词确定方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111695028A (zh) |
-
2019
- 2019-03-15 CN CN201910199068.XA patent/CN111695028A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019214245A1 (zh) | 一种信息推送方法、装置、终端设备及存储介质 | |
US20170235820A1 (en) | System and engine for seeded clustering of news events | |
US20180107945A1 (en) | Emoji recommendation method and device thereof | |
CN107357874B (zh) | 用户分类方法及装置、电子设备、存储介质 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN104834651B (zh) | 一种提供高频问题回答的方法和装置 | |
CN110347908B (zh) | 语音购物方法、装置、介质及电子设备 | |
CN107544988B (zh) | 一种获取舆情数据的方法和装置 | |
CN108549723B (zh) | 一种文本概念分类方法、装置及服务器 | |
CN109284369B (zh) | 证券新闻资讯重要性的判定方法、系统、装置及介质 | |
CN110276009B (zh) | 一种联想词的推荐方法、装置、电子设备及存储介质 | |
Feng et al. | Practical duplicate bug reports detection in a large web-based development community | |
CA2956627A1 (en) | System and engine for seeded clustering of news events | |
CN111666757A (zh) | 商品评论情感倾向分析方法、装置、设备和可读存储介质 | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
CN108804564A (zh) | 金融产品的组合推荐方法及终端设备 | |
Ara et al. | Understanding customer sentiment: Lexical analysis of restaurant reviews | |
CN115311042A (zh) | 商品推荐方法、装置、计算机设备和存储介质 | |
CN112966181A (zh) | 服务推荐方法、装置、电子设备及存储介质 | |
Liu et al. | Extracting, ranking, and evaluating quality features of web services through user review sentiment analysis | |
CN114065063A (zh) | 信息处理方法、信息处理装置、存储介质与电子设备 | |
CN111737607B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN113077312A (zh) | 酒店推荐方法、系统、设备及存储介质 | |
CN111625619B (zh) | 查询省略方法、装置、计算机可读介质及电子设备 | |
CN116703515A (zh) | 基于人工智能的推荐方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |