CN110955822B - 商品搜索方法和装置 - Google Patents
商品搜索方法和装置 Download PDFInfo
- Publication number
- CN110955822B CN110955822B CN201811121142.8A CN201811121142A CN110955822B CN 110955822 B CN110955822 B CN 110955822B CN 201811121142 A CN201811121142 A CN 201811121142A CN 110955822 B CN110955822 B CN 110955822B
- Authority
- CN
- China
- Prior art keywords
- word
- path
- candidate word
- candidate
- normalization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000010606 normalization Methods 0.000 claims abstract description 144
- 238000010276 construction Methods 0.000 claims description 42
- 238000000354 decomposition reaction Methods 0.000 claims description 28
- 238000012512 characterization method Methods 0.000 claims description 22
- 238000013507 mapping Methods 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 13
- 230000015654 memory Effects 0.000 claims description 13
- 239000000203 mixture Substances 0.000 claims description 13
- 239000003607 modifier Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 16
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000758 substrate Substances 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 210000004207 dermis Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种商品搜索方法,包括:接收针对商品的搜索词,获取与所述搜索词相对应的搜索结果,所述搜索结果的描述词与所述搜索词在归一词表中相匹配,其中,所述归一词表是基于表征词间关联性的正则网络构建的,以及输出所述搜索结果。本公开还提供了一种商品搜索装置、一种计算机设备以及一种计算机可读存储介质。
Description
技术领域
本公开涉及互联网技术领域,更具体地,涉及一种商品搜索方法和装置。
背景技术
随着互联网技术的快速发展,电子商务迅速兴起,各种电商平台提供了多种多样的线上商品交易渠道,极大地方便了人们的工作和生活。在用户通过电商平台进行商品的搜索的过程中,为了向用户展示符合用户搜索需求的商品,需要找到与用户输入的搜索词相匹配的搜索结果,现有技术中,通常采用两种方式进行匹配,第一种方式需要依赖于大量的上下文关联性紧密的训练文本,第二种方式通过计算词语之间的相似度进行匹配,这两种方式均不适用电商领域的文本特点,不能快速准确地匹配出搜索结果,不符合用户需求。
发明内容
有鉴于此,本公开提供了一种更适用于电商领域的商品搜索方法和装置。
本公开的一个方面提供了一种商品搜索方法,包括:接收针对商品的搜索词,获取与所述搜索词相对应的搜索结果,所述搜索结果的描述词与所述搜索词在归一词表中相匹配,其中所述归一词表是基于表征词间关联性的正则网络构建的,以及输出所述搜索结果。
根据本公开的实施例,上述方法还包括:基于各商品的描述词获取候选词集合,构建表征候选词间关联性的正则网络,基于所述正则网络,得到由具有归一关系的候选词有序组成的归一路径集合,以及基于所述归一路径集合生成归一词表。
根据本公开的实施例,各商品的描述词包括各商品的标题。上述基于各商品的描述词获取候选词集合包括:对各商品的标题进行分词处理得到多个分词结果,从所述分词结果中提取修饰词组成候选词集合。
根据本公开的实施例,上述构建表征候选词间关联性的正则网络包括:构建由元素Nij组成的初始正则网络,元素Nij表征候选词集合中一个候选词Wj相对于另一候选词Wi的关联性,其中,i和j为整数,i和j的取值总数分别等于候选词集合中的候选词总数,i不等于j,对于候选词集合中的任一个候选词Wi,构建所述候选词Wi对应的一个或多个正则匹配项,将候选词集合中的另一个候选词Wj分别与所述候选词Wi对应的各正则匹配项进行匹配,将匹配成功的项数赋值给所述表征候选词Wj相对于候选词Wi的关联性的元素Nij,遍历所述初始正则网络,在对各元素Nij均赋值后,得到所述表征候选词间关联性的正则网络。
根据本公开的实施例,上述构建所述候选词Wj对应的一个或多个正则匹配项包括:根据第一预设规则生成所述候选词Wi的分解集合,所述分解集合中包括所述候选词Wi中所包含的一个或多个预设最短长度词,对于所述分解集合中的每个预设最短长度词,构建该最短长度词的正则匹配项,将所述候选词Wi的分解集合中的各预设最短长度词对应的正则匹配项作为该候选词Wi对应的正则匹配项。
根据本公开的实施例,上述构建该最短长度词的正则匹配项包括:在该最短长度词的第一个字之前、相邻两个字之间、和/或最后一个字之后中的至少一个位置处插入一个或多个非空字符,组成该最短长度词的正则匹配项。
根据本公开的实施例,上述基于所述正则网络,得到由具有归一关系的候选词有序组成的归一路径集合包括:对于候选词集合中的每个候选词,以该候选词作为归一路径的起始路径节点,依次在候选词集合中根据所述正则网络寻找符合预设条件的候选词作为归一路径的新增路径节点,遍历候选词集合直至归一路径中的路径节点不再增加,由以候选词集合中各候选词为起始路径节点的归一路径组成所述归一路径集合。
根据本公开的实施例,上述依次在候选词集合中根据所述正则网络寻找符合预设条件的候选词作为归一路径的新增路径节点包括:对于以任一候选词Wi作为起始路径节点的归一路径,如果一个候选词Wj满足预定条件,将候选词Wj作为所述归一路径中的一个新增路径节点。其中预定条件包括:候选词Wi的权重大于所述归一路径中已确定的任一路径节点对应的候选词的权重,候选词Wi的长度不大于所述归一路径中已确定的任一路径节点对应的候选词的长度,候选词Wi与所述归一路径中已确定的任一路径节点对应的候选词不同,以及正则网络中表征候选词Wj相对于候选词Wi的关联性的元素Nij的取值大于0,其中,候选词Wi的权重等于正则网络中表征候选词集合中除候选词Wj之外其他各候选词相对于候选词Wj的关联性的元素的取值的总和与正则网络中表征候选词Wj相对于候选词集合中除候选词Wj之外其他各候选词的关联性的元素的取值的总和的比值。
根据本公开的实施例,上述方法还包括:在将候选词Wj作为所述归一路径中的一个新增路径节点后,将正则网络中表征候选词Wj相对于候选词Wj的关联性的元素Nij的取值置为0。
根据本公开的实施例,上述基于所述归一路径集合生成归一词表包括:根据第二预设规则对所述归一路径集合进行优化,对于优化后的每条归一路径,将该归一路径的起始路径节点对应的候选词作为原始词,将该归一路径的终止路径节点对应的候选词作为目标词,所述原始词和所述目标词构成一组归一映射,由优化后的各归一路径对应的归一映射构成归一词表。
根据本公开的实施例,上述根据第二预设规则对所述归一路径集合进行优化包括如下至少一种:将所述归一路径集合中仅包含一个路径节点的归一路径删除,并且/或者,在所述归一路径集合中,当一条归一路径的终止路径节点是另一个归一路径的起始路径节点时,将两条归一路径按照路径节点顺序合并为一条归一路径,并且/或者,在所述归一路径集合中,当两条归一路径的起始路径节点相同且终止路径节点相同时,将其中较短的归一路径删除。
本公开的另一个方面提供了一种商品搜索装置,包括:接收模块、第一获取模块和输出模块。接收模块,用于接收针对商品的搜索词。第一获取模块,用于获取与所述搜索词相对应的搜索结果,所述搜索结果的描述词与所述搜索词在归一词表中相匹配,其中,所述归一词表是基于表征词间关联性的正则网络构建的。输出模块,用于输出所述搜索结果。
根据本公开的实施例,上述装置还包括:第二获取模块,用于基于各商品的描述词获取候选词集合。归一词表构建模块,用于构建表征候选词间关联性的正则网络,基于所述正则网络,得到由具有归一关系的候选词有序组成的归一路径集合,以及基于所述归一路径集合生成归一词表。
根据本公开的实施例,各商品的描述词包括各商品的标题。第二获取模块基于各商品的描述词获取候选词集合包括:第二获取模块用于对各商品的标题进行分词处理得到多个分词结果,从所述分词结果中提取修饰词组成候选词集合。
根据本公开的实施例,归一词表构建模块构建表征候选词间关联性的正则网络包括:归一词表构建模块用于构建由元素Nij组成的初始正则网络,元素Nij表征候选词集合中一个候选词Wj相对于另一候选词Wi的关联性,其中,i和j为整数,i和j的取值总数分别等于候选词集合中的候选词总数,i不等于j。对于候选词集合中的任一个候选词Wi,构建所述候选词Wi对应的一个或多个正则匹配项,将候选词集合中的另一个候选词Wj分别与所述候选词Wi对应的各正则匹配项进行匹配,将匹配成功的项数赋值给所述表征候选词Wj相对于候选词Wi的关联性的元素Nij,遍历所述初始正则网络,在对各元素Nij均赋值后,得到所述表征候选词间关联性的正则网络。
根据本公开的实施例,归一词表构建模块构建所述候选词Wi对应的一个或多个正则匹配项包括:归一词表构建模块用于根据第一预设规则生成所述候选词Wi的分解集合,所述分解集合中包括所述候选词Wi中所包含的一个或多个预设最短长度词。对于所述分解集合中的每个预设最短长度词,构建该最短长度词的正则匹配项,将所述候选词Wi的分解集合中的各预设最短长度词对应的正则匹配项作为该候选词Wi对应的正则匹配项。
根据本公开的实施例,归一词表构建模块构建该最短长度词的正则匹配项包括:归一词表构建模块用于在该最短长度词的第一个字之前、相邻两个字之间、和/或最后一个字之后中的至少一个位置处插入一个或多个非空字符,组成该最短长度词的正则匹配项。
根据本公开的实施例,归一词表构建模块基于所述正则网络,得到由具有归一关系的候选词有序组成的归一路径集合包括:归一词表构建模块用于对于候选词集合中的每个候选词,以该候选词作为归一路径的起始路径节点,依次在候选词集合中根据所述正则网络寻找符合预设条件的候选词作为归一路径的新增路径节点,遍历候选词集合直至归一路径中的路径节点不再增加,由以候选词集合中各候选词为起始路径节点的归一路径组成所述归一路径集合。
根据本公开的实施例,归一词表构建模块依次在候选词集合中根据所述正则网络寻找符合预设条件的候选词作为归一路径的新增路径节点包括:归一词表构建模块用于对于以任一候选词Wi作为起始路径节点的归一路径,如果一个候选词Wj满足预定条件,将候选词Wj作为所述归一路径中的一个新增路径节点。其中预定条件包括:候选词Wj的权重大于所述归一路径中已确定的任一路径节点对应的候选词的权重,候选词Wj的长度不大于所述归一路径中已确定的任一路径节点对应的候选词的长度,候选词Wj与所述归一路径中已确定的任一路径节点对应的候选词不同,以及正则网络中表征候选词Wj相对于候选词Wi的关联性的元素Nij的取值大于0,其中,候选词Wj的权重等于正则网络中表征候选词集合中除候选词Wj之外其他各候选词相对于候选词Wj的关联性的元素的取值的总和与正则网络中表征候选词Wj相对于候选词集合中除候选词Wj之外其他各候选词的关联性的元素的取值的总和的比值。
根据本公开的实施例,所述装置还包括:更新模块,用于在将候选词Wi作为所述归一路径中的一个新增路径节点后,将正则网络中表征候选词Wj相对于候选词Wi的关联性的元素Nij的取值置为0。
根据本公开的实施例,归一词表构建模块基于所述归一路径集合生成归一词表包括:归一词表构建模块用于根据第二预设规则对所述归一路径集合进行优化,对于优化后的每条归一路径,将该归一路径的起始路径节点对应的候选词作为原始词,将该归一路径的终止路径节点对应的候选词作为目标词,所述原始词和所述目标词构成一组归一映射,由优化后的各归一路径对应的归一映射构成归一词表。
根据本公开的实施例,归一词表构建模块根据第二预设规则对所述归一路径集合进行优化包括如下至少一种:归一词表构建模块用于将所述归一路径集合中仅包含一个路径节点的归一路径删除,并且/或者,用于在所述归一路径集合中,当一条归一路径的终止路径节点是另一个归一路径的起始路径节点时,将两条归一路径按照路径节点顺序合并为一条归一路径,并且/或者,用于在所述归一路径集合中,当两条归一路径的起始路径节点相同且终止路径节点相同时,将其中较短的归一路径删除。
本公开的另一方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上所述的方法。
本公开的另一方面提供了一种计算机可读介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的方法。
本公开的另一方面提供了一种计算机程序,所述计算机程序包括计算机可执行指令,所述指令在被执行时用于实现如上所述的方法。
根据本公开的实施例,在接收到针对商品的搜索词时,将归一词表作为搜索依据获取与搜索词对应的搜索结果并输出,由于归一词表是基于表征词间关联性的正则网络构建的,归一词表中的每一组归一关系可以表示一组具有映射关系的词,则依据归一词表可以有效地挖掘商品搜索情景下潜在的词语关联关系,快速、准确地找到与搜索词匹配的搜索结果,符合用户的搜索需求。
附图说明
通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:
图1示意性示出了根据本公开实施例的可以应用商品搜索方法和装置的示例性系统架构;
图2示意性示出了根据本公开的实施例的商品搜索方法的流程图;
图3示意性示出了根据本公开实施例的构建归一词表的方法的流程图;
图4示意性示出了根据本公开实施例的候选词分解示意图;
图5示意性示出了根据本公开实施例的候选词归一路径结果示意图;
图6示意性示出了根据本公开实施例的商品搜索装置的框图;
图7示意性示出了根据本公开另一实施例的商品搜索装置的框图;
图8示意性示出了根据本公开另一实施例的商品搜索装置的框图;以及
图9示意性示出了根据本公开实施例的计算机设备的框图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。
在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。在使用类似于“A、B或C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B或C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。
本公开的实施例提供了一种商品搜索方法以及装置。该方法包括搜索词接收过程、搜索结果获取过程和搜索结果输出过程。在搜索词接收过程接收到针对商品的搜索词,在搜索结果获取过程依据归一词表获取到相应的搜索结果,并在搜索结果输出过程输出搜索结果,其中归一词表是基于表征词间关联性的正则网络构建的。
图1示意性示出了根据本公开实施例的可以应用商品搜索方法和装置的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。
如图1所示,根据该实施例的系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对用户利用终端设备101、102、103所浏览的网站提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的搜索请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的搜索结果、网页、信息、或数据等)反馈给终端设备。
需要说明的是,本公开实施例所提供的商品搜索方法可以由服务器105执行。相应地,本公开实施例所提供的商品搜索装置一般可以设置于服务器105中。本公开实施例所提供的商品搜索方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的商品搜索装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
或者,本公开实施例所提供的商品搜索方法也可以由终端设备101、102、103执行。相应地,本公开实施例所提供的商品搜索装置一般可以设置于终端设备101、102、103中。本公开实施例所提供的商品搜索方法也可以由不同于终端设备101、102、103且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地,本公开实施例所提供的商品搜索装置也可以设置于不同于终端设备101、102、103且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,根据实现需要,可以具有任意数目的终端设备、网络和服务器。
图2示意性示出了根据本公开的实施例的商品搜索方法的流程图。
如图2所示,该方法包括在操作S201,接收针对商品的搜索词。
然后,在操作S202,获取与所述搜索词相对应的搜索结果,所述搜索结果的描述词与所述搜索词在归一词表中相匹配,其中,所述归一词表是基于表征词间关联性的正则网络构建的。
本操作中,归一词表中包括多组归一关系,每组归一关系包括多个能够表征相同的商品特征的具有映射关系的词语,搜索结果的描述词与搜索词在归一词表中相匹配是指搜索结果的描述词与搜索词在归一词表中匹配于同一归一关系,说明搜索结果的描述词与搜索词具有关联映射关系,能够表征相同的商品特征。
在操作S203,输出所述搜索结果。
需要说明的是,图2所示的商品搜索方法可以在服务器侧实施,也可以在客户端侧实施,当该方法在服务器侧实施时,在操作S201接收客户端提交的针对商品的搜索词,在操作S202获取与所述搜索词相对应的搜索结果,在操作S203向客户端输出所述搜索结果,由客户端将所述搜索结果输出展示给用户。当该方法在客户端侧实施时,在操作S201接收用户输入的搜索词,在操作S202获取与所述搜索词相对应的搜索结果,并在操作S203向用户输出展示所述搜索结果。
可见,图2所示的方法在接收到针对商品的搜索词时,将归一词表作为搜索依据获取与搜索词对应的搜索结果并输出,由于归一词表是基于表征词间关联性的正则网络构建的,归一词表中的每一组归一关系可以表示一组具有映射关系的词,则依据归一词表可以有效地挖掘商品搜索情景下潜在的词语关联关系,快速、准确地找到与搜索词匹配的搜索结果,符合用户的搜索需求。
根据图2所示的方法,在操作S202之前,需要先构建归一词表。
图3示意性示出了根据本公开实施例的构建归一词表的方法的流程图,以作为商品搜索过程中查找搜索结果的依据。
如图3所示,该方法包括在操作S301,基于各商品的描述词获取候选词集合。
由于电商领域文本具有上下文关联性较弱、具有明显的领域特性、用词具有一定的自由度等特点,本操作直接以词语的粒度进行归一关系的挖掘。
然后,在操作S302,构建表征候选词间关联性的正则网络。
在操作S303,基于所述正则网络,得到由具有归一关系的候选词有序组成的归一路径集合。
在操作S304,基于所述归一路径集合生成归一词表。
可以看到,构建归一词表所用到的候选词是从所有商品的描述词中得来的,正则网络表征候选词间的关联性,依据正则网络中所表征的候选词间的关联性可以搜寻到由具有归一关系的候选词有序组成的归一路径集合,进而可以生成归一词表,这种方式与现有构建归一词表的方式相比,候选词适配于商品搜索情景,候选词不受限制,且不需要关注上下文关系,适合电商领域文本表述碎片化以及连续性弱的特点。下面对图3所示方法的各操作进行详细说明。
在本公开的一个实施例中,各商品的描述词可以是各商品的标题,在其他实施例中,各商品的描述词也可以是商品的详情、商品的规格参数等等,在此不做限制,以各商品的标题为例进行说明。则操作S301基于各商品的描述词获取候选词集合包括:对各商品的标题进行分词处理得到多个分词结果,从所述分词结果中提取修饰词组成候选词集合。
接着,进行操作S302构建表征候选词间关联性的正则网络。假设前一操作S301所组成的候选词集合为W,在此基础上,在本公开的一个实施例中,构建由元素Nij组成的初始正则网络N0,N0={Nij}。其中元素Nij表征候选词集合W中一个候选词Wj相对于另一候选词Wi的关联性,其中,i和j为整数,i和j的取值总数分别等于候选词集合中的候选词总数,i不等于j。
对初始正则网络N0中的各元素Nij进行赋值以得到真正有效的正则网络。对于候选词集合W中的任一个候选词Wj,构建所述候选词Wj对应的一个或多个正则匹配项,将候选词集合中的另一个候选词Wj分别与所述候选词Wi对应的各正则匹配项进行匹配,将匹配成功的项数赋值给所述表征候选词Wj相对于候选词Wi的关联性的元素Nij。遍历所述初始正则网络N0,在对各元素Nij均赋值后,得到所述表征候选词间关联性的正则网络N={Nij}。
可见,上述过程利用一个候选词与另一个候选词的正则匹配项的匹配成功项数描述这两个候选词相对关联性,并保存于正则网络中以待后续寻找归一关系时使用,通过此种方式构造的正则网络可以粗略、有方向性地表征两个候选词之间的关联程度,以用于后续有方向性地寻找归一关系。
其中,作为一个可选的实施例,上述构建正则网络的过程中构建所述候选词Wi对应的一个或多个正则匹配项包括:根据第一预设规则生成所述候选词Wi的分解集合,所述分解集合中包括所述候选词Wi中所包含的一个或多个预设最短长度词。对于所述分解集合中的每个预设最短长度词,构建该最短长度词的正则匹配项,将所述候选词Wi的分解集合中的各预设最短长度词对应的正则匹配项作为该候选词Wi对应的正则匹配项。
具体地,上述构建该最短长度词的正则匹配项可以包括:在该最短长度词的第一个字之前、相邻两个字之间、和/或最后一个字之后中的至少一个位置处插入一个或多个非空字符,组成该最短长度词的正则匹配项。
例如,对电商平台上所有商品标题进行分词,从分词结果中提取修饰词得到候选词集合W,对于候选词集合W中的任一候选词Wi,依据候选词Wi的长度对候选词Wi进行字的拆分,生成其对应的分解集合Ci。具体可以是,假设预设最短长度为2个字,如果候选词Wi包含字的个数为2,len(Wi)=2,则分解集合Ci={Wi}。如果候选词Wi包含字的个数为3,len(Wi)=3,则分解集合Ci={Wi0W1l,Wi1Wi2},其中Wi0、Wi1以及Wi2分别表示Wi的第一个字、第二个字与第三个字。如果候选词Wi包含字的个数为4,len(Wi)=4,则分解集合Ci={Wi0Wi1,Wi2Wi3},其中Wi0、Wi1、Wi2以及Wi3分别表示Wi的第一个字、第二个字、第三个字与第四个字。如果候选词Wi包含字的个数大于4或小于2,len(Wi)>4或len(Wi)<2,则分解集合Ci为空集,即在本例中长度大于4或小于2的候选词不用于作为构建归一词表的样本词语。
图4示意性示出了根据本公开实施例的候选词分解示意图,以说明上述得到候选词Wi对应的分解集合Ci的过程。如图4所示,当候选词Wi为两字词“红色”时,分解集合Ci={“红色”},当候选词Wi为三字词“提花纹”时,分解集合Ci={“提花”,“花纹”},当候选词Wi为四字词“立领格纹”时,分解集合Ci={“立领”,“格纹”}。即任何候选词的分解过程均与此同理,不再赘述。
在生成所述候选词Wi的分解集合Ci之后,Ci={Cik},任一Cik为分解集合Ci中的一个预设最短长度词,在本例中,任一Cik包含两个字,第一个字为Cik0,第一个字为Cik1。构建分解集合Ci中的每个最短长度词Cik的正则匹配项Pik:
Pik=\S*Cik0\S*Cik1\S*
其中\S*表示任意数量个非空字符,则正则匹配项Pik表示在最短长度词Cik的第一个字Cik0之前、相邻两个字Cik0和Cik1之间、以及第二个字Cik1之后插入一个或多个非空字符而得到的。
在构建分解集合Ci中的每个最短长度词Cik的正则匹配项Pik之后,将各预设最短长度词Cik对应的正则匹配项Pik作为该候选词Wi对应的正则匹配项。如在图4所示的候选词Wi“提花纹”对应的分解集合Ci={“提花”,“花纹”}中,Ci0=提花,Ci1=花纹,Ci00=提,Ci01=花,Ci10=花,Ci11=纹,Ci0对应的正则匹配项Pi0=\S*提\S*花\S*,Ci1对应的正则匹配项Pi1=\S*花\S*纹\S*,则候选词Wi“提花纹”对应的正则匹配项包括Pi0和Pi1。
进而可以构建正则网络N。先构建由元素Nij组成的初始正则网络N0,N0={Nij},Nij的初始值为0。对于候选词集合W中的任一个候选词Wi,构建所述候选词Wi对应的一个或多个正则匹配项Pik,将候选词集合中的另一个候选词Wi分别与所述候选词Wi对应的各正则匹配项Pik进行匹配,将匹配成功的项数赋值给所述表征候选词Wi相对于候选词Wi的关联性的元素Nij。如对于图4所示的候选词Wi“提花纹”,其对应的正则匹配项包括Pi0和Pi1,将候选词Wj“提花立领”分别与Pi0和Pi1进行匹配,Wj与Pi0=\S*提\S*花\S*匹配成功,与Pi1匹配失败,则匹配成功的项数为1,将元素Nij赋值为1。在对各元素Nij均赋值后,最终可得到所述表征候选词间关联性的正则网络N={Nij},该正则网络N是一个有向网络,Nij表征候选词Wj相对于候选词Wi的关联性,Nji表征候选词Wi相对于另一候选词Wj的关联性,二者是不同的,分别表示两个方向的关联关系。
在经过上述过程构建表征候选词间关联性的正则网络之后,可以执行图3所示方法的操作S303,在本公开的一个实施例中,操作S303基于所述正则网络,得到由具有归一关系的候选词有序组成的归一路径集合包括:对于候选词集合中的每个候选词,以该候选词作为归一路径的起始路径节点,依次在候选词集合中根据所述正则网络寻找符合预设条件的候选词作为归一路径的新增路径节点,遍历候选词集合直至归一路径中的路径节点不再增加,由以候选词集合中各候选词为起始路径节点的归一路径组成所述归一路径集合。在本实施例中,根据正则网络从每个候选词出发寻找路径节点组成归一路径,可以有方向地、逐渐收敛地找到具有归一关系的其他具有归一关系的候选词。
具体地,上述依次在候选词集合中根据所述正则网络寻找符合预设条件的候选词作为归一路径的新增路径节点包括:对于以任一候选词Wi作为起始路径节点的归一路径,如果一个候选词Wj满足如下条件:候选词Wj的权重大于所述归一路径中已确定的任一路径节点对应的候选词的权重,候选词Wi的长度不大于所述归一路径中已确定的任一路径节点对应的候选词的长度,候选词Wi与所述归一路径中已确定的任一路径节点对应的候选词不同,以及正则网络中表征候选词Wi相对于候选词Wi的关联性的元素Nij的取值大于0,其中,候选词Wj的权重等于正则网络中表征候选词集合中除候选词Wi之外其他各候选词相对于候选词Wi的关联性的元素的取值的总和与正则网络中表征候选词Wj相对于候选词集合中除候选词Wj之外其他各候选词的关联性的元素的取值的总和的比值。则将候选词Wi作为所述归一路径中的一个新增路径节点。
可见,本实施例提供了在寻找归一路径的过程中确定为路径节点的候选词需要满足的几个条件,使得路径朝着归一化、收敛化的方向发展,下面将做详细说明。
在搜索构建的正则网络N={Nij}的基础上,搜索整个正则网络挖掘潜在的候选词归一路径,其中每一条归一路径对应一种潜在的归一关系。寻找归一路径的目的是建立归一词表,由于归一词表中归一关系是描述“具体的内容映射到抽象的内容”或是“复杂的内容映射到简单的内容”的一种映射关系。通常“具体的内容”或“复杂的内容”由较长的词语表达,而“抽象的内容”或“简单的内容”由较短的词语表达,即在归一关系中,需满足如下第一条件:
其中表示的是原词语,/>表示的是归一的目标词语。
同时,由于“抽象的内容”或“简单的内容”相比于“具体的内容”和“复杂的内容”会更容易与已有的内容相匹配,即更易于在候选词正则网络N={Nij}产生出边。基于此现象,对于候选词集合W中的任意候选词Wi,根据正则网络N定义了候选词Wi对应的权重gi:
表示候选词Wi对应的权重等于其他各候选词相对于候选词Wi的关联性的总和与候选词Wi相对于其他各候选词的关联性的总和的比值。则对于归一的目标词语/>对应的权重大于原词语/>对应的权重,即需满足如下第二条件:
以上述为前提,根据正则网络中搜寻归一路径,将候选词集合中的候选词作为路径节点,正则网络的搜索采用贪婪策略,对于任意候选词Wi,以该候选词Wi为起始路径节点,存在一个归一路经集合Mi={Lit},其中每条路径Lit顺序记录以Wi为起始路径节点的贪婪搜索过的节点,即搜索到一个符合要求的节点,便将该节点链入路径Lit中,使得路径Lit不断延长,直至遍历完成候选词集合,该条归一路径即搜寻完毕。搜索节点并将节点链入路径的过程中始终要满足上述第一条件和第二条件,则对于一个候选词Wj,如果要将该候选词Wj作为一个路径节点链入路径Lit中,在上述第一条件和第二条件的制约下,候选词Wj需要同时满足如下条件:
gj>max(gk),Wk∈Lit
len(Wj)≤len(Wk),Wk∈Lit
Nij>0
其中,gj为候选词Wj的权重,可以看出路径Lit从起始路径节点开始顺序记录的路径节点中,长度逐渐减小,权重逐渐增大,逐渐向着归一的方向趋近。每当将一个候选词Wj作为路径节点链入路径Lit中之后,Wj∈Lit,接着继续以Wi为起始路径节点,从候选词集合中搜索新的路径节点。
进一步地,作为一个可选的实施例,在将候选词Wj作为所述归一路径中的一个新增路径节点后,图3所示的方法还包括:将正则网络中表征候选词Wj相对于候选词Wi的关联性的元素Nij的取值置为0。也就是说,在搜寻路径节点的过程中,已经搜索过的候选词相对于起始路径节点的关联性所对应的元素Nij已经被使用过,则可以将其置为0,这样相当于将用过的元素删掉,缩小正则网络,利于后续归一路径的寻找过程。
构建归一词表所需的归一路径集合已准备完毕,则在操作S303得到归一路径集合之后,作为本公开的一个实施例,操作S304基于所述归一路径集合生成归一词表包括:根据第二预设规则对所述归一路径集合进行优化,对于优化后的每条归一路径,将该归一路径的起始路径节点对应的候选词作为原始词,将该归一路径的终止路径节点对应的候选词作为目标词,所述原始词和所述目标词构成一组归一映射,由优化后的各归一路径对应的归一映射构成归一词表。
具体地,上述根据第二预设规则对所述归一路径集合进行优化可以包括如下至少一种:将所述归一路径集合中仅包含一个路径节点的归一路径删除,并且/或者,在所述归一路径集合中,当一条归一路径的终止路径节点是另一个归一路径的起始路径节点时,将两条归一路径按照路径节点顺序合并为一条归一路径,并且/或者,在所述归一路径集合中,当两条归一路径的起始路径节点相同且终止路径节点相同时,将其中较短的归一路径删除。可见,上述对归一路径进行优化使得最终得到的归一词表尽量完整不间断、不重复冗余。
例如,以该候选词Wi为起始路径节点,存在归一路经集合Mi={Lit},如果归一路经Li1中仅包含单个候选词Wi,且归一路经集合Mi中除归一路经Li1以外还包括其他归一路径,则从归一路经集合Mi中删除归一路经Li1。如果归一路经Li1的最后一个路径节点为Wj,且存在一个长度大于1的归一路经Li2,该归一路经Li2属于以候选词Wj为起始路径节点的归一路径集合Mj,则按照路径顺序合并Li1和Li2。如果Li1和Li2的起始路径节点相同且终止路径节点相同,将其中较短的归一路径删除。通过上述过程,最终可以后的优化后的归一路径,如图5所示。
图5示意性示出了根据本公开实施例的候选词归一路径结果示意图。如图5所示,每条归一路径以路径节点1为起始路径节点,依次包括路径节点2、路径节点3、……,路径节点的长度逐渐减小,下面示出的具体例子中起始路径节点为“真皮加绒”,共有13条归一路径,其中3条归一路径有两个路径节点,其余10条归一路径包括三个路径节点,每条归一路经中从左至右路径节点的长度递减,将每条归一路经中的第一个候选词作为原词语每条归一路经中的最后一个候选词作为相应的归一的目标词语/>多个原词语和目标词语的归一映射关系构成了归一词表,该归一词表中的候选词来源于电商平台中所有商品的描述词,因此该归一词表适配于电商领域,为归纳整理相似的商品属性,统一描述商品特征提供极大的支持,进而优化商品搜索效果。在用户搜索商品的场景下,用户所输入的搜索词往往不会准确对应于商品的描述词,而通过该归一词表来寻找搜索词与商品的描述词之间的映射关系,能够快速、高效、准确地找到相应的搜索结果。
图6示意性示出了根据本公开实施例的商品搜索装置的框图。
如图6所示,商品搜索装置600包括接收模块610、第一获取模块620、和输出模块630。
接收模块610用于接收针对商品的搜索词。
第一获取模块620用于获取与所述搜索词相对应的搜索结果,所述搜索结果的描述词与所述搜索词在归一词表中相匹配,其中,所述归一词表是基于表征词间关联性的正则网络构建的。
输出模块630用于输出所述搜索结果。
可见,图6所示的装置在接收到针对商品的搜索词时,将归一词表作为搜索依据获取与搜索词对应的搜索结果并输出,由于归一词表是基于表征词间关联性的正则网络构建的,归一词表中的每一组归一关系可以表示一组具有映射关系的词,则依据归一词表可以有效地挖掘商品搜索情景下潜在的词语关联关系,快速、准确地找到与搜索词匹配的搜索结果,符合用户的搜索需求。
图7示意性示出了根据本公开另一实施例的商品搜索装置的框图。
如图7所示,商品搜索装置700包括接收模块610、第一获取模块620、输出模块630、第二获取模块640和归一词表构建模块650。
其中,接收模块610、第一获取模块620、和输出模块630在前文中已详细说明,重复的部分不再赘述。
第二获取模块640用于基于各商品的描述词获取候选词集合。
归一词表构建模块650用于构建表征候选词间关联性的正则网络,基于所述正则网络,得到由具有归一关系的候选词有序组成的归一路径集合,以及基于所述归一路径集合生成归一词表。
在本公开的一个实施例中,各商品的描述词包括各商品的标题。第二获取模块640基于各商品的描述词获取候选词集合包括:第二获取模块640用于对各商品的标题进行分词处理得到多个分词结果,从所述分词结果中提取修饰词组成候选词集合。
在本公开的一个实施例中,归一词表构建模块650构建表征候选词间关联性的正则网络包括:归一词表构建模块650用于构建由元素Nij组成的初始正则网络,元素Nij表征候选词集合中一个候选词Wj相对于另一候选词Wi的关联性,其中,i和j为整数,i和j的取值总数分别等于候选词集合中的候选词总数,i不等于j。对于候选词集合中的任一个候选词Wi,构建所述候选词Wi对应的一个或多个正则匹配项;将候选词集合中的另一个候选词Wj分别与所述候选词Wi对应的各正则匹配项进行匹配,将匹配成功的项数赋值给所述表征候选词Wj相对于候选词Wi的关联性的元素Nij。遍历所述初始正则网络,在对各元素Nij均赋值后,得到所述表征候选词间关联性的正则网络。
其中,归一词表构建模块650构建所述候选词Wi对应的一个或多个正则匹配项可以包括:归一词表构建模块650用于根据第一预设规则生成所述候选词Wi的分解集合,所述分解集合中包括所述候选词Wi中所包含的一个或多个预设最短长度词。对于所述分解集合中的每个预设最短长度词,构建该最短长度词的正则匹配项,将所述候选词Wi的分解集合中的各预设最短长度词对应的正则匹配项作为该候选词Wi对应的正则匹配项。
具体地,作为一个可选的实施例,归一词表构建模块650构建该最短长度词的正则匹配项包括:归一词表构建模块650用于在该最短长度词的第一个字之前、相邻两个字之间、和/或最后一个字之后中的至少一个位置处插入一个或多个非空字符,组成该最短长度词的正则匹配项。
在本公开的一个实施例中,归一词表构建模块650基于所述正则网络,得到由具有归一关系的候选词有序组成的归一路径集合包括:归一词表构建模块650用于对于候选词集合中的每个候选词,以该候选词作为归一路径的起始路径节点,依次在候选词集合中根据所述正则网络寻找符合预设条件的候选词作为归一路径的新增路径节点,遍历候选词集合直至归一路径中的路径节点不再增加。由以候选词集合中各候选词为起始路径节点的归一路径组成所述归一路径集合。
其中,作为一个可选的实施例,归一词表构建模块650依次在候选词集合中根据所述正则网络寻找符合预设条件的候选词作为归一路径的新增路径节点包括:归一词表构建模块650用于对于以任一候选词Wi作为起始路径节点的归一路径,如果一个候选词Wj满足预定条件,则将候选词Wj作为所述归一路径中的一个新增路径节点。其中,预定条件包括:候选词Wj的权重大于所述归一路径中已确定的任一路径节点对应的候选词的权重,候选词Wj的长度不大于所述归一路径中已确定的任一路径节点对应的候选词的长度,候选词Wj与所述归一路径中已确定的任一路径节点对应的候选词不同,以及正则网络中表征候选词Wj相对于候选词Wi的关联性的元素Nij的取值大于0,其中,候选词Wj的权重等于正则网络中表征候选词集合中除候选词Wj之外其他各候选词相对于候选词Wj的关联性的元素的取值的总和与正则网络中表征候选词Wj相对于候选词集合中除候选词Wj之外其他各候选词的关联性的元素的取值的总和的比值。
在本公开的一个实施例中,归一词表构建模块650基于所述归一路径集合生成归一词表包括:归一词表构建模块650用于根据第二预设规则对所述归一路径集合进行优化。对于优化后的每条归一路径,将该归一路径的起始路径节点对应的候选词作为原始词,将该归一路径的终止路径节点对应的候选词作为目标词,所述原始词和所述目标词构成一组归一映射。由优化后的各归一路径对应的归一映射构成归一词表。
其中,归一词表构建模块650根据第二预设规则对所述归一路径集合进行优化可以包括如下至少一种:归一词表构建模块650用于将所述归一路径集合中仅包含一个路径节点的归一路径删除,并且/或者,用于在所述归一路径集合中,当一条归一路径的终止路径节点是另一个归一路径的起始路径节点时,将两条归一路径按照路径节点顺序合并为一条归一路径,并且/或者,用于在所述归一路径集合中,当两条归一路径的起始路径节点相同且终止路径节点相同时,将其中较短的归一路径删除。
图8示意性示出了根据本公开另一实施例的商品搜索装置的框图。
如图8所示,商品搜索装置800包括接收模块610、第一获取模块620、输出模块630、第二获取模块640、归一词表构建模块650和更新模块660。
其中,接收模块610、第一获取模块620、输出模块630、第二获取模块640、和归一词表构建模块650在前文中已详细说明,重复的部分不再赘述。
更新模块660用于在将候选词Wj作为所述归一路径中的一个新增路径节点后,将正则网络中表征候选词Wj相对于候选词Wi的关联性的元素Nij的取值置为0。
根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
例如,接收模块610、第一获取模块620、输出模块630、第二获取模块640、归一词表构建模块650和更新模块660中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,接收模块610、第一获取模块620、输出模块630、第二获取模块640、归一词表构建模块650和更新模块660中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,接收模块610、第一获取模块620、输出模块630、第二获取模块640、归一词表构建模块650和更新模块660中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
图9示意性示出了根据本公开实施例的适于实现上文描述的方法的计算机设备的框图。图9示出的计算机设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,根据本公开实施例的计算机设备900包括处理器901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。处理器901例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器901还可以包括用于缓存用途的板载存储器。处理器901可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。
在RAM 903中,存储有设备900操作所需的各种程序和数据。处理器901、ROM 902以及RAM 903通过总线904彼此相连。处理器901通过执行ROM 902和/或RAM 903中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,所述程序也可以存储在除ROM 902和RAM 903以外的一个或多个存储器中。处理器901也可以通过执行存储在所述一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。
根据本公开的实施例,设备900还可以包括输入/输出(I/O)接口905,输入/输出(I/O)接口905也连接至总线904。系统900还可以包括连接至I/O接口905的以下部件中的一项或多项:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。在该计算机程序被处理器901执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。
本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 902和/或RAM 903和/或ROM 902和RAM 903以外的一个或多个存储器。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。特别地,在不脱离本公开精神和教导的情况下,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合。所有这些组合和/或结合均落入本公开的范围。
以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。
Claims (20)
1.一种商品搜索方法,包括:
接收针对商品的搜索词;
获取与所述搜索词相对应的搜索结果,所述搜索结果的描述词与所述搜索词在归一词表中相匹配,其中,所述归一词表是基于表征词间关联性的正则网络构建的;
输出所述搜索结果;
其中,所述方法还包括:基于各商品的描述词获取候选词集合;构建表征候选词间关联性的正则网络;基于所述正则网络,得到由具有归一关系的候选词有序组成的归一路径集合;以及基于所述归一路径集合生成归一词表;
基于所述正则网络,得到由具有归一关系的候选词有序组成的归一路径集合包括:对于候选词集合中的每个候选词,以该候选词作为归一路径的起始路径节点,依次在候选词集合中根据所述正则网络寻找符合预设条件的候选词作为归一路径的新增路径节点,遍历候选词集合直至归一路径中的路径节点不再增加;由以候选词集合中各候选词为起始路径节点的归一路径组成所述归一路径集合。
2.根据权利要求1所述的方法,其中:
各商品的描述词包括各商品的标题;
基于各商品的描述词获取候选词集合包括:对各商品的标题进行分词处理得到多个分词结果,从所述分词结果中提取修饰词组成候选词集合。
3.根据权利要求1所述的方法,其中,构建表征候选词间关联性的正则网络包括:
构建由元素Nij组成的初始正则网络,元素Nij表征候选词集合中一个候选词Wj相对于另一候选词Wi的关联性,其中,i和j为整数,i和j的取值总数分别等于候选词集合中的候选词总数,i不等于j;
对于候选词集合中的任一个候选词Wi,构建所述候选词Wi对应的一个或多个正则匹配项;
将候选词集合中的另一个候选词Wj分别与所述候选词Wi对应的各正则匹配项进行匹配,将匹配成功的项数赋值给所述表征候选词Wj相对于候选词Wi的关联性的元素Nij;
遍历所述初始正则网络,在对各元素Nij均赋值后,得到所述表征候选词间关联性的正则网络。
4.根据权利要求3所述的方法,其中,构建所述候选词Wi对应的一个或多个正则匹配项包括:
根据第一预设规则生成所述候选词Wi的分解集合,所述分解集合中包括所述候选词Wi中所包含的一个或多个预设最短长度词;
对于所述分解集合中的每个预设最短长度词,构建该最短长度词的正则匹配项;
将所述候选词Wi的分解集合中的各预设最短长度词对应的正则匹配项作为该候选词Wi对应的正则匹配项。
5.根据权利要求4所述的方法,其中,构建该最短长度词的正则匹配项包括:在该最短长度词的第一个字之前、相邻两个字之间、和/或最后一个字之后中的至少一个位置处插入一个或多个非空字符,组成该最短长度词的正则匹配项。
6.根据权利要求1所述的方法,其中,依次在候选词集合中根据所述正则网络寻找符合预设条件的候选词作为归一路径的新增路径节点包括:
对于以任一候选词Wi作为起始路径节点的归一路径,如果一个候选词Wj满足如下条件:
候选词Wj的权重大于所述归一路径中已确定的任一路径节点对应的候选词的权重,
候选词Wj的长度不大于所述归一路径中已确定的任一路径节点对应的候选词的长度,
候选词Wj与所述归一路径中已确定的任一路径节点对应的候选词不同,以及
正则网络中表征候选词Wj相对于候选词Wi的关联性的元素Nij的取值大于0,
其中,候选词Wj的权重等于正则网络中表征候选词集合中除候选词Wj之外其他各候选词相对于候选词Wj的关联性的元素的取值的总和与正则网络中表征候选词Wj相对于候选词集合中除候选词Wj之外其他各候选词的关联性的元素的取值的总和的比值;
将候选词Wj作为所述归一路径中的一个新增路径节点。
7.根据权利要求6所述的方法,还包括:在将候选词Wj作为所述归一路径中的一个新增路径节点后,将正则网络中表征候选词Wj相对于候选词Wi的关联性的元素Nij的取值置为0。
8.根据权利要求1所述的方法,其中,基于所述归一路径集合生成归一词表包括:
根据第二预设规则对所述归一路径集合进行优化;
对于优化后的每条归一路径,将该归一路径的起始路径节点对应的候选词作为原始词,将该归一路径的终止路径节点对应的候选词作为目标词,所述原始词和所述目标词构成一组归一映射;
由优化后的各归一路径对应的归一映射构成归一词表。
9.根据权利要求8所述的方法,其中,根据第二预设规则对所述归一路径集合进行优化包括如下至少一种:
将所述归一路径集合中仅包含一个路径节点的归一路径删除;并且/或者
在所述归一路径集合中,当一条归一路径的终止路径节点是另一个归一路径的起始路径节点时,将两条归一路径按照路径节点顺序合并为一条归一路径;并且/或者
在所述归一路径集合中,当两条归一路径的起始路径节点相同且终止路径节点相同时,将其中较短的归一路径删除。
10.一种商品搜索装置,包括:
接收模块,用于接收针对商品的搜索词;
第一获取模块,用于获取与所述搜索词相对应的搜索结果,所述搜索结果的描述词与所述搜索词在归一词表中相匹配,其中,所述归一词表是基于表征词间关联性的正则网络构建的;以及
输出模块,用于输出所述搜索结果;
其中,所述装置还包括:第二获取模块,用于基于各商品的描述词获取候选词集合;归一词表构建模块,用于构建表征候选词间关联性的正则网络;基于所述正则网络,得到由具有归一关系的候选词有序组成的归一路径集合;以及基于所述归一路径集合生成归一词表;
所述归一词表构建模块基于所述正则网络,得到由具有归一关系的候选词有序组成的归一路径集合包括:所述归一词表构建模块,用于对于候选词集合中的每个候选词,以该候选词作为归一路径的起始路径节点,依次在候选词集合中根据所述正则网络寻找符合预设条件的候选词作为归一路径的新增路径节点,遍历候选词集合直至归一路径中的路径节点不再增加;由以候选词集合中各候选词为起始路径节点的归一路径组成所述归一路径集合。
11.根据权利要求10所述的装置,其中:
各商品的描述词包括各商品的标题;
所述第二获取模块基于各商品的描述词获取候选词集合包括:所述第二获取模块,用于对各商品的标题进行分词处理得到多个分词结果,从所述分词结果中提取修饰词组成候选词集合。
12.根据权利要求10所述的装置,其中,所述归一词表构建模块构建表征候选词间关联性的正则网络包括:
所述归一词表构建模块,用于构建由元素Nij组成的初始正则网络,元素Nij表征候选词集合中一个候选词Wj相对于另一候选词Wi的关联性,其中,i和j为整数,i和j的取值总数分别等于候选词集合中的候选词总数,i不等于j;对于候选词集合中的任一个候选词Wi,构建所述候选词Wi对应的一个或多个正则匹配项;将候选词集合中的另一个候选词Wj分别与所述候选词Wi对应的各正则匹配项进行匹配,将匹配成功的项数赋值给所述表征候选词Wj相对于候选词Wi的关联性的元素Nij;遍历所述初始正则网络,在对各元素Nij均赋值后,得到所述表征候选词间关联性的正则网络。
13.根据权利要求12所述的装置,其中,所述归一词表构建模块构建所述候选词Wi对应的一个或多个正则匹配项包括:
所述归一词表构建模块,用于根据第一预设规则生成所述候选词Wi的分解集合,所述分解集合中包括所述候选词Wi中所包含的一个或多个预设最短长度词;对于所述分解集合中的每个预设最短长度词,构建该最短长度词的正则匹配项;将所述候选词Wi的分解集合中的各预设最短长度词对应的正则匹配项作为该候选词Wi对应的正则匹配项。
14.根据权利要求13所述的装置,其中,所述归一词表构建模块构建该最短长度词的正则匹配项包括:所述归一词表构建模块,用于在该最短长度词的第一个字之前、相邻两个字之间、和/或最后一个字之后中的至少一个位置处插入一个或多个非空字符,组成该最短长度词的正则匹配项。
15.根据权利要求10所述的装置,其中,所述归一词表构建模块依次在候选词集合中根据所述正则网络寻找符合预设条件的候选词作为归一路径的新增路径节点包括:
所述归一词表构建模块,用于对于以任一候选词Wi作为起始路径节点的归一路径,如果一个候选词Wj满足如下条件:候选词Wj的权重大于所述归一路径中已确定的任一路径节点对应的候选词的权重,候选词Wj的长度不大于所述归一路径中已确定的任一路径节点对应的候选词的长度,候选词Wj与所述归一路径中已确定的任一路径节点对应的候选词不同,以及正则网络中表征候选词Wj相对于候选词Wi的关联性的元素Nij的取值大于0,其中,候选词Wj的权重等于正则网络中表征候选词集合中除候选词Wj之外其他各候选词相对于候选词Wj的关联性的元素的取值的总和与正则网络中表征候选词Wj相对于候选词集合中除候选词Wj之外其他各候选词的关联性的元素的取值的总和的比值;将候选词Wj作为所述归一路径中的一个新增路径节点。
16.根据权利要求15所述的装置,还包括:更新模块,用于在将候选词Wj作为所述归一路径中的一个新增路径节点后,将正则网络中表征候选词Wj相对于候选词Wi的关联性的元素Nij的取值置为0。
17.根据权利要求10所述的装置,其中,所述归一词表构建模块基于所述归一路径集合生成归一词表包括:
所述归一词表构建模块,用于根据第二预设规则对所述归一路径集合进行优化;对于优化后的每条归一路径,将该归一路径的起始路径节点对应的候选词作为原始词,将该归一路径的终止路径节点对应的候选词作为目标词,所述原始词和所述目标词构成一组归一映射;由优化后的各归一路径对应的归一映射构成归一词表。
18.根据权利要求17所述的装置,其中,所述归一词表构建模块根据第二预设规则对所述归一路径集合进行优化包括如下至少一种:
所述归一词表构建模块,用于将所述归一路径集合中仅包含一个路径节点的归一路径删除;并且/或者,用于在所述归一路径集合中,当一条归一路径的终止路径节点是另一个归一路径的起始路径节点时,将两条归一路径按照路径节点顺序合并为一条归一路径;并且/或者,用于在所述归一路径集合中,当两条归一路径的起始路径节点相同且终止路径节点相同时,将其中较短的归一路径删除。
19.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如权利要求1~9中任一项所述的商品搜索方法。
20.一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如权利要求1~9中任一项所述的商品搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811121142.8A CN110955822B (zh) | 2018-09-25 | 2018-09-25 | 商品搜索方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811121142.8A CN110955822B (zh) | 2018-09-25 | 2018-09-25 | 商品搜索方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110955822A CN110955822A (zh) | 2020-04-03 |
CN110955822B true CN110955822B (zh) | 2024-02-06 |
Family
ID=69962372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811121142.8A Active CN110955822B (zh) | 2018-09-25 | 2018-09-25 | 商品搜索方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110955822B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113762678A (zh) * | 2020-10-30 | 2021-12-07 | 北京京东振世信息技术有限公司 | 确定产品的优选制造商的方法、装置、设备和介质 |
CN114861057B (zh) * | 2022-05-17 | 2023-05-30 | 北京百度网讯科技有限公司 | 资源发送方法、推荐模型的训练及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544216A (zh) * | 2013-09-23 | 2014-01-29 | Tcl集团股份有限公司 | 一种结合图像内容和关键字的信息推荐方法及系统 |
CN104268283A (zh) * | 2014-10-21 | 2015-01-07 | 浪潮集团有限公司 | 一种自动解析互联网网页的方法 |
CN105069086A (zh) * | 2015-07-31 | 2015-11-18 | 焦点科技股份有限公司 | 一种优化电子商务商品搜索的方法及系统 |
CN105589972A (zh) * | 2016-01-08 | 2016-05-18 | 天津车之家科技有限公司 | 训练分类模型的方法及装置、对搜索词分类的方法及装置 |
CN105740380A (zh) * | 2016-01-27 | 2016-07-06 | 北京邮电大学 | 数据融合方法及系统 |
CN106776869A (zh) * | 2016-11-28 | 2017-05-31 | 北京百度网讯科技有限公司 | 基于神经网络的搜索优化方法、装置以及搜索引擎 |
WO2017157198A1 (zh) * | 2016-03-17 | 2017-09-21 | 阿里巴巴集团控股有限公司 | 属性获取方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20040026167A (ko) * | 2002-09-23 | 2004-03-30 | 인터내셔널 비지네스 머신즈 코포레이션 | 사용자가 입력한 유알엘 및/또는 검색어에 근거하여광고를 제공하는 방법 및 장치 |
-
2018
- 2018-09-25 CN CN201811121142.8A patent/CN110955822B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103544216A (zh) * | 2013-09-23 | 2014-01-29 | Tcl集团股份有限公司 | 一种结合图像内容和关键字的信息推荐方法及系统 |
CN104268283A (zh) * | 2014-10-21 | 2015-01-07 | 浪潮集团有限公司 | 一种自动解析互联网网页的方法 |
CN105069086A (zh) * | 2015-07-31 | 2015-11-18 | 焦点科技股份有限公司 | 一种优化电子商务商品搜索的方法及系统 |
CN105589972A (zh) * | 2016-01-08 | 2016-05-18 | 天津车之家科技有限公司 | 训练分类模型的方法及装置、对搜索词分类的方法及装置 |
CN105740380A (zh) * | 2016-01-27 | 2016-07-06 | 北京邮电大学 | 数据融合方法及系统 |
WO2017157198A1 (zh) * | 2016-03-17 | 2017-09-21 | 阿里巴巴集团控股有限公司 | 属性获取方法和装置 |
CN106776869A (zh) * | 2016-11-28 | 2017-05-31 | 北京百度网讯科技有限公司 | 基于神经网络的搜索优化方法、装置以及搜索引擎 |
Non-Patent Citations (2)
Title |
---|
"A Reconfigurable Multi-Byte Regular-Expression Matching Architecture for Signature-Based Intrusion Detection";Tamer F. Badran;2008 3rd International Conference on Information and Communication Technologies: From Theory to Applications;全文 * |
"High Throughput Regular Expression Matching Algorithm";Huifang Guo 等;《Now Foundations and Tren 2015 International Conference on Computational Intelligence and Communication Networks (CICN)ds》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110955822A (zh) | 2020-04-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9087111B2 (en) | Personalized tag ranking | |
CN107590214B (zh) | 搜索关键词的推荐方法、装置及电子设备 | |
US8655805B2 (en) | Method for classification of objects in a graph data stream | |
US10268655B2 (en) | Method, device, server and storage medium of searching a group based on social network | |
CN107679119B (zh) | 生成品牌衍生词的方法和装置 | |
CN110611840B (zh) | 一种视频生成方法、装置、电子设备及存储介质 | |
CN109858040A (zh) | 命名实体识别方法、装置和计算机设备 | |
CN103049495A (zh) | 用于提供与查询序列相对应的搜索建议的方法、装置与设备 | |
CN110955822B (zh) | 商品搜索方法和装置 | |
CN109657145A (zh) | 商户搜索方法及装置、电子设备及计算机可读存储介质 | |
US9858333B2 (en) | Efficient structured data exploration with a combination of bivariate metric and centrality measures | |
CN112330382B (zh) | 物品推荐方法、装置、计算设备和介质 | |
CN115080039A (zh) | 前端代码生成方法、装置、计算机设备、存储介质和产品 | |
CN110889029B (zh) | 城市目标推荐方法和装置 | |
WO2018208412A1 (en) | Detection of caption elements in documents | |
US10331739B2 (en) | Video search apparatus, video search method, and non-transitory computer readable medium | |
US8732158B1 (en) | Method and system for matching queries to documents | |
JP4544047B2 (ja) | Web画像検索結果分類提示方法及び装置及びプログラム及びプログラムを格納した記憶媒体 | |
CN103150377A (zh) | 搜索方法、搜索系统及设定端和搜索端 | |
CN114238576A (zh) | 数据匹配方法、装置、计算机设备和存储介质 | |
CN113742485A (zh) | 一种处理文本的方法和装置 | |
CN113780827A (zh) | 一种物品筛选方法、装置、电子设备及计算机可读介质 | |
US20210064626A1 (en) | Grouping Data in a Heap Using Tags | |
CN113763005A (zh) | 图片广告推送方法、电子设备及计算机可读存储介质 | |
TWI524196B (zh) | 雲端期刊推薦系統及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |