CN103425691B - 一种搜索方法和系统 - Google Patents

一种搜索方法和系统 Download PDF

Info

Publication number
CN103425691B
CN103425691B CN201210160827.XA CN201210160827A CN103425691B CN 103425691 B CN103425691 B CN 103425691B CN 201210160827 A CN201210160827 A CN 201210160827A CN 103425691 B CN103425691 B CN 103425691B
Authority
CN
China
Prior art keywords
word
product
product word
candidate
clicking rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210160827.XA
Other languages
English (en)
Other versions
CN103425691A (zh
Inventor
陈超
韩小梅
宋超
韦袆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210160827.XA priority Critical patent/CN103425691B/zh
Priority to TW101129978A priority patent/TW201348991A/zh
Priority to US13/894,827 priority patent/US9563665B2/en
Priority to KR1020147032105A priority patent/KR101700585B1/ko
Priority to PCT/US2013/041414 priority patent/WO2013176961A1/en
Priority to JP2015509221A priority patent/JP5916947B2/ja
Publication of CN103425691A publication Critical patent/CN103425691A/zh
Application granted granted Critical
Publication of CN103425691B publication Critical patent/CN103425691B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0623Item investigation
    • G06Q30/0625Directed, with specific intent or strategy
    • G06Q30/0627Directed, with specific intent or strategy using item specifications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • G06F16/3323Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Mathematical Physics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种搜索方法和系统,涉及网络技术领域。本申请的方法包括:接收查询词串,检索与查询词串相关的各产品信息;提取对应所述查询词串的第一核心产品词;提取对应所述各产品信息的各第二核心产品词;针对每一、第二核心产品词,以第一核心产品词匹配关键产品词,查找所述关键产品词对应的怀疑产品词列表中是否存在所述第二核心产品词;如果存在,则降低所述第二核心产品词对应的产品信息的权重;结合调整后的各产品信息的权重,将各产品信息排序输出。本申请由于前述怀疑产品词列表的构造方式,是以决定产品信息所属类目的核心产品词进行构造的,可避免由于类目作弊等方式造成的返回周边产品的缺点,可提高搜索准确率。

Description

一种搜索方法和系统
技术领域
本申请涉及网络技术领域,特别是涉及一种搜索方法和系统。
背景技术
在搜索领域,特别是针对于产品的搜索过程中,由于不同产品词的组合,对于用户输入的某一产品词,搜索引擎可能返回与用户输入的产品词所对应的产品相关性不高的周边产品。比如对于用户输入的MP3,由于与MP3相对应的产品词组合非常多,比如MP3下载线,MP3扬声器等产品,而MP3下载线,MP3扬声器与MP3是两种不同的产品。由于传统的搜索基本上基于关键产品词的匹配方法进行搜索,很容易搜索出与用户输入的查询词串对应产品相关性比较低的周边产品,比如前述用户输入的是MP3,而搜索引擎的搜索中MP3下载线,MP3扬声器在搜索结果中权重很高等情况,即搜索引擎返回的排序靠前的产品信息结果中,大量存在与查询词串对应产品的相关性低的产品信息。
现有技术中,为了解决上述与用户输入查询词串所属产品相关性低的周边产品的干扰,存在两种技术方案:
1、通过类目来避免周边结果。主要方法是:首先根据日志信息,统计用户的查询词串对应类目的点击率,然后确定所述查询词串对应的类目倾向,对不属于相关类目的产品信息进行降权,即降低返回的结果中不属于相关类目的信息的权重。
对于该种方法来说,在准确率上存在比较大的问题,比如:如果有类目作弊,比如:把手机电池放在手机类目下,在搜索手机的时候会出现周边(手机电池)。另外,如果一个查询词串与多个类目相关,在判断所述查询词串与各相关类目倾向性时,是通过点击率判断类目倾向性的,如果与查询词串相关的某个类目点击率很低,则很容易忽略这些类目,导致搜索引擎很难把与查询词串相关的所有类目全部召回,搜索准确度低。
2、线上结果人工审核。通过人工审核的方式确定每一个产品词对应的周边词集合,即出现了周边词就可以认为这条产品信息不应该出现。
该种方法虽然准确率很高,但是需要花费大量的人工时间进行审核,人力成本很大。
发明内容
本申请所要解决的技术问题是提供一种搜索方法和系统,准确、全面、快捷的解决搜索结果中,与用户查询词串对应的产品相关性低的周边产品信息,在搜索结果中权重高的问题。
为了解决上述问题,本申请公开了一种搜索方法,包括:
接收查询词串,检索与查询词串相关的各产品信息;
提取对应所述查询词串的第一核心产品词;所述第一核心产品词为最小语义单元;
提取对应所述各产品信息的各第二核心产品词;所述第二核心产品词为最小语义单元;
针对每一、第二核心产品词,以第一核心产品词匹配关键产品词,查找所述关键产品词对应的怀疑产品词列表中是否存在所述第二核心产品词;如果存在,则降低所述第二核心产品词对应的产品信息的权重;其中,所述怀疑产品词列表中包括怀疑产品词;所述怀疑产品词与所述关键产品词进行组合后,得到的合成产品词与所述关键产品词不属于相同类目;
结合调整后的各产品信息的权重,将各产品信息排序输出。
优选的,还包括:
构建所述怀疑产品词列表的步骤,所述构建所述怀疑产品词列表的步骤包括:
针对数据库中各产品信息,按最大语义单元进行大粒度切分,提取切分结果中的第三核心产品词;
针对所述第三核心产品词,当按最小语义单元进行小粒度切分时,若得到的各词中有至少两个为产品词,则按照词的组成顺序,将第一个产品词作为关键产品词,将最后一个产品词作为所述关键产品词的候选怀疑产品词;
计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词;
针对同一关键产品词,基于筛选后的各候选怀疑产品词生成所述关键产品词的怀疑产品词列表。
优选的,计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词包括:
针对所述关键产品词与所述候选怀疑产品词,通过所述关键产品词的各类目点击率向量化所述关键产品词,通过所述候选怀疑产品词的各类目点击率向量化候选怀疑产品词;
计算所述关键产品词对应的向量与所述候选怀疑产品词对应的向量之间的夹角值,并基于所述夹角值筛选相关性符合阈值的候选怀疑产品词。
优选的,针对所述关键产品词与所述候选怀疑产品词,通过所述关键产品词的各类目点击率向量化所述关键产品词,通过所述候选怀疑产品词的各类目点击率向量化候选怀疑产品词包括:
针对所述关键产品词与所述候选怀疑产品词,从搜索日志中分别分析统计各自相关类目的点击率,获得相关类目的权重列表;
将所述关键产品词的所述权重列表中的各值转化为第一向量,将所述候选怀疑产品词的权重列表中的各值转化为第二向量。
优选的,计算所述关键产品词对应的向量与所述候选怀疑产品词对应的向量之间的夹角值,并基于所述夹角值筛选相关性符合阈值的候选怀疑产品词包括:
计算第一向量和第二向量的余弦夹角值;当所述余弦夹角值大于阈值时,则将所述候选怀疑产品词删除。
优选的,计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词包括:
针对所述关键产品词与所述候选怀疑产品词,通过对所述关键产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述关键产品词,通过对所述候选怀疑产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述候选怀疑产品词;
针对每一个维度,计算关键产品词对应向量和候选怀疑产品词对应向量的夹角值,并基于得到的三个维度的夹角值筛选相关性符合阈值的候选怀疑产品词。
优选的,针对所述关键产品词与所述候选怀疑产品词,通过对所述关键产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述关键产品词,通过对所述候选怀疑产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述候选怀疑产品词包括:
针对所述关键产品词与所述候选怀疑产品词,分别分析获取搜索日志,获取由关键产品词点击的各产品信息、和由候选怀疑产品词点击的各产品信息;
分别统计关键产品词对应的第一类目点击率列表,对应的各产品信息各属性的第一属性点击率列表,对应的各产品信息的核心产品词的第一产品词点击率列表;并分别统计候选怀疑产品词对应的第二类目点击率列表,对应的各产品信息各属性的第二属性点击率列表,对应的各产品信息的核心产品词的第二产品词点击率列表;
分别将第一类目点击率列表、第一属性点击率列表、第一产品词点击率列表、第二类目点击率列表、第二属性点击率列表、第二产品词点击率列表转化为相应的向量。
优选的,针对每一个维度,计算关键产品词对应向量和候选怀疑产品词对应向量的夹角值,并基于得到的三个维度的夹角值筛选相关性符合阈值的候选怀疑产品词包括:
分别计算第一类目点击率列表对应的向量与第二类目点击率列表对应的向量之间的余弦夹角值,得到类目点击率相关性;计算第一属性点击率列表对应的向量与第二属性点击率列表对应的向量之间的余弦夹角值,得到属性点击率相关性;计算第一产品词点击率列表对应的向量与第二产品词点击率列表对应的向量之间的余弦夹角值,得到产品词点击率相关性;
将所述类目点击率相关性、属性点击率相关性、产品词点击率相关性进行线性加权得到所述关键产品词与所述候选怀疑产品词的总相似度;当所述总相似度大于阈值时,则将所述候选怀疑产品词删除。
优选的,将最后一个产品词作为所述关键产品词的候选怀疑产品词时还包括:
将所述最后一个产品词设置为相应产品信息的第二核心产品词,并将其对应所述产品信息进行存储。
优选的,提取对应所述各产品信息的各第二核心产品词时包括:
从所述存储中提取各产品信息的第二核心产品词。
优选的,获得所述各核心产品词的步骤包括:
对查询词串或者产品信息文本进行分词,得到各分词,并标注各分词的词性;
查找上下文无关词性运维词表,识别出其中的并列词,并基于所述并列词对查询词串或者产品信息文本进行分段;
对于每一段词,如果段内有至少两个分词具有产品词词性,则将其中最后一个分词的词性置为核心产品词。
相应的,本申请还公开了一种搜索系统,包括:
检索模块,用于接收查询词串,检索与查询词串相关的各产品信息;
第一核心产品词获取模块,用于提取对应所述查询词串的第一核心产品词;所述第一核心产品词为最小语义单元;
第二核心产品词获取模块,用于提取对应所述各产品信息的各第二核心产品词;所述第二核心产品词为最小语义单元;
判断模块,用于针对每一、第二核心产品词,在怀疑规则词典中,以第一核心产品词匹配关键产品词,查找所述关键产品词对应的怀疑产品词列表中是否存在所述第二核心产品词;如果存在,则降低所述第二核心产品词对应的产品信息的权重;其中,所述怀疑产品词列表中包括怀疑产品词;所述怀疑产品词为各产品信息的第二核心产品词;所述怀疑产品词为与所述关键产品词进行组合后,得到的合成产品词与所述关键产品词不属于相同类目;
输出模块,用于结合调整后的各产品信息的权重,将各产品信息排序输出。
优选的,还包括怀疑产品词列表构造模块,所述怀疑产品词列表构造模块包括:
大粒度切分模块,用于针对数据库中各产品信息,按最大语义单元进行大粒度切分,提取切分结果中的第三核心产品词;
小粒度切分模块,用于针对所述第三核心产品词,当按最小语义单元进行小粒度切分时,若得到的各词中有至少两个为产品词,则按照词的组成顺序,将第一个产品词作为关键产品词,将最后一个产品词作为所述关键产品词的候选怀疑产品词;
筛选模块,用于计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词;
列表生成模块,用于针对同一关键产品词,基于筛选后的各候选怀疑产品词生成所述关键产品词的怀疑产品词列表。
与现有技术相比,本申请包括以下优点:
本申请预先构造的关键产品词与相应怀疑产品词列表,其中,怀疑产品词列表中包括的怀疑产品词是各产品信息的核心产品词,同时,所述怀疑产品词与所述关键产品词进行组合后,得到的合成产品词与所述关键产品词不属于相同类目。然后对搜索引擎的检索结果中产品信息的权重进行重新判定,当产品信息的核心产品词在用户查询词串对应的怀疑产品词列表中时,将相应的产品信息的权重降低,那么搜索引擎在返回的结果中,即可降低周边产品对于用户查询词实际所属产品类别的干扰。
进一步的,本申请具有以下两个优点:
首先,由于前述怀疑产品词列表的构造方式,是以决定产品信息所属类目的核心产品词进行构造的,即可避免由于类目作弊等方式造成的返回周边产品的缺点,可提高搜索准确率。
其次,由于是以词为中心进行构建怀疑产品词列表的,而怀疑词列表中的怀疑产品词是与所述关键产品词进行组合后,得到的合成产品词与所述关键产品词不属于相同类目的词,这个过程中不是以点击率判定查询词的类目倾向性,从而避免了召回率的问题,提高了信息的准确性。
附图说明
图1是本申请一种搜索方法的流程示意图;
图2是本申请一种搜索系统的结构示意图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请的核心思想之一在于,预先构建关键产品词与对应的怀疑产品词列表,其中所述怀疑产品词列表中包括怀疑产品词;所述怀疑产品词与所述关键产品词进行组合后,得到的合成产品词与所述关键产品词不属于相同类目;然后将针对用户端输入的查询词串,搜索出来的各产品信息,分别提取查询词串的核心产品词作为关键产品词,提取各产品信息的核心产品词作为对应所述关键产品词的怀疑产品词,将所述怀疑产品词在所述关键产品词与对应的怀疑产品词列表中进行查询,如果查到所述怀疑产品词,则对相应的产品信息进行降权,然后结合调整后的各产品信息的权重,将各产品信息排序输出。这样,减少了周边产品信息出现的几率,提高了召回的准确率和全面性。
参照图1,示出了本申请一种搜索方法的流程示意图。
步骤110,接收查询词串,检索与查询词串相关的各产品信息;
步骤120,提取对应所述查询词串的第一核心产品词;所述第一核心产品词为最小语义单元;
步骤130,提取对应所述各产品信息的各第二核心产品词;所述第二核心产品词为最小语义单元;
步骤140,针对每一、第二核心产品词,以第一核心产品词匹配关键产品词,查找所述关键产品词对应的怀疑产品词列表中是否存在所述第二核心产品词;如果存在,则降低所述第二核心产品词对应的产品信息的权重;其中,所述怀疑产品词列表中包括怀疑产品词;所述怀疑产品词与所述关键产品词进行组合后,得到的合成产品词与所述关键产品词不属于相同类目;
在本申请中,一般会预先构建关键产品词相对应的怀疑产品词列表,所述怀疑产品词列表包括怀疑产品词。所述关键产品词为用于提取对应怀疑产品列表的词。在本申请中,当获取到用户查询词串的第一核心产品词时,以第一核心产品词去匹配关键产品词,提取对应的怀疑产品词列表。
其中,所述怀疑产品词为与所在怀疑产品词列表对应的关键产品词不属于同一类目的词,并且所述怀疑产品词与所述关键产品词组合得到的组合词也与所述关键产品词不属于相同类目。
比如,MP3下载线,MP3耳机,其中可以MP3为关键产品词,下载线、耳机为怀疑产品词写入怀疑产品词列表,其中MP3与下载线、耳机分别属于不同类目的产品。MP3与下载线组合的词″MP3下载线″属于下载线相应类目,与MP3不同;MP3与耳机组合的词″MP3耳机″属于耳机类目,与MP3不同。
步骤150,结合调整后的各产品信息的权重,将各产品信息排序输出。
在本申请中,可预先建立关键产品词与对应的怀疑产品词列表的怀疑规则词典。优选的,构建所述关键词与对应怀疑产品词列表的步骤包括:
步骤210,针对数据库中各产品信息,按最大语义单元进行大粒度切分,提取切分结果中的第三核心产品词;
对于产品信息一般是结构化的信息,比如存在标题,摘要,描述等结构化的文本。本申请可从每个产品信息的所有文本信息分析获取核心产品词,也可在某几个结构的文本中获取产品词,比如标题,摘要,描述等。本申请一般采用标题信息字段进行分析。当然本申请也可采用其他字段进行分析。
比如对于从数据库中获取到的一个产品信息的标题信息,则首先按最大语义单元对其进行切分,得到大粒度的分词。最大语义单元类似于短语,如果多个最小分词组合起来表示一个语义单元,则不进行切分。比如:″手机电池″表示手机用的电池。分词一般是根据词典进行最长匹配,如果在词典中收录了由最小语义单元组成的词标识一个语义,则认为其是最大语义单元,比如前述″手机电池″表示的是手机用的电池而不是其他电器用的电池,或者说″MP3下载线″表示的是MP3用的下载线,而不是其他电器用的下载线。
按最大语义单元进行大粒度分词后,得到的可能存在各种词性的词,比如修饰词、产品词、型号词等,比如″非常漂亮的诺基亚手机N99″,那么″非常漂亮的″就是修饰词,″诺基亚手机″就是产品词,″N99″是型号词。其中如果提取的信息比较长,切分得到的产品词比较多,那么依据语言的规则,其中必有一个词为其核心产品词,即确认该产品信息属于哪一类产品。那么本申请对于通过前述大粒度切分得到的各种词,则提取其中的核心产品词,即第三核心产品词。
进一步来说,本申请的词性包括::CP_CORE(产品核心词)、CP_XIUSHI(产品修饰词)、XS(一般性修饰词)、PP(品牌词)、XH(型号词)、QH(区划词)、BL(并列词)、以及PT(普通词)。比如对于″供应mp3\mp4车载发射器″,其中的词性可如下表一所示,其中分词是以最小语义单元进行的分词,若以最大语义单元进行分词,其词性标注类似:
分词(分词) 词性 重要性
供应 FW 20
Mp3 CP_XIUSHI 90
\ BL 0
Mp4 CP_XIUSHI 90
车载 XS 40
发射器 CP_CORE 150
表一
在实际中,在对提取的信息进行大粒度切分后的词,可依据词性标注词典和一定的判断规则获取每个词的词性,如果某个词为核心产品词,则保留该词为第三核心产品词,其他词则不进行后续处理。
步骤220,针对所述第三核心产品词,当按最小语义单元进行小粒度切分时,若得到的各词中有至少两个为产品词,则按照词的组成顺序,将第一个产品词作为关键产品词,将最后一个产品词作为所述关键产品词的候选怀疑产品词;
对于步骤210进行大粒度切分时,一般能得到能切分为最小语义单元的核心产品词,也能得到不能再切分的核心产品词。本申请对步骤210得到的各第三核心产品词进行最小语义单元切分。如果一个短串A通过大粒度切词无法切分(切分结果为A),但是通过小粒度切词可以切分(切分结果为A1|A2),且切分后的每一个分词均为产品词。则认为A1是A2的修饰成分,即产品词A1具有怀疑词候选A2。
具体包括:步骤S221,采用最小语义单元切分所述第三核心产品词,获得最小语义单元词;
比如对于通过步骤210获得的″手机电池″,切分为″手机″和″电池″;通过步骤210获得的″MP3下载线″,则切分为″MP3″和″下载线″。
步骤S222,当所述第三核心产品词被切分为至少两个最小语义单元的词时,标注各最小语义单元词的词性。
对于某些由第三核心产品词切分得到的多个最小语义单元词,标注各最小语义单元的词性,比如标注其是型号词、产品词等情况。
步骤S223,判断所述各最小语义单元词中是否包括至少两个产品词,如果包括,则按照词的组成顺序,将第一个产品词作为关键产品词,将最后一个产品词作为所述关键产品词的候选怀疑产品词。
一般情况下,比如前述″手机电池″切分得到的″手机″″电池″均为产品词,那么可设置″手机″为关键产品词,其具有怀疑产品词″电池″。″MP3下载线″切分得到的″MP3″″下载线″均为产品词,那么可设置″MP3″为关键产品词,其具有怀疑产品词″下载线″。
步骤230,计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词;
在实际中,对于由最小语义单元的各产品词组成的新的产品词时,新产品词可能与最小语义单元的产品词属于同一类目。比如″女装连衣裙″切分得到的″女装″和″连衣裙″则都属于女装类目。那么如果将连衣裙作为女装的候选产品词,则在用户以女装为核心产品词进行搜索时,会误将该产品信息进行降权,导致搜索不准确。那么本申请则会计算前述得到的关键产品词与候选怀疑产品词的相关性,当其相关性大于一定阈值时即将所述候选怀疑产品词删除。即保证与关键产品词属于相同类目候选怀疑产品词不在怀疑产品词列表中。
优选的,计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词包括:
步骤S231,针对所述关键产品词与所述候选怀疑产品词,通过所述关键产品词的各类目点击率向量化所述关键产品词,通过所述候选怀疑产品词的各类目点击率向量化候选怀疑产品词;
在实际中,在搜索引擎的日志中,一般均存在以关键产品词和候选怀疑产品词为查询词进行查询的记录,那么关键产品词和候选怀疑产品词均存在类目的点击率,比如对于关键产品词A的总点击次数为m,类目A的点击次数为m1,类目B的点击次数为m2,……类目N的点击次数为mn,那么关键产品词的类目A的点击率为m1/m,类目B的点击次数为m2/m,类目N的点击率为mn/m,那么对其向量化可为
优选的,针对所述关键产品词与所述候选怀疑产品词,通过所述关键产品词的各类目点击率向量化所述关键产品词,通过所述候选怀疑产品词的各类目点击率向量化候选怀疑产品词包括:
步骤P11,针对所述关键产品词与所述候选怀疑产品词,从搜索日志中分别分析统计各自相关类目的点击率,获得相关类目的权重列表;
分析搜索日志,获得以关键产品词为查询词时点击的各产品信息,根据各产品信息的类别统计各类别的点击率,然后由各类目的点击率构成相关类目的权重列表;分析搜索日志,获得一候选怀疑产品词为查询词时点击的各产品信息,根据各产品信息的类别统计各类别的点击率,然后由各类目的点击率构成相关类目的权重列表。比如前述关键产品词A的总点击次数为m,类目A的点击次数为m1,类目B的点击次数为m2,……类目N的点击次数为mn,那么关键产品词的类目A的点击率为m1/m,类目B的点击次数为m2/m,类目N的点击率为mn/m,那么权重列表可为:m1/m,m2/m,……mn/m。
步骤P12,将所述关键产品词的所述权重列表中的各值转化为第一向量,将所述候选怀疑产品词的权重列表中的各值转化为第二向量。
比如对于前述关键产品词A的权重列表,可将其转换为向量 对于后续怀疑产品词进行类似操作。
步骤S232,计算所述关键产品词对应的向量与所述候选怀疑产品词对应的向量之间的夹角值,并基于所述夹角值筛选相关性符合阈值的候选怀疑产品词。
进一步,优选的计算所述关键产品词对应的向量与所述候选怀疑产品词对应的向量之间的夹角值,并基于所述夹角值筛选相关性符合阈值的候选怀疑产品词包括:
步骤P13,计算第一向量和第二向量的余弦夹角值;当所述余弦夹角值大于阈值时,则将所述候选怀疑产品词删除。
比如关键产品词对应的向量为候选怀疑产品词对应的向量为那么其余弦夹角值为:将夹角值作为关键产品词与候选怀疑产品词之间的相关性,即相似度;如果相似度大于阈值,比如本申请可采用0.2,那么将相应候选怀疑词删除。
和/或,优选的,计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词包括:
步骤S233,针对所述关键产品词与所述候选怀疑产品词,通过对所述关键产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述关键产品词,通过对所述候选怀疑产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述候选怀疑产品词;
本申请可将关键产品词和候选怀疑产品词分别作为查询词。然后即可通过类目、属性、产品词三个维度来向量化随时查询词。比如对应了一个查询词,点击了n个产品信息,由于每个产品信息对应一个类目,产品信息中有m个属性说明,产品信息r标题中出现了n个产品词。可以得到查询词下每个类目的点击率,每个属性的点击率,每个产品词的点击率,从而计算这三个维度的余弦夹角得到相似度。
优选的,针对所述关键产品词与所述候选怀疑产品词,通过对所述关键产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述关键产品词,通过对所述候选怀疑产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述候选怀疑产品词包括:
P21,针对所述关键产品词与所述候选怀疑产品词,分别分析获取搜索日志,获取由关键产品词点击的各产品信息、和由候选怀疑产品词点击的各产品信息;
由前所述,由于大量用户的查询行为,在搜索引擎的历史搜索日志中,一般均存在以关键产品词为查询词,或者以所述候选怀疑产品词为查询词进行查询的日志记录。那么即可分别分析获取搜索日志,获取由关键产品词点击的各产品信息、和由候选怀疑产品词点击的各产品信息。
P22,分别统计关键产品词对应的第一类目点击率列表,对应的各产品信息各属性的第一属性点击率列表,对应的各产品信息的核心产品词的第一产品词点击率列表;并分别统计候选怀疑产品词对应的第二类目点击率列表,对应的各产品信息各属性的第二属性点击率列表,对应的各产品信息的核心产品词的第二产品词点击率列表;
根据关键产品词对应点击的各产品信息,统计关键产品词的各类目的点击率得到第一类目点击率列表,统计各产品信息的各属性的点击率得到第一产品词点击率列表,统计各产品信息的各产品词的点击率得到第一产品词点击率列表。根据候选怀疑产品词对应点击的各产品信息,统计候选怀疑产品词的各类目的点击率得到第二类目点击率列表,统计各产品信息的各属性的点击率得到第二产品词点击率列表,统计各产品信息的各产品词的点击率得到第二产品词点击率列表。
P23,分别将第一类目点击率列表、第一属性点击率列表、第一产品词点击率列表、第二类目点击率列表、第二属性点击率列表、第二产品词点击率列表转化为相应的向量。
比如第一类目点击率列表为:a1,a2……an,转化为向量为 第一属性点击率列表为:b1,b2……bn,转化为向量为 第一产品词点击率列表为:c1,c2……cn,转化为向量为 同理,得到第二类目点击率列表对应的向量为第二属性点击率列表对应的向量为第二产品词点击率列表对应的向量为
步骤S234,针对每一个维度,计算关键产品词对应向量和候选怀疑产品词对应向量的夹角值,并基于得到的三个维度的夹角值筛选相关性符合阈值的候选怀疑产品词。
针对类目维度,计算第一类目点击率列表对应的向量与第二类目点击率列表对应的向量之间的夹角值。同理,针对属性维度得到第一属性点击率列表对应的向量与第二属性点击率列表对应的向量之间的夹角值,针对产品词维度得到第一产品词点击率列表对应的向量与第二产品词点击率列表对应的向量的夹角值。然后基于上述三个维度的夹角值筛选相关性符合阈值的候选怀疑产品词。
进一步的,针对每一个维度,计算关键产品词对应向量和候选怀疑产品词对应向量的夹角值,并基于得到的三个维度的夹角值筛选相关性符合阈值的候选怀疑产品词包括:
步骤p24,分别计算第一类目点击率列表对应的向量与第二类目点击率列表对应的向量之间的余弦夹角值,得到类目点击率相关性;计算第一属性点击率列表对应的向量与第二属性点击率列表对应的向量之间的余弦夹角值,得到属性点击率相关性;计算第一产品词点击率列表对应的向量与第二产品词点击率列表对应的向量之间的余弦夹角值,得到产品词点击率相关性;
比如前述得到类目的余弦值:得到属性维度余弦值 cos < b &RightArrow; , f &RightArrow; > = b &RightArrow; &CenterDot; f &RightArrow; | b &RightArrow; | | f &RightArrow; | , 得到产品词余弦值 cos < c &RightArrow; , g &RightArrow; > = c &RightArrow; &CenterDot; g &RightArrow; | c &RightArrow; | | g &RightArrow; | .
步骤p25,将所述类目点击率相关性、属性点击率相关性、产品词点击率相关性进行线性加权得到所述关键产品词与所述候选怀疑产品词的总相似度;当所述总相似度大于阈值时,则将所述候选怀疑产品词删除。
然后基于上述三个余弦值进行线性加权平均,得到最终余弦值,作为所述关键产品词和候选怀疑产品词的相关性,即相似度,如果相似度大于阈值,比如本申请设置0.3,则将候选怀疑产品词删除。
步骤240,针对同一关键产品词,基于筛选后的各候选怀疑产品词生成所述关键产品词的怀疑产品词列表。
当针对数据库中各产品信息均进行前述步骤的提取分析过程得到关键产品词与候选怀疑产品词的对应关系后,则将同一关键产品词的候选怀疑产品词进行汇总,即可生成相应的怀疑产品词列表。
比如通过前述步骤得到:对于关键产品词MP3,其对应的怀疑产品词列表可包括:下载线、主板、传输线、保护套、充电器、充电池、包套、包装、包装盒、发射器、喇叭、外套、太阳镜、套子、小音箱、小音响、展示架、布袋、开关、彩盒、手机、手表、扩音器、报站器、挂带、挂绳、收音机、数据线、显示屏、连接线、保护膜、扬声器等。
本申请采用了一种自然语言处理与结构化信息结合使用的方法。通过全库产品信息的混合粒度(大粒度切分和小粒度切分)的挖掘,保证了周边结果的召回率。通过类目点击信息的相关性优化、自然语言处理技术和结构化信息的相关性优化,保证了结果的准确率。同时完全摆脱了对于人工成本的依赖,在去除周边结果上表现出了优秀的效果。
基于上述包括关键产品词与相应怀疑产品词列表的怀疑规则词典,对于搜索步骤包括:
步骤110,接收查询词串,检索与查询词串相关的各产品信息;
用户端输入的查询词串,搜索引擎则接收所述查询词串,然后根据所述查询词串从所述查询词串中检索与查询词相关的各产品信息。
步骤120,提取对应所述查询词串的第一核心产品词;所述第一核心产品词为最小语义单元;
以最小语义单元对查询词串进行切分,获得表示查询词串查询的目的产品的第一核心产品词。
本步骤提取核心词的顺序不一定在检索到与查询词串相关的各产品信息之后,也可同时进行,也可在此之前。本申请不对其加以限制。
步骤130,提取对应所述各产品信息的各第二核心产品词;所述第二核心产品词为最小语义单元;
以最小语义单元对各产品信息进行切分,获得表示查询词串查询的目的产品的第一核心产品词。本申请可对产品信息的标题信息进行切分。
其中,在前述构建怀疑产品词列表时,将最后一个产品词作为所述关键产品词的候选怀疑产品词时还包括:
步骤O1,将所述最后一个产品词设置为相应产品信息的第二核心产品词,并将其对应所述产品信息进行存储。
基于步骤O1,提取对应所述各产品信息的各第二核心产品词时包括:
步骤O2,从所述存储中提取各产品信息的第二核心产品词。
通过步骤O1和步骤O2的方式,提取对应所述各产品信息的各第二核心产品词时不用再进行产品信息的切分过程,只需从所述存储中提取各产品信息的第二核心产品词即可。降低搜索引擎的切分过程,提高搜索引擎的效率。
本步骤可在搜索引擎检索到每条产品信息时,进行提取;也可在检索到所有产品信息之后再提取。本申请不对其加以限制。
步骤140,针对每一第二核心产品词,以第一核心产品词匹配关键产品词,查找所述关键产品词对应的怀疑产品词列表中是否存在所述第二核心产品词;如果存在,则降低所述第二核心产品词对应的产品信息的权重;其中,所述怀疑产品词列表中包括怀疑产品词;所述怀疑产品词与所述关键产品词进行组合后,得到的合成产品词与所述关键产品词不属于相同类目;
比如对于第一核心产品词″MP3″,其中对应的一个产品信息的第二核心产品词为″下载线″,则以″MP3″匹配相应关键词MP3,查询关键词″MP3″对应的候选词列表中是否存在″下载线″,如果存在,则降低相应的产品信息的权重。
步骤150,结合调整后的各产品信息的权重,将各产品信息排序输出。
在搜索引擎中,搜索时一般基于词串匹配,比如对于″MP3″,会搜索到″MP3下载线″,但是″MP3下载线″与″MP3″不属于同一类目,那么为了提高搜索结果的准确性,即对搜索结果进行展示时,提高展示的前几页的准确性,即需要将″MP3下载线″对应的产品信息进行降权,让其往后排,优先展示在与″MP3″属于相同类目的产品信息。
本申请可对各产品信息与查询词的相关性,先根据相关性分档,档内根据信息质量,信息的预估CTR(Click Through Rate,点击率)和GMV(Gross Merchandise Volume,成交额),以及其他市场机制(比如会员轮转)等来设置权重。结合调整后的各产品信息的权重,将各产品信息排序输出。
另外,在构建怀疑产品词列表和搜索引擎提取核心产品词时,获得所述各核心产品词的步骤包括:
步骤U1,对查询词串或者产品信息文本进行分词,得到各分词,并标注各分词的词性;
实际中,对于一个产品信息,其分词的词性可包括:CP_CORE(产品核心词)、CP_XIUSHI(产品修饰词)、XS(一般性修饰词)、PP(品牌词)、XH(型号词)、QH(区划词)、BL(并列词)、以及PT(普通词)。比如前述表一所示。
那么对于各产品信息或查询产品信息的查询词串,可按进行分词,然后基于上述词性对每个分词进行标注。步骤U2,查找上下文无关词性运维词表,识别出其中的并列词,并基于所述并列词对查询词串或者产品信息文本进行分段;
对于分词之后的每一个分词,查找上下文无关词性运维词表,识别出其中的并列词,后续会基于并列词,对短串进行分段,每段内进行上下文相关词性计算。比如前述″供应mp3\mp4车载发射器″,可以分段为″供应mp3车载发射器″和″供应mp4车载发射器″。其中MP3、MP4和发射器为产品词。
步骤U3,对于每一段词,如果段内有至少两个分词具有产品词词性,则将其中最后一个分词的词性置为核心产品词。
根据BL词性,对短串进行分段,每段的分词词性和重要性计算独立进行。对于每一段,如果段内有多个分词具有CP(产品词)词性,则将其中最后一个分词的词性置为CP_CORE,其余分词的词性置为CP_XIUSHI。分词重要性打分依据词性进行,具体方法是:
1)从IDF(独立)词典中获取该词的独立分,没有则为0分;
2)如果是最后一个词,加上10分,算出当前得分分;
3)如果是产品核心词,为100+分;
4)如果是品牌词,为80+分;
5)如果是型号词,为60+分;
6)如果是产品修饰词,为40+分;
7)如果是区划词,为20+分;
8)如果是并列符合,左括号右括号,直接设置为0分;
9)如果是普通词,则为5+分。
另外,如果提供了包含产品信息对应的类目id和供应商id,通过多维度特征联合(供应商级别、类目级别、买家级别、怀疑规则)判断来优化效果,得到最终的分词词性和重要性结果。
对于短串中每一个CP_CORE和CP_XIUSHI分词,提取4个特征,分词对应的类目点击,产品信息r所处类目下的产品词分布,供应商主营行业,供应商主营产品,验证每一个候选分词在这4个特征下的表现。
在特征拟合部分,如果特征1)到特征4)均相关,则把CP_XIUSHI提升为CP_CORE;如果特征1)到特征4)均不相关,则把CP_CORE降为CP_XIUSHI。如果特征1)到特征4)均相关,则把该分词设为受信任词,并且把该词对应的怀疑规则词,全部将为CP_XIUSHI。并且修改分词对应的重要性打分,从而得到最后结果。
参照图2,其示出了本申请一种搜索系统的结构示意图,包括
搜索引擎300,所述搜索引擎包括:
检索模块310,用于接收查询词串,检索与查询词串相关的各产品信息;
第一核心产品词获取模块320,用于提取对应所述查询词串的第一核心产品词;所述第一核心产品词为最小语义单元;
第二核心产品词获取模块330,用于提取对应所述各产品信息的各第二核心产品词;所述第二核心产品词为最小语义单元;
判断模块340,用于针对每一第二核心产品词,在怀疑规则词典中,以第一核心产品词匹配关键产品词,查找所述关键产品词对应的怀疑产品词列表中是否存在所述第二核心产品词;如果存在,则降低所述第二核心产品词对应的产品信息的权重;其中,所述怀疑产品词列表中包括怀疑产品词;所述怀疑产品词为各产品信息的第二核心产品词;所述怀疑产品词为与所述关键产品词进行组合后,得到的合成产品词与所述关键产品词不属于相同类目;
输出模块350,用于结合调整后的各产品信息的权重,将各产品信息排序输出。
还包括怀疑产品词列表构造模块400,所述怀疑产品词列表构造模块包括:
大粒度切分模块410,用于针对数据库中各产品信息,按最大语义单元进行大粒度切分,提取切分结果中的第三核心产品词;
小粒度切分模块420,用于针对所述第三核心产品词,当按最小语义单元进行小粒度切分时,若得到的各词中有至少两个为产品词,则按照词的组成顺序,将第一个产品词作为关键产品词,将最后一个产品词作为所述关键产品词的候选怀疑产品词;
筛选模块430,用于计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词;
列表生成模块440,用于针对同一关键产品词,基于筛选后的各候选怀疑产品词生成所述关键产品词的怀疑产品词列表。
对于系统实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
以上对本申请所提供的一种搜索方法和系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种搜索方法,其特征在于,包括:
接收查询词串,检索与查询词串相关的各产品信息;
提取对应所述查询词串的第一核心产品词;所述第一核心产品词为最小语义单元;
提取对应所述各产品信息的各第二核心产品词;所述第二核心产品词为最小语义单元;
针对每一第二核心产品词,以第一核心产品词匹配关键产品词,查找所述关键产品词对应的怀疑产品词列表中是否存在所述第二核心产品词;如果存在,则降低所述第二核心产品词对应的产品信息的权重;其中,所述怀疑产品词列表中包括怀疑产品词;所述怀疑产品词与所述关键产品词进行组合后,得到的合成产品词与所述关键产品词不属于相同类目;
结合调整后的各产品信息的权重,将各产品信息排序输出。
2.根据权利要求1所述的方法,其特征在于,还包括:
构建所述怀疑产品词列表的步骤,所述构建所述怀疑产品词列表的步骤包括:
针对数据库中各产品信息,按最大语义单元进行大粒度切分,提取切分结果中的第三核心产品词;
针对所述第三核心产品词,当按最小语义单元进行小粒度切分时,若得到的各词中有至少两个为产品词,则按照词的组成顺序,将第一个产品词作为关键产品词,将最后一个产品词作为所述关键产品词的候选怀疑产品词;
计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词;
针对同一关键产品词,基于筛选后的各候选怀疑产品词生成所述关键产品词的怀疑产品词列表。
3.根据权利要求2所述的方法,其特征在于,计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词包括:
针对所述关键产品词与所述候选怀疑产品词,通过所述关键产品词的各类目点击率向量化所述关键产品词,通过所述候选怀疑产品词的各类目点击率向量化候选怀疑产品词;
计算所述关键产品词对应的向量与所述候选怀疑产品词对应的向量之间的夹角值,并基于所述夹角值筛选相关性符合阈值的候选怀疑产品词。
4.根据权利要求3所述的方法,其特征在于,针对所述关键产品词与所述候选怀疑产品词,通过所述关键产品词的各类目点击率向量化所述关键产品词,通过所述候选怀疑产品词的各类目点击率向量化候选怀疑产品词包括:
针对所述关键产品词与所述候选怀疑产品词,从搜索日志中分别分析统计各自相关类目的点击率,获得相关类目的权重列表;
将所述关键产品词的所述权重列表中的各值转化为第一向量,将所述候选怀疑产品词的权重列表中的各值转化为第二向量。
5.根据权利要求4所述的方法,其特征在于,计算所述关键产品词对应的向量与所述候选怀疑产品词对应的向量之间的夹角值,并基于所述夹角值筛选相关性符合阈值的候选怀疑产品词包括:
计算第一向量和第二向量的余弦夹角值;当所述余弦夹角值大于阈值时,则将所述候选怀疑产品词删除。
6.根据权利要求2所述的方法,其特征在于,计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词包括:
针对所述关键产品词与所述候选怀疑产品词,通过对所述关键产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述关键产品词,通过对所述候选怀疑产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述候选怀疑产品词;
针对每一个维度,计算关键产品词对应向量和候选怀疑产品词对应向量的夹角值,并基于得到的三个维度的夹角值筛选相关性符合阈值的候选怀疑产品词。
7.根据权利要求6所述的方法,其特征在于,针对所述关键产品词与所述候选怀疑产品词,通过对所述关键产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述关键产品词,通过对所述候选怀疑产品词的类目点击率、属性目点击率、产品词点击率三个维度分别向量化所述候选怀疑产品词包括:
针对所述关键产品词与所述候选怀疑产品词,分别分析获取搜索日志,获取由关键产品词点击的各产品信息、和由候选怀疑产品词点击的各产品信息;
分别统计关键产品词对应的第一类目点击率列表,对应的各产品信息各属性的第一属性点击率列表,对应的各产品信息的核心产品词的第一产品词点击率列表;并分别统计候选怀疑产品词对应的第二类目点击率列表,对应的各产品信息各属性的第二属性点击率列表,对应的各产品信息的核心产品词的第二产品词点击率列表;
分别将第一类目点击率列表、第一属性点击率列表、第一产品词点击率列表、第二类目点击率列表、第二属性点击率列表、第二产品词点击率列表转化为相应的向量。
8.根据权利要求7所述的方法,其特征在于,针对每一个维度,计算关键产品词对应向量和候选怀疑产品词对应向量的夹角值,并基于得到的三个维度的夹角值筛选相关性符合阈值的候选怀疑产品词包括:
分别计算第一类目点击率列表对应的向量与第二类目点击率列表对应的向量之间的余弦夹角值,得到类目点击率相关性;计算第一属性点击率列表对应的向量与第二属性点击率列表对应的向量之间的余弦夹角值,得到属性点击率相关性;计算第一产品词点击率列表对应的向量与第二产品词点击率列表对应的向量之间的余弦夹角值,得到产品词点击率相关性;
将所述类目点击率相关性、属性点击率相关性、产品词点击率相关性进行线性加权得到所述关键产品词与所述候选怀疑产品词的总相似度;当所述总相似度大于阈值时,则将所述候选怀疑产品词删除。
9.根据权利要求2所述的方法,其特征在于,将最后一个产品词作为所述关键产品词的候选怀疑产品词时还包括:
将所述最后一个产品词设置为相应产品信息的第二核心产品词,并将其对应所述产品信息进行存储。
10.根据权利要求9所述的方法,其特征在于,提取对应所述各产品信息的各第二核心产品词时包括:
从所述存储中提取各产品信息的第二核心产品词。
11.根据权利要求1或2所述的方法,其特征在于,获得所述各核心产品词的步骤包括:
对查询词串或者产品信息文本进行分词,得到各分词,并标注各分词的词性;
查找上下文无关词性运维词表,识别出其中的并列词,并基于所述并列词对查询词串或者产品信息文本进行分段;
对于每一段词,如果段内有至少两个分词具有产品词词性,则将其中最后一个分词的词性置为核心产品词。
12.一种搜索系统,其特征在于,包括:
检索模块,用于接收查询词串,检索与查询词串相关的各产品信息;
第一核心产品词获取模块,用于提取对应所述查询词串的第一核心产品词;所述第一核心产品词为最小语义单元;
第二核心产品词获取模块,用于提取对应所述各产品信息的各第二核心产品词;所述第二核心产品词为最小语义单元;
判断模块,用于针对每一第二核心产品词,在怀疑规则词典中,以第一核心产品词匹配关键产品词,查找所述关键产品词对应的怀疑产品词列表中是否存在所述第二核心产品词;如果存在,则降低所述第二核心产品词对应的产品信息的权重;其中,所述怀疑产品词列表中包括怀疑产品词;所述怀疑产品词为各产品信息的第二核心产品词;所述怀疑产品词为与所述关键产品词进行组合后,得到的合成产品词与所述关键产品词不属于相同类目;
输出模块,用于结合调整后的各产品信息的权重,将各产品信息排序输出。
13.根据权利要求12所述的系统,其特征在于:
还包括怀疑产品词列表构造模块,所述怀疑产品词列表构造模块包括:
大粒度切分模块,用于针对数据库中各产品信息,按最大语义单元进行大粒度切分,提取切分结果中的第三核心产品词;
小粒度切分模块,用于针对所述第三核心产品词,当按最小语义单元进行小粒度切分时,若得到的各词中有至少两个为产品词,则按照词的组成顺序,将第一个产品词作为关键产品词,将最后一个产品词作为所述关键产品词的候选怀疑产品词;
筛选模块,用于计算所述关键产品词与候选怀疑产品词的相关性,筛选相关性符合阈值的候选怀疑产品词;
列表生成模块,用于针对同一关键产品词,基于筛选后的各候选怀疑产品词生成所述关键产品词的怀疑产品词列表。
CN201210160827.XA 2012-05-22 2012-05-22 一种搜索方法和系统 Expired - Fee Related CN103425691B (zh)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201210160827.XA CN103425691B (zh) 2012-05-22 2012-05-22 一种搜索方法和系统
TW101129978A TW201348991A (zh) 2012-05-22 2012-08-17 搜尋方法和系統
US13/894,827 US9563665B2 (en) 2012-05-22 2013-05-15 Product search method and system
KR1020147032105A KR101700585B1 (ko) 2012-05-22 2013-05-16 온라인 제품 검색 방법 및 시스템
PCT/US2013/041414 WO2013176961A1 (en) 2012-05-22 2013-05-16 On-line product search method and system
JP2015509221A JP5916947B2 (ja) 2012-05-22 2013-05-16 オンライン商品検索方法およびシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210160827.XA CN103425691B (zh) 2012-05-22 2012-05-22 一种搜索方法和系统

Publications (2)

Publication Number Publication Date
CN103425691A CN103425691A (zh) 2013-12-04
CN103425691B true CN103425691B (zh) 2016-12-14

Family

ID=49622409

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210160827.XA Expired - Fee Related CN103425691B (zh) 2012-05-22 2012-05-22 一种搜索方法和系统

Country Status (6)

Country Link
US (1) US9563665B2 (zh)
JP (1) JP5916947B2 (zh)
KR (1) KR101700585B1 (zh)
CN (1) CN103425691B (zh)
TW (1) TW201348991A (zh)
WO (1) WO2013176961A1 (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9524319B2 (en) 2013-04-30 2016-12-20 Wal-Mart Stores, Inc. Search relevance
US9524520B2 (en) * 2013-04-30 2016-12-20 Wal-Mart Stores, Inc. Training a classification model to predict categories
CN103810241B (zh) * 2013-11-22 2017-04-05 北京奇虎科技有限公司 一种低频点击的过滤方法和装置
CN104008186B (zh) * 2014-06-11 2018-10-16 北京京东尚科信息技术有限公司 从目标文本中确定关键词的方法和装置
CN105653553B (zh) * 2014-11-14 2020-04-03 腾讯科技(深圳)有限公司 词权重生成方法和装置
CN105992178B (zh) * 2015-02-06 2019-06-25 中国移动通信集团公司 一种垃圾短信识别方法及装置
WO2016176099A1 (en) * 2015-04-28 2016-11-03 Alibaba Group Holding Limited Information search navigation method and apparatus
CN106156244B (zh) * 2015-04-28 2020-08-28 阿里巴巴集团控股有限公司 一种信息搜索导航方法及装置
CN106294481B (zh) * 2015-06-05 2019-10-22 阿里巴巴集团控股有限公司 一种基于图谱的导航方法及装置
CN104899322B (zh) * 2015-06-18 2021-09-17 百度在线网络技术(北京)有限公司 搜索引擎及其实现方法
US10846275B2 (en) * 2015-06-26 2020-11-24 Pure Storage, Inc. Key management in a storage device
CN105069086B (zh) * 2015-07-31 2017-07-11 焦点科技股份有限公司 一种优化电子商务商品搜索的方法及系统
CN106919603B (zh) * 2015-12-25 2020-12-04 北京奇虎科技有限公司 计算查询词模式中分词权重的方法和装置
CN106339510B (zh) * 2016-10-28 2019-12-06 北京百度网讯科技有限公司 基于人工智能的点击预估方法及装置
CN108062302B (zh) 2016-11-08 2019-03-26 北京国双科技有限公司 一种文本信息的识别方法及装置
CN106649276B (zh) * 2016-12-29 2019-02-26 北京京东尚科信息技术有限公司 标题中核心产品词的识别方法以及装置
GB201713728D0 (en) * 2017-08-25 2017-10-11 Just Eat Holding Ltd System and method of language processing
CN110020157A (zh) * 2017-12-08 2019-07-16 北京京东尚科信息技术有限公司 数据处理方法、系统、计算机系统及存储介质
CN108804540B (zh) * 2018-05-08 2020-12-22 苏州闻道网络科技股份有限公司 搜索引擎链接分析系统及分析方法
CN111400577B (zh) * 2018-12-14 2023-06-30 阿里巴巴集团控股有限公司 一种搜索召回方法及装置
CN111488497B (zh) * 2019-01-25 2023-05-12 北京沃东天骏信息技术有限公司 字符串集合的相似度确定方法、装置、终端及可读介质
US11159679B2 (en) * 2019-02-26 2021-10-26 Cigna Taiwan Life Assurance Co. Ltd. Automated systems and methods for natural language processing with speaker intention inference
CN110263127A (zh) * 2019-06-21 2019-09-20 北京创鑫旅程网络技术有限公司 基于用户查询词进行文本搜索方法及装置
KR102358357B1 (ko) * 2019-09-10 2022-02-04 한국과학기술정보연구원 시장규모추정장치 및 그 동작 방법
EP3770840A1 (en) * 2020-02-07 2021-01-27 ChannelSight Limited Method and system for determining product similarity in digital domains
US20210295410A1 (en) * 2020-03-23 2021-09-23 Oath Inc. Computerized system and method for applying transfer learning for generating a multi-variable based unified recommendation
KR102456012B1 (ko) * 2022-06-10 2022-10-18 주식회사 애자일소다 인공지능 기반의 분류 모델링 장치 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158971A (zh) * 2007-11-15 2008-04-09 深圳市迅雷网络技术有限公司 一种基于搜索引擎的搜索结果排序方法及装置
CN101281525A (zh) * 2007-11-23 2008-10-08 北京九城网络软件有限公司 一种互联网上基于知识库的搜索系统和方法
CN101957828A (zh) * 2009-07-20 2011-01-26 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置

Family Cites Families (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01234975A (ja) 1988-03-11 1989-09-20 Internatl Business Mach Corp <Ibm> 日本語文章分割装置
JPH04262460A (ja) 1991-02-15 1992-09-17 Ricoh Co Ltd 情報検索装置
US6202058B1 (en) * 1994-04-25 2001-03-13 Apple Computer, Inc. System for ranking the relevance of information objects accessed by computer users
JP3617096B2 (ja) 1994-05-25 2005-02-02 富士ゼロックス株式会社 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
US7133835B1 (en) 1995-08-08 2006-11-07 Cxn, Inc. Online exchange market system with a buyer auction and a seller auction
JP3565239B2 (ja) 1996-09-03 2004-09-15 日本電信電話株式会社 情報検索装置
EP1204032A4 (en) * 1999-12-21 2008-06-11 Matsushita Electric Ind Co Ltd CREATION OF A VECTORIAL INDEX, SEARCH FOR SIMILAR VECTORS AND CORRESPONDING DEVICES
US7092871B2 (en) 2000-07-20 2006-08-15 Microsoft Corporation Tokenizer for a natural language processing system
US20020157116A1 (en) 2000-07-28 2002-10-24 Koninklijke Philips Electronics N.V. Context and content based information processing for multimedia segmentation and indexing
US7403938B2 (en) 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
US7805302B2 (en) 2002-05-20 2010-09-28 Microsoft Corporation Applying a structured language model to information extraction
US8055669B1 (en) * 2003-03-03 2011-11-08 Google Inc. Search queries improved based on query semantic information
US7756847B2 (en) 2003-03-03 2010-07-13 Koninklijke Philips Electronics N.V. Method and arrangement for searching for strings
US7424421B2 (en) 2004-03-03 2008-09-09 Microsoft Corporation Word collection method and system for use in word-breaking
JP4754247B2 (ja) 2004-03-31 2011-08-24 オセ−テクノロジーズ ビーブイ 複合語を構成する単語を割り出す装置及びコンピュータ化された方法
US20080077570A1 (en) * 2004-10-25 2008-03-27 Infovell, Inc. Full Text Query and Search Systems and Method of Use
US8200687B2 (en) 2005-06-20 2012-06-12 Ebay Inc. System to generate related search queries
US20070067098A1 (en) 2005-09-19 2007-03-22 Zelentsov Oleg U Method and system for identification of geographic location
US8255383B2 (en) 2006-07-14 2012-08-28 Chacha Search, Inc Method and system for qualifying keywords in query strings
WO2008019007A2 (en) 2006-08-04 2008-02-14 Thefind, Inc. Method for relevancy ranking of products in online shopping
US7917493B2 (en) * 2007-04-19 2011-03-29 Retrevo Inc. Indexing and searching product identifiers
JP2008287406A (ja) 2007-05-16 2008-11-27 Sony Corp 情報処理装置および情報処理方法、プログラム、並びに、記録媒体
US20090076927A1 (en) 2007-08-27 2009-03-19 Google Inc. Distinguishing accessories from products for ranking search results
US8301633B2 (en) 2007-10-01 2012-10-30 Palo Alto Research Center Incorporated System and method for semantic search
US8019748B1 (en) * 2007-11-14 2011-09-13 Google Inc. Web search refinement
US8422787B2 (en) 2007-12-27 2013-04-16 Nec Corporation Apparatus, method and program for text segmentation
US7895205B2 (en) * 2008-03-04 2011-02-22 Microsoft Corporation Using core words to extract key phrases from documents
CN101246472B (zh) 2008-03-28 2010-10-06 腾讯科技(深圳)有限公司 一种汉语文本的大、小粒度切分实现方法和装置
JP4979637B2 (ja) 2008-06-06 2012-07-18 ヤフー株式会社 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
US8862989B2 (en) 2008-06-25 2014-10-14 Microsoft Corporation Extensible input method editor dictionary
US8108406B2 (en) * 2008-12-30 2012-01-31 Expanse Networks, Inc. Pangenetic web user behavior prediction system
US8515966B2 (en) * 2009-01-09 2013-08-20 Ebay Inc. Analyzing queries to generate product intention rules
EP2259252B1 (en) 2009-06-02 2012-08-01 Nuance Communications, Inc. Speech recognition method for selecting a combination of list elements via a speech input
CN102012900B (zh) 2009-09-04 2013-01-30 阿里巴巴集团控股有限公司 信息检索方法和系统
CN101655838B (zh) 2009-09-10 2011-12-14 复旦大学 一种粒度可量化的话题提取方法
US20110093331A1 (en) * 2009-10-19 2011-04-21 Donald Metzler Term Weighting for Contextual Advertising
US9348892B2 (en) 2010-01-27 2016-05-24 International Business Machines Corporation Natural language interface for faceted search/analysis of semistructured data
WO2011100573A1 (en) 2010-02-12 2011-08-18 Google Inc. Compound splitting
CN102236663B (zh) 2010-04-30 2014-04-09 阿里巴巴集团控股有限公司 一种基于垂直搜索的查询方法、系统和装置
US8515968B1 (en) * 2010-08-13 2013-08-20 Google Inc. Tie breaking rules for content item matching
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
CA2721498C (en) 2010-11-25 2011-08-02 Microsoft Corporation Efficient use of exceptions in text segmentation
US20120191745A1 (en) * 2011-01-24 2012-07-26 Yahoo!, Inc. Synthesized Suggestions for Web-Search Queries
US20120317088A1 (en) * 2011-06-07 2012-12-13 Microsoft Corporation Associating Search Queries and Entities

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101158971A (zh) * 2007-11-15 2008-04-09 深圳市迅雷网络技术有限公司 一种基于搜索引擎的搜索结果排序方法及装置
CN101281525A (zh) * 2007-11-23 2008-10-08 北京九城网络软件有限公司 一种互联网上基于知识库的搜索系统和方法
CN101957828A (zh) * 2009-07-20 2011-01-26 阿里巴巴集团控股有限公司 一种对搜索结果进行排序的方法和装置

Also Published As

Publication number Publication date
TW201348991A (zh) 2013-12-01
US9563665B2 (en) 2017-02-07
JP2015518220A (ja) 2015-06-25
US20130318101A1 (en) 2013-11-28
CN103425691A (zh) 2013-12-04
WO2013176961A1 (en) 2013-11-28
KR101700585B1 (ko) 2017-01-31
JP5916947B2 (ja) 2016-05-11
KR20150010740A (ko) 2015-01-28

Similar Documents

Publication Publication Date Title
CN103425691B (zh) 一种搜索方法和系统
CN101876981B (zh) 一种构建知识库的方法及装置
CN105468605B (zh) 一种实体信息图谱生成方法及装置
CN103329126B (zh) 利用联合图像-音频查询的搜索
CN101887436B (zh) 一种检索方法和装置
EP2499569B1 (en) Clustering method and system
CN103425687A (zh) 一种基于关键词的检索方法和系统
JP5721818B2 (ja) 検索におけるモデル情報群の使用
US20110106819A1 (en) Identifying a group of related instances
CN106156272A (zh) 一种基于多源语义分析的信息检索方法
US8923655B1 (en) Using senses of a query to rank images associated with the query
CN100462969C (zh) 利用互联网为公众提供和查询信息的方法
CN105302810A (zh) 一种信息搜索方法和装置
CN103577432A (zh) 一种商品信息搜索方法和系统
CN110222203B (zh) 元数据搜索方法、装置、设备及计算机可读存储介质
CN110390094B (zh) 对文档进行分类的方法、电子设备和计算机程序产品
CN112257419A (zh) 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
CN103309869A (zh) 数据对象的展示关键词推荐方法及系统
CN103778122A (zh) 搜索方法和系统
CN103605744B (zh) 网站搜索引擎流量数据的分析方法及装置
CN105022830A (zh) 一种基于用户行为的加权轨迹数据集构建方法
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
CA3051919C (en) Machine learning (ml) based expansion of a data set
JP2005092442A (ja) 多次元空間モデル表現装置および多次元空間モデル表現方法
KR20120038418A (ko) 탐색 방법 및 디바이스

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1189065

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1189065

Country of ref document: HK

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20161214