具体实施方式
本申请通过提出新的搜索方案,可以满足相关技术中的搜索限制需求。为对本申请进行进一步说明,提供下列实施例:
图1是本申请一示例性实施例提供的一种搜索方法的流程图,如图1所示,该方法应用于搜索服务器上,可以包括以下步骤:
步骤102,翻译根据用户的输入内容得到的搜索关键词,得到基于与所述用户所处的地区对应的本地语种类型的本地语种关键词,以及基于预定义的通用语种类型的通用语种关键词。
在本实施例中,搜索关键词可以为用户输入内容;或者,搜索关键词也可以通过对用户输入内容进行基本处理后得到,例如该基本处理可以包括以下至少之一:分词处理,去除诸如空格、语气词等无意义内容,去除重复词,大小写统一等,以便于对该搜索关键词的真实含义的提取,以及便于在后续搜索操作中获得更高匹配率。
在本实施例中,通过获取用户所处的地区,可以确定该地区对应的本地语种类型。例如,可以通过获取用户的IP地址等网络地址信息,并调用预定义的网络地址库(如全球IP库),可以匹配查询出该网络地址信息对应的地区;或者,可以根据用户执行搜索操作的电子设备内置的定位芯片,比如GPS芯片等,获取该用户所处的地区等。然后,根据预定义的地区与语种之间的对应关系,即可确定用户所处的地区对应的本地语种类型。
在本实施例中,通用语种类型可以为预定义的任一应用范围广泛的语种类型,比如英语或其他预定义的语种类型。
步骤104,调取预定义限制词汇集合,所述预定义限制词汇集合中包含分别对应于所述本地语种类型和所述通用语种类型的预定义限制词汇。
在本实施例中,通过同时维护本地语种类型和通用语种类型的预定义限制词汇,可以同时从多个维度对同一搜索关键词进行匹配,有助于提升对限制词汇的匹配准确度。
步骤106,当所述预定义限制词汇集合中存在与所述本地语种关键词或所述通用语种关键词相匹配的预定义限制词汇时,干预返回所述用户的搜索结果。
在本实施例中,当匹配于本地语种关键词或通用语种关键词的预定义限制词汇为预定义的危险词汇时,可以输出空的搜索结果。其中,该空的搜索结果可以是略过基于搜索关键词的搜索操作而直接输出,有助于节省搜索资源。
在本实施例中,当匹配于本地语种关键词或通用语种关键词的预定义限制词汇为预定义的风险词汇时,在所述搜索结果的展示页面内中,示出关于搜索结果对象的风险提示信息。
由以上技术方案可见,本申请通过在预先创建的限制词汇集合中包含分别对应于本地语种类型和通用语种类型的限制词汇,可以从本地和通用两个维度对搜索关键词进行匹配干预处理,从而使得对搜索关键词的限制情况符合本地化需求,还可以提升干预处理的准确度,避免发生误判断。
图2是本申请一示例性实施例提供的一种搜索架构的示意图,如图2所示,该架构可以包括下述结构:
“关键词处理”组件,该组件可以实现:1)将用户输入内容生成为搜索关键词;2)将搜索关键词翻译为基于与用户所处的地区对应的本地语种类型的本地语种关键词,以及基于预定义的通用语种类型的通用语种关键词。例如,通用语种关键词可以为英语;而本地语种类型与用户所处的地区相关,比如当用户处于西班牙境内时,本地语种类型可以为西班牙语,当用户处于中国境内时,本地语种类型可以为中文。
“干预处理”组件,该组件可以从多维度对基于上述关键词集合的搜索结果进行干预,以实现本申请的搜索限制目的;其中,多维度可以包括:1)高危词干预,通过诸如“英文高危词表”、“中文高危词表”、“日文高危词表”等,识别出关键词集合中的高危词,并执行相应干预处理;2)禁售类目干预,通过“全球IP库”、“禁售类目表”等,识别出搜索结果中包含的禁售类目,并执行相应干预处理;3)限售词干预,通过诸如“英文限售词表”、“中文限售词表”、“日文限售词表”等,识别出关键词集合中的限售词,并执行相应干预处理。
配合于图2所示的搜索架构,图3是本申请一示例性实施例提供的另一种搜索方法的流程图,如图3所示,该方法可以包括以下步骤:
步骤302,接收用户输入内容。
步骤304A,确定用户所处的地区。
在本实施例中,可以通过获取用户的网络地址信息,然后根据预定义的网络地址库,查询出该网络地址信息对应的地区。例如该网络地址信息可以为IP地址,而预定义的网络地址库可以为全球IP库,从而通过查询确定出用户的IP地址对应的国家或地区,即该用户的归属地信息。
当然,还可以通过其他方式确定用户的归属地信息,本申请并不对此进行限制。比如,获取用户在资料中填写的归属地信息;或者,当用户发起搜索请求的电子设备中包含定位芯片时,比如用户通过包含定位芯片的手机发起搜索请求时,可以向该电子设备发起定位请求,以确定用户的归属地信息;或者,当本申请的技术方案应用于网络交互平台时,即用户通过该网络交互平台执行针对交互对象的搜索操作,那么可以获取用户最近一次在该网络交互平台上执行交互操作时,采用的物流地址信息,并将其作为用户的归属地信息。
步骤304B,生成搜索关键词。
在本实施例中,对应于图2所示“关键词处理”组件实现的功能1):将用户输入内容生成为搜索关键词。其中,可以直接将用户输入用户作为搜索关键词;当然,由于用户输入内容可能并不规范,因而可以通过对用户输入内容进行关键词处理,使得搜索结果能够覆盖更多相关搜索结果对象,而避免由于用户输入内容不规范而导致无法搜索到本身符合该用户输入内容的对象。
例如,对用户输入内容执行的基本处理可以包括以下至少之一:1)分词处理,比如当用户输入内容为“LX bag”时,可以分词处理为“LX”和“bag”;2)去除诸如空格、语气词等无意义内容,比如当用户输入内容为“LX bag”时,可以去除“LX”和“bag”之间的空格,或者比如当用户输入内容为“LX牌的包”时,可以去除无意义的“的”、保留“LX牌”和“包”;3)去除重复词,比如当用户输入内容为“LX bag bag”时,可以仅保留一个“bag”、去除重复的其余“bag”;4)大小写统一,比如当用户输入内容为“LX bag”时,可以统一处理为“lx”和“bag”。那么,通过上述方式对用户输入内容进行编辑后,便于得到的搜索关键词表达出其真实含义,从而在后续搜索操作中获得更高匹配率、搜索结果更加符合用户的实际需求。
在本实施例中,对应于图2所示“关键词处理”组件实现的功能2):翻译搜索关键词,得到基于与用户所处的地区对应的本地语种类型的本地语种关键词,以及基于预定义的通用语种类型的通用语种关键词。其中,作为一种使用广泛、普遍的语种类型,该通用语种类型可以为英语,或者其他任意预定义的语种类型;以及,本地语种类型需要根据用户所处的地区来确定,那么假定步骤304A确定出用户处于西班牙境内,该本地语种类型可以为西班牙语,以及假定步骤304A确定出用户处于中国境内,该本地语种类型可以为中文。
那么,以用户所处的地区为西班牙境内为例。在接收到用户输入内容时,可以识别出该用户输入内容的语种类型。一种情况下,当用户输入内容的语种类型为西班牙语时,直接得到的搜索关键词为西班牙文关键词,即本地语种关键词,此时需要将该西班牙文关键词翻译为英文关键词,以作为通用语种关键词。另一种情况下,当用户输入内容的语种类型为英语时,直接得到的搜索关键词为英文关键词,即通用语种关键词,此时需要将该英文关键词翻译为西班牙文关键词,以作为本地语种关键词。
步骤306,当存在匹配于高危词的搜索关键词时,转入步骤308,否则转入步骤310。
步骤308,输出空的搜索结果。
在本实施例中,对应于图2所示“干预处理”组件实现的“高危词干预”,可以当搜索关键词匹配于预定义的危险词汇(即“高危词”)时,输出空的搜索结果。其中,“高危词”对应的对象属于反政府类词汇、法律明令禁止售卖的货品等,例如毒品、吸毒工具,色情暴力,间谍器材,国家重点保护动物的相关词汇等,属于预先定义的高度危险词汇,因而禁止向用户返回相关搜索结果。
比如图4所示,当用户输入的“xxxxxx”被判定为高危词时,可以返回“Result(结果)=0”表明不存在相关搜索结果对象。其中,当搜索关键词匹配于预定义的危险词汇时,可以略过基于该搜索关键词的搜索操作,即服务器无需执行基于该搜索关键词的搜索操作,直接返回诸如上述的“Result=0”,从而有助于节省相应的搜索资源,并且实现对用户搜索操作的快速响应。当然,对于服务器是否执行该搜索操作,本申请并不进行限制,只需要最终向用户返回空的搜索结果(即该搜索结果中不包含任何搜索结果对象)即可。
其中,当步骤304B中得到本地语种关键词和通用语种关键词时,步骤306中可以将每个语种的搜索关键词分别与相应语种的高危词表进行匹配,以确定其是否为高危词。例如图2-3所示,假定预定创建有基于通用语种类型的英文高危词表,以及基于各个本地语种类型的中文高危词表、日文高危词表等,而关键词集合中分别包含基于通用语种类型的英文搜索关键词,以及基于各个本地语种类型的中文搜索关键词、日文搜索关键词等;那么,以通用语种类型为英语、本地语种类型为西班牙语为例,通过将英文搜索关键词与英文高危词表进行比较、将西班牙文搜索关键词与西班牙文高危词表进行比较,即可通过多个语种对同一含义的搜索关键词进行匹配,尤其是基于本地语种关键词的匹配结果更加具有本地化特性,以确定其是否为高危词,而避免仅使用通用语种类型容易被简单规避的情况,确保对高危词的全覆盖。
步骤310,当存在匹配于禁售类目的搜索结果对象时,转入步骤312,否则转入步骤314。
步骤312,从搜索结果中筛除禁售类目。
在本实施例中,不同国家或地区存在不同的法律、法规的规定,因而可以根据用户的归属地信息,对搜索结果进行针对性的筛除。比如对于网络交互平台而言,例如巴西禁止出售电子香烟等,即“电子香烟”属于“巴西”对应的禁售类目;那么,如果用户所处的地区为巴西,应当根据巴西对应的预定义禁售类目表,从搜索结果中筛除该禁售类目表中包含的禁售类目的搜索结果对象,例如上述的“电子香烟”,而仅保留其余类目的搜索结果对象。
当然,对于用户而言,上述筛除过程可以是透明的;比如图5所示,当用户输入内容为“aaaaaa”时,如果直接进行搜索时,可能匹配到5524条搜索结果对象,但是根据用户对应的归属地信息,如果存在匹配的禁售类目时,先从该5524条搜索结果对象中删除属于禁售类目的3179条搜索结果对象,然后示出剩余的2345条搜索结果对象,而用户不会感受到搜索结果经过了筛除处理。
步骤314,当存在匹配于限售词的搜索关键词时,转入步骤316A,否则转入步骤316B。
步骤316A,输出搜索结果,并示出风险提示信息。
步骤316B,输出搜索结果。
在本实施例中,在将搜索结果与禁售类目表进行匹配之后,还可以进一步查看搜索关键词是否包含限售词对应的搜索结果对象。在网络交互平台上,限售词可以对应于限制出售的对象,比如品牌商品,原则上只允许得到授权的卖家出售,但往往存在一些假冒商品,可能对用户造成损失,因而当搜索关键词匹配于限售词时,表明用户存在购买到假冒商品的风险;所以,当本申请的技术方案应用于更广泛(相对于网络交互平台而言,比如通常情况下的数据交互场景)的场景时,网络交互平台中的“限售词”对应于“风险词汇”,即由此得到的搜索结果可能给用户带来一定的风险,比如上述的假冒商品等。
那么,当搜索关键词匹配于预定义的风险词汇时,可以在搜索结果的展示页面内中,示出关于搜索结果对象的风险提示信息。比如图6所示,假定用户通过电商平台“Alibaba.com”执行搜索操作,当用户输入内容为“LX bag”时,可以生成搜索关键词为“LX”和“bag”;其中,如果“LX”为限售词表中记录的某个品牌的名称,那么表明用户可能搜索到假冒该“LX”品牌的对象,比如“LX”品牌的包(bag)等,因而可以示出图6所示的诸如“Notice:"【lx】"is likely a brand name and if it’s the case,products of whichcan only be traded on Alibaba.com with proof of proper authorization.Pleaseconfirm with the supplier(s)before trading with them(注意:【lx】可能是一个品牌名称,该品牌的商品在Alibaba.com上出售时必须有授权资质。请在交易前与卖家(们)确认)”等风险提示信息。
与“高危词干预”相类似的,当步骤304中得到本地语种关键词和通用语种关键词时,步骤314中可以将每个语种的搜索关键词分别与相应语种的限售词表进行匹配,以确定其是否为限售词。例如图2-3所示,假定预定创建有基于通用语种类型的英文限售词表,以及基于各个本体语种类型的中文限售词表、日文限售词表等,而关键词集合中分别包含基于通用语种类型的英文搜索关键词,以及基于各个本体语种类型的中文搜索关键词、日文搜索关键词等;那么,以通用语种类型为英语、本地语种类型为西班牙语为例,通过将英文搜索关键词与英文限售词表进行比较、将西班牙文搜索关键词与西班牙文限售词表进行比较,即可通过多个语种对同一含义的搜索关键词进行匹配,尤其是基于本地语种关键词的匹配结果更加具有本地化特性,以确定其是否为限售词,而避免单个语种容易被简单规避的情况,确保对限售词的全覆盖。
图7示出了根据本申请的一示例性实施例的电子设备的示意结构图。请参考图7,在硬件层面,该电子设备包括处理器702、内部总线704、网络接口706、内存708以及非易失性存储器710,当然还可能包括其他业务所需要的硬件。处理器702从非易失性存储器710中读取对应的计算机程序到内存702中然后运行,在逻辑层面上形成搜索装置。当然,除了软件实现方式之外,本申请并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图8,在软件实施方式中,该搜索装置可以包括翻译单元81、调取单元82和干预单元83。其中:
翻译单元81,翻译根据用户的输入内容得到的搜索关键词,得到基于与所述用户所处的地区对应的本地语种类型的本地语种关键词,以及基于预定义的通用语种类型的通用语种关键词;
调取单元82,调取预定义限制词汇集合,所述预定义限制词汇集合中包含分别对应于所述本地语种类型和所述通用语种类型的预定义限制词汇;
干预单元83,当所述预定义限制词汇集合中存在与所述本地语种关键词或所述通用语种关键词相匹配的预定义限制词汇时,干预返回所述用户的搜索结果。
可选的,所述干预单元83具体用于:
当匹配于所述本地语种关键词或所述通用语种关键词的预定义限制词汇为预定义的危险词汇时,输出空的搜索结果。
可选的,还包括:
搜索控制单元84,当匹配于所述本地语种关键词或所述通用语种关键词的预定义限制词汇为预定义的危险词汇时,略过基于所述搜索关键词的搜索操作。
可选的,所述干预单元83具体用于:
当匹配于所述本地语种关键词或所述通用语种关键词的预定义限制词汇为预定义的风险词汇时,在所述搜索结果的展示页面内中,示出关于搜索结果对象的风险提示信息。
可选的,还包括:
确定单元85,确定所述用户所处的地区;
筛除单元86,根据与所述地区对应的预设限制类目,筛除所述搜索结果中属于所述预设限制类目的搜索结果对象。
可选的,所述确定单元85具体用于:
获取所述用户的网络地址信息;
根据预定义的网络地址库,查询出所述网络地址信息对应的地区。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。