CN106599153A

CN106599153A - 一种基于多个数据源的废旧行业搜索系统以及其方法

Info

Publication number: CN106599153A
Application number: CN201611116560.9A
Authority: CN
Inventors: 刘宁; 周国辉; 王清霞; 姜林
Original assignee: Beijing Plastic Technology Co Ltd; Hebei Zhong Jie Tong Network Technology Co Ltd
Current assignee: Beijing Plastic Technology Co Ltd; Hebei Zhong Jie Tong Network Technology Co Ltd
Priority date: 2016-12-07
Filing date: 2016-12-07
Publication date: 2017-04-26

Abstract

本发明公开了一种基于多个数据源的废旧行业搜索系统以及其方法，该系统包括：A、数据预处理模块、B、数据存储模块、C、数据缓存模块、D、索引创建模块、E、搜索结果展示模块。其中所述索引创建模块D，将schema.xml配置文件中的常规静态字段定义为多个数据源模式，根据不同的数据类型定义为多个数据源，采用该方法，能够在生产过程中，在进行索引创建时，不用重启修改配置文件，直接创建索引节点，来提供搜索服务，从而，优化了solr动态字段如果遇到相同大小的模式同时可以匹配时，只匹配在schema.xml配置文件中第一个出现的问题，同时，避免了重启solr服务给搜索系统造成一定的损失或者风险。根据本发明实施例，可以提高废旧行业搜索的准确性，实现对商品的精准搜索，满足用户从庞大的商品中挑选个性化商品的需求。

Description

一种基于多个数据源的废旧行业搜索系统以及其方法

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种基于多个数据源的废旧行业搜索系统以及其方法。

背景技术

目前，有关于solrCloud集群更新配置的方式的研究，主要集中在solr动态字段的使用，重启solr搜索服务上，从而达到更新配置的目的。

在solrCloud集群模式下，schema.xml和solrconfig.xml等配置文件都是由zookeeper集群统一管理，所以本地项目中只保留单一shard分片，各个索引库（collections）分片保存位置是solr根目录下的solr-home/下，该目录下有一个solr.xml配置文件，然后，随便进入一个shard目录，比如，本发明中废旧行业的某网站搜索索引目录，可以看到只有一个data目录和一个core.properties文件，其中data目录存放solr备份的索引数据、core.properties文件，通过linux的vim命令编辑模式下，可以看到core.properties文件保存了shard序号，索引库（collections）名称，核子节点的名称等等。

因此，更新配置必须将配置文件更新到zookeeper集群才可以正常生效，首先登录zookeeper，删除原有的schema.xml文件，然后把配置上传，上传完成后并不是立即生效的，上传文件之后，通过solr admin管理界面都可以看到文件内容更新了，有2种方法可以查看配置文件是否更新。

第1方法通过clouds/tree/configs/configure目录可以查看到文件内容更新。

第2方法通过jupai/files目录可以查看到文件内容更新。

但是，当update、query时会出错，浏览schema.xml配置文件中的字段时没有更新，很明显配置没有生效。所以，要依次重启solrCloud集群，首先说明这个方法是有效的，但是比较繁琐，并且重启solrCloud集群对搜索系统有很大风险，进而影响用户对网站的搜索体验。

那么，solr动态字段可以解决频繁启动solrCloud集群的问题，在solr索引时候，动态字段允许在schema.xml中定义没有明确定义的字段（field），如果发现忘记定义一个或者多个字段，这个时候solr的动态字段正好可以解决这个问题，并且可以使得solr搜索系统更加灵活，通用性更加强健。

动态字段和常规字段的唯一区别是，其名称中比常规字段多一个通配符。当创建索引的时候，如果一个字段没有匹配到任何明确定义的字段，那么就可以尝试去匹配动态字段。

如果使用solr中<dynamicField>声明进行定义字段规则，那么当商品中的一个字段名称在schema.xml配置文件没有明确定义，但是在匹配schema.xml配置文件中某个动态字段的前缀或者后缀时，solr可以通过这个动态字段定义的字段规则，理解应该使用哪种数据类型。

这里是一个动态字段定义的示例：<dynamicField name="*_s" type="string"indexed="true" stored="true"/>，这个动态字段声明告诉solr，不管什么时候，当它看见商品中一个字段的名称以“_s”结尾，并且这个字段在schema.xml配置文件中没有明确定义，那么应该用这个字段的名称动态创建一个字符串类型的字段。

但是，在动态字段name属性中，存在以下两个问题：1）用通配符去匹配只能在开头或者结尾有一个星号“*”，更长的模式会先被匹配。2）如果相同大小的模式同时可以匹配，那么只匹配在schema.xml配置文件中第一个出现的。

本发明对现有技术方案存在的问题进行优化处理，将schema.xml配置文件，在常规静态字段中定义多个数据源模式，比如，字符串类型（string）的定义s1、s2、s3、s4、s5等多个数据源，设计示例如下所示：

这样使用solrJ创建索引，从而，达到了不用重启solrCloud集群服务目的，同时解决了solr动态字段存在的问题。

发明内容

有鉴于此，本发明的主要目的在于提供一种基于多个数据源的废旧行业搜索系统以及其方法，将schema.xml配置文件中的常规静态字段定义多个数据源，比如，整型（int）的定义i1、i2、i3、i4等多个数据源，在进行索引创建时，不用重启修改配置文件，直接创建索引节点，来提供搜索服务，从而，避免了重启solr服务给搜索系统造成一定的损失或者风险。

为达到上述目的，本发明的技术方案是这样实现的：

一种基于多个数据源的废旧行业搜索系统，该系统包括：

数据预处理模块A、数据存储模块B、数据缓存模块C、索引创建模块D、搜索结果展示模块E；

其中所述的索引创建模块D，将solr动态字段进行优化处理，解决了solr动态字段的如果相同大小的模式同时可以匹配，那么只匹配在schema.xml配置文件中第一个出现的问题，本发明中将常规静态字段设计成多个数据源模式，无需重启修改配置文件，就可以直接创建索引节点，从而，实现了solrCloud集群服务。

本发明所提供的基于多个数据源索引创建的方法，具有以下优点：1）能够在生产过程中，在修改了solr配置文件，避免频繁重启zookeeper、tomcat；

2）从分布式搜索系统的可靠性考虑，保证了搜索系统稳定运行；

3）统一简化的配置文件的操作，搜索系统常规静态字段（field）的数据类型，type为string、int、double、date。

附图说明

图1为本发明基于多个数据源索引创建的方法流程示意图；

图2为本发明基于多个数据源废旧行业搜索系统应用场景示意图；

图3为本发明基于多个数据源废旧行业搜索系统平台缓存示意图。

具体实施方式

下面结合附图及本发明的实施例对本发明的基于多个数据源索引创建的方法作进一步详细的说明。

该基于多个数据源索引创建的方法，主要包含以下几个流程：

步骤A：将schema.xml 文件中的常规静态字段定义为多个数据源的模式，本发明这样设计，比如，数据类型为日期类型（date）的字段，设计示例如下：

进一步地，字符串类型（string）、整型（int）、双精度浮点数（double）也这样设计为多个数据源模式。

步骤B：初始化solr搜索索引库创建字段；

索引库创建为了提高性能，特不设定自动匹配字段

key为该条数据的唯一标识：用于商品编号、卖家编号、UUID使用；

s开头的为字符串类型：用于分词搜索匹配使用；

i开头的为整数：用于存储和检索整数类型值；

d开头的为双精度小数：用于存储和检索双精度小数类型值；

t开头的为日期：用于存储和检索日期类型的值；

l开头的为List<String>集合：用于存储和检索多值搜索。

步骤C：使用solrJ技术操纵CloudSolrClient的流程如下：

步骤C1：创建CloudSolrClient的实例：

CloudSolrClient cloudSolrClient= new CloudSolrClient(zkHostUrl)；

步骤C2：对CloudSolrClient实例进行设置：

cloudSolrClient.setDefaultCollection(defaultCollectionName)；

cloudSolrClient.setzkClientTimeout(zkClientTimeout)；

cloudSolrClient.setzkConnectTimeout(zkConnectionTimeout)；

步骤C3：将cloudSolrClient实例连接到zookeeper：

cloudSolrClient.connect()；

步骤C4：CloudSolrClient的实例cloudSolrClient实例化、连接完成，进而可以对其进行add、query、delete操作；

建index：准备SolrInputDocument，最好批量添加，有利于提高系统性能。添加商品的字段与solr中配置文件schema.xml有关，需要对其设置；

通过SolrQuery 可以对cloudSolrClient实例进行各种查找操作；

Delete操作可以通过id、query的结果进行delete；

步骤C5：操作结束，关闭CloudSolrClient实例，cloudSolrClient.shutdown()；以释放资源。

步骤D：索引创建完毕。

本发明为解决基于多个数据源的废旧行业搜索系统的问题，主要采用了以下技术，下面对这些技术进行简单介绍。

solr动态字段技术。动态字段也是定义在 schema.xml 文件中，和其他字段一样，它也有个名字，字段类型和属性，正常情况下，需要事先把知道的字段定义在schema.xml配置文件中，当有不确定的字段时，这时可以使用动态字段，

这样，在索引创建时候，如果有以 _s 结尾的字段的值都会被按照上述的索引方式进行索引，比如，字段名称为province_s、city_s、category_s。

本发明中基于多个数据源的索引创建方法，解决了动态字段存在的不足，将常规字段设计成多个数据源的模式，常规字段的数据类型，比如，整型（int）、双精度浮点数（double），设计示例如下：

从而，实现了不用重启solrCloud集群，来创建索引节点，进而为用户提供废旧行业搜索服务。

solrJ技术工具。 solrJ 提供了一组API，来帮助创建搜索查询。并且solrJ设计成一个可扩展的框架，用以向solr服务器提交请求，并接收回应。其中，这里的solrJ创建多个数据源的索引针对废旧行业所在的某搜索系统而言。

cloudSolrClient。cloudSolrClient是solrj提供的客户端与solrCloud交互的类。该类的实例与zookeeper进行通信来确定solrCloud collections中的solr endpoint，然后使用LBHttpSolrClient发送请求，在本发明中该类实例化用于索引创建、搜索查询操作。

redis技术。redis是一款开源的、高性能的键-值存储（key-value store）。它常被称作是一款数据结构服务器（data structure server）。redis的键值可以包括字符串（strings）类型，同时它还包括哈希（hashes）、列表（lists）、集合（sets）和有序集合（sorted sets）等数据类型。 redis是一个支持持久化的内存数据库，也就是说redis需要经常将内存中的数据同步到磁盘来保证持久化。本发明主要用在搜索价格更新，库存更新模块。

Ik分词技术。分词主要用在对搜索数据预处理模块，对用户输入的查询词（keyword）进行拆词处理。

参考图2，本发明的基于多个数据源的废旧行业搜索系统以及其方法一个实施例如下。

下面介绍该搜索系统的几个典型应用场景：

应用场景一：

本发明的基于多个数据源索引创建的方法应用在某废旧行业搜索系统中，其中搜索索引库创建字段：

1) key为该条数据的唯一标识：用于商品编号、卖家编号、UUID使用；

private String key；表示信息编号，也就是商品（product）里面的UUID编号。

2）s开头的为字符串类型：用于分词搜索匹配使用；

private String s1；表示商品的标题，

private String s2；表示用户搜索商品输入的关键词或者标的状态，

private String s3；表示商品所属国家，

private String s4；表示商品所属的省份，

private String s5；表示商品所属城市，

private String s6；表示商品的成色，

private String s7；表示旧ID，为了方便取数据，

private String s8；表示英文标题，

private String s9；表示只用来检索不存储，

private String s10；表示只用来检索不存储，

private String s11；表示只用来检索不存储，

private String s12；表示只用来检索不存储。

3）i开头的为整数：用于存储和检索整数类型值；

private int i1；表示类别或者商品状态，

private int i2；表示权限或者数据是公告还是标的，其中1是标的，2是拍卖公告，

private int i3；表示德宝指数。

4）d开头的为双精度小数：用于存储和检索双精度小数类型值；

private double d1；表示价格，只用来检索，不存储，

private double d2；表示库存，只用来检索，不存储。

4） t开头的为日期：用于存储和检索日期类型的值；

private Date t1；表示更新时间或者发布时间，

private Date t2；表示添加时间。

6）l开头的为List<String>集合：用于存储和检索多值搜索；

private List<String> l1；表示一级分类名称，

private List<String> l2；表示二级分类名称，

private List<String> l3；表示一级分类ID，

private List<String> l4；表示二级分类ID

进一步地，在索引字段初始化完成后，从数据库中查询创建索引所需要的数据，进行全量或者增量更新索引库，进而为某废旧行业搜索系统提供服务。

应用场景二：

本发明中设计的基于多个数据源的搜索方案，应用在某废旧网站上，为用户提供二手设备网、废金属网、废塑料网、废纸网多种类搜索服务，从而实现了全方位的搜索体检。某废旧网是国内一家成立最早的提供废旧行业供求信息发布的平台网站，全球领先的废旧物资网络交易平台，是废旧物资行业的开创者与领航者。废旧物资网在通过不断的坚持创新，让越来越多的网民享受某废旧网带来的方便和价值，成为全国废旧、二手设备、再生资源等相关行业网站中排名第一的废旧行业网站。

废旧网强大服务平台百万废料商人首选的废旧物资信息平台。

废旧网四大、五联体网站，二手设备网、废金属网、废塑料网、废纸网覆盖最多的行业资讯、报价行情及供求商机，二手设备网、废金属网与聚拍网（中国专业的领先的废旧闲置资源拍卖网站）共享资源，全方位获得行业渠道营销推广的最佳解决方案。

图2为本发明基于多个数据源的废旧行业搜索系统流程示意图。

如图2所示，该系统具体包括如下模块：

数据预处理模块A，首先将搜索数据初始化，对搜索请求参数进行预处理包括以下步骤：

步骤A1、对关键词（keyword）进行预处理：如果用户关键词为空直接返回，不循环便利；如果全为特殊字符，返回报错信息（搜索关键词全为特殊字符）；如果输入关键词含有特殊字符或者空格，将关键词中的非法字符过滤掉；如果全为数字，将通过append方法拼接封装SolrQuery；如果全为字母，采用pin4j工具类将pinyin和py两个查询字段用append方法拼接封装SolrQuery；进行上述特殊判断处理后，将关键词进行分词（比如，IK分词器），拆词后作为请求参数封装SolrQuery；

步骤A2、将步骤A1处理后的关键词（keyword）、与分类（cagetory）、省份（province）、市（city）、价格（price）等请求参数一起封装SolrQuery；

步骤A3、创建SearchInfoInput实体类将步骤A2封装SolrQuery与系统索引分片（partition）一并作为系统的输入数据。

数据存储模块B，后台使用mysql数据库存储商品的基本信息。

数据缓存模块C，采用4个nginx来支持搜索平台服务器、接口专用服务器、价格同步缓存服务器、文件缓存服务器，后台mysql，备份服务器，并搭建了redis集群，缓存商品的价格，库存信息，如图3所示，整个缓存平台支持系统的负载均衡。

索引创建模块D，solrJ技术操纵CloudSolrClient来创建搜索底层索引。

搜索结果展示模块E创建搜索结果返回实体类SearchInfoResult，封装搜索结果返回参数商品基本信息（Product[]）、分类信息（Category）、分页信息（Page）、地址信息（Address）、返回标记（resultCode，如果返回标记为1则表示接口调用成功，否则则是错误编号）。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

所述领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述到的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性、机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，可以采用软件功能单元的形式实现。

需要说明的是，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random Access Memory，RAM）等。

以上对本发明所提供的基于多个数据源的废旧行业搜索系统以及其方法进行了详细介绍，本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多个数据源索引创建的方法，其特征在于，该方法包括：

A、将schema.xml 文件中的常规静态字段定义为多个数据源的模式；

B、初始化solr搜索索引库创建字段；

C、使用solrJ技术操纵CloudSolrClient的流程；

D、索引创建完毕。

2.根据权利要求1所述的基于多个数据源索引创建的方法，其特征在于，所述步骤A具体为：在索引数据初始化时，字符串（string）类型的定义s1、s2、s3、s4、s5等多个数据源，设计示例如下所示：

实现了不用重启solrCloud集群，来创建索引节点，进而为用户提供废旧行业搜索服务。

3.根据权利要求1所述的基于多个数据源索引创建的方法，其特征在于，所述的步骤B具体为：key为该条数据的唯一标识：用于商品编号、卖家编号、UUID使用；

s开头的为字符串类型：用于分词搜索匹配使用；

i开头的为整数：用于存储和检索整数类型值；

d开头的为双精度小数：用于存储和检索双精度小数类型值；

t开头的为日期：用于存储和检索日期类型的值；

l开头的为List<String>集合：用于存储和检索多值搜索。

4.根据权利要求1所述的基于多个数据源的索引创建的方法，其特征在于，索引库创建为了提高性能，特不设定自动匹配字段。

5.一种基于多个数据源的废旧行业搜索系统，其特征在于，所述的创建多个数据源的索引针对废旧行业所在的搜索系统而言。

6.根据权利要求5所述的基于多个数据源的废旧行业搜索系统，其特征在于，该系统包含以下几个部分：

数据预处理模块A、数据存储模块B、数据缓存模块C、索引创建模块D、搜索结果展示模块E。

7.根据权利要求5所述的基于多个数据源的废旧行业搜索系统，其特征在于，所述数据预处理模块A，将搜索数据初始化，对搜索请求参数进行预处理包括以下步骤：

A1、对关键词（keyword）进行预处理：如果用户关键词为空直接返回，不循环便利；如果全为特殊字符，返回报错信息（搜索关键词全为特殊字符）；如果输入关键词含有特殊字符或者空格，将关键词中的非法字符过滤掉；如果全为数字，将通过append方法拼接封装SolrQuery；如果全为字母，采用pin4j工具类将pinyin和py两个查询字段用append方法拼接封装SolrQuery；进行上述特殊判断处理后，将关键词采用分词器进行拆词，拆词后作为请求参数封装SolrQuery；

A2、将步骤A1处理后的关键词（keyword）、与分类（cagetory）、省份（province）、市（city）、价格（price）等请求参数一起封装SolrQuery；

A3、将创建SearchInfoInput实体类将步骤A2封装的SolrQuery与系统索引分片（partition）一并作为系统的输入数据。

8.根据权利要求5所述的基于多个数据源的废旧行业搜索系统，其特征在于，所述数据缓存模块C，用4个nginx来支持搜索平台服务器、接口专用服务器、价格同步缓存服务器、文件缓存服务器，后台mysql，备份服务器，并搭建了redis集群，缓存商品的价格，库存信息，整个缓存平台支持系统的负载均衡。

9.根据权利要求5所述的基于多个数据源的废旧行业搜索系统，其特征在于，所述索引创建模块D，具体为：使用solrJ技术操纵CloudSolrClient来创建搜索底层索引。

10.根据权利要求5所述的基于多个数据源的废旧行业搜索系统，所述搜索结果展示模块E，系统返回的搜索结果包括商品基本信息（Product[]）、分类信息（Category）、分页信息（Page）、地址信息（Address）、返回标记（resultCode，如果返回标记为1则表示接口调用成功，否则则是错误编号）。