CN112765492B

CN112765492B - 一种检验检测机构排序方法

Info

Publication number: CN112765492B
Application number: CN202011629461.7A
Authority: CN
Inventors: 叶金飞; 罗鹏; 傅潇杭; 曹杭平; 王春聪; 赵怡萍; 潘晓晖; 王燕; 任程
Original assignee: Zhejiang Fangda Standard Information Co ltd
Current assignee: Zhejiang Standardization Research Institute Brics National Standardization Zhejiang Research Center And Zhejiang Article Coding Center
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2021-08-10
Anticipated expiration: 2040-12-31
Also published as: CN112765492A

Abstract

本发明公开了一种检验检测机构排序方法，该方法包括：数据采集：从原始数据库采集检验检测机构的项目数据，所述项目至少包括检验检测机构的识别信息、检验检测机构的检验检测证书、检验检测机构的检测对象类别及检验检测机构的检测能力项目；所述识别信息包含检验检测机构的行政区划和行政区划级别；所述检验检测机构的检测能力项目至少包含项目名称、项目类别、检测标准；采集用户输入的关键词，采用BM25算法，根据关键字段Ti与检验检测机构的各个项目数据的相似度Si加权计算相似度Similarity，并根据目标行政区划进行偏移优化，获得检验检测机构排序。本方法可以快速筛选出符合检测领域需求的检验检测机构。

Description

一种检验检测机构排序方法

技术领域

本发明设计一种快速检索排序方法，特别是一种检验检测机构排序方法。

背景技术

国内具有资质的检验检测机构达数万家，每家机构又各自拥有数千至数万条不同检测资质的对应检测能力项目，从中筛选出符合检测领域需求的检验检测机构难度极高，现有技术不足以支撑完成上述工作。

因此，需要一种检验检测机构排序方法。

发明内容

本发明提供了一种检验检测机构排序方法，

本发明采用如下技术方案:

一种检验检测机构排序方法，

1)数据采集：从原始数据库采集检验检测机构的项目数据，项目至少包括检验检测机构的识别信息、检验检测机构的检验检测证书、检验检测机构的检测对象类别及检验检测机构的检测能力项目；识别信息包含检验检测机构的行政区划和行政区划级别；检验检测机构的检测能力项目至少包含项目名称、项目类别、检测标准；

2)采集用户输入的关键词，将关键词分词后得到关键字段；

3)采用BM25算法，计算关键字段Ti与检验检测机构的各个项目数据的相似度；将针对各个项目数据的相似度进行加权求和后得到该关键字段和该检验检测机构的相似度得分Si；各个关键字段与检验检测机构的相似度得分Si进行加权求和后，得到筛选关键词与检验检测机构的相似度Similarity；

4)采集用户的目标行政区划，对检验检测机构的相似度进行优化；

优化的检验检测机构满足如下条件：(1)行政区划级别高于目标行政区划级别；(2)行政区划包含目标行政区划；

优化方法如下：

Similarity’＝((c1+1)+Similarity)/(c1+Similarity)

其中，常量c1为偏移值，Similarity’为偏移后的Similarity值；

检验检测机构的行政区划级别越高，偏移值越低，1≤C1≤5。

5)采用相似度倒排序列的方法将检验检测机构进行排序。

进一步地，目标行政区划为用户输入的行政区划，或为用户所在的行政区划，一般通过GPS定位等方法获得。

与现有技术相比，本发明检验检测机构排序方法和系统的有益效果在于：(1)本发明提供的一种检验检测机构排序方法，本发明能够实现机构的地理定位，有效解决了检验检测事项“谁能办，找谁办，怎么办”的问题，实现了智能检验检测机构快速检索。

附图说明

图1是本发明检验检测机构排序方法的系统架构示意图；

图2是本发明检验检测机构排序方法的索引示意图

具体实施方式

本申请涉及一种检验检测机构排序方法，下面结合附图详细说明具体实施步骤如下：

如图1所示，本实施例由10台服务器组成，其中1台Nginx服务器，两台API服务器，1台业务数据库服务器，1台Redis服务器，3台分布式索引服务器，1台归档数据库服务器，1台原始数据库服务器。

其中，Nginx服务器负责实现反向代理及负载均衡，API服务器负责具体的业务接口实现，并和Redis服务器、分布式索引服务器、业务数据库服务进行交互，业务数据库服务器负责存放具体的业务数据，Redis服务器负责为业务数据库服务器实现缓存，分布式索引服务器负责存放基于归档数据库数据建立的ES索引，归档数据库服务器负责存放归档库数据及数据归档服务，数据归档服务即处理原始数据形成归档库数据后保存到归档库的服务，原始数据库服务器则负责存放原始数据和原始数据获取服务。原始数据获取服务即从云端(各官方数据源)获取原始数据保存到原始数据库的服务程序。

本实施例中将原始库、归档库、业务库、索引、数据库缓存分别存放，从物理上隔绝了不同业务之间的资源竞争，并通过负载均衡大幅提高了并发处理能力和系统的稳定性。

本实施例的排序方法如下：

1)数据采集：从原始数据库采集检验检测机构的项目数据，项目至少包括检验检测机构的识别信息(检验检测机构名称、社会统一信用代码、行政区划、行政区划级别)、检验检测机构的检验检测证书(CMA证书等)、检验检测机构的检测对象类别及检验检测机构的检测能力项目；检验检测机构的检测能力项目至少包含项目名称、项目类别、检测标准；

2)采集用户输入的关键词，将关键词分词后得到关键字段；本实施例中，采用现有的IK分词器进行分词。

Similarity＝∑w*Si

其中，w为各个关键字段与检验检测机构的加权值，w值可以采用均权设定，也可以根据具体业务、需求和程序员的经验进行设定。

在本实施例中，具体设定方法如下：

判断用户输入的关键词是否属于自定义分类的范畴，判断方法如下：

3.0.1.将归档库中的自定义分类及其包含的附属字段信息(分类名称、分类代码、分类特征词、分类关键词)存入Redis

3.0.2.判断用户输入的关键词是否包含在自定义分类的分类名称、分类特征词、分类关键词中，若包含，则直接以命中分类名称、分类特征词对应的分类名称记为keyword1(n)，命中分类关键词对应的分类名称记为keyword2(n)，其参数后面的下标n意为同一关键词可能名字多个不同的自定义分类，需要分别计算后求和(例如：关键词“手机”既有可能命中类别“通信设备”，也有可能命中类别“电子电器”)，通过较短路由快速计算文档得分，计算过程遵循如下公式：

Similarity＝Si(原始类别,keyword)+∑(0.7*∑dFreq(自定义类别,keyword1(n))+0.3*∑dFreq(自定义类别,keyword2(n)))

Si(原始类别,keyword)为keyword对目标描述字段【原始类别】的相似度，而dFreq为目标机构文档的子文档(检测项目)中，自定义类别字段包含keyword1的检测项总数，事实上在此公式中，若自定义类别被直接命中，基本在权重上以处于绝对地位，主要影响最终评分的因素是该机构被命中的检测项的总数。

若用户输入的关键词不包含在自定义分类的分类名称、分类特征词、分类关键词中，则直接跳转到3.1进行下一轮计算。

若在具体接口业务中直接指定用户输入的参数类型是类别，则直接以下列公式计算

Similarity＝∑dFreq(自定义类别,keyword)

直接以当前步骤得到的Similarity进行倒序排列，给出快速查询排序结果，无须进行后续计算。

否则以3.0.2步骤得出的Similarity进行3.0加权后，直接跳转到3.3步骤，作为3.3步骤的参数进行计算。

例如，用户在浙江省政府附近定位输入关键词“饮料”,如果指定该关键词类型为分类名

则此时索引路由为：饮料->包含“饮料”的子文档(检测项目)—>包含“饮料”的文档(检测机构)

其最终查询结果可能为：

1.中国农业科学院茶叶研究所(地址最近，该机构拥有大量茶饮料、植物饮料，果蔬饮料相关检测项目)

2.杭州市食品药品检验研究院(地址稍远位于石桥路，含有大量饮料相关检测项目，符合饮料的项目比1更多，但经过地理位置正向偏移之后，中国农业科学院茶叶研究所排行更靠前)

3.浙江锐德安正检测认证技术有限公司(同样位于西湖区拥有大量茶饮料、乳饮料相关检测项目，匹配度尚可)

4.杭州市余杭区食品药品监测中心(位于余杭区，拥有大量饮料、、碳酸饮料、冷冻饮料相关检测项目，但距离较远)

5.淳安县食品药品检验检测中心(位于淳安县的区拥有大量茶饮料、豆乳和豆乳饮料、碳酸饮料相关测项目，但距离很远)

又如：用户输入关键词“农夫山泉”，且未指定该关键词类型为分类名，从缓存中快速得出由关键词命中的关键词“包装饮用水”为keyword2(1)，以及“水质检验”为keyword2(2),此时通过计算得到Similarity＝Si(原始类别,农夫山泉)+(0.3*(dFreq(自定义类别,包装饮用水)+dFreq(自定义类别,水质检验))，再将次数得到的Similarity进行3.0系数加权后转入3.3步骤继续计算。

其最终查询结果大多为包含“包装饮用水”、“水质检验”相关检测项目的机构，并根据地理位置远近和检测项目的多少进行排序，此处不再对结果进行举例。

3.1判断用户输入的关键词(记为keyword)是否是类标准号(符合标准号的格式，但还不能确定)，判断方法如下：

3.1.1.国际及国外标准号形式各异，但基本结构为【标准代号+专业类号+顺序号+年代号】从该结构触发订立判断规则

3.1.2.维护标准代号字典，为至少包含"CECS","JTG","JIS L","JIS B","DB","GBZ","JGJ","YD","ISO","JTG F80","Q/","CJJ","JTS","BJS","GB","FZ","HG","WS","JC","JB","JT","JG","SJ","TB","DZ","SL","DL","SY","HJ","GA","B","YY"等等常见国内外标准代号的字符串集合。

3.1.3.去除keyword首尾空格后，通过正则表达式判断用户输入的关键词是否由空格、数字、大小写英文字母、符号/-.组成

3.1.4.将字符串转大写(记为keyword1)后判断字符串起始部分是否包含在可维护的“标准代号字典”当中，如果匹配成功，则将匹配上的部分作为标准代号匹配值，如果匹配失败，直接跳到步骤3.1.9

3.1.5.如果匹配上了DB，则进一步判断起始字符串是否符合正则表达式DB\d{2}.*来判断关键词是否符合地方标准格式,如果匹配成功，则将DB\d{2}作为标准代号匹配值

3.1.6.如果匹配上了Q/，则不进行任何后续补全操作(不执行3.1.7、3.1.8)

3.1.7.在3.1.4-3.1.5步骤中的标准代号匹配值后面插入字符串“/T”，作为推荐性标准代号(记为keyword2)另一份插入“/Z”，作为技术指导文件标准代号(记为keyword3)，并分别将【原标准代号匹配值/T】或【原标准代号匹配值/Z】作为keyword2和keyword3的标准代号匹配值。

3.1.8.判断3.1.4、3.1.7、3.1.8步骤中分别记下的keyword1、keyword2、keyword3的标准代号匹配值的后一个字符是否数字，如果是数字则将在“标准代号匹配值”后面的位置插入一个空格来进一步补全标准号格式，并将keyword1补全后的字符串记为keyword4，而keyword2和keyword3则替换原有值，作为候补查询条件以增加用户输入的容错性

3.1.9.对keyword、keword1、keyword2、keyword3、keyword4分别计算其相似度,并按照下列公式加权求和，计算目标文档得分(若步骤3.1.4匹配失败，则除了keyword之外的相似度均为0)：

Similarity＝Si(keyword)+0.2*Si(keyword1)

+0.2*Si(keyword3)+0.1*Si(keyword4)

在此处Si＝0.9*Si(标准号,keyword)+0.1*Si(标准名称,keyword)

其他(keyword1、keyword2、keyword3、keyword4)以此类推，分别代表keyword对目标描述字段【标准号】和目标描述字段【标准名称】的相似度，其权重分别为0.9和0.1.

3.1.10.若步骤3.1.4判断成功，则按步骤3.1.9得出的Similarity进行2.0系数加权，否则将步骤3.1.9中得出的Similarity进行0.1系数加权，然后跳转到3.3默认权重分配规则阶段进行加权求和。

例如：用户输入“gb32610”时，会分别以“GB32610”作为keyword1,“GB/T32610”作为keyword2，“GB/Z 32610”作为keyword3，“GB 32610”作为keyword4，最终成功匹配到正确的标准号“GB/T 32610”，并通过公式计算得分后进行3.0系数加权，作为最终得分中比重最大的一部分。keyword2和keyword3的补全是否开放取决于具体业务，不限于本实施例中的选择。

其最终查询结果大多为包含正确标准号“GB/T 32610”的机构，并根据地理位置远近和检测项目的多少进行排序，此处不再对结果进行举例。

3.2.其次判断用户输入的关键词(记为keyword)是否是机构名称/地址(如果通过了3.1.3的判断步骤，则直接跳过该步骤前往3.3进行最后计算)，判断方向如下：

3.2.1.构建三级行政区划地区数据字典，包含国内省级、市级、区县级行政区划名称，存入内存中。

3.2.2.判断用户输入的关键词前两位是否存在于步骤1所建立数据字典中，若不存在，则直接跳转到3.3默认权重分配规则阶段，若存在则进行下一步计算

3.2.3判断用户输入的关键词和步骤1所建立的数据字典中的完整地区名是否一致，如一致则进行下一步计算，如不一致，则对用户输入的关键词进行补全，并记为keyword1(例如：用户输入“浙江方圆”其中浙江存在于地区数据字典中，完整的地区名是“浙江省”，则将用户输入的关键词补全为“浙江省方圆”，以此类推)

3.2.4.对keyword、keword1分别计算其相似度,并按照下列公式加权求和，计算目标文档得分(若3.2.3步骤无需对keyword进行补正，则keyword1的相似度为0)：

Similarity＝Si(keyword)+0.5*Si(keyword1)

在此处Si＝＝0.7*Si(机构名称,keyword)+0.3*Si(机构地址,keyword)

其他(keyword1)以此类推，分别代表keyword对目标描述字段【机构名称】和目标描述字段【机构地址】的相似度，其权重分别为0.7和0.3

3.2.5.如3.2.2步骤判断失败，则加权系数为0，否则将步骤3.2.3中得出的Similarity进行3.0系数加权，跳转到3.3默认权重分配规则阶段进行加权求和。

3.3.最后使用默认权重分配规则：

若判断进行到该步骤，则说明已经过本实施例所有特殊语义处理阶段，并得到了每个阶段的加权相似度，本实施例仅为其中一种示例，实际操作可以根据业务环境增加其他更多类型的语义判断。

按下列公式计算最终得分

Similarity＝Si(keyword)+W(自定义类别)*Similarity(自定义类别)+W(标准号)*Similarity(标准号)+W(机构名称/地址)*Similarity(机构名称/地址)……

在此处Si＝1*Si(机构名称,keyword)+0.415*Si(项目名称,keyword)+0.277*Si(标准名称,keyword)+0.139*Si(标准号,keyword)+0.069*Si(原始类别,keyword)+0.097*Si(自定义类别,keyword)+0.001*Si(自定义关键词,keyword)

不同的Si方法代表用户输入的关键词keyword和不同的目标描述字段的相似度。

Similarity(标准号)及其系数来自3.1.10，对其进行加权的原因是该部分字符串通过了正则表达式的标准号元字符串组成判断，Similarity(机构名称/地址)及其系数来自3.2.5步骤。

目标行政区划为用户输入的行政区划，或为用户所在的行政区划，一般通过GPS定位等方法获得。

优化方法如下：

Similarity’＝((c1+1)+Similarity)/(c1+Similarity)

其中，常量c1为偏移值，Similarity’为偏移后的Similarity值；

检验检测机构的行政区划级别越高，偏移值越低，1.0≤C1≤5.0。

本实施例中，仅仅涉及浙江省的检测机构筛选，最高级为省级。若用户的目标行政区划为区县级(江干区)，则对目标地区所属市级机构(杭州市)和省级机构(浙江省)的相似值进行正向偏移,市级机构的偏移值c1取5.0；省级机构偏移值c1取1.0；

若目标行政区划为市级(绍兴市)，则仅仅对目标地区所属省级机构(浙江省)相似值进行正向偏移,常量c1取1.0。

不满足条件的检测机构进行优化。

5)采用相似度倒排序列的方法将检验检测机构进行排序，从而按照用户需求的符合程度，输出检测检验机构的排序。

Claims

1.一种检验检测机构排序方法，其特征在于，

1）数据采集：从原始数据库采集检验检测机构的项目数据，所述项目至少包括检验检测机构的识别信息、检验检测机构的检验检测证书、检验检测机构的检测对象类别及检验检测机构的检测能力项目；所述识别信息包含检验检测机构的行政区划和行政区划级别；所述检验检测机构的检测能力项目至少包含项目名称、项目类别、检测标准；

2）采集用户输入的关键词，将关键词分词后得到关键字段；

3）采用BM25算法，计算所述关键字段Ti与检验检测机构的各个项目数据的相似度；将针对各个项目数据的相似度进行加权求和后得到该关键字段和该检验检测机构的相似度得分Si；各个关键字段与检验检测机构的相似度得分Si进行加权求和后，得到筛选关键词与检验检测机构的相似度Similarity；

4）采集用户的目标行政区划，对检验检测机构的相似度进行优化；

优化的检验检测机构满足如下条件：（1）行政区划级别高于目标行政区划级别；（2）行政区划包含所述目标行政区划；

所述优化方法如下：

Similarity’=((c1+1)+Similarity)/(c1+Similarity)

其中，常量c1为偏移值，Similarity’为偏移后的Similarity值；

检验检测机构的行政区划级别越高，偏移值越低，1≤c1≤5；

5）采用相似度倒排序列的方法将检验检测机构进行排序。

2.根据权利要求1所述的方法，其特征在于，所述目标行政区划为用户输入的行政区划，或为用户所在的行政区划，通过GPS定位方法获得。