CN112100213A

CN112100213A - 船舶设备技术数据搜索排序方法

Info

Publication number: CN112100213A
Application number: CN202010928714.4A
Authority: CN
Inventors: 丰少伟; 曾斌; 张晶; 刘方; 吴文全
Original assignee: Naval University of Engineering PLA
Current assignee: Naval University of Engineering PLA
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2020-12-18
Anticipated expiration: 2040-09-07
Also published as: CN112100213B

Abstract

本发明公开了一种船舶设备技术数据搜索排序方法，是一种利用上下文的静态相关度、时间相关度和动态相关度的排序方法，所需计算量小而且扩展性强，适合船舶设备技术数据的查询结果优先级排序。

Description

船舶设备技术数据搜索排序方法

技术领域

本发明属于船舶技术保障领域，具体是指一种船舶设备技术数据搜索排序方法。

背景技术

船舶设备种类繁多，结构复杂，包含了电子、电气以及机械等多种专业系统，导致用于维修保障的资料数量相应也非常巨大，而且不同系统有其特有的工作状况与故障模式，其监测数据随着每次航行与维修也日益增加。因此于技术保障人员而言，当前面临的一个关键问题是如何从海量存储的各类技术资料与数据中快速找出对自己本次任务有价值的内容。

为了解决这一问题，传统方法主要设计优化的船舶各类资料的数据结构与组织方式，这种方法尽管能够提高知识的交互性和再利用率，但还是需要用户提供精确的检索条件，商业领域中谷歌以及百度等搜索引擎，提出了自己的搜索排序算法，可以根据用户给出的检索条件，匹配出对应的搜索结果，并按一定规则排序，方便用户查找。但这些算法的理论模型过于复杂，难以用于船舶信息管理系统中。另外这些算法需要从文档中识别检索信息，但是维修保障的技术资料数量庞大而且不断增加，而且其中包含大量的监测数据，这都需要消耗计算能力，为此提出一种简单高效的基于上下文的搜索排序方法。

发明内容

本发明的目的是为了克服已有技术的缺陷，为了从海量存储的船舶技术资料与数据中快速找出有价值的内容，提出一种船舶设备技术数据搜索排序方法。

随着设备保障的生命周期(生命周期包括研制、生产、验收、使用、维护、维修、退役等多个过程)的开展，会生成一系列技术文档，每一个文档都有1到多个属性(文档类型或文档所述设备专业等)表示，例如，文档类型可以为设备监测数据、故障诊断报告，维修方案，日常维护报告，备件更新说明，故障上报报表等。文档所述设备专业可以包括机械、电子、电器、管理等。每个文档包括更小的逻辑单元，即数据集。数据集除了继承所属文档的特性外，也具有自己特有的属性，例如对于主机设备，指示功、爆发压力、压缩压力以及膨胀压力等测量数据项，可以归入热工参数数据集；噪声声压、声强以及频率的类型为“风险因子”或“额外测试”，它们的测量数据可归于特殊数据集。由于单个数据项也可在逻辑组织上看作一个数据集，所以搜索粒度定为文档或数据集。

进一步描述上下文的定义。上下文可以根据以下三个规则定义，(1)所属生命周期，(2)所属专业，(3)所属保障类型。文档或数据集的上下文类型可以由以上三个规则组合定义。

关于生成文档时上下文类型的设置，每一个文档或数据集的上下文类型，可以由生成该数据的专家手工设置，也可以由船舶保障信息系统根据当时状况自动生成。

关于访问文档时上下文的选择，可由专家手工选择，也可由系统参考当时使用环境自动选择，这些环境因素包括专家所属专业、访问数据库的时机、所属专家组类型，调度类型等。例如船舶发生故障，由远程支援中心调度参与故障诊断的专家，他访问数据库时所属上下文可以为临抢修类型。

数据集与上下文的相关性通过相关度表示，根据作用方式不同，相关度分为三种类型：(1)静态相关度，(2)时间相关度，(3)动态相关度。

步骤一：静态相关度的计算。静态相关度指定上下文与数据集的属性关联，可由专家设置。例如排气管温度数据，对于主机进排气系统的故障诊断很重要，但与润滑系统关系不大。静态相关度又细分为一个上下文类型相关度R_C∈(0,1)和一个设备类型相关度R_E∈(0,1)。

步骤二：时间相关度的计算。时间相关度由数据以及所属文档的创建时间决定，从逻辑上而言，新创建的文档或数据重要性越高，但是对于不同的文档，其时间影响性不同，某些分析报告的有效期是几个月，而有些可能长达数年，为此建立了时间阈值来修改文档的时间相关度，如果文档时间小于该阈值，时间相关度取较高值(大于0.7)，如果大于该阈值，则时间相关度降低，取较低数值。设D为某份文档或数据集，T为该文档的创建时间，创建时间以月为单位，文档D的时间相关度的计算公式如下：

其中H为时间阈值，它反映了时间的影响强度。

步骤三：动态相关度的设置。在大多数情况下，专家可能没有给文档指定静态相关度，所以需要建立能够自适应的动态相关度，现有数据库管理系统(oracle，sql)都具有日志功能，在日志库中记录数据库的访问信息，包括被访问的数据、修改的数据、访问数据的用户、访问时间等。基于日志库中记录的数据访问次数，利用改进的向量空间模型，定义tf_ij表示上下文C中的数据集i的访问次数，则有：

其中tf_C表示上下文C的所有访问次数。因为越近访问的数据集意味着影响程度(重要性)越高，所以建立了权重函数来表示时间对相关度的影响，权重函数的定义如下：

其中T_r为参考日期，T_i为数据集i的访问日期。该公式表示，越近发生的访问权重越大，随着时间流逝，数据集的影响越来越小，系统可以利用该定义自动调节将来访问模式的影响因素。由于权重是一个以时间为自变量的递增函数，当数据存储日期较长时，可能会得到一个极大值而影响计算精度，为此需要定义一个定时函数，该函数每隔一年调用一次，主要功能是把T_r增加一年，再重新计算一次权重，从而降低存储的权重值的粒度。具体步骤可见具体实施部分。

在访问次数和权重函数的基础上，设D为某文档或数据集，C为上下文，动态相关度的计算公式如下：

该方法的思想是认为相对整个上下文的访问次数，某个数据集的相对访问次数越高，则相关度越高，另外只有一个时间段内重复的访问，才能显著提高动态相关度。

步骤四：整体相关度的计算。以上三个相关度，都只反映了数据集的一个侧面，整体相关度把它们集成为一个值，同样设C为上下文，D为文档或文档中数据集，整体相关度R_G计算公式如下：

式中R_C(D)为专家指定的数据集D对于上下文C的相关度，R_E(D)为专家指定的数据集D对于某型设备E的相关度，R_D(D)为系统根据数据集D的访问情况设置的自适应动态相关度，R_T(D)为考虑数据集D的创建时间而设立的相关度。为了提高计算速度，在实施时，

可以用取最大值计算，

用取最小值计算。

本发明的优点及有益效果如下：

本发明提出一种利用上下文的静态相关度、时间相关度和动态相关度的排序方法，所需计算量小而且扩展性强，适合船舶设备技术数据的查询结果优先级排序。

附图说明

图1为本发明船舶技术文档的逻辑结构图；

图2为本发明搜索排序软件结构图；

图3为本发明搜索排序流程图；

图4为本发明相关度修改流程图。

具体实施方式

维修保障记录的逻辑组织结构如图1所示，该方法可以在web应用服务器端增加一个数据访问模块来实现，实施方案如图2所示。

访问数据库流程如图3所示。第1步：专家登录船舶保障支援中心；第2步：利用支援中心的调度信息和专家专业等信息，系统识别出这次访问的上下文；第3步：专家在系统中搜索这次任务有关的船舶和设备；第4步：利用搜索排序方法实现的数据访问模块进入支援中心数据库，查询数据集的静态和动态相关度，返回结果按公式(5)结合时间相关度排序数据；第5步：系统选择优先级最高的数据集返回。

进一步描述数据相关度的修改流程，每一次访问数据时，相关度都会相应的变化，整个过程无需人工参与，只有小部分记录会修改，因此开销也较少。具体流程如图4所示。第1步：当专家登录船舶保障数据库系统时，数据访问模块识别上下文，可由专家手工选择，也可由系统参考当时使用环境自动选择，这些环境因素包括专家所属专业、访问数据库的时机、所属专家组类型，调度类型等；第2步；专家选择查询某设备的数据集，输入检索词；第3步：数据访问模块获取专家所需数据并返回，同时数据库管理系统在日志库中记录本次访问内容，数据访问模块修改“访问频率表”，这里需要修改的记录仅有两条，某特定上下文C中数据集D的访问次数，tf_DC和上下文C的所有访问次数tf_C。

每次访问系统时，数据访问模块可以作为存储过程由数据库自动执行，完成对动态相关度的修改，这样下次访问上下文时，可按最近修改信息来计算属于该上下文的数据及相关度。

数据访问模块所需数据可都存储于“访问频率表”中，该表可于维修记录一同保存到数据库中，其字段属性包括：(1)DC：为数据集的内部编码；(2)ContestID：上下文标志符；(3)Weight：数据集D的访问权重；(4)RC：属于某上下文的数据集的静态相关度。主键为(DC，contest ID),如果DC为-1，表示可以为任意数据集，它用于存储某特定上下文中所有数据集的权重之和，记为tf_C，“访问频率表”中记录的总数为|Contests|×(|DC|+1)。为了提高查询效率，可以基于上下文标识符(ContestID)建立表簇结构。

下述案例进一步描述对相关数据集的查询过程，如果已知上下文C，需要查询与C最相关的数据集访问频率，其SQL查询语句如下：

Select DC,Weight from FreqTable where ContextID＝C order by WeightDESC HAVING ROWNUM＝6

通过执行以上sql语句，可以简单快速的获取相关度最高的5个数据集，其中第1行为上下文C的整体访问权重tf_C。

如果已知上下文和某型设备，需要查询与之最相关的数据集。为了提高R_G的计算效率，可以在数据库内采用PL/SQL(存储过程)语言实现公式(5)整体相关度的计算。这样只需要对“访问频率表”(FreqTable)和数据库中相关船舶设备的技术档案(SERTable)执行一次连接查询，就可以得到相关的数据集。设CRG为PL/SQL实现的整体相关度计算函数，Eid为需查询的某型设备的标识符，C为该设备所属上下文，RC为上下文相关静态相关度，RE为设备相关静态相关度，TFC为上下文的访问频率，这样获取整体相关度的SQL语句如下：

Select*,CRG(FreqTable.RC,FreqTable.RE,FreqTable.Weight,TFC,SERTable.Date)as Relevance

From FreqTble,SERTable where SERTable.EID＝Eid and FreqTable.ContxtID＝C and

SERTable.DC＝FreqTable.DC order by Relevance DESC HAVING ROWNUM<＝5

只用先执行一条查询语句，得到tf_C，再执行以上语句，就得到相关度最高的5个数据集，而且所有计算都在数据库系统里面以存储过程的形式执行，计算开销小。

进一步描述对“访问频率表”的修改。以下两种情况需要修改“访问频率表”，(1)当访问了数据集时；(2)每年一次对参考时间修改时。第2种情况下需要修改“访问频率表”中所有记录。

第1种情况下的SQL语句如下：

UPDATE FreqTable SETWeight＝Weight+Wht(A)where DC in(id,-1)ANDContextID＝C

其中id为数据集的内部代码，C为上下文，Whg(A)为这次新访问的权重。

第2中情况下的SQL语句如下：

UPDATE FreqTable SET Weight＝Weight/2

这条语句尽管需要修改整个访问频率表，但因为只需要每年执行一次，开销也不大。