CN112100213A - 船舶设备技术数据搜索排序方法 - Google Patents

船舶设备技术数据搜索排序方法 Download PDF

Info

Publication number
CN112100213A
CN112100213A CN202010928714.4A CN202010928714A CN112100213A CN 112100213 A CN112100213 A CN 112100213A CN 202010928714 A CN202010928714 A CN 202010928714A CN 112100213 A CN112100213 A CN 112100213A
Authority
CN
China
Prior art keywords
relevance
data
context
time
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010928714.4A
Other languages
English (en)
Other versions
CN112100213B (zh
Inventor
丰少伟
曾斌
张晶
刘方
吴文全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Naval University of Engineering PLA
Original Assignee
Naval University of Engineering PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Naval University of Engineering PLA filed Critical Naval University of Engineering PLA
Priority to CN202010928714.4A priority Critical patent/CN112100213B/zh
Publication of CN112100213A publication Critical patent/CN112100213A/zh
Application granted granted Critical
Publication of CN112100213B publication Critical patent/CN112100213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results

Abstract

本发明公开了一种船舶设备技术数据搜索排序方法,是一种利用上下文的静态相关度、时间相关度和动态相关度的排序方法,所需计算量小而且扩展性强,适合船舶设备技术数据的查询结果优先级排序。

Description

船舶设备技术数据搜索排序方法
技术领域
本发明属于船舶技术保障领域,具体是指一种船舶设备技术数据搜索排序方法。
背景技术
船舶设备种类繁多,结构复杂,包含了电子、电气以及机械等多种专业系统,导致用于维修保障的资料数量相应也非常巨大,而且不同系统有其特有的工作状况与故障模式,其监测数据随着每次航行与维修也日益增加。因此于技术保障人员而言,当前面临的一个关键问题是如何从海量存储的各类技术资料与数据中快速找出对自己本次任务有价值的内容。
为了解决这一问题,传统方法主要设计优化的船舶各类资料的数据结构与组织方式,这种方法尽管能够提高知识的交互性和再利用率,但还是需要用户提供精确的检索条件,商业领域中谷歌以及百度等搜索引擎,提出了自己的搜索排序算法,可以根据用户给出的检索条件,匹配出对应的搜索结果,并按一定规则排序,方便用户查找。但这些算法的理论模型过于复杂,难以用于船舶信息管理系统中。另外这些算法需要从文档中识别检索信息,但是维修保障的技术资料数量庞大而且不断增加,而且其中包含大量的监测数据,这都需要消耗计算能力,为此提出一种简单高效的基于上下文的搜索排序方法。
发明内容
本发明的目的是为了克服已有技术的缺陷,为了从海量存储的船舶技术资料与数据中快速找出有价值的内容,提出一种船舶设备技术数据搜索排序方法。
随着设备保障的生命周期(生命周期包括研制、生产、验收、使用、维护、维修、退役等多个过程)的开展,会生成一系列技术文档,每一个文档都有1到多个属性(文档类型或文档所述设备专业等)表示,例如,文档类型可以为设备监测数据、故障诊断报告,维修方案,日常维护报告,备件更新说明,故障上报报表等。文档所述设备专业可以包括机械、电子、电器、管理等。每个文档包括更小的逻辑单元,即数据集。数据集除了继承所属文档的特性外,也具有自己特有的属性,例如对于主机设备,指示功、爆发压力、压缩压力以及膨胀压力等测量数据项,可以归入热工参数数据集;噪声声压、声强以及频率的类型为“风险因子”或“额外测试”,它们的测量数据可归于特殊数据集。由于单个数据项也可在逻辑组织上看作一个数据集,所以搜索粒度定为文档或数据集。
进一步描述上下文的定义。上下文可以根据以下三个规则定义,(1)所属生命周期,(2)所属专业,(3)所属保障类型。文档或数据集的上下文类型可以由以上三个规则组合定义。
关于生成文档时上下文类型的设置,每一个文档或数据集的上下文类型,可以由生成该数据的专家手工设置,也可以由船舶保障信息系统根据当时状况自动生成。
关于访问文档时上下文的选择,可由专家手工选择,也可由系统参考当时使用环境自动选择,这些环境因素包括专家所属专业、访问数据库的时机、所属专家组类型,调度类型等。例如船舶发生故障,由远程支援中心调度参与故障诊断的专家,他访问数据库时所属上下文可以为临抢修类型。
数据集与上下文的相关性通过相关度表示,根据作用方式不同,相关度分为三种类型:(1)静态相关度,(2)时间相关度,(3)动态相关度。
步骤一:静态相关度的计算。静态相关度指定上下文与数据集的属性关联,可由专家设置。例如排气管温度数据,对于主机进排气系统的故障诊断很重要,但与润滑系统关系不大。静态相关度又细分为一个上下文类型相关度RC∈(0,1)和一个设备类型相关度RE∈(0,1)。
步骤二:时间相关度的计算。时间相关度由数据以及所属文档的创建时间决定,从逻辑上而言,新创建的文档或数据重要性越高,但是对于不同的文档,其时间影响性不同,某些分析报告的有效期是几个月,而有些可能长达数年,为此建立了时间阈值来修改文档的时间相关度,如果文档时间小于该阈值,时间相关度取较高值(大于0.7),如果大于该阈值,则时间相关度降低,取较低数值。设D为某份文档或数据集,T为该文档的创建时间,创建时间以月为单位,文档D的时间相关度的计算公式如下:
Figure BDA0002669412210000021
其中H为时间阈值,它反映了时间的影响强度。
步骤三:动态相关度的设置。在大多数情况下,专家可能没有给文档指定静态相关度,所以需要建立能够自适应的动态相关度,现有数据库管理系统(oracle,sql)都具有日志功能,在日志库中记录数据库的访问信息,包括被访问的数据、修改的数据、访问数据的用户、访问时间等。基于日志库中记录的数据访问次数,利用改进的向量空间模型,定义tfij表示上下文C中的数据集i的访问次数,则有:
Figure BDA0002669412210000022
其中tfC表示上下文C的所有访问次数。因为越近访问的数据集意味着影响程度(重要性)越高,所以建立了权重函数来表示时间对相关度的影响,权重函数的定义如下:
Figure BDA0002669412210000023
其中Tr为参考日期,Ti为数据集i的访问日期。该公式表示,越近发生的访问权重越大,随着时间流逝,数据集的影响越来越小,系统可以利用该定义自动调节将来访问模式的影响因素。由于权重是一个以时间为自变量的递增函数,当数据存储日期较长时,可能会得到一个极大值而影响计算精度,为此需要定义一个定时函数,该函数每隔一年调用一次,主要功能是把Tr增加一年,再重新计算一次权重,从而降低存储的权重值的粒度。具体步骤可见具体实施部分。
在访问次数和权重函数的基础上,设D为某文档或数据集,C为上下文,动态相关度的计算公式如下:
Figure BDA0002669412210000031
该方法的思想是认为相对整个上下文的访问次数,某个数据集的相对访问次数越高,则相关度越高,另外只有一个时间段内重复的访问,才能显著提高动态相关度。
步骤四:整体相关度的计算。以上三个相关度,都只反映了数据集的一个侧面,整体相关度把它们集成为一个值,同样设C为上下文,D为文档或文档中数据集,整体相关度RG计算公式如下:
Figure BDA0002669412210000032
式中RC(D)为专家指定的数据集D对于上下文C的相关度,RE(D)为专家指定的数据集D对于某型设备E的相关度,RD(D)为系统根据数据集D的访问情况设置的自适应动态相关度,RT(D)为考虑数据集D的创建时间而设立的相关度。为了提高计算速度,在实施时,
Figure BDA0002669412210000034
可以用取最大值计算,
Figure BDA0002669412210000033
用取最小值计算。
本发明的优点及有益效果如下:
本发明提出一种利用上下文的静态相关度、时间相关度和动态相关度的排序方法,所需计算量小而且扩展性强,适合船舶设备技术数据的查询结果优先级排序。
附图说明
图1为本发明船舶技术文档的逻辑结构图;
图2为本发明搜索排序软件结构图;
图3为本发明搜索排序流程图;
图4为本发明相关度修改流程图。
具体实施方式
维修保障记录的逻辑组织结构如图1所示,该方法可以在web应用服务器端增加一个数据访问模块来实现,实施方案如图2所示。
访问数据库流程如图3所示。第1步:专家登录船舶保障支援中心;第2步:利用支援中心的调度信息和专家专业等信息,系统识别出这次访问的上下文;第3步:专家在系统中搜索这次任务有关的船舶和设备;第4步:利用搜索排序方法实现的数据访问模块进入支援中心数据库,查询数据集的静态和动态相关度,返回结果按公式(5)结合时间相关度排序数据;第5步:系统选择优先级最高的数据集返回。
进一步描述数据相关度的修改流程,每一次访问数据时,相关度都会相应的变化,整个过程无需人工参与,只有小部分记录会修改,因此开销也较少。具体流程如图4所示。第1步:当专家登录船舶保障数据库系统时,数据访问模块识别上下文,可由专家手工选择,也可由系统参考当时使用环境自动选择,这些环境因素包括专家所属专业、访问数据库的时机、所属专家组类型,调度类型等;第2步;专家选择查询某设备的数据集,输入检索词;第3步:数据访问模块获取专家所需数据并返回,同时数据库管理系统在日志库中记录本次访问内容,数据访问模块修改“访问频率表”,这里需要修改的记录仅有两条,某特定上下文C中数据集D的访问次数,tfDC和上下文C的所有访问次数tfC
每次访问系统时,数据访问模块可以作为存储过程由数据库自动执行,完成对动态相关度的修改,这样下次访问上下文时,可按最近修改信息来计算属于该上下文的数据及相关度。
数据访问模块所需数据可都存储于“访问频率表”中,该表可于维修记录一同保存到数据库中,其字段属性包括:(1)DC:为数据集的内部编码;(2)ContestID:上下文标志符;(3)Weight:数据集D的访问权重;(4)RC:属于某上下文的数据集的静态相关度。主键为(DC,contest ID),如果DC为-1,表示可以为任意数据集,它用于存储某特定上下文中所有数据集的权重之和,记为tfC,“访问频率表”中记录的总数为|Contests|×(|DC|+1)。为了提高查询效率,可以基于上下文标识符(ContestID)建立表簇结构。
Figure BDA0002669412210000041
Figure BDA0002669412210000051
下述案例进一步描述对相关数据集的查询过程,如果已知上下文C,需要查询与C最相关的数据集访问频率,其SQL查询语句如下:
Select DC,Weight from FreqTable where ContextID=C order by WeightDESC HAVING ROWNUM=6
通过执行以上sql语句,可以简单快速的获取相关度最高的5个数据集,其中第1行为上下文C的整体访问权重tfC
如果已知上下文和某型设备,需要查询与之最相关的数据集。为了提高RG的计算效率,可以在数据库内采用PL/SQL(存储过程)语言实现公式(5)整体相关度的计算。这样只需要对“访问频率表”(FreqTable)和数据库中相关船舶设备的技术档案(SERTable)执行一次连接查询,就可以得到相关的数据集。设CRG为PL/SQL实现的整体相关度计算函数,Eid为需查询的某型设备的标识符,C为该设备所属上下文,RC为上下文相关静态相关度,RE为设备相关静态相关度,TFC为上下文的访问频率,这样获取整体相关度的SQL语句如下:
Select*,CRG(FreqTable.RC,FreqTable.RE,FreqTable.Weight,TFC,SERTable.Date)as Relevance
From FreqTble,SERTable where SERTable.EID=Eid and FreqTable.ContxtID=C and
SERTable.DC=FreqTable.DC order by Relevance DESC HAVING ROWNUM<=5
只用先执行一条查询语句,得到tfC,再执行以上语句,就得到相关度最高的5个数据集,而且所有计算都在数据库系统里面以存储过程的形式执行,计算开销小。
进一步描述对“访问频率表”的修改。以下两种情况需要修改“访问频率表”,(1)当访问了数据集时;(2)每年一次对参考时间修改时。第2种情况下需要修改“访问频率表”中所有记录。
第1种情况下的SQL语句如下:
UPDATE FreqTable SETWeight=Weight+Wht(A)where DC in(id,-1)ANDContextID=C
其中id为数据集的内部代码,C为上下文,Whg(A)为这次新访问的权重。
第2中情况下的SQL语句如下:
UPDATE FreqTable SET Weight=Weight/2
这条语句尽管需要修改整个访问频率表,但因为只需要每年执行一次,开销也不大。

Claims (5)

1.一种船舶设备技术数据搜索排序方法,其特征在于:
包括如下步骤:
1)描述上下文的定义,文档或数据集的上下文类型由以下三个规则组合定义:
①所属生命周期;②所属专业;③所属保障类型;
上下文类型的设置,可由生成该数据的专家手工设置,也可由船舶保障信息系统根据当时状况自动生成;
上下文的选择,可由专家手工选择,也可由系统参考当时使用环境自动选择;所述环境因素包括专家所属专业、访问数据库的时机、所属专家组类型,调度类型;
2)数据集与上下文的相关性通过相关度表示,根据作用方式不同,相关度分为三种类型:
①静态相关度;②时间相关度;③动态相关度;具体步骤如下:
(1)静态相关度的计算:
静态相关度可由专家设置;静态相关度包括上下文类型相关度RC∈(0,1)和设备类型相关度RE∈(0,1);
(2)时间相关度的计算:
时间相关度由数据以及所属文档的创建时间决定,并建立时间阈值来修改文档的时间相关度;如果文档时间小于该阈值,时间相关度取较高值即大于0.7;如果大于该阈值,则时间相关度降低,取较低数值;
(3)动态相关度的设置:
建立能够自适应的动态相关度,在现有数据库管理系统的日志库中记录数据库的访问信息:包括被访问的数据、修改的数据、访问数据的用户和访问时间;
(4)整体相关度的计算:
整体相关度把以上三个相关度集成为一个值。
2.根据权利要求1所述的船舶设备技术数据搜索排序方法,其特征在于:所述时间相关度的计算中:设D为某份文档或数据集,T为该文档的创建时间,创建时间以月为单位,文档D的时间相关度的计算公式如下:
Figure FDA0002669412200000011
其中H为时间阈值,它反映了时间的影响强度。
3.根据权利要求1或2所述的船舶设备技术数据搜索排序方法,其特征在于:所述动态相关度的设置中:基于日志库中记录的数据访问次数,利用改进的向量空间模型,定义tfij表示上下文C中的数据集i的访问次数,则有:
Figure FDA0002669412200000021
其中tfC表示上下文C的所有访问次数;建立权重函数来表示时间对相关度的影响,权重函数的定义如下:
Figure FDA0002669412200000022
其中,Tr为参考日期,Ti为数据集i的访问日期;再定义定时函数,以降低存储的权重值的粒度;
在访问次数和权重函数的基础上,设D为某文档或数据集,C为上下文,动态相关度的计算公式如下:
Figure FDA0002669412200000023
4.根据权利要求1或2所述的船舶设备技术数据搜索排序方法,其特征在于:所述整体相关度的计算中:同样设C为上下文,D为文档或文档中数据集,整体相关度RG计算公式如下:
Figure FDA0002669412200000024
其中,RC(D)为专家指定的数据集D对于上下文C的相关度,RE(D)为专家指定的数据集D对于某型设备E的相关度,RD(D)为系统根据数据集D的访问情况设置的自适应动态相关度,RT(D)为考虑数据集D的创建时间而设立的相关度;在实施时,
Figure FDA0002669412200000025
可以取最大值计算,
Figure FDA0002669412200000026
可以取最小值计算,以提高计算速度。
5.根据权利要求3所述的船舶设备技术数据搜索排序方法,其特征在于:
所述整体相关度的计算中:同样设C为上下文,D为文档或文档中数据集,整体相关度RG计算公式如下:
Figure FDA0002669412200000027
其中,RC(D)为专家指定的数据集D对于上下文C的相关度,RE(D)为专家指定的数据集D对于某型设备E的相关度,RD(D)为系统根据数据集D的访问情况设置的自适应动态相关度,RT(D)为考虑数据集D的创建时间而设立的相关度;在实施时,
Figure FDA0002669412200000028
可以取最大值计算,
Figure FDA0002669412200000029
可以取最小值计算,以提高计算速度。
CN202010928714.4A 2020-09-07 2020-09-07 船舶设备技术数据搜索排序方法 Active CN112100213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010928714.4A CN112100213B (zh) 2020-09-07 2020-09-07 船舶设备技术数据搜索排序方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010928714.4A CN112100213B (zh) 2020-09-07 2020-09-07 船舶设备技术数据搜索排序方法

Publications (2)

Publication Number Publication Date
CN112100213A true CN112100213A (zh) 2020-12-18
CN112100213B CN112100213B (zh) 2022-10-21

Family

ID=73757601

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010928714.4A Active CN112100213B (zh) 2020-09-07 2020-09-07 船舶设备技术数据搜索排序方法

Country Status (1)

Country Link
CN (1) CN112100213B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113849703A (zh) * 2021-11-30 2021-12-28 亿海蓝(北京)数据技术股份公司 船舶信息查询方法及装置、可读存储介质
CN115630074A (zh) * 2022-12-22 2023-01-20 亿海蓝(北京)数据技术股份公司 数据索引的构建方法、装置、可读存储介质和助航设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137921A1 (en) * 2009-12-09 2011-06-09 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword
WO2013010557A1 (en) * 2011-07-19 2013-01-24 Miguel De Vega Rodrigo Method and system for data mining a document.
CN103838735A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种提高检索效率和质量的数据检索方法
CN105159932A (zh) * 2015-08-07 2015-12-16 南车青岛四方机车车辆股份有限公司 一种数据检索和排序系统和方法
CN107229738A (zh) * 2017-06-18 2017-10-03 杭州电子科技大学 一种基于文档评分模型和相关度的学术论文搜索排序方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110137921A1 (en) * 2009-12-09 2011-06-09 International Business Machines Corporation Method, computer system, and computer program for searching document data using search keyword
WO2013010557A1 (en) * 2011-07-19 2013-01-24 Miguel De Vega Rodrigo Method and system for data mining a document.
CN103838735A (zh) * 2012-11-21 2014-06-04 大连灵动科技发展有限公司 一种提高检索效率和质量的数据检索方法
CN105159932A (zh) * 2015-08-07 2015-12-16 南车青岛四方机车车辆股份有限公司 一种数据检索和排序系统和方法
CN107229738A (zh) * 2017-06-18 2017-10-03 杭州电子科技大学 一种基于文档评分模型和相关度的学术论文搜索排序方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113849703A (zh) * 2021-11-30 2021-12-28 亿海蓝(北京)数据技术股份公司 船舶信息查询方法及装置、可读存储介质
CN115630074A (zh) * 2022-12-22 2023-01-20 亿海蓝(北京)数据技术股份公司 数据索引的构建方法、装置、可读存储介质和助航设备
CN115630074B (zh) * 2022-12-22 2023-03-03 亿海蓝(北京)数据技术股份公司 数据索引的构建方法、装置、可读存储介质和助航设备

Also Published As

Publication number Publication date
CN112100213B (zh) 2022-10-21

Similar Documents

Publication Publication Date Title
US9858280B2 (en) System, apparatus, program and method for data aggregation
US8108399B2 (en) Filtering of multi attribute data via on-demand indexing
US8386463B2 (en) Method and apparatus for dynamically associating different query execution strategies with selective portions of a database table
US7730060B2 (en) Efficient evaluation of object finder queries
US7548903B2 (en) Method and apparatus for automatic recommendation and selection of clustering indexes
CN112100213B (zh) 船舶设备技术数据搜索排序方法
US20110314026A1 (en) System and Method for Retrieving Information Using a Query Based Index
CN103577416A (zh) 扩展查询方法及系统
CN113157943A (zh) 面向大规模金融知识图谱的分布式存储及可视化查询处理方法
CN106484815B (zh) 一种基于海量数据类sql检索场景的自动识别优化方法
CN113934713A (zh) 一种订单数据索引方法、系统、计算机设备以及存储介质
Golab et al. Exploring data using patterns: A survey and open problems
CN103995869A (zh) 一种基于Apriori算法的数据缓存方法
Patroumpas et al. Similarity search over enriched geospatial data
US20090049035A1 (en) System and method for indexing type-annotated web documents
Takeuchi et al. Spatio-temporal pseudo relevance feedback for large-scale and heterogeneous scientific repositories
CN116450768B (zh) 面向低代码开发平台的工业数据处理方法、装置及设备
US20230342405A1 (en) System, method, and computer program for monitoring and optimizing enterprise knowledge management platform using non-personally-identifiable information in logs
Schenk et al. Reasoning With Provenance, Trust and all that other Meta Knowlege in OWL.
US11762831B2 (en) Adaptive sparse indexing in cloud-based data warehouses
CN115357581B (zh) 一种海量bim数据的分布式存储方法
He et al. Enterprise human resources information mining based on improved Apriori algorithm
Chen et al. A novel user profile learning approach with fuzzy constraint for news retrieval
Song et al. The Data Integrity Error Repair Method for Filling Missing Values with External Data
Lee MDH*: Multidimensional histograms for Linked Data queries

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant