CN112100213A - 船舶设备技术数据搜索排序方法 - Google Patents
船舶设备技术数据搜索排序方法 Download PDFInfo
- Publication number
- CN112100213A CN112100213A CN202010928714.4A CN202010928714A CN112100213A CN 112100213 A CN112100213 A CN 112100213A CN 202010928714 A CN202010928714 A CN 202010928714A CN 112100213 A CN112100213 A CN 112100213A
- Authority
- CN
- China
- Prior art keywords
- relevance
- data
- context
- time
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
Abstract
本发明公开了一种船舶设备技术数据搜索排序方法,是一种利用上下文的静态相关度、时间相关度和动态相关度的排序方法,所需计算量小而且扩展性强,适合船舶设备技术数据的查询结果优先级排序。
Description
技术领域
本发明属于船舶技术保障领域,具体是指一种船舶设备技术数据搜索排序方法。
背景技术
船舶设备种类繁多,结构复杂,包含了电子、电气以及机械等多种专业系统,导致用于维修保障的资料数量相应也非常巨大,而且不同系统有其特有的工作状况与故障模式,其监测数据随着每次航行与维修也日益增加。因此于技术保障人员而言,当前面临的一个关键问题是如何从海量存储的各类技术资料与数据中快速找出对自己本次任务有价值的内容。
为了解决这一问题,传统方法主要设计优化的船舶各类资料的数据结构与组织方式,这种方法尽管能够提高知识的交互性和再利用率,但还是需要用户提供精确的检索条件,商业领域中谷歌以及百度等搜索引擎,提出了自己的搜索排序算法,可以根据用户给出的检索条件,匹配出对应的搜索结果,并按一定规则排序,方便用户查找。但这些算法的理论模型过于复杂,难以用于船舶信息管理系统中。另外这些算法需要从文档中识别检索信息,但是维修保障的技术资料数量庞大而且不断增加,而且其中包含大量的监测数据,这都需要消耗计算能力,为此提出一种简单高效的基于上下文的搜索排序方法。
发明内容
本发明的目的是为了克服已有技术的缺陷,为了从海量存储的船舶技术资料与数据中快速找出有价值的内容,提出一种船舶设备技术数据搜索排序方法。
随着设备保障的生命周期(生命周期包括研制、生产、验收、使用、维护、维修、退役等多个过程)的开展,会生成一系列技术文档,每一个文档都有1到多个属性(文档类型或文档所述设备专业等)表示,例如,文档类型可以为设备监测数据、故障诊断报告,维修方案,日常维护报告,备件更新说明,故障上报报表等。文档所述设备专业可以包括机械、电子、电器、管理等。每个文档包括更小的逻辑单元,即数据集。数据集除了继承所属文档的特性外,也具有自己特有的属性,例如对于主机设备,指示功、爆发压力、压缩压力以及膨胀压力等测量数据项,可以归入热工参数数据集;噪声声压、声强以及频率的类型为“风险因子”或“额外测试”,它们的测量数据可归于特殊数据集。由于单个数据项也可在逻辑组织上看作一个数据集,所以搜索粒度定为文档或数据集。
进一步描述上下文的定义。上下文可以根据以下三个规则定义,(1)所属生命周期,(2)所属专业,(3)所属保障类型。文档或数据集的上下文类型可以由以上三个规则组合定义。
关于生成文档时上下文类型的设置,每一个文档或数据集的上下文类型,可以由生成该数据的专家手工设置,也可以由船舶保障信息系统根据当时状况自动生成。
关于访问文档时上下文的选择,可由专家手工选择,也可由系统参考当时使用环境自动选择,这些环境因素包括专家所属专业、访问数据库的时机、所属专家组类型,调度类型等。例如船舶发生故障,由远程支援中心调度参与故障诊断的专家,他访问数据库时所属上下文可以为临抢修类型。
数据集与上下文的相关性通过相关度表示,根据作用方式不同,相关度分为三种类型:(1)静态相关度,(2)时间相关度,(3)动态相关度。
步骤一:静态相关度的计算。静态相关度指定上下文与数据集的属性关联,可由专家设置。例如排气管温度数据,对于主机进排气系统的故障诊断很重要,但与润滑系统关系不大。静态相关度又细分为一个上下文类型相关度RC∈(0,1)和一个设备类型相关度RE∈(0,1)。
步骤二:时间相关度的计算。时间相关度由数据以及所属文档的创建时间决定,从逻辑上而言,新创建的文档或数据重要性越高,但是对于不同的文档,其时间影响性不同,某些分析报告的有效期是几个月,而有些可能长达数年,为此建立了时间阈值来修改文档的时间相关度,如果文档时间小于该阈值,时间相关度取较高值(大于0.7),如果大于该阈值,则时间相关度降低,取较低数值。设D为某份文档或数据集,T为该文档的创建时间,创建时间以月为单位,文档D的时间相关度的计算公式如下:
其中H为时间阈值,它反映了时间的影响强度。
步骤三:动态相关度的设置。在大多数情况下,专家可能没有给文档指定静态相关度,所以需要建立能够自适应的动态相关度,现有数据库管理系统(oracle,sql)都具有日志功能,在日志库中记录数据库的访问信息,包括被访问的数据、修改的数据、访问数据的用户、访问时间等。基于日志库中记录的数据访问次数,利用改进的向量空间模型,定义tfij表示上下文C中的数据集i的访问次数,则有:
其中tfC表示上下文C的所有访问次数。因为越近访问的数据集意味着影响程度(重要性)越高,所以建立了权重函数来表示时间对相关度的影响,权重函数的定义如下:
其中Tr为参考日期,Ti为数据集i的访问日期。该公式表示,越近发生的访问权重越大,随着时间流逝,数据集的影响越来越小,系统可以利用该定义自动调节将来访问模式的影响因素。由于权重是一个以时间为自变量的递增函数,当数据存储日期较长时,可能会得到一个极大值而影响计算精度,为此需要定义一个定时函数,该函数每隔一年调用一次,主要功能是把Tr增加一年,再重新计算一次权重,从而降低存储的权重值的粒度。具体步骤可见具体实施部分。
在访问次数和权重函数的基础上,设D为某文档或数据集,C为上下文,动态相关度的计算公式如下:
该方法的思想是认为相对整个上下文的访问次数,某个数据集的相对访问次数越高,则相关度越高,另外只有一个时间段内重复的访问,才能显著提高动态相关度。
步骤四:整体相关度的计算。以上三个相关度,都只反映了数据集的一个侧面,整体相关度把它们集成为一个值,同样设C为上下文,D为文档或文档中数据集,整体相关度RG计算公式如下:
式中RC(D)为专家指定的数据集D对于上下文C的相关度,RE(D)为专家指定的数据集D对于某型设备E的相关度,RD(D)为系统根据数据集D的访问情况设置的自适应动态相关度,RT(D)为考虑数据集D的创建时间而设立的相关度。为了提高计算速度,在实施时,可以用取最大值计算,用取最小值计算。
本发明的优点及有益效果如下:
本发明提出一种利用上下文的静态相关度、时间相关度和动态相关度的排序方法,所需计算量小而且扩展性强,适合船舶设备技术数据的查询结果优先级排序。
附图说明
图1为本发明船舶技术文档的逻辑结构图;
图2为本发明搜索排序软件结构图;
图3为本发明搜索排序流程图;
图4为本发明相关度修改流程图。
具体实施方式
维修保障记录的逻辑组织结构如图1所示,该方法可以在web应用服务器端增加一个数据访问模块来实现,实施方案如图2所示。
访问数据库流程如图3所示。第1步:专家登录船舶保障支援中心;第2步:利用支援中心的调度信息和专家专业等信息,系统识别出这次访问的上下文;第3步:专家在系统中搜索这次任务有关的船舶和设备;第4步:利用搜索排序方法实现的数据访问模块进入支援中心数据库,查询数据集的静态和动态相关度,返回结果按公式(5)结合时间相关度排序数据;第5步:系统选择优先级最高的数据集返回。
进一步描述数据相关度的修改流程,每一次访问数据时,相关度都会相应的变化,整个过程无需人工参与,只有小部分记录会修改,因此开销也较少。具体流程如图4所示。第1步:当专家登录船舶保障数据库系统时,数据访问模块识别上下文,可由专家手工选择,也可由系统参考当时使用环境自动选择,这些环境因素包括专家所属专业、访问数据库的时机、所属专家组类型,调度类型等;第2步;专家选择查询某设备的数据集,输入检索词;第3步:数据访问模块获取专家所需数据并返回,同时数据库管理系统在日志库中记录本次访问内容,数据访问模块修改“访问频率表”,这里需要修改的记录仅有两条,某特定上下文C中数据集D的访问次数,tfDC和上下文C的所有访问次数tfC。
每次访问系统时,数据访问模块可以作为存储过程由数据库自动执行,完成对动态相关度的修改,这样下次访问上下文时,可按最近修改信息来计算属于该上下文的数据及相关度。
数据访问模块所需数据可都存储于“访问频率表”中,该表可于维修记录一同保存到数据库中,其字段属性包括:(1)DC:为数据集的内部编码;(2)ContestID:上下文标志符;(3)Weight:数据集D的访问权重;(4)RC:属于某上下文的数据集的静态相关度。主键为(DC,contest ID),如果DC为-1,表示可以为任意数据集,它用于存储某特定上下文中所有数据集的权重之和,记为tfC,“访问频率表”中记录的总数为|Contests|×(|DC|+1)。为了提高查询效率,可以基于上下文标识符(ContestID)建立表簇结构。
下述案例进一步描述对相关数据集的查询过程,如果已知上下文C,需要查询与C最相关的数据集访问频率,其SQL查询语句如下:
Select DC,Weight from FreqTable where ContextID=C order by WeightDESC HAVING ROWNUM=6
通过执行以上sql语句,可以简单快速的获取相关度最高的5个数据集,其中第1行为上下文C的整体访问权重tfC。
如果已知上下文和某型设备,需要查询与之最相关的数据集。为了提高RG的计算效率,可以在数据库内采用PL/SQL(存储过程)语言实现公式(5)整体相关度的计算。这样只需要对“访问频率表”(FreqTable)和数据库中相关船舶设备的技术档案(SERTable)执行一次连接查询,就可以得到相关的数据集。设CRG为PL/SQL实现的整体相关度计算函数,Eid为需查询的某型设备的标识符,C为该设备所属上下文,RC为上下文相关静态相关度,RE为设备相关静态相关度,TFC为上下文的访问频率,这样获取整体相关度的SQL语句如下:
Select*,CRG(FreqTable.RC,FreqTable.RE,FreqTable.Weight,TFC,SERTable.Date)as Relevance
From FreqTble,SERTable where SERTable.EID=Eid and FreqTable.ContxtID=C and
SERTable.DC=FreqTable.DC order by Relevance DESC HAVING ROWNUM<=5
只用先执行一条查询语句,得到tfC,再执行以上语句,就得到相关度最高的5个数据集,而且所有计算都在数据库系统里面以存储过程的形式执行,计算开销小。
进一步描述对“访问频率表”的修改。以下两种情况需要修改“访问频率表”,(1)当访问了数据集时;(2)每年一次对参考时间修改时。第2种情况下需要修改“访问频率表”中所有记录。
第1种情况下的SQL语句如下:
UPDATE FreqTable SETWeight=Weight+Wht(A)where DC in(id,-1)ANDContextID=C
其中id为数据集的内部代码,C为上下文,Whg(A)为这次新访问的权重。
第2中情况下的SQL语句如下:
UPDATE FreqTable SET Weight=Weight/2
这条语句尽管需要修改整个访问频率表,但因为只需要每年执行一次,开销也不大。
Claims (5)
1.一种船舶设备技术数据搜索排序方法,其特征在于:
包括如下步骤:
1)描述上下文的定义,文档或数据集的上下文类型由以下三个规则组合定义:
①所属生命周期;②所属专业;③所属保障类型;
上下文类型的设置,可由生成该数据的专家手工设置,也可由船舶保障信息系统根据当时状况自动生成;
上下文的选择,可由专家手工选择,也可由系统参考当时使用环境自动选择;所述环境因素包括专家所属专业、访问数据库的时机、所属专家组类型,调度类型;
2)数据集与上下文的相关性通过相关度表示,根据作用方式不同,相关度分为三种类型:
①静态相关度;②时间相关度;③动态相关度;具体步骤如下:
(1)静态相关度的计算:
静态相关度可由专家设置;静态相关度包括上下文类型相关度RC∈(0,1)和设备类型相关度RE∈(0,1);
(2)时间相关度的计算:
时间相关度由数据以及所属文档的创建时间决定,并建立时间阈值来修改文档的时间相关度;如果文档时间小于该阈值,时间相关度取较高值即大于0.7;如果大于该阈值,则时间相关度降低,取较低数值;
(3)动态相关度的设置:
建立能够自适应的动态相关度,在现有数据库管理系统的日志库中记录数据库的访问信息:包括被访问的数据、修改的数据、访问数据的用户和访问时间;
(4)整体相关度的计算:
整体相关度把以上三个相关度集成为一个值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010928714.4A CN112100213B (zh) | 2020-09-07 | 2020-09-07 | 船舶设备技术数据搜索排序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010928714.4A CN112100213B (zh) | 2020-09-07 | 2020-09-07 | 船舶设备技术数据搜索排序方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112100213A true CN112100213A (zh) | 2020-12-18 |
CN112100213B CN112100213B (zh) | 2022-10-21 |
Family
ID=73757601
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010928714.4A Active CN112100213B (zh) | 2020-09-07 | 2020-09-07 | 船舶设备技术数据搜索排序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112100213B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113849703A (zh) * | 2021-11-30 | 2021-12-28 | 亿海蓝(北京)数据技术股份公司 | 船舶信息查询方法及装置、可读存储介质 |
CN115630074A (zh) * | 2022-12-22 | 2023-01-20 | 亿海蓝(北京)数据技术股份公司 | 数据索引的构建方法、装置、可读存储介质和助航设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110137921A1 (en) * | 2009-12-09 | 2011-06-09 | International Business Machines Corporation | Method, computer system, and computer program for searching document data using search keyword |
WO2013010557A1 (en) * | 2011-07-19 | 2013-01-24 | Miguel De Vega Rodrigo | Method and system for data mining a document. |
CN103838735A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种提高检索效率和质量的数据检索方法 |
CN105159932A (zh) * | 2015-08-07 | 2015-12-16 | 南车青岛四方机车车辆股份有限公司 | 一种数据检索和排序系统和方法 |
CN107229738A (zh) * | 2017-06-18 | 2017-10-03 | 杭州电子科技大学 | 一种基于文档评分模型和相关度的学术论文搜索排序方法 |
-
2020
- 2020-09-07 CN CN202010928714.4A patent/CN112100213B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110137921A1 (en) * | 2009-12-09 | 2011-06-09 | International Business Machines Corporation | Method, computer system, and computer program for searching document data using search keyword |
WO2013010557A1 (en) * | 2011-07-19 | 2013-01-24 | Miguel De Vega Rodrigo | Method and system for data mining a document. |
CN103838735A (zh) * | 2012-11-21 | 2014-06-04 | 大连灵动科技发展有限公司 | 一种提高检索效率和质量的数据检索方法 |
CN105159932A (zh) * | 2015-08-07 | 2015-12-16 | 南车青岛四方机车车辆股份有限公司 | 一种数据检索和排序系统和方法 |
CN107229738A (zh) * | 2017-06-18 | 2017-10-03 | 杭州电子科技大学 | 一种基于文档评分模型和相关度的学术论文搜索排序方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113849703A (zh) * | 2021-11-30 | 2021-12-28 | 亿海蓝(北京)数据技术股份公司 | 船舶信息查询方法及装置、可读存储介质 |
CN115630074A (zh) * | 2022-12-22 | 2023-01-20 | 亿海蓝(北京)数据技术股份公司 | 数据索引的构建方法、装置、可读存储介质和助航设备 |
CN115630074B (zh) * | 2022-12-22 | 2023-03-03 | 亿海蓝(北京)数据技术股份公司 | 数据索引的构建方法、装置、可读存储介质和助航设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112100213B (zh) | 2022-10-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9858280B2 (en) | System, apparatus, program and method for data aggregation | |
US8108399B2 (en) | Filtering of multi attribute data via on-demand indexing | |
US8386463B2 (en) | Method and apparatus for dynamically associating different query execution strategies with selective portions of a database table | |
US7730060B2 (en) | Efficient evaluation of object finder queries | |
US7548903B2 (en) | Method and apparatus for automatic recommendation and selection of clustering indexes | |
CN112100213B (zh) | 船舶设备技术数据搜索排序方法 | |
US20110314026A1 (en) | System and Method for Retrieving Information Using a Query Based Index | |
CN103577416A (zh) | 扩展查询方法及系统 | |
CN113157943A (zh) | 面向大规模金融知识图谱的分布式存储及可视化查询处理方法 | |
CN106484815B (zh) | 一种基于海量数据类sql检索场景的自动识别优化方法 | |
CN113934713A (zh) | 一种订单数据索引方法、系统、计算机设备以及存储介质 | |
Golab et al. | Exploring data using patterns: A survey and open problems | |
CN103995869A (zh) | 一种基于Apriori算法的数据缓存方法 | |
Patroumpas et al. | Similarity search over enriched geospatial data | |
US20090049035A1 (en) | System and method for indexing type-annotated web documents | |
Takeuchi et al. | Spatio-temporal pseudo relevance feedback for large-scale and heterogeneous scientific repositories | |
CN116450768B (zh) | 面向低代码开发平台的工业数据处理方法、装置及设备 | |
US20230342405A1 (en) | System, method, and computer program for monitoring and optimizing enterprise knowledge management platform using non-personally-identifiable information in logs | |
Schenk et al. | Reasoning With Provenance, Trust and all that other Meta Knowlege in OWL. | |
US11762831B2 (en) | Adaptive sparse indexing in cloud-based data warehouses | |
CN115357581B (zh) | 一种海量bim数据的分布式存储方法 | |
He et al. | Enterprise human resources information mining based on improved Apriori algorithm | |
Chen et al. | A novel user profile learning approach with fuzzy constraint for news retrieval | |
Song et al. | The Data Integrity Error Repair Method for Filling Missing Values with External Data | |
Lee | MDH*: Multidimensional histograms for Linked Data queries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |