CN104899340B - 一种基于最紧致片段的ietm技术信息片段检索装置及其检索方法 - Google Patents

一种基于最紧致片段的ietm技术信息片段检索装置及其检索方法 Download PDF

Info

Publication number
CN104899340B
CN104899340B CN201510394706.5A CN201510394706A CN104899340B CN 104899340 B CN104899340 B CN 104899340B CN 201510394706 A CN201510394706 A CN 201510394706A CN 104899340 B CN104899340 B CN 104899340B
Authority
CN
China
Prior art keywords
module
trunk
information
fragment
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510394706.5A
Other languages
English (en)
Other versions
CN104899340A (zh
Inventor
赖初荣
冯伟强
鄂弢金
徐志超
姚崇东
李万超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
MARINE EQUIPMENT TECHNOLOGY Co Ltd OF HARBIN ENGINEERING UNIVERSITY
Original Assignee
MARINE EQUIPMENT TECHNOLOGY Co Ltd OF HARBIN ENGINEERING UNIVERSITY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by MARINE EQUIPMENT TECHNOLOGY Co Ltd OF HARBIN ENGINEERING UNIVERSITY filed Critical MARINE EQUIPMENT TECHNOLOGY Co Ltd OF HARBIN ENGINEERING UNIVERSITY
Priority to CN201510394706.5A priority Critical patent/CN104899340B/zh
Publication of CN104899340A publication Critical patent/CN104899340A/zh
Application granted granted Critical
Publication of CN104899340B publication Critical patent/CN104899340B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/838Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing
    • G06F16/8373Query execution

Abstract

本发明属于交互式电子手册(IETM)技术和XML信息检索技术领域,具体涉及一种利用相似度计算对检索结果进行过滤的基于最紧致片段的IETM技术信息片段检索装置及其检索方法。基于最紧致片段的IETM技术信息片段检索装置,包括发布器、检索器和存储器三个部分:所述发布器通过特征提取模块提取数据模块的主干内容结构并编码;所述检索器通过关键词激励模块进行关键词的语义分析;存储器的主干信息集存贮结构存储符合GJB6600的模式约束特征、片段提取规则和主干信息的数据,以及各数据存放的结构描述。本发明利用片段发布器提取交互式电子手册的信息片段,并存贮起来供用户检索,能够有效缩短信息片段的检索时间,提升检索效率。

Description

一种基于最紧致片段的IETM技术信息片段检索装置及其检索 方法
技术领域
本发明属于交互式电子手册(IETM)技术和XML信息检索技术领域,具体涉及一种从交互式电子手册中快速获取有效技术信息,适用于遵循我国军用GJB6600技术标准的交互式电子手册,根据数据模块的模式约束(Schema)抽取数据模块的主干技术信息结构,基于最紧致片段算法编码、检索,并利用相似度计算对检索结果进行过滤的基于最紧致片段的IETM技术信息片段检索装置及其检索方法。
背景技术
1.交互式电子技术手册
20世纪80年代,美国军方率先提出交互式电子技术手册(InteractiveElectronic Technical Manual,以下简称IETM)的概念。该技术是美国和欧洲许多发达国家推行的全寿命周期保障(CALS)战略中的重要组成部分,是CALS的关键应用技术之一。IETM利用文字、图表、音视频、三维动画等载体形式在电子设备上进行技术信息的交互式阅读,主要用于指导装备或其他大型复杂产品的培训、使用、维修、保养等后勤保障工作。通过应用IETM技术,可以有效降低装备的保障费用、提升工作效率、提高装备的可靠性和维修性。
2.交互式电子技术手册的GJB6600标准
为了实现IETM的信息共享和数据互操作,相关标准和规范应运而生。目前国际上有关IETM的标准很多,其中以美国军用标准和欧洲商业标准S1000D的研究和应用最广泛。但这些国际标准对我国装备制造业的实际情况缺乏适应性,因此我国研究机构经过深入研究分析,以S1000D标准的思想为基础,提出了一套适合在我国推广应用的IETM技术标准——GJB6600。
GJB6600对我国装备的分类、技术信息的构成进行了分析和研究,从类型上将技术信息划分为描述类、程序类、故障类等8个类型,并对各类数据模块进行了模式约束(Schema)的描述。通过制定GJB6600标准,从功能构成、数据模型等方面规范了我国装备IETM的编制要求,为IETM技术在我国的广泛应用提供了技术基础。
3.交互式电子技术手册中的技术信息检索
IETM的核心作用是通过人机界面方式为用户提供技术信息的交互访问能力。功能完备的检索功能可以使用户快速、准确的定位到相关技术信息,进而提高用户使用IETM进行装备操作学习、故障维修的效率。在基于GJB6600标准研制的IETM中,技术信息被划分为单元,以XML数据模块形式存在,大型复杂设备中往往含有数千个数据模块。
目前GJB6600中提供两种检索模式,一种是根据关键词对某一数据模块进行内部信息检索;另一种是按照技术信息的类别进行检索,如按图片名称检索图片。根据以上两种模式,IETM无法实现检索与某一关键字直接相关的各类不同信息片段,如含有某一关键字的图片、表格和段落的集合。通过对用户进行需求调研,用户最关注的是如何在海量数据中快速定位到有用的技术信息,因此提供基于关键字获取数据模块中有效信息片段的功能十分必要。
4、XML信息检索技术
XML是一种具有可扩展性的数据结构,具有自我描述能力和丰富的数据表示能力,目前该技术广泛的应用在数据表示、交换、集成等过程中。XML的信息检索目前主要采用以下三种查询模型:
A.基于简单关键词的查询方式,又称CO(Content Only,纯内容)查询。
查询内容仅为用户想要查找的关键词,其查询过程类似传统的信息检索。基于关键词的查询模型优点是便于使用,缺点是没有充分利用XML文档的半结构化信息,没有充分利用XML数据本身的特点和优势。
B.严格结构匹配与关键词相结合的查询模型,简称SCAS(Strict Content andStructure)查询。
查询内容包括用户想要查找的关键词和结构匹配条件。对于严格结构匹配与关键词相结合的查询模型,要求查询结果必须严格满足结构路径和关键词的约束。其优点是用户可以准确地定位信息,同时清晰地理解查询结果所具有的含义。该模式查询的缺点是用户在查询XML数据之前,必须知道XML的准确模式信息(Schema结构)。
C.非严格结构匹配与关键词相结合的查询模型,简称VCAS(Vague Content andStructure)查询。
VCAS的查询方法与SCAS相似,但该模式在确定查询结果时不要求结果树与查询树在结构上完全相同,而是允许存在一定偏差。VCAS是介于SCAS和CO之间的一种方式,其优点是充分利用了XML数据的本质特点,同时考虑了结构信息和关键词信息,但又不要求用户对结构做出精准描述。因此,较适合用户事前不清楚XML模式信息的情况。
5.最紧致片段技术
最近公共祖先LCA(Lowest Common Ancestor)早期的定义是指在XML文档中包含所有查询关键字节点的最近公共祖先节点,该节点的任意子节点都不再包含所有的关键字节点。后期研究者在LCA的基础上,提出了最紧致片段Smallest LCA(SLCA)概念来提高XML关键字查询的性能和准确率,目前以SLCA为基础的各衍生技术在字符串处理和生物学计算中应用十分广泛。
发明内容
本发明的目的在于提供一种能够从符合GJB6600标准的交互式电子手册中快速获取有效技术信息片段的基于最紧致片段的IETM技术信息片段检索装置。本发明的目的还在于提供一种基于最紧致片段的IETM技术信息片段检索方法。
本发明的目的是这样实现的:
一种基于最紧致片段的IETM技术信息片段检索装置,包括发布器、检索器和存储器三个部分:所述发布器接收符合GJB6600的交互式电子技术手册,通过特征提取模块提取数据模块的主干内容结构并编码,然后存储在主干信息存贮模块中;所述检索器通过关键词激励模块进行关键词的语义分析,根据关键词进行信息片段的嗅探、提取,应用相似度过滤器对提取的各信息片段进行过滤,对技术信息片段进行检索;存储器的主干信息集存贮结构存储符合GJB6600的模式约束特征、片段提取规则和主干信息的数据,以及各数据存放的结构描述。
所述片段发布器包括特征提取模块、编码模块和主干信息存储接口:
所述的特征提取模块通过对GJB6600标准的分析,对段落、图形、表格、多媒体和警示信息的Schema进行简化,将无实际显示意义的子元素和属性以及有显示意义但不参与检索的元素和属性裁减掉,形成数据模块的特征规则,根据特征规则过滤选定装备IETM的各数据模块,只将特征规则中的各类Schema元素及其内容作为主干信息结构抽取出来,表示为XML结构树抽取数据模块的主干信息结构;
所述的编码模块通过Dewey编码方式遵循宽度优先遍历的原则为主干信息结构中的各节点编码;将每1个主干信息结构形成1个Dewey码;编码中存储各节点所属层级、路径信息。
所述片段检索器包括关键词激励模块、片段嗅探模块、片段提取模块、相似度过滤模块和包装模块:
所述的关键词激励模块按照先分句再分词的方式,采用双向最大匹配算法对用户输入的关键词字符串进行分词/语义分析处理,即按正向最大匹配法和逆向最大匹配法都切分一次,将关键词形成多个小粒度词串,供片段检索时使用;
所述的片段嗅探模块在检索开始前将关键词词串与数据库中存储与数据模块类型相关的词串对比,根据词串相似度将用户可能感兴趣的数据模块类型排序;
片段提取模块根据片段类型,提取XML片段块的主干结构;
相似度过滤模块采用按逐层匹配计算XML片段各节点路径段数的方式计算相似度,将交互式电子技术手册中在不同的数据模块中重复出现的相同的图片、段落或表格过滤掉;
包装模块:基于CSS和XSLT对检索结果的各XML片段内容进行封装。
所述存储器包括主干信息存贮模块、主干特征提取规则存贮模块和片段提取规则存贮模块:
所述的主干信息存贮模块对符合GJB6600的交互式电子技术手册中所有数据模块的XML主干信息结构存贮;
所述的主干特征提取规则存贮模块根据GJB6600技术标准,定义文字段落、图、表格、音视频、动画模式约束中与被检索信息有关联的主干特征提取规则,对以上规则进行动态存贮;
所述的片段提取规则存贮模块用于描述根据信息片段的主干结构从数据模块中提取整体的数据块的过程。
一种基于最紧致片段的IETM技术信息片段检索方法,包括如下步骤:
建立基于GJB6600的主干特征提取规则及其存贮结构:通过对GJB6600标准的分析,定义段落、图形、表格、多媒体和警示信息共5类技术信息基础表现形式的主干特征提取结构,并基于数据库中的XML管理技术实现Schema结构的存储;
基于主干特征提取规则,完成交互式电子手册主干信息结构提取:对IETM进行初始化加载,同时对选定IETM及其数据模块的完整性和规范性进行校验,如发现不符合标准,则给出错误提示信息;数据模块全部通过校验后,系统按顺序逐一读取数据模块,并结合其模块类型提取主干信息结构:加载并解析XML数据模块,按序解析子元素的名称,并用该名称到主干特征提取规则存贮结构中进行匹配,如匹配成功,将对该元素按主干特征提取规则存贮结构中RULES所描述的主干特征提取规则的结构进行简化,去除XML中与技术信息检索无关的内容,进而获得数据模块的主干信息结构,之后对主干信息结构进行Dewey编码并存储;
对关键词划分成词串:采用双向最大匹配算法对关键词逐步进行分句、中文分词处理;
基于最紧致片段技术完成对主干信息结构的词串检索,并对检索结果进行相似度计算,过滤重复结果。
本发明的有益效果是:
本发明装置及方法适用于所有符合GJB6600技术标准的交互式电子手册,是一种具有通用性的装置及方法。本发明装置利用片段发布器提取交互式电子手册的信息片段,并存贮起来供用户检索,能够有效缩短信息片段的检索时间,提升检索效率。通过本发明的应用,能够为IETM这类与业务知识紧密关联的技术产品提供一种能够准确定位信息片段内容的检索装置。
附图说明
图1是本发明的系统结构图;
图2是本发明的方法原理图;
图3是本发明的段落主干特征提取结构;
图4是本发明的图形主干特征提取结构;
图5是本发明的表格主干特征提取结构;
图6是本发明的多媒体主干特征提取结构;
图7是本发明的警示信息主干特征提取结构;
图8是本发明的IETM主干信息提取工作流程图。
具体实施方式
下面结合附图对本发明作更详细的描述。
本发明提供的是一种基于最紧致片段的IETM技术信息片段检索方法,是一种从交互式电子手册中快速获取有效技术信息片段的装置。该装置包括片段发布器、片段检索器和存贮器三个部分:片段发布器接收符合GJB6600的交互式电子技术手册,通过特征提取模块提取各数据模块的主干内容结构并编码,然后存储在主干信息存贮模块中;片段检索器基于关键词激励模块实现关键词的语义分析,根据关键词进行信息片段的嗅探、提取,应用相似度过滤器对提取的各信息片段进行过滤,实现对技术信息片段的快速检索;存贮结构用于存储符合GJB6600的模式约束特征、片段提取规则和主干信息的相关数据,以及各数据存放的结构描述。本发明适用于遵循我国军用GJB6600技术标准的交互式电子手册,提供了一种可有效、快速的对大量数据模块内部技术信息片段进行检索的方法。
基于最紧致片段的IETM技术信息片段检索装置及方法,包括发布器、检索器和主干信息集存贮结构三个部分;所述发布器接收符合GJB6600的交互式电子技术手册,通过特征提取模块提取数据模块的主干内容结构并编码,然后存储在主干信息存贮模块中;所述检索器基于关键词激励模块实现关键词的语义分析,根据关键词进行信息片段的嗅探、提取,应用相似度过滤器对提取的各信息片段进行过滤,实现对技术信息片段的快速检索;主干信息集存贮结构用于存储符合GJB6600的模式约束特征、片段提取规则和主干信息的相关数据,以及各数据存放的结构描述。
基于最紧致片段的IETM技术信息片段检索装置及方法,实现本发明的具体方法为:
a)建立基于GJB6600的主干特征提取规则及其存贮结构。通过对GJB6600标准的分析,定义段落、图形、表格、多媒体和警示信息共5类技术信息基础表现形式的主干特征提取结构,并基于数据库中的XML管理技术实现Schema结构的存储。
b)基于主干特征提取规则,完成交互式电子手册主干信息结构提取。对IETM进行初始化加载,同时对选定IETM及其数据模块的完整性和规范性进行校验,如发现不符合标准,则给出错误提示信息。数据模块全部通过校验后,系统按顺序逐一读取数据模块,并结合其模块类型提取主干信息结构(MIS,Main Information Structure),具体工作过程为:加载并解析XML数据模块,按序解析子元素的名称,并用该名称到“主干特征提取规则存贮结构”中进行匹配,如匹配成功,将对该元素按“主干特征提取规则存贮结构”中“RULES”所描述的主干特征提取规则的结构进行简化,去除XML中与技术信息检索无关的内容,进而获得数据模块的MIS,之后对MIS结构进行Dewey编码并存储。
c)对关键词划分成词串。对关键词逐步进行分句、中文分词处理,采用双向最大匹配算法。
d)基于最紧致片段技术完成对主干信息结构的词串检索,并对检索结果进行相似度计算,过滤重复结果。然后对检索结果进行组装后提交给IETM阅读器展现给用户。
该装置包括片段发布器、片段检索器和存贮器三个部分。片段发布器接收符合GJB6600的交互式电子技术手册,通过特征提取模块提取数据模块的主干内容结构并编码,然后存储在主干信息存贮模块中;片段检索器基于关键词激励模块实现关键词的语义分析,根据关键词进行信息片段的嗅探、提取,应用相似度过滤器对提取的各信息片段进行过滤,实现对技术信息片段的快速检索;存贮结构用于存储符合GJB6600的模式约束特征、片段提取规则和主干信息的相关数据,以及各数据存放的结构描述。
本发明还可以包括这样一些特征:
所述片段发布器包括特征提取模块、编码模块和主干信息存储接口:
a)特征提取模块:该模块主要完成两个工作,一是形成数据模块Schema的特征规则,二是根据特征规则抽取数据模块的主干信息结构。形成数据模块Schema的特征规则时需通过对GJB6600标准的分析,对段落、图形、表格、多媒体和警示信息共5类信息的Schema进行简化,将其中无实际显示意义的子元素/属性(例如“适用性信息”)和有显示意义但不参与检索的元素/属性裁减掉,形成Schema的信息简化特征规则。根据特征规则抽取数据模块的主干信息结构时,需利用特征规则过滤选定装备IETM的各数据模块,只将特征规则中的各类Schema元素及其内容作为主干信息结构抽取出来,表示为XML结构树。
b)编码模块:该模块的作用是基于Dewey编码方式为主干信息结构中的各节点编码。该模块特征为:编码过程遵循宽度优先遍历的原则;每1个主干信息结构将形成1个Dewey码;编码中存储各节点所属层级、路径等信息;编码是后续对XML结构树中信息元素进行快速匹配的基础。
所述片段检索器包括关键词激励模块、片段嗅探模块、片段提取模块、相似度过滤模块和包装模块:
a)关键词激励模块:按照先分句再分词的方式,采用双向最大匹配算法对用户输入的关键词字符串进行分词/语义分析处理,即按正向最大匹配法和逆向最大匹配法都切分一次,然后根据小粒度词串越多越好、非词典词和单字词越少越好的原则将关键词形成多个小粒度词串,供片段检索时使用。
b)片段嗅探模块:数据模块类型共8类,包含描述类、程序类、故障类等,每个类型可表示特定内容含义的技术信息内容,如程序类一般着重表现设备的“使用”、“操作”、“流程”等信息。因此,为了提升检索效率,数据库中存储与数据模块类型相关的词串,在检索开始前将关键词词串与之对比,根据词串相似度将用户可能感兴趣的数据模块类型排序。
c)片段提取模块:根据片段类型,按照规则提取XML片段块的主干结构。
d)相似度过滤模块:交互式电子技术手册中,相同的图片、段落或表格可能在不同的数据模块中重复出现,为了提高检索的用户体验感和信息检索效率,有必要将重复结果过滤掉。为此,本系统采用按逐层匹配计算XML片段各节点路径段数的方式计算相似度,如相似度超过事先设定的阈值(通常设为0.9,可根据用户需要自行微调),则视为相同结果,反之视为不同检索结果。
e)包装模块:信息检索的结果为XML片段,但其半结构化表示方式可阅读性很差,因此需要基于CSS和XSLT对检索结果的各XML片段内容进行封装,使图、段落、表格等技术信息以适于计算机界面显示的形式提供给用户。
所述存储器包括主干信息存贮模块、主干特征提取规则存贮模块和片段提取规则存贮模块:
a)主干信息存贮模块:基于XML数据结构存储技术,实现对符合GJB6600的交互式电子技术手册中所有数据模块的XML主干信息结构存贮。该存贮模块与数据模块列表之间具有索引并建立同步更新机制,能够实现数据模块和主干信息之间的双向快速关联,以及数据模块更新后的主干信息自动更新。主干信息存贮模块可基于XPath实现对主干信息结构的快速检索。
b)主干特征提取规则存贮模块:结合GJB6600技术标准,定义文字段落、图、表格、音视频、动画模式约束中与被检索信息有关联的主干特征提取规则,并对以上规则进行动态存贮。
c)片段提取规则存贮模块:用于描述如何根据信息片段的主干结构从数据模块中提取整体的数据块。
图1是本发明的系统结构图,本方法在总体上包括发布器、检索器和主干信息集存贮结构三个部分,各部分之间相互协同配合完成基于GJB6600的交互式电子手册的最紧致片段信息检索。
图2是本发明的方法原理图,下面结合图2所示的原理方法流程进一步说明本发明的具体实现过程。
1.建立基于GJB6600的主干特征提取规则及其存贮结构的具体实施过程
GJB6600技术标准为了规范交互式电子手册的结构、将对技术信息的管理贯穿设备的整个生命周期,在数据模块的模式约束中除技术信息外,还设置了许多辅助管理和统计的元素/属性。这些元素/属性中描述的内容并不承载技术信息的内容,因此对用户的信息检索活动来说,此类信息属于冗余信息,增加了信息检索量,使效率降低。为此,本发明基于GJB6600技术标准对各类主要信息内容的主干特征提取规则进行定义,并为其设计存贮结构方便存储和检索。
通过对GJB6600标准的分析,技术信息的基础表现形式主要包括段落、图形、表格、多媒体和警示信息共5类。GJB6600对信息的模式约束通过Schema方式描述,为了保持其结构的完整性和兼容性,本发明对主干特征提取结构的定义也采用Schema方式,其主干特征提取结构定义如下。
a)段落的主干特征提取结构
图3是对GJB6600中段落的模式约束进行简化后,定义的段落主干特征提取结构。该结构中对段落及其子元素的内容和元素进行简化,主要裁剪两类信息:无实际显示意义的子元素/属性,例如“适用性信息”;有显示意义但不参与检索的元素/属性。
b)图形的主干特征提取结构
图4是对GJB6600中图形的模式约束进行简化后,定义的图形主干特征提取结构。该结构中对图形及其子元素的内容和元素进行简化,仅保留参与信息检索的结构,具体包括“图形标题”、“热点”的名称及描述属性。
c)表格的主干特征提取结构
图5是对GJB6600中表格的模式约束进行简化后,定义的表格主干特征提取结构。该结构中对表格及其子元素的内容和元素进行简化,仅保留参与信息检索的结构,具体包括“表题”和“表格内容”。其中“表格内容”中需按“行”、“单元格”的递进顺序逐层检索。
d)多媒体的主干特征提取结构
图6是对GJB6600中多媒体的模式约束进行简化后,定义的多媒体主干特征提取结构。该结构中对多媒体及其子元素的内容和元素进行简化,仅保留“标题”信息参与检索。
e)警示信息的主干特征提取结构
图7是对GJB6600中警示信息的模式约束进行简化后,定义的警示信息主干特征提取结构。该结构中对警示信息及其子元素的内容和元素进行简化,仅保留参与信息检索的结构,具体包括“警告”、“注意”和“注释”。
将以上5类信息作为基础结构定义主干特征提取规则,即能够完成GJB6600中各类不同数据模块的主干内容信息表达。
主干特征提取规则存贮结构结合数据库中的XML管理技术,简化为二维关系表格的形式,如表1所示:
表1主干特征提取规则存贮结构示意图
其中
ID:为主干特征提取规则的序号
NAME:为本规则所描述信息的元素名称
TYPE:为本规则所描述信息的元素类型(留作扩展,目前均为基本型)
RULES:为本规则所描述信息元素的主干特征提取结构,以Schema形式存储
DES:为本规则所描述信息的元素描述
2.基于主干特征提取规则,完成交互式电子手册主干信息结构提取的具体实施过程
图8是以交互式电子手册为输入,提取其主干信息的工作流程图。
首先由用户选定目标IETM系统,被选定目标应具备两个条件:①符合GJB6600②IETM系统具备发布条件。然后系统对IETM进行初始化加载,同时对选定IETM及其数据模块的完整性和规范性进行校验,如发现不符合标准,则给出错误提示信息。数据模块全部通过校验后,系统按顺序逐一读取数据模块,并结合其模块类型提取主干信息结构(MIS,MainInformation Structure),具体工作过程为:加载并解析XML数据模块,按序解析子元素的名称,并用该名称到“主干特征提取规则存贮结构”中进行匹配,如匹配成功,将对该元素按“主干特征提取规则存贮结构”中“RULES”所描述的主干特征提取规则的结构进行简化,去除XML中与技术信息检索无关的内容,进而获得数据模块的MIS。
获得MIS后,需要对MIS结构进行Dewey编码,其具体方法为:
a)对根节点的Dewey编码为0;
b)对MIS结构树按宽度优先遍历的方式对树遍历,如果节点v是节点u的第i个孩子,则节点v的Dewey编码为D(u).(i-1),其中D(u)表示节点u的Dewey编码。
c)在该编码u中的所有被“.”分割的整数的个数表示u的长度,以lu表示。取MIS树根节点所在的层位第1层,那么定义Dewey码u中与第i层节点对应的整数为该Dewey码的第i层整数,表示为ui。由1到i层整数组成的Dewey码称为该节点Dewey码u的第i层前缀,表示为pu(i)。
Dewey编码结束后,将该码存储在数据库中,由于Dewey码包含了MIS的路径信息,能够较好的支持信息片段的检索。
3.将关键词划分成词串的具体实施过程
下面详细叙述对用户提交的查询内容进行分词的具体过程。
a)分句处理。按照标点、空格、上标/下标等具备词串间隔特征的字符将输入内容划分为若干个分句。假如用户提交的查询内容有重复内容,分词处理过程中将对其处理为等价结果,即当作该词只出现过一次;假如用户提交的查询内容中含有中英文混杂内容,将对其中的英文保留为一个单独的分句,并以此为断点讲中文切分开,而后对两端的中文进行分句处理。
b)中文分词处理。如果字符串含有的中文长度小于等于3个字符,则认为是一个词串保留不动,否则对其进行全分词。此处采用的算法是双向最大匹配算法,按正向最大匹配法和逆向最大匹配法都切分一次,然后根据大粒度词串越多越好、非词典词和单字词越少越好的原则对其词串划分结果作为中间处理结果保存。
4.根据词串进行信息片段检索、相似度过滤的具体过程
结合获得的词串内容,基于最紧致片段的检索算法实现信息片段的检索,具体工作如下:
a)从“存贮器”的“主干信息存储模块”中提取当前IETM系统的一个MIS(主干信息结构);
b)利用Xpath表达式过滤MIS树的各节点,获得节点内容中含有某个查询词串的节点Dewey编码;
c)求各节点Dewey编码的前缀交集;
d)前缀Dewey编码代表的MIS树节点即为最终检索到的信息片段检索结果;
e)按以上步骤逐一过滤IETM系统中的MIS。
至此,完成对IETM中所有数据模块MIS的信息检索,并初步检索出包含被检索词串的信息片段。设基于以上方法可获得n个信息片段检索结果,且第i个信息片段检索结果为ISi。此时的ISi均为带有Dewey编码的主干信息结构片段,且可能存在和ISi的ISj结构内容几乎或完全一致,即重复的检索结果。在IETM检索结果中,大量重复的检索结果将降低用户对信息的准确把握能力,因此本发明将通过相似度计算工作完成对重复检索结果的过滤。具体工作过程如下:
a)设定相似度阈值为λ;
b)定义R相对Q的相似度为SQR,定义需要对比相似度的两个结构分别为Q和R;
c)计算Q和R的节点相似度SeQR,二者所包含相同节点越多则相似度越高,反之相似度越低,计算公式为:
SeQR=|Q的节点数∩R的节点数|/|Q的节点数|
d)计算Q和R的层次相似度SlQR,描述节点间的层次关系,可以更精确的表述相似度,计算公式为:
SlQR=∑(Min(RlUV,QlUV)/Max(RlUV,QlUV))/∑QlUV
其中,U、V是Q和R中都包含的节点,lUV表示U、V节点之间的路径段数,RlUV表示R中U、V节点之间的路径段数。
e)计算R相对Q的相似度,计算公式为:
SQR=SeQR*SlQR
f)如果SQR小于等于λ,视R与Q为两个不同检索结果;反之,视R与Q为重复检索结果,在结果集中删除R。
经过以上计算,可得到最终的主干信息片段检索结果集,根据各主干信息片段根节点ID即可完成从完整数据模块中截取XML完整信息片段的工作。对于应用CSS、XSLT技术对XML信息片段内容转换为HTML的过程,在此不详细描述。
为验证本发明的有效性,我们搭建了典型应用环境对其进行验证,环境包括IETM阅读器和IETM数据库(Oracle 10g)。实验针对的是本发明提出的基于最紧致片段的IETM技术信息片段检索技术,采用某型柴油机的IETM系统数据模块作为测试数据。系统中共包括数据模块共475个。
表2给出了具体技术参数。
表2具体技术参数
表3给出了检索结果及对比。
表3检索结果
对以上结果分析如下:
a)本发明检索的结果最终定位在数据模块中的某一部分信息片段,用户可通过对检索结果信息片段的浏览,快速确认该结果是否为所需内容;而常规方式只能定位到数据模块整体,用户需浏览整个数据模块才能确认该模块是否含有所需内容。
b)当检索词长度较长时,本发明方法因采用分词技术,检索效果优于常规方式,体现在检索出的信息片段个数较多;而常规方式按照检索词精确检索,对用户的检索词构建能力要求过高。
c)当检索词字数过少,且是一个完整的词语时,本发明方法与常规方法检索出的结果数量一致。
基于以上分析,本发明在IETM信息检索方面有较好的效果。

Claims (4)

1.一种基于最紧致片段的IETM技术信息片段检索装置,包括发布器、检索器和存储器三个部分,其特征在于:所述发布器接收符合GJB6600的交互式电子技术手册,通过特征提取模块提取数据模块的主干内容结构并编码,然后存储在主干信息存贮模块中;所述检索器通过关键词激励模块进行关键词的语义分析,根据关键词进行信息片段的嗅探、提取,应用相似度过滤器对提取的各信息片段进行过滤,对技术信息片段进行检索;存储器的主干信息集存贮结构存储符合GJB6600的模式约束特征、片段提取规则和主干信息的数据,以及各数据存放的结构描述;
所述发布器包括特征提取模块、编码模块和主干信息存储接口,其特征在于:
所述的特征提取模块通过对GJB6600标准的分析,对段落、图形、表格、多媒体和警示信息的Schema进行简化,将无实际显示意义的子元素和属性以及有显示意义但不参与检索的元素和属性裁减掉,形成数据模块的特征规则,根据特征规则过滤选定装备IETM的各数据模块,只将特征规则中的各类Schema元素及其内容作为主干信息结构抽取出来,表示为XML结构树抽取数据模块的主干信息结构;
所述的编码模块通过Dewey编码方式遵循宽度优先遍历的原则为主干信息结构中的各节点编码;将每1个主干信息结构形成1个Dewey码;编码中存储各节点所属层级、路径信息。
2.根据权利要求1所述的一种基于最紧致片段的IETM技术信息片段检索装置,所述检索器包括关键词激励模块、片段嗅探模块、片段提取模块、相似度过滤模块和包装模块,其特征在于:
所述的关键词激励模块按照先分句再分词的方式,采用双向最大匹配算法对用户输入的关键词字符串进行分词/语义分析处理,即按正向最大匹配法和逆向最大匹配法都切分一次,将关键词形成多个小粒度词串,供片段检索时使用;
所述的片段嗅探模块在检索开始前将关键词词串与数据库中存储与数据模块类型相关的词串对比,根据词串相似度将用户可能感兴趣的数据模块类型排序;
片段提取模块根据片段类型,提取XML片段块的主干结构;
相似度过滤模块采用按逐层匹配计算XML片段各节点路径段数的方式计算相似度,将交互式电子技术手册中在不同的数据模块中重复出现的相同的图片、段落或表格过滤掉;
包装模块:基于CSS和XSLT对检索结果的各XML片段内容进行封装。
3.根据权利要求1所述的一种基于最紧致片段的IETM技术信息片段检索装置,所述存储器包括主干信息存贮模块、主干特征提取规则存贮模块和片段提取规则存贮模块,其特征在于:
所述的主干信息存贮模块对符合GJB6600的交互式电子技术手册中所有数据模块的XML主干信息结构存贮;
所述的主干特征提取规则存贮模块根据GJB6600技术标准,定义文字段落、图、表格、音视频、动画模式约束中与被检索信息有关联的主干特征提取规则,对以上规则进行动态存贮;
所述的片段提取规则存贮模块用于描述根据信息片段的主干结构从数据模块中提取整体的数据块的过程。
4.一种基于最紧致片段的IETM技术信息片段检索方法,其特征在于,包括如下步骤:
建立基于GJB6600的主干特征提取规则及其存贮结构:通过对GJB6600标准的分析,定义段落、图形、表格、多媒体和警示信息共5类技术信息基础表现形式的主干特征提取结构,并基于数据库中的XML管理技术实现Schema结构的存储;
基于主干特征提取规则,完成交互式电子手册主干信息结构提取:对IETM进行初始化加载,同时对选定IETM及其数据模块的完整性和规范性进行校验,如发现不符合标准,则给出错误提示信息;数据模块全部通过校验后,系统按顺序逐一读取数据模块,并结合其模块类型提取主干信息结构:加载并解析XML数据模块,按序解析子元素的名称,并用该名称到主干特征提取规则存贮结构中进行匹配,如匹配成功,将对该元素按主干特征提取规则存贮结构中RULES所描述的主干特征提取规则的结构进行简化,去除XML中与技术信息检索无关的内容,进而获得数据模块的主干信息结构,之后对主干信息结构进行Dewey编码并存储;
对关键词划分成词串:采用双向最大匹配算法对关键词逐步进行分句、中文分词处理;
基于最紧致片段技术完成对主干信息结构的词串检索,并对检索结果进行相似度计算,过滤重复结果。
CN201510394706.5A 2015-07-08 2015-07-08 一种基于最紧致片段的ietm技术信息片段检索装置及其检索方法 Active CN104899340B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510394706.5A CN104899340B (zh) 2015-07-08 2015-07-08 一种基于最紧致片段的ietm技术信息片段检索装置及其检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510394706.5A CN104899340B (zh) 2015-07-08 2015-07-08 一种基于最紧致片段的ietm技术信息片段检索装置及其检索方法

Publications (2)

Publication Number Publication Date
CN104899340A CN104899340A (zh) 2015-09-09
CN104899340B true CN104899340B (zh) 2018-01-23

Family

ID=54032002

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510394706.5A Active CN104899340B (zh) 2015-07-08 2015-07-08 一种基于最紧致片段的ietm技术信息片段检索装置及其检索方法

Country Status (1)

Country Link
CN (1) CN104899340B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117435B (zh) * 2017-06-22 2021-07-27 索意互动(北京)信息技术有限公司 一种客户端、服务器、检索方法及其系统
CN107577752B (zh) * 2017-08-31 2019-11-08 北京印刷学院 一种基于关键字的xml检索排序处理系统及方法
CN107943773B (zh) * 2017-11-20 2021-06-11 北京宇航系统工程研究所 一种面向航天产品的交互式电子技术手册开发系统和方法
CN110069450A (zh) * 2019-03-28 2019-07-30 北京航空航天大学 基于s1000d标准的交互式电子技术手册平台
CN111353050A (zh) * 2019-12-27 2020-06-30 北京合力亿捷科技股份有限公司 一种电信客服垂直领域的词库构建方法及工具
CN111966686B (zh) * 2020-08-18 2023-07-11 江苏省农业科学院 一种基于数据关联模型的产品深度溯源方法
CN112559257B (zh) * 2021-02-19 2021-07-13 深圳市中科鼎创科技股份有限公司 基于数据筛选的数据存储方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661493A (zh) * 2009-07-29 2010-03-03 中国人民解放军海军航空工程学院 一种交互式电子技术手册浏览系统
KR101047956B1 (ko) * 2010-08-27 2011-07-12 엘아이지넥스원 주식회사 Xml 기반 대화형 전자기술교범 장치 및 전자기술교범 구축방법
CN104156346A (zh) * 2014-08-11 2014-11-19 中国人民解放军军械工程学院 基于模板的ietm描述性数据录入装置及其录入方法
CN104657903A (zh) * 2015-03-12 2015-05-27 四川航天系统工程研究所 基于ietm的装备综合保障系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100567390B1 (ko) * 2005-01-03 2006-04-04 국방과학연구소 군수지원분석 자료를 이용한 전자식 기술교범 및 종이교범 통합 저작 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661493A (zh) * 2009-07-29 2010-03-03 中国人民解放军海军航空工程学院 一种交互式电子技术手册浏览系统
KR101047956B1 (ko) * 2010-08-27 2011-07-12 엘아이지넥스원 주식회사 Xml 기반 대화형 전자기술교범 장치 및 전자기술교범 구축방법
CN104156346A (zh) * 2014-08-11 2014-11-19 中国人民解放军军械工程学院 基于模板的ietm描述性数据录入装置及其录入方法
CN104657903A (zh) * 2015-03-12 2015-05-27 四川航天系统工程研究所 基于ietm的装备综合保障系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于GJB6600标准的IETM系统研究与应用;都业涛等;《信息技术》;20120331;第141-149页 *
基于SCLA的IETM信息片段检索技术的研究;崔木子;《中国优秀硕士学位论文全文数据库》;20140415;第I138-1216页 *
智能IETM语义检索系统设计与实现;张永恒等;《电子设计工程》;20120930;第20卷(第17期);第19-22页 *

Also Published As

Publication number Publication date
CN104899340A (zh) 2015-09-09

Similar Documents

Publication Publication Date Title
CN104899340B (zh) 一种基于最紧致片段的ietm技术信息片段检索装置及其检索方法
Lerman et al. Using the structure of web sites for automatic segmentation of tables
CN110502621A (zh) 问答方法、问答装置、计算机设备及存储介质
CN101430695B (zh) 用于计算单词之间的差相关度的系统和方法
CN109992645A (zh) 一种基于文本数据的资料管理系统及方法
US20120109972A1 (en) System and method for identifying similar molecules
CN103886020B (zh) 一种房地产信息快速搜索方法
CN102119383A (zh) 便利内容检索服务系统内本体和语言模型生成的信息获取和汇聚方法及子系统
CN105677638B (zh) Web信息抽取方法
CN107958067A (zh) 一种基于无标注自动特征提取的大规模电商图片检索系统
CN109344187A (zh) 一种司法判决书案情信息结构化处理系统
CN107515934A (zh) 一种基于大数据的电影语义个性化标签优化方法
CN107436955A (zh) 一种基于Wikipedia概念向量的英文词语相关度计算方法和装置
CN112148885A (zh) 一种基于知识图谱的智能搜索方法及系统
CN103514289A (zh) 一种兴趣本体库构建方法及装置
CN109086255A (zh) 一种基于深度学习的参考文献自动标注方法及系统
JP4045400B2 (ja) 検索装置及び検索方法
CN107330111A (zh) 基于通用形式化本体的领域本体的检索方法及装置
CN110795932B (zh) 基于地质本体的地质报告文本信息提取方法
CN111599479A (zh) 一种基于icd9-cm-3的手术知识图谱构建方法和装置
Peralta Extraction and integration of movielens and imdb data
CN101639840A (zh) 网络信息语义结构识别方法和装置
CN109446399A (zh) 一种影视实体搜索方法
US20080015843A1 (en) Linguistic Image Label Incorporating Decision Relevant Perceptual, Semantic, and Relationships Data
Elbassuoni et al. ROXXI: Reviving witness dOcuments to eXplore eXtracted Information

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An IETM technology information fragment retrieval device based on the most compact fragment and its retrieval method

Effective date of registration: 20200903

Granted publication date: 20180123

Pledgee: Harbin Kechuang Financing Guarantee Co.,Ltd.

Pledgor: HARBIN ENGINEERING UNIVERSITY SHIP EQUIPMENT & TECHNOLOGY Co.,Ltd.

Registration number: Y2020230000009

PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20211011

Granted publication date: 20180123

Pledgee: Harbin Kechuang Financing Guarantee Co.,Ltd.

Pledgor: HARBIN ENGINEERING UNIVERSITY SHIP EQUIPMENT & TECHNOLOGY Co.,Ltd.

Registration number: Y2020230000009

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An IETM technology information fragment retrieval device based on the most compact fragment and its retrieval method

Effective date of registration: 20220104

Granted publication date: 20180123

Pledgee: Harbin Kechuang Financing Guarantee Co.,Ltd.

Pledgor: HARBIN ENGINEERING UNIVERSITY SHIP EQUIPMENT & TECHNOLOGY CO.,LTD.

Registration number: Y2022230000005

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230215

Granted publication date: 20180123

Pledgee: Harbin Kechuang Financing Guarantee Co.,Ltd.

Pledgor: HARBIN ENGINEERING UNIVERSITY SHIP EQUIPMENT & TECHNOLOGY CO.,LTD.

Registration number: Y2022230000005

PC01 Cancellation of the registration of the contract for pledge of patent right