CN111061828A - 一种数字图书馆知识检索方法及装置 - Google Patents
一种数字图书馆知识检索方法及装置 Download PDFInfo
- Publication number
- CN111061828A CN111061828A CN201911199171.0A CN201911199171A CN111061828A CN 111061828 A CN111061828 A CN 111061828A CN 201911199171 A CN201911199171 A CN 201911199171A CN 111061828 A CN111061828 A CN 111061828A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- rdf
- rdf triple
- retrieval
- triple
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及知识检索技术领域,公开了一种数字图书馆知识检索方法,包括以下步骤:对数字图书馆馆藏的资料进行逐句处理得到揭示知识内容的关键语句;根据定义的知识单元结构模型将所述关键语句转换为知识单元;将每一所述知识单元均拆分为多个RDF三元组,根据各所述RDF三元组创建实例索引;根据所有所述知识单元之间的关联关系创建类索引;获取用户输入信息,在所述实例索引中检索与所述用户输入信息相关的选定RDF三元组,在所述类索引中检索所述选定RDF三元组相关的关联RDF三元组;根据所述选定RDF三元组及其关联RDF三元组返回检索结果。本发明可实现细粒度检索,知识集成度高。
Description
技术领域
本发明涉及知识检索技术领域,具体涉及一种数字图书馆知识检索方法及装置。
背景技术
随着语义Web活动逐渐取得良好的发展势头,关联数据模式成为解决智能信息管理领域面临的最大挑战的强有力候选人。就像人们在网页上发布非结构化文本信息,并使用基于关键字的搜索引擎搜索这些信息一样,关联数据技术已经能够轻松地发布结构化信息,可靠地将这些信息与网络上发布的其他数据相互联系起来,并通过使用更多的表达式查询搜索结果数据空间,从而超越简单的关键字搜索。关联数据模式已经演变为将当前面向文档的Web转换为互联数据网络的强大推动因素,并最终推动语义Web的进一步发展。
当前,图书馆界应用关联数据主要是利用关联数据整合分布式异构数据源的能力,主要应用方式有两种形式:
1)、图书馆将自身特色数据以关联数据的形式发布,并将这些关联数据推送到网络中。这种应用方式是当前图书馆界应用最为广泛的方式,如美国国会图书馆、瑞典国家图书馆、法国国家图书馆等多个国家级图书馆在应用关联数据初期都是采用这种应用方式,发布了包括书目数据、规范数据等在内的18个关联数据集。其中,瑞典联合目录LIBRIS作为全球率先关联数据化的联合目录,由瑞典皇家图书馆负责管理,将其书目数据发布成关联数据,开放了来自于全世界200多个成员图书馆约650多万条书目记录和25万多条规范文档记录,并创建了与DBpedia的链接。此外,LIBRIS还发布了包括对国会图书馆主题词表的互联在内的书目、文档记录以及规范之间的关联。
2)、利用关联数据扩展图书馆资源,如通过关联数据扩展其目录检索界面、浏览更多更新结果、展示更多馆藏信息等,将自身数据与其他图书馆、档案馆以及博物馆等的数据进行互联,从而扩展自身资源的范围,共享数据。OpenLibrary是一个为了构建“每一本书都有一个网页”这个目标的网页,到目前为止,已经收集了约30多亿条记录(其中有1340万条记录可通过网站获取)。现已建立了用于处理大量动态信息的全新数据库基础设施和维基(wiki)界面,用户可以搜索数百万本书籍记录,以及对23万多张扫描图书进行全文检索。在开放数据共享许可协议下,英国的哈德斯菲尔德大学图书馆将自身的流通数据和荐购数据共享给其他图书馆,这也为他馆在探究读者借阅兴趣以及馆藏资源建设等方面提供了很大的帮助。
关联数据在图书馆中的应用一定程度上实现了图书馆的数字化以及信息化,但是仍然存在不足之处。服务粒度过大,数字图书馆的知识服务较传统图书馆虽然有了较大的提升,可以不受时间和空间的限制随时随地向用户提供知识服务,知识服务的速度和效率也有了较大的提高,但数字图书馆仍然延续了传统图书馆的知识服务方式,也即通常以一篇文章、一本书等为知识单元向用户提供知识服务,缺少基于知识内容本身的细粒度的知识服务,知识服务的粒度过大,在很多情况下,用户不得不进一步从这些文献中过滤和查找自己所需的知识,从而增加了用户的认知负担和时间成本,使得数字图书馆提供的知识服务方式的易用性大大降低。集成度不高,当前,数字图书馆在提供知识服务时,通常只是简单地将与用户需求相关的文章、期刊、书等文献资源按照某种次序(如时间、相关度等)进行罗列,或者按照学科主题对这些文献资源进行分类,或者依据文献作者、作者所在机构以及文献之间的引用参见关系对数字文献资源进行简单聚合等。通过比较分析不难发现这些知识服务方式仅仅是对传统图书馆提供的知识服务方式的数字化,仍然停留在对文献整体的外部形势特征或主题特征进行揭示和组织之上,并没有实质性的进展与变化,未能充分发挥数字图书馆在技术上的优势,数字文献资源之间并没有建立知识层次上的语义关联,数字文献资源仍然是以孤立的形式存在,未能深入揭示文献所载荷的知识之间的内在逻辑联系,进而导致当前数字图书馆提供的知识服务集成度不高,使得知识饥渴的人们淹没在知识的海洋里,却不知从哪里及时获得解渴的知识。
发明内容
本发明的目的在于克服上述技术不足,提供一种数字图书馆知识检索方法,解决现有技术中服务粒度大,易用性低,存储的资料之间相互独立,未能进行关联检索的技术问题
为达到上述技术目的,本发明的技术方案提供一种数字图书馆知识检索方法,包括以下步骤:
对数字图书馆馆藏的资料进行逐句处理得到揭示知识内容的关键语句;
根据定义的知识单元结构模型将所述关键语句转换为知识单元;
将每一所述知识单元均拆分为多个RDF三元组,根据各所述RDF三元组创建实例索引;
获取用户输入信息,在所述实例索引中检索与所述用户输入信息相关的选定RDF三元组;
根据所述选定RDF三元组及其关联RDF三元组返回检索结果。
本发明还提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现所述数字图书馆知识检索方法。
本发明还提供一种数字图书馆知识检索装置,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现所述数字图书馆知识检索方法。
与现有技术相比,本发明的有益效果包括:以知识单元的形式对资料进行表示,并将知识单元分解为多个RDF三元组,多个RDF三元组多粒度多维度的描述了资料的内容。基于RDF三元组建立的实例索引实现了知识内容本身的细粒度检索,相匹配的是知识内容本身,而不是知识载体,从而做到精准查询,实现检索即所得,大大降低了数字图书馆用户的使用成本和负担,提高数字图书馆用户的满意度。同时,根据知识单元之间的关联关系建立类索引,类索引将各知识单元之间相互关联,解释了知识单元之间的内在逻辑联系,从而实现了实例检索基础之上的关联检索,大大提高了数字图书馆提供的知识服务的集成度。
附图说明
图1是本发明提供的数字图书馆知识检索方法一实施方式的流程图;
图2发明提供的数字图书馆知识检索方法一实施方式的语义检索流程图;
图3明提供的数字图书馆知识检索方法一实施方式的简单检索流程图;
图4明提供的数字图书馆知识检索方法一实施方式的高级检索流程图;
图5明提供的数字图书馆知识检索方法一实施方式的语句检索流程图;
图6本发明提供的数字图书馆知识检索方法一实施方式的检索结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例1
如图1所示,本发明的实施例1提供了数字图书馆知识检索方法,包括以下步骤:
S1、对数字图书馆馆藏的资料进行逐句处理得到揭示知识内容的关键语句;根据定义的知识单元结构模型将所述关键语句转换为知识单元;
S2、将每一所述知识单元均拆分为多个RDF三元组,根据各所述RDF三元组创建实例索引;根据所有所述知识单元之间的关联关系创建类索引;
S3、获取用户输入信息,在所述实例索引中检索与所述用户输入信息相关的选定RDF三元组,在所述类索引中检索所述选定RDF三元组相关的关联RDF三元组;
S4、根据所述选定RDF三元组及其关联RDF三元组返回检索结果。
本实施例提供的检索方法,首先是对馆藏资源进行逐句处理得到能够揭示知识内容的关键语句,将关键语句根据定义的知识单元结构模型处理成一个知识单元。将一个知识单元分解为多个RDF三元组,由此创建实例索引,实例索引是对最细粒度的知识单元的索引。再获取知识单元间的关联关系,包括上下位关系及同级关系,将这些关系将存储在类索引中,由此创建类索引,类索引的主要作用是保存知识单元之间的粒度关系,整个类索引展现的就是树状结构的知识单元结构关系。最后,基于实例索引和类索引进行检索。在检索时,首先是在实例索引内进行检索,再根据实例检索结果中的知识单元在类索引内进行检索。具体的,与实例索引构建不同的是,类索引采用的分析器是关键词分析器,而RDF三元组是标准分析器,因为类索引要求百分之百匹配。
由于RDF三元组提供了语义信息,基于RDF三元组进行实例查询,可以直接获得与用户知识需求相匹配的知识内容本身,而不是知识载体,从而做到精准查询,实现检索即所得,大大降低了数字图书馆用户的使用成本和负担,提高数字图书馆用户的满意度,较大提高检索的准确性。本发明实施例利用类索引实现多粒度知识检索,利用类索引将不同粒度的知识单元上下关联起来,在具体进行检索时,通过不同粒度大小的知识单元之间的上下关联关系可以很方便的在不同粒度大小的知识单元之间进行跳转,从而实现面向每一个知识单元的关联检索。将类索引与知识单元的内容相关联,在知识检索时就能实现多粒度检索。
优选的,对数字图书馆馆藏的资料进行逐句处理得到揭示知识内容的关键语句,还包括:
对所述关键语句进行人工复核。
为避免自动提取的关键语句有误,无法准确解释资料的知识内容,最好对关键语句进行人工复核,以保证关键语句的准确性。
优选的,所述知识单元结构模型的属性包括知识领域、知识ID、知识名称、知识内容、与其他知识单元的关联关系、发表时间以及知识出处。
本实施例中知识单元的描述架构为<知识领域,知识ID,知识名称,知识内容,关联关系,发表时间,知识出处>。应该理解的,知识单元结构模型还可设置为其他形式。
优选的,将所述知识单元拆分为多个RDF三元组,具体为:
将所述知识单元拆分为与其属性一一对应的RDF三元组;
所述RDF三元组包括主体、谓词以及客体,所述知识单元的单元名称为所述RDF三元组的主体,所述属性为所述RDF三元组的谓词,属性值为所述RDF三元组的客体。
将知识单元拆分RDF三元组形式时,属性名即为RDF三元组中的谓语,主语是描述该知识单元主题的单元名称,宾语是具体的属性值。本实施例中知识单元的描述架构为<知识领域,知识ID,知识名称,知识内容,关联关系,发表时间,知识出处>,将除知识ID以外的其他属性均提取为一个RDF三元组,最终一个知识单元将被拆分成六个RDF三元组。具体的,例如,一个单位名称为A的知识单元为<数据库,123456,数据同步处理方法研究,异构数据库数据同步,上层知识单元为B;下层知识单元为C,2019.01.01,XY学报>,将其拆分为六个RDF三元组,六个RDF三元组具体为:<A,知识领域,数据库>,<A,知识ID,123456>,<A,知识名称,数据同步处理方法研究>,<A,知识内容,异构数据库数据同步>,<A,关联关系,上层知识单元为B;下层知识单元为C>,<A,发表时间,2019.01.01>,<A,知识出处,XY学报>。将知识单元拆分成RDF三元组的好处是检索时可以利用关联数据进行搜索,例如如果不知道知识领域、知识名称,但是可以通过知识内容或者关联关系进行检索,而且结果浏览时也可以返回RDF三元组所构成的知识单元内容。本实施例中,实例索引的建立使用的是lucene提供的索引构建方法,数据来源是MYSQL数据库,在eclipse里对数据库进行读取并同时建立索引。
本发明提供了多种不同的检索方式,并提供相应的检索接口,接口处理过程是用户在选择不同的检索方式后所本系统所采取的不同的检索服务策略,下面将分为简单检索、高级检索、句子检索和语义检索四个子流程来详细说明该过程。
优选的,如图2所示,所述用户输入信息为语义链接时,在所述实例索引中检索与所述用户输入信息相关的选定RDF三元组,具体为:
根据所述语义链接获取与所述语义链接相关的待检索RDF三元组;
在所述实例索引中检索所述待检索RDF三元组,得到多个待选RDF三元组;
获取用户从所述待选RDF三元组中选择的RDF三元组作为所述选定RDF三元组。
语义检索主要是依据关联数据之间的关联关系,引导用户进行逐级关联检索的方式。语义检索以层状结构链接展示给用户,用户在点击某个语义链接后,与该语义链接相关的RDF三元组将被选为待检索的RDF三元组,首先会在实例索引中进行检索从而得到与该RDF三元组主体相同的所有RDF三元组,用户从待选RDF三元组中选择RDF三元组,接着将在类索引中检索选定RDF三元组,得到关联RDF三元组。
优选的,如图3所示,所述用户输入信息为检索词时,在所述实例索引中检索与所述用户输入信息相关的选定RDF三元组,具体为:
在所述实例索引中检索所述检索词,得到与所述检索词相关的所有待选RDF三元组以及客体与所述检索词相关的所有待选RDF三元组;
分别计算各所述待选RDF三元组与所述检索词的相关度,选择相关度最高的待选RDF三元组作为所述选定RDF三元组。
在简单检索时,将用户输入的检索词在实例索引中进行检索,根据用户输入的检索词进行匹配,得到主体或客体与检索词相关的所有待选RDF三元组,选择相关度最高的待选RDF三元组作为选定RDF三元组。
优选的,如图4所示,所述用户输入信息为RDF三元组的属性值时,在所述实例索引中检索与所述用户输入信息相关的选定RDF三元组,具体为:
在所述实例索引中检索所述属性值,得到与所述属性值相关的所有待选RDF三元组;
分别计算各所述待选RDF三元组与所述属性值的相关度,选择相关度最高的待选RDF三元组作为所述选定RDF三元组。
高级检索为用户提供了直接输入语义信息的检索接口,用户可以直接输入<主体、谓词、客体>进行检索,因此高级检索又叫做RDF三元组检索,高级检索为用户提供更为专业的检索服务,用户需要填入需要检索的知识的RDF三元组属性值,即<主体,谓语,客体>中的至少一个属性值,在实例索引中检索客户输入的属性值,得到待选RDF三元组,再根据相关度筛选选定RDF三元组。不同于其他检索方式,这里对主体、谓语和客体的检索范围取决于用户的具体选择,既可以只检索其中一项,也可以检索任意两项的组合或者全部三项。
优选的,如图5所示,所述用户输入信息为检索语句时,在所述实例索引中检索与所述用户输入信息相关的选定RDF三元组,具体为:
对所述检索语句进行分词处理,得到语句关键词,根据语句关键词的属性为其赋权值;
对各所述知识单元的每一属性值进行分词处理,得到知识关键词,并根据所述指示关键词建立用户词典;
在所述用户词典检索所述语句关键词,如果检索到所述用户词典中存在所述语句关键词,则调整所述语句关键词的权值;
在所述实例索引中分别检索与每一所述语句关键词相关的待选RDF三元组,并将语句关键词的权值赋给相应的RDF三元组;
计算每一所述RDF三元组的权值之和;
筛选出权值之和最大的待选RDF三元组作为所述选定RDF三元组。
在语句检索中,用户可以直接使用自然语言语句来描述自己的信息需求,在检索时根据检索语句的语法和语义信息进行自然语言处理得到有权值的语句关键词序列,再根据语句关键词与RDF三元组进行匹配得到检索结果。首先用户输入需要检索的检索语句,对检索语句进行词性划分、去除停用词的自然语言处理,得到语句关键词序列,每个语句关键词根据其在检索语句中的重要程度被赋予不同权值。接着,在实例索引中检索语句关键词,检索范围为知识内容属性,如果某个语句关键词在一个知识单元中被检索到,则为与该知识单元映射的待选RDF三元组赋予该语句关键词的权值,所有关键词检索完成后,计算各待选RDF三元组权值之和,权值之和最高的待选RDF三元组即为抽取出的选定RDF三元组。
具体的,语句检索的实现需要进行词性标注及语义识别和划分,本实施例使用的是中科院开发的NLPIR中文分词系统作为分词工具。用户使用句子检索后,对所输入的检索语句进行分词,这里对检索语句的分词处理采用的是NLPIR的另一种分词方式(nlp.main.NLPIR_ParagraphProcess),会将整个检索语句进行词性划分和权值评价,所有词都被保留,使用这种方法的主要原因是句子检索提供的句子词数一般有限,而且为了提高匹配的精准度,也需要尽可能多的词来与知识单元的关键词进行匹配。另外,因为知识单元中的关键词绝大多数都是名词、动词、副词的词性,为了提高匹配效率,会对用户输入检索语句分词后再进行词性过滤,滤除名词、动词、副词以外词性的词。
优选借助用户词典对语句关键词的权值进行进一步修正完善,具体的,首先对知识单元进行分词得到知识关键词,根据知识关键词建立用户词典。这里操作的对象不是RDF三元组,而是知识单元,因为句子检索中的检索语句能够提供一个相对较完整的语境,知识单元的属性值比RDF三元组更适合对检索语句进行检索定位。具体的,知识单元的知识内容属性的分词调用关键词划分方法(NLPIR_GetKeyWords),NLPIR在分词时,会根据语义和词性选择出设定数量的知识关键词和对应的权值,权值越大,该知识关键词的重要性越高,本实施例选择了分词结果中权值最高的前十四个知识关键词作为知识单元的知识内容属性的分词结果,十四个词已经能够较为完整的表达知识内容。知识单元的其它五个属性(知识领域,知识名称,关联关系,发表时间,知识出处)直接采用lucene的标准分析器进行分词。建立用户词典时,可选择知识单元的一个或几个属性值进行建立。本实施例选择知识单元的知识名称、知识领域、知识出处这三种较重要的属性值收入用户词典中,如果在检索语句中识别出了用户词典中的知识关键词,则为其赋予一个指定的权值,本实施例中知识名称的权值最高,知识领域次之,知识出处最低。
关于知识关键词与语句关键词的不同匹配方法。如果语句关键词是<知识领域、知识名称,知识出处>,在语句检索时调用NLPIR的添加用户词典方法,将语句关键词作为一个词性划分添加至用户词典,这个方法的特点是只在这次调用时有效,也就是说在调用结束后语句关键词不会存在在用户词典中,因此该匹配过程会在进行语句检索后响应的而非构建类索引时响应。知识单元中的知识内容属性是多域检索,因为NLPIR在分词时已经考虑了语义问题,它所给出的无论是关键词列表还是直接分词列表的顺序已经包含单词在句中所处位置的因素,因此语句检索时可以采用lucene的多域查询,可以包含整个知识单元的知识关键词索引。对在不同属性域检索到的语句关键词给予不同的权值,例如,知识领域权值为1;知识名称权值为100;知识时间权值为2;知识出处权值为10;知识内容权值为1。权值既要考虑该属性的词出现在句中时对知识单元划分的影响程度,也要考虑该属性的词在句中出现的次数问题。权值可以根据具体情况进行自定义调整。
具体的,当用户输入的检索语句为问句时,对用户输入的检索语句进行分析,判断是单问句还是多问句,如果是多问句,则借助问句分隔模块将多问句分隔为多个单问句;紧接着,对每个单问句进行分词/词性标注,并去除没有实在意义的停用词,实现分词,得到语句关键词;而后,借助命名实体识别模块,识别出单问句中包含的实体,并依据实体的个数对单问句的类型进行划分;接着借助依存句法分析模块对各单问句中的元素进行依存关系分析;其次,依据单问句中元素的依存关系及疑问词与疑问焦点的映射表提取RDF三元组中的元素,实现问句的RDF三元组的提取,从而将语句检索转换为了高级检索,应用高级检索的方法进行后续检索过程即可完成基于问句的检索。
优选的,根据所有所述知识单元之间的关联关系创建类索引,具体为:
将所述知识单元的单元名称与中国分类主题词表进行对照得到知识单元间的关联关系,所述关联关系包括上位关系、下位关系以及同级关系;
将所述知识单元的单元名称定义为标识属性,将所述知识单元的上位关系定义为上位属性,将所述知识单元的下位关系定义为下位属性,得到所述类索引。
为每一个知识单元定义上位属性和下位属性,从而建立类索引。类索引的属性有两个<上级,下级>,事实上,整个类索引展现的就是树状结构的知识结构关系。
优选的,在所述类索引中检索所述选定RDF三元组相关的关联RDF三元组,具体为:
在所述类索引中查询所述选定RDF三元组的主体,得到所述选定RDF三元组的上位RDF三元组和下位RDF三元组;
在所述类索引中查询所述上位RDF三元组的主体,得到所述上位RDF三元组的下位RDF三元组,即所述选定RDF三元组的同级RDF三元组;
所述上位RDF三元组、下位RDF三元组以及同级RDF三元组即所述选定RDF三元组的关联RDF三元组。
类索引中有两个属性:上级和下级,简单的属性可以降低数据的依赖性,而且这两个属性也足够完整的构建出整个多粒度层级树,得到各知识单元之间的关联关系。而知识单元之间的关联关系和类索引是相互配合的,关联关系需要三个层级的数据,在类索引处根据知识单元的单元名称进行检索,分别在两个Field里检索,便可以得到三个层级的相关数据。具体的,在类索引中检索选定RDF三元组,得到与该选定RDF三元组相关的三个层级(上位、同级及下位关系)的所有RDF三元组,在这里将会进行两次查询,首先查询该选定RDF三元组的主体,得到其上位RDF三元组和下位RDF三元组,接着查询其上位RDF三元组的主体,得到上位RDF三元组的下位RDF三元组,即为该选定RDF三元组的同级RDF三元组,最后得到与选定RDF三元组有关联的所有的RDF三元组。
优选的,根据所述选定RDF三元组及其关联RDF三元组返回检索结果,具体为:
以所述选定RDF三元组及其关联RDF三元组相对应的知识单元作为检索结果,返回所述检索结果;
根据所述类索引绘制所述检索结果中各知识单元之间的关联图,并显示所述关联图。
本实施例在进行关联检索的基础上,对检索结果的关联以关联图的形式进行直观显示,以可视化的方式展示不同粒度的知识单元之间的关联关系,动态的关联图以生动的图形来表示知识单元之间的关联关系,可以方便地看到知识单元的上下层级。用户在动态关联图中点击某个知识单元便可以实现该知识单元的检索,如果是上层知识单元,则会显示出该知识单元所包含的所有相关知识内容,同时关联图也会发生变化,显示该知识单元的关联关系。动态的关联图是类索引应用的体现,它的好处是直接以可视化图形的方式表现不同粒度大小的知识单元之间的层级结构,清晰直观。对于一个知识单元,动态关联图会显示出它的上级知识单元、同级知识单元以及下级知识单元。用户如果想查看相关的知识单元,直接在图形上点击就会跳转到新知识单元的关联图。图6中示出了根据本实施例进行检索得到关联图,图6中,复本量即选定RDF三元组对应的知识单元的单元名称,图书补充为选定RDF三元组的上位RDF三元组对应的知识单元的单元名称,藏书质量、复本书、图书采购、图书征集、选书以及赠书为选定RDF三元组的同级RDF三元组对应的知识单元的单元名称。
实施例2
本发明的实施例2提供了计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现以上实施例提供的所述的数字图书馆知识检索方法。
本发明实施例提供的计算机存储介质,用于实现数字图书馆知识检索方法,因此,上述数字图书馆知识检索方法所具备的技术效果,计算机存储介质同样具备,在此不再赘述。
实施例3
本发明的实施例3提供了数字图书馆知识检索装置,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现以上实施例提供的数字图书馆知识检索方法。
本发明实施例提供的数字图书馆知识检索装置,用于实现数字图书馆知识检索方法,因此,上述数字图书馆知识检索方法所具备的技术效果,数字图书馆知识检索装置同样具备,在此不再赘述。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。
Claims (13)
1.一种数字图书馆知识检索方法,其特征在于,包括以下步骤:
对数字图书馆馆藏的资料进行逐句处理得到揭示知识内容的关键语句;根据定义的知识单元结构模型将所述关键语句转换为知识单元;
将每一所述知识单元均拆分为多个RDF三元组,根据各所述RDF三元组创建实例索引;根据所有所述知识单元之间的关联关系创建类索引;
获取用户输入信息,在所述实例索引中检索与所述用户输入信息相关的选定RDF三元组,在所述类索引中检索所述选定RDF三元组相关的关联RDF三元组;
根据所述选定RDF三元组及其关联RDF三元组返回检索结果。
2.根据权利要求1所述的数字图书馆知识检索方法,其特征在于,对数字图书馆馆藏的资料进行逐句处理得到揭示知识内容的关键语句,还包括:
对所述关键语句进行人工复核。
3.根据权利要求1所述的数字图书馆知识检索方法,其特征在于,所述知识单元结构模型的属性包括知识领域、知识ID、知识名称、知识内容、与其他知识单元的关联关系、发表时间以及知识出处。
4.根据权利要求3所述的数字图书馆知识检索方法,其特征在于,将所述知识单元拆分为多个RDF三元组,具体为:
将所述知识单元拆分为与其属性一一对应的RDF三元组;
所述RDF三元组包括主体、谓词以及客体,所述知识单元的单元名称为所述RDF三元组的主体,所述属性为所述RDF三元组的谓词,属性值为所述RDF三元组的客体。
5.根据权利要求1所述的数字图书馆知识检索方法,其特征在于,所述用户输入信息为语义链接时,在所述实例索引中检索与所述用户输入信息相关的选定RDF三元组,具体为:
根据所述语义链接获取与所述语义链接相关的待检索RDF三元组;
在所述实例索引中检索所述待检索RDF三元组,得到多个待选RDF三元组;
获取用户从所述待选RDF三元组中选择的RDF三元组作为所述选定RDF三元组。
6.根据权利要求1所述的数字图书馆知识检索方法,其特征在于,所述用户输入信息为检索词时,在所述实例索引中检索与所述用户输入信息相关的选定RDF三元组,具体为:
在所述实例索引中检索所述检索词,得到与所述检索词相关的所有待选RDF三元组以及客体与所述检索词相关的所有待选RDF三元组;
分别计算各所述待选RDF三元组与所述检索词的相关度,选择相关度最高的待选RDF三元组作为所述选定RDF三元组。
7.根据权利要求1所述的数字图书馆知识检索方法,其特征在于,所述用户输入信息为RDF三元组的属性值时,在所述实例索引中检索与所述用户输入信息相关的选定RDF三元组,具体为:
在所述实例索引中检索所述属性值,得到与所述属性值相关的所有待选RDF三元组;
分别计算各所述待选RDF三元组与所述属性值的相关度,选择相关度最高的待选RDF三元组作为所述选定RDF三元组。
8.根据权利要求1所述的数字图书馆知识检索方法,其特征在于,所述用户输入信息为检索语句时,在所述实例索引中检索与所述用户输入信息相关的选定RDF三元组,具体为:
对所述检索语句进行分词处理,得到语句关键词及其相应的权值;
对各所述知识单元的每一属性值进行分词处理,得到知识关键词,并根据所述知识关键词建立用户词典;
在所述用户词典检索所述语句关键词,如果检索到所述用户词典中存在所述语句关键词,则调整所述语句关键词的权值;
在所述实例索引中分别检索与每一所述语句关键词相关的待选RDF三元组,并将语句关键词的权值赋给相应的RDF三元组;
计算每一所述RDF三元组的权值之和;
筛选出权值之和最大的待选RDF三元组作为所述选定RDF三元组。
9.根据权利要求1所述的数字图书馆知识检索方法,其特征在于,根据所有所述知识单元之间的关联关系创建类索引,具体为:
将所述知识单元的单元名称与中国分类主题词表进行对照得到知识单元间的关联关系,所述关联关系包括上位关系、下位关系以及同级关系;
将所述知识单元的单元名称定义为标识属性,将所述知识单元的上位关系定义为上位属性,将所述知识单元的下位关系定义为下位属性,得到所述类索引。
10.根据权利要求1所述的数字图书馆知识检索方法,其特征在于,在所述类索引中检索所述选定RDF三元组相关的关联RDF三元组,具体为:
在所述类索引中查询所述选定RDF三元组的主体,得到所述选定RDF三元组的上位RDF三元组和下位RDF三元组;
在所述类索引中查询所述上位RDF三元组的主体,得到所述上位RDF三元组的下位RDF三元组,即所述选定RDF三元组的同级RDF三元组;
所述上位RDF三元组、下位RDF三元组以及同级RDF三元组即所述选定RDF三元组的关联RDF三元组。
11.根据权利要求1所述的数字图书馆知识检索方法,其特征在于,根据所述选定RDF三元组及其关联RDF三元组返回检索结果,具体为:
以所述选定RDF三元组及其关联RDF三元组相对应的知识单元作为检索结果,返回所述检索结果;
根据所述类索引绘制所述检索结果中各知识单元之间的关联图,并显示所述关联图。
12.一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如权利要求1-11任一所述的数字图书馆知识检索方法。
13.一种数字图书馆知识检索装置,其特征在于,包括处理器以及存储器,所述存储器上存储有计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1-11任一所述的数字图书馆知识检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911199171.0A CN111061828B (zh) | 2019-11-29 | 2019-11-29 | 一种数字图书馆知识检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911199171.0A CN111061828B (zh) | 2019-11-29 | 2019-11-29 | 一种数字图书馆知识检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111061828A true CN111061828A (zh) | 2020-04-24 |
CN111061828B CN111061828B (zh) | 2023-08-29 |
Family
ID=70299336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911199171.0A Active CN111061828B (zh) | 2019-11-29 | 2019-11-29 | 一种数字图书馆知识检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111061828B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434168A (zh) * | 2020-11-09 | 2021-03-02 | 广西壮族自治区图书馆 | 基于图书馆的知识图谱构建方法、碎片化知识生成方法 |
CN113094517A (zh) * | 2021-04-27 | 2021-07-09 | 中国美术学院 | 一种产品知识单元的构建方法和系统 |
CN116719954A (zh) * | 2023-08-04 | 2023-09-08 | 中国人民解放军海军潜艇学院 | 一种信息检索方法、电子设备及存储介质 |
CN116756375A (zh) * | 2023-05-09 | 2023-09-15 | 中电科大数据研究院有限公司 | 一种基于图谱的异构数据的处理系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101013440A (zh) * | 2007-01-12 | 2007-08-08 | 王宏源 | 一种基于图书知识元构建数字图书馆的方法 |
CN105512152A (zh) * | 2014-10-16 | 2016-04-20 | 江苏凯旋涂装自动化工程有限公司 | 一种基于本体的动态语义检索方法 |
CN106021457A (zh) * | 2016-05-17 | 2016-10-12 | 福州大学 | 基于关键词的rdf分布式语义搜索方法 |
US20170308792A1 (en) * | 2014-08-06 | 2017-10-26 | Prysm, Inc. | Knowledge To User Mapping in Knowledge Automation System |
US20170374092A1 (en) * | 2016-06-23 | 2017-12-28 | Bank Of America Corporation | System for monitoring and addressing events based on triplet metric analysis |
CN108205564A (zh) * | 2016-12-19 | 2018-06-26 | 北大方正集团有限公司 | 知识体系构建方法及系统 |
US10353960B1 (en) * | 2015-05-04 | 2019-07-16 | Google Llc | Systems and methods for caching structural elements of electronic documents |
US20190285407A1 (en) * | 2018-03-13 | 2019-09-19 | Kla-Tencor Corporation | Overlay Metrology System and Method |
-
2019
- 2019-11-29 CN CN201911199171.0A patent/CN111061828B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101013440A (zh) * | 2007-01-12 | 2007-08-08 | 王宏源 | 一种基于图书知识元构建数字图书馆的方法 |
US20170308792A1 (en) * | 2014-08-06 | 2017-10-26 | Prysm, Inc. | Knowledge To User Mapping in Knowledge Automation System |
CN105512152A (zh) * | 2014-10-16 | 2016-04-20 | 江苏凯旋涂装自动化工程有限公司 | 一种基于本体的动态语义检索方法 |
US10353960B1 (en) * | 2015-05-04 | 2019-07-16 | Google Llc | Systems and methods for caching structural elements of electronic documents |
CN106021457A (zh) * | 2016-05-17 | 2016-10-12 | 福州大学 | 基于关键词的rdf分布式语义搜索方法 |
US20170374092A1 (en) * | 2016-06-23 | 2017-12-28 | Bank Of America Corporation | System for monitoring and addressing events based on triplet metric analysis |
CN108205564A (zh) * | 2016-12-19 | 2018-06-26 | 北大方正集团有限公司 | 知识体系构建方法及系统 |
US20190285407A1 (en) * | 2018-03-13 | 2019-09-19 | Kla-Tencor Corporation | Overlay Metrology System and Method |
Non-Patent Citations (3)
Title |
---|
余良胜: "海量RDF数据的存储与查询研究", vol. 37, pages 2 * |
周志超: "国内知识元研究的缘起与发展脉络", vol. 37, no. 10, pages 260 * |
黄容: "数字图书馆数值知识元检索系统设计", vol. 62, no. 14, pages 3 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112434168A (zh) * | 2020-11-09 | 2021-03-02 | 广西壮族自治区图书馆 | 基于图书馆的知识图谱构建方法、碎片化知识生成方法 |
CN113094517A (zh) * | 2021-04-27 | 2021-07-09 | 中国美术学院 | 一种产品知识单元的构建方法和系统 |
CN116756375A (zh) * | 2023-05-09 | 2023-09-15 | 中电科大数据研究院有限公司 | 一种基于图谱的异构数据的处理系统 |
CN116756375B (zh) * | 2023-05-09 | 2024-05-07 | 中电科大数据研究院有限公司 | 一种基于图谱的异构数据的处理系统 |
CN116719954A (zh) * | 2023-08-04 | 2023-09-08 | 中国人民解放军海军潜艇学院 | 一种信息检索方法、电子设备及存储介质 |
CN116719954B (zh) * | 2023-08-04 | 2023-10-17 | 中国人民解放军海军潜艇学院 | 一种信息检索方法、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111061828B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9864808B2 (en) | Knowledge-based entity detection and disambiguation | |
US9659084B1 (en) | System, methods, and user interface for presenting information from unstructured data | |
US9305100B2 (en) | Object oriented data and metadata based search | |
US8805843B2 (en) | Information mining using domain specific conceptual structures | |
CN110555153A (zh) | 一种基于领域知识图谱的问答系统及其构建方法 | |
US10387469B1 (en) | System and methods for discovering, presenting, and accessing information in a collection of text contents | |
CN111061828A (zh) | 一种数字图书馆知识检索方法及装置 | |
US10552467B2 (en) | System and method for language sensitive contextual searching | |
Hienert et al. | Digital library research in action–supporting information retrieval in sowiport | |
AU2008292781B2 (en) | Identification of semantic relationships within reported speech | |
US20120078926A1 (en) | Efficient passage retrieval using document metadata | |
US20120162244A1 (en) | Image search color sketch filtering | |
US10437824B2 (en) | Querying across a composite join of multiple database tables using a search engine index | |
US20150026159A1 (en) | Digital Resource Set Integration Methods, Interfaces and Outputs | |
US20110119261A1 (en) | Searching using semantic keys | |
US20120179709A1 (en) | Apparatus, method and program product for searching document | |
Spitz et al. | EVELIN: Exploration of event and entity links in implicit networks | |
KR102256007B1 (ko) | 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법 | |
Toti et al. | On the road to speed-reading and fast learning with CONCEPTUM | |
Carmel et al. | Entity oriented search and exploration for cultural heritage collections: the EU cultura project | |
Kalender et al. | Skmt: A semantic knowledge management tool for content tagging, search and management | |
Martinez et al. | The semantic web approach to increasing access to cultural heritage | |
Mahdi et al. | Review of techniques in faceted search applications | |
Ibekwe‐SanJuan | Constructing and maintaining knowledge organization tools: a symbolic approach | |
Oramas et al. | Automatic creation of knowledge graphs from digital musical document libraries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |