CN116244344B

CN116244344B - 基于用户需求的检索方法、装置以及电子设备

Info

Publication number: CN116244344B
Application number: CN202211489184.3A
Authority: CN
Inventors: 陈博立; 孙坦; 赵瑞雪; 鲜国建; 李娇; 黄永文
Original assignee: Agricultural Information Institute of CAAS
Current assignee: Agricultural Information Institute of CAAS
Priority date: 2022-11-25
Filing date: 2022-11-25
Publication date: 2023-09-05
Anticipated expiration: 2042-11-25
Also published as: CN116244344A

Abstract

本申请提供了一种基于用户需求的检索方法、装置以及电子设备，其中，该方法包括：获取用户检索问句和用户期望返回形式；根据用户检索问句和检索意图存储方案，生成检索意图解析结果；将检索意图解析结果进行形式化转换，得到查询语句；根据查询语句、索引库以及知识图谱，得到检索结果；根据用户期望返回形式、检索意图解析结果、查询语句以及检索结果，输出检索关联信息。通过本申请，解决了相关技术中存在无法准确理解用户的检索需求，进而无法精准高效筛选和获取文献的问题。

Description

基于用户需求的检索方法、装置以及电子设备

技术领域

本发明涉及科技文献知识服务技术领域，尤其涉及一种基于用户需求的检索方法、装置以及电子设备。

背景技术

现有的科技文献检索技术通过用户选择检索对象分类并填写关键词，将检索对象、关键词等通过运算符组合后向文献检索系统提交。文献检索系统再基于关键词匹配的传统信息检索技术进行语义扩展检索，通常包括两个步骤：对用户输入的检索式进行语义扩展和对知识资源进行语义组织。对关键词检索式进行语义扩展主要利用知识组织体系和自然语言处理技术对关键词进行概念消歧与概念扩增；对知识资源进行语义组织主要通过引入叙词表、本体、知识图谱来实现。

然而，关键词检索式主要实现了检索系统“了解”自身拥有的资源，并未完全“读懂”用户的检索需求。用户的检索需求通常蕴藏于自然语言之中。当前主流检索服务忽略了用户需求的语义性，仍要求用户首先学会各类检索方法，而后花费大量时间构建、修改以关键词为主体的检索式，检索系统再基于切分关键词进行匹配检索，此后用户再花费较多时间对结果进行甄别筛选。以上过程将耗费科研人员较多时间与精力，降低了知识获取效率。究其根本，原因主要在于关键词检索式作为概念的组合，忽略了自然语言中蕴含的丰富语义，无法准确表达用户的检索需求，造成检索系统难以匹配得到用户真正所需文献，导致了文献大数据时代新的知识饥渴。并且此方法需要用户具备该检索式的构建与使用知识，在使用过程中还需要配合特定的前端网页方能使用。

因此，现有技术存在无法准确理解用户的检索需求，进而无法精准高效筛选和获取文献的问题。

发明内容

本申请提供了一种基于用户需求的检索方法、装置以及电子设备，以至少解决相关技术中存在无法准确理解用户的检索需求，进而无法精准高效筛选和获取文献的问题。

根据本申请实施例的一个方面，提供了一种基于用户需求的检索方法，该方法包括：获取用户检索问句和用户期望返回形式；根据用户检索问句和检索意图存储方案，生成检索意图解析结果；将检索意图解析结果进行形式化转换，得到查询语句；根据查询语句、索引库以及知识图谱，得到检索结果；根据用户期望返回形式、检索意图解析结果、查询语句以及检索结果，输出检索关联信息。

根据本申请实施例的另一个方面，还提供了一种基于用户需求的检索装置，该装置包括：第一获取模块，用于获取用户检索问句和用户期望返回形式；生成模块，用于根据用户检索问句和检索意图存储方案，生成检索意图解析结果；转换模块，用于将检索意图解析结果进行形式化转换，得到查询语句；第一得到模块，用于根据查询语句、索引库以及知识图谱，得到检索结果；输出模块，用于根据用户期望返回形式、检索意图解析结果、查询语句以及检索结果，输出检索关联信息。

根据本申请实施例的又一个方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口和存储器通过通信总线完成相互间的通信；其中，存储器，用于存储计算机程序；处理器，用于通过运行所述存储器上所存储的所述计算机程序来执行上述任一实施例中的方法步骤。

根据本申请实施例的又一个方面，还提供了一种计算机可读的存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一实施例中的方法步骤。

在本申请实施例中，通过获取用户检索问句和用户期望返回形式；根据用户检索问句和检索意图存储方案，生成检索意图解析结果；将检索意图解析结果进行形式化转换，得到查询语句；根据查询语句、索引库以及知识图谱，得到检索结果；根据用户期望返回形式、检索意图解析结果、查询语句以及检索结果，输出检索关联信息。由于本申请实施例先对用户检索问句进行解析，得出用户的检索意图解析结果，再将该解析结果转换为查询语句，利用该查询语句、索引库以及知识图谱进行检索，得出检索结果，之后根据用户期望返回形式，返回符合用户期望的检索关联信息。通过上述方法，使用自然语言处理等技术捕捉用户检索语言中传达的科技文献多维度复杂检索需求，并基于科技文献知识图谱进行用户检索需求表达，并实现用户检索需求与数据库检索式的无缝转换，最终实现高效检索，为用户提供高度相关的检索结果。解决了相关技术中存在无法准确理解用户的检索需求，进而无法精准高效筛选和获取文献的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种可选的科技文献问答式智能检索技术路线图；

图2是根据本申请实施例的一种可选的基于用户需求的检索方法的流程示意图；

图3是根据本申请实施例的一种可选的整体实施例架构示意图；

图4是根据本申请实施例的一种可选的由检索意图解析结果向检索意图形式化结果的子句转换示意图；

图5是根据本申请实施例的一种可选的检索结果呈现与交互界面示意图；

图6是根据本申请实施例的一种可选的科技文献知识图谱本体概要模型示意图；

图7是根据本申请实施例的一种可选的科技文献检索意图表示与领域知识图谱的结合实例示意图；

图8是根据本申请实施例的一种可选的用户意图解析器与知识组织、知识图谱本体、检索意图表示模式的逻辑关系图；

图9是根据本申请实施例的一种可选的基于用户需求的检索方法的装置的结构框图；

图10是根据本申请实施例的一种可选的电子设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请公开的基于用户需求的检索方法可通过科技文献问答式智能检索系统实现，其中，科技文献问答式智能检索技术路线包括科技文献问答式智能检索需求分析、科技文献知识图谱构建、科技文献问答式智能检索交互技术研究三个阶段。首先，检索需求分析阶段需要收集整理科技文献检索的自然语言需求，对自然语言问句中出现的科研实体、属性、关系特征并对知识图谱构建过程中可能需要存储的多模态科研资源特征进行归纳总结；其次，基于需求分析结果，完成科技文献知识图谱的构建工作；最后，通过前两阶段工作，使得交互技术研究具备了实施的可能性，分为检索意图理解与识别、检索意图形式化转换与表达、人机自然语言对话管理、检索结果呈现与交互四个部分，各部分互为支撑，与知识图谱、需求分析结果共同支持问答式智能检索系统的运作。

如图1所示，科研实体包括：科技文献、科研作者、科研机构、期刊、基金项目以及科研会议。多模态科研资源包括：文本、图片、视频以及数据表格。单实体-属性-关系检索通过实体1和属性1.1，得出目标实体、属性0.1以及属性0.2；多实体-属性-关系混合检索通过实体2、属性2.1、属性2.2和实体3、属性3.1，得出目标实体、属性0.1以及属性0.2，实体1、实体2以及实体3均为相关实体。检索意图理解与识别包括：理解自然语言、定制模板方法、深度学习方法以及端到端方法。检索意图形式化转换与表达包括：建立检索意图与数据支持的映射机制、Cypher检索式生成、SPARQL检索式生成以及Solr检索式生成，Cypher、SPARQL以及Solr均为查询语言。人机自然语言对话管理包括：实现人与服务的自然连贯对话、对话输入管理、对话状态追踪以及对话交互策略。检索结果呈现与交互包括：提供多媒体交互式文献阅读、检索结果排序、多媒体结果呈现与交互以及关联知识挖掘启发。

基于上述内容，根据本申请实施例的一个方面，提供了一种基于用户需求的检索方法，如图2所示，该方法的流程可以包括以下步骤：

步骤S101，获取用户检索问句和用户期望返回形式。

可选的，如图3所示，第一步，获取用户检索问句，利用对话管理模块获取用户自然语言形式的检索问句，例如：请帮我查询WJM参与的ZRJJ面上项目中发表于2017年，被BDHX收录的有关白背飞虱的文献；给我这三年关于数据监护的文章；告诉我数据管理近十年的关键词演变等等，其中，WJM是作者姓名，ZRJJ是基金项目名称，BDHX是期刊收录名称。

另外，用户的检索问句可以通过语音输入，前端将语音转化为文字信息，也可以通过语音的形式直接输入对话管理模块，在用户意图解析器中集成语音识别功能，实现由知识图谱等外部知识支持的语音直接解析。

通过人机交互对话管理模块获取用户期望返回形式，例如：问答式智能检索，用户在输入检索问句后，该返回形式可直接获得科技文献检索结果；意图识别与解析，针对用户输入的检索问句，返回可视化的检索需求意图表示结果；意图形式化转换，针对用户输入的检索问句，返回经过检索意图解析与结果形式化转换后的数据库查询语句。另外，可以根据不同的使用需求，重新设定其他的用户期望返回形式。人机交互对话管理模块统管问题输入、意图解析、形式化转换、问题查询、结果返回等功能。

步骤S102，根据用户检索问句和检索意图存储方案，生成检索意图解析结果。

可选的，检索意图是指用户在用户检索问句中传递的特征描述与需求，包含了信息需求、检索目标、检索动机等。关键词检索式仅包含简单的字面信息，自然语言问句承载了完整的语义信息，可以通过解析获取更精准丰富的检索意图。因此，检索意图理解与识别(检索意图解析)的目标是基于科技文献检索业务逻辑，将用户输入的自然语言问句转化为具体的科技文献检索意图表示。检索需求解析过程中需要尽可能保留自然语言问句的语义性。需要通过知识图谱模式层或使用意义表示语言(Meaning Represent Language,MRL)对解析结果进行组织。

如图3所示，第二步为生成检索意图解析结果，通过用户意图解析器对用户检索问句进行检索意图解析，包括：主题词、期刊收录、影响因子、时间、作者、期刊、基金以及科研机构等，再结合通用科技文献检索意图表示模式(即检索意图存储方案)，生成最终的检索意图解析结果。检索意图解析结果可通过应用程序界面(Application ProgramInterface，API)向外界输出，以作为解释性结果供外部查阅或自行设置的形式化转换器转换为数据库查询语句。用户意图解析器基于检索意图理解与识别程序。

科技文献检索意图表示模式(即检索意图存储方案)服务于检索意图理解与识别程序和检索意图形式化转换与表达程序，起到在二者之间传递解析结果的作用。

步骤S103，将检索意图解析结果进行形式化转换，得到查询语句。

可选的，检索意图形式化转换是指将以科技文献检索意图表示模式的用户检索意图解析结果，转换为与文献检索系统底层数据库相匹配的形式化查询语句。转换过程由检索意图形式化转换与表达程序执行，对于转换过程有下列要求：1.转换结果符合上述科技文献检索意图表示模式；2.转换结果表达语义符合本地数据组织(即文献检索系统底层数据库)。

如图3所示，第三步是利用意图解析结果形式化转换器对检索意图解析结果进行形式化转换，得出形式化转换结果(即查询语句)。形式化转换获得的知识图谱或数据库的查询语句与检索结果均可通过互相独立的API对外输出。意图解析结果形式化转换器基于检索意图形式化转换与表达程序。其中，查询语句的形式包括SPARQL、Cypher、Solr、结构化查询语言(Structured Query Language，SQL)等。

步骤S104，根据查询语句、索引库以及知识图谱，得到检索结果。

可选的，如图3所示，第四步为根据形式化转换结果(即查询语句)、科技文献索引库(即索引库)以及科技文献知识图谱(即知识图谱)进行检索，得到知识图谱检索结果即(检索结果)。通过对话管理器负责处理对知识图谱查询的过程。

其中，科技文献索引库可以使用Solr根据科技文献元数据为主要信息构建。知识图谱的存储形式可以是资源描述框架(Resource Description Framework，RDF)图、属性图，或以确定语义关系存储的关系型数据库，例如非关系型的数据库(Not Only SQL，NoSQL)等。

步骤S105，根据用户期望返回形式、检索意图解析结果、查询语句以及检索结果，输出检索关联信息。

可选的，如图3所示，通过人机交互对话管理模块根据用户期望返回形式，输出检索关联信息，例如：如果用户期望返回形式为问答式智能检索，输出检索结果；如果用户期望返回形式为意图识别与解析，输出可视化的检索意图解析结果；如果用户期望返回形式为意图形式化转换，输出经过检索意图解析与结果形式化转换后的数据库查询语句(即查询语句)。

如图3所示，科技文献智能式问答检索对话管理器包括用户意图解析器和意图解析结果形式化转换器。用户前端接口用于输入管理、身份识别以及结果呈现，用户前端接口将用户检索问句输入用户意图解析器，在科技文献知识图谱的指导下，用户意图解析器生成用于表示或存储主题词、期刊收录、影响因子、时间、作者、期刊、基金以及科研机构信息的通用科技文献意图表示模式，并根据历史对话队列，完成多轮动作指令执行。在词典资源、科技文献知识图谱的指导下，用户意图解析器根据用户检索问句和通用科技文献意图表示模式，生成检索意图解析结果。意图解析结果形式化转换器根据检索意图解析结果进行形式化转换，得到形式化转换结果，通过形式化转换结果，并利用Cypher或SPARQL搜索算法，根据科技文献索引库从科技文献知识图谱得到知识图谱检索结果。检索意图解析结果、形式化转换结果以及检索结果均可输出给用户前端接口。科技文献索引库根据Solr建立、科技文献知识图谱可以基于RDF或属性图。根据领域知识组织中现有的叙词表、本体、知识图谱，得到科技文献知识图谱本体，图3中领域知识组织有三层，表示采用了语义性、关联性层层递进的三种不同方式，是知识组织体系的一种演进。同时，针对不同的需求和领域，存在不同的叙词表、本体或者知识图谱，在构建科技文献知识图谱时需要对以上三种组织方式的实例进行融合。最后，得到科技文献知识图谱。

作为一种可选实施例，根据用户检索问句和检索意图存储方案，生成检索意图解析结果，包括：

根据用户检索问句、判断算法以及第一预设数量个正则表达式，得到检索目标；

根据用户检索问句、第二预设数量个预设函数、实体识别程序、词典资源以及知识图谱本体，得到检索目标的约束信息；

根据知识图谱本体，建立检索意图存储方案；

根据检索目标、约束信息以及检索意图存储方案，得到检索意图解析结果。

可选的，通过意图理解与识别程序对用户检索问句进行检索意图解析的过程中，需要进行两大步骤的识别工作：检索目标识别和槽位填充。首先需要确定用户检索问句属于下文中表1的哪一种需求(即检索目标)，由检索目标识别实现。不同的需求存在不同的表达结构与触发关键词汇，在捕捉到特定的结构或触发关键词汇后，将进入槽位填充任务阶段。槽位填充阶段识别上述需求(即检索目标)的具体要求与限制条件(即约束信息)，如检索文献时对作者姓名、发表时间等的约束。槽位填充任务通过对用户检索问句中的词汇进行实体识别，并在必要时进行关系捕捉，需要考虑词汇的上下文语境来确定词汇所属实体类别。

上述检索意图理解与识别工作存在多种实施方式，总体可分为规则匹配方式与深度学习方式，其中，规则匹配方式使用自然语言表层特征，通过编写复杂的规则进行可解释的特征捕捉，其优点在于在规则覆盖范围内识别准确率更高，程序构建成本在缺乏语料的阶段更低。相对的，深度学习方式使用神经网络捕捉用户问句中的深层特征，相较于规则匹配方式在复杂场景下具有更强的适应性，可覆盖更多应用场景，但其语料库构建成本较高，准确率在语料不足的情况下较规则匹配方式相对更低，在语料来源单一的情况下，深度学习方式容易陷入局部最优，在实际应用环境下表现不佳。

因此，可以在初始阶段使用规则匹配方式构建意图理解与识别程序，在用户使用过程中，收集用户语料以训练深度学习方式程序，并替换原有的规则式程序。无论采取哪种实施方式，其输入均为用户提出的包含科技文献检索需求的检索问句，输出为由知识图谱支持的科技文献检索意图表示模式的用户检索意图解析结果。检索意图解析结果如图7左侧用户意图理解部分所示，图7左侧部分展示了一种可选的科技文献检索意图表示，对用户检索问句“请帮我查询WJM参与的GJZR面上项目中发表于2017年，被BDHX收录的有关白背飞虱的文献”进行用户意图理解，得到期刊收录名称：BDHX，主题词：白背飞虱，目标文献：发表时间为2017，基金：来源为GJZR科学基金、项目类型为面上项目，作者：姓名为WJM、称号为YS，以及上述内容之间的关系：目标文献发表于期刊，期刊收录于期刊收录，目标文献主体为主题词，目标文献作者，基金发表成功为目标文献，其中，GJZR为科学基金名称，YS为称号名称。

可选的，如图8所示，根据通过领域知识组织得到的词典资源，并在科技文献知识图谱本体的指导下，进行用户意图解析。图8包括：在科技文献知识图谱的指导下，用户意图解析器生成用于表示或存储主题词、期刊收录、影响因子、时间、作者、期刊、基金以及科研机构信息的通用科技文献意图表示模式。在词典资源、科技文献知识图谱的指导下，用户意图解析器完成用户意图解析。根据领域知识组织中现有的叙词表、本体、知识图谱，得到科技文献知识图谱本体。

一种使用了规则匹配方式构建意图理解与识别程序，该程序主要包括如下步骤：

210.进行用户问句的检索目标识别。以本实施例为例，需要为每一种可能的检索目标编写相应的正则表达式，检索目标可以为：文献、关键词、机构、基金项目、作者、期刊等，第一预设数量为正则表达式的数量，与上述检索目标种类数量相同，此处不做具体数量限制。211展示了检索目标的判断算法(即判断算法)和以文献为检索目标的正则表达式：

211.检索目标的判断算法如下：

检索目标正则特征字典＝{

u'(([？:文|篇][？:献|章|本])|作品|著作|论文)(有(？:哪些|什么|没有)){0,1}':[‘文献检索’，文献检索槽位填充函数],

‘目标正则表达式2’:[检索目标，检索目标对应槽位填充函数名2],

……

}

对于item在检索目标正则字典:

pattern＝re.compile(item)

match＝pattern.search(用户问句)

如果匹配成功:

检索意图表示词典[‘检索目标’]＝检索目标正则字典[item][0]

检索目标对应槽位填充函数(用户问句，检索意图表示词典)

break

可选的，在可能的实施例中，上述判断算法的任务也可以通过深度学习进行分类问题训练实现，例如：可以采用Bert+多层感知机+softmax的架构等。

在其他可选的实施例中，正则表达式的编写方式与详略程度可以与上述示例存在差异，但其思想均为通过用户检索问句确定用户的检索目标。也可以不用正则表达式，通过其他有效的字符串匹配方式，重点在于对于模式的正确表达以及合理效率下的模式识别。

220.在确定检索目标后，由各个槽位填充函数(即预设函数)对用户检索问句进行识别，获取用户的具体要求与限制条件(即约束信息)，约束信息可以包括：主题词、影响力因子、发文时间、期刊收录等，第二预设数量为槽位填充函数的数量，可以根据需求设定。具体算法如下：

221.定义文献检索槽位填充函数(用户问句,检索意图表示词典):

检索意图表示词典更新(主题词＝222.主题词识别(用户问句,检索意图表示词典))

检索意图表示词典更新(影响力因子＝223.影响力因子识别(用户问句,检索意图表示词典))

实体识别结果＝224.对整体问句调用实体识别程序

Temp＝{}

Temp[‘作者’]＝实体识别结果中(词汇，标签)标签为‘人名’的词汇

检索意图表示词典更新(基金项目＝225基金项目识别(用户问句,检索意图表示词典))

如果检索意图表示词典[‘基金项目’]存在‘基金项目负责人’：

对于‘基金项目负责人’.item存在于Temp[‘作者’]：

Temp[‘作者’].删除(‘基金项目负责人’.item)

Temp[‘机构’]＝实体识别结果中(词汇，标签)标签为‘机构’的词汇

Temp[‘期刊’]＝实体识别结果中(词汇，标签)标签为‘期刊’的词汇

如果Temp[‘期刊’]并且检索意图表示词典[‘主题词’]：

对于item存在于Temp[‘期刊’]：

如果item存在于检索意图表示词典[‘主题词’]：

pattern＝re.compile('(？<！关于|有关)('+item1+')(？！的)')

match＝pattern.search(用户问句)

如果匹配失败：

Temp[‘期刊’].删除(item)

如果Temp[‘期刊’]：

对于item存在于Temp[‘期刊’]：

pattern＝‘的’+item+‘有哪些’

如果research(pattern,用户问句):

Temp[‘期刊’].删除(item)

对于key存在于Temp：

如果Temp[key]：

检索意图表示词典更新(key＝Temp[key])

检索意图表示词典更新(发文时间＝226.时间识别(用户问句,检索意图表示词典))

检索意图表示词典更新(期刊收录＝227.期刊收录识别(用户问句,检索意图表示词典))

检索意图表示词典更新(筛选项＝228.筛选项识别(用户问句,检索意图表示词典))

在221的槽位规则匹配算法中，出现了222、223、225-228共计六种槽位填充函数。其核心思想均为通过捕捉目标词汇周围符合定义的词句模式来捕捉相应的槽位，在此不做赘述，仅提供228筛选项识别槽位填充函数以供参考：

228.筛选项识别核心模式：

在其他可选的实施例中，规则匹配方式还可通过句法依存分析的方式捕捉目标词汇与上下文之间的关系，以确定词汇的槽位填充位置。

224中使用了开源实体识别程序(即实体识别程序)作为补充。在机构、人名与部分特定类型如期刊、基金项目来源等词汇中使用基于词典资源定制的实体识别程序，能够加快软件开发效率，提高槽位填充的成功率。可以选用的开源实体识别程序包括Jieba、词法分析工具(Lexical Analysis of Chinese，LAC)、Han_nlp、语言技术平台(LanguageTechnology Platform，LTP)等。

使用实体识别程序需要做好词典制作与装载工作，一般而言，词典包含三个组成要素：词语、词性/词类标签、词频。其中词频为非必须要素。词典需要在本申请实施例一开始载入，以实现对特定词性/词类标签的识别支持。在本实施例中，使用了人名、机构名、基金项目来源、基金项目类型、关键词、期刊等6类词典(即词典资源)。

同样，上述算法可以通过深度学习进行实体标注问题训练进行实现。例如：可以采用Bert+多层感知机+CRF的架构等。

在其他可选的实施例中，算法的实现形式、槽位类型等可能均存在不同，但其应当支持科技文献的相关检索条件。

可选的，如图8所示，在知识图谱本体的指导下，建立科技文献检索意图表示结构(即检索意图存储方案)，一种可选的知识图谱本体如图6所示，图6包括：作者、科技文献、期刊、期刊收录、主题词、基金项目，以及其关联关系：科技文献拥有创作者为作者，基金项目研究人员为作者，基金项目发表成果为科技文献，科技文献发表于期刊，期刊收录于期刊收录，期刊、科技文献和基金项目的主题均为主题词。作者包括：用户身份证明(UserIdentification，uid)、姓名、国际、地址、机构名、电子邮箱以及称号。基金项目包括：uid、项目名称、项目类型、项目起始时间、基金来源、项目结束时间、批准号、负责人、项目简介。科技文献包括：组身份证明(GroupIdentification，gid)、数字对象唯一标识符(digitalobject unique identifier，doi)、影响因子、文献名、摘要、发表时间、文献类型、被引次数。期刊包括：出版商、标准国际连续出版物号(International Standard SerialNumber)、期刊名称、主体、电子期刊标准国际连续出版物号EISSN、出版年、语种、卷、期。期刊收录包括：uid、名称、收录开始年份、版本、收录结束年份。主题词包括：主题概念。

300.建立检索意图存储方案的一种可能的实现方法是使用计算机语言中常见的键值对字典格式存储解析结果，但字典中的键由知识图谱本体概要模型(即知识图谱本体)指导建立，由此为键值对字典提供了语义支持。在另一可选实施例中，使用了抽象类作为科技文献检索意图表示存储方案。又一种可选的实现方式是使用MRL语言，基于知识图谱本体概要模型，对检索意图解析结果进行表示。

将通过上述步骤得到的检索目标和约束信息，按照检索意图存储方案的结构进行存储，生成检索意图解析结果。

在本申请实施例中，提炼出多类型识别规则，根据槽位填充函数、实体识别程序以及词典资源，实现科技文献检索意图智能理解与精准识别。

作为一种可选实施例，将检索意图解析结果进行形式化转换，得到查询语句，包括：根据检索意图解析结果，得到有效解析的槽位；根据槽位和知识图谱本体，得到对应的实体；根据知识图谱本体，建立实体之间的关系；根据实体和关系，生成第一子语句，其中，第一子语句用于确定检索结果的实体或属性；获取槽位的语义解释；根据语义解释和知识图谱本体，制定翻译目标和翻译策略；根据翻译目标和翻译策略，生成槽位翻译模板；根据槽位翻译模板和槽位，得到槽位的翻译结果；使用逻辑操作符拼接翻译结果，得到第二子语句，其中，第二子语句用于约束检索结果；根据检索意图解析结果，得到用户的数目设置和排序设置，其中，数目设置用于确定检索结果的数量信息，排序设置用于确定检索结果的排列顺序；根据数目设置和排序设置，生成第三子语句，其中，第三子语句用于确定检索结果的表现形式；根据第一子语句、第二子语句、第三子语句以及预设模板，得到查询语句。

可选的，检索意图形式化转换与表达的实现同样具有规则模板方式与深度学习方式两种实现形式。程序的输入均为科技文献检索意图解析结果，输出均为根据用户需求指定的底层数据库形式化查询语句，包括SPARQL、Cypher、Solr、SQL等形式。

形式化查询语句可抽象为：匹配目标(即第一子语句)、匹配条件(即第二子语句)、返回设置(即第三子语句)共三段子语句。匹配目标表达用户希望查询语句匹配的实体或属性，如SPARQL与SQL中的SELECT部分、Cypher中的MATCH部分，Solr中并不包含匹配目标子语句，因为其检索对象均为所谓的“文档”。匹配条件子句表达用户希望查询语句匹配目标符合某些要求，如SPARQL与SQL语句中的WHERE、Cypher中的WHERE以及MATCH中实体后带的“{}”语句部分、Solr中的“q”字段。返回设置子句较为复杂多样，其表达用户希望查询语句返回结果的排序形式、记录数量、结果起始位置、高亮显示部分(仅限Solr)等内容，如SPARQL与SQL中的LIMIT、SKIP、Sort等，Cypher中的RETURN及其后续子句，Solr中的sort、start、rows等字段。检索意图形式化转换部分应对这三部分子句根据程序流程与用户需求分别进行转换。上述内容如图4所示：对科技文献检索意图“parserDict”:{“intentt”.“article”,“slots”:{“keywords”:[“飞虱”,“白背飞虱”],“fund”:{“fundSource”:[“GJZR科学基金”],“projectType”:[“面上项目”]},“author”:[“WJM”],“time”:{“equal”:“2017”},“index”:[“Core”]},“limit”:“unlimi ted”,“sort”:[“time”]},“acquiredNum”:“unlimited”}进行形式化转换，可得“parserDict”:{“intentt”.“article”,为匹配目标；“slots”:{“keywords”:[“飞虱”,“白背飞虱”],“fund”:{“fundSource”:[“GJZR科学基金”],“projectType”:[“面上项目”]},“author”:[“WJM”],“time”:{“equal”:“2017”},“index”:[“Core”]},“limit”:“unlimi ted”,为匹配条件；“sort”:[“time”]},“acquiredNum”:“unlimited”}为返回设置。

可选的，一种将检索意图解析结果向neo4j的Cypher或Solr的检索式转化的实施方法，具体包括：

410.匹配目标识别。匹配目标表达用户希望该语句匹配的实体或属性。在本实施例中根据用户意图解析获得的检索意图表示槽位进行归纳，结合知识图谱本体设计获得。在Solr中无需考虑410-414所述步骤。按照以下步骤进行：

411.获取检索意图表示(即检索意图解析结果)中有效解析的槽位。

412.根据知识图谱本体确定与槽位对应的知识图谱实体类，并得到出现实体的集合(Set)。

413.根据知识图谱本体建立在检索中应当出现的实体类之间类间关系(即关系)。

414.返回符合上述实体、类间关系的Cypher匹配目标子语句(即第一子语句)。

420.匹配条件翻译。针对上述检索意图解析结果中有效解析的槽位，需要根据槽位在自然语言中的语义和知识图谱本体设计分别制定翻译目标与翻译策略，翻译策略一般可分为存在型、复数型、数值比较型等。总体翻译流程为根据翻译目标与翻译策略生成槽位翻译模板，读取检索意图，对其中的每一项槽位进行逐项翻译后，再拼接为整体。以翻译作者姓名属性的检索条件为例，一种可选的Solr与Cypher的翻译模板，具体包括：

421.Solr模板示例:author:({})

422.Cypher模板示例:(author.authorName＝'{}')

423.存在型翻译策略，指用户并不具体指定该属性的内容，但要求检索目标存在该属性。例如“有基金项目支持的文献”这一用户需求，并不指定科技文献由何种具体的基金项目支持，仅要求“需要有”基金项目支持。在本申请实施例的科技文献检索自然语言需求中，主要有基金项目、影响因子、期刊收录情况需要用到存在型转换策略。

存在型转换策略需要使用数据库检索语句中的“EXISTS”或等效语句。在确定使用存在型翻译策略后，没有继续翻译同一属性其他补充内容的必要性。在用户修改检索意图，对该属性进行补充说明时，例如用户输入“那么有社科基金支持的呢？”时，应删除存在型语句。

424.复数型翻译策略，该策略是最常见也最通用的翻译方式。例如作者、机构、关键词等均可使用该策略进行翻译。根据数据库语言的语法，对属性值使用或(or)逻辑操作符进行拼接，并填入模板(Solr)；或是将单个属性值填入模板后将完整的句子使用“or”进行拼接(Cypher)。将完成拼接的语句作为整体再以一个括号进行包裹即可完成该部分的语句翻译。

425.数值比较型翻译策略，该种策略主要运用于影响因子、发文时间等牵涉到数值、日期的属性中。以影响因子为例，影响因子的表述包含了“大于”、“大于等于”、“等于”、“小于”、“小于等于”、“不等于”等数值比较关系(虽不太可能出现，但仍需考虑极端情况)，需要将其准确地翻译为统一的句子。在Cypher中，影响因子的翻译较为简单，其支持数学符号>、<、＝、<>、<＝、>＝的直接输入。而Solr中需要将其转换为如下的一系列模板：

数值比较型翻译策略还有可能出现多个条件如“大于1.0并且小于3.0”的多条件并列情况，因此需要在多个条件出现时，做好对和、或、非的逻辑运算翻译。

426.在完成所有检索意图表示槽位的翻译后(即得到槽位的翻译结果之后)，使用和(And)逻辑操作符拼接，得到匹配条件子语句(即第二子语句)。

430.返回设置主要包含两类内容，一类为记录条目设置(即用户的数目设置)，一类为排序项(即排序设置)。记录条目设置指记录跳过数与返回条目数量，一般由前端和对话管理模块共同管理，在此不做赘述。另一类为排序项，同样套用模板即可完成转换，倒序与正序都应当支持。排序项的正确解析关系到科技文献检索中的“最新文献”、“最热门文献”、“最早的研究”等重要问法的正确回答。

440.完成上述三步骤的翻译流程后，将三个子语句带入预先设置好的模板(即预设模板)可完成检索意图形式化转换工作。

在其他可选的实施例中，使用本申请提出的方案均能成功实现由自然语言检索意图表示向任意数据库检索语言如SQL、SPARQL等的转换。需要提前做好针对某一类型数据库的语法调研与模板撰写工作。数据库中实际使用的属性名、列名、关系名、实体名等，在确定了数据库语法与本体设计后，均能够通过表单映射的方式实现对齐。

在本申请实施例中，将用户科技文献检索意图解析结果转换为支持主流底层数据库的检索意图查询语句。

作为一种可选实施例，在根据查询语句、索引库以及知识图谱，得到检索结果之前，方法还包括：将结构化数据中的第一实体，导入知识图谱数据库；将结构化数据中的第二实体导入知识图谱数据库，并建立第一实体和第二实体的第一关联；将结构化数据中的第三实体导入知识图谱数据库，并将第三实体与第一实体对齐；建立第三实体与第二实体的第二关联；根据第二实体，得到第二实体对应的主题词；将主题词导入知识图谱数据库；根据预设叙词表，得到主题词的上下位关系；根据第一实体、第二实体、第三实体、第一关联、第二关联、主题词以及上下位关系，建立知识图谱本体，进而得到知识图谱；根据结构化数据和知识图谱，建立索引库。

可选的，本申请采用自底向上构建知识图谱的技术路线，通过构建科技文献知识图谱为自然语言形式的用户检索问句进行语义解析及知识查询提供支持。知识图谱本体为知识图谱提供了用于定义、推理知识图谱节点间语义的方法，并为检索意图表示(即检索意图存储方案)提供了依据。本申请实施例中，知识图谱包含两层：知识图谱本体模式层(即知识图谱本体)和知识图谱数据层，知识图谱对科技文献问答式智能检索系统的支持包含两个层面：1.知识图谱本体模式层可作为“通用科技文献检索意图表示模式”，为检索意图语义解析、形式化转换以及底层数据库改造提供支持；2.知识图谱数据层，构建以科技文献为枢纽的关联数据网络，更直接地对接并支撑该科技文献问答式智能检索系统。

此外，针对领域间知识存在知识表示粒度不一致、一词多义、构建成本过高的问题，本申请构建的知识图谱本体主要侧重于描述文献外部特征，同时以“主题词”实体作为与领域知识组织的连接桥梁，充分利用知识图谱灵活的数据结构。根据领域知识组织生成科技文献知识图谱本体，一方面需要参考现有的叙词表(即预设叙词表)、本体及知识图谱；另一方面，需要对文献文本进行深入挖掘，抽取知识作为知识图谱的有力补充。上述内容如图8所示，根据领域知识组织内的现有的叙词表(即预设叙词表)、本体及知识图谱，生成该知识图谱本体，图8包括：通过对科技文献及相关实体进行调研分析，针对主流科技文献引擎、用户需求进行整理归纳，构建如图6所示的科技文献知识图谱本体概要模型(即知识图谱本体)。在知识图谱本体的实际构建过程中，知识图谱本体与实际知识图谱数据层设计可以与上述概要模型存在出入，上述模型的意义在于清晰描述科技文献、期刊、作者等检索过程中出现的实体、属性之间的语义关系，便于与自然语言解析结果相互对应。实际的本体模型设计可以采用本体编辑和知识获取软件protégé、实体-联系图(Entity RelationshipDiagram，E-R图)以及基于网络本体语言(Ontology Wed Language，OWL)的OWL文件等。知识图谱的存储形式可以是RDF图、属性图，或以确定语义关系存储的关系型数据库，NoSQL等，只要数据库的表间连接关系能够表达概要模型表示的科技文献语义关系即可。

属性图模型提供了简洁易操作的检索语言，相比起RDF图模型，降低了检索意图形式化转换与表达阶段的检索语句生成难度。因此本申请实施例选择了属性图模型中较为代表性的产品Neo4j作为知识图谱存储管理工具。在本实施例中，采用了国家农业图书馆3700多万期刊论文数据、7325万作者数据、34万条相关基金数据(即结构化数据)。经挑选、清洗后使用数据抽取、转换和加载(Extract-Transform-Load，ETL)工具Pentaho DataIntegration，按照知识图谱本体，使用neo4j工具组件对存储数据实现自动化批量转换导入Neo4j图数据库(即知识图谱数据库)，实现知识图谱的大规模构建。知识图谱构建流程如下：

501.从结构化数据中导入作者、机构信息作为作者实体(即第一实体)。

502.从结构化数据中导入期刊文献信息(即第二实体)并与作者实体建立关联(即第一关联)。

503.从结构化数据中导入基金项目信息(即第三实体)，通过机构信息实现基金项目负责人与作者实体的实体对齐。

504.通过结构化数据，建立基金项目与期刊文献的关联(即第二关联)。

505.通过对文献信息进行文本挖掘，扩展其文献主题词(即主题词)，导入数据库，并根据叙词表(即预设叙词表)内主题词上下位关系建立相互关联。完成知识图谱两层的构建。

完全使用属性图知识图谱数据库作为检索数据支持方案的实施例存在着搜索缓慢的情况，在neo4j中即使建立了完整的索引，也依然需要数秒的搜索时间。

在可选的实施例中，使用RDF数据库与关系型数据库作为检索数据支持方案存在一定的可行性，但其检索语句语义性相较于属性图数据库相对较低，在检索式构建上更为复杂。

在另一可选实施例中，可以完全使用Solr等数据库索引作为检索数据支持方案，能够实现面向科技文献检索的自然语言问答的毫秒级响应。但该种方案下支持关联探索发现的难度较大，实施较为复杂。

较理想的可选实施例中，在构建属性图数据库的同时，使用Solr构建以科技文献元数据为主要信息的知识图谱索引(即索引库)，需要保持Solr与知识图谱中的文献记录存在统一可对应的唯一标识符uid。在检索步骤中，首先使用Solr索引确定符合用户需求的文档uid，后在知识图谱中通过图搜索算法(如Cypher、SPARQL等)返回与该uid所在的文献实体与关联内容。此举可提高检索速度，为知识图谱的合理使用提供技术支撑。

506.根据知识图谱或结构化数据内容，将与单篇文献直接相关的作者、机构、基金、期刊等相关数据整合为同一文档，在Solr中建立为每一字段建立索引，得到Solr索引库。

图7是一种可选的科技文献检索意图表示与领域知识图谱的结合实例，先完成用户意图理解得到用户意图表示(图7左侧)，基于用户意图理解结果，在检索资源组织中的领域知识组织中进行检索，最终得到符合用户意图的科技文献：‘IR13427-45-2-1-2-2-2’抗白背飞虱QTL定位，SJZ、FDJ、HJ、JL、CXN、LYQ、WJM为该科技文献的作者姓名。领域知识组织包括叙词表、本体、知识图谱，一种可选的知识图谱(图7右侧)为：病害水稻南方黑条矮缩病侵害作物水稻，作物水稻拥有品种IR13427，品种IR13427高抗虫害白背飞虱、虫害白背飞虱侵害作物水稻，基因Qwbph5抵抗虫害白背飞虱，品种IR13427拥有基因Qwbph5。

在本申请实施例中，设计通用知识图谱本体，同时兼容科技文献知识图谱构建并指导自然语言问答式文献智能检索意图表示字典式存储方案。通过知识图谱可提供维度更丰富、粒度更精细、推荐更精准的科技文献服务内容，提高科技文献检索服务的准确性和关联性。

作为一种可选实施例，根据查询语句、索引库以及知识图谱，得到检索结果，包括：

根据查询语句、索引库以及知识图谱，确定是否能够获得目标对象标识；在获得目标对象标识的情况下，根据目标对象标识，生成知识图谱数据检索式；根据知识图谱数据检索式、知识图谱以及预设搜索算法，得到检索结果。

可选的，为了实现用户要求返回数量的限制，使用Cypher执行检索工作实际上执行了两个步骤：

601：检索符合用户检索需求的在库文献数量，以确定真正能够返回给用户的文献数量。

602：经过实际数量与用户要求数量的比较后，返回符合检索需求的文献及相关的基金、作者等信息。

上述方法的检索速度实际上较为缓慢，可作为一种试验性质的原型系统，证明了本申请的技术可行性。因此在后续改良过程中，可以使用Solr作为检索对象，检索效率大幅度提升。

在一种更加高效的实现案例中，检索意图解析结果首先形式化转换为Solr检索语句(即查询语句)并进行查询，在确定存在符合用户意图的检索结果后，使用由Solr检索得到的目标uid(即目标对象标识)生成新的知识图谱数据检索式，通过图搜索算法(即预设搜索算法，如Cypher、SPARQL等)在知识图谱中获取相应的结果(即检索结果)，并使用图算法为用户推荐关联内容。

在本申请实施例中，通过将Solr与Cypher等搜索算法结合，大幅度提升了检索效率。

作为一种可选实施例，在根据用户检索问句、第二预设数量个预设函数、实体识别程序、词典资源以及知识图谱本体，得到检索目标的约束信息之前，方法还包括：

获取第三预设数量个用户的检索问句；

根据检索问句，得到检索问句中出现的实体、实体数据属性和关系属性；

整理得到实体、实体数据属性以及关系属性的组合；

根据结构化数据和组合，得到词典资源；

根据检索问句，得到用户对检索结果的处理需求和处理对象；

结合检索问句、处理需求以及处理对象，得到检索结果处理模板。

可选的，本申请实施例是为了分析科技文献检索自然语言需求，该需求可分为检索内容特征表达的需求和对检索结果处理的需求。检索内容特征主要由待检索文献及相关实体、实体数据属性和关系属性的组合构成，反映了用户期望结果的特征；对检索结果处理的需求指的是用户在获取检索结果后，使用自然语言指示系统对检索结果进行进一步处理时发出的需求。

整理在用户自然语言检索问句(即检索问句)中出现的实体、实体数据属性、实体间关系属性，并整理其可能的实体与属性的关系组合。检索内容特征表达的需求如表1所示：

表1科技文献检索场景中可能出现的实体、实体数据属性与关系属性的组合示意

/>

在此基础上，针对各实体、数据属性与关系属性，结合结构化数据整理获得相应的词典资源，作为后续科技文献问答式智能检索的开发资源。

整理在用户自然语言检索问句(即检索问句)中出现的用户对所述检索结果的处理需求和处理对象，并整理其关系组合。对检索结果处理的需求如表2(即检索结果处理模板)所示：

表2问答式智能检索结果处理指示需求示例

/>

在本申请实施例中，分析了科技文献检索自然语言需求，是本申请的思想指导性步骤，在实际实施中不可或缺，体现于本申请的各个流程之中。

作为一种可选实施例，在输出检索关联信息之后，方法还包括：

存储检索意图解析结果，得到用户的对话历史记录；获取用户当前语句；根据用户当前语句和检索结果处理模板，得到处理需求和处理对象；根据处理需求、处理对象以及对话历史记录，对检索结果进行处理；在获取错误代码的情况下，根据错误代码和预设错误处理指示表，发送错误提示语并记录相关信息。

可选的，在检索意图理解与识别模块和检索意图形式化转换与表达模块的基础上开发统管与用户交互的人机自然语言对话管理模块。除了统管问题输入、意图解析、形式化转换、问题查询、结果返回外，还需支持对用户多轮提问的响应与处理，包括了对用户不同动作的响应处理决策、对话历史记录存储与修改、错误处理等功能。

如图3所示，对用户多轮提问的响应与处理(即多轮动作指令执行)。对用户多轮提问的响应与处理包括了：对用户不同动作的响应处理决策、对话历史记录存储与修改、错误处理等功能。

由科技文献检索意图表示(即检索意图解析结果)组成的队列形成了各用户的对话历史记录，在完成对动作的响应处理决策后，在需要调用对话历史记录的情况下，将使用该队列对历史信息进行利用。

不同动作的响应处理决策是指在表2(即检索结果处理模板)中提及的根据对话历史记录进行回溯并操作的各类动作，确定处理需求，和处理对象，例如朗读结果文献标题、去除上一次检索中的某一关键词等，需要根据各语句特征进行解析。

错误处理功能主要包含向用户发送错误提示语与错误后台记录功能。根据错误代码，查询预设错误处理指示表，得到错误对应的名称、释义以及处理方案，再对该错误进行处理。

在一种可选的实例中，可不包括不同动作响应处理决策、对话历史记录存储与修改功能，仅存在最基本的错误处理功能。

在本申请实施例中，存储对话历史记录，对用户不同动作进行响应，并对检索过程中出现的错误进行处理，确保整个系统各个功能正常运行。

作为一种可选实施例，在根据用户检索问句和检索意图存储方案，生成检索意图解析结果之前，方法还包括：

根据知识图谱本体，建立由键值对组成的检索意图表示字典；根据检索意图表示字典，得到检索意图存储方案。

可选的，使用计算机语言中常见的键值对字典格式存储解析结果，但字典中的键由知识图谱本体概要模型(即知识图谱本体)指导建立，由此为键值对字典提供了语义支持，建立由键值对组成的检索意图表示字典。

本申请实例中的采用键值方法建立的科技文献检索意图表示结构如701所示：

701.科技文献检索意图表示字典式存储方案(即检索意图存储方案)：

检索意图表示字典:{检索意图，槽位:{作者:{中文名，英文名}，机构:{中文名，英文名}，关键词:{原表述，扩展表述，英文表述}，基金:{项目来源，项目类型}，基金项目负责人:{中文名，英文名}，时间:{起始点，结束点，时刻}，影响因子：{条件1，条件关系符，条件2}，期刊收录，期刊名，排序项}，要求数量}。作者:{中文名，英文名}就是一个键值对。

在另一可选实施例中，使用了抽象类作为科技文献检索意图表示存储方案，该种方案同样依照701所述结构建立，能够保留用户问句中各个检索条件间的语义关系，相较于使用字典，构建方式更为灵活，能够对内容进行有效的约束管理。

又一种可选的实现方式是使用MRL语言，基于知识图谱本体概要模型，对检索需求解析结果进行表示。

在本申请实施例中，建立字典式存储方案，起到在检索意图理解与识别程序和检索意图形式化转换与表达程序之间传递解析结果的作用。

作为一种可选实施例，图5是根据本申请实施例的一种可选的呈现与交互界面示意图，如图5所示：

呈现与交互界面主要分为问句示例展示区、输入和返回结果选择区、检索需求输入框和结果展示界面四部分。

810.问句示例展示区。本申请有别于传统科技文献检索的关键词式输入法，用户在使用初期尚未熟悉本申请的使用方法与问句构造技巧，通过示例的展示，能够起到教育用户，引导提问的作用，具体问句示例如：WJM负责的ZKJJ2015年以来产出的论文有哪些？WJM负责的ZKJJ2015年以来发表的CSCD收录的论文有哪些……此外，界面可以通过不断更换示例，起到提示本申请的新提问方式、新功能、使用技巧的作用。发挥较好的产品宣传教育功能。

820.输入和返回结果选择区。在本申请实施例中提供了两种输入方式，分别为语音输入与文字输入。

语音输入方面，在前端(用户前端接口)通过引入第三方语音听写工具实现了将用户口语表达需求转换为文字的功能，转换完成后的文字将作为上述输入人机自然语言对话管理模块的用户问句。

语音输入存在两种服务方案：

821.语音录入需求：用户通过长摁该按钮，同时口述自己的检索问句，前端听写后以文字形式将用户的检索问句呈现于830.用户文字检索需求输入框中，以便用户对语音结果进行手动矫正，适用于语音听写功能识别率较低的情况。

822.语音快速检索：用户长摁该按钮的同时口述检索问句，前端将听写结果直接提交给人机自然语言对话管理模块，进行针对用户问句的后续解析与查询工作并返回相应结果，为用户提供“动口不动手”的最佳体验。在理想的实施例中，用户问句的语音听写结果同样回呈现于830.用户文字检索需求输入框中。

在介绍820.用户期望返回形式之前，先介绍830.检索需求输入框：

830.用户文字检索需求输入框:在可能的实施例中，用户文字检索需求输入框应当提供如下功能：1、提供用户通过文字输入检索问句的基本功能；2、提供检索需求解析结果在用户问句中的标注与提示功能，并支持用户在问句中手动的纠正与更改槽位的即使反馈；3、提供对用户语音输入听写结果的呈现功能。

820.用户期望返回形式.本申请提供了三种可选的返回形式：

823.问答式智能检索：此为本申请面向终端用户的最基本展示形式。用户在输入检索问句后，使用该功能可直接获得科技文献检索结果。

824.意图识别与解析：针对用户输入的检索问句，返回可视化的检索需求意图表示结果。

825.意图形式化转换：针对用户输入的检索问句，返回经过检索意图解析与结果形式化转换后的数据库查询语句。

不同返回形式存在意义主要为提供API服务，能将检索意图解析结果、查询语句以及检索结果通过互相独立的API对外输出，多个API的输出设计一方面实现了本申请低耦合高聚合的架构设计理念，使得本申请可以提供轻量化的服务。另一方面，也可提供给用户全程可解释可观察的使用体验。

840.结果展示界面：该界面服务于上述的820.用户期望返回形式。针对823问答式智能检索，将返回符合用户检索需求的分页列表。针对该结果，表2提供了用户进一步输入指令以进行深度操作的可能性。此外，针对表1中提供的部分需求，还将返回报表或图表以满足用户的特殊需求，如对某一学科专题的综述式报告或发文趋势报告等。

在本申请实施例中，不限制服务的部署形式，支持客户端、网页、小程序、服务接口等多种服务方式，无需安装配置复杂的硬件系统，打破科技文献服务时间和空间的桎梏；通过加入自动语音理解、多轮对话交互等技术，更适合通过智能手机提供服务，使用户跨媒介检索使用科技文献服务。

综上所述，针对大数据智能环境下通过文字或语音检索科技文献场景下的自然语言意图识别问题，对作者、作者机构、基金项目、期刊收录、期刊影响因子、主题概念、出版时间等多维文献检索关键特征信息进行识别并给出数据库检索式从而确定用户检索目标。本申请提出一种知识图谱及人工智能驱动、专注于科技文献检索利用场景的问答式对话总方法系统，具体包括以下步骤：(1)通过检索需求分析确定科技文献检索场景下的关键信息及其组合特征，并收集整理相关特征词典；(2)以科技文献为中心的知识图谱；(3)设计并构建意图理解与识别程序；(4)使用科技文献检索意图表示组织用户检索需求解析结果；(5)设计并构建检索意图形式化转换与表达程序；(6)在检索意图理解与识别模块和检索意图形式化转换与表达模块的基础上开发统管与用户交互的人机自然语言对话逻辑管理模块；(7)设计并构建结果呈现与交互功能模块。

整个系统能够识别中英文作者姓名、机构名称、文献主题词、期刊名、期刊收录级别、文献发表年份、基金资助来源、基金项目、期刊影响力因子、排序方式等11种用户需求，2000余种需求组合场景，自由配置的词典资源支持千万级别词汇录入，可以充分捕捉用户完整的检索需求，帮助用户加快科技文献检索进程。

根据本申请实施例的另一个方面，还提供了一种用于实施上述基于用户需求的检索方法的基于用户需求的检索装置。图9是据本申请实施例的一种可选的基于用户需求的检索装置的结构框图，如图9所示，该装置可以包括：

第一获取模块901，用于获取用户检索问句和用户期望返回形式；生成模块902，用于根据用户检索问句和检索意图存储方案，生成检索意图解析结果；转换模块903，用于将检索意图解析结果进行形式化转换，得到查询语句；第一得到模块904，用于根据查询语句、索引库以及知识图谱，得到检索结果；输出模块905，用于根据用户期望返回形式、检索意图解析结果、查询语句以及检索结果，输出检索关联信息。

通过上述模块，先对用户检索问句进行解析，得出用户的检索意图解析结果，再将该解析结果转换为查询语句，利用该查询语句、索引库以及知识图谱进行检索，得出检索结果，之后根据用户期望返回形式，返回符合用户期望的检索关联信息。使用自然语言处理等技术捕捉用户检索语言中传达的科技文献多维度复杂检索需求，并基于科技文献知识图谱进行用户检索需求表达，并实现用户检索需求与数据库检索式的无缝转换，最终实现高效检索，为用户提供高度相关的检索结果。解决了相关技术中存在无法准确理解用户的检索需求，进而无法精准高效筛选和获取文献的问题。

作为一种可选实施例，生成模块包括：第一得到单元，用于根据用户检索问句、判断算法以及第一预设数量个正则表达式，得到检索目标；第二得到单元，用于根据用户检索问句、第二预设数量个预设函数、实体识别程序、词典资源以及知识图谱本体，得到检索目标的约束信息；第一建立单元，用于根据知识图谱本体，建立检索意图存储方案；第三得到单元，用于根据检索目标、约束信息以及检索意图存储方案，得到检索意图解析结果。

作为一种可选实施例，转换模块包括：第四得到单元，用于根据检索意图解析结果，得到有效解析的槽位；第五得到单元，用于根据槽位和知识图谱本体，得到对应的实体；第二建立单元，用于根据知识图谱本体，建立实体之间的关系；第一生成单元，用于根据实体和关系，生成第一子语句，其中，第一子语句用于确定检索结果的实体或属性；第一获取单元，用于获取槽位的语义解释；制定单元，用于根据语义解释和知识图谱本体，制定翻译目标和翻译策略；第二生成单元，用于根据翻译目标和翻译策略，生成槽位翻译模板；第六得到单元，用于根据槽位翻译模板和槽位，得到槽位的翻译结果；第七得到单元，用于使用逻辑操作符拼接翻译结果，得到第二子语句，其中，第二子语句用于约束检索结果；第八得到单元，用于根据检索意图解析结果，得到用户的数目设置和排序设置，其中，数目设置用于确定检索结果的数量信息，排序设置用于确定检索结果的排列顺序；第三生成单元，用于根据数目设置和排序设置，生成第三子语句，其中，第三子语句用于确定检索结果的表现形式；第九得到单元，用于根据第一子语句、第二子语句、第三子语句以及预设模板，得到查询语句。

作为一种可选实施例，该装置还包括：第二获取模块，用于获取结构化数据；第一导入模块，用于将所述结构化数据中的第一实体，导入知识图谱数据库；第二导入模块，用于将所述结构化数据中的第二实体导入所述知识图谱数据库，并建立所述第一实体和所述第二实体的第一关联；第三导入模块，用于将所述结构化数据中的第三实体导入所述知识图谱数据库，并将所述第三实体与所述第一实体对齐；第一建立模块，用于建立所述第三实体与所述第二实体的第二关联；第二得到模块，用于根据所述第二实体，得到所述第二实体对应的主题词；第四导入模块，用于将所述主题词导入所述知识图谱数据库；第三得到模块，用于根据预设叙词表，得到所述主题词的上下位关系；第二建立模块，用于根据所述第一实体、所述第二实体、所述第三实体、所述第一关联、所述第二关联、所述主题词以及所述上下位关系，建立知识图谱本体，进而得到所述知识图谱；第三建立模块，用于根据所述结构化数据和所述知识图谱，建立所述索引库。

作为一种可选实施例，第一得到模块包括：确定单元，用于根据查询语句、索引库以及知识图谱，确定是否能够获得目标对象标识；第四生成单元，用于在获得目标对象标识的情况下，根据目标对象标识，生成知识图谱数据检索式；第十得到单元，用于根据知识图谱数据检索式、知识图谱以及预设搜索算法，得到检索结果。

作为一种可选实施例，生成模块还包括：第二获取单元，用于获取第三预设数量个用户的检索问句；第十一得到单元，用于根据检索问句，得到检索问句中出现的实体、实体数据属性和关系属性；整理单元，用于整理得到实体、实体数据属性以及关系属性的组合；第十二得到单元，用于根据结构化数据和组合，得到词典资源；第十三得到单元，用于根据检索问句，得到用户对检索结果的处理需求和处理对象；结合单元，用于结合检索问句、处理需求以及处理对象，得到检索结果处理模板。

作为一种可选实施例，该装置还包括：存储模块，用于存储检索意图解析结果，得到用户的对话历史记录；第三获取模块，用于获取用户当前语句；第四得到模块，用于根据用户当前语句和检索结果处理模板，得到处理需求和处理对象；处理模块，用于根据处理需求、处理对象以及对话历史记录，对检索结果进行处理；发送模块，用于在获取错误代码的情况下，根据错误代码和预设错误处理指示表，发送错误提示语并记录相关信息。第四建立模块，用于根据知识图谱本体，建立由键值对组成的检索意图表示字典；第五得到模块，用于根据检索意图表示字典，得到检索意图存储方案。

根据本申请实施例的又一个方面，还提供了一种用于实施上述基于用户需求的检索方法的电子设备，该电子设备可以是服务器、终端、或者其组合。

图10是根据本申请实施例的一种可选的电子设备的结构框图，如图10所示，包括处理器1001、通信接口1002、存储器1003和通信总线1004，其中，处理器1001、通信接口1002和存储器1003通过通信总线1004完成相互间的通信，其中，存储器1003，用于存储计算机程序；处理器1001，用于执行存储器1003上所存放的计算机程序时，实现权利要求1所述的方法步骤。

作为一种示例，如图10所示，上述存储器1003中可以但不限于包括上述基于用户需求的检索装置中的第一获取模块901、生成模块902、转换模块903、第一得到模块904、输出模块905。此外，还可以包括但不限于上述基于用户需求的检索装置中的其他模块单元，本示例中不再赘述。

上述处理器可以是通用处理器，可以包含但不限于：CPU(Central ProcessingUnit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(DigitalSignal Processing，数字信号处理器)、ASIC(Application Specific IntegratedCircuit，专用集成电路)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

根据本申请实施例的又一个方面，还提供了一种存储介质。可选的，在本实施例中，上述存储介质可以用于存储执行基于用户需求的检索方法的程序代码。

可选的，在本实施例中，存储介质被设置为存储用于执行权利要求1所述的方法步骤的程序代码。

可选的，在本实施例中，上述存储介质可以包括但不限于：U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种基于用户需求的检索方法，其特征在于，所述方法包括：

获取用户检索问句和用户期望返回形式；

根据所述用户检索问句和检索意图存储方案，生成检索意图解析结果，其中，所述根据所述用户检索问句和检索意图存储方案，生成检索意图解析结果，包括：根据所述用户检索问句、判断算法以及第一预设数量个正则表达式，得到检索目标；根据所述用户检索问句、第二预设数量个预设函数、实体识别程序、词典资源以及知识图谱本体，得到所述检索目标的约束信息；根据所述知识图谱本体，建立所述检索意图存储方案；根据所述检索目标、所述约束信息以及所述检索意图存储方案，得到所述检索意图解析结果；

将所述检索意图解析结果进行形式化转换，得到查询语句，其中，所述将所述检索意图解析结果进行形式化转换，得到查询语句，包括：根据所述检索意图解析结果，得到有效解析的槽位；根据所述槽位和知识图谱本体，得到对应的实体；根据所述知识图谱本体，建立所述实体之间的关系；根据所述实体和所述关系，生成第一子语句，其中，所述第一子语句用于确定检索结果的实体或属性；获取所述槽位的语义解释；根据所述语义解释和所述知识图谱本体，制定翻译目标和翻译策略；根据所述翻译目标和所述翻译策略，生成槽位翻译模板；根据所述槽位翻译模板和所述槽位，得到所述槽位的翻译结果；使用逻辑操作符拼接所述翻译结果，得到第二子语句，其中，所述第二子语句用于约束所述检索结果；根据所述检索意图解析结果，得到用户的数目设置和排序设置，其中，所述数目设置用于确定所述检索结果的数量信息，所述排序设置用于确定所述检索结果的排列顺序；根据所述数目设置和所述排序设置，生成第三子语句，其中，所述第三子语句用于确定所述检索结果的表现形式；根据所述第一子语句、所述第二子语句、所述第三子语句以及预设模板，得到所述查询语句；

根据所述查询语句、索引库以及知识图谱，得到检索结果，其中，所述索引库为使用Solr根据科技文献元数据为主要信息构建的科技文献索引库；

根据所述用户期望返回形式、所述检索意图解析结果、所述查询语句以及所述检索结果，输出检索关联信息。

2.根据权利要求1所述的方法，其特征在于，在所述根据所述查询语句、索引库以及知识图谱，得到检索结果之前，所述方法还包括：

获取结构化数据；

将所述结构化数据中的第一实体，导入知识图谱数据库；

将所述结构化数据中的第二实体导入所述知识图谱数据库，并建立所述第一实体和所述第二实体的第一关联；

将所述结构化数据中的第三实体导入所述知识图谱数据库，并将所述第三实体与所述第一实体对齐；

建立所述第三实体与所述第二实体的第二关联；

根据所述第二实体，得到所述第二实体对应的主题词；

将所述主题词导入所述知识图谱数据库；

根据预设叙词表，得到所述主题词的上下位关系；

根据所述第一实体、所述第二实体、所述第三实体、所述第一关联、所述第二关联、所述主题词以及所述上下位关系，建立知识图谱本体，进而得到所述知识图谱；

根据所述结构化数据和所述知识图谱，建立所述索引库。

3.根据权利要求2所述的方法，其特征在于，所述根据所述查询语句、索引库以及知识图谱，得到检索结果，包括：

根据所述查询语句、所述索引库以及所述知识图谱，确定是否能够获得目标对象标识；

在获得所述目标对象标识的情况下，根据所述目标对象标识，生成知识图谱数据检索式；

根据所述知识图谱数据检索式、所述知识图谱以及预设搜索算法，得到所述检索结果。

4.根据权利要求1所述的方法，其特征在于，在所述根据所述用户检索问句、第二预设数量个预设函数、实体识别程序、词典资源以及知识图谱本体，得到所述检索目标的约束信息之前，所述方法还包括：

获取第三预设数量个用户的检索问句；

根据所述检索问句，得到所述检索问句中出现的实体、实体数据属性和关系属性；

整理得到所述实体、所述实体数据属性以及所述关系属性的组合；

根据结构化数据和所述组合，得到所述词典资源；

根据所述检索问句，得到用户对所述检索结果的处理需求和处理对象；

结合所述检索问句、所述处理需求以及所述处理对象，得到检索结果处理模板。

5.根据权利要求4所述的方法，其特征在于，在所述输出检索关联信息之后，所述方法还包括：

存储所述检索意图解析结果，得到所述用户的对话历史记录；

获取用户当前语句；

根据所述用户当前语句和所述检索结果处理模板，得到所述处理需求和所述处理对象；

根据所述处理需求、所述处理对象以及所述对话历史记录，对所述检索结果进行处理；

在获取错误代码的情况下，根据所述错误代码和预设错误处理指示表，发送错误提示语并记录相关信息。

6.根据权利要求1所述的方法，其特征在于，在所述根据所述用户检索问句和检索意图存储方案，生成检索意图解析结果之前，所述方法还包括：

根据知识图谱本体，建立由键值对组成的检索意图表示字典；

根据所述检索意图表示字典，得到所述检索意图存储方案。

7.一种基于用户需求的检索装置，其特征在于，包括：

第一获取模块，用于获取用户检索问句和用户期望返回形式；

生成模块，用于根据所述用户检索问句和检索意图存储方案，生成检索意图解析结果，其中，所述生成模块包括：第一得到单元，用于根据所述用户检索问句、判断算法以及第一预设数量个正则表达式，得到检索目标；第二得到单元，用于根据所述用户检索问句、第二预设数量个预设函数、实体识别程序、词典资源以及知识图谱本体，得到所述检索目标的约束信息；第一建立单元，用于根据所述知识图谱本体，建立所述检索意图存储方案；第三得到单元，用于根据所述检索目标、所述约束信息以及所述检索意图存储方案，得到所述检索意图解析结果；

转换模块，用于将所述检索意图解析结果进行形式化转换，得到查询语句，其中，所述转换模块包括：第四得到单元，用于根据所述检索意图解析结果，得到有效解析的槽位；第五得到单元，用于根据所述槽位和知识图谱本体，得到对应的实体；第二建立单元，用于根据所述知识图谱本体，建立所述实体之间的关系；第一生成单元，用于根据所述实体和所述关系，生成第一子语句，其中，所述第一子语句用于确定检索结果的实体或属性；第一获取单元，用于获取所述槽位的语义解释；制定单元，用于根据所述语义解释和所述知识图谱本体，制定翻译目标和翻译策略；第二生成单元，用于根据所述翻译目标和所述翻译策略，生成槽位翻译模板；第六得到单元，用于根据所述槽位翻译模板和所述槽位，得到所述槽位的翻译结果；第七得到单元，用于使用逻辑操作符拼接所述翻译结果，得到第二子语句，其中，所述第二子语句用于约束所述检索结果；第八得到单元，用于根据所述检索意图解析结果，得到用户的数目设置和排序设置，其中，所述数目设置用于确定所述检索结果的数量信息，所述排序设置用于确定所述检索结果的排列顺序；第三生成单元，用于根据所述数目设置和所述排序设置，生成第三子语句，其中，所述第三子语句用于确定所述检索结果的表现形式；第九得到单元，用于根据所述第一子语句、所述第二子语句、所述第三子语句以及预设模板，得到所述查询语句；

第一得到模块，用于根据所述查询语句、索引库以及知识图谱，得到检索结果，其中，所述索引库为使用Solr根据科技文献元数据为主要信息构建的科技文献索引库；

输出模块，用于根据所述用户期望返回形式、所述检索意图解析结果、所述查询语句以及所述检索结果，输出检索关联信息。

8.一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信，其特征在于，

所述存储器，用于存储计算机程序；

所述处理器，用于通过运行所述存储器上所存储的所述计算机程序来执行权利要求1至6中任一项中所述的方法步骤。