CN111898024A

CN111898024A - 一种智能问答方法、装置、可读存储介质及计算设备

Info

Publication number: CN111898024A
Application number: CN202010752547.2A
Authority: CN
Inventors: 洪万福; 钱智毅; 连凤斌
Original assignee: Xiamen Yuanting Information Technology Co ltd
Current assignee: Xiamen Yuanting Information Technology Co ltd
Priority date: 2020-07-30
Filing date: 2020-07-30
Publication date: 2020-11-06

Abstract

本发明公开了一种智能问答方法、装置、可读存储介质及计算设备，该智能问答方法包括：获取用户输入的语句，并对所述语句进行预处理；对预处理后的语句进行解析，获得所述语句的句法模式；将所述句法模式与预先建立的句法模板进行匹配，生成所述语句的查询链；根据所述查询链进行检索并返回检索结果。本发明结合自然语言处理，对用户问句进行语义化分析、实体关联、关系辨别，形成逻辑表达式，到知识图谱构成的知识库中查询出相关的信息，通过问答系统给用户最精准的答案。

Description

一种智能问答方法、装置、可读存储介质及计算设备

技术领域

本发明涉及人工智能技术领域，特别涉及一种智能问答方法、装置、可读存储介质及计算设备。

背景技术

随着搜索引擎给人们生活带来的便利，用户对于信息检索的需求量越来越大。例如：学术知识、查询天气、股票价格、飞机航班情况、新闻资讯、地图导航等。现今有名的搜索引擎Google、yahoo、百度、维基百科等，只需要用户输入搜索内容，就能马上搜索出相关的网页信息。

但是随着互联网上的发展，数据的量级已经从TB发展到了PB甚至ZB这样的海量数据，且种类也越来越多样化。这些搜索引擎就暴露了许多不足的地方，一是搜索出的相关网页信息过于的多，用户很难快速定位到自己需要的信息。二是以关键字来组合匹配去检索信息，用户搜索内容往往是多元化的、广泛性强、复杂性高，需要检索的文献内容量大，会出现漏检、误检的情况。基于关键字组合匹配以及对语句的浅层语义分析，这样的信息检索方式越来越满足不了用户的需求。

发明内容

为了解决上述技术问题中的至少一个，本公开提供了一种智能问答方法、装置、可读存储介质及计算设备。

第一方面，本发明提供了一种智能问答方法，该方法包括：

获取用户输入的语句，并对所述语句进行预处理；

对预处理后的语句进行解析，获得所述语句的句法模式；

将所述句法模式与预先建立的句法模板进行匹配，生成所述语句的查询链；

根据所述查询链进行检索并返回检索结果。

可选地，对所述语句进行预处理，包括以下至少一项：

对所述语句中的字母进行大小写转换；

将所述语句中的繁体字转换为简体字；

将所述语句中的多余标点符号去除；

将所述语句中的错别字进行更正。

可选地，所述对预处理后的语句进行解析，获得所述语句的句法模式，包括：

运用自然语言处理工具解析预处理后的语句，生成所述语句的依存关系；

根据所述依存关系获得所述语句对应的句法模式。

可选地，该方法还包括：构建资源池，至少包括：初始化资源池、从应用数据库中加载全局配置、加载词网、加载函数集和加载模板库。

第二方面，本发明提供了一种智能问答装置，该装置包括：预处理模块、解析模块、匹配模块和检索模块，其中，

所述预处理模块，用于获取用户输入的语句，并对所述语句进行预处理；

所述解析模块，用于对预处理后的语句进行解析，获得所述语句的句法模式；

所述匹配模块，用于将所述句法模式与预先建立的句法模板进行匹配，生成所述语句的查询链；

所述检索模块，用于根据所述查询链进行检索并返回检索结果。

可选地，所述预处理模块至少包括字母转换单元、字体转换单元、标点管理单元和文字更正单元中的一个，其中，

所述字母转换单元，用于对所述语句中的字母进行大小写转换；

所述字体转换单元，用于将所述语句中的繁体字转换为简体字；

所述标点管理单元，用于将所述语句中的多余标点符号去除；

所述文字更正单元，用于将所述语句中的错别字进行更正。

可选地，所述解析模块具体用于运用自然语言处理工具解析预处理后的语句，生成所述语句的依存关系，以及根据所述依存关系获得所述语句对应的句法模式。

可选地，该装置还包括：资源构建模块，用于构建资源池，至少包括：初始化资源池、从应用数据库中加载全局配置、加载词网、加载函数集和加载模板库。

第三方面，本发明提供了一种可读存储介质，其上具有可执行指令，当可执行指令被执行时，使得计算机执行如第一方面中任一所包括的操作。

第四方面，本发明提供了一种计算设备，包括：一个或多个处理器、存储器，以及一个或多个程序，其中，所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行如第一方面中的任一所包括的操作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例提供的一种智能问答方法的流程示意图；

图2是本发明一个实施例提供的一种智能问答装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本发明实施例提供了一种智能问答方法，该方法包括以下步骤：

获取用户输入的语句，并对所述语句进行预处理；

对预处理后的语句进行解析，获得所述语句的句法模式；

根据所述查询链进行检索并返回检索结果。

在本发明一个实施例中提供了一种智能问答方法，该方法可以包括:

步骤一：构建资源池，具体流程如下：

(1)初始化资源池，划分存储模块，支持内存、Redis等多种形式存储形式；

(2)从应用数据库中加载系统全局配置，包含环境配置、应用配置、资源路径配置等内容；

(3)加载词网，词网包含同义词、相关词以及领域专有名词。首先获取全局配置中的词网配置，包含词项路径、同义词路径、相关词路径等，然后将词网相关内容加载进资源池；

(4)加载函数集(一系列计算组件)，用于更好的链接自然语言与结构化知识库之间的关联，包括内容映射、字段计算等，应用于整个句法模板周期。首先，扫描代码包中定义的函数以及从数据库获取外部自定义函数，然后生成函数集并加载进资源池；

(5)加载模板库，模板用于匹配问句句法规则，从而生成相关结构化查询，得出结果。首先，获取模板的配置路径，以特定格式存在，支持数据库、文件等存储方式，然后加载形成模板库，加入资源池；

(6)根据应用获取相关知识库配置信息(连接信息、数据Schema等)，将数据Schema转换为数据模型并加入资源池，然后根据数据模型的信息以及知识库存储的知识，生成知识库的元素(实体、关系、属性等)，结合通用元素(询问词、联结词等)形成元素集(用于判断问句分词后生成的词项含义，结合函数集映射元素对应知识库的相关内容，元素包含名称、匹配内容、含义以及父级元素四个部分)，最后将其加入资源池。

步骤二：进行模板定义和问句解析。

运用NLP(Natural Language Processing，自然语言处理)工具解析问句(命名实体识别、依存分析等)，生成问句的依存关系图(每个节点表示一个词项，词项之间的关系表示依存关系，例如定中关系、主谓关系等)。

根据问句的语法结构，针对不同的依存关系子图特征，进行抽取并定义生成多个子模板(表达式模板、结构模板、条件模板、结果模板)。表达式模板定义整个问句的查询链，包含基础查询单元以及计算单元，基础查询单元独立不可拆分，用于提供数据流，计算单元则用于计算，模板结构为有向无环图，通常为默认生成；结构模板定义整个问句的查询范围，通常作为基础查询单元；条件模板用于缩小查询范围，定位问句结果，主要作为计算单元；结果模板用于数据格式转换以及计算等，主要作为计算单元。整体以表达式模板为中心，结构、条件、结果三个模板作为组件，对表达式模板进行填充。其中结构、条件、结果三个模板相互独立，应用时以词项进行关联。

步骤三：进行模板配置。

已知问句解析的结果(依存关系图)，读取结构、条件、结果模板，分别进行元素链定位(即针对依存关系图节点的词项内容进行元素匹配，可将词项定位为知识库元素或通用元素)和结合模板中配置的依存关系子图对问句解析的依存关系图进行模式匹配，获取满足的模板。如果问句中存在未匹配的关键元素或者缺失特定的要素(即问句内容缺失，不足以构成有效问句，例如缺失实体、关系、路径等数据来源)，则需要对其进行尝试性推理，进行解析结果补充。补充完成后将解析结果反馈给用户，用户进行人工干预，更正算法误差，调整句法模板逻辑走向，使结果更为精准。用户核对无误之后进行模板保存，由于用户核对的模板为结构、条件、结果三个模板的组合(相当于完整的句法模板)，保存时系统会将待保存的完整模板拆分为多个子模板(即结构、条件、结果三个模板)，并存入存储介质。

步骤4：进行智能问答。

预先对多个子模板进行全组合排列，获得预先建立的句法模板，其目的是生成完整的句法模板，以便实际应用时结合问句进行匹配，预先组合的意义在于可以减化问句处理流程，缩小执行耗时。用户输入问句，系统将问句进行预处理和解析，预处理和解析的目的是进行问句标准化，输出标准的问句内容，操作包含但不限于大小写转换、繁化简、去掉多余标点符号、纠错等，设置相应规则，对问句解析结果进行人工干预，控制问句范围，生成更为精确的问句意图，主要结合数据模型以及词网等相关资源，在识别问句知识库元素的基础上，针对已有知识库元素进行数据模型检索，查找元素之间的关联，例如实体元素之间的关系、实体元素与属性键之间的包含关系等，缩小数据范围，另加上词网辅助，可进行同义转换、相关转换等。调整句法模板逻辑走向，使结果更为精准，然后将解析结果和句法模板进行匹配，并对其进行尝试性推理，主要针对问句中未匹配的关键元素，进行解析结果补充。如果结果为空则进入模糊检索，反之则根据关键元素的匹配度、结构完整性、合理性对匹配的模板进行过滤。最后针对结果以及不同知识库类型，构建多个结构化查询链，生成不同的查询语句并进行检索组合，返回查询结果。

为了方便对本发明技术方案的理解，下面通过简单示例对本发明的技术方案进行进一步地说明：

步骤一：构建资源池

(1)词网：

词库：刘备、关羽、张飞、名称、出生日期；

同义词：刘备，刘玄德；

(2)函数集：

filter函数：过滤函数，输入数据流和过滤条件，输出符号过滤条件的数据；

map函数：转换函数，输入数据流和转换函数，输出转换后的数据流；

node函数：获取知识库节点，输入标签，输出带有标签的节点；

path函数：获取知识库路径，输入起始标签，关系类型，终止标签，输出相应的路径数据；

endNode函数：获取路径的终止节点，输入路径数据，输出路径终止节点数据；

equals函数：判断两个值是否相等，输入两个值，输出true或false；

propertyValue函数：获取节点属性值，输入节点和属性键，输出节点对应的属性值；

(3)知识库：

实体1

名称：刘备

标签：人物

实体2

名称：关羽

标签：人物

关系1

刘备-[二弟]->关羽

(4)数据模型：

人物标签下存在名称属性

人物与人物之间存在二弟关系

(5)模板库：

(空)

步骤二：进行模板格式定义和问句解析

(1)模板格式定义：

依存关系子图：起始元素-[依存关系]->终止元素，例如：实体-[定中关系]->实体

元素链，例如：实体-附加词-属性键

配置信息，自定义规则

(2)问句解析：

词项链，例如：谁-是-刘备

词性链，例如：代词-动词-名词

依存关系图，例如：谁-[主谓关系]->是，刘备-[动宾关系]->是

步骤3：进行模板配置

例如针对问句“谁是刘备”进行模板配置(这里主要为结果模板，结构、条件模板为空)，具体如下。

问句：“谁是刘备”

词项链：谁-是-刘备

模板：

依存关系子图：

询问词-[主谓关系]->联结词

实体-[动宾关系]->联结词

元素链：询问词-联结词-实体

配置信息：

函数：node(人物).filter(equals(propertyValue(名称)，刘备))

步骤4：进行智能问答

例如已有组合生成的预先建立的句法模板：

(1)模板1：

结构：(空)

条件：(空)

结果：

依存关系子图：

询问词-[主谓关系]->联结词

实体-[动宾关系]->联结词

元素链：询问词-联结词-实体

配置信息：

函数：node(标签).filter(equals(propertyValue(名称)，实体))

(2)模板2：

结构：

依存关系子图：

实体-[定中关系]->关系类型

元素链：实体-附加词-关系类型-联结词-询问词配置信息：

函数：path(标签,关系类型，缺省

值).filter(equals(propertyValue(名称)，实体))

条件：(空)

结果：

依存关系子图：

关系类型-[主谓关系]->联结词

询问词-[动宾关系]->联结词

元素链：实体-附加词-关系类型-联结词-询问词配置信息：

函数：endNode(关系类型)

然后在问答时：

(1)获取用户输入“谁是刘备”时，对用户输入的问句进行预处理和解析后，匹配模板1，生成

node(人物).filter(equals(propertyValue(名称)，刘备))

查询链，检索知识库，返回刘备实体。

(2)获取用户输入“刘备的二弟是谁”，对用户输入的问句进行预处理和解析后，匹配模板2，生成

path(标签,关系类型，缺省值).filter(equals(propertyValue(名称)，实体)).map(endNode(关系类型))

查询链，检索知识库，返回与刘备实体存在“二弟”关系的实体(即关羽实体)。

本发明结合自然语言处理，对用户问句进行语义化分析、实体关联、关系辨别，形成逻辑表达式，到知识图谱构成的知识库中查询出相关的信息，通过问答系统给用户最精准的答案。

如图2所示，本发明提供了一种智能问答装置，该装置包括：预处理模块、解析模块、匹配模块和检索模块，其中，

所述解析模块，用于对预处理后的语句进行解析，获得所述语句对应的句法模式；

在本发明一个实施例中，所述预处理模块包括：字母转换单元、字体转换单元、标点管理单元和文字更正单元，其中，

所述文字更正单元，用于将所述语句中的错别字进行更正。

在本发明一个实施例中，所述解析模块具体用于运用自然语言处理NLP工具解析预处理后的语句，生成所述语句的依存关系，以及根据所述依存关系获得所述语句对应的句法模式。

在本发明一个实施例中，该装置还包括：资源构建模块，用于构建资源池，至少包括：初始化资源池、从应用数据库中加载全局配置、加载词网、加载函数集和加载模板库。

上述装置内的各模块和单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，具体内容可参见本发明方法实施例中的叙述，此处不再赘述。

应当理解，这里描述的各种技术可结合硬件或软件，或者它们的组合一起实现。从而，本发明的方法和设备，或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介，例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式，其中当程序被载入诸如计算机之类的机器，并被该机器执行时，该机器变成实践本发明的设备。

在程序代码在可编程计算机上执行的情况下，计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件)，至少一个输入装置，和至少一个输出装置。其中，存储器被配置用于存储程序代码；处理器被配置用于根据该存储器中存储的该程序代码中的指令，执行本发明的各种方法。

以示例而非限制的方式，计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。

应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面发明的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员应当理解在本文所发明的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中，或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中发明的所有特征以及如此发明的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中发明的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

此外，所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此，具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外，装置实施例的在此所述的元素是如下装置的例子：该装置用于实施由为了实施该发明的目的的元素所执行的功能。

如在此所使用的那样，除非另行规定，使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例，并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。

尽管根据有限数量的实施例描述了本发明，但是受益于上面的描述，本技术领域内的技术人员明白，在由此描述的本发明的范围内，可以设想其它实施例。此外，应当注意，本说明书中使用的语言主要是为了可读性和教导的目的而选择的，而不是为了解释或者限定本发明的主题而选择的。因此，在不偏离所附权利要求书的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围，对本发明所做的发明是说明性的，而非限制性的，本发明的范围由所附权利要求书限定。

Claims

1.一种智能问答方法，其特征在于，该方法包括：

获取用户输入的语句，并对所述语句进行预处理；

对预处理后的语句进行解析，获得所述语句的句法模式；

根据所述查询链进行检索并返回检索结果。

2.根据权利要求1所述智能问答方法，其特征在于，对所述语句进行预处理，包括以下至少一项：

对所述语句中的字母进行大小写转换；

将所述语句中的繁体字转换为简体字；

将所述语句中的多余标点符号去除；

将所述语句中的错别字进行更正。

3.根据权利要求1所述智能问答方法，其特征在于，所述对预处理后的语句进行解析，获得所述语句的句法模式，包括：

根据所述依存关系获得所述语句的句法模式。

4.根据权利要求1所述智能问答方法，其特征在于，该方法还包括：构建资源池；

所述构建资源池，至少包括：初始化资源池、从应用数据库中加载全局配置、加载词网、加载函数集和加载模板库。

5.一种智能问答装置，其特征在于，该装置包括：预处理模块、解析模块、匹配模块和检索模块，其中，

6.根据权利要求5所述智能问答装置，其特征在于，所述预处理模块至少包括字母转换单元、字体转换单元、标点管理单元和文字更正单元中的一个，其中，

所述文字更正单元，用于将所述语句中的错别字进行更正。

7.根据权利要求5所述智能问答装置，其特征在于，所述解析模块具体用于运用自然语言处理工具解析预处理后的语句，生成所述语句的依存关系，以及根据所述依存关系获得所述语句对应的句法模式。

8.根据权利要求5所述智能问答装置，其特征在于，该装置还包括：资源构建模块，用于构建资源池，至少包括：初始化资源池、从应用数据库中加载全局配置、加载词网、加载函数集和加载模板库。

9.一种可读存储介质，其特征在于，其上具有可执行指令，当可执行指令被执行时，使得计算机执行如权利要求1-4的任一项所包括的操作。

10.一种计算设备，其特征在于，包括：一个或多个处理器、存储器，以及一个或多个程序，其中，

所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行如权利要求1-4中的任一项所包括的操作。