CN113255374B

CN113255374B - 问答管理方法及系统

Info

Publication number: CN113255374B
Application number: CN202110628868.6A
Authority: CN
Inventors: 简仁贤; 魏晓辰; 金靖
Original assignee: Emotibot Technologies Ltd
Current assignee: Emotibot Technologies Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2024-06-07
Anticipated expiration: 2041-06-02
Also published as: CN113255374A

Abstract

本发明提供了问答管理方法及系统，方法包括以下步骤：构建并编辑各个领域的知识图谱；接收用户的提问信息，对提问信息进行解析，得到提问解析信息；将提问解析信息输入至对应的知识图谱中，接收知识图谱返回的回答信息。该方法能够更好地针对结构化数据进行运营。运用知识图谱的数据结构，将结构化数据更合理地存储到对话系统，并因为灵活地存储方式，使更多种询问匹配方式成为可能。

Description

问答管理方法及系统

技术领域

本发明属于技术领域，具体涉及问答管理方法及系统。

背景技术

一般的问答系统使用的是一问多答的配套存储方式、以及以高相似度为标准的匹配方式，这种配套存储和匹配方式具有低学习成本、低运营成本、匹配算法成熟等优点。

但是随着智能问答场景的丰富，这种配套存储和匹配方式遇到了瓶颈。对于具有结构化的数据，首先，这种存储方式会产生大量的数据冗余，且在进行语料扩写时，会产生语料数据不均衡等问题，大大加重了运营的负担，影响了算法的准确率。其次，这种匹配方式也无法满足越来越丰富的用户问法，不支持反查、对比、运算等复杂问法。

发明内容

针对现有技术中的缺陷，本发明提供了一种问答管理方法及系统，可以更好地针对结构化的数据进行运营。

第一方面，一种问答管理方法，包括以下步骤：

构建并编辑各个领域的知识图谱；

接收用户的提问信息，对提问信息进行解析，得到提问解析信息；

将提问解析信息输入至对应的知识图谱中，接收知识图谱返回的回答信息。

优选地，所述构建并编辑各个领域的知识图谱具体包括：

构建各个领域的知识图谱；

分析各个领域数据源的数据格式，根据数据格式将数据源转换成结构化数据；

将结构化数据填入对应的知识图谱中；

所述结构化数据包含层级结构、表格以及长文本段落。

优选地，所述根据数据格式将数据源转换成结构化数据具体包括：

通过预设的规则引擎将所述层级结构和表格转换成主谓宾数据；

对所述长文本段落进行三元组抽取，从抽取结果中识别出主谓宾数据，将所有主谓宾数据保存到对应领域的知识图谱中；

识别预设词库的同义词，将该同义词存储至对应知识图谱的专属词库中，并将该同义词与知识图谱的实体或属性关联；

利用预设的语料库，将各个领域的知识图谱训练成分类模型，所述分类模型用于预测用户查询的属性。

优选地，所述接收用户的提问信息，对提问信息进行解析，得到提问解析信息，具体包括：

对提问信息进行分词、句法树、依存句法的分析，得到分析结果；

通过预设的词典解析器提取提问信息中的实体、属性或属性值；所述词典解析器根据关联的实体、属性和同义词构成；

根据分析结果识别提问信息中实体之间的约束关系；

根据分析结果和所述规则引擎，将提问信息中识别到的实体、属性或属性值转换为语义逻辑表达式。

优选地，在所述转换为语义逻辑表达式之后，还包括：

当得到的语义逻辑表达式需要继承上下文时，将继承的上下文与语义逻辑表达式进行合并，得到新的语义逻辑表达式。

优选地，所述将提问解析信息输入至对应的知识图谱中，接收知识图谱返回的回答信息具体包括：

解析语义逻辑表达式，将每个约束关系转换为查询条件，召回符合查询条件的结果；

识别语义逻辑表达式的用户意图，并生成所述回答信息。

优选地，在所述识别语义逻辑表达式的用户意图之后，生成所述回答信息之前，还包括：

当所述提问信息模糊不清或知识图谱返回的结果数量大于预设值时，生成包含反问信息的回答信息。

优选地，在所述构建好知识图谱之后，还包括：

将用户录入的测试题存储至对应知识图谱的测试集中，测试题包括提问信息、期望回复和期望意图；

当接收到开始测试指令时，自动将测试集中测试题的提问信息输入到对应的知识图谱中，将知识图谱返回的数据与期望回复、期望意图进行比较，判断是否相等；若不相等，则标记该测试题；

根据测试数据更新至所述专属词库中。

优选地，所述专属词库分为沙箱环境与生产环境，沙箱环境和生产环境的数据在物理上相互隔离；

当接收到用户发起的同步指令时，将沙箱环境的数据同步到生产环境中。

第二方面，一种问答管理系统，包括

构建单元：用于构建并编辑各个领域的知识图谱；

解析单元：用于接收用户的提问信息，对提问信息进行解析，得到提问解析信息；

问答单元：用于将提问解析信息输入至对应的知识图谱中，接收知识图谱返回的回答信息。

由上述技术方案可知，本发明提供的问答管理方法及系统，能够更好地针对结构化数据进行运营。运用知识图谱的数据结构，将结构化数据更合理地存储到对话系统，并因为灵活地存储方式，使更多种询问匹配方式成为可能。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍。在所有附图中，类似的元件或部分一般由类似的附图标记标识。附图中，各元件或部分并不一定按照实际的比例绘制。

图1为本发明实施例一提供的问答管理方法的流程图。

图2为本发明实施例一提供的知识图谱构建的流程图。

图3为本发明实施例三提供的问答管理系统的模块框图。

实施方式

下面将结合附图对本发明技术方案的实施例进行详细的描述。以下实施例仅用于更加清楚地说明本发明的技术方案，因此只作为示例，而不能以此来限制本发明的保护范围。需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本发明所属领域技术人员所理解的通常意义。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

实施例

一种问答管理方法，参见图1，包括以下步骤：

S1：构建并编辑各个领域的知识图谱，参见图2，步骤S1具体包括：

S11：构建各个领域的知识图谱；

S12：分析各个领域数据源的数据格式，根据数据格式将数据源转换成结构化数据；其中所述结构化数据包含层级结构、表格以及长文本段落。

S13：将结构化数据填入对应的知识图谱中；

步骤S12具体包括：

1)数据导入，分析各个领域数据源的数据格式，根据数据格式将数据源转换成带层级结构、嵌套的结构化数据。结构化数据包含文章各个标题(即层级结构)、表格以及长文本段落。具体地，例如当接收到Word、Pdf或Excel文件时，先进行格式解析，根据标题、序号、段落等特征信息，转换成有层级结构的结构化数据，用嵌套的Json对象进行维护。

2)通过预设的规则引擎对层级结构和表格数据进行初步的处理，转换成对应的主谓宾数据；具体地，例如根据自定义规则，将每个层级对应的标题转换成实体或属性。或者是通过各种策略(例如比较一整列值的相似度)，识别子表格中的哪些列或行是表头，将表头转换成属性，剩余的部分转换成实体及其对应属性值。

3)将结构化数据中所有长文本段落进行三元组抽取，从抽取结果中识别出主谓宾数据，将所有主谓宾数据保存到对应领域的知识图谱中；具体地，例如将子表格转换成知识图谱三元组，连同上述层级结构转换得到的实体和属性，一同保存到对应的知识图谱当中。

4)识别内置的词库和用户新增的词库的同义词，将同义词和知识图谱的实体属性关联起来，并存储到知识图谱的专属词库中，用于后续推理；

5)利用内置的语料库和用户新增的语料，将各个领域的知识图谱训练成一个查询属性的分类模型，用于推理时预测用户是否查询某个属性，在该步骤中，每个属性作为一个分类。具体地，例如识别用户上传的excel文件中的语料，并与对应的属性进行关联，调用机器学习平台相关算法的模型训练接口，将知识图谱训练成分类模型。

S2：接收用户的提问信息，对提问信息进行解析，得到提问解析信息，具体包括：

1)该方法首先预先加载有词典解析器、模型ID和实体关系等图谱数据。然后可以通过请求对应领域的知识图谱ID，找到对应的领域图谱数据，包括词库、模型、图谱等。

2)对提问信息进行特征提取、分词、句法树、依存句法等分析，得到分析结果。具体地，例如通过RESTful接口调用自研的NLU服务，对提问信息进行分词、句法树、依存句法的分析，将其缓存起来。

3)调用实体、属性的词典解析器，提取提问信息中的实体和属性，并且保存对应位置。所述词典解析器根据关联的实体、属性和同义词构成；具体地，例如通过词典构建完全匹配解析器、拼音模糊匹配解析器、分词模糊匹配解析器，进行提问信息中实体和属性的提取，要求提取结果要符合之前的分词结果，允许提取到的一个实体或属性跨越连续的几个分词，如“不能说的秘密的导演”，提取到实体为“不能说的秘密”分词结果为“不能/说/的/秘密/的/导演”，由于“不能说的秘密”完整的包含了“不能/说/的/秘密”几个词，因此它也是合法抽取到的实体。

4)提取提问信息中的属性值。具体地，例如调用自研NER服务，抽取数值、时间信息，通过图谱中的属性值，构建字符串类型的值的完全匹配解析器，进行属性值的提取。

5)根据分析结果识别提问信息中实体之间的约束关系。具体地，例如根据分析结果判断实体之间是约束关系还是平级关系，属性是并列还是连续推理，属性和属性值是否要合并成一个约束等，进行约束识别。如对于“A的年龄和身高”要查询的是A的年龄和身高两个属性，而“A的妻子的身高”，则是先要查询A的妻子，再查询她的身高。

6)调用属性预测模型，预测出句子中的属性。具体地，例如对于体温信息中尚未识别的词组和剩余句子，可以先将已识别的实体替换成占位符，然后调用预先训练好的属性预测模型预测句子的属性，比如“手机多少钱”，先将“手机”实体归一成占位符，通过“<e>多少钱”预测属性，这样能够进一步提高预测属性的准确率。

7)将每个实体、属性、属性值转换成逻辑单元，根据分析结果和所述规则引擎，将所有的逻辑单元转换成语义逻辑表达式。具体地，将实体、实体组、属性、属性组、属性值约束、时间范围约束等，根据规则引擎转换成系统设定的规范语义逻辑表达式，可用Json表示。

8)判断语义逻辑表达式是否需要继承上下文，如需要，则继承上下文后合并成新的语义逻辑表达式。具体地，例如根据用户意图、语义逻辑表达式是否完整，判断提问信息是否需要继承上下文，如需要继承上下文，根据规则引擎，将当前语义逻辑表达式以及存储在Redis的上文与语义逻辑表达式进行合并，生成新的语义逻辑表达式。例如如果提问信息中只有属性，需要继承上文的实体，如果提问信息中只有实体，则需要继承上文的属性。上下文通过会话ID进行区分。

S3：将提问解析信息输入至对应的知识图谱中，接收知识图谱返回的回答信息，具体包括：

1)解析语义逻辑表达式的实体属性值以及对应的词性，将每个约束转换为查询条件，召回符合条件的结果。具体地，例如将语义逻辑表达式进行推理，从Elasticsearch和内存预加载的数据中，召回符合查询条件的数据，对于多约束的情况，对不同约束的查询结果取并集或交集。

2)根据语义逻辑表达式中识别出来的用户意图，如查询实体、查询属性、断言、聚合运算等，生成对应的回答信息，回答信息中还包含查询条件。具体地，例如对于查询实体的情况，需要根据语义逻辑表达式递归生成查询条件话术。对于查询属性的情况，需要在生成回复之前，附带关联的属性值。对于断言的情况，需要额外回复用户的断言是否正确。对于聚合运算的情况，需要额外回复聚合运算结果是多少。

3)判断用户问是否模糊不清或查询结果是否过多，是否需要触发反问让用户澄清问题。具体地，反问的触发具有多种策略。比如当提问信息中抽取到的实体或属性为模糊匹配、且知识图谱找到多个结果时，需要进行反问。当用户要查询的是某个实体的下位词、但知识图谱返回的结果过多时，需要进行反问。比如用户问“这部打印机的墨水”，“墨水”对应的属性可能为“墨水型号”或“墨水类型”，此处可以反问用户询问的是具体哪个属性。该方法在进行反问时，还可以根据知识图谱返回的结果，反问用户要问的是否为最具有区分度的属性或实体名，覆盖原本的回复内容。例如对于“这部打印机的墨水”，“墨水”对应的属性可能为“墨水型号”或“墨水类型”，那么对用户进行反问时，可以问“请问您询问的是墨水型号还是墨水类型呢？”。

4)将语义逻辑表达式和知识图谱返回的结果保存到上下文中，用于后续对话。

综上所述，该方法能够更好地针对结构化数据进行运营。运用知识图谱的数据结构，将结构化数据更合理地存储到对话系统，并因为灵活地存储方式，使更多种询问匹配方式成为可能。

实施例

实施例二在实施例一的基础上，还增加限定了以下内容：

该方法在构建好知识图谱后，还对知识图谱进行测试，测试方法包括：

1)用户预先编辑好测试题，测试题包括每一条测试题的提问信息、期望回复、期望意图。所有测试题都存储到对应领域知识图谱的测试集中。具体地，该方法可以根据知识图谱ID找到对应的知识图谱。

2)触发测试时，自动将测试集中测试题的提问信息输入到对应的知识图谱中，将知识图谱返回的数据与期望回复、期望意图进行比较，判断是否相等；若不相等，则标记该测试题，将测试结果保存到专属词库。具体地，先读取测试集，使用同一个会话ID串行调用知识图谱进行推理。在进行结果比较时，除了知识图谱返回的数据外，还需要获取实体及属性识别信息、用户意图以及语义逻辑表达式，如果返回的数据与期望结果不相符，则标记对应数据。

3)测试完成后，根据测试数据生成测试报告，用户可以下载测试报告。具体地，该方法完成测试后，还可以将测试结果保存到专属词库中。用户在下载测试报告时，可以根据知识图谱ID读取专属词库，获取最近一次测试的所有测试题，生成excel，通过http接口供用户下载。

另外，本实施例提供的方法还具有变更审核的功能。由于知识图谱相关的所有数据都分布在沙箱环境与生产环境，数据在沙箱环境与生产环境之间是物理隔离的，保证生产环境数据的稳定。所以只有当用户触发同步时，当前沙箱环境有效数据才会全量同步到生产环境中。

本发明实施例所提供的方法，为简要描述，实施例部分未提及之处，可参考前述实施例中相应内容。

实施例

一种问答管理系统，参见图3，包括

构建单元：用于构建并编辑各个领域的知识图谱；

在实施例中，所揭露的系统，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例所提供的系统，为简要描述，实施例部分未提及之处，可参考前述实施例中相应内容。

实施例

一种系统，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述的方法。

应当理解，在本发明实施例中，所称处理器可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific IntegratedCircuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

实施例

一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述的方法。

所述计算机可读存储介质可以是前述任一实施例所述的系统的内部存储单元，例如系统的硬盘或内存。所述计算机可读存储介质也可以是所述系统的外部存储设备，例如所述系统上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述系统的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述系统所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本发明实施例所提供的介质，为简要描述，实施例部分未提及之处，可参考前述实施例中相应内容。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，其均应涵盖在本发明的权利要求和说明书的范围当中。

Claims

1.一种问答管理方法，其特征在于，包括以下步骤：

构建并编辑各个领域的知识图谱；

将提问解析信息输入至对应的知识图谱中，接收知识图谱返回的回答信息；

所述接收用户的提问信息，对提问信息进行解析，得到提问解析信息，具体包括：

根据分析结果识别提问信息中实体之间的约束关系，具体包括根据分析结果判断实体之间是约束关系还是平级关系，属性是并列还是连续推理，属性和属性值是否合并成一个约束；

根据分析结果和规则引擎，将提问信息中识别到的实体、属性或属性值转换为语义逻辑表达式，具体包括将实体、实体组、属性、属性组、属性值约束、时间范围约束，根据规则引擎转换成语义逻辑表达式；

所述构建并编辑各个领域的知识图谱具体包括：

构建各个领域的知识图谱；

将结构化数据填入对应的知识图谱中；

所述结构化数据包含层级结构、表格以及长文本段落；

所述根据数据格式将数据源转换成结构化数据具体包括：

通过预设的规则引擎将所述层级结构和表格转换成主谓宾数据，具体包括根据自定义规则将每个层级对应的标题转换成实体或属性；或者是通过策略识别子表格中的表头，将表头转换成属性，剩余的部分转换成实体及其对应属性值；

2.根据权利要求1所述问答管理方法，其特征在于，在所述转换为语义逻辑表达式之后，还包括：

3.根据权利要求1所述问答管理方法，其特征在于，所述将提问解析信息输入至对应的知识图谱中，接收知识图谱返回的回答信息具体包括：

识别语义逻辑表达式的用户意图，并生成所述回答信息。

4.根据权利要求3所述问答管理方法，其特征在于，在所述识别语义逻辑表达式的用户意图之后，生成所述回答信息之前，还包括：

5.根据权利要求1所述问答管理方法，其特征在于，在所述构建好知识图谱之后，还包括：

根据测试数据更新至所述专属词库中。

6.根据权利要求1所述问答管理方法，其特征在于，

所述专属词库分为沙箱环境与生产环境，沙箱环境和生产环境的数据在物理上相互隔离；

7.一种问答管理系统，其特征在于，包括

构建单元：用于构建并编辑各个领域的知识图谱；

问答单元：用于将提问解析信息输入至对应的知识图谱中，接收知识图谱返回的回答信息；

解析单元具体用于：

所述构建并编辑各个领域的知识图谱具体包括：

构建各个领域的知识图谱；

将结构化数据填入对应的知识图谱中；

所述结构化数据包含层级结构、表格以及长文本段落；

所述根据数据格式将数据源转换成结构化数据具体包括：