CN116737908A

CN116737908A - 知识问答方法、装置、设备和存储介质

Info

Publication number: CN116737908A
Application number: CN202310890668.7A
Authority: CN
Inventors: 卜崇宇; 孙权; 董大祥; 王高俊; 罗冬冬; 包顺科; 陈春筝; 赵亚飞; 刘瑛; 刘倩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2023-07-19
Filing date: 2023-07-19
Publication date: 2023-09-12

Abstract

本公开提供了一种知识问答方法、装置、设备和存储介质，涉及人工智能技术领域，尤其涉及深度学习和自然语言处理技术，特别涉及大模型技术。具体实现方案为：获取问询语句、问询语句的历史关联语句以及知识库；其中，知识库中存储有基于参考文本内容生成的问答数据；根据问询语句和历史关联语句，生成问询语句的问询衍生语句；在知识库中查询与问询衍生语句相匹配的问答数据；根据匹配结果，生成问询语句的目标答案数据。根据本公开的技术，提高了知识问答结果的准确度。

Description

知识问答方法、装置、设备和存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习和自然语言处理技术，特别涉及大模型技术。

背景技术

随着人工智能的不断发展，智能问答已经应用至语音助手、智能客服以及在线咨询等服务领域。智能问答是指以自然语言理解为核心，通过对输入的问询语句进行语义分析，然后在大规模知识库通过语义检索或对话管理等技术，匹配相关问题，最后通过自然语言生成技术，进行答案的生成和回复。

发明内容

本公开提供了一种准确度更好的知识问答方法、装置、设备和存储介质。

根据本公开的一方面，提供了一种知识问答方法，包括：

获取问询语句、所述问询语句的历史关联语句以及知识库；其中，所述知识库中存储有基于参考文本内容生成的问答数据；

根据所述问询语句和所述历史关联语句，生成所述问询语句的问询衍生语句；

在所述知识库中查询与所述问询衍生语句相匹配的问答数据；

根据匹配结果，生成所述问询语句的目标答案数据。

根据本公开的另一方面，还提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例所提供的任意一种知识问答方法。

根据本公开的另一方面，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行本公开实施例所提供的任意一种知识问答方法。

根据本公开的技术，提高了知识问答结果的准确度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的一种知识问答方法的流程图；

图2是本公开实施例提供的另一种知识问答方法的流程图；

图3是本公开实施例提供的另一种知识问答方法的流程图；

图4是本公开实施例提供的一种知识问答装置的结构图；

图5是用来实现本公开实施例的知识问答方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例提供的知识问答方法和知识问答装置，适用于在人机交互过程中进行知识问答的应用场景。本公开实施例所提供的各知识问答方法，可以由知识问答装置执行，该装置可以采用软件和/或硬件实现，并具体配置于电子设备中，该电子设备可以是智能终端，例如手机、平板、智能音箱、智能穿戴设备或客服机器人等，本公开对此不作任何限定。

为了便于理解，首先对知识问答方法进行详细说明。

参见图1所示的知识问答方法，包括：

S101、获取问询语句、问询语句的历史关联语句以及知识库；其中，知识库中存储有基于参考文本内容生成的问答数据。

其中，问询语句可以是在进行知识问答时，所输入的携带问询问题的语句。其中，问询语句可以文本数据，或者将其他形式的数据(如语音等)对应的文本数据转化结果，本公开对此不作任何限定。

其中，问询语句的历史关联语句，可以是相同语境下与问询语句相关的历史问询语句，例如可以是与问询语句的输入时间相邻和/或输入次数相邻的历史问询语句。其中，输入时间相邻的历史问询语句，可以是在问询语句的输入时间之前的历史预设时间段内，所输入的问询语句；输入次数相邻的历史问询语句，可以是在问询语句的输入次数之前的历史预设次数阈值内，所输入的问询语句。其中，历史预设时间段或历史预设次数阈值，可以由技术人员根据需要或经验值进行设置，或通过大量试验确定，本公开对此不作任何限定。

需要说明的是，为了保证知识问答结果的准确度，通常问询语句和问询语句的历史关联语句，为相同账号或相同问询方所输入的问询语句。

其中，知识库中预先存储有至少一条问答数据，用于作为知识问答过程中，进行答案数据确定的基础。其中，问答数据中可以包括参考答案数据；或者，可选的，问答数据中还可以包括参考答案数据对应的参考问题数据。其中，参考文本内容可以是用于生成问答数据所采用的文本数据。

示例性的，可以直接获取参考文本内容，或者，获取富媒体数据，并对富媒体数据进行文本内容提取，并将提取结果作为参考文本内容；基于参考文本内容生成问答数据；将所生成问答数据存储至预先构建的知识库中，以供后续进行问答数据的查询匹配。其中，富媒体数据中可以承载有文本、图片、语音、视频和文件等至少一种媒体形式的信息。

可选的，可以直接将参考文本内容中所携带的数据作为问答数据；或者可选的，对参考文本内容进行处理，并将处理结果作为问答数据。

需要说明的是，进行知识库构建的执行设备，与进行知识问答的执行设备，两者可以相同或不同，本公开对此不作任何限定。

值得注意的是，对问询语句和问询语句的历史关联语句的获取，以及知识库的获取，两获取过程可以先后执行、同时进行或交叉执行，本公开对不同数据的具体获取时机不作任何限定，仅需保证在进行相应数据前能够获取到即可。

S102、根据问询语句和历史关联语句，生成问询语句的问询衍生语句。

其中，问询衍生语句可以为无歧义且无内容缺失的问询语句。

由于问询语句和历史关联语句语境相同，因此历史关联语句能够补充问询语句中的省略内容，实现对问询语句的内容补全；和/或，能够补充问询语句中的指代内容，实现对问询语句中的指代消解。因此，根据历史关联语句对问询语句进行内容补全和/或指代消解，能够生成无歧义且无内容缺失的问询衍生语句，为后续知识问答结果的准确度的提高，奠定了基础。

在一个可选实施例中，可以对问询语句和历史关联语句进行语义分析，并根据语义分析结果，对问询语句进行内容补充和/或指代消解，得到问询衍生语句。其中，语义分析可以包括句法分析和句子成分分析等中的至少一种。

在另一可选实施例中，可以基于大语言模型，根据问询语句和历史关联语句，生成问询衍生语句。其中，大语言模型基于不同自然语言任务下的训练文本数据学习得到。

所谓大模型可以理解为具有较大的参数数量(如上亿规模)的神经网络模型。其中，大语言模型即为采用大量训练文本数据所训练的深度学习模型。由于大语言模型训练时所采用的训练文本数据，对应至少一个自然语言任务，因此，训练所得的大语言模型具备较好的自然语言处理能力，可以实现自然语言文本的生成或进行语言文本的理解等。其中，自然语言任务可以包括文本生成任务、知识问答任务、文本解析任务、对话任务和文本续写任务等中的至少一种。本公开对所使用的大语言模型的具体网络结构不作任何限定，可以是能够持续从海量数据和大规模知识中融合学习，具备知识增强、检索增强或对话增强等技术特色，拥有信息提取和知识生成能力的知识增强型大语言模型。

示例性的，为了进一步提高大语言模型在问询衍生语句生成过程中对应生成结果的准确度，还可以采用文本生成任务下的训练文本数据，以及预先标注好的训练文本数据对应的文本衍生结果，对预训练好的大语言模型进行参数微调，使得调整后的大语言模型更加适配文本生成任务。相应的，采用微调后的大语言模型，进行问询衍生数据的生成。

可以理解的是，基于大语言模型替代传统语义分析的方式，进行问询衍生语句的生成，由于大语言模型具备较好的自然语言处理能力，因此所生成的问询衍生语句的准确度更高，有助于提高知识问答结果的准确度。

S103、在知识库中查询与问询衍生语句相匹配的问答数据。

采用无歧义且携带信息更加全面的问询衍生语句，替代问询语句，在知识库中进行问答数据的查询匹配，使得匹配结果更加准确。

示例性的，可以通过向量相似度匹配等方式，进行问询衍生语句与知识库中的各问答数据的查找匹配。其中，问答数据以及问询衍生语句的向量构建方式，以及两者之间相似度的确定方式，可以采用现有技术中的至少一种加以实现，本公开对此不作任何限定。

在一个可选实施例中，可以引入问询衍生语句与问答数据之间的置信度，来度量问询衍生语句与不同问答数据之间的语义匹配情况；选取置信度超出预设置信度阈值的问答数据，作为问询衍生语句的匹配结果。其中，预设置信度阈值可以由技术人员根据需要或经验值进行设置或调整，或通过大量试验加以确定；置信度可以采用现有技术中的至少一种置信度确定方式加以实现，本公开对此不作任何限定。

S104、根据匹配结果，生成问询语句的目标答案数据。

若匹配成功，也即知识库中存在与问询衍生语句相匹配的问答数据，则直接将匹配结果中的答案数据，作为问询语句的目标答案数据；或者，对匹配结果进行处理，以使匹配结果能够符合问询语句的语境情况，并将处理结果作为问询语句的目标答案数据。

进一步的，若匹配失败，则获取人工输入的问询衍生语句的标准答案数据，并将获取结果作为目标答案数据。为了避免后续匹配失败的情况发生，可以将问询衍生语句和标准答案数据作为问答对，存储至知识库中，以供后续查询使用。

本公开实施例通过引入问询语句的历史关联数据，结合问询语句，生成问询衍生语句，由于历史关联数据中携带有问询语句中的指代信息或省略信息等，因此所生成的问询衍生语句与问询语句相比，所携带的信息更加丰富，且消除了指代歧义等。所以，本公开采用问询衍生语句，替代问询语句在知识库中进行问答数据的查找匹配，其匹配结果准确度更高；相应的，根据该匹配结果，进行问询语句的目标答案数据的生成，提高了所生成目标答案数据的准确度，进而提高了知识问答结果的准确度。

在上述各技术方案的基础上，本公开还提供了一个可选实施例，在该可选实施例中，对知识库所包含内容进行了优化改进。需要说明的是，在本公开实施例中未详述部分，可参见其他实施例的相关表述。

参见图2所示的一种知识问答方法，包括：

S201、获取问询语句、问询语句的历史关联语句以及知识库；知识库包括第一知识库和/或第二知识库；第一知识库中存储有参考文本内容中所包含的问答对；第二知识库中存储有参考文本内容的知识生成数据。

其中，问答对可以理解为由问题数据以及问题数据对应的答案数据，所构建的数据对；知识生成数据可以理解为对参考文本内容进行知识理解和深度挖掘，所生成的数据。

S202、根据问询语句和历史关联语句，生成问询语句的问询衍生语句。

S203、在知识库中查询与问询衍生语句相匹配的问答数据。

S204、根据匹配结果，生成问询语句的目标答案数据。

在一个可选实施例中，知识库中可以仅包括第一知识库；相应的，在知识库中查询与问询衍生语句相匹配的问答数据时，可以直接在第一知识库中查询与问询衍生语句相匹配的问答数据。

示例性的，针对包含有问答对的参考文本内容，将该参考文本内容中所包含的问答对，存储至预先构建的第一知识库中，作为后续进行问答数据查询匹配的基础。

可选的，可以预先人工根据参考文本内容中是否包含问答对，对参考文本内容进行分类标记；根据分类标识，确定参考文本内容中是否包含问答对。其中，本公开对分类标识的具体呈现方式不作任何限定，仅需保证包含问答对的文本类别与未包含文本对的分类标识，两者不同即可。

或者可选的，还可以自动化识别参考文本内容中是否包含问答对，以实现对包含与未包含问答对的参考文本内容的区分，同时实现问答对的自动化识别。

示例性的，可以根据参考内容文档所使用的文档结构模板、参考内容文档的文档类型以及参考内容文档中预设分隔符的使用情况中的至少一种，识别参考文本内容中的问答对。其中，所述参考文本文档中携带有所述参考内容文档。

在一个可选实施方式中，可以预先进行不同文档结构模板的设置，其中，包含问答对的参考内容文档，与未包含问答对的参考内容文档，所采用的文档结构模板不同，因此，可以通过参考内容文档所采用的文档结构模板，识别参考文本内容中是否包含问答对。

可选的，参考内容文档可以包括仅包含问答对和不包含问答对两种类别；相应的，可以通过参考内容文档所采用的文档结构模板，直接识别出参考文本内容中的问答对。

或者可选的，参考内容文档可以包括包含问答对和不包含问答对两种类别；相应的，可以通过参考内容文档所采用的文档结构模板中，识别参考文本内容中是否包含问答对；针对包含问答对类别的参考内容文档，可以根据所采用文档结构模板中的问答对分布区域，进行问答对对应参考文本内容的识别。

在另一可选实施方式中，可以在生成参考内容文档过程中，在包含问答对的位置或区域，设置特有的预设分隔符；相应的，可以根据参考内容文档中是否存在预设分隔符，识别参考文档内容中是否包含问答对。进一步的，还可以根据预设分隔符的具体位置，进行问答对分布区域的确定，并根据问答对分布区域，进行问答对对应参考文本内容的识别；或者，根据参考内容文档所采用的文档结构模板对应的问答对分布区域，进行问答对对应参考文本内容的识别。

在又一可选实施方式中，在执行知识库构建过程的执行设备中，可以预先设置文档上传组件，用于进行参考内容文档的上传。在上传参考内容文档过程中，需要按需设置参考内容文档的文档类型。其中，文档类型包括问答对文档和普通文档。其中，问答对文档类别的参考内容文档中必须包含问答对；普通文档中禁止包含问答对。因此，可以根据参考内容文档的文档类型，识别参考文本内容中是否包含问答对。

可选的，若问答对文档中仅包含问答对，还可以直接获取到参考文本文档中的问答对数据。

或者可选的，若问答对文档中包括问答对以及其他内容，可以借助参考内容文档检索采用的文档结构模板对应的问答对分布区域，进行问答对对应参考文本内容的识别；或者通过参考内容文档中添加有预设分隔符的位置，确定问答对分布区域，并根据问答对分布区域，进行问答对对应参考文本内容的识别。

可以理解的是，通过引入携带有参考内容文档的参考内容文档，并根据参考内容文档所使用的文档结构模板、参考内容文档的文档类型以及参考内容文档中预设分隔符的使用情况中的至少一种，识别参考文本内容中的问答对，提高了参考文本内容中问答对识别的丰富性和多样性，从而提高了第一知识库构建过程的多样性和灵活性。

可以理解的是，由于第一知识库中的问答数据，为参考文本内容自身所包含的问答对，因此，通过查询第一知识库的方式，所匹配到的问答数据结果更加准确，进而提高了基于该匹配结果所生成的问询语句的目标答案数据的准确度。

在另一可选实施例中，知识库中可以仅包括第二知识库；相应的，在知识库中查询与问询衍生语句相匹配的问答数据时，可以直接在第二知识库中查询与问询衍生语句相匹配的问答数据。

示例性的，可以基于大语言模型，对参考文本内容进行知识生成，得到包括问答数据的知识生成数据；其中，大语言模型基于不同自然语言任务下的训练文本数据学习得到。

需要说明的是，知识生成过程所采用的大语言模型，以及前述问询衍生语句生成过程所采用的大语言模型，两者可以相同或不同，本公开对此不作任何限定。为了减少所使用的大语言模型数量，提高知识问答过程的便捷性，在一个具体实现方式中，可以采用相同的大语言模型，分别进行知识生成和问询衍生语句生成。

示例性的，为了进一步提高大语言模型在知识生成数据生成过程中对应生成结果的准确度，还可以采用文本解析任务下的训练文本数据，以及预先标注好的训练文本数据对应的文本解析结果，对预训练好的大语言模型进行参数微调，使得调整后的大语言模型更加适配文本解析任务。相应的，采用微调后的大语言模型，进行知识生成数据的生成。

可以理解的是，基于大语言模型对参考文本内容进行知识生成，使得所得的知识生成数据中能够提取出参考文本内容中的问答相关数据，以及挖掘出参考文本内容中隐含的语义信息，提高了知识生成数据的丰富性和准确性，从而提高了第二知识库中所存储数据的丰富性和准确性。相应的，基于第二知识库进行问答数据的查询匹配，提高了问答数据匹配结果的准确度，进而有助于提高知识问答结果的准确度。

由于知识生成数据基于大语言模型生成，因此不同参考文本内容所生成的知识生成数据的语句结构，可能存在一定的差异。而基于所匹配的问答数据所生成的目标答案数据，也可能存在与问询语句对应语境不符的情况。为了克服上述问题，在一个可选实施例中，还可以基于大语言模型，根据匹配结果和问询衍生语句，生成问询语句的目标答案数据。其中，大语言模型基于不同自然语言任务下的训练文本数据学习得到。

需要说明的是，问询衍生语句生成过程所采用的大语言模型、知识生成过程所采用的大语言模型以及目标答案数据生成过程所采用的大语言模型，三者可以相同或至少部分不同，本公开对此不作任何限定。为了减少所使用的大语言模型数量，提高知识问答过程的便捷性，在一个具体实现方式中，可以采用相同的大语言模型分别进行知识生成、问询衍生语句生成以及目标答案数据生成。

示例性的，为了进一步提高大语言模型在目标答案数据的生成过程中对应生成结果的准确度，还可以采用文本生成任务下的训练文本数据，以及预先标注好的训练文本数据对应的答案生成结果，对预训练好的大语言模型进行参数微调，使得调整后的大语言模型更加适配文本生成任务。相应的，采用微调后的大语言模型，进行目标答案数据的生成。

可以理解的是，由于问询衍生语句能够一定程度上反映问询语句的真实语境，因此根据问询衍生语句结合匹配结果(也即包括问答数据的知识生成数据)进行目标答案数据的生成，使得所生成目标答案数据更加符合问询语句的语境情况。同时，采用大语言模型进行目标答案数据的生成，能够有效规避目标答案数据而出现指代不清或存在歧义的情况，进一步提高了目标答案数据的准确度。

在一个具体实施方式中，基于大语言模型，根据匹配结果和问询衍生语句，生成问询语句的目标答案数据，可以包括：根据匹配结果和问询衍生语句，生成答案模板数据；基于大语言模型，根据答案模板数据，生成问询语句的目的答案数据。

其中，答案模板数据可以是根据问询衍生语句的句法类别，所确定的标准模板，用于对后续所生成的目标答案数据的句法结构加以限制；其中，不同句法类别所对应的标准模板不同，可以由技术人员根据需要或经验值进行设置，或通过大量试验加以确定，本公开对此不作任何限定。

可以理解的是，通过答案模板数据对所生成的目标答案数据的句法结构加以约束，避免出现生成结构混乱的目标答案数据的情况。另外，由于答案模板数据基于匹配结果和问询衍生语句生成，因此所生成的答案模板数据中同样携带有答案语义信息，因此，基于答案模板数据所生成的目标答案数据，能够避免出现目标答案数据语义错误的情况，提高了目标答案数据的准确度。

值得注意的是，进行第一知识库构建的执行设备，与进行第二知识库构建的执行设备，两者可以相同或不同，本公开对此不作任何限定。

在又一可选实施例中，知识库中可以包括第一知识库和第二知识库；相应的，在知识库中查询与问询衍生语句相匹配的问答数据时，可以直接在第一知识库和/或第二知识库中，查询与问询衍生语句相匹配的问答数据。

针对包含问答对的参考文本数据，由于第一知识库中的问答对，以及第二知识库中的问答对对应的知识生成数据，两者通常内容相同或语义相同，因此，存在第一知识库与第二知识库存在所存储数据至少部分交叉的情况。针对该部分内容，采用第一知识库或第二知识库，均可以进行问答数据的查询匹配。

在第二知识库使用过程中，为了进一步提高目标问答数据的准确度，提升交互体验，通常会引入大语言模型进行，根据匹配结果和问询衍生语句，进行目标答案数据的生成，必将带来一定的等待时间，降低了知识问答效率。

而针对未包含问答对的参考文本数据，由于第一知识库中无相关内容的存储，因此，第二知识库中存储有部分第二知识库中未存储的问答数据，采用第一知识库进行查询匹配，根本无法得到匹配结果，影响知识问答结果的反馈。

有鉴于此，在知识库包括第一知识库和第二知识库的情况下，可以首先在第一知识库中查询与问询衍生语句相匹配的问答数据；若在第一知识库中匹配成功，则直接将相匹配的问答数据，作为目标答案数据，进行反馈，从而提高知识问答效率。

若在第一知识库中匹配失败，则在第二知识库中查询与问询衍生语句相匹配的问答数据，并根据相匹配的问答数据和问询衍生语句，后续生成目标答案数据。这样做的好处在于，首先在第一知识库中进行问答数据匹配，从而提高知识问答效率，在第一知识库无法保证知识问答顺利执行的情况下，采用问答数据更加丰富全面的第二知识库作为替补，在牺牲一定的知识问答效率的基础上，保证知识问答结果的准确度，实现了知识问答效率和知识问答结果准确度的两者兼顾。

示例性的，若在第二知识库中匹配失败，则获取人工输入的问询衍生语句的标准答案数据，并将获取结果作为目标答案数据；将问询衍生语句和标准答案数据作为新的问答对，存储至第一知识库中。

当第一知识库和第二知识库中均无法匹配成功的情况下，贸然采用第一知识库中的问答数据或第二知识库中的问答数据，生成目标答案数据，大概率会出现事实性错误的情况，采用人工输入标准答案数据的方式，进行人工干预，实现知识问答兜底，提高了知识问答结果的准确度和知识问答体验度。同时，将问询衍生数据和标准答案数据作为新的问答对，存储至第一知识库中，能够在后续进行相同或类似的知识问答过程中，无需人工介入，即可及时、高效且准确的进行内容回复，有助于提高后续知识问答过程对应结果的准确度和问答效率。另外，本公开所采用的人工干预方式，方便快捷，可操作性强。

本公开实施例通过将知识库细化为包括存储有参考文本内容中所包含的问答对的第一知识库，和/或存储有参考文本内容的知识生成数据的第二知识库，提高了知识库的丰富性和多样性，通过第一知识库和/或第二知识库的使用，提高了知识问答过程的多样性和灵活性。

在上述各技术方案的基础上，本公开还提供了一个优选实施例，在该实施例中，对基于大语言模型的知识问答过程，进行了详细说明。需要说明的是，在本公开实施例中未详述部分，可参加其他实施例的相关表述。

参见图3所示的知识问答方法，包括：知识库构建阶段和知识问答阶段。

其中，知识库构建阶段，包括：

S301、文件获取：获取通过终端设备的预设上传接口所传输的待处理文件。

S302、文件解析：解析待处理文件，得到参考文本内容；继续执行S303A和S303B。

S303A、第一知识库生成：将参考文本内容中所包含的问答对，作为问答数据添加至第一知识库中。

S303B、知识生成：基于大语言模型对参考文件内容进行知识生成，得到包括问答数据的知识生成数据；继续执行S304。

S304、第二知识库生成：将知识生成数据添加至第二知识库中。

其中，知识问答阶段，包括：

S305、问询语句获取：获取通过终端设备的预设问询接口所传输的问询语句。

S306、问询语句补全：基于大语言模型，根据问询语句以及问询语句关联的历史问询语句，对问询语句进行内容补全和/或指代消解，得到问询衍生语句。

S307、知识检索：在第一知识库中进行检索，召回与问询衍生语句相匹配的问答数据；若召回结果中存在置信度大于预设置信度阈值的问答数据，则将该问答数据中的答案数据作为问询语句的目标答案数据；若召回结果中不存在置信度大于预设置信度阈值的问答数据，则基于预设检索召回模型，在第二知识库中召回与问询衍生语句相匹配的问答数据。

其中，预设召回模型可以采用现有技术中的至少一种具备数据检索功能的机器学习模型加以实现，本公开对预设检索召回模型的具体网络结构和训练方式不作任何限定。其中，预设置信度阈值可以由技术人员根据需要或经验值进行设置或调整，或通过大量试验进行设置，本公开对此不作任何限定。

示例性的，在采用第一知识库进行检索时，可以仅对问答数据中的问题数据，进行查找匹配；在采用第二知识库进行检索时，可以采用全文检索方式，对知识生成数据整体进行查找匹配。

S308、语义精排：根据召回结果中各问答数据的置信度，对各召回结果进行排序；继续执行S309。

其中，置信度用于表征所召回的问答语句的语义信息与问询衍生语句的语义匹配情况。

S309、答案生成：若召回结果中存在大于预设置信度阈值的问答数据，则根据问答数据和问询衍生语句，生成答案模板数据；基于大语言模型，根据答案模板数据，生成问询语句的目标答案数据。

S310、人工干预兜底：若召回结果中不存在大于预设置信度阈值的问答数据，则获取人工输入的标准答案数据，并将问询衍生语句和标准答案数据作为新的问答对，添加至第一知识库中，以供后续使用。

本公开实施例通过第一知识库、第二知识库以及人工干预兜底的方式，能够极大减少知识问答过程中的事实性错误情况，提高了知识问答结果的准确度。同时，采用本公开的技术方案，无需投入大量的人力资源进行模型训练和数据标注，节约了人力成本。进一步的，首先在第一知识库中进行检索，保证知识问答效率，在第一知识库无法满足需求的情况下，采用第二知识库进行补充检索，保证知识问答结果的准确度，实现了知识问答效率和知识问答结果准确度的两者兼顾。进一步的，在知识问答过程中的多个环节引入大语言模型进行数据处理，由于大语言模型具备较高的自然语言文本生成能力以及自然语言文本理解能力，因此，提高了大语言模型处理结果的准确度，进而有助于知识问答结果的准确度。

作为上述各知识问答方法的实现，本公开还提供了一种实施上述各知识问答方法的执行装置的可选实施例。

参见图4所示的知识问答装置400，包括：数据获取模块401、问询衍生语句生成模块402、查询匹配模块403和目标答案数据生成模块404。

其中，

数据获取模块401，用于获取问询语句、所述问询语句的历史关联语句以及知识库；其中，所述知识库中存储有基于参考文本内容生成的问答数据；

问询衍生语句生成模块402，用于根据所述问询语句和所述历史关联语句，生成所述问询语句的问询衍生语句；

查询匹配模块403，用于在所述知识库中查询与所述问询衍生语句相匹配的问答数据；

目标答案数据生成模块404，用于根据匹配结果，生成所述问询语句的目标答案数据。

本公开实施例通过引入问询语句的历史关联数据，结合问询语句，生成问询衍生语句，由于历史关联数据中携带有问询语句中的指代信息或省略信息等，因此所生成的问询衍生语句与问询语句相比，所携带的信息更加丰富，且消除了指代歧义等。所以，本公开采用问询衍生语句，替代问询语句在知识库中进行问答数据的查找匹配，其匹配结果准确度更高，根据该匹配结果，进行问询语句的目标答案数据的生成，提高了所生成目标答案数据的准确度，进而提高了知识问答结果的准确度。

在一个可选实施例中，所述问询衍生语句生成模块402，具体用于：

基于大语言模型，根据所述问询语句和所述历史关联语句，生成所述问询衍生语句；

其中，所述大语言模型基于不同自然语言任务下的训练文本数据学习得到。

在一个可选实施例中，所述知识库包括第一知识库和/或第二知识库；

所述第一知识库中存储有参考文本内容中所包含的问答对；

所述第二知识库中存储有参考文本内容的知识生成数据。

在一个可选实施例中，所述装置400还包括知识生成数据生成模块，具体用于：

基于大语言模型，对所述参考文本内容进行知识生成，得到包括问答数据的知识生成数据；

在一个可选实施例中，所述装置400还包括问答对识别模块，具体用于：

根据参考内容文档所使用的文档结构模板、所述参考内容文档的文档类型以及所述参考内容文档中预设分隔符的使用情况中的至少一种，识别所述参考文本内容中的问答对；

其中，所述参考文本文档中携带有所述参考内容文档。

在一个可选实施例中，若所述知识库包括第一知识库和第二知识库，则所述查询匹配模块403，包括：

第一查询匹配单元，用于在所述第一知识库中查询与所述问询衍生语句相匹配的问答数据；

第二查询匹配单元，用于若在所述第一知识库中匹配失败，则在所述第二知识库中查询与所述问询衍生语句相匹配的问答数据。

在一个可选实施例中，若所述问答数据为第二知识库中的匹配结果，则所述目标答案数据生成模块404，具体用于：

基于大语言模型，根据匹配结果和所述问询衍生语句，生成所述问询语句的目标答案数据；

在一个可选实施例中，所述目标答案数据生成模块404，包括：

答案模板数据生成单元，用于根据匹配结果和所述问询衍生语句，生成答案模板数据；

目标答案数据生成单元，用于基于所述大语言模型，根据所述答案模板数据，生成所述问询语句的目标答案数据。

在一个可选实施例中，所述装置400还包括：

人工干预模块，用于若在所述第二知识库中匹配失败，则获取人工输入的所述问询衍生语句的标准答案数据，并将获取结果作为所述目标答案数据；

新问答对存储模块，用于将所述问询衍生语句和所述标准答案数据作为新的问答对，存储至所述第一知识库中。

上述知识问答装置可执行本公开任意实施例所提供的知识问答方法，具备执行各知识问答方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的问询语句、问询语句的历史关联数据、知识库以及参考文本内容等数据的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图5所示，设备500包括计算单元501，其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序，来执行各种适当的动作和处理。在RAM 503中，还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

设备500中的多个部件连接至I/O接口505，包括：输入单元506，例如键盘、鼠标等；输出单元507，例如各种类型的显示器、扬声器等；存储单元508，例如磁盘、光盘等；以及通信单元509，例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理，例如知识问答方法。例如，在一些实施例中，知识问答方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元508。在一些实施例中，计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时，可以执行上文描述的知识问答方法的一个或多个步骤。备选地，在其他实施例中，计算单元501可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行知识问答方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种知识问答方法，包括：

根据匹配结果，生成所述问询语句的目标答案数据。

2.根据权利要求1所述的方法，其中，所述根据所述问询语句和所述历史关联语句，生成所述问询语句的问询衍生语句，包括：

3.根据权利要求1或2所述的方法，其中，所述知识库包括第一知识库和/或第二知识库；

所述第一知识库中存储有参考文本内容中所包含的问答对；

所述第二知识库中存储有参考文本内容的知识生成数据。

4.根据权利要求3所述的方法，其中，所述知识生成数据采用以下方式生成：

5.根据权利要求3所述的方法，其中，所述问答对采用以下方式识别得到：

其中，所述参考文本文档中携带有所述参考内容文档。

6.根据权利要求3所述的方法，若所述知识库包括第一知识库和第二知识库，则所述在所述知识库中查询与所述问询衍生语句相匹配的问答数据，包括：

在所述第一知识库中查询与所述问询衍生语句相匹配的问答数据；

若在所述第一知识库中匹配失败，则在所述第二知识库中查询与所述问询衍生语句相匹配的问答数据。

7.根据权利要求3-6任一项所述的方法，其中，若所述问答数据为第二知识库中的匹配结果，则所述根据匹配结果，生成所述问询语句的目标答案数据，包括：

8.根据权利要求7所述的方法，其中，所述基于大语言模型，根据匹配结果和所述问询衍生语句，生成所述问询语句的目标答案数据，包括：

根据匹配结果和所述问询衍生语句，生成答案模板数据；

基于所述大语言模型，根据所述答案模板数据，生成所述问询语句的目标答案数据。

9.根据权利要求6所述的方法，其中，所述方法还包括：

若在所述第二知识库中匹配失败，则获取人工输入的所述问询衍生语句的标准答案数据，并将获取结果作为所述目标答案数据；

将所述问询衍生语句和所述标准答案数据作为新的问答对，存储至所述第一知识库中。

10.一种知识问答装置，包括：

数据获取模块，用于获取问询语句、所述问询语句的历史关联语句以及知识库；其中，所述知识库中存储有基于参考文本内容生成的问答数据；

问询衍生语句生成模块，用于根据所述问询语句和所述历史关联语句，生成所述问询语句的问询衍生语句；

查询匹配模块，用于在所述知识库中查询与所述问询衍生语句相匹配的问答数据；

目标答案数据生成模块，用于根据匹配结果，生成所述问询语句的目标答案数据。

11.根据权利要求10所述的装置，其中，所述问询衍生语句生成模块，具体用于：

12.根据权利要求10或11所述的装置，其中，所述知识库包括第一知识库和/或第二知识库；

所述第一知识库中存储有参考文本内容中所包含的问答对；

所述第二知识库中存储有参考文本内容的知识生成数据。

13.根据权利要求12所述的装置，其中，所述装置还包括知识生成数据生成模块，具体用于：

14.根据权利要求12所述的装置，其中，所述装置还包括问答对识别模块，具体用于：

其中，所述参考文本文档中携带有所述参考内容文档。

15.根据权利要求12所述的装置，若所述知识库包括第一知识库和第二知识库，则所述查询匹配模块，包括：

16.根据权利要求12-15任一项所述的装置，其中，若所述问答数据为第二知识库中的匹配结果，则所述目标答案数据生成模块，具体用于：

17.根据权利要求16所述的装置，其中，所述目标答案数据生成模块，包括：

18.根据权利要求15所述的装置，其中，所述装置还包括：

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的知识问答方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-9中任一项所述的知识问答方法。

21.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1-9中任一项所述知识问答方法的步骤。