CN117575020A

CN117575020A - 基于人工智能的智能问答方法、装置、设备及介质

Info

Publication number: CN117575020A
Application number: CN202311516082.0A
Authority: CN
Inventors: 侯昶宇; 王俊
Original assignee: Ping An Chuangke Technology Beijing Co ltd
Current assignee: Ping An Chuangke Technology Beijing Co ltd
Priority date: 2023-11-14
Filing date: 2023-11-14
Publication date: 2024-02-20

Abstract

本发明实施例涉及人工智能及智慧医疗技术领域，公开了一种基于人工智能的智能问答方法、装置、设备及介质，方法包括：获取本地文档数据，并通过预设嵌入方式根据本地文档数据构建向量库，所述预设嵌入方式为选择待嵌入文本中预设位置的输出作为所述待嵌入文本的嵌入表示的方式；根据所述预设嵌入方式将用户问题表示为问题向量；在所述向量库中选择出所有与所述问题向量对应的答案向量，并根据所有与所述问题向量对应的答案向量构建答案集；将所述答案集和所述用户问题输入预设语言模型，确定与所述用户问题相关度最高的目标答案。通过额外模型对语言模型进行嵌入，使得线上问诊等智能问答过程能够更准确地根据患者提供的病情信息选择诊断结果。

Description

基于人工智能的智能问答方法、装置、设备及介质

技术领域

本发明涉及基于人工智能及智慧医疗技术领域，尤其涉及一种基于人工智能的智能问答方法、装置、设备及介质。

背景技术

在智慧医疗技术领域，随着人工智能技术的发展，智能问答越来越被广泛应用在不同部门，用以提高用户体验，并减少人工成本，例如，通过智能问答的技术，可以实现线上问诊等业务，及时为用户提供答案，减少人工成本。

线上问诊等业务的过程实质上为智能问答的过程，在线上问诊等业务中，需要将患者提供的症状、病情等信息进行嵌入，以工大语言模型根据患者提供的症状、病情等信息在预设诊断结果库中进行检索排序，从而得到与患者提供的症状、病情等信息对应的诊断结果。

但现有线上问诊等智能问答过程中的嵌入方式是通过额外模型单独对大语言模型进行嵌入，以分词器(Text2vec)模型为例，Text2vec模型使用的是编码器栈(bert-large)架构，在模型参数量、训练数据等性能方面都远不如大语言模型(LLM)，这也使得通过额外模型单独对大语言模型进行嵌入的方式在进行检索排序时，效果很差，而检索排序的结果直接影响到智能问答的结果生成，因此通过额外模型单独对大语言模型进行嵌入的方式在线上问诊等智能问答的应用中智能生成的答案受到额外模型的影响，导致智能生成的答案并不准确，即，诊断结果发生错误，诊断结果并不能准确对应患者提供的症状、病情等信息，进而导致线上问诊等智能问答过程的效果不佳。

发明内容

有鉴于此，本发明提供了一种基于人工智能的智能问答方法、装置、设备及介质，用于解决现有技术中通过额外模型单独对大语言模型进行嵌入的方式导致智能生成的答案并不准确，进而导致智能问答的效果不佳的问题的问题。

为达上述之一或部分或全部目的或是其他目的，本发明提出一种基于人工智能的智能问答方法，包括：获取本地文档数据，并通过预设嵌入方式根据本地文档数据构建向量库，所述预设嵌入方式为选择待嵌入文本中预设位置的输出作为所述待嵌入文本的嵌入表示的方式；

根据所述预设嵌入方式将用户问题表示为问题向量；

在所述向量库中选择出所有与所述问题向量对应的答案向量，并根据所有与所述问题向量对应的答案向量构建答案集；

将所述答案集和所述用户问题输入预设语言模型，确定与所述用户问题相关度最高的目标答案。

另一方面，本申请提供了一种基于人工智能的智能问答装置，所述装置包括：

数据采集模块，用于获取本地文档数据，并通过预设嵌入方式根据本地文档数据构建向量库，所述预设嵌入方式为选择待嵌入文本中预设位置的输出作为所述待嵌入文本的嵌入表示的方式；

转换模块，用于根据所述预设嵌入方式将用户问题表示为问题向量；

检索模块，用于在所述向量库中选择出所有与所述问题向量对应的答案向量，并根据所有与所述问题向量对应的答案向量构建答案集；

问答模块，用于将所述答案集和所述用户问题输入预设语言模型，确定与所述用户问题相关度最高的目标答案。

另一方面，本申请提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时执行获取本地文档数据，并通过预设嵌入方式根据本地文档数据构建向量库，所述预设嵌入方式为选择待嵌入文本中预设位置的输出作为所述待嵌入文本的嵌入表示的方式；

根据所述预设嵌入方式将用户问题表示为问题向量；

另一方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行获取本地文档数据，并通过预设嵌入方式根据本地文档数据构建向量库，所述预设嵌入方式为选择待嵌入文本中预设位置的输出作为所述待嵌入文本的嵌入表示的方式；

根据所述预设嵌入方式将用户问题表示为问题向量；

实施本发明实施例，将具有如下有益效果：

通过获取本地文档数据，并通过预设嵌入方式根据本地文档数据构建向量库，所述预设嵌入方式为选择待嵌入文本中预设位置的输出作为所述待嵌入文本的嵌入表示的方式；即，避免通过额外模型对语言模型进行嵌入，进而减少因为额外模型的性能差异而带来的智能问答效果参差的问题，根据所述预设嵌入方式将用户问题表示为问题向量；在所述向量库中选择出所有与所述问题向量对应的答案向量，并根据所有与所述问题向量对应的答案向量构建答案集；将所述答案集和所述用户问题输入预设语言模型，确定与所述用户问题相关度最高的目标答案。大语言模型模型自身的参数量、训练数据等性能都远高于Text2vec模型等获取文档嵌入表示的模型，有效改善当前文档排序的性能，对于医疗领域而言，通过大语言模型自身选择患者提供的症状、病情等信息中预设位置的输出作为患者提供的症状、病情等信息的嵌入表示的方式完成嵌入，避免由于额外嵌入模型的性能差异而带来检索排序参差，进而提高了检索排序结果的准确性，检索排序结果的准确性的提升，使得线上问诊等智能问答过程能够更准确地根据患者提供的症状、病情等信息选择诊断结果，即，提升线上问诊等智能问答过程的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1是本申请实施例提供的一种基于人工智能的智能问答方法的应用场景图；

图2是本申请实施例提供的一种基于人工智能的智能问答方法的流程图；

图3是本申请实施例提供的一种基于人工智能的智能问答装置的结构示意图；

图4是本发明一实施例中计算机设备的一结构示意图；

图5是本发明一实施例中计算机设备的另一结构示意图；

图6是本申请实施例提供的一种电子设备的结构示意图；

图7是本申请实施例提供的一种存储介质的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的基于人工智能的智能问答方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务端进行通信。服务端可以获取本地文档数据，并通过预设嵌入方式根据本地文档数据构建向量库，所述预设嵌入方式为选择待嵌入文本中预设位置的输出作为所述待嵌入文本的嵌入表示的方式；根据所述预设嵌入方式将用户问题表示为问题向量；在所述向量库中选择出所有与所述问题向量对应的答案向量，并根据所有与所述问题向量对应的答案向量构建答案集；将所述答案集和所述用户问题输入预设语言模型，确定与所述用户问题相关度最高的目标答案。避免通过额外模型对语言模型进行嵌入，进而减少因为额外模型的性能差异而带来的智能问答效果参差的问题，大语言模型模型自身的参数量、训练数据等性能都远高于Text2vec模型等获取文档嵌入表示的模型，有效改善当前文档排序的性能，提升智能问答系统整体准确性，提升用户体验。其中，客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。下面通过具体的实施例对本发明进行详细的描述。

示例性的，在医疗领域，将诊断记录、针对某一种症状的治疗方案作为本地文档数据，并通过预设嵌入方式根据本地文档数据构建向量库，以在向量库中筛选出与上述症状相关问题的答案。

为减轻服务端的计算压力，本发明实施例提供的基于人工智能的智能问答方法，也可在应用在图1中的客户端。

如图2所示，本申请实施例提供了一种基于人工智能的智能问答方法，包括：

S101、获取本地文档数据，并通过预设嵌入方式根据本地文档数据构建向量库，所述预设嵌入方式为选择待嵌入文本中预设位置的输出作为所述待嵌入文本的嵌入表示的方式；

本申请实施例提供的智能问答方法，可应用于各种场景下的智能问答装置或智能问答引擎中，智能问答的过程通常通过服务端来实现，进行智能问答的服务端可以实时与用户的客户端进行数据传输。比如，当服务端接收到客户端的智能问答请求信息(用户问题)后，为用户进行智能问答，即，获取本地文档数据，并通过预设嵌入方式根据本地文档数据构建向量库，以在本地文档数据中查找用户问题对应的答案。

示例性的，人工智能技术驱动的自然语言处理工具(GPT)是单向结构，即每个词组/句只能识别到目标词和位置在目标词之前的文本的信息，因此，在不引用其他额外语言表征模型(bert)等双向编码模型对语言模型进行嵌入时，不能通过选择句子最开始的标识符作为输入的词组/句整体表示，进而选择待嵌入文本中预设位置的输出作为所述待嵌入文本的嵌入表示的方式，使得在不引用其他额外bert等双向编码模型时，能够识别预设位置之前的所有文本。

示例性的，所述本地文档数据为已知的文件、图片、视频等数据，在医疗领域，接收到用户问题后，需要在历史咨询记录(问诊记录)、宣传手册、宣传视频等资料中寻找与用户问题对应的答案，进而历史咨询记录(问诊记录)、宣传手册、宣传视频等资料均作为所述本地文档数据。

示例性的，在医疗领域，不同的用户会提问相同的问题，因此将历史咨询记录(问诊记录)作为本地文档数据，同时，用户也会提问新问题，即，历史咨询记录(问诊记录)中不存在问题答案，则需要将宣传手册、活动简介等资料作为本地文档数据，在宣传手册、活动简介等资料中查找用户问题的答案。

示例性的，在医疗领域，历史问诊记录中出现“咳嗽症状可以通过多喝水进行缓解”的句子，选择“缓”字作为整句话的嵌入表示，“咳嗽症状可以通过多喝水进行缓解”为待嵌入文本，“缓”字所在的位置为预设位置。

S102、根据所述预设嵌入方式将用户问题表示为问题向量；

示例性的，采用所述预设嵌入方式将用户问题表示为问题向量，由于针对“咳嗽症状可以通过多喝水进行缓解”的句子时，选择“缓”字作为整句话的嵌入表示，即选择倒数第二字的位置作为预设位置，则将用户问题中倒数第二字的位置的输出作为用户问题的嵌入表示。

S103、在所述向量库中选择出所有与所述问题向量对应的答案向量，并根据所有与所述问题向量对应的答案向量构建答案集；

示例性的，在所述向量库中筛选出所有与所述问题向量具有关联的答案向量，保证答案的全面性，避免遗漏答案。

示例性的，在医疗，用户问题为“费用多少”，用户问题对应的问题向量设为“费用”，而所述向量库中包括表征“住院费用为XX”、“治疗费用为XX”、“治疗费用为XX”等多种费用的答案向量，为避免遗漏，则将所述向量库中所有与“费用多少”对应的答案向量均提取出来，并构建答案集。

S104、将所述答案集和所述用户问题输入预设语言模型，确定与所述用户问题相关度最高的目标答案。

示例性的，预设语言模型以大语言模型为基础，大语言模型具有消化大量文本数据并推断文本数据中单词/词组的关系的能力。

所述预设语言模型为通过提示学习具有推断文本数据中单词/词组的关系能力的大语言模型，例如，推断出问题与候补答案集中各各候补答案的相关度，进而选择与问题相关度最高的候补答案作为输出。

在一种可能的实施方式中，在所述根据所述本地知识数据构建向量库的步骤之前，还包括：

对所述本地文档数据进行文本提取，得到本地文本数据；

提取所述本地文本数据中的标点符号和所述标点符号对应的文本内容，根据与所述标点符号对应的文本内容的预设分句因素，确定所述标点符号是否为分句标点符号，其中，所述预设分句因素包括句型；

按照所述分句标点符号，对所述本地文本数据进行分句处理，得到本地知识数据，并根据所述本地知识数据构建向量库。

示例性的，针对完成文本提取后的本地文本数据，通过分析本地文本数据中标点符号对应的文本内容(也即标点符号所紧跟的、该标点符号之前的文本内容)的句型，确定出标点符号是否为分句标点符号。比如，上述执行主体如果确定某个标点符号前面的文本内容(该标点符号与上一个标点符号之间的文本内容)的句型为感叹句，则可以将该标点符号作为感叹号，感叹号为预设的分句标点符号，从而可以确定该标点符号为分句标点符号。或者，如果某个标点符号前面的文本内容的句型为疑问句，则确定该标点符号为问号，问号也为预设的分句标点符号，从而可以确定该标点符号为分句标点符号，按照所述分句标点符号，对所述本地文本数据进行分句处理，得到本地知识数据，即，本地文本数据中的所有句子，并根据所述本地知识数据构建向量库。

示例性的，在按照所述分句标点符号，对所述目标文本进行分句处理时，将分句标点符号之前的内容和之后的内容，分别作为不同的分句结果。

示例性的，以病历文档作为本地文档数据，对病历文档进行文本提取，得到病历文档的文本信息(本地文本数据)，例如，“中医诊断结果为：风热型的症状。西医诊断结果为：支气管炎症”，提取所述病历文档的文本信息中的符号，即，“：”和“。”，根据与所述标点符号对应的文本内容的句型，确定所述标点符号是否为分句标点符号，即，“。”对应的文本内容的句型为陈述句语句，则“。”为分句标点符号，按照“。”对病历文档的文本信息进行分句处理，得到本地知识数据，即，“中医诊断结果为：风热型的症状”和“西医诊断结果为：支气管炎症”，并根据所述本地知识数据构建向量库。

在一种可能的实施方式中，所述根据所述本地知识数据构建向量库的步骤，包括：

通过选择所述本地知识数据中最后一个文字的位置的输出作为所述本地知识数据的嵌入表示的方式，得到各个所述本地知识数据的嵌入表示；

根据各个所述本地知识数据的嵌入表示构建向量库。

示例性的，由于人工智能技术驱动的自然语言处理工具是单向结构，为保证对完整句子的表征效果，采用输入文本最后一个字符位置的输出作为输入的句子整体嵌入表示，例如，“请告诉我怎么治疗感冒”这个问题，选择“冒”字作为整句话的嵌入表示，进而保证本地知识数据的完整，不在嵌入过程发生遗漏。

在一种可能的实施方式中，所述在所述向量库中选择出所有与所述问题向量对应的答案向量的步骤，包括：

分别计算所述问题向量与所述向量库中各个嵌入表示的向量距离；

将所述向量距离与距离阈值进行比较，得到小于和等于所述距离阈值的目标向量距离；

根据所述目标向量距离确定与所述问题向量对应的嵌入表示，将与所述问题向量对应的嵌入表示作为所述答案向量。

示例性的，计算计算所述问题向量与所述向量库中各个嵌入表示的向量距离，不限于所述问题向量与所述向量库中各个嵌入表示的汉明距离、欧式距离、曼哈顿距离、切比雪夫距离、马氏距离等任意一个或多个距离。在向量距离为多个向量距离组合成的综合距离的情况下，不限于按照预设比重对多个向量距离进行综合计算，从而得到所述问题向量与所述向量库中各个嵌入表示的向量距离。

示例性的，欧式距离的计算两个n维向量a表述为(x₁₁,x₁₂,…,x_1n)与向量b表述为(x₂₁,x₂₂,…,x_2n)间的欧氏距离：

也可以用表示成向量运算的形式：

示例性的，向量a为患者的问题向量，向量b为根据病历文档的文本信息构建的向量库中的任一向量。

在一种可能的实施方式中，所述根据所有与所述问题向量对应的答案向量构建答案集的步骤，包括：

根据所述答案向量和所述预设嵌入方式反推出与所述答案向量对应的目标本地知识数据；

基于所述目标本地知识数据和预设提示模板构建与所述答案向量对应的本地答案数据；

基于所述本地答案数据构建所述答案集。

示例性的，所述答案向量为“费用”，所述预设嵌入方式为采用输入文本第四个字符位置的输出作为输入的句子整体嵌入表示，则反推出“住院费用是XX”为所述答案向量的本地知识数据。

示例性的，预设提示模板有两种方法生成，分别为人工设计模板和自动生成模板，具体的：

人工设计预设提示模板具有最直观性易于理解；

自动生成预设提示模板有两种方式，即，可以通过大语言模型在一组离散模板的空间中选择一个最优的目标模板作为所述预设提示模板；还可以通过大语言模型自动训练一个预设提示模板。

示例性的，预设提示模板根据问答任务进行设置，用以使得大语言模型具有进行问答任务的能力。

在一种可能的实施方式中，在所述将所述答案集和所述用户问题输入预设语言模型，确定与所述用户问题相关度最高的目标答案的步骤之前，还包括：

通过自动构建数据集的方式获取初始数据集，所述初始数据集包括数据来源不同的第一数据组和第二数据组；

基于预设条件和所述初始数据集构建训练集，所述预设条件为同一数据组中各个句子间的相关性大于不同组间句子间的相关性；

根据所述训练集训练大语言模型得到所述预设语言模型。

示例性的，以文章为例，认为同一篇文章中句子间的相关性应高于不同文章间句子间的相关性，进而构建训练数据对大语言模型进行强化学习。

示例性的，强化学习时，可以选择若干不同领域的文档，假定同一文档的句子之间关联性应高于不同文档之间的句子。因此可以自动化构建不同的句子对并分配不同的相似性，进而对模型进行强化学习。

示例性的，第一数据组：《伤寒论》第56条:“伤寒不大便六七日，头痛有热者，与承气汤，其小便清者，知不在里，仍在表也，当须发汗；若头痛者必衄，宜桂枝汤”:第164条:“伤寒大下后复发汗，心下痞，恶寒者，表未解也，不可攻痞，当先解表，表解乃可攻痞。解表宜桂枝汤，攻痞宜大黄黄连泻心汤”:第148条:“伤寒五六日，头汗出，微恶寒，手足冷，心下满，口不欲食，大便硬，脉细者，此为阳微结，必有表，复有里也。脉沉亦在里也，汗出为阳微，假今纯阴结，不得复有外证，悉入在里，此为半在里半在外也”等。根据证的情况、特点，在表属阳热实者为表阳证(太阳病)，在表属阴寒虚者为表阴证(少阴病)，在里属阳热实者为里阳证(阳明病)，在里属阴寒虚者为里阴证(太阴病)，在半表半里属阳热实者为半表半里阳证(少阳病)，在半表半里属阴寒虚者为半表半里阴证(厥阴病)。

第二数据组：川菜分为三派：蓉派(上河帮)、渝派(下河帮)、盐帮派(小河帮)。湘菜制作精细，用料上比较广泛，口味多变，品种繁多；色泽上油重色浓，讲求实惠；品味上注重香辣、香鲜、软嫩；制法上以煨、炖、腊、蒸、炒诸法见称。

当用户问题为“桂枝汤是否有效果”时，认为包含桂枝汤的句子为第一数据组中的句子，则第一数据组中的各个句子与用户问题组成句子对的相关性评分应高于第二数据组中的各个句子与用户问题组成句子对的相关性评分，通过第一数据组和第二数据组对大语言模型强化学习，以使大语言模型给第一数据组的得分应高于第二数据组的得分。

示例性的，在通过自动构建数据集的方式获取初始数据集时，以文章为例，随机在不同文章中选取不同的段落组成段落对，或者，随机在不同文章中选取不同的句子组成句子对，根据段落对/句子对组成初始数据集，同时，在不同文章中选取任一段落/句子，根据同一文档的句子之间关联性应高于不同文档之间的句子的条件为初始数据集中的段落对/句子对设置相关性评分，得到训练集。

在一种可能的实施方式中，所述对所述本地文档数据进行文本提取，得到本地文本数据的步骤，包括：

获取所述本地文档数据的属性信息；

基于所述属性信息确定所述本地文档数据的数据格式；

根据所述数据格式确定文本提取方式，并根据所述文本提取方式对所述本地文档数据进行文本提取，得到本地文本数据。

示例性的，所述本地文档数据可以为文字、图片、语音、视频等多种形式(数据格式)的数据，例如，病历文件为文字和图片的数据形式，诊断过程为语音、视频的数据形式。

示例性的，通过所述属性信息确定所述本地文档数据的数据格式，进而为不同数据格式的本地文档数据选择不同的文本提取方式，例如，对于语音和视频的本地文档数据，通过语音识别技术将语音和视频转换为文本，进而按照文字的提取方式对语音和视频的本地文档数据进行文本提取，得到本地文本数据。

示例性的，若视频数据格式的本地文档数据中不存在语音，例如，设置背景音乐的展示视频，则获取视频数据格式的本地文档数据的内容信息；根据上述内容信息构建文字描述信息，上述文字描述信息用于描述上述视频数据格式的本地文档数据的内容。

其中，所述本地文档数据的属性信息是一些描述性的信息，便于操作者平时查看和整理文件，因为文件属性中提供了有关文件的信息，比如哪一天的哪一个时辰建立的文件，文件大小是多少，文件的分组等等。总得来说，文件属性有五大分类，一是常规属性，主要是关于文件的名字、打开方式、占用空间还有修改创建时间等；二是安全属性，主要是关于组或用户及修改树限编辑；三是自定义属性，主要是包含名称、类型和属性；四是详细信息，主要是关于文件的基础属性值；五是关于以前版本的介绍。

在一种可能的实施方式中，如图3所示，本申请提供了一种基于人工智能的智能问答装置，所述装置包括：

数据采集模块201，用于获取本地文档数据，并通过预设嵌入方式根据本地文档数据构建向量库，所述预设嵌入方式为选择待嵌入文本中预设位置的输出作为所述待嵌入文本的嵌入表示的方式；

转换模块202，用于根据所述预设嵌入方式将用户问题表示为问题向量；

检索模块203，用于在所述向量库中选择出所有与所述问题向量对应的答案向量，并根据所有与所述问题向量对应的答案向量构建答案集；

问答模块204，用于将所述答案集和所述用户问题输入预设语言模型，确定与所述用户问题相关度最高的目标答案。

在一种可能的实施方式中，数据采集模块201，用于：

对所述本地文档数据进行文本提取，得到本地文本数据；

在一种可能的实施方式中，数据采集模块201，用于：

根据各个所述本地知识数据的嵌入表示构建向量库。

在一种可能的实施方式中，检索模块203，用于：

基于所述本地答案数据构建所述答案集。

在一种可能的实施方式中，问答模块204，用于：

根据所述训练集训练大语言模型得到所述预设语言模型。

在一种可能的实施方式中，数据采集模块201，用于：

获取所述本地文档数据的属性信息；

基于所述属性信息确定所述本地文档数据的数据格式；

本发明提供了一种智能问答装置，通过获取本地文档数据，并通过预设嵌入方式根据本地文档数据构建向量库，所述预设嵌入方式为选择待嵌入文本中预设位置的输出作为所述待嵌入文本的嵌入表示的方式；即，避免通过额外模型对语言模型进行嵌入，进而减少因为额外模型的性能差异而带来的智能问答效果参差的问题，根据所述预设嵌入方式将用户问题表示为问题向量；在所述向量库中选择出所有与所述问题向量对应的答案向量，并根据所有与所述问题向量对应的答案向量构建答案集；将所述答案集和所述用户问题输入预设语言模型，确定与所述用户问题相关度最高的目标答案。大语言模型模型自身的参数量、训练数据等性能都远高于Text2vec模型等获取文档嵌入表示的模型，有效改善当前文档排序的性能，对于医疗领域而言，通过大语言模型自身选择患者提供的症状、病情等信息中预设位置的输出作为患者提供的症状、病情等信息的嵌入表示的方式完成嵌入，避免由于额外嵌入模型的性能差异而带来检索排序参差，进而提高了检索排序结果的准确性，检索排序结果的准确性的提升，使得线上问诊等智能问答过程能够更准确地根据患者提供的症状、病情等信息选择诊断结果，即，提升线上问诊等智能问答过程的准确性。

关于智能问答装置的具体限定可以参见上文中对于智能问答方法的限定，在此不再赘述。上述智能问答装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务端，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性和/或易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的客户端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的智能问答方法服务端侧的功能或步骤。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是客户端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部服务器通过网络连接通信。该计算机程序被处理器执行时以实现一种基于人工智能的智能问答方法客户端侧的功能或步骤。

在一种可能的实施方式中，如图6所示，本申请实施例提供了一种电子设备300，包括：包括存储器310、处理器320及存储在存储器310上并可在处理器320上运行的计算机程序311，处理器320执行计算机程序311时，实现：获取本地文档数据，并通过预设嵌入方式根据本地文档数据构建向量库，所述预设嵌入方式为选择待嵌入文本中预设位置的输出作为所述待嵌入文本的嵌入表示的方式；

根据所述预设嵌入方式将用户问题表示为问题向量；

在一种可能的实施方式中，如图7所示，本申请实施例提供了一种计算机可读存储介质400，其上存储有计算机程序411，该计算机程序411被处理器执行时实现：获取本地文档数据，并通过预设嵌入方式根据本地文档数据构建向量库，所述预设嵌入方式为选择待嵌入文本中预设位置的输出作为所述待嵌入文本的嵌入表示的方式；

根据所述预设嵌入方式将用户问题表示为问题向量；

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言，诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

本领域普通技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个计算装置上，或者分布在多个计算装置所组成的网络上，可选地，他们可以用计算机装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件的结合。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里上述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于人工智能的智能问答方法，其特征在于，包括：

获取本地文档数据，并通过预设嵌入方式根据本地文档数据构建向量库，所述预设嵌入方式为选择待嵌入文本中预设位置的输出作为所述待嵌入文本的嵌入表示的方式；

根据所述预设嵌入方式将用户问题表示为问题向量；

2.如权利要求1所述的基于人工智能的智能问答方法，其特征在于，在所述根据所述本地知识数据构建向量库的步骤之前，还包括：

对所述本地文档数据进行文本提取，得到本地文本数据；

3.如权利要求2所述的基于人工智能的智能问答方法，其特征在于，所述根据所述本地知识数据构建向量库的步骤，包括：

根据各个所述本地知识数据的嵌入表示构建向量库。

4.如权利要求1所述的基于人工智能的智能问答方法，其特征在于，所述在所述向量库中选择出所有与所述问题向量对应的答案向量的步骤，包括：

5.如权利要求2所述的基于人工智能的智能问答方法，其特征在于，所述根据所有与所述问题向量对应的答案向量构建答案集的步骤，包括：

基于所述本地答案数据构建所述答案集。

6.如权利要求1所述的基于人工智能的智能问答方法，其特征在于，在所述将所述答案集和所述用户问题输入预设语言模型，确定与所述用户问题相关度最高的目标答案的步骤之前，还包括：

根据所述训练集训练大语言模型得到所述预设语言模型。

7.如权利要求2所述的基于人工智能的智能问答方法，其特征在于，所述对所述本地文档数据进行文本提取，得到本地文本数据的步骤，包括：

获取所述本地文档数据的属性信息；

基于所述属性信息确定所述本地文档数据的数据格式；

8.一种基于人工智能的智能问答装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至7中任一项所述的基于人工智能的智能问答方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至7中任一项所述的基于人工智能的智能问答方法的步骤。