CN114896382A

CN114896382A - 人工智能问答模型生成方法、问答方法、装置及存储介质

Info

Publication number: CN114896382A
Application number: CN202210542924.9A
Authority: CN
Inventors: 王欢; 李英杰; 曾波; 周振辉
Original assignee: Networks Technology Co ltd
Current assignee: Networks Technology Co ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-12

Abstract

本申请提供了一种人工智能问答模型生成方法、问答方法、装置及存储介质。该人工智能问答模型生成方法包括：获取初始问题以及与初始问题对应的答案；对初始问题进行语料处理，得到初始问题的关键词；根据初始问题的关键词从预设的基础语料库中获取每个关键词的同义词；根据获取的同义词对每个与同义词对应的关键词进行替换，生成相似问题集；将相似问题集与初始问题及答案关联，生成问答模型。本申请只需输入初始问题和答案即可在此基础上自动扩展与之相关的问题，丰富问题库，同时提高问答模型在投入使用后对问题识别的准确性，从而作出正确响应。

Description

人工智能问答模型生成方法、问答方法、装置及存储介质

技术领域

本申请涉及人工智能技术领域，尤其涉及一种人工智能问答模型生成方法、问答方法、装置及存储介质。

背景技术

目前在电信、银行、互联网等行业的都开始采用人工智能客服服务。人工智能客服一般是由问题库、答案库以及查询系统组成，但目前的人工智能客服需要在系统初期通过人工辅助将问题库里的每个问题和答案库里每一个答案做一一对应才能投入使用。在用户采用不同表述进行询问时可能会出现无法正确响应的情况，正确识别率较低。

发明内容

本申请实施例提供了一种人工智能问答模型生成方法、问答方法、装置、存储介质及计算机设备，能够提高人工智能的语音识别准确率。

第一方面，本申请提供了一种人工智能问答模型生成方法，所述方法包括：

获取初始问题以及与所述初始问题对应的答案；

对所述初始问题进行语料处理，得到所述初始问题的关键词；

根据所述初始问题的关键词从预设的基础语料库中获取每个关键词的同义词；

根据获取的同义词对每个与所述同义词对应的关键词进行替换，生成相似问题集；

将所述相似问题集与所述初始问题及所述答案关联，生成问答模型。

在其中一个实施例中，所述对所述初始问题进行语料处理，得到所述初始问题的关键词，包括：

通过预设的语料清洗模型对所述初始问题进行语料清洗，得到待处理语料；

对所述待处理语料进行分词处理，得到所述初始问题的关键词。

在其中一个实施例中，所述根据所述初始问题的关键词从预设的基础语料库中获取每个关键词的同义词，包括：

根据所述初始问题对应的语义情感确定每个关键词的词性；

根据每个关键词及所述关键词的词性从所述基础语料库获取每个关键词的同义词。

在其中一个实施例中，执行所述根据所述初始问题对应的语义场景确定每个关键词的词性之前，所述根据所述初始问题的关键词从预设的基础语料库中获取每个关键词的同义词还包括：

通过预设的情感分析模型确定所述初始问题的语义情感。

在其中一个实施例中，所述对所述待处理语料进行分词处理，得到所述初始问题的关键词，包括：

将所述待处理语料划分为多个字符串；

根据所述基础语料库对每个字符串进行匹配；

若所述待处理语料中任意一个字符串在所述基础语料库中不存在相同的词组，则重新对所述待处理语料进行字符串划分；

若所述基础语料库中存在与所述字符串相同的词组，则将所述字符串确定为一个分词，直至所述基础语料的每个字符串均被确定为一个分词；

将各字符串对应的分词确定为所述初始问题的关键词。

第二方面，本申请提供了一种人工智能问答方法，包括：

获取提问语句；

将所述提问语句输入利用如上述任一项实施例所述的人工智能问答模型生成方法生成的问答模型中进行问题匹配；

将相似度达到阈值的问题确定为目标问题；

根据所述目标问题确定所述提问语句的答案。

第三方面，本申请提供了一种人工智能问答模型生成装置，包括：

第一获取模块，用于获取初始问题以及与所述初始问题对应的答案；

关键词提取模块，用于对所述初始问题进行语料处理，得到所述初始问题的关键词；

第二获取模块，用于根据所述初始问题的关键词从预设的基础语料库中获取每个关键词的同义词；

问题集生成模块，用于根据获取的同义词对每个与所述同义词对应的关键词进行替换，生成相似问题集；

模型生成模块，用于将所述相似问题集与所述初始问题及所述答案关联，生成问答模型。

第四方面，本申请提供了一种人工智能问答装置，包括：

第三获取模块，用于获取提问语句；

问题匹配模块，用于将所述提问语句输入利用如上述任一项实施例所述的人工智能问答模型生成方法生成的问答模型中进行问题匹配；

目标问题确定模块，用于将相似度达到阈值的问题确定为目标问题；

答案确定模块，用于根据所述目标问题确定所述提问语句的答案。

第五方面，本申请提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述任一项实施例所述的人工智能问答模型生成方法或如上述实施例所述人工智能问答方法的步骤。

第六方面，本申请提供了一种计算机设备，包括：一个或多个处理器，以及存储器；

所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行如上述任一项实施例所述人工智能问答模型生成方法或如上述实施例所述人工智能问答方法的步骤。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请提供的人工智能问答模型生成方法，获取初始问题及与初始问题对应的答案，对初始问题进行语料处理，提取出初始问题的关键词，以初始问题的关键词为基础从预设的基础语料库获取每个关键词的同义词，通过对初始问题中的关键词进行同义词替换，生成初始问题的相似问题集，实现问题库的自动扩展，将生成的相似问题集与其对应的初始问题以及答案进行关联，生成问答模型。只需输入初始问题和答案即可在此基础上自动扩展与之相关的问题，丰富问题库，同时提高问答模型在投入使用后对问题识别的准确性，从而作出正确响应。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为一个实施例中，人工智能问答模型生成方法的流程示意图；

图2为一个实施例中，对初始问题进行语料处理，得到初始问题的关键词步骤的流程示意图；

图3为一个实施例中，根据初始问题的关键词从预设的基础语料库中获取每个关键词的同义词步骤的流程示意图；

图4为一个实施例中，对待处理语料进行分词处理，得到初始问题的关键词步骤的流程示意图；

图5为一个实施例中，人工智能问答方法的流程示意图；

图6为一个实施例中，人工智能问答模型生成装置的结构框图；

图7为一个实施例中，人工智能问答装置的结构框图；

图8为一个实施例中，计算机设备的内部结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

如图1所示，本申请实施例提供了一种人工智能问答模型生成方法，所述方法包括步骤S101至S105，其中：

步骤S101，获取初始问题以及与初始问题对应的答案。

步骤S102，对初始问题进行语料处理，得到初始问题的关键词。

初始问题中可能存在一些对语义识别没有价值的干扰词或是标点符号，进行语料处理即去除初始问题中的干扰因素，剩余有价值的部分则作为关键词进行提取。

步骤S103，根据初始问题的关键词从预设的基础语料库中获取每个关键词的同义词。

其中，基础语料库中包括常用词数据，可以从国内外标准开放数据集中获取数据生成，例如根据汉语词典生成。同义词是指指意义相同的一组词语，可以从感情色彩、语义轻重、范围大小、具体与概括、对象、普通话和方言等不同角度进行同义词的辨析识别。

步骤S104，根据获取的同义词对每个与同义词对应的关键词进行替换，生成相似问题集。

这一步骤是指将每个关键词以及每个关键词的同义词进行替换重组，生成相似问题，将所有相似问题组成相似问题集。可以理解的是，每次可以替换一个或多个关键词，穷尽所有组合方式生成相似问题集。

步骤S105，将相似问题集与初始问题及答案关联，生成问答模型。

将相似问题集中的问题与其对应的初始问题以及该初始问题的答案建立对应关系，将初始问题、初始问题的相似问题集均与答案关联。问答模型中可以包括多组问答数据，每一组问题数据都通过上述步骤生成。

本实施例通过获取初始问题及与初始问题对应的答案，对初始问题进行语料处理，提取出初始问题的关键词，以初始问题的关键词为基础从预设的基础语料库获取每个关键词的同义词，通过对初始问题中的关键词进行同义词替换，生成初始问题的相似问题集，实现问题库的自动扩展，将生成的相似问题集与其对应的初始问题以及答案进行关联，生成问答模型。只需输入初始问题和答案即可在此基础上自动扩展与之相关的问题，丰富问题库，同时提高问答模型在投入使用后对问题识别的准确性，从而作出正确响应。

在其中一个实施例中，初始问题和答案可以是预先设定的，可以是在人工智能投入使用后接收到的问题，用以进行自学习，不断升级迭代问答模型。

在其中一个实施例中，如图2所示，对初始问题进行语料处理，得到初始问题的关键词，包括步骤S201至S202，其中：

步骤S201，通过预设的语料清洗模型对初始问题进行语料清洗，得到待处理语料。

其中，语料清洗模型可以是针对问题模型使用场景进行训练生成的，用于剔除在目标使用场景中初始问题中无关部分的语料，保留有用的部分，得到待处理语料。将初始问题输入至语料清洗模型进行清洗即可得到待处理语料。

步骤S202，对待处理语料进行分词处理，得到初始问题的关键词。

对于中文而言，词是承载语义的最小单元，由词构成语句，又由语句构成篇章。但中文文本是由连续的字序列构成，词与词之间是没有天然的分隔符，因此需要准确识别词与词之间的边界，也就是分词处理，待处理语料切分为一个或多个关键词。

在其中一个实施例中，如图3所示，根据初始问题的关键词从预设的基础语料库中获取每个关键词的同义词，包括步骤S301至S302，其中：

步骤S301，根据初始问题对应的语义情感确定每个关键词的词性。

步骤S302，根据每个关键词及关键词的词性从基础语料库获取每个关键词的同义词。

语义情感反映了初始问题所表示的内容情感是积极还是消极，在一些实施例中，还会反映情感程度。初始问题在不同的语义情感中，每个关键词的词性可能会存在差异，为了提高问题扩展的准确性，可以加入语义情感维度对关键词的词性进行分析，进而找到更为准确的同义词。语义情感可以通过是预先设置的，在输入初始问题时，通过人工方式对初始问题的语义情感进行标注。

在其中一个实施例中，执行根据初始问题对应的语义场景确定每个关键词的词性之前，根据初始问题的关键词从预设的基础语料库中获取每个关键词的同义词还包括：

通过预设的情感分析模型确定初始问题的语义情感。

为了进一步提高智能性，可以利用情感分析模型对初始问题的语义情感进行分析，识别初始问题的语义情感。

在其中一个实施例中，如图4所示，对待处理语料进行分词处理，得到初始问题的关键词，包括步骤S401至S404，其中：

步骤S401，将待处理语料划分为多个字符串。

步骤S402，根据基础语料库对每个字符串进行匹配，确定基础语料库中是否存在与每个字符串一一对应的词组。若待处理语料中任意一个字符串在基础语料库中不存在相同的词组，则重新对待处理语料进行字符串划分。

步骤S403，若基础语料库中存在与字符串相同的词组，则将字符串确定为一个分词，直至基础语料的每个字符串均被确定为一个分词。

步骤S404，将各字符串对应的分词确定为初始问题的关键词。

在待处理语料划分出的字符串中存在任意一个字符串在基础语料库中匹配不到相同的词组，即表示当前的划分方式有误，此时则回到步骤S401，重新进行划分，再匹配。当基础语料库中能分别为每个字符串匹配到相同的词组，则表示当前的划分方式正确，每一个字符串确定为一个分词，这些字符串对应的分词即为初始问题的关键词。

本申请实施例还提供了一种人工智能问答方法，如图5所示，包括步骤S501至S504，其中：

步骤S501，获取提问语句；

步骤S502，将提问语句输入利用如上述任一项实施例的人工智能问答模型生成方法生成的问答模型中进行问题匹配；

步骤S503，将相似度达到阈值的问题确定为目标问题；

步骤S504，根据目标问题确定提问语句的答案。

由于提问语句可能表述方式与问答模型中的问题存在一定差异，因此可以将提问语句与问答模型中的问题进行相似度识别，将相似度达到阈值的问题确定为目标问题，目标问题对应的答案确定为提问语句的答案。在一些实施例中，若存在多个相似度达到阈值的问题，可以将相似度最高的问题确定为目标问题。在一些实施例中，若存在多个相似度达到阈值的问题，可以将这些问题的答案都反馈给用户，让用户自行选择匹配的答案，并根据用户选择的答案执行下一步响应。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

下面对本申请实施例提供的人工智能问答模型生成装置及人工智能问答装置进行描述，下文描述的人工智能问答模型生成装置与上文描述的人工智能问答模型生成方法可相互对应参照；下文描述的人工智能问答装置与上文描述的人工智能问答方法可相互对应参照。

如图6所示，本申请实施例提供了一种人工智能问答模型生成装置600，包括：

第一获取模块601，用于获取初始问题以及与初始问题对应的答案；

关键词提取模块602，用于对初始问题进行语料处理，得到初始问题的关键词；

第二获取模块603，用于根据初始问题的关键词从预设的基础语料库中获取每个关键词的同义词；

问题集生成模块604，用于根据获取的同义词对每个与同义词对应的关键词进行替换，生成相似问题集；

模型生成模块605，用于将相似问题集与初始问题及答案关联，生成问答模型。

如图7所示，本申请实施例提供了一种人工智能问答装置700，包括：

第三获取模块701，用于获取提问语句；

问题匹配模块702，用于将所述提问语句输入利用如上述任一项实施例所述的人工智能问答模型生成方法生成的问答模型中进行问题匹配；

目标问题确定模块703，用于将相似度达到阈值的问题确定为目标问题；

答案确定模块704，用于根据所述目标问题确定所述提问语句的答案。

上述人工智能问答模型生成装置/人工智能问答装置中各个模块的划分仅仅用于举例说明，在其他实施例中，可将人工智能问答模型生成装置/人工智能问答装置按照需要划分为不同的模块，以完成上述人工智能问答模型生成装置/人工智能问答装置的全部或部分功能。上述人工智能问答模型生成装置/人工智能问答装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，本申请还提供了一种存储介质，所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述人工智能问答模型生成方法或人工智能问答方法的步骤。

在一个实施例中，本申请还提供了一种计算机设备，所述计算机设备中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述人工智能问答模型生成方法或人工智能问答方法的步骤。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种人工智能问答模型生成方法或人工智能问答方法方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间可以根据需要进行组合，且相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种人工智能问答模型生成方法，其特征在于，所述方法包括：

获取初始问题以及与所述初始问题对应的答案；

2.根据权利要求1所述的人工智能问答模型生成方法，其特征在于，所述对所述初始问题进行语料处理，得到所述初始问题的关键词，包括：

3.根据权利要求2所述的人工智能问答模型生成方法，其特征在于，所述根据所述初始问题的关键词从预设的基础语料库中获取每个关键词的同义词，包括：

根据所述初始问题对应的语义情感确定每个关键词的词性；

4.根据权利要求3所述的人工智能问答模型生成方法，其特征在于，执行所述根据所述初始问题对应的语义场景确定每个关键词的词性之前，所述根据所述初始问题的关键词从预设的基础语料库中获取每个关键词的同义词还包括：

通过预设的情感分析模型确定所述初始问题的语义情感。

5.根据权利要求2所述的人工智能问答模型生成方法，其特征在于，所述对所述待处理语料进行分词处理，得到所述初始问题的关键词，包括：

将所述待处理语料划分为多个字符串；

根据所述基础语料库对每个字符串进行匹配；

将各字符串对应的分词确定为所述初始问题的关键词。

6.一种人工智能问答方法，其特征在于，包括：

获取提问语句；

将所述提问语句输入利用如权利要求1-5任一项所述的人工智能问答模型生成方法生成的问答模型中进行问题匹配；

将相似度达到阈值的问题确定为目标问题；

根据所述目标问题确定所述提问语句的答案。

7.一种人工智能问答模型生成装置，其特征在于，包括：

8.一种人工智能问答装置，其特征在于，包括：

第三获取模块，用于获取提问语句；

问题匹配模块，用于将所述提问语句输入利用如权利要求1-5任一项所述的人工智能问答模型生成方法生成的问答模型中进行问题匹配；

9.一种存储介质，其特征在于：所述存储介质中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至5中任一项所述人工智能问答模型生成方法或如权利要求6所述人工智能问答方法的步骤。

10.一种计算机设备，其特征在于，包括：一个或多个处理器，以及存储器；

所述存储器中存储有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，执行如权利要求1至5中任一项所述人工智能问答模型生成方法或如权利要求6所述人工智能问答方法的步骤。