CN117235287B

CN117235287B - 一种人工智能问答知识库的建立方法及系统

Info

Publication number: CN117235287B
Application number: CN202311498359.1A
Authority: CN
Inventors: 张兵
Original assignee: Yuexiang Starlight Beijing Technology Co ltd
Current assignee: Yuexiang Starlight Beijing Technology Co ltd
Priority date: 2023-11-13
Filing date: 2023-11-13
Publication date: 2024-01-30
Anticipated expiration: 2043-11-13
Also published as: CN117235287A

Abstract

本发明提供了一种人工智能问答知识库的建立方法及系统，涉及数据处理技术领域，包括：采集人工智能云平台上的输入语句，基于输入语句获得问题文本，将问题文本进行无用字筛除，获得有效文本信息；将有效文本信息进行数字转换，获得有效文本信息中每个字的数值表示，并根据获得的所有数值表示得到有效文本信息中的信息词组；基于所有信息词组获得核心信息词组，基于所有核心信息词组获得多个初始匹配答案；计算输入问题与每个初始匹配答案之间的匹配值，基于多个匹配值获得最佳匹配答案，生成输入问题的人工智能问答知识库。本发明实现了对输入语句的进一步处理，在过程中进行无效信息滤除，更高效、更有针对性地进行人工智能问答知识库的建立。

Description

一种人工智能问答知识库的建立方法及系统

技术领域

本发明涉及数据处理技术领域，特别涉及一种人工智能问答知识库的建立方法及系统。

背景技术

目前，人工智能问答知识库的建立基本通过自动或半自动的知识抽取，其基本思想是设计自动或半自动的算法，从自然语言文档中抽取需要的信息构建知识库。目前问答知识库已在保险、电商、银行、零售等多个行业，实现落地应用。人工智能问答知识库的构建可至少节省2/3的维护人力，实现效率倍增。

但是，现有的人工智能问答知识库的建立方法及系统只是对接受信息与领域知识数据库中的预置知识进行语义相似度计算，忽略了对接收信息进行进一步处理，且在整个过程中未进行无效信息的滤除，无法更高效、更有针对性地进行人工智能问答知识库的建立。例如公开号为“CN105608218B”、专利名称为“智能问答知识库的建立方法、建立装置及建立系统”，其方法包括以下步骤：提供领域知识数据库，领域知识数据库包括多个预置知识；接收初始请求信息；将初始请求信息与所述领域知识数据库中的预置知识进行语义相似度计算，并判断语义相似度计算结果的最大值是否大于相似度阈值，当相似度计算结果的最大值大于相似度阈值时，将该初始请求信息以及相似度计算结果的最大值对应的预置知识中的标准问以及扩展问存入智能问答知识库；当相似度计算结果小于相似度阈值时，抽象语义推荐步骤，获得与所述初始请求信息对应的一个或多个具体语义表达式，将该初始请求信息以及所具体语义表达式存入智能问答知识库。应用本发明实施例，可以提高智能问答知识库的建立效率。但是该专利只是对接受信息与领域知识数据库中的预置知识进行语义相似度计算，忽略了对接收信息进行进一步处理，且在整个过程中未进行无效信息的滤除，无法更高效、更有针对性地进行人工智能问答知识库的建立。

因此，本发明提出了一种人工智能问答知识库的建立方法及系统，用于对接收信息的进一步处理，在过程中进行无效信息的滤除，更高效、更有针对性地进行人工智能问答知识库的建立。

发明内容

本发明提供一种人工智能问答知识库的建立方法及系统，用以实时获得人工智能云平台上的输入语句，对输入语句中的输入问题进行精准的获取，获得输入问题对应的问题文本，对问题文本中出现的无用字进行自动删除，减少了后续数字转换的工作量，获得当前时刻人工智能云平台输入问题里面的有效文本信息，对有效文本信息中每个字进行精确地量化表示，得到每个字的数值表示，通过对有效文本信息中所有字对应的数值表示进行分析，精准地确定有效文本信息中信息词组，通过有效文本信息中信息词组确定出核心信息词组，并将所有核心信息词组作为搜索词在预设百科文库进行搜索，进而更有针对性地获得多个初始匹配答案，通过答案匹配算法实现对输入问题与每个初始匹配答案之间的吻合程度的量化计算，即获得对应的匹配值，更精准地获得输入问题的最佳初始匹配答案，并通过最佳匹配答案高效地生成输入问题的人工智能问答知识库。

本发明提供一种人工智能问答知识库的建立方法，包括：

S1：实时采集人工智能云平台上的输入语句，选取输入语句中的输入问题，并获得输入问题对应的问题文本，并将问题文本进行无用字筛除，获得当前时刻人工智能云平台输入问题对应的有效文本信息；

S2：将有效文本信息进行数字转换，获得有效文本信息中每个字对应的数值表示，并根据有效文本信息中所有字对应的数值表示获得有效文本信息中的所有信息词组；

S3：基于有效文本信息中的所有信息词组获得有效文本信息的所有核心信息词组，基于所有核心信息词组与预设百科文库获得多个初始匹配答案；

S4：基于答案匹配算法获得输入问题与每个初始匹配答案之间的匹配值，基于获得的多个匹配值获得输入问题的最佳匹配答案；

S5：基于最佳匹配答案生成输入问题的人工智能问答知识库。

优选的，人工智能问答知识库的建立方法，S1：实时采集人工智能云平台上的输入语句，选取输入语句中的输入问题，并获得输入问题对应的问题文本，并将问题文本进行无用字筛除，获得当前时刻人工智能云平台输入问题对应的有效文本信息，包括：

S101：实时采集人工智能云平台上的输入语句，并将预设问题标识字库中包含的每个预设问题中包含的所有标识字与输入语句中的对应字进行一致性比对，获得输入语句中的输入问题，并将输入问题在输入语句中的文本作为问题文本；

S102：基于预设筛除字库对问题文本中的无用字进行筛除，获得当前时刻人工智能云平台输入问题对应的有效文本信息。

优选的，人工智能问答知识库的建立方法，S2：将有效文本信息进行数字转换，获得有效文本信息中每个字对应的数值表示，并根据有效文本信息中所有字对应的数值表示获得有效文本信息中的所有信息词组，包括：

S201：基于输入语句将有效文本信息进行数字转换，获得有效文本信息中每个字对应的数值表示；

S202：根据有效文本信息中所有字对应的数值表示获得有效文本信息中的所有信息词组。

优选的，人工智能问答知识库的建立方法，S201：基于输入语句的信息将有效文本信息进行数字转换，获得有效文本信息中每个字对应的数值表示，包括：

S2011：获取有效文本信息中每个字在输入语句中的出现次数；

S2022：将输入语句中的总字数与有效文本信息中每个字在输入语句中的出现的次数进行相除，获得每个字的第一比值，并将获得的第一比值与1的和作为底数为10的对数函数的真数部分，求得每个字的第一对数值；

S2023：获取有效文本信息中每个字在有效文本信息中的出现次数；

S2024：将有效文本信息中的总字数与有效文本信息中每个字在有效文本信息中的出现的次数进行相除，获得每个字的第二比值，并将获得的第二比值与1的和作为底数为10的对数函数的真数部分，求得每个字的第二对数值；

S2025：将有效文本信息中每个字的第二对数值与第一对数值进行相除，获得有效文本信息中每个字对应的数值表示。

优选的，人工智能问答知识库的建立方法，S202：根据有效文本信息中所有字对应的数值表示获得有效文本信息中的所有信息词组，包括：

S2021：在有效文本信息中选取出由有效文本信息的部分文本组成的所有字组合，作为预测信息词组，其中，预测信息词组中至少包含两个字；

S2022：计算每个预测信息词组中每两个字的数值表示之间的差值，将包含差值大于1的两个字的预测信息词组进行删除；

S2023：将步骤S2022删除之后剩余的所有预测信息词组中每两个预测信息词组进行比对，当两个进行比对的预测信息词组中组合元素数较多的预测信息词组包含组合元素数较少的预测信息词组中的所有组合元素时，则将两个进行比对的预测信息词组中组合元素数较多的预测信息词组作为有效文本信息的信息词组，当两个进行比对的预测信息词组的组合元素数相同且对应的两个预测信息词组中的所有组合元素都互相重复时，则将两个进行比对的预测信息词组中任意一个预测信息词组作为有效文本信息中的信息词组。

优选的，人工智能问答知识库的建立方法，基于有效文本信息中的所有信息词组获得有效文本信息的所有核心信息词组，包括：

将输入语句中除有效文本信息以外剩余的文本信息当作剩余文本信息；

将有效文本信息中的所有信息词组中，在剩余文本信息中重复出现的信息词组作为有效文本信息的核心信息词组；

并将有效文本信息中的所有信息词组中在预设的核心信息词组库中包含的信息词组，当作核心信息词组；

将确定出的所有核心词组汇总获得有效文本信息的所有核心信息词组。

优选的，人工智能问答知识库的建立方法，基于所有核心信息词组与预设百科文库获得多个初始匹配答案，包括：

将所有核心信息词组作为索引词，在预设百科文库中进行检索，获得多个检索结果，并在所有检索结果中选取出排序在前10的搜索结果作为多个初始匹配答案。

优选的，人工智能问答知识库的建立方法，基于答案匹配算法获得输入问题与每个初始匹配答案之间的匹配值，包括：

获取有效文本信息中所有核心信息词组，并以核心信息词组在有效文本信息中的位置前后顺序对所有核心信息词组内的字进行序数定义，并根据序数从小到大的字对应的数值表示构成输入问题的向量组；

获取每个初始匹配答案，并在初始匹配答案中选取出包含最多核心信息词组的语句，判断出初始匹配答案中含有最多核心信息词组的语句是否唯一；

若是，则判断出初始匹配答案中含有最多核心信息词组的语句的总字数是否大于有效文本信息中所有核心信息词组的总字数，若是，则以选取的字数与有效文本信息中所有核心信息词组的字总数一致为原则对选取获得的语句中的字进行任意选取，获得初始匹配答案对应的选取字，否则，将初始匹配答案中含有最多核心信息词组的语句中的所有字作为选取字，并获取初始匹配答案中含有核心信息词组数仅次于含有最多核心信息词组的语句，并从获取的语句中进行继续任意选取剩余字，并将本次选取过程中选取出的所有字当作初始匹配答案对应的选取字，其中，任意选取剩余字的字数为有效文本信息中所有核心信息词组的字总数与初始匹配答案中含有最多核心信息词组的语句中的字总数之差；

否则，以选取的字数与有效文本信息中所有核心信息词组的字总数一致为原则，从初始匹配答案中含有最多核心信息词组的多个语句的字中进行选取字，获得初始匹配答案对应的选取字；

获取从每个初始匹配答案的每个选取字在初始匹配答案中的出现次数，将每个初始匹配答案中的总字数与每个选取字在初始匹配答案中的出现次数进行相除，获得每个选取字的比值，并将获得的比值与1的和作为底数为10的对数函数的真数部分，求得每个选取字的数值表示，按照选取字在每个初始匹配答案中的前后顺序对选取字进行序数定义，并根据序数从小到大的选取字的数值表示构成每个初始匹配答案的向量组；

基于输入问题的向量组和每个初始匹配答案的向量组以及答案匹配算法获得输入问题与初始匹配答案之间的匹配值，包括：

；

式中，S为输入问题的向量组与当前计算的初始匹配答案之间的匹配值，n为输入问题的向量组或当前计算的初始匹配答案的向量组包含的向量元素总数，i为输入问题的向量组或当前计算的初始匹配答案的向量组中向量元素的序数，为输入问题的向量组中第i个向量元素，/>为当前计算的初始匹配答案的向量组中第i个向量元素，ln为以常数e为底数的对数函数，e为2.71828183。

优选的，人工智能问答知识库的建立方法，基于获得的多个匹配值获得输入问题的最佳匹配答案，包括：

将最大匹配值对应的初始匹配答案作为输入问题对应的最佳匹配答案。

本发明提供一种人工智能问答知识库的建立系统，用于执行实施例1至9中任一一种人工智能问答知识库的建立方法，包括：

有效文本信息模块，用于实时采集人工智能云平台上的输入语句，选取输入语句中的输入问题，并获得输入问题对应的问题文本，并将问题文本进行无用字筛除，获得当前时刻人工智能云平台输入问题对应的有效文本信息；

信息词组模块，用于将有效文本信息进行数字转换，获得有效文本信息中每个字对应的数值表示，并根据有效文本信息中所有字对应的数值表示获得有效文本信息中的所有信息词组；

初始匹配模块，用于基于有效文本信息中的所有信息词组获得有效文本信息的所有核心信息词组，基于所有核心信息词组与预设百科文库获得多个初始匹配答案；

算法模块，用于基于答案匹配算法获得输入问题与每个初始匹配答案之间的匹配值，基于获得的多个匹配值获得输入问题的最佳匹配答案；

知识库模块，用于基于最佳匹配答案生成输入问题的人工智能问答知识库。

本发明相对于现有技术产生的有益效果为：实时获得人工智能云平台上的输入语句，对输入语句中的输入问题进行精准的获取，获得输入问题对应的问题文本，对问题文本中出现的无用字进行自动删除，减少了后续数字转换的工作量，获得当前时刻人工智能云平台输入问题里面的有效文本信息，对有效文本信息中每个字进行精确地量化表示，得到每个字的数值表示，通过对有效文本信息中所有字对应的数值表示进行分析，精准地确定有效文本信息中信息词组，通过有效文本信息中信息词组确定出核心信息词组，并将所有核心信息词组作为搜索词在预设百科文库进行搜索，进而更有针对性地获得多个初始匹配答案，通过答案匹配算法实现对输入问题与每个初始匹配答案之间的吻合程度的量化计算，即获得对应的匹配值，更精准地获得输入问题的最佳初始匹配答案，并通过最佳匹配答案高效地生成输入问题的人工智能问答知识库。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的本申请文件中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种人工智能问答知识库的建立方法流程图；

图2为本发明实施例中一种人工智能问答知识库的建立方法流程中S2的具体流程；

图3为本发明实施例中一种人工智能问答知识库的建立系统示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例1：本发明提供了一种人工智能问答知识库的建立方法，参考图1，包括：

该实施例中，人工智能云平台是一种基于云平台技术和人工智能算法可采集用户在网络端口上输入的文本的综合性平台，可以获取用户输入平台的需要进行解答的问题（输入语句中的输入问题）。

该实施例中，输入语句为基于人工智能云平台接收到的用户输入平台的语句。

该实施例中，输入问题为用户输入平台的语句中具体提出问题的语句。

该实施例中，问题文本为用户输入平台的语句中具体提出问题的语句对应的文本表示。

该实施例中，无用字筛除为通过预设筛除字库对问题文本中的无用字进行筛除，其中无用字包括问候词、停用词等。

该实施例中，有效文本信息为对问题文本去除无用字后获得的文本表示，表征对人工智能云平台输入问题的精简且完整的文本表示。

该实施例中，数字转换为基于输入语句中每个字的出现次数与输入语句的总字数获得有效文本信息中每个字的数值表示。

该实施例中，数值表示为对有效文本信息进行数字转换后获得的用于代表有效文本信息中每个字的数字标识。

该实施例中，信息词组为由有效文本信息中的字构成的字数至少为2，且其中包含的每两个字的数值标识之间的差值小于1，且组合元素较多的部分词组。

该实施例中，核心信息词组为有效文本信息中最核心的、与话题密切相关的词组，以及基于预设的核心信息词组库选取出的一些词组。

该实施例中，预设百科文库为根据预先设置的索引路径导向的现有百科文库，例如百度百科、维基百科、搜狗百科等。

该实施例中，初始匹配答案为以核心信息词组为搜索词，在预设百科文库中搜索出的回答结果。

该实施例中，答案匹配算法为通过输入问题的向量组和每个初始匹配答案的向量组计算输入问题与每个初始匹配答案之间的匹配值的算法。

该实施例中，匹配值表征输入问题与初始匹配答案之间的吻合程度，匹配值越大，则输入问题与初始匹配答案之间的吻合程度越高。

该实施例中，最佳匹配答案为多个初始匹配答案中最高匹配值对应的初始匹配答案。

该实施例中，基于最佳匹配答案生成输入问题的人工智能问答知识库，即为：

将最佳匹配答案对应的搜索结果以及以该搜索结果中的高频词为搜索在预设百科文库中筛选出的相关知识汇总，获得输入问题的人工智能问答知识库。

以上技术的有益效果为：实时获得人工智能云平台上的输入语句，对输入语句中的输入问题进行精准的获取，获得输入问题对应的问题文本，对问题文本中出现的无用字进行自动删除，减少了后续数字转换的工作量，获得当前时刻人工智能云平台输入问题里面的有效文本信息，对有效文本信息中每个字进行精确地量化表示，得到每个字的数值表示，通过对有效文本信息中所有字对应的数值表示进行分析，精准地确定有效文本信息中信息词组，通过有效文本信息中信息词组确定出核心信息词组，并将所有核心信息词组作为搜索词在预设百科文库进行搜索，进而更有针对性地获得多个初始匹配答案，通过答案匹配算法实现对输入问题与每个初始匹配答案之间的吻合程度的量化计算，即获得对应的匹配值，更精准地获得输入问题的最佳初始匹配答案，并通过最佳匹配答案高效地生成输入问题的人工智能问答知识库。

实施例2：在实施例1的基础上，人工智能问答知识库的建立方法，S1：实时采集人工智能云平台上的输入语句，选取输入语句中的输入问题，并获得输入问题对应的问题文本，并将问题文本进行无用字筛除，获得当前时刻人工智能云平台输入问题对应的有效文本信息，包括：

该实施例中，预设问题标识字库为包含经由人工标注出所有标识字的大量预设问题的数据库。

该实施例中，预设问题为预先设置的问题，存储于预设问题标识字库。

该实施例中，标识字为对大量预设问题中包含的所有标识字进行人工标注的结果。

该实施例中，一致性比对为输入语句中每个字与标识字进行比对，将包含与标识字相同的字总数最多的输入语句作为问题句（输入问题）。

以上技术的有益效果为：实时获得人工智能云平台上的输入语句，并通过一致性比对实现对输入语句中的输入问题进行精准的获取，获得输入问题对应的问题文本，实现对问题文本中出现的无用字进行自动删除，减少了后续数字转换的工作量，提高了后续数字转换的效率，使得数字转换更有针对性，获得当前时刻人工智能云平台输入问题里面的有效文本信息。

实施例3：在实施例1的基础上，人工智能问答知识库的建立方法，S2：将有效文本信息进行数字转换，获得有效文本信息中每个字对应的数值表示，并根据有效文本信息中所有字对应的数值表示获得有效文本信息中的所有信息词组，参考图2，包括：

以上技术的有益效果为：实现对有效文本信息中每个字进行精确地量化表示，得到每个字的数值表示，并基于有效文本信息中所有字对应的数值表示进一步地精准地确定有效文本信息中信息词组。

实施例4：在实施例3的基础上，人工智能问答知识库的建立方法，S201：基于输入语句的信息将有效文本信息进行数字转换，获得有效文本信息中每个字对应的数值表示，包括：

S2011：获取有效文本信息中每个字在输入语句中的出现次数m；

S2022：将输入语句中的总字数M与有效文本信息中每个字在输入语句中的出现的次数m进行相除，获得每个字的第一比值M/m，并将获得的第一比值与1的和作为底数为10的对数函数的真数部分，求得每个字的第一对数值lg(1+M/m)；

S2023：获取有效文本信息中每个字在有效文本信息中的出现次数n；

S2024：将有效文本信息中的总字数N与有效文本信息中每个字在有效文本信息中的出现的次数n进行相除，获得每个字的第二比值N/n，并将获得的第二比值与1的和作为底数为10的对数函数的真数部分，求得每个字的第二对数值lg(1+N/n)；

该实施例中，每个字的第一比值为输入语句中的总字数与有效文本信息中每个字在输入语句中的出现的次数的比值。

该实施例中，每个字的第一对数值为将每个字的第一比值与1的和作为底数为10的对数函数的真数部分后计算出的数值。

该实施例中，每个字的第二比值为有效文本信息中的总字数与有效文本信息中每个字在有效文本信息中的出现的次数的比值。

该实施例中，每个字的第二对数值为将每个字的第二比值与1的和作为底数为10的对数函数的真数部分后计算出的数值。

以上技术的有益效果为：通过输入语句中的总字数和有效文本信息中每个字在输入语句中的出现的次数，以及有效文本信息中的总字数与有效文本信息中每个字在有效文本信息中的出现的次数，精确地对有效文本信息中每个字进行量化表示，得到每个字的数值表示。

实施例5：在实施例3的基础上，人工智能问答知识库的建立方法，S202：根据有效文本信息中所有字对应的数值表示获得有效文本信息中的所有信息词组，包括：

该实施例中，预测信息词组为由有效文本信息的部分文本组成的所有字组合（组合中至少包含两个字）。

该实施例中，组合元素数为构成预测信息词组的字数。

以上技术的有益效果为：通过对有效文本信息中每两个字的数值表示之间的差值进行分析，实现对有效文本信息中包含的词组的进一步精确选取，并按照组合元素数较多的原则精准地确定出有效文本信息中信息词组。

实施例6：在实施例1的基础上，人工智能问答知识库的建立方法，基于有效文本信息中的所有信息词组获得有效文本信息的所有核心信息词组，包括：

该实施例中，剩余文本信息为输入语句中除去有效文本信息以外的文本。

该实施例中，重复出现即为表示对应信息词组在剩余文本信息中也至少出现过一次。

该实施例中，预设的核心信息词组库为预先对大量信息词组中的核心信息词组进行人工标注，获得的包含有大量核心信息词组的数据库，其中核心信息词组库中包含有例如为什么、为何等词组。

以上技术的有益效果为：通过有效文本信息中信息词组与输入语句中除有效文本信息以外剩余的文本信息，精确地确定出一部分核心信息词组，并通过预设的核心信息词组库精确地确定出另一部分核心信息词组，确保对有效文本信息中包含的核心信息词组的完整提取。

实施例7：在实施例1的基础上，人工智能问答知识库的建立方法，基于所有核心信息词组与预设百科文库获得多个初始匹配答案，包括：

该实施例中，索引词（搜索词）为在文库中进行搜索时需要输入的词语。

该实施例中，搜索结果为将所有核心信息词组作为搜索词在预设百科文库中进行搜索，获得的搜索结果。

以上技术的有益效果为：所有核心信息词组作为搜索词在预设百科文库进行搜索获得多个初始匹配答案。

实施例8：在实施例1的基础上，人工智能问答知识库的建立方法，基于答案匹配算法获得输入问题与每个初始匹配答案之间的匹配值，包括：

若是，则判断出初始匹配答案中含有最多核心信息词组的语句的总字数是否大于有效文本信息中所有核心信息词组的总字数，若是，则以选取的字数与有效文本信息中所有核心信息词组的字总数一致为原则对选取获得的语句中的字进行任意选取，获得初始匹配答案对应的选取字，否则，将初始匹配答案中含有最多核心信息词组的语句中的所有字作为选取字，并获取初始匹配答案中含有核心信息词组数仅次于含有最多核心信息词组的语句，并从获取的语句中进行继续任意选取剩余字，并将本次选取过程中选取出的所有字当作初始匹配答案对应的选取字，其中，任意选取剩余字的字数为有效文本信息中所有核心信息词组的字总数与初始匹配答案中含有最多核心信息词组的语句中的字总数之差（假设有效文本信息中所有核心信息词组的字总数为a，初始匹配答案中含有最多核心信息词组的语句中的所有字总数为b(b＜a)，则从获取的语句中任意选取出（a-b）个字）；

获取从每个初始匹配答案的每个选取字在初始匹配答案中的出现次数q，将每个初始匹配答案中的总字数Q与每个选取字在初始匹配答案中的出现次数q进行相除，获得每个选取字的比值Q/q，并将获得的比值与1的和作为底数为10的对数函数的真数部分，求得每个选取字的数值表示lg(1+Q/q)，按照选取字在每个初始匹配答案中的前后顺序对选取字进行序数定义，并根据序数从小到大的选取字的数值表示构成每个初始匹配答案的向量组；

；

该实施例中，输入问题的向量组为由以有效文本信息中所有核心信息词组的数值表示作为向量元素，且向量组中各元素位置由所有核心信息词组在有效文本信息中的位置前后顺序进行确定所获得的向量组合，例如输入问题的有效文本信息中所有核心信息词组的位置前后顺序为A词组（a₁，a₂）、B词组（b₁，b₂）、C词组（c₁，c₂）、...等，将A词组（a₁，a₂）的序数定义为1、B词组（b₁，b₂）的序数定义为2、C词组（c₁，c₂）的序数定义为3，输入问题的向量组为序数从小到大的字对应的数值表示构成，具体为E=（a₁，a₂，b₁，b₂，c₁，c₂......）。

该实施例中，初始匹配答案的向量组为按照初始匹配答案的每个选取字在每个初始匹配答案中的前后顺序对选取字进行序数定义(选取字都在同一句中按照字在句中的前后位置进行定义，当不在同一句时按照选取字的前后顺序确定先对哪一句中的选取字进行序数从小到大的定义)，例如初始匹配答案的选取字从两句语句中获得，选取字在前的语句中包含有多个选取字，按选取字在语句中的前后位置进行序数定义，具体为a₁，a₂，a₃，a₄，......等。选取字在后的语句中包含有多个选取字，按选取字在语句中的前后位置进行序数定义，具体为b₁，b₂，b₃，b₄，......等，输入问题的向量组具体为E=（a₁，a₂，a₃，a₄，......，b₁，b₂，b₃，b₄，......）。

该实施例中，将初始匹配答案中含有最多核心信息词组的语句中的所有字作为选取字，并获取初始匹配答案中含有核心信息词组数仅次于含有最多核心信息词组的语句，并从获取的语句中进行继续任意选取剩余字，并将本次选取过程中选取出的所有字当作初始匹配答案对应的选取字，即为：当初始匹配答案中含有最多核心信息词组的语句的总字数小于有效文本信息中所有核心信息词组的总字数时，将初始匹配答案中含有最多核心信息词组的语句中的所有字作为选取字仍然不足以满足选取的字数应与有效文本信息中所有核心信息词组的字总数一致这一原则，接下来仍然应该继续对初始匹配答案中含有核心信息词组数仅次于含有最多核心信息词组的语句进行任意选取，且任意选取的字数为有效文本信息中所有核心信息词组的字总数与初始匹配答案中含有最多核心信息词组的语句中所有字的总数之差。

该实施例中，初始匹配答案对应的选取字为从初始匹配答案中选取出的能代表整个初始匹配答案的字。

以上技术的有益效果为：在初始匹配答案中精确确定出选取字，并准确地获得了输入问题的向量组与初始匹配答案的向量组表示，通过答案匹配算法实现对输入问题与每个初始匹配答案之间的吻合程度进行量化计算，更精准地获得输入问题对应的最佳初始匹配答案。

实施例9：在实施例1的基础上，人工智能问答知识库的建立方法，基于获得的多个匹配值获得输入问题的最佳匹配答案，包括：

该实施例中，最大匹配值为输入问题与多个初始匹配答案的匹配值中的最大值。

以上技术的有益效果为：从多个初始匹配答案中更准确地选择出输入问题的最佳答案。

实施例10：本发明提供了一种人工智能问答知识库的建立系统，用于执行实施例1至9中任一一种人工智能问答知识库的建立方法，参考图3，包括：

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种人工智能问答知识库的建立方法，其特征在于，包括：

S5：基于最佳匹配答案生成输入问题的人工智能问答知识库；

其中，基于答案匹配算法获得输入问题与每个初始匹配答案之间的匹配值，包括：

；

2.根据权利要求1所述的一种人工智能问答知识库的建立方法，其特征在于，S1：实时采集人工智能云平台上的输入语句，选取输入语句中的输入问题，并获得输入问题对应的问题文本，并将问题文本进行无用字筛除，获得当前时刻人工智能云平台输入问题对应的有效文本信息，包括：

3.根据权利要求1所述的一种人工智能问答知识库的建立方法，其特征在于，S2：将有效文本信息进行数字转换，获得有效文本信息中每个字对应的数值表示，并根据有效文本信息中所有字对应的数值表示获得有效文本信息中的所有信息词组，包括：

4.根据权利要求3所述的一种人工智能问答知识库的建立方法，其特征在于，S201：基于输入语句的信息将有效文本信息进行数字转换，获得有效文本信息中每个字对应的数值表示，包括：

5.根据权利要求3所述的一种人工智能问答知识库的建立方法，其特征在于，S202：根据有效文本信息中所有字对应的数值表示获得有效文本信息中的所有信息词组，包括：

6.根据权利要求1所述的一种人工智能问答知识库的建立方法，其特征在于，基于有效文本信息中的所有信息词组获得有效文本信息的所有核心信息词组，包括：

7.根据权利要求1所述的一种人工智能问答知识库的建立方法，其特征在于，基于所有核心信息词组与预设百科文库获得多个初始匹配答案，包括：

8.根据权利要求1所述的一种人工智能问答知识库的建立方法，其特征在于，基于获得的多个匹配值获得输入问题的最佳匹配答案，包括：

9.一种人工智能问答知识库的建立系统，其特征在于，用于执行权利要求1至8中任一所述的一种人工智能问答知识库的建立方法，包括：