CN117435717A

CN117435717A - 一种匹配用户问题语料的方法

Info

Publication number: CN117435717A
Application number: CN202311208130.XA
Authority: CN
Inventors: 欧锦华; 黄凯成; 李晓鹏
Original assignee: GUANGZHOU QISHENG INFORMATION TECHNOLOGY CO LTD
Current assignee: GUANGZHOU QISHENG INFORMATION TECHNOLOGY CO LTD
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2024-01-23

Abstract

本发明公开了一种匹配用户问题语料的方法，包括以下步骤：获取用户提问的问题文本，对所述问题文本进行问题向量化，生成问题向量；根据问题向量，在标题向量库进行近似度搜索，获取最近似的N条语料标题和对应的内容标识；根据内容标识从语料库提取语料信息构成模型语料信息，语料信息包括：文件内容；将模型语料信息发送给语言模型，输出问题文本对应的回复答案。根据上述技术方案，可以适应用户提问的多种场景变化，准确地把用户提问和知识库里的知识内容匹配起来，提高用户提问与知识库的关联准确性和全面性。

Description

一种匹配用户问题语料的方法

技术领域

本发明涉及人工智能技术领域，具体而言，涉及一种匹配用户问题语料的方法。

背景技术

当前的语言大模型在自然语言处理领域取得了很大的进展，但是它们也存在一些限制和缺陷。一般来说，这类模型是通过大量的数据进行训练得到的，因此它们的回答往往是基于已有的知识和样本，而对于未知或者专业领域的知识盲区，这些模型可能会出现回答错误或者无法回答的情况。单纯依靠语言大模型输出回答可能会出现幻觉，导致用户得到的答案不准确或者不完整。随着语言大模型参数量的不断增加，其阅读理解能力也在逐渐提高，已经能够在提示工程的帮助下，回答知识盲区的问题。知识库可以将垂直领域的知识进行整合，形成一个结构化的知识库，并通过提示工程使得语言大模型能理解并运用这些知识来回答用户的提问。

一般情况下，知识库的结构为常见问题标题向量与答案一一对应，实际应用中，由于用户的语言习惯不同，不同的人对同一件事情的提问的表达用词也会不同,因此，用户实际提出的问题与知识库的问题标题存在差异，在提示工程中将用户问题和知识库进行关联时，如果直接将用户提问生成向量，去知识库进行检索关联，可能会因问题标题与实际提问的向量存在偏差太大而匹配不到答案；而如果从问题答案中提取关键词后生成向量，又不能适应用户提问的多种场景变化。

在此情况下，需要一种匹配用户问题语料的方案，准确地把用户提问和知识库里的知识内容匹配起来，提高用户提问与知识库的关联准确性和全面性。

发明内容

为实现上述目的，本申请提供了一种匹配用户问题语料的方法，包括以下步骤：

获取用户提问的问题文本，对问题文本进行问题向量化，生成问题向量；

根据问题向量，在标题向量库进行近似度搜索，获取最近似的N条语料标题和对应的内容标识；

根据内容标识从语料库提取语料信息构成模型语料信息，语料信息包括：文件内容；

将模型语料信息发送给语言模型，输出问题文本对应的回复答案。

进一步的，语料信息还包括内关联属性ID和外关联属性；

其中，内关联属性ID为语料库的文件标识，根据内关联属性ID获取内关联属性ID对应的文件内容；

进一步的，模型语料信息还包括内关联属性ID对应的文件内容和外关联属性。

其中，语料库包括文件标识、文件内容、内关联属性ID、外关联属性；

语料库的数据来源包括PDF文件；

将PDF文件的内容导入语料库的方法包括：获取PDF文档内容作为原始内容；对所述原始内容按章节进行切分，生成多份独立的章节内容，每一份所述章节内容对应的标题为章节标题，为每一份章节内容生成唯一标识为内容标识；

将章节内容、内容标识导入语料库，对应语料库的文件内容、文件标识。

其中，将章节内容、内容标识导入语料库时，判断章节内容中是否存在引用章节标题，如果存在，获取引用章节标题对应的内容标识作为内关联属性标识，将内关联属性标识导入语料库，对应语料库中的内关联属性ID；其中，内关联属性ID可以为空，也可以为多个内容标识。

进一步的，将章节内容、内容标识导入语料库时，判断章节内容中是否有业务关联关键词，如果存在，将关键词导入语料库，对应语料库中的外关联属性；其中，所述外关联属性可以为空，也可以为多个词语。

其中，标题向量库包括语料标题向量、文件标识；

标题向量库的数据来源为章节内容、章节标题和内容标识；

从数据来源中生成标题向量，将标题向量与章节内容对应的内容标识存储入标题向量库，对应语料标题和文件标识；

其中，标题向量包括章节标题进行标题向量化操作生成的数据。

进一步的，标题向量还包括：从章节内容中提炼内容标题，对内容标题进行标题向量化操作生成的数据。

其中，问题向量化与标题向量化操作采用统一的处理模型，包括：text2vec-large-chinese模型。

其中，对原始内容按章节进行切分指根据文档目录来切分，包括：

采用正则表达式获取文档目录的标题列表以及层次关系；

获取文档删除文档目录后剩余的部分，从开头按文档目录的顺序开始定位大标题和小标题的位置，再按照标题位置对文档进行切分，由此获得切分的结果。

根据本发明，可以适应用户提问的多种场景变化，准确地把用户提问和知识库里的知识内容匹配起来，提高用户提问与知识库的关联准确性和全面性。

附图说明

图1是根据本发明实施例提供的匹配用户问题语料的方法步骤图；

图2是根据本发明实施例提供的原始内容构成语料库和标题向量库的转换示意图；

图3是根据本发明实施例提供的原始内容章节标题示意图；

图4是根据本发明实施例提供的匹配用户问题语料的方法流程图。

具体实施方式

本发明从知识库的来源入手，从PDF文件等原始文件拆分信息构建语料库，寻找原始文件拆分出的信息之间的关系，通过内关联属性将不同的章节内容建立关联，同时从章节内容中提取关键词，作为外关联属性，结合以上内关联属性与外关联属性，以丰富每一个用户问题的语料内容；在语料库的基础上，建立标题向量库，通过标题向量库，完善用户所提问题的覆盖面；通过标题向量库与语料库的结合，为用户的提问相关的信息内容建立关联，最终提供内容完整的语料，并将此语料用于语言大模型的进一步训练。

下面结合说明书附图对本发明的具体实现方式做一详细描述。

本发明提供的匹配用户问题语料的方法，基于从PDF文件等原始文件拆分信息构建的标题向量库和语料库，为匹配完整、准确的语料进行数据准备，从原始文件到标题向量库和语料库的数据转换过程如图2所示：

首先，原始文件为其内容可作为解答用户提问的参考资料，其格式支持PDF、图片、word文档等。例如，针对PDF文件进行操作时，将原始文件进行切分后生成一批独立的文档，切分边界根据项目需求而定，例如文档目录可天然的将文本按照不同的功能内容划分边界，因此采用如图3所示的文档目录来内容切分，切分步骤如下：

1)采用正则表达式获取整个文档目录的标题列表以及层次关系，如图3中的范例，第一章有6个小节，第二章有4个小节，如此类推；

2)获取文档删除文档目录后剩余的部分，从开头按所述文档目录的顺序开始定位大标题和小标题的位置(字符串匹配)，再按照标题位置(标题的首尾字符在文档中的index)对文档进行切分，由此获得切分的结果，即：一批独立文档(doc)。

切分后，从原始文件中提取出来章节标题和章节内容，在此基础上进行步骤S200的操作，即为章节标题指定内容标识。内容标识为章节内容，也就是每一份独立文档对应的唯一的标识。

在此步骤完成后，从原始文件中获取章节标题、章节内容和内容标识对应的内容在缓存或者其他载体进行临时存储，便于后续语料库和标题向量库的数据导入。

语料库的结构包括文件标识、文件内容、内关联属性ID、外关联属性；

如步骤S210所示，首先将章节内容、内容标识导入语料库，对应语料库的文件内容、文件标识；其中，语料库结构中的内关联属性ID可以为空，也可以为多个内容标识；外关联属性也可以为空，也可以为多个词语。

将章节内容、内容标识导入语料库时，判断章节内容中是否存在引用章节标题的情况，如果存在，获取引用章节标题对应的内容标识作为内关联属性标识，将该内关联属性标识导入语料库，对应该段章节内容、内容标识在语料库中对应的内关联属性ID；

例如：

其中章节标题为“作用机制和动物试验结果”，内容标识为“b9c7d8f1-3a4b-4f2a-8bea-3f7f7c2d9e32”对应的信息的内关联属性ID中存储“药理毒理”的章节对应的内容标识“7b3b2b8f-5b7a-4a85-8f3e-5e0c171e1e2a”。

另一方面，判断章节内容中是否有业务关联关键词，如果存在，将关键词导入语料库，对应内容标识在语料库中对应的外关联属性。

在本发明中，用命名实体识别(NER)从章节内容中提取疾病、药品实体词。

例如，从“根据紫杉醇的作用机制和动物试验结果，妊娠妇女使用本品会对胎儿造成损害。动物生殖毒性试验，妊娠大鼠按体表面积给予低于人体推荐最大剂量的本品时，出现了胚胎-胎儿毒性，包括胚胎宫内死亡、药物吸收的增加，活胎数量减少和畸形(见【药理毒理】)”中提出的关键词为“紫杉醇”，至此，该条记录一共4个属性，文件标识，文件内容,内关联属性ID，外关联属性。如下表所示：

标题向量库包括语料标题向量、文件标识；

标题向量库的数据来源临时存储的章节内容、章节标题和内容标识；

如图2中步骤S220所示，从章节内容中提炼内容标题，对内容标题向量化生成标题向量，将标题向量与章节内容对应的内容标识存储入标题向量库，对应语料标题和文件标识；其中，存入标题向量还包括对所述章节标题进行向量化生成的数据。

在上例中提供的两段章节内容，其章节标题分别为：作用机制和动物试验结果、药理毒理；而从标题中看不出来是针对什么药物的作用机制和动物试验结果、药理毒理。因此，在本发明中，还提供了从章节内容中提炼内容标题的方案，例如“紫杉醇蛋白结合率89％～98％,主要在肝脏代谢，随胆汁进入肠道，经粪便排出体外(>90％)。经肾清除只占总清除的1％～8％，在肝肾功能不全的病人体内代谢尚不明确”可提炼出标题为“紫杉醇在肝脏代谢”，与其章节标题“药理毒理”相结合，可以完善该内容可适应的问题范围。

将章节标题和内容标题进行标题向量化的操作，在本发明中采用text2vec-large-chinese模型文本转向量(1000维)实现。

从章节内容中提炼内容标题的方法，本发明中提供了两种方式：神经网络模型文本生成标题方式与语言大模型的阅读理解方式；在实际应用中，这两种方式可根据环境选择。

1)神经网络模型文本生成标题方式，本案例采用T5模型，并人工标注一批章节内容对应的内容标题，章节内容和人工标注的标题共同作为训练T5模型的数据集，其中章节内容作为T5模型的输入prompt，人工标注的标题作为T5模型的输出。训练好的T5模型具备了输入答案，倒推出标题的能力。训练和推理时prompt模板如下：

疾病：{disease_name}，内容：{章节内容}，标题：

其中：{disease_name}、{章节内容}为输入内容，在此模板下输出标题；

2)语言大模型的阅读理解方式，可采用语言大模型，prompt模板如下：

以上两种方式都可以内容标题，区别是T5一次只能生成一个标题，语言大模型一次可以生成多个，例子如下：

每个doc内容生成内容标题的数量，可根据实际需求设定，一般为一至五条。

要注意的是，语料库中的文件内容并没有对应文件内容的标题，而是通过语料库的文件标识与标题向量库的文件标识进行关联，将语料库中的一个文件内容与标题向量库中的多个标题向量对应，因此，针对用户提的问题，只要其向量化后，与标题向量库中的多个标题向量近似，就可以获得匹配的文件内容。如上表中范例，该段文件内容的标题为“作用机制和动物试验结果”，而用户提的问题如果与该标题并不近似的情况下，只需要与提炼出的多个标题中的一个近似，就可以为用户匹配到该条文件内容。

当标题向量库和语料库完成后，即可实现本发明提供的匹配语料的方法。

图1是本发明提供的匹配用户问题语料的方法步骤图，如图所示，包括以下步骤：

S100：获取用户提问的问题文本，对问题文本进行问题向量化，生成问题向量；

问题向量化处理与标题向量化的处理方式一致，采用text2vec-large-chinese模型将文本转换为问题向量。

S110：根据问题向量，在标题向量库进行近似度搜索，获取最近似的N条语料标题向量对应的内容标识；

近似度搜索的实现可采用cos向量相似度公式进行计算，计算结果返回的条数N可根据实际情况设定，例如通常将N设定为5以内的数值。

S120：根据内容标识从语料库提取语料信息构成模型语料信息，语料信息包括：文件内容、内关联属性ID和外关联属性；

由于语料库中的内关联属性ID实际为语料库的文件标识，根据内关联属性ID获取其对应的文件内容；

外关联属性为文件内容的关键词，即概念性文本内容，例如上例中的“紫杉醇”。

将文件内容和内关联属性ID对应的文件内容、关键词组合生成模型语料信息，用于语言大模型的输入提示语(prompt)，以便语言大模型能够阅读理解prompt中的内容并输出答案给用户

S130：将所述模型语料信息发送给语言模型，输出所述问题文本对应的回复答案。

本发明对实现用户问题语料的匹配提供了完整的方案，即，用于向量匹配的标题向量库的结构设计与数据生成方案、用于最终生成训练语料的语料库的结构设计与数据生成方案、响应用户提问的处理方案；三者协同的过程如图4所示：

本发明涉及的数据基础为标题向量库和语料库，其数据来源统一，支持PDF文件等；

本发明要解决的问题：处理用户的提问，匹配用户问题的语料，处理用户提问的过程包括步骤S410，对用户提问的向量化操作获取问题向量，执行步骤S420执行文档相似度搜索，并获取关联的语料数据，组合成语料数据，用于下一步，从语言大模型获取答案。在以上过程中，执行步骤S420时与本发明涉及的数据基础进行交互：在步骤S421时向标题向量库发起查找与问题向量最近似的请求，通过步骤S422获得来自标题向量库返回的查询结果；通过步骤S423组织文件标识的提取请求，由步骤S424向语料库查询对应信息，并由通过步骤S425从语料库获得查询的语料结果，要发明中涉及的语料结果支持来自原始文件的章节内容、章节内容引用的标题对应的其他章节内容、章节内容中涉及的概念性的关键词；在实际应用中，可通过步骤S423，在向语料库提起请求信息中灵活实现对语料结果的类型、数量的选择。

在本发明针对匹配用户问题语料，获取最佳模型语料提供了一套完整的方案，从搭建知识库的角度，采用内关联属性ID、外关联属性将垂直领域的知识进行整合，形成一个结构化的网状关联的知识库；从匹配的角度，建立与用户问题贴合度最高的多种标题，通过向量近似实现问题匹配；从语料准备的角度，将与用户的关联的、全面的信息提供给语言模型。通过这样一个完整的方案，可以适应用户提问的多种场景变化，准确地把用户提问和知识库里的知识内容匹配起来，提高用户提问与知识库的关联准确性和全面性。

以上公开的仅为本发明的几个具体实施例，但是，本发明并非局限于此，任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims

1.一种匹配用户问题语料的方法，其特征在于，包括以下步骤：

获取用户提问的问题文本，对所述问题文本进行问题向量化，生成问题向量；

根据所述问题向量，在标题向量库进行近似度搜索，获取最近似的N条语料标题和对应的内容标识；

根据所述内容标识从语料库提取语料信息构成模型语料信息，所述语料信息包括：文件内容；

将所述模型语料信息发送给语言模型，输出所述问题文本对应的回复答案。

2.根据权利要求1所述的匹配用户问题语料的方法，其特征在于，所述语料信息还包括内关联属性ID和外关联属性；

其中，所述内关联属性ID为语料库的文件标识，根据所述内关联属性ID获取内关联属性ID对应的文件内容；

所述模型语料信息还包括内关联属性ID对应的文件内容和外关联属性。

3.根据权利要求1所述的匹配用户问题语料的方法，其特征在于，所述语料库包括文件标识、文件内容、内关联属性ID、外关联属性；

所述语料库的数据来源包括PDF文件；

将所述PDF文件的内容导入所述语料库的方法包括：获取PDF文档内容作为原始内容；对所述原始内容按章节进行切分，生成多份独立的章节内容，每一份所述章节内容对应的标题为章节标题，为所述每一份所述章节内容生成唯一标识为内容标识；

将所述章节内容、内容标识导入语料库，对应所述语料库的文件内容、文件标识。

4.根据权利要求3所述的匹配用户问题语料的方法，其特征在于，所述将所述章节内容、内容标识导入语料库时，判断所述章节内容中是否存在引用章节标题，如果存在，获取所述引用章节标题对应的内容标识作为内关联属性标识，将所述内关联属性标识导入所述语料库，对应语料库中的内关联属性ID；其中，所述内关联属性ID可以为空，也可以为多个内容标识。

5.根据权利要求3所述的匹配用户问题语料的方法，其特征在于，所述将所述章节内容、内容标识导入语料库时，判断所述章节内容中是否有业务关联关键词，如果存在，将所述关键词导入所述语料库，对应语料库中的外关联属性；其中，所述外关联属性可以为空，也可以为多个词语。

6.根据权利要求3所述的匹配用户问题语料的方法，其特征在于，所述标题向量库包括语料标题向量、文件标识；

所述标题向量库的数据来源为章节内容、章节标题和内容标识；

从所述数据来源中生成标题向量，将所述标题向量与所述章节内容对应的内容标识存储入标题向量库，对应语料标题和文件标识；

其中，所述标题向量包括章节标题进行标题向量化操作生成的数据。

7.根据权利要求6所述的匹配用户问题语料的方法，其特征在于，所述标题向量还包括：从章节内容中提炼内容标题，对所述内容标题执行标题向量化操作生成的数据。

8.根据权利要求8所述的匹配用户问题语料的方法，其特征在于，所述问题向量化与所述标题向量化采用统一的处理模型，包括：text2vec-large-chinese模型。

9.根据权利要求3所述的匹配用户问题语料的方法，其特征在于，所述对所述原始内容按章节进行切分指根据文档目录来切分，包括：

采用正则表达式获取所述文档目录的标题列表以及层次关系；

获取文档删除文档目录后剩余的部分，从开头按所述文档目录的顺序开始定位大标题和小标题的位置，再按照标题位置对文档进行切分，由此获得切分的结果。