CN116805001A - 适用于垂直领域的智能问答系统、方法及其应用 - Google Patents

适用于垂直领域的智能问答系统、方法及其应用 Download PDF

Info

Publication number
CN116805001A
CN116805001A CN202310767167.XA CN202310767167A CN116805001A CN 116805001 A CN116805001 A CN 116805001A CN 202310767167 A CN202310767167 A CN 202310767167A CN 116805001 A CN116805001 A CN 116805001A
Authority
CN
China
Prior art keywords
text
vector
text block
intelligent question
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310767167.XA
Other languages
English (en)
Inventor
郁强
叶俊宏
葛俊
王增璞
王国梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CCI China Co Ltd
Original Assignee
CCI China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CCI China Co Ltd filed Critical CCI China Co Ltd
Priority to CN202310767167.XA priority Critical patent/CN116805001A/zh
Publication of CN116805001A publication Critical patent/CN116805001A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本申请提出了一种适用于垂直领域的智能问答系统、方法及其应用,包括以下步骤:采集目标领域及其相关领域的本地文档,并拆分为多个文本块;利用生成式语言大模型,获取每个文本块的摘要总结;引入TF‑IDF权重,对每个文本块进行向量化表示;响应于用户的问题,并对该问题进行预处理;将问题文本处理得到问题文本的向量;根据问题文本的向量,在向量数据库中进行向量化检索;将最相似的多个本地文档进行注释剔除后,同Prompt合并作为生成式语言大模型的输入,采用情景学习的方式,利用生成式语言大模型进行进一步生成和优化得到最终答案;将最终答案返回给用户并保存历史记录。本申请能适用于垂直领域的且有较好效果表现。

Description

适用于垂直领域的智能问答系统、方法及其应用
技术领域
本申请涉及自然语言处理技术领域,特别是涉及适用于垂直领域的智能问答系统、方法及其应用。
背景技术
自然语言处理(Natural Language Processing,NLP)是计算机科学与人工智能领域的一个分支,旨在使计算机能够理解、分析和处理人类语言。自然语言处理的目标是使计算机能够处理自然语言,从而实现与人类之间的有效交流和理解。自然语言处理涵盖了多个任务和技术,包括文本分类、文本生成、语义理解、语言翻译、情感分析、信息抽取、问答系统等。
在自然语言处理中,首先需要将自然语言文本转化为计算机可处理的形式,这通常涉及文本分词、词性标注、句法分析等技术。然后,利用机器学习、深度学习等算法和模型,对文本进行语义分析、语义理解和信息抽取,从中提取出有用的信息和结构化的知识。最后,通过生成自然语言文本的技术,将计算机的输出结果转化为人类可理解的形式。
问答系统是基于自然语言处理技术的应用,旨在回答用户提出的自然语言问题。它利用自然语言处理技术对用户问题进行语义理解、信息检索、答案抽取和答案生成等处理,以生成准确的回答。问答系统通常包括以下几个关键步骤:
1、问题理解:对用户提出的问题进行语义解析和意图识别,将问题转化为计算机可理解的形式。这包括词法分析、句法分析、语义角色标注等技术。
2、信息检索:根据问题中的关键词或者语义,从预先构建的知识库、文档集合或者互联网等资源中检索相关信息。常用的检索方法包括关键词匹配、词向量检索、语义相似度匹配等。
3、答案抽取:从获取的信息中抽取出与问题相关的答案。这可能涉及实体识别、关系抽取、事件抽取等技术,以提取具体的事实性答案。
4、答案生成:根据问题和抽取得到的信息,生成自然语言形式的回答。这可以采用模板填充、语言生成模型、机器翻译等技术。
5、答案评估:对生成的回答进行评估和排名,以选择最佳的答案或者给出多个候选答案。这通常依赖于答案的准确性、相关性和可读性等指标。
而垂直领域的问答系统专注于特定领域或行业,为用户提供相关领域内的问题解答。以下是一些常见的垂直领域问答系统解决方案及其对应的缺陷:
基于规则的垂直领域问答系统:这种系统是利用预定义的领域规则和模式来匹配问题和答案,专注于特定领域的知识和语义。缺陷是规则的编写和维护成本高,对于复杂问题和多义性问题的处理能力有限。需要人工不断更新规则以适应新的问题和知识。
基于知识图谱的垂直领域问答系统:这种系统利用领域相关的知识图谱作为知识存储和推理的基础,提供领域内的语义理解和推理能力。缺陷是知识图谱的构建和维护成本高,对于领域知识的更新和变化较为困难。知识图谱可能无法涵盖领域内所有的知识和实体。
基于统计的垂直领域问答系统:这种系统利用统计和机器学习方法从领域特定的问题和答案数据中学习模式和规律。缺陷是对于稀有或者没有见过的问题可能表现不佳。需要有足够的领域特定训练数据来训练模型。
基于预训练模型的垂直领域问答系统:这种系统利用通用领域的知识和模型,通过微调的方式对预训练模型参数进行调整,使其具有垂直领域的知识问答能力。缺陷是需要大量的领域特定训练数据和计算资源。此外受到领域差异和知识迁移的限制,可能导致性能的下降或不适应特定的垂直领域。
因此,尽管目前有多条技术路径可以构建垂直领域的问答系统,但每条路径有着各种各样问题,所以亟待一种能适用于垂直领域的且有较好效果表现的智能问答系统、方法及其应用。
发明内容
本申请实施例提供了一种适用于垂直领域的智能问答系统、方法及其应用,针对目前技术无法适用于垂直领域的问题。
本发明核心技术主要是利用向量数据库检索加生成式语言大模型来实现的问答系统,并在该技术路径中对向量插入、向量检索、大模型问答等多个步骤中进行优化改进。
第一方面,本申请提供了适用于垂直领域的智能问答方法,所述方法包括以下步骤:
S00、采集目标领域及其相关领域的本地文档,并将每个本地文档按预设规则拆分为多个文本块;
S10、利用生成式语言大模型,获取每个文本块的摘要总结,以提取每个文本块的关键信息;引入TF-IDF权重,对每个文本块进行向量化表示,将每个本地文档的向量表示存储到向量数据库中;
S20、响应于用户的问题,并对该问题进行预处理,以清晰和规范化问题文本;
S30、利用生成式语言大模型将所述问题文本向量化表示,以得到所述问题文本的向量;
S40、根据问题文本的向量,在向量数据库中进行向量化检索,以检索到与问题文本的向量最相似的多个本地文档的向量;
S50、将最相似的多个本地文档进行注释剔除后,同Prompt合并作为生成式语言大模型的输入,采用情景学习的方式,利用生成式语言大模型进行进一步生成和优化得到最终答案,以保证答案的准确和流畅;
S60、将最终答案返回给用户并保存历史记录。
进一步地,S10步骤的具体步骤为:
S11、移除文本块中的停用词;
S12、利用文本向量化工具将剔除停用词后的文本块进行语义向量化,并在语义向量化过程中引入TF-IDF权重。
进一步地,S12步骤中,通过text2vec进行语义向量化。
进一步地,S12步骤中,在text2vec进行语义向量化过程中,通过预训练的句向量模型将文本块中的词语映射为对应的向量表示。
进一步地,S12步骤中,将TF-IDF权重加在语向量模型的最后一层隐藏层中。
进一步地,S12步骤中,在语义向量化过程中引入TF-IDF权重的具体步骤为:
对文本块做嵌入层;
在每个隐藏层中做多头自注意力;
通过线性变化和标准化,再做前馈神经网络;
在最后一个隐藏层做前馈神经网络输出时加入计算好的权重调整层,根据不同的词汇赋予不同的TF-IDF权重;
经过池化层输出文本向量。
进一步地,S20步骤中,预处理至少包括去除停用词、移除特殊字符和标点符号。
第二方面,本申请提供了一种适用于垂直领域的智能问答系统,包括:
输入模块,用于供用户输入问题;
采集模块,用于采集目标领域及其相关领域的本地文档,并将每个本地文档按预设规则拆分为多个文本块;
处理模块,用于引入TF-IDF权重,对每个文本块进行向量化表示,将每个本地文档的向量表示存储到向量数据库中;响应于用户的问题,并对该问题进行预处理,以清晰和规范化问题文本;利用生成式语言大模型将问题文本向量化表示,以得到问题文本的向量;用于根据问题文本的向量,在向量数据库中进行向量化检索,以检索到与问题文本的向量最相似的多个本地文档的向量;将最相似的多个本地文档进行注释剔除后,同Prompt合并作为生成式语言大模型的输入;
向量数据库,用于存储数据;
大模型模块,用于获取每个文本块的摘要总结,以提取每个文本块的关键信息;用于获取每个文本块的摘要总结,以提取每个文本块的关键信息;采用情景学习的方式,利用生成式语言大模型进行进一步生成和优化得到最终答案,以保证答案的准确和流畅;
输出模块,用于将最终答案返回给用户并保存历史记录。
第三方面,本申请提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述的适用于垂直领域的智能问答方法。
第四方面,本申请提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序包括用于控制过程以执行过程的程序代码,过程包括根据上述的适用于垂直领域的智能问答方法。
本发明的主要贡献和创新点如下:1、与现有技术相比,本申请在文本向量化存储时引入生成式语言大模型进行摘要总结和相关问题生成是一项关键创新,通过生成式语言大模型对每个文本块进行摘要总结,系统可以自动提取出简洁、概括性的摘要内容,从大量的文本中筛选出关键信息,对文本块进行概括性表述。而同时生成的几个相关问题根据文本块的内容和上下文进行生成,涵盖了文本块的关键细节和概念,提供了更全面的视角和深入的了解,进一步提升了对该文本块的全方位表述,将这两部分作为注释同原文本块一同向量化保存,可以丰富文本块的信息表述,从而大幅提升下游任务中向量相似度检索的准确性。
2、与现有技术相比,本申请在文本块向量化嵌入过程中增加TF-IDF权重的操作是另一项关键创新,考虑到做相似度检索时传统词频方法只关注词语在文本中的出现次数,忽略了词语之间的语义关系,因此在语义相关性的判断上有劣势,且无法处理同义词问题;而词嵌入方法虽然能够捕捉语义信息,能够对同义词进行处理和做上下文理解,但是存在垂直领域的高频词对其效果产生消极影响的问题。因此本发明在两者基础上进行优化改进,词向量化嵌入过程最后的隐藏层增加TF-IDF权重,使模型在具有语义理解能力的基础上通过加权的方式降低高频词的权重,减缓其对向量化表示的影响,从而更准确地捕捉文档的语义信息。此外可以突出那些在特定文档中具有较高重要性的关键词,从而能够更好地表达文档的主题和内容,对文档的语义表示具有更大的贡献。
3、本申请引入生成式语言大模型来解决传统FAQ模型在做问答方面存在的局限性,生成式语言大模型具有更强的语义理解能力,能够更好地理解问题的含义。相比于传统的基于匹配的方法,它能够更准确地捕捉问题的意图和复杂的语义关系。而且生成式语言大模型能够利用上下文信息来生成答案,而不仅仅是简单地匹配问题的答案。它可以根据问题的上下文生成更加合理和连贯的回答,考虑到问题之前或之后的内容,从而提供更丰富和准确的回答。此外生成式语言大模型具有一定的创造性,可以根据输入的问题和检索到的文本块合成全新的表述和回答。这使得它能够处理那些不在传统FAQ数据库中的问题,以及那些需要更加详细和个性化回答的问题。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的适用于垂直领域的智能问答方法的流程;
图2是根据本申请实施例的文本向量化及高频词权重添加过程图;
图3是根据本申请实施例的电子装置的硬件结构示意图。
具体实施方式
这里将详细的对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
尽管目前有多条技术路径可以构建垂直领域的问答系统,但每条路径有着各种各样问题。
基于此,本发明基于向量数据库检索加生成式语言大模型来解决现有技术存在的问题。
实施例一
本申请旨在提出适用于垂直领域的智能问答方法,具体地,参考图1,所述方法包括以下步骤:
S00、采集目标领域及其相关领域的本地文档,并将每个本地文档按预设规则拆分为多个文本块;
在本实施例中,首先需要进行数据准备和预处理,收集领域相关的本地文档,这些文档可以包括领域内的专业文献、技术手册、法规文件等。针对每个文档,可以根据段落、章节或其他相关标准将其拆分成多个文本块。文本块的大小可以根据需求和文档结构来确定。拆分成多个文本块的目的是更好地处理和分析文档的内容。
优选地,在收集文档之后,可以进行预处理步骤,如去除文档中的特殊字符、标点符号、HTML标签等,以便后续处理和分析。
优选地,根据文档的结构和内容特点,可以采用不同的方法将文档拆分成多个文本块。一般来说采用的方法是按照段落或章节进行拆分,将文档分解为若干段落或章节,每个段落或章节作为一个独立的文本块。此外,文本块的大小应该合理选择,以确保每个文本块包含足够的信息,能够提供有意义的上下文。如果文本块太小,则可能无法完整地捕捉到相关信息;如果文本块太大,则可能存在信息冗余或混淆。通常情况下,根据段落或章节拆分的文本块大小较为适中,可以保持信息的连贯性和一致性。
S10、利用生成式语言大模型,获取每个文本块的摘要总结,以提取每个文本块的关键信息;
在本实施例中,对于每个文本块,利用生成式语言大模型(如ChatGPT、ChatGML等)进行摘要总结。通过输入文本块,这些大模型可以生成简洁、概括性的摘要内容,提取出文本块的关键信息。此外,对于每个文本块,使用生成式语言大模型生成可以用该文本块进行回答的几个相关问题。通过在文本块中插入特定的标记或占位符,以形式化的方式提出相关问题。这些问题可以根据文本块的内容和上下文生成,涵盖关键细节和概念。将这些问题作为注释添加到文本块的末尾。
优选地,预训练好的语言大模型(如ChatGPT 3.5或ChatGPT 4)有较好的上下文理解能力,因此在做这一步的时候需要通过合适的提示词加上文本块内容对大模型进行提示,例如将Prompt模板设置为“请根据下面的文本段落生成一个简洁但完整的总结摘要,并列出三个可以用该文本内容作答的相关问题。\n相关文本如下:{content}]”,这里“\n”表示换行符,{content}表示相应文本块内容,接下来需要将总结摘要和相关问题以注释的方式加在文本块末尾,一般来说可以通过插入特地的标记或者占位符,例如使用“[总结摘要:xxxxxx][问题1:xxxxxx?][问题2:xxxxxx?][问题3:xxxxxx?]”这样的方式将注释加在文章末尾。
其中,引入TF-IDF权重,对每个文本块进行向量化表示,将每个本地文档的向量表示存储到向量数据库中;
在本实施例中,对于每个文本块及其相应注释,将其进行向量化表示。首先进行停用词移除操作。停用词是指那些在文本中频繁出现但缺乏实际含义的常见词语,如介词、连词等,例如“的”“是”“在”等。通过预定义的停用词列表或基于统计分析的方法,将这些停用词从文本块中移除。停用词的移除可使得向量化表示关注点更加集中在那些具有实际含义和区分性的词语上。优选地,常用的方法是使用结巴分词工具提供的停用词表,结巴分词是一种流行的中文分词工具,它提供了一些常用的停用词表,可以根据需要选择适合的停用词表进行去除操作。停用词去除可以帮助减少文本的冗余信息,提取出更具有意义和特征性的词汇。
然后利用text2vec进行语义向量化(text2vec是一种常用的文本向量化工具,可以将文本表示为语义向量)。通过text2vec可以捕捉词语的语义信息,并将其映射到低维向量空间中。这样的语义向量化表示能够更好地捕捉词语之间的关联和语义相似度。在进行text2vec操作时,可以使用预训练的句向量模型,通过将文本块中的词语映射为对应的向量表示,可以将文本块转化为向量化的形式,以便后续进行相似度计算和匹配操作。利用text2vec进行语义向量化的好处在于,它能够捕捉到词语的语义关联和语义相似度。相比传统的词袋模型等表示方法,text2vec的语义向量化能够更好地捕捉到文本的语义信息,从而提高文本之间的相似度计算的准确性。
优选地,基于训练好的CoSENT(Contextualized Sentence Embeddings)上下文化句子嵌入模型进行文本向量化,能够综合上下文信息。CoSENT的内部逻辑包括以下几步,首先,输入的中文文本会被进行分词,将文本划分为单个词或子词单元。分词后的词语可能会经过一些预处理步骤,比如转小写、去除标点符号或处理特殊字符。然后CoSENT会采用预训练的语言模型,如BERT模型,来对每个词语进行编码,考虑其周围词语的上下文信息。这种上下文化的编码能够捕捉词语在整个句子或文档中的含义和上下文关系。在获取每个词语的上下文编码后,CoSENT会应用汇聚或聚合函数,以获取句子或文档的固定长度表示。这一步将每个词语的嵌入向量合并为一个表示整体文本含义的单一向量。最终,CoSENT会生成一个高维的向量表示,其中包含了输入文本的语义和上下文信息。这个向量可以用于后续的文本分类、相似度计算等自然语言处理任务中。
但是考虑到在垂直领域的相关文档中,部分关键词会反复出现成为高频词汇,影响向量相似度检索时的效果。因此需要在词向量化嵌入过程中增加TF-IDF权重。然后将每个文档的向量表示存储到向量数据库中,以便后续的向量化检索和相似度匹配。
其中,这里TF-IDF(Term Frequency-Inverse Document Frequency)是一种常用的词语加权技术,它综合考虑了词语的频率和在文集中的重要性。通过将TF-IDF权重与词向量化嵌入模型的隐藏层输出进行相乘,可以降低高频词的权重,从而减缓其对向量化表示的影响。
优选地,TF-IDF结合了词频(Term Frequency)和逆文档频率(Inverse DocumentFrequency),通过计算词语在文本中的频率以及它在整个文档集合中的分布情况,得出一个词语的权重。具体计算过程为:
1,计算词频(TF):对于给定的文本,统计每个词语在文本中的出现次数,得到词语的频率。即TF(t,d)=(词语t在文档d中出现的次数)/(文档d中所有词语的总数),其中t表示词语,d表示文档。
2,计算逆文档频率(IDF):对于每个词语,计算它在整个文档集合中出现的文档数,并进行逆向的对数运算,得到逆文档频率。即IDF(t)=log((文档集合中的文档总数)/(包含词语t的文档数+1)),这里文档集合中的文档总数是指参与计算的所有文档的数量。加1是为了避免分母为0的情况,常用的方式是在分子和分母都加上1。
3,计算TF-IDF:将词频(TF)和逆文档频率(IDF)相乘,得到每个词语的TF-IDF权重,即TF-IDF(t,d)=TF(t,d)*IDF(t)。
计算得到TF-IDF权重后需要将其加在文本向量化的过程中,因为采用的CoSENT会采用预训练的BERT模型对词语进行编码,所以考虑将TF-IDF的权重加在BERT最后一层隐藏层中,具体见图2所示,先对文本块做嵌入层,然后经过多个隐藏层,在最后一个隐藏层中先对其做多头自注意力,然后对通过线性变化和标准化,再做前馈神经网络,然后在其输出时加入计算好的权重调整层,根据不同的词汇赋予不同的权重,最后经过池化层输出对象的文本向量。将转化后的文本向量储存进本地的向量数据库,以便后续的向量检索和相似度匹配。
S20、响应于用户的问题,并对该问题进行预处理,以清晰和规范化问题文本;
在本实施例中,当用户向智能问答助手提出问题时,需要对问题进行一些预处理步骤,以清洗和规范化问题文本。这包括去除停用词、移除特殊字符和标点符号等。预处理步骤有助于减少噪声和干扰,提高问题向量化的准确性。
S30、利用生成式语言大模型将问题文本向量化表示,以得到问题文本的向量;
优选地,如果问题文本较为复杂,则将问题文本按预设规则拆分为多个文本块,利用生成式语言大模型,获取每个文本块的摘要总结,以提取每个文本块的关键信息,引入TF-IDF权重,对每个文本块进行注释并将其向量化表示,以得到问题文本的向量;而若问题文本较为简单,只需要直接做文本向量化处理即可,不需要文本块拆分操作。
在本实施例中,对问题文本用上述向量化文本块相同的方法转化成对应的向量。优选地,当用户向智能问答系统提问时,首先对问题进行预处理主要包括去除停用词、移除特殊字符和标点符号等,然后对问题文本前述步骤的向量化文本块相同的方法转化成对应的向量。
S40、根据问题文本的向量,在向量数据库中进行向量化检索,以检索到与问题文本的向量最相似的多个本地文档的向量;
在本实施例中,使用建立好的向量数据库进行向量化检索,找到与问题向量最相似的Top-K个文档向量或句子向量。优选地,向量化检索是通过将问题向量与向量数据库中的文档向量或句子向量进行相似度匹配,从而找到与问题最相似的Top-K个文档或句子。相似度匹配通常使用余弦相似度或欧氏距离等度量方法来计算向量之间的相似度。
S50、将最相似的多个本地文档进行注释剔除后,同Prompt(通常指命令提示符(Command Prompt),是一种交互式文本界面,允许用户通过键入命令来与计算机进行交互)合并作为生成式语言大模型的输入,采用情景学习的方式,利用生成式语言大模型进行进一步生成和优化得到最终答案,以保证答案的准确和流畅;
在本实施例中,基于找到的相似文档,将其剔除注释后的文本同原有的Prompt内容进行合并作为输入,采用情景学习的方式利用生成式语言大模型对答案进行进一步的生成和优化,以保证答案的准确和流畅。生成式语言大模型可以利用上下文信息和语言模型的能力,生成符合语法和语义规则的答案。
优选地,这里Prompt是为了引导大模型生成准确、完整的内容,本地实例选取的是一个电网领域的问答场景,这里考虑将Prompt设置成“我将会提供一段电力安全规程相关文本和一个相关的问题,作为一个电力安全规程助手,你需要从这段文本中找出问题的答案,若答案涉及多个内容请逐条输出,若无法找到相应答案请输出“对不起,未找到相关答案”,请不要编造答案,答案请使用中文,若以下为相关文本内容\n{context}\n请问:{question}”,这里\n表述换行符,{context}为检索到的Top-K相关文本块,{question}为用户提问的问题。此外还可以对模型进行情境学习中的one-shot或few-shot,指的是在模型输出结果前,向其提供一条或者多条范例,情境学习的目的就是利用预训练模型和少量的训练示例实现对新问题的准确预测和推理。
如此,这种方法能够在缺乏大规模标注数据的情况下,快速构建适应不同领域和任务的智能系统,并实现个性化的、灵活的应用。在实际应用时即在输入问题之前给大模型一个示范,例如“ROMPT:我将会提供一段电力安全规程相关文本和一个相关的问题,作为一个电力安全规程助手,你需要从这段文本中找出问题的答案,若答案涉及多个内容请逐条输出,若无法找到相应答案请输出“对不起,未找到相关答案”,请不要编造答案,答案请使用中文,USER:以下为相关文本内容\n超高压输电线路是指500kV及以上输电线路,高压输电线路是指220-500kV输电线路,配电线路是指110kV及以下的线路称为配电线路,而配电线路又分为高压配电线路、中压配电线路、低压配电线路\n请问:配电线路包括哪几种”BOT:“配电线路包括高压配电线路、中压配电线路和低压配电线路”,以上为单条示范即为one-shot,当多条示范时即为few-shot。
S60、将最终答案返回给用户并保存历史记录。
在本实施例中,将生成的答案返回给用户,并将问答的历史记录进行保存,方面下次再次输入以并支持用户的追问和交互,问答系统可以根据用户的反馈进一步细化问题和生成答案,提供更满意的回答。即生成式语言大模型还支持记忆功能,会将历史会话也传入大模型中便于用户做进一步提问回答。
如此,这种基于向量库检索和生成式语言大模型的方法能够提高问答系统的准确性和效率,使用户能够快速获得与垂直领域相关的准确答案。
实施例二
基于相同的构思,本申请还提出了一种适用于垂直领域的智能问答系统,包括:
输入模块,用于供用户输入问题;
采集模块,用于采集目标领域及其相关领域的本地文档,并将每个本地文档按预设规则拆分为多个文本块;
处理模块,用于引入TF-IDF权重,对每个文本块进行向量化表示,将每个本地文档的向量表示存储到向量数据库中;响应于用户的问题,并对该问题进行预处理,以清晰和规范化问题文本;利用生成式语言大模型将问题文本向量化表示,以得到问题文本的向量;用于根据问题文本的向量,在向量数据库中进行向量化检索,以检索到与问题文本的向量最相似的多个本地文档的向量;将最相似的多个本地文档进行注释剔除后,同Prompt合并作为生成式语言大模型的输入;
向量数据库,用于存储数据;
大模型模块,用于获取每个文本块的摘要总结,以提取每个文本块的关键信息;用于获取每个文本块的摘要总结,以提取每个文本块的关键信息;采用情景学习的方式,利用生成式语言大模型进行进一步生成和优化得到最终答案,以保证答案的准确和流畅;
输出模块,用于将最终答案返回给用户并保存历史记录。
实施例三
本实施例还提供了一种电子装置,参考图3,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
具体地,上述处理器402可以包括中央处理器(CPU),或者特定集成电路(ApplicationSpecificIntegratedCircuit,简称为ASIC),或者可以被配置成实施本申请实施例的一个或多个集成电路。
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(HardDiskDrive,简称为HDD)、软盘驱动器、固态驱动器(SolidStateDrive,简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerialBus,简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(Non-Volatile)存储器。在特定实施例中,存储器404包括只读存储器(Read-OnlyMemory,简称为ROM)和随机存取存储器(RandomAccessMemory,简称为RAM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(ProgrammableRead-OnlyMemo ry,简称为PROM)、可擦除PROM(ErasableProgrammableRead-OnlyMemory,简称为EPROM)、电可擦除PROM(ElectricallyErasableProgrammableRead-Onl yMemory,简称为EEPROM)、电可改写ROM(ElectricallyAlterableRead-Only Memory,简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下,该RAM可以是静态随机存取存储器(StaticRandom-Acc essMemory,简称为SRAM)或动态随机存取存储器(DynamicRandomAccessM emory,简称为DRAM),其中,DRAM可以是快速页模式动态随机存取存储器404(FastPageModeDynamicRandomAccessMemory,简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDateOutDynamicRandomAccessMe mory,简称为EDODRAM)、同步动态随机存取内存(SynchronousDynamicRa ndom-AccessMemory,简称SDRAM)等。
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施例中的任意适用于垂直领域的智能问答方法。
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是想要问的问题等,输出的信息可以是答案等。
实施例四
本实施例还提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序包括用于控制过程以执行过程的程序代码,过程包括根据实施例一的适用于垂直领域的智能问答方法。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如DVD及其数据变体、CD等光学介质上。物理介质是非瞬态介质。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以作出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.适用于垂直领域的智能问答方法,其特征在于,包括以下步骤:
S00、采集目标领域及其相关领域的本地文档,并将每个所述本地文档按预设规则拆分为多个文本块;
S10、利用生成式语言大模型,获取每个所述文本块的摘要总结,以提取每个所述文本块的关键信息;引入TF-IDF权重,对每个所述文本块进行向量化表示,将每个所述本地文档的向量表示存储到向量数据库中;
S20、响应于用户的问题,并对该问题进行预处理,以清晰和规范化问题文本;
S30、利用生成式语言大模型将所述问题文本向量化表示,以得到所述问题文本的向量;
S40、根据所述问题文本的向量,在所述向量数据库中进行向量化检索,以检索到与所述问题文本的向量最相似的多个本地文档的向量;
S50、将最相似的多个本地文档进行注释剔除后,同Prompt合并作为生成式语言大模型的输入,采用情景学习的方式,利用生成式语言大模型进行进一步生成和优化得到最终答案,以保证答案的准确和流畅;
S60、将最终答案返回给用户并保存历史记录。
2.如权利要求1所述的适用于垂直领域的智能问答方法,其特征在于,S10步骤的具体步骤为:
S11、移除所述文本块中的停用词;
S12、利用文本向量化工具将剔除停用词后的文本块进行语义向量化,并在语义向量化过程中引入TF-IDF权重。
3.如权利要求2所述的适用于垂直领域的智能问答方法,其特征在于,S12步骤中,通过text2vec进行语义向量化。
4.如权利要求3所述的适用于垂直领域的智能问答方法,其特征在于,S12步骤中,在text2vec进行语义向量化过程中,通过预训练的句向量模型将所述文本块中的词语映射为对应的向量表示。
5.如权利要求4所述的适用于垂直领域的智能问答方法,其特征在于,S12步骤中,将TF-IDF权重加在语向量模型的最后一层隐藏层中。
6.如权利要求5所述的适用于垂直领域的智能问答方法,其特征在于,S12步骤中,在语义向量化过程中引入TF-IDF权重的具体步骤为:
对所述文本块做嵌入层;
在每个隐藏层中做多头自注意力;
通过线性变化和标准化,再做前馈神经网络;
在最后一个隐藏层做前馈神经网络输出时加入计算好的权重调整层,根据不同的词汇赋予不同的TF-IDF权重;
经过池化层输出文本向量。
7.如权利要求1-6任意一项所述的适用于垂直领域的智能问答方法,其特征在于,S20步骤中,预处理至少包括去除停用词、移除特殊字符和标点符号。
8.一种适用于垂直领域的智能问答系统,其特征在于,包括:
输入模块,用于供用户输入问题;
采集模块,用于采集目标领域及其相关领域的本地文档,并将每个本地文档按预设规则拆分为多个文本块;
处理模块,用于引入TF-IDF权重,对每个文本块进行向量化表示,将每个本地文档的向量表示存储到向量数据库中;响应于用户的问题,并对该问题进行预处理,以清晰和规范化问题文本;利用生成式语言大模型将问题文本向量化表示,以得到问题文本的向量;用于根据问题文本的向量,在向量数据库中进行向量化检索,以检索到与问题文本的向量最相似的多个本地文档的向量;将最相似的多个本地文档进行注释剔除后,同Prompt合并作为生成式语言大模型的输入;
向量数据库,用于存储数据;
大模型模块,用于获取每个文本块的摘要总结,以提取每个文本块的关键信息;用于获取每个文本块的摘要总结,以提取每个文本块的关键信息;采用情景学习的方式,利用生成式语言大模型进行进一步生成和优化得到最终答案,以保证答案的准确和流畅;
输出模块,用于将最终答案返回给用户并保存历史记录。
9.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至7任一项所述的适用于垂直领域的智能问答方法。
10.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序包括用于控制过程以执行过程的程序代码,所述过程包括根据权利要求1至7任一项所述的适用于垂直领域的智能问答方法。
CN202310767167.XA 2023-06-26 2023-06-26 适用于垂直领域的智能问答系统、方法及其应用 Pending CN116805001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310767167.XA CN116805001A (zh) 2023-06-26 2023-06-26 适用于垂直领域的智能问答系统、方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310767167.XA CN116805001A (zh) 2023-06-26 2023-06-26 适用于垂直领域的智能问答系统、方法及其应用

Publications (1)

Publication Number Publication Date
CN116805001A true CN116805001A (zh) 2023-09-26

Family

ID=88079408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310767167.XA Pending CN116805001A (zh) 2023-06-26 2023-06-26 适用于垂直领域的智能问答系统、方法及其应用

Country Status (1)

Country Link
CN (1) CN116805001A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117114112A (zh) * 2023-10-16 2023-11-24 北京英视睿达科技股份有限公司 基于大模型的垂直领域数据整合方法、装置、设备及介质
CN117217238A (zh) * 2023-11-09 2023-12-12 成都理工大学 一种基于大型语言模型的智能交互系统及方法
CN117312535A (zh) * 2023-11-28 2023-12-29 中国平安财产保险股份有限公司 基于人工智能的问题数据处理方法、装置、设备及介质
CN117312534A (zh) * 2023-11-28 2023-12-29 南京中孚信息技术有限公司 一种基于保密知识库的智能问答实现方法、装置及介质
CN117371404A (zh) * 2023-12-08 2024-01-09 城云科技(中国)有限公司 一种文本问答数据对生成方法及装置
CN117520523A (zh) * 2023-12-29 2024-02-06 中邮消费金融有限公司 数据处理方法、装置、设备及存储介质
CN117609477A (zh) * 2024-01-22 2024-02-27 亚信科技(中国)有限公司 一种基于领域知识的大模型问答方法和装置
CN117807199A (zh) * 2023-12-13 2024-04-02 北京中科金财科技股份有限公司 一种基于文档检索增强机器语言模型的对话方法及系统

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117114112B (zh) * 2023-10-16 2024-03-19 北京英视睿达科技股份有限公司 基于大模型的垂直领域数据整合方法、装置、设备及介质
CN117114112A (zh) * 2023-10-16 2023-11-24 北京英视睿达科技股份有限公司 基于大模型的垂直领域数据整合方法、装置、设备及介质
CN117217238A (zh) * 2023-11-09 2023-12-12 成都理工大学 一种基于大型语言模型的智能交互系统及方法
CN117217238B (zh) * 2023-11-09 2024-01-30 成都理工大学 一种基于大型语言模型的智能交互系统及方法
CN117312534B (zh) * 2023-11-28 2024-02-23 南京中孚信息技术有限公司 一种基于保密知识库的智能问答实现方法、装置及介质
CN117312535A (zh) * 2023-11-28 2023-12-29 中国平安财产保险股份有限公司 基于人工智能的问题数据处理方法、装置、设备及介质
CN117312534A (zh) * 2023-11-28 2023-12-29 南京中孚信息技术有限公司 一种基于保密知识库的智能问答实现方法、装置及介质
CN117371404B (zh) * 2023-12-08 2024-02-27 城云科技(中国)有限公司 一种文本问答数据对生成方法及装置
CN117371404A (zh) * 2023-12-08 2024-01-09 城云科技(中国)有限公司 一种文本问答数据对生成方法及装置
CN117807199A (zh) * 2023-12-13 2024-04-02 北京中科金财科技股份有限公司 一种基于文档检索增强机器语言模型的对话方法及系统
CN117520523A (zh) * 2023-12-29 2024-02-06 中邮消费金融有限公司 数据处理方法、装置、设备及存储介质
CN117520523B (zh) * 2023-12-29 2024-03-29 中邮消费金融有限公司 数据处理方法、装置、设备及存储介质
CN117609477A (zh) * 2024-01-22 2024-02-27 亚信科技(中国)有限公司 一种基于领域知识的大模型问答方法和装置
CN117609477B (zh) * 2024-01-22 2024-05-07 亚信科技(中国)有限公司 一种基于领域知识的大模型问答方法和装置

Similar Documents

Publication Publication Date Title
CN116805001A (zh) 适用于垂直领域的智能问答系统、方法及其应用
CN109344236B (zh) 一种基于多种特征的问题相似度计算方法
Guu et al. Retrieval augmented language model pre-training
CN111159359B (zh) 文档检索方法、装置及计算机可读存储介质
CN106776532B (zh) 一种知识问答方法及装置
Oliveira Automatic generation of poetry: an overview
CN110442880B (zh) 一种机器翻译译文的翻译方法、装置及存储介质
CN116127095A (zh) 一种序列模型与知识图谱结合的问答方法
CN113282711B (zh) 一种车联网文本匹配方法、装置、电子设备及存储介质
CN113971394A (zh) 文本复述改写系统
CN112883182A (zh) 一种基于机器阅读的问答匹配方法及装置
CN111881264B (zh) 一种开放领域问答任务中长文本检索的方法和电子设备
CN117056494A (zh) 开放域问答的方法、装置、电子设备和计算机存储介质
CN117076636A (zh) 一种智能客服的信息查询方法、系统和设备
CN108241650B (zh) 训练分类标准的训练方法和装置
CN112926340B (zh) 一种用于知识点定位的语义匹配模型
CN112270192B (zh) 一种基于词性和停用词过滤的语义识别方法及系统
CN114239555A (zh) 一种关键词提取模型的训练方法及相关装置
CN115238705A (zh) 语义解析结果重排序方法及系统
Lee Natural Language Processing: A Textbook with Python Implementation
Eliassi-Rad et al. A theory-refinement approach to information extraction
Ghasemi et al. FarSick: A Persian Semantic Textual Similarity And Natural Language Inference Dataset
Petkevicius et al. Intrinsic Word Embedding Model Evaluation for Lithuanian Language Using Adapted Similarity and Relatedness Benchmark Datasets.
US20230162031A1 (en) Method and system for training neural network for generating search string
Kakulapati et al. Analysis of Machine Reading Comprehension Problem Using Machine Learning Techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination