CN116610964B - 一种文本相似度匹配方法、装置和计算机设备 - Google Patents

一种文本相似度匹配方法、装置和计算机设备 Download PDF

Info

Publication number
CN116610964B
CN116610964B CN202310893532.1A CN202310893532A CN116610964B CN 116610964 B CN116610964 B CN 116610964B CN 202310893532 A CN202310893532 A CN 202310893532A CN 116610964 B CN116610964 B CN 116610964B
Authority
CN
China
Prior art keywords
question
answer
data set
model
complete
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310893532.1A
Other languages
English (en)
Other versions
CN116610964A (zh
Inventor
张丽颖
费军波
万辉
朱健
曾令仿
陈�光
程稳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202310893532.1A priority Critical patent/CN116610964B/zh
Publication of CN116610964A publication Critical patent/CN116610964A/zh
Application granted granted Critical
Publication of CN116610964B publication Critical patent/CN116610964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种文本相似度匹配方法、装置和计算机设备。所述方法包括:利用大模型服务接口获取到的信息,构建基础问答数据集;对基础问答数据集进行相关性扩展,生成与基础问答数据集相关的扩展内容;利用预设的综合评价指标,对扩展内容进行评估,将评估结果满足预设条件的扩展内容并入基础问答数据集,生成完备问答数据集;根据完备问答数据集的数据结构,选取具备对应网络架构的问答模型,并采用梯度下降法对问答模型的参数进行更新,直至问答模型收敛,生成用于文本相似度匹配的完备问答模型;基于完备问答模型,进行文本相似度匹配。采用本方法能够解决现有的基于文本相似度匹配的智能问答技术存在回答问题的效率和准确率低的问题。

Description

一种文本相似度匹配方法、装置和计算机设备
技术领域
本申请涉及文本匹配技术领域,特别是涉及一种文本相似度匹配方法、装置和计算机设备。
背景技术
随着互联网的发展和普及,智能问答技术被越来越广泛地应用于各个领域,该技术通过用户输入的文本,利用自然语言处理技术来寻找与用户输入的文本相关的答案。文本相似度匹配技术是智能问答系统中的一种常用方法。通过将两个或多个文本进行比较,计算不同文本之间的相似度,并根据相似度的大小来匹配文本,给出最相关的答案。
然而,现有的基于文本相似度匹配的智能问答技术,因为其依赖于人工计算,并且需要对文本进行词性标注、语法分析等复杂的处理,增加了文本处理的复杂性,使得现有的基于文本相似度匹配的智能问答技术存在回答问题的效率和准确率低的问题。
对于现有的基于文本相似度匹配的智能问答技术存在回答问题的效率和准确率低的问题,目前仍没有得到有效解决。
发明内容
基于此,有必要针对上述技术问题,提供一种文本相似度匹配方法、装置和计算机设备。
第一方面,本申请提供了一种文本相似度匹配方法。所述方法包括:
利用大模型服务接口获取到的信息,构建基础问答数据集;所述大模型服务接口,包括预设的开源搜索引擎的服务接口;
对所述基础问答数据集进行相关性扩展,生成与所述基础问答数据集相关的扩展内容;
利用预设的综合评价指标,对所述扩展内容进行评估,将评估结果满足预设条件的所述扩展内容并入所述基础问答数据集,生成完备问答数据集;
根据所述完备问答数据集的数据结构,选取具备对应网络架构的问答模型,并采用梯度下降法对所述问答模型的参数进行更新,直至所述问答模型收敛,生成用于文本相似度匹配的完备问答模型;
基于所述完备问答模型,进行文本相似度匹配。
在其中一个实施例中,所述利用大模型服务接口获取到的信息,构建基础问答数据集,包括:
循环调用所述大模型服务接口;
基于所述大模型服务接口所接收到的与问答相关的文本资料,根据预设的格式构建所述基础问答数据集。
在其中一个实施例中,对所述基础问答数据集进行相关性扩展,生成与所述基础问答数据集相关的扩展内容,包括:
基于所述大模型服务接口所接收到的所述基础问答数据集的问答对的问题和答案,生成与所述问题和所述答案相关的新的问题;
或,基于所述大模型服务接口所接收到的所述基础问答数据集的问答对的问题,生成与所述问题相关的新的问题;
或,基于所述大模型服务接口所接收到的所述基础问答数据集的问答对相关的文本资料,生成与所述文本资料相关的新的问答对。
在其中一个实施例中,所述综合评价指标的计算公式为:CAI=αBLEU-βPerplexity+γROUGE+δMETEOR;其中,α、β、γ和δ为超参数;BLEU是基于N-Gram模型的评估指标,用于衡量生成文本与参考文本之间的相似程度;Perplexity是用于衡量语言模型生成文本的质量的评估指标;ROUGE是基于文本相似度的评估指标,用于衡量所述生成文本与所述参考文本之间的相似程度;METEOR是基于词汇和语法的评估指标,用于衡量所述生成文本与所述参考文本之间的相似程度。
在其中一个实施例中,所述利用预设的综合评价指标,对所述扩展内容进行评估,将评估结果满足预设条件的所述扩展内容并入所述基础问答数据集,生成完备问答数据集,包括:
在基于所述大模型服务接口所接收到的所述基础问答数据集的问答对的问题和答案,生成与所述问题和所述答案相关的新的问题之后,以所述基础问答数据集的问答对的问题为基准,计算新的所述问题的综合评价指标,当新的所述问题的综合评价指标达到预设阈值时,将新的所述问题并入所述基础问答数据集,生成所述完备问答数据集;
或,在基于所述大模型服务接口所接收到的所述基础问答数据集的问答对的问题,生成与所述问题相关的新的问题之后,以所述基础问答数据集的问答对的问题为基准,计算新的所述问题的综合评价指标,当新的所述问题的综合评价指标达到所述预设阈值时,将新的所述问题并入所述基础问答数据集,生成所述完备问答数据集;
或,在基于所述大模型服务接口所接收到的所述基础问答数据集的问答对相关的文本资料,生成与所述文本资料相关的新的问答对之后,以所述基础问答数据集的问答对相关的所述文本资料为基准,计算新的所述问答对中的答案的综合评价指标,当新的所述问答对中的答案的综合评价指标达到所述预设阈值时,将新的所述问答对并入所述基础问答数据集,生成所述完备问答数据集。
在其中一个实施例中,所述根据所述完备问答数据集的数据结构,选取具备对应的网络架构的问答模型,并采用梯度下降法对所述问答模型的参数进行更新,直至所述问答模型收敛,生成用于文本相似度匹配的完备问答模型,包括:
在所述完备问答数据集的数据结构为二维数据的情况下,选取具备孪生网络架构的问答模型,并采用梯度下降法对具备所述孪生网络架构的问答模型的参数进行更新,直至所述问答模型收敛,生成用于文本相似度匹配的所述完备问答模型;
和/或,在所述完备问答数据集的数据结构为三维数据的情况下,选取具备三胞胎网络架构的问答模型,并采用梯度下降法对具备所述三胞胎网络架构的问答模型的参数进行更新,直至所述问答模型收敛,生成用于文本相似度匹配的所述完备问答模型;
和/或,在所述完备问答数据集的数据结构为六维数据的情况下,选取具备六胞胎网络架构的问答模型,并采用梯度下降法对具备所述六胞胎网络架构的问答模型的参数进行更新,直至所述问答模型收敛,生成用于文本相似度匹配的所述完备问答模型。
在其中一个实施例中,在所述根据所述完备问答数据集的数据结构,选取具备对应的网络架构的问答模型,并采用梯度下降法对所述问答模型的参数进行更新,直至所述问答模型收敛,生成用于文本相似度匹配的完备问答模型之后,还包括:
基于所述完备问答模型中完备问答数据集的问题列表,生成所述完备问答数据集中所有问题的句子向量。
在其中一个实施例中,基于所述完备问答模型,进行文本相似度匹配,包括:
基于所述完备问答模型所接收到的新问题,生成所述新问题的句子向量;
基于所述完备问答数据集中所有问题的句子向量与所述新问题的句子向量,对所述完备问答数据集中所有问题与所述新问题进行文本相似度匹配。
在其中一个实施例中,所述方法还包括:
根据用户的反馈信息,对所述完备问答数据集的问答对进行增加或删除操作。
在其中一个实施例中,所述方法还包括:
在所述完备问答数据集的更新频率达到预设阈值的情况下,根据预设时间间隔,使用最新的完备问答数据集的问答对,对所述完备问答模型进行重新训练。
第二方面,本申请还提供了一种文本相似度匹配装置。所述装置包括:
构建模块,用于利用大模型服务接口获取到的信息,构建基础问答数据集;所述大模型服务接口,包括预设的开源搜索引擎的服务接口;
扩展模块,用于对所述基础问答数据集进行相关性扩展,生成与所述基础问答数据集相关的扩展内容;
评估模块,用于利用预设的综合评价指标,对所述扩展内容进行评估,将评估结果满足预设条件的所述扩展内容并入所述基础问答数据集,生成完备问答数据集;
生成模块,用于根据所述完备问答数据集的数据结构,选取具备对应网络架构的问答模型,并采用梯度下降法对所述问答模型的参数进行更新,直至所述问答模型收敛,生成用于文本相似度匹配的完备问答模型;
以及匹配模块,用于基于所述完备问答模型,进行文本相似度匹配。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的文本相似度匹配方法。
上述文本相似度匹配方法、装置和计算机设备,利用大模型服务接口获取到的信息,构建基础问答数据集,进而根据基础问答数据集进行数据集的相关性扩展,并通过预设的综合评价指标对扩展内容进行评估,保证智能问答的数据集的内容的准确性,进而根据问答数据集的数据结构,选取具备对应网络架构的问答模型,对问答模型的参数进行更新,生成用于文本相似度匹配的完备问答模型。通过完备问答模型的建立,能够对完备问答模型所接收到的问题,进行文本相似度匹配,进而可以快速、准确地回答用户提出的问题,解决了现有的基于文本相似度匹配的智能问答技术存在回答问题的效率和准确率低的问题。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请一实施例提供的文本相似度匹配方法的终端的硬件结构框图;
图2为本申请一实施例提供的文本相似度匹配方法的流程图;
图3为本申请一优选实施例提供的文本相似度匹配方法的流程图;
图4为本申请一实施例提供的文本相似度匹配装置的结构框图。
具体实施方式
为更清楚地理解本申请的目的、技术方案和优点,下面结合附图和实施例,对本申请进行了描述和说明。
除另作定义外,本申请所涉及的技术术语或者科学术语应具有本申请所属技术领域具备一般技能的人所理解的一般含义。在本申请中的“一”、“一个”、“一种”、“该”、“这些”等类似的词并不表示数量上的限制,它们可以是单数或者复数。在本申请中所涉及的术语“包括”、“包含”、“具有”及其任何变体,其目的是涵盖不排他的包含;例如,包含一系列步骤或模块(单元)的过程、方法和系统、产品或设备并未限定于列出的步骤或模块(单元),而可包括未列出的步骤或模块(单元),或者可包括这些过程、方法、产品或设备固有的其他步骤或模块(单元)。在本申请中所涉及的“连接”、“相连”、“耦接”等类似的词语并不限定于物理的或机械连接,而可以包括电气连接,无论是直接连接还是间接连接。在本申请中所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。通常情况下,字符“/”表示前后关联的对象是一种“或”的关系。在本申请中所涉及的术语“第一”、“第二”、“第三”等,只是对相似对象进行区分,并不代表针对对象的特定排序。
在本实施例中提供的方法实施例可以在终端、计算机或者类似的运算装置中执行。比如在终端上运行,图1是本实施例的文本相似度匹配方法的终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102和用于存储数据的存储器104,其中,处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置。上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限制。例如,终端还可以包括比图1中所示更多或者更少的组件,或者具有与图1所示出的不同配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如在本实施例中的文本相似度匹配方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(NetworkInterface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种文本相似度匹配方法,图2是本实施例的文本相似度匹配方法的流程图,如图2所示,该流程包括如下步骤:
步骤S210,利用大模型服务接口获取到的信息,构建基础问答数据集;大模型服务接口,包括预设的开源搜索引擎的服务接口。
其中,上述大模型服务接口,可以是预设的开源搜索引擎的服务接口,具体可以是ChatGPT(Chat Generative Pre-trained Transformer,生成式预训练语言模型聊天机器人)的服务接口,还可以是LLaMA(Large Language ModelMeta AI,大规模语言模型聊天机器人)、ChatGLM(Chat General Language Model,对话通用语言模型)、GPT-2(GenerativePre-trained Transformers-2 ,第二代生成式预训练转换器)或GPT-3(Generative Pre-trained Transformers-3 ,第三代生成式预训练转换器)等服务接口。该部分所述的服务接口可以是各个大模型开源提供的API (ApplicationProgrammingInterface,应用程序编程接口)。
上述利用大模型服务接口获取到的信息,构建基础问答数据集,可以是循环调用大模型服务接口,基于大模型服务接口所接收到的与问答相关的文本资料,根据预设的格式构建基础问答数据集。具体地,通过循环调用大模型服务接口,从而得到用户从大模型服务接口输入的一系列与问答相关的文本资料,根据预设的生成标准,生成一系列满足预设的生成标准的问答对和相关问题列表,进而对生成的问答对和相关问题列表进行核验,将核验通过的问答对和相关问题列表根据预设的格式构建基础问答数据集。其中,上述预设的生成标准,可以是对大模型服务接口所输出的内容的限制标准。例如,对大模型服务接口所输出的内容的限制标准为生成一个简短的问答对,此时,大模型服务接口根据接收到的内容,所返回的内容是以简短的问答对的形式输出。上述预设的格式,可以是问题与答案的对应格式,也可以是一个问题对应一个答案的格式,还可以是一个问题对应相关问题的列表,相关问题的列表对应一个答案的格式。例如,可以以{“问题”:“你吃了吗?”,“相关问题列表”:[“你吃饭了吗?”],“答案”:“我吃过了。”}的格式构建一个基础问答数据集。上述基础问答数据集,可以设置为数据质量较高的小规模的问答数据集。例如,可以设置基础问答数据集的规模为完备问答数据集规模的10%。本步骤基于大模型服务接口所接收到的与问答相关的文本资料,并调用大模型服务接口,构建基础问答数据集,通过基础问答数据集的建立,为后续数据集的扩展提供依据。
步骤S220,对基础问答数据集进行相关性扩展,生成与基础问答数据集相关的扩展内容。
在本步骤中,对基础问答数据集进行相关性扩展,可以是基于大模型服务接口所接收到的基础问答数据集的问答对的问题和答案,生成与问题和答案相关的新的问题。例如,可以通过大模型服务接口接收到的输入:“请基于‘A是B公司推出的一部内容开放、自由的网络百科全书。’生成和‘A是什么?’相似的问题。”,将大模型服务接口输出的内容作为一个和“A是什么?”相似的问题。其中,“A是什么?”和“A是B公司推出的一部内容开放、自由的网络百科全书。”是基础问答数据集的问答对的问题和答案,大模型服务接口输出的内容为生成的与问题和答案相关的新的问题。
对基础问答数据集进行相关性扩展,可以是基于大模型服务接口所接收到的基础问答数据集的问答对的问题,生成与问题相关的新的问题。例如,可以通过大模型服务接口接收到的输入:“请基于‘A是什么?’生成一个和‘A是什么?’相似的问题。”,将大模型服务接口输出的内容作为一个和“A是什么?”相似的问题。其中,“A是什么?”是基础问答数据集的问答对的问题,大模型服务接口输出的内容为生成的与问题相关的新的问题。
对基础问答数据集进行相关性扩展,还可以是基于大模型服务接口所接收到的基础问答数据集的问答对相关的文本资料,生成与文本资料相关的新的问答对。例如,可以通过大模型服务接口接收到的输入:“请基于‘A是B公司推出的一部内容开放、自由的网络百科全书。’文档,生成一个问答对,输出按照{‘问题’:‘你吃了吗?’,‘答案’:‘我吃过了。’}格式。”,大模型服务接口输出的内容为和上述文本资料相关的问答对。
上述与基础问答数据集相关的扩展内容,可以是与基础问答数据集的问答对的问题和答案相关的新的问题,还可以是与基础问答数据集的问答对的问题相关的新的问题,还可以是与基础问答数据集的问答对相关的文本资料相关的新的问答对。本步骤通过基于答案和问题生成新的相关问题、基于问题生成新的相关问题以及基于文本资料生成新的相关的问答对的方式对基础问答数据集进行相关性扩展,生成与基础问答数据集相关的扩展内容,为后续完备问答数据集的生成提供数据基础。
步骤S230,利用预设的综合评价指标,对扩展内容进行评估,将评估结果满足预设条件的扩展内容并入基础问答数据集,生成完备问答数据集。
具体地,上述综合评价指标(CAI)的计算公式可以为:
CAI=αBLEU-βPerplexity+γROUGE+δMETEOR
其中,α、β、γ和δ为超参数,可以表示不同指标的影响比重,用户可以根据具体需求进行设置,但是,要保证α、β、γ与δ的和为1。例如,可以将α、β、γ和δ的值都设置为0.25,表示不同指标的影响比重相等。BLEU是基于N-Gram模型的评估指标,用于衡量生成文本与参考文本之间的相似程度,BLEU的取值范围为0~1之间的数值,且BLEU取值越大表示生成文本与参考文本的相似程度越高。Perplexity是用于衡量语言模型生成文本的质量的评估指标,Perplexity取值范围为0~∞之间的数值,Perplexity取值越低表示语言模型生成的文本质量越高,且,一般情况下,Perplexity的取值低于10的情况下表明生成文本的内容是符合语言逻辑的。ROUGE是基于文本相似度的评估指标,用于衡量生成文本与参考文本之间的相似程度,ROUGE的取值范围为0~1之间的数值,且ROUGE取值越高表示生成文本与参考文本的相似程度越高。METEOR是基于词汇和语法的评估指标,用于衡量生成文本与参考文本之间的相似程度,METEOR的取值范围为0~1之间的数值,且METEOR取值越高表示生成文本与参考文本的相似程度越高。上述预设条件,可以是综合评价指标的预设阈值。例如,可以设置综合评价指标中α、β、γ和δ的值都为0.25,BLEU、ROUGE和METEOR的取值均为1,Perplexity取值为10,则此时的综合评价指标的预设阈值为-1.75。
上述利用预设的综合评价指标,对扩展内容进行评估,将评估结果满足预设条件的扩展内容并入基础问答数据集,生成完备问答数据集,可以是在基于大模型服务接口所接收到的基础问答数据集的问答对的问题和答案,生成与问题和答案相关的新的问题之后,以基础问答数据集的问答对的问题为基准,计算新的问题的综合评价指标,当新的问题的综合评价指标达到预设阈值时,将新的问题并入基础问答数据集,生成完备问答数据集。例如,设综合评价指标的预设阈值为-1.75,其中,“A是什么?”和“A是B公司推出的一部内容开放、自由的网络百科全书。”是基础问答数据集的问答对的问题和答案,大模型服务接口输出的内容为生成的与问题和答案相关的新的问题。以“A是什么?”为基准,计算大模型服务接口输出的新的问题的综合评价指标,当大模型服务接口输出的新的问题的综合评价指标大于或等于-1.75时,将新的问题并入基础问答数据集的问题“A是什么?”的相关问题的问题列表中;当大模型服务接口输出的新的问题的综合评价指标小于-1.75时,删除大模型服务接口输出的新的问题。
上述利用预设的综合评价指标,对扩展内容进行评估,将评估结果满足预设条件的扩展内容并入基础问答数据集,生成完备问答数据集,可以是在基于大模型服务接口所接收到的基础问答数据集的问答对的问题,生成与问题相关的新的问题之后,以基础问答数据集的问答对的问题为基准,计算新的问题的综合评价指标,当新的问题的综合评价指标达到预设阈值时,将新的问题并入基础问答数据集,生成完备问答数据集。例如,设综合评价指标的预设阈值为-1.75,其中,“A是什么?”是基础问答数据集的问答对的问题,大模型服务接口输出的内容为生成的与问题相关的新的问题。以“A是什么?”为基准,计算大模型服务接口输出的新的问题的综合评价指标,当大模型服务接口输出的新的问题的综合评价指标大于或等于-1.75时,将新的问题并入基础问答数据集的问题“A是什么?”的相关问题的问题列表中;当大模型服务接口输出的新的问题的综合评价指标小于-1.75时,删除大模型服务接口输出的新的问题。
上述利用预设的综合评价指标,对扩展内容进行评估,将评估结果满足预设条件的扩展内容并入基础问答数据集,生成完备问答数据集,还可以是在基于大模型服务接口所接收到的基础问答数据集的问答对相关的文本资料,生成与文本资料相关的新的问答对之后,以基础问答数据集的问答对相关的文本资料为基准,计算新的问答对中的答案的综合评价指标,当新的问答对中的答案的综合评价指标达到预设阈值时,将新的问答对并入基础问答数据集,生成完备问答数据集。例如,设综合评价指标的预设阈值为-1.75,其中,通过大模型服务接口接收到的输入:“请基于‘A是B公司推出的一部内容开放、自由的网络百科全书。’文档,生成一个问答对,输出按照{‘问题’:‘你吃了吗?’,‘答案’:‘我吃过了。’}格式。”,大模型服务接口输出的内容为和上述文本资料相关的问答对。以上述文本资料为基准,计算大模型服务接口输出的问答对的答案的综合评价指标,当大模型服务接口输出的问答对的答案的综合评价指标大于或等于-1.75时,将大模型服务接口输出的问答对的问题并入基础问答数据集的问题“A是什么?”的相关问题的问题列表中;当大模型服务接口输出的问答对的答案的综合评价指标小于-1.75时,删除大模型服务接口输出的问答对。
优选地,在基于大模型服务接口所接收到的基础问答数据集的问答对相关的文本资料,生成与文本资料相关的新的问答对之后,以基础问答数据集的问答对相关的文本资料为基准,计算新的问答对中的答案的综合评价指标之前,可以首先判断大模型服务接口所输出的文本资料相关的新的问答对的格式是否符合预设的生成标准,若大模型服务接口所输出的文本资料相关的新的问答对的格式不符合预设的生成标准,删除模型服务接口输出的问答对;若大模型服务接口所输出的文本资料相关的新的问答对的格式符合预设的生成标准,执行以基础问答数据集的问答对相关的文本资料为基准,计算新的问答对中的答案的综合评价指标。
本步骤通过对三种方式生成的基础问答数据集的扩展内容进行综合评价指标的计算,并根据计算结果,将满足要求的扩展内容并入基础问答数据集,生成完备问答数据集,通过此方式,实现了问答数据集的更新与扩展,保证了基础问答数据集所增加的内容的准确性与流畅性,进而保证了完备问答数据集的质量。
步骤S240,根据完备问答数据集的数据结构,选取具备对应网络架构的问答模型,并采用梯度下降法对问答模型的参数进行更新,直至问答模型收敛,生成用于文本相似度匹配的完备问答模型。
在本步骤中,上述完备问答数据集的数据结构,可以是二维数据结构、三维数据结构和六维数据结构。其中,二维数据结构可以是成对输入的完备问答数据集,可以用数据1和数据2表示。数据1可以是与数据2相关的数据,也可是与数据2无关的数据。其中,相关的数据,是指同一个问题、同一个问题的相关问题以及同一个问题的答案之间的数据关系。例如,问题1与问题1的相关问题之间,问题1与问题1的答案之间,以及问题1的相关问题与问题1的答案之间都是相关的数据。三维数据结构可以是三个数据一起输入的完备问答数据集,其中两个数据是相关的数据,另外一个数据与其他数据不是相关的数据。六维数据结构可以是六个数据一起输入的完备问答数据集,其中,六个数据可以包括问题1、与问题1相关的问题、问题1的答案、与问题1不相关的问题2、与问题2相关的问题以及问题2的答案。上述网络架构,可以是孪生网络架构、三胞胎网络架构和六胞胎网络架构。其中,孪生网络架构,可以用于二维数据结构的数据输入,利用对应网络架构的问答模型进行用于文本相似度匹配的完备问答模型的训练。三胞胎网络架构,可以用于三维数据结构的数据输入,利用对应网络架构的问答模型进行用于文本相似度匹配的完备问答模型的训练。六胞胎网络架构,可以用于六维数据结构的数据输入,利用对应网络架构的问答模型进行用于文本相似度匹配的完备问答模型的训练。本步骤根据完备问答数据集的数据结构,选取具备对应网络架构的问答模型,训练生成用于文本相似度匹配的完备问答模型,其通过完备问答模型的建立,能够对完备问答模型所接收到的问题,进行文本相似度匹配,进而可以快速、准确地回答用户提出的问题。
步骤S250,基于完备问答模型,进行文本相似度匹配。
其中,基于完备问答模型,进行文本相似度匹配,可以包括根据所述完备问答模型所接收到的新问题,利用完备问答模型,对所述完备问答模型所接收到的新问题与完备问答数据集的数据进行文本相似度匹配,得到相似度匹配结果最好的问题,并输出相似度匹配结果最好的问题所对应的答案。本步骤通过完备问答模型,对接收到的问题进行文本相似度匹配,进而可以快速、准确地回答用户提出的问题,解决了现有的基于文本相似度匹配的智能问答技术存在回答问题的效率和准确率低的问题。
上述步骤S210至步骤S250,首先基于大模型服务接口所接收到的信息,构建基础问答数据集,进而对基础问答数据集进行相关性扩展,生成与基础问答数据集相关的扩展内容,并通过预设的综合评价指标对扩展内容进行评估,保证智能问答的数据集的内容的准确性,进而根据问答数据集的数据结构,选取具备对应网络架构的问答模型,对问答模型的参数进行更新,生成用于文本相似度匹配的完备问答模型。通过完备问答模型的建立,能够对完备问答模型所接收到的问题,进行文本相似度匹配,进而可以快速、准确地回答用户提出的问题,解决了现有的基于文本相似度匹配的智能问答技术存在回答问题的效率和准确率低的问题。
在一个实施例中,基于上述步骤S240,根据完备问答数据集的数据结构,选取具备对应网络架构的问答模型,并采用梯度下降法对问答模型的参数进行更新,直至问答模型收敛,生成用于文本相似度匹配的完备问答模型,包括以下步骤:
步骤S242,在完备问答数据集的数据结构为二维数据的情况下,选取具备孪生网络架构的问答模型,并采用梯度下降法对具备孪生网络架构的问答模型的参数进行更新,直至问答模型收敛,生成用于文本相似度匹配的完备问答模型。
在本步骤中,在完备问答数据集的数据结构为二维数据的情况下,首先选取具备孪生网络架构的问答模型,可以用数据1和数据2表示此时成对的完备问答数据集。若数据1与数据2是相关的数据,将数据1和数据2所构成的成对标签数据集的标签设置为1;若数据1与数据2不是相关的数据,将数据1和数据2所构成的成对标签数据集的标签设置为0。然后,将数据1和数据2分别输入到具备孪生网络架构的BERT(Bidirectional EncoderRepresentation from Transformers,预训练的语言表征模型)模型中,并经过问答模型的平均池化层得到两个数据的映射向量u和v。两个BERT部分共享孪生网络架构的问答模型的权重,训练的过程中通过调整BERT部分孪生网络架构的问答模型的权重来调整问答模型的参数。进而,计算向量u和v之间的相似度,得到向量之间的距离,然后,计算孪生网络架构的损失,使用梯度下降方式对BERT模型的参数进行更新,直至问答模型收敛,停止训练,并保存问答模型的参数,生成用于文本相似度匹配的完备问答模型。其中,孪生网络架构的损失(Siamese_Loss)公式为:
其中,D为两个向量之间的距离,Y为两个数据构成的成对标签数据集的标签,m为边际价值。基于孪生网络架构的损失公式可知,当Y=1时,若D大于或等于m,则不做优化,如果D小于m,则调整参数使两个数据的距离增大到m。其中,计算向量u和v的相似度,得到两个向量之间的距离,可以通过余弦相似度、曼哈顿距离或欧氏距离等方式评估两个向量间距离来实现。
步骤S244,在完备问答数据集的数据结构为三维数据的情况下,选取具备三胞胎网络架构的问答模型,并采用梯度下降法对具备三胞胎网络架构的问答模型的参数进行更新,直至问答模型收敛,生成用于文本相似度匹配的完备问答模型。
具体地,在完备问答数据集的数据结构为三维数据的情况下,首先选取具备三胞胎网络架构的问答模型,可以用数据1、数据2和数据3表示此时待输入的三个完备问答数据集。若数据1是与数据2相关的数据,将数据1和数据2所构成的成对标签数据集的标签设置为1;若数据1是与数据2不相关的数据,将数据1和数据2所构成的成对标签数据集的标签设置为0;若数据1是与数据3相关的数据,将数据1和数据3所构成的成对标签数据集的标签设置为1;若数据1是与数据3不相关的数据,将数据1和数据3所构成的成对标签数据集的标签设置为0;若数据3是与数据2相关的数据,将数据3和数据2所构成的成对标签数据集的标签设置为1;若数据3是与数据2不相关的数据,将数据3和数据2所构成的成对标签数据集的标签设置为0。进而,将数据1、数据2和数据3分别输入到具备三胞胎网络架构的BERT模型中,并经过问答模型的平均池化层得到三个数据的映射向量a、p和n。三个BERT部分共享三胞胎网络架构的问答模型的权重,在训练的过程中通过调整三个BERT部分三胞胎网络架构的问答模型的权重来调整问答模型的参数。进而,计算向量a和p之间、a与n之间的相似度,得到向量之间的距离,然后,计算三胞胎网络架构的损失,使用梯度下降方式对BERT模型的参数进行更新,直至问答模型收敛,停止训练,并保存问答模型的参数,生成用于文本相似度匹配的完备问答模型。其中,三胞胎网络架构的损失(Triple_Loss)公式为:
其中,其中a表示数据1对应的向量,p表示数据2对应的向量,n表示数据3对应的向量,d(,)表示两个向量之间的距离,margin是超参数。可以根据三胞胎网络架构的损失公式计算损失结果,根据损失结果,调整参数,进而调整向量之间的距离,直到问答模型收敛。可以根据具体需要设置问答模型的收敛条件,具体地,可以设置收敛条件为当损失结果为一个接近于0 的数时,问答模型收敛。例如,可以设置问答模型的收敛条件为损失结果为0.01,则根据三胞胎网络架构的损失公式计算损失结果,当损失结果大于0.01时,则调整参数,进而调整向量之间的距离,直到损失结果小于或等于0.01,停止训练,并保存问答模型的参数。其中,计算两个向量的相似度,得到两个向量之间的距离,可以通过余弦相似度、曼哈顿距离或欧氏距离等方式评估两个向量间距离来实现。
步骤S246,在完备问答数据集的数据结构为六维数据的情况下,选取具备六胞胎网络架构的问答模型,并采用梯度下降法对具备六胞胎网络架构的问答模型的参数进行更新,直至问答模型收敛,生成用于文本相似度匹配的完备问答模型。
具体地,在完备问答数据集的数据结构为六维数据的情况下,首先选取具备六胞胎网络架构的问答模型,可以用数据1、数据2、数据3、数据4、数据5和数据6表示此时待输入的六个完备问答数据集。若两个数据是相关的数据,将两个数据所构成的成对标签数据集的标签设置为1;若两个数据是不相关的数据,将两个数据所构成的成对标签数据集的标签设置为0。进而,将数据1、数据2、数据3、数据4、数据5和数据6分别输入到具备六胞胎网络架构的BERT模型中,并经过问答模型的平均池化层得到六个数据的映射向量a1,a2,a3,b1,b2和b3。六个BERT部分共享六胞胎网络架构的问答模型的权重,在训练的过程中通过调整六个BERT部分六胞胎网络架构的问答模型的权重来调整问答模型的参数。进而,计算向量之间的相似度,得到向量之间的距离,然后,计算六胞胎网络架构的损失,使用梯度下降方式对BERT模型的参数进行更新,直至问答模型收敛,停止训练,并保存问答模型的参数,生成用于文本相似度匹配的完备问答模型。其中,六胞胎网络架构的损失(L)公式为:
其中,其中,d(,)表示两个向量之间的距离,ε是超参数。其中,计算两个向量的相似度,得到两个向量之间的距离,可以通过余弦相似度、曼哈顿距离或欧氏距离等方式评估两个向量之间的距离来实现。
上述步骤S242至步骤S246,通过根据问答数据集的数据结构,选取对应的网络架构的问答模型,进而实现生成用于文本相似度匹配的完备问答模型。通过此种方式,选取对应的网络结构的问答模型,能够保证生成的完备问答模型,能够通过完备的问答模型快速准确进行文本的相似度匹配,进而能够快速的回答用户所提出的问题,解决了现有的基于文本相似度匹配的智能问答技术存在回答问题的效率和准确率低的问题。
在一个实施例中,在步骤S240根据完备问答数据集的数据结构,选取具备对应的网络架构的问答模型,并采用梯度下降法对问答模型的参数进行更新,直至问答模型收敛,生成用于文本相似度匹配的完备问答模型之后,还包括以下步骤:
基于完备问答模型中完备问答数据集的问题列表,生成完备问答数据集中所有问题的句子向量。
本步骤根据完备问答模型中完备问答数据集的问题列表,生成所有问题的句子向量,实现根据所有问题的句子向量对新问题进行相似度匹配。
在一个实施例中,基于步骤S250,基于完备问答模型,进行文本相似度匹配,包括以下步骤:
基于完备问答模型所接收到的新问题,生成新问题的句子向量;基于完备问答数据集中所有问题的句子向量与新问题的句子向量,对完备问答数据集中所有问题与新问题进行文本相似度匹配。
上述基于完备问答数据集中所有问题的句子向量与新问题的句子向量,对完备问答数据集中所有问题与新问题进行文本相似度匹配,可以包括计算完备问答数据集中所有问题的句子向量与新问题的句子向量之间的距离,得到完备问答数据集中与新问题的句子向量之间的最小距离的句子向量的问题,输出完备问答数据集中与新问题的句子向量之间的最小距离的句子向量的问题所对应的答案。基于完备问答数据集中所有问题的句子向量与新问题的句子向量,对完备问答数据集中所有问题与新问题进行文本相似度匹配,还可以包括计算完备问答数据集中所有问题的句子向量与新问题的句子向量之间的相似度,得到完备问答数据集中与新问题的句子向量之间的相似度最大的句子向量的问题,输出完备问答数据集中与新问题的句子向量之间的相似度最大的句子向量的问题所对应的答案。本步骤通过完备问答模型所接收到的新问题,生成新问题的句子向量,并对完备问答数据集中所有问题的句子向量与新问题的句子向量进行文本相似度匹配,得到与完备问答数据集中与新问题最接近的问题,进而输出最接近的问题的答案,实现了通过完备的问答模型快速准确进行文本的相似度匹配,进而能够快速的回答用户所提出的问题,解决了现有的基于文本相似度匹配的智能问答技术存在回答问题的效率和准确率低的问题。
优选地,在对完备问答数据集中所有问题的句子向量与新问题的句子向量进行文本相似度匹配时,可以得到与完备问答数据集中与新问题最接近的几个问题,可以是4-7个问题,将最接近的一个问题所对应的答案进行输出,并将其余的接近的问题返回问题列表,可以供用户进行选择。
在一个实施例中,文本相似度匹配方法方法还包括以下步骤:
根据用户的反馈信息,对完备问答数据集的问答对进行增加或删除操作。
上述用户的反馈信息,可以是用户反馈的用户提出的新问题不在完备问答数据集中,还可以是用户反馈的完备问答模型针对用户所提供的新问题所输出的答案不正确。当接收到用户反馈的用户提出的新问题不在完备问答数据集中时,基于用户所反馈的数据的数据格式,利用预设的综合评价指标对用户反馈的数据所生成的问答对进行评估,并将评估结果满足预设条件的反馈内容并入完备问答数据集中,以更新完备问答数据集。当接收到用户反馈的完备问答模型针对用户所提供的新问题所输出的答案不正确时,基于用户所反馈的数据的数据格式,对用户反馈的数据进行核验,并将核验不通过的完备问答数据集中的问答对进行删除,以更新完备问答数据集。上述用户所反馈的数据的数据格式,可以是预先设置的格式,具体可以要求以简短的问答对的格式进行反馈。例如,反馈的数据格式可以为:{“问题”:“你吃了吗?”,“答案”:“我吃过了。”}。本步骤根据用户的反馈信息,可以对完备问答数据集的问答对进行补充和纠正,实现了对完备问答数据集的数据的更新,保证了完备问答数据集的数据的准确性,进而实现通过完备的问答模型快速准确利用完备问答数据集的数据进行文本的相似度匹配。
在一个实施例中,文本相似度匹配方法方法还包括以下步骤:
在完备问答数据集的更新频率达到预设阈值的情况下,根据预设时间间隔,使用最新的完备问答数据集的问答对,对完备问答模型进行重新训练。
其中,上述完备问答数据集的更新频率,可以是指完备问答数据集增加或删除问答对的频率。上述完备问答数据集的更新频率的预设阈值,可以根据需要设置,若对完备问答模型的精准度要求较高,可以将完备问答数据集的更新频率的预设阈值设置到一个比较小的数值,例如,可以设置完备问答数据集的更新频率的预设阈值为10次/周。若对完备问答模型的精准度要求不高,可以将完备问答数据集的更新频率的预设阈值设置到一个比较大的数值,例如,可以设置完备问答数据集的更新频率的预设阈值为100次/周。上述预设时间间隔,可以根据需要设置,若对完备问答模型的精准度要求较高,可以将预设时间间隔设置到一个比较短的时间间隔,例如,可以设置预设时间间隔为1个月。若对完备问答模型的精准度要求不高,可以将预设时间间隔设置到一个比较长的时间间隔,例如,可以设置预设时间间隔为半年。本步骤通过在完备问答数据集的更新频率达到一定要求时,根据一定的时间间隔,采用最新的完备问答数据集,对完备问答模型进行更新,保证完备问答模型的准确性和高效性。
图3是本申请一优选实施例提供的文本相似度匹配方法的流程图。如图3所示,该文本相似度匹配方法包括以下步骤:
步骤S310,利用大模型服务接口获取到的信息,构建基础问答数据集;
步骤S320,对基础问答数据集进行相关性扩展,生成与基础问答数据集相关的扩展内容;
步骤S330,利用预设的综合评价指标,对扩展内容进行评估,将评估结果满足预设条件的扩展内容并入基础问答数据集,生成完备问答数据集;
步骤S340,根据完备问答数据集的数据结构,选取具备对应的网络架构的问答模型,并采用梯度下降法对问答模型的参数进行更新,直至问答模型收敛,生成用于文本相似度匹配的完备问答模型;
步骤S350,基于完备问答模型中完备问答数据集的问题列表,生成完备问答数据集中所有问题的句子向量;
步骤S360,基于完备问答模型所接收到的新问题,生成新问题的句子向量;
步骤S370,基于完备问答数据集中所有问题的句子向量与新问题的句子向量,对完备问答数据集中所有问题与新问题进行文本相似度匹配。
上述步骤S310至步骤S370,首先基于大模型服务接口所接收到的信息,构建基础问答数据集,进而对基础问答数据集进行相关性扩展,生成与基础问答数据集相关的扩展内容,并通过预设的综合评价指标对扩展内容进行评估,保证智能问答的数据集的内容的准确性,进而根据问答数据集的数据结构,选取具备对应网络架构的问答模型,对问答模型的参数进行更新,生成用于文本相似度匹配的完备问答模型。通过完备问答模型的建立,能够根据问题的句子向量对完备问答模型所接收到的问题,进行文本相似度匹配,进而可以快速、准确地回答用户提出的问题,解决了现有的基于文本相似度匹配的智能问答技术存在回答问题的效率和准确率低的问题。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,在本实施例中还提供了一种文本相似度匹配装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。以下所使用的术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管在以下实施例中所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
在一个实施例中,图4是本申请一实施例提供的文本相似度匹配装置的结构框图,如图4所示,该文本相似度匹配装置,包括:
构建模块41,用于利用大模型服务接口获取到的信息,构建基础问答数据集;大模型服务接口,包括预设的开源搜索引擎的服务接口。
扩展模块42,用于对基础问答数据集进行相关性扩展,生成与基础问答数据集相关的扩展内容。
评估模块43,用于利用预设的综合评价指标,对扩展内容进行评估,将评估结果满足预设条件的扩展内容并入基础问答数据集,生成完备问答数据集。
生成模块44,用于根据完备问答数据集的数据结构,选取具备对应网络架构的问答模型,并采用梯度下降法对问答模型的参数进行更新,直至问答模型收敛,生成用于文本相似度匹配的完备问答模型。
以及匹配模块45,用于基于完备问答模型,进行文本相似度匹配。
上述文本相似度匹配装置,基于大模型服务接口所接收到的信息,构建基础问答数据集,进而对基础问答数据集进行相关性扩展,生成与基础问答数据集相关的扩展内容,并通过预设的综合评价指标对扩展内容进行评估,保证智能问答的数据集的内容的准确性,进而根据问答数据集的数据结构,选取具备对应网络架构的问答模型,对问答模型的参数进行更新,生成用于文本相似度匹配的完备问答模型。通过完备问答模型的建立,能够对完备问答模型所接收到的问题,进行文本相似度匹配,进而可以快速、准确地回答用户提出的问题,解决了现有的基于文本相似度匹配的智能问答技术存在回答问题的效率和准确率低的问题。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述实施例中的任意一种文本相似度匹配方法。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (11)

1.一种文本相似度匹配方法,其特征在于,所述方法包括:
利用大模型服务接口获取到的信息,构建基础问答数据集;所述大模型服务接口,包括预设的开源搜索引擎的服务接口;
对所述基础问答数据集进行相关性扩展,生成与所述基础问答数据集相关的扩展内容,包括:基于所述大模型服务接口所接收到的所述基础问答数据集的问答对的问题和答案,生成与所述问题和所述答案相关的新的问题;或,基于所述大模型服务接口所接收到的所述基础问答数据集的问答对的问题,生成与所述问题相关的新的问题;或,基于所述大模型服务接口所接收到的所述基础问答数据集的问答对相关的文本资料,生成与所述文本资料相关的新的问答对;
利用预设的综合评价指标,对所述扩展内容进行评估,将评估结果满足预设条件的所述扩展内容并入所述基础问答数据集,生成完备问答数据集;
根据所述完备问答数据集的数据结构,选取具备对应网络架构的问答模型,并采用梯度下降法对所述问答模型的参数进行更新,直至所述问答模型收敛,生成用于文本相似度匹配的完备问答模型;
基于所述完备问答模型,进行文本相似度匹配。
2.根据权利要求1所述的文本相似度匹配方法,其特征在于,所述利用大模型服务接口获取到的信息,构建基础问答数据集,包括:
循环调用所述大模型服务接口;
基于所述大模型服务接口所接收到的与问答相关的文本资料,根据预设的格式构建所述基础问答数据集。
3.根据权利要求1所述的文本相似度匹配方法,其特征在于,所述综合评价指标的计算公式为:CAI=αBLEU-βPerplexity+γROUGE+δMETEOR;其中,α、β、γ和δ为超参数;BLEU是基于N-Gram模型的评估指标,用于衡量生成文本与参考文本之间的相似程度;Perplexity是用于衡量语言模型生成文本的质量的评估指标;ROUGE是基于文本相似度的评估指标,用于衡量所述生成文本与所述参考文本之间的相似程度;METEOR是基于词汇和语法的评估指标,用于衡量所述生成文本与所述参考文本之间的相似程度。
4.根据权利要求1所述的文本相似度匹配方法,其特征在于,所述利用预设的综合评价指标,对所述扩展内容进行评估,将评估结果满足预设条件的所述扩展内容并入所述基础问答数据集,生成完备问答数据集,包括:
在基于所述大模型服务接口所接收到的所述基础问答数据集的问答对的问题和答案,生成与所述问题和所述答案相关的新的问题之后,以所述基础问答数据集的问答对的问题为基准,计算新的所述问题的综合评价指标,当新的所述问题的综合评价指标达到预设阈值时,将新的所述问题并入所述基础问答数据集,生成所述完备问答数据集;
或,在基于所述大模型服务接口所接收到的所述基础问答数据集的问答对的问题,生成与所述问题相关的新的问题之后,以所述基础问答数据集的问答对的问题为基准,计算新的所述问题的综合评价指标,当新的所述问题的综合评价指标达到所述预设阈值时,将新的所述问题并入所述基础问答数据集,生成所述完备问答数据集;
或,在基于所述大模型服务接口所接收到的所述基础问答数据集的问答对相关的文本资料,生成与所述文本资料相关的新的问答对之后,以所述基础问答数据集的问答对相关的所述文本资料为基准,计算新的所述问答对中的答案的综合评价指标,当新的所述问答对中的答案的综合评价指标达到所述预设阈值时,将新的所述问答对并入所述基础问答数据集,生成所述完备问答数据集。
5.根据权利要求1所述的文本相似度匹配方法,其特征在于,所述根据所述完备问答数据集的数据结构,选取具备对应的网络架构的问答模型,并采用梯度下降法对所述问答模型的参数进行更新,直至所述问答模型收敛,生成用于文本相似度匹配的完备问答模型,包括:
在所述完备问答数据集的数据结构为二维数据的情况下,选取具备孪生网络架构的问答模型,并采用梯度下降法对具备所述孪生网络架构的问答模型的参数进行更新,直至所述问答模型收敛,生成用于文本相似度匹配的所述完备问答模型;
和/或,在所述完备问答数据集的数据结构为三维数据的情况下,选取具备三胞胎网络架构的问答模型,并采用梯度下降法对具备所述三胞胎网络架构的问答模型的参数进行更新,直至所述问答模型收敛,生成用于文本相似度匹配的所述完备问答模型;
和/或,在所述完备问答数据集的数据结构为六维数据的情况下,选取具备六胞胎网络架构的问答模型,并采用梯度下降法对具备所述六胞胎网络架构的问答模型的参数进行更新,直至所述问答模型收敛,生成用于文本相似度匹配的所述完备问答模型。
6.根据权利要求1所述的文本相似度匹配方法,其特征在于,在所述根据所述完备问答数据集的数据结构,选取具备对应的网络架构的问答模型,并采用梯度下降法对所述问答模型的参数进行更新,直至所述问答模型收敛,生成用于文本相似度匹配的完备问答模型之后,还包括:
基于所述完备问答模型中完备问答数据集的问题列表,生成所述完备问答数据集中所有问题的句子向量。
7.根据权利要求6所述的文本相似度匹配方法,其特征在于,基于所述完备问答模型,进行文本相似度匹配,包括:
基于所述完备问答模型所接收到的新问题,生成所述新问题的句子向量;
基于所述完备问答数据集中所有问题的句子向量与所述新问题的句子向量,对所述完备问答数据集中所有问题与所述新问题进行文本相似度匹配。
8.根据权利要求1至权利要求7中任一项所述的文本相似度匹配方法,其特征在于,所述方法还包括:
根据用户的反馈信息,对所述完备问答数据集的问答对进行增加或删除操作。
9.根据权利要求1至权利要求7中任一项所述的文本相似度匹配方法,其特征在于,所述方法还包括:
在所述完备问答数据集的更新频率达到预设阈值的情况下,根据预设时间间隔,使用最新的完备问答数据集的问答对,对所述完备问答模型进行重新训练。
10.一种文本相似度匹配装置,其特征在于,所述装置包括:
构建模块,用于利用大模型服务接口获取到的信息,构建基础问答数据集;所述大模型服务接口,包括预设的开源搜索引擎的服务接口;
扩展模块,用于对所述基础问答数据集进行相关性扩展,生成与所述基础问答数据集相关的扩展内容,包括:基于所述大模型服务接口所接收到的所述基础问答数据集的问答对的问题和答案,生成与所述问题和所述答案相关的新的问题;或,基于所述大模型服务接口所接收到的所述基础问答数据集的问答对的问题,生成与所述问题相关的新的问题;或,基于所述大模型服务接口所接收到的所述基础问答数据集的问答对相关的文本资料,生成与所述文本资料相关的新的问答对;
评估模块,用于利用预设的综合评价指标,对所述扩展内容进行评估,将评估结果满足预设条件的所述扩展内容并入所述基础问答数据集,生成完备问答数据集;
生成模块,用于根据所述完备问答数据集的数据结构,选取具备对应网络架构的问答模型,并采用梯度下降法对所述问答模型的参数进行更新,直至所述问答模型收敛,生成用于文本相似度匹配的完备问答模型;
以及匹配模块,用于基于所述完备问答模型,进行文本相似度匹配。
11.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至权利要求9中任一项所述的文本相似度匹配方法的步骤。
CN202310893532.1A 2023-07-20 2023-07-20 一种文本相似度匹配方法、装置和计算机设备 Active CN116610964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310893532.1A CN116610964B (zh) 2023-07-20 2023-07-20 一种文本相似度匹配方法、装置和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310893532.1A CN116610964B (zh) 2023-07-20 2023-07-20 一种文本相似度匹配方法、装置和计算机设备

Publications (2)

Publication Number Publication Date
CN116610964A CN116610964A (zh) 2023-08-18
CN116610964B true CN116610964B (zh) 2023-09-26

Family

ID=87682256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310893532.1A Active CN116610964B (zh) 2023-07-20 2023-07-20 一种文本相似度匹配方法、装置和计算机设备

Country Status (1)

Country Link
CN (1) CN116610964B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030045765A (ko) * 2003-05-22 2003-06-11 김세진 문답형 지식검색 기반의 서비스 거래 시스템 및 방법
KR102047385B1 (ko) * 2018-09-21 2019-11-21 삼성생명보험주식회사 챗봇 구동 방법, 장치 및 컴퓨터 판독가능 매체
CN114218356A (zh) * 2021-12-15 2022-03-22 平安科技(深圳)有限公司 基于人工智能的语义识别方法、装置、设备及存储介质
CN114625858A (zh) * 2022-03-25 2022-06-14 中国电子产业工程有限公司 一种基于神经网络的政务问答智能回复方法及装置
CN114911903A (zh) * 2022-05-09 2022-08-16 江苏环途智能科技有限公司 一种面向社交群的智能助手问答方法
CN115827844A (zh) * 2022-12-12 2023-03-21 之江实验室 一种基于Sparql语句生成的知识图谱问答方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102654480B1 (ko) * 2020-11-05 2024-04-04 한국전자통신연구원 언어학습을 위한 지식 기반 대화 시스템 및 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030045765A (ko) * 2003-05-22 2003-06-11 김세진 문답형 지식검색 기반의 서비스 거래 시스템 및 방법
KR102047385B1 (ko) * 2018-09-21 2019-11-21 삼성생명보험주식회사 챗봇 구동 방법, 장치 및 컴퓨터 판독가능 매체
CN114218356A (zh) * 2021-12-15 2022-03-22 平安科技(深圳)有限公司 基于人工智能的语义识别方法、装置、设备及存储介质
CN114625858A (zh) * 2022-03-25 2022-06-14 中国电子产业工程有限公司 一种基于神经网络的政务问答智能回复方法及装置
CN114911903A (zh) * 2022-05-09 2022-08-16 江苏环途智能科技有限公司 一种面向社交群的智能助手问答方法
CN115827844A (zh) * 2022-12-12 2023-03-21 之江实验室 一种基于Sparql语句生成的知识图谱问答方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
中文社区问答中问题答案质量评价和预测;李晨;巢文涵;陈小明;李舟军;;计算机科学(第06期);全文 *
基于BERT的语义匹配算法在问答系统中的应用;吴炎;王儒敬;;仪表技术(06);全文 *
面向知识库问答中复述问句评分的词向量构建方法;詹晨迪;凌震华;戴礼荣;;模式识别与人工智能(第09期);全文 *

Also Published As

Publication number Publication date
CN116610964A (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
US11087166B2 (en) Training method of image-text matching model, bi-directional search method, and relevant apparatus
WO2020177282A1 (zh) 一种机器对话方法、装置、计算机设备及存储介质
CN110619050B (zh) 意图识别方法及设备
WO2021196954A1 (zh) 序列化数据处理方法和装置、文本处理方法和装置
US11461317B2 (en) Method, apparatus, system, device, and storage medium for answering knowledge questions
CN113220908B (zh) 知识图谱的匹配方法和装置
CN110399454B (zh) 一种基于变压器模型和多参照系的文本编码表示方法
CN113158687B (zh) 语义的消歧方法及装置、存储介质、电子装置
WO2024099037A1 (zh) 数据处理、实体链接方法、装置和计算机设备
CN115017178A (zh) 数据到文本生成模型的训练方法和装置
CN112559749A (zh) 在线教育师生智能匹配方法、装置及存储介质
CN112131261A (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN116561251A (zh) 一种自然语言处理方法
CN115098700A (zh) 知识图谱嵌入表示方法及装置
CN116610964B (zh) 一种文本相似度匹配方法、装置和计算机设备
CN112445899B (zh) 一种基于神经网络的知识库问答中的属性匹配方法
CN113569017A (zh) 一种模型处理方法、装置、电子设备及存储介质
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN111159424A (zh) 标注知识图谱实体的方法,装置,存储介质及电子设备
CN112507081B (zh) 相似句匹配方法、装置、计算机设备及存储介质
CN114880485A (zh) 阅读理解答案生成的方法、装置、计算机设备和存储介质
CN115455306B (zh) 推送模型训练、信息推送方法、装置和存储介质
CN113269248B (zh) 数据标准化的方法、装置、设备及存储介质
CN117056854A (zh) 情感分析方法、计算机设备和存储介质
CN116010559A (zh) 搜索提示的生成方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant