CN117556024A - 知识问答方法以及相关设备 - Google Patents

知识问答方法以及相关设备 Download PDF

Info

Publication number
CN117556024A
CN117556024A CN202410033099.9A CN202410033099A CN117556024A CN 117556024 A CN117556024 A CN 117556024A CN 202410033099 A CN202410033099 A CN 202410033099A CN 117556024 A CN117556024 A CN 117556024A
Authority
CN
China
Prior art keywords
target
knowledge
answer
preset
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410033099.9A
Other languages
English (en)
Other versions
CN117556024B (zh
Inventor
韩嘉琪
王丽园
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202410033099.9A priority Critical patent/CN117556024B/zh
Publication of CN117556024A publication Critical patent/CN117556024A/zh
Application granted granted Critical
Publication of CN117556024B publication Critical patent/CN117556024B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种知识问答方法以及相关设备,可以获取目标对象在内容交互客户端当前输入的目标问题;提取目标问题的目标特征信息;基于目标特征信息从预设知识数据库的候选问题中确定与目标问题对应的相似问题;当相似问题与目标问题之间的相似度满足预设相似条件时,获取知识映射关系集合;根据知识映射关系集合和相似问题,确定相似问题对应的目标答案,向目标对象反馈目标答案;当相似问题与目标问题之间的相似度不满足预设相似条件时,通过知识问答模型对目标问题进行答案预测处理,得到目标问题对应的答案,并向所述目标对象反馈对于所述目标问题的答案。本申请可以提高知识检索的精确度,从而提高知识问答的准确性。

Description

知识问答方法以及相关设备
技术领域
本申请涉及计算机技术领域,具体涉及一种知识问答方法以及相关设备。
背景技术
随着人工智能技术的发展,越来越多的人工智能系统被广泛应用,自动问答系统便是其中一种。在具体实施中,用户将问题输入到自动问答系统中,自动问答系统再针对该问题进行相关知识的检索,从而向用户反馈相应的内容。其中,在进行知识检索前,自动问答系统需要进行知识的存储。
在目前的相关技术中,知识的存储和检索方案针对的是通用领域,通常是基于预置知识对神经网络模型进行训练,使其学习到相应知识;在知识检索的过程中,可以将用户的问题输入神经网络模型中,结合神经网络模型学习到的知识,输出预测答案,并反馈给用户。这种方法知识检索的精确度相对较低,不利于提高输出答案的准确性。
发明内容
本申请实施例提供一种知识问答方法以及相关设备,相关设备可以包括知识问答装置、电子设备、计算机可读存储介质和计算机程序产品,可以提高知识检索的精确度,从而提高知识问答的准确性。
本申请实施例提供一种知识问答方法,包括:
获取目标对象在内容交互客户端当前输入的目标问题;
对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息;
基于所述目标特征信息,从预设知识数据库的候选问题中确定与所述目标问题对应的相似问题;
当所述相似问题与所述目标问题之间的相似度满足预设相似条件时,获取知识映射关系集合,所述知识映射关系集合包括候选问题和预设答案信息之间的映射关系;
根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案,向所述目标对象反馈对于所述目标问题的所述目标答案;
当所述相似问题与所述目标问题之间的相似度不满足预设相似条件时,通过知识问答模型对所述目标问题进行答案预测处理,得到所述目标问题对应的答案,并向所述目标对象反馈对于所述目标问题的答案。
相应的,本申请实施例提供一种知识问答装置,包括:
问题获取单元,用于获取目标对象在内容交互客户端当前输入的目标问题;
提取单元,用于对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息;
确定单元,用于基于所述目标特征信息,从预设知识数据库的候选问题中确定与所述目标问题对应的相似问题;
获取单元,用于当所述相似问题与所述目标问题之间的相似度满足预设相似条件时,获取知识映射关系集合,所述知识映射关系集合包括候选问题和预设答案信息之间的映射关系;
第一答案单元,用于根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案,向所述目标对象反馈对于所述目标问题的所述目标答案;
第二答案单元,用于当所述相似问题与所述目标问题之间的相似度不满足预设相似条件时,通过知识问答模型对所述目标问题进行答案预测处理,得到所述目标问题对应的答案,并向所述目标对象反馈对于所述目标问题的答案。
可选的,在本申请的一些实施例中,所述候选问题包括数据指标短语和参考查询整句,预设答案信息包括指标描述信息和计算逻辑信息;
所述知识问答装置还包括映射关系建立单元,如下:
所述映射关系建立单元,用于建立数据指标短语与其指标描述信息之间的第一映射关系;确定针对数据指标短语的计算逻辑信息,建立所述数据指标短语和所述计算逻辑信息之间的第二映射关系;建立参考查询整句和所述参考查询整句对应的计算逻辑信息之间的第三映射关系;建立所述参考查询整句与其对应的指标描述信息之间的第四映射关系;根据所述第一映射关系、所述第二映射关系、所述第三映射关系和第四映射关系,确定知识映射关系集合。
可选的,在本申请的一些实施例中,所述确定单元可以包括识别子单元和相似问题确定子单元,如下:
所述识别子单元,用于识别所述目标问题所属的行业类别;并确定预设知识数据库中所述行业类别下的候选问题;
相似问题确定子单元,用于基于所述目标特征信息,从所述行业类别下的候选问题中确定与所述目标问题对应的相似问题。
可选的,在本申请的一些实施例中,所述第一答案单元可以包括答案信息确定子单元和处理子单元,如下:
所述答案信息确定子单元,用于从所述知识映射关系集合中确定所述相似问题对应的目标预设答案信息;
处理子单元,用于当所述目标预设答案信息包含针对所述相似问题的计算逻辑信息时,基于所述计算逻辑信息,对所述目标问题进行处理,得到目标答案。
可选的,在本申请的一些实施例中,所述问题获取单元包括问题推荐子单元和获取子单元,如下:
所述问题推荐子单元,用于基于所述目标对象的行业类别,生成至少一个参考问题,并在内容交互客户端中向所述目标对象进行所述参考问题的推荐;
所述获取子单元,用于基于所述目标对象在所述内容交互客户端中对推荐的所述参考问题的选取操作,获取所述目标对象在所述内容交互客户端当前输入的目标问题。
可选的,在本申请的一些实施例中,所述知识问答装置还包括问题推荐单元,如下:
所述问题推荐单元,用于对所述目标问题进行问题清晰度评估;当评估结果满足预设条件时,向所述目标对象进行参考数据指标下的问题推荐,所述参考数据指标与所述目标问题中包含的数据指标不同;当评估结果不满足预设条件时,向所述目标对象进行目标数据指标下的标准问题推荐,所述目标数据指标与所述目标问题中包含的数据指标关联。
可选的,在本申请的一些实施例中,所述提取单元具体可以用于通过特征提取模型,对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息。
可选的,在本申请的一些实施例中,所述知识问答装置还包括训练单元,所述训练单元用于对特征提取模型进行训练,所述训练单元可以包括样本获取子单元、生成子单元、构建子单元、样本特征提取子单元、距离计算子单元和调整子单元,如下:
所述样本获取子单元,用于获取训练数据,所述训练数据包括多个样本内容;
生成子单元,用于针对每个样本内容,生成所述样本内容的正例对集合,所述正例对集合包括所述样本内容、以及与所述样本内容语义相似的至少一个正例内容;
构建子单元,用于将所述样本内容分别和各个正例内容进行组合,以构建所述样本内容的至少一个正样本对;并基于所述样本内容分别和其他各个样本内容的正例对集合中的内容,构建所述样本内容的至少一个负样本对;
样本特征提取子单元,用于通过预设特征提取模型,分别对所述正样本对和所述负样本对中的内容进行特征提取,得到所述正样本对和所述负样本对中的内容的特征信息;
距离计算子单元,用于根据所述正样本对中各内容的特征信息,计算所述正样本对的特征距离;并根据所述负样本对中内容的特征信息,计算所述负样本对的特征距离;
调整子单元,用于基于所述正样本对的特征距离和所述负样本对的特征距离,对预设特征提取模型的参数进行调整,得到调整后的特征提取模型。
可选的,在本申请的一些实施例中,所述样本内容包括数据指标短语和查询整句;
所述生成子单元具体可以用于分别对所述数据指标短语和所述查询整句进行同义内容生成,得到所述数据指标短语的同义短语、和所述查询整句的同义整句;根据预设维度短语和预设数据指标短语,确定所述查询整句中的非关键词;并对所述查询整句中的非关键词进行替换,得到替换后的查询整句;获取所述数据指标短语的描述信息;基于所述数据指标短语的同义短语和描述信息,确定所述数据指标短语的正例内容;并基于所述查询整句的同义整句和替换后的查询整句,确定所述查询整句的正例内容。
可选的,在本申请的一些实施例中,所述调整子单元具体可以用于将各个负样本对的特征距离进行融合,得到融合后的负样本对距离;针对每个正样本对,基于融合后的负样本对距离和所述正样本对的特征距离,确定所述正样本对的子损失函数;将各个正样本对的子损失函数进行融合,得到总损失函数;基于所述总损失函数,对预设特征提取模型的参数进行调整,得到调整后的特征提取模型。
本申请实施例中,术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分,并与其他相关部分一起工作以实现预定目标,并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的,一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外,每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。
本申请实施例提供的一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令,以执行本申请实施例提供的知识问答方法中的步骤。
本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的知识问答方法中的步骤。
此外,本申请实施例还提供一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现本申请实施例提供的知识问答方法中的步骤。
本申请实施例提供了一种知识问答方法以及相关设备,可以获取目标对象在内容交互客户端当前输入的目标问题;对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息;基于所述目标特征信息,从预设知识数据库的候选问题中确定与所述目标问题对应的相似问题;当所述相似问题与所述目标问题之间的相似度满足预设相似条件时,获取知识映射关系集合,所述知识映射关系集合包括候选问题和预设答案信息之间的映射关系;根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案,向所述目标对象反馈对于所述目标问题的所述目标答案;当所述相似问题与所述目标问题之间的相似度不满足预设相似条件时,通过知识问答模型对所述目标问题进行答案预测处理,得到所述目标问题对应的答案,并向所述目标对象反馈对于所述目标问题的答案。
本申请可以先对目标问题与知识数据库中的候选问题进行匹配,当匹配到的相似问题满足预设相似条件时,能够通过知识映射关系集合来获取相应答案,否则通过知识问答模型进行答案预测,这样能够提高知识检索的精确度,从而提高知识问答的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本申请实施例提供的知识问答方法的场景示意图;
图1b是本申请实施例提供的知识问答方法的流程图;
图1c是本申请实施例提供的知识问答方法的页面示意图;
图1d是本申请实施例提供的知识问答方法的另一流程图;
图1e是本申请实施例提供的知识问答方法的说明图;
图1f是本申请实施例提供的知识问答方法的另一说明图;
图1g是本申请实施例提供的知识问答方法的另一流程图;
图2是本申请实施例提供的知识问答方法的另一流程图;
图3是本申请实施例提供的知识问答装置的结构示意图;
图4是本申请实施例提供的电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种知识问答方法以及相关设备,相关设备可以包括知识问答装置、电子设备、计算机可读存储介质和计算机程序产品。该知识问答装置具体可以集成在电子设备中,该电子设备可以是终端或服务器等设备。
可以理解的是,本实施例的知识问答方法可以是在终端上执行的,也可以是在服务器上执行,还可以由终端和服务器共同执行的。以上举例不应理解为对本申请的限制。
如图1a所示,以终端和服务器共同执行知识问答方法为例。本申请实施例提供的知识问答系统包括终端10和服务器11等;终端10与服务器11之间通过网络连接,比如,通过有线或无线网络连接等,其中,知识问答装置可以集成在服务器中。
其中,服务器11,可以用于:接收终端10发送的目标问题;对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息;基于所述目标特征信息,从预设知识数据库的候选问题中确定与所述目标问题对应的相似问题;当所述相似问题与所述目标问题之间的相似度满足预设相似条件时,获取知识映射关系集合,所述知识映射关系集合包括候选问题和预设答案信息之间的映射关系;根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案,向所述目标对象反馈对于所述目标问题的所述目标答案;当所述相似问题与所述目标问题之间的相似度不满足预设相似条件时,通过知识问答模型对所述目标问题进行答案预测处理,得到所述目标问题对应的答案,并向所述目标对象反馈对于所述目标问题的答案。其中,服务器11可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
其中,终端10,可以用于:接收目标对象在内容交互客户端当前输入的目标问题,将所述目标问题发送给服务器11,以使得服务器11获取所述目标问题相应的答案。终端10还可以接收服务器11发送的答案,并在内容交互客户端的相关页面上显示。其中,终端10可以包括手机、车载终端、飞行器、平板电脑、笔记本电脑、或个人计算机(PC,PersonalComputer)等。终端10上还可以设置客户端,该客户端可以是应用程序客户端或浏览器客户端等等。
本申请实施例提供的知识问答方法涉及人工智能领域中的自然语言处理技术和机器学习方向。
其中,人工智能(Artificial Intelligence, AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中,预训练模型又称大模型、基础模型,经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,自然语言处理(Nature Language processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
其中,机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
以下分别进行详细说明。需说明的是,以下实施例的描述顺序不作为对实施例优选顺序的限定。
本实施例将从知识问答装置的角度进行描述,该知识问答装置具体可以集成在电子设备中,该电子设备可以是服务器或终端等设备。
可以理解的是,在本申请的具体实施方式中,涉及到用户信息等相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
如图1b所示,该知识问答方法的具体流程可以如下:
101、获取目标对象在内容交互客户端当前输入的目标问题。
其中,目标对象为提问的用户。目标问题具体可以是目标对象在内容交互客户端的问题输入框中输入的问题,也可以是目标对象在内容交互客户端的问题推荐区域中选取的推荐问题,问题推荐区域可以包括一个或多个推荐问题。内容交互客户端基于目标对象输入的问题或选取的推荐问题,可以向目标对象反馈相应的内容。
其中,内容交互客户端可以是问答应用程序客户端,也可以是问答浏览器客户端。其中,问答应用程序客户端可以包括问答小程序。具体地,内容交互客户端也即AI(Artificial Intelligence,人工智能)助手。
可选地,本实施例中,步骤“获取目标对象在内容交互客户端当前输入的目标问题”,可以包括:
基于所述目标对象的行业类别,生成至少一个参考问题,并在内容交互客户端中向所述目标对象进行所述参考问题的推荐;
基于所述目标对象在所述内容交互客户端中对推荐的所述参考问题的选取操作,获取所述目标对象在所述内容交互客户端当前输入的目标问题。
其中,目标对象的行业类别可以是目标对象的账号所属企业的相关行业信息等。本实施例可以从候选问题中确定出与目标对象的行业类别相关的参考问题,这里的候选问题具体可以是数据分析领域的各种数据指标和经典的查询整句。
其中,参考问题可以在内容交互客户端的问题推荐区域中展示,被选取的参考问题为目标对象输入的目标问题。对内容交互客户端中对推荐的参考问题的选取操作具体可以是对参考问题的点击操作或者滑动操作等。
其中,本实施例可以在目标对象输入目标问题前,进行冷启动的问题推荐。冷启动的问题推荐是用户没有任何输入前的问题推荐,具体地,可以根据用户账号所属企业相关行业信息,进行预置问题的推荐。
可选地,本实施例中,步骤“获取目标对象在内容交互客户端当前输入的目标问题”之后,还可以包括:
对所述目标问题进行问题清晰度评估;
当评估结果满足预设条件时,向所述目标对象进行参考数据指标下的问题推荐,所述参考数据指标与所述目标问题中包含的数据指标不同;
当评估结果不满足预设条件时,向所述目标对象进行目标数据指标下的标准问题推荐,所述目标数据指标与所述目标问题中包含的数据指标关联。
其中,通过问题清晰度评估,可以确定目标对象的提问是否明确,进而根据目标对象的提问情况进行相应问题推荐。具体地,可以对目标问题进行各类关键信息检测,根据目标问题缺少的关键信息,来确定目标问题的清晰度。其中,关键信息可以包括时间、数据指标等。
其中,预设条件可以根据实际情况进行设置,本实施例对此不作限制。比如,预设条件可以是目标问题不缺少关键信息。
其中,目标数据指标与目标问题中包含的数据指标关联,具体可以是目标数据指标与目标问题中包含的数据指标近似或相同。
具体地,目标问题为关于数据指标A的问题,比如,数据指标A可以是留存率。若用户输入的目标问题为“留存率为多少”,对该目标问题进行关键信息检测,识别到该目标问题缺少时间以及主语,则可以向用户进行相同或近似指标的明确推荐,比如,可以向用户推荐问题“6日内的新用户留存率情况”。若用户输入的目标问题为“上个月的新用户留存率为多少”,通过评估,该目标问题清晰度满足预设条件,则可以向用户推荐不同指标的近似提问,如可以向用户推荐问题“上个月的新增用户数”。
如图1c所示,展示了基于数据分析AI助手产品场景的GUI(Graphics UserInterface,图形用户界面)交互。具体地,用户输入前,界面展示冷启动推荐问题,可点选问题生成对应的答案,这样可以AI助手的用户引导与回答效果。用户在输入框内,输入问题,系统会返回相应的回答,获取数据,生成相应的答案,并生成推荐问题,这里的答案可以结合图表进行呈现,参考图1c中,答案为“6日内的新用户留存率呈先上升后下降,最后平稳的状态”,相应的图表可以更精确更直观地展示每日的留存率变化。可以理解的是,答案也可以用其他方式呈现,本实施例对此不作限制。
具体地,本实施例中,问题推荐可以分为两部分,一是冷启动的问题推荐,二是用户输入后的相似提问/成功用例的推荐,用户提问后会根据用户提问的明确与否,分别进行推荐。如图1d所示,展示了问题推荐的流程;具体可以先判断用户状态——是否已在问题输入框中输入问题,若否,可以根据其行业类别,从相应的预置行业数据库中选取行业相关问题进行推荐;若用户已在问题输入框中输入目标问题,则可以判断该目标问题是否提问明确,若提问明确,可以向用户进行不同指标的近似提问的推荐;若提问不明确,则可以向用户进行近似指标的明确推荐。
其中,用户是否提问明确,可以根据用户的提问是否缺少关键信息来确定,如是否缺少时间等,若不明确,系统会提供相关指标的标准提问形式,以供用户理解提问方法;若用户的提问明确,可执行计算逻辑,生成相应答案,且系统会提供其他指标的问题推荐。
其中,AI助手中的问题推荐可以提升用户体验的便利性,帮助用户理清使用方法和问题的形式,更好的服务用户。
需要说明的是,本实施例对问题推荐与答案反馈的执行顺序不作限制,也就是说,问题推荐可以在答案反馈之前,也可以在答案反馈之后,还可以和答案反馈是同时进行的。
102、对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息。
其中,对目标问题进行特征提取,具体为对目标问题进行向量化处理,得到的目标问题对应的目标特征信息为目标问题的语义向量。
可选地,本实施例中,步骤“对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息”,可以包括:
通过特征提取模型,对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息。
其中,特征提取模型具体可以是语义向量化模型,比如,该语义向量化模型可以是如BERT(Bidirectional Encoder Representations from Transformers,双向编码器表示模型)、LSTM(Long Short-Term Memory,长短期记忆网络)等任意能将文本短语、句子转化为向量的深度学习模型。
其中,该语义向量化模型具体也即文本向量化模型。语义向量化模型是进行知识存储、检索以及问题推荐的基础模型。语义向量化模型是将一段文字(短语、整句)转化为一个固定长度向量的模型,具体地,假设文字输入为Q,则经过语义向量化模型(M)的后得到的向量为E(E为n维向量),E即特征信息,如下式子(1)所示:
(1)
其中,模型M可以是任意输入文本输出向量的模型,如LSTM,BERT等模型。
可选地,本实施例中,步骤“通过特征提取模型,对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息”之前,还可以包括:
获取训练数据,所述训练数据包括多个样本内容;
针对每个样本内容,生成所述样本内容的正例对集合,所述正例对集合包括所述样本内容、以及与所述样本内容语义相似的至少一个正例内容;
将所述样本内容分别和各个正例内容进行组合,以构建所述样本内容的至少一个正样本对;并基于所述样本内容分别和其他各个样本内容的正例对集合中的内容,构建所述样本内容的至少一个负样本对;
通过预设特征提取模型,分别对所述正样本对和所述负样本对中的内容进行特征提取,得到所述正样本对和所述负样本对中的内容的特征信息;
根据所述正样本对中各内容的特征信息,计算所述正样本对的特征距离;并根据所述负样本对中内容的特征信息,计算所述负样本对的特征距离;
基于所述正样本对的特征距离和所述负样本对的特征距离,对预设特征提取模型的参数进行调整,得到调整后的特征提取模型。
其中,具体地,样本内容A的正样本对可以包括样本内容A和该样本内容A的一个正例内容。样本内容A的负样本对可以包括样本内容A和样本内容B的正例对集合中的任一内容,其中,样本内容B可以为除样本内容A之外的样本内容。样本内容B的正例对集合中的任一内容可以是样本内容B或者样本内容B的任一正例内容。
其中,正样本对的特征距离可以是正样本对中两个内容之间的特征向量距离,负样本对的特征距离可以是负样本对中两个内容之间的特征向量距离。
可选地,本实施例中,所述样本内容包括数据指标短语和查询整句;
步骤“生成所述样本内容的正例对集合”,可以包括:
分别对所述数据指标短语和所述查询整句进行同义内容生成,得到所述数据指标短语的同义短语、和所述查询整句的同义整句;
根据预设维度短语和预设数据指标短语,确定所述查询整句中的非关键词;并对所述查询整句中的非关键词进行替换,得到替换后的查询整句;
获取所述数据指标短语的描述信息;
基于所述数据指标短语的同义短语和描述信息,确定所述数据指标短语的正例内容;并基于所述查询整句的同义整句和替换后的查询整句,确定所述查询整句的正例内容。
其中,可以通过大语言模型进行同义内容的生成。具体地,可以构造针对数据指标短语或查询整句的内容生成提示信息,通过大语言模型基于所述内容生成提示信息,生成对应的同义内容。例如,该提示信息可以是“请根据xx指标/整句给出同义表达”等。
一些实施例中,查询整句中的非关键词可以是除预设维度短语和预设数据指标短语之外的短语。非关键词替换,可以是同类型词语的替换,比如,某个非关键词为时间,则可以将该非关键词替换为另一个时间;又比如,某个非关键词为地点,则可以将该非关键词替换为另一个地点;对于介词之类的非关键词,也可以将其直接删除。
其中,数据指标短语的描述信息可以是数据指标短语的定义。
其中,本实施例中,通过同义内容的生成、非关键词替换、以及描述信息,可以实现对样本内容的知识泛化。可以将数据指标短语的同义短语和定义作为其正例内容,将查询整句的同义整句和替换后的查询整句可以作为其正例内容。
本申请可以通过以下方法进行知识泛化,第一,使用大语言模型进行知识的泛化,通过构造合适的提示信息,可以利用大语言模型分别对指标短语和查询整句进行同义内容生成。第二,非指标维度替换进行知识泛化。具体地,数据分析领域中,指标和维度是知识存储的关键信息,将非指标维度之外的非关键词,进行合理替换,可以增加一类知识的泛化性。其中,查询整句中的多种无关元素均可进行替换,如时间、地点、介词、定语等与关键信息无关的部分。需要说明的是,也可以通过其他方法进行知识泛化,本实施例对此不作限制。
具体地,数据分析领域中,指标和维度是重要的两个内容。指标即反应某方面发展要求的绝对数字或升降百分比。依据企业商业模式的不同,会有多种多样的指标,如:活跃用户数、订单转化率、新用户留存率、销售毛利率等。维度即某些事件、实体的属性,如对象属性包含用户所在地区等,订单的属性包含订单时间、单价、消费店名等。指标和维度的组合构成了多种多样的用户需求。
其中,指标为用来衡量、评估或描述某个特定方面或目标的度量标准或量化指标,它们提供了对特定现象、行为或结果的定量或定性度量,以便进行比较、分析和监测。指标可以用于衡量各种领域的情况,如业绩评估、市场分析、健康指标、经济指标等。
其中,维度是用于对数据进行分类、分组或描述的属性或特征,它提供了对数据进行不同视角和细分的方式,使用户能够更好地理解和分析数据。维度通常用于将数据按照某种共同特征进行归类,以便进行比较、筛选和汇总。
具体地,根据用户需求,可以将领域知识分为两类,指标短语(即数据指标短语)和查询整句。指标短语是指一些维度和指标的组合短语,如:A地的活跃用户数、订单转化率、7日新用户留存率等。查询整句相对比较复杂,如查询整句可以是:2023年10月的A地的活跃用户数和B地的活跃用户数的对比,过去1个月内,7日新用户留存率的变化趋势怎么样。
具体地,本申请中,数据分析领域的知识存储、检索和问题推荐都是以领域知识的语义向量化模型为基础,进而延伸出知识的向量化存储、基于模型的检索以及相关问题的推荐。
语义向量化模型的构建的主要数据为语义相似短语/整句的正负样本对构造。在这里,正样本对为语义相似的短语/整句对,根据知识泛化的结果,正样本对可以由三部分构成:1)大语言模型生成的同义词/句对。2)非关键信息替换所得同义词/句对。3)指标及其定义所形成的词/句对。正样本对构成的不同集合之间互为语义不相近句对,互为负样本对,如图1e所示,展示了语义向量化模型的正负例数据构建。
其中,样本内容为整句1,通过大模型生成可得到其同义内容——正例1,通过非关键词替换可得到正例2,通过整句1的定义信息可得到正例3,整句1、正例1、正例2和正例3构成了整句1的正例对集合1,整句1和正例1构成正样本对1,整句1和正例2构成正样本对2,整句1和正例3构成正样本对3。对于负样本对的构造,可以分别从两个正例对集合中各选取一个内容,从而组成负样本对;一个示例中,存在n个正例对集合,分别记为集合1、集合2、集合3、…、集合n,集合1也即上述正例对集合1,则集合1中的整句1可以和集合2中的任一内容组成负样本对1(即负例1),集合1中的整句1可以和集合3中的任一内容组成负样本对2(即负例2),…,集合1中的整句1可以和集合n中的任一内容组成负样本对n-1(即负例n-1),从而得到n-1个负样本对。
可选地,本实施例中,步骤“基于所述正样本对的特征距离和所述负样本对的特征距离,对预设特征提取模型的参数进行调整,得到调整后的特征提取模型”,可以包括:
将各个负样本对的特征距离进行融合,得到融合后的负样本对距离;
针对每个正样本对,基于融合后的负样本对距离和所述正样本对的特征距离,确定所述正样本对的子损失函数;
将各个正样本对的子损失函数进行融合,得到总损失函数;
基于所述总损失函数,对预设特征提取模型的参数进行调整,得到调整后的特征提取模型。
其中,对各个负样本对的特征距离的融合方式有多种,本实施例对此不作限制。比如,该融合方式可以是加权求和等。
其中,该训练过程是先计算总损失函数,然后,使用反向传播算法对预设特征提取模型的参数进行调整,基于总损失函数,优化预设特征提取模型的参数,使得总损失函数小于预设损失值,得到训练好的特征提取模型。
其中,各个正样本对的子损失函数的融合方式也有多种,比如,可以是加权融合等。
具体地,模型的损失函数(Loss function)通过最小化正样本对间的距离,最大化负样本对间的距离对文本向量化模型进行训练。文本对之间的距离可以使用余弦相似度(Cosine Similarity)进行计算,如下式子(2)所示:
(2)
其中,表示内容/>和内容/>构成的文本对之间的距离,该文本对可以是正样本对,也可以是负样本对,/>表示内容/>中的各个文本单元,/>表示内容/>中的各个文本单元,一个文本单元可以是一个字或一个词。
正样本对的相似度损失函数可以用式子(3)表示:
(3)
其中,为正样本对/>的子损失函数,/>在/>时等于1,其他情况为0。/>是一个人工超参数,用来调整公式效果。m为批次大小,一个批次有多个集合。其中,分母可以包括正样本对和负样本对。
其中,对于一个批次的数据,可以只计算正样本对之间的相似度损失函数之和,即达成最小化正例对距离,最大化负例对距离的效果。最小化正例对之间的损失函数之和,可以最小化分子上的正例对的相似度,最大化分母上的非正例对的相似度。
103、基于所述目标特征信息,从预设知识数据库的候选问题中确定与所述目标问题对应的相似问题。
其中,预设知识数据库可以存储各个候选问题的特征信息,具体可以是候选问题的向量化特征。本实施例中,可以将目标特征信息分别和各个候选问题的特征信息进行相似度的计算,从而根据相似度的大小,从候选问题中选取相似问题。
其中,候选问题具体可以是数据分析领域的各种数据指标短语和经典的查询整句。
可选地,本实施例中,步骤“基于所述目标特征信息,从预设知识数据库的候选问题中确定与所述目标问题对应的相似问题”,可以包括:
识别所述目标问题所属的行业类别;并确定预设知识数据库中所述行业类别下的候选问题;
基于所述目标特征信息,从所述行业类别下的候选问题中确定与所述目标问题对应的相似问题。
其中,可以将目标特征信息分别和该行业类别下的候选问题的特征信息进行相似度计算,从而基于相似度大小确定相似问题。
104、当所述相似问题与所述目标问题之间的相似度满足预设相似条件时,获取知识映射关系集合,所述知识映射关系集合包括候选问题和预设答案信息之间的映射关系。
其中,该预设相似条件可以是相似问题与目标问题之间的相似度大于预设相似度。
其中,预设答案信息可以是直接的答案,也可以是间接的答案。间接的答案可以是计算逻辑信息等,系统可以根据间接答案里蕴含的信息,来获取目标问题最终的答案,并将其反馈给目标对象。而直接的答案可以直接反馈给目标对象。
可选地,本实施例中,所述候选问题包括数据指标短语和参考查询整句,预设答案信息包括指标描述信息和计算逻辑信息;
步骤“获取知识映射关系集合”之前,还可以包括:
建立数据指标短语与其指标描述信息之间的第一映射关系;
确定针对数据指标短语的计算逻辑信息,建立所述数据指标短语和所述计算逻辑信息之间的第二映射关系;
建立参考查询整句和所述参考查询整句对应的计算逻辑信息之间的第三映射关系;
建立所述参考查询整句与其对应的指标描述信息之间的第四映射关系;
根据所述第一映射关系、所述第二映射关系、所述第三映射关系和所述第四映射关系,确定知识映射关系集合。
其中,知识映射关系集合可以是候选问题和预设答案信息二者的关系表。基于候选问题,可以从关系表里查找对应的答案信息。知识映射关系集合可以包括第一映射关系、第二映射关系、第三映射关系和第四映射关系。
其中,数据指标短语的指标描述信息可以是数据指标短语的定义等。数据指标短语对应的计算逻辑信息可以是数据指标短语的具体计算方法。
其中,参考查询整句可以是一些经典的查询整句。参考查询整句对应的计算逻辑信息可以是关于该参考查询整句中相关数据指标的计算逻辑。参考查询整句对应的指标描述信息可以是参考查询整句中包含的数据指标或者相关的数据指标的定义。
具体地,文本向量化模型训练完成之后,即可使用该模型对系统的预置知识进行存储,供用户检索、查阅以及推荐。
具体地,如图1f所示,数据分析的知识可以以问题-答案对构成,进行知识存储的数据分析相关内容可以包含:(1)关键指标及其定义。(2)关键指标及其计算逻辑。(3)典型提问(也即典型的查询整句)及其计算逻辑等。知识的存储可以将问题进行向量化,具体可以通过训练后的文本向量化模型进行向量化,这样方便查找,并构建问题到答案的映射,将映射关系保存到知识存储数据库中,方便查找后对应。
针对AI助手的应用场景,运营人员会搜集相关的指标-定义对,关键指标-计算逻辑对和典型提问-计算逻辑对等,将问题向量化后,存入向量数据库,完成知识的存储。知识存储的整体流程如图1f所示。
105、根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案,向所述目标对象反馈对于所述目标问题的所述目标答案。
其中,可以从知识映射关系集合中查找相似问题对应的答案信息,从而将该答案信息作为目标问题的答案。
可选地,本实施例中,步骤“根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案”,可以包括:
从所述知识映射关系集合中确定所述相似问题对应的目标预设答案信息;
当所述目标预设答案信息包含针对所述相似问题的计算逻辑信息时,基于所述计算逻辑信息,对所述目标问题进行处理,得到目标答案。
其中,该计算逻辑信息可以是对相似问题中相关数据指标的计算逻辑。例如,相似问题中有关于“留存率”的数据指标,计算逻辑信息可以是关于留存率的计算方法。
106、当所述相似问题与所述目标问题之间的相似度不满足预设相似条件时,通过知识问答模型对所述目标问题进行答案预测处理,得到所述目标问题对应的答案,并向所述目标对象反馈对于所述目标问题的答案。
其中,知识问答模型可以是大语言模型,比如可以是GPT(Generative Pre-Trained Transformer,生成式预训练转换器)模型。该知识问答模型可以是训练后的模型。
具体地,本实施例中,对于用户的多种输入,AI助手不仅依靠AI模型的输出,也会依赖于知识检索的内容进行回答。知识检索基于问题向量和知识存储的向量数据库的相似度排序。这里可以使用余弦相似度对问题之间的相似度进行排序。对每个用户输入,选取相似度最高的问题-答案对进行返回。
由于数据分析的行业知识数量巨大,对所有问题进行相似度排序的时间成本不可接受,本实施例可以先对数据分析的知识进行行业分类,对于每个用户输入的目标问题,会首先提取关键词判断行业分类,然后在相关行业知识内部进行相似度排序。
其中,如图1g所示,通过文本向量化模型对目标问题进行特征提取,得到目标问题的目标特征信息(具体即语义向量),将该目标特征信息与预设的知识存储数据库中候选问题的特征信息进行相似度计算,从而根据相似度大小对候选问题进行排序,基于排序结果从候选问题中选取目标问题对应的相似问题。一些实施例中,知识存储数据库中的候选问题可以是按行业分类的,可以先确定目标问题对应的行业信息,从而基于该行业信息将目标问题与相关行业类别下的候选问题进行相似度计算,进而根据相似度大小对该行业类别下的候选问题进行排序,基于排序结果从该行业类别下的候选问题中选取目标问题对应的相似问题。
在检索相似问题的同时,可以将目标问题输入到AI(人工智能)模型中,来预测对应的答案,具体可以通过AI模型直接生成结果,或者通过AI模型确定其计算逻辑,从而根据计算逻辑获取目标问题对应的答案。
在检索得到相似问题后,可以根据相似问题与目标问题的相似度,来判断使用知识存储数据库的结果或者AI模型结果。具体地,若相似问题与目标问题的相似度大于相似度阈值,则使用知识存储数据库的结果,基于知识存储数据库中存储的候选问题与预设答案信息之间的映射关系,确定相似问题对应的答案信息,并检测该答案信息是否含有计算逻辑,若有,则由问答平台计算后返回相应答案,若无计算逻辑,该答案信息为单纯的知识定义,则问答平台可以直接展示该答案信息。若相似问题与目标问题的相似度不大于相似度阈值,则使用AI模型输出的答案信息,同理,确定AI模型输出的答案信息是否含有计算逻辑,若有,则由问答平台计算后返回相应答案,若无计算逻辑,该答案信息为单纯的知识定义,则问答平台可以直接展示该答案信息。上述基于用户输入进行相关性知识检索的整体流程具体如图1g所示。
本申请可以利用数据分析领域知识特点,增强文本向量化模型的数据,提升文本向量化在数据分析领域的效果,从而进行更加精确的知识检索。另外,还可以根据数据分析AI助手的应用需求,构建数据分析领域的知识向量数据库,提升AI助手回答的准确性。而且,本申请还可以根据知识向量数据库和行业分类等数据,对用户推荐提问,提升AI助手的易用性并减小上手难度。
在数据分析领域中,知识的存储、检索和推荐有着与其他领域不同的特性。本申请基于数据分析领域知识的重点不同,提出一套基于数据分析中指标、维度的泛化对领域知识进行存储、检索和推荐的方法。本申请所提供的对数据分析领域的知识相关的处理,包含知识存储、问题检索和推荐,可以与数据分析AI助手进行有机结合,提升知识解释、问题归类、及问题推荐的效果,有利于基于数据分析的AI助手的整体易用性的提升及理解效果的改进,并一定程度上提升回答的准确性,提升了用户体验。
由上可知,本实施例可以获取目标对象在内容交互客户端当前输入的目标问题;对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息;基于所述目标特征信息,从预设知识数据库的候选问题中确定与所述目标问题对应的相似问题;当所述相似问题与所述目标问题之间的相似度满足预设相似条件时,获取知识映射关系集合,所述知识映射关系集合包括候选问题和预设答案信息之间的映射关系;根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案,向所述目标对象反馈对于所述目标问题的所述目标答案;当所述相似问题与所述目标问题之间的相似度不满足预设相似条件时,通过知识问答模型对所述目标问题进行答案预测处理,得到所述目标问题对应的答案,并向所述目标对象反馈对于所述目标问题的答案。
本申请可以先对目标问题与知识数据库中的候选问题进行匹配,当匹配到的相似问题满足预设相似条件时,能够通过知识映射关系集合来获取相应答案,否则通过知识问答模型进行答案预测,这样能够提高知识检索的精确度,从而提高知识问答的准确性。
根据前面实施例所描述的方法,以下将以该知识问答装置具体集成在服务器举例作进一步详细说明。
本申请实施例提供一种知识问答方法,如图2所示,该知识问答方法的具体流程可以如下:
201、服务器获取目标对象在内容交互客户端当前输入的目标问题。
可选地,本实施例中,步骤“获取目标对象在内容交互客户端当前输入的目标问题”,可以包括:
基于所述目标对象的行业类别,生成至少一个参考问题,并在内容交互客户端中向所述目标对象进行所述参考问题的推荐;
基于所述目标对象在所述内容交互客户端中对推荐的所述参考问题的选取操作,获取所述目标对象在所述内容交互客户端当前输入的目标问题。
其中,目标对象的行业类别可以是目标对象的账号所属企业的相关行业信息等。本实施例可以从候选问题中确定出与目标对象的行业类别相关的参考问题,这里的候选问题具体可以是数据分析领域的各种数据指标和经典的查询整句。
其中,本实施例可以在目标对象输入目标问题前,进行冷启动的问题推荐。冷启动的问题推荐是用户没有任何输入前的问题推荐,具体地,可以根据用户账号所属企业相关行业信息,进行预置问题的推荐。
可选地,本实施例中,步骤“获取目标对象在内容交互客户端当前输入的目标问题”之后,还可以包括:
对所述目标问题进行问题清晰度评估;
当评估结果满足预设条件时,向所述目标对象进行参考数据指标下的问题推荐,所述参考数据指标与所述目标问题中包含的数据指标不同;
当评估结果不满足预设条件时,向所述目标对象进行目标数据指标下的标准问题推荐,所述目标数据指标与所述目标问题中包含的数据指标关联。
其中,通过问题清晰度评估,可以确定目标对象的提问是否明确,进而根据目标对象的提问情况进行相应问题推荐。具体地,可以对目标问题进行各类关键信息检测,根据目标问题缺少的关键信息,来确定目标问题的清晰度。其中,关键信息可以包括时间、数据指标等。
其中,预设条件可以根据实际情况进行设置,本实施例对此不作限制。比如,预设条件可以是目标问题不缺少关键信息。
其中,目标数据指标与目标问题中包含的数据指标关联,具体可以是目标数据指标与目标问题中包含的数据指标近似或相同。
202、服务器对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息。
其中,对目标问题进行特征提取,具体为对目标问题进行向量化处理,得到的目标问题对应的目标特征信息为目标问题的语义向量。
可选地,本实施例中,步骤“对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息”,可以包括:
通过特征提取模型,对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息。
其中,特征提取模型具体可以是语义向量化模型,比如,该语义向量化模型可以是如BERT(Bidirectional Encoder Representations from Transformers,双向编码器表示模型)、LSTM(Long Short-Term Memory,长短期记忆网络)等任意能将文本短语、句子转化为向量的深度学习模型。
可选地,本实施例中,步骤“通过特征提取模型,对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息”之前,还可以包括:
获取训练数据,所述训练数据包括多个样本内容;
针对每个样本内容,生成所述样本内容的正例对集合,所述正例对集合包括所述样本内容、以及与所述样本内容语义相似的至少一个正例内容;
将所述样本内容分别和各个正例内容进行组合,以构建所述样本内容的至少一个正样本对;并基于所述样本内容分别和其他各个样本内容的正例对集合中的内容,构建所述样本内容的至少一个负样本对;
通过预设特征提取模型,分别对所述正样本对和所述负样本对中的内容进行特征提取,得到所述正样本对和所述负样本对中的内容的特征信息;
根据所述正样本对中各内容的特征信息,计算所述正样本对的特征距离;并根据所述负样本对中内容的特征信息,计算所述负样本对的特征距离;
基于所述正样本对的特征距离和所述负样本对的特征距离,对预设特征提取模型的参数进行调整,得到调整后的特征提取模型。
其中,具体地,样本内容A的正样本对可以包括样本内容A和该样本内容A的一个正例内容。样本内容A的负样本对可以包括样本内容A和样本内容B的正例对集合中的任一内容,其中,样本内容B可以为除样本内容A之外的样本内容。样本内容B的正例对集合中的任一内容可以是样本内容B或者样本内容B的任一正例内容。
可选地,本实施例中,所述样本内容包括数据指标短语和查询整句;
步骤“生成所述样本内容的正例对集合”,可以包括:
分别对所述数据指标短语和所述查询整句进行同义内容生成,得到所述数据指标短语的同义短语、和所述查询整句的同义整句;
根据预设维度短语和预设数据指标短语,确定所述查询整句中的非关键词;并对所述查询整句中的非关键词进行替换,得到替换后的查询整句;
获取所述数据指标短语的描述信息;
基于所述数据指标短语的同义短语和描述信息,确定所述数据指标短语的正例内容;并基于所述查询整句的同义整句和替换后的查询整句,确定所述查询整句的正例内容。
其中,可以通过大语言模型进行同义内容的生成。具体地,可以构造针对数据指标短语或查询整句的内容生成提示信息,通过大语言模型基于所述内容生成提示信息,生成对应的同义内容。例如,该提示信息可以是“请根据xx指标/整句给出同义表达”等。
一些实施例中,查询整句中的非关键词可以是除预设维度短语和预设数据指标短语之外的短语。非关键词替换,可以是同类型词语的替换,比如,某个非关键词为时间,则可以将该非关键词替换为另一个时间;又比如,某个非关键词为地点,则可以将该非关键词替换为另一个地点;对于介词之类的非关键词,也可以将其直接删除。
203、服务器识别所述目标问题所属的行业类别;并确定预设知识数据库中所述行业类别下的候选问题。
204、服务器基于所述目标特征信息,从所述行业类别下的候选问题中确定与所述目标问题对应的相似问题。
其中,可以将目标特征信息分别和该行业类别下的候选问题的特征信息进行相似度计算,从而确定相似问题。
205、当所述相似问题与所述目标问题之间的相似度满足预设相似条件时,服务器获取知识映射关系集合,所述知识映射关系集合包括候选问题和预设答案信息之间的映射关系。
其中,该预设相似条件可以是相似问题与目标问题之间的相似度大于预设相似度。
可选地,本实施例中,所述候选问题包括数据指标短语和参考查询整句,预设答案信息包括指标描述信息和计算逻辑信息;
步骤“获取知识映射关系集合”之前,还可以包括:
建立数据指标短语与其指标描述信息之间的第一映射关系;
确定针对数据指标短语的计算逻辑信息,建立所述数据指标短语和所述计算逻辑信息之间的第二映射关系;
建立参考查询整句和所述参考查询整句对应的计算逻辑信息之间的第三映射关系;
建立所述参考查询整句与其对应的指标描述信息之间的第四映射关系;
根据所述第一映射关系、所述第二映射关系、所述第三映射关系和所述第四映射关系,确定知识映射关系集合。
206、服务器根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案,向所述目标对象反馈对于所述目标问题的所述目标答案。
其中,可以从知识映射关系集合中查找相似问题对应的答案信息,从而将该答案信息作为目标问题的答案。
可选地,本实施例中,步骤“根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案”,可以包括:
从所述知识映射关系集合中确定所述相似问题对应的目标预设答案信息;
当所述目标预设答案信息包含针对所述相似问题的计算逻辑信息时,基于所述计算逻辑信息,对所述目标问题进行处理,得到目标答案。
其中,该计算逻辑信息可以是对相似问题中相关数据指标的计算逻辑。例如,相似问题中有关于“留存率”的数据指标,计算逻辑信息可以是关于留存率的计算方法。
207、当所述相似问题与所述目标问题之间的相似度不满足预设相似条件时,服务器通过知识问答模型对所述目标问题进行答案预测处理,得到所述目标问题对应的答案,并向所述目标对象反馈对于所述目标问题的答案。
本申请可以利用数据分析领域知识特点,增强文本向量化模型的数据,提升文本向量化在数据分析领域的效果,从而进行更加精确的知识检索。另外,还可以根据数据分析AI助手的应用需求,构建数据分析领域的知识向量数据库,提升AI助手回答的准确性。而且,本申请还可以根据知识向量数据库和用户行业分类等数据,对用户推荐提问,提升AI助手的易用性并减小上手难度。
由上可知,本实施例可以通过服务器获取目标对象在内容交互客户端当前输入的目标问题;对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息;识别所述目标问题所属的行业类别;并确定预设知识数据库中所述行业类别下的候选问题;基于所述目标特征信息,从所述行业类别下的候选问题中确定与所述目标问题对应的相似问题;当所述相似问题与所述目标问题之间的相似度满足预设相似条件时,获取知识映射关系集合,所述知识映射关系集合包括候选问题和预设答案信息之间的映射关系;根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案,向所述目标对象反馈对于所述目标问题的所述目标答案;当所述相似问题与所述目标问题之间的相似度不满足预设相似条件时,通过知识问答模型对所述目标问题进行答案预测处理,得到所述目标问题对应的答案,并向所述目标对象反馈对于所述目标问题的答案。
本申请可以先对目标问题与知识数据库中的候选问题进行匹配,当匹配到的相似问题满足预设相似条件时,能够通过知识映射关系集合来获取相应答案,否则通过知识问答模型进行答案预测,这样能够提高知识检索的精确度,从而提高知识问答的准确性。
为了更好地实施以上方法,本申请实施例还提供一种知识问答装置,如图3所示,该知识问答装置可以包括问题获取单元301、提取单元302、确定单元303、获取单元304、第一答案单元305以及第二答案单元306,如下:
(1)问题获取单元301;
问题获取单元,用于获取目标对象在内容交互客户端当前输入的目标问题。
(2)提取单元302;
提取单元,用于对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息。
(3)确定单元303;
确定单元,用于基于所述目标特征信息,从预设知识数据库的候选问题中确定与所述目标问题对应的相似问题。
可选的,在本申请的一些实施例中,所述确定单元可以包括识别子单元和相似问题确定子单元,如下:
所述识别子单元,用于识别所述目标问题所属的行业类别;并确定预设知识数据库中所述行业类别下的候选问题;
相似问题确定子单元,用于基于所述目标特征信息,从所述行业类别下的候选问题中确定与所述目标问题对应的相似问题。
(4)获取单元304;
获取单元,用于当所述相似问题与所述目标问题之间的相似度满足预设相似条件时,获取知识映射关系集合,所述知识映射关系集合包括候选问题和预设答案信息之间的映射关系。
可选的,在本申请的一些实施例中,所述候选问题包括数据指标短语和参考查询整句,预设答案信息包括指标描述信息和计算逻辑信息;
所述知识问答装置还包括映射关系建立单元,如下:
所述映射关系建立单元,用于建立数据指标短语与其指标描述信息之间的第一映射关系;确定针对数据指标短语的计算逻辑信息,建立所述数据指标短语和所述计算逻辑信息之间的第二映射关系;建立参考查询整句和所述参考查询整句对应的计算逻辑信息之间的第三映射关系;建立所述参考查询整句与其对应的指标描述信息之间的第四映射关系;根据所述第一映射关系、所述第二映射关系、所述第三映射关系和第四映射关系,确定知识映射关系集合。
(5)第一答案单元305;
第一答案单元,用于根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案,向所述目标对象反馈对于所述目标问题的所述目标答案。
可选的,在本申请的一些实施例中,所述第一答案单元可以包括答案信息确定子单元和处理子单元,如下:
所述答案信息确定子单元,用于从所述知识映射关系集合中确定所述相似问题对应的目标预设答案信息;
处理子单元,用于当所述目标预设答案信息包含针对所述相似问题的计算逻辑信息时,基于所述计算逻辑信息,对所述目标问题进行处理,得到目标答案。
(6)第二答案单元306;
第二答案单元,用于当所述相似问题与所述目标问题之间的相似度不满足预设相似条件时,通过知识问答模型对所述目标问题进行答案预测处理,得到所述目标问题对应的答案,并向所述目标对象反馈对于所述目标问题的答案。
可选的,在本申请的一些实施例中,所述问题获取单元包括问题推荐子单元和获取子单元,如下:
所述问题推荐子单元,用于基于所述目标对象的行业类别,生成至少一个参考问题,并在内容交互客户端中向所述目标对象进行所述参考问题的推荐;
所述获取子单元,用于基于所述目标对象在所述内容交互客户端中对推荐的所述参考问题的选取操作,获取所述目标对象在所述内容交互客户端当前输入的目标问题。
可选的,在本申请的一些实施例中,所述知识问答装置还包括问题推荐单元,如下:
所述问题推荐单元,用于对所述目标问题进行问题清晰度评估;当评估结果满足预设条件时,向所述目标对象进行参考数据指标下的问题推荐,所述参考数据指标与所述目标问题中包含的数据指标不同;当评估结果不满足预设条件时,向所述目标对象进行目标数据指标下的标准问题推荐,所述目标数据指标与所述目标问题中包含的数据指标关联。
可选的,在本申请的一些实施例中,所述提取单元具体可以用于通过特征提取模型,对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息。
可选的,在本申请的一些实施例中,所述知识问答装置还包括训练单元,所述训练单元用于对特征提取模型进行训练,所述训练单元可以包括样本获取子单元、生成子单元、构建子单元、样本特征提取子单元、距离计算子单元和调整子单元,如下:
所述样本获取子单元,用于获取训练数据,所述训练数据包括多个样本内容;
生成子单元,用于针对每个样本内容,生成所述样本内容的正例对集合,所述正例对集合包括所述样本内容、以及与所述样本内容语义相似的至少一个正例内容;
构建子单元,用于将所述样本内容分别和各个正例内容进行组合,以构建所述样本内容的至少一个正样本对;并基于所述样本内容分别和其他各个样本内容的正例对集合中的内容,构建所述样本内容的至少一个负样本对;
样本特征提取子单元,用于通过预设特征提取模型,分别对所述正样本对和所述负样本对中的内容进行特征提取,得到所述正样本对和所述负样本对中的内容的特征信息;
距离计算子单元,用于根据所述正样本对中各内容的特征信息,计算所述正样本对的特征距离;并根据所述负样本对中内容的特征信息,计算所述负样本对的特征距离;
调整子单元,用于基于所述正样本对的特征距离和所述负样本对的特征距离,对预设特征提取模型的参数进行调整,得到调整后的特征提取模型。
可选的,在本申请的一些实施例中,所述样本内容包括数据指标短语和查询整句;
所述生成子单元具体可以用于分别对所述数据指标短语和所述查询整句进行同义内容生成,得到所述数据指标短语的同义短语、和所述查询整句的同义整句;根据预设维度短语和预设数据指标短语,确定所述查询整句中的非关键词;并对所述查询整句中的非关键词进行替换,得到替换后的查询整句;获取所述数据指标短语的描述信息;基于所述数据指标短语的同义短语和描述信息,确定所述数据指标短语的正例内容;并基于所述查询整句的同义整句和替换后的查询整句,确定所述查询整句的正例内容。
可选的,在本申请的一些实施例中,所述调整子单元具体可以用于将各个负样本对的特征距离进行融合,得到融合后的负样本对距离;针对每个正样本对,基于融合后的负样本对距离和所述正样本对的特征距离,确定所述正样本对的子损失函数;将各个正样本对的子损失函数进行融合,得到总损失函数;基于所述总损失函数,对预设特征提取模型的参数进行调整,得到调整后的特征提取模型。
由上可知,本实施例可以由问题获取单元301获取目标对象在内容交互客户端当前输入的目标问题;通过提取单元302对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息;通过确定单元303基于所述目标特征信息,从预设知识数据库的候选问题中确定与所述目标问题对应的相似问题;当所述相似问题与所述目标问题之间的相似度满足预设相似条件时,由获取单元304获取知识映射关系集合,所述知识映射关系集合包括候选问题和预设答案信息之间的映射关系;通过第一答案单元305根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案,向所述目标对象反馈对于所述目标问题的所述目标答案;由第二答案单元306当所述相似问题与所述目标问题之间的相似度不满足预设相似条件时,通过知识问答模型对所述目标问题进行答案预测处理,得到所述目标问题对应的答案,并向所述目标对象反馈对于所述目标问题的答案。
本申请可以先对目标问题与知识数据库中的候选问题进行匹配,当匹配到的相似问题满足预设相似条件时,能够通过知识映射关系集合来获取相应答案,否则通过知识问答模型进行答案预测,这样能够提高知识检索的精确度,从而提高知识问答的准确性。
本申请实施例还提供一种电子设备,如图4所示,其示出了本申请实施例所涉及的电子设备的结构示意图,该电子设备可以是终端或者服务器等,具体来讲:
该电子设备可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图4中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
处理器401是该电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行电子设备的各种功能和处理数据。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
电子设备还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该电子设备还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,该电子设备还可以包括显示单元等,在此不再赘述。具体在本实施例中,电子设备中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取目标对象在内容交互客户端当前输入的目标问题;对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息;基于所述目标特征信息,从预设知识数据库的候选问题中确定与所述目标问题对应的相似问题;当所述相似问题与所述目标问题之间的相似度满足预设相似条件时,获取知识映射关系集合,所述知识映射关系集合包括候选问题和预设答案信息之间的映射关系;根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案,向所述目标对象反馈对于所述目标问题的所述目标答案;当所述相似问题与所述目标问题之间的相似度不满足预设相似条件时,通过知识问答模型对所述目标问题进行答案预测处理,得到所述目标问题对应的答案,并向所述目标对象反馈对于所述目标问题的答案。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
由上可知,本实施例可以获取目标对象在内容交互客户端当前输入的目标问题;对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息;基于所述目标特征信息,从预设知识数据库的候选问题中确定与所述目标问题对应的相似问题;当所述相似问题与所述目标问题之间的相似度满足预设相似条件时,获取知识映射关系集合,所述知识映射关系集合包括候选问题和预设答案信息之间的映射关系;根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案,向所述目标对象反馈对于所述目标问题的所述目标答案;当所述相似问题与所述目标问题之间的相似度不满足预设相似条件时,通过知识问答模型对所述目标问题进行答案预测处理,得到所述目标问题对应的答案,并向所述目标对象反馈对于所述目标问题的答案。
本申请可以先对目标问题与知识数据库中的候选问题进行匹配,当匹配到的相似问题满足预设相似条件时,能够通过知识映射关系集合来获取相应答案,否则通过知识问答模型进行答案预测,这样能够提高知识检索的精确度,从而提高知识问答的准确性。
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种知识问答方法中的步骤。例如,该指令可以执行如下步骤:
获取目标对象在内容交互客户端当前输入的目标问题;对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息;基于所述目标特征信息,从预设知识数据库的候选问题中确定与所述目标问题对应的相似问题;当所述相似问题与所述目标问题之间的相似度满足预设相似条件时,获取知识映射关系集合,所述知识映射关系集合包括候选问题和预设答案信息之间的映射关系;根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案,向所述目标对象反馈对于所述目标问题的所述目标答案;当所述相似问题与所述目标问题之间的相似度不满足预设相似条件时,通过知识问答模型对所述目标问题进行答案预测处理,得到所述目标问题对应的答案,并向所述目标对象反馈对于所述目标问题的答案。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该计算机可读存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该计算机可读存储介质中所存储的指令,可以执行本申请实施例所提供的任一种知识问答方法中的步骤,因此,可以实现本申请实施例所提供的任一种知识问答方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述知识问答方面的各种可选实现方式中提供的方法。
以上对本申请实施例所提供的一种知识问答方法以及相关设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (13)

1.一种知识问答方法,其特征在于,包括:
获取目标对象在内容交互客户端当前输入的目标问题;
对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息;
基于所述目标特征信息,从预设知识数据库的候选问题中确定与所述目标问题对应的相似问题;
当所述相似问题与所述目标问题之间的相似度满足预设相似条件时,获取知识映射关系集合,所述知识映射关系集合包括候选问题和预设答案信息之间的映射关系;
根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案,向所述目标对象反馈对于所述目标问题的所述目标答案;
当所述相似问题与所述目标问题之间的相似度不满足预设相似条件时,通过知识问答模型对所述目标问题进行答案预测处理,得到所述目标问题对应的答案,并向所述目标对象反馈对于所述目标问题的答案。
2.根据权利要求1所述的方法,其特征在于,所述候选问题包括数据指标短语和参考查询整句,预设答案信息包括指标描述信息和计算逻辑信息;
所述获取知识映射关系集合之前,还包括:
建立数据指标短语与其指标描述信息之间的第一映射关系;
确定针对数据指标短语的计算逻辑信息,建立所述数据指标短语和所述计算逻辑信息之间的第二映射关系;
建立参考查询整句和所述参考查询整句对应的计算逻辑信息之间的第三映射关系;
建立所述参考查询整句与其对应的指标描述信息之间的第四映射关系;
根据所述第一映射关系、所述第二映射关系、所述第三映射关系和所述第四映射关系,确定知识映射关系集合。
3.根据权利要求1所述的方法,其特征在于,所述基于所述目标特征信息,从预设知识数据库的候选问题中确定与所述目标问题对应的相似问题,包括:
识别所述目标问题所属的行业类别;并确定预设知识数据库中所述行业类别下的候选问题;
基于所述目标特征信息,从所述行业类别下的候选问题中确定与所述目标问题对应的相似问题。
4.根据权利要求2所述的方法,其特征在于,所述根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案,包括:
从所述知识映射关系集合中确定所述相似问题对应的目标预设答案信息;
当所述目标预设答案信息包含针对所述相似问题的计算逻辑信息时,基于所述计算逻辑信息,对所述目标问题进行处理,得到目标答案。
5.根据权利要求1所述的方法,其特征在于,所述获取目标对象在内容交互客户端当前输入的目标问题,包括:
基于所述目标对象的行业类别,生成至少一个参考问题,并在内容交互客户端中向所述目标对象进行所述参考问题的推荐;
基于所述目标对象在所述内容交互客户端中对推荐的所述参考问题的选取操作,获取所述目标对象在所述内容交互客户端当前输入的目标问题。
6.根据权利要求2所述的方法,其特征在于,所述获取目标对象在内容交互客户端当前输入的目标问题之后,还包括:
对所述目标问题进行问题清晰度评估;
当评估结果满足预设条件时,向所述目标对象进行参考数据指标下的问题推荐,所述参考数据指标与所述目标问题中包含的数据指标不同;
当评估结果不满足预设条件时,向所述目标对象进行目标数据指标下的标准问题推荐,所述目标数据指标与所述目标问题中包含的数据指标关联。
7.根据权利要求1所述的方法,其特征在于,所述对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息,包括:
通过特征提取模型,对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息。
8.根据权利要求7所述的方法,其特征在于,所述通过特征提取模型,对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息之前,还包括:
获取训练数据,所述训练数据包括多个样本内容;
针对每个样本内容,生成所述样本内容的正例对集合,所述正例对集合包括所述样本内容、以及与所述样本内容语义相似的至少一个正例内容;
将所述样本内容分别和各个正例内容进行组合,以构建所述样本内容的至少一个正样本对;并基于所述样本内容分别和其他各个样本内容的正例对集合中的内容,构建所述样本内容的至少一个负样本对;
通过预设特征提取模型,分别对所述正样本对和所述负样本对中的内容进行特征提取,得到所述正样本对和所述负样本对中的内容的特征信息;
根据所述正样本对中各内容的特征信息,计算所述正样本对的特征距离;并根据所述负样本对中内容的特征信息,计算所述负样本对的特征距离;
基于所述正样本对的特征距离和所述负样本对的特征距离,对预设特征提取模型的参数进行调整,得到调整后的特征提取模型。
9.根据权利要求8所述的方法,其特征在于,所述样本内容包括数据指标短语和查询整句;
所述生成所述样本内容的正例对集合,包括:
分别对所述数据指标短语和所述查询整句进行同义内容生成,得到所述数据指标短语的同义短语、和所述查询整句的同义整句;
根据预设维度短语和预设数据指标短语,确定所述查询整句中的非关键词;并对所述查询整句中的非关键词进行替换,得到替换后的查询整句;
获取所述数据指标短语的描述信息;
基于所述数据指标短语的同义短语和描述信息,确定所述数据指标短语的正例内容;并基于所述查询整句的同义整句和替换后的查询整句,确定所述查询整句的正例内容。
10.根据权利要求8所述的方法,其特征在于,所述基于所述正样本对的特征距离和所述负样本对的特征距离,对预设特征提取模型的参数进行调整,得到调整后的特征提取模型,包括:
将各个负样本对的特征距离进行融合,得到融合后的负样本对距离;
针对每个正样本对,基于融合后的负样本对距离和所述正样本对的特征距离,确定所述正样本对的子损失函数;
将各个正样本对的子损失函数进行融合,得到总损失函数;
基于所述总损失函数,对预设特征提取模型的参数进行调整,得到调整后的特征提取模型。
11.一种知识问答装置,其特征在于,包括:
问题获取单元,用于获取目标对象在内容交互客户端当前输入的目标问题;
提取单元,用于对所述目标问题进行特征提取,得到所述目标问题对应的目标特征信息;
确定单元,用于基于所述目标特征信息,从预设知识数据库的候选问题中确定与所述目标问题对应的相似问题;
获取单元,用于当所述相似问题与所述目标问题之间的相似度满足预设相似条件时,获取知识映射关系集合,所述知识映射关系集合包括候选问题和预设答案信息之间的映射关系;
第一答案单元,用于根据所述知识映射关系集合和所述相似问题,确定所述相似问题对应的目标答案,向所述目标对象反馈对于所述目标问题的所述目标答案;
第二答案单元,用于当所述相似问题与所述目标问题之间的相似度不满足预设相似条件时,通过知识问答模型对所述目标问题进行答案预测处理,得到所述目标问题对应的答案,并向所述目标对象反馈对于所述目标问题的答案。
12.一种电子设备,其特征在于,包括存储器和处理器;所述存储器存储有应用程序,所述处理器用于运行所述存储器内的应用程序,以执行权利要求1至10任一项所述的知识问答方法中的操作。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1至10任一项所述的知识问答方法中的步骤。
CN202410033099.9A 2024-01-10 2024-01-10 知识问答方法以及相关设备 Active CN117556024B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410033099.9A CN117556024B (zh) 2024-01-10 2024-01-10 知识问答方法以及相关设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410033099.9A CN117556024B (zh) 2024-01-10 2024-01-10 知识问答方法以及相关设备

Publications (2)

Publication Number Publication Date
CN117556024A true CN117556024A (zh) 2024-02-13
CN117556024B CN117556024B (zh) 2024-04-30

Family

ID=89814971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410033099.9A Active CN117556024B (zh) 2024-01-10 2024-01-10 知识问答方法以及相关设备

Country Status (1)

Country Link
CN (1) CN117556024B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118070909A (zh) * 2024-04-25 2024-05-24 支付宝(杭州)信息技术有限公司 医疗问答系统的答案生成方法及装置
CN118210407A (zh) * 2024-03-27 2024-06-18 腾讯科技(深圳)有限公司 虚拟互动对象配置方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157867A (zh) * 2021-04-29 2021-07-23 阳光保险集团股份有限公司 一种问答方法、装置、电子设备及存储介质
CN115186671A (zh) * 2022-05-16 2022-10-14 南京大学 一种基于外延的将名词短语映射到描述逻辑概念的方法
CN116129210A (zh) * 2022-08-03 2023-05-16 马上消费金融股份有限公司 特征提取模型的训练方法、特征提取方法及装置
US20230153337A1 (en) * 2022-01-20 2023-05-18 Beijing Baidu Netcom Science Technology Co., Ltd. Question answering method, method of training a question answering model, electronic device, and medium
CN116824584A (zh) * 2023-07-03 2023-09-29 中国矿业大学 一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法
CN116992005A (zh) * 2023-09-25 2023-11-03 语仓科技(北京)有限公司 基于大模型及本地知识库的智能对话方法、系统及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113157867A (zh) * 2021-04-29 2021-07-23 阳光保险集团股份有限公司 一种问答方法、装置、电子设备及存储介质
US20230153337A1 (en) * 2022-01-20 2023-05-18 Beijing Baidu Netcom Science Technology Co., Ltd. Question answering method, method of training a question answering model, electronic device, and medium
CN115186671A (zh) * 2022-05-16 2022-10-14 南京大学 一种基于外延的将名词短语映射到描述逻辑概念的方法
CN116129210A (zh) * 2022-08-03 2023-05-16 马上消费金融股份有限公司 特征提取模型的训练方法、特征提取方法及装置
CN116824584A (zh) * 2023-07-03 2023-09-29 中国矿业大学 一种基于条件变分Transformer和自省对抗学习的多样化图像描述方法
CN116992005A (zh) * 2023-09-25 2023-11-03 语仓科技(北京)有限公司 基于大模型及本地知识库的智能对话方法、系统及设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118210407A (zh) * 2024-03-27 2024-06-18 腾讯科技(深圳)有限公司 虚拟互动对象配置方法、装置、设备及介质
CN118210407B (zh) * 2024-03-27 2024-07-26 腾讯科技(深圳)有限公司 虚拟互动对象配置方法、装置、设备及介质
CN118070909A (zh) * 2024-04-25 2024-05-24 支付宝(杭州)信息技术有限公司 医疗问答系统的答案生成方法及装置

Also Published As

Publication number Publication date
CN117556024B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
Li et al. How textual quality of online reviews affect classification performance: a case of deep learning sentiment analysis
Gambhir et al. Recent automatic text summarization techniques: a survey
CN111475729B (zh) 搜索内容推荐方法及装置
CN117556024B (zh) 知识问答方法以及相关设备
Sunilkumar et al. A survey on semantic similarity
CN106776532B (zh) 一种知识问答方法及装置
Galitsky Machine learning of syntactic parse trees for search and classification of text
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
Zou et al. Learning to rank for question-oriented software text retrieval (t)
US11545042B2 (en) Personalized learning system
Chai Design and implementation of English intelligent communication platform based on similarity algorithm
CN115630144A (zh) 一种文档搜索方法、装置及相关设备
Zeng et al. Measuring the interdisciplinary characteristics of Chinese research in library and information science based on knowledge elements
CN116561288B (zh) 事件查询方法、装置、计算机设备、存储介质及程序产品
Kyröläinen et al. Predictive keywords: Using machine learning to explain document characteristics
Rasheed et al. Conversational chatbot system for student support in administrative exam information
CN113609248B (zh) 词权重生成模型训练方法及装置、词权重生成方法及装置
Secker et al. AISIID: An artificial immune system for interesting information discovery on the web
Rybak et al. Machine learning-enhanced text mining as a support tool for research on climate change: theoretical and technical considerations
Nuamah et al. Calculating error bars on inferences from web data
Juyal et al. An Enhanced Approach to Recommend Data Structures and Algorithms Problems Using Content-based Filtering
Rybina Sentiment analysis of contexts around query terms in documents
Ojokoh et al. A graph model with integrated pattern and query-based technique for extracting answer to questions in community question answering system
RU2823436C1 (ru) Система автоматического определения тематики текстовых документов на основе объяснимых методов искусственного интеллекта
Grabus Historical Subject Representation: An Analysis of Historical Vocabularies for Temporally-Aligned and Contextual Access Points

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant