CN116028608A - 问答交互方法、装置、计算机设备及可读存储介质 - Google Patents

问答交互方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN116028608A
CN116028608A CN202310034125.5A CN202310034125A CN116028608A CN 116028608 A CN116028608 A CN 116028608A CN 202310034125 A CN202310034125 A CN 202310034125A CN 116028608 A CN116028608 A CN 116028608A
Authority
CN
China
Prior art keywords
data
question
knowledge graph
target
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310034125.5A
Other languages
English (en)
Inventor
杨斌
朱俊杰
陈烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hubo Network Technology Shanghai Co ltd
Original Assignee
Hubo Network Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hubo Network Technology Shanghai Co ltd filed Critical Hubo Network Technology Shanghai Co ltd
Priority to CN202310034125.5A priority Critical patent/CN116028608A/zh
Publication of CN116028608A publication Critical patent/CN116028608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种问答交互方法、装置、计算机设备及可读存储介质,包括:获取问题数据;分析所述问题数据所属的问题类型;根据所述问题类型对所述问题数据进行概念分析,以得到待检索数据,其中,所述待检索数据包括n个目标词汇以及每一目标词汇对应的标签类型,其中,n为正整数;根据所述待检索数据构建知识图谱查询模型;基于所述知识图谱查询模型在预设知识图谱库中搜索所述问题数据对应的答案数据。本发明在构建完整的金融知识图谱的基础上,通过对问题数据进行概念分析能够有效识别用户的查询意图,并根据查询意图构建相应的查询模型,能够有效提升问答交互的准确率和效率。

Description

问答交互方法、装置、计算机设备及可读存储介质
技术领域
本发明涉及知识图谱技术领域,尤其涉及一种问答交互方法、装置、计算机设备及可读存储介质。
背景技术
在日常生活中,智能对话被广泛应用在客服、营销等重复性对话频繁发生的场景,或者作为图形用户界面(Graphical User Interface,简称GUI)的补充,为用户提供高效、个性化的体验,甚至是直接集成到智能音箱、智能家居、智能导航等硬件设备中,独立承载人机交互的重担。现有的问答技术具有无法对用户语义进行分析,无法理解用户意图等缺点。
因此,亟需一种能够对用户语义进行实时分析,且能理解用户意图的问答交互方案。
发明内容
为了解决上述技术问题,本申请实施例提供了一种可应用于金融科技技术领域的问答交互方法、装置、计算机设备及可读存储介质,具体方案如下:
第一方面,本申请实施例提供了一种问答交互方法,包括:
获取问题数据;
分析所述问题数据所属的问题类型;
根据所述问题类型对所述问题数据进行概念分析,以得到待检索数据,其中,所述待检索数据包括n个目标词汇以及每一目标词汇对应的标签类型,其中,n为正整数;
根据所述待检索数据构建知识图谱查询模型;
基于所述知识图谱查询模型在预设知识图谱库中搜索所述问题数据对应的答案数据。
根据本申请实施例的一种具体实施方式,所述问题类型包括查询型、是否型、比较型和非问答型,所述“分析所述问题数据所属的问题类型”,包括:
基于预训练的BERT文本分类模型分析所述问题数据所属的问题类型。
根据本申请实施例的一种具体实施方式,所述“根据所述问题类型对所述问题数据进行概念分析,以得到待检索数据”,包括:
对所述问题数据进行分词处理,以得到m个候选词汇,其中,m大于或等于n,且m为正整数;
对所述m个候选词汇进行歧义筛选,以得到n个候选词汇;
根据预设标签数据库中存储的标签类型为所述n个候选词汇进行类型标注,以得到各候选词汇的标签类型;
基于所述标签类型以及预设相似度匹配算法,对所述n个候选词汇进行词汇标准化处理,得到所述n个目标词汇;
结合所述n个目标词汇以及每一目标词汇对应的目标标签类型得到所述待检索数据。
根据本申请实施例的一种具体实施方式,所述标签类型包括实体类型和属性类型,所述预设相似度匹配算法包括属性相似度匹配算法和实体相似度匹配算法,所述“基于所述标签类型以及预设相似度匹配算法,对所述n个候选词汇进行词汇标准化处理,得到所述n个目标词汇”,包括:
根据所述n个候选词汇的标签类型对应的预设相似度匹配算法,计算各候选词汇与预设字典数据库中的标准词汇的相似度;
选择相似度最高的标准词汇替换相应的候选词汇,得到所述n个目标词汇。
根据本申请实施例的一种具体实施方式,所述“根据所述待检索数据构建知识图谱查询模型”,包括:
基于所述待检索数据生成目标搜索语句;
分析所述目标搜索语句中的全部实体以及各实体之间的关联关系;
根据预设最短路径算法组合所述全部实体以及各实体之间的关联关系,得到知识图谱搜索路径;
基于所述知识图谱搜索路径加载相应的模型算子,以构建所述知识图谱查询模型。
根据本申请实施例的一种具体实施方式,所述“基于所述待检索数据生成目标搜索语句”,包括:
对所述待检索数据进行词汇消歧处理和词汇合并处理,以生成候选搜索语句;
若所述候选搜索语句的文本长度大于或等于预设文本长度阈值,则根据所述候选搜索语句匹配预设句式配置数据库中的句式模板,生成所述目标搜索语句。
根据本申请实施例的一种具体实施方式,所述“基于所述知识图谱查询模型在预设知识图谱库中搜索所述问题数据对应的答案数据”,包括:
根据预设顺序读取所述知识图谱查询模型中的知识图谱搜索路径,以得到目标返回属性;
从所述预设知识图谱库中搜索符合所述目标返回属性的候选答案数据;
基于所述知识图谱搜索路径对应的模型算子以及所述候选答案数据,计算得到所述问题数据对应的答案数据。
第二方面,本申请实施例提供了一种问答交互装置,包括:
问题获取模块,用于获取问题数据;
意图分析模块,用于分析所述问题数据所属的问题类型;
序列标注模块,用于根据所述问题类型对所述问题数据进行概念分析,以得到待检索数据,其中,所述待检索数据包括n个目标词汇以及每一目标词汇对应的标签类别,其中,n为正整数;
路径规划模块,用于根据所述待检索数据构建知识图谱查询模型;
答案查询模块,用于基于所述知识图谱查询模型在预设知识图谱库中搜索所述问题数据对应的答案数据。
第三方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行第一方面及第一方面任一实施方式所述的问答交互方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面及第一方面任一实施方式所述的问答交互方法。
本申请实施例提供了一种问答交互方法、装置、计算机设备及可读存储介质,包括:获取问题数据;分析所述问题数据所属的问题类型;根据所述问题类型对所述问题数据进行概念分析,以得到待检索数据,其中,所述待检索数据包括n个目标词汇以及每一目标词汇对应的标签类型,其中,n为正整数;根据所述待检索数据构建知识图谱查询模型;基于所述知识图谱查询模型在预设知识图谱库中搜索所述问题数据对应的答案数据。本发明在构建完整的金融知识图谱的基础上,通过对问题数据进行概念分析能够有效识别用户的查询意图,并根据查询意图构建相应的查询模型,能够有效提升问答交互的准确率和效率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本申请实施例提供的一种问答交互方法的方法流程示意图;
图2示出了本申请实施例提供的一种问答交互方法应用的问答交互系统的系统结构示意图;
图3示出了本申请实施例提供的一种问答交互方法的分词处理步骤的应用场景示意图之一;
图4示出了本申请实施例提供的一种问答交互方法的分词处理步骤的应用场景示意图之二;
图5示出了本申请实施例提供的一种问答交互方法的知识图谱schema的结构示意图;
图6a示出了本申请实施例提供的一种问答交互方法的应用场景示意图之一;
图6b示出了本申请实施例提供的一种问答交互方法的应用场景示意图之二;
图6c示出了本申请实施例提供的一种问答交互方法的应用场景示意图之三;
图7示出了本申请实施例提供的一种问答交互方法的用户交互界面示意图之一;
图8示出了本申请实施例提供的一种问答交互方法的用户交互界面示意图之二;
图9示出了本申请实施例提供的一种问答交互装置的装置模块示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
参考图1,为本申请实施例提供的一种问答交互方法的方法流程示意图,本申请实施例提供的问答交互方法,如图1所示,包括:
步骤S101,获取问题数据;
具体地,本实施例提出的一种问答交互方法可以应用于一种基于金融知识图谱构建的问答系统中,所述问答系统的结构可以参考图2。如图2所示,所述问答系统架构包括应用层、业务服务层、算法层、基础服务层、后台运营层以及数据层等多层结构。
在具体实施例中,数据层包括金融知识图谱的各类金融实体数据、关系数据、行业字典数据、日志数据、访问信息等。举例来说,各类金融实体数据包括基金、基金经历、公司、股东、资讯、股票、产业链以及板块等概念。
后台运营层用于支持图谱结构维护、场景问管理、通用和自定义规则配置、词库管理和回复管理等对问答系统的配置操作。
基础服务层用于为问答交互方法提供各类型基础服务,例如数据预处理服务、标签识别服务、查询构建服务以及答案生成服务,其中,数据预处理服务包括对问题数据的拼写纠错处理、智能分词处理、停用词处理以及同义词处;标签识别服务包括实体识别、概念识别、S属性识别、W属性识别、属性值识别、日期识别、关系识别、标签消歧;查询构建服务包括构建路径、多跳推理、属性映射、句式匹配;答案生成服务包括构建路径、多跳推理、属性映射、句式匹配。
算法层用于训练所述问答交互方法使用的核心算法模型,包括NLP模型、基于知识图谱的意图识别模型等,支持意图识别、序列标注、多文本泛化匹配、场景问相似匹配、实体泛化匹配等功能。
所述业务服务层用于提供知识图谱问答和多轮场景问答等服务。
所述应用层用于提供金融图谱问答、联想推荐问、意图推荐问、资讯归因分析、影响面推理等功能。
在具体实施例中,所述问题数据为用户在查询过程中提出的问题,在本实施例中,所述问题数据的形式可以为语音、文字或视频等形式,本实施例对此不作限定。
在具体实施过程中,所述问答系统会将所述问题数据处理为同一的文本格式数据,以对所述问题数据进行预处理和意图分析。
步骤S102,分析所述问题数据所属的问题类型;
具体地,本实施例提供的问答系统在进行任一种问答服务时,均需对问题数据进行意图识别,即分析所述问题数据所属的问题类型。
本实施例中的问题类型至少包括查询型、是否型、比较型和非问答型,在具体实施例中,所述问题类型可以根据实际应用场景的需求,由用户进行自定义设置。
具体地,本实施例的问答系统的算法层中,包括提前训练好的文本分类模型,用于分析各种问题数据的问题类型。
根据本申请实施例的一种具体实施方式,所述“分析所述问题数据所属的问题类型”,包括:
基于预训练的BERT文本分类模型分析所述问题数据所属的问题类型。
在具体实施例中,所述BERT(Bidirectional Encoder Representations fromTransformers)文本分类模型包括预训练和精调两个阶段。
在预训练阶段,可以利用大规模无标注语料数据训练掩码语言建模(MaskedIanguage Modeling,简称MLM)和NSP(Next Sentence Prediction)两个任务,以使得所述BERT文本分类模型拥有双向表征文本的能力,其中,双向表征文本为正向表征文本和逆向表征文本。具体地,本实施例在使用大规模无标注语料数据进行训练时,还可以选择多种特定领域的语料数据来训练模型,例如金融领域等。
在精调阶段,利用BERT文本分类模型获取包括丰富语义信息的文本向量,在下游特定任务的标注语料上进行精调训练,能够有效提升文本分类模型进行分类的准确率。
具体的,本实施例对BERT文本分类模型的具体训练方式不作限定,可以根据实际应用场景选择合适的训练方法进行训练。
在具体实施过程中,在所述文本分类模型的输入端输入所述问题数据,即可以在输出端得到所述问题数据的问题类型。
举例来说,若输入问题数据为“张三管理的基金有哪些”,可以得到输出的问题类型为查询性;若输入问题数据为“张坤是不是一个基金经理”,可以得到输出的问题类型为是否型;若输入问题数据为“易方达蓝筹的收益率比易方达中小盘高多少”,可以得到输出的问题类型为比较型;若输入问题数据为“明天下午2点帮我订一张北京去上海的机票”,可以得到输出的问题类型为非问答型。
本实施例通过对问题数据进行意图识别的方式,能够将用户的问题分为不同类型的意图,且各问题类型对应后续不同的处理方法,能够有效提高答案数据的准确率。
步骤S103,根据所述问题类型对所述问题数据进行概念分析,以得到待检索数据,其中,所述待检索数据包括n个目标词汇以及每一目标词汇对应的标签类型,其中,n为正整数;
具体地,本实施例中的标签类型包括人名、概念、实体、S(select)属性、W(where)属性、属性值、关系、时间、筛选概念和输出概念等。
本实施例中的概念,用于描述某个业务分类,比如股票、基金、公司、基金经理、债券等,均属于概念;本实施例中的属性,用于描述概念的具体信息,比如基金名称、收益率均为基金概念的属性;本实施例中的关系,用于描述概念与概念之间的关联,比如“张坤管理的基金”,此处的“管理”视为关系;本实施例中的边属性,用于指代概念的关系上的一些补充属性,例如,易方达基金持股比例大于3%的股票,其中“持股比例”就是,股票和基金关系上的一个补充属性;本实施例中的实体,用于表示某个概念的具体描述,比如国泰君安为股票实体,易方达蓝筹为基金实体;本实施例中的S(Select)概念,用于表示问题数据中最终需要输出的实体所属的概念,例如:市盈率大于100的股票,其中,股票为S概念;本实施例中的W(Where)概念,用于表示问题数据中约束查询条件的概念,例如:市盈率大于100的股票所属题材,其中,股票为W概念;本实施例中的属性值,用于表示约束属性的具体值,例如“收益率大于30%”中“大于30%”为属性值;本实施例中的S(Select)属性,用于表示问题数据最终需要输出的答案数据的属性;本实施例中的W(Where)属性,用于表示问题数据中用于约束查询条件的属性;本实施例中的算子,为条件表达式中的运算符。
举例来说,对如“张三管理的近1年收益率大于50%的基金的基金名称、基金类型”的问题数据进行概念分析,可以得到如“张坤:人名;管理:关系;近1年:时间;收益率:W属性;大于50%:属性值;基金:筛选概念;基金名称:S属性;基金属性:S属性”的待检索数据。
对如“收益率大于30%且最大回撤比20%小的基金”的问题数据进行概念分析,可以得到如“收益率:W属性;大于30%:属性值;最大回撤:W属性;比20%小:属性值;基金:输出概念”的待检索数据。
根据本申请实施例的一种具体实施方式,所述“根据所述问题类型对所述问题数据进行概念分析,以得到待检索数据”,包括:
对所述问题数据进行分词处理,以得到m个候选词汇,其中,m大于或等于n,且m为正整数;
对所述m个候选词汇进行歧义筛选,以得到n个候选词汇;
根据预设标签数据库中存储的标签类型为所述n个候选词汇进行类型标注,以得到各候选词汇的标签类型;
基于所述标签类型以及预设相似度匹配算法,对所述n个候选词汇进行词汇标准化处理,得到所述n个目标词汇;
结合所述n个目标词汇以及每一目标词汇对应的目标标签类型得到所述待检索数据。
在具体实施例中,在对所述问题数据进行概念分析时,包括分词、词汇消歧、序列标注、标签消歧等处理。
如图3和图4所示,可以采用构建字典树的方式来对问题数据进行分词处理。
如图4所示,在实际应用场景中,可以采用多类型分词器来对问题数据进行分词,例如阿拉伯数字分词器、英文字符分词器、英文字母和数字混合子分词器、中日韩分词器等。
本实施例对分词处理的具体算法不作限定,可以根据实际应用场景选用合适的分词算法来对问题数据进行分词。
在具体实施例中,在对问题数据进行分词处理得到m个候选词汇后,识别候选词汇中的错词、停用词以及同义词,并对错词进行智能纠错、对停用词进行去除、对同义词进行补充替换等操作。
具体地,在进行智能纠错时,可以根据加载的字典数据,将错误词汇映射为字典数据中的标准词汇,例如,将啊里巴巴映射为字典数据中的阿里巴巴;也可以基于编辑距离,计算与错误词汇编辑距离最近的词汇,以导出标准词汇。
停用词的标准可以根据实际应用场景进行自适应设置,此处不作限定。
对于一些泛化文本,本实施例也会将泛化文本转化为标准词后,再对词汇进行标签标注。举例来说,用户输入国君时,本实施例可以通过实体相似度计算和属性相似度的计算,得到如国泰君安的标准词;用户输入员工数量、员工数、员工总数时,本实施例可以通过实体相似度计算和属性相似度的计算,得到如员工人数的标准词。
在具体实施例中,对m个候选词汇进行上述词汇消歧处理后,可以得到n个候选词汇,为所述n个候选词汇进行标签标注以及标签消歧,就可以得到n个目标词汇及其标签类型。
根据本申请实施例的一种具体实施方式,所述标签类型包括实体类型和属性类型,所述预设相似度匹配算法包括属性相似度匹配算法和实体相似度匹配算法,所述“基于所述标签类型以及预设相似度匹配算法,对所述n个候选词汇进行词汇标准化处理,得到所述n个目标词汇”,包括:
根据所述n个候选词汇的标签类型对应的预设相似度匹配算法,计算各候选词汇与预设字典数据库中的标准词汇的相似度;
选择相似度最高的标准词汇替换相应的候选词汇,得到所述n个目标词汇。
在具体实施例中,本实施例提供了多种相似度计算算法,例如属性相似度匹配算法、实体相似度匹配算法。
本实施例提出的属性相似度匹配算法兼容字符级和语义级的相似度计算,具体步骤如下:
步骤1,分词处理,对问题数据文本进行分词处理;
步骤2,计算单词权重值,基于在已有的大规模语料上统计得到的单词idf值,计算问题数据的分词列表中,各词所占权重值。
步骤3,计算句子向量,基于训练好的大规模词向量,以及步骤2中各词权重值,进行加权求和,得到问题数据的句子向量。
步骤4,计算语义相似度,计算各标准词汇与问题数据句子向量间的余弦相似度。
步骤5,计算字符级相似度,计算各标准词汇与问题数据的字符级相似度,即两字符集合的交集数/并集数。
步骤6,计算综合相似度,将语义相似度和字符级相似度进行相乘,得到综合相似度;
步骤7,根据相似度的优先级对标签类型进行排序,并输出相似度最高的标准词汇,具体的,综合相似度的优先级大于语义相似度的优先级,语义相似度的优先级大于字符级相似度。
本实施例提出的实体相似度匹配算法的具体步骤如下:
步骤1,提取问题数据中的实体代码,查询预设代码实体映射表,返回对应的实体;
步骤2,对于问题数据中的汉字,根据字符实体映射表,筛选出候选实体集合,并对每个实体的实体命和别名,计算候选实体与问题数据的实体名相似度、别名相似度和向量相似度,并进行加权求和;
步骤3,对于问题数据中的汉字,同时搜索可能的同音实体,先将问题数据转换为拼音列表,根据拼音实体映射表,筛选出候选实体拼音集合,对于每个实体的实体拼音集合,计算候选实体和问题数据的实体名相似度、别名相似度和向量相似度,并进行加权求和;
步骤4,对于问题数据中的字母,若判断为拼音全称,则先将其拆分成拼音列表,根据拼音实体映射表,筛选出候选实体拼音集合,对于每个实体的实体拼音集合,计算候选实体和问题数据的实体名相似度、别名相似度和向量相似度,并进行加权求和;
步骤5,对于问题数据中的字母,若判断为非拼音全称,则按照拼音首字母或拼音声母处理,先拆分成首字母或声母列表,根据声母实体映射表,对于每个实体的首字母或声母列表,计算候选实体和问题数据的实体名相似度、别名相似度和向量相似度,并进行加权求和;
步骤6,根据相似度对于步骤1-5的输出结果进行综和排序,并输出相似度最高的结果。
在具体应用过程中,本实施例通过属性相似度和实体相似度的计算,能够得到全部为标准词汇的n个目标词汇,也就可以得到符合知识图谱查询模型的各个分词结果。
在具体实施例中,对于标签类型的消歧处理,可以在进行序列标注时自动进行。消歧处理的类型可以为直接消歧,也可以为基于规则的消歧。
举例来说,“李宁的涨幅”中李宁的标注结果是金融实体,而“李宁管理的基金的涨幅”中李宁指的是人名,在进行序列标注的过程中,候选标签已经进行相应的消歧处理。
基于规则的消歧可以为基于就近原则对标签类型的所属关系进行消歧,例如“收益率大于50%的基金持有的收益率大于80%的股票”中第一个收益率就近作用于基金,第二个收益率就近作用于股票。
步骤S104,根据所述待检索数据构建知识图谱查询模型;
具体地,本实施例中的问答交互系统中设置的知识图谱的Schema如图5所示。
本实施例基于金融领域的大规模语料数据构建了完整的知识图谱数据库,构建知识图谱的方式可以根据实际应用场景进行选择,本实施例对此不作限定。
所述知识图谱查询模型可以为一种具有多种算子以及标签的查询语句模型。
根据本申请实施例的一种具体实施方式,所述“根据所述待检索数据构建知识图谱查询模型”,包括:
基于所述待检索数据生成目标搜索语句;
分析所述目标搜索语句中的全部实体以及各实体之间的关联关系;
根据预设最短路径算法组合所述全部实体以及各实体之间的关联关系,得到知识图谱搜索路径;
基于所述知识图谱搜索路径加载相应的模型算子,以构建所述知识图谱查询模型。
具体地,本实施例基于预设最短路径算法来实现各实体关联关系的连接,所述预设最短路径算法可以根据实际应用场景来选择合适的算法,在本实施例中,可以采用弗洛伊德(Floyd)算法。
举例来说,若用户输入的问题数据为“持有国泰君安的基金”,本实施例在生成知识图谱搜索路径时的步骤包括:
步骤1,提取所有边属性,例如“持有”;
步骤2,按照最短路径算法调整关联关系,例如股票-基金;
步骤3,按照所述关联关系填入相应的边属性,此时得到的实体之间的关联关系例如股票-持有-基金;
步骤4,按照知识图谱schema的关系调整所述关联关系,得到股票-被持有-基金;
步骤5,按照关系标准化的方式,将股票-被持有-基金,反转为基金-持有-股票;
步骤6,基于当前场景给每个概念标记是否是由于概念标签识别的,还是由非概念(实体、属性、属性值)识别到的概念,此场景的基金是有「基金」概念标签识别到的,而股票是由「国泰君安」实体推导出的概念,需要加以标记;
步骤7,添加路径说明,方便线上排查问题。
具体的,在生成所述知识图谱搜索路径后,还可以根据待检索数据中的分词标签结果以及各关联关系,加载相应的模型算子。
在本实施例中,所述模型算子包括条件型算子、排序型算子、计算型算子、加工型算子、连接型算子、时间维度算子、规则型算子以及时间型算子。
具体地,各类型算子可以根据实际应用场景的需要进行自定义配置,此处不作限定。
根据本申请实施例的一种具体实施方式,所述“基于所述待检索数据生成目标搜索语句”,包括:
对所述待检索数据进行词汇消歧处理和词汇合并处理,以生成候选搜索语句;
若所述候选搜索语句的文本长度大于或等于预设文本长度阈值,则根据所述候选搜索语句匹配预设句式配置数据库中的句式模板,生成所述目标搜索语句。
在具体实施例中,对于待检索数据不完整的情况,需要根据文本长度的规则匹配相应的标准搜索语句。
举例来说,「收盘价」10元的股票,问题数据是「10元的股票」,其中收盘价是缺省值,然后用户问「20元的股票」,得到的句式为「属性值+股票概念」,补充缺省值「收盘价」,最终按照问句「收盘价为20元的股票」的来生成知识图谱查询模型。
在一种实施例中,生成知识图谱查询模型的具体实施过程可以如图6a、图6b和图6c所示。
步骤S105,基于所述知识图谱查询模型在预设知识图谱库中搜索所述问题数据对应的答案数据。
在具体实施例中,在得到知识图谱查询模型后,可以根据所述知识图谱查询模型的计算表达式来进行在线计算,以得到符合用户搜索意图的答案数据。
根据本申请实施例的一种具体实施方式,所述“基于所述知识图谱查询模型在预设知识图谱库中搜索所述问题数据对应的答案数据”,包括:
根据预设顺序读取所述知识图谱查询模型中的知识图谱搜索路径,以得到目标返回属性;
从所述预设知识图谱库中搜索符合所述目标返回属性的候选答案数据;
基于所述知识图谱搜索路径对应的模型算子以及所述候选答案数据,计算得到所述问题数据对应的答案数据。
在具体实施例中,若问题数据中不包括模型算子,则可以直接得到由知识图谱库返回的搜索结果。若问题数据中包括模型算子,则本实施例的问答交互系统还需根据模型算子对问题数据中的实体关系进行相应计算,得到满足用户意图的答案数据。
如图7和图8所示,本实施例对于一些特殊规则以及主观类指标的识别规则可以自定义,当在问答交互系统中进行搜索的过程中,出现无法识别的词汇时,可以弹出如图7和图8所示的交互界面,以实现对全局识别规则、以及主观指标识别规则的维护。
具体的,用户可以根据实际应用场景对于本实施例提出的问答交互系统的识别词进行自定义设置,本实施例对此不作限定。
综上所述,本实施例提出了一种问答交互方法,在构建完整的金融知识图谱基础上,通过金融知识图谱对用户输入进行命名实体识别、会话补全、意图识别、查询构建等,得到用户精准意图,进而将用户意图与知识图谱中的实体进行检索,返回其最关联的列表或者检索结果,提高用户问答体验。
本实施例通过构建一套通用的语义相似度计算模型,利用知识图谱和带约束的最短路径算法,可以实现自动解析用户意图,无需进行人工规则配置,极大的提高系统后续运营维护的效率。
参考图9,为本申请实施例提供的一种问答交互装置900的装置模块示意图,本申请实施例提供的问答交互装置900,如图9所示,包括:
问题获取模块901,用于获取问题数据;
意图分析模块902,用于分析所述问题数据所属的问题类型;
序列标注模块903,用于根据所述问题类型对所述问题数据进行概念分析,以得到待检索数据,其中,所述待检索数据包括n个目标词汇以及每一目标词汇对应的标签类别,其中,n为正整数;
路径规划模块904,用于根据所述待检索数据构建知识图谱查询模型;
答案查询模块905,用于基于所述知识图谱查询模型在预设知识图谱库中搜索所述问题数据对应的答案数据。
另外,本申请实施例还提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行前述方法实施例中的问答交互方法。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序在处理器上运行时执行前述方法实施例中的问答交互方法。
另外,上述实施例中提到的问答交互装置、计算机设备及计算机可读存储介质的具体实施过程,可以参见上述方法实施例的具体实施过程,在此不再一一赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种问答交互方法,其特征在于,包括:
获取问题数据;
分析所述问题数据所属的问题类型;
根据所述问题类型对所述问题数据进行概念分析,以得到待检索数据,其中,所述待检索数据包括n个目标词汇以及每一目标词汇对应的标签类型,其中,n为正整数;
根据所述待检索数据构建知识图谱查询模型;
基于所述知识图谱查询模型在预设知识图谱库中搜索所述问题数据对应的答案数据。
2.根据权利要求1所述的方法,其特征在于,所述问题类型包括查询型、是否型、比较型和非问答型,所述“分析所述问题数据所属的问题类型”,包括:
基于预训练的BERT文本分类模型分析所述问题数据所属的问题类型。
3.根据权利要求1所述的方法,其特征在于,所述“根据所述问题类型对所述问题数据进行概念分析,以得到待检索数据”,包括:
对所述问题数据进行分词处理,以得到m个候选词汇,其中,m大于或等于n,且m为正整数;
对所述m个候选词汇进行歧义筛选,以得到n个候选词汇;
根据预设标签数据库中存储的标签类型为所述n个候选词汇进行类型标注,以得到各候选词汇的标签类型;
基于所述标签类型以及预设相似度匹配算法,对所述n个候选词汇进行词汇标准化处理,得到所述n个目标词汇;
结合所述n个目标词汇以及每一目标词汇对应的目标标签类型得到所述待检索数据。
4.根据权利要求3所述的方法,其特征在于,所述标签类型包括实体类型和属性类型,所述预设相似度匹配算法包括属性相似度匹配算法和实体相似度匹配算法,所述“基于所述标签类型以及预设相似度匹配算法,对所述n个候选词汇进行词汇标准化处理,得到所述n个目标词汇”,包括:
根据所述n个候选词汇的标签类型对应的预设相似度匹配算法,计算各候选词汇与预设字典数据库中的标准词汇的相似度;
选择相似度最高的标准词汇替换相应的候选词汇,得到所述n个目标词汇。
5.根据权利要求1所述的方法,其特征在于,所述“根据所述待检索数据构建知识图谱查询模型”,包括:
基于所述待检索数据生成目标搜索语句;
分析所述目标搜索语句中的全部实体以及各实体之间的关联关系;
根据预设最短路径算法组合所述全部实体以及各实体之间的关联关系,得到知识图谱搜索路径;
基于所述知识图谱搜索路径加载相应的模型算子,以构建所述知识图谱查询模型。
6.根据权利要求5所述的方法,其特征在于,所述“基于所述待检索数据生成目标搜索语句”,包括:
对所述待检索数据进行词汇消歧处理和词汇合并处理,以生成候选搜索语句;
若所述候选搜索语句的文本长度大于或等于预设文本长度阈值,则根据所述候选搜索语句匹配预设句式配置数据库中的句式模板,生成所述目标搜索语句。
7.根据权利要求5所述的方法,其特征在于,所述“基于所述知识图谱查询模型在预设知识图谱库中搜索所述问题数据对应的答案数据”,包括:
根据预设顺序读取所述知识图谱查询模型中的知识图谱搜索路径,以得到目标返回属性;
从所述预设知识图谱库中搜索符合所述目标返回属性的候选答案数据;
基于所述知识图谱搜索路径对应的模型算子以及所述候选答案数据,计算得到所述问题数据对应的答案数据。
8.一种问答交互装置,其特征在于,包括:
问题获取模块,用于获取问题数据;
意图分析模块,用于分析所述问题数据所属的问题类型;
序列标注模块,用于根据所述问题类型对所述问题数据进行概念分析,以得到待检索数据,其中,所述待检索数据包括n个目标词汇以及每一目标词汇对应的标签类别,其中,n为正整数;
路径规划模块,用于根据所述待检索数据构建知识图谱查询模型;
答案查询模块,用于基于所述知识图谱查询模型在预设知识图谱库中搜索所述问题数据对应的答案数据。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行权利要求1至7任一项所述的问答交互方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至7中任一项所述的问答交互方法。
CN202310034125.5A 2023-01-10 2023-01-10 问答交互方法、装置、计算机设备及可读存储介质 Pending CN116028608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310034125.5A CN116028608A (zh) 2023-01-10 2023-01-10 问答交互方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310034125.5A CN116028608A (zh) 2023-01-10 2023-01-10 问答交互方法、装置、计算机设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN116028608A true CN116028608A (zh) 2023-04-28

Family

ID=86070364

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310034125.5A Pending CN116028608A (zh) 2023-01-10 2023-01-10 问答交互方法、装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN116028608A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271754A (zh) * 2023-11-17 2023-12-22 杭州海康威视数字技术股份有限公司 数据检索方法、装置及设备
CN117271754B (zh) * 2023-11-17 2024-06-04 杭州海康威视数字技术股份有限公司 数据检索方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117271754A (zh) * 2023-11-17 2023-12-22 杭州海康威视数字技术股份有限公司 数据检索方法、装置及设备
CN117271754B (zh) * 2023-11-17 2024-06-04 杭州海康威视数字技术股份有限公司 数据检索方法、装置及设备

Similar Documents

Publication Publication Date Title
Millstein Natural language processing with python: natural language processing using NLTK
CN108647194B (zh) 信息抽取方法及装置
CN111159385A (zh) 一种基于动态知识图谱的无模板通用智能问答方法
CN112926345B (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN111191051B (zh) 一种基于中文分词技术的应急知识图谱的构建方法及系统
CN113535963A (zh) 一种长文本事件抽取方法、装置、计算机设备及存储介质
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN112445894A (zh) 基于人工智能的商务智能系统及其分析方法
Nugraha et al. Typographic-based data augmentation to improve a question retrieval in short dialogue system
CN116244410A (zh) 一种基于知识图谱和自然语言的指标数据分析方法及系统
CN114330366A (zh) 事件抽取方法及相关装置、电子设备和存储介质
CN114356924A (zh) 用于从结构化文档提取数据的方法和设备
CN116628173B (zh) 一种基于关键字提取的智能客服信息生成系统及生成方法
Yu et al. Using llm-assisted annotation for corpus linguistics: A case study of local grammar analysis
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
CN111783424A (zh) 一种文本分句方法和装置
CN115455151A (zh) 一种ai情绪可视化识别方法、系统及云平台
CN116028608A (zh) 问答交互方法、装置、计算机设备及可读存储介质
CN115203206A (zh) 数据内容搜索方法、装置、计算机设备及可读存储介质
CN110851572A (zh) 会话标注方法、装置、存储介质及电子设备
CN111949781B (zh) 一种基于自然语句句法分析的智能交互方法及装置
CN113688615B (zh) 一种字段注释生成、字符串理解方法、设备及存储介质
CN114861630A (zh) 信息获取及相关模型的训练方法、装置、电子设备和介质
CN114579729A (zh) 一种融合多算法模型的faq问答匹配方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination