CN114020896A - 一种智能问答方法、系统、电子设备及存储介质 - Google Patents

一种智能问答方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN114020896A
CN114020896A CN202111424384.6A CN202111424384A CN114020896A CN 114020896 A CN114020896 A CN 114020896A CN 202111424384 A CN202111424384 A CN 202111424384A CN 114020896 A CN114020896 A CN 114020896A
Authority
CN
China
Prior art keywords
source file
knowledge source
target
result
search engine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111424384.6A
Other languages
English (en)
Inventor
宗宇
陈欢
李婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202111424384.6A priority Critical patent/CN114020896A/zh
Publication of CN114020896A publication Critical patent/CN114020896A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种智能问答方法、系统、电子设备及存储介质,可应用于计算机领域、大数据领域或者金融领域,将获取的目标知识源文件输入预训练的二分类模型中,预训练的二分类模型对目标知识源文件进行分类,得到图数据库知识源文件和全文搜索知识源文件;将图数据库知识源文件导入初始图数据库得到目标图数据库,将全文搜索知识源文件导入初始全文搜索引擎得到目标全文搜索引擎;将用户发送的目标问题输入根据目标图数据库和目标全文搜索引擎生成的统一搜索引擎,使统一搜索引擎利用目标图数据库对目标问题进行处理,得到至少一个第一结果,通过全文搜索引擎对目标问题进行处理,得到至少一个第二结果;输出至少一个第一结果和至少一个第二结果。

Description

一种智能问答方法、系统、电子设备及存储介质
技术领域
本发明涉及计算机技术领域,更具体地说,涉及一种智能问答方法、系统、电子设备及存储介质。
背景技术
随着互联网技术的迅速发展,互联网用户数也在飞速增长。当用户遇到不解的问题,可以通过互联网向搜索系统发送相应的问题,搜索系统可以基于接收到的问题回复相应的答案。
但是,这种搜索系统采用的索引服务器单一,导致搜索到的答案准确率较低,并且这种方式对知识源文件缺少统一的管理。
发明内容
有鉴于此,本发明提供一种智能问答方法、系统、电子设备及存储介质,以提高搜索的准确率和对知识源文件的统一管理为目的。
本发明第一方面公开一种智能问答方法,所述方法包括:
获取目标知识源文件;
将所述目标知识源文件输入预训练的二分类模型中,以使所述预训练的二分类模型对所述目标知识源文件进行分类,得到图数据库知识源文件和全文搜索知识源文件;其中,所述预训练的二分类模型是利用知识源文件样本集对待训练的二分类模型进行训练得到;所述知识源文件样本集至少包括历史图数据库知识源文件和历史全文搜索知识源文件;
将所述图数据库知识源文件导入初始图数据库中得到目标图数据库,将所述全文搜索知识源文件导入初始全文搜索引擎中得到目标全文搜索引擎;
根据所述目标图数据库和所述目标全文搜索引擎,生成统一搜索引擎;
当接收到用户发送的目标问题时,将所述目标问题输入所述统一搜索引擎,以使所述统一搜索引擎利用目标图数据库对所述目标问题进行处理,得到至少一个第一结果,以及通过所述全文搜索引擎对所述目标问题进行处理,得到至少一个第二结果;
输出所述至少一个第一结果和所述至少一个第二结果。
可选的,所述输出所述至少一个第一结果和所述至少一个第二结果之前,所述方法还包括:
针对每个所述第一结果,计算所述第一结果与所述目标问题之间的相似度;
针对每个所述第二结果,计算所述第二结果与所述目标问题之间的相似度;
根据每个所述第一结果的相似度和每个所述第二结果的相似度,从大到小对各个所述第一结果和所述第二结果进行排序,得到排序结果;
其中,所述输出所述至少一个第一结果和所述至少一个第二结果,包括:
输出所述排序结果,所述排序结果包括按照相似度从大到小进行排序后的各个所述第一结果和各个所述第二结果。
可选的,所述根据所述目标图数据库和所述目标全文搜索引擎,生成统一搜索引擎,包括:
通过搜索网关应用服务对所述目标图数据库和所述目标全文搜索引擎进行封装,生成统一搜索引擎,所述统一搜索引擎包括搜索统一出口;
其中,所述输出所述排序结果,包括:
通过所述搜索统一出口输出所述排序结果。
可选的,所述利用知识源文件样本集对待训练的二分类模型进行训练得到所述预训练的二分类模型,包括:
获取知识源文件样本集;其中,所述知识源文件样本集包括历史图数据库知识源文件及其样本标签,历史全文搜索知识源文件及其样本标签;
依次将各个所述知识源文件样本输入待训练的二分类模型,以使所述待训练的二分类模型分别对各个所述知识源文件样本进行处理,以得到的处理结果趋近于每个所述知识源文件样本对应的样本标签为训练目标,对所述待训练的二分类模型进行迭代训练,直至所述待训练的二分类模型达到收敛为止,得到二分类模型;
其中,所述知识源文件样本为所述历史图数据库知识源文件,或者为历史全文搜索知识源文件。
本发明第二方面公开一种智能问答系统,所述系统包括:
目标知识源文件获取单元,用于获取目标知识源文件;
分类处理单元,用于将所述目标知识源文件输入预训练的二分类模型中,以使所述预训练的二分类模型对所述目标知识源文件进行分类,得到图数据库知识源文件和全文搜索知识源文件;其中,所述预训练的二分类模型是基于训练单元训练得到;
导入单元,用于将所述图数据库知识源文件导入初始图数据库中得到目标图数据库,将所述全文搜索知识源文件导入初始全文搜索引擎中得到目标全文搜索引擎;
生成单元,用于根据所述目标图数据库和所述目标全文搜索引擎,生成统一搜索引擎;
问题处理单元,用于当接收到用户发送的目标问题时,将所述目标问题输入所述统一搜索引擎,以使所述统一搜索引擎利用目标图数据库对所述目标问题进行处理,得到至少一个第一结果,以及通过所述全文搜索引擎对所述目标问题进行处理,得到至少一个第二结果;
输出单元,用于输出所述至少一个第一结果和所述至少一个第二结果。
可选的,所述系统还包括:
第一计算单元,用于针对每个所述第一结果,计算所述第一结果与所述目标问题之间的相似度;
第二计算单元,用于针对每个所述第二结果,计算所述第二结果与所述目标问题之间的相似度;
排序单元,用于根据每个所述第一结果的相似度和每个所述第二结果的相似度,从大到小对各个所述第一结果和所述第二结果进行排序,得到排序结果;
其中,所述输出单元,具体用于输出排序结果,所述排序结果包括按照相似度从大到小进行排序后的各个所述第一结果和各个所述第二结果。
可选的,所述生成单元,包括:
生成子单元,用于通过搜索网关应用服务对所述目标图数据库和所述目标全文搜索引擎进行封装,生成统一搜索引擎,所述统一搜索引擎包括搜索统一出口;
其中,所述输出单元,还用于通过所述搜索统一出口输出所述排序结果。
可选的,其特征在于,所述训练单元,包括:
知识源文件获取单元,用于获取知识源文件样本集;其中,所述知识源文件样本集包括历史图数据库知识源文件及其样本标签,历史全文搜索知识源文件及其样本标签;
迭代训练单元,用于依次将各个所述知识源文件样本输入待训练的二分类模型,以使所述待训练的二分类模型分别对各个所述知识源文件样本进行处理,以得到的处理结果趋近于每个所述知识源文件样本对应的样本标签为训练目标,对所述待训练的二分类模型进行迭代训练,直至所述待训练的二分类模型达到收敛为止,得到二分类模型;
其中,所述知识源文件样本为所述历史图数据库知识源文件,或者为历史全文搜索知识源文件。
本发明第三方面公开一种电子设备,所述电子设备包括处理器和存储器,所述存储器用于存储智能问答的程序代码和数据,所述处理器用于调用所述存储器中的程序指令执行如上述本发明第一方面公开的一种智能问答方法。
本发明第四方面公开一种存储介质,所述存储介质包括存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行如上述本发明第一方面公开的一种智能问答方法。
本发明提供一种智能问答方法、系统、电子设备及存储介质,首先可以通过利用知识源文件样本集对待训练的二分类模型进行训练得到二分类模型,在获取到目标知识源文件之后,可以通过获取到的目标知识源文件输入预训练的二分类模型中,以使预训练的二分类模型对目标知识源文件进行分类,得到图数据库知识源文件和全文搜索知识源文件;将图数据库知识源文件导入初始图数据库中得到目标图数据库,将全文搜索知识源文件导入初始全文搜索引擎中得到目标全文搜索引擎;根据目标图数据库和目标全文搜索引擎,生成统一搜索引擎;当接收到用户发送的目标问题时,将目标问题输入统一搜索引擎,以使统一搜索引擎利用目标图数据库对目标问题进行处理,得到至少一个第一结果,以及通过全文搜索引擎对目标问题进行处理,得到至少一个第二结果;输出至少一个第一结果和至少一个第二结果。本发明提供的技术方案,可以先将目标知识源文件进行分类后,针对不同类型的知识源文件进行分类存储,让知识源文件以最优模式存储到合适的搜索引擎中,可以不仅可以提高每个搜索引擎的搜索精度,还可以实现对知识源文件的统一管理。并且根据目标图数据库和目标全文搜索引擎,生成的统一搜索引擎,可以统一对外提供搜索服务,同一个搜索引擎,可以实现不同类型知识源文件的搜索。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种智能问答方法的流程示意图;
图2为本发明实施例提供的一种智能问答系统的结构示意图;
图3为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
需要说明的是,本发明提供的一种智能问答方法可用于云计算领域、大数据领域、数据处理技术领域或金融领域。上述仅为示例,并不对本发明提供的发明名称的应用领域进行限定。
本发明提供的一种智能问答方法可用于金融领域或其他领域,例如,可用于金融领域中的身份认证应用场景。其他领域为除金融领域之外的任意领域,例如,云计算领域。上述仅为示例,并不对本发明提供的一种智能问答方法的应用领域进行限定。
参见图1,示出了本发明实施例提供的一种智能问答方法的流程示意图,该智能问答方法具体包括以下步骤:
S101:获取目标知识源文件。
在具体执行步骤S101的过程中,获取目前需要进行分类的目标知识源文件。其中,目标知识源文件包括图数据库知识源文件和全文搜索知识源文件。
需要说明的是,图数据库知识源文件包括具有一定逻辑关系的数据,例如,包含法人、用户以及业务的数据,并且该数据中的法人、用户以及业务存在一定逻辑关系。
S102:将目标知识源文件输入预训练的二分类模型中,以使预训练的二分类模型对目标知识源文件进行分类,得到图数据库知识源文件和全文搜索知识源文件。
在本申请实施例中,预先训练有二分类模型,预训练的二分类模型是利用知识源文件样本集对待训练的二分类模型进行训练得到的。其中,知识源文件样本集包括历史图数据库知识源文件及其样本标签,历史全文搜索知识源文件及其样本标签。
可选的,利用知识源文件样本集对待训练的二分类模型进行训练得到预训练的二分类模型的过程具体为:获取知识源文件样本集,依次将各个知识源文件样本输入待训练的二分类模型,以使待训练的二分类模型分别对各个知识源文件样本进行处理,利用每个知识源文件样本的处理结果与每个知识源文件样本对应的样本标签构建对应的损失函数,利用每个损失函数对待训练的二分类模型进行迭代训练,直至待训练的二分类模型达到收敛为止,得到二分类模型。
其中,知识源文件样本为历史图数据库知识源文件,或者为历史全文搜索知识源文件。在知识源文件样本为历史图数据库知识源文件时,其对应的样本标签为图数据库;相应的,在知识源文件样本为历史全文搜索知识源文件时,其对应的样本标签为全文搜索。
在具体执行步骤S102的过程中,在训练出二分类模型后,将获取到目标知识源文件输入预训练的二分类模型后,以便预训练的二分类模型对输入的目标知识源文件进行分类处理,得到各个知识源文件及其对应的标签,即得到图数据库知识源文件和全文搜索知识源文件。
S103:将图数据库知识源文件导入初始图数据库中得到目标图数据库,将全文搜索知识源文件导入初始全文搜索引擎中得到目标全文搜索引擎。
在具体执行步骤S103的过程中,在利用预训练的二分类模型对目标知识源文件进行分类,得到图数据库知识源文件和全文搜索知识源文件后,针对图数据库知识源文件,通过预先设置逻辑程序对图数据库知识源文件进行处理,得到结构化数据和非结构化数据;利用预训练的抽取模型从非结构化数据中抽取出相应的实体数据;通过预先设置的业务规则从结构化数据中抽取出相应的实体关系和属性数据;通过预先设置的批量导入程序将实体关系和属性数据,以及实体数据导入初始图数据库中,得到图数据库。
针对全文搜索知识源文件,将全文搜索知识源文件进行梳理,得到多个问答对数据和文本数据,并将问答对数据和文本数据导入初始全文搜索引擎中,得到目标全文搜索引擎。其中,问答对数据的结构是结构化的,这种问答对数据不存在关联关系。
需要说明的是,初始全文搜索引擎可以为关系性数据库。
在本申请实施例中,预训练的抽取模型是利用历史业务文本数据训练得到的。其中,历史业务文本数据的结构是非结构化的。
S104:根据目标图数据库和目标全文搜索引擎,生成统一搜索引擎。
在本申请实施例中,技术人员可以通过封装编程经验编写相应的搜索应用服务。
在具体执行步骤S103的过程中,在将得到的图数据库知识源文件导入初始图数据库得到目标图数据库,以及将得到的全文搜索知识源文件导入初始全文搜索引擎得到目标全文搜索引擎后,通过预先编写的搜索网关应用服务对目标图数据库和目标全文搜索引擎进行封装,生成具有搜索出口的统一搜索引擎。
需要说明的是,搜索统一出口用于输出问题对应的答案,即结果。
S105:当接收到用户发送的目标问题时,将目标问题输入统一搜索引擎,以使统一搜索引擎利用目标图数据库对目标问题进行处理,得到至少一个第一结果,以及通过全文搜索引擎对目标问题进行处理,得到至少一个第二结果。
在具体执行步骤S105的过程中,在根据目标图数据库和目标全文搜索引擎,生成统一搜索引擎后,实时检测是否接收到用户发送的目标问题,当接收到用户发送的目标问题时,将目标问题输入统一搜索引擎,以使统一搜索引擎通过目标图数据库从自身存储的图数据库知识源文件中搜索出与目标问题对应的各个结果(为了便于区间,将目标图数据库搜索出与目标问题对应的结果称为第一结果)。
以及通过全文搜索引擎对目标问题进行分析,结合上下文的联系关系,从自身存储的全文搜索知识源文件中搜索出与目标问题对应的各个结果(为了便于区间,将目标全文搜索引擎搜索出与目标问题对应的结果称为第二结果)。
S106:输出各个第一结果和各个第二结果。
在具体执行步骤S106的过程中,可以通过搜索统一出口输出各个第一结果和各个第二结果。
可选的,在通过搜索统一出口输出各个第一结果和各个第二结果之前,本申请实施例还可以通过调用二次排序算法计算每个第一结果与目标问题之间的相似度,以及计算每个第二结果与目标问题之间的相似度之后,根据每个第一结果的相似度和每个第二结果的相似度,从大到小对各个第一结果和第二结果进行排序,得到排序结果,再通过搜索统一出口输出排序结果。
本发明提供一种智能问答方法,首先可以通过利用知识源文件样本集对待训练的二分类模型进行训练得到二分类模型,在获取到目标知识源文件之后,可以通过获取到的目标知识源文件输入预训练的二分类模型中,以使预训练的二分类模型对目标知识源文件进行分类,得到图数据库知识源文件和全文搜索知识源文件;将图数据库知识源文件导入初始图数据库中得到目标图数据库,将全文搜索知识源文件导入初始全文搜索引擎中得到目标全文搜索引擎;根据目标图数据库和目标全文搜索引擎,生成统一搜索引擎;当接收到用户发送的目标问题时,将目标问题输入统一搜索引擎,以使统一搜索引擎利用目标图数据库对目标问题进行处理,得到至少一个第一结果,以及通过全文搜索引擎对目标问题进行处理,得到至少一个第二结果;输出至少一个第一结果和至少一个第二结果。本发明提供的技术方案,可以先将目标知识源文件进行分类后,针对不同类型的知识源文件进行分类存储,让知识源文件以最优模式存储到合适的搜索引擎中,不仅可以提高每个搜索引擎的搜索精度,还可以实现知识源文件的统一管理。并且根据目标图数据库和目标全文搜索引擎,生成的统一搜索引擎,可以统一对外提供搜索服务,同一个搜索引擎,可以实现不同类型知识源文件的搜索。
与上述本发明实施例公开的一种智能问答方法相对应,参考图2,本发明实施例还提供了一种智能问答系统的结构示意图,该智能问答系统包括:
目标知识源文件获取单元21,用于获取目标知识源文件;
分类处理单元22,用于将目标知识源文件输入预训练的二分类模型中,以使预训练的二分类模型对目标知识源文件进行分类,得到图数据库知识源文件和全文搜索知识源文件;其中,预训练的二分类模型是基于训练单元训练得到;
导入单元23,用于将图数据库知识源文件导入初始图数据库中得到目标图数据库,将全文搜索知识源文件导入初始全文搜索引擎中得到目标全文搜索引擎;
生成单元24,用于根据目标图数据库和目标全文搜索引擎,生成统一搜索引擎;
问题处理单元25,用于当接收到用户发送的目标问题时,将目标问题输入统一搜索引擎,以使统一搜索引擎利用目标图数据库对目标问题进行处理,得到至少一个第一结果,以及通过全文搜索引擎对目标问题进行处理,得到至少一个第二结果;
输出单元26,用于输出至少一个第一结果和至少一个第二结果。
上述本发明实施例公开的智能问答系统中各个单元具体的原理和执行过程,与上述本发明实施例图1公开的智能问答方法相同,可参见上述本发明实施例图1公开的智能问答方法中相应的部分,这里不再进行赘述。
本发明提供一种智能问答系统,首先可以通过利用知识源文件样本集对待训练的二分类模型进行训练得到二分类模型,在获取到目标知识源文件之后,可以通过获取到的目标知识源文件输入预训练的二分类模型中,以使预训练的二分类模型对目标知识源文件进行分类,得到图数据库知识源文件和全文搜索知识源文件;将图数据库知识源文件导入初始图数据库中得到目标图数据库,将全文搜索知识源文件导入初始全文搜索引擎中得到目标全文搜索引擎;根据目标图数据库和目标全文搜索引擎,生成统一搜索引擎;当接收到用户发送的目标问题时,将目标问题输入统一搜索引擎,以使统一搜索引擎利用目标图数据库对目标问题进行处理,得到至少一个第一结果,以及通过全文搜索引擎对目标问题进行处理,得到至少一个第二结果;输出至少一个第一结果和至少一个第二结果。本发明提供的技术方案,可以先将目标知识源文件进行分类后,针对不同类型的知识源文件进行分类存储,让知识源文件以最优模式存储到合适的搜索引擎中,不仅可以提高每个搜索引擎的搜索精度,还可以实现知识源文件的统一管理。并且根据目标图数据库和目标全文搜索引擎,生成的统一搜索引擎,可以统一对外提供搜索服务,同一个搜索引擎,可以实现不同类型知识源文件的搜索。
进一步的,本发明实施例提供的智能问答系统还包括:
第一计算单元,用于针对每个第一结果,计算第一结果与目标问题之间的相似度;
第二计算单元,用于针对每个第二结果,计算第二结果与目标问题之间的相似度;
排序单元,用于根据每个第一结果的相似度和每个第二结果的相似度,从大到小对各个第一结果和第二结果进行排序,得到排序结果;
其中,输出单元,具体用于输出排序结果,排序结果包括按照相似度从大到小进行排序后的各个第一结果和各个第二结果。
可选的,生成单元,包括:
生成子单元,用于通过搜索网关应用服务对目标图数据库和目标全文搜索引擎进行封装,生成统一搜索引擎,统一搜索引擎包括搜索统一出口;
其中,输出单元,还用于通过搜索统一出口输出排序结果。
可选的,训练单元,包括:
知识源文件获取单元,用于获取知识源文件样本集;其中,知识源文件样本集包括历史图数据库知识源文件及其样本标签,历史全文搜索知识源文件及其样本标签;
迭代训练单元,用于依次将各个知识源文件样本输入待训练的二分类模型,以使待训练的二分类模型分别对各个知识源文件样本进行处理,以得到的处理结果趋近于每个知识源文件样本对应的样本标签为训练目标,对待训练的二分类模型进行迭代训练,直至待训练的二分类模型达到收敛为止,得到二分类模型;
其中,知识源文件样本为历史图数据库知识源文件,或者为历史全文搜索知识源文件样本。
本申请实施例还提供一种电子设备,该电子设备包括:处理器以及存储器,所述处理器以及存储器通过通信总线相连;其中,所述处理器,用于调用并执行所述存储器中存储的程序;所述存储器,用于存储程序,该程序用于实现智能问答方法。
下面参考图3,其示出了适于用来实现本发明公开实施例的电子设备的结构示意图。本发明公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例,不应对本发明公开实施例的功能和使用范围带来任何限制。
如图3所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等)301,其可以根据存储在只读存储器(ROM)302中的程序或者从存储装置306加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM 303中,还存储有电子设备操作所需的各种程序和数据。处理装置301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。
通常,以下装置可以连接至I/O接口305:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置306;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置307;包括例如磁带、硬盘等的存储装置308;以及通信装置309。通信装置309可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本发明公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置309从网络上被下载和安装,或者从存储装置308被安装,或者从ROM 302被安装。在该计算机程序被处理装置301执行时,执行本发明公开实施例的方法中限定的上述功能。
更进一步的,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令用于执行智能问答方法。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取目标知识源文件;将所述目标知识源文件输入预训练的二分类模型中,以使所述预训练的二分类模型对所述目标知识源文件进行分类,得到图数据库知识源文件和全文搜索知识源文件;其中,所述预训练的二分类模型是利用知识源文件样本集对待训练的二分类模型进行训练得到;所述知识源文件样本集至少包括历史图数据库知识源文件和历史全文搜索知识源文件;将所述图数据库知识源文件导入初始图数据库中得到目标图数据库,将所述全文搜索知识源文件导入初始全文搜索引擎中得到目标全文搜索引擎;根据所述目标图数据库和所述目标全文搜索引擎,生成统一搜索引擎;当接收到用户发送的目标问题时,将所述目标问题输入所述统一搜索引擎,以使所述统一搜索引擎利用目标图数据库对所述目标问题进行处理,得到至少一个第一结果,以及通过所述全文搜索引擎对所述目标问题进行处理,得到至少一个第二结果;输出所述至少一个第一结果和所述至少一个第二结果。
在本发明公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
需要说明的是,本发明公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种智能问答方法,其特征在于,所述方法包括:
获取目标知识源文件;
将所述目标知识源文件输入预训练的二分类模型中,以使所述预训练的二分类模型对所述目标知识源文件进行分类,得到图数据库知识源文件和全文搜索知识源文件;其中,所述预训练的二分类模型是利用知识源文件样本集对待训练的二分类模型进行训练得到;所述知识源文件样本集至少包括历史图数据库知识源文件和历史全文搜索知识源文件;
将所述图数据库知识源文件导入初始图数据库中得到目标图数据库,将所述全文搜索知识源文件导入初始全文搜索引擎中得到目标全文搜索引擎;
根据所述目标图数据库和所述目标全文搜索引擎,生成统一搜索引擎;
当接收到用户发送的目标问题时,将所述目标问题输入所述统一搜索引擎,以使所述统一搜索引擎利用目标图数据库对所述目标问题进行处理,得到至少一个第一结果,以及通过所述全文搜索引擎对所述目标问题进行处理,得到至少一个第二结果;
输出所述至少一个第一结果和所述至少一个第二结果。
2.根据权利要求1所述的方法,其特征在于,所述输出所述至少一个第一结果和所述至少一个第二结果之前,所述方法还包括:
针对每个所述第一结果,计算所述第一结果与所述目标问题之间的相似度;
针对每个所述第二结果,计算所述第二结果与所述目标问题之间的相似度;
根据每个所述第一结果的相似度和每个所述第二结果的相似度,从大到小对各个所述第一结果和所述第二结果进行排序,得到排序结果;
其中,所述输出所述至少一个第一结果和所述至少一个第二结果,包括:
输出所述排序结果,所述排序结果包括按照相似度从大到小进行排序后的各个所述第一结果和各个所述第二结果。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标图数据库和所述目标全文搜索引擎,生成统一搜索引擎,包括:
通过搜索网关应用服务对所述目标图数据库和所述目标全文搜索引擎进行封装,生成统一搜索引擎,所述统一搜索引擎包括搜索统一出口;
其中,所述输出所述排序结果,包括:
通过所述搜索统一出口输出所述排序结果。
4.根据权利要求1所述的方法,其特征在于,所述利用知识源文件样本集对待训练的二分类模型进行训练得到所述预训练的二分类模型,包括:
获取知识源文件样本集;其中,所述知识源文件样本集包括历史图数据库知识源文件及其样本标签,历史全文搜索知识源文件及其样本标签;
依次将各个所述知识源文件样本输入待训练的二分类模型,以使所述待训练的二分类模型分别对各个所述知识源文件样本进行处理,以得到的处理结果趋近于每个所述知识源文件样本对应的样本标签为训练目标,对所述待训练的二分类模型进行迭代训练,直至所述待训练的二分类模型达到收敛为止,得到二分类模型;
其中,所述知识源文件样本为所述历史图数据库知识源文件,或者为历史全文搜索知识源文件。
5.一种智能问答系统,其特征在于,所述系统包括:
目标知识源文件获取单元,用于获取目标知识源文件;
分类处理单元,用于将所述目标知识源文件输入预训练的二分类模型中,以使所述预训练的二分类模型对所述目标知识源文件进行分类,得到图数据库知识源文件和全文搜索知识源文件;其中,所述预训练的二分类模型是基于训练单元训练得到;
导入单元,用于将所述图数据库知识源文件导入初始图数据库中得到目标图数据库,将所述全文搜索知识源文件导入初始全文搜索引擎中得到目标全文搜索引擎;
生成单元,用于根据所述目标图数据库和所述目标全文搜索引擎,生成统一搜索引擎;
问题处理单元,用于当接收到用户发送的目标问题时,将所述目标问题输入所述统一搜索引擎,以使所述统一搜索引擎利用目标图数据库对所述目标问题进行处理,得到至少一个第一结果,以及通过所述全文搜索引擎对所述目标问题进行处理,得到至少一个第二结果;
输出单元,用于输出所述至少一个第一结果和所述至少一个第二结果。
6.根据权利要求5所述的系统,其特征在于,所述系统还包括:
第一计算单元,用于针对每个所述第一结果,计算所述第一结果与所述目标问题之间的相似度;
第二计算单元,用于针对每个所述第二结果,计算所述第二结果与所述目标问题之间的相似度;
排序单元,用于根据每个所述第一结果的相似度和每个所述第二结果的相似度,从大到小对各个所述第一结果和所述第二结果进行排序,得到排序结果;
其中,所述输出单元,具体用于输出排序结果,所述排序结果包括按照相似度从大到小进行排序后的各个所述第一结果和各个所述第二结果。
7.根据权利要求6所述的系统,其特征在于,所述生成单元,包括:
生成子单元,用于通过搜索网关应用服务对所述目标图数据库和所述目标全文搜索引擎进行封装,生成统一搜索引擎,所述统一搜索引擎包括搜索统一出口;
其中,所述输出单元,还用于通过所述搜索统一出口输出所述排序结果。
8.根据权利要求5所述的系统,其特征在于,
所述训练单元,包括:
知识源文件获取单元,用于获取知识源文件样本集;其中,所述知识源文件样本集包括历史图数据库知识源文件及其样本标签,历史全文搜索知识源文件及其样本标签;
迭代训练单元,用于依次将各个所述知识源文件样本输入待训练的二分类模型,以使所述待训练的二分类模型分别对各个所述知识源文件样本进行处理,以得到的处理结果趋近于每个所述知识源文件样本对应的样本标签为训练目标,对所述待训练的二分类模型进行迭代训练,直至所述待训练的二分类模型达到收敛为止,得到二分类模型;
其中,所述知识源文件样本为所述历史图数据库知识源文件,或者为历史全文搜索知识源文件。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器用于存储智能问答的程序代码和数据,所述处理器用于调用所述存储器中的程序指令执行如权利要求1-4中任一项所述的一种智能问答方法。
10.一种存储介质,其特征在于,所述存储介质包括存储程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-4中任一项所述的一种智能问答方法。
CN202111424384.6A 2021-11-26 2021-11-26 一种智能问答方法、系统、电子设备及存储介质 Pending CN114020896A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111424384.6A CN114020896A (zh) 2021-11-26 2021-11-26 一种智能问答方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111424384.6A CN114020896A (zh) 2021-11-26 2021-11-26 一种智能问答方法、系统、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114020896A true CN114020896A (zh) 2022-02-08

Family

ID=80066742

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111424384.6A Pending CN114020896A (zh) 2021-11-26 2021-11-26 一种智能问答方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114020896A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541536A (zh) * 2023-05-30 2023-08-04 北京百度网讯科技有限公司 知识增强的内容生成系统、数据生成方法、设备和介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116541536A (zh) * 2023-05-30 2023-08-04 北京百度网讯科技有限公司 知识增强的内容生成系统、数据生成方法、设备和介质
CN116541536B (zh) * 2023-05-30 2024-03-01 北京百度网讯科技有限公司 知识增强的内容生成系统、数据生成方法、设备和介质

Similar Documents

Publication Publication Date Title
CN108153901B (zh) 基于知识图谱的信息推送方法和装置
CN111428010B (zh) 人机智能问答的方法和装置
CN110738056B (zh) 用于生成信息的方法和装置
CN111460288B (zh) 用于检测新闻事件的方法和装置
CN112182255A (zh) 用于存储媒体文件和用于检索媒体文件的方法和装置
CN113033707B (zh) 视频分类方法、装置、可读介质及电子设备
US11361031B2 (en) Dynamic linguistic assessment and measurement
CN114357325A (zh) 内容搜索方法、装置、设备及介质
CN111078849A (zh) 用于输出信息的方法和装置
CN116933800B (zh) 一种基于模版的生成式意图识别方法及装置
CN114020896A (zh) 一种智能问答方法、系统、电子设备及存储介质
CN113590756A (zh) 信息序列生成方法、装置、终端设备和计算机可读介质
CN111382365B (zh) 用于输出信息的方法和装置
CN111475722B (zh) 用于发送信息的方法和装置
CN112148865B (zh) 信息推送方法和装置
CN117171328A (zh) 文本问答处理方法、装置、电子设备及存储介质
CN109857838B (zh) 用于生成信息的方法和装置
CN114328655A (zh) 一种基于深度学习的智能业务处理方法及系统
CN114820162A (zh) 一种风险评估方法、系统、电子设备及存储介质
CN112148751B (zh) 用于查询数据的方法和装置
CN113761183A (zh) 意图识别方法和意图识别装置
CN110990528A (zh) 一种问答方法、装置及电子设备
CN111432080A (zh) 话单数据处理方法、电子设备及计算机可读存储介质
CN111259659B (zh) 信息处理方法和装置
CN114613355B (zh) 视频处理方法、装置、可读介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination