CN115712715A - 问答方法、装置、电子设备以及存储介质进行介绍 - Google Patents
问答方法、装置、电子设备以及存储介质进行介绍 Download PDFInfo
- Publication number
- CN115712715A CN115712715A CN202211560886.6A CN202211560886A CN115712715A CN 115712715 A CN115712715 A CN 115712715A CN 202211560886 A CN202211560886 A CN 202211560886A CN 115712715 A CN115712715 A CN 115712715A
- Authority
- CN
- China
- Prior art keywords
- text
- determining
- question
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本公开提供了一种问答方法、装置、电子设备以及存储介质,涉及人工智能技术领域,尤其涉及深度学习、自然语言处理、智能搜索技术领域。具体实现方案为:获取待处理的问题文本,以及问题文本中的各个词语;根据各个词语对应的上位概念词语,生成问题文本对应的通用问题文本;确定通用问题文本的主题;根据主题以及问题文本,确定问题文本对应的答案文本。由此,将问题文本中的各个词语映射为上位概念词语,得到对应的主题,进而得到答案文本,不仅减小了问题文本库的构建成本,提高了问题文本理解的准确率。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及深度学习、自然语言处理、智能搜索技术领域,具体涉及一种问答方法、装置、电子设备以及存储介质。
背景技术
目前,相关技术的问答方法,主要通过提前构建问题文本库,将问题文本与问题文本库中的问题文本样本匹配,理解问题文本的主题,从而完成回答。上述方案中,由于金融市场股票在不断增多,构建问题文本库的成本高,且将问题文本与问题文本库中的问题文本样本匹配得到的主题的理解准确率低。
发明内容
本公开提供了一种问答方法、装置、设备以及存储介质。
根据本公开的第一方面,提供了一种问答方法,包括:获取待处理的问题文本,以及所述问题文本中的各个词语;根据各个所述词语对应的上位概念词语,生成所述问题文本对应的通用问题文本;确定所述通用问题文本的主题;根据所述主题以及所述问题文本,确定所述问题文本对应的答案文本。
根据本公开的第二方面,提供了一种潜在语义索引LSI模型的训练方法,所述方法包括:获取训练数据,其中,所述训练数据包括:各个通用问题文本样本以及所述通用问题文本样本的主题;所述通用问题文本样本根据问题文本样本以及映射关系表确定,所述映射关系表中包括词语与上位概念词语之间的映射关系;确定各个所述通用问题文本样本的文本向量;以各个所述通用问题文本样本的文本向量为输入,以各个所述通用问题文本样本的主题为输出,对初始的LSI模型进行训练,得到用于确定通用问题文本的主题的LSI模型。
根据本公开的第三方面,提供了一种问答装置,所述装置包括:第一获取模块,用于获取待处理的问题文本,以及所述问题文本中的各个词语;生成模块,用于根据各个所述词语对应的上位概念词语,生成所述问题文本对应的通用问题文本;第一确定模块,用于确定所述通用问题文本的主题;第二确定模块,用于根据所述主题以及所述问题文本,确定所述问题文本对应的答案文本。
根据本公开的第四方面,提供了一种潜在语义索引LSI模型的训练装置,所述装置包括:第三获取模块,用于获取训练数据,其中,所述训练数据包括:各个通用问题文本样本以及所述通用问题文本样本的主题;所述通用问题文本样本根据问题文本样本以及映射关系表确定,所述映射关系表中包括词语与上位概念词语之间的映射关系;第三确定模块,用于确定各个所述通用问题文本样本的文本向量;训练模块,用于以各个所述通用问题文本样本的文本向量为输入,以各个所述通用问题文本样本的主题为输出,对初始的LSI模型进行训练,得到用于确定通用问题文本的主题的LSI模型。
根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开的第一方面所述的问答方法,或者,本公开的第二方面所述的潜在语义索引LSI模型的训练方法。
根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开的第一方面所述的问答方法,或者,本公开的第二方面所述的潜在语义索引LSI模型的训练方法。
根据本公开的第七方面,提供了一种计算程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开的第一方面所述的问答方法,或者,本公开的第二方面所述的潜在语义索引LSI模型的训练方法。
上述公开中的一个实施例具有如下优点或有益效果:
通过获取待处理的问题文本,以及问题文本中的各个词语;根据各个词语对应的上位概念词语,生成问题文本对应的通用问题文本;确定通用问题文本的主题;根据主题以及问题文本,确定问题文本对应的答案文本。由此,将问题文本中的各个词语映射为上位概念词语,得到对应的主题,进而得到答案文本,不仅减小了问题文本库的构建成本,提高了问题文本理解的准确率。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是根据本公开第三实施例的示意图;
图4是根据本公开第四实施例的示意图;
图5是根据本公开第五实施例的示意图;
图6是根据本公开第六实施例的示意图;
图7是根据本公开第七实施例的示意图;
图8是用来实现本公开实施例的方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
目前,相关技术的问答方法,主要通过提前构建问题文本库,将问题文本与问题文本库中的问题文本样本匹配,理解问题文本的主题,从而完成回答。上述方案中,由于金融市场股票在不断增多,构建问题文本库的成本高,且将问题文本与问题文本库中的问题文本样本匹配得到的主题的理解准确率低。
下面对本公开的问答方法、装置、电子设备以及存储介质进行介绍。
图1是根据本公开第一实施例的示意图,需要说明的是,本公开实施例的问答方法可应用于问答装置,该装置可被配置于电子设备中,以使该电子设备可以执行问答功能。
其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑(PersonalComputer,简称PC)、移动终端、服务器等,移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。以下以执行主体为电子设备为例进行说明。
步骤101,获取待处理的问题文本,以及问题文本中的各个词语。
其中,问题文本为基于金融问答场景用户提出的问题;词语为问题文本的关键词,例如,问题文本为“工商银行的股价”,对应的词语为“工商银行”、“股价”。
在本公开实施例中,电子设备执行步骤101的过程可以为,确定用户输入到文本框的问题文本,将问题文本进行处理操作,得到问题文本中的各个词语。
其中,处理操作包括:将问题文本中的小写字母变为大写字母;删去问题文本中的标点符号;基于分词词典利用分词工具将问题文本进行词语划分等。分词词典是基于问题文本中出现的各个词语构建的词典,分词工具选择JIEBA等。
可选地,在问题文本中出现新词语后,在分词词典中自定义添加新词语,实现对分词词典进行更新,JIEBA可以自动识别新词语。
步骤102,根据各个词语对应的上位概念词语,生成问题文本对应的通用问题文本。
在本公开实施例中,获取各个词语对应的上位概念词语的过程可以为:针对问题文本中的每个词语,根据词语查询映射关系表,获取词语对应的上位概念词语;映射关系表中包括:词语与上位概念词语之间的映射关系。由此,通过词语与上位概念词语之间的映射降低了问题文本库的构建成本。
其中,所有股票名、股票代码、简称、别称等词语的上位概念词语为“个股”,例如“工行”、“601398”等的上位概念词语为“个股”。
所有板块名、板块代码、板块简称、概念名、概念代码、概念简称、指数名、指数代码、指数简称、指数别称等词语的上位概念词语为“板块”,例如“上证300”、“新能源”等的上位概念词语为“板块”。
所有关系词语、大小关键词等词语的上位概念词语为“关系”,例如大于、之间、最高等的上位概念词语为“关系”。
所有金融指标名词的上位概念词语为“指标”,包括中英文、简写、别名等,例如:市盈率、涨跌幅等的上位概念词语为“指标”。
在本公开实施例中,基于问题文本中的各个词语得到的上位概念词语,将上位概念词语替换问题文本中的词语,得到问题文本对应的通用问题文本。例如,问题文本为“工商银行的市盈率”,“工商银行”的上位概念词语为“个股”,“市盈率”的上位概念词语为“指标”,“工商银行的市盈率”对应的通用问题文本“个股的指标”。
步骤103,确定通用问题文本的主题。
可选地,基于金融问答场景,通用问题文本的主题一般包括5类,分别为:选股、个股行情、个股投顾、金融百科、其他&娱乐聊天。
在本公开实施例中,计算通用问题文本与上述各个主体的相关度,将相关度最高的主题确定为通用问题文本的主题。
步骤104,根据主题以及问题文本,确定问题文本对应的答案文本。
在本公开实施例中,可以根据主题,确定主题对应的文本中参数提取算法;结合文本中参数提取算法,提取出问题文本中参数,根据参数得到问题文本对应的搜索指令;根据搜索指令,获取搜索结果;根据搜索结果,生成问题文本对应的答案文本。
综上,通过获取待处理的问题文本,以及问题文本中的各个词语;根据各个词语对应的上位概念词语,生成问题文本对应的通用问题文本;确定通用问题文本的主题;根据主题以及问题文本,确定问题文本对应的答案文本。由此,将问题文本中的各个词语映射为上位概念词语,得到对应的主题,进而得到答案文本,不仅减小了问题文本库的构建成本,提高了问题文本理解的准确率。
为了进一步提高主题的识别准确率以及问题文本的回答速度,本公开提出了另一种问答方法。如图2所示,图2是根据本公开第二实施例的示意图。图2所示实施例可以包括以下步骤:
步骤201,获取待处理的问题文本,以及问题文本中的各个词语。
步骤202,根据各个词语对应的上位概念词语,生成问题文本对应的通用问题文本。
步骤203,确定通用问题文本与预设的多个主题之间的相似度。
作为一种可能的实现方式,确定通用问题文本中各个词语的词嵌入向量,以及通用问题文本中各个词语的出现次数;根据各个词语的词嵌入向量以及出现次数,确定各个词语的重要度;根据各个词语的词嵌入向量以及重要度,确定通用问题文本的文本向量;将文本向量输入预设的潜在语义索引LSI模型,获取LSI模型输出的通用问题文本与预设的多个主题之间的相似度。由此,通过重要度计算通用问题文本与主题之间的相似度,进而通过LSI模型判断主题,提高了问题文本的主题理解的准确率。
其中,重要度例如可以通过TF-IDF(term frequency-inverse documentfrequency)计算得出,TF-IDF用以评估一字词语对于一个文件集或一个语料库中的其中一份文件的重要程度。
在本公开实施例中,根据各个词语的词嵌入向量以及重要度,确定通用问题文本的文本向量的过程可以为,针对单个词语,该词语的词嵌入向量以及重要度进行乘积,得到处理后向量;将各个词语的处理后向量进行拼接,得到该文本向量。
步骤204,从多个主题中选择对应的相似度最大的主题,作为通用问题文本的主题。
步骤205,根据主题以及问题文本,确定问题文本对应的查询语句。
作为一种可能的实现方式,在主题为设置有多个选择条件的选择类主题的情形下,提取问题文本中的选择指标,以及选择指标对应的关系词以及指标阈值;针对每个选择指标,根据选择指标以及选择指标对应的关系词以及指标阈值,构建选择指标对应的搜索语句;根据问题文本中各个选择指标对应的搜索语句,确定问题文本对应的查询语句。由此,可以将复杂的问题文本处理为查询语句,从而能够处理复杂的问题文本。
例如,针对选股主题,问题文本“市盈率在10到20之间、涨跌幅小于-5%、收盘价较低的股票有哪些?”中选择指标包括:市盈率、涨跌幅、收盘价,市盈率对应的关系词以及指标阈值为:区间,10、20,涨跌幅对应的关系词以及指标阈值为:小于,-5%,收盘价对应的关系词以及指标阈值为:大于,最低价。市盈率对应的搜索语句为“市盈率,A,10,20”,涨跌幅对应的搜索语句为“涨跌幅,C,-5%”,收盘价对应的搜索语句为“收盘价,B1,-2147483648”。
其中,关系词:区间(用A标识)、大于(或者大于等于,用B标识)、最小(大于最小值,升序排序第一个即为最小,用B1标识)、小于(或者小于等于,用C标识)、最大(小于最大值,降序排序第一个即为最大,用C1标识)。
可选地,将各个选择指标对应的搜索语句拼接起来,得到问题文本对应的查询语句。查询语句中的各个搜索语句之间用分号隔离,搜索语句内的、关系词和指标阈值之间用逗号隔离。例如,【“市盈率,A,10,20”;“涨跌幅,C,-5%”;“收盘价,B1,-2147483648”】。
作为另一种可能的实现方式,提取问题文本中的选择指标,根据选择指标,构建选择指标对应的搜索语句;将搜索语句,确定为问题文本对应的查询语句。例如,针对个股行情主题,问题文本“工商银行的股价?”,对应的搜索语句为“工商银行,股价”。
步骤206,获取查询语句对应的查询结果。
作为一种可能的实现方式,根据查询语句查询预设缓存列表,获取缓存列表中满足查询语句的目标数据;预设缓存列表中包括:各个项,以及每个项在至少一个指标上的指标数值;根据目标数据,确定查询语句对应的查询结果。通过查询语句索引查询结果,提高了查询结果的索引速度,进而提高了问题文本回答的速度。
可选地,预设缓存列表可以为DATAFRAME(二维数据结构),通过HMGET命令从Redis(Remote Dictionary Server,远程字典服务)集群缓存中获取选择指标相关的数据,通过PYTHON PANDAS包,构造选择指标对应的DATAFRAME(二维数据结构),从DATAFRAME(二维数据结构)中快速索引满足查询语句的目标数据,进而确定查询语句对应的查询结果。
其中,PANDAS为一种支持PYTHON(计算机程序语言)算法进行数据分析与计算的工具,DATAFRAME(二维数据结构)是一种表格型的数据结构,既可以行索引也可以列索引。
其中,Redis集群缓存中缓存证券行情指标信息,包括:所有股票的所有指标信息、金融百科信息、板块信息等,key表示股票代码,field表示指标名,value表示指标值。
作为另一种可能的实现方式,从Redis(Remote Dictionary Server,远程字典服务)集群缓存中获取选择指标相关的数据,先确定选择指标的股票代码,然后根据选择指标确定对应的指标值。
步骤207,根据查询结果,确定问题文本对应的答案文本。
作为本公开实施例的一种实现方式,将查询结果进行处理得到对应的答案文本,并将答案文本展示给用户。
其中,需要说明的是,201和202的详细说明,可以参考本公开中其他实施例中的说明,此处不再进行详细介绍。
综上,通过获取待处理的问题文本,以及问题文本中的各个词语;根据各个词语对应的上位概念词语,生成问题文本对应的通用问题文本;确定通用问题文本与预设的多个主题之间的相似度;从多个主题中选择对应的相似度最大的主题,作为通用问题文本的主题;根据主题以及问题文本,确定问题文本对应的查询语句;获取查询语句对应的查询结果;根据查询结果,确定问题文本对应的答案文本。由此,通过LSI模型得到通用问题文本与主题之间的相似度,提高了问题文本主题判断的准确率,通过查询语句索引查询结果进而得到答案文本,提高了查询结果的索引速度,进而提高了问题文本回答的速度。
下面对本公开的潜在语义索引LSI模型的训练方法进行介绍。
图3是根据本公开第三实施例的示意图,需要说明的是,本公开实施例的潜在语义索引LSI模型的训练方法可应用于潜在语义索引LSI模型的训练装置,该装置可被配置于电子设备中,以使该电子设备可以执行潜在语义索引LSI模型的训练功能。
其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑(PersonalComputer,简称PC)、移动终端、服务器等,移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。以下以执行主体为电子设备为例进行说明。
步骤301,获取训练数据,其中,训练数据包括:各个通用问题文本样本以及通用问题文本样本的主题;通用问题文本样本根据问题文本样本以及映射关系表确定,映射关系表中包括词语与上位概念词语之间的映射关系。
作为一种可能的实现方式,针对问题文本中的每个词语,根据词语查询映射关系表,获取词语对应的上位概念词语;映射关系表中包括:词语与上位概念词语之间的映射关系;基于问题文本中的各个词语得到的上位概念词语,将上位概念词语替换问题文本中的词语,得到问题文本对应的通用问题文本。
步骤302,确定各个通用问题文本样本的文本向量。
作为一种可能的实现方式,确定通用问题文本样本中各个词语的词嵌入向量,以及通用问题文本样本中各个词语的出现次数;根据各个词语的词嵌入向量以及出现次数,确定各个词语的重要度;根据各个词语的词嵌入向量以及重要度,确定通用问题文本样本的文本向量。
步骤303,以各个通用问题文本样本的文本向量为输入,以各个通用问题文本样本的主题为输出,对初始的LSI模型进行训练,得到用于确定通用问题文本的主题的LSI模型。
作为一种可能的实现方式,将各个通用问题文本样本的文本向量输入LSI模型后,获取输出的预测主题;根据预测主题以及通用问题文本样本的主题,构建损失函数;结合损失函数的数值,对LSI模型进行系数调整,实现对初始的LSI模型的训练。
本公开实施例的潜在语义索引LSI模型的训练方法,通过获取训练数据,其中,训练数据包括:各个通用问题文本样本以及通用问题文本样本的主题;通用问题文本样本根据问题文本样本以及映射关系表确定,映射关系表中包括词语与上位概念词语之间的映射关系;确定各个通用问题文本样本的文本向量;以各个通用问题文本样本的文本向量为输入,以各个通用问题文本样本的主题为输出,对初始的LSI模型进行训练,得到用于确定通用问题文本的主题的LSI模型。由此,通过对初始LSI模型进行训练得到通用问题文本的主题的LSI模型,有助于提高通用问题文本主题判断的准确率。
图4是根据本公开第四实施例的示意图,图4为本公开实施例提出的实现问答功能的架构的示意图。
实现问答功能的架构包括:问答预处理模块410、潜在语义索引LSI问答分类模块420、具体主题回答模块430、redis集群缓存440。
其中,问答预处理模块410,用于对用户的问答语句(问题文本)进行预处理,依次对问答语句(问题文本)经过字母小写变大写、使用分词词表分词、去除符号、关键词映射(词语与上位概念词语之间的映射)。
潜在语义索引LSI问答分类模块420,用于根据输入的问答语句(问题文本),预处理成词袋(各个词语的词嵌入向量,以及各个词语的出现次数),计算语句TF-IDF(重要度),得到LSI向量(文本向量),根据LSI向量(文本向量)和5个主题计算相似度,相似度最高的主题确定为通用问题文本的主题。
具体主题回答模块430,用于得到通用问题文本的主题,即可以根据该主题下的具体规则提取参数(问题文本中的选择指标,以及选择指标对应的关系词以及指标阈值),组织成查询语句,得到查询结果。
redis集群缓存440,用于存储证券行情指标信息,包括所有股票的所有指标信息、金融百科信息、板块信息等,key表示股票代码,field表示指标名,value表示指标值。
综上,通过对问题文本进行处理;判断是否存在通用问题文本的主题的LSI模型;若不存在,需要对LSI模型进行训练得到通用问题文本的主题的LSI模型;如果存在,计算得到与通用问题文本与多个主题之间的相似度最大的主题,根据具体主题规则提取参数,进而构建查询语句;根据查询语句得到查询结果。由此,将问题文本中的各个词语映射为上位概念词语,得到对应的主题,进而得到答案文本,不仅减小了问题文本库的构建成本,提高了问题文本理解的准确率,通过LSI模型得到通用问题文本与主题之间的相似度,提高了问题文本主题判断的准确率,通过查询语句索引查询结果,提高了问题文本回答的速度。
图5是根据本公开第五实施例的示意图,图5为本公开实施例提出的一种问答方法的流程图。
如图5所示,包括以下步骤:
S501,获取问答请求(问题文本)。
S502,将问答语句(问题文本)小写变大写(字母小写变大写)。
S503,自定义金融词表(分词词表)分词。
S504,关键词映射(词语与上位概念词语之间的映射)。
S505,去除符号,得到问题文本对应的通用问题文本。
S506,查询是否存在通用问题文本的主题的LSI模型。
S517,如果不存在,加载优化后的5类主题语料库(问题文本样本)。
S518,所有语料(问题文本样本)预处理。
S519,训练LSI模型。
S520,保存LSI模型。
S507,如果存在,执行步骤S506,加载LSI模型。
S508,问答语句(问题文本)词袋化(各个词语的词嵌入向量,以及各个词语的出现次数),并计算TF-IDF(重要度)。
S509,计算LSI向量(文本向量)。
S510,计算LSI向量(文本向量)和主题相似度。
S511,取最高相似度为意图主题(通用问题文本的主题)。
S512,根据具体主题规则提取参数(问题文本中的选择指标,以及选择指标对应的关系词以及指标阈值)。
S513,构建缓存查询语句。
S514,查询redis集群缓存。
S515,根据查询结果构建回答(答案文本)。
S516,将回答返回给用户(答案文本)。
综上,通过对问题文本进行处理;判断是否存在通用问题文本的主题的LSI模型;若不存在,需要对LSI模型进行训练得到通用问题文本的主题的LSI模型;如果存在,计算得到与通用问题文本与多个主题之间的相似度最大的主题,根据具体主题规则提取参数,进而构建查询语句;根据查询语句得到查询结果。由此,将问题文本中的各个词语映射为上位概念词语,得到对应的主题,进而得到答案文本,不仅减小了问题文本库的构建成本,提高了问题文本理解的准确率,通过LSI模型得到通用问题文本与主题之间的相似度,提高了问题文本主题判断的准确率,通过查询语句索引查询结果,提高了问题文本回答的速度。
图6是根据本公开第六实施例的示意图,图6是本公开提供的一种问答装置的结构示意图。
如图6所示,该问答装置600,包括:第一获取模块610、生成模块620第一确定模块630和第二确定模块640。
其中,第一获取模块610,用于获取待处理的问题文本,以及所述问题文本中的各个词语;
生成模块620,用于根据各个所述词语对应的上位概念词语,生成所述问题文本对应的通用问题文本;
第一确定模块630,用于确定所述通用问题文本的主题;
第二确定模块640,用于根据所述主题以及所述问题文本,确定所述问题文本对应的答案文本。
作为本公开实施例的一种可能实现方式,所述装置还包括:第二获取模块;其中,所述第二获取模块,用于针对所述问题文本中的每个词语,根据所述词语查询映射关系表,获取所述词语对应的上位概念词语;所述映射关系表中包括:词语与上位概念词语之间的映射关系。
作为本公开实施例的一种可能实现方式,所述第一确定模块630,包括:第一确定单元和选择单元;其中,所述第一确定单元,用于确定所述通用问题文本与预设的多个主题之间的相似度;所述选择单元,用于从多个所述主题中选择对应的相似度最大的主题,作为所述通用问题文本的主题。
作为本公开实施例的一种可能实现方式,所述第一确定单元,具体用于确定所述通用问题文本中各个词语的词嵌入向量,以及所述通用问题文本中各个所述词语的出现次数;根据各个所述词语的词嵌入向量以及出现次数,确定各个所述词语的重要度;根据各个所述词语的词嵌入向量以及重要度,确定所述通用问题文本的文本向量;将所述文本向量输入预设的潜在语义索引LSI模型,获取所述LSI模型输出的所述通用问题文本与预设的多个主题之间的相似度。
作为本公开实施例的一种可能实现方式,所述第二确定模块640,包括:第二确定单元、获取单元和第三确定单元;其中,所述第二确定单元,用于根据所述主题以及所述问题文本,确定所述问题文本对应的查询语句;所述获取单元,用于获取所述查询语句对应的查询结果;所述第三确定单元,用于根据所述查询结果,确定所述问题文本对应的答案文本。
作为本公开实施例的一种可能实现方式,所述第二确定单元,具体用于在所述主题为设置有多个选择条件的选择类主题的情形下,提取所述问题文本中的选择指标,以及所述选择指标对应的关系词以及指标阈值;针对每个选择指标,根据所述选择指标以及所述选择指标对应的关系词以及指标阈值,构建所述选择指标对应的搜索语句;根据所述问题文本中各个选择指标对应的搜索语句,确定所述问题文本对应的查询语句。
作为本公开实施例的一种可能实现方式,所述获取单元,具体用于根据所述查询语句查询预设缓存列表,获取所述缓存列表中满足所述查询语句的目标数据;所述预设缓存列表中包括:各个项,以及每个项在至少一个指标上的指标数值;根据所述目标数据,确定所述查询语句对应的查询结果。
综上,通过获取待处理的问题文本,以及问题文本中的各个词语;根据各个词语对应的上位概念词语,生成问题文本对应的通用问题文本;确定通用问题文本的主题;根据主题以及问题文本,确定问题文本对应的答案文本。由此,将问题文本中的各个词语映射为上位概念词语,得到对应的主题,进而得到答案文本,不仅减小了问题文本库的构建成本,提高了问题文本理解的准确率。
图7是根据本公开第七实施例的示意图,图7是本公开提供的一种潜在语义索引LSI模型的训练装置的结构示意图。
如图7所示,该潜在语义索引LSI模型的训练装置700,所述装置700包括:第三获取模块710、第三确定模块720和训练模块730。
其中,第三获取模块710,用于获取训练数据,其中,所述训练数据包括:各个通用问题文本样本以及所述通用问题文本样本的主题;所述通用问题文本样本根据问题文本样本以及映射关系表确定,所述映射关系表中包括词语与上位概念词语之间的映射关系;
第三确定模块720,用于确定各个所述通用问题文本样本的文本向量;
训练模块730,用于以各个所述通用问题文本样本的文本向量为输入,以各个所述通用问题文本样本的主题为输出,对初始的LSI模型进行训练,得到用于确定通用问题文本的主题的LSI模型。
作为本公开实施例的一种可能实现方式,所述第三获取模块720,具体用于确定所述通用问题文本样本中各个词语的词嵌入向量,以及所述通用问题文本样本中各个词语的出现次数;根据各个所述词语的词嵌入向量以及出现次数,确定各个词语的重要度;根据各个所述词语的词嵌入向量以及重要度,确定通用问题文本样本的文本向量。
作为本公开实施例的一种可能实现方式,所述训练模块730,具体用于将各个所述通用问题文本样本的文本向量输入LSI模型后,获取输出的预测主题;根据所述预测主题以及所述通用问题文本样本的主题,构建损失函数;结合所述损失函数的数值,对所述LSI模型进行系数调整,实现对初始的LSI模型的训练。
综上,通过获取训练数据,其中,训练数据包括:各个通用问题文本样本以及通用问题文本样本的主题;通用问题文本样本根据问题文本样本以及映射关系表确定,映射关系表中包括词语与上位概念词语之间的映射关系;确定各个通用问题文本样本的文本向量;以各个通用问题文本样本的文本向量为输入,以各个通用问题文本样本的主题为输出,对初始的LSI模型进行训练,得到用于确定通用问题文本的主题的LSI模型。由此,通过对初始LSI模型进行训练得到通用问题文本的主题的LSI模型,有助于提高通用问题文本主题判断的准确率。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均在征得用户同意的前提下进行,并且均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图8示出了可以用来实施本公开的实施例的示例电子设备800的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图8所示,设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理,例如问答方法,或者,潜在语义索引LSI模型的训练方法。例如,在一些实施例中,问答方法,或者,潜在语义索引LSI模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时,可以执行上文描述的问答方法,或者,潜在语义索引LSI模型的训练方法的一个或多个步骤。备选地,在其他实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行问答方法,或者,潜在语义索引LSI模型的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (23)
1.一种问答方法,包括:
获取待处理的问题文本,以及所述问题文本中的各个词语;
根据各个所述词语对应的上位概念词语,生成所述问题文本对应的通用问题文本;
确定所述通用问题文本的主题;
根据所述主题以及所述问题文本,确定所述问题文本对应的答案文本。
2.根据权利要求1所述的方法,其中,所述方法还包括:
针对所述问题文本中的每个词语,根据所述词语查询映射关系表,获取所述词语对应的上位概念词语;所述映射关系表中包括:词语与上位概念词语之间的映射关系。
3.根据权利要求1所述的方法,其中,所述确定所述通用问题文本的主题,包括:
确定所述通用问题文本与预设的多个主题之间的相似度;
从多个所述主题中选择对应的相似度最大的主题,作为所述通用问题文本的主题。
4.根据权利要求3所述的方法,其中,所述确定所述通用问题文本与预设的多个主题之间的相似度,包括:
确定所述通用问题文本中各个词语的词嵌入向量,以及所述通用问题文本中各个所述词语的出现次数;
根据各个所述词语的词嵌入向量以及出现次数,确定各个所述词语的重要度;
根据各个所述词语的词嵌入向量以及重要度,确定所述通用问题文本的文本向量;
将所述文本向量输入预设的潜在语义索引LSI模型,获取所述LSI模型输出的所述通用问题文本与预设的多个主题之间的相似度。
5.根据权利要求1所述的方法,其中,所述根据所述主题以及所述问题文本,确定所述问题文本对应的答案文本,包括:
根据所述主题以及所述问题文本,确定所述问题文本对应的查询语句;
获取所述查询语句对应的查询结果;
根据所述查询结果,确定所述问题文本对应的答案文本。
6.根据权利要求5所述的方法,其中,所述根据所述主题以及所述问题文本,确定所述问题文本对应的查询语句,包括:
在所述主题为设置有多个选择条件的选择类主题的情形下,提取所述问题文本中的选择指标,以及所述选择指标对应的关系词以及指标阈值;
针对每个选择指标,根据所述选择指标以及所述选择指标对应的关系词以及指标阈值,构建所述选择指标对应的搜索语句;
根据所述问题文本中各个选择指标对应的搜索语句,确定所述问题文本对应的查询语句。
7.根据权利要求5所述的方法,其中,所述获取所述查询语句对应的查询结果,包括:
根据所述查询语句查询预设缓存列表,获取所述缓存列表中满足所述查询语句的目标数据;所述预设缓存列表中包括:各个项,以及每个项在至少一个指标上的指标数值;
根据所述目标数据,确定所述查询语句对应的查询结果。
8.一种潜在语义索引LSI模型的训练方法,所述方法包括:
获取训练数据,其中,所述训练数据包括:各个通用问题文本样本以及所述通用问题文本样本的主题;所述通用问题文本样本根据问题文本样本以及映射关系表确定,所述映射关系表中包括词语与上位概念词语之间的映射关系;
确定各个所述通用问题文本样本的文本向量;
以各个所述通用问题文本样本的文本向量为输入,以各个所述通用问题文本样本的主题为输出,对初始的LSI模型进行训练,得到用于确定通用问题文本的主题的LSI模型。
9.根据权利要求8所述的方法,其中,所述确定各个所述通用问题文本样本的文本向量,包括:
确定所述通用问题文本样本中各个词语的词嵌入向量,以及所述通用问题文本样本中各个词语的出现次数;
根据各个所述词语的词嵌入向量以及出现次数,确定各个词语的重要度;
根据各个所述词语的词嵌入向量以及重要度,确定通用问题文本样本的文本向量。
10.根据权利要求8所述的方法,其中,所述以各个所述通用问题文本样本的文本向量为输入,以各个所述通用问题文本样本的主题为输出,对初始的LSI模型进行训练,得到用于确定通用问题文本的主题的LSI模型,包括:
将各个所述通用问题文本样本的文本向量输入LSI模型后,获取输出的预测主题;
根据所述预测主题以及所述通用问题文本样本的主题,构建损失函数;
结合所述损失函数的数值,对所述LSI模型进行系数调整,实现对初始的LSI模型的训练。
11.一种问答装置,包括:
第一获取模块,用于获取待处理的问题文本,以及所述问题文本中的各个词语;
生成模块,用于根据各个所述词语对应的上位概念词语,生成所述问题文本对应的通用问题文本;
第一确定模块,用于确定所述通用问题文本的主题;
第二确定模块,用于根据所述主题以及所述问题文本,确定所述问题文本对应的答案文本。
12.根据权利要求11所述的装置,其中,所述装置还包括:第二获取模块;
其中,所述第二获取模块,用于针对所述问题文本中的每个词语,根据所述词语查询映射关系表,获取所述词语对应的上位概念词语;所述映射关系表中包括:词语与上位概念词语之间的映射关系。
13.根据权利要求11所述的装置,其中,所述第一确定模块,包括:第一确定单元和选择单元;
其中,所述第一确定单元,用于确定所述通用问题文本与预设的多个主题之间的相似度;
所述选择单元,用于从多个所述主题中选择对应的相似度最大的主题,作为所述通用问题文本的主题。
14.根据权利要求13所述的装置,其中,所述第一确定单元,具体用于,
确定所述通用问题文本中各个词语的词嵌入向量,以及所述通用问题文本中各个所述词语的出现次数;
根据各个所述词语的词嵌入向量以及出现次数,确定各个所述词语的重要度;
根据各个所述词语的词嵌入向量以及重要度,确定所述通用问题文本的文本向量;
将所述文本向量输入预设的潜在语义索引LSI模型,获取所述LSI模型输出的所述通用问题文本与预设的多个主题之间的相似度。
15.根据权利要求11所述的装置,其中,所述第二确定模块,包括:第二确定单元、获取单元和第三确定单元;
其中,所述第二确定单元,用于根据所述主题以及所述问题文本,确定所述问题文本对应的查询语句;
所述获取单元,用于获取所述查询语句对应的查询结果;
所述第三确定单元,用于根据所述查询结果,确定所述问题文本对应的答案文本。
16.根据权利要求15所述的装置,其中,所述第二确定单元,具体用于,
在所述主题为设置有多个选择条件的选择类主题的情形下,提取所述问题文本中的选择指标,以及所述选择指标对应的关系词以及指标阈值;
针对每个选择指标,根据所述选择指标以及所述选择指标对应的关系词以及指标阈值,构建所述选择指标对应的搜索语句;
根据所述问题文本中各个选择指标对应的搜索语句,确定所述问题文本对应的查询语句。
17.根据权利要求15所述的装置,其中,所述获取单元,具体用于,
根据所述查询语句查询预设缓存列表,获取所述缓存列表中满足所述查询语句的目标数据;所述预设缓存列表中包括:各个项,以及每个项在至少一个指标上的指标数值;
根据所述目标数据,确定所述查询语句对应的查询结果。
18.一种潜在语义索引LSI模型的训练装置,所述装置包括:
第三获取模块,用于获取训练数据,其中,所述训练数据包括:各个通用问题文本样本以及所述通用问题文本样本的主题;所述通用问题文本样本根据问题文本样本以及映射关系表确定,所述映射关系表中包括词语与上位概念词语之间的映射关系;
第三确定模块,用于确定各个所述通用问题文本样本的文本向量;
训练模块,用于以各个所述通用问题文本样本的文本向量为输入,以各个所述通用问题文本样本的主题为输出,对初始的LSI模型进行训练,得到用于确定通用问题文本的主题的LSI模型。
19.根据权利要求18所述的装置,其中,所述第三获取模块,具体用于,
确定所述通用问题文本样本中各个词语的词嵌入向量,以及所述通用问题文本样本中各个词语的出现次数;
根据各个所述词语的词嵌入向量以及出现次数,确定各个词语的重要度;
根据各个所述词语的词嵌入向量以及重要度,确定通用问题文本样本的文本向量。
20.根据权利要求18所述的装置,其中,所述训练模块,具体用于,
将各个所述通用问题文本样本的文本向量输入LSI模型后,获取输出的预测主题;
根据所述预测主题以及所述通用问题文本样本的主题,构建损失函数;
结合所述损失函数的数值,对所述LSI模型进行系数调整,实现对初始的LSI模型的训练。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的问答方法,或者,权利要求8-10任一项所述的潜在语义索引LSI模型的训练方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的问答方法,或者,权利要求8-10任一项所述的潜在语义索引LSI模型的训练方法。
23.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的问答方法的步骤,或者,权利要求8-10任一项所述的潜在语义索引LSI模型的训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211560886.6A CN115712715A (zh) | 2022-12-06 | 2022-12-06 | 问答方法、装置、电子设备以及存储介质进行介绍 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211560886.6A CN115712715A (zh) | 2022-12-06 | 2022-12-06 | 问答方法、装置、电子设备以及存储介质进行介绍 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115712715A true CN115712715A (zh) | 2023-02-24 |
Family
ID=85235649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211560886.6A Pending CN115712715A (zh) | 2022-12-06 | 2022-12-06 | 问答方法、装置、电子设备以及存储介质进行介绍 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115712715A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312516A (zh) * | 2023-09-27 | 2023-12-29 | 星环信息科技(上海)股份有限公司 | 一种知识问答方法、装置、设备及存储介质 |
-
2022
- 2022-12-06 CN CN202211560886.6A patent/CN115712715A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117312516A (zh) * | 2023-09-27 | 2023-12-29 | 星环信息科技(上海)股份有限公司 | 一种知识问答方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10824816B2 (en) | Semantic parsing method and apparatus | |
CN113836314B (zh) | 知识图谱构建方法、装置、设备以及存储介质 | |
CN114861889A (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
CN113326420A (zh) | 问题检索方法、装置、电子设备和介质 | |
CN113434636A (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN115712715A (zh) | 问答方法、装置、电子设备以及存储介质进行介绍 | |
CN114625834A (zh) | 企业的行业信息确定方法、装置及电子设备 | |
CN113919424A (zh) | 文本处理模型的训练、文本处理方法、装置、设备和介质 | |
CN113191145A (zh) | 关键词的处理方法、装置、电子设备和介质 | |
CN112926297B (zh) | 处理信息的方法、装置、设备和存储介质 | |
CN114969371A (zh) | 一种联合知识图谱的热度排序方法及装置 | |
CN114048315A (zh) | 确定文档标签的方法、装置、电子设备和存储介质 | |
CN114841172A (zh) | 文本匹配双塔模型的知识蒸馏方法、装置及程序产品 | |
CN114328855A (zh) | 文档查询方法、装置、电子设备和可读存储介质 | |
CN114417862A (zh) | 文本匹配方法、文本匹配模型的训练方法和装置 | |
CN114064859A (zh) | 知识抽取方法、装置、设备、介质和程序产品 | |
CN114490969A (zh) | 基于表格的问答方法、装置以及电子设备 | |
CN113378015A (zh) | 搜索方法、装置、电子设备、存储介质和程序产品 | |
CN113239273A (zh) | 用于生成文本的方法、装置、设备以及存储介质 | |
CN113377904A (zh) | 行业动作识别方法、装置、电子设备及存储介质 | |
CN112784600A (zh) | 信息排序方法、装置、电子设备和存储介质 | |
CN114925185B (zh) | 交互方法、模型的训练方法、装置、设备及介质 | |
CN113656592B (zh) | 基于知识图谱的数据处理方法、装置、电子设备和介质 | |
CN116069914B (zh) | 训练数据的生成方法、模型训练方法以及装置 | |
CN116244432B (zh) | 语言模型的预训练方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |