CN112035631A - 结合rpa及ai的对话问答方法、装置、设备及存储介质 - Google Patents
结合rpa及ai的对话问答方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112035631A CN112035631A CN202010840306.3A CN202010840306A CN112035631A CN 112035631 A CN112035631 A CN 112035631A CN 202010840306 A CN202010840306 A CN 202010840306A CN 112035631 A CN112035631 A CN 112035631A
- Authority
- CN
- China
- Prior art keywords
- target
- concept
- candidate
- question
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
Abstract
本申请实施例提供了一种结合RPA及AI的对话问答方法、装置、设备及存储介质。该方法包括:接收用户输入的目标问题;确定目标问题对应的至少一个候选问题;提取目标问题中的目标概念;对目标概念进行校验;若目标概念通过校验,则根据目标问题与各候选问题间的语义相关度确定标准问题;根据标准问题确定目标问题对应的目标答案;输出目标答案。能够保证提取出的目标概念是有明确语义的目标概念,进而能够准确对目标问题进行解析。并且准确确定出与目标问题相匹配的标准问题,进而将标准问题对应的答案确定为目标问题的答案,能够使确定出的目标答案更加准确,提高了向用户推荐的答案准确性,大大提高了用户对问答系统的使用体验。
Description
技术领域
本申请实施例涉及自然语音处理技术领域,尤其涉及一种结合RPA(RoboticProcess Automation,机器人流程自动化)及AI(Artificia lIntelligence,人工智能)的对话问答方法、装置、设备及存储介质。
背景技术
机器人流程自动化(Robotic Process Automation,简称:RPA)是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。人工智能(ArtificialIntelligence,简称:AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。随着人工智能技术的成熟,自然语言处理技术也得到了快速发展。自然语音处理技术是人工智能领域中的一个重要方向。它能够实现人与计算机之间用自然语言进行有效通信。对话问答系统是一个以自然语言理解技术为核心,完成对用户问题的分析处理,并生成正确答案的系统。
在对话问答系统进行用户问题的分析时,需要抽取用户问题中的概念,现有技术中在抽取用户问题中的概念后,抽取的概念在用户问题所属的领域中并没有明确的语义,导致不能准确地对用户问题进行解析,向用户推荐的答案准确性较差,降低了用户对问题系统的使用体验。
发明内容
本申请实施例提供一种结合RPA及AI的对话问答方法、装置、设备及存储介质,解决了现有技术中在抽取用户问题中的概念后,抽取的概念在用户问题所属的领域中并没有明确的语义,导致不能准确地对用户问题中的概念进行抽取,进而使对用户问题解析不准确,向用户推荐的答案准确性较差,降低了用户对问题系统的使用体验的技术问题。
第一方面,本申请实施例提供一种结合RPA及AI的对话问答方法,包括:所述方法应用于电子设备,所述方法包括:
接收用户输入的目标问题;确定所述目标问题对应的至少一个候选问题;提取所述目标问题中的目标概念;对所述目标概念进行校验;若所述目标概念通过校验,则根据所述目标问题与各所述候选问题间的语义相关度确定标准问题;根据所述标准问题确定所述目标问题对应的目标答案;输出所述目标答案。
进一步地,如上所述的方法,所述提取所述目标问题中的目标概念,包括:
将所述目标问题与预设的目标领域问句模板集中的各问句模板进行正则匹配;获取与所述目标问题相匹配的问句模板;确定所述目标问题与所述相匹配的问句模板之间的增加文本;将所述增加文本确定为目标概念。
进一步地,如上所述的方法,若所述目标领域问句模板集中不存在与所述目标问题相匹配的问句模板,则还包括:
将所述目标问题与预先构建的目标领域概念集中的各待选概念进行关键词匹配;获取与所述目标问题匹配度最高的待选概念;将所述相匹配度最高的待选概念确定为所述目标问题的目标概念。
进一步地,如上所述的方法,所述对所述目标概念进行校验,包括:
采用训练至收敛的目标分类模型对目标概念进行类型识别;若目标概念为明确语义类型,则确定该目标概念通过校验;若目标概念为无明确语义类型,则确定该目标概念未通过校验。
进一步地,如上所述的方法,所述采用训练至收敛的目标分类模型对目标概念进行类型识别,包括:
提取目标概念的语义相关特征;将各所述语义相关特征输入到训练至收敛的目标分类模型中,以根据各所述语义相关特征对目标概念进行类型识别;通过所述训练至收敛的目标分类模型输出目标概念的类别。
进一步地,如上所述的方法,所述目标概念的语义相关特征包括以下任意一种或多种:
单词频次平均值,双词频次平均值,目标领域内的单词IDF平均值,是否为单字,通用领域内的单词IDF平均值,相邻单词内聚度平均值。
进一步地,如上所述的方法,所述训练至收敛的目标分类模型为训练至收敛的目标GBDT决策树模型。
进一步地,如上所述的方法,所述采用训练至收敛的分类模型对目标概念进行类型识别之前,还包括:
采用多折交叉验证算法对多个训练至收敛的候选GBDT决策树模型进行挑选,以获得挑选出的训练至收敛的候选GBDT决策树模型;
将所述挑选出的训练至收敛的候选GBDT决策树模型确定为训练至收敛的目标GBDT决策树模型。
进一步地,如上所述的方法,所述采用多折交叉验证算法对多个训练至收敛的候选GBDT决策树模型进行挑选之前,还包括:
确定多折交叉验证算法对应的每组第一训练样本和测试样本;采用每组第一训练样本对对应的初始候选GBDT决策树模型进行训练;判断训练后的候选GBDT决策树模型是否满足第一预设的模型收敛条件;若确定满足第一预设的模型收敛条件,则将满足第一预设的模型收敛条件的候选GBDT决策树模型确定为训练至收敛的候选GBDT决策树模型。
进一步地,如上所述的方法,所述采用多折交叉验证算法对多个训练至收敛的候选GBDT决策树模型进行挑选,以获得挑选出的训练至收敛的候选GBDT决策树模型,包括:
采用每组测试样本对对应的训练至收敛的候选GBDT决策树模型进行测试;将准确率最高的训练至收敛的候选GBDT决策树模型确定为所述挑选出的训练至收敛的候选GBDT决策树模型。
进一步地,如上所述的方法,所述根据所述目标问题与各所述候选问题间的语义相关度确定标准问题之前,还包括:
提取各所述候选问题中候选概念;根据校验通过后的目标概念和各所述候选问题中候选概念计算所述目标问题与各所述候选问题间的语义相关度。
进一步地,如上所述的方法,所述根据校验通过后的目标概念和各所述候选问题中候选概念计算所述目标问题与各所述候选问题间的语义相关度,包括:
确定所述校验通过后的目标概念及各所述候选问题中候选概念对应的语义特征数据;将所述校验通过后的目标概念对应的语义特征数据与各所述候选问题中候选概念对应的语义特征数据输入到预设WMD算法模型中,以输出所述目标问题与各所述候选问题的语义相关度。
进一步地,如上所述的方法,所述确定所述校验通过后的目标概念及各所述候选问题中候选概念对应的语义特征数据,包括:
确定所述校验通过后的目标概念及各所述候选问题中候选概念对应的词向量;确定所述校验通过后的目标概念及各所述候选问题中候选概念在目标领域常用词集中的IDF取值;将所述校验通过后的目标概念对应的词向量与对应的IDF取值的乘积确定为所述校验通过后的目标概念对应的语义特征数据;将各所述候选问题中候选概念对应的词向量与对应的IDF取值的乘积确定为各所述候选问题中候选概念对应的语义特征数据。
进一步地,如上所述的方法,所述确定所述校验通过后的目标概念及各所述候选问题中候选概念对应的词向量之前,还包括:
构建目标领域概念集;对所述目标领域概念集中的各待选概念进行聚类,以获得代表概念;计算各代表概念对应的词向量,以形成代表概念词向量集。
进一步地,如上所述的方法,所述确定所述校验通过后的目标概念及各所述候选问题中候选概念对应的词向量,包括:
从所述代表概念词向量集中获取所述校验通过后的目标概念及各所述候选问题中候选概念对应的词向量。
进一步地,如上所述的方法,所述构建目标领域概念集,包括:
获取预设的目标领域问题集;提取所述目标领域问题集中的各待选问题中的待选概念;若未达到预设的概念集收敛条件,则扩展预设的目标领域问句模板集中的各问句模板,执行所述提取所述目标领域问题集中的各待选问题中的待选概念;若达到预设的概念集收敛条件,则根据各所述待选概念构建所述目标领域概念集。
进一步地,如上所述的方法,所述提取所述目标领域问题集中的各待选问题中的待选概念之后,还包括:
对待选概念进行校验处理,以删除未通过校验的待选概念。
进一步地,如上所述的方法,所述对所述目标领域概念集中的各待选概念进行聚类,以获得代表概念,包括:
将所述目标领域概念集中满足对齐条件的待选概念确定为同一待选概念;将所述各同一待选概念和所述目标领域概念集中的其他待选概念确定为候选概念;对各候选概念进行聚类,以获得代表概念。
进一步地,如上所述的方法,所述对各候选概念进行聚类,以获得代表概念,包括:
采用HDBSCAN聚类算法对所述候选概念进行聚类,以获得每个聚类中心的候选概念;将每个聚类中心的候选概念确定为代表概念。
进一步地,如上所述的方法,所述计算各代表概念对应的词向量,以形成代表概念词向量集,包括:
获取至少一个代表知识点问题,各代表知识点问题中包括对应的代表概念;采用训练至收敛的Fasttext模型对各所述代表知识点问题中的每个概念进行编码,以获得每个概念的词向量;从各代表知识点问题的每个概念的词向量中获取对应的代表概念的词向量,以形成代表概念词向量集。
进一步地,如上所述的方法,所述采用训练至收敛的Fasttext模型对各所述代表知识点问题中的每个概念进行编码,以获得每个概念的词向量之前,还包括:
获取第二训练样本,所述第二训练样本为目标领域知识库中的训练知识点问题;采用第二训练样本对初始Fasttext模型进行训练;判断训练后的Fasttext模型是否满足第二预设的模型收敛条件;若确定满足第二预设的模型收敛条件,则将满足第二预设的模型收敛条件的Fasttext模型确定为训练至收敛的Fasttext模型。
进一步地,如上所述的方法,所述从各代表知识点问题的每个概念的词向量中获取对应的代表概念的词向量,以形成代表概念词向量集之后,还包括:
分别计算各代表概念的词向量间的內积值;将各代表概念的词向量的內积值确定为对应的语义相关度;所述根据各所述代表概念及对应的语义相关度构建所述目标领域概念关系网络。
进一步地,如上所述的方法,所述根据各所述代表概念及对应的语义相关度构建所述目标领域概念关系网络,包括:
将各所述代表概念确定为所述目标领域概念关系网络中图结构的节点;将各所述代表概念间的语义相关度确定为对应图结构的节点间的边的关系值。
第二方面,本申请实施例提供一种结合RPA及AI的对话问答装置,包括:所述装置位于电子设备中,所述装置包括:
目标问题接收模块,用于接收用户输入的目标问题;候选问题确定模块,用于确定所述目标问题对应的至少一个候选问题;概念提取模块,用于提取所述目标问题中的目标概念;概念校验模块,用于对所述目标概念进行校验;标准问题确定模块,用于若所述目标概念通过校验,则根据所述目标问题与各所述候选问题间的语义相关度确定标准问题;目标答案确定模块,用于根据所述标准问题确定所述目标问题对应的目标答案;目标答案输出模块,用于输出所述目标答案。
进一步地,如上所述的装置,所述概念提取模块,具体用于:
将所述目标问题与预设的目标领域问句模板集中的各问句模板进行正则匹配;获取与所述目标问题相匹配的问句模板;确定所述目标问题与所述相匹配的问句模板之间的增加文本;将所述增加文本确定为目标概念。
进一步地,如上所述的装置,所述概念提取模块,还用于若所述目标领域问句模板集中不存在与所述目标问题相匹配的问句模板,则将所述目标问题与预先构建的目标领域概念集中的各待选概念进行关键词匹配;获取与所述目标问题匹配度最高的待选概念;将所述相匹配度最高的待选概念确定为所述目标问题的目标概念。
进一步地,如上所述的装置,所述概念校验模块,具体用于:
采用训练至收敛的目标分类模型对目标概念进行类型识别;若目标概念为明确语义类型,则确定该目标概念通过校验;若目标概念为无明确语义类型,则确定该目标概念未通过校验。
进一步地,如上所述的装置,所述概念校验模块,在采用训练至收敛的目标分类模型对目标概念进行类型识别时,具体用于:
提取目标概念的语义相关特征;将各所述语义相关特征输入到训练至收敛的目标分类模型中,以根据各所述语义相关特征对目标概念进行类型识别;通过所述训练至收敛的目标分类模型输出目标概念的类别。
进一步地,如上所述的装置,所述目标概念的语义相关特征包括以下任意一种或多种:
单词频次平均值,双词频次平均值,目标领域内的单词IDF平均值,是否为单字,通用领域内的单词IDF平均值,相邻单词内聚度平均值。
进一步地,如上所述的装置,所述训练至收敛的目标分类模型为训练至收敛的目标GBDT决策树模型。
进一步地,如上所述的装置,所述概念校验模块,还用于:
采用多折交叉验证算法对多个训练至收敛的候选GBDT决策树模型进行挑选,以获得挑选出的训练至收敛的候选GBDT决策树模型;将所述挑选出的训练至收敛的候选GBDT决策树模型确定为训练至收敛的目标GBDT决策树模型。
进一步地,如上所述的装置,所述概念校验模块,在采用多折交叉验证算法对多个训练至收敛的候选GBDT决策树模型进行挑选之前,还用于:
确定多折交叉验证算法对应的每组第一训练样本和测试样本;采用每组第一训练样本对对应的初始候选GBDT决策树模型进行训练;判断训练后的候选GBDT决策树模型是否满足第一预设的模型收敛条件;若确定满足第一预设的模型收敛条件,则将满足第一预设的模型收敛条件的候选GBDT决策树模型确定为训练至收敛的候选GBDT决策树模型。
进一步地,如上所述的装置,所述概念校验模块,在采用多折交叉验证算法对多个训练至收敛的候选GBDT决策树模型进行挑选,以获得挑选出的训练至收敛的候选GBDT决策树模型时,具体用于:
采用每组测试样本对对应的训练至收敛的候选GBDT决策树模型进行测试;将准确率最高的训练至收敛的候选GBDT决策树模型确定为所述挑选出的训练至收敛的候选GBDT决策树模型。
进一步地,如上所述的装置,所述概念提取模块,还用于:提取各所述候选问题中候选概念。语义相关度计算模块,用于根据校验通过后的目标概念和各所述候选问题中候选概念计算所述目标问题与各所述候选问题间的语义相关度。
进一步地,如上所述的装置,所述语义相关度计算模块,具体用于:
确定所述校验通过后的目标概念及各所述候选问题中候选概念对应的语义特征数据;将所述校验通过后的目标概念对应的语义特征数据与各所述候选问题中候选概念对应的语义特征数据输入到预设WMD算法模型中,以输出所述目标问题与各所述候选问题的语义相关度。
进一步地,如上所述的装置,所述语义相关度计算模块,在确定所述校验通过后的目标概念及各所述候选问题中候选概念对应的语义特征数据时,具体用于:
确定所述校验通过后的目标概念及各所述候选问题中候选概念对应的词向量;确定所述校验通过后的目标概念及各所述候选问题中候选概念在目标领域常用词集中的IDF取值;将所述校验通过后的目标概念对应的词向量与对应的IDF取值的乘积确定为所述校验通过后的目标概念对应的语义特征数据;将各所述候选问题中候选概念对应的词向量与对应的IDF取值的乘积确定为各所述候选问题中候选概念对应的语义特征数据。
进一步地,如上所述的装置,还包括:词向量集构建模块,用于构建目标领域概念集;对所述目标领域概念集中的各待选概念进行聚类,以获得代表概念;计算各代表概念对应的词向量,以形成代表概念词向量集。
进一步地,如上所述的装置,所述语义相关度计算模块,在确定所述校验通过后的目标概念及各所述候选问题中候选概念对应的词向量时,具体用于:
从所述代表概念词向量集中获取所述校验通过后的目标概念及各所述候选问题中候选概念对应的词向量。
进一步地,如上所述的装置,所述词向量集构建模块,在构建目标领域概念集时,具体用于:
获取预设的目标领域问题集;提取所述目标领域问题集中的各待选问题中的待选概念;若未达到预设的概念集收敛条件,则扩展预设的目标领域问句模板集中的各问句模板,执行所述提取所述目标领域问题集中的各待选问题中的待选概念;若达到预设的概念集收敛条件,则根据各所述待选概念构建所述目标领域概念集。
进一步地,如上所述的装置,所述概念校验模块,还用于:
对待选概念进行校验处理,以删除未通过校验的待选概念。
进一步地,如上所述的装置,所述词向量集构建模块,在对所述目标领域概念集中的各待选概念进行聚类,以获得代表概念时,具体用于:
将所述目标领域概念集中满足对齐条件的待选概念确定为同一待选概念;将所述各同一待选概念和所述目标领域概念集中的其他待选概念确定为候选概念;对各候选概念进行聚类,以获得代表概念。
进一步地,如上所述的装置,所述词向量集构建模块,在对各候选概念进行聚类,以获得代表概念时,具体用于:
采用HDBSCAN聚类算法对所述候选概念进行聚类,以获得每个聚类中心的候选概念;将每个聚类中心的候选概念确定为代表概念。
进一步地,如上所述的装置,所述词向量集构建模块,在计算各代表概念对应的词向量,以形成代表概念词向量集时,具体用于:
获取至少一个代表知识点问题,各代表知识点问题中包括对应的代表概念;采用训练至收敛的Fasttext模型对各所述代表知识点问题中的每个概念进行编码,以获得每个概念的词向量;从各代表知识点问题的每个概念的词向量中获取对应的代表概念的词向量,以形成代表概念词向量集。
进一步地,如上所述的装置,所述词向量集构建模块,在所述采用训练至收敛的Fasttext模型对各所述代表知识点问题中的每个概念进行编码,以获得每个概念的词向量之前,还用于:
获取第二训练样本,所述第二训练样本为目标领域知识库中的训练知识点问题;采用第二训练样本对初始Fasttext模型进行训练;判断训练后的Fasttext模型是否满足第二预设的模型收敛条件;若确定满足第二预设的模型收敛条件,则将满足第二预设的模型收敛条件的Fasttext模型确定为训练至收敛的Fasttext模型。
进一步地,如上所述的装置,还包括:概念关系网络构建模块,用于:
分别计算各代表概念的词向量间的內积值;将各代表概念的词向量的內积值确定为对应的语义相关度;所述根据各所述代表概念及对应的语义相关度构建所述目标领域概念关系网络。
进一步地,如上所述的装置,所述概念关系网络构建模块,在根据各所述代表概念及对应的语义相关度构建所述目标领域概念关系网络时,具体用于:
将各所述代表概念确定为所述目标领域概念关系网络中图结构的节点;将各所述代表概念间的语义相关度确定为对应图结构的节点间的边的关系值。
第三方面,本申请实施例提供一种电子设备,包括:
存储器,处理器以及计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面中任一项所述的方法。
第四方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现如第一方面中任一项所述的方法。
应当理解,上述发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征,亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是可以实现本申请实施例的结合RPA及AI的对话问答方法的应用场景图;
图2为本申请实施例一提供的结合RPA及AI的对话问答方法的流程图;
图3为本申请实施例二提供的结合RPA及AI的对话问答方法的流程图;
图4本申请实施例二提供的结合RPA及AI的对话问答方法中步骤201的流程图;
图5本申请实施例二提供的结合RPA及AI的对话问答方法中步骤202的流程图;
图6本申请实施例二提供的结合RPA及AI的对话问答方法中步骤2023的流程图;
图7本申请实施例二提供的结合RPA及AI的对话问答方法中步骤203的流程图;
图8本申请实施例二提供的结合RPA及AI的对话问答方法中步骤205的流程图;
图9本申请实施例二提供的结合RPA及AI的对话问答方法中步骤206中提取目标问题中的目标概念的流程图;
图10本申请实施例二提供的结合RPA及AI的对话问答方法中步骤207的流程图;
图11本申请实施例二提供的结合RPA及AI的对话问答方法中步骤2071的流程图;
图12为本申请实施例三提供的结合RPA及AI的对话问答方法中步骤2070的流程图;
图13为本申请实施例三提供的结合RPA及AI的对话问答方法中步骤2070e的流程图;
图14为本申请实施例三提供的结合RPA及AI的对话问答方法中步骤208的流程图;
图15为本申请实施例三提供的结合RPA及AI的对话问答方法中步骤2081的流程图;
图16为本申请实施例三提供的对话问答方法的流程图;
图17为本申请实施例三提供的结合RPA及AI的对话问答方法中步骤306的流程图;
图18为本申请实施例三中目标领域概念关系网络的示意图;
图19为本申请实施例四提供的结合RPA及AI的对话问答装置的结构示意图;
图20为本申请实施例五提供的结合RPA及AI的对话问答装置的结构示意图;
图21是用来实现本申请实施例的结合RPA及AI的对话问答方法的电子设备的框图。
具体实施方式
下面将参照附图更详细地描述本申请的实施例。虽然附图中显示了本申请的某些实施例,然而应当理解的是,本申请可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本申请。应当理解的是,本申请的附图及实施例仅用于示例性作用,并非用于限制本申请的保护范围。
本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请实施例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
首先需要对本申请描述中的术语进行解释说明。其中,在本申请的描述中,术语“目标问题”是指用户所需要提问的问题,例如,在电子设备中搭载有结合RPA及AI的对话问答功能的应用程序,当用户有提问问题的需求时,打开对应的应用程序,进入到应用程序的操作界面。通过语音、文本或其他方式向电子设备发送需要提问的问题。该需要提问的问题即可理解为目标问题。
在本申请的描述中,术语“候选问题”是指从某一领域问题集中,获取与用户所需要提问的问题相匹配的问题,该相匹配的问题即为候选问题,其中,问题集的领域与用户所需要提问的问题的领域相同。
在本申请的描述中,术语“概念”是指某一问题与其相匹配的问句模板之间相区别的文本。术语“目标概念”是指目标问题与其相匹配的问句模板之间相区别的文本。术语“候选概念”是指候选问题与其相匹配的问句模板之间相区别的文本。
在本申请的描述中,术语“标准问题”是指各候选问题中,在语义上与用户所要提问的问题最相似的候选问题。术语“目标答案”是指标准问题所对应的答案。比如,某一领域问题集中具有多个待选问题和每个待选问题对应的答案,在已知标准问题之后,可从该领域问题集中每个待选问题对应的答案中搜索出该标准问题对应的答案,将该标准问题对应的答案确定为目标问题对应的答案,该目标问题对应的答案为目标答案。
在本申请的描述中,术语“校验”是指验证从问题中提取的概念是否具有明确语义,比如,当该概念具有明确语义时,可认为该概念通过校验,能够保证提取出的概念是有明确语义的概念;当该概念没有明确语义时,可认为该概念未通过校验。
需要对本申请实施例提供的结合RPA及AI的对话问答方法的应用场景进行介绍。如图1所示,本申请实施例提供的结合RPA及AI的对话问答方法对应的应用场景中,在电子设备中搭载有结合RPA及AI的对话问答功能的应用程序。这种搭载有结合RPA及AI的对话问答功能的应用程序的类型不作限定,如可以为母婴类型的应用程序,幼儿教育类型的应用程序等。具体地,在用户打开电子设备中该功能的应用程序,并通过该功能的应用程序的操作界面以文字、语音等方式输入目标问题。电子设备接收用户输入的目标问题,对目标问题进行解析,提取目标问题中的目标概念;对目标概念进行校验;若目标概念通过校验,则根据目标问题与各候选问题间的语义相关度确定标准问题。在确定出标准问题后,根据标准问题确定目标问题对应的目标答案确定目标问题对应的目标答案,输出目标答案。输出目标答案时,可以在操作界面上以文字和/或图片的形式输出,还可将文字和/或图片结合语音等形式进行输出。如图1中,假设应用程序为母婴类型的应用程序,用户通过语音方式输入的目标问题为“我产褥感染怎么办”,则在电子设备的该功能的应用程序的操作界面中可显示出“我产褥感染怎么办”的目标问题,用户通过点击操作界面上的“搜索”按键,电子设备执行本申请提供的结合RPA及AI的对话问答方法,确定出该目标问题的目标答案后,输出目标答案在操作界面中进行显示,目标答案为“可进行药物治疗,手术治疗,其他治疗等”。本申请实施例提供的结合RPA及AI的对话问答方法,由于在获取到目标问题后,对目标问题中的目标概念进行校验,在目标概念校验通过后,才根据目标问题确定目标答案,能够保证提取出的目标概念是有明确语义的目标概念,进而能够准确对目标问题进行解析。并且由于在确定目标问题对应的标准问题时,是采用目标问题与至少一个候选问题间的语义相关度进行确定的,所以能够使目标问题与标准问题间更加贴合,准确确定出与目标问题相匹配的标准问题,进而将标准问题对应的答案确定为目标问题的答案,能够使确定出的目标答案更加准确,提高了向用户推荐的答案准确性,大大提高了用户对问答系统的使用体验。
以下将参照附图来具体描述本申请的实施例。
实施例一
图2为本申请实施例一提供的结合RPA及AI的对话问答方法的流程图,如图2所示,本申请实施例的执行主体为结合RPA及AI的对话问答装置,该对话问答装置可以集成在电子设备中。则本实施例提供的结合RPA及AI的对话问答方法包括以下几个步骤。
步骤101,接收用户输入的目标问题。
本实施例中,在电子设备中搭载有结合RPA及AI的对话问答功能的应用程序。如可以为母婴类型的应用程序,幼儿教育类型的应用程序等。则用户有提问问题的需求时,打开对应的应用程序,进入到应用程序的操作界面。通过语音、文本或其他方式向电子设备发送需要提问的问题。该需要提问的问题为目标问题。
若用户通过语音形式提出目标问题,则用户通过点击操作界面上收录语音的按键,则电子设备中对应的收音组件进行录音。电子设备接收到语音形式的目标问题,并对语音形式的目标问题进行语义解析,可获取文本形式的目标问题,并可在操作界面上显示文本形式的目标问题。
若用户通过文本形式提出目标问题,则用户在操作界面的文本输入框输入目标问题,使电子设备接收到文本形式的目标问题。
可以理解的是,在操作界面上,还可包括触发本实施例中结合RPA及AI的对话问答方法的按键,如可以为操作界面上的“搜索”按键。
步骤102,确定目标问题对应的至少一个候选问题。
本实施例中,可在搭载有结合RPA及AI的对话问答功能的每种应用程序的后台服务器中存储有对应目标领域问题集。或者可将该目标领域问题集下载到电子设备中,在目标领域问题集中存储有该目标领域所有成功搜索到答案的问题。在目标领域问题集中存储的问题可以称为待选问题。
则作为一种可选实施方式,本实施例中,在电子设备获取到目标问题后,获取对应目标领域问题集中的每个待选问题,可将目标问题与每个待选问题进行按照预设的句式规则进行匹配,将满足预设句式规则的待选问题确定为目标问题的候选问题。
或者作为另一种实施方式,本实施例中,在电子设备获取到目标问题后,获取对应目标领域问题集中的每个待选问题,可将目标问题与每个待选问题采用预设的匹配算法进行相似性匹配,将满足相似性要求的待选问题确定为候选问题。
在该种实施方式中,预设的匹配算法本实施例中不作限定。判断是否满足相似性要求可以为判断目标问题与每个待选问题的匹配度是否大于预设匹配度阈值,若大于预设匹配度阈值,则确定目标问题与该待选问题间满足相似性要求,否则确定不满足相似性要求。可以理解的是,判断是否满足相似性要求还可以为其他方式,本实施例中对此不作限定。
步骤103,提取目标问题中的目标概念。
作为一种可选实施方式,本实施例中,提取目标问题中的目标概念的方式可以为首先根据目标领域的问题特征设置目标领域问句模板集,在目标领域问句模板集中包括多个问句模板。然后将目标问题与预设的目标领域问句模板集中的各问句模板进行正则匹配,在进行正则匹配后,获取与目标问题相匹配的问句模板。确定目标问题与相匹配的问句模板之间相区别的文本,该相区别的文本为该目标问题与相匹配的问句模板之间的增加文本,最终将该增加文本确定为该目标问题对应的目标概念。
作为另一种可选实施方式,本实施例中,提取目标问题中的目标概念的方法还可以为:将目标问题与预先构建的目标领域概念集中的各待选概念进行关键词匹配的方式来提取目标问题中的目标概念。具体地,首先获取目标领域概念集。在目标领域概念集中包括多个待选概念。然后将目标问题与预先构建的目标领域概念集中的各待选概念进行关键词匹配。在关键词匹配后,获取与目标问题匹配度最高的待选概念,将相匹配度最高的待选概念确定为目标问题的目标概念。
可以理解的是,还可结合这两种可选实施方式进行目标问题中的目标概念的提取。
步骤104,对目标概念进行校验。
值的说明的是,在采用步骤103中的每种可选实施方式提取目标问题中的目标概念后,提取出的目标概念可能没有明确语义的情况。
以母婴类型的应用程序中目标问题提取的目标概念进行示例性说明。采用上述两种可选实施方式从目标问题中提取的目标概念例如包括:“请教大家”、“现在”、“差不多”、“坐月子”、“怀孕早期”、“感冒发烧”等,则在母婴领域,“请教大家”、“现在”、“差不多”是没有明确语义的概念。而“坐月子”、“怀孕早期”、“感冒发烧”是具有明确语义的概念。所以需要对提取出的目标概念进行校验,以判断目标概念是否具有明确语义。
其中,对目标概念的校验方法本实施例中不作限定。
步骤105,若目标概念通过校验,则根据目标问题与各候选问题间的语义相关度确定标准问题。
本实施例中,在确定目标概念具有明确语义,校验通过后,计算目标问题与每个候选问题间的语义相关度,根据目标问题与每个候选问题间的语义相关度来从至少一个候选问题中确定出标准问题。
作为一种可选实施方式,本实施例中,计算目标问题与每个候选问题间的语义相关度的方式可以为:将目标问题和每个候选问题分别组成对应的问题对,输入到预设的语义匹配模型中,由该预设的语义匹配模型计算每个问题对间的语义相关度,并输出每个问题对间的语义相关度。其中,预设的语义匹配模型本实施例中不作限定。
或者作为另一种可选实施方式,本实施例中,可提取目标问题中的目标概念并提取各候选问题中候选概念;确定目标概念与各候选问题中的候选概念间的语义相关度;根据目标概念与各候选问题中的候选概念间的语义相关度从候选问题中确定标准问题。
可以理解的是,计算目标问题与每个候选问题间的语义相关度的方式还可以为其他方式,本实施例中对此不作限定。
步骤106,根据标准问题确定目标问题对应的目标答案。
本实施例中,可在搭载有结合RPA及AI的对话问答功能的每种应用程序的后台服务器中存储有目标领域问题集中每个待选问题对应的答案。或者可将该目标领域问题集中每个待选问题对应的答案下载到电子设备中,则在确定出标准问题后,从目标领域问题集中每个待选问题对应的答案中搜索出该标准问题对应的答案,将该标准问题对应的答案确定为目标问题对应的答案。该目标问题对应的答案为目标答案。
步骤107,输出目标答案。
本实施例中,可将目标答案以文字、图片或语音的方式进行输出。或者将目标答案以文字、图片或语音中的至少两种形式结合起来进行输出,本实施例中对此不作限定。
本实施例提供的结合RPA及AI的对话问答方法,通过接收用户输入的目标问题;确定目标问题对应的至少一个候选问题;提取目标问题中的目标概念;对目标概念进行校验;若目标概念通过校验,则根据目标问题与各候选问题间的语义相关度确定标准问题;根据标准问题确定目标问题对应的目标答案;输出目标答案。由于在获取到目标问题后,对目标问题中的目标概念进行校验,在目标概念校验通过后,才根据目标问题确定目标答案,能够保证提取出的目标概念是有明确语义的目标概念,进而能够准确对目标问题进行解析。并且由于在确定目标问题对应的标准问题时,是采用目标问题与至少一个候选问题间的语义相关度进行确定的,所以能够使目标问题与标准问题间更加贴合,准确确定出与目标问题相匹配的标准问题,进而将标准问题对应的答案确定为目标问题的答案,能够使确定出的目标答案更加准确,提高了向用户推荐的答案准确性,大大提高了用户对问答系统的使用体验。
实施例二
图3为本申请实施例二提供的结合RPA及AI的对话问答方法的流程图,如图3所示,本实施例提供的结合RPA及AI的对话问答方法,是在本申请实施例一提供的结合RPA及AI的对话问答方法的基础上,对步骤102-步骤105的进一步细化,则本实施例提供的结合RPA及AI的对话问答方法包括以下步骤。
步骤201,构建目标领域概念集。
作为一种可选实施方式,本实施例中,步骤201中构建目标领域概念集是一个迭代的过程。具体的迭代过程包括以下步骤:
作为一种可选实施方式,如图4所示,步骤201包括以下步骤:
步骤2011,获取预设的目标领域问题集。
其中,目标领域问题集与搭载有结合RPA及AI的对话问答功能的应用程序的类型是一致的,如应用程序的类型为母婴类型,则目标领域问题集为母婴领域的问题集。又如应用程序的类型为幼儿教育领域,则目标领域问题集为幼儿教育领域问题集。
本实施例中,在目标领域中若确定用户提出问题成功搜索到答案时,存储该成功搜索到答案的待选问题,由各待选问题构建目标领域问题集,并可将该目标领域问题集存储在对应应用程序的后台服务器或电子设备中,以使电子设备获取到该预设的目标领域问题集。
步骤2012,提取目标领域问题集中的各待选问题中的待选概念。
作为一种可选实施方式,本实施例中,步骤2012包括以下步骤:
步骤2012a,将各待选问题与预设的目标领域问句模板集中的各问句模板进行正则匹配。
步骤2012b,获取与各待选问题相匹配的问句模板。
步骤2012c,确定各待选问题与相匹配的问句模板之间的增加文本。
步骤2012d,将增加文本确定为对应的待选概念。
结合步骤2012a-步骤2012d进行说明。本实施例中,首先根据目标领域的问题特征设置目标领域问句模板集,在目标领域问句模板集中包括多个问句模板。然后将每个待选问题与预设的目标领域问句模板集中的各问句模板进行正则匹配,在进行正则匹配后,获取与每个待选问题相匹配的问句模板。确定每个待选问题与相匹配的问句模板之间相区别的文本,该相区别的文本为该待选问题与相匹配的问句模板之间的增加文本,最终将该增加文本确定为该待选问题对应的待选概念。
其中,正则匹配为正则表达式匹配,具体的正则匹配方式本实施例中不再赘述。
本实施例中,以目标领域为母婴领域,以待选问题为“羊水偏少的症状”为例,步骤2012a-步骤2012d进行示例性说明:
首先,对目标领域问句模板集中的问句模板以三个示例进行示例性说明,则示例出的三个问句模板为:(1)(.*?)的症状;(2)(.*?)可以吃药吗;(3)(.*?)怎么治疗。然后针对该待选问题,将该待选问题与预设的目标领域问句模板集中的各问句模板进行正则匹配后,确定相匹配的问句模板为“(.*?)的症状”,则确定待选问题“羊水偏少的症状”与相匹配的问句模板为“(.*?)的症状”的增加文本为“羊水偏少”,则将“羊水偏少”确定为该待选问题的待选概念。
步骤2012e,若目标领域问句模板集中不存在与各待选问题相匹配的问句模板,则将各待选问题与预先构建的目标领域关键概念集中的各关键概念进行关键词匹配。
可以理解的是,由于预设的目标领域问句模板集中的问句模板是有限的,并且不能覆盖所有用户问问题的习惯,所以存在目标领域问句模板集中不存在与各待选问题相匹配的问句模板的情况。所以若目标领域问句模板集中不存在与各待选问题相匹配的问句模板,则采用关键词匹配方式确定各待选问题中的待选概念。
步骤2012f,获取与各待选问题匹配度最高的关键概念。
步骤2012g,将相匹配度最高的关键概念确定为各待选问题的待选概念。
结合步骤2012e-步骤2012g对采用关键词匹配方式确定各待选问题中的待选概念进行说明。首先可根据目标领域的常用概念构建目标领域关键概念集。在目标领域关键概念集中包括多个目标领域的关键概念。然后将每个待选问题与预先构建的目标领域关键概念集中的各关键概念进行关键词匹配。在关键词匹配后,获取与每个待选问题匹配度最高的关键概念,将相匹配度最高的关键概念确定为对应待选问题的待选概念。
其中,关键词匹配方式可以为广泛匹配,精准匹配等,本实施例中对关键词匹配方式不作限定。
本实施例中,以目标领域为母婴领域,以待选问题为“宝宝吐奶怎么办”为例,步骤2012e-步骤2012g进行示例性说明:
首先对母婴领域关键概念集中包括的关键概念进行示例性说明,其包括“宝宝”、“妈妈”、“宝宝吐奶”、“宝宝咳嗽”、“宝宝流口水”等。然后针对该待选问题,将该待选问题与目标领域关键概念集中的各关键概念进行关键词匹配。与“宝宝”的匹配度为30%,与“妈妈”的匹配度为1%,与“宝宝吐奶”的匹配度为80%,与“宝宝咳嗽”的匹配度为31%,最后获取与该待选问题匹配度最高的关键概念为“宝宝吐奶”,则将“宝宝吐奶”确定为该待选问题“宝宝吐奶怎么办”对应的待选概念。
步骤2013,对待选概念进行校验处理,以删除未通过校验的待选概念。
本实施例中,对待选概念进行校验处理的方式与本申请步骤207中对目标概念进行校验处理的方式相同,在此不进行详细介绍,可参照步骤207中对目标概念进行校验处理,的详细介绍。
对待选概念进行校验处理后,若某待选概念未通过校验,则删除未通过校验的待选概念。
步骤2014,判断是否达到预设的概念集收敛条件,若未达到预设的概念集收敛条件,则执行步骤2015,否则执行步骤2016。
步骤2015,扩展预设的目标领域问句模板集中的各问句模板。
需要说明的是,在执行步骤2015后,继续执行步骤2012。
具体地,本实施例中,为了能够使构建的目标领域概念集中的各待选概念更加丰富准确,预先设置概念集收敛条件,在根据步骤2012提取出各待选问题中的待选概念后,判断是否达到预设的概念集收敛条件,若未达到预设的概念集收敛条件,则步骤2015,迭代次数加1,继续执行步骤2012。直到达到预设的概念集收敛条件后,执行步骤2016。
其中,预设的概念集收敛条件可以为迭代次数达到预设迭代次数,还可以为其他概念集收敛条件,本实施例中对此不作限定。
步骤2016,根据各待选概念构建目标领域概念集。
本实施例中,将目标领域问题集中各待选问题提取出来的待选概念进行校验,删除未通过校验的待选概念后,由校验通过的待选概念形成目标领域概念集。
步骤202,对目标领域概念集中的各待选概念进行聚类,以获得代表概念。
本实施例中,由于目标领域概念集中的待选概念众多,所以需要对各待选概念进行聚类,来获得代表概念。
作为一种可选实施方式,如图5所示,步骤202包括以下步骤:
步骤2021,将目标领域概念集中满足对齐条件的待选概念确定为同一待选概念。
本实施例中,将目标领域概念集中的各待选概念按照字数进行首尾进行对齐处理,可判断两两待选概念间是否满足对齐条件。若两两待选概念间对齐的字占据对应待选概念中总字数的百分比大于预设对齐百分比阈值,则确定这两个待选概念间满足对齐条件,否则确定不满足对齐条件。
例如预设百分比阈值为70%。待选概念分别为:“羊水过多”、“羊水超多”进行首尾对齐处理后,对齐的字占据待选概念总字数的百分比为75%,大于70%,则将这两个待选概念确定为同一类待选概念,可采用任意一个进行表示。如采用“羊水过多”来表示。
步骤2022,将各同一待选概念和目标领域概念集中的其他待选概念确定为候选概念。
步骤2023,对各候选概念进行聚类,以获得代表概念。
本实施例中,将各同一待选概念和其他待选概念统一确定为候选概念。对各候选概念采用预设的聚类算法进行聚类,形成各聚类中心,在各聚类中心的候选概念确定为代表概念。
作为一种可选实施方式,如图6所示,步骤2023包括以下步骤:
步骤2023a,采用HDBSCAN聚类算法对候选概念进行聚类,以获得每个聚类中心的候选概念。
步骤2023b,将每个聚类中心的候选概念确定为代表概念。
进一步地,本实施例中,将每个候选概念输入到HDBSCAN聚类算法中,HDBSCAN聚类算法中的参数进行设置,并采用HDBSCAN聚类算法对候选概念进行语义相关性聚类,形成每类候选概念集,获取在每个候选概念集对应的聚类中心处的候选概念,该聚类中心处的候选概念最能代表该类候选概念集,所以将该聚类中心处的候选概念确定为该类候选概念的代表概念。在采用HDBSCAN聚类算法进行聚类时,最后聚类成的类别数即为代表概念的个数。
本实施例中,HDBSCAN聚类算法相比于DBSCAN聚类算法的最大优势在于不用选择用户选择领域聚类圆圈的半径R和核心点最小覆盖点数MinPts,只用设定最小生成聚类簇的大小即可,并且HDBSCAN聚类算法可以自动的推荐最优的簇类结果。所以采用HDBSCAN聚类算法对候选概念进行聚类,能够更加快速准确地对候选概念进行聚类,获得代表概念。
步骤203,计算各代表概念对应的词向量,以形成代表概念词向量集。
作为一种可选实施方式,如图7所示,步骤203包括以下步骤:
步骤2031,获取至少一个代表知识点问题,各代表知识点问题中包括对应的代表概念。
本实施例中,目标领域知识库是对目标领域问题集中的各待选问题按照知识点整理成的结构化知识库。将目标领域知识库中的知识点问题划分为训练集合和测试集合。训练集合中的知识点问题用于对初始Fasttext模型进行训练,以得到训练至收敛的Fasttext模型。在测试集合中获取代表知识点问题。其中,在代表知识点问题中包括代表概念。
步骤2032,采用训练至收敛的Fasttext模型对各代表知识点问题中的每个概念进行编码,以获得每个概念的词向量。
本实施例中,可将各代表知识点问题中的代表概念进行标记,并将各代表知识点问题输入到训练至收敛的Fasttext模型中,训练至收敛的Fasttext模型在对各代表知识点问题进行分类前,对各代表知识点问题进行切词处理并对切词处理后的每个概念进行编码,以获得每个概念的词向量。
步骤2033,从各代表知识点问题的每个概念的词向量中获取对应的代表概念的词向量,以形成代表概念词向量集。
本实施例中,根据各代表知识点问题中的代表概念的标记从对应的每个概念的词向量中获取对应的代表概念的词向量。由每个代表概念的词向量形成代表概念词向量集。并对代表概念的词向量集进行存储。
本实施例中,在计算各代表概念对应的词向量,以形成代表概念词向量集时,由于采用训练至收敛的Fasttext模型对代表概念进行编码获得的代表概念词向量,训练至收敛的Fasttext模型能够准确对代表知识点问题进行分类,所以也能够在对代表知识点问题进行分类前,准确对代表概念进行编码,提高了代表概念词向量的准确性。
值的说明的是,若未有训练至收敛的Fasttext模型,在步骤2032之前,还包括对初始Fasttext模型进行训练的步骤。对初始Fasttext模型进行训练的步骤定义为步骤2030,则步骤2030包括以下步骤:
步骤2030a,获取第二训练样本,第二训练样本为目标领域知识库中的训练知识点问题。
其中,目标领域知识库是对目标领域问题集中的各待选问题按照知识点整理成的结构化知识库。在目标领域知识库的训练集合中包括每类知识点的相似知识点问题集合和知识点类别标签。在目标领域知识库的训练集合中的训练样本为第二训练样本。
例如:“羊水过多怎么办”“羊水过多怎么处理”“羊水过多要不要去看”为一个相似知识点问题集合,该相似知识点问题集合的知识点类别标签为“羊水过多处理方法”。又如“羊水过多的原因”、“为什么羊水过多”为另一个相似知识点问题集合,该相似知识点问题集合的知识点类别标签为:“羊水过多原因”。
所以本实施例中,可从目标领域知识库中抽取知识点问题,作为第二训练样本,每个第二训练样本包括对应的知识点问题及对应的知识点类别标签。
步骤2030b,采用第二训练样本对初始Fasttext模型进行训练。
步骤2030c,判断训练后的Fasttext模型是否满足第二预设的模型收敛条件,若是,则执行步骤2030d,否则继续执行步骤2030b。
步骤2030d,将满足第二预设的模型收敛条件的Fasttext模型确定为训练至收敛的Fasttext模型。
结合步骤2030b–步骤2030d进行说明。具体地,本实施例中,Fasttext模型是一种文本分类模型。初始Fasttext模型对Fasttext模型中的参数进行了初始化处理后的Fasttext模型。将第二训练样本输入到初始Fasttext模型中,对初始Fasttext模型进行训练,调整初始Fasttext模型中的参数。在每一次迭代过程中,判断训练后的Fasttext模型是否满足第二预设的模型收敛条件,若满足第二预设的模型收敛条件,则将满足第二预设的模型收敛条件的Fasttext模型确定为训练至收敛的Fasttext模型。若确定不满足第二预设的模型收敛条件,则进入下一次迭代中,继续执行步骤2030b,继续对Fasttext模型进行训练,直到达到第二预设的模型收敛条件为止。
其中,第二预设的模型收敛条件可以为迭代次数达到第二预设迭代次数,还可以为对应的损失函数达到最小,本实施例中对第二预设的模型收敛条件不作限定。
步骤204,接收用户输入的目标问题。
本实施例中,步骤204的实现方式与本申请实施例一中的步骤101的实现方式类似,在此不再一一赘述。
步骤205,确定目标问题对应的至少一个候选问题。
作为一种可选实施方式,如图8所示,本实施例中,步骤205包括以下步骤:
步骤2051,将目标问题与预设的目标领域问题集中的各待选问题进行相似性匹配。
步骤2052,将满足相似性要求的待选问题确定为候选问题。
进一步地,本实施例中,将目标问题与每个待选问题形成问题对输入到预设的匹配算法中,采用预设的匹配算法对每个问题对进行相似性匹配,输出每个问题对对应的匹配度。若某一问题对的匹配度大于预设匹配度阈值,则确定满足相似性要求,该问题对中的待选问题为该目标问题对应的候选问题。若某一问题对的匹配度小于或等于预设匹配度阈值,则确定不满足相似性要求,该问题对中的待选问题不是该目标问题对应的候选问题。通过该种方式确定出目标问题的至少一个候选问题。
本实施例中,对确定目标问题对应的至少一个候选问题进行示例性说明:目标问题为“宝宝吐奶怎么办”,则通过步骤2051-步骤2052确定该目标问题对应的至少一个候选问题分别为:“宝宝呛奶怎么办”、“宝宝吐奶要咋处理呢”、“宝宝有奶瓣怎么办”。并且这三个候选问题的匹配度依次变小。
本实施例中,将目标问题与预设的目标领域问题集中的各待选问题进行相似性匹配,将满足相似性要求的待选问题确定为候选问题,能够预先筛选出与目标问题相似度较高的候选问题。
步骤206,提取目标问题中的目标概念并提取各候选问题中候选概念。
本实施例中,提取目标问题中的目标概念与提取各候选问题中的候选概念的方式类似,所以以提取目标问题中的目标概念为例来对步骤206进行说明。
作为一种可选实施方式,如图9所示,本实施例中,步骤206中提取目标问题中的目标概念包括以下步骤:
步骤2061,将目标问题与预设的目标领域问句模板集中的各问句模板进行正则匹配。
步骤2062,获取与目标问题相匹配的问句模板。
步骤2063,确定目标问题与相匹配的问句模板之间的增加文本。
步骤2064,将增加文本确定为目标概念。
结合步骤2061-步骤2064进行说明。本实施例中,首先根据目标领域的问题特征设置目标领域问句模板集,在目标领域问句模板集中包括多个问句模板。然后将目标问题与预设的目标领域问句模板集中的各问句模板进行正则匹配,在进行正则匹配后,获取与目标问题相匹配的问句模板。确定目标问题与相匹配的问句模板之间相区别的文本,该相区别的文本为该目标问题与相匹配的问句模板之间的增加文本,最终将该增加文本确定为该目标问题对应的目标概念。,
步骤2065,若目标领域问句模板集中不存在与目标问题相匹配的问句模板,则将目标问题与预先构建的目标领域概念集中的各待选概念进行关键词匹配。
可以理解的是,由于预设的目标领域问句模板集中的问句模板是有限的,并且不能覆盖所有用户问问题的习惯,所以存在目标领域问句模板集中不存在与目标问题相匹配的问句模板的情况。所以若目标领域问句模板集中不存在与目标问题相匹配的问句模板,则采用关键词匹配方式确定目标问题中的目标概念。
步骤2066,获取与目标问题匹配度最高的待选概念。
步骤2067,将相匹配度最高的待选概念确定为目标问题的目标概念。
结合步骤2065-步骤2067对采用关键词匹配方式确定目标问题中的目标概念进行说明。首先获取目标领域概念集。在目标领域概念集中包括多个待选概念。然后将目标问题与预先构建的目标领域概念集中的各待选概念进行关键词匹配。在关键词匹配后,获取与目标问题匹配度最高的待选概念,将相匹配度最高的待选概念确定为目标问题的目标概念。
步骤207,对目标概念进行校验。
值得说明的是,还可采用与目标概念相同的校验方式对各候选问题中的候选概念进行校验。
作为一种可选实施方式,本实施例中,如图10所示,步骤207包括以下步骤:
步骤2071,采用训练至收敛的目标分类模型对目标概念进行类型识别。
可选地,由于目标GBDT决策树模型对文本分类具有很好的效果,所本实施例中,训练至收敛的目标分类模型为训练至收敛的目标GBDT决策树模型。
可选地,如图11所示,步骤2071包括以下步骤:
步骤2071a,提取目标概念的语义相关特征。
可选地,目标概念的语义相关特征包括以下任意一种或多种:
单词频次平均值,双词频次平均值,目标领域内的单词IDF平均值,是否为单字,通用领域内的单词IDF平均值,相邻单词内聚度平均值。
其中,提取目标概念的单词频次平均值具体为:首先将目标概念进行切词处理,形成至少一个目标单词,确定每个目标单词在预先构建的单词集中的频次,并计算目标概念中所有目标单词频次的平均值,即可获得目标概念的单词频次平均值。
本实施例中,预先构建的单词集是通过对大量文本进行切词后,采用频繁项挖掘算法对频繁出现的单词在大量文本中出现的频次进行统计后构建的。在预先构建的单词集中包括每个单词的频次,若某个单词在单词集中的频次越大,则说明该单词是频繁项的概率越大。
其中,提取目标概念的双词频次平均值具体为:首先将目标概念进行切词处理,并将各连续两个目标单词确定为一个对应的目标双词。确定每个目标双词在预先构建的双词集中的频次,并计算目标概念中所有目标双词频次的平均值,即可获得目标概念的双词频次平均值。
本实施例中,预先构建的双词集是通过对大量文本进行切词后,采用频繁项挖掘算法对频繁出现的双词在大量文本中出现的频次进行统计后构建的。在预先构建的双词集中包括每个双词的频次,若某个双词在双词集中的频次越大,则说明该双词是频繁项的概率越大。
其中,提取目标概念的目标领域内的单词IDF平均值具体为:首先将目标概念进行切词处理,形成至少一个目标单词,确定每个目标单词在预先构建的目标领域常用词集中的中的IDF取值,并计算目标概念中所有目标单词IDF取值的平均值,即可获得目标概念的目标领域内的单词IDF平均值。
本实施例中,在目标领域常用词集,具有每个常用词的IDF取值。其中,IDF为词频的逆向文档频率,若目标领域某常用词的IDF取值越大,则说明该常用词的重要程度越高。相反,若某常用词的IDF取值越小,则说明该常用词的重要程度越低。
其中,是否为单字即目标概念是否是一个字,若是单字,该语义相关特征取值为1,否则取值为0。
其中,提取目标概念的通用领域内的单词IDF平均值具体为:首先将目标概念进行切词处理,形成至少一个目标单词,确定每个目标单词在预先构建的通用领域常用词集中的中的IDF取值,并计算目标概念中所有目标单词IDF取值的平均值,即可获得目标概念的通用领域内的单词IDF平均值。
本实施例中,通用领域是比目标领域更大范围的领域。同理,在通用领域常用词集中具有通用领域每个常用词的IDF取值。若通用领域某常用词的IDF取值越大,则说明该常用词在通用领域的重要程度越高。相反,若某常用词的IDF取值越小,则说明该常用词在通用领域的重要程度越低。
其中,提取目标概念的相邻单词内聚度平均值具体为:首先根据目标领域内的单词构建互信息词典,在互信息词典里有两个单词的互信息的内聚度,然后将目标概念进行切词处理,形成至少一个目标单词,若为多个目标单词,则从互信息词典中获取相邻两个目标单词互信息内聚度的取值,并计算多个互信息内聚度的平均值,即可获得目标概念的相邻单词内聚度平均值。可以理解的是,若在互信息词典中没有相邻两个目标单词,则该相邻两个目标单词的互信息内聚度的取值为0。
步骤2071b,将各语义相关特征输入到训练至收敛的目标分类模型中,以根据各语义相关特征对目标概念进行类型识别。
本实施例中,将目标概念各语义相关特征输入到训练至收敛的目标GBDT决策树模型中,训练至收敛的目标GBDT决策树模型对目标概念进行分类,以确定该目标概念的类型是为明确语义的类型还是无明确语义的类型。
步骤2071c,通过训练至收敛的目标分类模型输出目标概念的类别。
本实施例中,通过训练至收敛的目标分类模型输出目标概的类别为明确语义的类型或无明确语义的类型。
步骤2072,若目标概念为明确语义类型,则确定该目标概念通过校验。
步骤2073,若目标概念为无明确语义类型,则确定该目标概念未通过校验。
本实施例中,若目标概念的类型为明确语义类型,则说明该目标概念在目标领域有明确的语义,则该目标概念通过校验,能够通过该目标概念对目标问题进行准确地解析。若目标概念的类型为无明确语义类型,则说明该目标概念在目标领域中没有明确语义,该目标概念未通过校验,无法通过该目标概念对目标问题进行准确地解析。
值的说明的是,若未有训练至收敛的目标GBDT决策树模型,在步骤2071之前,还包括确定训练至收敛的目标GBDT决策树模型的步骤。确定训练至收敛的目标GBDT决策树模型定义为步骤2070,如图12所示,则步骤2070包括以下步骤:
步骤2070a,确定多折交叉验证算法对应的每组第一训练样本和测试样本。
多折交叉验证算法是在机器学习建立模型和验证模型参数时的算法,本实施例中用于对目标GBDT决策树模型进行选择。
本实施例中,多折交叉验证算法先将概念样本集随机划分为多个大小相同的互斥子集。若随机划分的大小相同的互斥子集的个数为N个,则可随机选择N-1份作为训练集,剩下的1份作为测试集。随机选择的N-1份训练集和剩下的1份测试集作为一组第一训练样本和测试样本。然后重新随机选择N-1份作为训练集,剩下的1份作为测试集构成另一组第一训练样本和测试样本。
其中,多折交叉验证算法的折数与随机划分为多个大小相同的互斥子集的个数相同,均为N。
步骤2070b,采用每组第一训练样本对对应的初始候选GBDT决策树模型进行训练。
步骤2070c,判断训练后的候选GBDT决策树模型是否满足第一预设的模型收敛条件,若是,则执行步骤2070d,否则继续执行步骤2070b。
步骤2070d,将满足第一预设的模型收敛条件的候选GBDT决策树模型确定为训练至收敛的候选GBDT决策树模型。
其中,在每组第一训练样本中包括明确语义类型的训练样本及无明确语义类型的训练样本。
如对于某组第一训练样本进行示例性说明:
明确语义类型的训练样本可以为:“临产前便秘”、“容易上火”、“新手”、“经常掉头发”、“手心有汗”、“大便中有奶瓣”等。
无明确语义类型的训练样本可以为:“现在”、“差不多”、“深度怀疑”、“想了解一下”、“大家”、“不知道为什么”等。
进一步地,本实施例中,针对每组第一训练样本对对应的初始候选GBDT决策树模型进行训练。每组第一训练样本对应的初始候选GBDT决策树模型可以相同,也可以不同,本实施例中对此不作限定。初始候选GBDT决策树模型为对候选GBDT决策树模型中的参数进行了初始化处理后的候选GBDT决策树模型。将每组第一训练样本输入到对应的初始候选GBDT决策树模型中,对初始候选GBDT决策树模型进行训练,调整初始候选GBDT决策树模型中的参数。在每一次迭代过程中,判断训练后的候选GBDT决策树模型是否满足第一预设的模型收敛条件,若满足第一预设的模型收敛条件,则将满足第一预设的模型收敛条件的候选GBDT决策树模型确定为训练至收敛的候选GBDT决策树模型。若确定不满足第一预设的模型收敛条件,则进入下一次迭代中,继续执行步骤2070b,继续对候选GBDT决策树模型进行训练,直到达到第一预设的模型收敛条件为止。
其中,第一预设的模型收敛条件可以为迭代次数达到第一预设迭代次数,还可以为对应的损失函数达到最小,本实施例中对第一预设的模型收敛条件不作限定。
步骤2070e,采用多折交叉验证算法对多个训练至收敛的候选GBDT决策树模型进行挑选,以获得挑选出的训练至收敛的候选GBDT决策树模型。
作为一种可选实施方式,如图13所示,步骤2070e包括以下步骤:
步骤2070e1,采用每组测试样本对对应的训练至收敛的候选GBDT决策树模型进行测试。
步骤2070e2,将准确率最高的训练至收敛的候选GBDT决策树模型确定为挑选出的训练至收敛的候选GBDT决策树模型。
进一步地,本实施例中,将每组测试样本输入到对应的训练至收敛的候选GBDT决策树模型,对应的训练至收敛的候选GBDT决策树模型对对应的测试样本进行分类,输出分类结果。根据分类结果计算每个训练至收敛的候选GBDT决策树模型对应的分类准确率。将准确率最高的训练至收敛的候选GBDT决策树模型确定为挑选出的训练至收敛的候选GBDT决策树模型。
步骤2070f,将挑选出的训练至收敛的候选GBDT决策树模型确定为训练至收敛的目标GBDT决策树模型。
步骤208,若目标概念通过校验,则根据校验通过后的目标概念和各候选问题中候选概念计算目标问题与各候选问题间的语义相关度。
可以理解的是,目标问题中的目标概念可以为至少一个。同理,每个候选问题中的候选概念也可以为至少一个。
作为一种可选实施方式,如图14所示,本实施例中,步骤208包括以下步骤:
步骤2081,确定校验通过后的目标概念及各候选问题中候选概念对应的语义特征数据。
作为一种可选实施方式,如图15所示,步骤2081包括以下步骤:
步骤2081a,确定校验通过后的目标概念及各候选问题中候选概念对应的词向量。
作为一种可选实施方式,本实施例中,步骤2081a具体包括:
从代表概念词向量集中获取校验通过后的目标概念及各候选问题中候选概念对应的词向量。
具体地,本实施例中,从代表概念词向量集中查询校验通过后的目标概念与各候选问题中的候选概念。在查询到校验通过后的目标概念和各候选概念后,获得对应的词向量。
步骤2081b,确定校验通过后的目标概念及各候选问题中候选概念在目标领域常用词集中的IDF取值。
本实施例中,预先构建目标领域常用词集,在目标领域常用词集中,具有每个常用词的IDF取值。其中,IDF为词频的逆向文档频率,若目标领域某常用词的IDF取值越大,则说明该常用词的重要程度越高。相反,若某常用词的IDF取值越小,则说明该常用词的重要程度越低。
步骤2081c,将校验通过后的目标概念对应的词向量与对应的IDF取值的乘积确定为校验通过后的目标概念对应的语义特征数据。
步骤2081d,将各候选问题中候选概念对应的词向量与对应的IDF取值的乘积确定为各候选问题中候选概念对应的语义特征数据。
本实施例中,将校验通过后的目标概念对应的词向量与对应的IDF取值的乘积确定为校验通过后的目标概念对应的语义特征数据,并将各候选问题中候选概念对应的词向量与对应的IDF取值的乘积确定为各候选问题中候选概念对应的语义特征数据。则若校验通过后的目标概念的词向量与某候选概念的词向量越接近,并且校验通过后的目标概念的IDF取值与该候选概念的IDF取值越接近,则说明该校验通过后的目标概念与该候选概念的语义相关性越大。相反,若校验通过后的目标概念的词向量与某候选概念的词向量越远离,或者校验通过后的目标概念的IDF取值与某候选概念的IDF取值越远离,则说明该校验通过后的目标概念与该候选概念的语义相关性越小。
步骤2082,将校验通过后的目标概念对应的语义特征数据与各候选问题中候选概念对应的语义特征数据输入到预设WMD算法模型中,以输出目标问题与各候选问题的语义相关度。
进一步地,本实施例中,将校验通过后的目标概念对应的词向量与对应的IDF取值的乘积,各候选问题中候选概念对应的词向量与对应的IDF取值的乘积输入到预设的WMD算法模型中,该预设的WMD算法模型首先确定出至少一个校验通过后的目标概念与每个候选问题中的至少一个候选概念的对应关系,然后计算每个校验通过后的目标概念与对应的候选概念间的语义相关度。进而根据至少一个校验通过后的目标概念与候选问题中对应的候选概念间的语义相关度确定出该目标问题与该候选问题间的语义相关度。并从预设的WMD算法模型中输出该目标问题与各候选问题件的语义相关度。
其中,预设的WMD算法模型在确定每个校验通过后的目标概念与对应的候选概念间的语义相关度时,计算每个校验通过后的目标概念语义特征数据与对应的候选概念的语义特征数据的內积值,将內积值确定为该校验通过后的目标概念与对应的候选概念间的语义相关度。
值得说明的是,步骤208中的各候选问题中的候选概念也可以为校验通过后的候选概念。
步骤209,根据目标问题与各候选问题间的语义相关度确定标准问题。
作为一种可选实施方式,本实施例中,步骤209具体包括:
将语义相关度最大的候选问题确定为标准问题。
进一步地,本实施例中,由于语义相关度最大的候选问题是与目标问题在语义上最贴合的候选问题,所以将语义相关度最大的候选问题确定为该目标问题对应的标准问题。
继承上述步骤205中的举例,经过步骤207-步骤209后,目标问题“宝宝吐奶怎么办”与三个候选问题“宝宝呛奶怎么办”、“宝宝吐奶要咋处理呢”、“宝宝有奶瓣怎么办”,根据语义相关度由大到小排布的候选问题分别为“宝宝吐奶要咋处理呢”、“宝宝呛奶怎么办”、“宝宝有奶瓣怎么办”。则将“宝宝吐奶要咋处理呢”确定为目标问题“宝宝吐奶怎么办”的标准问题。
步骤210,根据标准问题确定目标问题对应的目标答案。
步骤211,输出目标答案。
本实施例中,步骤210-步骤211的实现方式与本申请实施例一中的步骤106-步骤107的实现方式类似,在此不再一一赘述。
本实施例中,在根据目标问题与各候选问题间的语义相关度确定标准问题时,提取目标问题中的目标概念并提取各候选问题中候选概念,对目标概念进行校验处理。确定校验通过后的目标概念及各候选问题中候选概念对应的语义特征数据;将校验通过后的目标概念对应的语义特征数据与各候选问题中候选概念对应的语义特征数据输入到预设WMD算法模型中,以输出目标问题与各候选问题的语义相关度,能够采用预设的WMD算法模型首先确定出至少一个校验通过后的目标概念与每个候选问题中的至少一个候选概念的对应关系,然后计算每个校验通过后的目标概念与对应的候选概念间的语义相关度。进而根据至少一个校验通过后的目标概念与候选问题中对应的候选概念间的语义相关度确定出该目标问题与该候选问题间的语义相关度。无需将校验通过后的目标概念与候选问题中的每个候选概念依次计算语义相关度,提高了确定目标问题与各候选问题件的语义相关度的效率。并且在根据校验通过后的目标概念和各候选问题中候选概念计算目标问题与各候选问题间的语义相关度时,校验通过后的目标概念和候选概念的语义特征数据中,不仅包括对应的词向量,还加入了IDF取值作为词向量的权重,所以使确定出的目标问题与各候选问题的语义相关度更加准确。
本实施例中,采用多折交叉验证算法对多个训练至收敛的候选GBDT决策树模型进行挑选,以获得挑选出的训练至收敛的候选GBDT决策树模型;将挑选出的训练至收敛的候选GBDT决策树模型确定为训练至收敛的目标GBDT决策树模型。能够使训练至收敛的目标GBDT决策树模型更加适合与目标概念的校验,使确定出的目标概念的类型更加准确。
实施例三
图16为本申请实施例三提供的结合RPA及AI的对话问答方法的流程图,如图16所示,本实施例提供的结合RPA及AI的对话问答方法,是在本申请实施例二提供的结合RPA及AI的对话问答方法的基础上,还包括了构建目标领域概念关系网络的步骤,则本实施例提供的结合RPA及AI的对话问答方法包括以下步骤。
步骤301,构建目标领域概念集。
步骤302,对目标领域概念集中的各待选概念进行聚类,以获得代表概念。
步骤303,计算各代表概念对应的词向量,以形成代表概念词向量集。
本实施例中,步骤301-步骤303的实现方式与本申请实施例二中的步骤201-步骤203的实现方式类似,在此不再一一赘述。
步骤304,分别计算各代表概念的词向量间的內积值。
步骤305,将各代表概念的词向量的內积值确定为对应的语义相关度。
进一步地,本实施例中,计算两两代表概念的词向量间的內积值。若某两个代表概念的词向量间的內积值越大,则说明该两个代表概念的语义越相关。相反,若某两个代表概念的词向量间的內积值越小,则说明该两个代表概念的语义越不相关。所以将各代表概念的词向量的內积值确定为对应的语义相关度。
步骤306,根据各代表概念及对应的语义相关度构建目标领域概念关系网络。
作为一种可选实施方式,如图17所示,本实施例中,步骤306包括以下步骤:
步骤3061,将各代表概念确定为目标领域概念关系网络中图结构的节点。
步骤3062,将各代表概念间的语义相关度确定为对应图结构的节点间的边的关系值。
在图18中为母婴领域部分概念关系网络。如图18所示,将各代表概念确定为目标领域概念关系网络中图结构的节点,将各代表概念间的语义相关度确定为对应图结构的节点间的边的关系值。则在图18中的各圆圈为图结构的节点,各圆圈中的文字为代表概念。两个代表概念间的连线为节点间的边,两个代表概念间的连线上的数字为代表概念间的语义相关度,即为节点间的边的关系值。可以理解的是,为了能够看清两个代表概念间的关系,在图18中只示例出了一部分代表概念间的图结构。
为了将目标领域概念关系网络与该目标领域的实体建立关联,预先根据目标领域建立实体库,实体库中的实体类型可根据目标领域而定。如在母婴领域中,实体库中的实体为身体的各个部位。如在图18中,将与身体部位关联代表概念与对应的实体建立关联。
步骤307,接收用户输入的目标问题。
步骤308,确定目标问题对应的至少一个候选问题。
步骤309,提取目标问题中的目标概念并提取各候选问题中候选概念。
本实施例中,步骤307-步骤309的实现方式与本申请实施例二中的步骤204-步骤206的实现方式类似,在此不再一一赘述。
步骤310,对目标概念进行校验。
步骤311,若目标概念通过校验,根据校验通过后的目标概念和各候选问题中候选概念计算目标问题与各候选问题间的语义相关度。
步骤312,根据目标问题与各候选问题间的语义相关度确定标准问题。
步骤313,根据标准问题确定目标问题对应的目标答案。
步骤314,输出目标答案。
本实施例中,步骤310-步骤314的实现方式与本申请实施例二中的步骤207-步骤211的实现方式类似,在此不再一一赘述。
本实施例中,在计算各代表概念对应的词向量,以形成代表概念词向量集后,分别计算各代表概念的词向量间的內积值;将各代表概念的词向量的內积值确定为对应的语义相关度;根据各代表概念及对应的语义相关度构建目标领域概念关系网络,能够将构建的目标领域概念关系网络应用在结合RPA及AI的对话问答系统中。为结合RPA及AI的对话问答系统的应用提供依据。并通过该目标领域概念关系网络能够提升对话问答系统的问答能力,知识推荐能力及信息引导能力等。
本实施例中,由于在构建目标领域概念集时,对待选概念也进行了校验,所以由待选概念确定代表概念以构建目标领域概念关系网络后,目标领域概念关系网络中的代表概念也是校验通过后的,所以更能准确地构建目标领域概念关系网络。
实施例四
图19为本申请实施例四提供的结合RPA及AI的对话问答装置的结构示意图,如图19所示,本实施例提供的结合RPA及AI的对话问答装置400包括:目标问题接收模块401,候选问题确定模块402,概念提取模块403,概念校验模块404,标准问题确定模块405,目标答案确定模块406及目标答案输出模块407。
其中,目标问题接收模块401,用于接收用户输入的目标问题。候选问题确定模块402,用于确定目标问题对应的至少一个候选问题。概念提取模块403,用于提取目标问题中的目标概念。概念校验模块404,用于对目标概念进行校验。标准问题确定模块405,用于若目标概念通过校验,则根据目标问题与各候选问题间的语义相关度确定标准问题。目标答案确定模块406,用于根据标准问题确定目标问题对应的目标答案。目标答案输出模块407,用于输出目标答案。
本实施例提供的结合RPA及AI的对话问答装置可以执行图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
实施例五
图20为本申请实施例五提供的结合RPA及AI的对话问答装置的结构示意图,如图20所示,本实施例提供的结合RPA及AI的对话问答装置500在本申请实施例四提供的结合RPA及AI的对话问答装置400的基础上,进一步地,还包括:语义相关度计算模块501,词向量集构建模块502及概念关系网络构建模块503。
进一步地,概念提取模块403,具体用于:
将目标问题与预设的目标领域问句模板集中的各问句模板进行正则匹配;获取与目标问题相匹配的问句模板;确定目标问题与相匹配的问句模板之间的增加文本;将增加文本确定为目标概念。
进一步地,概念提取模块403,还用于若目标领域问句模板集中不存在与目标问题相匹配的问句模板,则将目标问题与预先构建的目标领域概念集中的各待选概念进行关键词匹配;获取与目标问题匹配度最高的待选概念;将相匹配度最高的待选概念确定为目标问题的目标概念。
进一步地,概念校验模块404,具体用于:
采用训练至收敛的目标分类模型对目标概念进行类型识别;若目标概念为明确语义类型,则确定该目标概念通过校验;若目标概念为无明确语义类型,则确定该目标概念未通过校验。
进一步地,概念校验模块404,在采用训练至收敛的目标分类模型对目标概念进行类型识别时,具体用于:
提取目标概念的语义相关特征;将各语义相关特征输入到训练至收敛的目标分类模型中,以根据各语义相关特征对目标概念进行类型识别;通过训练至收敛的目标分类模型输出目标概念的类别。
进一步地,目标概念的语义相关特征包括以下任意一种或多种:
单词频次平均值,双词频次平均值,目标领域内的单词IDF平均值,是否为单字,通用领域内的单词IDF平均值,相邻单词内聚度平均值。
进一步地,训练至收敛的目标分类模型为训练至收敛的目标GBDT决策树模型。
进一步地,概念校验模块404,还用于:
采用多折交叉验证算法对多个训练至收敛的候选GBDT决策树模型进行挑选,以获得挑选出的训练至收敛的候选GBDT决策树模型;将挑选出的训练至收敛的候选GBDT决策树模型确定为训练至收敛的目标GBDT决策树模型。
进一步地,概念校验模块404,在采用多折交叉验证算法对多个训练至收敛的候选GBDT决策树模型进行挑选之前,还用于:
确定多折交叉验证算法对应的每组第一训练样本和测试样本;采用每组第一训练样本对对应的初始候选GBDT决策树模型进行训练;判断训练后的候选GBDT决策树模型是否满足第一预设的模型收敛条件;若确定满足第一预设的模型收敛条件,则将满足第一预设的模型收敛条件的候选GBDT决策树模型确定为训练至收敛的候选GBDT决策树模型。
进一步地,概念校验模块404,在采用多折交叉验证算法对多个训练至收敛的候选GBDT决策树模型进行挑选,以获得挑选出的训练至收敛的候选GBDT决策树模型时,具体用于:
采用每组测试样本对对应的训练至收敛的候选GBDT决策树模型进行测试;将准确率最高的训练至收敛的候选GBDT决策树模型确定为挑选出的训练至收敛的候选GBDT决策树模型。
进一步地,概念提取模块403,还用于:提取各候选问题中候选概念。语义相关度计算模块,用于根据校验通过后的目标概念和各候选问题中候选概念计算目标问题与各候选问题间的语义相关度。
进一步地,语义相关度计算模块501,具体用于:
确定校验通过后的目标概念及各候选问题中候选概念对应的语义特征数据;将校验通过后的目标概念对应的语义特征数据与各候选问题中候选概念对应的语义特征数据输入到预设WMD算法模型中,以输出目标问题与各候选问题的语义相关度。
进一步地,语义相关度计算模块501,在确定校验通过后的目标概念及各候选问题中候选概念对应的语义特征数据时,具体用于:
确定校验通过后的目标概念及各候选问题中候选概念对应的词向量;确定校验通过后的目标概念及各候选问题中候选概念在目标领域常用词集中的IDF取值;将校验通过后的目标概念对应的词向量与对应的IDF取值的乘积确定为校验通过后的目标概念对应的语义特征数据;将各候选问题中候选概念对应的词向量与对应的IDF取值的乘积确定为各候选问题中候选概念对应的语义特征数据。
进一步地,词向量集构建模块502,用于构建目标领域概念集;对目标领域概念集中的各待选概念进行聚类,以获得代表概念;计算各代表概念对应的词向量,以形成代表概念词向量集。
进一步地,语义相关度计算模块501,在确定校验通过后的目标概念及各候选问题中候选概念对应的词向量时,具体用于:
从代表概念词向量集中获取校验通过后的目标概念及各候选问题中候选概念对应的词向量。
进一步地,词向量集构建模块502,在构建目标领域概念集时,具体用于:
获取预设的目标领域问题集;提取目标领域问题集中的各待选问题中的待选概念;若未达到预设的概念集收敛条件,则扩展预设的目标领域问句模板集中的各问句模板,执行提取目标领域问题集中的各待选问题中的待选概念;若达到预设的概念集收敛条件,则根据各待选概念构建目标领域概念集。
进一步地,概念校验模块404,还用于:
对待选概念进行校验处理,以删除未通过校验的待选概念。
进一步地,词向量集构建模块502,在对目标领域概念集中的各待选概念进行聚类,以获得代表概念时,具体用于:
将目标领域概念集中满足对齐条件的待选概念确定为同一待选概念;将各同一待选概念和目标领域概念集中的其他待选概念确定为候选概念;对各候选概念进行聚类,以获得代表概念。
进一步地,词向量集构建模块502,在对各候选概念进行聚类,以获得代表概念时,具体用于:
采用HDBSCAN聚类算法对候选概念进行聚类,以获得每个聚类中心的候选概念;将每个聚类中心的候选概念确定为代表概念。
进一步地,词向量集构建模块502,在计算各代表概念对应的词向量,以形成代表概念词向量集时,具体用于:
获取至少一个代表知识点问题,各代表知识点问题中包括对应的代表概念;采用训练至收敛的Fasttext模型对各代表知识点问题中的每个概念进行编码,以获得每个概念的词向量;从各代表知识点问题的每个概念的词向量中获取对应的代表概念的词向量,以形成代表概念词向量集。
进一步地,词向量集构建模块502,在采用训练至收敛的Fasttext模型对各代表知识点问题中的每个概念进行编码,以获得每个概念的词向量之前,还用于:
获取第二训练样本,第二训练样本为目标领域知识库中的训练知识点问题;采用第二训练样本对初始Fasttext模型进行训练;判断训练后的Fasttext模型是否满足第二预设的模型收敛条件;若确定满足第二预设的模型收敛条件,则将满足第二预设的模型收敛条件的Fasttext模型确定为训练至收敛的Fasttext模型。
进一步地,概念关系网络构建模块503,用于分别计算各代表概念的词向量间的內积值;将各代表概念的词向量的內积值确定为对应的语义相关度;根据各代表概念及对应的语义相关度构建目标领域概念关系网络。
进一步地,概念关系网络构建模块503,在根据各代表概念及对应的语义相关度构建目标领域概念关系网络时,具体用于:
将各代表概念确定为目标领域概念关系网络中图结构的节点;将各代表概念间的语义相关度确定为对应图结构的节点间的边的关系值。
本实施例提供的结合RPA及AI的对话问答装置可以执行图3-图17所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
实施例六
图21是用来实现本申请实施例的结合RPA及AI的对话问答方法的电子设备的框图,兔兔21所示,本申请实施例六提供的电子设备,包括:存储器601,处理器602以及计算机程序。
其中,计算机程序存储在存储器601中,并被配置为由处理器602执行以实现实施例一至实施例三中任一个实施例提供的结合RPA及AI的对话问答方法。
相关说明可以对应参见图2至图17的步骤所对应的相关描述和效果进行理解,此处不做过多赘述。
电子设备旨在各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
其中,本实施例中,存储器601和处理器602通过总线603连接。
本申请实施例七提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行以实现实施例一至实施例三中任一个实施例提供的结合RPA及AI的对话问答方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
用于实施本申请的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本申请的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。
Claims (15)
1.一种结合RPA及AI的对话问答方法,其特征在于,所述方法应用于电子设备,所述方法包括:
接收用户输入的目标问题;
确定所述目标问题对应的至少一个候选问题;
提取所述目标问题中的目标概念;
对所述目标概念进行校验;
若所述目标概念通过校验,则根据所述目标问题与各所述候选问题间的语义相关度确定标准问题;
根据所述标准问题确定所述目标问题对应的目标答案;
输出所述目标答案。
2.根据权利要求1所述的方法,其特征在于,所述对所述目标概念进行校验,包括:
采用训练至收敛的目标分类模型对目标概念进行类型识别;
若目标概念为明确语义类型,则确定该目标概念通过校验;
若目标概念为无明确语义类型,则确定该目标概念未通过校验。
3.根据权利要求2所述的方法,其特征在于,所述采用训练至收敛的目标分类模型对目标概念进行类型识别,包括:
提取目标概念的语义相关特征;
将各所述语义相关特征输入到训练至收敛的目标分类模型中,以根据各所述语义相关特征对目标概念进行类型识别;
通过所述训练至收敛的目标分类模型输出目标概念的类别。
4.根据权利要求2或3所述的方法,其特征在于,所述训练至收敛的目标分类模型为训练至收敛的目标GBDT决策树模型。
5.根据权利要求4所述的方法,其特征在于,所述采用训练至收敛的分类模型对目标概念进行类型识别之前,还包括:
采用多折交叉验证算法对多个训练至收敛的候选GBDT决策树模型进行挑选,以获得挑选出的训练至收敛的候选GBDT决策树模型;
将所述挑选出的训练至收敛的候选GBDT决策树模型确定为训练至收敛的目标GBDT决策树模型。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标问题与各所述候选问题间的语义相关度确定标准问题之前,还包括:
提取各所述候选问题中候选概念;
根据校验通过后的目标概念和各所述候选问题中候选概念计算所述目标问题与各所述候选问题间的语义相关度。
7.根据权利要求6所述的方法,其特征在于,所述根据校验通过后的目标概念和各所述候选问题中候选概念计算所述目标问题与各所述候选问题间的语义相关度,包括:
确定所述校验通过后的目标概念及各所述候选问题中候选概念对应的语义特征数据;
将所述校验通过后的目标概念对应的语义特征数据与各所述候选问题中候选概念对应的语义特征数据输入到预设WMD算法模型中,以输出所述目标问题与各所述候选问题的语义相关度。
8.根据权利要求7所述的方法,其特征在于,所述确定所述校验通过后的目标概念及各所述候选问题中候选概念对应的语义特征数据,包括:
确定所述校验通过后的目标概念及各所述候选问题中候选概念对应的词向量;
确定所述校验通过后的目标概念及各所述候选问题中候选概念在目标领域常用词集中的IDF取值;
将所述校验通过后的目标概念对应的词向量与对应的IDF取值的乘积确定为所述校验通过后的目标概念对应的语义特征数据;
将各所述候选问题中候选概念对应的词向量与对应的IDF取值的乘积确定为各所述候选问题中候选概念对应的语义特征数据。
9.根据权利要求8所述的方法,其特征在于,所述确定所述校验通过后的目标概念及各所述候选问题中候选概念对应的词向量之前,还包括:
构建目标领域概念集;
对所述目标领域概念集中的各待选概念进行聚类,以获得代表概念;
计算各代表概念对应的词向量,以形成代表概念词向量集。
10.根据权利要求9所述的方法,其特征在于,所述确定所述校验通过后的目标概念及各所述候选问题中候选概念对应的词向量,包括:
从所述代表概念词向量集中获取所述校验通过后的目标概念及各所述候选问题中候选概念对应的词向量。
11.根据权利要求9所述的方法,其特征在于,所述计算各代表概念对应的词向量,以形成代表概念词向量集,包括:
获取至少一个代表知识点问题,各代表知识点问题中包括对应的代表概念;
采用训练至收敛的Fasttext模型对各所述代表知识点问题中的每个概念进行编码,以获得每个概念的词向量;
从各代表知识点问题的每个概念的词向量中获取对应的代表概念的词向量,以形成代表概念词向量集。
12.根据权利要求11所述的方法,其特征在于,所述从各代表知识点问题的每个概念的词向量中获取对应的代表概念的词向量,以形成代表概念词向量集之后,还包括:
分别计算各代表概念的词向量间的內积值;
将各代表概念的词向量的內积值确定为对应的语义相关度;
所述根据各所述代表概念及对应的语义相关度构建所述目标领域概念关系网络。
13.一种结合RPA及AI的对话问答装置,其特征在于,所述装置位于电子设备中,所述装置包括:
目标问题接收模块,用于接收用户输入的目标问题;
候选问题确定模块,用于确定所述目标问题对应的至少一个候选问题;
概念提取模块,用于提取所述目标问题中的目标概念;
概念校验模块,用于对所述目标概念进行校验;
标准问题确定模块,用于若所述目标概念通过校验,则根据所述目标问题与各所述候选问题间的语义相关度确定标准问题;
目标答案确定模块,用于根据所述标准问题确定所述目标问题对应的目标答案;
目标答案输出模块,用于输出所述目标答案。
14.一种电子设备,其特征在于,包括:
存储器,处理器以及计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-12中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-12中任一项所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2019114211621 | 2019-12-31 | ||
CN201911421162 | 2019-12-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112035631A true CN112035631A (zh) | 2020-12-04 |
Family
ID=73578278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010840306.3A Pending CN112035631A (zh) | 2019-12-31 | 2020-08-19 | 结合rpa及ai的对话问答方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112035631A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925894A (zh) * | 2021-03-26 | 2021-06-08 | 支付宝(杭州)信息技术有限公司 | 对话中标问匹配方法、系统及装置 |
CN113642854A (zh) * | 2021-07-23 | 2021-11-12 | 重庆中烟工业有限责任公司 | 烟支单支克重预测方法、装置及计算机可读存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108491394A (zh) * | 2018-06-27 | 2018-09-04 | 杭州贝店科技有限公司 | 一种语义分析方法、装置、计算机设备及存储介质 |
CN108595619A (zh) * | 2018-04-23 | 2018-09-28 | 海信集团有限公司 | 一种问答方法及设备 |
CN108897867A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 用于知识问答的数据处理方法、装置、服务器和介质 |
US10437833B1 (en) * | 2016-10-05 | 2019-10-08 | Ontocord, LLC | Scalable natural language processing for large and dynamic text environments |
CN110427461A (zh) * | 2019-08-06 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 智能问答信息处理方法、电子设备及计算机可读存储介质 |
-
2020
- 2020-08-19 CN CN202010840306.3A patent/CN112035631A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10437833B1 (en) * | 2016-10-05 | 2019-10-08 | Ontocord, LLC | Scalable natural language processing for large and dynamic text environments |
CN108595619A (zh) * | 2018-04-23 | 2018-09-28 | 海信集团有限公司 | 一种问答方法及设备 |
CN108491394A (zh) * | 2018-06-27 | 2018-09-04 | 杭州贝店科技有限公司 | 一种语义分析方法、装置、计算机设备及存储介质 |
CN108897867A (zh) * | 2018-06-29 | 2018-11-27 | 北京百度网讯科技有限公司 | 用于知识问答的数据处理方法、装置、服务器和介质 |
CN110427461A (zh) * | 2019-08-06 | 2019-11-08 | 腾讯科技(深圳)有限公司 | 智能问答信息处理方法、电子设备及计算机可读存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112925894A (zh) * | 2021-03-26 | 2021-06-08 | 支付宝(杭州)信息技术有限公司 | 对话中标问匹配方法、系统及装置 |
CN112925894B (zh) * | 2021-03-26 | 2022-07-05 | 支付宝(杭州)信息技术有限公司 | 对话中标问匹配方法、系统及装置 |
CN113642854A (zh) * | 2021-07-23 | 2021-11-12 | 重庆中烟工业有限责任公司 | 烟支单支克重预测方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840287B (zh) | 一种基于神经网络的跨模态信息检索方法和装置 | |
CN108829757B (zh) | 一种聊天机器人的智能服务方法、服务器及存储介质 | |
Bruni et al. | Distributional semantics from text and images | |
US9146987B2 (en) | Clustering based question set generation for training and testing of a question and answer system | |
CN112347778A (zh) | 关键词抽取方法、装置、终端设备及存储介质 | |
CN112819023A (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN108960574A (zh) | 问答的质量确定方法、装置、服务器和存储介质 | |
CN110705247B (zh) | 基于χ2-C的文本相似度计算方法 | |
CN110597961A (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN112115716A (zh) | 一种基于多维词向量下文本匹配的服务发现方法、系统及设备 | |
CN115470338B (zh) | 一种基于多路召回的多场景智能问答方法和系统 | |
CN109829045A (zh) | 一种问答方法和装置 | |
CN112131876A (zh) | 一种基于相似度确定标准问题的方法及系统 | |
CN112035631A (zh) | 结合rpa及ai的对话问答方法、装置、设备及存储介质 | |
KR20200087977A (ko) | 멀티모달 문서 요약 시스템 및 방법 | |
Cho et al. | Efficient semi-supervised learning for natural language understanding by optimizing diversity | |
Parvathi et al. | Identifying relevant text from text document using deep learning | |
Banerjee et al. | Relation extraction using multi-encoder lstm network on a distant supervised dataset | |
CN110413737B (zh) | 一种同义词的确定方法、装置、服务器及可读存储介质 | |
TWI734085B (zh) | 使用意圖偵測集成學習之對話系統及其方法 | |
CN114586038A (zh) | 事件抽取和抽取模型训练的方法和装置、设备、介质 | |
CN116662518A (zh) | 问答方法、装置、电子设备及可读存储介质 | |
CN116524915A (zh) | 一种基于语义交互的弱监督语音-视频定位方法和系统 | |
CN111966788A (zh) | 结合rpa及ai的对话问答方法、装置、设备及存储介质 | |
CN115600595A (zh) | 一种实体关系抽取方法、系统、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |