CN110427461A - 智能问答信息处理方法、电子设备及计算机可读存储介质 - Google Patents

智能问答信息处理方法、电子设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110427461A
CN110427461A CN201910722585.0A CN201910722585A CN110427461A CN 110427461 A CN110427461 A CN 110427461A CN 201910722585 A CN201910722585 A CN 201910722585A CN 110427461 A CN110427461 A CN 110427461A
Authority
CN
China
Prior art keywords
information
user
question information
intention
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910722585.0A
Other languages
English (en)
Other versions
CN110427461B (zh
Inventor
童丽霞
雷植程
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910722585.0A priority Critical patent/CN110427461B/zh
Publication of CN110427461A publication Critical patent/CN110427461A/zh
Application granted granted Critical
Publication of CN110427461B publication Critical patent/CN110427461B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Abstract

本申请实施例提供了一种智能问答信息处理方法、电子设备及计算机可读存储介质,涉及人工智能技术领域。该方法包括:基于用户输入的提问信息,确定第一意图信息,然后基于第一意图信息,输出反问信息,反问信息为对用户的提问信息,然后获取用户针对反问信息的回复信息,然后基于用户针对反问信息的回复信息,确定第二意图信息,然后基于第一意图信息以及第二意图信息,确定目标答复信息。本申请实施例实现了提升确定目标答复信息的准确度,进而可以提升用户体验。

Description

智能问答信息处理方法、电子设备及计算机可读存储介质
技术领域
本申请涉及人工智能技术领域,具体而言,本申请涉及一种智能问答信息处理方法、电子设备及计算机可读存储介质。
背景技术
随着人工智能技术以及自然语言处理技术的发展,智能问答系统随之产生,智能问答系统用于基于用户的提问,采用准确、简洁的自然语言针对用户的提问进行回复。
现有技术中通过智能问答系统进行智能问答时,主要采用“一问一答”的方式。具体地,获取用户的提问信息;基于用户的提问信息匹配出针对用户的提问信息的答复信息。
然而,仅通过用户的提问信息,可能无法确定出相匹配的答复信息,或者仅是根据用户的提问信息匹配得到针对用户的提问信息的答复信息的准确度较低,可能并未针对用户的提问给出准确答复,从而导致用户体验较低。
发明内容
本申请提供了一种智能问答信息处理方法、电子设备及计算机可读存储介质,可以上述至少一项技术问题。技术方案如下:
第一方面,提供了一种智能问答信息处理方法,该方法包括:
基于用户输入的提问信息,确定第一意图信息;
基于第一意图信息,输出反问信息,反问信息为应于用户的提问信息;
获取用户针对反问信息的回复信息;
基于用户针对反问信息的回复信息,确定第二意图信息;
基于第一意图信息以及第二意图信息,确定目标答复信息。
在一种可能的实现方式中,基于用户输入的提问信息,确定第一意图信息,包括:
对用户输入的提问信息按照预设处理方式进行预处理,预设处理方式包括:特殊标点符号和停用词进行过滤处理、汉字由繁体转简体处理以及英文大字字母转换为英文小写字母处理中的至少一项;
对预处理后的提问信息进行分词处理,得到分词结果;
基于分词结果,并通过预设模型确定第一意图信息;
分词结果包括:
字以及词语中至少一项;
词语对应的词性信息;
词语对应的语法信息;
字在预处理后的提问信息中对应的位置信息以及词语分别在预处理后的提问信息中对应的位置信息中的至少一项。
在另一种可能的实现方式中,基于分词结果,并通过预设模型确定第一意图信息,包括:
将分词结果分别通过至少两个分类网络进行分类处理,得到分词结果在每个分类网络所对应的各个业务类型的概率信息,其中,至少两个分类网络中不同的分类网络所对应的业务类型具有层级关系;根据分词结果在每个分类网络所对应的各个业务类型的概率信息、各个分类网络所对应的概率阈值以及各个分类网络所对应的业务类型之间的层级关系,确定第一意图信息。
在另一种可能的实现方式中,将分词结果,依次通过至少两个网络模型分别确定提问信息所对应的业务类型,包括以下任一项:
将分词结果分别通过至少两个分类网络进行分类处理,得到分词结果在每个分类网络所对应的各个业务类型的概率信息,包括以下任一项:
将分词结果,分别通过至少两个循环神经网络进行分类处理,得到分词结果在每个循环神经网络所对应的各个业务类型的概率信息;
将分词结果,分别通过由以下任一项组成的至少两个分类网络进行分类处理,得到分词结果在每个分类网络所对应的各个业务类型的概率信息:
文本卷积神经网络TextCNN以及支持向量机SVM;
FastText以及SVM。
在另一种可能的实现方式中,基于第一意图信息,输出反问信息,包括:
基于第一意图信息,确定待执行的查询操作;
基于待执行的查询操作,确定反问信息并输出。
在另一种可能的实现方式中,基于第一意图信息,确定待执行的查询操作;基于待执行的查询操作,确定反问信息并输出,包括:
基于第一意图信息,确定待调用的API接口;
确定调用待调用的API接口所缺少的元素信息;
基于调用待调用的API接口所缺少的元素信息,确定反问信息并输出。
在另一种可能的实现方式中,基于用户针对反问信息的回复信息,确定第二意图信息,包括:
从用户针对反问信息的回复信息中进行实体抽取,得到调用待调用的API接口所需元素信息;
基于调用待调用的API接口所需元素信息调用待调用的API接口;
基于调用结果确定第二意图信息。
在另一种可能的实现方式中,基于第一意图信息以及第二意图信息,确定目标答复信息,包括:
基于第一意图信息、第二意图信息以及用户输入的提问信息,确定目标答复信息。
在另一种可能的实现方式中,基于第一意图信息、第二意图信息以及用户输入的提问信息,确定目标答复信息,包括:
基于第一意图信息以及第二意图信息,确定至少一个候选提问信息;
将用户输入的提问信息与至少一个候选提问信息进行相似度匹配;
基于相似度匹配结果,确定目标答复信息。
在另一种可能的实现方式中,将用户输入的提问信息与至少一个候选提问信息进行相似度匹配,包括:
确定用户输入的提问信息对应的句向量,以及至少一个候选提问信息分别对应的句向量;
将用户输入的提问信息对应的句向量与至少一个候选提问信息分别对应的句向量进行相似度匹配。
在另一种可能的实现方式中,确定用户输入的提问信息对应的句向量的方式,包括:
将用户输入的提问信息输入至词向量生成网络模型,得到用户输入的提问信息对应的至少两个词向量;
对至少两个词向量通过求平均处理,得到用户输入的提问信息对应的句向量。
第二方面,提供了一种智能问答信息处理装置,该装置包括:
第一确定模块,用于基于用户输入的提问信息,确定第一意图信息;
输出模块,用于基于第一意图信息,输出反问信息,反问信息对应于用户的提问信息;
获取模块,用于获取用户针对反问信息的回复信息;
第二确定模块,用于基于用户针对反问信息的回复信息,确定第二意图信息;
第三确定模块,用于基于第一意图信息以及第二意图信息,确定目标答复信息。
在一种可能的实现方式中,第一确定模块包括:预处理单元、分词处理单元、第一确定单元,其中,
预处理单元,用于对用户输入的提问信息按照预设处理方式进行预处理,预设处理方式包括:特殊标点符号和停用词进行过滤处理、汉字由繁体转简体处理以及英文大字字母转换为英文小写字母处理中的至少一项;
分词单元,用于对预处理后的提问信息进行分词处理,得到分词结果;
第一确定单元,用于基于分词结果,并通过预设模型确定第一意图信息;
分词结果包括:
字以及词语中至少一项;
词语对应的词性信息;
词语对应的语法信息;
字在预处理后的提问信息中对应的位置信息以及词语分别在预处理后的提问信息中对应的位置信息中的至少一项。
在另一种可能的实现方式中,第一确定单元,具体用于将分词结果分别通过至少两个分类网络进行分类处理,得到分词结果在每个分类网络所对应的各个业务类型的概率信息,其中,至少两个分类网络中不同的分类网络所对应的业务类型具有层级关系;;
第一确定单元,具体还用于根据分词结果在每个分类网络所对应的各个业务类型的概率信息、各个分类网络所对应的概率阈值以及各个分类网络所对应的业务类型之间的层级关系,确定第一意图信息。。
在另一种可能的实现方式中,第一确定单元,具体用于将分词结果,分别通过至少两个循环神经网络进行分类处理,得到分词结果在每个循环神经网络所对应的各个业务类型的概率信息。
在另一种可能的实现方式中,第一确定单元,具体还用于
将分词结果,分别通过由以下任一项组成的至少两个分类网络进行分类处理,得到分词结果在每个分类网络所对应的各个业务类型的概率信息:
文本卷积神经网络TextCNN以及支持向量机SVM;
FastText以及SVM。
在另一种可能的实现方式中,输出模块包括:第二确定单元以及输出单元,其中,
第二确定单元,用于基于第一意图信息,确定待执行的查询操作;
第二确定单元,还用于基于待执行的查询操作,确定反问信息;
输出单元,用于输出反问信息。
在另一种可能的实现方式中,第二确定单元,具体还用于基于第一意图信息,确定待调用的API接口;
第二确定单元,具体还用于确定调用待调用的API接口所缺少的元素信息;
第二确定单元,具体还用于基于调用待调用的API接口所缺少的元素信息,确定反问信息;
输出单元,具体还用于输出反问信息。
在另一种可能的实现方式中,第二确定模块包括:实体抽取单元、调用单元以及第三确定单元,其中,
实体抽取单元,用于从用户针对反问信息的回复信息中进行实体抽取,得到调用待调用的API接口所需元素信息;
调用单元,用于基于调用待调用的API接口所需元素信息调用待调用的API接口;
第三确定单元,用于基于调用结果确定第二意图信息。
在另一种可能的实现方式中,第三确定模块,具体用于基于第一意图信息、第二意图信息以及用户输入的提问信息,确定目标答复信息。
在另一种可能的实现方式中,第三确定模块,具体用于基于第一意图信息以及第二意图信息,确定至少一个候选提问信息;以及将用户输入的提问信息与至少一个候选提问信息进行相似度匹配;以及基于相似度匹配结果,确定目标答复信息。
在另一种可能的实现方式中,第三确定模块,具体还用于确定用户输入的提问信息对应的句向量,以及至少一个候选提问信息分别对应的句向量;以及将用户输入的提问信息对应的句向量与至少一个候选提问信息分别对应的句向量进行相似度匹配。
在另一种可能的实现方式中,第三确定模块,具体还用于将用户输入的提问信息输入至词向量生成网络模型,得到用户输入的提问信息对应的至少两个词向量;以及对至少两个词向量通过求平均处理,得到用户输入的提问信息对应的句向量。
第三方面,提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行根据第一方面以及第一方面任一可能的实现方式所示的智能问答信息处理方法对应的操作。
第四方面,提供了一种计算机可读存储介质,存储介质存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面以及第一方面任一可能的实现方式所示的智能问答信息处理方法。
本申请提供的技术方案带来的有益效果是:
本申请提供了一种智能问答信息处理方法、装置、电子设备及计算机可读存储介质,与现有技术中智能系统采用“一问一答”的方式进行智能问答时,本申请基于用户输入的提问信息,确定第一意图信息,然后基于第一意图信息对用户进行提问,然后获取用户针对该提问的回复信息,确定第二意图信息,然后基于第一意图信息以及第二意图信息,确定目标答复,即当针对用户的第一意图信息无法匹配出目标答复信息时,通过反问用户并获取用户针对反问的回复信息,确定第二意图信息,基于第一意图信息以及第二意图信息可以增加确定出目标答复信息的概率;再者,通过第一意图信息以及第二意图信息确定出目标答复信息,可以提升确定目标答复信息的准确度,进而可以提升用户体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1a为本申请实施例提供的智能问答信息处理方法的总示意图;
图1b为本申请实施例提供的一种智能问答信息处理方法的流程示意图;
图2为本申请实施例提供的一种智能问答信息处理装置的结构示意图;
图3为本申请实施例提供的一种智能问答信息处理的电子设备的结构示意图;
图4为不同模型测试效果对比示意图;
图5为本申请实施例的多层意图理解网络示意图;
图6为本申请实施例多层业务目录示意图;
图7为本申请实施例中提问信息与候选提问信息进行相似度匹配示意图;
图8为本申请实施例中自动化配置流程的表格示意图;
图9为本申请实施例中智能问答信息处理的交互流程示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先对本申请涉及的几个名词进行介绍和解释:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能;人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
Jieba:一种中文分词插件,将一个词序列切分成一个个单独的词;
分词:将连续的字序列按照一定的规范重新组合成词序列的过程;
平滑逆频率(Smooth Inverse Frequency,SIF):一种用于计算每个词的加权系数的平滑倒词频的方法,具体地,词的权重为a/(a+p(w)),其中a为平滑参数,p(w)为(估计的)词频;
Word2vec:是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层;
卷积神经网络(Convolutional Neural Networks,CNN),是一种前馈神经网络,人工神经元可以响应周围单元,其中,卷积神经网络包括卷积层和池化层;
FastText:一种基于skip-gram模型的新扩展,它会使用subword的信息,将每个词被表示成一个字符级n-gram词袋。每个向量表示与每个字符级n-gram相关联,而词则可以看成是这些n-gram向量表示的求和。
循环神经网络(Recurrent Neural Network,RNN),是一类以序列(sequence)数据为输入,在序列的演进方向进行递归且所有节点(循环单元)按链式连接的递归神经网络;这种网络的内部状态可以展示动态时序行为,它可以利用内部的记忆来处理变长的输入序列;
支持向量机(Support Vector Machine,SVM)是一类按监督学习(supervisedlearning)方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最大边距超平面;
词频-逆文本频率指数(Term Frequency–Inverse Document Frequency,TF-IDF)是一种用于信息检索与数据挖掘的常用加权技术。
本申请实施例提供的确定智能问答信息处理方法可以适用于客户多轮对话系统中,现有的客服多轮对话系统可以包括:基于隐式表达的多轮对答模型以及基于显示表达的多轮对答模型。其中,基于隐式表达的多轮对答模型是将上文信息和当前query(用户当前提问)通过编码网络编码成一个隐层向量,再将隐层向量通过解码网络生成答案;基于显示表达的多轮对答模型将上文信息通过补词或者上下文改写两种方式加入当前query,形成人可以直观理解的问句。补词技术基于如下假设,即核心词可视为上文topic在词汇级别的表征,传递核心词可增强场景的主题连贯性。上下文改写技术,将上下文与当前query改写为完整意思的一句话,从而将多轮对话转成单轮对话进行解决,常用指代消解和翻译模型实现。
现有的客服多轮对话系统可能存在如下技术问题:
(1)现有的多轮对答模型还不够成熟,在实际场景中缺乏对真实数据噪声的考虑,泛化能力比较差,多个场景要重复造车;
(2)大部分现有多轮对答模型更适用于英文场景和通用闲聊场景,并未考虑到中文场景和垂直场景的特殊性;
(3)现有的多轮对答体系不够完整,运营人员很难参与进来,流程构建困难,上线缓慢;
(4)隐式表达的多轮对答模型实际效果好坏高度依赖于隐藏输出向量表示,错误比较难跟踪,结果解释性比较弱,难以调优;基于显示表达的多轮对答模型中上下文补词方案会破坏语义的连贯性和完整性,并且指代消解方案计算量太大、添加新文本需要重新训练词的权值、词之间的关联性没考虑,上下文补全模型同样解释性也比较差。
本申请提供的智能问答信息处理方法、电子设备和计算机可读存储介质,包括:将用户输入的提问信息分别通过多层分类网络,从多个不同的意图中,如l1-l8,得到第一意图信息,基于第一意图信息,确定第二意图信息(状态),然后基于第一意图信息以及第二意图信息,从多个语境的各个语句中确定目标答复,如一组C1-C2-C3表示一个语境里的不同语句,如图1a所示。旨在解决现有技术的如上技术问题。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种智能问答信息处理方法,该智能问答信息处理方法可以由终端设备执行,也可以由服务器执行,如图1b所示,该方法包括:
步骤S101、基于用户输入的提问信息,确定第一意图信息。
对于本申请实施例,步骤S101之前还可以包括:获取用户输入的提问信息。
对于本申请实施例,获取用户输入的提问信息包括:获取用户通过语音格式输入的提问信息,以及获取用户通过文本格式输入的提问信息。在本申请实施例中不做限定。
例如,用户可以在公众号中输入要咨询的问题(提问信息),确定用户的咨询意图(第一意图信息)。
步骤S102、基于第一意图信息,输出反问信息。
其中,反问信息对应于用户的提问信息。
对于本申请实施例,在步骤S102之前还可以包括:预先设置第一意图信息与反问信息之间的对应关系。在本申请实施例中,在步骤S101确定出第一意图信息之后,基于步骤S101确定出的第一意图信息以及第一意图信息与反问信息之间的映射关系,确定并输出对应的反问信息。
对于本申请实施例,步骤S101确定出第一意图信息之后,确定待执行的查询操作,基于待执行的查询操作,确定并输出对应的反问信息。
步骤S103、获取用户针对反问信息的回复信息。
步骤S104、基于用户针对反问信息的回复信息,确定第二意图信息。
步骤S105、基于第一意图信息以及第二意图信息,确定目标答复信息。
本申请实施例提供了一种智能问答信息处理方法,与现有技术中智能系统采用“一问一答”的方式进行智能问答时,本申请实施例基于用户输入的提问信息,确定第一意图信息,然后基于第一意图信息对用户进行提问,然后获取用户针对该提问的回复信息,确定第二意图信息,然后基于第一意图信息以及第二意图信息,确定目标答复信息,即当针对用户的第一意图信息无法匹配出目标答复信息时,通过反问用户并获取用户针对反问的回复信息,确定第二意图信息,基于第一意图信息以及第二意图信息可以增加确定出目标答复的概率;再者,通过第一意图信息以及第二意图信息确定出目标答复信息,可以提升确定目标答复信息的准确度,进而可以提升用户体验。
本申请实施例的另一种可能的实现方式,步骤S101具体可以包括:对用户输入的提问信息进行预处理;对预处理后的提问信息进行分词处理,得到分词结果;基于分词结果,并通过预设模型确定第一意图信息。
其中,分词结果包括:字以及词语中至少一项;词语对应的词性信息;词语对应的语法信息;字在预处理后的提问信息中对应的位置信息以及词语分别在预处理后的提问信息中对应的位置信息中的至少一项。
对于本申请实施例,对用户输入的提问信息进行预处理可以包括:对用户输入的提问信息按照预设处理方式进行预处理。
其中,预设处理方式可以包括:特殊标点符号和停用词进行过滤处理、汉字由繁体转简体以及英文大字字母转换为英文小写字母处理中的至少一项。
对于本申请实施例,对预处理后的提问信息进行分词处理,得到分词结果的方式,具体可以包括:利用jieba对处理后的提问信息按照字和词进行分词处理,得到分词结果。在本申请实施例中,在利用jieba对处理后的提问信息进行分词处理,之前还可以包括:收集用户针对各个产品的提问信息,并对每个产品的提问信息进行聚类处理,得到至少一个核心关键词,并将至少一个核心关键词通过人工审核生成业务词典和同义词表,并将生成的业务词典和同义词表,添加至jieba的user_dict中。
对于本申请实施例,通过将基于针对每个产品的提问信息进行聚类处理,得到业务词典和同义词表,并将得到的业务词典以及同义词表添加至jieba的user_dict中,后续通过jieba对预处理后的提问信息通过该业务词典和同义词表进行分词处理,可以提高对处理后的提问信息进行分词处理的准确度。
对于本申请实施例,基于分词结果,并通过预设模型确定第一意图信息,具体可以包括:将字、词语(char)、词语对应的词性信息、词语对应语法信息、字和词语在预处理后的提问信息中分别对应的位置信息输入至预设模型,得到第一意图信息。在本申请实施例中,预设模型也可以成为意图理解网络。
对于本申请实施例,将字、词语(char)、词语对应的词性信息、词语对应语法信息、字和词语在预处理后的提问信息中分别对应的位置信息这五种粒子的数据特征输入至预设模型,不仅增强了数据的维度,通过添加字的维度来确定第一意图信息可以缓解OOV(Out-of-vocabulary,未登入字词库)的问题,再者通过添加字和词语在预处理后的提问信息中分别对应的位置信息这一维度,可以弥补某些模型(例如,TextCNN以及FastText)丢失句子词序的缺陷,从而可以提高基于用户输入的提问信息确定用户意图的准确度,进而可以提升用户体验;其中,在自然语言处理或者文本处理的时候,通常会设置一个字词库vocabulary。这个字词库可以提前加载、或者预先自行定义、或者从当前数据集提取得到。若存在另一个的字词库,这个字词库中有一些词并不在你现有的字词库vocabulary里,可称为OOV。
本申请实施例的另一种可能的实现方式,基于分词结果,并通过预设模型确定第一意图信息,包括:将分词结果分别通过至少两个分类网络进行分类处理,得到分词结果在每个分类网络所对应的各个业务类型的概率信息,其中,至少两个分类网络中不同的分类网络所对应的业务类型具有层级关系;根据分词结果在每个分类网络所对应的各个业务类型的概率信息、各个分类网络所对应的概率阈值以及各个分类网络所对应的业务类型之间的层级关系,确定第一意图信息。
对于本申请实施例,至少两个分类网络中任一分类网络均基于分词结果,对用户输入的提问信息所属业务类型进行分类。在本申请实施例中,将分词结果输入至每个分类网络,得到用户输入的提问信息所属业务类型的标签信息。
具体地,将分词结果输入至每个分类网络,得到用户输入的提问信息属于该分类网络对应的各个业务类型的概率信息,基于用户输入的提问信息属于各个业务类型的概率信息与各个分类网络分别对应的概率阈值,确定用户输入的提问信息所属业务类型的标签信息。
其中,各个分类网络分别对应的概率阈值可以均相同,也可以均不相同,还可以部分相同,部分不相同。在本申请实施例中不做限定。
其中,各个分类网络的分类粒度依次递增。
对于本申请实施例,按照用户提问信息粒度,整理成多级目录(四级目录),即用户提问信息所属业务类型的粒度,如图6所示,L1级表征用户提问信息所属产品,如XX支付、XX游戏、XX视频,L2-L4表征用户提问信息所属业务类型由粗到细,L2级表征用户提问信息所属L2级的业务类型,例如,XX支付下的红包、账户以及零钱;XX游戏下的游戏玩法以及充值系统;XX视频下的会员开通、软件功能、离线存储;L3级表征用户提问信息所属L3级的业务类型,如红包下的发红包以及收红包、零钱下的提现和红包,充值系统下的充值异常、未到账,会员开通下的会员封号,软件功能下的上传视频,离线存储拿下的缓存问题等;L4级表征用户提问信息所属L4级的业务类型,例如,发红包下的红包使用规则,红包下的红包功能异常、提现下的未到账以及报错,充值异常下的小额限制以及第三方代充,会员封号下的多会员问题,上传视频下的视频上传方法以及上传第三视频,缓存问题下的缓存方法。
基于上述提问问题所属业务类型的分类方式,可以通过多级网络,例如5级网络,L0级网络用于确定用户提问信息属于业务问题,输出标签,将用户提问信息输入至L1级网络,确定用户提问信息所属L1级类型,并输出标签,将用户提问信息输入至L2级网络,确定用户提问信息所属的L2级类型,并输出标签,将用户提问信息输入至L3级网络,确定用户提问信息所属的L3级类型,并输出标签,将用户提问信息输入至L4级网络,确定用户提问信息所属L4级类型,并输出标签。基于此来确定用户提问信息对应的第一意图信息。
本申请实施例的另一种可能的实现方式,将分词结果,分别通过至少两个分类网络进行分类处理,得到分词结果在每个分类网络所对应的各个业务类型的概率信息,包括(1)和(2)中任一项:
(1)将分词结果,分别通过由以下任一项组成的至少两个分类网络进行分类处理,得到分词结果在每个分类网络所对应的各个业务类型的概率信息:
文本卷积神经网络TextCNN以及SVM;
FastText以及SVM。
对于本申请实施例,经过大量的实验得到如图4所示实验数据,第二层分类网络(L2)、第三层分类网络(L3)以及第四层分类网络(L4)中每层分类网络分别利用SVM、FastText以及TextCnn在准确率(P)、召回率(R)以及F值(F)上的实验数据。经过大量实验对比分析可知:数据量大、分类别少时,例如,前两层的分类模型中,由于TextCNN可以捕捉局部的语义信息,使用TextCNN的效果明显优于FastText以及SVM;而业务变化多,训练频繁以及分类类别多时,例如后几层的分类网络使用SVM,训练速度更快且模型占用内存更少。在本申请实施例中,Fasttext最大的特点是模型简单,只有一层的隐层以及输出层,训练速度非常快。
基于此,本申请实施例构建了如图5所示的多层意图理解网络,包括:L0层分类网络、L1层分类网络、L2分类网络、L3分类网络以及L4分类网络。其中,L0层分类网络可以使用CNN,L1层分类网络以及L2层分类网络可以包括:TextCNN以及FastText中的至少一项,L3层分类网络以及L4层分类网路可以均为SVM,从而可以达到分类效果并且线上性能更优。在本申请实施例中,将分类结果通过L0层分类网络输出用户输入的提问信息所属业务类型的标签信息(L0-label)、通过L1层分类网络输出用户输入的提问信息所属业务类型的标签信息(L1-label)、通过L2层分类网络输出用户输入的提问信息所属业务类型的标签信息(L2-label)、通过L3层分类网络输出用户输入的提问信息所属业务类型的标签信息(L3-label)以及通过L4层分类网络输出用户输入提问信息所属业务类型的标签信息(L4-label),具体地,L1-1002、L1-1004、L1-1018和L1-1060表征L1层下的意图值,其他层同理。在本申请实施例中,提问信息通过每层分类网络输出得到所属业务类型的标签信息是基于分词结果在每个分类网络所对应的各个业务类型的概率信息得到的。
对于本申请实施例,通过上述各层分类网络(L0层分类网络、L1层分类网络、L2层分类网络、L3层分类网络、L4层分类网络)得到对应的标签信息(L0-label、L1-label、L2-label、L3-label、L4-label),基于标签信息以及各层业务的从属关系,确定分类结果,从而可以提高确定分类结果的准确度。
(2)将分词结果,分别通过至少两个循环神经网络进行分类处理,得到分词结果在每个分类网络所对应的各个业务类型的概率信息。
本申请实施例的另一种可能的实现方式,步骤S102具体可以包括:基于第一意图信息,确定待执行的查询操作;基于待执行的查询操作,确定反问信息并输出。
对于本申请实施例,基于第一意图信息,确定待执行的查询操作,然后确定执行该待执行的查询操作所缺少的信息,基于执行该待执行的查询操作所缺少的信息,确定反问信息并输出。对于本申请实施例,基于第一意图信息,确定待执行的查询操作;基于待执行的查询操作,确定反问信息并输出,包括:基于第一意图信息,确定待调用的API接口;确定调用待调用的API接口所缺少的元素信息;基于调用待调用的API接口所缺少的元素信息,确定反问信息并输出。
例如,用户输入的提问信息为“我的提现什么时候到?”,确定用户的第一意图信息为“提现”,待调用的API接口为提现接口,并且确定当前调用该提现接口所缺少的元素信息为“提现时间”以及“提现金额”,基于此,可以确定反问信息为“什么时候提现以及提现金额是多少”,并输出。
本申请实施例的另一种可能的实现方式,步骤S104具体可以包括:从用户针对反问信息的回复信息中进行实体抽取,得到调用待调用的API接口所需元素信息;基于调用待调用的API接口所需元素信息调用待调用的API接口;基于调用结果确定第二意图信息。
对于本申请实施例,从用户针对反问信息中的回复信息中可以进行实体抽取,得到当前调用该API接口所需要的元素信息,然后调用该API接口执行操作,然后基于调用结果确定第二意图信息。
例如,反问信息为“什么时候提现以及提现金额是多少”,用户针对该反问信息的回复信息为“今天提现500元”,从中抽取出实体时间为“今天”,金额为“500元”,基于此调用提现API接口进行提现,若提现成功,回复用户提现订单的详情信息。
本申请实施例的另一种可能的实现方式,步骤S102、步骤S103、以及步骤S104具体可以包括:基于第一意图信息,以及预设置的第一意图信息与反问信息之间的映射关系,确定该第一意图信息对应的反问信息,并输出;获取用户针对所述反问信息的回复信息,基于所述用户针对所述反问信息的回复信息,确定第二意图信息。
例如,用户输入的提问信息为“忘记支付密码了怎么办?”,确定第一意图信息为“忘记密码”,但是此时无法知道用户绑定的自己的银行卡进行实名支付的,因此为了精准回复,基于第一意图信息与反问信息之间的映射关系,确定出第一意图信息“忘记密码”的反问信息为“请问当前支付认证的姓名是您本人吗?”并输出反问信息“请问当前支付认证的姓名是您本人吗?”,用户基于反问信息的回复信息可以为“是我本人”、“不是我但是可以联系上”、“不是我且无法联系上”中任一项,从而确定第二意图信息。
本申请实施例的另一种可能的实现方式,步骤S105具体可以包括:基于第一意图信息、第二意图信息以及用户输入的提问信息,确定目标答复信息。
本申请实施例的另一种可能的实现方式,基于第一意图信息、第二意图信息以及用户输入的提问信息,确定目标答复,包括:基于第一意图信息以及第二意图信息,确定至少一个候选提问信息;将用户输入的提问信息与至少一个候选提问信息进行相似度匹配;基于相似度匹配结果,确定目标答复信息。
对于本申请实施例,预先存储意图信息(第一意图信息以及第二意图信息)与候选提问信息之间的匹配关系。在本申请实施例中,基于第一意图信息以及第二意图信息与上述匹配关系,得到至少一个候选提问信息;当然也可以通过其他的方式(例如,网络模型),基于第一意图信息以及第二意图信息,确定至少一个候选提问信息。
对于本申请实施例,将用户输入的提问信息与至少一个候选提问信息进行相似度匹配具体匹配方式如下所述,在此不在赘述。
本申请实施例的另一种可能的实现方式,将用户输入的提问信息与至少一个候选提问信息进行相似度匹配,包括:确定用户输入的提问信息对应的句向量,以及至少一个候选提问信息分别对应的句向量;将用户输入的提问信息对应的句向量与至少一个候选提问信息分别对应的句向量进行相似度匹配。
对于本申请实施例,将用户输入的提问信息通过训练后的预设模型,得到用户输入的提问信息对应的句向量。在本申请实施例中,至少一个候选提问信息分别对应的句向量可以为预先转换获取得到的,还可以通过上述训练后的模型得到的。在本申请实施例中不做限定。
对于本申请实施例,如图7所示,将用户输入的提问信息,输入至训练后的模型中得到至少两个词向量,将至少两个词向量进行求平均处理,得到句向量,将句向量通过提问信息嵌入(query embedding),得到提问信息对应的嵌入结果;将候选提问信息输入至训练后的模型得到对应的词向量,将词向量通过求平均处理,得到句向量,以及该句向量嵌入(Candidate embedding),得到各个候选提问信息对应的嵌入结果,将提问信息对应的嵌入结果与各个候选提问信息对应的嵌入结果,得到相似度匹配,例如,通过余弦相似度匹配,得到提问信息与各个候选提问信息的匹配得分,以得到与提问信息匹配度较高的提问信息。
本申请实施例的另一种可能的实现方式,确定用户输入的提问信息对应的句向量的方式,包括:将用户输入的提问信息输入至词向量生成网络模型,得到用户输入的提问信息对应的至少两个词向量;对至少两个词向量通过求平均处理,得到用户输入的提问信息对应的句向量。
对于本申请实施例,词向量生成网络模型可以包括由Word2Vec以及SIF组成的网络模型。
对于本申请实施例,通过无监督的训练方式对word2Vec以及SIF组成的网络模型进行训练。现有的短文本匹配技术分为有监督和无监督两种方法,其中有监督的方法主要有深度结构语义模型(Deep StructuredSemantic Models,DSSM),MatchPyramid等,无监督的方法主要有TF-IDF、BM25、Word2Vec。其中,MatchPyramid是一种基于卷积神经网络的文本匹配模型。该模型主要是先构建文本间相似度矩阵,然后采用卷积神经网络对矩阵进行特征抽取,最后用多层全连接计算相似度得分。
有监督的方法要求我们事先准备好一份带标签的语料,一般以三元组的形式<句子1,句子2,相似度>,然后让模型去学习,虽然有监督的方法能从句子层面去更好的获取语义信息,但是标签变动需要重新训练模型,上线流程复杂。在本申请的多轮对话场景中变动会经常变更,需要快速感知,因此选择了无监督训练方式。无监督模型TF-IDF、BM25,计算过程简单,容易做错误分析,但是这种方法基于词袋模型,词与词之间是独立的,与语义信息无关,Word2Vec解决了词与词之间独立的缺点,但句向量由词向量加权平均后很容易把一些重要词的信息稀释掉,本申请中引入了SIF,搭建了Word2Vec+SIF的模型,SIF对每个词嵌入都由a/(a+p(w))进行加权使一些不重要的词语的权重下降,其中a的值设置为0.01,p(w)是词语在语料中预计出现的频率。如图8所示,图8示出了自动化配置流程的表格示意图,我们尝试了不同数据量100百万和200百万训练SIF词频权重,与Word2Vec模型进行对比发现,使用SIF算法,不同业务下平均有4-5%的效果提升;SIF的效果与数据量成正比,数据量达到200百万效果最好,1-2%的效果提升;具体地,Pos ACCuray表示正样本的准确率,NegACCuray表示负样本的准确率,引入负样本主要是为了检测模型的识别错误的能力,负样本主要收集的是很像正样本的语料但是不能由正样本的意图去回复,比如正样本是“怎么取消自动续费”,负样本是“怎么取消会员”。
对于本申请实施例,通过无监督训练后的Word2Vec以及SIF组成的模型,得到用户输入的提问信息对应的词向量,增加了句子中重要词的权重,剔除了不重要的词,从而可以使得匹配效果在不同业务上都有提升。
本申请实施例的一种可能的实现方式,如图9所示,终端设备接收用户输入的提问信息,然后终端设备将用户输入的提问信息发送至服务器,服务器可以基于用户输入的提问信息,确定第一意图信息,然后服务器基于第一意图信息,得到反问信息,并发送至终端设备显示反问信息,终端设备接收用户输入的针对反问信息的回复信息,并发送至服务器,由服务器基于用户针对所述反问信息的回复信息,确定第二意图信息,进而服务器根据第一意图信息以及第二意图信息,确定目标答复信息,然后服务器将目标答复信息发送至终端设备进行显示。
上述实施例从方法流程的角度介绍了智能问答信息处理方法,下述实施例从虚拟模块以及虚拟单元的角度介绍了一种智能问答信息处理装置,具体如下所示:
本申请实施例提供了一种智能问答信息处理装置,如图2所示,该智能问答信息处理装置20具体可以包括:第一确定模块21、输出模块22、获取模块23、第二确定模块24、第三确定模块25,其中,
第一确定模块21,用于基于用户输入的提问信息,确定第一意图信息。
输出模块22,用于基于第一意图信息,输出反问信息。
其中,反问信息对应于用户的提问信息。
获取模块23,用于获取用户针对反问信息的回复信息。
第二确定模块24,用于基于用户针对反问信息的回复信息,确定第二意图信息。
第三确定模块25,用于基于第一意图信息以及第二意图信息,确定目标答复信息。
对于本申请实施例,第一确定模块21、第二确定模块24、第三确定模块25可以为同一确定模块,也可以均为不同的确定模块,还可以部分为相同的确定模块。在本申请实施例中不做限定。
本申请实施例提供了一种智能问答信息处理装置,与现有技术中智能系统采用“一问一答”的方式进行智能问答时,本申请实施例基于用户输入的提问信息,确定第一意图信息,然后基于第一意图信息对用户进行提问,然后获取用户针对该提问的回复信息,确定第二意图信息,然后基于第一意图信息以及第二意图信息,确定目标答复信息,即当针对用户的第一意图信息无法匹配出目标答复信息时,通过反问用户并获取用户针对反问的回复信息,确定第二意图信息,基于第一意图信息以及第二意图信息可以增加确定出目标答复信息的概率;再者,通过第一意图信息以及第二意图信息确定出目标答复信息,可以提升确定目标答复的准确度,进而可以提升用户体验。
本申请实施例的另一种可能的实现方式,第一确定模块21包括:预处理单元、分词处理单元、第一确定单元,其中,
预处理单元,用于对用户输入的提问信息按照预设处理方式进行预处理。
其中,预设处理方式包括:特殊标点符号和停用词进行过滤处理、汉字由繁体转简体处理以及英文大字字母转换为英文小写字母处理中的至少一项。
分词单元,用于对预处理后的提问信息进行分词处理,得到分词结果。
第一确定单元,用于基于分词结果,并通过预设模型确定第一意图信息。
其中,分词结果包括:
字以及词语中至少一项;
词语对应的词性信息;
词语对应的语法信息;
字在预处理后的提问信息中对应的位置信息以及词语分别在预处理后的提问信息中对应的位置信息中的至少一项。
本申请实施例的另一种可能的实现方式,第一确定单元,具体用于将分词结果分别通过至少两个分类网络进行分类处理,得到分词结果在每个分类网络所对应的各个业务类型的概率信息。
其中,至少两个分类网络中不同的分类网络所对应的业务类型具有层级关系。
第一确定单元,具体还用于根据分词结果在每个分类网络所对应的各个业务类型的概率信息、各个分类网络所对应的概率阈值以及各个分类网络所对应的业务类型之间的层级关系,确定第一意图信息。
本申请实施例的另一种可能的实现方式,第一确定单元,具体用于将分词结果,分别通过至少两个循环神经网络进行分类处理,得到分词结果在每个循环神经网络所对应的各个业务类型的概率信息。
本申请实施例的另一种可能的实现方式,第一确定单元,具体还用于
将分词结果,分别通过由以下任一项组成的至少两个分类网络进行分类处理,得到分词结果在每个分类网络所对应的各个业务类型的概率信息:
文本卷积神经网络TextCNN以及支持向量机SVM;
FastText以及SVM。。
本申请实施例的另一种可能的实现方式,输出模块22包括:第二确定单元以及输出单元,其中,
第二确定单元,用于基于第一意图信息,确定待执行的查询操作。
第二确定单元,还用于基于待执行的查询操作,确定反问信息。
输出单元,用于输出反问信息。
本申请实施例的另一种可能的实现方式,第二确定单元,具体还用于基于第一意图信息,确定待调用的API接口;第二确定单元,具体还用于确定调用待调用的API接口所缺少的元素信息;第二确定单元,具体还用于基于调用待调用的API接口所缺少的元素信息,确定反问信息;输出单元,具体还用于输出反问信息。
本申请实施例的另一种可能的实现方式,第二确定模块24包括:实体抽取单元、调用单元以及第三确定单元,其中,
实体抽取单元,用于从用户针对反问信息的回复信息中进行实体抽取,得到调用待调用的API接口所需元素信息。
调用单元,用于基于调用待调用的API接口所需元素信息调用待调用的API接口。
第三确定单元,用于基于调用结果确定第二意图信息。
本申请实施例的另一种可能的实现方式,第三确定模块25,具体用于基于第一意图信息、第二意图信息以及用户输入的提问信息,确定目标答复信息。
本申请实施例的另一种可能的实现方式,第三确定模块25,具体用于基于第一意图信息以及第二意图信息,确定至少一个候选提问信息;以及将用户输入的提问信息与至少一个候选提问信息进行相似度匹配;以及基于相似度匹配结果,确定目标答复信息。
本申请实施例的另一种可能的实现方式,第三确定模块25,具体还用于确定用户输入的提问信息对应的句向量,以及至少一个候选提问信息分别对应的句向量;以及将用户输入的提问信息对应的句向量与至少一个候选提问信息分别对应的句向量进行相似度匹配。
本申请实施例的另一种可能的实现方式,第三确定模块25,具体还用于将用户输入的提问信息输入至词向量生成网络模型,得到用户输入的提问信息对应的至少两个词向量;以及对至少两个词向量通过求平均处理,得到用户输入的提问信息对应的句向量。
本申请实施例提供的智能问答处理装置适用于上述方法实施例,在此不再赘述。
上述实施例从方法流程的角度介绍了智能问答信息处理装置方法、从虚拟模块以及虚拟单元的角度介绍了智能问答信息处理装置装置,下述实施例从实体装置的角度介绍了一种电子设备,用于执行上述方法实施例,具体如下所述:
本申请实施例提供了一种电子设备,如图3所示,图3所示的电子设备3000包括:处理器3001和存储器3003。其中,处理器3001和存储器3003相连,如通过总线3002相连。可选地,电子设备3000还可以包括收发器3004。需要说明的是,实际应用中收发器3004不限于一个,该电子设备3000的结构并不构成对本申请实施例的限定。
处理器3001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器3001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线3002可包括一通路,在上述组件之间传送信息。总线3002可以是PCI总线或EISA总线等。总线3002可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器3003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器3003用于存储执行本申请方案的应用程序代码,并由处理器3001来控制执行。处理器3001用于执行存储器3003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:存储器和处理器;至少一个程序,存储于所述存储器中,用于被所述处理器执行时,与现有技术相比可实现:基于用户输入的提问信息,确定第一意图信息,然后基于第一意图信息对用户进行提问,然后获取用户针对该提问的回复信息,确定第二意图信息,然后基于第一意图信息以及第二意图信息,确定目标答复信息,即当针对用户的第一意图信息无法匹配出目标答复时,通过反问用户并获取用户针对反问的回复信息,确定第二意图信息,基于第一意图信息以及第二意图信息可以增加确定出目标答复信息的概率;再者,通过第一意图信息以及第二意图信息确定出目标答复信息,可以提升确定目标答复信息的准确度,进而可以提升用户体验。
本申请实施例提供的电子设备可以用于执行上述方法实施例,在此不再赘述。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。与现有技术相比,基于用户输入的提问信息,确定第一意图信息,然后基于第一意图信息对用户进行提问,然后获取用户针对该提问的回复信息,确定第二意图信息,然后基于第一意图信息以及第二意图信息,确定目标答复信息,即当针对用户的第一意图信息无法匹配出目标答复信息时,通过反问用户并获取用户针对反问的回复信息,确定第二意图信息,基于第一意图信息以及第二意图信息可以增加确定出目标答复信息的概率;再者,通过第一意图信息以及第二意图信息确定出目标答复,可以提升确定目标答复信息的准确度,进而可以提升用户体验。
本申请实施例提供的计算机可读存储介质适用于上述方法实施例,在此不在赘述。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (13)

1.一种智能问答信息处理方法,其特征在于,包括:
基于用户输入的提问信息,确定第一意图信息;
基于所述第一意图信息,输出反问信息,所述反问信息对应于所述用户的提问信息;
获取用户针对所述反问信息的回复信息;
基于所述用户针对所述反问信息的回复信息,确定第二意图信息;
基于所述第一意图信息以及所述第二意图信息,确定目标答复信息。
2.根据权利要求1所述的方法,其特征在于,所述基于用户输入的提问信息,确定第一意图信息,包括:
对所述用户输入的提问信息按照预设处理方式进行预处理,所述预设处理方式包括:特殊标点符号和停用词进行过滤处理、汉字由繁体转简体处理以及英文大字字母转换为英文小写字母处理中的至少一项;
对预处理后的提问信息进行分词处理,得到分词结果;
基于所述分词结果,并通过预设模型确定所述第一意图信息;
所述分词结果包括:
字以及词语中至少一项;
所述词语对应的词性信息;
所述词语对应的语法信息;
所述字在所述预处理后的提问信息中对应的位置信息以及所述词语分别在所述预处理后的提问信息中对应的位置信息中的至少一项。
3.根据权利要求2所述的方法,其特征在于,所述基于所述分词结果,并通过预设模型确定所述第一意图信息,包括:
将所述分词结果分别通过至少两个分类网络进行分类处理,得到所述分词结果在每个分类网络所对应的各个业务类型的概率信息,其中,至少两个分类网络中不同的分类网络所对应的业务类型具有层级关系;
根据所述分词结果在每个分类网络所对应的各个业务类型的概率信息、各个分类网络所对应的概率阈值以及各个分类网络所对应的业务类型之间的层级关系,确定所述第一意图信息。
4.根据权利要求1所述的方法,其特征在于,所述基于所述第一意图信息,输出反问信息,包括:
基于所述第一意图信息,确定待执行的查询操作;
基于所述待执行的查询操作,确定所述反问信息并输出。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第一意图信息,确定待执行的查询操作;基于所述待执行的查询操作,确定所述反问信息并输出,包括:
基于所述第一意图信息,确定待调用的API接口;
确定调用所述待调用的API接口所缺少的元素信息;
基于所述调用所述待调用的API接口所缺少的元素信息,确定所述反问信息并输出。
6.根据权利要求5所述的方法,其特征在于,基于所述用户针对所述反问信息的回复信息,确定第二意图信息,包括:
从所述用户针对所述反问信息的回复信息中进行实体抽取,得到调用所述待调用的API接口所需元素信息;
基于所述调用所述待调用的API接口所需元素信息调用所述待调用的API接口;
基于调用结果确定所述第二意图信息。
7.根据权利要求1所述的方法,其特征在于,所述基于所述第一意图信息以及所述第二意图信息,确定目标答复信息,包括:
基于所述第一意图信息、所述第二意图信息以及所述用户输入的提问信息,确定目标答复信息。
8.根据权利要求7所述的方法,其特征在于,所述基于所述第一意图信息、所述第二意图信息以及所述用户输入的提问信息,确定目标答复信息,包括:
基于所述第一意图信息以及所述第二意图信息,确定至少一个候选提问信息;
将所述用户输入的提问信息与所述至少一个候选提问信息进行相似度匹配;
基于相似度匹配结果,确定目标答复信息。
9.根据权利要求8所述的方法,其特征在于,所述将所述用户输入的提问信息与所述至少一个候选提问信息进行相似度匹配,包括:
确定所述用户输入的提问信息对应的句向量,以及所述至少一个候选提问信息分别对应的句向量;
将所述用户输入的提问信息对应的句向量与所述至少一个候选提问信息分别对应的句向量进行相似度匹配。
10.根据权利要求9所述的方法,其特征在于,所述确定所述用户输入的提问信息对应的句向量的方式,包括:
将用户输入的提问信息输入至词向量生成网络模型,得到所述用户输入的提问信息对应的至少两个词向量;
对所述至少两个词向量通过求平均处理,得到所述用户输入的提问信息对应的句向量。
11.一种智能问答信息处理装置,其特征在于,包括:
第一确定模块,用于基于用户输入的提问信息,确定第一意图信息;
输出模块,用于基于所述第一意图信息,输出反问信息,所述反问信息对应于所述用户的提问信息;
获取模块,用于获取用户针对所述反问信息的回复信息;
第二确定模块,用于基于所述用户针对所述反问信息的回复信息,确定第二意图信息;
第三确定模块,用于基于所述第一意图信息以及所述第二意图信息,确定目标答复信息。
12.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1~10任一项所述的智能问答信息处理方法。
13.一种计算机可读存储介质,其特征在于,所述存储介质存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1~10任一所述的智能问答信息处理方法。
CN201910722585.0A 2019-08-06 2019-08-06 智能问答信息处理方法、电子设备及计算机可读存储介质 Active CN110427461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910722585.0A CN110427461B (zh) 2019-08-06 2019-08-06 智能问答信息处理方法、电子设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910722585.0A CN110427461B (zh) 2019-08-06 2019-08-06 智能问答信息处理方法、电子设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN110427461A true CN110427461A (zh) 2019-11-08
CN110427461B CN110427461B (zh) 2023-04-07

Family

ID=68414447

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910722585.0A Active CN110427461B (zh) 2019-08-06 2019-08-06 智能问答信息处理方法、电子设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110427461B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078837A (zh) * 2019-12-11 2020-04-28 腾讯科技(深圳)有限公司 智能问答信息处理方法、电子设备及计算机可读存储介质
CN111368029A (zh) * 2020-02-28 2020-07-03 深圳市人马互动科技有限公司 基于意图三元组的交互方法、装置、设备及存储介质
CN111611391A (zh) * 2020-06-17 2020-09-01 厦门快商通科技股份有限公司 一种对对话进行归类别的方法、装置、设备和存储介质
CN111753063A (zh) * 2020-02-28 2020-10-09 北京沃东天骏信息技术有限公司 一种应答方法、装置、服务器及存储介质
CN111858854A (zh) * 2020-07-20 2020-10-30 上海汽车集团股份有限公司 一种基于历史对话信息的问答匹配方法及相关装置
CN111859902A (zh) * 2020-07-16 2020-10-30 微医云(杭州)控股有限公司 一种文本处理方法、装置、设备及介质
CN111985248A (zh) * 2020-06-30 2020-11-24 联想(北京)有限公司 一种信息交互方法以及装置
CN112035631A (zh) * 2019-12-31 2020-12-04 北京来也网络科技有限公司 结合rpa及ai的对话问答方法、装置、设备及存储介质
CN112182189A (zh) * 2020-10-10 2021-01-05 网易(杭州)网络有限公司 一种对话处理方法、装置、电子设备及存储介质
CN112380332A (zh) * 2020-11-17 2021-02-19 深圳追一科技有限公司 交互式的知识反馈方法、装置及计算机存储介质
CN112685999A (zh) * 2021-01-20 2021-04-20 浪潮云信息技术股份公司 一种智能分级标注方法
CN113761144A (zh) * 2020-11-16 2021-12-07 北京沃东天骏信息技术有限公司 应答信息确定方法和装置
CN113779206A (zh) * 2020-11-11 2021-12-10 北京沃东天骏信息技术有限公司 一种数据处理方法、装置、电子设备和存储介质
CN114328882A (zh) * 2022-03-04 2022-04-12 中航信移动科技有限公司 信息处理方法、装置、计算机设备及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272665A (ja) * 1998-03-20 1999-10-08 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 日本語構文解析装置
JP2004251998A (ja) * 2003-02-18 2004-09-09 Yukihiro Ito 対話理解装置
WO2007068527A1 (en) * 2005-12-15 2007-06-21 International Business Machines Corporation Method and system for assisting a software developer in creating source code for a computer program
CN105956053A (zh) * 2016-04-27 2016-09-21 海信集团有限公司 一种基于网络信息的搜索方法及装置
CN107992543A (zh) * 2017-11-27 2018-05-04 上海智臻智能网络科技股份有限公司 问答交互方法和装置、计算机设备及计算机可读存储介质
CN108363690A (zh) * 2018-02-08 2018-08-03 北京十三科技有限公司 基于神经网络的对话语义意图预测方法及学习训练方法
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN108763548A (zh) * 2018-05-31 2018-11-06 北京百度网讯科技有限公司 收集训练数据的方法、装置、设备和计算机可读存储介质
CN108874949A (zh) * 2018-06-05 2018-11-23 北京玄科技有限公司 基于业务语料的意图分类方法、装置及智能问答方法
CN109271483A (zh) * 2018-09-06 2019-01-25 中山大学 基于递进式多判别器的问题生成方法
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN109726389A (zh) * 2018-11-13 2019-05-07 北京邮电大学 一种基于常识和推理的中文缺失代词补全方法
CN109935243A (zh) * 2019-02-25 2019-06-25 重庆大学 基于vtlp数据增强及多尺度时频域空洞卷积模型的语音情感识别方法
CN109933654A (zh) * 2019-01-30 2019-06-25 神思电子技术股份有限公司 一种基于状态树的对话管理方法
CN110019753A (zh) * 2019-01-24 2019-07-16 阿里巴巴集团控股有限公司 针对用户问句输出反问问句的方法和装置

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11272665A (ja) * 1998-03-20 1999-10-08 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 日本語構文解析装置
JP2004251998A (ja) * 2003-02-18 2004-09-09 Yukihiro Ito 対話理解装置
WO2007068527A1 (en) * 2005-12-15 2007-06-21 International Business Machines Corporation Method and system for assisting a software developer in creating source code for a computer program
CN105956053A (zh) * 2016-04-27 2016-09-21 海信集团有限公司 一种基于网络信息的搜索方法及装置
CN107992543A (zh) * 2017-11-27 2018-05-04 上海智臻智能网络科技股份有限公司 问答交互方法和装置、计算机设备及计算机可读存储介质
CN108363690A (zh) * 2018-02-08 2018-08-03 北京十三科技有限公司 基于神经网络的对话语义意图预测方法及学习训练方法
CN108733792A (zh) * 2018-05-14 2018-11-02 北京大学深圳研究生院 一种实体关系抽取方法
CN108763548A (zh) * 2018-05-31 2018-11-06 北京百度网讯科技有限公司 收集训练数据的方法、装置、设备和计算机可读存储介质
CN108874949A (zh) * 2018-06-05 2018-11-23 北京玄科技有限公司 基于业务语料的意图分类方法、装置及智能问答方法
CN109299247A (zh) * 2018-06-05 2019-02-01 安徽省泰岳祥升软件有限公司 基于业务语料的意图分类方法、装置及智能问答方法
CN109271483A (zh) * 2018-09-06 2019-01-25 中山大学 基于递进式多判别器的问题生成方法
CN109522393A (zh) * 2018-10-11 2019-03-26 平安科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN109726389A (zh) * 2018-11-13 2019-05-07 北京邮电大学 一种基于常识和推理的中文缺失代词补全方法
CN110019753A (zh) * 2019-01-24 2019-07-16 阿里巴巴集团控股有限公司 针对用户问句输出反问问句的方法和装置
CN109933654A (zh) * 2019-01-30 2019-06-25 神思电子技术股份有限公司 一种基于状态树的对话管理方法
CN109935243A (zh) * 2019-02-25 2019-06-25 重庆大学 基于vtlp数据增强及多尺度时频域空洞卷积模型的语音情感识别方法

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078837A (zh) * 2019-12-11 2020-04-28 腾讯科技(深圳)有限公司 智能问答信息处理方法、电子设备及计算机可读存储介质
CN111078837B (zh) * 2019-12-11 2023-05-23 腾讯科技(深圳)有限公司 智能问答信息处理方法、电子设备及计算机可读存储介质
CN112035631A (zh) * 2019-12-31 2020-12-04 北京来也网络科技有限公司 结合rpa及ai的对话问答方法、装置、设备及存储介质
CN111368029A (zh) * 2020-02-28 2020-07-03 深圳市人马互动科技有限公司 基于意图三元组的交互方法、装置、设备及存储介质
CN111753063A (zh) * 2020-02-28 2020-10-09 北京沃东天骏信息技术有限公司 一种应答方法、装置、服务器及存储介质
CN111368029B (zh) * 2020-02-28 2021-06-25 深圳市人马互动科技有限公司 基于意图三元组的交互方法、装置、设备及存储介质
CN111611391B (zh) * 2020-06-17 2022-08-23 厦门快商通科技股份有限公司 一种对对话进行归类别的方法、装置、设备和存储介质
CN111611391A (zh) * 2020-06-17 2020-09-01 厦门快商通科技股份有限公司 一种对对话进行归类别的方法、装置、设备和存储介质
CN111985248A (zh) * 2020-06-30 2020-11-24 联想(北京)有限公司 一种信息交互方法以及装置
CN111859902A (zh) * 2020-07-16 2020-10-30 微医云(杭州)控股有限公司 一种文本处理方法、装置、设备及介质
CN111858854A (zh) * 2020-07-20 2020-10-30 上海汽车集团股份有限公司 一种基于历史对话信息的问答匹配方法及相关装置
CN111858854B (zh) * 2020-07-20 2024-03-19 上海汽车集团股份有限公司 一种基于历史对话信息的问答匹配方法及相关装置
CN112182189A (zh) * 2020-10-10 2021-01-05 网易(杭州)网络有限公司 一种对话处理方法、装置、电子设备及存储介质
CN113779206A (zh) * 2020-11-11 2021-12-10 北京沃东天骏信息技术有限公司 一种数据处理方法、装置、电子设备和存储介质
CN113761144A (zh) * 2020-11-16 2021-12-07 北京沃东天骏信息技术有限公司 应答信息确定方法和装置
CN112380332A (zh) * 2020-11-17 2021-02-19 深圳追一科技有限公司 交互式的知识反馈方法、装置及计算机存储介质
CN112685999A (zh) * 2021-01-20 2021-04-20 浪潮云信息技术股份公司 一种智能分级标注方法
CN114328882A (zh) * 2022-03-04 2022-04-12 中航信移动科技有限公司 信息处理方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN110427461B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN110427461A (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN111767405B (zh) 文本分类模型的训练方法、装置、设备及存储介质
CN110321563B (zh) 基于混合监督模型的文本情感分析方法
CN111930942B (zh) 文本分类方法、语言模型训练方法、装置及设备
CN107076567A (zh) 多语言图像问答
US20210375280A1 (en) Systems and methods for response selection in multi-party conversations with dynamic topic tracking
CN111814454B (zh) 一种社交网络上的多模态网络欺凌检测模型
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111898369B (zh) 文章标题生成方法、模型的训练方法、装置和电子设备
Rashid et al. Emotion detection of contextual text using deep learning
Gao et al. CE-HEAT: an aspect-level sentiment classification approach with collaborative extraction hierarchical attention network
CN111414746A (zh) 一种匹配语句确定方法、装置、设备及存储介质
CN110457711A (zh) 一种基于主题词的社交媒体事件主题识别方法
CN114595306A (zh) 基于距离感知自注意力机制和多角度建模的文本相似度计算系统及方法
CN113761156A (zh) 人机交互对话的数据处理方法、装置、介质及电子设备
CN114282592A (zh) 一种基于深度学习的行业文本匹配模型方法及装置
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN113204624A (zh) 一种多特征融合的文本情感分析模型及装置
CN113705207A (zh) 语法错误识别方法及装置
CN116821339A (zh) 滥用语言检测方法、装置及存储介质
CN116561592A (zh) 文本情感识别模型的训练方法和文本情感识别方法及装置
CN113806545B (zh) 基于标签描述生成的评论文本情感分类方法
CN113886539A (zh) 话术推荐方法、装置、客服设备及存储介质
EP4028933A1 (en) Performing context completion to messages in a session
CN117540003B (zh) 一种文本处理方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant