CN110263160A - 一种计算机问答系统中的问句分类方法 - Google Patents

一种计算机问答系统中的问句分类方法 Download PDF

Info

Publication number
CN110263160A
CN110263160A CN201910455870.0A CN201910455870A CN110263160A CN 110263160 A CN110263160 A CN 110263160A CN 201910455870 A CN201910455870 A CN 201910455870A CN 110263160 A CN110263160 A CN 110263160A
Authority
CN
China
Prior art keywords
vector
user
situation
contextual information
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910455870.0A
Other languages
English (en)
Other versions
CN110263160B (zh
Inventor
吴振锋
荀智德
陆辰
葛唯益
贺成龙
王振宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201910455870.0A priority Critical patent/CN110263160B/zh
Publication of CN110263160A publication Critical patent/CN110263160A/zh
Application granted granted Critical
Publication of CN110263160B publication Critical patent/CN110263160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种计算机问答系统中的问句分类方法,基于用户的情境数据,对用户问句进行分类及预测。其主要包括:一是根据智能问答系统应用领域构建影响用户意图的上下文环境信息;二是通过用户画像构建、日志分析、传感器读取手段获取用户的情境信息数据;三是设计基于注意力机制的问题意图预测网络,将情境信息嵌入问题,形成考虑情境的问题分布式表示,带入模型进行预测;四是模型训练与预测。本方法解决了仅靠自然语言对话的问题的用户意图识别存在用户的问题可能表达不完整、不同的背景下问句表达涵义不同的问题,提高了意图识别的准确性。

Description

一种计算机问答系统中的问句分类方法
技术领域
本发明涉及自然语言智能问答技术领域,特别涉及一种计算机问答系统中的问句分类方法。
背景技术
聊天机器人、语音助手、自动客服等为人们的生活极大的便利的同时,也节约了一些行业的人力成本,是当前自然语言处理研究的热点。这些应用的成功不仅取决于语音内容的识别,更在于对句子含义的理解,称之为意图识别。意图识别旨在确定用户对话的意图,可以看成分类问题。事先在该领域在该领域定义各种可能的意图,再用分类方法将问句分到某类意图中,交给对话管理或任务管理器,就可以完成用户的需求或者生成相应领域的回应。相关问题在搜索引擎、智能问答等场景下有广泛的应用。
意图识别,也就是意图分类,是一个典型的文本分类问题,所有传统的分类方法都可以使用,比如SVM,最大熵等,或者用一些深度学习的模型,如RNN(Recurrent NeuralNetwork)循环神经网络、CNN卷积神经网络(Convolutional Neural Networks,CNN)等。这类分类方法的一般步骤是,获取或者构造一批问句数据,对每条数据的意图进行标注,选取特定的算法进行训练,挖掘用户问句中隐含的特征,通过训练好的模型进行分类。然而,大部分的意图分类只是基于用户当前对话的,但在真实场景中,用户的问句在上下文或者环境背景下提出的。比如“明天呢?”,若前句问题是“今天还有没有去北京的高铁票”,那么用户意图是车票查询,若前句是“今天北京的天气怎么样”,那么用户意图是天气查询,比如用户想购买一件外套,根据气候和所处位置,有可能是一件夹克,也有可能是一件棉服;有时候一些词语本身就有歧义,如用户在购物时询问苹果的价格,可能是水果,也有可能是手机,这需要结合用户最近关注点来判断。
因此,仅靠自然语言对话的问题的用户意图识别存在一些缺陷,一方面,用户的问题可能表达不完整,另一方面,在不同的背景下,同样的问句可能表达出不同的涵义,这些往往需要结合情境信息来辅助分类,包括上下文语境,用户个性化特征,用户所处的地理位置气候季节等等。
发明内容
本发明的目的在于提出一种计算机问答系统中的问句分类方法,实现任务驱动型问答系统的用户意图识别,使得系统能够将问句分到正确的任务执行引擎。本发明包括:获取待分类的问句,问句中包括问题,基于用户的情境数据,对问句进行分类预测,具体包括以下步骤:
步骤1,构建用于对问句进行分类的用户情境模型(由于用户的情境数据很多,不利于计算机处理,因此需要定义一个统一的标准化的用户情境模型);
步骤2,基于用户情境模型,通过用户画像构建、日志分析、传感器读取手段获取用户的情境信息数据;
步骤3,获取待分类的问句,并基于用户的情境信息数据,构建基于注意力机制的问题意图预测网络;
步骤4,训练模型,并对问句进行分类预测。
步骤1中所述的构建用户情境模型,是指根据问答系统需要定义的情境属性构建完整的情境信息描述,一组完整的情境信息ContextInfo需要从三个维度Y、H、E进行描述,表示如下:
ContextInfo=<Y、H、E>
其中,每个维度的含义如下:
Y表示用户情境信息;
H表示历史情境信息;
E表示环境情境信息;
所述用户情境信息是指用户的基本信息与行为偏好,包括性别、年龄段、职业和领域偏好(共4个情境信息);
所述历史情境信息是指用户最近三轮对话中用户关注的意图领域(共3个情境信息);
所述环境情境信息是指用户所在的区域、温度、时间(共3个情境信息)。
每个情境信息都用一个属性词表示,即最终情境信息的表示由10个词语组成。
步骤3中,所述基于注意力机制的问题意图预测网络包含文本嵌入层、情境注意力层、模型层和输出层;
其中,文本嵌入层用于将问题与情境中的每个词映射到高维向量空间;
情境注意力层用于将情境信息嵌入问题,形成考虑情境的问题分布式表示G;
模型层用于,使用G作为输入,采用双向LSTM,生成隐状态序列,获得输出矩阵M;
(双向LSTM是深度学习网络中公知的模型方法,最初发表:Alex Graves和JurgenSchmidhuber,Framangular Phoneme Classification with Bidirectional LSTM andOther Neural Network Architectures,2005)
输出层用于预测用户意图各分类的概率分布p。
所述文本嵌入层用于将问题与情境中的每个词映射到高维向量空间,具体包括:
获取问句,问句中包括问题,问题和情境分别包含了若干词,使用GloVe预训练的词向量来获取问题与情境(即问句所处的情境)中每个词的向量表示,得到两个d维的向量序列,即两个矩阵:问题矩阵Q∈Rd×T和情境矩阵C∈Rd×j,其中d取正整数,一般自然语言处理任务取200,T与j分别表示问题中词的个数和情境中词的个数,R为实数;
将表示结果Q和C输入到双向LSTM来建模词与词之间的时序交互,分别生成问题对应的隐状态向量序列H∈R2d×T和情境对应的隐状态向量序列U∈R2d×j
双向的LSTM进行拼接后,输出的隐状态向量序列H和U的维度变为输入的两倍,即2d。
所述情境注意力层用于将情境信息嵌入问题,形成考虑情境的问题分布式表示,即情境到问题的注意力G,具体包括:
步骤a1,通过关于问题对应的隐状态向量序列H和情境对应的隐状态向量序列U的相似度矩阵S∈Rt×j计算得到情境到问题的注意力G,相似度矩阵S的第t行第j列的元素为Stj,Stj表示问题中第t个词和情境中第j个词的相似度,Stj的计算公式为:
Stj=α(H:t,U:j),
其中,α是一个能够训练的标量函数,α的作用是对输入的两个向量衡量它们之间的相似度,H:t是H中的第t个列向量,U:j是U中的第j个列向量,采用如下公式计算两个输入的向量h和u的相似度α(h,u):
通过上式即能够得到H:t和U:j的相似度α(H:t,U:j),其中,是一个能够训练的权重向量,*表示元素相乘,[;]表示对向量按行拼接;
步骤a2,根据相似度矩阵S获取情境到问题的注意力G:通过b=softmax(maxcol(S))∈RT来获得问题的注意力权重向量b,其中,maxcol()是在矩阵的每一列上取最大值的函数,之后,问题注意力向量为h=∑tbtH:t∈R2d,bt为b中第t个元素,此向量h表示对于情境来说的问题中最重要词的加权和;对h在列上复制T次,得到问题隐向量的加权矩阵H∈R2d×T,对问题向量和注意力向量拼接产生矩阵G,矩阵G中每一列视为问题中每个词的感知了情境信息(即步骤1定义的情境信息)的表示,G的定义如下:
其中,G:t是矩阵G中第t个列向量,对应情境中第t个词, 是问题隐向量的加权矩阵H中第t个列向量,β是一个能够训练的向量函数,β函数用于对输入的向量进行融合,dG则为β函数的输出维度,β函数定义为:
β(h,h,u)=(h;h*h;u)
其中,β(h,h,u)∈R6d×T,dG=6d,h表示问题中的某个词对应的隐状态向量,h~表示问题注意力向量,U表示情境中某个词对应得隐状态向量;
输出矩阵M∈R2d×T
输出层用于预测用户意图各分类的概率分布p:
其中,是一个能够训练的权重向量,MLP为多层感知器(Multi-LayerPerception,即多层感知器),将输入的T(问题中词的个数)组向量输出为意图类别个数相同组数的向量。
步骤4包括:标注数据,构建训练集,利用传统神经网络采用的反向传播算法对步骤3中所构建问题意图预测网络中的模型的参数(即每层网络中的权值矩阵)进行训练,并依此来进行问句分类预测。
有益效果:本发明相比于传统仅靠自然语言对话的问题的用户意图识别算法具有以下优势:1)引入了用户、环境与历史情境特征,极大的提高了意图识别的准备率;2)结合情境信息来辅助分类,解决了在用户问题表达不完整或者用户问题存在歧义的情况下,传统方法无法识别的问题,提高了识别算法的适用性。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1是本发明提出的基于注意力机制的问题意图预测网络。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
本发明提供了一种计算机问答系统中的问句分类方法,图1是本发明提出的基于注意力机制的问题意图预测网络,包括情境建模、情境感知获取、意图预测网络设计、训练与预测。其中QT表示问题语句分词得到的第T个词的向量表示,T表示词的个数;Cj表示情境中第j个情境短语的向量表示,j表示短语个数;hT表示问题第T个词训练得到的隐状态向量;uj表示情境第j个短语训练得到的隐状态向量;gT表示情境到问题的注意力矩阵中的第T个列向量;mT表示模型层输出的隐状态序列的第T个列向量;max表示取最大值;softmax为常用的多分类函数;LSTM为长短期记忆网络。下面结合具体的实施例对本发明进行详细说明,应理解本实施例仅用于解释本发明,并不限定本发明的范围。本实施例选取的为购物助手领域。
(1)构建用户情境模型
本发明方法可应用于智能问答系统(QA,Question Answering,是新一代的搜索引擎),首先根据智能问答应用领域构建影响用户意图的上下文环境信息。智能问答系统可应用于多个领域,常见如手机助手、购物、自动客服等。本发明选取了三个主要维度来定义用户的情境:
ContextInfo=<Y、H、E>
其中,每个维度的含义如下:
Y:用户情境信息,主要是指用户的基本信息与行为偏好,包括性别、年龄段、职业、领域偏好,其表示方式是通过短语标签的方式来表示,如以购物应用为例,性别表示为男,年龄表示为青年,职业表示为金融,领域偏好表示为运动,所有标签在无法获取的情况下表示为未知;
H:历史情境信息(History);指用户最近三轮对话中用户关注的意图领域,同样通过短语标签的方式表示,如[未知,手机,手机周边];
E:环境情境信息(Enviroment);用户所在的区域、温度、时间,如[南京,28,1196361000]。
依此,一个完整的情境应当表示为一组10维的短语(用户情境4维,历史情境3维,环境情境3维),例如一个购物领域的情境例子表示如:[男,青年,信息处理,电子,未知,电子类商品搜索,手机周边类商品搜索,南京,16,1196361000]
(2)情境数据获取
情境获取的手段多样,主要通过两方面的方法,一是显示获取,通过问卷、用户资料补充等与用户交互方式获取用户情境,通过历史记录日志获取历史情境信息,通过传感器(如GPS),获取环境情境信息,另一方面学习挖掘,从用户的行为日志、历史问句中挖掘分类获取,例如用户的性别,可以从其购买、浏览、点击的商品等方面提取特征集,构建分类体系(三类:男,女,未知),通过分类模型(SVM、最大熵、神经网络)进行用户性别分类,从而得到用户的性别情境信息。传统的用户画像构建的一些方法都可以使用。对于购物领域的情境获取来说,用户情境信息可以从用户的购物记录、用户的实名认证信息中获取;历史情境可以从系统日志中获取;系统情境可以从来访的ip地址、系统时间、天气服务中获取。
(3)模型设计
本发明是通过用户问句和情境信息来预测用户的意图领域,所以算法的输入为用户问题文本、表示情境信息的10维短语向量,输出为各领域的概率分布向量序列,其维度为意图领域类型总数。在购物应用实例中,选取以下12类领域意图进行举例说明:食品类搜索、春秋装搜索、冬装搜索、夏装搜索、电子类搜索、火车票查询、机票查询、订单生成、订单查询、订单确认、火车票预订、机票预订。
本实施例将情境信息嵌入用户问题,形成考虑情境的问题分布式表示,带入模型进行预测,网络模型主要包含以下几层:
文本嵌入层:主要任务是将离散的字符转换成连续的数值,以便于模型计算。即将问题与情境中的每个词映射到高维向量空间(一般自然语言处理任务大多采用200维的向量),使用GloVe预训练的词向量来获取每个词的向量表示,得到两个d维的向量序列。在本实施例中,首先需要对问句进行分词获得分词序列,问句的长度不一,分词得到的分词序列长度也不一样,为了方便计算模型计算,对其进行标准化处理,统一取序列长度为8,不足部分用零补全。例如“最近几天的苹果价格”,分词补全得到[最近,几天,苹果,价格,0,0,0,0]。d取200,序列长度分别为8和10,因此两个矩阵:问题矩阵Q∈R200×8以及情境矩阵C∈R200 ×10。将表示结果输入到双向LSTM来建模词与词之间的时序交互,分别生成问题和文本对应的隐状态向量序列。双向的LSTM进行拼接则由问题矩阵Q得到隐状态向量H∈R400×8,以及情境矩阵C得到的U∈R400×10
情境注意力层:将情境信息嵌入问题,形成考虑情境的问题分布式表示。情境注意力经由一个关于问题和情境的隐状态向量(H和U)的相似度矩阵S∈R8×10计算而来,其中Stj表示问题中第t个词和情境中第j个词的相似度。相似度矩阵的计算公式为,
Stj=α(H:t,U:j)
其中,α是一个可训练的标量函数,对输入的两个向量衡量它们之间的相似度,H:t是H中的第t个列向量,U:j是H中的第j个列向量。本发明采用的相似度计算为 其中,是一个可训练的权重向量,*表示元素相乘,[;]表示对向量按行拼接。对于上述例子中的问题和情境来说,例如需要计算问题中“苹果”所对应的隐向量[h1,h2,…,h400]T,与情境“电子”所对应的隐向量[u1,u2,…,u400]T的相似度可表示为为[w1,w2,…,w1200]那么相似度最终为w1h1+…+w401u1+…+w801h1u1+…+w1200h400u400
接着,根据按S来获取情境到问题的注意力,过程描述:首先通过b=softmax(maxcol(S))∈R8来获得问题的注意力权重。其中,maxcol()是在每一行上取最大值的函数。之后,问题注意力向量为h=∑tbtH:t∈R400,此向量表示对于情境来说的问题中最重要词的加权和。对h在列上复制8次,得到问题隐向量的加权矩阵H∈R400×8。最后,对问题向量和注意力向量拼接产生G,其中每一列可以视为问题中每个词的感知了情境信息的表示,G的定义如下:
其中,G:t是第t个列向量(对应问题中第t个词),β是一个可训练的向量函数对其输入的向量进行融合,dG则为β函数的输出维度。β函数定义为:
β(h,h,u)=(h;h*h;u)∈R1200×8(dG=1200)
模型层:使用G作为输入,采用双向LSTM,生成隐状态序列,获得输出矩阵M∈R400 ×8
输出层:预测用户意图各分类的概率分布:
其中,是一个可训练的权重向量,MLP为多层感知器,将输入的T(问题中词的个数)组向量输出为意图类别个数相同组数的向量,对于实施例子来说,就是将生成的8组向量转换为12组向量。
(4)模型训练与预测。
标注数据,构建训练集,利用传统神经网络采用的反向传播算法对步骤3中所构建问题意图预测网络中的模型的参数(即每层网络中的权值矩阵)进行训练,并依此来进行问句分类预测。标注的数据主要包括用户问句,情境与意图类别。以购物领域为例,标注数据样式如下表所示。
表1
预测时以问句与情境信息为输入,输出为领域概率分布,例如[0.83,0.02,0.01,0.02,0.03,0.02,0.01,0.02,0.01,0.01,0.01,0.01],该预测结果表示用户意图83%概率是“食品类搜索”。
实施例2
本实施例2中,以手机语音助手为例,说明本发明的实施过程。本发明属于语音助手中自然语言处理部分的自然语言理解的内容。输入是语音识别生成用户自然语言问句,输出为用户的意图分类。处理主要分为两大部分,包括线下预处理部分和线上预测部分。
线下预处理部分主要包括数据标注、模型训练。具体的,数据标注主要是获取用户的历史问句,对于每一条语句,标注其由10个词语组成情境信息与问句所属的意图领域。意图领域覆盖手机助手支持的业务,如闲聊、拨号、短信、订票、闹钟等,情境信息如[男,青年,销售闲聊,未知,闲聊,拨号,南京,16,1196361000]。
模型训练是通过标注数据对本发明提出的问题意图预测网络进行训练,以获取训练模型。首先,对标注的结果进行处理,将其转化为分类结果向量。具体的,统计手机助手所支持的所有意图领域个数N,并以固定的顺序排序,以此生成一个N维的向量,向量由0,1构成,即将结果领域所在位置上的数值设为1,其余为0。如:闲聊、拨号、短信这一领域集合中各向量分别表示为[1,0,0],[0,1,0],[0,0,1]。然后以用户问句与情境信息为输入,结果向量为输出,训练问题意图预测网络,生成模型中各层网络中的参数权重。
线上预测部分处理过程包括情境信息采集与领域分类,其中情境信息采集是根据接入的用户的唯一标识,获取其对应的基本信息(性别、年龄段、职业、领域偏好)、以及记录的历史领域(系统日志记录的最近三轮的对话的意图领域,不足补充“未知”);根据手机的系统时间、天气与位置服务获取用户的环境信息,将获取的信息拼接形成情境信息短语序列。
领域分类部分是以用户问句与情境信息为输入,代入模型计算,获取领域分类。具体包括:首先对问句进行分词,获取问题短语序列;然后通过GloVe预训练的词向量来获取问句序列和情境信息中的每个词向量表示,将问句向量序列、情境向量序列、训练得出的模型中各层网络中的参数权重代入模型(情境向量序列是情境信息短语序列的数值化表示,问句向量序列是问题短语序列的数值化表示),预测得到N维的结果向量。获取向量中最大的数值p及其位置,如果p满足预期的阈值要求,那么其位置所对应的意图领域,就是分类得到的结果意图领域,如闲聊、拨号、短信这一领域集合中输出结果为[0.1,0.7,0.2],设置的阈值为不小于0.7,那么领域意图分类结果就是拨号。
本发明提供了一种计算机问答系统中的问句分类方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (8)

1.一种计算机问答系统中的问句分类方法,其特征在于,包括以下步骤:
步骤1,构建用于对问句进行分类的用户情境模型;
步骤2,基于用户情境模型,获取用户的情境信息数据;
步骤3,获取待分类的问句,并基于用户的情境信息数据,构建基于注意力机制的问题意图预测网络;
步骤4,训练模型,并对问句进行分类预测。
2.如权利要求1所述的方法,其特征在于,步骤1中所述的构建用户情境模型,是指根据问答系统需要定义的情境属性构建完整的情境信息描述,一组完整的情境信息ContextInfo需要从三个维度Y、H、E进行描述,表示如下:
ContextInfo=<Y、H、E>
其中,每个维度的含义如下:
Y表示用户情境信息;
H表示历史情境信息;
E表示环境情境信息;
所述用户情境信息是指用户的基本信息与行为偏好,包括性别、年龄段、职业和领域偏好;
所述历史情境信息是指用户最近三轮对话中用户关注的意图领域;
所述环境情境信息是指用户所在的区域、温度、时间;
每个情境信息都用一个属性词表示,即最终情境信息的表示由10个词语组成。
3.如权利要求2所述的方法,其特征在于,步骤3中,所述基于注意力机制的问题意图预测网络包含文本嵌入层、情境注意力层、模型层和输出层;
其中,文本嵌入层用于将问题与情境中的每个词映射到高维向量空间;
情境注意力层用于将情境信息嵌入问题,形成考虑情境的问题分布式表示G;
模型层用于,使用G作为输入,采用双向LSTM,生成隐状态序列,获得输出矩阵M;
输出层用于预测用户意图各分类的概率分布p。
4.如权利要求3所述的方法,其特征在于,所述文本嵌入层用于将问题与情境中的每个词映射到高维向量空间,具体包括:
获取待分类的问句,问句中包括问题,使用GloVe预训练的词向量来获取问题与情境中每个词的向量表示,得到两个d维的向量序列,即两个矩阵:问题矩阵Q∈Rd×T和情境矩阵C∈Rd×j,其中d取正整数,T与j分别表示问题中词的个数和情境中词的个数,R为实数;
将表示结果Q和C输入到双向LSTM来建模词与词之间的时序交互,分别生成问题对应的隐状态向量序列H∈R2d×T和情境对应的隐状态向量序列U∈R2d×j
双向的LSTM进行拼接后,输出的隐状态向量序列H和U的维度变为输入的两倍,即2d。
5.如权利要求4所述的方法,其特征在于,所述情境注意力层用于将情境信息嵌入问题,形成考虑情境的问题分布式表示,即情境到问题的注意力G,具体包括:
步骤a1,通过关于问题对应的隐状态向量序列H和情境对应的隐状态向量序列U的相似度矩阵S∈Rt×j计算得到情境到问题的注意力G,相似度矩阵S的第t行第j列的元素为Stj,Stj表示问题中第t个词和情境中第j个词的相似度,Stj的计算公式为:
Stj=α(H:t,U:j),
其中,α是一个能够训练的标量函数,α的作用是对输入的两个向量衡量它们之间的相似度,H:t是H中的第t个列向量,U:j是U中的第j个列向量,采用如下公式计算两个输入的向量h和u的相似度α(h,u):
通过上式即能够得到H:t和U:j的相似度α(H:t,U:j),其中,是一个能够训练的权重向量,*表示元素相乘,[;]表示对向量按行拼接;
步骤a2,根据相似度矩阵S获取情境到问题的注意力G:通过b=softmax(maxcol(S))∈RT来获得问题的注意力权重向量b,其中,maxcol()是在矩阵的每一列上取最大值的函数,之后,问题注意力向量为h=∑tbtH:t∈R2d,bt为b中第t个元素,此向量h表示对于情境来说的问题中最重要词的加权和;对h在列上复制T次,得到问题隐向量的加权矩阵H∈R2d×T,对问题向量和注意力向量拼接产生矩阵G,矩阵G中每一列视为问题中每个词的感知了情境信息的表示,G的定义如下:
其中,G:t是矩阵G中第t个列向量,对应情境中第t个词, 是问题隐向量的加权矩阵H中第t个列向量,β是一个能够训练的向量函数,β函数用于对输入的向量进行融合,dG则为β函数的输出维度,β函数定义为:
β(h,h,u)=(h;h*h;u)
其中,β(h,h,u)∈R6d×T,dG=6d。
6.如权利要求5所述的方法,其特征在于,输出矩阵M∈R2d×T
7.如权利要求6所述的方法,其特征在于,输出层用于预测用户意图各分类的概率分布p:
其中,是一个能够训练的权重向量,MLP为多层感知器,将输入的T组向量输出为意图类别个数相同组数的向量。
8.如权利要求7所述的方法,其特征在于,将所述问句分类方法用于处理手机语音助手中自然语言处理部分的自然语言理解,输入的是语音识别生成的用户自然语言问句,输出为用户的意图分类,具体处理包括线下预处理部分和线上预测部分;
所述线下预处理部分包括数据标注和模型训练,其中,数据标注是获取用户的历史问句,对于每一条语句,标注其由10个词语组成情境信息与问句所属的意图领域,意图领域覆盖手机助手支持的业务;
模型训练是通过标注数据对步骤3所述的问题意图预测网络进行训练,以获取训练模型:首先,对标注的结果进行处理,将其转化为分类结果向量,具体的,统计手机助手所支持的所有意图领域个数N,并以固定的顺序排序,以此生成一个N维的向量,向量由0,1构成,即将结果领域所在位置上的数值设为1,其余为0,然后以用户问句与情境信息为输入,结果向量为输出,训练问题意图预测网络,生成模型中各层网络中的参数权重;
所述线上预测部分包括情境信息采集和领域分类,其中,情境信息采集是根据接入的用户的唯一标识,获取其对应的基本信息和记录的历史领域,并根据手机的系统时间、天气与位置服务获取用户的环境信息,将获取的信息拼接形成情境信息短语序列;
领域分类是以用户问句与情境信息为输入,代入模型计算,获取领域分类,具体包括:首先对问句进行分词,获取问题短语序列;然后通过GloVe预训练的词向量来获取问句序列和情境信息中的每个词向量表示,将问句向量序列、情境向量序列、训练得出的模型中各层网络中的参数权重代入模型,预测得到N维的结果向量,获取向量中最大的数值p及其位置,如果p满足预期的阈值要求,则其位置所对应的意图领域,就是分类得到的结果意图领域。
CN201910455870.0A 2019-05-29 2019-05-29 一种计算机问答系统中的问句分类方法 Active CN110263160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910455870.0A CN110263160B (zh) 2019-05-29 2019-05-29 一种计算机问答系统中的问句分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910455870.0A CN110263160B (zh) 2019-05-29 2019-05-29 一种计算机问答系统中的问句分类方法

Publications (2)

Publication Number Publication Date
CN110263160A true CN110263160A (zh) 2019-09-20
CN110263160B CN110263160B (zh) 2021-04-02

Family

ID=67915673

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910455870.0A Active CN110263160B (zh) 2019-05-29 2019-05-29 一种计算机问答系统中的问句分类方法

Country Status (1)

Country Link
CN (1) CN110263160B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111062220A (zh) * 2020-03-13 2020-04-24 成都晓多科技有限公司 一种基于记忆遗忘装置的端到端意图识别系统和方法
CN111078854A (zh) * 2019-12-13 2020-04-28 北京金山数字娱乐科技有限公司 问答预测模型的训练方法及装置、问答预测方法及装置
CN111177381A (zh) * 2019-12-21 2020-05-19 深圳市傲立科技有限公司 基于语境向量反馈的槽填充和意图检测联合建模方法
CN111274786A (zh) * 2020-01-22 2020-06-12 中国人民大学 一种自动量刑的方法和系统
CN111477216A (zh) * 2020-04-09 2020-07-31 南京硅基智能科技有限公司 一种用于对话机器人的音意理解模型的训练方法及系统
CN112182179A (zh) * 2020-09-27 2021-01-05 北京字节跳动网络技术有限公司 实体问答处理方法、装置、电子设备和存储介质
CN112182231A (zh) * 2020-12-01 2021-01-05 佰聆数据股份有限公司 基于句向量预训练模型的文本处理方法、系统及存储介质
WO2021073298A1 (zh) * 2019-10-18 2021-04-22 珠海格力电器股份有限公司 一种语音信息的处理方法、装置、智能终端以及存储介质
CN112732877A (zh) * 2019-10-14 2021-04-30 阿里巴巴集团控股有限公司 数据处理的方法、装置和系统
CN113313001A (zh) * 2021-05-21 2021-08-27 浪潮金融信息技术有限公司 一种基于语义模型的手写输入的优化方法、系统及介质
CN113377951A (zh) * 2021-05-20 2021-09-10 广州云趣信息科技有限公司 智能客服机器人的语料构建方法及装置
CN115146066A (zh) * 2022-09-05 2022-10-04 深圳市华付信息技术有限公司 人机交互方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350653A1 (en) * 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
CN108021616A (zh) * 2017-11-06 2018-05-11 大连理工大学 一种基于循环神经网络的社区问答专家推荐方法
CN108038209A (zh) * 2017-12-18 2018-05-15 深圳前海微众银行股份有限公司 答案选择方法、装置和计算机可读存储介质
CN108628882A (zh) * 2017-03-20 2018-10-09 北京京东尚科信息技术有限公司 用于预判问题的方法和系统
CN108804677A (zh) * 2018-06-12 2018-11-13 合肥工业大学 结合多层级注意力机制的深度学习问题分类方法及系统
CN108829667A (zh) * 2018-05-28 2018-11-16 南京柯基数据科技有限公司 一种基于记忆网络的多轮对话下的意图识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160350653A1 (en) * 2015-06-01 2016-12-01 Salesforce.Com, Inc. Dynamic Memory Network
CN108628882A (zh) * 2017-03-20 2018-10-09 北京京东尚科信息技术有限公司 用于预判问题的方法和系统
CN108021616A (zh) * 2017-11-06 2018-05-11 大连理工大学 一种基于循环神经网络的社区问答专家推荐方法
CN108038209A (zh) * 2017-12-18 2018-05-15 深圳前海微众银行股份有限公司 答案选择方法、装置和计算机可读存储介质
CN108829667A (zh) * 2018-05-28 2018-11-16 南京柯基数据科技有限公司 一种基于记忆网络的多轮对话下的意图识别方法
CN108804677A (zh) * 2018-06-12 2018-11-13 合肥工业大学 结合多层级注意力机制的深度学习问题分类方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
QIN CHEN等: "CA-RNN: Using Context-Aligned Recurrent Neural Networks for Modeling Sentence Similarity", 《THE THIRTY-SECOND AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
史梦飞 等: "基于Bi-LSTM和CNN并包含注意力机制的社区问答问句分类", 《计算机系统应用》 *
梁建增: "用于客服辅助的对话模型研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112732877B (zh) * 2019-10-14 2024-05-17 阿里巴巴集团控股有限公司 数据处理的方法、装置和系统
CN112732877A (zh) * 2019-10-14 2021-04-30 阿里巴巴集团控股有限公司 数据处理的方法、装置和系统
WO2021073298A1 (zh) * 2019-10-18 2021-04-22 珠海格力电器股份有限公司 一种语音信息的处理方法、装置、智能终端以及存储介质
CN111078854B (zh) * 2019-12-13 2023-10-27 北京金山数字娱乐科技有限公司 问答预测模型的训练方法及装置、问答预测方法及装置
CN111078854A (zh) * 2019-12-13 2020-04-28 北京金山数字娱乐科技有限公司 问答预测模型的训练方法及装置、问答预测方法及装置
CN111177381A (zh) * 2019-12-21 2020-05-19 深圳市傲立科技有限公司 基于语境向量反馈的槽填充和意图检测联合建模方法
CN111274786A (zh) * 2020-01-22 2020-06-12 中国人民大学 一种自动量刑的方法和系统
CN111062220B (zh) * 2020-03-13 2020-06-16 成都晓多科技有限公司 一种基于记忆遗忘装置的端到端意图识别系统和方法
CN111062220A (zh) * 2020-03-13 2020-04-24 成都晓多科技有限公司 一种基于记忆遗忘装置的端到端意图识别系统和方法
CN111477216A (zh) * 2020-04-09 2020-07-31 南京硅基智能科技有限公司 一种用于对话机器人的音意理解模型的训练方法及系统
CN111477216B (zh) * 2020-04-09 2024-02-23 南京硅基智能科技有限公司 一种用于对话机器人的音意理解模型的训练方法及系统
CN112182179A (zh) * 2020-09-27 2021-01-05 北京字节跳动网络技术有限公司 实体问答处理方法、装置、电子设备和存储介质
CN112182231B (zh) * 2020-12-01 2021-03-09 佰聆数据股份有限公司 基于句向量预训练模型的文本处理方法、系统及存储介质
CN112182231A (zh) * 2020-12-01 2021-01-05 佰聆数据股份有限公司 基于句向量预训练模型的文本处理方法、系统及存储介质
CN113377951A (zh) * 2021-05-20 2021-09-10 广州云趣信息科技有限公司 智能客服机器人的语料构建方法及装置
CN113313001B (zh) * 2021-05-21 2023-10-10 浪潮金融信息技术有限公司 一种基于语义模型的手写输入的优化方法、系统及介质
CN113313001A (zh) * 2021-05-21 2021-08-27 浪潮金融信息技术有限公司 一种基于语义模型的手写输入的优化方法、系统及介质
CN115146066A (zh) * 2022-09-05 2022-10-04 深圳市华付信息技术有限公司 人机交互方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN110263160B (zh) 2021-04-02

Similar Documents

Publication Publication Date Title
CN110263160A (zh) 一种计算机问答系统中的问句分类方法
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN111382361B (zh) 信息推送方法、装置、存储介质和计算机设备
Cai et al. Multimodal Data Guided Spatial Feature Fusion and Grouping Strategy for E‐Commerce Commodity Demand Forecasting
CN104391849B (zh) 融入时间上下文信息的协同过滤推荐方法
US11381651B2 (en) Interpretable user modeling from unstructured user data
CN108363753A (zh) 评论文本情感分类模型训练与情感分类方法、装置及设备
CN110263235A (zh) 信息推送对象更新方法、装置和计算机设备
CN108230007A (zh) 一种用户意图的识别方法、装置、电子设备及存储介质
CN109522531A (zh) 文案生成方法和装置、存储介质及电子装置
CN107644036A (zh) 一种数据对象推送的方法、装置及系统
CN113946754A (zh) 基于用户画像的权益推荐方法、装置、设备及存储介质
CN112165639B (zh) 内容分发方法、装置、电子设备以及存储介质
CN110232133A (zh) 一种基于特征融合和款式分类的服装图像检索方法和系统
Cao et al. Deep multi-view learning to rank
CN114201516A (zh) 一种用户画像构建的方法、信息推荐的方法以及相关装置
Zarzour et al. Sentiment analysis based on deep learning methods for explainable recommendations with reviews
Hwang et al. Recent deep learning methods for tabular data
CN110287294A (zh) 知识产权概念自动解答方法及系统
Santhosh et al. Machine learning based ideal job role fit and career recommendation system
CN115688758A (zh) 一种语句意图识别方法、装置和存储介质
Cao et al. Fuzzy emotional semantic analysis and automated annotation of scene images
CN114282549A (zh) 信息间根因关系的识别方法、装置、电子设备及存储介质
CN113469752A (zh) 内容推荐方法、装置、存储介质及电子设备
CN111507366B (zh) 推荐概率模型的训练方法、智能补全方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant