发明内容
本说明书一个或多个实施例描述了一种分析多条群聊消息间关联关系的方法和装置,能够准确分析多条群聊消息间的关联关系。
第一方面,提供了一种分析多条群聊消息间关联关系的方法,方法包括:
获取包括当前群聊消息在内的连续的预设数目条群聊消息;
至少对所述预设数目条群聊消息中的每条群聊消息进行分词处理,得到各条群聊消息对应的分词集合;
获取所述各条群聊消息对应的分词集合中各分词的词向量;
分别将所述各条群聊消息作为目标群聊消息,根据所述目标群聊消息中各分词的第一位置,将所述目标群聊消息中各分词的词向量输入预先训练的第一特征提取模型,通过所述第一特征提取模型的输出得到所述目标群聊消息对应的第一句子向量;
根据所述各条群聊消息分别在所述预设数目条群聊消息中的第二位置,将所述各条群聊消息对应的第一句子向量输入预先训练的第二特征提取模型,通过所述第二特征提取模型的输出得到所述各条群聊消息分别对应的第二句子向量;
根据所述各条群聊消息分别对应的第二句子向量,确定与所述当前群聊消息具有关联关系的关联群聊消息。
在一种可能的实施方式中,所述至少对所述预设数目条群聊消息中的每条群聊消息进行分词处理,得到各条群聊消息对应的分词集合,包括:
对所述预设数目条群聊消息中的每条群聊消息进行分词处理,得到每条群聊消息对应的各初始分词;
将所述各初始分词中包括的预设类型的初始分词替换为预设标记,得到各处理后分词,所述各处理后分词构成每条群聊消息对应的分词集合。
在一种可能的实施方式中,所述通过所述第一特征提取模型的输出得到所述目标群聊消息对应的第一句子向量之前,所述方法还包括:
获取所述目标群聊消息对应的发送人标识;
根据所述目标群聊消息与所述当前群聊消息的发送人是否相同,生成指示信息;
将所述指示信息输入所述第一特征提取模型。
进一步地,所述通过所述第一特征提取模型的输出得到所述目标群聊消息对应的第一句子向量,包括:
所述第一特征提取模型根据所述目标群聊消息中各分词的词向量以及各分词的第一位置,生成第一分向量;
根据所述目标群聊消息对应的指示信息,生成第二分向量;
对所述第一分向量和所述第二分向量进行连接,得到所述目标群聊消息对应的第一句子向量。
在一种可能的实施方式中,所述至少对所述预设数目条群聊消息中的每条群聊消息进行分词处理,得到各条群聊消息对应的分词集合,包括:
获取所述预设数目条群聊消息中的每条群聊消息分别对应的发送时间;
当根据所述发送时间确定各条群聊消息中存在相邻两条群聊消息之间的时间间隔大于预设阈值时,在所述相邻两条群聊消息之间添加一条间隔消息;
对所述预设数目条群聊消息中的每条群聊消息和所述间隔消息进行分词处理,得到各条群聊消息对应的分词集合。
在一种可能的实施方式中,所述第一特征提取模型包括双向长短期记忆(longshort-term memory,LSTM)层和注意力层;
所述通过所述第一特征提取模型的输出得到所述目标群聊消息对应的第一句子向量,包括:
所述双向LSTM层根据所述各分词的词向量,以及所述各分词的第一位置,按照正序生成所述各分词对应的第一词嵌入向量,按照逆序生成所述各分词对应的第二词嵌入向量,根据所述第一词嵌入向量和所述第二词嵌入向量,生成所述各分词对应的综合词嵌入向量;
所述注意力层通过对所述各分词对应的综合词嵌入向量加以不同的权重,得到所述目标群聊消息对应的第一句子向量。
在一种可能的实施方式中,所述第二特征提取模型包括双向长短期记忆LSTM层;
所述通过所述第二特征提取模型的输出得到所述目标群聊消息对应的第二句子向量,包括:
所述双向LSTM层根据所述各条群聊消息对应的第一句子向量,以及所述各条群聊消息的第二位置,按照正序生成所述各条群聊消息对应的第一句子嵌入向量,按照逆序生成所述各条群聊消息对应的第二句子嵌入向量,根据所述第一句子嵌入向量和所述第二句子嵌入向量,生成所述各条群聊消息分别对应的第二句子向量。
在一种可能的实施方式中,所述根据所述各条群聊消息分别对应的第二句子向量,确定与所述当前群聊消息具有关联关系的关联群聊消息,包括:
根据所述各条群聊消息分别对应的第二句子向量,确定各条群聊消息与所述当前群聊消息之间的相似度得分;
根据所述相似度得分,确定与所述当前群聊消息具有关联关系的关联群聊消息。
进一步地,所述确定各条群聊消息与所述当前群聊消息之间的相似度得分,包括:
将所述各条群聊消息分别对应的第二句子向量,与所述当前群聊消息对应的第二句子向量,输入预先训练的多层感知器(multi-layer perception,MLP),通过所述MLP的输出得到所述各条群聊消息与所述当前群聊消息之间的相似度得分。
进一步地,所述确定各条群聊消息与所述当前群聊消息之间的相似度得分,包括:
根据所述各条群聊消息分别对应的第二句子向量,与所述当前群聊消息对应的第二句子向量,通过计算两个向量之间的余弦相似度或欧式距离,确定所述各条群聊消息与所述当前群聊消息之间的相似度得分。
第二方面,提供了一种分析多条群聊消息间关联关系的装置,所述装置包括:
第一获取单元,用于获取包括当前群聊消息在内的连续的预设数目条群聊消息;
分词单元,用于至少对所述第一获取单元获取的预设数目条群聊消息中的每条群聊消息进行分词处理,得到各条群聊消息对应的分词集合;
第二获取单元,用于获取所述分词单元得到的所述各条群聊消息对应的分词集合中各分词的词向量;
第一特征提取单元,用于分别将所述各条群聊消息作为目标群聊消息,根据所述目标群聊消息中各分词的第一位置,将所述第二获取单元获取的所述目标群聊消息中各分词的词向量输入预先训练的第一特征提取模型,通过所述第一特征提取模型的输出得到所述目标群聊消息对应的第一句子向量;
第二特征提取单元,用于根据所述各条群聊消息分别在所述预设数目条群聊消息中的第二位置,将所述第一特征提取单元得到的所述各条群聊消息对应的第一句子向量输入预先训练的第二特征提取模型,通过所述第二特征提取模型的输出得到所述各条群聊消息分别对应的第二句子向量;
确定单元,用于根据所述第二特征提取单元得到的所述各条群聊消息分别对应的第二句子向量,确定与所述当前群聊消息具有关联关系的关联群聊消息。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
通过本说明书实施例提供的方法和装置,首先获取包括当前群聊消息在内的连续的预设数目条群聊消息;然后至少对所述预设数目条群聊消息中的每条群聊消息进行分词处理,得到各条群聊消息对应的分词集合;接着获取所述各条群聊消息对应的分词集合中各分词的词向量;再分别将所述各条群聊消息作为目标群聊消息,根据所述目标群聊消息中各分词的第一位置,将所述目标群聊消息中各分词的词向量输入预先训练的第一特征提取模型,通过所述第一特征提取模型的输出得到所述目标群聊消息对应的第一句子向量;再然后根据所述各条群聊消息分别在所述预设数目条群聊消息中的第二位置,将所述各条群聊消息对应的第一句子向量输入预先训练的第二特征提取模型,通过所述第二特征提取模型的输出得到所述各条群聊消息分别对应的第二句子向量;最后根据所述各条群聊消息分别对应的第二句子向量,确定与所述当前群聊消息具有关联关系的关联群聊消息。由上可见,本说明书实施例,针对群聊中多会话并行的特点,只是预先设定了获取的群聊消息的数目,而没有先对会话进行拆分,并且通过两次特征提取,分别考虑了一条消息中各分词的上下文,以及多条消息中每条消息的上下文,从而生成每条消息对应的句子向量,根据该句子向量能够准确分析多条群聊消息间的关联关系。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及分析多条群聊消息间的关联关系。具体地,群聊被应用于客服服务中,例如,一个群聊的成员中有提问题的客户和解答问题的客服,客户将业务咨询以普通消息的形式发送到群里,客服需要对业务咨询进行响应。除了业务咨询之外,客户之间也会有对话沟通,这些消息不需要客服处理。为提升客服的工作效率,需要判断一条消息是否是业务咨询,并将识别为业务咨询的消息交由客服处理。在客服回答了客户的业务咨询之后,还要判断业务咨询与客服回答的质量,并把高质量的问答对保存到知识库,便于机器人客服和人工客服再次回答相同问题。
由于在群聊里,常常会涉及多人多轮的问答交互,所以识别客户的提问,并把客服回复与用户问题进行关联,是一个难点。本说明书实施例提供了一种分析多条群聊消息间的关联关系的方法,能够准确分析多条群聊消息间的关联关系,以便将客服回复与用户问题进行关联。参照图1,当客服3在群聊中输入消息10时,通过获取包括消息10在内的连续10条消息,最后分析出与消息10具有关联关系的群聊消息为客户E输入的消息7,也就是说,消息7和消息10为一组问答对。
需要说明的是,图1所示的应用场景为本说明书实施例提供的一种典型的应用场景,但并不作为本说明书实施例应用场景的限定,本说明书实施例提供的方法可以应用于任何包括多人对话的群聊场景。
图2示出根据一个实施例的分析多条群聊消息间关联关系的方法流程图,该方法可以基于图1所示的应用场景。如图2所示,该实施例中分析多条群聊消息间关联关系的方法包括以下步骤:步骤21,获取包括当前群聊消息在内的连续的预设数目条群聊消息;步骤22,至少对所述预设数目条群聊消息中的每条群聊消息进行分词处理,得到各条群聊消息对应的分词集合;步骤23,获取所述各条群聊消息对应的分词集合中各分词的词向量;步骤24,分别将所述各条群聊消息作为目标群聊消息,根据所述目标群聊消息中各分词的第一位置,将所述目标群聊消息中各分词的词向量输入预先训练的第一特征提取模型,通过所述第一特征提取模型的输出得到所述目标群聊消息对应的第一句子向量;步骤25,根据所述各条群聊消息分别在所述预设数目条群聊消息中的第二位置,将所述各条群聊消息对应的第一句子向量输入预先训练的第二特征提取模型,通过所述第二特征提取模型的输出得到所述各条群聊消息分别对应的第二句子向量;步骤26,根据所述各条群聊消息分别对应的第二句子向量,确定与所述当前群聊消息具有关联关系的关联群聊消息。下面描述以上各个步骤的具体执行方式。
首先在步骤21,获取包括当前群聊消息在内的连续的预设数目条群聊消息。可以理解的是,预设数目条群聊消息在群聊窗口中按照时间先后自然排序,当前群聊消息为预设数目条群聊消息中的最后一条群聊消息。
其中,每条群聊消息具有相应的发送人和发送时间,在一个示例中,获取一条群聊消息的同时,也可以一并获取该条群聊消息对应的发送人和发送时间。
本说明书实施例,上述预设数目可以根据经验设定,例如,设定为10,也就是说,可以认为与当前群聊消息具有关联关系的群聊消息在之前的9条群聊消息之内。
然后在步骤22,至少对所述预设数目条群聊消息中的每条群聊消息进行分词处理,得到各条群聊消息对应的分词集合。可以理解的是,中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。
通常地,群聊消息中除了包括汉字外,还可能包含统一资源定位符(uniformresource locator,URL)或电话号码等字符串,针对这些类型的字符串,本说明书实施例可以进行替换处理。
在一个示例中,对所述预设数目条群聊消息中的每条群聊消息进行分词处理,得到每条群聊消息对应的各初始分词;将所述各初始分词中包括的预设类型的初始分词替换为预设标记,得到各处理后分词,所述各处理后分词构成每条群聊消息对应的分词集合。
在一个示例中,获取所述预设数目条群聊消息中的每条群聊消息分别对应的发送时间;当根据所述发送时间确定各条群聊消息中存在相邻两条群聊消息之间的时间间隔大于预设阈值时,在所述相邻两条群聊消息之间添加一条间隔消息;对所述预设数目条群聊消息中的每条群聊消息和所述间隔消息进行分词处理,得到各条群聊消息对应的分词集合。
接着在步骤23,获取所述各条群聊消息对应的分词集合中各分词的词向量。可以理解的是,获取分词对应的词向量有多种方式,例如,采用预先训练的词嵌入工具word2vec生成各分词的词向量。
再在步骤24,分别将所述各条群聊消息作为目标群聊消息,根据所述目标群聊消息中各分词的第一位置,将所述目标群聊消息中各分词的词向量输入预先训练的第一特征提取模型,通过所述第一特征提取模型的输出得到所述目标群聊消息对应的第一句子向量。可以理解的是,第一句子向量是基于单个群聊消息生成的。
在一个示例中,所述通过所述第一特征提取模型的输出得到所述目标群聊消息对应的第一句子向量之前,获取所述目标群聊消息对应的发送人标识;根据所述目标群聊消息与所述当前群聊消息的发送人是否相同,生成指示信息;将所述指示信息输入所述第一特征提取模型。
进一步地,所述第一特征提取模型根据所述目标群聊消息中各分词的词向量以及各分词的第一位置,生成第一分向量;根据所述目标群聊消息对应的指示信息,生成第二分向量;对所述第一分向量和所述第二分向量进行连接(concat),得到所述目标群聊消息对应的第一句子向量。
在一个示例中,所述第一特征提取模型包括双向长短期记忆(long short-termmemory,LSTM)层和注意力层;所述双向LSTM层根据所述各分词的词向量,以及所述各分词的第一位置,按照正序生成所述各分词对应的第一词嵌入向量,按照逆序生成所述各分词对应的第二词嵌入向量,根据所述第一词嵌入向量和所述第二词嵌入向量,生成所述各分词对应的综合词嵌入向量;所述注意力层通过对所述各分词对应的综合词嵌入向量加以不同的权重,得到所述目标群聊消息对应的第一句子向量。
再然后在步骤25,根据所述各条群聊消息分别在所述预设数目条群聊消息中的第二位置,将所述各条群聊消息对应的第一句子向量输入预先训练的第二特征提取模型,通过所述第二特征提取模型的输出得到所述各条群聊消息分别对应的第二句子向量。可以理解的是,第二句子向量是基于多个群聊消息生成的。
在一个示例中,所述第二特征提取模型包括双向长短期记忆LSTM层;所述双向LSTM层根据所述各条群聊消息对应的第一句子向量,以及所述各条群聊消息的第二位置,按照正序生成所述各条群聊消息对应的第一句子嵌入向量,按照逆序生成所述各条群聊消息对应的第二句子嵌入向量,根据所述第一句子嵌入向量和所述第二句子嵌入向量,生成所述各条群聊消息分别对应的第二句子向量。
最后在步骤26,根据所述各条群聊消息分别对应的第二句子向量,确定与所述当前群聊消息具有关联关系的关联群聊消息。可以理解的是,各第二句子向量在空间的距离能够反映对应的各条群聊消息之间的关联关系。
在一个示例中,根据所述各条群聊消息分别对应的第二句子向量,确定各条群聊消息与所述当前群聊消息之间的相似度得分;根据所述相似度得分,确定与所述当前群聊消息具有关联关系的关联群聊消息。
可选地,将所述各条群聊消息分别对应的第二句子向量,与所述当前群聊消息对应的第二句子向量,输入预先训练的多层感知器(multi-layer perception,MLP),通过所述MLP的输出得到所述各条群聊消息与所述当前群聊消息之间的相似度得分。
可选地,根据所述各条群聊消息分别对应的第二句子向量,与所述当前群聊消息对应的第二句子向量,通过计算两个向量之间的余弦相似度或欧式距离,确定所述各条群聊消息与所述当前群聊消息之间的相似度得分。
通过本说明书实施例提供的方法,首先获取包括当前群聊消息在内的连续的预设数目条群聊消息;然后至少对所述预设数目条群聊消息中的每条群聊消息进行分词处理,得到各条群聊消息对应的分词集合;接着获取所述各条群聊消息对应的分词集合中各分词的词向量;再分别将所述各条群聊消息作为目标群聊消息,根据所述目标群聊消息中各分词的第一位置,将所述目标群聊消息中各分词的词向量输入预先训练的第一特征提取模型,通过所述第一特征提取模型的输出得到所述目标群聊消息对应的第一句子向量;再然后根据所述各条群聊消息分别在所述预设数目条群聊消息中的第二位置,将所述各条群聊消息对应的第一句子向量输入预先训练的第二特征提取模型,通过所述第二特征提取模型的输出得到所述各条群聊消息分别对应的第二句子向量;最后根据所述各条群聊消息分别对应的第二句子向量,确定与所述当前群聊消息具有关联关系的关联群聊消息。由上可见,本说明书实施例,针对群聊中多会话并行的特点,只是预先设定了获取的群聊消息的数目,而没有先对会话进行拆分,并且通过两次特征提取,分别考虑了一条消息中各分词的上下文,以及多条消息中每条消息的上下文,从而生成每条消息对应的句子向量,根据该句子向量能够准确分析多条群聊消息间的关联关系。
下面通过一个更为具体的实施例来介绍本说明书实施例提供的分析多条群聊消息间关联关系的方法。
图3示出根据一个实施例的分析多条群聊消息间关联关系的方法关键步骤示意图。参照图3,该方法主要包含预处理、向量编码和后处理三个步骤。
步骤一、预处理。首先输入数据:输入连续的预设数目(例如10)条群聊消息,包括消息内容、发送人和发送时间;当前消息为对话的最后一条消息,即图中的text_n;然后分词、归一化:对消息内容进行分词,并用特殊记号替换掉URL、电话号码等特殊字符串;最后增加时间间隔:分析群聊消息间的时间间隔,如果时间间隔大于预设阈值(例如10分钟)的,在两条消息间插入特殊符号(例如INTERVAL)表示间隔。
步骤二、向量编码。首先获取预处理后每条群聊消息对应分词的词向量。例如,通过词嵌入工具word2vec对各分词进行编码:使用预训练可微调词向量,对输入消息的每一个词进行编码,记第t个词的词向量为x_t;进行词语双向LSTM(BiLSTM):将群聊消息对应的各词向量依次输入双向LSTM模型,每个时间片t得到隐藏层向量h_t;再通过注意力(Attention)机制对h_t进行处理:通过一层MLP对h_t进行编码,并随机初始化上下文向量u_w,通过attention机制计算出整个句子的向量编码s;接着获取发送人编码user2vec:对发送人进行编码。由于发送人文本不具备参考价值,所以进行简单处理,当一条群聊消息的消息发送人与最后一条群聊消息的消息发送人相同时该条消息对应的发送人编码取1,否则取0;再然后进行连接(concat):将attention后得到的句向量编码s,与发送人编码user2vec拼接,得到整个消息的向量编码m_i;再进行消息BiLSTM:为了加入多轮对话的上下文信息,再次使用双向LSTM来编码消息向量。与词语BiLSTM模型类似,依次输入编码后的消息m_i,得到两个隐藏层向量并拼接为句子向量h_i;最后进行归一化(normalization)处理:将拼接得到的h_i进行归一化,得到带上下文信息的消息编码v_i。
步骤三、后处理。计算相似度:n个消息经过模型编码后得到n个消息向量v_i。由于要找到当前消息v_n的关联历史消息,所以依次将v_1到v_{n-1}与v_n输入MLP输入一维的分值,最终通过softmax分类器确定当前群聊消息的关联消息。
本说明书实施例,使用了带attention的BiLSTM模型将词语序列编码为句向量。除了该方法,还可以用门控循环单元(gated recurrent unit,GRU),或者卷积神经网络(convolutional neural networks,CNN),或者Transformer等模型达到类似效果。
本说明书实施例提供的方法与群聊场景深度结合,针对群聊中多会话并行的特点,没有在预处理阶段对会话进行拆分;与此同时加入了时间间隔信息进行编码,减轻了不拆分会话带来的负面影响。结合群聊中的"引用回复"操作,通过数据清洗可以得到大量训练数据,避免了人工打标数据的高成本和数据风险。在线上执行时,还能根据用户的点击交互反馈,收集更多训练数据优化模型,实现数据闭环。
根据另一方面的实施例,还提供一种分析多条群聊消息间关联关系的装置,该装置用于执行本说明书实施例提供的分析多条群聊消息间关联关系的方法。图4示出根据一个实施例的分析多条群聊消息间关联关系的装置的示意性框图。如图4所示,该装置400包括:
第一获取单元41,用于获取包括当前群聊消息在内的连续的预设数目条群聊消息;
分词单元42,用于至少对所述第一获取单元41获取的预设数目条群聊消息中的每条群聊消息进行分词处理,得到各条群聊消息对应的分词集合;
第二获取单元43,用于获取所述分词单元42得到的所述各条群聊消息对应的分词集合中各分词的词向量;
第一特征提取单元44,用于分别将所述各条群聊消息作为目标群聊消息,根据所述目标群聊消息中各分词的第一位置,将所述第二获取单元43获取的所述目标群聊消息中各分词的词向量输入预先训练的第一特征提取模型,通过所述第一特征提取模型的输出得到所述目标群聊消息对应的第一句子向量;
第二特征提取单元45,用于根据所述各条群聊消息分别在所述预设数目条群聊消息中的第二位置,将所述第一特征提取单元44得到的所述各条群聊消息对应的第一句子向量输入预先训练的第二特征提取模型,通过所述第二特征提取模型的输出得到所述各条群聊消息分别对应的第二句子向量;
确定单元46,用于根据所述第二特征提取单元45得到的所述各条群聊消息分别对应的第二句子向量,确定与所述当前群聊消息具有关联关系的关联群聊消息。
可选地,作为一个实施例,所述分词单元42,具体用于:
对所述预设数目条群聊消息中的每条群聊消息进行分词处理,得到每条群聊消息对应的各初始分词;
将所述各初始分词中包括的预设类型的初始分词替换为预设标记,得到各处理后分词,所述各处理后分词构成每条群聊消息对应的分词集合。
可选地,作为一个实施例,所述第一获取单元41,还用于在所述第一特征提取单元44通过所述第一特征提取模型的输出得到所述目标群聊消息对应的第一句子向量之前,获取所述目标群聊消息对应的发送人标识;
所述装置还包括:
生成单元,用于根据所述目标群聊消息与所述当前群聊消息的发送人是否相同,生成指示信息;
所述第一特征提取单元44,还用于将所述生成单元生成的指示信息输入所述第一特征提取模型。
进一步地,所述第一特征提取单元44,具体用于:
通过所述第一特征提取模型根据所述目标群聊消息中各分词的词向量以及各分词的第一位置,生成第一分向量;
根据所述目标群聊消息对应的指示信息,生成第二分向量;
对所述第一分向量和所述第二分向量进行连接,得到所述目标群聊消息对应的第一句子向量。
可选地,作为一个实施例,所述分词单元42,具体用于:
获取所述预设数目条群聊消息中的每条群聊消息分别对应的发送时间;
当根据所述发送时间确定各条群聊消息中存在相邻两条群聊消息之间的时间间隔大于预设阈值时,在所述相邻两条群聊消息之间添加一条间隔消息;
对所述预设数目条群聊消息中的每条群聊消息和所述间隔消息进行分词处理,得到各条群聊消息对应的分词集合。
可选地,作为一个实施例,所述第一特征提取模型包括双向长短期记忆LSTM层和注意力层;
所述第一特征提取单元44,具体用于:
通过所述双向LSTM层根据所述各分词的词向量,以及所述各分词的第一位置,按照正序生成所述各分词对应的第一词嵌入向量,按照逆序生成所述各分词对应的第二词嵌入向量,根据所述第一词嵌入向量和所述第二词嵌入向量,生成所述各分词对应的综合词嵌入向量;
通过所述注意力层通过对所述各分词对应的综合词嵌入向量加以不同的权重,得到所述目标群聊消息对应的第一句子向量。
可选地,作为一个实施例,所述第二特征提取模型包括双向长短期记忆LSTM层;
所述第二特征提取单元45,具体用于:
通过所述双向LSTM层根据所述各条群聊消息对应的第一句子向量,以及所述各条群聊消息的第二位置,按照正序生成所述各条群聊消息对应的第一句子嵌入向量,按照逆序生成所述各条群聊消息对应的第二句子嵌入向量,根据所述第一句子嵌入向量和所述第二句子嵌入向量,生成所述各条群聊消息分别对应的第二句子向量。
可选地,作为一个实施例,所述确定单元46,包括:
评分子单元,用于根据所述各条群聊消息分别对应的第二句子向量,确定各条群聊消息与所述当前群聊消息之间的相似度得分;
确定子单元,用于根据所述评分子单元确定的相似度得分,确定与所述当前群聊消息具有关联关系的关联群聊消息。
进一步地,所述评分子单元,具体用于将所述各条群聊消息分别对应的第二句子向量,与所述当前群聊消息对应的第二句子向量,输入预先训练的多层感知器MLP,通过所述MLP的输出得到所述各条群聊消息与所述当前群聊消息之间的相似度得分。
进一步地,所述评分子单元,具体用于根据所述各条群聊消息分别对应的第二句子向量,与所述当前群聊消息对应的第二句子向量,通过计算两个向量之间的余弦相似度或欧式距离,确定所述各条群聊消息与所述当前群聊消息之间的相似度得分。
通过本说明书实施例提供的装置,首先第一获取单元41获取包括当前群聊消息在内的连续的预设数目条群聊消息;然后分词单元42至少对所述预设数目条群聊消息中的每条群聊消息进行分词处理,得到各条群聊消息对应的分词集合;接着第二获取单元43获取所述各条群聊消息对应的分词集合中各分词的词向量;再由第一特征提取单元44分别将所述各条群聊消息作为目标群聊消息,根据所述目标群聊消息中各分词的第一位置,将所述目标群聊消息中各分词的词向量输入预先训练的第一特征提取模型,通过所述第一特征提取模型的输出得到所述目标群聊消息对应的第一句子向量;再然后由第二特征提取单元45根据所述各条群聊消息分别在所述预设数目条群聊消息中的第二位置,将所述各条群聊消息对应的第一句子向量输入预先训练的第二特征提取模型,通过所述第二特征提取模型的输出得到所述各条群聊消息分别对应的第二句子向量;最后由确定单元46根据所述各条群聊消息分别对应的第二句子向量,确定与所述当前群聊消息具有关联关系的关联群聊消息。由上可见,本说明书实施例,针对群聊中多会话并行的特点,只是预先设定了获取的群聊消息的数目,而没有先对会话进行拆分,并且通过两次特征提取,分别考虑了一条消息中各分词的上下文,以及多条消息中每条消息的上下文,从而生成每条消息对应的句子向量,根据该句子向量能够准确分析多条群聊消息间的关联关系。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2和图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2和图3所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。