CN109033156B - 一种信息处理方法、装置及终端 - Google Patents

一种信息处理方法、装置及终端 Download PDF

Info

Publication number
CN109033156B
CN109033156B CN201810606953.0A CN201810606953A CN109033156B CN 109033156 B CN109033156 B CN 109033156B CN 201810606953 A CN201810606953 A CN 201810606953A CN 109033156 B CN109033156 B CN 109033156B
Authority
CN
China
Prior art keywords
question
information
vocabulary
feature
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810606953.0A
Other languages
English (en)
Other versions
CN109033156A (zh
Inventor
唐琳
魏帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810606953.0A priority Critical patent/CN109033156B/zh
Publication of CN109033156A publication Critical patent/CN109033156A/zh
Application granted granted Critical
Publication of CN109033156B publication Critical patent/CN109033156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息处理方法、装置及终端,属于计算机技术领域,其中,信息处理方法包括:接收问题咨询信息;根据所述问题咨询信息生成第一句向量;确定所述第一句向量与知识库中每个问题条目所对应的第二句向量的相似度;根据所述相似度获取与所述问题咨询信息相对应的目标问题条目;所述知识库中每个问题条目所对应的第二句向量由构成所述每个问题条目的特征词汇所对应的特征词向量组成,所述特征词向量为依据所述特征词汇的词向量以及构成所述特征词汇的各字符的字符向量获得。本发明提高了目标问题匹配的准确性,用户能够更加快速且准确的获得想要的答案,提高了在线客户的服务效率。

Description

一种信息处理方法、装置及终端
技术领域
本发明涉及计算机技术领域,特别涉及一种信息处理方法、装置及终端。
背景技术
随着互联网技术的迅速发展,在线客服承载着大量的客户投诉、咨询等的受理业务,很多公司目前都有自己的在线客服团队,通过在线客服以实现对用户咨询问题的快速回答。
现有的在线客服系统在接收到用户的咨询问题时,会从咨询问题中分出关键词,然后基于分出的关键词的精确匹配,以查找出与该咨询问题相关的答案。例如,用户咨询“源站”,那么得到的结果里面肯定都是包含“源站”这个关键词的答案,而对于与“源站”有一定关联性的答案或是问题是无法获得的,导致用户无法快速精确的定位到自己想问的问题,更无法快速精确的获取到自己想要的答案,降低了在线客服的服务效率。
发明内容
为了解决现有技术的问题,本发明实施例提供了一信息处理方法、装置及终端。所述技术方案如下:
一方面,提供了一种信息处理方法,所述方法包括:
接收问题咨询信息;
根据所述问题咨询信息生成第一句向量;
确定所述第一句向量与知识库中每个问题条目所对应的第二句向量的相似度;
根据所述相似度获取与所述问题咨询信息相对应的目标问题条目;
所述知识库中每个问题条目所对应的第二句向量由构成所述每个问题条目的特征词汇所对应的特征词向量组成,所述特征词向量为依据所述特征词汇的词向量以及构成所述特征词汇的各字符的字符向量获得。
另一方面,提供了一种信息处理装置,所述装置包括:
接收模块,用于接收问题咨询信息;
生成模块,用于根据所述问题咨询信息生成第一句向量;
确定模块,用于确定所述第一句向量与知识库中每个问题条目所对应的第二句向量的相似度;
第一获取模块,用于根据所述相似度获取与所述问题咨询信息相对应的目标问题条目;
所述知识库中每个问题条目所对应的第二句向量由构成所述每个问题条目的特征词汇所对应的特征词向量组成,所述特征词向量为依据所述特征词汇的词向量以及构成所述特征词汇的各字符的字符向量获得。
另一方面,提供了一种终端,该终端包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行以下步骤:
接收问题咨询信息;
根据所述问题咨询信息生成第一句向量;
确定所述第一句向量与知识库中每个问题条目所对应的第二句向量的相似度;
根据所述相似度获取与所述问题咨询信息相对应的目标问题条目;
所述知识库中每个问题条目所对应的第二句向量由构成所述每个问题条目的特征词汇所对应的特征词向量组成,所述特征词向量为依据所述特征词汇的词向量以及构成所述特征词汇的各字符的字符向量获得。
本发明实施例提供的技术方案带来的有益效果是:
本发明通过与用户输入的问题咨询信息相对应的第一句向量以及知识库中问题条目的第二句向量的相似度,来获取目标问题条目,并且对于构成知识库中每条问题条目的第二句向量的特征词向量采用基于特征词汇的词向量以及构成特征词汇的各字符的字符向量获得,由于上述方式获得的特征词向量更能体现出特征词汇的语义,从而使得由特征词向量构成的第二句向量具有更加准确的语义,在基于相似度获取目标问题条目时,大大提高了目标问题匹配的准确性,用户能够更加快速且准确的获得想要的答案,提高了在线客户的服务效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的实施环境的示意图;
图2是本发明实施例提供的一种信息处理方法的流程示意图;
图3是本发明实施例提供的依据特征词汇的词向量以及构成特征词汇的各字符的字符向量获得特征词向量的一种方法流程示意图;
图4是本发明实施例提供的根据相似度获取与所述问题咨询信息相对应的目标问题条目的一种方法流程示意图;
图5是本发明实施例提供的基于所述候选目标问题条目的历史信息获取目标问题条目的一种方法流程示意图;
图6是本发明实施例提供的另一种信息处理方法的流程示意图;
图7是根据本发明实施例提供的信息处理方法进行在线客服咨询的显示界面图;
图8是本发明实施例提供的一种信息处理装置的结构示意图;
图9是本发明实施例提供的第一获取模块的一种结构示意图;
图10是本发明实施例提供的另一种信息处理装置的结构示意图;
图11是本发明实施例提供的候选模块的一种结构示意图;
图12是本发明实施例提供的目标模块的一种结构示意图;
图13是本发明实施例提供的另一种信息处理装置的结构示意图;
图14是本发明实施例提供的一种终端的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
请参考图1,其所示为本发明实施例提供的实施环境的示意图,该实施环境包括:终端100以及与该终端100连接的多个终端200。
终端100可以接收用户发送的问题咨询信息,以及向用户发送针对问题咨询信息的答复信息。终端100还可以接收客服人员输入的常见问题条目,该问题条目可以包括问题以及与问题相对应的答案。在本说明书实施例中,终端100可以是支持信息通信的各种电子设备,包括但不限于手机、平板电脑、笔记本电脑和台式电脑等等。
终端200可以响应于用户的输入,向终端100发送问题咨询信息以及接收终端100返回的答复信息。在本说明书实施例中,终端200可以是支持信息通信的各种电子设备,包括但不限于手机、平板电脑、笔记本电脑和台式电脑等等。
终端100可以通过网络与上述终端200连接,该网络可以是无线网络,也可以是有线网络。
此外,上述实施环境中还可以包括服务器300,该服务器300可以与终端100连接,以存储通过终端100收集的问题条目语料以及与问题条目语料相关的信息。具体的,该服务器300可以是数据库服务器也可以是云服务器。
以下介绍本发明的一种信息处理方法的具体实施例,图2是本发明实施例提供的一种信息处理方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法可以包括:
S202,接收问题咨询信息。
在本说明书实施例中,信息处理方法运行于其上的电子设备(如图1所示的终端100)可以通过有线或者无线的方式接收用户的问题咨询信息。用户可以通过在终端(如图1中的终端200)上编辑想要咨询的问题,然后点击预设的按钮(例如在线客服按钮)、菜单或触发快捷键以将编辑好的问题咨询信息发出。
S204,根据所述问题咨询信息生成第一句向量。
在本说明书实施例中,终端100在接收到问题咨询信息时,需要将问题咨询信息转换成向量的形式,以便于后续更加精确的查找。
具体的,终端100可以首先对问题咨询信息文本进行预处理以得到核心词汇,该预处理包括根据分词计算方法,将问题咨询信息文本拆分为词组;根据词性,删除副词,助词,标点符号等弱词性的词;将词组与预先设定的停用词库进行对比,删除停用词库包含的词。
在本说明书实施例中,针对问题咨询信息的分词计算方法可以是HMM、CRF、SVM、深度学习等基于统计的机器学习算法,比如基于CRF算法的stanford、Hanlp分词工具。当然,还可以是其他的分词计算方法,本发明对此不作限定。
在本说明书实施例中,在得到问题咨询信息的核心词汇之后,可以根据该核心词汇获得相对应的词向量,并进一步的基于词向量得到第一句向量。
在实际应用中,可以通过One-hot独热编码的方式将核心词汇转为One-hot向量表示,然后将所有的One-hot向量输入至word2vec模型中进行向量转换以得到与各个核心词汇对应的词向量。
在本说明书实施例中,在由各个核心词汇对应的词向量获得第一句向量时,可以分别获取每个核心词汇在问题咨询信息中的权重,通过把各个词汇的词向量加权平均获得第一句向量。
需要说明的是,上述只是给出了根据词向量获取第一句向量的其中一个示例,还可以根据实际需求采用其他的计算方式来获得与问题咨询信息相对应的第一句向量。
S206,确定所述第一句向量与知识库中每个问题条目所对应的第二句向量的相似度。
在本说明书实施例中,终端100可以关联一个知识库,该知识库可以存储在终端100本地,也可以存储在终点100可以访问到的服务器中。该知识库用于存储收集的常用问题条目,每个问题条目可以包括问题以及与问题对应的答案。
在实际应用中,终端100可以提供一个问题条目录入接口,工作人员可以通过该问题条目录入接口定期的录入收集的问题条目以丰富知识库。当然,还可以通过其他的方式来获取问题条目,例如,问题咨询日志或者从网络中爬取问题咨询数据。
在本说明书实施例中,问题条目在录入后,终端100或者与其关联的服务器可以对录入的问题条目进行处理,以生成与每个问题条目相对应的第二句向量。
需要说明的是,在本说明书实施例中,知识库中每个问题条目所对应的第二句向量由构成所述每个问题条目的特征词汇所对应的特征词向量组成,所述特征词向量为依据所述特征词汇的词向量以及构成所述特征词汇的各字符的字符向量获得。
具体的,如图3所示,依据所述特征词汇的词向量以及构成所述特征词汇的各字符的字符向量获得特征词向量可以包括:
S302,将获取的问题条目语料进行分词处理,得到特征词汇集。
在本说明书实施例中,可以按照预设的分词算法对获取的各个问题条目语料进行分词以得到特征词汇集。当然,在分词前,需要对各个问题条目语料进行预处理,以根据词性,删除副词,助词,标点符号等弱词性的词,以及按照预先设定的停用词库删除停用词库包含的词。
上述分词算法可以是HMM、CRF、SVM、深度学习等基于统计的机器学习算法,比如基于CRF算法的stanford、Hanlp分词工具。当然,还可以是其他的分词计算方法,本发明对次不作限定。
需要说明的是,分词后得到特征词汇集中只保证同一问题条目中的特征词汇按照原问题条目中的顺序排列,而不同问题条目之间的顺序采用随机的方式,以此对所有问题条目语料进行随机打乱,从而可以提高后续得到的特征词汇的词向量的语义表示。
S304,对所述特征词汇集中的每一个特征词汇进行切分,得到与所述特征词汇集相对应的字符集。
在本说明书实施例中,在获取到特征词汇集之后,还进一步的对特征词汇集中的特征词汇进行切分处理,以得到与各个特征词汇相对应的字符,并形成字符集。
S306,将所述特征词汇集与所述字符集输入至深度学习模型中进行训练,得到各特征词汇的词向量以及构成每个特征词汇的各字符的字符向量。
在本说明书实施例中,构建一深度学习模型,通过特征词汇集和字符集对该深度学习模型进行训练,并利用训练好的深度学习模型获得各特征词汇的词向量和构成特征词汇的各字符的字符向量。
具体的,该深度学习模型的优化目标设置为:
Figure BDA0001694563290000071
其中,chk表示词wj中的字符,|wj|表示词wj的字符数,归一化项1/|wj|用于使得不同字符数的词在训练中拥有同样的地位。
在实际应用中,该深度学习模型的结构包括输入层、隐藏层和输出层。其中,输入层对输入的每一个特征词汇使用One-hot向量表示,向量的长度可以根据特征词汇集中的总词汇数量设置,例如,特征词汇集中总词汇数量为10000,则可以将特征词汇的One-hot向量长度设置为10000。
此外,在本说明书实施例中,问题条目语料在录入知识库后,会给每一个问题条目分配一个标识号,输入层在将特征词汇使用One-hot向量表示时可以结合其标识号进行向量的转换,分配的标识号可以采用阿拉伯数字表示。例如,特征词汇为CDN,且该词汇CDN在知识库中的标识号为3,则特征词汇CDN使用One-hot向量表示时,该向量的第三个分量为1,其余为0,即可以表示为数组[0,0,0,1……0,0,0]。
在本说明书实施例中,输入层对输入的每一个字符转换成初始字符向量表示e(wi),并把构成特征词汇的字符连接成一个n维的向量x,其中,n是构成特征词汇的字符数量。
x=[e(w1);e(w2)……;e(wn)]
输入层的各个节点与隐藏层的|g|个节点之间两两连接,隐藏层的神经元个数可以等同于上述One-hot向量表示的词向量长度。例如,假设特征词汇集中总词汇数量为10000,目标是一个300维的向量,则隐藏层的参数是一个[10000,300]的矩阵,通过隐藏层的矩阵相乘,可以把输入层的一维向量映射成300维的向量。
此外,在本说明书实施例中,隐藏层选用tang函数作为激活函数:
g=tang(a+Gx)
其中G为输入层到隐藏层的权重,a为偏移向量。
输出层神经元个数设置为特征词汇集中总词汇数量,例如输出层的神经元个数为10000,输出层的参数矩阵为[300,10000],经过隐藏层处理后的300维的向量经过输出层处理后变为10000维的向量,此处输出层采用softmax回归分类器进行归一化处理。
S308,基于所述特征词汇的词向量以及构成所述特征词汇的各字符的字符向量计算特征词向量。
在本说明书实施例中,特征词向量并不简单的是特征词汇本身的词向量,而是由特征词汇自身的词向量以及构成该特征词汇的各字符的字符向量计算得到。
在实际应用中,可以通过计算特征词汇的词向量以及构成特征词汇的各字符的字符向量的平均值,以此平均值所对应的向量作为特征词向量。
需要说明的是,上述只是基于特征词汇的词向量以及构成特征词汇的各字符的字符向量获取特征词向量的一个示例,还可以利用其它的计算方式来基于特征词汇的词向量以及构成特征词汇的各字符的字符向量获取特征词向量。
在本说明书实施例中,由于在获取特征词向量时,同时考虑了特征词汇的词向量以及构成特征词汇的各字符的字符向量,因此,特征词向量更能体现出特征词汇的语义。
在本说明书实施例中,获取到上述特征词向量之后,可以根据构成每个问题条目的特征词汇所对应的特征词向量来得到与每个问题条目相对应的第二句向量。
具体的,可以计算构成问题条目的特征词汇的权重,依据权重值和特征词向量的乘积并加权取平均以生成相应的第二句向量。
在实际应用中,构成问题条目的特征词汇的权重可以基于问题条目的历史问答信息获得。具体的,问题条目的历史问答信息可以通过问答日志获取,考虑到包含同一特征词汇的问题条目在不同领域中的重要程度可能不同,因此,在获取到包含某一特征词汇的历史问答信息时,先对历史问答信息进行分类,计算特征词汇在各个类别中的权重,最后结合预先设置的类别的权重以及计算的特征词汇在该类别中的权重来获取特征词汇的权重。
需要说明的是,知识库中包含的可以是已经生成好的每个问题条目所对应的第二句向量,也可以是与每个问题条目相对应的特征词向量。当知识库中包含的是与每个问题条目相对应的特征词向量时,可以在需要计算第一句向量与第二句向量的相似度时,基于知识库中的特征词向量实时的生成第二句向量。
在本说明书实施例中,第一句向量与第二句向量的相似度可以为余弦相似度,即利用第一句向量和第二句向量间的夹角余弦值来度量二者的相似度。例如,第一句向量表示为A(x11,x12,……x1n),第二句向量表示为B(x21,x22,……,x2n),则第一句向量A和第二句向量B间的夹角余弦值表示为:
Figure BDA0001694563290000101
其中,夹角余弦值范围为[0,1]。
需要说明的是,上述基于第一句向量和第二句向量的夹角余弦值来度量二者的相似度,只是一种示例,还可以采用其他的方式获取第一句向量和第二句向量的相似度,例如切比雪夫距离、欧式距离等,本发明对此不作具体限定。
S208,根据所述相似度获取与所述问题咨询信息相对应的目标问题条目。
在本说明书实施例中,在依次计算出第一句向量与知识库中每条问题条目所对应的第二句向量的相似度后,可以根据相似度值对知识库中的问题条目进行排序,例如,当相似度为余弦相似度时,可以按照夹角余弦值由大到小对知识库中的问题条目进行排序,由于余弦值越接近1,则表示第一句向量与第二句向量的相似度越高,因此,此时可以选取排序在前的N个问题条目作为与问题咨询信息相匹配的目标问题条目,例如,选取排序在前的10个问题条目作为目标问题条目。
为了进一步提高获取到的目标问题条目的准确性,如图4所示,所述根据相似度获取与所述问题咨询信息相对应的目标问题条目可以包括:
S402,根据所述相似度获取与所述问题咨询信息相对应的候选目标问题条目。
具体的,可以根据相似度对知识库中的问题条目进行排序,例如,当相似度为余弦相似度时,可以按照夹角余弦值由大到小对知识库中的问题条目进行排序,由于余弦值越接近1,则表示第一句向量与第二句向量的相似度越高,因此,此时可以选取排序在前的第一数量个问题条目作为候选目标问题条目,例如,选取排序在前的20个问题条目作为候选目标问题条目。
S404,基于所述候选目标问题条目的历史信息获取目标问题条目。
在本说明书实施例中,对于候选目标问题条目作进一步的筛选,以提高最终结果的准确性,具体的,在获取到候选目标问题条目时,基于各个候选目标问题条目的历史信息获取目标问题条目。
如图5所示,基于所述候选目标问题条目的历史信息获取目标问题条目可以包括:
S4042,获取所述候选目标问题条目的综合评分。
具体的,在用户进行问题咨询并获得返回答复后,可以允许用户对该次问题咨询返回的问题以及相应的答案进行评分,例如,可以选择1-10之间的阿拉伯数字,还可以选择赞同以及不赞同,并以日志的形式记录每次的评分结果。
在本说明书是实施例中,可以从问题咨询日志中获取到候选目标问题条目在历史问题咨询过程中的各次评分结果,并依据每个候选目标问题的所有评分结果计算与其对应的综合评分。例如,当各次的评分是以阿拉伯数字表示时,该综合评分可以是所有评分的平均值,也可以是总和;当各次的评分是以赞同或是不赞同的形式表示时,该综合评分可以是赞同总次数在评分总次数中的比值。
S4044,基于所述综合评分对所述候选目标问题条目进行排序。
在获取到综合评分之后,可以依据综合评分对候选目标问题条目进行排序,例如,可以是按照综合评分由高到低进行排序。
S4046,获取排序在前的第二数量个候选目标问题条目作为目标问题条目。
在本说明书是实施例中,可以根据排序后的结果,选取排序在前的第二数量个候选目标问题条目作为目标问题条目,例如,可以选取排序在前的5个候选目标问题条目作为目标问题条目。
由以上本说明书实施例提供的技术方案可见,本说明书实施例中通过与用户输入的问题咨询信息相对应的第一句向量以及知识库中问题条目的第二句向量的相似度,来获取目标问题条目,并且对于构成知识库中每条问题条目的第二句向量的特征词向量采用基于特征词汇的词向量以及构成特征词汇的各字符的字符向量获得,由于上述方式获得的特征词向量更能体现出特征词汇的语义,从而使得由特征词向量构成的第二句向量具有更加准确的语义,在基于相似度获取目标问题条目时,不仅保留了基于关键词匹配的准确度,同时还可以根据更加准确的语义表示找出更为相关或者相似的问题,大大提高了目标问题匹配的准确性,用户能够更加快速且准确的获得想要的答案,提高了在线客户的服务效率。
请参阅图6,其所示为本发明实施例提供的另一种信息处理方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或终端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图6所示,所述方法包括:
S602,接收问题咨询信息。
S604,根据所述问题咨询信息生成第一句向量。
S606,确定所述第一句向量与知识库中每个问题条目所对应的第二句向量的相似度。
S608,根据所述相似度获取与所述问题咨询信息相对应的目标问题条目。
其中,上述步骤S602至S608可以参见图2所示的方法步骤,在此不再赘述。
S610,从所述目标问题条目中获取第一问题条目,并将所述第一问题条目所包含的问题及答案同时返回给用户。
在本说明书实施例中,目标问题条目包括问题以及与所述问题相对应的答案。终端100在获取到目标问题条目后,可以从目标问题条目中选取一个问题条目作为第一问题条目,并将该第一问题条目所包含的问题和答案同时返回给用户,以使得用户终端能够显示该第一问题条目所包含的问题和答案,用户能够查看到根据问题咨询信息返回的结果。
需要说明的是,第一问题条目可以随机的从目标问题条目中选取,也可以选取排序在第一位置的目标问题条目。
此外,第一问题条目所述包含的问题和答案可以同步显示在本地终端(图图1中的终端100)的显示界面上。
S612,获取所述目标问题条目中剩余各问题条目所对应的问题,并将所述问题返回给用户。
在本说明书实施例中,还可以将除去第一问题条目的剩下的目标问题条目所包含的问题均返回给用户,以使得用户在查看到第一问题条目所述包含的问题和答案时,还能看到本次问题咨询所匹配到的其他的目标问题条目所包含的问题。如此,当用户对于第一问题条目不满意时,可以通过点击显示的剩余的目标问题条目中的问题来获取相对应的答案,从而大大提高了在线客服服务的效率,并提升了用户的体验效果,使得用户能够更快速的获取想要的答案。
请参阅图7,其所示是根据本发明实施例提供的信息处理方法进行在线客服咨询的显示界面图。如图7所示,该显示界面可以是WEB界面,在进行问题咨询时,该WEB界面可以同步显示在终端100以及终端200上。
由以上本说明书实施例提供的技术方案可见,本说明书实施例中通过与用户输入的问题咨询信息相对应的第一句向量以及知识库中问题条目的第二句向量的相似度,来获取目标问题条目,并且对于构成知识库中每条问题条目的第二句向量的特征词向量采用基于特征词汇的词向量以及构成特征词汇的各字符的字符向量获得,由于上述方式获得的特征词向量更能体现出特征词汇的语义,从而使得由特征词向量构成的第二句向量具有更加准确的语义,在基于相似度获取目标问题条目时,不仅保留了基于关键词匹配的准确度,同时还可以根据更加准确的语义表示找出更为相关或者相似的问题,大大提高了目标问题匹配的准确性,用户能够更加快速且准确的获得想要的答案,提高了在线客户的服务效率。
与上述几种实施例提供的信息处理方法相对应,本发明实施例还提供一种信息处理装置,由于本发明实施例提供的信息处理装置与上述几种实施例提供的信息处理方法相对应,因此前述信息处理方法的实施方式也适用于本实施例提供的信息处理装置,在本实施例中不再详细描述。
请参阅图8,其所示为本发明实施例提供的一种信息处理装置的结构示意图,如图8所示,该装置可以包括:接收模块810,生成模块820,确定模块830和第一获取模块840。
接收模块810,用于接收问题咨询信息。
生成模块820,用于根据所述问题咨询信息生成第一句向量。
确定模块830,用于确定所述第一句向量与知识库中每个问题条目所对应的第二句向量的相似度。
第一获取模块840,用于根据所述相似度获取与所述问题咨询信息相对应的目标问题条目。
所述知识库中每个问题条目所对应的第二句向量由构成所述每个问题条目的特征词汇所对应的特征词向量组成,所述特征词向量为依据所述特征词汇的词向量以及构成所述特征词汇的各字符的字符向量获得。
可选的,如图9所示,第一获取模块840可以包括:
候选模块8410,用于根据所述相似度获取与所述问题咨询信息相对应的候选目标问题条目。
目标模块8420,用于基于所述候选目标问题条目的历史信息获取目标问题条目。
可选的,如图10所示,该装置还可以包括:第二获取模块850,切分模块860,输入模块870和计算模块880。
第二获取模块850,用于将获取的问题条目语料进行分词处理,得到特征词汇集;
切分模块860,用于对所述特征词汇集中的每一个特征词汇进行切分,得到与所述特征词汇集相对应的字符集;
输入模块870,用于将所述特征词汇集与所述字符集输入至深度学习模型中进行训练,得到各特征词汇的词向量以及构成每个特征词汇的各字符的字符向量;
计算模块880,用于基于所述特征词汇的词向量以及构成所述特征词汇的各字符的字符向量计算特征词向量。
在一个示例中,所述计算模块具体用于计算所述特征词汇的词向量以及构成所述特征词汇的各字符的字符向量的平均值,将所述平均值所对应的向量作为所述特征词汇的特征词向量。
可选的,如图11所示,候选模块8410可以包括:
第一排序模块8411,用于根据所述相似度对所述知识库中的问题条目进行排序。
第三获取模块8412,用于获取排序在前的第一数量个问题条目作为候选目标问题条目。
可选的,如图12所示,目标模块8420可以包括:
第四获取模块8421,用于获取所述候选目标问题条目的综合评分。
第二排序模块8422,用于基于所述综合评分对所述候选目标问题条目进行排序。
第五获取模块8423,用于获取排序在前的第二数量个候选目标问题条目作为目标问题条目。
在另一实例中,如图13所示,该装置还可以包括:
第一返回模块890,用于从所述目标问题条目中获取第一问题条目,并将所述第一问题条目所包含的问题及答案同时返回给用户;
第二返回模块8110,用于获取所述目标问题条目中剩余各问题条目所对应的问题,并将所述问题返回给用户。
综上,本发明实施例提供的信息处理装置通过与用户输入的问题咨询信息相对应的第一句向量以及知识库中问题条目的第二句向量的相似度,来获取目标问题条目,并且对于构成知识库中每条问题条目的第二句向量的特征词向量采用基于特征词汇的词向量以及构成特征词汇的各字符的字符向量获得,由于上述方式获得的特征词向量更能体现出特征词汇的语义,从而使得由特征词向量构成的第二句向量具有更加准确的语义,在基于相似度获取目标问题条目时,不仅保留了基于关键词匹配的准确度,同时还可以根据更加准确的语义表示找出更为相关或者相似的问题,大大提高了目标问题匹配的准确性,用户能够更加快速且准确的获得想要的答案,提高了在线客户的服务效率。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
请参阅图14,其所示为本发明实施例提供的一种终端的结构示意图,该终端用于实施上述实施例中提供的信息处理方法。具体来讲:
终端1400可以包括RF(Radio Frequency,射频)电路1410、包括有一个或一个以上计算机可读存储介质的存储器1420、输入单元1430、显示单元1440、视频传感器1450、音频电路1460、WiFi(wireless fidelity,无线保真)模块1470、包括有一个或者一个以上处理核心的处理器1480、以及电源140等部件。本领域技术人员可以理解,图14中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。其中:
RF电路1410可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,交由一个或者一个以上处理器1480处理;另外,将涉及上行的数据发送给基站。通常,RF电路1410包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier,低噪声放大器)、双工器等。此外,RF电路1410还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议,包括但不限于GSM(Global System of Mobile communication,全球移动通讯系统)、GPRS(General Packet Radio Service,通用分组无线服务)、CDMA(Code Division Multiple Access,码分多址)、WCDMA(Wideband Code DivisionMultiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service,短消息服务)等。
存储器1420可用于存储软件程序以及模块,处理器1480通过运行存储在存储器1420的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端1400的使用所创建的数据(比如视频数据、电话本等)等。此外,存储器1420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器1420还可以包括存储器控制器,以提供处理器1480和输入单元1430对存储器1420的访问。
输入单元1430可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地,输入单元1430可包括图像输入设备1431以及其他输入设备1432。图像输入设备1431可以是摄像头,也可以是光电扫描设备。除了图像输入设备1431,输入单元1430还可以包括其他输入设备1432。具体地,其他输入设备1432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及终端1400的各种图形用户接口,这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1440可包括显示面板1441,可选的,可以采用LCD(Liquid Crystal Display,液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1441。
终端1400可包括至少一种视频传感器1450,视频传感器用于获取用户的视频信息。终端1400还可以包括其它传感器(未示出),比如光传感器、运动传感器以及其他传感器。具体地,光传感器可包括环境光传感器及接近传感器,其中,环境光传感器可根据环境光线的明暗来调节显示面板1441的亮度,接近传感器可在终端1400移动到耳边时,关闭显示面板1441和/或背光。作为运动传感器的一种,重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小,静止时可检测出重力的大小及方向,可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等;至于终端1400还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
视频电路1460、扬声器1461,传声器1462可提供用户与终端1400之间的视频接口。音频电路1460可将接收到的音频数据转换后的电信号,传输到扬声器1461,由扬声器1461转换为声音信号输出;另一方面,传声器1462将收集的声音信号转换为电信号,由音频电路1460接收后转换为音频数据,再将音频数据输出处理器1480处理后,经RF电路1411以发送给比如另一终端,或者将音频数据输出至存储器1420以便进一步处理。音频电路1460还可能包括耳塞插孔,以提供外设耳机与终端1400的通信。
WiFi属于短距离无线传输技术,终端1400通过WiFi模块1470可以帮助用户收发电子邮件、浏览网页和访问流式媒体等,它为用户提供了无线的宽带互联网访问。虽然图14示出了WiFi模块1470,但是可以理解的是,其并不属于终端1400的必须构成,完全可以根据需要在不改变发明的本质的范围内而省略。
处理器1480是终端1400的控制中心,利用各种接口和线路连接整个手机的各个部分,通过运行或执行存储在存储器1420内的软件程序和/或模块,以及调用存储在存储器1420内的数据,执行终端1400的各种功能和处理数据,从而对手机进行整体监控。可选的,处理器1480可包括一个或多个处理核心;优选的,处理器1480可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1480中。
终端1400还包括给各个部件供电的电源140(比如电池),优选的,电源可以通过电源管理系统与处理器1480逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源140还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
尽管未示出,终端1400还可以包括蓝牙模块等,在此不再赘述。
具体在本实施例中,终端1400还包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行。上述一个或者一个以上程序包含用于执行上述方法实施例提供的信息处理方法的指令。
本发明的实施例还提供了一种计算机存储介质,所述存储介质可设置于终端之中以保存用于实现方法实施例中一种信息处理方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的信息处理方法。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种信息处理方法,其特征在于,所述方法包括:
对知识库中的每个问题条目进行分词处理,得到特征词汇集;
对所述特征词汇集中的每一个特征词汇进行切分,得到与所述特征词汇集相对应的字符集;
将所述特征词汇集与所述字符集输入至深度学习模型中进行训练,得到各特征词汇的词向量以及构成每个特征词汇的各字符的字符向量;
计算所述特征词汇的词向量以及构成所述特征词汇的各字符的字符向量的平均值,将所述平均值所对应的向量作为所述特征词汇的特征词向量;
根据所述知识库中每个问题条目的历史问答信息,确定对应每一特征词汇的历史问答信息集,对所述历史问答信息集中的历史问答信息进行分类,计算所述历史问答信息集对应的特征词汇在各个类别中的权重,根据预先设置的类别的权重以及所述特征词汇在各个类别中的权重,确定所述特征词汇的权重;
根据构成每个问题条目的特征词汇的特征词向量以及所述特征词汇的权重,生成所述知识库中每个问题条目所对应的第二句向量;
在接收到问题咨询信息时,根据所述问题咨询信息中核心词汇对应的词向量生成第一句向量;
确定所述第一句向量与知识库中每个问题条目所对应的第二句向量的相似度;
根据所述相似度获取与所述问题咨询信息相对应的目标问题条目。
2.根据权利要求1所述的信息处理方法,其特征在于,所述根据所述相似度获取与所述问题咨询信息相对应的目标问题条目包括:
根据所述相似度获取与所述问题咨询信息相对应的候选目标问题条目;
基于所述候选目标问题条目的历史信息获取目标问题条目。
3.根据权利要求2所述的信息处理方法,其特征在于,所述根据所述相似度获取与所述问题咨询信息相对应的候选目标问题条目包括:
根据所述相似度对所述知识库中的问题条目进行排序;
获取排序在前的第一数量个问题条目作为候选目标问题条目。
4.根据权利要求2所述的信息处理方法,其特征在于,所述基于所述候选目标问题条目的历史信息获取目标问题条目包括:
获取所述候选目标问题条目的综合评分;
基于所述综合评分对所述候选目标问题条目进行排序;
获取排序在前的第二数量个候选目标问题条目作为目标问题条目。
5.根据权利要求1所述的信息处理方法,其特征在于,所述问题条目包括问题以及与所述问题相对应的答案;
在根据所述相似度获取与所述问题咨询信息相对应的目标问题条目之后,所述方法还包括:
从所述目标问题条目中获取第一问题条目,并将所述第一问题条目所包含的问题及答案同时返回给用户;
获取所述目标问题条目中剩余各问题条目所对应的问题,并将所述问题返回给用户。
6.一种信息处理装置,其特征在于,所述装置包括:
第二获取模块,用于将获取的问题条目语料进行分词处理,得到特征词汇集;
切分模块,用于对所述特征词汇集中的每一个特征词汇进行切分,得到与所述特征词汇集相对应的字符集;
输入模块,用于将所述特征词汇集与所述字符集输入至深度学习模型中进行训练,得到各特征词汇的词向量以及构成每个特征词汇的各字符的字符向量;
计算模块,用于计算所述特征词汇的词向量以及构成所述特征词汇的各字符的字符向量的平均值,将所述平均值所对应的向量作为所述特征词汇的特征词向量;
第二句向量生成模块,用于根据知识库中每个问题条目的历史问答信息,确定对应每一特征词汇的历史问答信息集,对所述历史问答信息集中的历史问答信息进行分类,计算所述历史问答信息集对应的特征词汇在各个类别中的权重,根据预先设置的类别的权重以及所述特征词汇在各个类别中的权重,确定所述特征词汇的权重;根据构成每个问题条目的特征词汇的特征词向量以及所述特征词汇的权重,生成所述知识库中每个问题条目所对应的第二句向量;
生成模块,用于在接收到问题咨询信息时,根据所述问题咨询信息中核心词汇对应的词向量生成第一句向量;
确定模块,用于确定所述第一句向量与知识库中每个问题条目所对应的第二句向量的相似度;
第一获取模块,用于根据所述相似度获取与所述问题咨询信息相对应的目标问题条目。
7.根据权利要求6所述的信息处理装置,其特征在于,所述第一获取模块包括:
候选模块,用于根据所述相似度获取与所述问题咨询信息相对应的候选目标问题条目;
目标模块,用于基于所述候选目标问题条目的历史信息获取目标问题条目。
8.根据权利要求7所述的信息处理装置,其特征在于,所述候选模块包括:
第一排序模块,用于根据所述相似度对所述知识库中的问题条目进行排序;
第三获取模块,用于获取排序在前的第一数量个问题条目作为候选目标问题条目。
9.根据权利要求7所述的信息处理装置,其特征在于,所述目标模块包括:
第四获取模块,用于获取所述候选目标问题条目的综合评分;
第二排序模块,用于基于所述综合评分对所述候选目标问题条目进行排序;
第五获取模块,用于获取排序在前的第二数量个候选目标问题条目作为目标问题条目。
10.根据权利要求6所述的信息处理装置,其特征在于,所述问题条目包括问题以及与所述问题相对应的答案;
所述装置还包括:
第一返回模块,用于从所述目标问题条目中获取第一问题条目,并将所述第一问题条目所包含的问题及答案同时返回给用户;
第二返回模块,用于获取所述目标问题条目中剩余各问题条目所对应的问题,并将所述问题返回给用户。
11.一种终端,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行权利要求1~5中任一项所述的信息处理方法。
12.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一条指令或者至少一段程序,所述至少一条指令或者所述至少一段程序由处理器加载并执行以实现如权利要求1~5任一项所述的信息处理方法。
CN201810606953.0A 2018-06-13 2018-06-13 一种信息处理方法、装置及终端 Active CN109033156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810606953.0A CN109033156B (zh) 2018-06-13 2018-06-13 一种信息处理方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810606953.0A CN109033156B (zh) 2018-06-13 2018-06-13 一种信息处理方法、装置及终端

Publications (2)

Publication Number Publication Date
CN109033156A CN109033156A (zh) 2018-12-18
CN109033156B true CN109033156B (zh) 2021-06-15

Family

ID=64609232

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810606953.0A Active CN109033156B (zh) 2018-06-13 2018-06-13 一种信息处理方法、装置及终端

Country Status (1)

Country Link
CN (1) CN109033156B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110046231B (zh) * 2018-12-21 2023-08-04 创新先进技术有限公司 一种客服信息处理方法、服务器和系统
CN111382246B (zh) * 2018-12-29 2023-03-14 深圳市优必选科技有限公司 文本的匹配方法、匹配装置、终端及计算机可读存储介质
CN109829478B (zh) * 2018-12-29 2024-05-07 平安科技(深圳)有限公司 一种基于变分自编码器的问题分类方法和装置
CN109885651B (zh) * 2019-01-16 2024-06-04 平安科技(深圳)有限公司 一种问题推送方法和装置
CN109918498B (zh) * 2019-01-16 2023-08-11 平安科技(深圳)有限公司 一种问题入库方法和装置
CN111767374A (zh) * 2019-03-29 2020-10-13 北京搜狗科技发展有限公司 一种数据处理方法、装置和机器可读介质
CN112818012A (zh) * 2021-01-26 2021-05-18 深圳力维智联技术有限公司 设备数据匹配方法、装置、设备及存储介质
CN113449091A (zh) * 2021-06-29 2021-09-28 重庆长安汽车股份有限公司 一种基于汽车领域标签的智能问答方法、装置、终端及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810218A (zh) * 2012-11-14 2014-05-21 北京百度网讯科技有限公司 一种基于问题簇的自动问答方法和装置
CN105653671A (zh) * 2015-12-29 2016-06-08 畅捷通信息技术股份有限公司 相似信息推荐方法及系统
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7533081B2 (en) * 2004-02-06 2009-05-12 General Electric Company Systems, methods and apparatus to determine relevance of search results in whole/part search
JP2014119824A (ja) * 2012-12-13 2014-06-30 Toshiba Corp 推奨情報提供装置および推奨情報提供方法
KR20180055189A (ko) * 2016-11-16 2018-05-25 삼성전자주식회사 자연어 처리 방법 및 장치와 자연어 처리 모델을 학습하는 방법 및 장치
CN107679234B (zh) * 2017-10-24 2020-02-11 上海携程国际旅行社有限公司 客服信息提供方法、装置、电子设备、存储介质
CN108345672A (zh) * 2018-02-09 2018-07-31 平安科技(深圳)有限公司 智能应答方法、电子装置及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103810218A (zh) * 2012-11-14 2014-05-21 北京百度网讯科技有限公司 一种基于问题簇的自动问答方法和装置
CN105653671A (zh) * 2015-12-29 2016-06-08 畅捷通信息技术股份有限公司 相似信息推荐方法及系统
CN107748757A (zh) * 2017-09-21 2018-03-02 北京航空航天大学 一种基于知识图谱的问答方法

Also Published As

Publication number Publication date
CN109033156A (zh) 2018-12-18

Similar Documents

Publication Publication Date Title
CN109033156B (zh) 一种信息处理方法、装置及终端
CN109241431B (zh) 一种资源推荐方法和装置
CN107301213A (zh) 智能问答方法及装置
CN110795542B (zh) 对话方法及相关装置、设备
CN111177371B (zh) 一种分类方法和相关装置
CN111931501B (zh) 一种基于人工智能的文本挖掘方法、相关装置及设备
CN110334344A (zh) 一种语义意图识别方法、装置、设备及存储介质
CN108280458A (zh) 群体关系类型识别方法及装置
CN110717026B (zh) 一种文本信息识别的方法、人机对话的方法及相关装置
CN111125523B (zh) 搜索方法、装置、终端设备及存储介质
CN110162600B (zh) 一种信息处理的方法、会话响应的方法及装置
CN111597804B (zh) 一种实体识别模型训练的方法以及相关装置
CN108427761B (zh) 一种新闻事件处理的方法、终端、服务器及存储介质
CN113868427A (zh) 一种数据处理方法、装置及电子设备
KR20190075277A (ko) 콘텐트 검색을 위한 방법 및 그 전자 장치
CN110276010A (zh) 一种权重模型训练方法和相关装置
CN113569572A (zh) 文本实体生成方法、模型训练方法及装置
CN110597957B (zh) 一种文本信息检索的方法及相关装置
CN116070114A (zh) 数据集的构建方法、装置、电子设备及存储介质
CN111738000A (zh) 一种短语推荐的方法以及相关装置
CN112862021B (zh) 一种内容标注方法和相关装置
CN113822038A (zh) 一种摘要生成方法和相关装置
CN113411246B (zh) 一种回复处理方法、装置和用于回复处理的装置
CN110866114B (zh) 对象行为的识别方法、装置及终端设备
CN116975295A (zh) 一种文本分类方法、装置及相关产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant