答案的分层方法及其装置、电子设备、计算机可读介质
技术领域
本申请涉及互联网领域,尤其涉及一种答案的分层方法及其装置、电子设备、计算机可读介质。
背景技术
通过问题和对该问题的回答是人们获取现实世界信息的一种有效方式。与此同时,随着互联网技术的发展及互联网应用的快速发展,人们越来越多地依赖于互联网网络获取信息。目前通过搜索平台搜索相关的信息来实现该通过问答方式获取信息,尤其在问答社区内搜索问题、提出问题、回答问题、浏览问题或追加问题等,这已成为用户间进行互动信息交流的重要方式。其中,常见的智能问答社区有百度知道、搜搜问问、新浪爱问等。
如何满足用户需求并展现给用户,是智能问答社区的核心问题之一。
通常,智能问答社区内各问题下回答内容的展示顺序主要基于某一个评价维度,比如常见的有如下两种方式:
1)仅按照回答问题的时间进行排序,即排名靠前展示的回答在时间上更靠近当前搜索的时间;
2)按照回答获得的好评数进行排序,即同一问题下的回答获得用户的赞同数越多,其越靠前展示在问答社区。
但是,这两种方式各有其不足,对于第一种方式而言,由于靠前展示的回答不一定是最匹配该问题的回答,因此,用户通常需要花费较长时间寻找所需要的回答,并且,这种方式随着回答个数的递增,其不足越明显;对于第二种方式而言,基于赞同数对回答进行排序,这很容易遭到spam(电子垃圾)用户的攻击,使得那些对spam用户直接有益的广告内广告内容顶到靠前的展示位置,从而造成对浏览该回答的用户的误导。
综上,现有技术的解决方案并未将真正优质的答案展现给用户。
发明内容
本申请的目的在于提出一种答案的分层方法及其装置、电子设备、计算机可读介质,用于解决现有技术中上述技术问题。
第一方面,本申请实施例提供一种答案的分层方法,其包括:
获取知识库中的多个延展答案;
根据设定的质量评价模型,计算多个延展答案的质量指数;
根据所述质量指数,对所述多个延展答案进行显示优先级分层处理。
可选地,在本申请的一实施例中,所述答案的分层方法还包括:获取针对在线问题提供的在线答案,对应地,判断知识库中是否存在与所述在线答案相似的多个延展答案,若存在,则获取所述多个延展答案。
可选地,在本申请的一实施例中,根据设定的质量评价模型,计算多个延展答案的质量指数,包括:根据针对所述延展答案的用户行为数据以及基于用户行为的质量评价模型,计算多个延展答案的质量指数。
可选地,在本申请的一实施例中,所述用户行为数据包括点赞数据、点踩数据、竞争优势数据、评分数据中的至少一种。
可选地,在本申请的一实施例中,所述答案的分层方法还包括:获取经过延展出得到所述多个延展答案的基础答案;对应地,根据设定的质量评价模型,计算多个延展答案的质量指数,包括:根据关联与所述基础答案的对象级别、对象活跃度,计算多个延展答案的质量指数。
可选地,在本申请的一实施例中,所述对象级别包括:权威性评级、社区用户等级中的至少一种;所述对象活跃度包括参与在线问答时长、参与在线问答次数中的至少一种。
可选地,在本申请的一实施例中,根据所述质量指数对所述多个延展答案进行显示优先级分层处理,包括:按照质量指数的大小,对多个延展答案进行排序生成延展答案队列。
可选地,在本申请的一实施例中,根据所述质量指数对所述多个延展答案进行显示优先级分层处理,包括:对所述延展答案进行解析生成语义分析结果,根据语义分析结果以及所述质量指数对所述多个延展答案进行显示优先级分层处理。
可选地,在本申请的一实施例中,根据所述质量指数对所述多个延展答案进行显示优先级分层处理,还包括:根据所述质量指数的高低,将多个延展答案配置在答案外露层或者答案收起层,以使得配置在所述答案外露层的延展答案优先于配置在所述答案收起层的延展进行展示。
第二方面,本申请实施例提供一种答案的分层装置,其包括:
获取单元,用于获取知识库中的多个延展答案;
计算单元,用于根据设定的质量评价模型,计算多个延展答案的质量指数;
分层单元,用于根据所述质量指数,对所述多个延展答案进行显示优先级分层处理。
第三方面,本申请实施例提供一种电子设备,包括:
一个或多个处理器;
计算机可读介质,配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如任一实施例中所述的方法。
第四方面,本申请实施例提供一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如任一实施例中所述的方法。
本申请提供的答案的分层方法及其装置、电子设备、计算机可读介质中,通过获取知识库中的多个延展答案;根据设定的质量评价模型,计算多个延展答案的质量指数;根据所述质量指数,对所述多个延展答案进行显示优先级分层处理,实现了在线向用户提供答案时,可以提供多维度的答案以进行优质展示。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1本申请实施例一答案延展方法流程示意图;
图2本申请实施例二答案的分层方法流程示意图;
图3为本申请实施例三中答案的分层装置结构示意图;
图4为本申请实施例四中答案的分层装置结构示意图;
图5为本申请实施例五中电子设备的结构示意图;
图6为本申请实施例六中电子设备的硬件结构。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅配置为解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1本申请实施例一答案延展方法流程示意图;如图1所示,其包括:
S101、确定样本问题及其对应的基础答案;
本实施例中,知识库的构架可以离线完成。在离线构建时,由于构建的知识库的数据既包括样本问题及样本问题的答案两个实体,与此同时,为了在线使用时,给用户提供满足要求的答复,还需要包括样本问题与答案的关联关系。进一步地,在具体应用场景中,知识库中包括问答数据对,一个问答数据对包括一个问题与其多个答案,且该问题与这些答案的关联关系。
本实施例中,样本问题和基础答案可以通过智能问答社区的后台服务器实时收集,并存储在后台服务器上,或者其他数据服务器上。进一步地,还可以基于知识库中已有的样本问题和基础答案生成的样本问题和基础答案,或者又称为通过知识库的推理得到推理样本问题以及推理基础答案,具体地,可以通过RDFS和OWL规则集的推理引擎进行上述推理。换言之,样本问题包括收集的样本问题,又包括基于收集的样本问题进行推理得到的推理样本问题,对应地,基础答案包括收集的基础答案,又包括基于收集的基础答案推理得到的推理基础答案。
本实施例中,基础答案是可以满足绝大部分用户的问答需求的全面性的、概括性的回答。
S102、根据设定的答案扩展规则,对所述基础答案进行扩展确定多个延展答案;
本实施例中,答案的扩展规则定义了基础答案的扩展角度,即从不同的角度对基础答案进行扩展。
进一步地,在本实施例中,步骤S102中具体可以包括根据设定的答案扩展规则,从多个不同的扩展角度对所述基础答案进行扩展生成多个延展答案。每个延展答案包括基础延展答案以及对应于所述基础延展答案的多个相似延展答案。
在具体实施时,步骤S102中或者步骤S102之后,建立基础延展答案层以及相似延展答案层,所述基础延展答案组成所述基础延展答案层,所述基础延展答案对应的多个相似延展答案组成所述相似延展答案层。
比如有关“刘翔”的样本问题:刘翔是谁,或者谁是刘翔。其基础答案“刘翔是跨栏运动员”,如果从“刘翔”所指代的用户属性角度去扩展,可以得到延展答案“刘翔是一个男跨栏运动员”,“刘翔是中国的跨栏运动员”,“刘翔是中国上海的男跨栏运动员”,“刘翔,号称亚洲飞人”等等基础延展答案,在每个基础延展答案之下,又有多个相似延展答案,比如对于“刘翔是一个男跨栏运动员”这一延展答案,存在多个近似延展答案:“刘翔出生地在上海,是一个男跨栏运动员”,“刘翔1983年出生在上海,是一个男跨栏运动员”,“刘翔1983年出生在上海,是一个男跨栏运动员,属于田径项目”等等。
S103、根据所述样本问题、所述基础答案以及所述延展答案的对应关系,构建知识库。
本实施例中,如前所述,由于知识库的作用是为了在线使用时,可以提供满足用户提问的答案,除了要建立所述样本问题与所述基础答案的对应关系即关联关系,还要建立所述样本问题与所述延展答案的对应关系。而本实施例中,由于延展答案是通过对基础答案进行扩展处理得到的,因此,通过直接建立基础答案与延展答案的对应关系,即间接建立了样本问题与延展答案的对应关系即关联关系。
本实施例中,基础答案-基础延展答案-显示延展答案,实质上构成了递进的上下未的关联关系。
当然,需要说明的是,本实施例中,基础答案、延展答案不绝对限定答案的正确性。
图2本申请实施例二答案的分层方法流程示意图;如图2所示,其包括:
S201、获取知识库中的多个延展答案;
本实施例中,知识库及延展答案的相关描述请参见上述实施例一的记载。
本实施例中,在步骤S201中或者步骤S201之前包括:获取针对在线问题提供的在线答案,对应地,判断知识库中是否存在与所述在线答案相似的多个延展答案,若存在,则获取所述多个延展答案。
S202、根据设定的质量评价模型,计算多个延展答案的质量指数;
本实施例中,质量评价模型可以基于用户行为的质量评价模型、关联与所述基础答案的质量评价模型等。质量评价模型的输入可以是用户行为数据,还可以是用户级别以及用户活跃度,所述用户级别包括:权威性评级、社区用户等级中的至少一种;所述用户活跃度包括参与在线问答时长、参与在线问答次数中的至少一种。此处,用户即为对象。
进一步地,所述用户行为数据可以包括点赞数据、点踩数据、竞争优势数据、评分数据中的至少一种。
步骤S202中,可以根据针对所述延展答案的用户行为数据以及基于用户行为的质量评价模型,计算多个延展答案的质量指数。当具体实施时,如果需要收集的用户行为数据包括多个维度的数据,比如既有上述点赞数据,又有点踩数据、竞争优势数据以及评分数据。则可以将这些数据组成用户行为数据向量,对于每个延展答案对应一个用户行为数据向量,该用户行为数据向量中的对应位的数值表示对应用户行为数据的大小,具体比如点赞的数量,点踩的数量,PK数量以及评分数值。给不同的用户行为数据分配不同的权重,从而通过加权平均得到某一个延展答案的质量指数。在此需要说明的是,总体上,点赞的数量、PK数量以及评分数值与质量指数呈正比关系,点踩的数量与质量指数呈反比关系。
另外,由于后续延展答案的分层式,尽量会将比较相似或者相似度满足设定相似度阈值范围的配置在同一层,以避免在将来针对某在线提问提供答案时重复提供相似的答案,从而提高用户体验。
可替代的,由于延展答案是通过对基础答案进行多纬度的延展处理得到,因此,可以间接从基础答案的角度出发评价延展答案的质量,并对应生成质量指数提供基础答案或者直接关联与基础答案的用户权威性评级、社区用户级别越高,其对应的基础答案的质量越高,进一步地,对应的延展答案质量指数也较高;所述用户参与在线问答时长越长、参与在线问答次数越多,其对应的基础答案的质量越高,进一步地,对应的延展答案质量指数也较高。
当然,也可以设置有关于基础答案的用户数据向量,该向量包括用户权威性评级、社区用户级别、户参与在线问答时长越长、参与在线问答次数的数据,即对每一个基础答案存在对应的用户数据向量,通过给该向量中的数据赋予不同的权重,在进行加权平均从而到基础答案的质量指数,将该基础答案的质量指数作为由其延展处理得到的多个延展答案的基础质量指数。如果存在两个相似的基础答案,质量指数越高的基础答案对应的延展答案要比质量指数较低的延展答案具有较高的基础质量指数。
当然,进一步地,可以参照上述用户行为数据,对该基础质量指数进行实时更新,比如点踩数越多,则响应的调高基础质量指数。
S203、根据所述质量指数,对所述多个延展答案进行显示优先级分层处理。
本实施例中,在步骤S203中,具体可以按照质量指数的大小,对多个延展答案进行排序生成延展答案队列。
或者,可替代地,在步骤S203中,具体可以对所述延展答案进行解析生成语义分析结果,根据语义分析结果以及所述质量指数对所述多个延展答案进行显示优先级分层处理。
本实施例中,语义分析处理包括分词处理,该分词处理具体可以包括基于字符串匹配的分词方法,在具体实施时,根据大数据分析以及收集建立有词库,该词库中包括大量的词样本。切分的实体关键词出与词库匹配的所有可能的词,再根据统计语言模型决定最优的切分结果,语言统计模型中定义了语言的语义逻辑,即认为句子中每个单词只与其前n–1个单词有关。具体地,比如“兰州市黄河大桥”,首先进行词条检索(一般用Trie存储),找到匹配的所有词条(兰州,市,黄河,大桥,兰州市,黄河大桥,市长,江大桥,江大,桥),以词网格(wordlattices)形式表示,接着做路径搜索,基于统计语言模型(例如n-gram)找到最优路径,最后得到实体关键词“兰州市黄河大桥”。
可替代地,在其他实施例中,也可以基于由字构词的分词方法,即字的分类问题,也就是自然语言处理中的sequence labeling问题,通常做法里利用HMMMAXENT,MEMM,CRF等预测文本串每个字的tag标注,譬如B,E,I,S,这四个tag分别表示:beginning,inside,ending,single,也就是一个词的开始,中间,结束,以及单个字的词。例如“兰州市黄河大桥”的标注结果可能为:“兰(B)州(I)市(E)黄(B)河(E)大(B)桥(E)”。
进一步地,在步骤S203中,还包括:根据所述质量指数的高低,将多个延展答案配置在答案外露层或者答案收起层,以使得配置在所述答案外露层的延展答案优先于配置在所述答案收起层的延展进行展示。
但是,基础答案和延展答案的区别并非绝对,在某些应用场景下,部分延展答案也可以转换为基础答案,从而形成多个基础答案;或者,在步骤S201中确定基础答案时,把从多个角度对同一问题进行答复且可满足绝大数使用提问需求的多个答案作为多个基础答案。
如前所述,无论是基础答案还是延展答案,配置质量指数的目的主要是用于精确的匹配用户的在线问题。或者,又称之为从数据库中选择一个最优的答案作为在线问题的答复。
本实施例中,质量指数直接关联与推荐的优先级,其也可以称之为推荐指数。如果按照队列的形式进行分层,质量指数越高,在队列的位置越靠前,在线向用户推荐时优先推荐。
图3为本申请实施例三中答案的分层装置结构示意图;如图3所示,其包括:
获取单元301,用于获取知识库中的多个延展答案;
计算单元302,用于根据设定的质量评价模型,计算多个延展答案的质量指数;
分层单元303,用于根据所述质量指数,对所述多个延展答案进行显示优先级分层处理。
本实施例中,所述计算单元302进一步用于根据针对所述延展答案的用户行为数据以及基于用户行为的质量评价模型,计算多个延展答案的质量指数。
本实施例,获取单元301进一步用于获取经过延展出得到所述多个延展答案的基础答案;对应地,所述计算单元302进一步用于根据关联与所述基础答案的对象级别、对象活跃度,计算多个延展答案的质量指数。
所述分层单元303进一步用于按照质量指数的大小,对多个延展答案进行排序生成延展答案队列。
所述分层单元303进一步用于对所述延展答案进行解析生成语义分析结果,根据语义分析结果以及所述质量指数对所述多个延展答案进行显示优先级分层处理。
所述分层单元303进一步用于根据所述质量指数的高低,将多个延展答案配置在答案外露层或者答案收起层,以使得配置在所述答案外露层的延展答案优先于配置在所述答案收起层的延展进行展示。
图4为本申请实施例四中答案的分层装置结构示意图;如图3所示,其除了包括实施例中的获取单元301、计算单元302、分层单元303,本实施例中,所述获取单元301进一步用于获取针对在线问题提供的在线答案;
对应地,本实施例中,还包括判断单元304,用于判断知识库中是否存在与所述在线答案相似的多个延展答案,若存在,则获取所述多个延展答案。
图5为本申请实施例五中电子设备的结构示意图;该电子设备可以包括:
一个或多个处理器501;
计算机可读介质502,可以配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述任一实施例中所述的方法。
图6为本申请实施例六中电子设备的硬件结构;如图6所示,该电子设备的硬件结构可以包括:处理器601,通信接口602,计算机可读介质603和通信总线604;
其中处理器601、通信接口602、计算机可读介质603通过通信总线604完成相互间的通信;
可选的,通信接口602可以为通信模块的接口,如GSM模块的接口;
其中,处理器601具体可以配置为:获取知识库中的多个延展答案;根据设定的质量评价模型,计算多个延展答案的质量指数;根据所述质量指数,对所述多个延展答案进行显示优先级分层处理。
处理器601可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
特别地,根据本申请的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写配置为执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括:获取单元,用于获取知识库中的多个延展答案;计算单元,用于根据设定的质量评价模型,计算多个延展答案的质量指数;分层单元,用于根据所述质量指数,对所述多个延展答案进行显示优先级分层处理。
其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“用于获取知识库中的多个延展答案的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述任一实施例中所描述的方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取知识库中的多个延展答案;根据设定的质量评价模型,计算多个延展答案的质量指数;根据所述质量指数,对所述多个延展答案进行显示优先级分层处理。
另外,上述实施例中,获取单元,计算单元,分层单元,又可以分别称之为第一程序单元、第二程序单元、第三程序单元。
在本申请的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如,第一用户设备和第二用户设备表示不同的用户设备,虽然两者均是用户设备。例如,在不背离本申请的范围的前提下,第一元件可称作第二元件,类似地,第二元件可称作第一元件。
当一个元件(例如,第一元件)称为与另一元件(例如,第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如,第二元件)或“连接至”另一元件(例如,第二元件)时,应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如,第三元件)间接连接至该另一个元件。相反,可理解,当元件(例如,第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时,则没有元件(例如,第三元件)插入在这两者之间。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。