CN110019733A

CN110019733A - 一种面向社区的智能问答方法及装置

Info

Publication number: CN110019733A
Application number: CN201711457435.9A
Authority: CN
Inventors: 陈虹; 董振江; 李华康; 李涛
Original assignee: ZTE Corp; Nanjing Post and Telecommunication University
Current assignee: ZTE Corp; Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2017-12-28
Filing date: 2017-12-28
Publication date: 2019-07-16

Abstract

本发明公开了一种面向社区的智能问答方法及装置，其方法包括：通过对社区用户输入的问题信息进行分析，提取出所述问题信息中的问题特征向量集；利用社区问答数据库对所述问题特征向量集进行分类，得到所述问题特征向量集的问题分类标签；根据所述问题分类标签从社区问答数据库中的所有回答内容信息中进行匹配处理，得到与所述问题特征向量集最佳的答案信息。

Description

一种面向社区的智能问答方法及装置

技术领域

本发明涉及智能问答技术领域，特别涉及一种面向社区的智能问答方法及装置。

背景技术

随着网络消费的快速突起，消费者由传统的面对面购买，逐渐转变为在线浏览、咨询、下单购买的过程。由于诸多产品和服务具有很强的个性化设计，越来越多的用户在购买前会在线浏览详细的信息并对商家提出咨询。如在线购买鞋子的时候，虽然网站上写明了40码，但是一般厂商针对区域市场的不一样也存在一定的差异，如欧码的40码要比亚码的40码稍大一点。消费者为了减少因电商公布信息的不完整导致的购买问题，多需要问电商确认尺码大小。为此越来越多的在线服务和销售行业，如电商、电信、银行、政府组建了呼叫中心来满足不断增长的远程在线咨询业务。而随着市场的扩大，现有的呼叫中心无论从规模还是服务质量都已经无法满足快速增长的在线咨询业务。

从问答系统的数据和算法考虑，当前的问答系统可以分为两大类：开放式领域问答系统和社区问答系统。

开放式问答系统以非结构化或半结构化语料作为数据源，通过构建语料关键元素之间的逻辑关系，使用模式、关键词匹配和置换等算法，对用户的问题进行分析分类，给出语义解析后的答案。最早的系统是JasphWeizenbaum于1996年实现的Eliza系统，模拟精神医生与病人进行交谈来治疗对方的精神疾病。而随着语料的多样化、高可变、高歧义问题的产生，开放式领域问答系统面临越来越多的挑战。

随着社交网络的发展，越来越多的用户将自己所需的问题知识提交给平台，平台上的其他用户更加自己的领域知识和经验对问题给予解答，提问者同时可以进行问题解决效果评价和问题追加等操作。随着问答内容的积累，逐渐形成了百度知道、雅虎社区和搜搜问问等等具有海量问答库的社区问答系统。这些系统可以采用简单的检索技术解决大部分新用户的提问，而提问者在未找到满意答案的时候，又可以通过提问模式向平台递交问题，形成新的内容积累。但是当前社区问答系统存在内容匹配检索存在的短文本语义理解不够清晰，关键字匹配不完备，检索速度缓慢等问题。同时，社区问答系统中的问答对是用户产生，存在冗余度大，准确性低，回答不完整等问题；以及社区中同一个问题通常对应多个答案，而答案间无排序规律，准确性也参差不齐。以上种种问题都导致智能问答系统对社区问答知识库不能直接使用和再利用。

综上所述，目前的社区问答系统主要采用文本内容的检索排序算法，面对自然语言中的语义理解尤其是短文本的内容分析更加困难。于此同时社区问答知识库中存在严重的一问多答和答非所问的现象，如果一味的针对用户的输入进行知识库的问题内容检索，很容易出现无效检索等现象。

发明内容

根据本发明实施例提供的方案解决的技术问题是当前社区问答系统主要基于内容匹配检索存在的短文本语义理解不够清晰，关键字匹配不完备。

根据本发明实施例提供的一种面向社区的智能问答方法，包括：

通过对社区用户输入的问题信息进行分析，提取出所述问题信息中的问题特征向量集；

利用社区问答数据库对所述问题特征向量集进行分类，得到所述问题特征向量集的问题分类标签；

根据所述问题分类标签从社区问答数据库中的所有回答内容信息中进行匹配处理，得到与所述问题特征向量集最佳的答案信息。

优选地，所述通过对社区用户输入的问题信息进行分析，提取出所述问题信息中的问题特征向量集包括：

通过对社区用户输入的问题信息中的问题标题进行分析，提取出所述问题标题中的问题标题特征向量集；

通过对社区用户输入的问题信息中的问题正文进行分析，提取出所述问题正文中的问题正文特征向量集；

通过对所述问题标题特征向量集和所述问题正文特征向量集进行线性融合处理，得到所述问题信息中的问题特征向量集。

优选地，所述利用社区问答数据库对所述问题特征向量集进行分类，得到所述问题特征向量集的问题分类标签包括：

启动社区问答数据库中通过对已标注问题分类标签的数据集进行培训而得到的问题分类器；

在启动所述问题分类器后，利用所述问题分类器对所述问题特征向量集进行分类，得到所述问题特征向量集的问题分类标签。

优选地，所述根据所述问题分类标签从社区问答数据库中的所有回答内容信息中进行匹配处理，得到与所述问题特征向量集最佳的答案信息包括：

根据所述问题分类标签，从社区问答数据库提取出所述问题分类标签的所有回答内容信息；

从所述所有回答内容信息中分别提取出回答者信息、答案内容信息以及答案评价信息；

利用所述回答者信息、答案内容信息以及答案评价信息与所述问题特征向量集进行匹配处理，得到与所述问题特征向量集最佳的答案信息。

根据本发明实施例提供的一种面向社区智能问答的装置，包括：

分析模块，用于通过对社区用户输入的问题信息进行分析，提取出所述问题信息中的问题特征向量集；

分类模块，用于利用社区问答数据库对所述问题特征向量集进行分类，得到所述问题特征向量集的问题分类标签；

匹配模块，用于根据所述问题分类标签从社区问答数据库中的所有回答内容信息中进行匹配处理，得到与所述问题特征向量集最佳的答案信息。

优选地，所述分析模块包括：

标题分析单元，用于通过对社区用户输入的问题信息中的问题标题进行分析，提取出所述问题标题中的问题标题特征向量集；

正文分析单元，用于通过对社区用户输入的问题信息中的问题正文进行分析，提取出所述问题正文中的问题正文特征向量集；

线性融合单元，用于通过对所述问题标题特征向量集和所述问题正文特征向量集进行线性融合处理，得到所述问题信息中的问题特征向量集。

优选地，所述分类模块包括：

启动单元，用于启动社区问答数据库中通过对已标注问题分类标签的数据集进行培训而得到的问题分类器；

分类单元，用于在启动所述问题分类器后，利用所述问题分类器对所述问题特征向量集进行分类，得到所述问题特征向量集的问题分类标签。

优选地，所述匹配模块包括：

提取单元，用于根据所述问题分类标签，从社区问答数据库提取出所述问题分类标签的所有回答内容信息，并从所述所有回答内容信息中分别提取出回答者信息、答案内容信息以及答案评价信息；

匹配单元，用于利用所述回答者信息、答案内容信息以及答案评价信息与所述问题特征向量集进行匹配处理，得到与所述问题特征向量集最佳的答案信息。

根据本发明实施例提供的一种面向社区智能问答的设备，所述设备包括：处理器，以及与所述处理器耦接的存储器；所述存储器上存储有可在所述处理器上运行的面向社区智能问答的程序，所述面向社区智能问答的程序被所述处理器执行时实现包括：

根据本发明实施例提供的一种计算机存储介质，存储有面向社区智能问答的程序，所述面向社区智能问答的程序被处理器执行时实现包括：

根据本发明实施例提供的方案，具有以下效果：

1、通过提出一个问题内容分类模块，有效地缩小了内容匹配检索的范围，增加了无法匹配场景下答案的相对准确度；

2、通过对社区问答数据库中存在诸多的一问多答数据集，提出基于回答内容和回答者信息的多答案排序算法，通过回答者的权威性对回答进行排序，有效地提升了根据内容匹配、内容长度等基于文本处理算法得到的排序结果。

附图说明

图1是本发明实施例提供的一种面向社区的智能问答方法流程图；

图2是本发明实施例提供的一种面向社区的智能问答装置示意图；

图3是本发明实施例提供的社区问答方法流程示意图；

图4是本发明实施例提供的问题特征抽取模块结构示意图；

图5是本发明实施例提供的通过的正文文本向量化模块结构示意图；

图6是本发明实施例提供的问题内容分类模块示意图；

图7是本发明实施例提供的社区问答库多回答排序模块结构示意图；

图8是本发明实施例提供的问题特征查询模块结构示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行详细说明，应当理解，以下所说明的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

图1是本发明实施例提供的一种面向社区的智能问答方法流程图，如图1所示，包括：

步骤S101：通过对社区用户输入的问题信息进行分析，提取出所述问题信息中的问题特征向量集；

步骤S102：利用社区问答数据库对所述问题特征向量集进行分类，得到所述问题特征向量集的问题分类标签；

步骤S103：根据所述问题分类标签从社区问答数据库中的所有回答内容信息中进行匹配处理，得到与所述问题特征向量集最佳的答案信息。

其中，所述通过对社区用户输入的问题信息进行分析，提取出所述问题信息中的问题特征向量集包括：通过对社区用户输入的问题信息中的问题标题进行分析，提取出所述问题标题中的问题标题特征向量集；通过对社区用户输入的问题信息中的问题正文进行分析，提取出所述问题正文中的问题正文特征向量集；通过对所述问题标题特征向量集和所述问题正文特征向量集进行线性融合处理，得到所述问题信息中的问题特征向量集。

其中，所述利用社区问答数据库对所述问题特征向量集进行分类，得到所述问题特征向量集的问题分类标签包括：启动社区问答数据库中通过对已标注问题分类标签的数据集进行培训而得到的问题分类器；在启动所述问题分类器后，利用所述问题分类器对所述问题特征向量集进行分类，得到所述问题特征向量集的问题分类标签。

其中，所述根据所述问题分类标签从社区问答数据库中的所有回答内容信息中进行匹配处理，得到与所述问题特征向量集最佳的答案信息包括：根据所述问题分类标签，从社区问答数据库提取出所述问题分类标签的所有回答内容信息；从所述所有回答内容信息中分别提取出回答者信息、答案内容信息以及答案评价信息；利用所述回答者信息、答案内容信息以及答案评价信息与所述问题特征向量集进行匹配处理，得到与所述问题特征向量集最佳的答案信息。

图2是本发明实施例提供的一种面向社区的智能问答装置示意图，如图2所示，包括：分析模块201，用于通过对社区用户输入的问题信息进行分析，提取出所述问题信息中的问题特征向量集；分类模块202，用于利用社区问答数据库对所述问题特征向量集进行分类，得到所述问题特征向量集的问题分类标签；匹配模块203，用于根据所述问题分类标签从社区问答数据库中的所有回答内容信息中进行匹配处理，得到与所述问题特征向量集最佳的答案信息。

其中，所述分析模块201包括：标题分析单元，用于通过对社区用户输入的问题信息中的问题标题进行分析，提取出所述问题标题中的问题标题特征向量集；正文分析单元，用于通过对社区用户输入的问题信息中的问题正文进行分析，提取出所述问题正文中的问题正文特征向量集；线性融合单元，用于通过对所述问题标题特征向量集和所述问题正文特征向量集进行线性融合处理，得到所述问题信息中的问题特征向量集。

其中，所述分类模块202包括：启动单元，用于启动社区问答数据库中通过对已标注问题分类标签的数据集进行培训而得到的问题分类器；分类单元，用于在启动所述问题分类器后，利用所述问题分类器对所述问题特征向量集进行分类，得到所述问题特征向量集的问题分类标签。

其中，所述匹配模块203包括：提取单元，用于根据所述问题分类标签，从社区问答数据库提取出所述问题分类标签的所有回答内容信息，并从所述所有回答内容信息中分别提取出回答者信息、答案内容信息以及答案评价信息；匹配单元，用于利用所述回答者信息、答案内容信息以及答案评价信息与所述问题特征向量集进行匹配处理，得到与所述问题特征向量集最佳的答案信息。

本发明实施例提供的一种面向社区智能问答的设备，所述设备包括：处理器，以及与所述处理器耦接的存储器；所述存储器上存储有可在所述处理器上运行的面向社区智能问答的程序，所述面向社区智能问答的程序被所述处理器执行时实现包括：

本发明实施例提供的一种计算机存储介质，存储有面向社区智能问答的程序，所述面向社区智能问答的程序被处理器执行时实现包括：

图3是本发明实施例提供的社区问答方法流程示意图，如图3所示，包括：问题特征抽取模块100、问题内容分类模块200、社区问答数据库300、问题特征查询模块400以及问题候选排序模块500。

所述问题特征抽取模块100，用于对用户输入的问题信息，如问题标题和正文的文本信息，通过特征抽取得到特征向量集；也就是说，当用户输入一个问题后通过对问题的标题和正文文本向量化，提取问题特征向量集合。

所述问题内容分类模块200，用于根据社区问答库所提供的部分已经标注有问题内容分类的数据集训练得到一个分类器，新问题通过分类器计算问题内容分类标签；也就是说，对已经由提问者给出分类的问题进行分类准确性以及细粒度判别，对未标注类目的问题进行内容分类。

所述社区问答数据库300，一个海量的社区问答数据库以及多问题排序模块。问答内容包括抓取地址、时间、提问者索引、标题、正文、回答内容、回答者索引等信息，具体样例可以参照图8所示的问答库问答数据示意图。用户内容包括抓取地址、时间、用户等级、经验、回答问题数、提问数、被采纳率、好评数、坏评数等。也就是说，社区问答数据库拥有海量社区问答数据，其中绝大部分问题拥有多个回答，因此其核心部分是多问答排序，如图7所示，该社区问答数据库包括问题特征抽取模块、回答者信息提取模块、文本特征抽取模块、回答标签提取模块、标签信息匹配模块、基本信息调权模块、答案权重求和排序模块；

所述问题特征查询模块400，从问题特征抽取模块得到的问题特征向量与社区问答数据库中的问题和答案对进行文本相似度匹配，给出社区问答数据库中的候选问答数据队列及相关标签信息。

所述问题候选排序模块500，将问题内容分类结果与特征查询得到的候选问题进行加权，并对候选进行排序，通过筛选算法输出最佳答案和问题所在的类目标签。

综上所述，本发明包括以下步骤：

第一步，构建社区问答数据库，数据库拥有海量社区问答数据，其中绝大部分问题拥有多个回答；

社区问答数据库的回答者信息提取模块系统提取问题不同答案的回答者的信息，包括等级、经验、回答题目数、提问数、回答被赞同数、采纳率、关注类目、关注关键词、参加团队等信息；

社区问答数据库的问题特征抽取模块主要对某个回答的问题内容进行特征向量化；

社区问答数据库的回答标签提取模块提取某个回答的好评数、坏评数、是否被采纳、文本回复评价等；

社区问答数据库的标签信息匹配模块对问题的关键词、类目与回答者的关注关键词、关注类目进行模糊匹配；

社区问答数据库的基本信息调权模块通过配置参数调整同一个问题给出答案的不同回答者的基本信息的权重；

社区问答数据库的答案权重求和排序模块对所有回答者及给出的答案通过线性求和得到相关评分后进行排序，最终给出当前问题的最佳答案保存到社区问答数据库中；

第二步，用户输入一个问题，问题通过所述的问题内容分类模块，对已经由提问者给出分类的问题进行分类准确性以及细粒度判别，对未标注类目的问题进行内容分类；

第三步，问题特征查询模块将用户输入的问题得到的特征向量与社区问答数据库中的问题和答案对进行文本相似度匹配，得到社区问答数据库中的候选问题及相关标签信息；

第四步，问题候选排序模块将问题内容分类结果与特征查询得到的候选问题进行加权，并对候选进行排序，通过筛选算法输出最佳答案及类目标签。

图4是本发明实施例提供的问题特征抽取模块结构示意图，如图4所示，包括：标题文本向量化模块110，通过文本特征提取模块，得到问题标题的文本向量集正文文本向量化模块120，通过文本特征提取模块，得到问题正文的文本向量集采用KMP算法计算标题与正文内容是否一致或者部分相同，如果出现相同则把标题置空。问题文本向量调权模块130，通过参数调权对标题向量和正文向量进行线性融合αW^t+βW^c，得到问题的整个问题的特征向量集W^q。

图5是本发明实施例提供的通过的正文文本向量化模块结构示意图，如图5所示，包括：分句模块111，通过标点符号对文本进行切分。切分规则按照换行符；问号、感叹号、句号、连续点号；逗号、顿号，分为三层粒度。分词模块112，对每个二级粒度的句子，采用一般自然语言工具包进行分词，获得句子的候选词集W^s＝{w₁，...，w_s}。去停用词113，根据一般停用词表，对句子得到的候选词集去除部分语义信息量低的词，得到候选关键词集Key^s＝{key₁，..，key_k}。词频统计分析模块114，通过统文本内容中得到的关键字出现频率对关键词集进行归并调整权重，得到新的关键词频度集合关键词网络调权模块115，计算关键词在最小句子粒度切分结果内的共现频率，构建文本关键词的BC网络，并计算每个关键词的BC值进行排序，部分词语通过n-gram算法合并为短语，最后输出文本核心关键词集keyWord＝{kw₁：x₁，...，kw_k：x_k}作为正文文本特征向量输出。

图6是本发明实施例提供的问题内容分类模块示意图，如图6所示，包括：问题类目训练集210，主要包括社区问答数据库中已经对问题进行标签化的问题集合，并且包括一个类目结构。问题特征抽取模块220，具体内容如模块100所示，在此不做阐述。SVM(SupportVector Machine，支持向量机)分类学习模块230，采用一个多分类模型构建基于文本特征向量空间的SVM分类学习模型。问题分类器模块240，新的问题特征向量通过SVM分类学习模块230计算得到分类标签。

图7是本发明实施例提供的社区问答库多回答排序模块结构示意图，如图7所示，包括：问题特征抽取模块310、回答者信息提取模块320、文本特征抽取模块330、回答标签提取模块340、标签信息匹配模块350、基本信息调权模块360以及答案权重求和排序模块370。

所述问题特征抽取模块310，具体内容如模块100所示，在此不做重复阐述。

回答者信息提取模块320，从社区问答数据库的问答数据结构中根据回答者索引从用户数据表中将回答者的基本数据包括等级(lev)、问题数(q_num)、回答数(a_num)、采纳率(agr_rate)、好评数(good)、坏评数(bad)、关注分类(atte_cate[])、关注关键词(atte_words[])、参加社团(groups[])等信息，保存到一个内存列表。也就是说，提取问题不同答案的回答者的信息，包括等级、经验、回答题目数、提问数、回答被赞同数、采纳率、关注类目、关注关键词、参加团队等信息；

文本特征抽取模块330，对某个回答的文本内容进行特征向量化。以回答文本内容作为输入，输出文本特征向量，具体实施方法如模块100所示，在此不做重复阐述，并计算问题文本向量与答案文本向量的相似度Sim(q_content，a_content)，同时结合回答的文本长度进行调权得到回答文本信息权重(Weighth_content)。

回答标签提取模块340，提取回答文本评价信息如好评数(good)、坏评数(bad)、是否被采纳(rec)以及文本回复评价等；

计算标签权重(Weight_review)

标签信息匹配模块350，对问题的关键词、类目与回答者的关注关键词、关注类目进行模糊匹配；也就是说，通过对问题内容所在分类标签(q_cate)与回答者关注分类标签的匹配或者包含关系计算问题与回答者的类目涵盖度(Weight_cate)

if q_cate∈atte_cate[]

Weight_cate＝1

else if q_cate∈atte_cate[].subcate

Weight_cate＝1/depth(depth是category树的深度)

else

Weight_cate＝0

基本信息调权模块360，通过配置参数调整同一个问题给出答案的不同回答者的基本信息的权重；也就是说，以模块320的用户基本信息为输入，按照以下方式计算得到用户基本信息权重(Weight_user)

答案权重求和排序模块370，对所有回答者及给出的答案通过线性求和得到相关评分后进行排序，最终给出当前问题的最佳答案保存到社区问答数据库中；也就是说，对模块330、340、350和360得到的权重进行调权求和得到每个答案的权重，并采用倒排算法，给出问题和最佳答案对，其中针对每个回答的调权求和函数为

图8是本发明实施例提供的问题特征查询模块结构示意图，如图8所示，包括：文本匹配模块410、类目匹配模块420以及匹配加权模块430。

所述文本匹配模块410，将用户新输入的问题特征向量Q_content与社区问答数据库中的最佳问答对进行文本匹配{q_content，a_content}，给出文本匹配权重(Sim_content)

Sim_content＝α*Sim(Q_content，q_content)+β*Sim(Q_content，a_cpmtemt)

所述类目匹配模块420，对用户输入类目(Q_cate)与当前匹配查询的类目进行匹配(q_cate[])比较，得到类目相似度(Sim_cate)

if Q_cate∈q_cate[]

Sim_cate＝1

else if Q_cate∈q_cate[].subcate

Sim_cate＝1/depth(depth是category树的深度)

else

Sim_cate＝0

所述匹配加权模块430，将模块410和模块420计算得到的权重进行调权求和，得到最终的问题相似度(Sim)

Sim＝α*Sim_content+β*Sim_cate

综上所述，针对现有社区问答系统主要通过问题标题进行检索，给出的结果存在检索精度不高、数据库中的内容答非所问等现象，提出一种对现有数据库内已有的问答内容通过问题信息和回答者信息进行排序给出最佳问答对建立索引文件，在新用户进行问题检索时加入问题类目匹配调权，提高问题检索的准确度。本发明提出的基于回答者信息的调权算法，不仅可以用于社区问答系统，还可以用于其他社区数据挖掘领域。

根据本发明实施例提供的方案，基于知识库内容分类以及知识库用户属性加权的回答排序筛选方法，很好的解决了社区问答中的一问多答、检索结果失效的现象。

尽管上文对本发明进行了详细说明，但是本发明不限于此，本技术领域技术人员可以根据本发明的原理进行各种修改。因此，凡按照本发明原理所作的修改，都应当理解为落入本发明的保护范围。

Claims

1.一种面向社区的智能问答方法，包括：

2.根据权利要求1所述的方法，所述通过对社区用户输入的问题信息进行分析，提取出所述问题信息中的问题特征向量集包括：

3.根据权利要求1或2所述的方法，所述利用社区问答数据库对所述问题特征向量集进行分类，得到所述问题特征向量集的问题分类标签包括：

4.根据权利要求3所述的方法，所述根据所述问题分类标签从社区问答数据库中的所有回答内容信息中进行匹配处理，得到与所述问题特征向量集最佳的答案信息包括：

5.一种面向社区智能问答的装置，包括：

6.根据权利要求5所述的装置，所述分析模块包括：

7.根据权利要求5或6所述的装置，所述分类模块包括：

8.根据权利要求7所述的装置，所述匹配模块包括：

9.一种面向社区智能问答的设备，所述设备包括：处理器，以及与所述处理器耦接的存储器；所述存储器上存储有可在所述处理器上运行的面向社区智能问答的程序，所述面向社区智能问答的程序被所述处理器执行时实现包括：

10.一种计算机存储介质，存储有面向社区智能问答的程序，所述面向社区智能问答的程序被处理器执行时实现包括：