CN104615755A - 一种基于众包的新型问答系统 - Google Patents

一种基于众包的新型问答系统 Download PDF

Info

Publication number
CN104615755A
CN104615755A CN201510076574.1A CN201510076574A CN104615755A CN 104615755 A CN104615755 A CN 104615755A CN 201510076574 A CN201510076574 A CN 201510076574A CN 104615755 A CN104615755 A CN 104615755A
Authority
CN
China
Prior art keywords
module
answer
intelligence
data
mass
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510076574.1A
Other languages
English (en)
Other versions
CN104615755B (zh
Inventor
孙海龙
张日崇
刘馨怡
孙富民
刘旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN201510076574.1A priority Critical patent/CN104615755B/zh
Publication of CN104615755A publication Critical patent/CN104615755A/zh
Application granted granted Critical
Publication of CN104615755B publication Critical patent/CN104615755B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供一种基于众包的新型问答系统,包括:问答模块、智答模块、问答分析模块、中介模式决策模块、数据源查询模块、优化模块,问答分析模块根据获取的问答数据获得关键词组,中介模式决策模块根据关键词组与预设的属性候选集映射生成中介模式,数据源查询模块根据中介模式生成数据源查询语句并在多个数据源中检索获得实体数据,优化模块将实体数据封装为众包任务并将众包任务发送给智答模块,且优化模块根据智答模块反馈的众包反馈数据生成智答数据,本发明提供的基于众包的新型问答系统解决了自动问答系统受制于语义分析技术难度大、成本高的技术问题以及社区问答系统无法保证即时的技术问题,实现了快速且准确地回答用户提出的问题。

Description

一种基于众包的新型问答系统
技术领域
本发明涉及一种互联网数据处理技术,尤其涉及一种基于众包的新型问答系统。
背景技术
随着互联网的快速发展,用户获取的信息越来越多,在Web2.0时期,用户能够通过互联网分享信息,其分享的内容包括文字、图片、视频、网站和移动应用,因此,信息数量不断增多的同时种类也不断多元化。互联网逐渐成为了信息数据的巨大载体,而大量的信息数据带来了一项挑战——如何使用户获得真正需要的信息。
搜索引擎作为一项信息检索工具,能够在指数增长级的大数据中,利用关键词匹配来过滤掉一定量的无用信息筛选出结果,但返回结果仍为上百万的网页链接,数量众多且形式单一,增大了筛选有效信息的难度。再者,搜索引擎采用的基于关键词语义检索的方式对用户输入关键词的要求高,若用户不能输入有效关键词,查询语句则无法准确表达用户搜索需求,导致检索结果不佳。
问答系统弥补了搜索引擎的缺陷,能够通过自然语言表达信息需求并获得相对直接的信息结果。早期的自动问答系统,以人工智能技术对自然语言问题进行分析,再检索文献知识库快速推理获得高可信度答案。随着问答领域研究的深入,发现自动问答系统能够较好解决事实性问题,但因为语义的复杂性无法良好地处理一类复杂问题,事实性问题是能够得到一个客观事实作为答案的问题,如“《哈利波特》的作者是谁?”,问题的答案为J.K.罗琳,是一个实体人名,而目前提取实体答案的技术已经很成熟,复杂类问题通常是没有标准答案的问题,如“北京哪家餐厅味道好?”,这类问题的答案主观性强,依赖于传统文献知识库很难得出一个成体系的答案,最后,用户不仅可能不满意生成的答案,甚至还可能无法获取答案。而通过社区问答系统与自动问答系统不同的是,其研究内容不仅与机器算法相关,也融入了人计算的相关技术,能够利用人群的语义理解能力和广泛的背景知识储备给出答案解决复杂类问题。社区问答系统以一种一问多答服务平台的方式,提供了用户以自然语言提出问题并作答的功能,通过简单直接的方式满足人们表达信息和获取信息的需求。社区问答系统中的问题通常都有多个回答,传统的最佳答案筛选方式是由提问者只采纳一个回答作为最佳答案的方式,但受制于各个用户之间的知识背景差异及局限性,致使单个回答的最佳答案的质量较为片面。综上所述,问答系统以比搜索引擎更为自然的方式服务用户的信息需求,自动问答系统虽能够快速获取答案,但受制于语义分析技术难度大、成本高;社区问答系统解决了自动问答系统的语义难点,却无法保证即时作答,而且社区问答系统给出的单一回答较为片面。
发明内容
本发明提供一种基于众包的新型问答系统,解决了现有的自动问答系统受制于语义分析技术难度大、成本高的技术问题以及现有的社区问答系统无法保证即时的技术问题。
本发明提供一种基于众包的新型问答系统,所述系统包括:
客户端和服务器,所述客户端包括问答模块和智答模块,所述服务器包括问答分析模块、中介模式决策模块、数据源查询模块、优化模块,其中
所述问答模块与所述问答分析模块相连,所述问答模块用于获取问答数据并将所述问答数据发送给所述问答分析模块,其中所述问答数据包括问题数据和回答数据;
所述问答分析模块用于根据所述问答数据获取关键词组;
所述中介模式决策模块分别与所述问答分析模块和所述数据源查询模块相连,所述中介模式决策模块用于根据所述问答分析模块发送的关键词组与预设的属性候选集映射生成中介模式;
所述数据源查询模块用于根据所述中介模式生成数据源查询语句,并根据所述数据源查询语句在多个数据源中检索获得实体数据;
所述优化模块分别与所述数据源查询模块和所述智答模块相连,所述优化模块用于将所述实体数据封装为众包任务并将所述众包任务发送给所述智答模块以使所述智答模块根据所述众包任务获得众包反馈数据,且所述优化模块还用于根据所述智答模块反馈的所述众包反馈数据生成智答数据;
所述智答模块用于根据所述众包任务获取所述众包反馈数据,并将所述众包反馈数据发送给所述优化模块以使所述优化模块生成智答数据。
本发明的实施方案中,所述问答分析模块具体用于:
将所述问答数据进行分词处理,并在所述分词处理中过滤停用词;;
将过滤后的词语基于本体的概念树进行分类标注,并记录所述词语在所述概念树中的频率;
根据所述词语在所述概念树中的分类生成关键词组,所述关键词组包括实体组、概念组和关系组。
本发明的实施方案中,所述中介模式决策模块具体用于:所述中介模式决策模块具体用于:
根据所述关键词组中的词语在所述概念树中的频率对所述关键词组中的词语进行排序,生成有序的关键词组;
将所述有序的关键词组中的实体或概念与所述预设的属性候选集进行映射,确定所述有序的关键词组中实体或概念的属性;
根据所述关键词组及所述有序的关键词组中实体或概念的属性生成中介模式。
本发明的实施方案中,所述数据源查询模块具体用于:
根据所述中介模式构造查询语句;
将所述查询语句重构生成数据源查询语句;
将所述数据源查询语句在所述多个数据源中进行检索获得所述实体数据。
本发明的实施方案中,所述优化模块具体用于:
将所述实体数据进行自动预处理,获得中间智答数据;
将所述中间智答数据封装为所述众包任务,并将所述众包任务发送给所述智答模块以使所述智答模块根据所述众包任务生成所述众包反馈数据;
根据所述智答模块发送的所述众包反馈数据生成智答数据,并将所述智答数据发送给所述智答模块以使所述智答模块显示所述智答数据。
本发明的实施方案中,所述智答模块具体用于:
对所述众包任务进行投票和/或输入自定义值;
根据所述众包任务获得的投票数和/或自定义值获取众包反馈数据,并将所述众包反馈数据发送给所述优化模块以使所述优化模块根据所述众包反馈数据中包含的投票数和/或自定义值生成智答数据;
接收所述优化模块发送的所述智答数据,并显示所述智答数据。
本发明的实施方案中,所述智答模块还用于:
当所述众包任务获得的投票数和/或自定义值发生变化,则更新所述众包任务获得的投票数和/或自定义值;
根据更新后的所述众包任务获得的投票数和/或自定义值更新所述众包反馈数据,并将更新后的众包反馈数据发送给所述优化模块以使所述优化模块根据所述更新后的众包反馈数据更新所述智答数据;
接收所述优化模块发送的更新后的智答数据,并显示所述更新后的智答数据。
本发明的实施方案中,所述优化模块还用于:
接收所述智答模块发送的所述更新后的众包反馈数据;
根据所述更新后的所述众包反馈数据更新所述智答数据,并将更新后的智答数据发送给所述智答模块以使所述智答模块显示所述更新后的智答数据。
本发明实施例提供的基于众包的新型问答系统,通过问答模块获得问答数据并将问答数据发送给服务器的问答分析模块,问答分析模块根据问答数据获得关键词组,中介模式决策模块根据关键词组与预设的属性候选集映射生成中介模式,数据源查询模块根据中介模式生成数据源查询语句,并根据所述数据源查询语句在多个数据源中检索获得实体数据,所述优化模块将所述实体数据封装为众包任务并将所述众包任务发送给所述智答模块以使所述智答模块根据所述众包任务获得众包反馈数据,且所述优化模块根据所述智答模块反馈的所述众包反馈数据生成智答数据,本发明提供的基于众包的新型问答系统解决了现有的自动问答系统受制于语义分析技术难度大、成本高的技术问题以及现有的社区问答系统无法保证即时的技术问题,实现了快速且准确地回答用户所提出的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明基于众包的新型问答系统的结构示意图;
图2为本发明基于本体的概念树的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
首先介绍如下概念与定义:
众包:可以看作一个分布式问题解决的业务产出模型,在2006年的《Wired》杂志中,Jeff Howe定义了“众包(Crowdsourcing)”,指一个外包任务由传统的雇员完成发展为开放的一群人中去完成。
本发明提供的问答系统主要通过将提问者提出的问题以及该问题对应的一些回答数据以问答对的形式发送给服务器,服务器根据问答对获得关键词组,根据关键词组与预设的属性候选集映射生成中介模式,并根据中介模式生成统一的查询语句并在多个数据源中进行检索,将检索获得的实体数据通过众包处理最终生成智答数据。
图1为本发明基于众包的新型问答系统的结构示意图。如图1所示,本实施例的系统包括:客户端10和服务器20,其中,客户端可以为WEB、WAP以及各种能登录到服务器的登录系统,本实施例中,客户端10包括问答模块101和智答模块102,服务器20包括问答分析模块201、中介模式决策模块202、数据源查询模块203、优化模块204,其中,问答模块101用于获得提问者提出的各种问题数据,以及问题数据所对应的回答数据,需要说明的是,该问题数据所对应的回答数据可以为事先检索获得的一些回答数据,本实施例中,问答分析模块201与问答模块101相连,问答模块101将获得的问题数据和回答数据以问答对(问答数据)的形式发送给服务器20的问答分析模块201,问答分析模块201根据问答数据获取关键词组,本实施例中,问答分析模块201获取关键词组具体为,问答分析模块20对问答数据进行分词处理,并在分词处理过程中过滤掉停用词,其中,停用词为问答数据中的虚词和标点符号,将停用词过滤后剩余的词语基于本体的概念树进行分类标注,并记录词语在基于本体的概念树中出现的频率,该频率用于衡量词语的权重,图2为本发明基于本体的概念树的结构示意图,如图2所示,基于本体的概念树中,圆形为概念词,三角形为实体词,菱形为关系词,根据词语在概念树中的分类标注和频率生成关键词组,其中,由概念词组成的关键词组为概念组,由实体词组成的关键词组为实体组,由关系词组成的关键词组为关系组,其中,关系词用于增强实体词与概念词之间的关系表述,关键词组中的各个概念词或实体词的频率也记载在关键词组中,本实施例中,中介模式决策模块202分别与问答分析模块201和数据源查询模块203相连,所以,当问答分析模块201获得关键词组后,将关键词组发送给中介模式决策模块202,中介模式决策模块202根据接收到的关键词组与预设的属性候选集映射生成中介模式。
本实施例中,属性候选集通过学习训练集数据或者利用领域分类生成,属性候选集的属性选择可以根据中介模式应用的数据领域来选取,可以涉及各个方面,举例来说,若属性候选集中选择旅游领域,即以旅游作为概念,则该概念对应的属性可以为价格、地点等,当中介模式决策模块202接收到的关键词组中包含的关键词为旅游时,则将概念词(旅游)与属性候选集映射,确定出该概念词的属性,根据该属性以及关键词组生成中介模式。
本实施例中,数据源查询模块203用于根据中介模式生成的数据源查询语句,并根据数据源查询语句在多个数据源中检索获得实体数据,具体的,在本实施例中,中介模式中包含关键词组以及属性,因此,数据源查询模块203根据中介模式首先生成统一的查询语句,本实施例中,可以采用布尔模型基于中介模式构造查询语句,具体为,关键词组分为实体E、概念C、关系S三大组,每个大组又由小组构成,E={E_1、E_2、E_3…},C={C_1、C_2、C_3…},S={S_1、S_2、S_3…},每个小组中的关键词属于同一属性类别,查询语句的构造策略是将E大组和C大组中的同一小组中的关键词分别与S大组中对应小组的关系词由逻辑词“与(AND)”连接,于是产生两种构造方式,第一种是实体词和关系词之间的查询语句q_a={e AND s};第二种是概念词与关系词之间的查询语句q_b={c AND s}。执行策略为优先使用q_a查询,若q_a没能得到结果,再采用q_b,两者若都无法检索到结果,则去除检索模型中的关系词,只使用实体词或概念词查询。由中介模式构造统一查询语句后,得到一个包含实体、概念词和关系词的布尔语句,在去往多数据源检索时,会根据不同的数据源接口特征改造q_a、q_b,比如,调整接口参数数量、值、顺序等,从而适应各个不同的数据源,进一步的,本实施例中,为了在检索时获得较好的召回率,可以采用调整关键词和接口参数的方式,对于关键词的调整可基于本体的概念树中的词语之间的包含的逻辑关系,依据关键词在本体中的概念进行语义的扩展,查询扩展使得检索到的内容相关性更高,减轻偏离主题的情况。
本实施例中,优化模块204分别与数据源查询模块203和智答模块205相连,数据源查询模块203根据查询语句在多个数据源检索并获得实体数据,并将实体数据发送给优化模块204,优化模块204用于将实体数据封装为众包任务并将众包任务发送给智答模块205以使智答模块205根据众包任务获得众包反馈数据,智答模块205根据众包任务获取所述众包反馈数据,将众包反馈数据发送给优化模块204,优化模块204根据智答模块205反馈的众包反馈数据生成智答数据,本实施例中,当优化模块204将众包任务发送给智答模块205后,智答模块205根据众包任务获得众包反馈数据,优化模块204根据接收到的众包反馈数据后进行融合排序,选取排序较高的众包反馈数据来生成智答数据,智答数据通过智答模块205显示给提问者,需要说明的是,优化模块204生成的智答数据会随着智答模块205反馈的众包反馈数据的不同而发生变化。
本实施例提供的基于众包的新型问答系统,通过问答模块获得问答数据并将问答数据发送给服务器的问答分析模块,问答分析模块根据问答数据获得关键词组,中介模式决策模块根据关键词组与预设的属性候选集映射生成中介模式,数据源查询模块根据中介模式生成数据源查询语句,并根据所述数据源查询语句在多个数据源中检索获得实体数据,所述优化模块将所述实体数据封装为众包任务并将所述众包任务发送给所述智答模块以使所述智答模块根据所述众包任务获得众包反馈数据,且所述优化模块根据所述智答模块反馈的所述众包反馈数据生成智答数据,本发明提供的基于众包的新型问答系统解决了现有的自动问答系统受制于语义分析技术难度大、成本高的技术问题以及现有的社区问答系统无法保证即时的技术问题,本发明提供的问答系统实现了快速且准确地回答用户所提出的问题。
进一步的,在上述实施例的基础上,本实施例中,中介模式决策模块202根据关键词组生成中介模式时,具体为,中介模式决策模块202首先将接收到的关键词组根据词语在概念树中的频率对关键词组中的词语进行排序,生成有序的关键词组,然后将有序的关键词组中的实体或概念与预设的属性候选集进行映射,确定出关键词组中的实体或概念的属性,根据有序的关键词组和关键词组中的实体或概念的属性生成中介模式,中介模式中包括实体词、概念词、关系词以及实体或概念的属性,数据源查询模块203根据该中介模式生成统一的查询语句,但是由于各个数据源的参数输入和对应的特性不同,因此,进一步的,在本实施例中,数据源查询模块203根据该中介模式生成统一的查询语句后,需将查询语句进行重写,具体可以使用各个数据源对应的包装器将中介模式中包括的关键词进行一定规则的重组构成数据源对应的数据源查询语句,在数据源中根据重构的数据源查询语句进行检索,检索后的获得的实体数据发送给优化模块204。
进一步的,在上述实施例的基础上,本实施例中,优化模块204接收到数据源查询模块203发送的实体数据后,首先,优化模块204对实体数据进行自动预处理,经自动预处理后获得中间智答数据,其中,自动预处理主要对实体数据进行初步甄别,采取的处理策略分为三类:忽略冲突、避免冲突和解决冲突,如表1所示:
表1 自动预处理解决策略
策略 分类 描述
过策略 忽略冲突 遗留冲突,待后续解决
全策略 忽略冲突 将所有可能的值都作为值
不空策略 避免冲突 选择不为空的值
无干扰项策略 避免冲突 选择拥有一致性的元组中的值
信任项策略 避免冲突 选择信任数据源的值
频繁项策略 解决冲突 选择频繁出现的值
随机项策略 解决冲突 随机选择一项作为值
平均项策略 解决冲突 计算平均值作为值
实时项策略 解决冲突 选择最近时效的值
从表1看出,忽略冲突主要针对一些机器难以处理的状况,当碰到机器难以分辨的情况时,则保留数据冲突,表中有两种忽略冲突策略,一个是过策略,另一个是全策略。两者都是因为难以分辨冲突值,其数据值都有成为真值的可能性,前者的做法是把冲突遗留,不确定值,后者是将所有可能的值都作为值;避免冲突主要指在数据冲突发生之间采取措施使冲突的情况不发生,分为三种策略:1)不空策略,将非空值作为真值,2)无干扰项策略,当取到元组数据的时候,将一致性强的元组中的数据作为值,3)信任项策略,选取信任数据源中获取的数据作为值;解决冲突是在数据冲突的情况下,明确地选择某一值作为真值,策略有四种:1)频繁项策略,将获取次数最多的值作为真值,2)随机项策略,机器随机选择一个值作为真值,3)平均项策略,对于数值数据常常采用取平均值的方式,4)实时项策略,对实时性要求强的数据,选择最近时效的数据作为值。自动预处理机制会根据以上提到的策略对产生数据冲突的数据进行处理,自动预处理算法如下所示:
其中,上述算法中的输入为从多个数据源获取的实体数据,以数组的结构存储,在获取的实体数据间有可能有两种关系,一是来自同一个数据源,实体之间存在关联,二是分属不同数据源的实体数据指向同一个实体,无论实体之间以哪种关系被获取,都可能产生数据冲突,自动预处理机制的输出即为使用冲突处理策略而产生的中间智答结构,采用记录连接的方式,将相同实体识别出来并合并,对实体描述项中的数值项求平均值,而对于非结构化或者半结构化的描述项,机器处理起来很复杂,所以自动预处理算法多数采取了忽略冲突策略,留待众包处理机制解决冲突问题,因此,本实施例中,根据上述自动预处理算法获得中间智答数据时,只解决了部分的数据冲突,并未完全解决冲突,无法完全保证获得的即为最优值,所以优化模块204将中间智答数据封装为众包任务,执行众包处理机制,由人群来帮助甄别数据优劣,从而组织出更好的答案,其中众包任务的数据结构如表2所示:
表2 众包任务的数据结构表
如表2所示,众包任务中的第一层为每个属性(attribute)对应的实体数组,第二层是由实体与关系构造的查询(query),第三层中为实体(entity)的结构描述和投票数(vote),第四层为实体描述项(item),第五层为描述项的值(value)与获取到此值的数据源(source),其中实体描述项的值作为键值对的键,而键值对的值用于记录此描述项的投票数,vote和value用于记录数目,两者是分别独立的,即虽然实体与描述项具有层级关系,但它们的投票结果是独立记录的,众包任务中不仅设置了供选择的预先得到的值,也提供了自定义值接口,当工人依据自己的知识背景不满意供选择的值时,填入自定义值,其中,对于数值类的描述项,将综合多数据源获取的数据与众包任务中工人们填入的新值合并计算,而非数据类的描述项,由众包任务的工人帮忙选择而不再填写自定义值,不填入自定义值的目的是为了降低众包任务的难度,以至于更多的人参与到众包任务当中,增大投票基数以求生成答案中的数据趋近于最佳,从而获得智答数据。
本实施例中,当优化模块204将众包任务向智答模块205进行发布后,智答模块205根据众包任务让工人们对实体和实体内的描述项分别独立投票和/或以及输入自定义值,智答模块205根据对众包任务的投票数和/或自定义值生成众包反馈数据,众包反馈数据中包含着众包任务的投票数和/或自定义值,智答模块205将众包反馈数据发送给优化模块204,优化模块204根据众包反馈数据中包含的投票数进行汇聚并排序,选取排序最高的数据生成智答数据,并将智答数据发送给智答模块205,智答模块205向提问者显示该智答数据。
本实施例中,当优化模块204生成智答数据并通过智答模块205向提问者显示后,由于参与投票的人群可能会发生变化,因此众包任务中获得的投票数和/或自定义值也会发生变化,所以,本实施例中,进一步的,为了得到质量更佳的答案,采取了持续优化答案的策略,具体为,当所述众包任务获得的投票数和/或自定义值发生变化,智答模块205更新众包任务获得的投票数和/或自定义值,根据更新后的众包任务获得的投票数和/或自定义值更新所述众包反馈数据,并将更新后的众包反馈数据发送给优化模块204,优化模块204接收智答模块205发送的更新后的众包反馈数据,并根据更新后的众包反馈数据更新智答数据,其中,优化模块204根据更新后的众包反馈数据更新智答数据,具体为,优化模块204对更新后的众包反馈数据进行融合排序,并选取排序最高的数据与智答数据进行比较,若选取的排序最高的数据优于智答数据,则将智答数据更新为选取的排序最高的数据,优化模块204将更新后的智答数据发送给智答模块205,智答模块205显示更新后的智答数据,需要说明的是,更新智答数据的过程与众包任务获得的投票数和/或自定义值有关,一旦众包任务获得的投票数和/或自定义值发生改变,则智答模块205和优化模块204便开始更新交互,从而完成对智答数据的优化,本实施例中,智答数据更新过程遵从以下规则:
(1)一旦新问答数据离上次更新的时间间隔达到预设时长,则重新计算智答数据;
(2)众包任务不设时限,投票和自定义值的输入使得智答数据的显示不断变化。
本实施例提供的基于众包的新型问答系统通过基于本体的概念树对用户问题分析提取关键词组,然后构建中介模式,集成多个数据源,在多数据源中检索答案,然后通过基于众包处理的方法集成多源数据中的答案,经过持续优化得到智答数据,实现了快速且准确的回答用户提出的问题。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (8)

1.一种基于众包的新型问答系统,其特征在于,所述系统包括:
客户端和服务器,所述客户端包括问答模块和智答模块,所述服务器包括问答分析模块、中介模式决策模块、数据源查询模块、优化模块,其中
所述问答模块与所述问答分析模块相连,所述问答模块用于获取问答数据并将所述问答数据发送给所述问答分析模块,其中所述问答数据包括问题数据和回答数据;
所述问答分析模块用于根据所述问答数据获取关键词组;
所述中介模式决策模块分别与所述问答分析模块和所述数据源查询模块相连,所述中介模式决策模块用于根据所述问答分析模块发送的关键词组与预设的属性候选集映射生成中介模式;
所述数据源查询模块用于根据所述中介模式生成数据源查询语句,并根据所述数据源查询语句在多个数据源中检索获得实体数据;
所述优化模块分别与所述数据源查询模块和所述智答模块相连,所述优化模块用于将所述实体数据封装为众包任务并将所述众包任务发送给所述智答模块以使所述智答模块根据所述众包任务获得众包反馈数据,且所述优化模块还用于根据所述智答模块反馈的所述众包反馈数据生成智答数据;
所述智答模块用于根据所述众包任务获取所述众包反馈数据,并将所述众包反馈数据发送给所述优化模块以使所述优化模块生成智答数据。
2.根据权利要求1所述的系统,其特征在于,所述问答分析模块具体用于:
将所述问答数据进行分词处理,并在所述分词处理中过滤停用词;
将过滤后的词语基于本体的概念树进行分类标注,并记录所述词语在所述概念树中的频率;
根据所述词语在所述概念树中的分类及频率生成关键词组,所述关键词组包括实体组、概念组和关系组。
3.根据权利要求2所述的系统,其特征在于,所述中介模式决策模块具体用于:
根据所述关键词组中的词语在所述概念树中的频率对所述关键词组中的词语进行排序,生成有序的关键词组;
将所述有序的关键词组中的实体或概念与所述预设的属性候选集进行映射,确定所述有序的关键词组中实体或概念的属性;
根据所述关键词组及所述有序的关键词组中实体或概念的属性生成中介模式。
4.根据权利要求1-3任一所述的系统,其特征在于,所述数据源查询模块具体用于:
根据所述中介模式构造查询语句;
将所述查询语句重构生成数据源查询语句;
将所述数据源查询语句在所述多个数据源中进行检索获得所述实体数据。
5.根据权利要求1-3任一所述的系统,其特征在于,所述优化模块具体用于:
将所述实体数据进行自动预处理,获得中间智答数据;
将所述中间智答数据封装为所述众包任务,并将所述众包任务发送给所述智答模块以使所述智答模块根据所述众包任务生成所述众包反馈数据;
根据所述智答模块发送的所述众包反馈数据生成智答数据,并将所述智答数据发送给所述智答模块以使所述智答模块显示所述智答数据。
6.根据权利要求1-3任一所述的系统,其特征在于,所述智答模块具体用于:
对所述众包任务进行投票和/或输入自定义值;
根据所述众包任务获得的投票数和/或自定义值获取众包反馈数据,并将所述众包反馈数据发送给所述优化模块以使所述优化模块根据所述众包反馈数据中包含的投票数和/或自定义值生成智答数据;
接收所述优化模块发送的所述智答数据,并显示所述智答数据。
7.根据权利要求6所述的系统,其特征在于,所述智答模块还用于:
当所述众包任务获得的投票数和/或自定义值发生变化,则更新所述众包任务获得的投票数和/或自定义值;
根据更新后的所述众包任务获得的投票数和/或自定义值更新所述众包反馈数据,并将更新后的众包反馈数据发送给所述优化模块以使所述优化模块根据所述更新后的众包反馈数据更新所述智答数据;
接收所述优化模块发送的更新后的智答数据,并显示所述更新后的智答数据。
8.根据权利要求7所述的系统,其特征在于,所述优化模块还用于:
接收所述智答模块发送的所述更新后的众包反馈数据;
根据所述更新后的所述众包反馈数据更新所述智答数据,并将更新后的智答数据发送给所述智答模块以使所述智答模块显示所述更新后的智答数据。
CN201510076574.1A 2015-02-12 2015-02-12 一种基于众包的新型问答系统 Active CN104615755B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510076574.1A CN104615755B (zh) 2015-02-12 2015-02-12 一种基于众包的新型问答系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510076574.1A CN104615755B (zh) 2015-02-12 2015-02-12 一种基于众包的新型问答系统

Publications (2)

Publication Number Publication Date
CN104615755A true CN104615755A (zh) 2015-05-13
CN104615755B CN104615755B (zh) 2017-12-01

Family

ID=53150197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510076574.1A Active CN104615755B (zh) 2015-02-12 2015-02-12 一种基于众包的新型问答系统

Country Status (1)

Country Link
CN (1) CN104615755B (zh)

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104991642A (zh) * 2015-06-18 2015-10-21 惠州Tcl移动通信有限公司 一种用于终端智能答疑的方法
CN105608318A (zh) * 2015-12-18 2016-05-25 清华大学 众包标注整合方法
CN105677874A (zh) * 2016-01-11 2016-06-15 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种对提取的Web表格数据进行集成的方法及装置
CN106802941A (zh) * 2016-12-30 2017-06-06 网易(杭州)网络有限公司 一种答复信息的生成方法和设备
CN106970932A (zh) * 2016-01-13 2017-07-21 株式会社理光 自适应查询处理
CN107273492A (zh) * 2017-06-15 2017-10-20 复旦大学 一种基于众包平台处理图像标注任务的交互方法
CN107329967A (zh) * 2017-05-12 2017-11-07 北京邮电大学 基于深度学习的问答系统以及方法
WO2017198031A1 (zh) * 2016-05-19 2017-11-23 北京京东尚科信息技术有限公司 解析语义的方法和装置
CN107463554A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN107506411A (zh) * 2017-08-10 2017-12-22 熊英 一种安全可信的知识服务方法与系统
CN107871196A (zh) * 2016-09-28 2018-04-03 郑州大学 一种基于滑动任务窗的众包质量评估方法
CN108073664A (zh) * 2016-11-11 2018-05-25 北京搜狗科技发展有限公司 一种信息处理方法、装置、设备及客户端设备
CN108509218A (zh) * 2018-03-05 2018-09-07 中国人民解放军国防科技大学 基于Codepedia众包平台的第三方工具优化方法
CN108733654A (zh) * 2018-05-21 2018-11-02 宁波薄言信息技术有限公司 一种信息处理方法
CN109918525A (zh) * 2019-03-12 2019-06-21 同济大学 基于微信小程序的食物图片美学分析标签数据收集系统
CN110046239A (zh) * 2019-04-15 2019-07-23 合肥工业大学 基于情感编辑的对话方法
CN110795550A (zh) * 2019-10-31 2020-02-14 中山大学 一种提高闲聊对话系统回答丰富性的方法
CN110874403A (zh) * 2018-08-29 2020-03-10 株式会社日立制作所 提问回答系统、提问回答处理方法以及提问回答整合系统
WO2020263180A1 (en) * 2019-06-24 2020-12-30 Singapore University Of Technology And Design A computational and visualization aid for brainstorming and crowdsourcing of ideas
WO2021084364A1 (en) * 2019-10-31 2021-05-06 International Business Machines Corporation Generation of natural language expression variants
WO2021136009A1 (zh) * 2019-12-31 2021-07-08 阿里巴巴集团控股有限公司 搜索信息的处理方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102148856A (zh) * 2010-12-30 2011-08-10 百度在线网络技术(北京)有限公司 知识信息交互服务方法、平台及站点
CN102236677A (zh) * 2010-04-28 2011-11-09 北京大学深圳研究生院 一种基于问答系统的信息匹配方法及系统
US20140229163A1 (en) * 2013-02-12 2014-08-14 International Business Machines Corporation Latent semantic analysis for application in a question answer system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102236677A (zh) * 2010-04-28 2011-11-09 北京大学深圳研究生院 一种基于问答系统的信息匹配方法及系统
CN102148856A (zh) * 2010-12-30 2011-08-10 百度在线网络技术(北京)有限公司 知识信息交互服务方法、平台及站点
US20140229163A1 (en) * 2013-02-12 2014-08-14 International Business Machines Corporation Latent semantic analysis for application in a question answer system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
向春丞等: "基于领域本体的中文问答系统问句分析研究", 《第六届全国青年计算语言学会议》 *

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104991642A (zh) * 2015-06-18 2015-10-21 惠州Tcl移动通信有限公司 一种用于终端智能答疑的方法
CN105608318B (zh) * 2015-12-18 2018-06-15 清华大学 众包标注整合方法
CN105608318A (zh) * 2015-12-18 2016-05-25 清华大学 众包标注整合方法
CN105677874A (zh) * 2016-01-11 2016-06-15 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种对提取的Web表格数据进行集成的方法及装置
CN105677874B (zh) * 2016-01-11 2018-11-13 江苏省现代企业信息化应用支撑软件工程技术研发中心 一种对提取的Web表格数据进行集成的方法及装置
CN106970932A (zh) * 2016-01-13 2017-07-21 株式会社理光 自适应查询处理
CN106970932B (zh) * 2016-01-13 2020-07-14 株式会社理光 用于查询处理的装置以及用于查询处理的方法
WO2017198031A1 (zh) * 2016-05-19 2017-11-23 北京京东尚科信息技术有限公司 解析语义的方法和装置
US10824816B2 (en) 2016-05-19 2020-11-03 Beijing Jingdong Shangke Information Technology Co., Ltd. Semantic parsing method and apparatus
CN107463554B (zh) * 2016-06-02 2021-05-04 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN107463554A (zh) * 2016-06-02 2017-12-12 阿里巴巴集团控股有限公司 短语挖掘方法及装置
CN107871196A (zh) * 2016-09-28 2018-04-03 郑州大学 一种基于滑动任务窗的众包质量评估方法
CN108073664A (zh) * 2016-11-11 2018-05-25 北京搜狗科技发展有限公司 一种信息处理方法、装置、设备及客户端设备
CN108073664B (zh) * 2016-11-11 2021-08-31 北京搜狗科技发展有限公司 一种信息处理方法、装置、设备及客户端设备
CN106802941B (zh) * 2016-12-30 2019-12-03 网易(杭州)网络有限公司 一种答复信息的生成方法和设备
CN106802941A (zh) * 2016-12-30 2017-06-06 网易(杭州)网络有限公司 一种答复信息的生成方法和设备
CN107329967A (zh) * 2017-05-12 2017-11-07 北京邮电大学 基于深度学习的问答系统以及方法
CN107329967B (zh) * 2017-05-12 2019-09-24 北京邮电大学 基于深度学习的问答系统以及方法
CN107273492A (zh) * 2017-06-15 2017-10-20 复旦大学 一种基于众包平台处理图像标注任务的交互方法
CN107273492B (zh) * 2017-06-15 2021-07-23 复旦大学 一种基于众包平台处理图像标注任务的交互方法
CN107506411A (zh) * 2017-08-10 2017-12-22 熊英 一种安全可信的知识服务方法与系统
CN108509218A (zh) * 2018-03-05 2018-09-07 中国人民解放军国防科技大学 基于Codepedia众包平台的第三方工具优化方法
CN108509218B (zh) * 2018-03-05 2021-03-26 中国人民解放军国防科技大学 基于Codepedia众包平台的第三方工具优化方法
CN108733654A (zh) * 2018-05-21 2018-11-02 宁波薄言信息技术有限公司 一种信息处理方法
CN110874403B (zh) * 2018-08-29 2024-03-08 株式会社日立制作所 提问回答系统、提问回答处理方法以及提问回答整合系统
CN110874403A (zh) * 2018-08-29 2020-03-10 株式会社日立制作所 提问回答系统、提问回答处理方法以及提问回答整合系统
CN109918525A (zh) * 2019-03-12 2019-06-21 同济大学 基于微信小程序的食物图片美学分析标签数据收集系统
CN109918525B (zh) * 2019-03-12 2023-07-04 同济大学 基于微信小程序的食物图片美学分析标签数据收集系统
CN110046239A (zh) * 2019-04-15 2019-07-23 合肥工业大学 基于情感编辑的对话方法
WO2020263180A1 (en) * 2019-06-24 2020-12-30 Singapore University Of Technology And Design A computational and visualization aid for brainstorming and crowdsourcing of ideas
WO2021084364A1 (en) * 2019-10-31 2021-05-06 International Business Machines Corporation Generation of natural language expression variants
CN110795550A (zh) * 2019-10-31 2020-02-14 中山大学 一种提高闲聊对话系统回答丰富性的方法
US11270075B2 (en) 2019-10-31 2022-03-08 International Business Machines Corporation Generation of natural language expression variants
CN110795550B (zh) * 2019-10-31 2023-04-07 中山大学 一种提高闲聊对话系统回答丰富性的方法
WO2021136009A1 (zh) * 2019-12-31 2021-07-08 阿里巴巴集团控股有限公司 搜索信息的处理方法、装置及电子设备

Also Published As

Publication number Publication date
CN104615755B (zh) 2017-12-01

Similar Documents

Publication Publication Date Title
CN104615755A (zh) 一种基于众包的新型问答系统
CN112214611B (zh) 一种企业知识图谱的构建系统和方法
CN104298785B (zh) 一种众搜资源搜索方法
CN101894351A (zh) 基于多智能Agent的旅游多媒体信息个性化服务系统
CN104239513A (zh) 一种面向领域数据的语义检索方法
CN112508743B (zh) 技术转移办公室通用信息交互方法、终端及介质
CN109783484A (zh) 基于知识图谱的数据服务平台的构建方法及系统
Galhotra et al. Efficient and effective ER with progressive blocking
CN102214227B (zh) 基于互联网层次结构存储的自动舆情监控方法
CN111198969A (zh) 一种基于网络大数据的经济信息咨询系统和方法
Li et al. Discovering enterprise concepts using spreadsheet tables
CN117312499A (zh) 一种基于语义的大数据分析系统及方法
Taleghani Executive information systems development lifecycle
Mehrab et al. Apply uncertainty in document-oriented database (MongoDB) using F-xml
Morente-Molinera et al. Managing multi-criteria group decision making environments with high number of alternatives using fuzzy ontologies
Tarun et al. A novel fragmentation scheme for textual data using similarity-based threshold segmentation method in distributed network environment
Verma et al. Multi agent architecture for search engine
CN113505600B (zh) 一种基于语义概念空间的工业产业链的分布式索引方法
US20230146292A1 (en) Multi-task machine learning with heterogeneous data
Zhang Application and Analysis of Big Data Mining in the Foreign Affairs Translation System
El Mabrouk et al. An approach to extracting distributed data from the integrated environment of web technologies based on set theory
Ye A method of computer library information data management based on network analysis
Hu et al. Scalable Interactive Keyword Query Interface over Knowledge Graph
Mingkun et al. A New Approach to Knowledge Aggregation from the Perspective of Author Collaboration Based on the Knowledge Aggregation Model
Sadineni Mining in Big Data: Challenges, solutions

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant