CN108932289A - 一种基于信息抽取和深度学习的问题回答处理方法及系统 - Google Patents

一种基于信息抽取和深度学习的问题回答处理方法及系统 Download PDF

Info

Publication number
CN108932289A
CN108932289A CN201810500603.6A CN201810500603A CN108932289A CN 108932289 A CN108932289 A CN 108932289A CN 201810500603 A CN201810500603 A CN 201810500603A CN 108932289 A CN108932289 A CN 108932289A
Authority
CN
China
Prior art keywords
answer
weight
semantic
training
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810500603.6A
Other languages
English (en)
Other versions
CN108932289B (zh
Inventor
俞旸
陈琦程
张超仁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Huajian Blue Sea Technology Co Ltd
Original Assignee
Beijing Huajian Blue Sea Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Huajian Blue Sea Technology Co Ltd filed Critical Beijing Huajian Blue Sea Technology Co Ltd
Priority to CN201810500603.6A priority Critical patent/CN108932289B/zh
Publication of CN108932289A publication Critical patent/CN108932289A/zh
Application granted granted Critical
Publication of CN108932289B publication Critical patent/CN108932289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于信息抽取和深度学习的问题回答处理方法及系统,该方法包括:步骤1,抽取问题和答案对;步骤2,将当前问题与问题和答案对比较;步骤3,如果相似度不大于比较期望值,则进行语义理解,得到第一、第二语义集合;步骤4,将第一、二语义集合进行匹配;步骤5,如果匹配度不大于匹配期望值,则确定问题和答案对的初始评分及第一语义集合的中间评分;步骤6,分配权重;步骤7,通过初始评分、权重及中间评分确定最终评分,将最终评分最高的答案作为输出的目标答案;该系统包括:信息抽取模块、相似比较模块、相似判断模块、匹配比较模块、匹配判断模块等。与现有技术相比,本发明具有智能化水平高、响应速度快等突出优点。

Description

一种基于信息抽取和深度学习的问题回答处理方法及系统
技术领域
本发明涉及自然语言处理技术领域,更为具体地,本发明为一种基于信息抽取和深度学习的问题回答处理方法及系统。
背景技术
随着人工智能技术和自然语言处理技术的发展,为实现对信息的快速、准确获取,问答系统应运而生,进而实现通过准确、简洁的自然语言回答用户用自然语言提出的问题。但是,在具体研发问题系统时,其难点在于如何在各种各样的结果中筛选出用户需要的答案。现有的问答系统虽然也能提供相应的答案,比如siri、Cortana等,但是在实际使用过程中,由于实现问题回答的常规方法仍存在设计缺陷,其响应时间过长,往往对用户提出问题的语言表达方式、语句长短等要求过高,而且给出的答案很多也并不是用户需要的,所以现有的问答系统存在准确性差、智能化程度较低等问题。
因此,如何有效提高问答系统的准确性和智能化水平、提高问题回答处理效率、增加用户满意度,成为了本领域技术人员亟待解决的技术问题和始终研究的重点。
发明内容
为解决现有问题回答处理方法存在的准确性差、效率低、智能化水平较低等问题,本发明创新提供了一种基于信息抽取和深度学习的问题回答处理方法及系统,将信息抽取技术和深度学习技术有机地融合起来,从而为本发明提供的问题回答处理方法及系统服务,最终达到提高问题回答的准确性、时效性及智能化水平等目的,从而有效地解决了现有技术存在的诸多问题。
为实现上述技术目的,本发明公开了一种基于信息抽取和深度学习的问题回答处理方法,该方法包括如下步骤,
步骤1,基于信息抽取的方式从数据源中抽取多个问题和答案对,并读取当前问题;
步骤2,将当前问题与各问题和答案对分别进行比较,从而得到当前问题与各问题和答案对的相似度;
步骤3,如果当前问题与各问题和答案对的相似度均小于或等于比较期望值,则基于深度学习的方式对各问题和答案对进行语义理解,以得到与各问题和答案对对应的多个第一语义集合,并且基于深度学习的方式对当前问题进行语义理解,以得到与当前问题对应的第二语义集合;
步骤4,将第二语义集合与各第一语义集合分别进行匹配,从而得到第二语义集合与各第一语义集合的匹配度;
步骤5,如果第二语义集合与各第一语义集合的匹配度均小于或等于匹配期望值,则根据相似度大小确定各问题和答案对的初始评分,并根据匹配度大小确定各第一语义集合的中间评分;
步骤6,读取权重数据库中的权重,分别为各问题和答案对分配第一权重,并分别为各第一语义集合分配第二权重;其中,通过对问题和答案对、与问题和答案对对应的第一语义集合进行训练的方式得到权重数据库中的权重;
步骤7,对于各问题和答案对,将其初始评分与第一权重相乘后得到第一中间值,将与其对应的第一语义集合的中间评分与第二权重相乘后得到第二中间值,将第一中间值与第二中间值的和作为各问题和答案对的最终评分,将最终评分最高的问题和答案对中的答案作为目标答案;
步骤8,将目标答案进行输出;其中,所述目标答案作为当前问题的回答结果。
基于上述技术方案,本发明创新将信息抽取和深度学习的结合应用于问题回答处理方法上,使本发明能够对用户提出的问题进行深层次理解和高精度匹配,从问题本身及其含义上确定出当前问题的准确答案,该方案能够较好地适用于具有复杂文化背景特点的语言,比如中文等。
进一步地,步骤5中,如果第二语义集合与至少一个第一语义集合的匹配度大于匹配期望值,则确定出与第二语义集合的匹配度最大的第一语义集合,将确定出的第一语义集合对应的问题和答案对中的答案作为目标答案;然后执行步骤8。
基于上述改进的技术方案,本发明能在对当前问题语义进行完全匹配或几乎完全匹配的情况下,快速地为用户提供当前问题的准确答案,从而在保证准确性的基础上提高了本发明的响应速度。
进一步地,步骤3中,如果当前问题与至少一个问题和答案对的相似度大于比较期望值,则确定出与当前问题的相似度最大的问题和答案对,将确定出的问题和答案对中的答案作为目标答案;然后执行步骤8。
基于上述改进的技术方案,本发明能在对当前问题字面含义进行完全匹配或几乎完全匹配的情况下,快速地为用户提供当前问题的准确答案,从而在保证准确性的基础上进一步提高了本发明的响应速度。
进一步地,通过如下方式对权重数据库中的权重进行训练:
步骤a,将数据源中的所有问题和答案对作为第一训练集合,将与各问题和答案对对应的所有第一语义集合作为第二训练集合,为第一训练集合和第二训练集合中的一个训练集合中的每个元素分别分配随机权重;再基于训练、验证及测试方式,通过所述随机权重确定另一个训练集合中的每个元素的合适权重;
步骤b,基于训练、验证及测试方式,利用当前最新确定的合适权重确定另一个训练集合中的每个元素的合适权重;
步骤c,对第一训练集合中的各元素的合适权重和第二训练集合中的各元素的合适权重分别进行验证,如果所有验证结果的准确度均超过验证期望值,则执行步骤d,否则返回步骤b;
步骤d,将当前的合适权重作为第一训练集合和第二训练集合的固定权重,从而完成对权重数据库中的权重的训练。
基于上述改进的技术方案,本发明能够通过训练、验证及测试方式为本方案提供合适、准确的权重,以实现对问题和答案对及与其对应的第一语义集合的不同评分进行有效的融合,从而极大提高了本发明对当前问题判断的客观性、合理性及准确性。
进一步地,步骤1中,所述数据源中存储有问题及其准确答案的历史记录。
为实现上述技术目的,本发明还公开了一种基于信息抽取和深度学习的问题回答处理系统,该系统包括信息抽取模块、相似比较模块、相似判断模块、匹配比较模块、匹配判断模块、权重分配模块、答案确定模块及答案输出模块;
所述信息抽取模块,用于基于信息抽取的方式从数据源中抽取多个问题和答案对,并用于读取当前问题;
所述相似比较模块,用于将当前问题与各问题和答案对分别进行比较,从而得到当前问题与各问题和答案对的相似度;
所述相似判断模块,用于判断当前问题与各问题和答案对的相似度是否均小于或等于比较期望值,并在小于或等于的情况下基于深度学习的方式对各问题和答案对进行语义理解,以得到与各问题和答案对对应的多个第一语义集合,并且基于深度学习的方式对当前问题进行语义理解,以得到与当前问题对应的第二语义集合;
所述匹配比较模块,用于将第二语义集合与各第一语义集合分别进行匹配,从而得到第二语义集合与各第一语义集合的匹配度;
所述匹配判断模块,用于判断第二语义集合与各第一语义集合的匹配度是否均小于或等于匹配期望值,并在小于或等于的情况下根据相似度大小确定各问题和答案对的初始评分,并根据匹配度大小确定各第一语义集合的中间评分;
所述权重分配模块,用于读取权重数据库中的权重,分别为各问题和答案对分配第一权重,并分别为各第一语义集合分配第二权重;其中,通过对问题和答案对、与问题和答案对对应的第一语义集合进行训练的方式得到权重数据库中的权重;
所述答案确定模块,对于各问题和答案对,用于将其初始评分与第一权重相乘后得到第一中间值,将与其对应的第一语义集合的中间评分与第二权重相乘后得到第二中间值,将第一中间值与第二中间值的和作为各问题和答案对的最终评分,将最终评分最高的问题和答案对中的答案作为目标答案;
所述答案输出模块,用于输出作为当前问题的回答结果的目标答案。
基于上述技术方案,本发明创新将信息抽取和深度学习的结合应用于问题回答处理系统上,使本发明能够对用户提出的问题进行深层次理解和高精度匹配,从问题本身及其含义上确定出当前问题的准确答案,该方案能够较好地适用于具有复杂文化背景特点的语言,比如中文等。
进一步地,所述匹配判断模块,还用于在第二语义集合与至少一个第一语义集合的匹配度大于匹配期望值时确定出与第二语义集合的匹配度最大的第一语义集合,将确定出的第一语义集合对应的问题和答案对中的答案作为目标答案。
基于上述改进的技术方案,本发明能在对当前问题语义进行完全匹配或几乎完全匹配的情况下,快速地为用户提供当前问题的准确答案,从而在保证准确性的基础上提高了本发明的响应速度。
进一步地,所述相似判断模块,还用于在当前问题与至少一个问题和答案对的相似度大于比较期望值时确定出与当前问题的相似度最大的问题和答案对,将确定出的问题和答案对中的答案作为目标答案。
基于上述改进的技术方案,本发明能在对当前问题字面含义进行完全匹配或几乎完全匹配的情况下,快速地为用户提供当前问题的准确答案,从而在保证准确性的基础上进一步提高了本发明的响应速度。
进一步地,该系统还包括权重训练模块,且权重训练模块包括权重初始化单元、权重再确定单元及准确度验证单元;
权重初始化单元,用于将数据源中的所有问题和答案对作为第一训练集合,将与各问题和答案对对应的所有第一语义集合作为第二训练集合,为第一训练集合和第二训练集合中的一个训练集合中的每个元素分别分配随机权重;再基于训练、验证及测试方式,通过所述随机权重确定另一个训练集合中的每个元素的合适权重;
权重再确定单元,基于训练、验证及测试方式,用于利用当前最新确定的合适权重确定另一个训练集合中的每个元素的合适权重;
准确度验证单元,用于对第一训练集合中的各元素的合适权重和第二训练集合中的各元素的合适权重分别进行验证:如果所有验证结果的准确度均超过验证期望值,则将当前的第一训练集合中的各元素的合适权重和第二训练集合中的各元素的合适权重作为第一训练集合和第二训练集合的固定权重,从而完成对权重数据库中的权重的训练;如果有验证结果的准确度未超过验证期望值,则通过权重再确定单元再次确定合适权重。
基于上述改进的技术方案,本发明能够通过训练、验证及测试方式为本方案提供合适、准确的权重,以实现对问题和答案对及与其对应的第一语义集合的不同评分进行有效的融合,从而极大提高了本发明对当前问题判断的客观性、合理性及准确性。
进一步地,所述数据源中存储有问题及其准确答案的历史记录。
本发明的有益效果为:与现有技术相比,本发明能够有效地提高问题回答的准确性和智能化水平,还具有响应速度快、用户体验效果好等突出优点。
附图说明
图1为本发明涉及的基于信息抽取和深度学习的问题回答处理方法的流程示意图。
具体实施方式
下面结合说明书附图对本发明涉及的一种基于信息抽取和深度学习的问题回答处理方法及系统进行详细的解释和说明。
实施例一:
如图1中所示,本实施例具体公开了一种基于信息抽取和深度学习的问题回答处理方法,该方法提供了为用户提供问题回答结果的三种方式,达到准确度和响应速度同时满足的目的,具体来说,该方法包括如下步骤。
步骤1,基于信息抽取的方式从数据源中抽取多个问题和答案对,并读取当前问题,在本实施例中,数据源中存储有问题及其准确答案的历史记录。上述抽取的“问题和答案对”用于作为后面步骤的输入,“问题和答案对”包括成对出现的问题及其准确(标准)答案。
步骤2,将当前问题与各问题和答案对分别进行比较,从而得到当前问题与各问题和答案对的相似度。
步骤3,如果当前问题与各问题和答案对的相似度均小于或等于比较期望值,则基于深度学习的方式对各问题和答案对进行语义理解,以得到与各问题和答案对对应的多个第一语义集合,并且基于深度学习的方式对当前问题进行语义理解,以得到与当前问题对应的第二语义集合。
短路模式(第一种问题回答方式):如果当前问题与至少一个问题和答案对的相似度大于比较期望值,则确定出与当前问题的相似度最大的问题和答案对,将确定出的问题和答案对中的答案作为目标答案;然后执行步骤8。
步骤4,将第二语义集合与各第一语义集合分别进行匹配,从而得到第二语义集合与各第一语义集合的匹配度。
步骤5,如果第二语义集合与各第一语义集合的匹配度均小于或等于匹配期望值,则根据相似度大小确定各问题和答案对的初始评分,并根据匹配度大小确定各第一语义集合的中间评分;该步骤可理解为对各问题和答案对进行排序,以及为各第一语义集合进行排序;然后对两种排序结果进行融合。
学习模式(第二种问题回答方式):如果第二语义集合与至少一个第一语义集合的匹配度大于匹配期望值,则确定出与第二语义集合的匹配度最大的第一语义集合,将确定出的第一语义集合对应的问题和答案对中的答案作为目标答案;然后执行步骤8。
步骤6,读取权重数据库中的权重,分别为各问题和答案对分配第一权重,并分别为各第一语义集合分配第二权重;其中,通过对问题和答案对、与问题和答案对对应的第一语义集合进行训练的方式得到权重数据库中的权重,具体通过如下方式对权重数据库中的权重进行训练;需要说明的是,为提高本发明的准确度,权重训练过程可反复执行多次,最终可将重复率最高的权重值作为固定权重。
步骤a,将数据源中的所有问题和答案对作为第一训练集合,将与各问题和答案对对应的所有第一语义集合作为第二训练集合,为第一训练集合和第二训练集合中的一个训练集合中的每个元素分别分配随机权重,即本实施例既可以先为第一训练集合分配随机权重,又可先为第二训练集合分配随机权重;再基于训练、验证及测试方式,通过随机权重确定另一个训练集合(如果在先被分配的训练集合为第一训练集合,则此时“另一个训练集合”为第二训练集合;如果在先被分配随机权重的训练集合为第二训练集合,则此时被分配随机权重的训练集合为第一训练集合)中的每个元素的合适权重;步骤b,基于训练、验证及测试方式,利用当前最新确定的合适权重确定另一个训练集合中的每个元素的合适权重;其中,上述“元素”指的是问题和答案对或第一语义集合;步骤c,对第一训练集合中的各元素的合适权重和第二训练集合中的各元素的合适权重分别进行验证,如果所有验证结果的准确度均超过验证期望值,则执行步骤d,否则返回步骤b(进行多次反复迭代);步骤d,此时说明得到的权重已符合投票计算的需求,将当前的合适权重作为第一训练集合和第二训练集合的固定权重,从而完成对权重数据库中的权重的训练。
步骤7,投票模式(第三种问题回答方式):对于各问题和答案对,将其初始评分与第一权重相乘后得到第一中间值,将与其对应的第一语义集合的中间评分与第二权重相乘后得到第二中间值,将第一中间值与第二中间值的和作为各问题和答案对的最终评分,将最终评分最高的问题和答案对中的答案作为目标答案。
步骤8,将目标答案进行输出;其中,目标答案作为当前问题的回答结果。
另外,需要指出的是,本发明涉及的“比较期望值”、匹配期望值及验证期望值可根据具体的问题回答精确度进行合理而明智的设置。
实施例二:
与实施例一基于相同的发明构思,本实施例公开了一种用于实现上述问题回答处理方法的基于信息抽取和深度学习的问题回答处理系统,且该问题回答处理系统用于执行实施例一中的问题回答处理方法,该系统包括信息抽取模块、相似比较模块、相似判断模块、匹配比较模块、匹配判断模块、权重分配模块、答案确定模块及答案输出模块;具体说明如下。
信息抽取模块,该模块可被其他模块共享使用,用于基于信息抽取的方式从数据源中抽取多个问题和答案对,并用于读取当前问题;其中,数据源中存储有问题及其准确答案的历史记录。
相似比较模块,用于将当前问题与各问题和答案对分别进行比较,从而得到当前问题与各问题和答案对的相似度。
相似判断模块,用于判断当前问题与各问题和答案对的相似度是否均小于或等于比较期望值,并在小于或等于的情况下基于深度学习的方式对各问题和答案对进行语义理解,以得到与各问题和答案对对应的多个第一语义集合,并且基于深度学习的方式对当前问题进行语义理解,以得到与当前问题对应的第二语义集合。具体实施时,系统利用深度学习的模型对输入问题和历史记录中的问题和答案对进行深度语义理解,以实现对语言模糊性进行很好的把握。
相似判断模块,还用于在当前问题与至少一个问题和答案对的相似度大于比较期望值时确定出与当前问题的相似度最大的问题和答案对,此时系统发现通过信息抽取得到的历史问题和答案对中存在与当前问题完全一样或足够相似的,这就意味着历史答案可以直接被用来返回给用户,则将确定出的问题和答案对中的答案作为目标答案。
匹配比较模块,用于将第二语义集合与各第一语义集合分别进行匹配,从而得到第二语义集合与各第一语义集合的匹配度。
匹配判断模块,用于判断第二语义集合与各第一语义集合的匹配度是否均小于或等于匹配期望值,并在小于或等于的情况下根据相似度大小确定各问题和答案对的初始评分,并根据匹配度大小确定各第一语义集合的中间评分;匹配判断模块还用于在第二语义集合与至少一个第一语义集合的匹配度大于匹配期望值时确定出与第二语义集合的匹配度最大的第一语义集合,将确定出的第一语义集合对应的问题和答案对中的答案作为目标答案。
权重分配模块,用于读取权重数据库中的权重,分别为各问题和答案对分配第一权重,并分别为各第一语义集合分配第二权重;其中,通过对问题和答案对、与问题和答案对对应的第一语义集合进行训练的方式得到权重数据库中的权重。
本实施例中,该系统还包括权重训练模块,且权重训练模块包括权重初始化单元、权重再确定单元及准确度验证单元;具体如下。
权重初始化单元,用于将数据源中的所有问题和答案对作为第一训练集合,将与各问题和答案对对应的所有第一语义集合作为第二训练集合,为第一训练集合和第二训练集合中的一个训练集合中的每个元素分别分配随机权重;再基于训练、验证及测试方式,通过随机权重确定另一个训练集合中的每个元素的合适权重。
权重再确定单元,基于训练、验证及测试方式,用于利用当前最新确定的合适权重确定另一个训练集合中的每个元素的合适权重。
准确度验证单元,用于对第一训练集合中的各元素的合适权重和第二训练集合中的各元素的合适权重分别进行验证:如果所有验证结果的准确度均超过验证期望值,则将当前的第一训练集合中的各元素的合适权重和第二训练集合中的各元素的合适权重作为第一训练集合和第二训练集合的固定权重,从而完成对权重数据库中的权重的训练;如果有验证结果的准确度未超过验证期望值,则通过权重再确定单元再次确定合适权重。
在实现上述权重训练模块时,本发明可将训练数据拆分为四个部分:训练集、第一训练集合验证集、第二训练集合验证集以及盲测集,盲测集作为最终检验系统的准确率,这部分数据系统之前从未见过,所以是盲测数据。
答案确定模块,对于各问题和答案对,用于将其初始评分与第一权重相乘后得到第一中间值,将与其对应的第一语义集合的中间评分与第二权重相乘后得到第二中间值,将第一中间值与第二中间值的和作为各问题和答案对的最终评分,将最终评分最高的问题和答案对中的答案作为目标答案;
答案输出模块,用于输出作为当前问题的回答结果的目标答案。
在本说明书的描述中,参考术语“本实施例”、“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明实质内容上所作的任何修改、等同替换和简单改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于信息抽取和深度学习的问题回答处理方法,其特征在于:该方法包括如下步骤,
步骤1,基于信息抽取的方式从数据源中抽取多个问题和答案对,并读取当前问题;
步骤2,将当前问题与各问题和答案对分别进行比较,从而得到当前问题与各问题和答案对的相似度;
步骤3,如果当前问题与各问题和答案对的相似度均小于或等于比较期望值,则基于深度学习的方式对各问题和答案对进行语义理解,以得到与各问题和答案对对应的多个第一语义集合,并且基于深度学习的方式对当前问题进行语义理解,以得到与当前问题对应的第二语义集合;
步骤4,将第二语义集合与各第一语义集合分别进行匹配,从而得到第二语义集合与各第一语义集合的匹配度;
步骤5,如果第二语义集合与各第一语义集合的匹配度均小于或等于匹配期望值,则根据相似度大小确定各问题和答案对的初始评分,并根据匹配度大小确定各第一语义集合的中间评分;
步骤6,读取权重数据库中的权重,分别为各问题和答案对分配第一权重,并分别为各第一语义集合分配第二权重;其中,通过对问题和答案对、与问题和答案对对应的第一语义集合进行训练的方式得到权重数据库中的权重;
步骤7,对于各问题和答案对,将其初始评分与第一权重相乘后得到第一中间值,将与其对应的第一语义集合的中间评分与第二权重相乘后得到第二中间值,将第一中间值与第二中间值的和作为各问题和答案对的最终评分,将最终评分最高的问题和答案对中的答案作为目标答案;
步骤8,将目标答案进行输出;其中,所述目标答案作为当前问题的回答结果。
2.根据权利要求1所述的基于信息抽取和深度学习的问题回答处理方法,其特征在于:
步骤5中,如果第二语义集合与至少一个第一语义集合的匹配度大于匹配期望值,则确定出与第二语义集合的匹配度最大的第一语义集合,将确定出的第一语义集合对应的问题和答案对中的答案作为目标答案;然后执行步骤8。
3.根据权利要求2所述的基于信息抽取和深度学习的问题回答处理方法,其特征在于:
步骤3中,如果当前问题与至少一个问题和答案对的相似度大于比较期望值,则确定出与当前问题的相似度最大的问题和答案对,将确定出的问题和答案对中的答案作为目标答案;然后执行步骤8。
4.根据权利要求1至3中任一权利要求所述的基于信息抽取和深度学习的问题回答处理方法,其特征在于:通过如下方式对权重数据库中的权重进行训练:
步骤a,将数据源中的所有问题和答案对作为第一训练集合,将与各问题和答案对对应的所有第一语义集合作为第二训练集合,为第一训练集合和第二训练集合中的一个训练集合中的每个元素分别分配随机权重;再基于训练、验证及测试方式,通过所述随机权重确定另一个训练集合中的每个元素的合适权重;
步骤b,基于训练、验证及测试方式,利用当前最新确定的合适权重确定另一个训练集合中的每个元素的合适权重;
步骤c,对第一训练集合中的各元素的合适权重和第二训练集合中的各元素的合适权重分别进行验证,如果所有验证结果的准确度均超过验证期望值,则执行步骤d,否则返回步骤b;
步骤d,将当前的合适权重作为第一训练集合和第二训练集合的固定权重,从而完成对权重数据库中的权重的训练。
5.根据权利要求4所述的基于信息抽取和深度学习的问题回答处理方法,其特征在于:
步骤1中,所述数据源中存储有问题及其准确答案的历史记录。
6.一种基于信息抽取和深度学习的问题回答处理系统,其特征在于:该系统包括信息抽取模块、相似比较模块、相似判断模块、匹配比较模块、匹配判断模块、权重分配模块、答案确定模块及答案输出模块;
所述信息抽取模块,用于基于信息抽取的方式从数据源中抽取多个问题和答案对,并用于读取当前问题;
所述相似比较模块,用于将当前问题与各问题和答案对分别进行比较,从而得到当前问题与各问题和答案对的相似度;
所述相似判断模块,用于判断当前问题与各问题和答案对的相似度是否均小于或等于比较期望值,并在小于或等于的情况下基于深度学习的方式对各问题和答案对进行语义理解,以得到与各问题和答案对对应的多个第一语义集合,并且基于深度学习的方式对当前问题进行语义理解,以得到与当前问题对应的第二语义集合;
所述匹配比较模块,用于将第二语义集合与各第一语义集合分别进行匹配,从而得到第二语义集合与各第一语义集合的匹配度;
所述匹配判断模块,用于判断第二语义集合与各第一语义集合的匹配度是否均小于或等于匹配期望值,并在小于或等于的情况下根据相似度大小确定各问题和答案对的初始评分,并根据匹配度大小确定各第一语义集合的中间评分;
所述权重分配模块,用于读取权重数据库中的权重,分别为各问题和答案对分配第一权重,并分别为各第一语义集合分配第二权重;其中,通过对问题和答案对、与问题和答案对对应的第一语义集合进行训练的方式得到权重数据库中的权重;
所述答案确定模块,对于各问题和答案对,用于将其初始评分与第一权重相乘后得到第一中间值,将与其对应的第一语义集合的中间评分与第二权重相乘后得到第二中间值,将第一中间值与第二中间值的和作为各问题和答案对的最终评分,将最终评分最高的问题和答案对中的答案作为目标答案;
所述答案输出模块,用于输出作为当前问题的回答结果的目标答案。
7.根据权利要求6所述的基于信息抽取和深度学习的问题回答处理系统,其特征在于:
所述匹配判断模块,还用于在第二语义集合与至少一个第一语义集合的匹配度大于匹配期望值时确定出与第二语义集合的匹配度最大的第一语义集合,将确定出的第一语义集合对应的问题和答案对中的答案作为目标答案。
8.根据权利要求7所述的基于信息抽取和深度学习的问题回答处理系统,其特征在于:
所述相似判断模块,还用于在当前问题与至少一个问题和答案对的相似度大于比较期望值时确定出与当前问题的相似度最大的问题和答案对,将确定出的问题和答案对中的答案作为目标答案。
9.根据权利要求6至8中任一权利要求所述的基于信息抽取和深度学习的问题回答处理系统,其特征在于:该系统还包括权重训练模块,且权重训练模块包括权重初始化单元、权重再确定单元及准确度验证单元;
权重初始化单元,用于将数据源中的所有问题和答案对作为第一训练集合,将与各问题和答案对对应的所有第一语义集合作为第二训练集合,为第一训练集合和第二训练集合中的一个训练集合中的每个元素分别分配随机权重;再基于训练、验证及测试方式,通过所述随机权重确定另一个训练集合中的每个元素的合适权重;
权重再确定单元,基于训练、验证及测试方式,用于利用当前最新确定的合适权重确定另一个训练集合中的每个元素的合适权重;
准确度验证单元,用于对第一训练集合中的各元素的合适权重和第二训练集合中的各元素的合适权重分别进行验证:如果所有验证结果的准确度均超过验证期望值,则将当前的第一训练集合中的各元素的合适权重和第二训练集合中的各元素的合适权重作为第一训练集合和第二训练集合的固定权重,从而完成对权重数据库中的权重的训练;如果有验证结果的准确度未超过验证期望值,则通过权重再确定单元再次确定合适权重。
10.根据权利要求9所述的基于信息抽取和深度学习的问题回答处理系统,其特征在于:所述数据源中存储有问题及其准确答案的历史记录。
CN201810500603.6A 2018-05-23 2018-05-23 一种基于信息抽取和深度学习的问题回答处理方法及系统 Active CN108932289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810500603.6A CN108932289B (zh) 2018-05-23 2018-05-23 一种基于信息抽取和深度学习的问题回答处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810500603.6A CN108932289B (zh) 2018-05-23 2018-05-23 一种基于信息抽取和深度学习的问题回答处理方法及系统

Publications (2)

Publication Number Publication Date
CN108932289A true CN108932289A (zh) 2018-12-04
CN108932289B CN108932289B (zh) 2021-10-15

Family

ID=64449413

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810500603.6A Active CN108932289B (zh) 2018-05-23 2018-05-23 一种基于信息抽取和深度学习的问题回答处理方法及系统

Country Status (1)

Country Link
CN (1) CN108932289B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815482A (zh) * 2018-12-17 2019-05-28 北京百度网讯科技有限公司 一种新闻交互的方法、装置、设备和计算机存储介质
US10832093B1 (en) * 2018-08-09 2020-11-10 Zoox, Inc. Tuning simulated data for optimized neural network activation

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104063497A (zh) * 2014-07-04 2014-09-24 百度在线网络技术(北京)有限公司 观点处理方法和装置以及搜索方法和装置
CN105677783A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统的信息处理方法及装置
CN105893476A (zh) * 2016-03-29 2016-08-24 上海智臻智能网络科技股份有限公司 智能问答方法、知识库优化方法及装置、智能知识库
US20170031923A1 (en) * 2013-09-20 2017-02-02 International Business Machines Corporation Question routing for user communities
US20170046623A1 (en) * 2015-08-13 2017-02-16 International Business Machines Corporation System and method for defining and using different levels of ground truth
CN106844530A (zh) * 2016-12-29 2017-06-13 北京奇虎科技有限公司 一种问答对分类模型的训练方法和装置
CN106897263A (zh) * 2016-12-29 2017-06-27 北京光年无限科技有限公司 基于深度学习的机器人对话交互方法及装置
CN107688608A (zh) * 2017-07-28 2018-02-13 合肥美的智能科技有限公司 智能语音问答方法、装置、计算机设备和可读存储介质
CN107729468A (zh) * 2017-10-12 2018-02-23 华中科技大学 基于深度学习的答案抽取方法及系统
CN107908803A (zh) * 2017-12-26 2018-04-13 上海智臻智能网络科技股份有限公司 问答交互的响应方法及装置、存储介质、终端
CN107980130A (zh) * 2017-11-02 2018-05-01 深圳前海达闼云端智能科技有限公司 自动回答方法、装置、存储介质及电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170031923A1 (en) * 2013-09-20 2017-02-02 International Business Machines Corporation Question routing for user communities
CN104063497A (zh) * 2014-07-04 2014-09-24 百度在线网络技术(北京)有限公司 观点处理方法和装置以及搜索方法和装置
US20170046623A1 (en) * 2015-08-13 2017-02-16 International Business Machines Corporation System and method for defining and using different levels of ground truth
CN105677783A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统的信息处理方法及装置
CN105893476A (zh) * 2016-03-29 2016-08-24 上海智臻智能网络科技股份有限公司 智能问答方法、知识库优化方法及装置、智能知识库
CN106844530A (zh) * 2016-12-29 2017-06-13 北京奇虎科技有限公司 一种问答对分类模型的训练方法和装置
CN106897263A (zh) * 2016-12-29 2017-06-27 北京光年无限科技有限公司 基于深度学习的机器人对话交互方法及装置
CN107688608A (zh) * 2017-07-28 2018-02-13 合肥美的智能科技有限公司 智能语音问答方法、装置、计算机设备和可读存储介质
CN107729468A (zh) * 2017-10-12 2018-02-23 华中科技大学 基于深度学习的答案抽取方法及系统
CN107980130A (zh) * 2017-11-02 2018-05-01 深圳前海达闼云端智能科技有限公司 自动回答方法、装置、存储介质及电子设备
CN107908803A (zh) * 2017-12-26 2018-04-13 上海智臻智能网络科技股份有限公司 问答交互的响应方法及装置、存储介质、终端

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
XIANGZHOU HUANG ET AL.: "A question-answering system over Traditional Chinese Medicine", 《2015 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE》 *
栾克鑫: "基于深度学习的答案融合方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10832093B1 (en) * 2018-08-09 2020-11-10 Zoox, Inc. Tuning simulated data for optimized neural network activation
US11068627B2 (en) 2018-08-09 2021-07-20 Zoox, Inc. Procedural world generation
US11138350B2 (en) 2018-08-09 2021-10-05 Zoox, Inc. Procedural world generation using tertiary data
US11615223B2 (en) 2018-08-09 2023-03-28 Zoox, Inc. Tuning simulated data for optimized neural network activation
US11861790B2 (en) 2018-08-09 2024-01-02 Zoox, Inc. Procedural world generation using tertiary data
CN109815482A (zh) * 2018-12-17 2019-05-28 北京百度网讯科技有限公司 一种新闻交互的方法、装置、设备和计算机存储介质

Also Published As

Publication number Publication date
CN108932289B (zh) 2021-10-15

Similar Documents

Publication Publication Date Title
CN107230174B (zh) 一种基于网络的在线互动学习系统和方法
CN106295807B (zh) 一种信息处理的方法及装置
CN104573028B (zh) 实现智能问答的方法和系统
CN106649742A (zh) 数据库维护方法和装置
CN104573000B (zh) 基于排序学习的自动问答装置及方法
Nursetyo et al. Smart chatbot system for E-commerce assitance based on AIML
US20080126319A1 (en) Automated short free-text scoring method and system
CN110413775A (zh) 一种数据打标签分类方法、装置、终端及存储介质
CN110188272A (zh) 一种基于用户背景的社区问答网站标签推荐方法
CN102262663B (zh) 一种软件缺陷报告修复方法
CN110765254A (zh) 一种融合多视角答案重排序的多文档问答系统模型
CN107292785A (zh) 一种出题方法及系统
CN110378206A (zh) 一种智能审图系统及方法
CN106897384A (zh) 一种要点题自动评价方法及装置
CN110472257A (zh) 一种基于句对的机器翻译引擎测评优选方法及系统
CN109857846A (zh) 用户问句与知识点的匹配方法和装置
CN110288350A (zh) 用户价值预测方法、装置、设备及存储介质
Mohler et al. Equivalence, comparability, and methodological progress
CN104346389A (zh) 口语考试半开放题型的评分方法及系统
CN109375948A (zh) 一种智能功能点识别的软件计价方法
CN107491447A (zh) 建立查询改写判别模型、查询改写判别的方法和对应装置
CN108733791A (zh) 网络事件检测方法
Tack et al. Human and automated CEFR-based grading of short answers
CN111369294B (zh) 软件造价估算方法及装置
CN110366735A (zh) 分析数据的方法、设备及计算机程序

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100023 room 1518, 12th floor, block B, floor 01, building 1, yard 59, Chemical Road, Chaoyang District, Beijing

Applicant after: Beijing Huajian Blue Ocean Medical Technology Co.,Ltd.

Address before: 100000 50735, floor 7, Galaxy sohod block, Dongcheng District, Beijing

Applicant before: BEIJING HUAJIAN LANHAI TECHNOLOGY Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant