CN107329967A - 基于深度学习的问答系统以及方法 - Google Patents

基于深度学习的问答系统以及方法 Download PDF

Info

Publication number
CN107329967A
CN107329967A CN201710334888.6A CN201710334888A CN107329967A CN 107329967 A CN107329967 A CN 107329967A CN 201710334888 A CN201710334888 A CN 201710334888A CN 107329967 A CN107329967 A CN 107329967A
Authority
CN
China
Prior art keywords
subsystem
user
question
deep learning
unidentified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710334888.6A
Other languages
English (en)
Other versions
CN107329967B (zh
Inventor
鄂海红
宋美娜
胡莺夕
王昕睿
白杨
赵鑫禄
王宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201710334888.6A priority Critical patent/CN107329967B/zh
Publication of CN107329967A publication Critical patent/CN107329967A/zh
Application granted granted Critical
Publication of CN107329967B publication Critical patent/CN107329967B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于深度学习的问答系统以及方法。其中方法包括:问答子系统,用于接收输入问题,并对输入问题进行预处理;深度学习子系统,用于提取预处理后的输入问题中的特征信息并生成对应的第一词向量信息,并根据问题分类模型、问题匹配模型和第一词向量信息获取多个推荐问题;问答子系统在用户未从多个推荐问题中选择问题时,将输入问题作为未识别问题;知识库子系统,用于在知识库中存在与未识别问题对应的标准问题时,对与未识别问题对应的标准问题进行标注,并在知识库中不存在与未识别问题对应的标准问题时,根据未识别问题创建新标准问题,并对新标准问题进行标注;深度学习子系统根据标注的标准问题、新标准问题对模型进行训练。

Description

基于深度学习的问答系统以及方法
技术领域
本发明涉及信息技术及数据业务领域,尤其涉及一种基于深度学习的问答系统以及方法。
背景技术
随着国民经济总体平稳增长,IT信息及线上服务快速发展,“互联网+”行业内部的竞争日趋激烈,给互联网行业带来了更高挑战。企业提高用户满意度和提供用户友好的体验,需提供在线客服引导用户操作,保证客服质量和客服响应度。因此,如何有效构建客服系统、利用系统为用户反馈快速准确的回答是迫切需求。
相关技术中,自动问答系统接收用户输入的问题,并对用户的输入问题进行语义处理,获得语义扩展后的问题,然后根据该扩展后的问题初步查找该问题的对应答案,若该问题存在已知答案,则直接返回对应答案,若该问题未知(即该问题不存在对应答案),则将该问题加入未知问题队列,然后,将该未知问题队列中每一个未知问题与已知问题(即存在已知答案的问题)进行相似度运算并将相似度超过阈值的答案,作为该未知问题对应的答案,以解决智能客服知识库单一、不能自主学习增长的问题。
但是,目前存在的问题是,上述自动问答系统对于用户问题在经过语义处理后是否是系统已知并没有统一标准,简单进行相似度计算以进行问题入库,使得精确度并不高,导致知识库中存储的问题可能存在非标准问题,从而导致向用户推荐的问题可能必不符合用户输入的需求,导致用户体验变差。
发明内容
本发明的目的旨在至少在一定程度上解决上述的技术问题之一。
为此,本发明的第一个目的在于提出一种基于深度学习的问答系统。该系统实现了模型的迭代优化更新,从而实现了问答系统的持续优化,提高了推荐问题的准确度,进而更能准确地向用户推荐符合用户需求的问题,提升了用户体验。
本发明的第二个目的在于提出一种基于深度学习的问答方法。
为达到上述目的,本发明第一方面实施例提出一种基于深度学习的问答系统,包括:问答子系统、深度学习子系统和知识库子系统,其中,所述问答子系统,用于接收用户的输入问题,并对所述输入问题进行预处理,并将预处理后的所述输入问题发送至所述深度学习子系统;所述深度学习子系统,用于提取所述预处理后的输入问题中的特征信息,并根据所述特征信息生成对应的第一词向量信息,并根据预设的问题分类模型、问题匹配模型和所述第一词向量信息,从所述知识库子系统的知识库存储的多个标准问题中获取多个推荐问题,并将所述多个推荐问题发送至所述问答子系统;所述问答子系统还用于将所述多个推荐问题提供给所述用户,并在所述用户未从所述多个推荐问题中选择问题时,将所述输入问题作为未识别问题并发送至所述知识库子系统;所述知识库子系统,用于判断所述知识库中是否存在与所述未识别问题对应的标准问题,并在所述知识库中存在与所述未识别问题对应的标准问题时,对与所述未识别问题对应的标准问题进行标注,并在所述知识库中不存在与所述未识别问题对应的标准问题时,根据所述未识别问题创建新标准问题,并对所述新标准问题进行标注;所述深度学习子系统还用于根据标注的与所述未识别问题对应的标准问题、所述新标准问题,对所述问题分类模型和问题匹配模型进行优化训练。
根据本发明实施例的基于深度学习的问答系统,通过对用户的输入问题进行语义分析,知识库中只存储标准问题及答案,并将用户的输入问题与标准问题进行匹配,反馈相似度最高的多个问题作为推荐问题,并将该推荐问题提供给用户,并在用户没有从稿多个推荐问题中选择标准问题时,可将该输入问题作为未识别问题,并对该未识别问题进行标注,以作为深度学习子系统的新增训练数据,以使深度学习子系统根据新增训练数据对问题分类模型和问题匹配模型进行优化训练,实现了模型的迭代优化更新,从而实现了问答系统的持续优化,提高了推荐问题的准确度,进而更能准确地向用户推荐符合用户需求的问题,提升了用户体验。
为达到上述目的,本发明第二方面实施例提出一种基于深度学习的问答方法,包括:接收用户的输入问题,并对所述输入问题进行预处理;提取所述预处理后的输入问题中的特征信息,并根据所述特征信息生成对应的第一词向量信息;根据预设的问题分类模型、问题匹配模型和所述第一词向量信息,从预存储的多个标准问题中获取多个推荐问题;将所述多个推荐问题提供给所述用户,并在所述用户未从所述多个推荐问题中选择问题时,将所述输入问题作为未识别问题;判断所述知识库中是否存在与所述未识别问题对应的标准问题;若存在,则对与所述未识别问题对应的标准问题进行标注;若不存在,则根据所述未识别问题创建新标准问题,并对所述新标准问题进行标注;根据标注的与所述未识别问题对应的标准问题、所述新标准问题,对所述问题分类模型和问题匹配模型进行优化训练。
根据本发明实施例的基于深度学习的问答方法,通过对用户的输入问题进行语义分析,知识库中只存储标准问题及答案,并将用户的输入问题与标准问题进行匹配,反馈相似度最高的多个问题作为推荐问题,并将该推荐问题提供给用户,并在用户没有从稿多个推荐问题中选择标准问题时,可将该输入问题作为未识别问题,并对该未识别问题进行标注,以作为深度学习子系统的新增训练数据,以使深度学习子系统根据新增训练数据对问题分类模型和问题匹配模型进行优化训练,实现了模型的迭代优化更新,从而实现了问答系统的持续优化,提高了推荐问题的准确度,进而更能准确地向用户推荐符合用户需求的问题,提升了用户体验。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的基于深度学习的问答系统的结构示意图;
图2是根据本发明一个具体实施例的基于深度学习的问答系统的结构示意图;
图3是根据本发明一个实施例的基于深度学习的问答系统应用于呼叫中心场景的交互流程图;
图4是根据本发明一个实施例的基于深度学习的问答方法的流程图;
图5是根据本发明一个实施例的获取多个推荐问题的流程图;
图6是根据本发明一个实施例的生成多个推荐问题的示例图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参考附图描述根据本发明实施例的基于深度学习的问答系统以及方法。
图1是根据本发明一个实施例的基于深度学习的问答系统的结构示意图。如图1所示,该基于深度学习的问答系统可以包括:问答子系统110、深度学习子系统120和知识库子系统130。
具体地,问答子系统110可用于接收用户的输入问题,并对输入问题进行预处理,并将预处理后的输入问题发送至深度学习子系统120。
举例而言,假设本发明实施例的基于深度学习的问答系统应用于网站售后客服应答系统,该网站售后客服应答系统可为用户提供人机交互界面,用户可通过该人机交互界面输入问题并查看问题答案等。在用户通过人机交互界面输入了问题,并点击确定输入时,问答子系统110可接收该用户在人机交互界面输入的问题,并对该输入问题进行预处理,例如,可对该输入问题进行非法字符过滤,并通过语言模型对该输入问题进行错误自动纠正,其中,该错误自动纠正可包括但不限于错别字纠正、语法纠正等,最后,将预处理后的输入问题发送到深度学习子系统120。
深度学习子系统120可用于提取预处理后的输入问题中的特征信息,并根据特征信息生成对应的第一词向量信息,并根据预设的问题分类模型、问题匹配模型和第一词向量信息,从知识库子系统130的知识库存储的多个标准问题中获取多个推荐问题,并将多个推荐问题发送至问答子系统110。
更具体地,深度学习子系统120可对预处理后的输入问题进行特征提取,例如,可提取该输入问题中的文本特征,之后,根据提取到的特征信息生成对应的第一词向量信息。其中,可根据提取到的特征信息通过Hash算法、Word2vec等词向量生成工具生成对应的第一词向量信息。之后,深度学习子系统120可分别根据预先建立的问题分类模型、问题匹配模型对该第一词向量信息进行预测,以得到多个推荐问题,最后将该多个推荐问题发送到问答子系统110。
问答子系统110还可用于将多个推荐问题提供给用户,并在用户未从多个推荐问题中选择问题时,将输入问题作为未识别问题并发送至知识库子系统130。作为一种示例,本发明实施例可为用户提供人机交互界面,在深度学习子系统120将多个推荐问题发送给问答子系统110之后,问答子系统110可通过人机界面将该多个推荐问题提供给用户,以便用户根据自身需求对其进行选择,在用户从该多个推荐问题中选择了某个问题时,可从知识库中获取与该用户选择的问题对应的答案信息,并将该答案信息提供给用户;在用户未从该多个推荐问题中选择问题时,可将该用户的输入问题作为未识别问题,并将该未识别问题发送给知识库子系统130,以使得知识库子系统130对该未识别问题进行标注。
知识库子系统130可用于判断知识库中是否存在与未识别问题对应的标准问题,并在知识库中存在与未识别问题对应的标准问题时,对与未识别问题对应的标准问题进行标注,并在知识库中不存在与未识别问题对应的标准问题时,根据未识别问题创建新标准问题,并对新标准问题进行标注。
更具体地,知识库子系统130在接收到问答子系统110发送的未识别问题之后,可判断知识库中是否存在该未识别问题对应的标准问题,若存在,则标记该未识别问题存在对应的标准问题,并对确定该对应的标准问题所属的等级分类,并将该未识别问题与该等级分类、以及该对应的标准问题进行标注。知识库子系统130在判断知识库中不存在与未识别问题对应的标准问题时,可根据未识别问题新建一个标准问题,并对该新标准问题进行标注,例如,确定该新标准问题所属的等级分类,并在该对应的等级分类下新建该标准问题。
深度学习子系统120还可用于根据标注的与未识别问题对应的标准问题、新标准问题,对问题分类模型和问题匹配模型进行优化训练。更具体地,在知识库子系统130对用户未选择的推荐问题进行标注,并将这些标注的问题发送到深度学习子系统120,以使深度学习子系统120根据这些已标注的问题对问题分类模型和问题匹配模型进行优化训练,实现模型的迭代优化更新。
为了便于理解,在本发明的一个实施例中,如图2所示,该深度学习子系统120可包括:词向量生成模块121、问题分类预测模块122、获取模块123、问题匹配模块124和发送模块125。
其中,词向量生成模块121用于提取预处理后的输入问题中的特征信息,并根据特征信息生成对应的第一词向量信息。问题分类预测模块122用于根据问题分类模型对第一词向量信息进行预测,得到输入问题所属的等级分类。获取模块123用于从知识库子系统130的知识库存储的多个标准问题中,获取等级分类下的所有标准问题。词向量生成模块121还可用于提取所有标准问题的特征信息,并根据标准问题的特征信息生成对应的第二词向量信息。问题匹配模块124用于根据第一词向量信息和第二词向量信息,通过问题匹配模型将输入问题分别与所有标准问题进行相似度匹配,生成多个推荐问题。发送模块125用于将多个推荐问题发送至问答子系统110。
可选地,在本发明的一个实施例中,该等级分类可为一级分类。其中,在本发明的实施例中,该问答子系统110还可用于在将多个推荐问题提供给用户的同时,获取一级分类下的二级分类,并将二级分类的分类信息提供给用户。
也就是说,在接收到问答子系统110发送的输入问题之后,词向量生成模块121可提取该输入问题中的特征信息,并根据特征信息生成对应的第一词向量信息。问题分类预测模块122可根据问题分类模型对该第一词向量信息进行预测,得到该输入问题所属的等级分类,如一级分类(比如分类“退货”)。获取模块123从知识库存储的多个标准问题中,获取该一级分类下的所有标准问题,如,如何退货、退货的流程、退货的收件人等等。词向量生成模块121可对该一级分类下的所有标准问题进行特征提取,并生成对应的第二词向量信息。问题匹配模块124可根据第一词向量信息和第二词向量信息,通过问题匹配模型将输入问题分别与所有标准问题进行相似度匹配,以得到相似度排名靠前的N个推荐问题,该N为大于2的正整数,例如,该N可为5。发送模块125可将得到的多个推荐问题发送给问答子系统110,以使问答子系统110通过人机交互界面将该多个推荐问题提供给用户。
为了方便管理、集中处理,可选地,在本发明的一个实施例中,知识库子系统130还可用于对问答子系统110发送的大批量的未识别问题进行聚类,并对聚类后的未识别问题统一进行标注。也就是说,知识库子系统130可对问答子系统110发送的未识别问题先进行存储,并定期对已存储的未识别问题进行集中处理,例如,可采用聚类的方式对已存储的未识别问题进行聚类,之后,分别对聚类后的未识别问题统一进行标注,即将属于同一类的未识别问题进行统计,然后,判断知识库中是否存在与该类未识别问题对应的标准问题,若存在,则对该类未识别问题对应的标准问题进行标注,否则,则根据该类未识别问题创建新标准问题,并对该新标准问题进行标注。
为了提升用户体验,满足用户个性化需求,可选地,在本发明的一个实施例在红,问答子系统110还可用于在将多个推荐问题提供给用户的同时,提供人工服务接口。也就是说,问答子系统110在将推荐问题提供给用户的同时,还可为用户提供人工服务接口,以便用户通过该人工服务接口进行人工服务,以满足用户的个性化需求。
需要说明的是,上述标准问题可与实际应用场景有直接关系,该标准问题可以是该应用厂商根据实际需求和标准自行定义的,例如,假设该实际应用场景可为商品售后场景,则该标准问题可关于商品售后的相关问题,如退货、退款换货等等。
还需要说明的是,用户输入的问题可以是文本形式,还可以是语音形式,当用户输入的语音问题时,可先对该语音进行语音识别,得到对应的文本信息,之后的流程将与用户输入的问题为文本形式的流程一致。举例而言,假设本发明实施例的基于深度学习的问答系统应用于呼叫中心场景,如图3所示,本发明实施例的问答系统可获取用户输入的问题,假设用户输入的问题为语音问题,则先对该语音问题进行语音识别以得到对应的文本信息,之后,可对该文本信息进行预处理(如对该文本进行语言纠正等处理)后,通过深度学习子系统推荐给用户多个(如5个)最相似的推荐问题,即问答子系统可通过人机交互界面将该多个推荐问题提供给用户,用户选择推荐候选集(即多个推荐问题)中的标准问题,或者也难怪乎请求人工服务。当用户选择了推荐问题,则记为系统推荐有效,并将本次对话标记为正确识别并添加至知识库;当用户没有选择推荐问题,则记为系统推荐无效,将本次对话标记为未识别问题,并存储于知识库。知识库子系统对知识库中存储的未识别问题进行聚类,并判断知识库中是否存在聚类后的未识别问题对应的标准问题,若存在,则对该对应的标准问题进行标注,否则新建标准问题,并对该新建的标准问题进行标注。深度学习子系统获取这些标注的标准问题,并根据这些标注的标准问题对问题分类模型和问题匹配模型进行优化训练,实现模型的迭代优化更新。可以理解,在本发明的实施例中,在将多个推荐问题提供给用户的同时,还可确定该多个推荐问题对应的一级分类下的二级分类,并将该二级分类的分类信息提供给用户。
根据本发明实施例的基于深度学习的问答系统,通过对用户的输入问题进行语义分析,知识库中只存储标准问题及答案,并将用户的输入问题与标准问题进行匹配,反馈相似度最高的多个问题作为推荐问题,并将该推荐问题提供给用户,并在用户没有从稿多个推荐问题中选择标准问题时,可将该输入问题作为未识别问题,并对该未识别问题进行标注,以作为深度学习子系统的新增训练数据,以使深度学习子系统根据新增训练数据对问题分类模型和问题匹配模型进行优化训练,实现了模型的迭代优化更新,从而实现了问答系统的持续优化,提高了推荐问题的准确度,进而更能准确地向用户推荐符合用户需求的问题,提升了用户体验。
与上述几种实施例提供的基于深度学习的问答系统相对应,本发明的一种实施例还提供一种基于深度学习的问答方法,由于本发明实施例提供的基于深度学习的问答方法与上述几种实施例提供的基于深度学习的问答系统相对应,因此在前述基于深度学习的问答系统的实施方式也适用于本实施例提供的基于深度学习的问答方法,在本实施例中不再详细描述。图4是根据本发明一个实施例的基于深度学习的问答方法的流程图。需要说明的是,本发明实施例的基于深度学习的问答方法可应用于本发明实施例的基于深度学习的问答系统中。
如图4所示,该基于深度学习的问答方法可以包括:
S410,接收用户的输入问题,并对输入问题进行预处理。
S420,提取预处理后的输入问题中的特征信息,并根据特征信息生成对应的第一词向量信息。
S430,根据预设的问题分类模型、问题匹配模型和第一词向量信息,从预存储的多个标准问题中获取多个推荐问题。
具体而言,在本发明的一个实施例中,如图5所示,上述根据预设的问题分类模型、问题匹配模型和第一词向量信息,从预存储的多个标准问题中获取多个推荐问题的具体实现过程可包括以下步骤:
S431,根据问题分类模型对第一词向量信息进行预测,得到输入问题所属的等级分类。
S432,从知识库子系统的知识库存储的多个标准问题中,获取等级分类下的所有标准问题。
S433,提取所有标准问题的特征信息,并根据标准问题的特征信息生成对应的第二词向量信息。
S434,根据第一词向量信息和第二词向量信息,通过问题匹配模型将输入问题分别与所有标准问题进行相似度匹配,生成多个推荐问题。
例如,深度学习子系统在通过API(Application Programming Interface,应用程序编程接口)接口接收到问答子系统发送的用户的输入问题之后,如图6所示,深度学习子系统可提取该输入问题中的特征信息,并根据该特征信息通过词向量库生成对应的第一词向量信息(即图中的输入问题的词向量序列),并根据问题分类模型对该第一词向量信息进行预测,得到输入问题所属的一级分类,并从知识库存储的多个标准问题中,获取该一级分类下的所有标准问题。然后,提取该一级分类下的所有标准问题的特征信息,并根据该特征信息通过词向量库生成对应的第二词向量信息(即图中的标准问题的词向量序列),之后,根据第一词向量信息和第二词向量信息,通过问题匹配模型将输入问题分别与所有标准问题进行相似度匹配,生成多个推荐问题,例如,可得到5个相似度最高的问题。最后,深度学习子系统可通过接口将该多个推荐问题返回给问答子系统,以便问答子系统将该多个推荐问题提供给用户。
S440,将多个推荐问题提供给用户,并在用户未从多个推荐问题中选择问题时,将输入问题作为未识别问题。
作为一种示例,上述等级分类可为一级分类,则在将多个推荐问题提供给用户的同时,还可获取一级分类下的二级分类,并将二级分类的分类信息提供给用户。
S450,判断知识库中是否存在与未识别问题对应的标准问题。
S460,若存在,则对与未识别问题对应的标准问题进行标注。
S470,若不存在,则根据未识别问题创建新标准问题,并对新标准问题进行标注。
S480,根据标注的与未识别问题对应的标准问题、新标准问题,对问题分类模型和问题匹配模型进行优化训练。
可选地,在本发明的一个实施例中,在用户从多个推荐问题中选择问题时,可获取与用户选择的问题对应的答案信息,并将该答案信息提供给用户。
为了方便统一集中处理,在本发明的一个实施例中,在用户未从多个推荐问题选择问题时,可将该输入问题作为未识别问题存储到知识库中,之后,可在系统维护期间(如每天晚上23点30分)时,可获取当天知识库存储的未识别问题,并对这些存储的未识别问题进行聚类,然后开始对聚类后的未识别问题进行标注,以将标注的未识别问题作为深度学习子系统的训练数据,以便深度学习子系统根据这些训练数据对对问题分类模型和问题匹配模型进行优化训练。
根据本发明实施例的基于深度学习的问答方法,通过对用户的输入问题进行语义分析,知识库中只存储标准问题及答案,并将用户的输入问题与标准问题进行匹配,反馈相似度最高的多个问题作为推荐问题,并将该推荐问题提供给用户,并在用户没有从稿多个推荐问题中选择标准问题时,可将该输入问题作为未识别问题,并对该未识别问题进行标注,以作为深度学习子系统的新增训练数据,以使深度学习子系统根据新增训练数据对问题分类模型和问题匹配模型进行优化训练,实现了模型的迭代优化更新,从而实现了问答系统的持续优化,提高了推荐问题的准确度,进而更能准确地向用户推荐符合用户需求的问题,提升了用户体验。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于深度学习的问答系统,其特征在于,包括:问答子系统、深度学习子系统和知识库子系统,其中,
所述问答子系统,用于接收用户的输入问题,并对所述输入问题进行预处理,并将预处理后的所述输入问题发送至所述深度学习子系统;
所述深度学习子系统,用于提取所述预处理后的输入问题中的特征信息,并根据所述特征信息生成对应的第一词向量信息,并根据预设的问题分类模型、问题匹配模型和所述第一词向量信息,从所述知识库子系统的知识库存储的多个标准问题中获取多个推荐问题,并将所述多个推荐问题发送至所述问答子系统;
所述问答子系统还用于将所述多个推荐问题提供给所述用户,并在所述用户未从所述多个推荐问题中选择问题时,将所述输入问题作为未识别问题并发送至所述知识库子系统;
所述知识库子系统,用于判断所述知识库中是否存在与所述未识别问题对应的标准问题,并在所述知识库中存在与所述未识别问题对应的标准问题时,对与所述未识别问题对应的标准问题进行标注,并在所述知识库中不存在与所述未识别问题对应的标准问题时,根据所述未识别问题创建新标准问题,并对所述新标准问题进行标注;
所述深度学习子系统还用于根据标注的与所述未识别问题对应的标准问题、所述新标准问题,对所述问题分类模型和问题匹配模型进行优化训练。
2.如权利要求1所述的基于深度学习的问答系统,其特征在于,所述深度学习子系统包括:
词向量生成模块,用于提取所述预处理后的输入问题中的特征信息,并根据所述特征信息生成对应的第一词向量信息;
问题分类预测模块,用于根据所述问题分类模型对所述第一词向量信息进行预测,得到所述输入问题所属的等级分类;
获取模块,用于从所述知识库子系统的知识库存储的多个标准问题中,获取所述等级分类下的所有标准问题;
所述词向量生成模块还用于提取所述所有标准问题的特征信息,并根据所述标准问题的特征信息生成对应的第二词向量信息;
问题匹配模块,用于根据所述第一词向量信息和第二词向量信息,通过所述问题匹配模型将所述输入问题分别与所述所有标准问题进行相似度匹配,生成所述多个推荐问题;
发送模块,用于将所述多个推荐问题发送至所述问答子系统。
3.如权利要求2所述的基于深度学习的问答系统,其特征在于,所述等级分类为一级分类,其中,所述问答子系统还用于:在将所述多个推荐问题提供给所述用户的同时,获取所述一级分类下的二级分类,并将所述二级分类的分类信息提供给所述用户。
4.如权利要求1所述的基于深度学习的问答系统,其特征在于,所述问答子系统还用于在所述用户从所述多个推荐问题中选择问题时,获取与所述用户选择的问题对应的答案信息,并将所述答案信息提供给所述用户。
5.如权利要求1所述的基于深度学习的问答系统,其特征在于,所述知识库子系统还用于:对所述问答子系统发送的大批量的未识别问题进行聚类,并对聚类后的未识别问题统一进行标注。
6.如权利要求1所述的基于深度学习的问答系统,其特征在于,所述问答子系统还用于:在将所述多个推荐问题提供给所述用户的同时,提供人工服务接口。
7.一种基于深度学习的问答方法,其特征在于,包括以下步骤:
接收用户的输入问题,并对所述输入问题进行预处理;
提取所述预处理后的输入问题中的特征信息,并根据所述特征信息生成对应的第一词向量信息;
根据预设的问题分类模型、问题匹配模型和所述第一词向量信息,从预存储的多个标准问题中获取多个推荐问题;
将所述多个推荐问题提供给所述用户,并在所述用户未从所述多个推荐问题中选择问题时,将所述输入问题作为未识别问题;
判断所述知识库中是否存在与所述未识别问题对应的标准问题;
若存在,则对与所述未识别问题对应的标准问题进行标注;
若不存在,则根据所述未识别问题创建新标准问题,并对所述新标准问题进行标注;
根据标注的与所述未识别问题对应的标准问题、所述新标准问题,对所述问题分类模型和问题匹配模型进行优化训练。
8.如权利要求7所述的基于深度学习的问答方法,其特征在于,所述根据预设的问题分类模型、问题匹配模型和所述第一词向量信息,从预存储的多个标准问题中获取多个推荐问题,包括:
根据所述问题分类模型对所述第一词向量信息进行预测,得到所述输入问题所属的等级分类;
从所述知识库子系统的知识库存储的多个标准问题中,获取所述等级分类下的所有标准问题;
提取所述所有标准问题的特征信息,并根据所述标准问题的特征信息生成对应的第二词向量信息;
根据所述第一词向量信息和第二词向量信息,通过所述问题匹配模型将所述输入问题分别与所述所有标准问题进行相似度匹配,生成所述多个推荐问题。
9.如权利要求8所述的基于深度学习的问答方法,其特征在于,所述等级分类为一级分类;其中,在将所述多个推荐问题提供给所述用户的同时,所述方法还包括:
获取所述一级分类下的二级分类,并将所述二级分类的分类信息提供给所述用户。
10.如权利要求7所述的基于深度学习的问答方法,其特征在于,还包括:
在所述用户从所述多个推荐问题中选择问题时,获取与所述用户选择的问题对应的答案信息,并将所述答案信息提供给所述用户。
CN201710334888.6A 2017-05-12 2017-05-12 基于深度学习的问答系统以及方法 Active CN107329967B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710334888.6A CN107329967B (zh) 2017-05-12 2017-05-12 基于深度学习的问答系统以及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710334888.6A CN107329967B (zh) 2017-05-12 2017-05-12 基于深度学习的问答系统以及方法

Publications (2)

Publication Number Publication Date
CN107329967A true CN107329967A (zh) 2017-11-07
CN107329967B CN107329967B (zh) 2019-09-24

Family

ID=60193648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710334888.6A Active CN107329967B (zh) 2017-05-12 2017-05-12 基于深度学习的问答系统以及方法

Country Status (1)

Country Link
CN (1) CN107329967B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977236A (zh) * 2017-12-21 2018-05-01 上海智臻智能网络科技股份有限公司 问答系统的生成方法、终端设备、存储介质及问答系统
CN108090174A (zh) * 2017-12-14 2018-05-29 北京邮电大学 一种基于系统功能语法的机器人应答方法及装置
CN108182275A (zh) * 2018-01-24 2018-06-19 上海互教教育科技有限公司 一种数学变式训练题推送系统以及关联方法
CN108197151A (zh) * 2017-12-06 2018-06-22 阿里巴巴集团控股有限公司 文法库的更新方法及装置
CN108920604A (zh) * 2018-06-27 2018-11-30 百度在线网络技术(北京)有限公司 语音交互方法及设备
CN109033270A (zh) * 2018-07-09 2018-12-18 深圳追科技有限公司 一种基于人工客服日志自动构建客服知识库的方法
CN109189901A (zh) * 2018-08-09 2019-01-11 北京中关村科金技术有限公司 一种智能客服系统中自动发现新分类以及对应语料的方法
CN109460448A (zh) * 2018-08-31 2019-03-12 厦门快商通信息技术有限公司 一种可自主配置的faq服务框架
CN109710772A (zh) * 2018-11-13 2019-05-03 国云科技股份有限公司 一种基于深度学习的问答库知识管理系统及其实现方法
CN109783617A (zh) * 2018-12-11 2019-05-21 平安科技(深圳)有限公司 用于答复问题的模型训练方法、装置、设备及存储介质
CN109871439A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种基于深度学习的问答社区问题路由方法
CN109947909A (zh) * 2018-06-19 2019-06-28 平安科技(深圳)有限公司 智能客服应答方法、设备、存储介质及装置
CN110222167A (zh) * 2019-07-03 2019-09-10 阿里巴巴集团控股有限公司 一种获取目标标准信息的方法和系统
CN110428137A (zh) * 2019-07-04 2019-11-08 阿里巴巴集团控股有限公司 一种风险防控策略的更新方法及装置
CN110459210A (zh) * 2019-07-30 2019-11-15 平安科技(深圳)有限公司 基于语音分析的问答方法、装置、设备及存储介质
CN110489533A (zh) * 2019-07-09 2019-11-22 深圳追一科技有限公司 人机对话方法及相关设备
CN110543553A (zh) * 2019-07-31 2019-12-06 平安科技(深圳)有限公司 问题生成方法、装置、计算机设备及存储介质
CN110928991A (zh) * 2019-11-20 2020-03-27 上海智臻智能网络科技股份有限公司 一种问答知识库的更新方法及其装置
CN110955766A (zh) * 2019-11-29 2020-04-03 支付宝(杭州)信息技术有限公司 一种自动扩充智能客服标准问题对的方法和系统
CN111061851A (zh) * 2019-12-12 2020-04-24 中国科学院自动化研究所 基于给定事实的问句生成方法及系统
CN111382235A (zh) * 2018-12-27 2020-07-07 上海智臻智能网络科技股份有限公司 一种问答知识库的优化方法及其装置
CN111858875A (zh) * 2020-05-09 2020-10-30 北京嘀嘀无限科技发展有限公司 智能交互方法、装置、设备及存储介质
CN112559723A (zh) * 2020-12-28 2021-03-26 广东国粒教育技术有限公司 一种基于深度学习的faq检索式问答构建方法及系统
CN113157944A (zh) * 2021-04-30 2021-07-23 携程旅游网络技术(上海)有限公司 基于互动的知识图谱拓展方法、系统、设备及存储介质
CN113918679A (zh) * 2021-09-22 2022-01-11 三一汽车制造有限公司 一种知识问答方法、装置及工程机械
CN111858875B (zh) * 2020-05-09 2024-06-07 北京嘀嘀无限科技发展有限公司 智能交互方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
CN102662929A (zh) * 2012-03-20 2012-09-12 中南大学 一种基于本体的问题智能分析处理的方法和装置
CN104050256A (zh) * 2014-06-13 2014-09-17 西安蒜泥电子科技有限责任公司 基于主动学习的问答方法及采用该方法的问答系统
CN104615755A (zh) * 2015-02-12 2015-05-13 北京航空航天大学 一种基于众包的新型问答系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101373532A (zh) * 2008-07-10 2009-02-25 昆明理工大学 旅游领域faq中文问答系统实现方法
CN101566998A (zh) * 2009-05-26 2009-10-28 华中师范大学 一种基于神经网络的中文问答系统
CN102662929A (zh) * 2012-03-20 2012-09-12 中南大学 一种基于本体的问题智能分析处理的方法和装置
CN104050256A (zh) * 2014-06-13 2014-09-17 西安蒜泥电子科技有限责任公司 基于主动学习的问答方法及采用该方法的问答系统
CN104615755A (zh) * 2015-02-12 2015-05-13 北京航空航天大学 一种基于众包的新型问答系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张宁, 朱礼军: ""中文问答系统问句分析研究综述"", 《情报工程》 *
王恒: ""中文问答系统的研究与实现"", 《中国优秀硕士学位论文全文数据库-信息科技辑》 *

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197151A (zh) * 2017-12-06 2018-06-22 阿里巴巴集团控股有限公司 文法库的更新方法及装置
CN108197151B (zh) * 2017-12-06 2021-08-03 创新先进技术有限公司 文法库的更新方法及装置
CN108090174A (zh) * 2017-12-14 2018-05-29 北京邮电大学 一种基于系统功能语法的机器人应答方法及装置
CN108090174B (zh) * 2017-12-14 2022-01-07 北京邮电大学 一种基于系统功能语法的机器人应答方法及装置
CN107977236B (zh) * 2017-12-21 2020-11-13 上海智臻智能网络科技股份有限公司 问答系统的生成方法、终端设备、存储介质及问答系统
CN107977236A (zh) * 2017-12-21 2018-05-01 上海智臻智能网络科技股份有限公司 问答系统的生成方法、终端设备、存储介质及问答系统
CN108182275A (zh) * 2018-01-24 2018-06-19 上海互教教育科技有限公司 一种数学变式训练题推送系统以及关联方法
CN109947909A (zh) * 2018-06-19 2019-06-28 平安科技(深圳)有限公司 智能客服应答方法、设备、存储介质及装置
CN109947909B (zh) * 2018-06-19 2024-03-12 平安科技(深圳)有限公司 智能客服应答方法、设备、存储介质及装置
CN108920604B (zh) * 2018-06-27 2019-08-13 百度在线网络技术(北京)有限公司 语音交互方法及设备
US10984793B2 (en) 2018-06-27 2021-04-20 Baidu Online Network Technology (Beijing) Co., Ltd. Voice interaction method and device
CN108920604A (zh) * 2018-06-27 2018-11-30 百度在线网络技术(北京)有限公司 语音交互方法及设备
CN109033270A (zh) * 2018-07-09 2018-12-18 深圳追科技有限公司 一种基于人工客服日志自动构建客服知识库的方法
CN109189901A (zh) * 2018-08-09 2019-01-11 北京中关村科金技术有限公司 一种智能客服系统中自动发现新分类以及对应语料的方法
CN109460448A (zh) * 2018-08-31 2019-03-12 厦门快商通信息技术有限公司 一种可自主配置的faq服务框架
CN109710772A (zh) * 2018-11-13 2019-05-03 国云科技股份有限公司 一种基于深度学习的问答库知识管理系统及其实现方法
CN109783617A (zh) * 2018-12-11 2019-05-21 平安科技(深圳)有限公司 用于答复问题的模型训练方法、装置、设备及存储介质
CN109783617B (zh) * 2018-12-11 2024-01-26 平安科技(深圳)有限公司 用于答复问题的模型训练方法、装置、设备及存储介质
CN111382235A (zh) * 2018-12-27 2020-07-07 上海智臻智能网络科技股份有限公司 一种问答知识库的优化方法及其装置
CN109871439B (zh) * 2019-02-18 2020-12-22 华南理工大学 一种基于深度学习的问答社区问题路由方法
CN109871439A (zh) * 2019-02-18 2019-06-11 华南理工大学 一种基于深度学习的问答社区问题路由方法
CN110222167B (zh) * 2019-07-03 2023-04-07 创新先进技术有限公司 一种获取目标标准信息的方法和系统
CN110222167A (zh) * 2019-07-03 2019-09-10 阿里巴巴集团控股有限公司 一种获取目标标准信息的方法和系统
CN110428137A (zh) * 2019-07-04 2019-11-08 阿里巴巴集团控股有限公司 一种风险防控策略的更新方法及装置
CN110489533A (zh) * 2019-07-09 2019-11-22 深圳追一科技有限公司 人机对话方法及相关设备
CN110459210A (zh) * 2019-07-30 2019-11-15 平安科技(深圳)有限公司 基于语音分析的问答方法、装置、设备及存储介质
CN110543553A (zh) * 2019-07-31 2019-12-06 平安科技(深圳)有限公司 问题生成方法、装置、计算机设备及存储介质
CN110928991A (zh) * 2019-11-20 2020-03-27 上海智臻智能网络科技股份有限公司 一种问答知识库的更新方法及其装置
CN110955766A (zh) * 2019-11-29 2020-04-03 支付宝(杭州)信息技术有限公司 一种自动扩充智能客服标准问题对的方法和系统
CN111061851B (zh) * 2019-12-12 2023-08-08 中国科学院自动化研究所 基于给定事实的问句生成方法及系统
CN111061851A (zh) * 2019-12-12 2020-04-24 中国科学院自动化研究所 基于给定事实的问句生成方法及系统
CN111858875A (zh) * 2020-05-09 2020-10-30 北京嘀嘀无限科技发展有限公司 智能交互方法、装置、设备及存储介质
CN111858875B (zh) * 2020-05-09 2024-06-07 北京嘀嘀无限科技发展有限公司 智能交互方法、装置、设备及存储介质
CN112559723A (zh) * 2020-12-28 2021-03-26 广东国粒教育技术有限公司 一种基于深度学习的faq检索式问答构建方法及系统
CN112559723B (zh) * 2020-12-28 2024-05-28 广东国粒教育技术有限公司 一种基于深度学习的faq检索式问答构建方法及系统
CN113157944A (zh) * 2021-04-30 2021-07-23 携程旅游网络技术(上海)有限公司 基于互动的知识图谱拓展方法、系统、设备及存储介质
CN113918679A (zh) * 2021-09-22 2022-01-11 三一汽车制造有限公司 一种知识问答方法、装置及工程机械

Also Published As

Publication number Publication date
CN107329967B (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
CN107329967B (zh) 基于深度学习的问答系统以及方法
AU2019202632B2 (en) Deep learning techniques based multi-purpose conversational agents for processing natural language queries
US11507756B2 (en) System and method for estimation of interlocutor intents and goals in turn-based electronic conversational flow
CN109003624B (zh) 情绪识别方法、装置、计算机设备及存储介质
CN106295807B (zh) 一种信息处理的方法及装置
CN107093431A (zh) 一种对服务质量进行质检的方法及装置
CN106528845A (zh) 基于人工智能的检索纠错方法及装置
CN108829682B (zh) 计算机可读存储介质、智能问答方法及智能问答装置
CN104462600A (zh) 实现来电原因自动分类的方法及装置
US10789533B2 (en) Generating a consistently labeled training dataset by automatically generating and displaying a set of most similar previously-labeled texts and their previously assigned labels for each text that is being labeled for the training dataset
CN112185358A (zh) 意图识别方法、模型的训练方法及其装置、设备、介质
CN108804526A (zh) 兴趣确定系统、兴趣确定方法及存储介质
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
CN108388553A (zh) 对话消除歧义的方法、电子设备及面向厨房的对话系统
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN111062220A (zh) 一种基于记忆遗忘装置的端到端意图识别系统和方法
CN115146124A (zh) 问答系统应答方法及其装置、设备、介质、产品
US20220392434A1 (en) Reducing biases of generative language models
US11314534B2 (en) System and method for interactively guiding users through a procedure
CN110532394A (zh) 订单备注文本的处理方法及系统
US20220129628A1 (en) Artificial intelligence system for business processes
CN110413627A (zh) 一种信息优化方法、装置、服务器及存储介质
US11972467B2 (en) Question-answer expansion
CN114529191A (zh) 用于风险识别的方法和装置
CN117453895B (zh) 一种智能客服应答方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant