CN108491433A - 聊天应答方法、电子装置及存储介质 - Google Patents

聊天应答方法、电子装置及存储介质 Download PDF

Info

Publication number
CN108491433A
CN108491433A CN201810135747.6A CN201810135747A CN108491433A CN 108491433 A CN108491433 A CN 108491433A CN 201810135747 A CN201810135747 A CN 201810135747A CN 108491433 A CN108491433 A CN 108491433A
Authority
CN
China
Prior art keywords
answer
session
candidate
question
session problem
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810135747.6A
Other languages
English (en)
Other versions
CN108491433B (zh
Inventor
于凤英
王健宗
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201810135747.6A priority Critical patent/CN108491433B/zh
Priority to PCT/CN2018/090643 priority patent/WO2019153613A1/zh
Publication of CN108491433A publication Critical patent/CN108491433A/zh
Application granted granted Critical
Publication of CN108491433B publication Critical patent/CN108491433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/01Customer relationship services
    • G06Q30/015Providing customer assistance, e.g. assisting a customer within a business location or via helpdesk
    • G06Q30/016After-sales
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种聊天应答方法,包括:获取会话问题,从问答知识库中查询与所述会话问题相关的候选问题集合,计算会话问题与每个候选问题的文本相似度,判断是否存在会话问题的近似问题,若是,则查找该近似问题的关联答案并输出,否则从问答知识库中查询与所述会话问题相关的候选答案集合,计算所述会话问题与每个候选答案的主题相似度,判断是否存在所述会话问题的近似答案,若是,则将所述近似答案输出,否则构建序列预测模型,将所述会话问题输入所述序列预测模型生成应变答案,将所述应变答案作为目标答案输出。本发明还提供一种电子装置及存储介质。利用本发明可以针对会话问题为客户做出准确和应变的反馈,从而提高服务质量。

Description

聊天应答方法、电子装置及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种聊天应答方法、电子装置及存储介质。
背景技术
随着科技的发展,AI(Artificial Intelligence,人工智能)正逐步改变着我们的生活方式,例如智能问答就是其中一种。当客户通过文字或语音在线咨询时,可以由线上的智能客服为客户进行智能应答。智能问答可以有效缓解客户服务的等待状况,提升服务质量,因而有着非常广阔的前景。
然而,即使是在特定的服务领域,例如金融、银行、证券、保险等垂直的领域中,在线咨询的过程中也会包含一些纯闲聊的内容。此时针对客户输入的聊天会话内容,若无法快速准确和有效应变地响应客户,则会降低智能客服的服务质量,无法为客户带来人性化的高质量体验。
发明内容
鉴于以上原因,有必要提供一种聊天应答方法、电子装置及存储介质,可以针对会话问题为客户做出准确和应变的反馈,从而提高服务质量。
为实现上述目的,本发明提供一种聊天应答方法,该方法包括:预处理步骤:获取客户输入的会话问题,对所述会话问题进行预处理,得到会话问题的文本特征信息,所述文本特征信息包括各词条在所述会话问题中的词性、位置和词类归属信息,所述词类归属包括归属于关键词或命名实体;第一计算步骤:为问答知识库构建倒排索引,所述问答知识库包括预先整理的多个问题以及每个问题关联的一个或多个答案,根据所述文本特征信息,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选问题集合,并分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度;问题检索步骤:根据预设规则及所述文本相似度,判断候选问题集合中是否存在所述会话问题的近似问题,若所述候选问题集合中存在所述会话问题的近似问题,则在问答知识库中查找该近似问题的关联答案,将所述关联答案作为所述会话问题的目标答案输出;第二计算步骤:若所述候选问题集合中不存在所述会话问题的近似问题,则根据所述文本特征信息,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选答案集合,并分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度;答案检索步骤:根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案,若所述候选答案集合中存在所述会话问题的近似答案,则将所述近似答案作为所述会话问题的目标答案输出;答案预测步骤:若候选答案集合中不存在所述会话问题的近似答案,则通过seq2seq模型对所述问答知识库中的各个问题和答案进行编码和解码的迭代训练,从而构建序列预测模型,将所述会话问题输入所述序列预测模型生成应变答案,将所述应变答案作为所述会话问题的目标答案输出。
可选地,所述对所述会话问题进行预处理包括:对所述会话问题进行分词处理,从而切分出会话问题的各词条,所述分词处理的方法包括基于词典进行正向最大匹配和/或基于词典进行逆向最大匹配;对经所述分词处理得到的各词条进行词性解析,并对各词条的词性进行标注,所述词性解析通过经预设大规模语料库训练得到的词性标注模型实现;对所述会话问题进行命名实体识别,从而识别出具有特定意义的命名实体,所述命名实体包括人名、地名、组织机构、专有名词,所述命名实体识别的方法包括基于词典和规则的方法,以及基于统计学习的方法;根据所述各词条以及所述命名实体,从所述会话问题中提取关键词,所述关键词为字符数量多于第一预设阈值的词组,或者为存在于预设词典中的命名实体,所述预设词典包括业务场景专有词典。
可选地,所述分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度包括:构建卷积神经网络,通过所述卷积神经网络对所述问答知识库中的所有问题语句进行样本训练,得到所述问答知识库中问题语句对应的卷积神经网络模型;将所述会话问题和所述候选问题集合中的每个候选问题分别输入所述卷积神经网络模型,通过所述卷积神经网络模型的卷积核卷积得到所述会话问题和所述候选问题集合中的每个候选问题各自对应的特征向量;分别计算所述会话问题对应的特征向量与所述候选问题集合中的每个候选问题对应的特征向量之间的余弦距离,从而得到所述会话问题与所述候选问题集合中每个候选问题的文本相似度;所述分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度包括:采用线性判别分析模型分别提取所述会话问题和所述候选答案集合中每个候选答案的主题向量;分别计算所述会话问题的主题向量与所述候选答案集合中每个候选答案的主题向量之间的余弦距离,从而得到所述会话问题与所述候选答案集合中每个候选答案的主题相似度。
可选地,所述根据预设规则及所述问题相似度,判断候选问题集合中是否存在所述会话问题的近似问题包括:判断是否存在与会话问题的文本相似度大于第二预设阈值的候选问题,若是,则从所述与会话问题的文本相似度大于第二预设阈值的候选问题中选择最大文本相似度对应的候选问题作为所述近似问题;若不存在与会话问题的文本相似度大于第二预设阈值的候选问题,则判定所述候选问题集合中不存在所述会话问题的近似问题;所述根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案包括:判断是否存在与会话问题的主题相似度大于第三预设阈值的候选答案,若是,则从所述与会话问题的主题相似度大于第三预设阈值的候选答案中选择最大主题相似度对应的候选答案作为所述近似答案;若不存在与会话问题的主题相似度大于第三预设阈值的候选答案,则判定所述候选答案集合中不存在所述会话问题的近似答案。
可选地,所述为问答知识库构建倒排索引包括:对问答知识库中的每个问题和答案分别进行分词、词性标注、关键词提取、关键词出现位置记录、分配ID号的操作,以及为每个问题和答案分词后得到的各词条分配ID号;对问答知识库中每个问题和答案根据相应的ID号进行排序,对所述每个问题和答案分词后得到的各词条根据相应的ID号进行排序,并将具有同一词条ID的所有问题ID和答案ID放到该词条对应的倒排记录表中;将所有倒排记录表合并为最终的倒排索引。
可选地,所述seq2seq模型由用于进行所述编码和解码迭代训练的前向长短记忆网络LSTM模型和后向LSTM模型,以及用于计算每次编码和解码的隐藏层信息权重的注意力机制构成。
为实现上述目的,本发明还提供一种电子装置,该电子装置包括存储器和处理器,所述存储器中包括聊天应答程序,该聊天应答程序被所述处理器执行时实现如下步骤:预处理步骤:获取客户输入的会话问题,对所述会话问题进行预处理,得到会话问题的文本特征信息,所述文本特征信息包括各词条在所述会话问题中的词性、位置和词类归属信息,所述词类归属包括归属于关键词或命名实体;第一计算步骤:为问答知识库构建倒排索引,所述问答知识库包括预先整理的多个问题以及每个问题关联的一个或多个答案,根据所述文本特征信息,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选问题集合,并分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度;问题检索步骤:根据预设规则及所述文本相似度,判断候选问题集合中是否存在所述会话问题的近似问题,若所述候选问题集合中存在所述会话问题的近似问题,则在问答知识库中查找该近似问题的关联答案,将所述关联答案作为所述会话问题的目标答案输出;第二计算步骤:若所述候选问题集合中不存在所述会话问题的近似问题,则根据所述文本特征信息,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选答案集合,并分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度;答案检索步骤:根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案,若所述候选答案集合中存在所述会话问题的近似答案,则将所述近似答案作为所述会话问题的目标答案输出;答案预测步骤:若候选答案集合中不存在所述会话问题的近似答案,则通过seq2seq模型对所述问答知识库中的各个问题和答案进行编码和解码的迭代训练,从而构建序列预测模型,将所述会话问题输入所述序列预测模型生成应变答案,将所述应变答案作为所述会话问题的目标答案输出。
可选地,所述对所述会话问题进行预处理包括:对所述会话问题进行分词处理,从而切分出会话问题的各词条,所述分词处理的方法包括基于词典进行正向最大匹配和/或基于词典进行逆向最大匹配;对经所述分词处理得到的各词条进行词性解析,并对各词条的词性进行标注,所述词性解析通过经预设大规模语料库训练得到的词性标注模型实现;对所述会话问题进行命名实体识别,从而识别出具有特定意义的命名实体,所述命名实体包括人名、地名、组织机构、专有名词,所述命名实体识别的方法包括基于词典和规则的方法,以及基于统计学习的方法;根据所述各词条以及所述命名实体,从所述会话问题中提取关键词,所述关键词为字符数量多于第一预设阈值的词组,或者为存在于预设词典中的命名实体,所述预设词典包括业务场景专有词典。
可选地,所述分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度包括:构建卷积神经网络,通过所述卷积神经网络对所述问答知识库中的所有问题语句进行样本训练,得到所述问答知识库中问题语句对应的卷积神经网络模型;将所述会话问题和所述候选问题集合中的每个候选问题分别输入所述卷积神经网络模型,通过所述卷积神经网络模型的卷积核卷积得到所述会话问题和所述候选问题集合中的每个候选问题各自对应的特征向量;分别计算所述会话问题对应的特征向量与所述候选问题集合中的每个候选问题对应的特征向量之间的余弦距离,从而得到所述会话问题与所述候选问题集合中每个候选问题的文本相似度;所述分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度包括:采用线性判别分析模型分别提取所述会话问题和所述候选答案集合中每个候选答案的主题向量;分别计算所述会话问题的主题向量与所述候选答案集合中每个候选答案的主题向量之间的余弦距离,从而得到所述会话问题与所述候选答案集合中每个候选答案的主题相似度。
可选地,所述根据预设规则及所述问题相似度,判断候选问题集合中是否存在所述会话问题的近似问题包括:判断是否存在与会话问题的文本相似度大于第二预设阈值的候选问题,若是,则从所述与会话问题的文本相似度大于第二预设阈值的候选问题中选择最大文本相似度对应的候选问题作为所述近似问题;若不存在与会话问题的文本相似度大于第二预设阈值的候选问题,则判定所述候选问题集合中不存在所述会话问题的近似问题;所述根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案包括:判断是否存在与会话问题的主题相似度大于第三预设阈值的候选答案,若是,则从所述与会话问题的主题相似度大于第三预设阈值的候选答案中选择最大主题相似度对应的候选答案作为所述近似答案;若不存在与会话问题的主题相似度大于第三预设阈值的候选答案,则判定所述候选答案集合中不存在所述会话问题的近似答案。
可选地,所述为问答知识库构建倒排索引包括:对问答知识库中的每个问题和答案分别进行分词、词性标注、关键词提取、关键词出现位置记录、分配ID号的操作,以及为每个问题和答案分词后得到的各词条分配ID号;对问答知识库中每个问题和答案根据相应的ID号进行排序,对所述每个问题和答案分词后得到的各词条根据相应的ID号进行排序,并将具有同一词条ID的所有问题ID和答案ID放到该词条对应的倒排记录表中;将所有倒排记录表合并为最终的倒排索引。
可选地,所述seq2seq模型由用于进行所述编码和解码迭代训练的前向长短记忆网络LSTM模型和后向LSTM模型,以及用于计算每次编码和解码的隐藏层信息权重的注意力机制构成。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括聊天应答程序,该聊天应答程序被处理器执行时,实现如上所述的聊天应答方法的任意步骤。
本发明提出的聊天应答方法、电子装置及存储介质,在获取会话问题并进行预处理后,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选问题集合,并分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度,判断候选问题集合中是否存在所述会话问题的近似问题,若是,则在问答知识库中查找该近似问题的关联答案,将所述关联答案作为所述会话问题的目标答案输出,若所述候选问题集合中不存在所述会话问题的近似问题,则通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选答案集合,并分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案,若是,则将所述近似答案作为所述会话问题的目标答案输出,若候选答案集合中不存在所述会话问题的近似答案,则通过seq2seq模型对所述问答知识库中的各个问题和答案进行编码和解码的迭代训练,从而构建序列预测模型,将所述会话问题输入所述序列预测模型生成应变答案,将所述应变答案作为所述会话问题的目标答案输出,可以针对会话问题为客户做出准确和应变的反馈,从而提高服务质量。
附图说明
图1为本发明电子装置较佳实施例的运行环境示意图;
图2为本发明电子装置与客户端较佳实施例的交互示意图;
图3为本发明聊天应答方法较佳实施例的流程图;
图4为图1中聊天应答程序的程序模块图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将参考若干具体实施例来描述本发明的原理和精神。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本领域的技术人员知道,本发明的实施方式可以实现为一种方法、装置、设备、系统或计算机程序产品。因此,本发明可以具体实现为完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施例,提出了一种聊天应答方法、电子装置及存储介质。
参照图1所示,为本发明电子装置较佳实施例的运行环境示意图。
该电子装置1可以是服务器、便携式计算机、桌上型计算机等具有存储和运算功能的终端设备。
该电子装置1包括存储器11、处理器12、网络接口13及通信总线14。所述网络接口13可选地可以包括标准的有线接口和无线接口(如WI-FI接口)。通信总线14用于实现上述组件之间的连接通信。
存储器11包括至少一种类型的可读存储介质。所述至少一种类型的可读存储介质可为如闪存、硬盘、多媒体卡、卡型存储器等的非易失性存储介质。在一些实施例中,所述可读存储介质可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。在另一些实施例中,所述可读存储介质也可以是所述电子装置1的外部存储器11,例如所述电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
在本实施例中,所述存储器11的可读存储介质通常用于存储安装于所述电子装置1的聊天应答程序10及问答知识库4等。所述存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行聊天应答程序10等。
图1仅示出了具有组件11-14以及聊天应答程序10的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括输入单元比如键盘(Keyboard)、语音输入装置比如麦克风(microphone)等具有语音识别功能的设备、语音输出装置比如音响、耳机等。可选地,用户接口还可以包括标准的有线接口、无线接口。
可选地,该电子装置1还可以包括显示器,显示器也可以称为显示屏或显示单元。在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)显示器等。显示器用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
可选地,该电子装置1还包括触摸传感器。所述触摸传感器所提供的供用户进行触摸操作的区域称为触控区域。此外,这里所述的触摸传感器可以为电阻式触摸传感器、电容式触摸传感器等。而且,所述触摸传感器不仅包括接触式的触摸传感器,也可包括接近式的触摸传感器等。此外,所述触摸传感器可以为单个传感器,也可以为例如阵列布置的多个传感器。用户可以通过触摸所述触控区域启动聊天应答程序10。
此外,该电子装置1的显示器的面积可以与所述触摸传感器的面积相同,也可以不同。可选地,将显示器与所述触摸传感器层叠设置,以形成触摸显示屏。该装置基于触摸显示屏侦测用户触发的触控操作。
该电子装置1还可以包括射频(Radio Frequency,RF)电路、传感器和音频电路等等,在此不再赘述。
参阅图2所示,为本发明电子装置1与客户端2较佳实施例的交互示意图。所述聊天应答程序10运行于电子装置1中,在图2中所述电子装置1的较佳实施例为服务器。所述电子装置1通过网络3与客户端2通信连接。所述客户端2可以运行于各类终端设备中,例如智能手机、便携式计算机等。用户通过客户端2登录至所述电子装置1后,可以向聊天应答程序10输入会话问题,所述会话问题可以为对特定领域的会话问题,也可以为聊天会话内容。聊天应答程序10可以采用所述聊天应答方法,根据所述会话问题确定合适的响应内容,并将所述响应内容反馈给客户端2。
参阅图3所示,为本发明聊天应答方法较佳实施例的流程图。电子装置1的处理器12执行存储器11中存储的聊天应答程序10时实现聊天应答方法的如下步骤:
步骤S1,获取客户输入的会话问题,对所述会话问题进行预处理,得到会话问题的文本特征信息,所述文本特征信息包括各词条在所述会话问题中的词性、位置和词类归属信息,所述词类归属包括归属于关键词或命名实体。所述会话问题例如可以为对特定领域的会话问题,例如“保修期是多久”,也可以为聊天会话内容,例如“今天天气很不错”。为了便于后续对所述会话问题的处理,步骤S1可以先对所述会话问题进行一些预处理。
具体地,步骤S1进行的预处理可以包括如下处理:
对所述会话问题进行分词处理,从而切分出会话问题的各词条,例如,所述会话问题为“保修期是多久”,则分词后得到的词条是“保修期”、“是”、“多”、“久”,所述分词处理的方法包括基于词典进行正向最大匹配和/或基于词典进行逆向最大匹配;
对经所述分词处理得到的各词条进行词性解析,并对各词条的词性进行标注,例如对上述会话问题的示例,按照预设规则进行词性标注后的结果为“保修期/名词”、“是/动词”、“多/副词”、“久/形容词”,所述词性解析通过经预设大规模语料库训练得到的词性标注模型实现;
对所述会话问题进行命名实体识别,从而识别出具有特定意义的命名实体,所述命名实体包括人名、地名、组织机构、专有名词,所述命名实体识别的方法包括基于词典和规则的方法,以及基于统计学习的方法;
根据所述各词条以及所述命名实体,从所述会话问题中提取关键词,所述关键词为字符数量多于第一预设阈值的词组,或者为存在于预设词典中的命名实体,所述预设词典包括业务场景专有词典。
步骤S2,为问答知识库4构建倒排索引,所述问答知识库4包括预先整理的多个问题以及每个问题关联的一个或多个答案,根据所述文本特征信息,通过倒排索引查询的方式从问答知识库4中查询与所述会话问题相关的候选问题集合,并分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度。
在一个实施例中,所述为问答知识库4构建倒排索引包括:
对问答知识库4中的每个问题和答案分别进行分词、词性标注、关键词提取、关键词出现位置记录、分配ID号的操作,以及为每个问题和答案分词后得到的各词条分配ID号;
对问答知识库4中每个问题和答案根据相应的ID号进行排序,对所述每个问题和答案分词后得到的各词条根据相应的ID号进行排序,并将具有同一词条ID的所有问题ID和答案ID放到该词条对应的倒排记录表中;
将所有倒排记录表合并为最终的倒排索引。
所述候选问题集合中包括至少一个候选问题,且由于采用的是倒排索引查询的方式,每个候选问题都与所述会话问题存在一定程度的联系。每个候选问题与所述会话问题的所述联系可以通过所述文本相似度来反映,若会话问题与相应的候选问题之间的文本相似度越高,则认为会话问题与该候选问题越相似。
具体地,步骤S2分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度的方法可以包括:
构建卷积神经网络,通过所述卷积神经网络对所述问答知识库4中的所有问题语句进行样本训练,得到所述问答知识库4中问题语句对应的卷积神经网络模型;
将所述会话问题和所述候选问题集合中的每个候选问题分别输入所述卷积神经网络模型,通过所述卷积神经网络模型的卷积核卷积得到所述会话问题和所述候选问题集合中的每个候选问题各自对应的特征向量;
分别计算所述会话问题对应的特征向量与所述候选问题集合中的每个候选问题对应的特征向量之间的余弦距离,从而得到所述会话问题与所述候选问题集合中每个候选问题的文本相似度。
步骤S3,根据预设规则及所述文本相似度,判断候选问题集合中是否存在所述会话问题的近似问题,若所述候选问题集合中存在所述会话问题的近似问题,则在问答知识库中查找该近似问题的关联答案,将所述关联答案作为所述会话问题的目标答案输出。
具体地,所述预设规则可以包括:判断是否存在与会话问题的文本相似度大于第二预设阈值的候选问题,若存在与会话问题的文本相似度大于第二预设阈值的候选问题,则判定候选问题集合中存在所述会话问题的近似问题。若不存在与会话问题的文本相似度大于第二预设阈值的候选问题,则判定候选问题集合中不存在所述会话问题的近似问题。
若存在与会话问题的文本相似度大于第二预设阈值的候选问题,则步骤S3从所述与会话问题的文本相似度大于第二预设阈值的候选问题中选择最大文本相似度对应的候选问题作为所述近似问题,并在问答知识库4中查找该近似问题的关联答案,将所述关联答案作为所述会话问题的目标答案输出。值得注意的是,所述近似问题在问答知识库4中也可能有不止一个关联答案,当近似问题在问答知识库4中有多个关联答案时,步骤S3可以取所述多个关联答案中,在预设时间段(例如最近一周)内输出频率最高的关联答案作为所述会话问题的目标答案输出。
步骤S4,若所述候选问题集合中不存在所述会话问题的近似问题,则根据所述文本特征信息,通过倒排索引查询的方式从问答知识库4中查询与所述会话问题相关的候选答案集合,并分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度。
所述候选答案集合中包括至少一个候选答案,且由于采用的是倒排索引查询的方式,每个候选答案都与所述会话问题存在一定程度的联系。每个候选答案与所述会话问题的所述联系可以通过所述主题相似度来反映,若会话问题与相应的候选答案之间的主题相似度越高,则认为会话问题与该候选答案的主题越相似,从而认为该候选答案越有可能是该会话问题对应的答案。
具体地,步骤S4分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度的方法可以包括:
所述分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度包括:
采用线性判别分析(Linear Discriminant Analysis,LDA)模型分别提取所述会话问题和所述候选答案集合中每个候选答案的主题向量;
分别计算所述会话问题的主题向量与所述候选答案集合中每个候选答案的主题向量之间的余弦距离,从而得到所述会话问题与所述候选答案集合中每个候选答案的主题相似度。
步骤S5,根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案,若所述候选答案集合中存在所述会话问题的近似答案,则将所述近似答案作为所述会话问题的目标答案输出。
具体地,所述预设规则可以包括:判断是否存在与会话问题的主题相似度大于第三预设阈值的候选答案,若存在与会话问题的主题相似度大于第三预设阈值的候选答案,则判定候选答案集合中存在所述会话问题的近似答案。若不存在与会话问题的主题相似度大于第三预设阈值的候选答案,则判定候选答案集合中不存在所述会话问题的近似答案。
若存在与会话问题的主题相似度大于第三预设阈值的候选答案,则将所述候选答案作为会话问题的近似答案,步骤S5将所述近似答案作为所述会话问题的目标答案输出。值得注意的是,与会话问题的主题相似度大于第三预设阈值的候选答案在问答知识库4中也可能有不止一个,当与会话问题的主题相似度大于第三预设阈值的候选答案在问答知识库4中有多个时,步骤S5可以取所述多个候选答案中,在预设时间段(例如最近一周)内输出频率最高的作为所述会话问题的近似答案。
步骤S6,若候选答案集合中不存在所述会话问题的近似答案,则通过seq2seq模型对所述问答知识库4中的各个问题和答案进行编码和解码的迭代训练,从而构建序列预测模型,将所述会话问题输入所述序列预测模型生成应变答案,将所述应变答案作为所述会话问题的目标答案输出。所述seq2seq模型由用于进行所述编码和解码迭代训练的前向长短记忆网络LSTM模型和后向LSTM模型,以及用于计算每次编码和解码的隐藏层信息权重的注意力机制构成。
根据本实施例提供的聊天应答方法,在获取会话问题并进行预处理后,通过倒排索引查询的方式从问答知识库4中查询与所述会话问题相关的候选问题集合,并分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度,判断候选问题集合中是否存在所述会话问题的近似问题,若是,则在问答知识库4中查找该近似问题的关联答案,将所述关联答案作为所述会话问题的目标答案输出,若所述候选问题集合中不存在所述会话问题的近似问题,则通过倒排索引查询的方式从问答知识库4中查询与所述会话问题相关的候选答案集合,并分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案,若是,则将所述近似答案作为所述会话问题的目标答案输出,若候选答案集合中不存在所述会话问题的近似答案,则通过seq2seq模型对所述问答知识库中的各个问题和答案进行编码和解码的迭代训练,从而构建序列预测模型,将所述会话问题输入所述序列预测模型生成应变答案,将所述应变答案作为所述会话问题的目标答案输出。通过本实施例提供的聊天应答方法可以针对会话问题为客户做出准确和应变的反馈,从而提高服务质量。
参阅图4所示,为图1中聊天应答程序10的程序模块图。在本实施例中,聊天应答程序10被分割为多个模块,该多个模块被存储于存储器11中,并由处理器12执行,以完成本发明。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
所述聊天应答程序10可以被分割为:预处理模块110、第一计算模块120、问题检索模块130、第二计算模块140、答案检索模块150和答案预测模块160。
预处理模块110,用于获取客户输入的会话问题,对所述会话问题进行预处理,得到会话问题的文本特征信息,所述文本特征信息包括各词条在所述会话问题中的词性、位置和词类归属信息,所述词类归属包括归属于关键词或命名实体。
具体地,预处理模块110用于对所述会话问题进行以下预处理:
对所述会话问题进行分词处理,从而切分出会话问题的各词条,所述分词处理的方法包括基于词典进行正向最大匹配和/或基于词典进行逆向最大匹配;
对经所述分词处理得到的各词条进行词性解析,并对各词条的词性进行标注,所述词性解析通过经预设大规模语料库训练得到的词性标注模型实现;
对所述会话问题进行命名实体识别,从而识别出具有特定意义的命名实体,所述命名实体包括人名、地名、组织机构、专有名词,所述命名实体识别的方法包括基于词典和规则的方法,以及基于统计学习的方法;
根据所述各词条以及所述命名实体,从所述会话问题中提取关键词,所述关键词为字符数量多于第一预设阈值的词组,或者为存在于预设词典中的命名实体,所述预设词典包括业务场景专有词典。
第一计算模块120,用于为问答知识库4构建倒排索引,所述问答知识库包括预先整理的多个问题以及每个问题关联的一个或多个答案,根据所述文本特征信息,通过倒排索引查询的方式从问答知识库4中查询与所述会话问题相关的候选问题集合,并分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度。
具体地,第一计算模块120用于通过以下方式为问答知识库4构建倒排索引:
对问答知识库4中的每个问题和答案分别进行分词、词性标注、关键词提取、关键词出现位置记录、分配ID号的操作,以及为每个问题和答案分词后得到的各词条分配ID号;
对问答知识库4中每个问题和答案根据相应的ID号进行排序,对所述每个问题和答案分词后得到的各词条根据相应的ID号进行排序,并将具有同一词条ID的所有问题ID和答案ID放到该词条对应的倒排记录表中;
将所有倒排记录表合并为最终的倒排索引。
第一计算模块120计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度包括:
构建卷积神经网络,通过所述卷积神经网络对所述问答知识库4中的所有问题语句进行样本训练,得到所述问答知识库4中问题语句对应的卷积神经网络模型;
将所述会话问题和所述候选问题集合中的每个候选问题分别输入所述卷积神经网络模型,通过所述卷积神经网络模型的卷积核卷积得到所述会话问题和所述候选问题集合中的每个候选问题各自对应的特征向量;
分别计算所述会话问题对应的特征向量与所述候选问题集合中的每个候选问题对应的特征向量之间的余弦距离,从而得到所述会话问题与所述候选问题集合中每个候选问题的文本相似度。
问题检索模块130,用于根据预设规则及所述文本相似度,判断候选问题集合中是否存在所述会话问题的近似问题,若所述候选问题集合中存在所述会话问题的近似问题,则在问答知识库中查找该近似问题的关联答案,将所述关联答案作为所述会话问题的目标答案输出。
具体地,问题检索模块130判断是否存在与会话问题的文本相似度大于第二预设阈值的候选问题,若是,则从所述与会话问题的文本相似度大于第二预设阈值的候选问题中选择最大文本相似度对应的候选问题作为所述近似问题;若不存在与会话问题的文本相似度大于第二预设阈值的候选问题,则判定所述候选问题集合中不存在所述会话问题的近似问题。
第二计算模块140,用于若所述候选问题集合中不存在所述会话问题的近似问题,则根据所述文本特征信息,通过倒排索引查询的方式从问答知识库4中查询与所述会话问题相关的候选答案集合,并分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度。
第二计算模块140计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度包括:
采用线性判别分析模型分别提取所述会话问题和所述候选答案集合中每个候选答案的主题向量;
分别计算所述会话问题的主题向量与所述候选答案集合中每个候选答案的主题向量之间的余弦距离,从而得到所述会话问题与所述候选答案集合中每个候选答案的主题相似度。
答案检索模块150,用于根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案,若所述候选答案集合中存在所述会话问题的近似答案,则将所述近似答案作为所述会话问题的目标答案输出。
具体地,答案检索模块150判断是否存在与会话问题的主题相似度大于第三预设阈值的候选答案,若是,则从所述与会话问题的主题相似度大于第三预设阈值的候选答案中选择最大主题相似度对应的候选答案作为所述近似答案;若不存在与会话问题的主题相似度大于第三预设阈值的候选答案,则判定所述候选答案集合中不存在所述会话问题的近似答案。
答案预测模块160,用于若候选答案集合中不存在所述会话问题的近似答案,则通过seq2seq模型对所述问答知识库4中的各个问题和答案进行编码和解码的迭代训练,从而构建序列预测模型,将所述会话问题输入所述序列预测模型生成应变答案,将所述应变答案作为所述会话问题的目标答案输出。答案预测模块160所述seq2seq模型由用于进行所述编码和解码迭代训练的前向长短记忆网络LSTM模型和后向LSTM模型,以及用于计算每次编码和解码的隐藏层信息权重的注意力机制构成。
在图1所示的电子装置1较佳实施例的运行环境示意图中,包含可读存储介质的存储器11中可以包括操作系统、聊天应答程序10及问答知识库4。处理器12执行存储器11中存储的聊天应答程序10时实现如下步骤:
预处理步骤:获取客户输入的会话问题,对所述会话问题进行预处理,得到会话问题的文本特征信息,所述文本特征信息包括各词条在所述会话问题中的词性、位置和词类归属信息,所述词类归属包括归属于关键词或命名实体;
第一计算步骤:为问答知识库构建倒排索引,所述问答知识库包括预先整理的多个问题以及每个问题关联的一个或多个答案,根据所述文本特征信息,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选问题集合,并分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度;
问题检索步骤:根据预设规则及所述文本相似度,判断候选问题集合中是否存在所述会话问题的近似问题,若所述候选问题集合中存在所述会话问题的近似问题,则在问答知识库中查找该近似问题的关联答案,将所述关联答案作为所述会话问题的目标答案输出;
第二计算步骤:若所述候选问题集合中不存在所述会话问题的近似问题,则根据所述文本特征信息,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选答案集合,并分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度;
答案检索步骤:根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案,若所述候选答案集合中存在所述会话问题的近似答案,则将所述近似答案作为所述会话问题的目标答案输出;
答案预测步骤:若候选答案集合中不存在所述会话问题的近似答案,则通过seq2seq模型对所述问答知识库中的各个问题和答案进行编码和解码的迭代训练,从而构建序列预测模型,将所述会话问题输入所述序列预测模型生成应变答案,将所述应变答案作为所述会话问题的目标答案输出。
其中,所述对所述会话问题进行预处理包括:
对所述会话问题进行分词处理,从而切分出会话问题的各词条,所述分词处理的方法包括基于词典进行正向最大匹配和/或基于词典进行逆向最大匹配;
对经所述分词处理得到的各词条进行词性解析,并对各词条的词性进行标注,所述词性解析通过经预设大规模语料库训练得到的词性标注模型实现;
对所述会话问题进行命名实体识别,从而识别出具有特定意义的命名实体,所述命名实体包括人名、地名、组织机构、专有名词,所述命名实体识别的方法包括基于词典和规则的方法,以及基于统计学习的方法;
根据所述各词条以及所述命名实体,从所述会话问题中提取关键词,所述关键词为字符数量多于第一预设阈值的词组,或者为存在于预设词典中的命名实体,所述预设词典包括业务场景专有词典。
所述分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度包括:
构建卷积神经网络,通过所述卷积神经网络对所述问答知识库中的所有问题语句进行样本训练,得到所述问答知识库中问题语句对应的卷积神经网络模型;
将所述会话问题和所述候选问题集合中的每个候选问题分别输入所述卷积神经网络模型,通过所述卷积神经网络模型的卷积核卷积得到所述会话问题和所述候选问题集合中的每个候选问题各自对应的特征向量;
分别计算所述会话问题对应的特征向量与所述候选问题集合中的每个候选问题对应的特征向量之间的余弦距离,从而得到所述会话问题与所述候选问题集合中每个候选问题的文本相似度;
所述分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度包括:
采用线性判别分析模型分别提取所述会话问题和所述候选答案集合中每个候选答案的主题向量;
分别计算所述会话问题的主题向量与所述候选答案集合中每个候选答案的主题向量之间的余弦距离,从而得到所述会话问题与所述候选答案集合中每个候选答案的主题相似度。
所述根据预设规则及所述问题相似度,判断候选问题集合中是否存在所述会话问题的近似问题包括:
判断是否存在与会话问题的文本相似度大于第二预设阈值的候选问题,若是,则从所述与会话问题的文本相似度大于第二预设阈值的候选问题中选择最大文本相似度对应的候选问题作为所述近似问题;
若不存在与会话问题的文本相似度大于第二预设阈值的候选问题,则判定所述候选问题集合中不存在所述会话问题的近似问题;
所述根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案包括:
判断是否存在与会话问题的主题相似度大于第三预设阈值的候选答案,若是,则从所述与会话问题的主题相似度大于第三预设阈值的候选答案中选择最大主题相似度对应的候选答案作为所述近似答案;
若不存在与会话问题的主题相似度大于第三预设阈值的候选答案,则判定所述候选答案集合中不存在所述会话问题的近似答案。
所述为问答知识库构建倒排索引包括:
对问答知识库中的每个问题和答案分别进行分词、词性标注、关键词提取、关键词出现位置记录、分配ID号的操作,以及为每个问题和答案分词后得到的各词条分配ID号;
对问答知识库中每个问题和答案根据相应的ID号进行排序,对所述每个问题和答案分词后得到的各词条根据相应的ID号进行排序,并将具有同一词条ID的所有问题ID和答案ID放到该词条对应的倒排记录表中;
将所有倒排记录表合并为最终的倒排索引。
所述seq2seq模型由用于进行所述编码和解码迭代训练的前向长短记忆网络LSTM模型和后向LSTM模型,以及用于计算每次编码和解码的隐藏层信息权重的注意力机制构成。
具体原理请参照上述图4关于聊天应答程序10的程序模块图及图3关于聊天应答方法较佳实施例的流程图的介绍。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括存储有问答知识库4及聊天应答程序10等,所述聊天应答程序10被所述处理器12执行时实现如下操作:
预处理步骤:获取客户输入的会话问题,对所述会话问题进行预处理,得到会话问题的文本特征信息,所述文本特征信息包括各词条在所述会话问题中的词性、位置和词类归属信息,所述词类归属包括归属于关键词或命名实体;
第一计算步骤:为问答知识库构建倒排索引,所述问答知识库包括预先整理的多个问题以及每个问题关联的一个或多个答案,根据所述文本特征信息,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选问题集合,并分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度;
问题检索步骤:根据预设规则及所述文本相似度,判断候选问题集合中是否存在所述会话问题的近似问题,若所述候选问题集合中存在所述会话问题的近似问题,则在问答知识库中查找该近似问题的关联答案,将所述关联答案作为所述会话问题的目标答案输出;
第二计算步骤:若所述候选问题集合中不存在所述会话问题的近似问题,则根据所述文本特征信息,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选答案集合,并分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度;
答案检索步骤:根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案,若所述候选答案集合中存在所述会话问题的近似答案,则将所述近似答案作为所述会话问题的目标答案输出;
答案预测步骤:若候选答案集合中不存在所述会话问题的近似答案,则通过seq2seq模型对所述问答知识库中的各个问题和答案进行编码和解码的迭代训练,从而构建序列预测模型,将所述会话问题输入所述序列预测模型生成应变答案,将所述应变答案作为所述会话问题的目标答案输出。
其中,所述对所述会话问题进行预处理包括:
对所述会话问题进行分词处理,从而切分出会话问题的各词条,所述分词处理的方法包括基于词典进行正向最大匹配和/或基于词典进行逆向最大匹配;
对经所述分词处理得到的各词条进行词性解析,并对各词条的词性进行标注,所述词性解析通过经预设大规模语料库训练得到的词性标注模型实现;
对所述会话问题进行命名实体识别,从而识别出具有特定意义的命名实体,所述命名实体包括人名、地名、组织机构、专有名词,所述命名实体识别的方法包括基于词典和规则的方法,以及基于统计学习的方法;
根据所述各词条以及所述命名实体,从所述会话问题中提取关键词,所述关键词为字符数量多于第一预设阈值的词组,或者为存在于预设词典中的命名实体,所述预设词典包括业务场景专有词典。
所述分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度包括:
构建卷积神经网络,通过所述卷积神经网络对所述问答知识库中的所有问题语句进行样本训练,得到所述问答知识库中问题语句对应的卷积神经网络模型;
将所述会话问题和所述候选问题集合中的每个候选问题分别输入所述卷积神经网络模型,通过所述卷积神经网络模型的卷积核卷积得到所述会话问题和所述候选问题集合中的每个候选问题各自对应的特征向量;
分别计算所述会话问题对应的特征向量与所述候选问题集合中的每个候选问题对应的特征向量之间的余弦距离,从而得到所述会话问题与所述候选问题集合中每个候选问题的文本相似度;
所述分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度包括:
采用线性判别分析模型分别提取所述会话问题和所述候选答案集合中每个候选答案的主题向量;
分别计算所述会话问题的主题向量与所述候选答案集合中每个候选答案的主题向量之间的余弦距离,从而得到所述会话问题与所述候选答案集合中每个候选答案的主题相似度。
所述根据预设规则及所述问题相似度,判断候选问题集合中是否存在所述会话问题的近似问题包括:
判断是否存在与会话问题的文本相似度大于第二预设阈值的候选问题,若是,则从所述与会话问题的文本相似度大于第二预设阈值的候选问题中选择最大文本相似度对应的候选问题作为所述近似问题;
若不存在与会话问题的文本相似度大于第二预设阈值的候选问题,则判定所述候选问题集合中不存在所述会话问题的近似问题;
所述根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案包括:
判断是否存在与会话问题的主题相似度大于第三预设阈值的候选答案,若是,则从所述与会话问题的主题相似度大于第三预设阈值的候选答案中选择最大主题相似度对应的候选答案作为所述近似答案;
若不存在与会话问题的主题相似度大于第三预设阈值的候选答案,则判定所述候选答案集合中不存在所述会话问题的近似答案。
所述为问答知识库构建倒排索引包括:
对问答知识库中的每个问题和答案分别进行分词、词性标注、关键词提取、关键词出现位置记录、分配ID号的操作,以及为每个问题和答案分词后得到的各词条分配ID号;
对问答知识库中每个问题和答案根据相应的ID号进行排序,对所述每个问题和答案分词后得到的各词条根据相应的ID号进行排序,并将具有同一词条ID的所有问题ID和答案ID放到该词条对应的倒排记录表中;
将所有倒排记录表合并为最终的倒排索引。
所述seq2seq模型由用于进行所述编码和解码迭代训练的前向长短记忆网络LSTM模型和后向LSTM模型,以及用于计算每次编码和解码的隐藏层信息权重的注意力机制构成。
本发明之计算机可读存储介质的具体实施方式与上述聊天应答方法以及电子装置1的具体实施方式大致相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种聊天应答方法,其特征在于,该方法包括:
预处理步骤:获取客户输入的会话问题,对所述会话问题进行预处理,得到会话问题的文本特征信息,所述文本特征信息包括各词条在所述会话问题中的词性、位置和词类归属信息,所述词类归属包括归属于关键词或命名实体;
第一计算步骤:为问答知识库构建倒排索引,所述问答知识库包括预先整理的多个问题以及每个问题关联的一个或多个答案,根据所述文本特征信息,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选问题集合,并分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度;
问题检索步骤:根据预设规则及所述文本相似度,判断候选问题集合中是否存在所述会话问题的近似问题,若所述候选问题集合中存在所述会话问题的近似问题,则在问答知识库中查找该近似问题的关联答案,将所述关联答案作为所述会话问题的目标答案输出;
第二计算步骤:若所述候选问题集合中不存在所述会话问题的近似问题,则根据所述文本特征信息,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选答案集合,并分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度;
答案检索步骤:根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案,若所述候选答案集合中存在所述会话问题的近似答案,则将所述近似答案作为所述会话问题的目标答案输出;
答案预测步骤:若候选答案集合中不存在所述会话问题的近似答案,则通过seq2seq模型对所述问答知识库中的各个问题和答案进行编码和解码的迭代训练,从而构建序列预测模型,将所述会话问题输入所述序列预测模型生成应变答案,将所述应变答案作为所述会话问题的目标答案输出。
2.如权利要求1所述的聊天应答方法,其特征在于,所述对所述会话问题进行预处理包括:
对所述会话问题进行分词处理,从而切分出会话问题的各词条,所述分词处理的方法包括基于词典进行正向最大匹配和/或基于词典进行逆向最大匹配;
对经所述分词处理得到的各词条进行词性解析,并对各词条的词性进行标注,所述词性解析通过经预设大规模语料库训练得到的词性标注模型实现;
对所述会话问题进行命名实体识别,从而识别出具有特定意义的命名实体,所述命名实体包括人名、地名、组织机构、专有名词,所述命名实体识别的方法包括基于词典和规则的方法,以及基于统计学习的方法;
根据所述各词条以及所述命名实体,从所述会话问题中提取关键词,所述关键词为字符数量多于第一预设阈值的词组,或者为存在于预设词典中的命名实体,所述预设词典包括业务场景专有词典。
3.如权利要求1所述的聊天应答方法,其特征在于,所述分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度包括:
构建卷积神经网络,通过所述卷积神经网络对所述问答知识库中的所有问题语句进行样本训练,得到所述问答知识库中问题语句对应的卷积神经网络模型;
将所述会话问题和所述候选问题集合中的每个候选问题分别输入所述卷积神经网络模型,通过所述卷积神经网络模型的卷积核卷积得到所述会话问题和所述候选问题集合中的每个候选问题各自对应的特征向量;
分别计算所述会话问题对应的特征向量与所述候选问题集合中的每个候选问题对应的特征向量之间的余弦距离,从而得到所述会话问题与所述候选问题集合中每个候选问题的文本相似度;
所述分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度包括:
采用线性判别分析模型分别提取所述会话问题和所述候选答案集合中每个候选答案的主题向量;
分别计算所述会话问题的主题向量与所述候选答案集合中每个候选答案的主题向量之间的余弦距离,从而得到所述会话问题与所述候选答案集合中每个候选答案的主题相似度。
4.如权利要求1所述的聊天应答方法,其特征在于,所述根据预设规则及所述问题相似度,判断候选问题集合中是否存在所述会话问题的近似问题包括:
判断是否存在与会话问题的文本相似度大于第二预设阈值的候选问题,若是,则从所述与会话问题的文本相似度大于第二预设阈值的候选问题中选择最大文本相似度对应的候选问题作为所述近似问题;
若不存在与会话问题的文本相似度大于第二预设阈值的候选问题,则判定所述候选问题集合中不存在所述会话问题的近似问题;
所述根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案包括:
判断是否存在与会话问题的主题相似度大于第三预设阈值的候选答案,若是,则从所述与会话问题的主题相似度大于第三预设阈值的候选答案中选择最大主题相似度对应的候选答案作为所述近似答案;
若不存在与会话问题的主题相似度大于第三预设阈值的候选答案,则判定所述候选答案集合中不存在所述会话问题的近似答案。
5.如权利要求1所述的聊天应答方法,其特征在于,所述为问答知识库构建倒排索引包括:
对问答知识库中的每个问题和答案分别进行分词、词性标注、关键词提取、关键词出现位置记录、分配ID号的操作,以及为每个问题和答案分词后得到的各词条分配ID号;
对问答知识库中每个问题和答案根据相应的ID号进行排序,对所述每个问题和答案分词后得到的各词条根据相应的ID号进行排序,并将具有同一词条ID的所有问题ID和答案ID放到该词条对应的倒排记录表中;
将所有倒排记录表合并为最终的倒排索引。
6.如权利要求1所述的聊天应答方法,其特征在于,所述seq2seq模型由用于进行所述编码和解码迭代训练的前向长短记忆网络LSTM模型和后向LSTM模型,以及用于计算每次编码和解码的隐藏层信息权重的注意力机制构成。
7.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中包括聊天应答程序,该聊天应答程序被所述处理器执行时实现如下步骤:
预处理步骤:获取客户输入的会话问题,对所述会话问题进行预处理,得到会话问题的文本特征信息,所述文本特征信息包括各词条在所述会话问题中的词性、位置和词类归属信息,所述词类归属包括归属于关键词或命名实体;
第一计算步骤:为问答知识库构建倒排索引,所述问答知识库包括预先整理的多个问题以及每个问题关联的一个或多个答案,根据所述文本特征信息,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选问题集合,并分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度;
问题检索步骤:根据预设规则及所述文本相似度,判断候选问题集合中是否存在所述会话问题的近似问题,若所述候选问题集合中存在所述会话问题的近似问题,则在问答知识库中查找该近似问题的关联答案,将所述关联答案作为所述会话问题的目标答案输出;
第二计算步骤:若所述候选问题集合中不存在所述会话问题的近似问题,则根据所述文本特征信息,通过倒排索引查询的方式从问答知识库中查询与所述会话问题相关的候选答案集合,并分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度;
答案检索步骤:根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案,若所述候选答案集合中存在所述会话问题的近似答案,则将所述近似答案作为所述会话问题的目标答案输出;
答案预测步骤:若候选答案集合中不存在所述会话问题的近似答案,则通过seq2seq模型对所述问答知识库中的各个问题和答案进行编码和解码的迭代训练,从而构建序列预测模型,将所述会话问题输入所述序列预测模型生成应变答案,将所述应变答案作为所述会话问题的目标答案输出。
8.如权利要求7所述的电子装置,其特征在于,所述分别计算所述会话问题与所述候选问题集合中每个候选问题的文本相似度包括:
构建卷积神经网络,通过所述卷积神经网络对所述问答知识库中的所有问题语句进行样本训练,得到所述问答知识库中问题语句对应的卷积神经网络模型;
将所述会话问题和所述候选问题集合中的每个候选问题分别输入所述卷积神经网络模型,通过所述卷积神经网络模型的卷积核卷积得到所述会话问题和所述候选问题集合中的每个候选问题各自对应的特征向量;
分别计算所述会话问题对应的特征向量与所述候选问题集合中的每个候选问题对应的特征向量之间的余弦距离,从而得到所述会话问题与所述候选问题集合中每个候选问题的文本相似度;
所述分别计算所述会话问题与所述候选答案集合中每个候选答案的主题相似度包括:
采用线性判别分析模型分别提取所述会话问题和所述候选答案集合中每个候选答案的主题向量;
分别计算所述会话问题的主题向量与所述候选答案集合中每个候选答案的主题向量之间的余弦距离,从而得到所述会话问题与所述候选答案集合中每个候选答案的主题相似度。
9.如权利要求8所述的电子装置,其特征在于,所述根据预设规则及所述问题相似度,判断候选问题集合中是否存在所述会话问题的近似问题包括:
判断是否存在与会话问题的文本相似度大于第二预设阈值的候选问题,若是,则从所述与会话问题的文本相似度大于第二预设阈值的候选问题中选择最大文本相似度对应的候选问题作为所述近似问题;
若不存在与会话问题的文本相似度大于第二预设阈值的候选问题,则判定所述候选问题集合中不存在所述会话问题的近似问题;
所述根据预设规则及所述主题相似度,判断候选答案集合中是否存在所述会话问题的近似答案包括:
判断是否存在与会话问题的主题相似度大于第三预设阈值的候选答案,若是,则从所述与会话问题的主题相似度大于第三预设阈值的候选答案中选择最大主题相似度对应的候选答案作为所述近似答案;
若不存在与会话问题的主题相似度大于第三预设阈值的候选答案,则判定所述候选答案集合中不存在所述会话问题的近似答案。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括聊天应答程序,所述聊天应答程序被处理器执行时,实现如权利要求1至6中任一项所述的聊天应答方法的步骤。
CN201810135747.6A 2018-02-09 2018-02-09 聊天应答方法、电子装置及存储介质 Active CN108491433B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810135747.6A CN108491433B (zh) 2018-02-09 2018-02-09 聊天应答方法、电子装置及存储介质
PCT/CN2018/090643 WO2019153613A1 (zh) 2018-02-09 2018-06-11 聊天应答方法、电子装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810135747.6A CN108491433B (zh) 2018-02-09 2018-02-09 聊天应答方法、电子装置及存储介质

Publications (2)

Publication Number Publication Date
CN108491433A true CN108491433A (zh) 2018-09-04
CN108491433B CN108491433B (zh) 2022-05-03

Family

ID=63340316

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810135747.6A Active CN108491433B (zh) 2018-02-09 2018-02-09 聊天应答方法、电子装置及存储介质

Country Status (2)

Country Link
CN (1) CN108491433B (zh)
WO (1) WO2019153613A1 (zh)

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299250A (zh) * 2018-09-14 2019-02-01 广州神马移动信息科技有限公司 答案的展示方法、装置、存储介质及电子设备
CN109299242A (zh) * 2018-10-19 2019-02-01 武汉斗鱼网络科技有限公司 一种会话生成方法、装置、终端设备及存储介质
CN109344242A (zh) * 2018-09-28 2019-02-15 广东工业大学 一种对话问答方法、装置、设备及存储介质
CN109359182A (zh) * 2018-10-08 2019-02-19 网宿科技股份有限公司 一种应答方法及装置
CN109446314A (zh) * 2018-11-14 2019-03-08 沈文策 一种客服问题处理方法及装置
CN109492086A (zh) * 2018-11-26 2019-03-19 北京羽扇智信息科技有限公司 一种答案输出方法、装置、电子设备及存储介质
CN109492085A (zh) * 2018-11-15 2019-03-19 平安科技(深圳)有限公司 基于数据处理的答案确定方法、装置、终端及存储介质
CN109543017A (zh) * 2018-11-21 2019-03-29 广州语义科技有限公司 法律问题关键词生成方法及其系统
CN109685462A (zh) * 2018-12-21 2019-04-26 义橙网络科技(上海)有限公司 一种人岗匹配方法、装置、系统、设备及介质
CN109726265A (zh) * 2018-12-13 2019-05-07 深圳壹账通智能科技有限公司 辅助聊天的信息处理方法、设备及计算机可读存储介质
CN109766421A (zh) * 2018-12-28 2019-05-17 上海汇付数据服务有限公司 智能问答系统以及方法
CN109829046A (zh) * 2019-01-18 2019-05-31 青牛智胜(深圳)科技有限公司 一种智能坐席系统及方法
CN109829478A (zh) * 2018-12-29 2019-05-31 平安科技(深圳)有限公司 一种基于变分自编码器的问题分类方法和装置
CN109885810A (zh) * 2019-01-17 2019-06-14 平安城市建设科技(深圳)有限公司 基于语义解析的人机问答方法、装置、设备和存储介质
CN110088748A (zh) * 2019-03-19 2019-08-02 京东方科技集团股份有限公司 问题生成方法和装置、问诊系统、计算机可读存储介质
CN110619038A (zh) * 2019-09-20 2019-12-27 上海氦豚机器人科技有限公司 一种垂直引导专业咨询的方法、系统及电子设备
CN110737763A (zh) * 2019-10-18 2020-01-31 成都华律网络服务有限公司 一种融合知识图谱和深度学习的中文智能问答系统及方法
CN110765244A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 获取应答话术的方法、装置、计算机设备及存储介质
CN110781275A (zh) * 2019-09-18 2020-02-11 中国电子科技集团公司第二十八研究所 基于多特征的问题可回答性判别方法及计算机存储介质
CN110795542A (zh) * 2019-08-28 2020-02-14 腾讯科技(深圳)有限公司 对话方法及相关装置、设备
CN110908663A (zh) * 2018-09-18 2020-03-24 北京京东尚科信息技术有限公司 业务问题的定位方法和定位装置
WO2020073532A1 (zh) * 2018-10-12 2020-04-16 平安科技(深圳)有限公司 客服机器人对话状态识别方法及装置、电子设备、计算机可读存储介质
CN111090721A (zh) * 2019-11-25 2020-05-01 出门问问(苏州)信息科技有限公司 一种问答方法、装置及电子设备
CN111125320A (zh) * 2018-10-31 2020-05-08 重庆小雨点小额贷款有限公司 数据处理方法、装置、服务器及计算机可读存储介质
CN111159363A (zh) * 2018-11-06 2020-05-15 航天信息股份有限公司 一种基于知识库的问题答案确定方法及装置
CN111291170A (zh) * 2020-01-20 2020-06-16 腾讯科技(深圳)有限公司 一种基于智能客服的会话推荐方法及相关装置
CN111339274A (zh) * 2020-02-25 2020-06-26 网易(杭州)网络有限公司 对话生成模型训练方法、对话生成方法及装置
CN111400413A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种确定知识库中知识点类目的方法及系统
WO2020143314A1 (zh) * 2019-01-09 2020-07-16 平安科技(深圳)有限公司 一种基于搜索引擎的问答方法、装置、存储介质及计算机设备
CN111428019A (zh) * 2020-04-02 2020-07-17 出门问问信息科技有限公司 用于知识库问答的数据处理方法及设备
CN111475628A (zh) * 2020-03-30 2020-07-31 珠海格力电器股份有限公司 会话数据处理方法、装置、计算机设备和存储介质
CN111611354A (zh) * 2019-02-26 2020-09-01 北京嘀嘀无限科技发展有限公司 人机对话控制方法、装置、服务器及可读存储介质
CN111651560A (zh) * 2020-05-29 2020-09-11 北京百度网讯科技有限公司 配置问题的方法和装置、电子设备、计算机可读介质
CN111753052A (zh) * 2020-06-19 2020-10-09 微软技术许可有限责任公司 提供针对知识意图问题的知识性回答
CN111782785A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 自动问答方法、装置、设备以及存储介质
CN111814466A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 基于机器阅读理解的信息抽取方法、及其相关设备
CN111831132A (zh) * 2019-04-19 2020-10-27 北京搜狗科技发展有限公司 一种信息推荐方法、装置和电子设备
CN111858859A (zh) * 2019-04-01 2020-10-30 北京百度网讯科技有限公司 自动问答处理方法、装置、计算机设备及存储介质
CN111858863A (zh) * 2019-04-29 2020-10-30 深圳市优必选科技有限公司 一种答复推荐方法、答复推荐装置及电子设备
CN111858856A (zh) * 2020-07-23 2020-10-30 海信电子科技(武汉)有限公司 多轮检索式聊天方法及显示设备
CN111949787A (zh) * 2020-08-21 2020-11-17 平安国际智慧城市科技股份有限公司 基于知识图谱的自动问答方法、装置、设备及存储介质
CN112307164A (zh) * 2020-10-15 2021-02-02 江苏常熟农村商业银行股份有限公司 信息推荐方法、装置、计算机设备和存储介质
CN112507078A (zh) * 2020-12-15 2021-03-16 浙江诺诺网络科技有限公司 一种语义问答方法、装置、电子设备及存储介质
CN112527985A (zh) * 2020-12-04 2021-03-19 杭州远传新业科技有限公司 未知问题处理方法、装置、设备及介质
WO2021051558A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 基于知识图谱的问答方法、装置和存储介质
CN112559707A (zh) * 2020-12-16 2021-03-26 四川智仟科技有限公司 一种基于知识驱动的客服问答方法
CN112597291A (zh) * 2020-12-26 2021-04-02 中国农业银行股份有限公司 一种智能问答的实现方法、装置及设备
CN112771531A (zh) * 2018-09-27 2021-05-07 易享信息技术有限公司 用于面向任务的对话的全局到本地存储器指针网络
WO2021093871A1 (zh) * 2019-11-14 2021-05-20 中国科学院深圳先进技术研究院 文本的查询方法、文本查询装置以及计算机存储介质
CN112860863A (zh) * 2021-01-30 2021-05-28 云知声智能科技股份有限公司 一种机器阅读理解方法及装置
US20210319343A1 (en) * 2018-10-31 2021-10-14 Seoul National University R&Db Foundation Method and system for information theory-based questioning for goal-oriented dialog system
CN114328841A (zh) * 2021-07-13 2022-04-12 北京金山数字娱乐科技有限公司 问答模型训练方法及装置、问答方法及装置
WO2022226879A1 (zh) * 2021-04-29 2022-11-03 京东方科技集团股份有限公司 一种问答处理方法、装置、电子设备和计算机可读存储介质
WO2023134085A1 (zh) * 2022-01-11 2023-07-20 平安科技(深圳)有限公司 问题答案的预测方法、预测装置、电子设备、存储介质
CN116955579A (zh) * 2023-09-21 2023-10-27 武汉轻度科技有限公司 一种基于关键词知识检索的聊天回复生成方法和装置
CN116992005A (zh) * 2023-09-25 2023-11-03 语仓科技(北京)有限公司 基于大模型及本地知识库的智能对话方法、系统及设备

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502752A (zh) * 2019-08-21 2019-11-26 北京一链数云科技有限公司 一种文本处理方法、装置、设备及计算机存储介质
CN112749260B (zh) * 2019-10-31 2024-10-15 阿里巴巴集团控股有限公司 信息交互方法、装置、设备及介质
CN111753062A (zh) * 2019-11-06 2020-10-09 北京京东尚科信息技术有限公司 一种会话应答方案确定方法、装置、设备及介质
CN111177336B (zh) * 2019-11-30 2023-11-10 西安华为技术有限公司 一种确定应答信息的方法和装置
CN111177339B (zh) * 2019-12-06 2023-07-25 百度在线网络技术(北京)有限公司 对话生成方法、装置、电子设备及存储介质
CN113127613B (zh) * 2020-01-10 2024-01-09 北京搜狗科技发展有限公司 聊天信息处理方法及装置
CN111538803A (zh) * 2020-04-20 2020-08-14 京东方科技集团股份有限公司 待匹配的候选提问文本获取方法及装置、设备及介质
CN111625635B (zh) * 2020-05-27 2023-09-29 北京百度网讯科技有限公司 问答处理方法、装置、设备及存储介质
CN111737401B (zh) * 2020-06-22 2023-03-24 北方工业大学 一种基于Seq2set2seq框架的关键词组预测方法
CN111597321B (zh) * 2020-07-08 2024-06-11 腾讯科技(深圳)有限公司 问题答案的预测方法、装置、存储介质及电子设备
CN112232053B (zh) * 2020-09-16 2024-09-03 西北大学 一种基于多关键词对匹配的文本相似度计算系统、方法、及存储介质
CN112184021B (zh) * 2020-09-28 2023-09-05 中国人民解放军国防科技大学 一种基于相似支持集的答案质量评估方法
CN112330387B (zh) * 2020-09-29 2023-07-18 重庆锐云科技有限公司 一种应用于看房软件的虚拟经纪人
CN113076409A (zh) * 2021-04-20 2021-07-06 上海景吾智能科技有限公司 应用于机器人的对话系统及方法、机器人、可读介质
CN113743124B (zh) * 2021-08-25 2024-03-29 南京星云数字技术有限公司 一种智能问答异常的处理方法、装置及电子设备
CN114443818A (zh) * 2022-01-30 2022-05-06 天津大学 一种对话式知识库问答实现方法
CN116795953B (zh) * 2022-03-08 2024-06-25 腾讯科技(深圳)有限公司 问答匹配方法、装置、计算机可读存储介质及计算机设备
CN114638236A (zh) * 2022-03-30 2022-06-17 政采云有限公司 一种智能问答方法、装置、设备及计算机可读存储介质
CN114579729B (zh) * 2022-05-09 2022-08-02 南京云问网络技术有限公司 一种融合多算法模型的faq问答匹配方法和系统
CN115080720B (zh) * 2022-06-29 2024-09-13 壹沓科技(上海)有限公司 基于rpa及ai的文本处理方法、装置、设备及介质
CN115129820A (zh) * 2022-07-22 2022-09-30 宁波牛信网络科技有限公司 基于相似度的文本反馈方法及装置
CN116049376B (zh) * 2023-03-31 2023-07-25 北京太极信息系统技术有限公司 一种信创知识检索回复的方法、装置和系统
CN116303981B (zh) * 2023-05-23 2023-08-01 山东森普信息技术有限公司 一种农业社区知识问答方法、装置及存储介质
CN116886656B (zh) * 2023-09-06 2023-12-08 北京小糖科技有限责任公司 面向聊天室的舞蹈知识推送方法及其装置
CN117332789A (zh) * 2023-12-01 2024-01-02 诺比侃人工智能科技(成都)股份有限公司 一种面向对话场景的语义分析方法及系统
CN118350468B (zh) * 2024-06-14 2024-08-20 杭州字节方舟科技有限公司 一种基于自然语言处理的ai对话方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102866990A (zh) * 2012-08-20 2013-01-09 北京搜狗信息服务有限公司 一种主题对话方法和装置
CN105630917A (zh) * 2015-12-22 2016-06-01 成都小多科技有限公司 智能应答方法及装置
US20160371276A1 (en) * 2015-06-19 2016-12-22 Microsoft Technology Licensing, Llc Answer scheme for information request
CN107463699A (zh) * 2017-08-15 2017-12-12 济南浪潮高新科技投资发展有限公司 一种基于seq2seq模型的实现问答机器人的方法
CN107609101A (zh) * 2017-09-11 2018-01-19 远光软件股份有限公司 智能交互方法、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102866990A (zh) * 2012-08-20 2013-01-09 北京搜狗信息服务有限公司 一种主题对话方法和装置
US20160371276A1 (en) * 2015-06-19 2016-12-22 Microsoft Technology Licensing, Llc Answer scheme for information request
CN105630917A (zh) * 2015-12-22 2016-06-01 成都小多科技有限公司 智能应答方法及装置
CN107463699A (zh) * 2017-08-15 2017-12-12 济南浪潮高新科技投资发展有限公司 一种基于seq2seq模型的实现问答机器人的方法
CN107609101A (zh) * 2017-09-11 2018-01-19 远光软件股份有限公司 智能交互方法、设备及存储介质

Cited By (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109299250A (zh) * 2018-09-14 2019-02-01 广州神马移动信息科技有限公司 答案的展示方法、装置、存储介质及电子设备
CN110908663A (zh) * 2018-09-18 2020-03-24 北京京东尚科信息技术有限公司 业务问题的定位方法和定位装置
CN112771531A (zh) * 2018-09-27 2021-05-07 易享信息技术有限公司 用于面向任务的对话的全局到本地存储器指针网络
CN109344242A (zh) * 2018-09-28 2019-02-15 广东工业大学 一种对话问答方法、装置、设备及存储介质
CN109344242B (zh) * 2018-09-28 2021-10-01 广东工业大学 一种对话问答方法、装置、设备及存储介质
CN109359182A (zh) * 2018-10-08 2019-02-19 网宿科技股份有限公司 一种应答方法及装置
WO2020073532A1 (zh) * 2018-10-12 2020-04-16 平安科技(深圳)有限公司 客服机器人对话状态识别方法及装置、电子设备、计算机可读存储介质
CN109299242A (zh) * 2018-10-19 2019-02-01 武汉斗鱼网络科技有限公司 一种会话生成方法、装置、终端设备及存储介质
US12051012B2 (en) * 2018-10-31 2024-07-30 Seoul National University R & Db Foundation Method and system for information theory-based questioning for goal-oriented dialog system
US20210319343A1 (en) * 2018-10-31 2021-10-14 Seoul National University R&Db Foundation Method and system for information theory-based questioning for goal-oriented dialog system
CN111125320A (zh) * 2018-10-31 2020-05-08 重庆小雨点小额贷款有限公司 数据处理方法、装置、服务器及计算机可读存储介质
CN111159363A (zh) * 2018-11-06 2020-05-15 航天信息股份有限公司 一种基于知识库的问题答案确定方法及装置
CN109446314A (zh) * 2018-11-14 2019-03-08 沈文策 一种客服问题处理方法及装置
CN109492085B (zh) * 2018-11-15 2024-05-14 平安科技(深圳)有限公司 基于数据处理的答案确定方法、装置、终端及存储介质
CN109492085A (zh) * 2018-11-15 2019-03-19 平安科技(深圳)有限公司 基于数据处理的答案确定方法、装置、终端及存储介质
CN109543017B (zh) * 2018-11-21 2022-12-13 广州语义科技有限公司 法律问题关键词生成方法及其系统
CN109543017A (zh) * 2018-11-21 2019-03-29 广州语义科技有限公司 法律问题关键词生成方法及其系统
CN109492086A (zh) * 2018-11-26 2019-03-19 北京羽扇智信息科技有限公司 一种答案输出方法、装置、电子设备及存储介质
CN109726265A (zh) * 2018-12-13 2019-05-07 深圳壹账通智能科技有限公司 辅助聊天的信息处理方法、设备及计算机可读存储介质
CN109685462A (zh) * 2018-12-21 2019-04-26 义橙网络科技(上海)有限公司 一种人岗匹配方法、装置、系统、设备及介质
CN109766421A (zh) * 2018-12-28 2019-05-17 上海汇付数据服务有限公司 智能问答系统以及方法
CN109829478A (zh) * 2018-12-29 2019-05-31 平安科技(深圳)有限公司 一种基于变分自编码器的问题分类方法和装置
CN109829478B (zh) * 2018-12-29 2024-05-07 平安科技(深圳)有限公司 一种基于变分自编码器的问题分类方法和装置
WO2020143314A1 (zh) * 2019-01-09 2020-07-16 平安科技(深圳)有限公司 一种基于搜索引擎的问答方法、装置、存储介质及计算机设备
CN109885810A (zh) * 2019-01-17 2019-06-14 平安城市建设科技(深圳)有限公司 基于语义解析的人机问答方法、装置、设备和存储介质
CN109829046A (zh) * 2019-01-18 2019-05-31 青牛智胜(深圳)科技有限公司 一种智能坐席系统及方法
CN111611354A (zh) * 2019-02-26 2020-09-01 北京嘀嘀无限科技发展有限公司 人机对话控制方法、装置、服务器及可读存储介质
CN111611354B (zh) * 2019-02-26 2023-09-29 北京嘀嘀无限科技发展有限公司 人机对话控制方法、装置、服务器及可读存储介质
CN110088748A (zh) * 2019-03-19 2019-08-02 京东方科技集团股份有限公司 问题生成方法和装置、问诊系统、计算机可读存储介质
US11600389B2 (en) 2019-03-19 2023-03-07 Boe Technology Group Co., Ltd. Question generating method and apparatus, inquiring diagnosis system, and computer readable storage medium
CN110088748B (zh) * 2019-03-19 2023-11-14 京东方科技集团股份有限公司 问题生成方法和装置、问诊系统、计算机可读存储介质
CN111858859A (zh) * 2019-04-01 2020-10-30 北京百度网讯科技有限公司 自动问答处理方法、装置、计算机设备及存储介质
CN111831132A (zh) * 2019-04-19 2020-10-27 北京搜狗科技发展有限公司 一种信息推荐方法、装置和电子设备
CN111858863A (zh) * 2019-04-29 2020-10-30 深圳市优必选科技有限公司 一种答复推荐方法、答复推荐装置及电子设备
CN111858863B (zh) * 2019-04-29 2023-07-14 深圳市优必选科技有限公司 一种答复推荐方法、答复推荐装置及电子设备
CN110795542A (zh) * 2019-08-28 2020-02-14 腾讯科技(深圳)有限公司 对话方法及相关装置、设备
CN110795542B (zh) * 2019-08-28 2024-03-15 腾讯科技(深圳)有限公司 对话方法及相关装置、设备
WO2021051558A1 (zh) * 2019-09-18 2021-03-25 平安科技(深圳)有限公司 基于知识图谱的问答方法、装置和存储介质
CN110765244A (zh) * 2019-09-18 2020-02-07 平安科技(深圳)有限公司 获取应答话术的方法、装置、计算机设备及存储介质
CN110781275B (zh) * 2019-09-18 2022-05-10 中国电子科技集团公司第二十八研究所 基于多特征的问题可回答性判别方法及计算机存储介质
CN110765244B (zh) * 2019-09-18 2023-06-06 平安科技(深圳)有限公司 获取应答话术的方法、装置、计算机设备及存储介质
CN110781275A (zh) * 2019-09-18 2020-02-11 中国电子科技集团公司第二十八研究所 基于多特征的问题可回答性判别方法及计算机存储介质
CN110619038A (zh) * 2019-09-20 2019-12-27 上海氦豚机器人科技有限公司 一种垂直引导专业咨询的方法、系统及电子设备
CN110737763A (zh) * 2019-10-18 2020-01-31 成都华律网络服务有限公司 一种融合知识图谱和深度学习的中文智能问答系统及方法
WO2021093871A1 (zh) * 2019-11-14 2021-05-20 中国科学院深圳先进技术研究院 文本的查询方法、文本查询装置以及计算机存储介质
CN111090721B (zh) * 2019-11-25 2023-09-12 出门问问(苏州)信息科技有限公司 一种问答方法、装置及电子设备
CN111090721A (zh) * 2019-11-25 2020-05-01 出门问问(苏州)信息科技有限公司 一种问答方法、装置及电子设备
CN111291170A (zh) * 2020-01-20 2020-06-16 腾讯科技(深圳)有限公司 一种基于智能客服的会话推荐方法及相关装置
CN111291170B (zh) * 2020-01-20 2023-09-19 腾讯科技(深圳)有限公司 一种基于智能客服的会话推荐方法及相关装置
CN111339274B (zh) * 2020-02-25 2024-01-26 网易(杭州)网络有限公司 对话生成模型训练方法、对话生成方法及装置
CN111339274A (zh) * 2020-02-25 2020-06-26 网易(杭州)网络有限公司 对话生成模型训练方法、对话生成方法及装置
CN111400413B (zh) * 2020-03-10 2023-06-30 支付宝(杭州)信息技术有限公司 一种确定知识库中知识点类目的方法及系统
CN111400413A (zh) * 2020-03-10 2020-07-10 支付宝(杭州)信息技术有限公司 一种确定知识库中知识点类目的方法及系统
CN111475628B (zh) * 2020-03-30 2023-07-14 珠海格力电器股份有限公司 会话数据处理方法、装置、计算机设备和存储介质
CN111475628A (zh) * 2020-03-30 2020-07-31 珠海格力电器股份有限公司 会话数据处理方法、装置、计算机设备和存储介质
CN111428019A (zh) * 2020-04-02 2020-07-17 出门问问信息科技有限公司 用于知识库问答的数据处理方法及设备
CN111651560A (zh) * 2020-05-29 2020-09-11 北京百度网讯科技有限公司 配置问题的方法和装置、电子设备、计算机可读介质
CN111651560B (zh) * 2020-05-29 2023-08-29 北京百度网讯科技有限公司 配置问题的方法和装置、电子设备、计算机可读介质
CN111753052A (zh) * 2020-06-19 2020-10-09 微软技术许可有限责任公司 提供针对知识意图问题的知识性回答
CN111814466A (zh) * 2020-06-24 2020-10-23 平安科技(深圳)有限公司 基于机器阅读理解的信息抽取方法、及其相关设备
CN111814466B (zh) * 2020-06-24 2024-09-13 平安科技(深圳)有限公司 基于机器阅读理解的信息抽取方法、及其相关设备
CN111782785A (zh) * 2020-06-30 2020-10-16 北京百度网讯科技有限公司 自动问答方法、装置、设备以及存储介质
CN111782785B (zh) * 2020-06-30 2024-04-19 北京百度网讯科技有限公司 自动问答方法、装置、设备以及存储介质
CN111858856A (zh) * 2020-07-23 2020-10-30 海信电子科技(武汉)有限公司 多轮检索式聊天方法及显示设备
CN111949787A (zh) * 2020-08-21 2020-11-17 平安国际智慧城市科技股份有限公司 基于知识图谱的自动问答方法、装置、设备及存储介质
CN112307164A (zh) * 2020-10-15 2021-02-02 江苏常熟农村商业银行股份有限公司 信息推荐方法、装置、计算机设备和存储介质
CN112527985A (zh) * 2020-12-04 2021-03-19 杭州远传新业科技有限公司 未知问题处理方法、装置、设备及介质
CN112507078A (zh) * 2020-12-15 2021-03-16 浙江诺诺网络科技有限公司 一种语义问答方法、装置、电子设备及存储介质
CN112507078B (zh) * 2020-12-15 2022-05-10 浙江诺诺网络科技有限公司 一种语义问答方法、装置、电子设备及存储介质
CN112559707A (zh) * 2020-12-16 2021-03-26 四川智仟科技有限公司 一种基于知识驱动的客服问答方法
CN112597291B (zh) * 2020-12-26 2024-09-17 中国农业银行股份有限公司 一种智能问答的实现方法、装置及设备
CN112597291A (zh) * 2020-12-26 2021-04-02 中国农业银行股份有限公司 一种智能问答的实现方法、装置及设备
CN112860863A (zh) * 2021-01-30 2021-05-28 云知声智能科技股份有限公司 一种机器阅读理解方法及装置
WO2022226879A1 (zh) * 2021-04-29 2022-11-03 京东方科技集团股份有限公司 一种问答处理方法、装置、电子设备和计算机可读存储介质
CN114328841A (zh) * 2021-07-13 2022-04-12 北京金山数字娱乐科技有限公司 问答模型训练方法及装置、问答方法及装置
WO2023134085A1 (zh) * 2022-01-11 2023-07-20 平安科技(深圳)有限公司 问题答案的预测方法、预测装置、电子设备、存储介质
CN116955579B (zh) * 2023-09-21 2023-12-29 武汉轻度科技有限公司 一种基于关键词知识检索的聊天回复生成方法和装置
CN116955579A (zh) * 2023-09-21 2023-10-27 武汉轻度科技有限公司 一种基于关键词知识检索的聊天回复生成方法和装置
CN116992005B (zh) * 2023-09-25 2023-12-01 语仓科技(北京)有限公司 基于大模型及本地知识库的智能对话方法、系统及设备
CN116992005A (zh) * 2023-09-25 2023-11-03 语仓科技(北京)有限公司 基于大模型及本地知识库的智能对话方法、系统及设备

Also Published As

Publication number Publication date
WO2019153613A1 (zh) 2019-08-15
CN108491433B (zh) 2022-05-03

Similar Documents

Publication Publication Date Title
CN108491433A (zh) 聊天应答方法、电子装置及存储介质
CN108345672A (zh) 智能应答方法、电子装置及存储介质
CN110032632A (zh) 基于文本相似度的智能客服问答方法、装置及存储介质
CN111241237B (zh) 一种基于运维业务的智能问答数据处理方法及装置
CN109271493A (zh) 一种语言文本处理方法、装置和存储介质
CN112084334B (zh) 语料的标签分类方法、装置、计算机设备及存储介质
US20200193330A1 (en) Method and system for using existing models in connection with new model development
CN113392209B (zh) 一种基于人工智能的文本聚类方法、相关设备及存储介质
CN111144120A (zh) 一种训练语句的获取方法、装置、存储介质及电子设备
CN112287069B (zh) 基于语音语义的信息检索方法、装置及计算机设备
CN111563158B (zh) 文本排序方法、排序装置、服务器和计算机可读存储介质
CN111611355A (zh) 一种对话回复方法、装置、服务器及存储介质
CN111767375A (zh) 语义召回方法、装置、计算机设备及存储介质
CN108304373A (zh) 语义词典的构建方法、装置、存储介质和电子装置
WO2019133506A1 (en) Intelligent routing services and systems
CN115714002B (zh) 抑郁风险检测模型训练方法、抑郁症状预警方法及相关设备
CN111026840A (zh) 文本处理方法、装置、服务器和存储介质
CN112434536A (zh) 文档理解方法、设备和存储介质
CN114818665B (zh) 一种基于bert+bilstm+crf与xgboost模型的多意图识别方法和系统
CN110489730B (zh) 文本处理方法、装置、终端及存储介质
CN117574879A (zh) 基于预训练模型的数据增强方法、系统、设备及介质
CN113569578B (zh) 一种用户意图识别方法、装置和计算机设备
CN116881446A (zh) 一种语义分类方法、装置、设备及其存储介质
CN114218356B (zh) 基于人工智能的语义识别方法、装置、设备及存储介质
CN113505293B (zh) 信息推送方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant