CN111462750A - 语义与知识增强的端到端任务型对话系统及方法 - Google Patents
语义与知识增强的端到端任务型对话系统及方法 Download PDFInfo
- Publication number
- CN111462750A CN111462750A CN202010200644.0A CN202010200644A CN111462750A CN 111462750 A CN111462750 A CN 111462750A CN 202010200644 A CN202010200644 A CN 202010200644A CN 111462750 A CN111462750 A CN 111462750A
- Authority
- CN
- China
- Prior art keywords
- dialogue
- database
- reply
- gate
- history
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000007246 mechanism Effects 0.000 claims abstract description 34
- 230000010365 information processing Effects 0.000 claims abstract description 23
- 230000008569 process Effects 0.000 claims abstract description 23
- 238000013507 mapping Methods 0.000 claims abstract description 20
- 239000013598 vector Substances 0.000 claims description 36
- 230000010076 replication Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 abstract description 12
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 description 10
- 230000002457 bidirectional effect Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000033772 system development Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种语义与知识增强的端到端任务型对话系统及方法,其中,系统包括:对话历史语义信息编码模块,用于将对话历史信息进行句子级别语义信息处理与对话级别语义信息处理,以解码生成回复;外部数据库访问模块,用于确定外部数据库中访问的数据库,并确定访问的数据库中的属性条目;对话回复解码模块,用于在解码过程中,使用copy机制和门控机制,回复结构综合考虑对话历史、数据库、回复生成,完成对话。该系统通过结合外部知识库信息、设计高效快速的端到端对话信息编码模型,直接实现历史文本到回复生成映射的过程,具有迁移性强的,训练速度快的、检索知识库准确性高的优点。
Description
技术领域
本发明涉及语音识别技术领域,特别涉及一种语义与知识增强的端到端任务型对话系统及方法。
背景技术
相关技术,(1)一种涉及客服系统领域的电网任务型对话系统,对话系统包括命令解析服务,对话管理服务,模型训练服务,前端服务等模块,命令解析服务提供开发者完成系统开发、模型训练管理和命令解析接口功能;对话管理服务提供调用任务型对话机器人系统的服务接口;模型训练服务主要用来训练命令解析算法模型;前端服务通过交互方式,为任务型对话系统定义支持的意图、添加词表、定义语义槽参数、标注语料以及管理模型训练任务。(2)一种端到端任务型对话系统,包括:预处理模块,用于将用户输入数据转换为词向量,并给所述词向量嵌入位置信息;命名体抽取模块,用于标识用户输入数据中的命名体;编译模块,用于接收所述预处理模块和所述命名体抽取模块传输的数据,并输出概率分布;对话历史编码器模块,用于将对话历史输入所述编译模块;解码输出模块,用于输出自然语言句子作为系统对用户输入的回复。
然而,现有的任务型对话系统仍采用主流的流水线方式构建,流水线方法存在误差传播和人力耗费等问题。端到端方法虽然可以解决流水线方法存在的问题,但由于其结构简单,技术不成熟,对话历史信息不能充分利用,存在回复无意义、缺乏外部领域知识信息和逻辑推理能力等问题,对用户对话交互体验存在极大影响。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种语义与知识增强的端到端任务型对话系统,该系统通过结合外部知识库信息、设计高效快速的端到端对话信息编码模型,直接实现历史文本到回复生成映射的过程,具有迁移性强的,训练速度快的、检索知识库准确性高的优点。
本发明的另一个目的在于提出一种语义与知识增强的端到端任务型对话方法。
为达到上述目的,本发明一方面实施例提出了一种语义与知识增强的端到端任务型对话系统,包括:对话历史语义信息编码模块,用于将对话历史信息进行句子级别语义信息处理与对话级别语义信息处理,以解码生成回复;外部数据库访问模块,用于确定外部数据库中访问的数据库,并确定所述访问的数据库中的属性条目;对话回复解码模块,用于在解码过程中,使用copy机制和门控机制,回复结构综合考虑对话历史、数据库、回复生成,完成对话。
本发明实施例的语义与知识增强的端到端任务型对话系统,采用transformer加双向GRU(Gate Recurrent Unit)的双层语义信息编码结构,即能充分提取对话历史中语义信息,也能抽取对话序列中的位置信息,丰富信息抽取能力,有利于减少无意义回复的生成;并提出一种基于注意力机制的层级知识库检索机制,将知识可微融入端到端对话系统中;采用知识库条目-知识库属性的层级结构,更准确的定位实体位置,增强对话的推理能力;在公开数据集上进行测试验证,实验结果达到了目前最优效果,大幅超过了已有工作。
另外,根据本发明上述实施例的语义与知识增强的端到端任务型对话系统还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述对话历史语义信息编码模块进一步用于:提取所述对话历史信息的语义信息,并得到句子向量;将所述句子向量输入预设的GRU网络中,得到整个对话级别的语义信息。
进一步地,在本发明的一个实施例中,所述外部数据库的访问形式是双层检索结构,其中,第一层检索结构为数据库级别检索,第二层检索结构为数据库条目级别检索。
进一步地,在本发明的一个实施例中,外部知识存储以单个数据库为单位,每个数据库的属性与槽值存储在键值对记忆网络中。
进一步地,在本发明的一个实施例中,所述对话回复解码模块进一步用于利用GRU结构逐词生成回复,其中,缓解生成中存在的OOV问题的计算公式为:
Pcopy(yt=μ)=gate1*Pcontent(xm,n=μ)+(1-gate1)*Pkb(vi,j=μ)
P(yt=μ)=gate2*Pcopy(y=μ)+(1-gate2)*Pgen(y=μ),
其中,t代表解码的第t时刻,yt为解码器第t时刻输入,为解码器第t时刻通过GRU得到的隐状态,为解码器的第t-1时刻隐状态,Pgen(yt)为第t时刻从词表中生成的概率,W0、b0为生成Pgen的映射层参数,Pcontent与Pkb分别是注意力方法计算而来的对话历史与知识库上的概率分布值,xm,n代表对话历史中第m个句子中的第n个词,为编码器中第m个句子的第n个词的隐向量,gate1为复制源门控单元,控制复制源是从对话历史中复制还是知识库中复制,W1、b1为生成gate1的映射层参数,gate2为最终生成的门控单元,控制生成是从复制源中选择还是词表中选择,W2、b2为生成gate2的映射层参数,vi,j代表第i个知识库的第j个属性实体,Pcopy(yt=μ)是结合对话历史与知识库的复制概率分布,P(yt=μ)为结合复制概率与词表生成概率的最终概率分布,μ为t时刻的目标单词。
为达到上述目的,本发明另一方面实施例提出了一种语义与知识增强的端到端任务型对话方法,包括以下步骤:将对话历史信息进行句子级别语义信息处理与对话级别语义信息处理,以解码生成回复;确定外部数据库中访问的数据库,并确定所述访问的数据库中的属性条目;在解码过程中,使用copy机制和门控机制,回复结构综合考虑对话历史、数据库、回复生成,完成对话。
本发明实施例的语义与知识增强的端到端任务型对话方法,采用transformer加双向GRU的双层语义信息编码结构,即能充分提取对话历史中语义信息,也能抽取对话序列中的位置信息,丰富信息抽取能力,有利于减少无意义回复的生成;并提出一种基于注意力机制的层级知识库检索机制,将知识可微融入端到端对话系统中;采用知识库条目-知识库属性的层级结构,更准确的定位实体位置,增强对话的推理能力;在公开数据集上进行测试验证,实验结果达到了目前最优效果,大幅超过了已有工作。
另外,根据本发明上述实施例的语义与知识增强的端到端任务型对话方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述将对话历史信息进行句子级别语义信息处理与对话级别语义信息处理,以解码生成回复进一步包括:提取所述对话历史信息的语义信息,并得到句子向量;将所述句子向量输入预设的GRU网络中,得到整个对话级别的语义信息。
进一步地,在本发明的一个实施例中,所述外部数据库的访问形式是双层检索结构,其中,第一层检索结构为数据库级别检索,第二层检索结构为数据库条目级别检索。
进一步地,在本发明的一个实施例中,外部知识存储以单个数据库为单位,每个数据库的属性与槽值存储在键值对记忆网络中。
进一步地,在本发明的一个实施例中,所述在解码过程中,使用copy机制和门控机制,回复结构综合考虑对话历史、数据库、回复生成,完成对话进一步包括:利用GRU结构逐词生成回复,其中,缓解生成中存在的OOV问题的计算公式为:
Pcopy(yt=μ)=gate1*Pcontent(xm,n=μ)+(1-gate1)*Pkb(vi,j=μ)
P(yt=μ)=gate2*Pcopy(y=μ)+(1-gate2)*Pgen(y=μ),
其中,t代表解码的第t时刻,yt为解码器第t时刻输入,为解码器第t时刻通过GRU得到的隐状态,为解码器的第t-1时刻隐状态,Pgen(yt)为第t时刻从词表中生成的概率,W0、b0为生成Pgen的映射层参数,Pcontent与Pkb分别是注意力方法计算而来的对话历史与知识库上的概率分布值,xm,n代表对话历史中第m个句子中的第n个词,为编码器中第m个句子的第n个词的隐向量,gate1为复制源门控单元,控制复制源是从对话历史中复制还是知识库中复制,W1、b1为生成gate1的映射层参数,gate2为最终生成的门控单元,控制生成是从复制源中选择还是词表中选择,W2、b2为生成gate2的映射层参数,vi,j代表第i个知识库的第j个属性实体,Pcopy(yt=μ)是结合对话历史与知识库的复制概率分布,P(yt=μ)为结合复制概率与词表生成概率的最终概率分布,μ为t时刻的目标单词。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的语义与知识增强的端到端任务型对话系统的结构示意图;
图2为根据本发明实施例的对话系统构建流程;
图3为根据本发明一个实施例的语义与知识增强的端到端任务型对话系统结构示意图;
图4为根据本发明实施例的编码器双层语义抽取结构示意图;
图5为根据本发明实施例的外部数据库访问模块流程图;
图6为根据本发明实施例的语义与知识增强的端到端任务型对话方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本申请是基于发明人对以下问题的认识和发现做出的:
对话系统随着其智能性的增加,在工业界与学术界受到了广泛关注。传统的流水线型对话系统由三个主要模块构成:语言理解、状态管理与语言生成。流水线结构仅生成模块输出对话回复,其他模块的输出结果都是对话中间状态。每个模块存在一个或多个模型,每个模型分开训练。每个模块训练得到的结果作为下一个模块的输入,传入下一个模块中。流水线对话系统虽然结构成熟,但模块间的级联结构会存在误差累计传播的问题,同时若进行领域迁移或模块更新时,一个模块的改变可能会使其下游模块结果变得次优,需大量人力进行错误分析。因此如何简化对话模型,减少人力参与是当今对话系统的一个研究热点。
端到端方法是近些年的新兴方法,兴起于闲聊型对话系统中。端到端是指模型的输入是用户的原始对话,输出则直接是对话回复结果,而不是对话中间状态。但同时由于端到端结构简单,缺乏外部知识库支撑,因此缺乏推理能力,在任务型对话中存在回复无意义或回复错误等问题。
针对上述端到端对话系统中存在的不足,本发明实施例提出一种语义和知识增强的端到端任务型对话系统及方法,其中语义理解模型更全面的抽取语义信息,有效防止因未抽取到对话信息而生成无用回复问题,知识检索模块通过在回复中增加数据库检索功能,为对话回复增添推理能力,实现一个高效智能的任务型对话系统。
下面参照附图描述根据本发明实施例提出的语义与知识增强的端到端任务型对话系统及方法,首先将参照附图描述根据本发明实施例提出的语义与知识增强的端到端任务型对话系统。
图1是本发明一个实施例的语义与知识增强的端到端任务型对话系统的结构示意图。
如图1所示,该语义与知识增强的端到端任务型对话系统10包括:对话历史语义信息编码模块100、外部数据库访问模块200和对话回复解码模块300。
其中,对话历史语义信息编码模块100用于将对话历史信息进行句子级别语义信息处理与对话级别语义信息处理,以解码生成回复;外部数据库访问模块200用于确定外部数据库中访问的数据库,并确定访问的数据库中的属性条目;对话回复解码模块300用于在解码过程中,使用copy机制和门控机制,回复结构综合考虑对话历史、数据库、回复生成,完成对话。本发明实施例的系统10通过结合外部知识库信息、设计高效快速的端到端对话信息编码模型,直接实现历史文本到回复生成映射的过程,具有迁移性强的,训练速度快的、检索知识库准确性高的优点。
可以理解的是,已存在的端到端任务型对话现今语义编码结构大多采用基于lstm的时序性编码结构,处理长序列文本时存在信息损失与偏差问题,且大多还无法支持可微性访问知识库,因而缺乏外部数据库支持,存在回复可采用率低、逻辑推理能力差等问题。因此,为了解决上述问题,本发明实施例在现今端到端系统的基础上,提出一种语义丰富且精准检索外部知识库的对话系统。本发明实施例设计一种双层语义编码器抽取轮级和对话级别语义信息,增强语义抽取能力,并设计一个可微的知识库层级检索器,将知识准确的融入对话生成中,增强对话系统的推理能力。
具体而言,本发明实施例通过结合外部知识库信息、设计高效快速的端到端对话信息编码模型,直接实现历史文本到回复生成映射的过程,目标是完成一个迁移性强的,训练速度快的、检索知识库准确性高的实用任务型对话系统。本发明实施例设计的端到端系统10由功能划分可分为三大模块:对话历史语义信息编码模块100、外部数据库访问模块200和对话回复解码模块300。与传统流水线方法各模块间分开训练不同的是,这里的三个模块共同训练组成一个完整的对话模型,直接实现原始对话历史信息到文本回复的映射。如图2所示,将端到端对话系统构建流程概括如下,圆框中为已实现技术点,方框中为将来可实施的技术优化点。
如图3所示,系统三大模块分别定义如下:
对话历史语义信息编码模块100:将对话历史信息处理过程分为两层,第一层为句子级别语义信息处理,第二层是对话级别语义信息处理。句子级别用transformer提取语义信息,得到句子向量表示。将句子向量表示作为第二层双向GRU的输入放入GRU网络中,得到整个对话级别的语义信息,用于解码生成回复。
外部数据库访问模块200:外部数据库的访问形式是双层检索结构,第一层是数据库级别检索,用以确定访问的数据库;第二层是数据库条目级别检索,用以确定访问的数据库中具体的属性条目。外部知识存储是以单个数据库为单位,每个数据库的属性与槽值存储在键值对记忆网络中。
对话回复解码模块300:对话解码过程,在解码过程中使用copy机制和门控机制,回复结构综合考虑对话历史、数据库、回复生成,精确融合知识库检索结果并有效减缓OOV(Out of Vocabulary)问题。
进一步而言,对话任务是通过前t-1轮的对话信息与第t轮的用户语句得到第t轮的系统回复。本发明实施例的系统10,增强语义抽取器语义抽取能力,将外部知识库准确且可微融入对话生成过程中,从用户文本输入到回复生成一共分为三个模块。下面将分别对每个模块进行详细的阐述。
(一)对话历史语义信息编码模块100
该模块是将原始多轮对话信息映射为分布式向量表示,抽取对话语义信息,用于回复生成。对话历史信息包含前t-1轮的对话信息与第t轮的用户语句,每轮信息可能包含用户一系列意图或需求,作为当前系统回复所考虑的条件与限制。因此如何充分抽取对话历史中的语义信息将极大影响对话系统回复能力。传统的模块采用基于RNN(RecurrentNeural Network,循环神经网络)时序结构的语义编码模型,这类模型虽可以有效抽取到对话历史的时序信息,但因多轮对话历史一般为长文本,在时序传播过程中会存在信息偏差与损失问题。本发明实施例的模型在传统模型的基础上,采用transformer+双向GRU的层级结构抽取对话历史语义信息。Transformer抽取句子内部语义信息,双向GRU抽取句子间语义信息。编码器结构如图4所示。
对话历史信息U可以表示为(U1,U2,…,Un),Ui表示对话历史中第i个句子,Ui是句子分词后的一组(w1,w2,…,wm)组成,为了充分考虑句子中的位置信息与轮级信息,本发明实施例将单词的分布式向量表示成这个词的词向量、位置向量与轮级向量之和,如公式1所示:
ei,j=wordembedding(wi,j)+posembedding(wi,j)+turnembedding(wi,j),(1)
将每个句子中词语对应的分布式向量输入到各自句子对应的Transformer结构中,经过transformer结构中的多头自注意力部件直接构建两个词语间的语义关系,相较于RNN的时序传播过程损失信息而言,此结构更能准确直观且快捷的抽取句子间词语的语义信息,tranformer的自注意力与多头结构分别如公式2、3所示:
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
whereheadi=Attention{QWi Q,KWi K,VWi V,),(3)
得到句子内词语间语义信息后,本发明实施例用一个前向网络,引入两层线性变换与ReLU非线性变换,如公式4所示:
FFN(x)=max(0,xW1+b1)W2+b2,(4)
经过非线性变换后,对向量进行加和平均可以得到当前句子Ui的向量表示ui,将ui作为双向GRU的输入进行句子间语义抽取模型的训练。GRU在构建短序列文本信息上具有不错的效果,且可以弥补Transformer在位置信息抽取方面的不足,双向结构更能更智能的理解句子间语义信息,公式如5所示:
(二)外部数据库访问模块200
该模块为层级记忆网络结构,对数据库进行双层检索,第一层检索出数据库条目,即具体是哪一组实体属性集合,第二层是属性检索,检索出具体的访问实体。本发明实施例采用软注意力机制给数据库及其条目分配注意力权重,将其可微的融入端到端对话系统,维护对话系统端到端特性。具体结构如图5所示,其中,对话生成器中A所指的线条表示从知识库中检索生成,除了该线条以外的对话生成器中的黑线表示从词表中生成。
外部数据库访问结构分为数据库条目与属性检索两层结构。
数据库条目检索:首先将每个知识库条目中属性向量相加,作为当前知识库条目的向量表示m,将每个知识库向量表示与当前解码器的隐状态做相似度得分计算,将得分进行归一化计算,得到每个知识库被选中的概率权重αi,过程如公式6所示:
属性检索:本发明实施例用键值对记忆网络存储每个知识库里的属性与属性值,记忆网络中Key网络存储数据库属性的向量表示,Value网络存储属性值的向量表示。计算每个数据库条目与当前隐状态得分,将当前得分归一化,得到当前条目的概率权重,过程如公式7所示:
ki,j表示第i个数据库的第j个属性向量表示,vi,j表示第i个数据库的第j个属性值向量表示,βi,j表示第i个数据库上第j个属性值的概率权重,因此,αi*βi,j就是当前第i个数据库的第j个属性被选择的概率Pkb(vi,j)。
(三)对话回复解码模块300
该模块利用GRU结构逐词生成回复。为了缓解生成中存在的OOV(out ofvocabulary)问题,本发明实施例采用一种copy+门控的机制,将对话历史和数据库中的词有效端到端对话生成中。回复解码模块300包含两个门控开关,一个控制是否从对话历史或数据库中复制的开关;另一个是已知复制的条件下,控制复制的来源,即从对话历史复制还是数据库复制。过程如公式7所示。Pcontent与Pkb分别是注意力方法计算而来的对话历史与知识库上的概率分布值。
Pcopy(yt=μ)=gate1*Pcontent(xm,n=μ)+(1-gate1)*Pkb(vi,j=μ)
P(yt=μ)=gate2*Pcopy(y=μ)+(1-gate2)*Pgen(y=μ),(7)
最终的P(yt=μ)是结合对话历史与知识库的对话生成概率分布。
综上,本发明实施例的系统为一种基于结构化外部知识库的语义增强的端到端任务型对话系统,首次将Transformer与GRU结合,提出一种层级语义编码结构;并首次认证层级结构在编解码模块中都存在优越性:编码模块的Transformer+BIGRU,解码模块的层级键值对记忆网络两层检索机制。另外,本发明实施例将图结构引入知识库的存储中处理非结构化知识库情况,把相关知识三元组看作一个图,基于与其相邻实体和它们之间的关系,更好解读所研究实体的语义;将对话状态加入端到端系统中,用对话状态表示辅助知识库的检索;且加深记忆网络层数,利用多跳机制增强记忆网络的推理能力。
根据本发明实施例提出的语义与知识增强的端到端任务型对话系统,采用transformer加双向GRU的双层语义信息编码结构,即能充分提取对话历史中语义信息,也能抽取对话序列中的位置信息,丰富信息抽取能力,有利于减少无意义回复的生成;并提出一种基于注意力机制的层级知识库检索机制,将知识可微融入端到端对话系统中;采用知识库条目-知识库属性的层级结构,更准确的定位实体位置,增强对话的推理能力;在公开数据集上进行测试验证,实验结果达到了目前最优效果,大幅超过了已有工作。
其次参照附图描述根据本发明实施例提出的语义与知识增强的端到端任务型对话方法。
图6是本发明一个实施例的语义与知识增强的端到端任务型对话方法的流程图。
如图6所示,该语义与知识增强的端到端任务型对话方法包括以下步骤:
在步骤S601中,将对话历史信息进行句子级别语义信息处理与对话级别语义信息处理,以解码生成回复;
在步骤S602中,确定外部数据库中访问的数据库,并确定访问的数据库中的属性条目;
在步骤S603中,在解码过程中,使用copy机制和门控机制,回复结构综合考虑对话历史、数据库、回复生成,完成对话。
进一步地,在本发明的一个实施例中,将对话历史信息进行句子级别语义信息处理与对话级别语义信息处理,以解码生成回复进一步包括:提取对话历史信息的语义信息,并得到句子向量;将句子向量输入预设的GRU网络中,得到整个对话级别的语义信息。
进一步地,在本发明的一个实施例中,外部数据库的访问形式是双层检索结构,其中,第一层检索结构为数据库级别检索,第二层检索结构为数据库条目级别检索。
进一步地,在本发明的一个实施例中,外部知识存储以单个数据库为单位,每个数据库的属性与槽值存储在键值对记忆网络中。
进一步地,在本发明的一个实施例中,在解码过程中,使用copy机制和门控机制,回复结构综合考虑对话历史、数据库、回复生成,完成对话进一步包括:利用GRU结构逐词生成回复,其中,缓解生成中存在的OOV问题的计算公式为:
Pcopy(yt=μ)=gate1*Pcontent(xm,n=μ)+(1-gate1)*Pkb(vi,j=μ)
P(yt=μ)=gate2*Pcopy(y=μ)+(1-gate2)*Pgen(y=μ),
其中,t代表解码的第t时刻,yt为解码器第t时刻输入,为解码器第t时刻通过GRU得到的隐状态,为解码器的第t-1时刻隐状态,Pgen(yt)为第t时刻从词表中生成的概率,W0、b0为生成Pgen的映射层参数,Pcontent与Pkb分别是注意力方法计算而来的对话历史与知识库上的概率分布值,xm,n代表对话历史中第m个句子中的第n个词,为编码器中第m个句子的第n个词的隐向量,gate1为复制源门控单元,控制复制源是从对话历史中复制还是知识库中复制,W1、b1为生成gate1的映射层参数,gate2为最终生成的门控单元,控制生成是从复制源中选择还是词表中选择,W2、b2为生成gate2的映射层参数,vi,j代表第i个知识库的第j个属性实体,Pcopy(yt=μ)是结合对话历史与知识库的复制概率分布,P(yt=μ)为结合复制概率与词表生成概率的最终概率分布,μ为t时刻的目标单词。
需要说明的是,前述对语义与知识增强的端到端任务型对话系统实施例的解释说明也适用于该实施例的语义与知识增强的端到端任务型对话方法,此处不再赘述。
根据本发明实施例提出的语义与知识增强的端到端任务型对话方法,采用transformer加双向GRU的双层语义信息编码结构,即能充分提取对话历史中语义信息,也能抽取对话序列中的位置信息,丰富信息抽取能力,有利于减少无意义回复的生成;并提出一种基于注意力机制的层级知识库检索机制,将知识可微融入端到端对话系统中;采用知识库条目-知识库属性的层级结构,更准确的定位实体位置,增强对话的推理能力;在公开数据集上进行测试验证,实验结果达到了目前最优效果,大幅超过了已有工作。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种语义与知识增强的端到端任务型对话系统,其特征在于,包括:
对话历史语义信息编码模块,用于将对话历史信息进行句子级别语义信息处理与对话级别语义信息处理,以解码生成回复;
外部数据库访问模块,用于确定外部数据库中访问的数据库,并确定所述访问的数据库中的属性条目;
对话回复解码模块,用于在解码过程中,使用copy机制和门控机制,回复结构综合考虑对话历史、数据库、回复生成,完成对话。
2.根据权利要求1所述的系统,其特征在于,所述对话历史语义信息编码模块进一步用于:
提取所述对话历史信息的语义信息,并得到句子向量;
将所述句子向量输入预设的GRU网络中,得到整个对话级别的语义信息。
3.根据权利要求1所述的系统,其特征在于,所述外部数据库的访问形式是双层检索结构,其中,第一层检索结构为数据库级别检索,第二层检索结构为数据库条目级别检索。
4.根据权利要求1或3所述的系统,其特征在于,外部知识存储以单个数据库为单位,每个数据库的属性与槽值存储在键值对记忆网络中。
5.根据权利要求1所述的系统,其特征在于,所述对话回复解码模块进一步用于利用GRU结构逐词生成回复,其中,缓解生成中存在的OOV问题的计算公式为:
Pcopy(yt=μ)=gate1*Pcontent(xm,n=μ)+(1-gate1)*Pkb(vi,j=μ)
P(yt=μ)=gate2*Pcopy(y=μ)+(1-gate2)*Pgen(y=μ),
其中,t代表解码的第t时刻,yt为解码器第t时刻输入,为解码器第t时刻通过GRU得到的隐状态,为解码器的第t-1时刻隐状态,Pgen(yt)为第t时刻从词表中生成的概率,W0、b0为生成Pgen的映射层参数,Pcontent与Pkb分别是注意力方法计算而来的对话历史与知识库上的概率分布值,xm,n代表对话历史中第m个句子中的第n个词,为编码器中第m个句子的第n个词的隐向量,gate1为复制源门控单元,控制复制源是从对话历史中复制还是知识库中复制,W1、b1为生成gate1的映射层参数,gate2为最终生成的门控单元,控制生成是从复制源中选择还是词表中选择,W2、b2为生成gate2的映射层参数,vi,j代表第i个知识库的第j个属性实体,Pcopy(yt=μ)是结合对话历史与知识库的复制概率分布,P(yt=μ)为结合复制概率与词表生成概率的最终概率分布,μ为t时刻的目标单词。
6.一种语义与知识增强的端到端任务型对话方法,其特征在于,包括以下步骤:
将对话历史信息进行句子级别语义信息处理与对话级别语义信息处理,以解码生成回复;
确定外部数据库中访问的数据库,并确定所述访问的数据库中的属性条目;
在解码过程中,使用copy机制和门控机制,回复结构综合考虑对话历史、数据库、回复生成,完成对话。
7.根据权利要求6所述的方法,其特征在于,所述将对话历史信息进行句子级别语义信息处理与对话级别语义信息处理,以解码生成回复进一步包括:
提取所述对话历史信息的语义信息,并得到句子向量;
将所述句子向量输入预设的GRU网络中,得到整个对话级别的语义信息。
8.根据权利要求6所述的方法,其特征在于,所述外部数据库的访问形式是双层检索结构,其中,第一层检索结构为数据库级别检索,第二层检索结构为数据库条目级别检索。
9.根据权利要求6或8所述的方法,其特征在于,外部知识存储以单个数据库为单位,每个数据库的属性与槽值存储在键值对记忆网络中。
10.根据权利要求6所述的方法,其特征在于,所述在解码过程中,使用copy机制和门控机制,回复结构综合考虑对话历史、数据库、回复生成,完成对话进一步包括:
利用GRU结构逐词生成回复,其中,缓解生成中存在的OOV问题的计算公式为:
Pcopy(yt=μ)=gate1*Pcontent(xm,n=μ)+(1-gate1)*Pkb(vi,j=μ)
P(yt=μ)=gate2*Pcopy(y=μ)+(1-gate2)*Pgen(y=μ),
其中,t代表解码的第t时刻,yt为解码器第t时刻输入,为解码器第t时刻通过GRU得到的隐状态,为解码器的第t-1时刻隐状态,Pgen(yt)为第t时刻从词表中生成的概率,W0、b0为生成Pgen的映射层参数,Pcontent与Pkb分别是注意力方法计算而来的对话历史与知识库上的概率分布值,xm,n代表对话历史中第m个句子中的第n个词,为编码器中第m个句子的第n个词的隐向量,gate1为复制源门控单元,控制复制源是从对话历史中复制还是知识库中复制,W1、b1为生成gate1的映射层参数,gate2为最终生成的门控单元,控制生成是从复制源中选择还是词表中选择,W2、b2为生成gate2的映射层参数,vi,j代表第i个知识库的第j个属性实体,Pcopy(yt=μ)是结合对话历史与知识库的复制概率分布,P(yt=μ)为结合复制概率与词表生成概率的最终概率分布,μ为t时刻的目标单词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010200644.0A CN111462750B (zh) | 2020-03-20 | 2020-03-20 | 语义与知识增强的端到端任务型对话系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010200644.0A CN111462750B (zh) | 2020-03-20 | 2020-03-20 | 语义与知识增强的端到端任务型对话系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111462750A true CN111462750A (zh) | 2020-07-28 |
CN111462750B CN111462750B (zh) | 2023-08-25 |
Family
ID=71683623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010200644.0A Active CN111462750B (zh) | 2020-03-20 | 2020-03-20 | 语义与知识增强的端到端任务型对话系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111462750B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112182161A (zh) * | 2020-09-30 | 2021-01-05 | 中国人民大学 | 一种基于用户对话历史的个性化对话生成方法和系统 |
CN112364665A (zh) * | 2020-10-11 | 2021-02-12 | 广州九四智能科技有限公司 | 一种语义提取方法、装置、计算机设备及存储介质 |
CN112364148A (zh) * | 2020-12-08 | 2021-02-12 | 吉林大学 | 一种基于深度学习方法的生成型聊天机器人 |
CN112463935A (zh) * | 2020-09-11 | 2021-03-09 | 湖南大学 | 一种带有强泛化知识选择的开放域对话生成方法及模型 |
CN112784532A (zh) * | 2021-01-29 | 2021-05-11 | 电子科技大学 | 用于短文本情感分类的多头注意力记忆网络 |
CN112836030A (zh) * | 2021-01-29 | 2021-05-25 | 成都视海芯图微电子有限公司 | 一种智能对话系统及方法 |
CN112966083A (zh) * | 2021-03-10 | 2021-06-15 | 中国人民解放军国防科技大学 | 一种基于对话历史建模的多轮对话生成方法及装置 |
CN113326367A (zh) * | 2021-06-30 | 2021-08-31 | 四川启睿克科技有限公司 | 基于端到端文本生成的任务型对话方法和系统 |
CN113377907A (zh) * | 2021-06-08 | 2021-09-10 | 四川大学 | 基于记忆掩码自注意力网络的端到端任务型对话系统 |
CN113377939A (zh) * | 2021-06-28 | 2021-09-10 | 中国平安人寿保险股份有限公司 | 文本增强方法、装置、计算机设备及存储介质 |
CN113468312A (zh) * | 2021-07-21 | 2021-10-01 | 四川启睿克科技有限公司 | 一种基于多轮对话知识转移的回复生成方法及装置 |
CN116245114A (zh) * | 2022-11-23 | 2023-06-09 | 重庆大学 | 一种基于对话状态指导的端到端任务型对话系统 |
CN112199481B (zh) * | 2020-09-30 | 2023-06-16 | 中国人民大学 | 一种采用pcc对话模型的单用户个性化对话方法和系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110096567B (zh) * | 2019-03-14 | 2020-12-25 | 中国科学院自动化研究所 | 基于qa知识库推理的多轮对话回复选择方法、系统 |
CN110188167B (zh) * | 2019-05-17 | 2021-03-30 | 北京邮电大学 | 一种融入外部知识的端到端对话方法及系统 |
CN110334190A (zh) * | 2019-07-12 | 2019-10-15 | 电子科技大学 | 一种面向开放域对话系统的回复自动生成方法 |
CN110399460A (zh) * | 2019-07-19 | 2019-11-01 | 腾讯科技(深圳)有限公司 | 对话处理方法、装置、设备及存储介质 |
-
2020
- 2020-03-20 CN CN202010200644.0A patent/CN111462750B/zh active Active
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112463935A (zh) * | 2020-09-11 | 2021-03-09 | 湖南大学 | 一种带有强泛化知识选择的开放域对话生成方法及模型 |
CN112463935B (zh) * | 2020-09-11 | 2024-01-05 | 湖南大学 | 一种带有强泛化知识选择的开放域对话生成方法及系统 |
CN112182161A (zh) * | 2020-09-30 | 2021-01-05 | 中国人民大学 | 一种基于用户对话历史的个性化对话生成方法和系统 |
CN112182161B (zh) * | 2020-09-30 | 2023-10-31 | 中国人民大学 | 一种基于用户对话历史的个性化对话生成方法和系统 |
CN112199481B (zh) * | 2020-09-30 | 2023-06-16 | 中国人民大学 | 一种采用pcc对话模型的单用户个性化对话方法和系统 |
CN112364665A (zh) * | 2020-10-11 | 2021-02-12 | 广州九四智能科技有限公司 | 一种语义提取方法、装置、计算机设备及存储介质 |
CN112364148B (zh) * | 2020-12-08 | 2022-05-24 | 吉林大学 | 一种基于深度学习方法的生成型聊天机器人 |
CN112364148A (zh) * | 2020-12-08 | 2021-02-12 | 吉林大学 | 一种基于深度学习方法的生成型聊天机器人 |
CN112836030A (zh) * | 2021-01-29 | 2021-05-25 | 成都视海芯图微电子有限公司 | 一种智能对话系统及方法 |
CN112784532A (zh) * | 2021-01-29 | 2021-05-11 | 电子科技大学 | 用于短文本情感分类的多头注意力记忆网络 |
CN112966083B (zh) * | 2021-03-10 | 2022-08-12 | 中国人民解放军国防科技大学 | 一种基于对话历史建模的多轮对话生成方法及装置 |
CN112966083A (zh) * | 2021-03-10 | 2021-06-15 | 中国人民解放军国防科技大学 | 一种基于对话历史建模的多轮对话生成方法及装置 |
CN113377907A (zh) * | 2021-06-08 | 2021-09-10 | 四川大学 | 基于记忆掩码自注意力网络的端到端任务型对话系统 |
CN113377907B (zh) * | 2021-06-08 | 2023-06-09 | 四川大学 | 基于记忆掩码自注意力网络的端到端任务型对话系统 |
CN113377939A (zh) * | 2021-06-28 | 2021-09-10 | 中国平安人寿保险股份有限公司 | 文本增强方法、装置、计算机设备及存储介质 |
CN113377939B (zh) * | 2021-06-28 | 2023-07-18 | 中国平安人寿保险股份有限公司 | 文本增强方法、装置、计算机设备及存储介质 |
CN113326367A (zh) * | 2021-06-30 | 2021-08-31 | 四川启睿克科技有限公司 | 基于端到端文本生成的任务型对话方法和系统 |
CN113468312A (zh) * | 2021-07-21 | 2021-10-01 | 四川启睿克科技有限公司 | 一种基于多轮对话知识转移的回复生成方法及装置 |
CN116245114A (zh) * | 2022-11-23 | 2023-06-09 | 重庆大学 | 一种基于对话状态指导的端到端任务型对话系统 |
CN116245114B (zh) * | 2022-11-23 | 2023-09-12 | 重庆大学 | 一种基于对话状态指导的端到端任务型对话系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111462750B (zh) | 2023-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111462750B (zh) | 语义与知识增强的端到端任务型对话系统及方法 | |
CN111626063B (zh) | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 | |
CN110490946B (zh) | 基于跨模态相似度和生成对抗网络的文本生成图像方法 | |
CN111581401A (zh) | 一种基于深度相关性匹配的局部引文推荐系统及方法 | |
CN111462749B (zh) | 基于对话状态导向和知识库检索的端到端对话系统及方法 | |
CN111027595A (zh) | 双阶段语义词向量生成方法 | |
CN111723295B (zh) | 一种内容分发方法、装置和存储介质 | |
CN112417894A (zh) | 一种基于多任务学习的对话意图识别方法及识别系统 | |
Wei et al. | Enhance understanding and reasoning ability for image captioning | |
CN117010387A (zh) | 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统 | |
CN116010553A (zh) | 一种基于双路编码和精确匹配信号的观点检索系统 | |
CN113343692B (zh) | 搜索意图的识别方法、模型训练方法、装置、介质及设备 | |
CN113869040A (zh) | 一种电网调度的语音识别方法 | |
CN117349311A (zh) | 一种基于改进RetNet的数据库自然语言查询方法 | |
CN111522923B (zh) | 一种多轮任务式对话状态追踪方法 | |
CN116186350B (zh) | 基于知识图谱和主题文本的输电线路工程搜索方法和装置 | |
CN115545038A (zh) | 一种优化网格标签的方面情感分析方法 | |
CN115169429A (zh) | 一种轻量化方面级文本情感分析方法 | |
Zhao et al. | Chinese semantic matching with multi-granularity alignment and feature fusion | |
CN114239565A (zh) | 一种基于深度学习的情绪原因识别方法及系统 | |
CN112463988A (zh) | 一种中国古典园林信息抽取方法 | |
Liu et al. | An improved BERT and syntactic dependency representation model for sentiment analysis | |
Yin et al. | Speech Recognition for Power Customer Service Based on DNN and CNN Models | |
CN111767377B (zh) | 一种面向低资源环境的高效口语理解识别方法 | |
CN117473083B (zh) | 一种基于提示知识和混合神经网络的方面级情感分类模型 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |