CN114996431A - 一种基于混合注意力的人机对话生成方法、系统及介质 - Google Patents

一种基于混合注意力的人机对话生成方法、系统及介质 Download PDF

Info

Publication number
CN114996431A
CN114996431A CN202210916763.5A CN202210916763A CN114996431A CN 114996431 A CN114996431 A CN 114996431A CN 202210916763 A CN202210916763 A CN 202210916763A CN 114996431 A CN114996431 A CN 114996431A
Authority
CN
China
Prior art keywords
sequence
text
feature
attention
context information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210916763.5A
Other languages
English (en)
Other versions
CN114996431B (zh
Inventor
李树涛
宋启亚
李宾
孙斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan University
Original Assignee
Hunan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan University filed Critical Hunan University
Priority to CN202210916763.5A priority Critical patent/CN114996431B/zh
Publication of CN114996431A publication Critical patent/CN114996431A/zh
Application granted granted Critical
Publication of CN114996431B publication Critical patent/CN114996431B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于混合注意力的人机对话生成方法、系统及介质,本发明方法包括将交互对象的说话内容提取文本特征序列Fw,并将文本特征序列Fw基于位置编码矩阵PE进行位置编码,得到引入位置信息的文本特征序列Fwp;分别通过全局自注意力机制、稀疏注意力机制提取特征再进行线性融合得到特征序列Fen;最后提取回复文本序列Y的注意力向量Ac并与Fen进行点乘得到表示向量h f ;通过前馈神经网络对表示向量h f 获取面向回复文本序列Y的概率表示P(Y)并定向搜索最优的回复文本并输出。本发明能够提高人机对话生成的质量,有效的表示说话人内容,可广泛应用于人机对话生成。

Description

一种基于混合注意力的人机对话生成方法、系统及介质
技术领域
本发明涉及人工智能、自然语言处理技术,具体涉及一种基于混合注意力的人机对话生成方法、系统及介质。
背景技术
随着人工智能的发展,人们需要更加人性化和方便的人机交互方式来代替传统的键盘、鼠标等人手的操作方式。以自然语言处理技术为核心的人机对话技术应用于语音助手和机器人等产品中迎来一轮发展热潮。近年来,自然语言生成技术获得了前所未有的突破,广泛应用于机器翻译、文档摘要、故事生成等下游任务上。在人机交互领域中,基于生成式的人机对话技术逐渐受到广大学者的关注。但是在人机对话的过程中对话是由多个对话内容动态信息交互构成口语文本,其内容与主题存在偏离,导致话题的内容不集中,使得话题的重要内容动态变化。因此有效的对用户的说话内容进行建模,并建立对话上下文的相关性来生成高质量的对话生成方式是亟需解决的难题。本发明目的是提供一种基于混合注意力的人机对话生成方法及系统,通过混合注意力机制可以有效的建立对话内容上下文信息,理解交互对象的说话内容,提高回复内容的准确性。
发明内容
本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于混合注意力的人机对话生成方法、系统及介质,本发明旨在通过全局自注意力和稀疏注意力两种混合注意力获取人机对话内容具有全局和局部上下文信息的有效表示,以提高回复内容的准确性性能,可广泛应用于机器人的人机交互。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于混合注意力的人机对话生成方法,包括:
S101,对交互对象的说话内容提取文本特征,得到文本特征序列Fw
S102,将文本特征序列Fw基于位置编码矩阵PE进行位置编码,得到引入位置信息的文本特征序列Fwp
S103,针对引入位置信息的文本特征序列Fwp,通过全局自注意力机制提取具有全局上下文信息的特征序列Fwc,通过稀疏注意力机制提取具有局部上下文信息的特征序列Fwl
S104,将具有全局上下文信息的特征序列Fwc和局部上下文信息的特征序列Fwl进行线性融合,得到融合后的具有全局和局部上下文信息的特征序列Fen
S105,针对输出的回复文本序列Y={y i |i=,1,2,3,...,n},通过注意力层得到回复文本序列Y与具有全局和局部上下文信息的特征序列Fen两者的注意力向量Ac,其中n为回复文本序列Y的长度;将注意力向量Ac与具有全局和局部上下文信息的特征序列Fe进行点乘,得到最终的表示向量h f ;通过前馈神经网络对表示向量h f 获取面向回复文本序列Y的概率表示P(Y) ,根据面向回复文本序列Y的概率表示P(Y) 采用定向搜索的方式在回复文本序列Y中找到最优的回复文本并输出。
可选地,步骤S101包括:将交互对象的音频数据降噪后进行语音识别,将语音识别得到的文本序列lw进行线性变换以将文本空间中的文字映射为数值向量空间的数值表示,得到文本特征序列Fw
可选地,所述将语音识别得到的文本序列lw进行线性变换的函数表达式为:
Fw= lw*W r
其中,W r 为线性变换矩阵。
可选地,步骤S102中将文本特征序列Fw基于位置编码矩阵PE进行位置编码的函数表达式为:
Fwp= Fw+ PE
上式中,Fwp为引入位置信息的文本特征序列,PE为位置编码矩阵,且有:
Figure 841946DEST_PATH_IMAGE001
上式中,PE (pos,2j) 表示位置编码矩阵PE中位置pos的维度2j的位置编码,PE (pos,2j+1) 表示位置编码矩阵PE中位置pos的维度2j+1的位置编码,j表示文本特征序列Fw的第j个维度,d表示文本特征序列Fw的维度数量。
可选地,步骤S103中通过全局自注意力机制提取具有全局上下文信息的特征序列Fwc包括:
S201,根据下式的线性变换,将引入位置信息的文本特征序列Fwp投影至多个特征空间中,得到投影至各个特征空间i中的查询特征Q i 、键特征K i 以及值特征V i
Q i =Fwp*W i q K i =Fwp*W i k V i =Fwp*W i v
上式中,W i q 、W i k 、W i v 分别为对应的查询权重矩阵、键权重矩阵、值权重矩阵,i为特征空间的索引;
S202,根据查询特征Q i 、键特征K i 计算引入位置信息的文本特征序列Fwp中各文本特征元素与所有特征序列元素之间的注意力权重S i 以表征文本特征之间的相似度;
Figure 41983DEST_PATH_IMAGE002
上式中,softmax表示归一化指数函数,d k 为矩阵Q i K i T对应的维度;
S203,基于下式得到各个特征空间i中的头head i
Figure 35347DEST_PATH_IMAGE003
S204,将各个特征空间i中的头head i 根据下式通过级联方式得到的多头特征作为具有全局上下文信息的特征序列Fwc
Figure 58185DEST_PATH_IMAGE004
上式中,MultiHead表示多头注意力函数,concat为特征维度上的级联操作,head 1 ~head n 分别为第1~n个特征空间中的头,W O 为输出权重矩阵。
可选地,步骤S103中通过稀疏注意力机制提取具有局部上下文信息的特征序列Fwl包括:
S301,基于下式得到各个特征空间i中的头headlocal i
Figure 795197DEST_PATH_IMAGE005
上式中,M(S i ,K)为稀疏注意力函数,K为用于从文本特征序列Fwp中取出最相关的特征序列元素的个数,且有:
Figure 646479DEST_PATH_IMAGE006
上式中,θ为用于从文本特征序列Fwp中取出最相关的K个特征序列元素的阈值;
S302,将各个特征空间i中的头headlocal i 根据下式通过级联方式得到的多头特征作为具有局部上下文信息的特征序列Fwl
Figure 76323DEST_PATH_IMAGE007
上式中,MultiHead表示多头注意力函数,concat为特征维度上的级联操作,headlocal 1 ~headlocal n 分别为第1~n个特征空间中的头,W u 为输出权重矩阵。
可选地,步骤S104中将具有全局上下文信息的特征序列Fwc和局部上下文信息的特征序列Fwl进行线性融合的函数表达式为:
Fen=Linear([Fwc,Fwl]),
上式中,Linear表示线性变换函数,[Fwc,Fwl]具有全局上下文信息的特征序列Fwc和具有局部上下文信息的特征序列Fwl的级联。
可选地,步骤S105中对表示向量h f 获取面向回复文本序列Y的概率表示P(Y)的函数表达式为:
P(Y) =softmax(FFN(h f ))
上式中,softmax为归一化指数函数,FFN表示前馈神经网络。
此外,本发明还提供一种基于混合注意力的人机对话生成系统,包括相互连接的微处理器和存储器,所述微处理器被编程或配置以执行所述基于混合注意力的人机对话生成方法的步骤。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于被微处理器编程或配置以执行所述基于混合注意力的人机对话生成方法的步骤。
和现有技术相比,本发明主要具有下述优点:
1、本发明包括针对引入位置信息的文本特征序列Fwp,通过全局自注意力机制提取具有全局上下文信息的特征序列Fwc,通过稀疏注意力机制提取具有局部上下文信息的特征序列Fwl,对文本特征序列Fwp实现混合注意力以提取了文本特征序列的全局和局部信息,建立了说话内容的上下文相关性,有效的表示了说话人的对话内容,提高了对话回复的质量。
2、本发明包括将全局上下文信息的特征序列Fwc和具有局部上下文信息的特征序列Fwl进行线性融合,将融合后的特征表示Fen进行解码输出并通过注意力向量进行选择,最后基于概率表示和定向搜索得到最优的回复结果识别结果,通过线性融合使得两个特征序列建立联系,使得模型充分利用不同全局和局部信息之间的相关性。
附图说明
图1为本发明实施例方法的基本流程示意图。
具体实施方式
如图1所示,本实施例提供一种基于混合注意力的人机对话生成方法,包括:
S101,对交互对象的说话内容提取文本特征,得到文本特征序列Fw
S102,将文本特征序列Fw基于位置编码矩阵PE进行位置编码,得到引入位置信息的文本特征序列Fwp
S103,针对引入位置信息的文本特征序列Fwp,通过全局自注意力机制提取具有全局上下文信息的特征序列Fwc,通过稀疏注意力机制提取具有局部上下文信息的特征序列Fwl
S104,将具有全局上下文信息的特征序列Fwc和局部上下文信息的特征序列Fwl进行线性融合,得到融合后的具有全局和局部上下文信息的特征序列Fen
S105,针对输出的回复文本序列Y={y i |i=,1,2,3,...,n},通过注意力层得到回复文本序列Y与具有全局和局部上下文信息的特征序列Fen两者的注意力向量Ac,其中n为回复文本序列Y的长度;将注意力向量Ac与具有全局和局部上下文信息的特征序列Fen进行点乘,得到最终的表示向量h f ;通过前馈神经网络对表示向量h f 获取面向回复文本序列Y的概率表示P(Y) ,根据面向回复文本序列Y的概率表示P(Y) 采用定向搜索的方式在回复文本序列Y中找到最优的回复文本并输出。
本实施例中,步骤S101包括:将交互对象的音频数据降噪后进行语音识别,将语音识别得到的文本序列lw进行线性变换以将文本空间中的文字映射为数值向量空间的数值表示,得到文本特征序列Fw
本实施例中,将语音识别得到的文本序列lw进行线性变换的函数表达式为:
Fw= lw*W r
其中,W r 为线性变换矩阵。
本实施例中,步骤S102中将文本特征序列Fw基于位置编码矩阵PE进行位置编码的函数表达式为:
Fwp= Fw+ PE
上式中,Fwp为引入位置信息的文本特征序列,PE为位置编码矩阵,且有:
Figure 849107DEST_PATH_IMAGE001
上式中,PE (pos,2j) 表示位置编码矩阵PE中位置pos的维度2j的位置编码,PE (pos,2j+1) 表示位置编码矩阵PE中位置pos的维度2j+1的位置编码,j表示文本特征序列Fw的第j个维度,d表示文本特征序列Fw的维度数量。
本实施例中,步骤S103中通过全局自注意力机制提取具有全局上下文信息的特征序列Fwc包括:
S201,根据下式的线性变换,将引入位置信息的文本特征序列Fwp投影至多个特征空间中,得到投影至各个特征空间i中的查询特征Q i 、键特征K i 以及值特征V i
Q i =Fwp*W i q K i =Fwp*W i k V i =Fwp*W i v
上式中,W i q 、W i k 、W i v 分别为对应的查询权重矩阵、键权重矩阵、值权重矩阵,i为特征空间的索引;
S202,根据查询特征Q i 、键特征K i 计算引入位置信息的文本特征序列Fwp中各文本特征元素与所有特征序列元素之间的注意力权重S i 以表征文本特征之间的相似度;
Figure 124230DEST_PATH_IMAGE002
上式中,softmax表示归一化指数函数,d k 为矩阵Q i K i T对应的维度;
S203,基于下式得到各个特征空间i中的头head i
Figure 33281DEST_PATH_IMAGE003
S204,将各个特征空间i中的头head i 根据下式通过级联方式得到的多头特征作为具有全局上下文信息的特征序列Fwc
Figure 368447DEST_PATH_IMAGE004
上式中,MultiHead表示多头注意力函数,concat为特征维度上的级联操作,head 1 ~head n 分别为第1~n个特征空间中的头,W O 为输出权重矩阵。
本实施例中,步骤S103中通过稀疏注意力机制提取具有局部上下文信息的特征序列Fwl包括:
S301,基于下式得到各个特征空间i中的头headlocal i
Figure 628527DEST_PATH_IMAGE005
上式中,M(S i ,K)为稀疏注意力函数,K为用于从文本特征序列Fwp中取出最相关的特征序列元素的个数,且有:
Figure 707341DEST_PATH_IMAGE006
上式中,θ为用于从文本特征序列Fwp中取出最相关的K个特征序列元素的阈值;
S302,将各个特征空间i中的头headlocal i 根据下式通过级联方式得到的多头特征作为具有局部上下文信息的特征序列Fwl
Figure 533215DEST_PATH_IMAGE007
上式中,MultiHead表示多头注意力函数,concat为特征维度上的级联操作,headlocal 1 ~headlocal n 分别为第1~n个特征空间中的头,W u 为输出权重矩阵。
本实施例中,步骤S104中将具有全局上下文信息的特征序列Fwc和局部上下文信息的特征序列Fwl进行线性融合的函数表达式为:
Fen=Linear([Fwc,Fwl]),
上式中,Linear表示线性变换函数,[Fwc,Fwl]具有全局上下文信息的特征序列Fwc和具有局部上下文信息的特征序列Fwl的级联。
本实施例中,步骤S105中通过注意力层得到回复文本序列Y与具有全局和局部上下文信息的特征序列Fen两者的注意力向量Ac是指将回复文本序列Y与具有全局和局部上下文信息的特征序列Fen两者输入注意力层得到注意力向量Ac,其中注意力层为现有神经网络结构,故在此不再详述。本实施例中,步骤S105中对表示向量h f 获取面向回复文本序列Y的概率表示P(Y)的函数表达式为:
P(Y) =softmax(FFN(h f ))
上式中,softmax为归一化指数函数,FFN表示前馈神经网络,作为一种个可选的实施方式,本实施例中前馈神经网络为多层全连接神经网络。通过前馈神经网络对表示向量h f 获取面向回复文本序列Y的概率表示P(Y) ,根据面向回复文本序列Y的概率表示P(Y)采用定向搜索的方式在回复文本序列Y中找到最优的回复文本并输出。定向搜索(Beamsearch)是一种现有的搜索方法(详见Furcy D, Koenig S. Limited discrepancy beamsearch[C]IJCAI. 2005.),可根据面向回复文本序列Y的概率表示P(Y)在回复文本序列Y中找到最优的回复文本,本实施例中仅仅涉及定向搜索(Beam search)的基本应用,不涉及对定向搜索(Beam search)技术的改进,因此其具体实现细节在此不再赘述。
综上所述,本实施例方法包对交互对象的说话内容提取文本特征,得到文本特征序列Fw;将文本特征序列Fw基于位置编码矩阵PE进行位置编码,得到引入位置信息的文本特征序列Fwp;针对引入位置信息的文本特征序列Fwp,通过全局自注意力机制提取具有全局上下文信息的特征序列Fwc,通过稀疏注意力机制提取具有局部上下文信息的特征序列Fwl;将具有全局上下文信息的特征序列Fwc和局部上下文信息的特征序列Fwl进行线性融合,得到融合后的具有全局和局部上下文信息的特征序列Fen;针对输出的回复文本序列Y={y i |i=,1,2,3,...,n},通过注意力层得到回复文本序列Y与具有全局和局部上下文信息的特征序列Fen两者的注意力向量Ac,其中n为回复文本序列Y的长度;将注意力向量Ac与具有全局和局部上下文信息的特征序列Fen进行点乘,得到最终的表示向量h f ;通过前馈神经网络对表示向量h f 获取面向回复文本序列Y的概率表示P(Y) ,根据面向回复文本序列Y的概率表示P(Y) 采用定向搜索的方式在回复文本序列Y中找到最优的回复文本并输出。通过上述方法,通过全局自注意力机制提取具有全局上下文信息的特征序列Fwc,通过稀疏注意力机制提取具有局部上下文信息的特征序列Fwl,对文本特征序列Fwp实现混合注意力以提取了文本特征序列的全局和局部信息,建立了说话内容的上下文相关性,有效的表示了说话人的对话内容,提高了对话回复的质量;本实施例方法包括将全局上下文信息的特征序列Fwc和具有局部上下文信息的特征序列Fwl进行线性融合,将融合后的特征表示Fen进行解码输出并通过注意力向量进行选择,最后基于概率表示和定向搜索得到最优的回复结果识别结果,通过线性融合使得两个特征序列建立联系,使得模型充分利用不同全局和局部信息之间的相关性,本实施例方法能够提高人机对话生成的质量,有效的表示说话人内容,可广泛应用于人机对话生成。
此外,本发明还提供一种基于混合注意力的人机对话生成系统,包括相互连接的微处理器和存储器,所述微处理器被编程或配置以执行所述基于混合注意力的人机对话生成方法的步骤。此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序用于被微处理器编程或配置以执行所述基于混合注意力的人机对话生成方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种基于混合注意力的人机对话生成方法,其特征在于,包括:
S101,对交互对象的说话内容提取文本特征,得到文本特征序列Fw
S102,将文本特征序列Fw基于位置编码矩阵PE进行位置编码,得到引入位置信息的文本特征序列Fwp
S103,针对引入位置信息的文本特征序列Fwp,通过全局自注意力机制提取具有全局上下文信息的特征序列Fwc,通过稀疏注意力机制提取具有局部上下文信息的特征序列Fwl
S104,将具有全局上下文信息的特征序列Fwc和局部上下文信息的特征序列Fwl进行线性融合,得到融合后的具有全局和局部上下文信息的特征序列Fen
S105,针对输出的回复文本序列Y={y i |i=,1,2,3,...,n},通过注意力层得到回复文本序列Y与具有全局和局部上下文信息的特征序列Fen两者的注意力向量Ac,其中n为回复文本序列Y的长度;将注意力向量Ac与具有全局和局部上下文信息的特征序列Fe进行点乘,得到最终的表示向量h f ;通过前馈神经网络对表示向量h f 获取面向回复文本序列Y的概率表示P(Y) ,根据面向回复文本序列Y的概率表示P(Y) 采用定向搜索的方式在回复文本序列Y中找到最优的回复文本并输出。
2.根据权利要求1所述的基于混合注意力的人机对话生成方法,其特征在于,步骤S101包括:将交互对象的说话内容降噪后进行语音识别,将语音识别得到的文本序列lw进行线性变换以将文本空间中的文字映射为数值向量空间的数值表示,得到文本特征序列Fw
3.根据权利要求2所述的基于混合注意力的人机对话生成方法,其特征在于,所述将语音识别得到的文本序列lw进行线性变换的函数表达式为:
Fw= lw*W r
其中,W r 为线性变换矩阵。
4.根据权利要求1所述的基于混合注意力的人机对话生成方法,其特征在于,步骤S102中将文本特征序列Fw基于位置编码矩阵PE进行位置编码的函数表达式为:
Fwp= Fw+ PE
上式中,Fwp为引入位置信息的文本特征序列,PE为位置编码矩阵,且有:
Figure 58163DEST_PATH_IMAGE001
上式中,PE (pos,2j) 表示位置编码矩阵PE中位置pos的维度2j的位置编码,PE (pos,2j+1) 表示位置编码矩阵PE中位置pos的维度2j+1的位置编码,j表示文本特征序列Fw的第j个维度,d表示文本特征序列Fw的维度数量。
5.根据权利要求1所述的基于混合注意力的人机对话生成方法,其特征在于,步骤S103中通过全局自注意力机制提取具有全局上下文信息的特征序列Fwc包括:
S201,根据下式的线性变换,将引入位置信息的文本特征序列Fwp投影至多个特征空间中,得到投影至各个特征空间i中的查询特征Q i 、键特征K i 以及值特征V i
Q i =Fwp*W i q K i =Fwp*W i k V i =Fwp*W i v
上式中,W i q 、W i k 、W i v 分别为对应的查询权重矩阵、键权重矩阵、值权重矩阵,i为特征空间的索引;
S202,根据查询特征Q i 、键特征K i 计算引入位置信息的文本特征序列Fwp中各文本特征元素与所有特征序列元素之间的注意力权重S i 以表征文本特征之间的相似度;
Figure 975303DEST_PATH_IMAGE002
上式中,softmax表示归一化指数函数,d k 为矩阵Q i K i T对应的维度;
S203,基于下式得到各个特征空间i中的头head i
Figure 286199DEST_PATH_IMAGE003
S204,将各个特征空间i中的头head i 根据下式通过级联方式得到的多头特征作为具有全局上下文信息的特征序列Fwc
Figure 681408DEST_PATH_IMAGE004
上式中,MultiHead表示多头注意力函数,concat为特征维度上的级联操作,head 1 head n 分别为第1~n个特征空间中的头,W O 为输出权重矩阵。
6.根据权利要求1所述的基于混合注意力的人机对话生成方法,其特征在于,步骤S103中通过稀疏注意力机制提取具有局部上下文信息的特征序列Fwl包括:
S301,基于下式得到各个特征空间i中的头headlocal i
Figure 495780DEST_PATH_IMAGE005
上式中,M(S i ,K)为稀疏注意力函数,K为用于从文本特征序列Fwp中取出最相关的特征序列元素的个数,且有:
Figure 583822DEST_PATH_IMAGE006
上式中,θ为用于从文本特征序列Fwp中取出最相关的K个特征序列元素的阈值;
S302,将各个特征空间i中的头headlocal i 根据下式通过级联方式得到的多头特征作为具有局部上下文信息的特征序列Fwl
Figure 850855DEST_PATH_IMAGE007
上式中,MultiHead表示多头注意力函数,concat为特征维度上的级联操作,headlocal 1 ~headlocal n 分别为第1~n个特征空间中的头,W u 为输出权重矩阵。
7.根据权利要求1所述的基于混合注意力的人机对话生成方法,其特征在于,步骤S104中将具有全局上下文信息的特征序列Fwc和局部上下文信息的特征序列Fwl进行线性融合的函数表达式为:
Fen=Linear([Fwc,Fwl]),
上式中,Linear表示线性变换函数,[Fwc,Fwl]具有全局上下文信息的特征序列Fwc和具有局部上下文信息的特征序列Fwl的级联。
8.根据权利要求1所述的基于混合注意力的人机对话生成方法,其特征在于,步骤S105中对表示向量h f 获取面向回复文本序列Y的概率表示P(Y)的函数表达式为:
P(Y) =softmax(FFN(h f ))
上式中,softmax为归一化指数函数,FFN表示前馈神经网络。
9.一种基于混合注意力的人机对话生成系统,包括相互连接的微处理器和存储器,其特征在于,所述微处理器被编程或配置以执行权利要求1~8中任意一项所述基于混合注意力的人机对话生成方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,其特征在于,所述计算机程序用于被微处理器编程或配置以执行权利要求1~8中任意一项所述基于混合注意力的人机对话生成方法的步骤。
CN202210916763.5A 2022-08-01 2022-08-01 一种基于混合注意力的人机对话生成方法、系统及介质 Active CN114996431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210916763.5A CN114996431B (zh) 2022-08-01 2022-08-01 一种基于混合注意力的人机对话生成方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210916763.5A CN114996431B (zh) 2022-08-01 2022-08-01 一种基于混合注意力的人机对话生成方法、系统及介质

Publications (2)

Publication Number Publication Date
CN114996431A true CN114996431A (zh) 2022-09-02
CN114996431B CN114996431B (zh) 2022-11-04

Family

ID=83022816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210916763.5A Active CN114996431B (zh) 2022-08-01 2022-08-01 一种基于混合注意力的人机对话生成方法、系统及介质

Country Status (1)

Country Link
CN (1) CN114996431B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902293A (zh) * 2019-01-30 2019-06-18 华南理工大学 一种基于局部与全局互注意力机制的文本分类方法
CN110413729A (zh) * 2019-06-25 2019-11-05 江南大学 基于尾句-上下文双重注意力模型的多轮对话生成方法
CN111460126A (zh) * 2020-06-12 2020-07-28 支付宝(杭州)信息技术有限公司 一种用于人机对话系统的回复生成方法、装置及电子设备
CN111930918A (zh) * 2020-09-29 2020-11-13 湖南大学 一种跨模态的双边个性化人机社交对话生成方法及系统
US20210125605A1 (en) * 2019-10-29 2021-04-29 Lg Electronics Inc. Speech processing method and apparatus therefor
US20220156553A1 (en) * 2020-06-05 2022-05-19 Google Llc Attention neural networks with sparse attention mechanisms

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109902293A (zh) * 2019-01-30 2019-06-18 华南理工大学 一种基于局部与全局互注意力机制的文本分类方法
CN110413729A (zh) * 2019-06-25 2019-11-05 江南大学 基于尾句-上下文双重注意力模型的多轮对话生成方法
US20210125605A1 (en) * 2019-10-29 2021-04-29 Lg Electronics Inc. Speech processing method and apparatus therefor
US20220156553A1 (en) * 2020-06-05 2022-05-19 Google Llc Attention neural networks with sparse attention mechanisms
CN111460126A (zh) * 2020-06-12 2020-07-28 支付宝(杭州)信息技术有限公司 一种用于人机对话系统的回复生成方法、装置及电子设备
CN111930918A (zh) * 2020-09-29 2020-11-13 湖南大学 一种跨模态的双边个性化人机社交对话生成方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MING ZHONG等: "DialogLM: Pre-trained Model for Long Dialogue Understanding and Summarization", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 *
QIYA SONG等: "Multimodal_Sparse_Transformer_Network_for_Audio-Visual_Speech_Recognition", 《IEEE》 *
学术头条: "谷歌Transformer再升级——新模型实现性能、速度双提升,发展潜力巨大", 《HTTPS://WWW.CN-HEALTHCARE.COM/ARTICLEWM/20201106/CONTENT-1160302.HTML?APPFROM=JKJ》 *
高莹等: "基于改进的混合自注意力机制模型的研究", 《电视技术》 *

Also Published As

Publication number Publication date
CN114996431B (zh) 2022-11-04

Similar Documents

Publication Publication Date Title
CN113158665B (zh) 一种基于文本摘要生成与双向语料改善对话文本生成的方法
You et al. Self-supervised contrastive cross-modality representation learning for spoken question answering
CN111462750A (zh) 语义与知识增强的端到端任务型对话系统及方法
CN110990555B (zh) 端到端检索式对话方法与系统及计算机设备
CN112037773B (zh) 一种n最优口语语义识别方法、装置及电子设备
WO2019235103A1 (ja) 質問生成装置、質問生成方法及びプログラム
CN110765264A (zh) 一种增强语义相关性的文本摘要生成方法
CN113641819A (zh) 基于多任务稀疏共享学习的论辩挖掘系统及方法
Chen et al. Exploiting future word contexts in neural network language models for speech recognition
Liu et al. Multimodal emotion recognition based on cascaded multichannel and hierarchical fusion
Ghosh et al. Mmer: Multimodal multi-task learning for speech emotion recognition
Arora et al. Two-pass low latency end-to-end spoken language understanding
CN114996431B (zh) 一种基于混合注意力的人机对话生成方法、系统及介质
CN114880022B (zh) 一种基于CodeBERT微调和检索增强的Bash代码注释生成方法
CN111414466A (zh) 一种基于深度模型融合的多轮对话建模方法
CN116663577A (zh) 基于跨模态表征对齐的英越端到端语音翻译方法
CN116978381A (zh) 音频数据处理方法、装置、计算机设备和存储介质
CN115545038A (zh) 一种优化网格标签的方面情感分析方法
Raut et al. An extensive survey on audio-to-text and text summarization for video content
CN110390010A (zh) 一种自动文本摘要方法
Dhasmana et al. Sequence to Sequence Pre-Trained Model for Natural Language Processing
CN117787293B (zh) 一种基于大语言模型的个性化对话生成方法及系统
CN117934657B (zh) 一种基于文图生成模型的语言跟踪图像编辑方法
CN115237424A (zh) 基于knn解码增强的代码摘要生成方法及系统
CN117153141A (zh) 一种基于约束生成和扁平事件表示的语音事件抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant