CN113314110B - 一种基于量子测量与酉变换技术的语言模型及构建方法 - Google Patents
一种基于量子测量与酉变换技术的语言模型及构建方法 Download PDFInfo
- Publication number
- CN113314110B CN113314110B CN202110449647.2A CN202110449647A CN113314110B CN 113314110 B CN113314110 B CN 113314110B CN 202110449647 A CN202110449647 A CN 202110449647A CN 113314110 B CN113314110 B CN 113314110B
- Authority
- CN
- China
- Prior art keywords
- matrix
- composite system
- quantum
- measurement
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000005259 measurement Methods 0.000 title claims abstract description 118
- 230000009466 transformation Effects 0.000 title claims abstract description 56
- 238000005516 engineering process Methods 0.000 title claims abstract description 17
- 238000010276 construction Methods 0.000 title claims abstract description 8
- 239000011159 matrix material Substances 0.000 claims abstract description 211
- 239000002131 composite material Substances 0.000 claims abstract description 83
- 239000013598 vector Substances 0.000 claims description 74
- 238000000034 method Methods 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 5
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000013527 convolutional neural network Methods 0.000 abstract description 2
- 230000009467 reduction Effects 0.000 abstract description 2
- 238000011160 research Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000005610 quantum mechanics Effects 0.000 description 3
- 238000000844 transformation Methods 0.000 description 3
- 238000007476 Maximum Likelihood Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000021615 conjugation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 102100033814 Alanine aminotransferase 2 Human genes 0.000 description 1
- 101710096000 Alanine aminotransferase 2 Proteins 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于量子测量与酉变换技术的语言模型及构建方法,基于量子测量的思想,对复合系统进行量子测量,并对量子测量后的系统进行酉变换,融合上文信息,然后求解约化密度矩阵,最后生成文本表示,并进行下游任务。包括复合系统模块、量子测量模块、酉变换模块、约化密度矩阵模块和卷积模块。在问答任务中,使用answer的密度矩阵与约化密度矩阵联合表示,使用卷积神经网络相似度计算,利用计算的loss值进行反向传播进行参数更新。
Description
技术领域
本发明涉及语言建模、问答系统,属于量子计算和深度学习领域的一个研究问题。提出 了一种基于量子测量与酉变换技术的语言模型及其构建方法。
背景技术
随着计算机科学的飞速发展以及人工智能的长足进步,自然语言处理作为人工智能领域 的核心技术,其研究价值不言而喻。而且在自然语言处理中,语言模型是一重要研究方向。 语言模型的基本任务就是利用计算机建模人类语言的内在规律,进而使计算机可以完成语言 理解任务和语言生成任务。在应用领域,语言模型有助于自动问答、信息检索、机器翻译等 任务的完成。
在语言模型发展初期,语言学家通过语言学知识创建一系列文法规则,设计出文法型语 言模型[1,2]。但是这种语言模型不能处理稍微复杂的句子,它的问题有两点:(1)通过文法 规则覆盖20%的真实句子,需要上万条文法规则,因此无法靠文法规则覆盖所有的真实句子; (2)即便可以统计出全部的文法规则,也很难使用计算机进行编码。由于文法型语言模型的 缺陷,基于统计的语言模型应运而生。统计语言模型是从概率统计角度出发,解决自然语言 上下文相关的特性的数学模型,通过计算概率分布参数,推断出自然语言片段出现的可能性。 统计语言模型可以分为以下两种:
(1)词袋模型[3],也称一元语言模型,假设一篇文档或词的序列可以看作是单词的组 合,这些单词不存在顺序信息,是彼此相互独立的。这样做的结果导致不能建模词语之间的 语义关联。因此,在一元语言模型的基础上推出了多元语言模型(n-gram),它建模了当前单 词与它前n个单词之间的相关性,公式表示为
P(Xi=xi|Xi-1=xi-1,Xi-2=xi-2,...,Xi(n-1)=xi(n-1),)=q(xi|xi-1,xi-2,...,xi-(n-1))
由多元语言模型建模出的句子概率可以表示为
但是多元语言模型的计算范围很小,不能建模长程依赖关系,因此在应用中,会限制它的实 际效果。
(2)潜在语义索引模型[4],本质上是把每个特征映射到了一个更低维的子空间,即将 每一个单词嵌入到一个子空间中,这个子空间是由奇异值分解得到的特征向量张成的。在这 个子空间中,存在语义关联的单词之间,其向量表示也是相似的。
最常用的语言模型建立在深度学习框架下的神经网络语言模型[5,6]。这一语言模型基于 嵌入子空间的假设[7],其基本原理为将词表中的词语表示为一个固定长度为m的向量形式 C(w),整个词表用一个m×|V|的矩阵表示,每一列为一个词向量。然后找到词wt的上下文 context(wt),最初设定的上下文context(wt)是词wt的前n-1个词语,并把这n-1个词语的词向 量首尾相接,形成维度为(n-1)m的向量作为神经网络的输入,其中n小于5。所以NNLM输 入层的大小已经确定为(n-1)m,隐层的规模由人工指定,输出层的大小为|V|,设定为|V|是 因为输入特征为context(wt)对应的(n-1)m维的向量,通过神经网络语言模型后,期望的输出 是词语wt,即输出类似于模型学习到的到标签的映射,因为共有|V|个词语,所以输出层维度 为|V|,wt在词表V中的下标对应的维度就是映射wt的得分,softmax把该得分归一化为概率。
假设词w的上下文词拼接成一个向量xw,在神经网络中的计算如下
在向量yw={yw,1,yw,2,...,yw,|V|}中的每一个分量yw,i表示当前词为词表的第i个词,且上下文词 为context(w)的概率,求概率还需要对yw做一个softmax归一化,如下所示
这里未知参数是神经网络中的权重W和U,以及偏差d1和d2。利用梯度上升来求解位置参数 θ,即
其中R(θ)是正则化项,为了防止过拟合现象。目前常见的神经网络语言模型有Bert[8]、 GPT-2[9]、GPT-3[10]等。
目前,通过研究表明,在信息检索领域中,在计算文档相关性分数时,只是将不同的依 赖信息或特征得到的分数做线性加权,并不能有机地将不同的依赖信息统一到一种原则性的 语言模型框架下[11]。针对这一问题,由Sordoni等[12]提出量子语言模型(quantum language model,QLM),主要思想是利用量子力学中的密度矩阵来建模单词之间的相互依赖关系。利 用投影算子来表示单词或词组,使用密度矩阵用来测量每个可观测量子态的出现概率,即每 个单词在句子中出现的概率,单词或词组的密度矩阵构成的集合组合一篇文档或查询,通过 极大似然估计来求出文档或查询的密度矩阵,然后利用VN散度来计算文档和查询的相关性。 在ad-hoc中,比一元语言模型的效果有显著提升。然而量子语言模型使用的是one-hot向量 来表示单词,因此不能建模全局语义关系;而且不能进行端到端的训练,不能够将文本的表 示、匹配,以及排序结合起来,不能联合优化,从而限制了他的使用范围和推广。针对这一 问题,Zhang等人[13]提出了端到端量子语言模型,它的思想同量子语言模型近似,也是使用 密度矩阵来建模词与词之间的依赖关系,使用词向量来表示单词,在密度矩阵中建模了全局 语义信息。使用单词的密度矩阵线性组合来表示question和answer,并将两组密度矩阵相乘, 使用迹内积或卷积神经网络来计算两个矩阵之间的相似度,并进行反向传播,训练网络参数。 在语音识别领域,量子语言模型[14]使用酉变换和量子测量来建模词序关系,对每一个单词 对应词向量的每一维都定义一个酉矩阵。但是,单词的词向量维度比较大,因此也存在很多 的参数需要学习优化。
同时,在自然语言也中存在量子性质,即单词之间建立的依赖关系存在量子纠缠现象[15], 在情感分析任务中,存在着量子干涉现象[16]。因此在自然语言处理领域中,在量子力学数 学框架下发展语言模型是很有研究前景和价值的。
[参考文献]
[1]Minsky M.Semantic Information Processing.Cambridge:MIT Press,1968.440-441
[2]Schank R.Conceptual Information Processing.Amsterdam:ElsevierScience Inc,1975.5- 21
[3]Harris Z S.Distributional structure.Word,1954,10:146-162
[4]Deerwester S,Dumais S T,Furnas G W,et al.Indexing by latentsemantic analysis.J Am Soc Inf Sci,1990,41:391-407
[5]Xu W,Rudnicky A.Can artifificial neural networks learn languagemodels-In:Procedings of the 6th International Conference on Spoken LanguageProcessing,2000
[6]Bengio Y,Ducharme R,Vincent P,et al.A neural probabilisticlanguage model.J Mach Learn Res,2003,3:1137-1155
[7]Sun F,Guo J,LanY,et al.Sparse word embeddings using l1regularizedonline learning.In: Proceedings of the 25th International Joint Conference onArtifificial Intelligence,2016.2915-2921
[8]Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deepbidirectional transformers for language understanding[J].arXiv preprintarXiv:1810.04805,2018.
[9]Radford A,Wu J,Child R,et al.Language models are unsupervisedmultitask learners[J]. OpenAI blog,2019,1(8):9.
[10]Brown T B,Mann B,Ryder N,et al.Language models are few-shotlearners[J].arXiv preprint arXiv:2005.14165,2020.
[11]Metzler D,Croft W B.A Markov random fifield model for termdependencies.In: Proceedings of the28th Annual International ACM SIGIRConference on Research and Development in Information Retrieval.Salvador,2005.472-479
[12]Sordoni A,Nie J,Bengio Y.Modeling term dependencies with quantumlanguage models for IR.In:Proceedings of the 36th International ACM SIGIRConference on Research and Development in Information Retrieval,Dublin,2013.653-662
[13]Zhang P,Niu J,Su Z,et al.End-to-end quantum-like language modelswith application to question answering[C]//Proceedings oftheAAAI Conferenceon Artificial Intelligence.2018,32(1).
[14]Basile I,Tamburini F.Towards quantum language models[C]//Proceedings of the2017 Conference on Empirical Methods in Natural LanguageProcessing.2017:l840-1849.
[15]Xie M,Hou Y,Zhang P,et a1.Modeling quantum entanglements inquantum language models[J].2015.
[16]Wang B,Zhang P,Li J,et al.Exploration of quantum interference indocument relevance judgement discrepancy[J].Entropy,2016,18(4):144.
发明内容
本发明的目的是为了克服现有技术中的不足,提供一种基于量子测量与酉变换技术的语 言模型及构建方法,并可以通过端到端的方法来训练网络模型。
本发明的目的是通过以下技术方案实现的:
一种基于量子测量与酉变换技术的语言模型的构建方法,基于量子测量技术对复合系统 进行量子测量,并对量子测量后的复合系统进行酉变换,融合上文信息,然后求解约化密度 矩阵,再与下文组成复合系统,并循环上述过程,最后生成文本表示,并进行下游任务。
本发明还提供一种基于量子测量与酉变换技术的语言模型,包括复合系统模块、量子测 量模块、酉变换模块、约化密度矩阵模块和卷积模块;
复合系统模块用于将输入文本与特征矩阵进行张量积运算,构成复合系统;首先构建特 征矩阵,特征矩阵是对answer特征的假设;之后将输入的question中每一个单词的词向量做 外积,组成单词密度矩阵,并将所有单词的密度矩阵相加,获得question的密度矩阵表示; 最终将特征矩阵与question的密度矩阵做张量积运算,得到复合系统;
量子测量模块用于通过使用测量算子对复合系统进行量子测量;首先构造测量算子,即 单位矩阵和词向量外积矩阵的张量积,量子测量过程就是将测量算子与复合系统相乘,再乘 上测量算子的共轭转置,最后得到经过量子测量后的复合系统;
酉变换模块用于将经过量子测量的复合系统进行演化,将量子测量的信息保留在特征矩 阵中,进而建模出整个question序列的语义信息;得到经过量子测量和酉变换的复合系统;
约化密度矩阵模块用于将经过量子测量和酉变换的复合系统进行分解,得到关于特征矩 阵的约化密度矩阵,约化密度矩阵包含了question序列的信息;
卷积模块用于对约化密度矩阵和answer密度矩阵构造的联合表示进行卷积池化操作,采 用了一个二维的卷积神经网络提取联合表示的特征,提取的联合表示的特征表示文本之间的 相似距离,最后进行匹配训练。
进一步的,复合系统ρsystm表示为:
question的密度矩阵表示为ρqustion;特征矩阵为ρfeature;|featurei>和|featurei′>表示特征 矩阵的基向量,在经过一轮量子测量和酉变换后,表示为约化密度矩阵的单位正交化的特征 向量;<featurei|和<featurei′|表示为|featurei>和|featurei′>的共轭转置;和表示 特征向量对应的权重;|wj>和|wj′>表示question中单词对应的词向量;<wj|和<wj′|表示question 中单词对应的词向量的共轭转置;和表示单词对应的权重。
进一步的,对复合系统的量子测量表示为
复合系统测量算子为∏system,question密度矩阵的测量算子为Πw,复合系统为ρsystem, 复合系统测量算子的共轭转置为question密度矩阵的测量算子为|featurei>和 |featurei′>表示特征矩阵的基向量,在经过一轮量子测量和酉变换后,表示为约化密度矩阵的 一组单位正交化的特征向量;<featurei|和<featurei′|表示为|featurei〉和|featurei′〉的共轭转置;和表示特征向量对应的权重;|wj〉和|wj′〉表示question中单词对应的词向量;<wj| 和<wj′|表示question中单词对应的词向量的共轭转置;和表示单词对应的权重。最后得 到经过量子测量后的复合系统ρsystem′;
进一步的,酉变换模块中通过构造酉矩阵Usystem,在初始化时,酉矩阵Usystem表示为一 个单位矩阵I,在经过一次训练后,对酉矩阵进行了参数更新,然后对更新后的酉矩阵进行奇 异值分解计算,求出特征向量,然后对特征向量进行拼接得到下一轮的酉矩阵的近似表示; 接下来进行酉变换,首先使用酉矩阵乘以经过量子测量后的复合系统,再乘以酉矩阵的共轭 转置。
进一步的,约化密度矩阵看作是在理解了question信息的情况下,对answer特征的猜测, 在后续进行矩阵相似度计算时,能够和正确answer的密度矩阵匹配到最高得分。
进一步的,使用卷积网络对约化密度矩阵和answer密度矩阵的联合矩阵进行卷积池化操 作,计算约化密度矩阵和answer密度矩阵的匹配度得分,通过匹配度得分计算损失值,然后 对整个网络进行参数更新。
进一步的,构造answer的密度矩阵与构造question的密度矩阵的过程相同。
与现有技术相比,本发明的技术方案所带来的有益效果是:
1.本发明中,对question的编码方法与以往模型不同,本发明中的question编码采用了酉 变换和量子测量技术,这样的设计使得单词的量子态表示的测量和演化保存了关于整个序列 的信息,并存储在了特征矩阵中。首先将question中每个单词用密度矩阵表示,然后进行加 权求和,接下来设一个对角矩阵作为特征矩阵,对角线元素值相等并且相加为1,将question 的密度矩阵和特征矩阵求张量积,经过量子测量和酉变换,求出约化密度矩阵,这个约化密 度矩阵是对question的理解后,可以理解为对answer的猜测。
2.本发明利用神经网络结构,反向传播训练网络参数,其中参数包括酉矩阵、卷积核权 重与偏置、词向量。这样的设计同基于酉变换和量子测量的语音识别领域的量子语言模型相 比,参数量大大减少,而且通过反向传播训练,使训练过程更加便捷;同问答系统的端到端 量子语言模型相比,question的编码采用连续量子测量和酉变换,使question的信息编码在特 征矩阵中,同时特征矩阵的初始化,是根据answer的特征假设均匀的分布在矩阵对角线上, 因此特征矩阵也作为对answer的猜测进行更新数值。这样的编码方式更加符合序列建模的过 程。
3.在Wiki-QA数据集上,相比QLM模型,本发明在MRR值上提升了0.02,在MAP值 上提升了0.02;在TRAC-QA数据集上,相比QLM模型,本发明咋MRR值上提升了0.01。
附图说明
图1是本发明语言模型的示意图。
图2是语言模型中卷积模块的示意图。
具体实施方式
以下结合附图和具体实施例对本发明作进一步详细说明。应当理解,此处所描述的具体 实施例仅仅用以解释本发明,并不用于限定本发明。
如图1和图2所示,本发明提出的基于量子测量与酉变换技术建模语言模型中question 编码部分包括四个模块:复合系统模块、量子测量模块、酉变换模块、约化密度矩阵模块, 在计算矩阵相似度的部分,包括一个模块:卷积模块。
1.复合系统模块
复合系统模块的目的是创建一个特征矩阵和question密度矩阵经过张量积得到的一个复 合系统,通过不断地量子测量和酉变换,将question序列的信息保存到特征矩阵中,并更新 对answer的特征假设。
1.1创建特征矩阵
特征矩阵是对answer特征的假设,创建目的是和question密度矩阵构成复合系统,在经 过量子测量时,可以将question中当前的单词信息整合到复合系统中,同时影响到特征矩阵 的更新,进而在求解约化密度矩阵时,可以分解出带有question信息以及更新后的answer信 息的特征矩阵。在初始化特征矩阵时,创建一个d×d维的对角矩阵即特征矩阵ρfeature,矩阵 上对角线元素均为1/d,这表示初始时刻,由于没有任何先验知识作为假设背景,因此对 answer的每个特征假设的概率是均等的。
1.2创建question密度矩阵
在创建question密度矩阵时,采用稠密的词向量作为输入,可以建模全局的语义信息到 密度矩阵中,然后将每个单词的词向量做外积,得到单词的密度矩阵,再将question中所有 的单词进行线性求和,得到question的密度矩阵表示。假设question中包含N个单词,词向 量维度为d维,question中每个单词用Dirac符号表示为|vi>,其中|vi>∈Rd×1,那么question 的密度矩阵ρquestion表示为
ρquestion=∑i|pi∏i=∑iλi|υi><υi|
其中question的密度矩阵ρquestion为一个对称矩阵,并且∑ipi=1。λi表示词向量|υi>的权 重。单词的词向量进行了单位化操作。这样表示出来的question密度矩阵能表达出单词之间 的相互依赖关系。
1.3创建复合系统
复合系统的创建需要将特征矩阵和question密度矩阵进行张量积运算,表示为:
这个复合系统所在的复合系统空间表示为两个子系统空间的张量积,这个复合系统的基向量 表示为子系统基向量之间的张量积,复合系统表示为:
其中question子系统空间为Hquestion∈CD,特征矩阵子系统空间为Hfeature∈CN,因此复合 系统空间为Hsystem∈CDN。使用这种方法的优点是,耦合系统随着时间进行演化,在两个纠 缠的子系统之间产生相关性,从而通过量子测量和酉变换将序列的信息存储在特征矩阵中。 然后,通过时间演化,这些信息被重新转换为单词的量子态,可以理解为将过去的序列信息 成为特征矩阵的记忆,被保留下来,是多元语言模型思想的一种扩展。
2.量子测量模块
量子测量模块的目的是使用测量算子对复合系统进行量子测量。在量子力学中,量子测 量包括投影测量、一般测量和POVM测量。假设一个可观测的量子态|φ>在希尔伯特空间中处 于叠加态的状态,可以表示为:
其中|ei〉表示希尔伯特空间的基向量,ai表示在基向量|ei>上的权重。使用本征空间中的一个测 量算子,即Πi=|ei><ei|对可观测态|φ>进行量子测量,得到的概率P(ei|φ)表示为:
这个概率表示可观测态|φ〉坍缩到量子基本事件|ei〉的概率,进行量子测量后的可观测态表示为:
2.1创建测量算子
在复合系统中,首先要创建复合系统的测量算子,包括两个部分:question子系统测量算 子和特征矩阵子系统测量算子Πfeature。其中question子系统测量算子表示为question 中每个单词的词向量|vi〉的外积,即
2.2量子测量
复合系统测量算子为∏system;question密度矩阵的测量算子为Πw;复合系统为ρsystem;复合 系统测量算子的共轭转置为question密度矩阵的测量算子为|featurei>和 |featurei′>表示特征矩阵的基向量,在经过一轮量子测量和酉变换后,表示为约化密度矩阵的 一组单位正交化的特征向量;<featurei|和<featurei′|表示为|featurei〉和|featurei′>的共轭转置; 和表示特征向量对应的权重;|wj>和|wj′>表示question中单词对应的词向量;<wj| 和<wj′|表示question中单词对应的词向量的共轭转置;和表示单词对应的权重。最后得 到经过量子测量后的复合系统ρsystem′。
3.酉变换模块
酉变换模块的目的是将经过量子测量的复合系统进行演化,将上一个量子测量的信息保 留在特征矩阵中,进而建模出整个question序列的语义信息。在量子力学中,一个封闭的量 子系统|φ>从时间t演化到时间t′,变成量子系统|φ′>,这个过程通过一个酉矩阵来刻画。
3.1创建酉矩阵
首先对于每次量子测量操作都匹配一个酉矩阵Usystem,即酉矩阵的个数由量子测量次数 决定。酉矩阵Usystem表示为
在初始化酉矩阵时,使用的是一个单位矩阵,因为酉矩阵U的性质表示为:
在进行训练时,酉矩阵是需要训练的参数,在反向传播后,需要保证酉矩阵仍能保证酉 矩阵的性质,因此在训练后,需要将参数进行SVD分解,将特征向量进行拼接,组成矩阵。
3.2进行酉变换
其中,|featurei>和|featurei′〉表示特征矩阵的基向量,在经过一轮量子测量和酉变换后,表示 为约化密度矩阵的一组单位正交化的特征向量;<featurei|和<featurei′|表示为|featurei>和 |featurei′>的共轭转置;和表示特征向量对应的权重;|wj>和|wj′>表示question 中单词对应的词向量;<wj|和<wj′|表示question中单词对应的词向量的共轭转置;和表 示单词对应的权重;Ufeature为特征矩阵子系统的酉矩阵;和表示词向量的权重;表 示在question子系统中当前单词的酉矩阵;question密度矩阵的测量算子为∏w;question密 度矩阵的测量算子为量子测量后的复合系统为ρsystem′。
由此可以得到经过量子测量和酉变换之后的复合系统密度矩阵。复合系统的测量算子和 酉矩阵应该是两个子系统的测量算子和酉矩阵的张量积,由于算力的限制,将两个过程分解 为向量运算,这样大大减少了计算的开销。
4.约化密度矩阵模块
约化密度矩阵模块是将经过量子测量和酉变换的复合系统进行分解,得到关于特征矩阵 的约化密度矩阵,这个约化密度矩阵包含了question信息,生成的约化密度矩阵可以看作是 在“理解”了question信息的情况下,对answer特征的猜测,在后续进行矩阵相似度计算时, 可以和正确answer的密度矩阵匹配到最高得分。计算约化密度矩阵的公式可以表示为:
其中,|featurei>和|featurei′>表示特征矩阵的基向量,在经过一轮量子测量和酉变换后,表示 为约化密度矩阵的单位正交化的特征向量;<featurei|和<featurei′|表示为|featurei>和 |featurei′>的共轭转置;和表示特征向量对应的权重;|wj〉和|wj′〉表示question 中单词对应的词向量;<wj|和<wj′|表示question中单词对应的词向量的共轭转置;和表 示单词对应的权重;Ufeature为特征矩阵子系统的酉矩阵;和表示词向量的权重;question 密度矩阵的测量算子为Πw;question密度矩阵的测量算子为经过量子测量后的复合系统 为ρsystem′;最后约化密度矩阵表示为
5.卷积模块
首先构造answer的密度矩阵表示,同构造question的密度矩阵是相同的过程。采用稠密 的词向量作为输入,然后将每个单词的词向量做外积,得到单词的密度矩阵,再将answer中 所有的单词进行线性求和,得到answer的密度矩阵表示。然后对约化密度矩阵ρfeature和answer 密度矩阵ρanswer进行联合表示,即
接下来利用卷积神经网络对联合矩阵进行卷积池化操作,采用了一个二维的卷积神经网络提 取联合表示的主要特征,这些特征表示文本之间的相似距离,然后进行匹配训练。
本实施例选用两个数据集作为实验材料,这些数据集被广泛应用于相关的研究中,分别 为:TREC-QA数据集和WIKI-QA数据集。TREC-QA是文本检索会议(TREC)问答任务中使用的标准基准数据集。WIKI-QA数据集是微软研究公司发布的一个开放领域问答数据集。其中每个question同时匹配5到6个answer,只有一个answer是正确的,所以每条数据除了question和answer,还有一个非0即1的标签数据,0表示当前问答对不匹配,1表示当前问答对相互匹配。数据集相关的具体信息见表1。对于模型的训练,将两个数据集分别划分了训练集、验证集和测试集。
本实施例中,使用MRR和MAP指标进行评估。MRR是把正确answer在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的question结果取平均。MAP是单个question的平均准确率,是每条正确answer检索出后的准确率的平均值。
表1数据集信息统计
表2的内容分别展示了本模型在两个数据集上的效果。通过性能评估结果可以看出,在 不同数据集和不同评估的情况下,本发明模型都有了大的改善。本发明的基线模型主要包括 四个,Yu等人的模型、Severyn等人的模型、Wang等人的模型和QLM模型。其中QLM模 型是量子信息检索中经典模型的模型。
表2基于三个数据集的评估对比结果
综上,相对于QLM使用极大似然估计的方法对文档或查询进行建模,进而对参数进行 更新。本发明对question编码首先采用复合系统的方法,然后进行量子测量和酉变换,最后 求出约化密度矩阵,通过反向传播,自动学习酉矩阵的参数,更新过程是一个联合优化过程, 可以端到端的进行训练。而且通过不同顺序的量子测量和酉变换,可以很好的建模序列信息。
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发 明的技术方案,上述的具体实施方式仅仅是示意性的,并不是限制性的。在不脱离本发明宗 旨和权利要求所保护的范围情况下,本领域的普通技术人员在本发明的启示下还可做出很多 形式的具体变换,这些均属于本发明的保护范围之内。
Claims (5)
1.一种基于量子测量与酉变换技术的语言模型,其特征在于,包括复合系统模块、量子测量模块、酉变换模块、约化密度矩阵模块和卷积模块;
复合系统模块用于将输入文本与特征矩阵进行张量积运算,构成复合系统;首先构建特征矩阵,特征矩阵是对answer特征的假设;之后将输入的question中每一个单词的词向量做外积,组成词向量外积矩阵,并将所有单词的密度矩阵相加,获得question的密度矩阵表示;最终将特征矩阵与question的密度矩阵做张量积运算,得到复合系统;复合系统ρsystem表示为:
question的密度矩阵表示为ρquestion;特征矩阵为ρfeature;|featurei>和|featurei′>在构造特征矩阵时,表示特征矩阵的基向量,在经过一轮量子测量和酉变换后,表示为约化密度矩阵的一组单位正交化的特征向量;<featurei|和<featurei′|表示为|featurei>和|featurei′>的共轭转置;和表示特征向量对应的权重;|wj>和|wj′>表示question中单词对应的词向量;<wj|和<wj′|表示question中单词对应的词向量的共轭转置;和表示单词对应的权重;
量子测量模块用于通过使用测量算子对复合系统进行量子测量;首先构造测量算子,即单位矩阵和词向量外积矩阵的张量积,量子测量过程就是将测量算子与复合系统相乘,再乘上测量算子的共轭转置,最后得到经过量子测量后的复合系统;对复合系统的量子测量表示为
复合系统测量算子为∏system,question密度矩阵的测量算子为∏w,复合系统为ρsystem,复合系统测量算子的共轭转置为question密度矩阵的测量算子为最后得到经过量子测量后的复合系统ρsystem′;|featurei>和|featurei′>在构造特征矩阵时,表示特征矩阵的基向量,在经过一轮量子测量和酉变换后,表示为约化密度矩阵的一组单位正交化的特征向量;<featurei|和<featurei′|表示为|featurei>和|featurei′>的共轭转置;和表示特征向量对应的权重;|ωj>和|ωj′>表示question中单词对应的词向量;<ωj|和<wj′|表示question中单词对应的词向量的共轭转置;和表示单词对应的权重;
酉变换模块用于将经过量子测量的复合系统进行演化,将量子测量的信息保留在特征矩阵中,进而建模出整个question序列的语义信息;得到经过量子测量和酉变换的复合系统;酉变换模块中通过构造酉矩阵Usystem,在初始化时,酉矩阵Usystem表示为一个单位矩阵I,在经过一次训练后,对酉矩阵进行了参数更新,然后对更新后的酉矩阵进行奇异值分解计算,求出特征向量,然后对特征向量进行拼接得到下一轮的酉矩阵的近似表示;接下来进行酉变换,首先使用酉矩阵乘以经过量子测量后的复合系统,再乘以酉矩阵的共轭转置;
约化密度矩阵模块用于将经过量子测量和酉变换的复合系统进行分解,分解出带有question信息以及更新后的answer信息的特征矩阵;得到关于特征矩阵的约化密度矩阵,约化密度矩阵包含了question序列的信息;
卷积模块用于对约化密度矩阵和answer密度矩阵构造的联合表示进行卷积池化操作,采用了一个二维的卷积神经网络提取联合表示的特征,提取的联合表示的特征表示文本之间的相似距离,最后进行匹配训练。
2.根据权利要求1所述一种基于量子测量与酉变换技术的语言模型,其特征在于,约化密度矩阵看作是在理解了question信息的情况下,对answer特征的猜测,在后续进行矩阵相似度计算时,能够和正确answer的密度矩阵匹配到最高得分。
3.根据权利要求1所述一种基于量子测量与酉变换技术的语言模型,其特征在于,使用卷积网络对约化密度矩阵和answer密度矩阵的联合矩阵进行卷积池化操作,计算约化密度矩阵和answer密度矩阵的匹配度得分,通过匹配度得分计算损失值,然后对整个网络进行参数更新。
4.根据权利要求1所述一种基于量子测量与酉变换技术的语言模型,其特征在于,构造answer的密度矩阵与构造question的密度矩阵的过程相同。
5.一种基于量子测量与酉变换技术的语言模型的构建方法,基于权利要求1-4任意所述基于量子测量与酉变换技术的语言模型,其特征在于,基于量子测量技术对初始复合系统进行量子测量,并对量子测量后的复合系统进行酉变换,融合上文信息,然后求解约化密度矩阵,再与下文组成得到最终的复合系统,并循环上述过程,最后生成文本表示,并进行下游任务,其中初始复合系统是由特征矩阵和question密度矩阵进行张量积运算表示,特征矩阵是对answer特征的假设;
量子测量是将测量算子与复合系统相乘,再乘上测量算子的共轭转置,得到经过量子测量后的复合系统;
酉变换是将经过量子测量的复合系统进行演化,将量子测量的信息保留在特征矩阵中,进而建模出整个question序列的语义信息;
求解约化密度矩阵模块是将经过量子测量和酉变换的复合系统进行分解,得到关于特征矩阵的约化密度矩阵,约化密度矩阵包含了question序列的信息;
最终的复合系统由约化密度矩阵和answer密度矩阵进行张量积运算表示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110449647.2A CN113314110B (zh) | 2021-04-25 | 2021-04-25 | 一种基于量子测量与酉变换技术的语言模型及构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110449647.2A CN113314110B (zh) | 2021-04-25 | 2021-04-25 | 一种基于量子测量与酉变换技术的语言模型及构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113314110A CN113314110A (zh) | 2021-08-27 |
CN113314110B true CN113314110B (zh) | 2022-12-02 |
Family
ID=77371008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110449647.2A Expired - Fee Related CN113314110B (zh) | 2021-04-25 | 2021-04-25 | 一种基于量子测量与酉变换技术的语言模型及构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113314110B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114297357B (zh) * | 2021-12-27 | 2022-08-19 | 北京中科闻歌科技股份有限公司 | 一种基于量子计算的问答模型构建方法、装置及电子设备 |
CN114492420B (zh) * | 2022-04-02 | 2022-07-29 | 北京中科闻歌科技股份有限公司 | 文本分类方法、装置、设备及计算机可读存储介质 |
CN115048935B (zh) * | 2022-04-12 | 2024-05-14 | 北京理工大学 | 一种基于密度矩阵的语义匹配方法 |
CN115204404B (zh) * | 2022-08-08 | 2023-05-30 | 北京大学 | 一种抑制费米子系统测量中的错误的方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016162165A1 (en) * | 2015-04-10 | 2016-10-13 | Thomson Licensing | Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation |
CN107004162A (zh) * | 2014-12-05 | 2017-08-01 | 微软技术许可有限责任公司 | 量子深度学习 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101233506A (zh) * | 2005-07-29 | 2008-07-30 | 德克萨斯仪器股份有限公司 | 优化过采样离散傅立叶变换滤波器组的操作的系统和方法 |
US20160180238A1 (en) * | 2014-12-23 | 2016-06-23 | Invent.ly LLC | Biasing effects on the contextualization of a proposition by like-minded subjects considered in a quantum representation |
WO2019143680A1 (en) * | 2018-01-18 | 2019-07-25 | Google Llc | Classification using quantum neural networks |
US20200226487A1 (en) * | 2019-01-10 | 2020-07-16 | Zapata Computing, Inc. | Measurement Reduction Via Orbital Frames Decompositions On Quantum Computers |
-
2021
- 2021-04-25 CN CN202110449647.2A patent/CN113314110B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107004162A (zh) * | 2014-12-05 | 2017-08-01 | 微软技术许可有限责任公司 | 量子深度学习 |
WO2016162165A1 (en) * | 2015-04-10 | 2016-10-13 | Thomson Licensing | Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation |
Non-Patent Citations (4)
Title |
---|
《A Quantum Expectation Value Based Language Model》;zhao qin et al.;《Entropy》;20200509;第22卷(第5期);全文 * |
《End-to-End Quantum-like Language Models with Application to Question Answering》;张鹏 等;《人工智能会议》;20180207;全文 * |
《混合量子计算模型的设计和研究》;徐啸;《中国优秀博高级论文全文数据库(硕士)基础科学辑》;20190115(第01期);全文 * |
量子语言模型研究综述;张鹏等;《中国科学:信息科学》;20181114(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113314110A (zh) | 2021-08-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113314110B (zh) | 一种基于量子测量与酉变换技术的语言模型及构建方法 | |
CN108733742B (zh) | 全局归一化阅读器系统和方法 | |
CN111914067B (zh) | 中文文本匹配方法及系统 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
CN110222163B (zh) | 一种融合cnn与双向lstm的智能问答方法及系统 | |
CN106484682A (zh) | 基于统计的机器翻译方法、装置及电子设备 | |
JP7139626B2 (ja) | フレーズ生成関係性推定モデル学習装置、フレーズ生成装置、方法、及びプログラム | |
CN113435211B (zh) | 一种结合外部知识的文本隐式情感分析方法 | |
CN110807069B (zh) | 一种基于强化学习算法的实体关系联合抽取模型构建方法 | |
CN111274794A (zh) | 一种基于传递的同义词扩展方法 | |
Luz et al. | Semantic parsing natural language into SPARQL: improving target language representation with neural attention | |
CN113360667A (zh) | 基于多任务学习的生物医学触发词检测和命名实体识别方法 | |
CN116561251A (zh) | 一种自然语言处理方法 | |
CN114841353A (zh) | 一种融合句法信息的量子语言模型建模系统及其应用 | |
CN115062174A (zh) | 基于语义原型树的端到端图像字幕生成方法 | |
Yao | Attention-based BiLSTM neural networks for sentiment classification of short texts | |
CN114757310B (zh) | 情感识别模型及其训练方法、装置、设备及可读存储介质 | |
CN111914084A (zh) | 一种基于深度学习的带有情感标签文本生成及评估系统 | |
CN115391534A (zh) | 文本情感原因识别方法、系统、设备及存储介质 | |
CN111767388B (zh) | 一种候选池生成方法 | |
CN114692615A (zh) | 一种针对小语种的小样本意图识别方法 | |
Liu et al. | Suggestion mining from online reviews usingrandom multimodel deep learning | |
Can | Statistical models for unsupervised learning of morphology and POS tagging | |
Kibria et al. | Context-driven bengali text generation using conditional language model | |
CN110826332A (zh) | 一种基于gp的中医药专利命名实体自动识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20221202 |