CN114841353A - 一种融合句法信息的量子语言模型建模系统及其应用 - Google Patents
一种融合句法信息的量子语言模型建模系统及其应用 Download PDFInfo
- Publication number
- CN114841353A CN114841353A CN202210460271.XA CN202210460271A CN114841353A CN 114841353 A CN114841353 A CN 114841353A CN 202210460271 A CN202210460271 A CN 202210460271A CN 114841353 A CN114841353 A CN 114841353A
- Authority
- CN
- China
- Prior art keywords
- sentence
- matrix
- word
- syntactic
- dependency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N10/00—Quantum computing, i.e. information processing based on quantum-mechanical phenomena
- G06N10/60—Quantum algorithms, e.g. based on quantum optimisation, quantum Fourier or Hadamard transforms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Condensed Matter Physics & Semiconductors (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种融合句法信息的量子语言模型建模方法,该方法从表示句子的量子系统入手,在模型中引入句法结构信息,以提高量子语言模型的建模能力,包括数据的预处理及句法结构生成模块、句法指导的单词表示模块、语义和语法信息融合的句子表达模块;所述数据的预处理及句法结构生成模块将句子处理成句法结构树的形式;句法指导的词向量表达模块利用每个句子的依存信息,训练单词的词向量表达;语义和语法信息融合的句子表达模块将上一步生成的词向量转换为密度矩阵,进一步得到句法指导的句子表达,以用于下游任务的训练;本发明基于句法结构树重构密度矩阵的生成与表达,利用依存关系建模了句子的词项依赖。
Description
技术领域
本发明属于量子计算和深度学习领域,尤其涉及一种融合句法信息的量子语言模型建模型系统及其应用。
技术背景
语言的发展为社会文明的进步注入了活力,对政治、经济、生态等各方面产生了深远的影响,自然语言处理作为人工智能领域的核心技术,其研究价值不言而喻。在自然语言处理中,语言模型是一个重要的研究方向,它的基本任务就是利用计算机建模人类语言的内在规律,进而使计算机可以完成语言理解任务和语言生成任务。在人类不断地探索中,语言模型经历了漫长的发展并取得了长足的进步,并且在自动问答、信息检索、机器翻译等任务中表现良好,助力人工智能技术的落地与应用。
语言模型的发展经历了文法规则时期、基于统计的语言模型和神经网络语言模型等阶段。文法规则是语言学家根据语法知识创建的一系列规则,早期,人们用这些语法规则表示语法的特性,建立了基于文法的语言模型[1,2]。这些语言模型因需要建立大量的文法规则而人工成本比较高,且计算机编码比较困难,基于统计的语言模型应运而生。统计语言模型是从概率统计角度出发,解决自然语言上下文相关的特性的数学模型,通过计算概率分布参数,推断出自然语言片段出现的可能性。统计语言模型可以分为词袋模型(bag ofwords)[3]和潜在语义索引模型[4],词袋模型将文档看成是词语的集合,不考虑语法和单词的顺序,尽管它的拓展:多元语言模型(n-gram)建模了当前单词与它前n个单词之间的相关性,但是不能建模长程依赖关系,因此在应用中,会限制它的实际效果。随着深度神经网络的发展,其在自然语言处理领域的潜力也渐渐被人们所看到,bengio首次用神经网络实现语言模型,用一个三层的前馈神经网络模型训练,并衍生出了单词的词向量表达,该低纬度稠密向量的表达解决了维度稀疏化的问题,并且蕴含了一定的语义信息。随后CBOM和SKIP-gram模型[6]被提出,进一步拓展了语言模型的性能。近年来,Elmo[7]、GPT[8]、Bert[9]等语言模型更是包含了更多的上下文语义信息,刷新了人们对神经网络语言模型建模能力的认知。
与此同时,神经网络与量子力学结合的量子智能逐渐出现在人们的视野中,量子语言模型在语言的表示、学习以及不确定性建模等方面取得了重要进展。早在21世纪初,Hardy等人通过研究量子理论与经典概率论的关系[10],发现量子力学不应只被看作微观物理世界的规律,而也应被看作一般的信息处理(认知)规律。为更好地建模语义关联,将不同的依赖信息统一到一种原则性的语言模型框架下,Sordoni等[11]提出量子语言模型(quantum language model,QLM),主要思想是利用量子力学中的密度矩阵来建模单词之间的相互依赖关系,将单词或词组看作是基准的量子态,使用密度矩阵用来测量每个可观测量子态的出现概率,即每个单词在句子中出现的概率。然而量子语言模型使用的是one-hot向量来表示单词,因此不能建模全局语义关系,而且不能进行端到端的训练,不能够将文本的表示、匹配,以及排序结合起来,不能联合优化,从而限制了他的使用范围和推广。针对这一问题,Zhang等人[12]提出了端到端量子语言模型,并进行反向传播,训练网络参数。
量子语言模型的优势是用密度矩阵建模词项间的语义相关性,QLM用最大似然估计法计算查询和文档对应的密度矩阵,迭代求解不能利用有效的监督信息,NNQLM将QLM扩展到了端到端的训练当中,其密度矩阵的生成依赖神经网络的参数,能否有效建模词项间的依赖关系具有非常大的不可控制性。依存分析(Dependency Parse)是自然语言处理的基本任务,揭示了句子的各单词在语法层面的依存关系,其算法和理论已有了非常成熟的发展[13][14][15]。鉴于当前的语言模型都是建立单词的分布式词向量表达,缺失了完整的语法信息,本发明意在探索一种融合句法信息的量子语言模型,用句子的依存关系指导密度矩阵的生成,从可理解的句法依存方面更加有效地建模单词间的语义依赖,建模融合语义和语法的单词和句子表达,以更好地应用于下游任务。
[参考文献]
[1]Minsky M.Semantic Information Processing.Cambridge:MIT Press,1968.440–441
[2]Schank R.Conceptual Information Processing.Amsterdam:ElsevierScience Inc,1975.5–21
[3]Harris Z S.Distributional structure.Word,1954,10:146–162
[4]Deerwester S,Dumais S T,Furnas G W,et al.Indexing by latentsemantic analysis.J Am Soc Inf Sci,1990,41:391–407
[5]Bengio Y,Ducharme R,Vincent P,et al.A neural probabilisticlanguage model[J].Journal of machine learning research,2003,3(Feb):1137-1155.
[6]Mikolov T,Sutskever I,Chen K,et al.Distributed representations ofwords and phrases and their compositionality[C]//Advances in neuralinformation processing systems.2013:3111-3119.
[7]Peters M E,Neumann M,Iyyer M,et al.Deep contextualized wordrepresentations[J].arXiv preprint arXiv:1802.05365,2018.
[8]Brown T,Mann B,Ryder N,et al.Language models are few-shot learners[J].Advances in neural information processing systems,2020,33:1877-1901.
[9]Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deepbidirectional transformers for language understanding[J].arXiv preprintarXiv:1810.04805,2018.
[10]Hardy L.(2001).Quantum theory from five reasonable axioms.arXivpreprint quant-ph/0101012.
[11]Sordoni A,Nie J,Bengio Y.Modeling term dependencies with quantumlanguage models for IR.In:Proceedings of the 36th International ACM SIGIRConference on Research and Development in Information Retrieval,Dublin,2013.653–662
[12]Zhang P,Niu J,Su Z,et al.End-to-end quantum-like language modelswith application to question answering[C]//Proceedings of the AAAI Conferenceon Artificial Intelligence.2018,32(1).
[13]Dozat T,Manning C D.Deep biaffine attention for neural dependencyparsing[J].arXiv preprint arXiv:1611.01734,2016.
[14]Socher R,Bauer J,Manning C D,et al.Parsing with compositionalvector grammars[C]//Proceedings of the 51st Annual Meeting of the Associationfor Computational Linguistics(Volume 1:Long Papers).2013:455-465.
[15]Chen D,Manning C D.A fast and accurate dependency parser usingneural networks[C]//Proceedings of the 2014conference on empirical methods innatural language processing(EMNLP).2014:740-750.
发明内容
本发明公开了一种融合句法信息的量子语言模型,针对原始的神经网络量子语言模型(NNQLM)缺失结构化语法信息的问题,把经过句法依存分析的词语间的依存关系加入模型的训练,更好地建模句子的词项依赖,生成具有语法和语义信息的单词向量和句子表达,并将此模型应用于问答任务中,验证了模型的有效性。本发明利用依存句法的结构信息,指导句子级别的密度矩阵的生成与表达。句子的依存结构树中各节点的关联性和依存信息提供了重要的语法知识,弥补了现有分布式词向量表示对于语法缺失的问题,进一步拓展了量子语言模型的应用。本发明在语言建模、问答系统广泛应用。
为了解决上述技术问题,本发明提供以下技术方案:
一种融合句法信息的量子语言模型构建系统,所述系统包括数据的预处理及句法结构生成模块、句法指导的词向量表达模块、语义和语法信息融合的句子表达模块;利用依存句法关系,建模句子中的词项依赖,生成融合语法和语义的句子表达。其中:
--所述数据的预处理及句法结构生成模块通过依存分析对数据集的每一个句子进行初步的处理,生成句子单词间具有依存关系句法结构树;
--所述句法指导的词向量表达模块根据句子的句法结构树得到每个单词的父节点,并将单词的词向量与父节点词向量相加,生成基于句法的词向量表达;即,融合句法的语义嵌入矩阵。
--所述语义和语法信息融合的句子表达模块以依存句法矩阵为指导,建立句子中存在依存关系的两个词项间的交互,来增强整个句子的单词之间的交互;其中:将交互后的词项与词项间的依存弧信息融合,并将其表达成一个密度矩阵表示的量子事件,再把单词的密度矩阵加权相加,获得单词交互的句子混合态,此为最终融合语法和语义的句子表达。
进一步,所述句法指导的词向量表达模块生成融合句法的语义嵌入矩阵过程:
201、把每一条数据即每一条语句的每个单词在句法结构树中的父节点找出来,记录其序号作为依存排序矩阵的值生成依存排序矩阵:
其中:XDij解释,每一行代表一条语句的的句法信息,每行的每个元素位置代表句子中单词的位置,每个元素值代表此位置单词在本语句句法结构树中的父节点位置;
202、经过预训练的句子嵌入矩阵记为X,矩阵X的每一行代表句子的每一个单词,根据句法排序矩阵对句子的词嵌入矩阵进行排序获得父节点词嵌入矩阵X′,即:
203、将句子嵌入矩阵与对应的父节点词嵌入矩阵相加获得融合句法的语义嵌入矩阵:
EX=X+X′。
进一步,所述语义和语法信息融合的句子表达模块获得最终融合语法和语义的句子表达过程:
301、根据所有依存关系类型建立依存弧信息词典,语句S的单词间的依存关系类型记为C:同时,根据依存弧信息词典找出对应依存关系类型C的索引,并映射为词嵌入矩阵,记为CX;CX对应句子中每个单词依存于父节点的类型;
C={c1、c2、c3 …… cs}
302、将存在依存关系的两个单词及其两者间的依存关系类型相融合,作为融合句法的量
子事件,记为S;
S=EX+CX
其中:S表示加入句法依存类型的词向量;
303、将句子看作是由量子事件组成的量子系统,用密度矩阵ρ表示;
ρ=∑ipiSi=∑ipi|Si><Si|
其中:|Si>称为右矢,表示一个列向量,<Si|称为左矢,表示一个行向量;密度矩阵的计算方式为:单词作外积后得到一个矩阵,句子的所有矩阵以一定概率p相加得到密度矩阵;在模型中,概率p作为参数存在,跟随模型训练。
本发明一种融合句法信息的量子语言模型构建系统在问答任务的应用:
数据的预处理及句法结构生成模块对数据进行依存分析建立排序矩阵;
句法指导的词向量表达模块根据已有的单词嵌入矩阵和排序矩阵,对单词嵌入矩阵进行排序,得到父节点矩阵,两个矩阵相加,即被支配单词与支配单词相加,得到最后的融合句法的语义矩阵;
语义和语法信息融合的句子表达模块加入句法关系类型信息,生成融合语法和语义的词向量表达;同时,建立问题和答案的密度矩阵表示,并计算其联合密度矩阵作为两者的交互;特征抽取模块使用卷积神经网络对联合密度矩阵进行卷积池化处理生成匹配特征向量;并通过回归分类器对匹配特征向量进行预测。
有益效果
1.本发明基于分布式的词向量表示,提出融合语法和语义信息的量子语言模型,将句子的成分句法分析显性地应用于词向量的建模,使其既包含丰富的语义信息,又包含词法依赖的结构信息,提高了模型的语义建模能力,同时为量子语言模型引入句法结构信息提供了一种通用的方法。
2.量子语言模型提出的原因之一是为了更好地建模语义关联和依赖并将其统一到一种原则下的框架中,其中关于密度矩阵的表示和测量方法是精髓之处。本发明基于句子词汇间的依存关系指导句子建模,在句子表示中融合了分布式语义和结构式语法信息。利用语法依赖有针对性地建模了单词间的交互,且交互信息是可解释的。本发明是将语法统一到量子语言模型的首次尝试,相比以往从单词的位置上试图探索单词的语义关联,使用句子在语法层面本来就存在的相互间的依存关系,更能合理地描述词汇间的语义依赖,更充分准确地表达文本。
3.本发明提出融合语法和语义信息的量子语言模型并将其应用于问答任务上,在Wiki-QA和TRAC-QA两个数据集上验证了此方法的有效性。相比于基线的NNQLM模型,在Wiki-QA数据集上,本发明在MAP值上提升了0.03,在MRR值上提升了0.02;在TRAC-QA数据集上,本发明在MAP值上提升了0.01,在MRR值上提升了0.02。
附图说明
图1为本发明融合句法信息的量子语言模型图;
图2为本发明用到的句法结构树举例图。
具体实施方式
下面结合附图,对本发明的技术方案进行详细描述。本领域人员可知,随着技术发展和新场景的出现,本发明的技术方案对于类似的技术问题,同样适用。
如图1~图2所示,本发明提供了一种融合句法信息的量子语言模型构建方法,所述系统包括数据的预处理及句法结构生成模块、句法指导的词向量表达模块、语义和语法信息融合的句子表达模块。
1.数据的预处理及句法结构生成模块
数据的预处理及句法结构生成模块主要是对数据进行初步的处理,作依存分析(Dependency Parse)。首先,将数据集的每一个句子用句法分析工具处理,本发明里用的是斯坦福工具(Stanford Parser),例如句子“how are glacier caves formed?”,经过依存分析后可以得到如下结构:[('ROOT',0,5),('advmod',5,1),('aux:pass',5,2),('compound',4,3),('nsubj:pass',5,4),('punct',5,6)]。根据处理的结果绘制对应的句法关系图,如图2所示,这样就得到了句子每个单词与每个单词间的依存关系(包括词与词的联结以及它们之间的依存关系类型)。ROOT代表一条语句最中心的关键词,一般为谓词,两个词汇间的依存关系是支配与被支配的关系,如上所示,“how”的父节点是“formed”,在依存关系上表现为“formed”指向“how”,即“formed”是支配者,“how”是从属者,“how”被“formed”所支配,其依存关系是“advmod”,意为状语。
2.句法指导的词向量表达模块
句法指导的词向量表达模块旨在往模型的单词表示中融入依存句法信息,使其作为初始化参数跟随模型训练,以一种可解释的显性信息指导模型趋于更好的结果。其输入是预训练得到的数据集句子的embedding矩阵,矩阵的每一行表示句子的每一个单词,每一列表示每一维度上的特征;对句子的每一个单词编号,第一个单词序号为1,依次排列;根据上一个模块生成的依存句法树,生成序号表示的依存句法矩阵,再依据依存句法矩阵生成句子的父节点embedding矩阵,两者相加作为最终的基于句法的词向量表达。
首先,使用依存句法树的信息构造一种依存排序矩阵,原始的句子矩阵表达经依存排序矩阵变换后,再与变换前的矩阵相加,从而构造句子中存在依存关系的两个词项之间的交互。
其中,依存排序矩阵的构造方法是利用数据的预处理及句法结构生成模块的输出数据,把每一条数据即每一条语句的每个单词在句法结构树中的父节点找出来,记录其序号作为依存排序矩阵的值。依存排序矩阵表示如下:
每一行代表一条语句的的句法信息,每行的每个元素位置代表句子中单词的位置,每个元素值代表此位置单词在本语句句法结构树中的父节点位置,例如,a12代表第一个句子的第二个单词在语句句法结构树中的父节点位置。
其次,经过预训练的句子矩阵记为X,矩阵X的每一行代表句子的每一个单词embedding,根据句法排序矩阵对句子的embedding矩阵进行排序,得到了句法指示的父节点embeding矩阵X′,即:
将句子embedding矩阵与对应的父节点embedding矩阵相加,得到最后的融合句法的语义embedding矩阵EX:
EX=X+X′
3.语义和语法信息融合的句子表达模块
语义和语法信息融合的句子表达模块以依存句法树为指导,建立句子中存在依存关系的两个词项间的交互,来增强整个句子的每个词之间的交互,以更好地表达语句。其中,将交互后的词项与词项间的依存弧信息融合,并将其表达成一个密度矩阵表示的量子事件,再把单词的密度矩阵加权相加,获得单词交互的句子混合态,此为最终融合语法和语义的句子表达。即:将单词间的依存关系类型(依存弧信息,如主宾关系)映射成embedding,与上一模块的embedding相加,作外积后得到单词的密度矩阵,并将所有单词密度矩阵加权相加,此为最终融合语法和语义的句子表达。
由上可知,句法依存分析给出了两种信息,一是词汇间的支配与被支配关系,如上述提到的语句中“formed”支配“how”;二是存在支配关系的词汇间的依存关系类型,如“advmod(状语)”、“csubj(从主关系)”、“dobj(直接宾语)”等。在上一阶段句法指导的词向量表达模块,借助从依存分析获取的排序矩阵,找出embedding矩阵下当前词的支配词,生成一个新的矩阵,我们称之为依存矩阵X′,这样依存矩阵的每一行与原始embedding矩阵的每一行是支配与从属的关系。两个矩阵相加,即支配词与被支配词相加作为新的词向量,此做法从词嵌入层面构建了词汇与词汇间的语法联系,融入了语法信息,拓展了词汇基于分布式的编码。
为了更加有效地利用句法结构信息,本发明将词汇间的依存关系类型也显示地加入到词汇编码中。给所有依存关系类型建立依存弧信息词典,语句S的单词的依存关系类型记为C:
C={c1、c2、c3 …… cs}
根据词典找出对应依存关系类型C的索引,记为CX。
接下来,将带有句法依存弧信息的单词看作一个量子事件,将句子看作是由量子事件组成的量子系统,在这个量子系统中,量子事件以某种概率存在,而句子的依存分析是为了给出句子中词项在语法上的依赖关系,所以依存句法结构刚好可以指导量子系统的组成。
其中,量子事件是随机的一种量子态:
S=EX+CX
S表示加入句法依存类型的词向量,CX对应句子中每个单词的句法依存类型。
其中,量子系统用密度矩阵表示:
ρ=∑ipiSi=∑ipi|Si><Si|
上述公式中,|Si>称为右矢,表示一个列向量,<Si|称为左矢,表示一个行向量。密度矩阵的计算方式为:单词作张量积后得到一个矩阵,句子的所有矩阵以一定概率p相加得到密度矩阵。在模型中,概率p作为参数存在,跟随模型训练。
4.融合句法信息的量子语言模型及其应用
上述数据的预处理及句法结构生成模块、句法指导的词向量表达模块、语义和语法信息融合的句子表达模块是本发明的核心模块,根据所介绍的内容和技术,应用于问答任务的完整的融合句法信息的量子语言模型构建步骤如下:
(1)数据预处理。用Stanford Parser进行数据的依存分析,处理后的每条数据如“[('ROOT',0,5),('advmod',5,1),('aux:pass',5,2),('compound',4,3),('nsubj:pass',5,4),('punct',5,6)]”。分别处理question和answer,并将其结果保存在text中。
(2)生成排序矩阵。取每一个list的每一个元组的第二个数据并保存在新的list中,这样每一个list的每个元素依次代表此位置单词的支配词的序号。依次添加,每一个list作为矩阵的每一行,排序矩阵表示如下:
(3)句法结构融合。根据已有的单词嵌入矩阵X和排序矩阵XD,生成单词嵌入的句法依存矩阵X′,两个矩阵相加,即被支配单词与支配单词相加,得到最后的融合句法的语义embedding矩阵EX。
Q(EX)=Q(X)+Q(X′)
A(EX)=A(X)+A(X′)
(4)句法关系类型融合。给所有依存关系类型建立词典,语句S的单词的依存关系类型记为C:
Q(C)={c1、c2、c3 …… cs}
A(C)={c1、c2、c3 …… cs}
根据词典找出对应依存关系类型C的索引,然后用embedding编码,记为CX:
加入句法关系类型信息,生成融合语法和语义的词向量表达。
Q(S)=Q(EX)+Q(CX)
A(S)=A(EX)+A(CX)
(5)量子系统表达。将带有句法依存弧信息的单词看作一个量子事件,将句子看作是由量子事件组成的量子系统,在这个量子系统中,量子事件以某种概率存在。用密度矩阵测量量子系统的概率,单词作张量积后得到一个矩阵,句子的所有矩阵以一定概率相加得到密度矩阵。在模型中,概率p作为参数存在,跟随模型训练。
ρq=∑ipiSi=∑ipi|Si><Si|
ρa=∑ipiSi=∑ipi|Si><Si|
(6)卷积运算。将question的密度矩阵ρq和answer密度矩阵ρa进行联合表示,接下来利用卷积神经网络对联合矩阵进行卷积池化操作,采用了一个二维的卷积神经网络提取联合表示的主要特征,这些特征表示文本之间的相似距离,然后进行匹配训练。
(7)预测。将特征向量卷积得到的特征向量输入到softmax回归分类器中。
5.融合句法信息的量子语言模型在问答任务上的实验
本实施例选用两个数据集作为实验材料,这些数据集被广泛应用于相关的研究中,分别为:TREC-QA数据集和WIKI-QA数据集。TREC-QA是文本检索会议(TREC)问答任务中使用的标准基准数据集。WIKI-QA数据集是微软研究公司发布的一个开放领域问答数据集。其中每个question同时匹配5到6个answer,只有一个answer是正确的,所以每条数据除了question和answer,还有一个非0即1的标签数据,0表示当前问答对不匹配,1表示当前问答对相互匹配。数据集相关的具体信息见表1。对于模型的训练,将两个数据集分别划分了训练集、验证集和测试集。
本实施例中,使用MRR和MAP指标进行评估。MRR是把正确answer在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的question结果取平均。MAP是单个question的平均准确率,是每条正确answer检索出后的准确率的平均值。
表1数据集信息统计
本发明的基线模型主要包括四个,Yu等人的模型、Severyn等人的模型、Wang等人的模型和QLM模型、NNQLM模型。其中QLM模型是量子信息检索中经典模型的模型。表2的内容分别展示了本模型在两个数据集上的效果。通过性能评估结果可以看出,在不同数据集和不同评估的情况下,本发明模型都有了大的改善。
表2基于两个数据集的评估对比结果
本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案,上述的具体实施仅仅是示意性的,并不是限制性的。在不脱离本发明总之和权力要求所保护的范围情况下,本领域的普通技术人员在本发明的其实下还可做出很多形式的具体变换,这些均属于本发明的保护范围之内。
Claims (4)
1.一种融合句法信息的量子语言模型构建系统,其特征在于:所述系统包括数据的预处理及句法结构生成模块、句法指导的词向量表达模块、语义和语法信息融合的句子表达模块和特征抽取模块;所述系统利用依存句法关系,建模句子中的词项依赖,生成融合语法和语义的句子表达;其中:
--所述数据的预处理及句法结构生成模块通过依存句法分析对数据集的每一个句子进行初步的处理,生成句子单词间具有依存关系句法结构树;
--所述句法指导的词向量表达模块根据句子的依存句法矩阵得到每个单词的父节点,并将单词的词向量与父节点词向量相加,生成基于句法的词向量表达;即,融合句法的语义嵌入矩阵;
--所述语义和语法信息融合的句子表达模块以依存句法矩阵为指导,建立句子中存在依存关系的两个词项间的交互,来增强整个句子的单词之间的交互;其中:将交互后的词项与词项间的依存弧信息融合,并将其表达成一个密度矩阵表示的量子事件,再把单词的密度矩阵加权相加,获得单词交互的句子混合态,此为最终融合语法和语义的句子表达。
2.根据权利要求1所述的一种融合句法信息的量子语言模型构建系统,其特征在于:所述句法指导的词向量表达模块生成融合句法的语义嵌入矩阵过程:
201、把每一条数据即每一条语句的每个单词在句法结构树中的父节点找出来,记录其序号作为依存排序矩阵的值生成依存排序矩阵:
其中:XDij解释,每一行代表一条语句的的句法信息,每行的每个元素位置代表句子中单词的位置,每个元素值代表此位置单词在本语句句法结构树中的父节点位置;
202、经过预训练的句子嵌入矩阵记为X,矩阵X的每一行代表句子的每一个单词,根据句法排序矩阵对句子的词嵌入矩阵进行排序获得父节点词嵌入矩阵X′,即:
203、将句子词嵌入矩阵与对应的父节点词嵌入矩阵相加获得融合句法的语义嵌入矩阵:
EX=X+X′。
3.根据权利要求1所述的一种融合句法信息的量子语言模型构建系统,其特征在于:所述语义和语法信息融合的句子表达模块获得最终融合语法和语义的句子表达过程:
301、根据所有依存关系类型建立依存弧信息词典,语句S的单词间的依存关系类型记为C:同时,根据依存弧信息词典找出对应依存关系类型C的索引,并映射为词嵌入矩阵,记为CX;CX对应句子中每个单词依存于父节点的类型;其中:
C={c1、c2、c3……cs}
302、将存在依存关系的两个单词及其两者间的依存关系类型相融合,作为融合句法的量子事件,记为S;其中:
S=EX+CX
其中:S表示加入句法依存类型的词向量;
303、将句子看作是由量子事件组成的量子系统,用密度矩阵ρ表示;
ρ=∑ipiSi=∑ipi|Si><Si|
其中:|Si>称为右矢,表示一个列向量,<Si|称为左矢,表示一个行向量;密度矩阵的计算方式为:单词作外积后得到一个矩阵,句子的所有矩阵以一定概率p相加得到密度矩阵;在模型中,概率p作为参数存在,跟随模型训练。
4.一种融合句法信息的量子语言模型构建系统在问答任务的应用,其特征在于:
数据的预处理及句法结构生成模块对数据进行依存分析建立排序矩阵;
句法指导的词向量表达模块根据已有的单词嵌入矩阵和排序矩阵,对单词嵌入矩阵进行排序,得到父节点矩阵,两个矩阵相加,即被支配单词与支配单词相加,得到最后的融合句法的语义矩阵;
语义和语法信息融合的句子表达模块加入句法关系类型信息,生成融合语法和语义的词向量表达;同时,建立问题和答案的密度矩阵表示,并计算其联合密度矩阵作为两者的交互;
特征抽取模块使用卷积神经网络对联合密度矩阵进行卷积池化处理生成匹配特征向量;通过回归分类器对匹配特征向量进行预测。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210460271.XA CN114841353A (zh) | 2022-04-28 | 2022-04-28 | 一种融合句法信息的量子语言模型建模系统及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210460271.XA CN114841353A (zh) | 2022-04-28 | 2022-04-28 | 一种融合句法信息的量子语言模型建模系统及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114841353A true CN114841353A (zh) | 2022-08-02 |
Family
ID=82568190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210460271.XA Pending CN114841353A (zh) | 2022-04-28 | 2022-04-28 | 一种融合句法信息的量子语言模型建模系统及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114841353A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115774993A (zh) * | 2022-12-29 | 2023-03-10 | 广东南方网络信息科技有限公司 | 一种基于句法分析的条件类错误识别方法及装置 |
CN116227497A (zh) * | 2022-11-29 | 2023-06-06 | 广东外语外贸大学 | 一种基于深度神经网络的句子构式分析方法及装置 |
-
2022
- 2022-04-28 CN CN202210460271.XA patent/CN114841353A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116227497A (zh) * | 2022-11-29 | 2023-06-06 | 广东外语外贸大学 | 一种基于深度神经网络的句子构式分析方法及装置 |
CN116227497B (zh) * | 2022-11-29 | 2023-09-26 | 广东外语外贸大学 | 一种基于深度神经网络的句子构式分析方法及装置 |
CN115774993A (zh) * | 2022-12-29 | 2023-03-10 | 广东南方网络信息科技有限公司 | 一种基于句法分析的条件类错误识别方法及装置 |
CN115774993B (zh) * | 2022-12-29 | 2023-09-08 | 广东南方网络信息科技有限公司 | 一种基于句法分析的条件类错误识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446338B (zh) | 基于神经网络的药物疾病关系分类方法 | |
CN106202010B (zh) | 基于深度神经网络构建法律文本语法树的方法和装置 | |
Kwiatkowski et al. | Lexical generalization in CCG grammar induction for semantic parsing | |
CN109783806B (zh) | 一种利用语义解析结构的文本匹配方法 | |
CN114841353A (zh) | 一种融合句法信息的量子语言模型建模系统及其应用 | |
CN115048447B (zh) | 一种基于智能语义补全的数据库自然语言接口系统 | |
CN112328800A (zh) | 自动生成编程规范问题答案的系统及方法 | |
CN114547298A (zh) | 基于多头注意力和图卷积网络结合R-Drop机制的生物医学关系抽取方法、装置和介质 | |
WO2020074786A1 (en) | System for searching natural language documents | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN113407697A (zh) | 深度百科学习的中文医疗问句分类系统 | |
Kumar et al. | An abstractive text summarization technique using transformer model with self-attention mechanism | |
CN111581365B (zh) | 一种谓词抽取方法 | |
CN112417170A (zh) | 面向不完备知识图谱的关系链接方法 | |
Anisha et al. | Text to sql query conversion using deep learning: A comparative analysis | |
CN111767388B (zh) | 一种候选池生成方法 | |
CN114154496A (zh) | 基于深度学习bert模型的煤监类案对比方法及装置 | |
Lokman et al. | A conceptual IR chatbot framework with automated keywords-based vector representation generation | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
Sun et al. | Study of Natural Language Understanding | |
Shivashankar et al. | Reaching out for the Answer: Answer Type Prediction. | |
Bindu et al. | Design and development of a named entity based question answering system for Malayalam language | |
Sui | Question answering system based on tourism knowledge graph | |
Wan et al. | Aspect-Based Sentiment Analysis with a Position-Aware Multi-head Attention Network | |
CN117453851B (zh) | 基于知识图谱的文本索引增强问答方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |