CN109446518B - 语言模型的解码方法及解码器 - Google Patents

语言模型的解码方法及解码器 Download PDF

Info

Publication number
CN109446518B
CN109446518B CN201811173768.3A CN201811173768A CN109446518B CN 109446518 B CN109446518 B CN 109446518B CN 201811173768 A CN201811173768 A CN 201811173768A CN 109446518 B CN109446518 B CN 109446518B
Authority
CN
China
Prior art keywords
word
predicted
semantic
probability
sense
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811173768.3A
Other languages
English (en)
Other versions
CN109446518A (zh
Inventor
刘知远
顾逸宏
闫俊
朱昊
孙茂松
谢若冰
林芬
林乐宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201811173768.3A priority Critical patent/CN109446518B/zh
Publication of CN109446518A publication Critical patent/CN109446518A/zh
Application granted granted Critical
Publication of CN109446518B publication Critical patent/CN109446518B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种语言模型的解码方法及解码器,该方法包括:根据上下文向量,预测获得每个义原在待预测单词中的出现概率,待预测单词为上下文向量对应的下个单词;根据上下文向量及每个义原在待预测单词中的出现概率,预测获得义原对应的每个词义在待预测单词中的出现概率;对每个词义在待预测单词的出现概率进行边缘化处理,预测获得词义对应的每个目标单词为待预测单词的概率。本发明实施例通过在语言模型中以义原‑词义‑单词的层次进行解码,获得每个目标单词为待预测单词的概率,与现有技术中仅在词的层面上进行预测相比,由于从义原和词义的层面上充分考虑了单词之间的相互关联,层次化了预测过程,能够提升预测的准确性。

Description

语言模型的解码方法及解码器
技术领域
本发明实施例涉及自然语言处理领域,更具体地,涉及一种语言模型的解码方法及解码器。
背景技术
随着社会飞速发展,我们已经进入信息爆炸时代,每天都会有海量新的文本数据产生。对自然语言处理的研究旨在实现人与计算机之间使用自然语言进行有效通信的各种理论和方法。得益于深度学习技术的发展,由数据驱动的自然语言处理技术在机器翻译、自动摘要等领域均取得了长足的进步。而在这些任务中,语言模型都起到了至关重要的作用。语言模型的目标是衡量在某种语言中,一段词语序列出现的概率,进而可通过条件概率公式分解为各时刻给定上文词语时出现下一词语的概率的乘积。现有技术中,语言模型的解码方法是在编码输入序列后直接在词层面或字层面进行预测,但这种方法并没有考虑词与词之间先验的语义关联,因此预测结果并不准确。
发明内容
为了解决上述问题,本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的语言模型的解码方法及解码器。
根据本发明实施例的第一方面,提供一种语言模型的解码方法,该方法包括:根据上下文向量,预测获得每个义原在待预测单词中的出现概率,待预测单词为上下文向量对应的下个单词;根据上下文向量及每个义原在待预测单词中的出现概率,预测获得义原对应的每个词义在待预测单词中的出现概率;对每个词义在待预测单词的出现概率进行边缘化处理,预测获得词义对应的每个目标单词为待预测单词的概率。
根据本发明实施例第二方面,提供了一种语言模型的解码器,该解码器包括:义原预测模块,用于根据上下文向量,预测获得每个义原在待预测单词中的出现概率,待预测单词为上下文向量对应的下个单词;词义预测模块,用于根据上下文向量及每个义原在待预测单词中的出现概率,预测获得义原对应的每个词义在待预测单词中的出现概率;单词预测模块,用于对每个词义在待预测单词的出现概率进行边缘化处理,预测获得词义对应的每个目标单词为待预测单词的概率。
根据本发明实施例的第三方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的语言模型的解码方法。
根据本发明实施例的第四方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的语言模型的解码方法。
本发明实施例提供的语言模型的解码方法及解码器,通过在语言模型中以义原-词义-单词的层次进行解码,获得每个目标单词为待预测单词的概率,与现有技术中仅在词的层面上进行预测相比,由于从义原和词义的层面上充分考虑了单词之间的相互关联,层次化了预测过程,有效提升了语言模型的准确性和可解释性,具有良好的实用性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些图获得其他的附图。
图1为本发明实施例提供的语言模型的解码方法的流程示意图;
图2为本发明另一实施例提供的语言模型的解码方法的流程示意图;
图3为本发明实施例提供的语言模型的解码器的结构示意图;
图4为本发明实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术中存在的直接在词层面或字层面上进行预测,而没有考虑词与词之间先验的语义关联导致的预测结果不准确的问题,本发明实施例引入“知网”中“义原-词义-单词”的结构关系,层次化预测过程,利用新的预测方法和结构提高语言模型的准确性和可解释性。
其中,知网(HowNet)是一个以汉语和英语的词语所代表的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系为基本内容的常识知识库。义原是最基本的、不易于再分割的意义的最小单位。例如:“人”虽然是一个非常复杂的概念,它可以是多种属性的集合体,但也可以把它看作为一个义原。可设想所有的概念都分解成各种各样的义原。同时也可以设想应该有一个有限的义原集合,其中的义原组合成一个无限的概念集合。如果能够把握这一有限的义原集合,并利用它来描述概念之间的关系以及属性与属性之间的关系,就有可能建立设想的知识系统。中文中的字(包括单纯词)是有限的,并且它可以被用来表达各种各样的单纯的或复杂的概念,以及表达概念与概念之间、概念的属性与属性之间的关系。
本发明实施例提供一种语言模型的解码方法,该方法能够用于语言模型的解码器,且应当说明的是,该解码器是义原驱动的解码器,并不是传统的线性解码器,该解码器能够在给定上文时对出现的下一单词的概率进行预测。参见图1,该方法包括但不限于:
101、根据上下文向量,预测获得每个义原在待预测单词中的出现概率,待预测单词为上下文向量对应的下个单词。
其中,上下文即语境、语意,是语言学科(语言学、社会语言学、篇章分析、语用学、符号学等)的概念。具体地,上下文向量即为基于上文或下文获得的向量,本发明实施例以基于上文获得的向量为例进行说明。应当说明的是,本发明实施例同样可应用于上下文向量为通过下文获得的向量的情况。另外,本发明实施例对语言模型所应用的语言的语种不作限定,本发明实施例仅以中文为例进行说明。在获得上下文向量后,根据上下文向量去预测每个义原将在待预测单词中出现的概率。待预测单词为上下文向量对应的下个单词,即为根据上文需要去预测的下个单词,而上下文向量是根据上文获得的。例如图2,上下文向量是基于上文“我在果园摘”获得的向量,义原可包括“水果”、“样式值”、“携带”、“电脑”、“特定牌子”和“能”等,可对每一个义原在待预测单词中出现的概率进行预测。
102、根据上下文向量及每个义原在待预测单词中的出现概率,预测获得义原对应的每个词义在待预测单词中的出现概率。
其中,词义即为词的含义。每个义原可对应多个词义,而每个词义同样可对应于多个义原。例如,义原“水果”可对应于“梨子(水果)”和“苹果(水果)”等多个词义,而词义“苹果(电脑)”可对应于“特定牌子”和“电脑”等多个义原。因此,在根据步骤101获得每个义原在待预测单词中的出现概率后,可以从义原出发,获得每个义原所对应的每个词义在待预测单词中的出现概率。其中,义原对应的每个词义是指全部义原所涉及到的全部词义。例如,义原“水果”、“样式值”、“携带”、“电脑”、“特定牌子”和“能”所对应的词义至少包括“梨子(水果)”、“苹果(水果)”和“苹果(电脑)”。
103、对每个词义在待预测单词的出现概率进行边缘化处理,预测获得词义对应的每个目标单词为待预测单词的概率。
其中,边缘化处理是一种方法,它要求对一个变量的可能值求和,以确定另一个变量的边缘贡献。由于词义和目标单词是具有关联的,因此在根据步骤102获得每个词义在待预测单词中的出现概率后,可从词义出发,确定与词义相关联的目标单词为待预测单词的概率。具体而言,对于每个目标单词,将其对应的所有词义的概率相加即可得到该目标单词作为待预测单词的概率。例如单词“苹果”的概率即为词义“苹果(水果)”与词义“苹果(电脑)”的概率之和。
本发明实施例提供的语言模型的解码方法,通过在语言模型中以义原-词义-单词的层次进行解码,获得每个目标单词为待预测单词的概率,与现有技术中仅在词的层面上进行预测相比,由于从义原和词义的层面上充分考虑了单词之间的相互关联,层次化了预测过程,有效提升了语言模型的准确性和可解释性,具有良好的实用性。
基于上述实施例的内容,在根据上下文向量,预测获得每个义原在待预测单词中的出现概率之前,作为一种可选实施例,提供一种获得上下文向量的方法,包括但不限于:将上文词序列输入至循环神经网络,获得循环神经网络输出的上下文向量,上文词序列是待预测单词的上文的词序列。具体地,上文词序列是通过上文获得的,上文即为待预测单词的上文。例如图2中的上文词序列是基于上文“我在果园摘”获得的。将上文词序列输入至循环神经网络后,循环神经网络会将上文词序列标识的上文信息编码为上下文向量,例如编码获得一个H1维的上下文向量g。
基于上述实施例的内容,作为一种可选实施例,每个义原在待预测单词中的出现概率为:
qk=σ(gTvk+bk) (1)
式中,qk为义原ek在待预测单词中的出现概率,σ为sigmoid激励函数,g为H1维的上下文向量,vk为H1维的义原ek的义原向量,bk为标量。
具体地,在义原预测的步骤101中,在给定上文的情况下,下个单词(即待预测单词)是否包含义原ek是独立的(根据假设,义原是最小的语义单位)。因此,可以使用一个线性解码器及sigmoid激励函数表示待预测单词包含义原ek的概率qk,即为上式(1)。其中,式(1)中,vk除了为义原向量外,还可以看作义原ek的嵌入(embedding)。σ为sigmoid激励函数,且σ(x)=(ex)/(ex+1)。vk和bk均可以是训练得到的参数。因此,本发明实施例提供的方法,能够利用线性解码器及激励函数标识待预测单词包含的每个义原的概率。
基于上述实施例的内容,作为一种可选实施例,提供一种根据上下文向量及每个义原在待预测单词中的出现概率,预测获得义原对应的每个词义在待预测单词中的出现概率的方法,包括但不限于:
步骤1、根据上下文向量及每个义原在待预测单词中的出现概率,预测获得每个义原中包含的每个词义在待预测单词中的出现概率。
其中,在词义预测的步骤中,可以借鉴机器学习中经典的专家乘积方法(PoE),即把每一个义原当成一个负责预测包含该义原的所有词义的“专家”。具体地,假设某个词义s的嵌入(即词义向量)是一个H2维的向量ws,则可以使用一个与义原ek相关的双线性函数φ(k)(g,ws)=gTUkws来表示义原专家ek给词义s概率的打分(此处Uk是一个H1×H2的矩阵),那么从义原专家ek的角度来看,下一个单词(即待预测单词)包含这个义原的一个词义s的概率为:
Figure BDA0001823192980000061
其中,Ck,s是一个归一化的常数,Γk表示所有包含义原ek的词义的集合。
例如,参见图2,对于义原“水果”,可基于上式(2)获得该义原包含的词义“梨子(水果)”和词义“苹果(水果)”分别在待预测单词中的出现概率。
步骤2、对于每个词义,将包含于不同的义原的词义在待预测单词中的出现概率求积,获得词义在待预测单词中的出现概率。
作为一种可选实施例,基于上式(2),使用专家乘积的方法,一个词义s在待预测单词中出现的概率为:
Figure BDA0001823192980000062
φ(k)(g,ws)=gTUkws; (4)
式中,Ck,s为归一化常数,φ(k)(g,ws)为与义原ek相关的双线性函数,ws为词义s的H2维词义向量,Es为包含有词义s的义原集合,Uk是一个H1×H2的矩阵,s′为表示所有词义的辅助变量。
例如,对于义原“携带”、义原“电脑”和义原“特定牌子”,均包含有“苹果(电脑)”这一词义,那么词义“苹果(电脑)”在待预测单词中的出现概率为从义原专家“携带”、“电脑”和“特定牌子”来看,下一个单词包含“苹果(电脑)”这一词义的概率之积。
基于上述实施例的内容,作为一种可选实施例,矩阵Uk通过以下方式获得:采用R个矩阵的线性组合参数化矩阵Uk以使
Figure BDA0001823192980000071
式中,Qr为H1×H2的矩阵,αr,k是非负的标量,且满足
Figure BDA0001823192980000072
具体地,由于义原的个数过多(大约2000个左右),但是义原和词义之间的连接相对而言比较少(小于5倍的单词总数)。因此,采用的专家乘积是稀疏的。同时为了降低参数并减少计算复杂度,可以使用一种基矩阵的表示方法来参数化矩阵Uk,即采用上式(5)来获得矩阵,从而减小计算复杂度。
基于上述实施例的内容,作为一种可选实施例,提供一种对每个词义在待预测单词的出现概率进行边缘化处理,预测获得词义对应的每个目标单词为待预测单词的概率的方法,包括但不限于:对于每个目标单词,将对应于不同的词义的目标单词在待预测单词中的出现概率求和,获得目标单词为待预测单词的概率。具体地,可以将每个目标单词相对应的所有词义的概率相加得到该目标单词作为待预测单词的概率,即
Figure BDA0001823192980000073
式中,Sw表示单词w对应的所有词义的集合。
例如,目标单词“苹果”对应了两个词义“苹果(水果)”和“苹果(电脑)”,那么,目标单词“苹果”为待预测单词的概率为“苹果(水果)”和“苹果(电脑)”的概率之和。
基于上述内容,本发明实施例提供的解码方法可以应用于传统的循环神经网络语言模型的解码器,并且通过利用上述解码方法进行测试,可以发现该解码方法有效提升了语言模型的准确性和可解释性,具有良好的实用性。
基于上述实施例的内容,本发明实施例提供了一种语言模型的解码器,该语言模型的解码器用于执行上述方法实施例中的语言模型的解码方法。参见图3,该解码器包括义原预测模块301、词义预测模块302和单词预测模块303,其中:
义原预测模块301,用于根据上下文向量,预测获得每个义原在待预测单词中的出现概率,待预测单词为上下文向量对应的下个单词;词义预测模块302,用于根据上下文向量及每个义原在待预测单词中的出现概率,预测获得义原对应的每个词义在待预测单词中的出现概率;单词预测模块303,用于对每个词义在待预测单词的出现概率进行边缘化处理,预测获得词义对应的每个目标单词为待预测单词的概率。
具体地,在获得上下文向量后,义原预测模块301根据上下文向量去预测每个义原将在待预测单词中出现的概率。待预测单词为上下文向量对应的下个单词,即为根据上文需要去预测的下个单词,而上下文向量是根据上文获得的。在根据义原预测模块301获得每个义原在待预测单词中的出现概率后,词义预测模块302可以从义原出发,获得每个义原所对应的每个词义在待预测单词中的出现概率。由于词义和目标单词是具有关联的,因此在根据词义预测模块302获得每个词义在待预测单词中的出现概率后,单词预测模块303可从词义出发,确定与词义相关联的目标单词为待预测单词的概率。
本发明实施例提供的语言模型的解码器,通过在语言模型中以义原-词义-单词的层次进行解码,获得每个目标单词为待预测单词的概率,与现有技术中仅在词的层面上进行预测相比,由于从义原和词义的层面上充分考虑了单词之间的相互关联,层次化了预测过程,有效提升了语言模型的准确性和可解释性,具有良好的实用性。
本发明实施例提供了一种电子设备,如图4所示,该设备包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储器403上并可在处理器401上运行的计算机程序,以执行上述各实施例提供的语言模型的解码方法,例如包括:根据上下文向量,预测获得每个义原在待预测单词中的出现概率,待预测单词为上下文向量对应的下个单词;根据上下文向量及每个义原在待预测单词中的出现概率,预测获得义原对应的每个词义在待预测单词中的出现概率;对每个词义在待预测单词的出现概率进行边缘化处理,预测获得词义对应的每个目标单词为待预测单词的概率。
此外,上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的语言模型的解码方法,例如包括:根据上下文向量,预测获得每个义原在待预测单词中的出现概率,待预测单词为上下文向量对应的下个单词;根据上下文向量及每个义原在待预测单词中的出现概率,预测获得义原对应的每个词义在待预测单词中的出现概率;对每个词义在待预测单词的出现概率进行边缘化处理,预测获得词义对应的每个目标单词为待预测单词的概率。
以上所描述的电子设备等实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种语言模型的解码方法,其特征在于,包括:
根据上下文向量,预测获得每个义原在待预测单词中的出现概率,所述待预测单词为所述上下文向量对应的下个单词;
根据所述上下文向量及所述每个义原在待预测单词中的出现概率,预测获得所述义原对应的每个词义在所述待预测单词中的出现概率;
对每个所述词义在所述待预测单词的出现概率进行边缘化处理,预测获得所述词义对应的每个目标单词为所述待预测单词的概率;
所述每个义原在待预测单词中的出现概率为:
qk=σ(gTvk+bk);
式中,qk为义原ek在待预测单词中的出现概率,σ为sigmoid激励函数,g为H1维的上下文向量,vk为H1维的义原ek的义原向量,bk为标量。
2.根据权利要求1所述的方法,其特征在于,所述根据上下文向量,预测获得每个义原在待预测单词中的出现概率之前,还包括:
将上文词序列输入至循环神经网络,获得所述循环神经网络输出的所述上下文向量,所述上文词序列是所述待预测单词的上文的词序列。
3.根据权利要求1所述的方法,其特征在于,所述根据所述上下文向量及所述每个义原在待预测单词中的出现概率,预测获得所述义原对应的每个词义在所述待预测单词中的出现概率,包括:
根据所述上下文向量及所述每个义原在待预测单词中的出现概率,预测获得每个所述义原中包含的每个所述词义在所述待预测单词中的出现概率;
对于每个所述词义,将包含于不同的所述义原的所述词义在所述待预测单词中的出现概率求积,获得所述词义在所述待预测单词中的出现概率。
4.根据权利要求3所述的方法,其特征在于,所述对每个所述词义在所述待预测单词的出现概率进行边缘化处理,预测获得所述词义对应的每个目标单词为所述待预测单词的概率,包括:
对于每个所述目标单词,将对应于不同的所述词义的所述目标单词在所述待预测单词中的出现概率求和,获得所述目标单词为所述待预测单词的概率。
5.根据权利要求3所述的方法,其特征在于,所述词义在所述待预测单词中的出现概率为:
Figure FDA0002361390950000021
φ(k)(g,ws)=gTUkws
式中,P(s|g)为词义s在待预测单词中的出现概率,Ck,s为归一化常数,φ(k)(g,ws)为与义原ek相关的双线性函数,ws为词义s的H2维词义向量,Es为包含有词义s的义原集合,Uk是一个H1×H2的矩阵,s′为表示所有词义的辅助变量。
6.根据权利要求5所述的方法,其特征在于,矩阵Uk通过以下方式获得:采用R个矩阵的线性组合参数化矩阵Uk
Figure FDA0002361390950000022
式中,Qr为H1×H2的矩阵,αr,k是非负的标量,且满足
Figure FDA0002361390950000023
7.一种语言模型的解码器,其特征在于,包括:
义原预测模块,用于根据上下文向量,预测获得每个义原在待预测单词中的出现概率,所述待预测单词为所述上下文向量对应的下个单词;
所述每个义原在待预测单词中的出现概率为:
qk=σ(gTvk+bk);
式中,qk为义原ek在待预测单词中的出现概率,σ为sigmoid激励函数,g为H1维的上下文向量,vk为H1维的义原ek的义原向量,bk为标量;
词义预测模块,用于根据所述上下文向量及所述每个义原在待预测单词中的出现概率,预测获得所述义原对应的每个词义在所述待预测单词中的出现概率;
单词预测模块,用于对每个所述词义在所述待预测单词的出现概率进行边缘化处理,预测获得所述词义对应的每个目标单词为所述待预测单词的概率。
8.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述语言模型的解码方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至6任一项所述语言模型的解码方法的步骤。
CN201811173768.3A 2018-10-09 2018-10-09 语言模型的解码方法及解码器 Active CN109446518B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811173768.3A CN109446518B (zh) 2018-10-09 2018-10-09 语言模型的解码方法及解码器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811173768.3A CN109446518B (zh) 2018-10-09 2018-10-09 语言模型的解码方法及解码器

Publications (2)

Publication Number Publication Date
CN109446518A CN109446518A (zh) 2019-03-08
CN109446518B true CN109446518B (zh) 2020-06-02

Family

ID=65546390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811173768.3A Active CN109446518B (zh) 2018-10-09 2018-10-09 语言模型的解码方法及解码器

Country Status (1)

Country Link
CN (1) CN109446518B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112464673B (zh) * 2020-12-09 2023-05-26 哈尔滨工程大学 融合义原信息的语言含义理解方法
CN114841123B (zh) * 2022-03-29 2024-07-16 清华大学 一种词汇义原层次结构的预测方法、系统及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107193806A (zh) * 2017-06-08 2017-09-22 清华大学 一种词汇义原的自动预测方法及装置
CN107239443A (zh) * 2017-05-09 2017-10-10 清华大学 一种词向量学习模型的训练方法及服务器

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110119050A1 (en) * 2009-11-18 2011-05-19 Koen Deschacht Method for the automatic determination of context-dependent hidden word distributions
CN101847141A (zh) * 2010-06-03 2010-09-29 复旦大学 中文词语语义相似度度量方法
CN102163191A (zh) * 2011-05-11 2011-08-24 北京航空航天大学 一种基于HowNet的短文本情感识别方法
CN107015963A (zh) * 2017-03-22 2017-08-04 重庆邮电大学 基于深度神经网络的自然语言语义分析系统及方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239443A (zh) * 2017-05-09 2017-10-10 清华大学 一种词向量学习模型的训练方法及服务器
CN107193806A (zh) * 2017-06-08 2017-09-22 清华大学 一种词汇义原的自动预测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Language Modeling with Sparse Product of Sememe Experts;Yihong Gu et al;《Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing》;20181029;第4642-4651页 *
义原的介绍和义原的自动推荐;岂凡超;《http://www.mooc.ai/course/555/learn?lessonid=2864#lesson/2864》;20180920;第1-3页 *

Also Published As

Publication number Publication date
CN109446518A (zh) 2019-03-08

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN113312500B (zh) 一种面向大坝安全运行的事件图谱构建方法
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN111680159A (zh) 数据处理方法、装置及电子设备
CN111339255A (zh) 目标情感分析的方法、模型训练方法、介质和设备
CN113239169A (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN109472022B (zh) 基于机器学习的新词识别方法及终端设备
CN108268629B (zh) 基于关键词的图像描述方法和装置、设备、介质
CN107832300A (zh) 面向微创医疗领域文本摘要生成方法及装置
US20220300708A1 (en) Method and device for presenting prompt information and storage medium
CN109344246B (zh) 一种电子问卷生成方法、计算机可读存储介质及终端设备
CN114492661B (zh) 文本数据分类方法和装置、计算机设备、存储介质
US11481609B2 (en) Computationally efficient expressive output layers for neural networks
CN112463989A (zh) 一种基于知识图谱的信息获取方法及系统
CN114297399A (zh) 知识图谱生成方法、系统、存储介质及电子设备
CN112784573A (zh) 文本情感内容分析方法、装置、设备及存储介质
CN109902273A (zh) 关键词生成模型的建模方法和装置
CN109446518B (zh) 语言模型的解码方法及解码器
CN114519613B (zh) 价格数据的处理方法和装置、电子设备、存储介质
CN110852066A (zh) 一种基于对抗训练机制的多语言实体关系抽取方法及系统
CN113761875B (zh) 事件抽取方法、装置、电子设备及存储介质
CN111241843B (zh) 基于复合神经网络的语义关系推断系统和方法
CN110610006A (zh) 基于笔画和字形的形态学双通道中文词嵌入方法
CN111259673A (zh) 一种基于反馈序列多任务学习的法律判决预测方法及系统
CN114491076B (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant