CN114492457A - 语义识别方法、装置、电子设备及存储介质 - Google Patents

语义识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114492457A
CN114492457A CN202210143134.3A CN202210143134A CN114492457A CN 114492457 A CN114492457 A CN 114492457A CN 202210143134 A CN202210143134 A CN 202210143134A CN 114492457 A CN114492457 A CN 114492457A
Authority
CN
China
Prior art keywords
word
node
target
nodes
semantic recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210143134.3A
Other languages
English (en)
Other versions
CN114492457B (zh
Inventor
罗圣西
马骏
王少军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210143134.3A priority Critical patent/CN114492457B/zh
Publication of CN114492457A publication Critical patent/CN114492457A/zh
Application granted granted Critical
Publication of CN114492457B publication Critical patent/CN114492457B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例公开了一种语义识别方法、装置、电子设备及存储介质,该语义识别方法通过引入待识别词格信息来进行语义识别,同时引入掩码参数计算注意力分数,由于输入至语义识别模型的是待识别词格信息,因此可以利用词格信息包含的转译文本更丰富的特点,减轻语音数据转译错误对语义识别的影响,并且,相应地通过根据句子路径引入掩码参数进而计算注意力分数,使得语义识别模型适应词格信息的结构,输出的目标词向量更加准确,可见,本发明实施例语义识别方法能够提高对语音数据转译错误的情况的鲁棒性,从而提高语义识别的准确性,可以广泛应用于人工智能等技术领域。

Description

语义识别方法、装置、电子设备及存储介质
技术领域
本发明涉及语音识别技术领域,特别是涉及一种语义识别方法、装置、电子设备及存储介质。
背景技术
口语语言理解是智能语音客服机器人的核心模块,其主要目的是对人类所说的话进行处理,判断其语义。传统的口语语言理解系统是一种流水线的形式:先经过自动语音识别(ASR,Automatic Speech Recognition)系统,其主要作用是将说话人的语音转换为文字;再经过自然语言理解(NLU,Natural Language Understanding)系统,其主要作用是根据ASR系统转译得到的文字判断说话人的语音的语义。由于语音和文字这两种数据在处理方法上有较大差异,而这种流水线的方法可以将语音处理和文字处理的任务独立开来,因此有利于组建不同背景的技术团队对其分别进行优化,提升模型开发的效率。
但另一方面,这种流水线的形式也会带来一些问题。其中一个主要问题是错误传导,即ASR系统在转译过程中因环境、说话人习惯等因素造成的转译错误,会导致一个即使是经过良好训练的NLU模型也出现语义识别错误,从而降低了语义识别的准确性。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本发明实施例提供了一种语义识别方法、装置、电子设备及存储介质,能够提高语义识别的准确性。
第一方面,本发明实施例提供了一种语义识别方法,包括:
获取由语音数据转译得到的待识别词格信息,将所述待识别词格信息输入至语义识别模型;其中,所述待识别词格信息包括多个第一词语节点的第一初始词向量,多个所述第一词语节点形成多条句子路径;
遍历多个所述第一词语节点中的每一个目标词语节点,根据所述目标词语节点所在的所述句子路径确定所述目标词语节点与其余各个所述第一词语节点之间的掩码参数,根据所述掩码参数计算所述目标词语节点与其余各个所述第一词语节点之间的注意力分数;
根据其余各个所述第一词语节点的所述第一初始词向量和对应的所述注意力分数,计算所述目标词语节点对应的目标词向量,根据各个所述目标词语节点对应的所述目标词向量得到所述语音数据的语义识别结果。
进一步,所述根据所述目标词语节点所在的所述句子路径确定所述目标词语节点与其余各个所述第一词语节点之间的掩码参数,包括:
将与所述目标词语节点处于相同句子路径的其余所述第一词语节点作为相同路径节点,计算所述目标词语节点与各个所述相同路径节点之间的第一参数;
将与所述目标词语节点处于不同句子路径的其余所述第一词语节点作为不同路径节点,计算所述目标词语节点与各个所述不同路径节点之间的第二参数;
将所述第一参数和所述第二参数作为所述目标词语节点与其余各个所述第一词语节点之间的掩码参数。
进一步,所述待识别词格信息还包括各个所述第一词语节点之间的第一连接概率,所述计算所述目标词语节点与各个所述相同路径节点之间的第一参数,包括:
根据所述第一连接概率确定所述目标词语节点与各个所述相同路径节点之间的第二连接概率;
根据所述第二连接概率计算所述目标词语节点与各个所述相同路径节点之间的第一参数。
进一步,所述根据其余各个所述第一词语节点的所述第一初始词向量和对应的所述注意力分数,计算所述目标词语节点对应的目标词向量,包括:
根据其余各个所述第一词语节点的所述第一初始词向量和对应的所述注意力分数的乘积,得到其余各个所述第一词语节点对应的注意力词向量;
根据其余各个所述第一词语节点对应的所述注意力词向量之和得到所述目标词语节点对应的目标词向量。
进一步,所述获取由语音数据转译得到的待识别词格信息,包括:
获取由语音数据转译得到的初始词格信息;其中,所述初始词格信息包括多个所述第一词语节点的第二初始词向量;
根据所述第一词语节点在各个所述句子路径中的文本序列位置确定所述第一词语节点在各个句子路径中对应的位置编码,根据各个所述位置编码的大小从所述位置编码中确定目标编码;
根据各个所述第一词语节点对应的所述目标编码和所述第二初始词向量计算得到各个所述第一词语节点对应的第一初始词向量;
根据各个所述第一词语节点对应的第一初始词向量更新所述初始词格信息,得到待识别词格信息。
进一步,所述根据各个所述第一词语节点对应的所述目标编码和所述第二初始词向量计算得到各个所述第一词语节点对应的第一初始词向量,包括:
确定所述第二初始词向量的向量维度;
根据所述目标编码和所述向量维度生成编码向量;
根据各个所述第一词语节点对应的所述编码向量与所述第二初始词向量之和得到各个所述第一词语节点对应的第一初始词向量。
进一步,所述语义识别模型通过以下步骤训练得到:
获取样本词格信息,所述样本词格信息包括多个第二词语节点的参考向量;
对任意的所述第二词语节点进行屏蔽处理;
将进行屏蔽处理后的所述样本词格信息输入至所述语义识别模型,得到被屏蔽处理的所述第二词语节点对应的样本向量;
根据所述样本向量和所述参考向量计算所述语义识别模型的目标损失值,根据所述目标损失值对所述语义识别模型进行训练。
第二方面,本发明实施例还提供了一种语义识别装置,包括:
词格信息输入模块,用于获取由语音数据转译得到的待识别词格信息,将所述待识别词格信息输入至语义识别模型;其中,所述待识别词格信息包括多个第一词语节点的第一初始词向量,多个所述第一词语节点形成多条句子路径;
注意力分数计算模块,用于遍历多个所述第一词语节点中的每一个目标词语节点,根据所述目标词语节点所在的所述句子路径确定所述目标词语节点与其余各个所述第一词语节点之间的掩码参数,根据所述掩码参数计算所述目标词语节点与其余各个所述第一词语节点之间的注意力分数;
语义识别结果输出模块,用于根据其余各个所述第一词语节点的所述第一初始词向量和对应的所述注意力分数,计算所述目标词语节点对应的目标词向量,根据各个所述目标词语节点对应的所述目标词向量得到所述语音数据的语义识别结果。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的语义识别方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现如第一方面所述的语义识别方法。
本发明实施例至少包括以下有益效果:
本发明实施例提出的一种语义识别方法,通过获取由语音数据转译得到的待识别词格信息,将所述待识别词格信息输入至语义识别模型,遍历多个所述第一词语节点中的每一个目标词语节点,根据所述目标词语节点所在的所述句子路径确定所述目标词语节点与其余各个所述第一词语节点之间的掩码参数,根据所述掩码参数计算所述目标词语节点与其余各个所述第一词语节点之间的注意力分数,根据其余各个所述第一词语节点的所述第一初始词向量和对应的所述注意力分数,计算所述目标词语节点对应的目标词向量,根据各个所述目标词语节点对应的所述目标词向量得到所述语音数据的语义识别结果,由于输入至语义识别模型的是待识别词格信息,因此可以利用词格信息包含的转译文本更丰富的特点,减轻语音数据转译错误对语义识别的影响,并且,相应地通过根据句子路径引入掩码参数进而计算注意力分数,使得语义识别模型适应词格信息的结构,输出的目标词向量更加准确,可见,本发明实施例语义识别方法能够提高对语音数据转译错误的情况的鲁棒性,从而提高语义识别的准确性。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
图1为本发明实施例提供的一种实施环境的示意图;
图2为本发明实施例提供的语义识别方法的流程示意图;
图3为本发明实施例提供的一种词格信息的结构示意图;
图4为本发明实施例提供的计算目标词向量的具体流程示意图;
图5为本发明实施例提供的掩码参数的确定流程示意图;
图6为本发明实施例提供的第一参数的计算流程示意图;
图7为本发明实施例提供的待识别词格信息的更新流程示意图;
图8为本发明实施例提供的第一初始词向量的计算流程示意图;
图9为本发明实施例提供的语义识别模型的训练流程示意图;
图10为本发明实施例提供的语义识别装置的结构示意图;
图11为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
应了解,在本发明实施例的描述中,若干个的含义是一个以上,多个(或多项)的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到“第一”、“第二”等只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
首先,对本申请中涉及的若干名词进行解析:
人工智能(artificial intelligence,AI):是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学;人工智能是计算机科学的一个分支,人工智能企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能可以对人的意识、思维的信息过程的模拟。人工智能还是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
相关技术中,ASR系统在转译过程中因环境、说话人习惯等因素造成的转译错误,会导致一个即使是经过良好训练的NLU模型也出现语义识别错误,从而降低了语义识别的准确性。例如,NLU模型本身能够对用户所说的“寿险人工服务”正确识别,但由于口音或通话质量的原因,ASR系统错误识别成了“首先人工服务”,NLU模型就无法解析到原本的“寿险”信息,导致NLU模型的语义识别出错。针对错误传导问题,目前常规的解决办法是尽量提高ASR系统转译的准确率,用多种方式对ASR系统转译文本进行纠错,使得送入NLU模型的文本能够尽量保证正确性。但受限于语音场景的复杂多样,以及智能语音客服机器人中上下文的缺失问题,精准的纠错很难实现,目前的纠错方法都很难达到较高的准确率。
基于此,本发明实施例提供一种语义识别方法、装置、电子设备及存储介质,能够提高语义识别的准确性。
本发明实施例提供语义识别方法、装置、电子设备及存储介质,具体通过如下实施例进行说明,首先描述本公开实施例中的语义识别方法。
参照图1,图1为本发明实施例提供的一种实施环境的示意图,该实施环境包括终端101和服务器102,其中,终端101和服务器102之间通过通信网络103连接。
服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
另外,服务器102还可以是区块链网络中的一个节点服务器。
终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等,但并不局限于此。终端101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例在此不做限制。
基于图1所示的实施环境,本发明实施例提供了一种语义识别方法,该语义识别方法可以由图1所示的服务器102执行,也可以由图1所示的终端101执行,或者由图1所示的终端101和服务器102配合执行,本发明实施例以该语义识别方法由图1所示的服务器102执行为例进行说明。
参照图2,图2为本发明实施例提供的语义识别方法的流程示意图,该语义识别方法包括但不限于以下步骤201至步骤203。
步骤201:获取由语音数据转译得到的待识别词格信息,将待识别词格信息输入至语义识别模型;
步骤202:遍历多个第一词语节点中的每一个目标词语节点,根据目标词语节点所在的句子路径确定目标词语节点与其余各个第一词语节点之间的掩码参数,根据掩码参数计算目标词语节点与其余各个第一词语节点之间的注意力分数;
步骤203:根据其余各个第一词语节点的第一初始词向量和对应的注意力分数,计算目标词语节点对应的目标词向量,根据各个目标词语节点对应的目标词向量得到语音数据的语义识别结果。
其中,在步骤201中,待识别词格信息包括多个第一词语节点的第一初始词向量,多个第一词语节点形成多条句子路径。例如,参照图3,图3为本发明实施例提供的一种词格信息的结构示意图,在一个实施例中,待识别词格信息可以由上述ASR系统对语音数据进行转译处理得到。图3中,每个第一词语节点代表ASR系统转译出的一个词,箭头代表词与词之间语义上的顺序,每个第一词语节点均有对应的第一初始词向量。图3中出现分叉的地方,代表ASR系统转译可能出现的多种结果,既可以走其中一条句子路径,也可以走另一条句子路径。如图3中track后面的路径,说明ASR系统无法分辨用户说的是“onto”还是“on to”。
在一个实施例中,待识别词格信息还包括各个第一词语节点之间的第一连接概率,即图3所示的词格信息结构中还会包括每一条边的概率(附图未示出),传统ASR系统的最终输出会选取词格信息中概率最大的一条句子路径,但该句子路径对应的句子可能并不是用户真实表述的文本,如图3中可能“pay list”是概率最大的句子路径的一部分,但实际用户可能说的是“play list”,代表的是“播放列表”的意思。
目标词语节点为多个第一词语节点中的任意一个节点,在本发明实施例中,需要对所有第一词语节点计算对应的目标词向量,在一个实施例中,可以采用BERT(Bidirectional Encoder Representations from Transformers)模型作为上述语义识别模型。BERT模型是一种双向的预训练语言模型,已经成为自然语言处理领域的主流预训练模型。
本发明实施例示例性地基于BERT模型进行改进,在本发明实施例中,使用词格信息作为语义识别模型的输入,可以充分利用词格信息包含的转译文本更丰富的特点,减轻语音数据转译错误对语义识别的影响。相应地,由于待识别词格信息中包括多条句子路径,每条句子路径都可能可以正确对应语音数据,因此,通过根据句子路径引入掩码参数,具体可以根据目标词语节点与其余各个第一词语节点的句子路径关系确定掩码参数,进而根据掩码参数计算注意力分数,达到注意力分数分路径计算的效果,使得语义识别模型适应词格信息的结构。
在一个实施例中,注意力分数的具体计算方式可以采用以下公式表示:
Figure BDA0003507344470000081
其中,i代表目标词语节点,j代表某个第一词语节点,aij代表目标词语节点对应某个第一词语节点注意力分数,,hi代表目标词语节点的第一初始词向量,hj代表第一词语节点的第一初始词向量,mij代表目标词语节点对应某个第一词语节点的掩码参数,Wq、Wk为预设的线性变换矩阵,d代表与hi等向量的维度。
可见,除了引入掩码参数计算注意力分数以外,还可以利用线性变换矩阵Wq、Wk、d来计算掩码参数,Wq、Wk可以增加BERT模型的模型表现能力,使得模型的输出结果更加准确,而d可以避免因softmax中分子的加和过大而导致梯度反向传播时产生梯度消失的问题。
其中,BERT模型在计算得到各个目标词语节点对应的目标词向量后,即可进一步得到语义识别结果,在步骤203中,根据各个目标词语节点对应的目标词向量得到语音数据的语义识别结果,可以是利用BERT模型输出一个语义标签,该语义标签可以是一个一维向量,不同的向量元素代表不同的语义,例如语义标签可以是0100,第二位的向量元素代表“申请信用卡”,则可以确定语义识别结果为“申请信用卡”。
上述步骤201至203通过获取由语音数据转译得到的待识别词格信息,将待识别词格信息输入至语义识别模型,遍历多个第一词语节点中的每一个目标词语节点,根据目标词语节点所在的句子路径确定目标词语节点与其余各个第一词语节点之间的掩码参数,根据掩码参数计算目标词语节点与其余各个第一词语节点之间的注意力分数,根据其余各个第一词语节点的第一初始词向量和对应的注意力分数,计算目标词语节点对应的目标词向量,根据各个目标词语节点对应的目标词向量得到语音数据的语义识别结果,由于输入至语义识别模型的是待识别词格信息,因此可以利用词格信息包含的转译文本更丰富的特点,减轻语音数据转译错误对语义识别的影响,并且,相应地通过根据句子路径引入掩码参数进而计算注意力分数,使得语义识别模型适应词格信息的结构,输出的目标词向量更加准确,可见,本发明实施例语义识别方法能够提高对语音数据转译错误的情况的鲁棒性,从而提高语义识别的准确性。
在一个实施例中,计算得到目标词语节点与其余各个第一词语节点之间的注意力分数后,可以根据其余各个第一词语节点的第一初始词向量和对应的注意力分数,计算目标词语节点对应的目标词向量,参照图4,图4为本发明实施例提供的计算目标词向量的具体流程示意图,上述步骤203中,根据其余各个第一词语节点的第一初始词向量和对应的注意力分数,计算目标词语节点对应的目标词向量,具体可以包括以下步骤401至步骤402。
步骤401:根据其余各个第一词语节点的第一初始词向量和对应的注意力分数的乘积,得到其余各个第一词语节点对应的注意力词向量;
步骤402:根据其余各个第一词语节点对应的注意力词向量之和得到目标词语节点对应的目标词向量。
具体地,目标词向量的具体计算方式可以采用以下公式表示:
Figure BDA0003507344470000091
其中,hi代表目标词向量,aij与hj的乘积为第一词语节点对应的注意力词向量。
可以理解的是,在计算目标词向量时,同样可以引入线性变换矩阵Wv,从而增加BERT模型的模型表现能力。
可以理解的是,上述计算目标词向量是遍历所有的第一词语节点执行。
参照图5,图5为本发明实施例提供的掩码参数的确定流程示意图,在一个实施例中,上述步骤202中,根据目标词语节点所在的句子路径确定目标词语节点与其余各个第一词语节点之间的掩码参数,具体可以包括以下步骤501至步骤503。
步骤501:将与目标词语节点处于相同句子路径的其余第一词语节点作为相同路径节点,计算目标词语节点与各个相同路径节点之间的第一参数;
步骤502:将与目标词语节点处于不同句子路径的其余第一词语节点作为不同路径节点,计算目标词语节点与各个不同路径节点之间的第二参数;
步骤503:将第一参数和第二参数作为目标词语节点与其余各个第一词语节点之间的掩码参数。
可见,在本发明实施例中,根据目标词语节点与其余第一词语节点之间的句子路径关系来确定不同的掩码参数,目标词语节点与目标词语节点处于相同句子路径的相同路径节点之间掩码参数对应为第一参数,目标词语节点与目标词语节点处于不同句子路径的不同路径节点之间掩码参数对应为第二参数,从而可以区分句子路径计算注意力分数,使得语义识别模型适应词格信息的结构,输出的目标词向量更加准确。
参照图6,图6为本发明实施例提供的第一参数的计算流程示意图,上述步骤501中,计算目标词语节点与各个相同路径节点之间的第一参数,具体可以包括以下步骤601至步骤602。
步骤601:根据第一连接概率确定目标词语节点与各个相同路径节点之间的第二连接概率;
步骤602:根据第二连接概率计算目标词语节点与各个相同路径节点之间的第一参数。
在一个实施例中,上述掩码参数可以表示为:
Figure BDA0003507344470000101
其中,Pij代表目标词语节点与各个相同路径节点之间的第二连接概率,ti代表目标词语节点,tj代表某个相同路径节点。
具体地,第一连接概率为任意两个第一词语节点之间的连接概率,第二连接概率可以根据第一连接概率确定,例如,以图3所示的词格信息结构为例,假设目标词语节点为“track”,第一词语节点为“on”,此时“track”与“on”之间的第二连接概率即为两者的第一连接概率;而当目标词语节点为“track”,第一词语节点为“to”时,此时“track”与“to”之间的第二连接概率为“track”与“on”之间的第一连接概率和“on”与“to”之间的第一连接概率的乘积。
在一个实施例中,第一参数可以为logPij,即根据第二连接概率来计算对数,从而得到第一参数,当然,本发明实施例仅示例性地给出一种根据第二连接概率来计算第一参数的方式,实际上还可以根据第二连接概率采用其他的计算方式来计算出第一参数,本发明实施例不做限定。
在一个实施例中,第二参数可以为负的无限大,另外,还可以进一步根据语言函数来处理注意力分数,具体可以采用以下公式表示:
Figure BDA0003507344470000111
基于语言函数来处理注意力分数后,结合上述两种句子路径关系下的掩码参数,目标词语节点与不同路径节点之间的注意力分数就会趋向于0,从而达到只在同一条句子路径上的第一词语节点之间做自注意力分数计算的目的,使得语义识别模型适应词格信息的结构,输出的目标词向量更加准确。
另外,在本发明实施例中,除了引入掩码参数来使得语义识别模型适应词格信息的结构以外,还可以引入位置编码来计算注意力分数,从而进一步使得语义识别模型适应词格信息的结构。其中,位置编码的作用是区分文本中词的顺序,在本发明实施例中,位置编码用于更新词语节点的初始词向量,再利用更新后的初始词向量计算注意力分数。由于自注意力机制本身是没有顺序这一信息的,因此通过引入位置编码来计算注意力分数,可以使得注意力分数的计算更加合理化。
由于词格信息的非线性特性,本发明实施例并非使用简单的线性位置编码,具体地,参照图7,图7为本发明实施例提供的待识别词格信息的更新流程示意图,上述步骤201中,获取由语音数据转译得到的待识别词格信息,具体可以包括以下步骤701至步骤704。
步骤701:获取由语音数据转译得到的初始词格信息;
步骤702:根据第一词语节点在各个句子路径中的文本序列位置确定第一词语节点在各个句子路径中对应的位置编码,根据各个位置编码的大小从位置编码中确定目标编码;
步骤703:根据各个第一词语节点对应的目标编码和第二初始词向量计算得到各个第一词语节点对应的第一初始词向量;
步骤704:根据各个第一词语节点对应的第一初始词向量更新初始词格信息,得到待识别词格信息。
其中,在步骤701中,初始词格信息包括多个第一词语节点的第二初始词向量,初始词格信息可以是经ASR系统转译处理后的词格信息,即未进行位置编码的原始的词格信息。位置编码可以是通过对输入的文本序列中的词从0到N(N为文本序列长度)进行编码得到,即根据第一词语节点的文本序列位置得到。每个第一词语节点在不同的句子路径中的位置编码可以不相同,在一个实施例中,在步骤702中,根据各个位置编码的大小从位置编码中确定目标编码,可以是取最大的位置编码作为目标编码,即每个第一词语节点最终的位置编码等于该第一词语节点所处的所有句子路径进行线性位置编码后的最大值,可以概括描述为最长路径编码。
以图3所示的词格信息结构为例进行说明,考虑从“<s>”到“my”的位置编码,如果按照经过“onto”的句子路径进行编码,最终“my”的位置编码应该是5,如果按照经过“onto”的句子路径进行编码,最终“my的位置编码为6,那么最终“my”的位置编码就是6。
其中,最长路径编码可以保证词格信息中每条句子路径的最终位置编码都是单调递增的,以及至少有一条句子路径(即最长句子路径)的位置编码是严格以1为间隔递增的。
参照图8,图8为本发明实施例提供的第一初始词向量的计算流程示意图,在一个实施例中,上述步骤703中,根据各个第一词语节点对应的目标编码和第二初始词向量计算得到各个第一词语节点对应的第一初始词向量,具体可以包括以下步骤801至步骤803。
步骤801:确定第二初始词向量的向量维度;
步骤802:根据目标编码和向量维度生成编码向量;
步骤803:根据各个第一词语节点对应的编码向量与第二初始词向量之和得到各个第一词语节点对应的第一初始词向量。
其中,第二初始词向量为未进行位置编码的初始词向量,例如,假设第二初始词向量的向量维度是四维,则目标编码对应的编码向量的向量维度也是四维,具体编码向量的生成方式可以根据实际需求而定,例如位目标编码是6,目标编码对应的编码向量的向量维度是四维,则编码向量可以是0006,当然,本发明实施例不做限定。
本发明实施例中的语义识别模型可以预先训练得到,参照图9,图9为本发明实施例提供的语义识别模型的训练流程示意图,本发明实施例提供的语义识别模型通过以下步骤901至步骤904训练得到。
步骤901:获取样本词格信息;
步骤902:对任意的第二词语节点进行屏蔽处理;
步骤903:将进行屏蔽处理后的样本词格信息输入至语义识别模型,得到被屏蔽处理的第二词语节点对应的样本向量;
步骤904:根据样本向量和参考向量计算语义识别模型的目标损失值,根据目标损失值对语义识别模型进行训练。
其中,样本词格信息包括多个第二词语节点的参考向量,样本词格信息作为语义识别模型的训练样本,对任意的第二词语节点进行屏蔽处理,可以是将对应的第二词语节点替换为统一的“[MASK]”标记,然后再训练语义识别模型预测替换前的词。例如,样本词格信息为“我要办理信用卡”,第二词语节点为“办”,则先将“办”替换成“[MASK]”,此时进行屏蔽处理后的样本词格信息为“我要[MASK]理信用卡”,然后照常输入语义识别模型,最后模型预测[MASK]位置原始的字,输出该位置对应的样本向量,并与该位置的真实标签“办”进行比对,确定目标损失值,通过这样的方式来实现模型的训练更新,通过上述屏蔽处理的方式对语义识别模型进行训练,有利于提升模型的性能。
可以理解的是,上述步骤901至步骤904用于对语义识别模型进行微调,除此以外,还可以通过样本词格信息对语义识别模型进行分类训练,此时是根据语义识别模型输出的语义识别结果来计算损失值。
可以理解的是,虽然上述各个流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
另外,参照图10,图10为本发明实施例提供的语义识别装置的结构示意图,该语义识别装置1000包括:
词格信息输入模块1001,用于获取由语音数据转译得到的待识别词格信息,将待识别词格信息输入至语义识别模型;其中,待识别词格信息包括多个第一词语节点的第一初始词向量,多个第一词语节点形成多条句子路径;
注意力分数计算模块1002,用于遍历多个第一词语节点中的每一个目标词语节点,根据目标词语节点所在的句子路径确定目标词语节点与其余各个第一词语节点之间的掩码参数,根据掩码参数计算目标词语节点与其余各个第一词语节点之间的注意力分数;
语义识别结果输出模块1003,用于根据其余各个第一词语节点的第一初始词向量和对应的注意力分数,计算目标词语节点对应的目标词向量,根据各个目标词语节点对应的目标词向量得到语音数据的语义识别结果。
上述语义识别装置1000与语义识别方法基于相同的发明构思,因此,该语义识别装置1000可以利用词格信息包含的转译文本更丰富的特点,减轻语音数据转译错误对语义识别的影响,并且,相应地通过根据句子路径引入掩码参数进而计算注意力分数,使得语义识别模型适应词格信息的结构,输出的目标词向量更加准确,可见,本发明实施例语义识别装置1000能够提高对语音数据转译错误的情况的鲁棒性,从而提高语义识别的准确性。
可以理解的是,上述各个语义识别装置还可以具体用于执行在上述语义识别方法实施例中描述的各种流程。
参照图11,图11为本发明实施例提供的电子设备的结构示意图。电子设备1100包括:存储器1101、处理器1102及存储在存储器1101上并可在处理器1102上运行的计算机程序,计算机程序运行时用于执行上述的语义识别方法。
处理器1102和存储器1101可以通过总线或者其他方式连接。
存储器1101作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序,如本发明实施例描述的语义识别方法。处理器1102通过运行存储在存储器1101中的非暂态软件程序以及指令,从而实现上述的语义识别方法。
存储器1101可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储执行上述的语义识别方法。此外,存储器1101可以包括高速随机存取存储器1101,还可以包括非暂态存储器1101,例如至少一个储存设备存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中,存储器1101可选包括相对于处理器1102远程设置的存储器1101,这些远程存储器1101可以通过网络连接至该电子设备1100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实现上述的语义识别方法所需的非暂态软件程序以及指令存储在存储器1101中,当被一个或者多个处理器1102执行时,执行上述的语义识别方法。
本发明实施例还提供了计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行上述的语义识别方法。
在一实施例中,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,可以实现上述的语义识别方法。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、储存设备存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
还应了解,本发明实施例提供的各种实施方式可以任意进行组合,以实现不同的技术效果。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims (10)

1.一种语义识别方法,其特征在于,包括:
获取由语音数据转译得到的待识别词格信息,将所述待识别词格信息输入至语义识别模型;其中,所述待识别词格信息包括多个第一词语节点的第一初始词向量,多个所述第一词语节点形成多条句子路径;
遍历多个所述第一词语节点中的每一个目标词语节点,根据所述目标词语节点所在的所述句子路径确定所述目标词语节点与其余各个所述第一词语节点之间的掩码参数,根据所述掩码参数计算所述目标词语节点与其余各个所述第一词语节点之间的注意力分数;
根据其余各个所述第一词语节点的所述第一初始词向量和对应的所述注意力分数,计算所述目标词语节点对应的目标词向量,根据各个所述目标词语节点对应的所述目标词向量得到所述语音数据的语义识别结果。
2.根据权利要求1所述的语义识别方法,其特征在于,所述根据所述目标词语节点所在的所述句子路径确定所述目标词语节点与其余各个所述第一词语节点之间的掩码参数,包括:
将与所述目标词语节点处于相同句子路径的其余所述第一词语节点作为相同路径节点,计算所述目标词语节点与各个所述相同路径节点之间的第一参数;
将与所述目标词语节点处于不同句子路径的其余所述第一词语节点作为不同路径节点,计算所述目标词语节点与各个所述不同路径节点之间的第二参数;
将所述第一参数和所述第二参数作为所述目标词语节点与其余各个所述第一词语节点之间的掩码参数。
3.根据权利要求2所述的语义识别方法,其特征在于,所述待识别词格信息还包括各个所述第一词语节点之间的第一连接概率,所述计算所述目标词语节点与各个所述相同路径节点之间的第一参数,包括:
根据所述第一连接概率确定所述目标词语节点与各个所述相同路径节点之间的第二连接概率;
根据所述第二连接概率计算所述目标词语节点与各个所述相同路径节点之间的第一参数。
4.根据权利要求1所述的语义识别方法,其特征在于,所述根据其余各个所述第一词语节点的所述第一初始词向量和对应的所述注意力分数,计算所述目标词语节点对应的目标词向量,包括:
根据其余各个所述第一词语节点的所述第一初始词向量和对应的所述注意力分数的乘积,得到其余各个所述第一词语节点对应的注意力词向量;
根据其余各个所述第一词语节点对应的所述注意力词向量之和得到所述目标词语节点对应的目标词向量。
5.根据权利要求1至4任意一项所述的语义识别方法,其特征在于,所述获取由语音数据转译得到的待识别词格信息,包括:
获取由语音数据转译得到的初始词格信息;其中,所述初始词格信息包括多个所述第一词语节点的第二初始词向量;
根据所述第一词语节点在各个所述句子路径中的文本序列位置确定所述第一词语节点在各个句子路径中对应的位置编码,根据各个所述位置编码的大小从所述位置编码中确定目标编码;
根据各个所述第一词语节点对应的所述目标编码和所述第二初始词向量计算得到各个所述第一词语节点对应的第一初始词向量;
根据各个所述第一词语节点对应的第一初始词向量更新所述初始词格信息,得到待识别词格信息。
6.根据权利要求5所述的语义识别方法,其特征在于,所述根据各个所述第一词语节点对应的所述目标编码和所述第二初始词向量计算得到各个所述第一词语节点对应的第一初始词向量,包括:
确定所述第二初始词向量的向量维度;
根据所述目标编码和所述向量维度生成编码向量;
根据各个所述第一词语节点对应的所述编码向量与所述第二初始词向量之和得到各个所述第一词语节点对应的第一初始词向量。
7.根据权利要求1至4任意一项所述的语义识别方法,其特征在于,所述语义识别模型通过以下步骤训练得到:
获取样本词格信息,所述样本词格信息包括多个第二词语节点的参考向量;
对任意的所述第二词语节点进行屏蔽处理;
将进行屏蔽处理后的所述样本词格信息输入至所述语义识别模型,得到被屏蔽处理的所述第二词语节点对应的样本向量;
根据所述样本向量和所述参考向量计算所述语义识别模型的目标损失值,根据所述目标损失值对所述语义识别模型进行训练。
8.一种语义识别装置,其特征在于,包括:
词格信息输入模块,用于获取由语音数据转译得到的待识别词格信息,将所述待识别词格信息输入至语义识别模型;其中,所述待识别词格信息包括多个第一词语节点的第一初始词向量,多个所述第一词语节点形成多条句子路径;
注意力分数计算模块,用于遍历多个所述第一词语节点中的每一个目标词语节点,根据所述目标词语节点所在的所述句子路径确定所述目标词语节点与其余各个所述第一词语节点之间的掩码参数,根据所述掩码参数计算所述目标词语节点与其余各个所述第一词语节点之间的注意力分数;
语义识别结果输出模块,用于根据其余各个所述第一词语节点的所述第一初始词向量和对应的所述注意力分数,计算所述目标词语节点对应的目标词向量,根据各个所述目标词语节点对应的所述目标词向量得到所述语音数据的语义识别结果。
9.一种电子设备,其特征在于,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至7中任意一项所述的语义识别方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现权利要求1至7中任意一项所述的语义识别方法。
CN202210143134.3A 2022-02-16 2022-02-16 语义识别方法、装置、电子设备及存储介质 Active CN114492457B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210143134.3A CN114492457B (zh) 2022-02-16 2022-02-16 语义识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210143134.3A CN114492457B (zh) 2022-02-16 2022-02-16 语义识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN114492457A true CN114492457A (zh) 2022-05-13
CN114492457B CN114492457B (zh) 2023-07-07

Family

ID=81481928

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210143134.3A Active CN114492457B (zh) 2022-02-16 2022-02-16 语义识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114492457B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569507A (zh) * 2019-09-09 2019-12-13 北京金鑫魔方科技有限责任公司 语义识别方法、装置、设备及存储介质
CN110705261A (zh) * 2019-09-26 2020-01-17 浙江蓝鸽科技有限公司 中文文本分词方法及其系统
EP3598321A1 (en) * 2018-07-19 2020-01-22 Robert D. New Method for parsing natural language text with constituent construction links
CN111324699A (zh) * 2020-02-20 2020-06-23 广州腾讯科技有限公司 语义匹配的方法、装置、电子设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3598321A1 (en) * 2018-07-19 2020-01-22 Robert D. New Method for parsing natural language text with constituent construction links
CN110569507A (zh) * 2019-09-09 2019-12-13 北京金鑫魔方科技有限责任公司 语义识别方法、装置、设备及存储介质
CN110705261A (zh) * 2019-09-26 2020-01-17 浙江蓝鸽科技有限公司 中文文本分词方法及其系统
CN111324699A (zh) * 2020-02-20 2020-06-23 广州腾讯科技有限公司 语义匹配的方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN114492457B (zh) 2023-07-07

Similar Documents

Publication Publication Date Title
CN113987209B (zh) 基于知识指导前缀微调的自然语言处理方法、装置、计算设备和存储介质
US20230015665A1 (en) Multi-turn dialogue response generation with template generation
CN111291166B (zh) 基于Bert的语言模型的训练方法及装置
CN110516253B (zh) 中文口语语义理解方法及系统
CN110717039A (zh) 文本分类方法和装置、电子设备、计算机可读存储介质
US20210183373A1 (en) System and Method for Streaming end-to-end Speech Recognition with Asynchronous Decoders
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111309915A (zh) 联合学习的自然语言训练方法、系统、设备及存储介质
CN111460833A (zh) 文本生成方法、装置和设备
CN111027291B (zh) 文本中标点符号添加、模型训练方法、装置及电子设备
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN108959388B (zh) 信息生成方法及装置
CN114510570A (zh) 基于小样本语料的意图分类方法、装置及计算机设备
CN116050496A (zh) 图片描述信息生成模型的确定方法及装置、介质、设备
CN114896395A (zh) 语言模型微调方法、文本分类方法、装置及设备
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN115115984A (zh) 视频数据处理方法、装置、程序产品、计算机设备和介质
CN114333838A (zh) 语音识别文本的修正方法及系统
CN113850383A (zh) 文本匹配模型训练方法、装置、电子设备及存储介质
CN111462734B (zh) 语义槽填充模型训练方法及系统
CN113705207A (zh) 语法错误识别方法及装置
CN116909435A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN111581341A (zh) 一种获取文本摘要的方法及语言模型生成方法
CN116644180A (zh) 文本匹配模型的训练方法、训练系统和文本标签确定方法
CN113792133B (zh) 判题方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant