CN114239601A - 语句的处理方法、装置及电子设备 - Google Patents

语句的处理方法、装置及电子设备 Download PDF

Info

Publication number
CN114239601A
CN114239601A CN202111355670.1A CN202111355670A CN114239601A CN 114239601 A CN114239601 A CN 114239601A CN 202111355670 A CN202111355670 A CN 202111355670A CN 114239601 A CN114239601 A CN 114239601A
Authority
CN
China
Prior art keywords
sentence
word
processed
label information
information corresponding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111355670.1A
Other languages
English (en)
Inventor
杨善松
王敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Visual Technology Co Ltd
Original Assignee
Hisense Visual Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Visual Technology Co Ltd filed Critical Hisense Visual Technology Co Ltd
Priority to CN202111355670.1A priority Critical patent/CN114239601A/zh
Publication of CN114239601A publication Critical patent/CN114239601A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

本申请提供一种语句的处理方法、装置及电子设备,在对待处理语句进行处理时,通过多头注意力机制模型,将语句中每个词语的标签信息与其上下文词语的标签信息之间一起出现的概率进行考虑,从而将整个语句的标签信息融入到每个文字的信息中,实现了将待处理语句以及标签信息融合进行处理和识别,因此能够更加准确地确定出语句中每个词语的标签信息,即确定出语句中的词槽,进而可以更加准确地确定语句所对应的意图,保证后续可以准确地确定语句的命令,最终准确执行用户指示的命令。

Description

语句的处理方法、装置及电子设备
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种语句的处理方法、装置及电子设备。
背景技术
随着科学技术的不断发展,手机、电脑、各种电器等电子设备上越来越多地设置有语音对话系统,使电子设备的用户能够通过“对话式”的方式实现对电子设备的控制。
现有技术中,当用户向电子设备说出所指示的命令后,电子设备可以通过麦克风等语音采集设备采集到用户的语音数据,并将语音数据转为为文本形式的语句,再通过自然语言理解等形式确定语句中包括的词语,并根据语句中所有词语的标签信息确定语句对应的意图后,最终可以执行该意图对应的命令,实现语音对话控制。
但是,现有技术中在自然语言理解时,当语句中包括词语可能对应于多个标签信息时,并不能完全准确地每个词语的标签信息,也就不能准确确定语句对应的意图,从而导致后续无法准确执行语句所对应的命令,影响电子设备实现基于用户的语音数据进行智能化的控制,降低电子设备的用户体验。
发明内容
本申请提供一种语句的处理方法、装置及电子设备,用以解决现有技术中自然语言理解不能完全准确地确定语句对应的意图的技术问题。
本申请第一方面提供一种语句的处理方法,包括:获取待处理语句;其中,所述待处理语句是通过识别语音数据得到的,所述待处理语句包括顺序排列的多个文字;对所述待处理语句进行分词,得到多个词语,并确定每个词语对应的一个或多个标签信息;将所述多个词语以及每个词语对应的标签信息输入多头注意力机制模型,得到概率矩阵;所述概率矩阵包括所述每个词语对应的所述一个或多个标签信息中每个标签信息的概率值;根据所述概率矩阵,确定所述待处理语句中每个词语对应的一个标签信息和所述待处理语句的意图信息。
在本申请第一方面一实施例中,所述将所述多个词语以及每个词语对应的一个或多个标签信息输入多头注意力机制模型,包括:根据所述待处理语句中多个文字的字特征向量,得到多个第一特征矩阵;根据所述语句中每个文字对应的标签信息的特征向量,得到多个第二特征矩阵;将所述多个第一特征矩阵和所述多个第二特征矩阵输入所述多头注意力机制模型。
在本申请第一方面一实施例中,所述多头注意力机制模型被配置为,根据历史语句学习结果,确定所述第一特征矩阵中的每个文字,在所述第二特征矩阵中所在的词语所对应的一个或多个标签信息一起出现的概率值,根据所述多个词语的概率值组成所述概率矩阵;其中,所述历史语句学习结果是根据多个语句,及语句中每个文字对应的一个标签信息输入所述多头注意力机制模型训练得到的。
在本申请第一方面一实施例中,所述多头注意力机制模型得到所述概率矩阵M的公式包括:
Figure BDA0003357485760000021
其中,Q为所述第一特征矩阵,K和V为所述第二特征矩阵,dk为指定的标签信息嵌入所述第二特征矩阵时的向量维度。
在本申请第一方面一实施例中,所述对所述待处理语句进行分词,得到多个词语,并确定每个词语对应的一个或多个标签信息,包括:将所述待处理语句通过ANSJ分词算法得到所述多个词语;根据映射表确定每个词语对应的一个或多个标签信息,所述映射表包括多个词语,以及每个词语与一个或多个标签信息的对应关系。
在本申请第一方面一实施例中,所述根据所述概率矩阵,确定所述待处理语句中每个词语对应的一个标签信息和所述待处理语句的意图信息,包括:通过Transform编码对所述概率矩阵进行处理得到特征矩阵;通过全连接层对所述特征矩阵中每个文字进行槽位分类和意图分类,得到所述待处理语句中的词槽信息和意图信息。
在本申请第一方面一实施例中,所述方法还包括:获取多个训练语句,并确定每个训练语句中每个文字对应的标签信息;将所述多个训练语句以及每个训练语句中每个文字对应的标签信息输入入所述多头注意力机制模型,使所述多头注意力机制模型训练得到所述历史语句学习结果。
在本申请第一方面一实施例中,所述确定所述待处理语句中每个词语对应的一个标签信息和所述待处理语句的意图信息之后,还包括:存储所述待处理语句中每个词语的标签信息和所述意图信息的对应关系;当再次接收到后续语句,且所述后续语句中的多个词语的标签信息与所述待处理语句中多个词语的标签信息相同时,根据所述对应关系确定所述后续语句中每个词语对应的标签信息和所述后续语句的意图信息。
本申请第二方面提供一种语句的处理装置,可用于执行如本申请第一方面提供的语句的处理方法,该装置包括:获取模块,用于获取待处理语句;其中,所述待处理语句是通过识别语音数据得到的,所述待处理语句包括顺序排列的多个文字;分词标注模块,用于对所述待处理语句进行分词,得到多个词语,并确定每个词语对应的一个或多个标签信息;多头注意力处理模块,用于将所述多个词语以及每个词语对应的标签信息输入多头注意力机制模型,得到概率矩阵;所述概率矩阵包括所述每个词语对应的所述一个或多个标签信息中每个标签信息的概率值;确定模块,用于根据所述概率矩阵,确定所述待处理语句中每个词语对应的一个标签信息和所述待处理语句的意图信息。
本申请第三方面提供一种电子设备,包括:存储器和处理器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如本申请第一方面任一项所述的语句处理方法。
综上,本申请提供的语句的处理方法及装置,在对待处理语句进行处理时,通过多头注意力机制模型,将语句中每个词语的标签信息与其上下文词语的标签信息之间一起出现的概率进行考虑,从而将整个语句的标签信息融入到每个文字的信息中,实现了将待处理语句以及标签信息融合进行处理和识别,进而避免了待处理语句中包括词语对应于多个标签信息时无法准确确定词槽以及语句意图的情况,因此能够更加准确地确定出语句中每个词语的标签信息,即确定出语句中的词槽,进而可以更加准确地确定语句所对应的意图,进而保证后续可以准确地确定语句的命令,最终准确执行用户指示的命令。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为一种对话系统的示意图;
图2为本申请提供的语句的处理方法一实施例的流程示意图;
图3为本申请提供的语句的处理方法另一实施例的流程示意图;
图4为本申请提供的语句的处理装置一实施例的结构示意图;
图5为本申请提供的电子设备一实施例的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面在介绍本申请实施例之前,先结合附图,对本申请所应用的场景,以及现有场景中所存在的问题进行说明。例如,图1为一种对话系统的示意图,其中,在图1所示的对话场景中提供的对话系统可以应用在手机、电脑、家用电器等智能化的电子设备上。
本申请以电子设备作为执行主体进行说明,则用户可以通过语音的方式向电子设备“说出”希望电子设备执行的指令,实现更加智能化的控制方式来提高电子设备的用户体验。例如,当电子设备为电视机时,当用户想让电视机播放电影《无间道》,则可以在不适用遥控器等控制装置的情况下,只需要对着电子设备说出“看无间道”。
此时,对于电子设备,可以通过麦克风等语音采集设备采集到用户的语音数据后,首先在S10中,通过自动语音识别(Automatic Speech Recognition,简称:ASR)等方式,将用户的语音数据转为为文本形式的语句。随后,在S20中,再通过自然语言理解(NaturalLanguage Understanding,简称:NLU)等方式,确定语句对应的命令为播放电影《少林》。更为具体地,在S20中,自然语言理解可以通过意图识别等方式,基于语句中的上下文信息,确定语句中的单个或者连续的文字的标签信息,这个过程又可被称为词槽填充,例如确定“看无间道”中的文字“看”的标签信息为看电影的“watch”词槽、“无间道”的标签信息为电影名称的“VideaName”词槽等,进而可以根据语句中所有的词语的标签信息即所有词槽,确定出整个语句的意图。最终在S30中,电子设备执行播放电影《无间道》的命令,实现基于用户对话的策略执行。
虽然如图1所示的对话系统能够实现基于用户语音数据的智能化控制,但是当电子设备具有多种形式的播放功能、以及随着电子设备可以处理的数据、领域的规模都越来越丰富,音箱、电视等电子设备在接收到例如“听少林英雄”这类语句后,通过自然语言理解进行处理时,可能会将“少林英雄”的标签信息定义为看电影名称的“VideaName”词槽、也可能将“少林英雄”的标签信息定义为音乐名称的“MusicName”词槽,从而导致无法准确地确定每个词语的标签信息,进而无法根据语句中的所有词槽确定整个语句所对应的意图,导致后续也就无法准确执行语句所对应的命令,影响电子设备实现基于用户的语音数据进行智能化的控制,降低电子设备的用户体验。
因此,本申请还提供一种语句处理方法,可用于如图1所示的系统中,使得电子设备在处理语句时,能够在自然语言理解时,通过考虑语句中每个词语的标签信息与其上下文词语的标签信息之间一起出现的概率,更加准确地确定出语句中每个词语的标签信息,即确定出语句中的词槽,进而可以更加准确地确定语句所对应的意图,进而保证后续可以准确地确定语句的命令,最终准确执行用户指示的命令。
下面以具体地实施例对本申请的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
图2为本申请提供的语句的处理方法一实施例的流程示意图,如图2所示的方法可以应用在如图1所示的对话系统中,由电子设备在S20中执行,具体地,本实施例提供的语句的处理方法包括:
S101:电子设备获取待处理语句。
在一些实施例中,电子设备可以在获取用户的语音数据后,对语音数据自动语音识别处理后得到待处理语句。其中,待处理语句中的多个文字按顺序排列,并在后续处理过程中保持这种排列位置。示例性地,当用户说出“听少林英雄”后,电子设备采集并识别出待处理语句包括“听少林英雄”这五个顺序排列的文字。
S102:对S101获取的待处理语句进行分词处理,得到多个词语,并确定每个词语对应的一个或多个标签信息。
在一些实施例中,电子设备具体可以使用ANSJ等分词算法,对待处理语句进行处理,从而得到待处理语句中的多个词语。例如,对待处理语句“听少林英雄”进行分词处理后,可以得到待处理语句中的两个词语“听”和“少林英雄”。更为具体地,ANSJ是一个基于n-Gram+CRF+HMM实现的专用于对中文语句进行分词的算法,目前实现了中文分词、词性识别、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能,可以应用到自然语言处理等方面,适用于对分词效果要求高的场景中。
在一些实施例中,在得到分词的多个词语后,电子设备进一步确定每个词语对应的标签信息。其中,电子设备可以根据构建的“词语-标签”的映射表,从映射表中获取每个词语对应的标签信息。示例性的,标签可以包括人名、动作、电影名称、音乐名称等等。则对于词语“听”可以确定其标签信息包括动作听“listen”,词语“少林英雄”可以确定其标签信息包括电影名称“VideoName”和音乐名称“MusicName”。
在一些实施例中,上述确定标签信息的映射表可以是提前存储在电子设备中的,也可以是电子设备通过互联网从服务器上获取的,或者,也可以是电子设备的用户所指定的。
在一些实施例中,图3为本申请提供的语句的处理方法另一实施例的流程示意图,示出了如图2所示的语句的处理方法的一种具体的实现方式,其中,在S102中,对待处理语句依次通过ANSJ分词算法进行分词处理,并根据映射表确定每个词语对应的标签信息。
S103:将S102中得到的多个词语,以及每个词语对应的标签信息输入多头注意力机制模型中,并获取由多头注意力机制模型输出的概率矩阵。其中,概率矩阵包括每个词语对应于一个或多个标签信息中每个标签信息的概率值。
在一些实施例中,本实施例提供的语句的处理方法中,不仅仅依靠待处理语句的标签信息直接确定词槽和意图信息等,而是先通过多头注意力(Multi-Head-Attention)机制模型对待处理语句及其标签信息进行处理后,再根据处理后得到的概率矩阵确定待处理语句中每个词语对应的标签信息和待处理语句的意图信息。其中,由多头注意力机制模型对待处理语句中,每个文字的标签信息与其他文字的标签信息进行矩阵乘法预算,从而能够自主训练学习得到每个文字所在词语和其他文字所在词语的标签之间的关系,进而能够确定出整个待处理语句中,可能一起出现的标签的概率值。即,多头注意力机制模型将对相关联的标签信息或者可能一起出现的标签信息给予更多的注意力,这些标签信息对应的概率值越大;而对不相关联或者不可能一起出现的标签信息给予更少的注意力,这些标签信息对应的概率值越小。
在S103的一种具体的实现方式中,将多个词语及其对应的标签信息输入多头注意力机制模型,具体包括:根据待处理语句中多个文字的字特征向量得到多个第一特征矩阵,并根据语句中每个文字对应的标签信息的特征向量,得到多个第二特征矩阵,随后将上述得到的第一特征矩阵和第二特征矩阵输入到多头注意力机制模型中。
示例性地,如图3的S103中所示,电子设备可以具体根据加载的预训练模型(例如Bert模型等)的字嵌入矩阵,对待处理语句中的文字进行字嵌入编码,得到字嵌入编码矩阵E。字嵌入编码矩阵E具体包括:e0,e2,……et-1;共t个元素,t为待处理语句中的字数。随后对上述字嵌入编码矩阵E进行双向长短期记忆网络(Long Short-Term Memory,简称:LSTM)编码,得到第一特征矩阵U。其中,LSTM是一种具有链式结构的循环神经网络,可以学习文本的长期依赖性,适用于本申请中以整个待处理语句为单位提取特征信息。第一特征矩阵U具体包括:u0,u1…ut-1;共t个元素,t为待处理语句中的字数,第一特征矩阵U的维度是(t,h)。
在一些实施例中,S103中的根据语句中每个文字对应的标签信息的特征向量得到多个第二特征矩阵T时,可以根据S103中所确定的每个词语所对应的标签信息,确定每个文字对应的标签信息。例如,同样以待处理语句为“听少林英雄”为例,根据S102中确定的词语“听”的标签信息包括动作听“listen”,词语“少林英雄”的标签信息包括电影名称“VideoName”和音乐名称“MusicName”。则第二特征矩阵T中根据待处理语句中的五个文字依次包括五维向量为:“listen”,“VideoName”和“MusicName”,“VideoName”和“MusicName”,“VideoName”和“MusicName”,“VideoName”和“MusicName”。每个标签信息对应的向量可以是提前指定的,并以映射表等形式进行存储。
在一些实施例中,本申请提供的多头注意力机制模型的计算原理可以通过如下公式一表示:
Figure BDA0003357485760000081
其中,将第一特征矩阵U作为公式中的Q、第二特征矩阵T作为公式中的K和V带入到公式一中,dk为指定的标签信息嵌入所述第二特征矩阵时的向量维度,最终可以得到概率矩阵M。
在一些实施例中,本申请实施例提供的多头注意力机制模型的参数设置如下,将模型的隐向量的维度设置为h,并配置多头注意力机制模型的“head”参数的个数为4,并且每个文字最多对应于4个标签信息,超出部分可以丢弃处理,没有达到4个的以参数“padding”进行填充处理,则标签信息的嵌入矩阵得到的第二特征矩阵的向量维度为h/4。需要说明的是,在实际应用过程中,对“head”参数的取值可以是其他数值,例如可以是可能取得的最多标签个数等。则基于公式一的计算过程,可以将第一特征矩阵U按照head个数4拆分得到公式中的Q,则Q的维度是(t,4,h/4),并且由于设置了标签信息的数量为4,则第二特征矩阵T的向量维度也是(t,4,h/4),此时dk=h/4。
更为具体地,在上述公式一的计算过程中,多头注意力机制模型具体根据其历史语句学习结果,确定第一特征矩阵中的每个文字,在第二特征矩阵中所在词语所对应的一个或多个标签信息一起出现的概率值,从而得到多个词语的概率值后即可得到概率矩阵。
在一些实施例中,为了得到历史语句学习结果,可以提前对多头注意力机制模型进行训练。例如,电子设备可以获取工作人员提前指定的多个训练语句,并确定每个训练语句中每个文字对应的标签信息,随后将多个训练语句以及每个训练语句中每个文字对应的标签信息输入多头注意力机制模型中,使得多头注意力机制模型训练得到历史语句学习结果。
示例性地,训练语句可以是“听黄梅戏”等,则该训练语句中每个文字对应的标签信息为:“listen”,“MusicName”,“MusicName”,“MusicName”,“MusicName”,将这个训练语句及标签信息送入多头注意力机制模型后,可以学习到并给予标签信息“listen”和“MusicName”可能一起出现更多的注意力。随后当接收到训练语句“听少林英雄”及其标签信息“listen”,“VideoName”和“MusicName”,“VideoName”和“MusicName”,“VideoName”和“MusicName”,“VideoName”和“MusicName”时,可以在输出的概率矩阵中,得到少林英雄这四个文字对应于标签信息“MusicName”概率值更大,这四个文字对应于标签信息“VideoName”的概率值更小的计算结果。
在一些实施例中,本申请S103中针对语句中存在词语对应于多个标签信息的情况,因此可以在S103之前进行判断,当待处理语句中所有词语的文字均只对应于一个标签信息时,可以不执行S103的判断而是直接确定其词槽及意图信息;只有在判断待处理语句中包括对应于多个标签信息的文字时,再通过S103中的多头注意力机制模型进行处理。
S104:根据S103中得到的概率矩阵,确定待处理语句中每个词语对应的标签信息,以及待处理语句的意图信息。
在一些实施例中,如图3所示,在S104中首先对S103中得到融合了语义知识的概率矩阵M进行2层Transform编码,得到最终的待处理语句的特征向量,其中,本实施例中的2层仅为示例,可以进行灵活调整。
随后,使用通用的全连接层,分别对待处理语句的特征向量做待处理语句整句的意图分类识别和待处理语句中各文字的标签信息的槽位分类填充,最终确定待处理语句的意图信息以及待处理语句中每个文字的槽位。其中,意图识别是对矩阵M做最大池化,将维度变为(1,h),随后连接一个全连接算子,将M映射到意图空间,得到I维的向量,I是意图个数,最终将向量中得分最高的意图索引作为预测的意图结果。槽位填充首先对矩阵M后接一个全连接算子,将M映射到槽位空间,得到S维矩阵,S是槽位的个数,然后通过CRF算子等方式,得到最优的槽位组合,最终根据槽位组合确定对应的意图。本申请对得槽位填充和意图识别的具体实现方式不做限定。
示例性地,对于“听少林英雄”这个待处理语句,可以得到其槽位包括词语“听”和“少林英雄”对应的“listen”和“MusicName”两个标签信息,待处理语句的意图为“音乐搜索”等。
综上,本实施例提供的语句的处理方法,在对待处理语句进行处理时,通过多头注意力机制模型,将语句中每个词语的标签信息与其上下文词语的标签信息之间一起出现的概率进行考虑,从而将整个语句的标签信息融入到每个文字的信息中,实现了将待处理语句以及标签信息融合进行处理和识别,进而避免了待处理语句中包括词语对应于多个标签信息时无法准确确定词槽以及语句意图的情况,因此能够更加准确地确定出语句中每个词语的标签信息,即确定出语句中的词槽,进而可以更加准确地确定语句所对应的意图,进而保证后续可以准确地确定语句的命令,最终准确执行用户指示的命令。
在一些实施例中,当电子设备通过本实施例提供的语句的处理方法确定待处理语句中每个词语的一个标签信息和待处理语句的意图信息之后,可以存储待处理语句与其对应的标签信息和意图信息的对应关系。使得后续电子设备再接收到后续语句时,若后续语句中的多个词语的标签信息与待处理语句中的多个词语的标签信息相同时,或者后续语句中的每个文字与待处理语句中的每个文字均相同,则不需要再使用多头注意力机制模型对其进行处理,而是可以直接根据存储的对应关系,确定该后续语句中每个词语对应的标签信息和整个后续语句的意图信息。从而能够减少使用多头注意力机制模型进行的重复、无效的计算,提高电子设备对语句的处理速度和处理效率。
在前述各实施例中,对本申请实施例提供的语句的处理方法进行了介绍,而为了实现上述本申请实施例提供的语句的处理方法中的各功能,作为执行主体的电子可以包括硬件结构和/或软件模块,以硬件结构、软件模块、或硬件结构加软件模块的形式来实现上述各功能。上述各功能中的某个功能以硬件结构、软件模块、还是硬件结构加软件模块的方式来执行,取决于技术方案的特定应用和设计约束条件。
例如,图4为本申请提供的语句的处理装置一实施例的结构示意图,如图4所示,本申请还提供一种语句的处理装置,包括:获取模块401、分词标注模块402、多头注意力处理模块403和确定模块404。其中,获取模块401用于获取待处理语句;其中,待处理语句是通过识别语音数据得到的,待处理语句包括顺序排列的多个文字;分词标注模块402用于对待处理语句进行分词,得到多个词语,并确定每个词语对应的一个或多个标签信息;多头注意力处理模块403用于将多个词语以及每个词语对应的标签信息输入多头注意力机制模型,得到概率矩阵;概率矩阵包括每个词语对应的一个或多个标签信息中每个标签信息的概率值;确定模块404用于根据概率矩阵,确定待处理语句中每个词语对应的一个标签信息和待处理语句的意图信息。
具体地,语句的处理装置中的各模块分别执行的上述步骤的具体原理及实现方式,可参考本申请前述实施例中的语句的处理方法中的描述,不再赘述。
需要说明的是,应理解以上装置的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上确定模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(application specific integrated circuit,ASIC),或,一个或多个微处理器(digital signal processor,DSP),或,一个或者多个现场可编程门阵列(field programmable gate array,FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(centralprocessing unit,CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,SOC)的形式实现。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘solid state disk(SSD))等。
例如,图5为本申请提供的电子设备一实施例的结构示意图,如图5所示,本申还提供一种电子设备,包括:处理器502以及存储器503,通过总线连接;其中,存储器503中存储有计算机程序,当处理器502执行计算机程序时,处理器502可用于执行如本申请前述实施例中任一的语句的处理方法。在一些实施例中,处理器502还可以通过通信接口501与其他设备交互数据,例如获取待处理语句等。
本申请还提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被执行时可用于执行如本申请前述实施例中任一的语句的处理方法。
本申请实施例还提供一种运行指令的芯片,所述芯片用于执行如本申请前述任一实施例中由电子设备所执行的语句的处理方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (10)

1.一种语句的处理方法,其特征在于,包括:
获取待处理语句;其中,所述待处理语句是通过识别语音数据得到的,所述待处理语句包括顺序排列的多个文字;
对所述待处理语句进行分词,得到多个词语,并确定每个词语对应的一个或多个标签信息;
将所述多个词语以及每个词语对应的标签信息输入多头注意力机制模型,得到概率矩阵;所述概率矩阵包括所述每个词语对应的所述一个或多个标签信息中每个标签信息的概率值;
根据所述概率矩阵,确定所述待处理语句中每个词语对应的一个标签信息和所述待处理语句的意图信息。
2.根据权利要求1所述的方法,其特征在于,所述将所述多个词语以及每个词语对应的一个或多个标签信息输入多头注意力机制模型,包括:
根据所述待处理语句中多个文字的字特征向量,得到多个第一特征矩阵;
根据所述语句中每个文字对应的标签信息的特征向量,得到多个第二特征矩阵;
将所述多个第一特征矩阵和所述多个第二特征矩阵输入所述多头注意力机制模型。
3.根据权利要求2所述的方法,其特征在于,所述多头注意力机制模型被配置为,
根据历史语句学习结果,确定所述第一特征矩阵中的每个文字,在所述第二特征矩阵中所在的词语所对应的一个或多个标签信息一起出现的概率值,根据所述多个词语的概率值组成所述概率矩阵;
其中,所述历史语句学习结果是根据多个语句,及语句中每个文字对应的一个标签信息输入所述多头注意力机制模型训练得到的。
4.根据权利要求3所述的方法,其特征在于,所述多头注意力机制模型得到所述概率矩阵M的公式包括:
Figure FDA0003357485750000011
其中,Q为所述第一特征矩阵,K和V为所述第二特征矩阵,dk为指定的标签信息嵌入所述第二特征矩阵时的向量维度。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述对所述待处理语句进行分词,得到多个词语,并确定每个词语对应的一个或多个标签信息,包括:
将所述待处理语句通过ANSJ分词算法得到所述多个词语;
根据映射表确定每个词语对应的一个或多个标签信息,所述映射表包括多个词语,以及每个词语与一个或多个标签信息的对应关系。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述概率矩阵,确定所述待处理语句中每个词语对应的一个标签信息和所述待处理语句的意图信息,包括:
通过Transform编码对所述概率矩阵进行处理得到特征矩阵;
通过全连接层对所述特征矩阵中每个文字进行槽位分类和意图分类,得到所述待处理语句中的词槽信息和意图信息。
7.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取多个训练语句,并确定每个训练语句中每个文字对应的标签信息;
将所述多个训练语句以及每个训练语句中每个文字对应的标签信息输入入所述多头注意力机制模型,使所述多头注意力机制模型训练得到所述历史语句学习结果。
8.根据权利要求1-4任一项所述的方法,其特征在于,所述确定所述待处理语句中每个词语对应的一个标签信息和所述待处理语句的意图信息之后,还包括:
存储所述待处理语句中每个词语的标签信息和所述意图信息的对应关系;
当再次接收到后续语句,且所述后续语句中的多个词语的标签信息与所述待处理语句中多个词语的标签信息相同时,根据所述对应关系确定所述后续语句中每个词语对应的标签信息和所述后续语句的意图信息。
9.一种语句的处理装置,其特征在于,包括:
获取模块,用于获取待处理语句;其中,所述待处理语句是通过识别语音数据得到的,所述待处理语句包括顺序排列的多个文字;
分词标注模块,用于对所述待处理语句进行分词,得到多个词语,并确定每个词语对应的一个或多个标签信息;
多头注意力处理模块,用于将所述多个词语以及每个词语对应的标签信息输入多头注意力机制模型,得到概率矩阵;所述概率矩阵包括所述每个词语对应的所述一个或多个标签信息中每个标签信息的概率值;
确定模块,用于根据所述概率矩阵,确定所述待处理语句中每个词语对应的一个标签信息和所述待处理语句的意图信息。
10.一种电子设备,其特征在于,包括:存储器和处理器;所述存储器存储计算机执行指令;所述处理器执行所述存储器存储的计算机执行指令,使得所述处理器执行如权利要求1至8任一项所述的语句处理方法。
CN202111355670.1A 2021-11-16 2021-11-16 语句的处理方法、装置及电子设备 Pending CN114239601A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111355670.1A CN114239601A (zh) 2021-11-16 2021-11-16 语句的处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111355670.1A CN114239601A (zh) 2021-11-16 2021-11-16 语句的处理方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN114239601A true CN114239601A (zh) 2022-03-25

Family

ID=80749589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111355670.1A Pending CN114239601A (zh) 2021-11-16 2021-11-16 语句的处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN114239601A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115729530A (zh) * 2022-11-22 2023-03-03 壹沓科技(上海)有限公司 跨系统逻辑语句生成的方法、装置、存储介质及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115729530A (zh) * 2022-11-22 2023-03-03 壹沓科技(上海)有限公司 跨系统逻辑语句生成的方法、装置、存储介质及设备
CN115729530B (zh) * 2022-11-22 2023-07-04 壹沓科技(上海)有限公司 跨系统逻辑语句生成的方法、装置、存储介质及设备

Similar Documents

Publication Publication Date Title
CN112100349B (zh) 一种多轮对话方法、装置、电子设备及存储介质
JP6909832B2 (ja) オーディオにおける重要語句を認識するための方法、装置、機器及び媒体
CN110516253B (zh) 中文口语语义理解方法及系统
WO2022252636A1 (zh) 基于人工智能的回答生成方法、装置、设备及存储介质
CN111695345A (zh) 文本中实体识别方法、以及装置
CN113705315B (zh) 视频处理方法、装置、设备及存储介质
WO2021073179A1 (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN112463942A (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN114218945A (zh) 实体识别方法、装置、服务器及存储介质
CN116306679A (zh) 一种基于语义可配置的多模态智能客服对话的方法和系统
US20230326178A1 (en) Concept disambiguation using multimodal embeddings
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN114722837A (zh) 一种多轮对话意图识别方法、装置及计算机可读存储介质
CN112487813B (zh) 命名实体识别方法及系统、电子设备及存储介质
CN111898363B (zh) 文本长难句的压缩方法、装置、计算机设备及存储介质
CN114239601A (zh) 语句的处理方法、装置及电子设备
CN112001167B (zh) 一种标点符号添加方法、系统、设备和介质
CN114077650A (zh) 口语理解模型的训练方法和装置
CN113470617B (zh) 语音识别方法以及电子设备、存储装置
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN115033683A (zh) 摘要生成方法、装置、设备及存储介质
CN114817501A (zh) 一种数据处理方法、数据处理装置、电子设备及存储介质
CN113961701A (zh) 消息文本的聚类方法及装置
CN112925889A (zh) 自然语言处理方法、装置、电子设备和存储介质
CN113836937B (zh) 基于比较模型的文本处理方法、装置、设备与存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination