CN114220426A - 语音交互中的意图识别方法和装置 - Google Patents
语音交互中的意图识别方法和装置 Download PDFInfo
- Publication number
- CN114220426A CN114220426A CN202111370057.7A CN202111370057A CN114220426A CN 114220426 A CN114220426 A CN 114220426A CN 202111370057 A CN202111370057 A CN 202111370057A CN 114220426 A CN114220426 A CN 114220426A
- Authority
- CN
- China
- Prior art keywords
- text information
- intention
- information
- unique
- recognition model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 230000003993 interaction Effects 0.000 title claims abstract description 42
- 238000012549 training Methods 0.000 claims description 84
- 230000009471 action Effects 0.000 claims description 32
- 230000015654 memory Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 8
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 15
- 230000000875 corresponding effect Effects 0.000 description 12
- 230000002452 interceptive effect Effects 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 238000012512 characterization method Methods 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 239000013598 vector Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 210000002364 input neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提供一种语音交互中的意图识别方法和装置。该方法包括接收语音信息,将所述语音信息转换为文本信息;将转换得到的文本信息输入至意图识别模型中,得到所述文本信息的唯一意图信息;所述唯一意图信息为所述意图识别模型识别所述文本信息后得到的多个意图信息中概率得分最高的意图信息。本申请的方法可以识别文本信息的唯一意图信息,从而解决现有的语音交互系统还存在无法准确识别用户意图的问题。
Description
技术领域
本申请涉及语音交互技术,尤其涉及一种语音交互中的意图识别方法和装置。
背景技术
随着智能化终端的不断发展,语音交互系统已经普遍应用在各类智能化终端(例如智能电视、车载导航、智能音箱等)。在语音交互系统中,能否很好地理解用户的表达,关系到整个交互过程的成功与否。因此,语音交互系统中的自然语言理解(对语音信息转换得到的文本信息进行理解,包含意图识别和槽位提取两部分)是语音交互系统研究的一个重要的方向。
现有的语音交互系统一般是通过构建领域意图体系完成自然语言理解中的意图识别理解。即,通过构建的该领域意图体系进行领域分类,再对文本信息先进行意图识别,从而分析出文本信息的意图信息。例如,用户说出“我想看电影”,智能化终端将语音信息转换为文本信息“我想看电影”后,先进行领域识别(音视频播放领域),再对文本信息进行意图识别(看)。但是,现有的领域意图体系容易将文本信息识别出多个不同的意图和领域,例如“我想看电影”是用方言说出的,就可能将“我想看电影”归为方言交互领域,意图可能识别为用方言进行语音交互。
因此,现有的语音交互系统还存在无法准确识别用户意图的问题。
发明内容
本申请提供一种语音交互中的意图识别方法和装置,用以解决现有的语音交互系统还存在无法准确识别用户意图的问题。
一方面,本申请提供一种语音交互中的意图识别方法,包括:
接收语音信息,将所述语音信息转换为文本信息;
将转换得到的文本信息输入至意图识别模型中,得到所述文本信息的唯一意图信息;
所述唯一意图信息为所述意图识别模型识别所述文本信息后得到的多个意图信息中概率得分最高的意图信息。
其中一个实施例中,还包括:
构建初始意图识别模型的训练语料库,所述训练语料库中的每条文本信息具有唯一主题和所述唯一主题下的唯一动作;
以所述初始意图识别模型的训练语料库中的文本信息对所述初始意图识别模型进行训练,得到所述意图识别模型。
其中一个实施例中,所述构建初始意图识别模型的训练语料库包括:
使用文档主题生成模型对文本信息库中的每条文本信息分别标注N个主题,以及输出所述N个主题中每个主题的概率得分,N等于文本信息中识别出的主题数量,N为大于或等于1的整数;
将主题的概率得分大于预设概率得分的K个主题作为每条文本信息最终标注的主题,K为大于或等于1的整数,且K小于或等于N;
当K大于1时,使用基于BERT语义表征的孤立森林算法检测文本信息是否为K个主题中第一主题的离群点;
当文本信息为所述第一主题的离群点时,从所述K个主题中去除所述第一主题的标注;
当去除了所述第一主题的标注后的文本信息被标注的主题数量仍大于1时,使用BERT相似度计算在各个主题下文本信息与非离群点之间的相似度均值,当在第二主题下文本信息与非离群点之间的相似度均值最大时,确定所述第二主题为文本信息的唯一主题;
根据具有唯一主题的文本信息中的动作词进行文本信息的动作划分,得到具有唯一主题和所述唯一主题下的唯一动作的文本信息;
以所述文本信息库中每条具有唯一主题和唯一动作的文本信息构建得到所述初始意图识别模型的训练语料库。
其中一个实施例中,还包括:
响应名称定义操作,对文本信息的唯一主题进行名称定义;
所述将转换得到的文本信息输入至意图识别模型中,得到所述转换得到的文本信息的唯一意图信息,包括:
将所述转换后的文本信息输入至所述意图识别模型中,以识别出所述转换后的文本信息对应的唯一名称定义,以及识别出所述转换后的文本信息对应的唯一名称定义下的唯一动作,得到所述文本信息的意图信息。
其中一个实施例中,所述以所述初始意图识别模型的训练语料库中的文本信息对所述初始意图识别模型进行训练,得到所述意图识别模型包括:
基于多任务学习的方式,以所述初始意图识别模型的训练语料库中的文本信息对所述初始意图识别模型训练,得到所述意图识别模型。
其中一个实施例中,所述基于多任务学习的方式,以所述初始意图识别模型的训练语料库中的文本信息对所述初始意图识别模型训练,得到所述意图识别模型包括:
基于所述初始意图识别模型对所述训练语料库中各主题对应的文本信息分别进行主题独有自注意力语义表征和主题共享自注意力语义表征;
基于所述初始意图识别模型对所述训练语料库中所有文本信息的主题独有自注意力语义表征和主题共享自注意力语义表征进行拼接,并对拼接了主题独有自注意力语义表征和主题共享自注意力语义表征的所述所有文本信息中每条文本信息进行意图信息的识别训练,得到所述意图识别模型。
其中一个实施例中,还包括:
对训练中的所述初始意图识别模型进行对抗训练。
另一方面,本申请还提供一种语音交互中的意图识别装置,包括:
语音处理模块,用于接收语音信息,将所述语音信息转换为文本信息;
意图识别模块,用于将转换得到的文本信息输入至意图识别模型中,得到所述文本信息的唯一意图信息;所述唯一意图信息为所述意图识别模型识别所述文本信息后得到的多个意图信息中概率得分最高的意图信息。
另一方面,本申请还提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面所述的语音交互中的意图识别方法。
另一方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当所述指令被执行时,使得计算机执行如第一方面所述的语音交互中的意图识别方法。
另一方面,本申请一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的语音交互中的意图识别方法。
本申请提供一种语音交互中的意图识别方法和装置,建立一种意图识别模型,可以对语音信息转换得到的文本信息进行唯一意图信息的识别。和现有技术中容易识别出文本信息的多个意图信息不同,本申请可以准确识别文本信息的唯一意图信息,以达到准确识别用户意图的目的。除此之外,本申请只建立了一个模型进行文本信息的意图识别,也避免了多个模型管理、部署和资源等方面代价高的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本申请提供的语音交互中的意图识别方法的一种应用场景示意图。
图2为本申请的一个实施例提供的语音交互中的意图识别方法的流程示意图。
图3为本申请的一个实施例提供的语音交互中的意图识别方法中训练语料库构建的部分示意图。
图4为本申请的一个实施例提供的语音交互中的意图识别方法中训练语料库构建的部分示意图。
图5为本申请的一个实施例提供的语音交互中的意图识别方法中训练语料库构建的部分示意图。
图6为本申请的一个实施例提供的语音交互中的意图识别装置的示意图。
图7为本申请的一个实施例提供的电子设备的示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
智能语音交互是基于语音输入的新一代交互模式,用户通过说话就可以得到反馈结果。随着智能化终端的不断发展,语音交互系统已经普遍应用在各类智能化终端(例如智能电视、车载导航、智能音箱等)。在语音交互系统中,能否很好地理解用户的表达,关系到整个交互过程的成功与否。因此,语音交互系统中的自然语言理解(对语音信息转换得到的文本信息进行理解)是语音交互系统研究的一个重要的方向。
在进行意图识别理解时,通常是建模一个文本分类问题,使用CNN、LSTM、Transformer、Bert等模型进行文本信息的文本特征抽取,再经过Sigmoid函数或Softmax函数来完成意图识别。但是原有的基于单模型进行意图识别的方法已经无法应付不断扩张的业务场景,于是构建了领域意图体系,将文本信息的意图识别认为分为领域分类和意图识别两个阶段的任务,先进行领域分类再在领域内进行意图识别。但是当前的领域意图体系在构建时是采用自下而上的方式构建,即,先构建意图,再将构建好的意图体系划分到对应的领域下。自下而上的方式构建的领域意图体系存在较多不稳定性,常出现将某个意图从A领域调整到B领域的情况。例如,用户说出“我想看电影”,智能化终端将语音信息转换为文本信息“我想看电影”后,先进行领域识别(音视频播放领域),再对文本信息进行意图识别(看)。但是如果“我想看电影”是用方言说出的,就可能将“我想看电影”归为方言交互领域,意图可能识别为用方言进行音视频播放的语音交互。
因此,现有的领域意图体系存在较多的不稳定性,可能会无法准确识别用户意图。除此之外,现有的领域意图系统在每个领域下都有一个进行意图识别的规则或模型,因此在模型管理、部署和资源等方面,都会产生不小的代价。
基于此,本申请提供一种语音交互中的意图识别方法和装置,建立一种意图识别模型,可以对语音信息转换得到的文本信息进行主题和动作的唯一识别,由唯一的主题和唯一的动作定义该文本信息的唯一意图信息。和现有技术中容易识别出文本信息的多个意图信息不同,本申请可以准确识别文本信息的唯一意图信息,以达到准确识别用户意图的目的。除此之外,本申请只建立了一个模型进行文本信息的意图识别,也避免了多个模型管理、部署和资源等方面代价高的问题。
本申请提供的语音交互中的意图识别方法应用于电子设备,该电子设备例如计算机、智能电视机、智能音箱等。图1为本申请提供的语音交互中的意图识别方法的应用示意图,图中,该电子设备接收用户输入的语音信息,将该语音信息转换为文本信息,将转换得到的文本信息输入至意图识别模型中得到该转换得到的文本信息的唯一意图信息。
请参见图2,本申请的一个实施例提供一种语音交互中的意图识别方法,包括:
S210,接收语音信息,将该语音信息转换为文本信息。
该语音信息由用户输入至该电子设备(例如智能电视机),该电子设备在接收到该语音信息后,基于自身软件(例如语音识别软件)和硬件(内置麦克风)的支持对该语音信息进行转换,得到对应的文本信息。例如用户说“我想看电影”,转换为文本信息后就可以得到文本信息“我想看电影”。
S220,将转换得到的文本信息输入至意图识别模型中,得到该文本信息的唯一意图信息;该唯一意图信息为该意图识别模型识别该文本信息后得到的多个意图信息中概率得分最高的意图信息。
一个文本信息可能具有多个主题,该主题例如影视、新闻、体育、金融等,但一般的只有一个动作,动作例如搜索、学习、看/听等。该意图识别模型在对文本信息进行处理时,从文本信息具有的多个主题中和文本信息中的动作词确定文本信息的多个意图信息的概率得分,将该多个意图信息中概率得分最高的意图信息作为该文本信息的唯一意图信息。
例如文本信息为“我想看A中的B片段”,A是一部电影,B片段为A电影中的体育片段(例如踢足球片段),这个时候文本信息就具有“影视”和“体育”两个主题,对应的就有两个意图(“影视搜索”和“体育搜索”)。该意图识别模型的作用就是识别出与文本信息“我想看A中的B片段”最相关的意图信息,也就是唯一意图信息,即影视搜索。在识别出文本信息的唯一意图信息后,再基于文本信息的唯一意图和文本信息的具体内容执行唯一意图下的关键参数信息(即自然语言理解中的槽位提取部分),从而完成语音交互过程。因为槽位提取部分不是本申请的重点,这里不再详细赘述。
可选的,该意图识别模型用于识别出文本信息的唯一主题和唯一动作,并根据文本信息的唯一主题和唯一动作确定出多个意图信息,再从多个意图信息中筛选出概率得分最高的意图信息为该文本信息的唯一意图信息。该唯一主题可以理解为与文本信息的内容最相关的主题,例如“我想看A中的B片段”的唯一主题为“影视”,唯一动作为“看”,确定的唯一意图信息为“想要观看影视A中的B片段”。
在将转换得到的文本信息输入至该意图识别模型之前,还需要构建该意图识别模型。在构建该意图识别模型时,先获取一个初始意图识别模型,再构建该初始意图识别模型的训练语料库,以该初始意图识别模型的训练语料库中的文本信息对该初始意图识别模型进行训练,得到该意图识别模型。其中,在构建该初始意图识别模型的训练语料库时,得到的该训练语料库中的每条文本信息具有唯一主题和该唯一主题下的唯一动作,唯一主题可以理解为与文本信息最相关的主题。
具体的,在在构建该初始意图识别模型的训练语料库时,可以从现有的领域意图体系中获取大量的文本信息,这些大量的文本信息例如“我想看电影”、“我想看股票”、“我想看足球”这些具有简单主题的文本信息,以及一些主题更多、更复杂的文本信息。再以获取的这些文本信息建立文本信息库。再使用文档主题生成模型(Ida模型)对该文本信息库中的每条文本信息分别标注上N个主题,N等于文本信息中识别出的主题数量,N为大于或等于1的整数。例如以上描述的该“我想看A中的B片段”被标注上两个主题(主题1和主题2,此时的主题1和主题2还没有具体的名称定义)。
在得到文本信息的N个主题后,再使用该文档主题生成模型输出该N个主题中每个主题的概率得分。基于该N个主题中每个主题的概率得分,从该N个主题中筛选出主题的概率得分大于预设概率得分的K个主题作为每条文本信息最终标注的主题,K为大于或等于1的整数,且K小于或等于N。例如该预设概率得分是0.5,该文本信息的N个主题中有两个主题的概率得分是大于0.5的,则这两个主题就是该文本信息最终标注的主题。如果文本信息上最终标注的主题只有一个主题的话,则最终标注的这一个主题为文本信息的唯一主题,不用再进行如下描述的离群点检测来对主题进行进一步筛选的步骤。
当文本信息最终标注的主题有多个时,即K大于1时,再使用基于BERT语义表征的孤立森林算法检测文本信息是否为该最终标注的多个主题(K个主题)中第一主题(该第一主题指的是该最终标注的主题中任意一个主题)的离群点。当该具有多个主题的文本信息为该第一主题的离群点时(文本信息为该第一主题的离群点可以理解为该文本信息与该第一主题的相关性很低),从该最终标注的多个主题(K个主题)中去除该第一主题的标注。例如文本信息“我想看A中的B片段”是主题1的离群点,则从文本信息“我想看A中的B片段”的两个主题(主题1和主题2)中去除主题2这个主题的标注。具体的,在对文本信息库中的每条文本信息识别和标注上N个主题后,N个主题中每个主题下都会有至少一个文本信息,例如主题1下有“我想看A中的B片段”、“我想看C电影”、“我想看D电影”等,主题2下有“我想看A中的B片段”、“我想看a比赛”、“我想看b比赛”等。使用基于BERT语义表征的孤立森林算法可以检测出“我想看A中的B片段”是否为主题1、主题2的离群点。如果基于离群点去除了文本信息中的多个主题中的一个或一些主题后,文本信息只对应有一个主题,则定义仅剩的一个主题为该文本信息的唯一主题,不用再进行如下描述的使用BERT相似度来确定唯一主题的步骤。
如果基于离群点去除了文本信息中的最终标注的多个主题中的一个或一些主题后,文本信息还对应有多个主题,即,当去除了该第一主题的标注后的文本信息被标注的主题数量仍大于1时,使用BERT相似度计算在各个主题下文本信息与非离群点之间的相似度均值。当第二主题下非离群点之间的相似度均值最大时,确定该第二主题为文本信息的唯一主题,由此,就确定出文本信息的唯一主题。
非离群点是主题下的其他至少一条文本信息,在计算文本信息与非离群点之间的相似度均值时,是利用BERT编码输出主题下每条文本信息的语义表征向量,再利用余弦相似度计算该文本信息与该其他至少一条文本信息之间的至少一个相似度,再取该至少一个相似度的求和平均值,就得到主题下该文本信息与非离群点之间的相似度均值。例如“我想看A中的B片段”有两个主题(主题1和主题2),主题1下一共有三条文本信息“我想看A中的B片段”、“我想看C电影”、“我想看D电影”,在基于BERT进行语义表征后,“我想看A中的B片段”与其他两条文本信息之间的相似度均值达到了0.9。主题2下一共有三条文本信息“我想看A中的B片段”、“我想看a比赛”、“我想看b比赛”,在基于BERT进行语义表征后,“我想看A中的B片段”与其他两条文本信息之间的相似度均值达到了0.5。则,“我想看A中的B片段”的唯一主题就是主题1。
在确定该文本信息库中具有唯一主题的文本信息后,工作人员可以对这些唯一主题进行名称定义,在进行名称定义时,电子设备响应名称定义操作,对文本信息的唯一主题进行名称定义,唯一主题可以被定义的名称例如影视、新闻、体育、金融等。再根据具有唯一主题的文本信息中的动作词(例如看、搜索、学习等)进行文本信息的动作划分,得到具有唯一主题和该唯一主题下的唯一动作的文本信息。再以该文本信息库中每条具有唯一主题和唯一动作的文本信息构建得到该初始意图识别模型的训练语料库。构建该初始意图识别模型的训练语料库的框架例如图3所示,对唯一主题进行名称定义,如图3所示的影视、新闻、体育和金融为四个主题,每个主题下又有不同的动作,如“影视”主题下都有动作“搜索”、“学习”、“看/听”等。
基于该意图识别模型中具有主题的名称定义,步骤S220对应得可以理解为:将转换得到的文本信息输入至该意图识别模型中,以识别出该转换后的文本信息对应的唯一名称定义,以及识别出该转换后的文本信息对应的唯一名称定义下的唯一动作,得到该文本信息的意图信息。
在构建完该初始意图识别模型的训练语料库后,以该初始意图识别模型的训练语料库中的文本信息对该初始意图识别模型进行训练。可选的,在训练时,基于多任务学习的方式对该初始意图识别模型进行训练。即,在进行该初始意图识别模型的具体训练时,该训练语料库中属于不同主题的文本信息的意图识别任务一般作为不同任务来共同进行学习和训练。具体的,在训练时,基于该初始意图识别模型对该训练语料库中各主题对应的文本信息分别进行主题独有自注意力语义表征(Private-Transformer)和主题共享自注意力语义表征(Shared-Transformer)。基于该初始意图识别模型对该训练语料库中所有文本信息的主题独有自注意力语义表征和主题共享自注意力语义表征进行拼接,并对拼接了主题独有自注意力语义表征和主题共享自注意力语义表征的该所有文本信息中每条文本信息进行意图信息的识别训练,得到该意图识别模型。
请参考图4,采用Transformer作为encoder对该训练语料库中两条文本信息(图4为了表示清楚,以两条文本信息的自注意力表征和拼接为例,但并不表明方案中是每次处理两条文本信息)的embedding进行自注意力表征。针对该训练语料库中的每条文本信息(例如图4所示的Smple-M和Smple-N),首先经过如图4所示的主题共享自注意力语义表征(Shared-Transformer)和主题独有自注意力语义表征(Private-Transformer),将经过Shared-Transformer和Private-Transformer得到的两个表征向量进行拼接,经过全连接层和Softmax层输出每条文本信息的意图信息的识别训练。该全连接层用于基于文本信息拼接后的表征向量识别出文本信息的意图信息的分类和每类意图信息的概率得分,得到概率得分最高的意图信息为文本信息的唯一意图信息,该Softmax层用于进行模型输出的处理。
图4所示的Loss-m和Loss-n为意图识别训练后的损失,该初始意图识别模型根据意图识别训练后的不断优化更新,再基于该训练语料库进行意图识别训练,直到训练后得到的意图识别训练后的损失不再变化时完成该初始意图识别模型的训练,得到该意图识别模型。
现有的模型训练一般采用单任务学习的方式,即一次只学习一个任务,对于复杂的任务,也会分解为简单且相互独立的子任务来单独学习,然后再合并学习结果。这种单任务学习的方式忽略了任务之间具有相互关联的特点,所以模型训练的效果较差。而本实施例在进行该初始意图识别模型时采用多任务学习(主题独有自注意力表征加主题共享自注意力表征)的方式,在模型学习训练的过程中,充分考虑了任务之间相互关联的特点,使得该初始意图识别模型的学习和训练效果更佳。
可选的,在训练该初始意图识别模型时,还可以对训练中的该初始意图识别模型进行对抗训练,以根据对抗训练的结果对该初始意图识别模型的参数进行进一步得修改。对抗训练的方式例如在Transformer输入神经元(即embedding输出)上增加微小扰动,或者在Shared-Transformer的学习中增加对抗。对该初始意图识别模型进行对抗训练的示意图如图5所示,r-m代表扰动,该扰动例如具有多主题的文本信息。对该初始意图识别模型进行对抗训练可以增加该意图识别模型的鲁棒性,使得该意图识别模型的意图识别效果更佳。
具体的,在Transformer输入神经元(即embedding输出)上增加微小扰动的方式对该初始意图识别模型进行对抗训练时,需要先生成一个扰动r。在生成该扰动r时,需要使得扰动r在当前模型(该初始意图识别模型)参数下计算得到的损失最大。具体的损失计算方式如公式1和公式2所示。公式1:公式2:其中,rem代表扰动值,ε为步长,具有较小值的超参数,g代表损失梯度,‖g‖代表损失梯度的范数,θ代表该意图识别模型当前参数,p(y|x;θ)代表样本x(文本信息)在参数θ下模型预测的主题为y的概率。
然后,采用公式3计算每个样本在添加了扰动后的损失。公式3: 其中,Ladv(θ)代表基于扰动样本的损失,N为样本总数,rem,n代表公式1生成的扰动,sn+rem,n即为新的扰动样本,p(yn|sn+rem,n;θ)代表扰动样本sn+rem,n在参数θ下模型预测的主题为yn的概率。
在Shared-Transformer的学习中引入对抗机制来对模型进行对抗训练时,需要先学习Shared-Transformer表征网络。这里我们采用交互训练的方式,首先给定一个主题判别器,通过主题判别器预测样本所属主题,最后更新Transformer表征网络参数,使得该主题判别器的预测损失最大。其中,该主题判别器的预测损失为交叉熵损失,可以根据公式4计算得到。公式4:其中,Ladv-d(θ)代表主题判别器的损失,N为样本总数,,sn即为主题yn下的样本,p(yn|sn;θ)代表样本sn在判别器参数θ下预测的主题为yn的概率。
再根据Transformer表征网络输出,来更新主题判别器参数,使得该主题判别器的预测损失最小。
最后再基于公式5计算的损失更新Shared-Transformer和Private-Transformer表征网络,使得Shared-Transformer和Private-Transformer输出的两个向量之间的相关性损失最小。公式5:其中,M为主题数,Dm为m主题的样本集合,Fs(x)为shared-transformer的编码结果,为主题m的private-transformer的编码结果。
综上,本实施例提供一种语音交互中的意图识别方法,通过构建一个意图识别模型,对语音信息转换得到的文本信息进行唯一意图信息的识别。具体的,该意图识别模型对语音信息转换得到的文本信息进行唯一意图信息的识别。和现有技术中容易识别出文本信息的多个意图信息不同,本申请可以准确识别文本信息的唯一意图信息,以达到准确识别用户意图的目的。除此之外,本申请只建立了一个模型进行文本信息的意图识别,也避免了多个模型管理、部署和资源等方面代价高的问题。
请参见图6,本申请的一个实施例还提供一种语音交互中的意图识别装置10,该装置10包括:
语音处理模块11,用于接收语音信息,将该语音信息转换为文本信息。
意图识别模块12,用于将转换得到的文本信息输入至意图识别模型中,得到该文本信息的唯一意图信息;该唯一意图信息为该意图识别模型识别该文本信息后得到的多个意图信息中概率得分最高的意图信息。
该装置10还包括:
模型构建模块13,用于构建初始意图识别模型的训练语料库,该训练语料库中的每条文本信息具有唯一主题和该唯一主题下的唯一动作;以该初始意图识别模型的训练语料库中的文本信息对该初始意图识别模型进行训练,得到该意图识别模型。
该模型构建模块13具体用于使用文档主题生成模型对文本信息库中的每条文本信息分别标注N个主题,以及输出该N个主题中每个主题的概率得分,N等于文本信息中识别出的主题数量,N为大于或等于1的整数;将主题的概率得分大于预设概率得分的K个主题作为每条文本信息最终标注的主题,K为大于或等于1的整数,且K小于或等于N;当K大于1时,使用基于BERT语义表征的孤立森林算法检测文本信息是否为K个主题中第一主题的离群点;当文本信息为该第一主题的离群点时,从该K个主题中去除该第一主题的标注;当去除了该第一主题的标注后的文本信息被标注的主题数量仍大于1时,使用BERT相似度计算在各个主题下文本信息与非离群点之间的相似度均值,当在第二主题下文本信息与非离群点之间的相似度均值最大时,确定该第二主题为文本信息的唯一主题;根据具有唯一主题的文本信息中的动作词进行文本信息的动作划分,得到具有唯一主题和该唯一主题下的唯一动作的文本信息;以该文本信息库中每条具有唯一主题和唯一动作的文本信息构建得到该初始意图识别模型的训练语料库。
该模型构建模块13还用于响应名称定义操作,对文本信息的唯一主题进行名称定义。对应的,该意图识别模块12具体用于将该转换后的文本信息输入至该意图识别模型中,以识别出该转换后的文本信息对应的唯一名称定义,以及识别出该转换后的文本信息对应的唯一名称定义下的唯一动作,得到该文本信息的意图信息。
该模型构建模块13具体用于基于多任务学习的方式,以该初始意图识别模型的训练语料库中的文本信息对该初始意图识别模型训练,得到该意图识别模型。该模型构建模块13具体用于基于该初始意图识别模型对该训练语料库中各主题对应的文本信息分别进行主题独有自注意力语义表征和主题共享自注意力语义表征;基于该初始意图识别模型对该训练语料库中所有文本信息的主题独有自注意力语义表征和主题共享自注意力语义表征进行拼接,并对拼接了主题独有自注意力语义表征和主题共享自注意力语义表征的该所有文本信息中每条文本信息进行意图信息的识别训练,得到该意图识别模型。
该模型构建模块13还用于对训练中的该初始意图识别模型进行对抗训练。
请参见图7,本申请还提供一种电子设备20,包括处理器21以及与该处理器21通信连接的存储器22。该存储器22存储计算机执行指令。该处理器21执行该存储器22存储的计算机执行指令,以实现如以上任一项实施例提供的语音交互中的意图识别方法。
本申请还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机执行指令,当该指令被执行时,使得计算机执行指令被处理器执行时用于实现如上任一项实施例提供的该语音交互中的意图识别方法。
本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如上任一项实施例提供的该语音交互中的意图识别方法。
需要说明的是,上述计算机可读存储介质可以是只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-Only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、磁性随机存取存储器(Ferromagnetic Random Access Memory,FRAM)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(Compact Disc Read-Only Memory,CD-ROM)等存储器。也可以是包括上述存储器之一或任意组合的各种电子设备,如移动电话、计算机、平板设备、个人数字助理等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所描述的方法。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种语音交互中的意图识别方法,其特征在于,包括:
接收语音信息,将所述语音信息转换为文本信息;
将转换得到的文本信息输入至意图识别模型中,得到所述文本信息的唯一意图信息;
所述唯一意图信息为所述意图识别模型识别所述文本信息后得到的多个意图信息中概率得分最高的意图信息。
2.根据权利要求1所述的方法,其特征在于,还包括:
构建初始意图识别模型的训练语料库,所述训练语料库中的每条文本信息具有唯一主题和所述唯一主题下的唯一动作;
以所述初始意图识别模型的训练语料库中的文本信息对所述初始意图识别模型进行训练,得到所述意图识别模型。
3.根据权利要求2所述的方法,其特征在于,所述构建初始意图识别模型的训练语料库包括:
使用文档主题生成模型对文本信息库中的每条文本信息分别标注N个主题,以及输出所述N个主题中每个主题的概率得分,N等于文本信息中识别出的主题数量,N为大于或等于1的整数;
将主题的概率得分大于预设概率得分的K个主题作为每条文本信息最终标注的主题,K为大于或等于1的整数,且K小于或等于N;
当K大于1时,使用基于BERT语义表征的孤立森林算法检测文本信息是否为K个主题中第一主题的离群点;
当文本信息为所述第一主题的离群点时,从所述K个主题中去除所述第一主题的标注;
当去除了所述第一主题的标注后的文本信息被标注的主题数量仍大于1时,使用BERT相似度计算在各个主题下文本信息与非离群点之间的相似度均值,当在第二主题下文本信息与非离群点之间的相似度均值最大时,确定所述第二主题为文本信息的唯一主题;
根据具有唯一主题的文本信息中的动作词进行文本信息的动作划分,得到具有唯一主题和所述唯一主题下的唯一动作的文本信息;
以所述文本信息库中每条具有唯一主题和唯一动作的文本信息构建得到所述初始意图识别模型的训练语料库。
4.根据权利要求3所述的方法,其特征在于,还包括:
响应名称定义操作,对文本信息的唯一主题进行名称定义;
所述将转换得到的文本信息输入至意图识别模型中,得到所述转换得到的文本信息的唯一意图信息,包括:
将所述转换后的文本信息输入至所述意图识别模型中,以识别出所述转换后的文本信息对应的唯一名称定义,以及识别出所述转换后的文本信息对应的唯一名称定义下的唯一动作,得到所述文本信息的意图信息。
5.根据权利要求2所述的方法,其特征在于,所述以所述初始意图识别模型的训练语料库中的文本信息对所述初始意图识别模型进行训练,得到所述意图识别模型包括:
基于多任务学习的方式,以所述初始意图识别模型的训练语料库中的文本信息对所述初始意图识别模型训练,得到所述意图识别模型。
6.根据权利要求5所述的方法,其特征在于,所述基于多任务学习的方式,以所述初始意图识别模型的训练语料库中的文本信息对所述初始意图识别模型训练,得到所述意图识别模型包括:
基于所述初始意图识别模型对所述训练语料库中各主题对应的文本信息分别进行主题独有自注意力语义表征和主题共享自注意力语义表征;
基于所述初始意图识别模型对所述训练语料库中所有文本信息的主题独有自注意力语义表征和主题共享自注意力语义表征进行拼接,并对拼接了主题独有自注意力语义表征和主题共享自注意力语义表征的所述所有文本信息中每条文本信息进行意图信息的识别训练,得到所述意图识别模型。
7.根据权利要求5所述的方法,其特征在于,还包括:
对训练中的所述初始意图识别模型进行对抗训练。
8.一种语音交互中的意图识别装置,其特征在于,包括:
语音处理模块,用于接收语音信息,将所述语音信息转换为文本信息;
意图识别模块,用于将转换得到的文本信息输入至意图识别模型中,得到所述文本信息的唯一意图信息;所述唯一意图信息为所述意图识别模型识别所述文本信息后得到的多个意图信息中概率得分最高的意图信息。
9.一种电子设备,其特征在于,包括:处理器,以及与所述处理器通信连接的存储器;
所述存储器存储计算机执行指令;
所述处理器执行所述存储器存储的计算机执行指令,以实现如权利要求1至7中任一项所述的语音交互中的意图识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当所述指令被执行时,使得计算机执行如权利要求1-7中任一项所述的语音交互中的意图识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111370057.7A CN114220426A (zh) | 2021-11-18 | 2021-11-18 | 语音交互中的意图识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111370057.7A CN114220426A (zh) | 2021-11-18 | 2021-11-18 | 语音交互中的意图识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114220426A true CN114220426A (zh) | 2022-03-22 |
Family
ID=80697656
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111370057.7A Pending CN114220426A (zh) | 2021-11-18 | 2021-11-18 | 语音交互中的意图识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114220426A (zh) |
-
2021
- 2021-11-18 CN CN202111370057.7A patent/CN114220426A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20180061397A1 (en) | Speech recognition method and apparatus | |
WO2019218820A1 (zh) | 控制对象的确定方法及装置、存储介质、电子装置 | |
WO2022105861A1 (zh) | 用于识别语音的方法、装置、电子设备和介质 | |
US20220076674A1 (en) | Cross-device voiceprint recognition | |
CN113705315B (zh) | 视频处理方法、装置、设备及存储介质 | |
CN115080836A (zh) | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 | |
CN111930914A (zh) | 问题生成方法和装置、电子设备以及计算机可读存储介质 | |
CN112650842A (zh) | 基于人机交互的客服机器人意图识别方法及相关设备 | |
CN118043885A (zh) | 用于半监督语音识别的对比孪生网络 | |
CN115115984A (zh) | 视频数据处理方法、装置、程序产品、计算机设备和介质 | |
CN115273840A (zh) | 语音交互设备和语音交互方法 | |
CN117892237A (zh) | 一种基于超图神经网络的多模态对话情绪识别方法及系统 | |
CN116522905B (zh) | 文本纠错方法、装置、设备、可读存储介质及程序产品 | |
KR102196764B1 (ko) | 화자 분류 장치 및 화자 식별 장치 | |
US20230244878A1 (en) | Extracting conversational relationships based on speaker prediction and trigger word prediction | |
CN113314096A (zh) | 语音合成方法、装置、设备和存储介质 | |
CN117496984A (zh) | 目标对象的交互方法、装置、设备及可读存储介质 | |
CN114220426A (zh) | 语音交互中的意图识别方法和装置 | |
CN113360630B (zh) | 交互信息提示方法 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
CN113066473A (zh) | 一种语音合成方法、装置、存储介质及电子设备 | |
US20230410787A1 (en) | Speech processing system with encoder-decoder model and corresponding methods for synthesizing speech containing desired speaker identity and emotional style | |
US20230267934A1 (en) | Display apparatus and operating method thereof | |
JP7352491B2 (ja) | ユーザ周辺データに応じて雑談のような対話を進行させる対話装置、プログラム及び方法 | |
KR102648990B1 (ko) | 또래 학습 추천 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |