CN113822020B - 文本处理方法、设备、存储介质 - Google Patents

文本处理方法、设备、存储介质 Download PDF

Info

Publication number
CN113822020B
CN113822020B CN202111381627.2A CN202111381627A CN113822020B CN 113822020 B CN113822020 B CN 113822020B CN 202111381627 A CN202111381627 A CN 202111381627A CN 113822020 B CN113822020 B CN 113822020B
Authority
CN
China
Prior art keywords
text
features
character
processed
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111381627.2A
Other languages
English (en)
Other versions
CN113822020A (zh
Inventor
米良
黄海荣
李林峰
孔晓泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ecarx Hubei Tech Co Ltd
Original Assignee
Ecarx Hubei Tech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ecarx Hubei Tech Co Ltd filed Critical Ecarx Hubei Tech Co Ltd
Priority to CN202111381627.2A priority Critical patent/CN113822020B/zh
Publication of CN113822020A publication Critical patent/CN113822020A/zh
Application granted granted Critical
Publication of CN113822020B publication Critical patent/CN113822020B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例提供一种文本处理方法、设备、存储介质,将待处理文本输入目标拒识模型,通过目标拒识模型获取待处理文本中每个字符的字符特征和全局位置特征,并根据字符特征和全局位置特征输出待处理文本对应的分类结果。由于目标拒识模型是通过字符特征和全局位置特征训练得到的,其可以准确的获取待处理文本中各字符的含义,以及各字符在待处理文本中的位置关系,从而根据含义和位置关系准确的得出待处理文本所表达的含义,进而准确的推断待处理文本是否为拒识文本,保障人机交互的有效性和流畅性,提升交互体验。

Description

文本处理方法、设备、存储介质
技术领域
本申请实施例涉及人工智能技术领域,尤其涉及一种文本处理方法、设备、存储介质。
背景技术
在人机交互过程中,常常会由于噪声、识别错误、表述不清、无关闲聊等原因而产生无意义的语句,严重影响了人机交互的有效性和流畅性。
相关技术中,可以通过拒识技术来筛选出交互过程中有意义的语句,同时剔除无意义语句,即拒识文本,从而避免对无意义语句进行识别。
然而,实现本申请过程中,发明人发现现有技术中至少存在如下问题:目前的拒识技术通常只考虑语句中的文字字符的局部相关性,其识别出来的拒识文本的准确性较低。
发明内容
本申请实施例提供一种文本处理方法、设备、存储介质,以提高对拒识文本识别的准确性,提升语音交互体验。
第一方面,本申请实施例提供一种文本处理方法,包括:获取待处理文本,待处理文本中包含多个字符;
将待处理文本输入目标拒识模型,通过目标拒识模型获取待处理文本中每个字符的字符特征和全局位置特征 ,并根据字符特征和全局位置特征输出待处理文本对应的分类结果,分类结果用于指示待处理文本是否为拒识文本,目标拒识模型是通过样本拒识文本中字符的字符特征和全局位置特征对初始拒识模型进行训练得到的。
在一种可能的设计中,目标拒识模型包括输入层、字嵌入层和位置嵌入层;通过目标拒识模型获取待处理文本中每个字符的字符特征和全局位置特征,包括:通过输入层,获取待处理文本中各字符对应的独热编码;通过字嵌入层,基于各字符对应独热编码,获取各字符的基础字符特征作为字符特征,基础字符特征用于指示字符的含义;通过位置嵌入层,根据各字符对应独热编码,获取各字符的全局位置特征,全局位置特征用于指示字符在待处理文本中的顺序。
在一种可能的设计中,目标拒识模型还包括对抗嵌入层;通过字嵌入层获取待处理文本中每个字符的基础字符特征之后,还包括:通过对抗嵌入层,在各字符的基础字符特征中添加扰动特征,获得各字符的字符特征。在一种可能的设计中,
在一种可能的设计中,根据字符特征和全局位置特征输出待处理文本对应的分类结果,包括:根据字符特征和全局位置特征,获取待处理文本的文本特征;从文本特征中提取与待处理文本对应的信息特征;根据信息特征获得待处理文本的分类结果。
在一种可能的设计中,目标拒识模型还包括第一融合层;根据字符特征和全局位置特征,获取待处理文本的文本特征,包括:通过第一融合层,融合各字符对应的字符特征和全局位置特征,获得各字符对应的融合特征;根据各字符对应的融合特征,获得待处理文本的文本特征。
在一种可能的设计中,目标拒识模型还包括卷积层、最大池化层和第二融合层;从文本特征中提取与待处理文本对应的信息特征,包括:
通过卷积层,基于不同采样尺寸对待处理文本的文本特征进行特征提取,获得待处理文本在不同采样尺寸对应的目标特征;通过最大池化层,提取不同采样尺寸对应的目标特征中的最大值特征;通过第二融合层,融合不同采样尺寸对应的最大值特征,获得待处理文本的信息特征。
在一种可能的设计中,目标拒识模型还包括:最小池化层;通过最小池化层,提取不同采样尺寸对应的目标特征中的最小值特征;通过第二融合层,融合不同采样尺寸对应的最大值特征和最小值特征,获得待处理文本的信息特征。
在一种可能的设计中,目标拒识模型还包括全连接层和决策层;根据信息特征获得待处理文本的分类结果,包括:通过全连接层,基于信息特征,确定待处理文本为拒识文本的概率值;通过决策层,基于概率值和阈值概率,输出待处理文本对应的分类结果。
第二方面,本申请实施例提供一种文本处理设备,包括:
获取模块,用于获取待处理文本,待处理文本中包含多个字符;
处理模块,用于将待处理文本输入目标拒识模型,通过目标拒识模型获取待处理文本中每个字符的字符特征和全局位置特征,并根据字符特征和全局位置特征输出待处理文本对应的分类结果,分类结果用于指示待处理文本是否为拒识文本,目标拒识模型是通过样本拒识文本中字符的字符特征和全局位置特征对初始拒识模型进行训练得到的。
第三方面,本申请实施例提供一种电子设备,包括:至少一个处理器和存储器;
存储器存储计算机执行指令;至少一个处理器执行存储器存储的计算机执行指令,使得至少一个处理器执行如上第一方面以及第一方面各种可能的设计的文本处理方法。
第四方面,本申请实施例提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计的文本处理方法。
第五方面,本申请实施例提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时,实现如上第一方面以及第一方面各种可能的设计的文本处理方法。
本实施例提供的文本处理方法、设备、存储介质,获取待处理文本,待处理文本中包含多个字符;将待处理文本输入目标拒识模型,通过目标拒识模型获取待处理文本中每个字符的字符特征和全局位置特征,并根据字符特征和全局位置特征输出待处理文本对应的分类结果。在识别过程中,将待处理文本中各字符的全局位置特征作为输入特征进行识别,可以充分考虑各字符之间的相对位置关系,从而提升识别结果的准确性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的文本处理方法的场景示意图;
图2为本申请实施例提供的文本识别方法的流程示意图一;
图3为本申请实施例提供的文本识别方法的流程示意图二;
图4为本申请实施例提供的目标拒识模型的结构及原理示意图一;
图5为本申请实施例提供的目标拒识模型的结构及原理示意图二;
图6为本申请实施例提供的文本处理设备的结构示意图;
图7为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在人机交互过程中,常常会由于噪声、识别错误、表述不清、无关闲聊等原因而产生无意义的语句,严重影响了人机交互的有效性和流畅性。
相关技术中,可以通过拒识技术来筛选出交互过程中有意义的语句,同时剔除无意义语句,即拒识文本,从而避免对无意义语句进行识别。然而,经发明人研究发现,文本中各字符的顺序对文本含义有巨大影响,目前的拒识技术通常只考虑语句中的文字字符的局部相关性,其识别出来的拒识文本的准确性较低,严重影响用户体验。
针对上述问题,本公开实施例提供了一种文本处理方法,通过字符特征和全局位置特征训练得到的目标拒识模型对待处理文本进行识别,可以准确的获取各字符的含义以及各字符在待处理文本中的位置关系,以准确的获得待处理文本所表达的含义,进而准确的判断文本是否为拒识文本,保障人机交互的有效性和流畅性,提升用户体验。
图1为本申请实施例提供的文本处理方法的场景示意图。如图1所示,该场景中包括终端101。
其中,终端101可以是个人数字处理(personal digital assistant,简称PDA)设备、具有无线通信功能的手持设备(例如智能手机、平板电脑、个人电脑(personalcomputer,简称PC))、车载设备、可穿戴设备(例如智能手表、智能手环)、智能家居设备(例如智能显示设备)等。
示例性的,该电子设备可以设置在无人驾驶车辆上。
在一些实施例中,可以在终端101输入文本数据或者语音数据,由终端101获取文本数据或者语音数据中的待处理文本,并确定待处理文本是否为拒识文本。
在另一些实施例中,该场景中还可以包括服务器102,其中,服务器102与终端设备101通过网络进行通信,在终端101获得文本数据或语音数据之后,终端101通过网络将文本数据或语音数据发送给服务器102,由服务器102来获取当中的待处理文本,并确定待处理文本是否为拒识文本。
应理解,服务器102可以为单个服务器,也可以为服务器集群,可以为分布式服务器,也可以为集中式服务器,还可以为云服务器,本公开实施例不做限定。
需要说明是,上述应用场景仅是为了便于理解本公开的精神和原理而示出,本公开的实施方式在此方面不受任何限制。相反,本公开的实施方式可以应用于适用的任何场景。
接下来,以具体地实施例对本申请的技术方案进行详细说明,下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。应理解,本申请的实施例适用的执行设备为计算设备,如上述的终端101或者服务器102。
图2为本申请实施例提供的文本识别方法的流程示意图一。如图2所示,本申请实施例提供的文本识别方法包括如下步骤:
S201、获取待处理文本。
待处理文本中包含多个字符。
应当理解的是,根据应用场景的不同,待处理文本的获取方式也不同。示例性的,若当前为语音交互场景,则需要对对接收到的语音数据进行文本提取,从而确定语音数据对应的文本为待处理文本。
S202、将待处理文本输入目标拒识模型,通过目标拒识模型获取待处理文本中每个字符的字符特征和全局位置特征,并根据字符特征和全局位置特征输出待处理文本对应的分类结果。
其中,分类结果用于指示待处理文本是否为拒识文本,目标拒识模型是通过样本拒识文本中字符的字符特征和全局位置特征对初始拒识模型进行训练得到的。
一些实施例中,字符特征用于指示字符的含义,全局位置特征用于指示每个字符在待处理文本中的位置。目标拒识模型在获取字符的全局位置特征时,会根据待处理文本的字符数量,以及每个字符在待处理文本中的顺序,对每个字符进行编号,以获得各字符的全局位置特征。
示例性的,以待处理文本为“放一首ABC的×××”为例(其中,“ABC”为歌手名,“×××”为歌曲名),此待处理文本中共包含10个字符,则待处理文本中的10个字符对应的全局位置特征为[0,1,2,3,4,5,6,7,8,9]。
本申请实施例中,由于目标拒识模型是通过字符特征和全局位置特征训练得到的,其可以准确的获取待处理文本中各字符的含义,以及各字符在待处理文本中的位置关系,以根据含义和位置关系准确的得出待处理文本所表达的含义,进而准确的推断待处理文本是否为拒识文本,保障人机交互的有效性和流畅性,提升用户体验。
图3为本申请实施例提供的文本识别方法的流程示意图二。在图3所示实施例的基础上,结合本实施例对本申请的方案进行更详细的说明。如图3所示,本申请实施例提供的文本识别方法包括如下步骤:
S301、获取待处理文本。
S302、将待处理文本输入目标拒识模型,通过目标拒识模型获取待处理文本中每个字符的字符特征和全局位置特征。
接下来,结合目标拒识模型的结构,对本申请提供的文本处理方法进行具体说明。
图4为本申请实施例提供的目标拒识模型的结构及原理示意图一。如图4所示,目标拒识模型包括输入层、字嵌入层和位置嵌入层。
首先,通过输入层,获取待处理文本中各字符对应的独热编码(one-hot编码)。
具体的,仍以待处理文本为“放一首ABC的×××”为例,将待处理文本输入至该输入层,通过该输入层获得每个字符对应的索引号(也即独热编码),从而得到由各字符的独热编码组成的数组。
一些实施例中,数组的长度可以为待处理文本的字符数量,即本示例中,独热编码组成的数组的长度为10。
另一些实施例中,数组长度可以为预设长度,其中,预设长度为一句话中包含字符数量的极限值。
示例性的,通常情况下,用户一次讲话一般会少于70个字符,即输出层获得的待处理文本对应的数组共包含70个独热编码,其中,该数组中的前10个独热编码为待处理文本的字符对应的独热编码,其余部分可以为无意义的独热编码,例如,以独热编码的字典中共包含6000个字符为例,可以采用6001、6002等编码来表示其余部分的字符。
进一步的,通过字嵌入层(Vocab Embedding),基于各字符对应独热编码,获取各字符的基础字符特征作为字符特征,其中,基础字符特征用于指示字符的含义。
在一些实施例中,字符特征为N维浮点数据,每个N维浮点数据用于表示对应字符的含义。本步骤中,将待处理文本对应的独热编码数组输入至字嵌入层,通过该字嵌入层,获得每个字符对应的N维浮点数据,也即每个字符均用N个元素的一维数组表示。
在上述示例中,包含70个独热编码的数组经过字嵌入层,输出[70,N]的矩阵为待处理文本对应的字符特征,其中,矩阵中每个元素为一个字符的浮点数。
应当理解的是,对于N的大小,本申请实施例不做具体限定,示例性的,N可以为32。
进一步的,通过位置嵌入层,根据各字符对应独热编码,获取各字符的全局位置特征,全局位置特征用于指示字符在待处理文本中的顺序。
具体的,本步骤中,将待处理文本对应的独热编码数组输入至位置嵌入层,通过位置嵌入层根据每个字符在待处理文本中的顺序,获得每个字符对应的位置序号,从而确定各字符的位置序号为各字符的全局位置特征。
示例性的,仍以待处理文本为“放一首ABC的×××”,数组长度为70为例,此待处理文本对应的全局位置特征为[0,1,2,3,4,5,6,7,8,9…68,69],其中,0~9分别为待处理文本中各字符的全局位置特征,10~69分别为无意义字符对应的全局位置特征。
S303、根据字符特征和全局位置特征,获取待处理文本的文本特征。
在一些实施例中,目标拒识模型还包括如图4所示的第一融合层。在获得各字符的字符特征和全局位置特征之后,通过第一融合层,融合各字符对应的字符特征和全局位置特征,获得各字符对应的融合特征。其中,每个融合特征用于表示每个字符的字符特征和全局位置特征。
进一步的,根据各字符对应的融合特征,获得待处理文本的文本特征。
仍以上述为例,当N为32时,经过融合,每个字符对应的融合特征为[1,32]的矩阵,该待处理文本对应的独热编码数组包含70个独热编码,通过融合,获得的待处理文本的文本特征为[70,32]的矩阵。
S304、从文本特征中提取与待处理文本对应的信息特征。
其中,待处理文本对应的信息特征是通过不同的采样尺寸对待处理文本中各字符的文本特征进行采样获得的,待处理文本对应的信息特征用于指示待处理文本的意图信息。
由于文本特征中包括各字符的字符特征和全局位置特征,通过不同的采样尺寸对文本特征进行采样,获得的信息特征可以准确的表达待处理文本的意图,从而提升拒识文本识别结果的准确性。
接下来,继续结合图4所示的目标拒识模型,对步骤S304中获得待处理文本对应的信息特征的方案进行详细说明。
如图4所示,目标拒识模型还包括:卷积层、最大池化层和第二融合层。
首先,通过卷积层,基于不同采样尺寸对待处理文本的文本特征进行特征提取,获得待处理文本在不同采样尺寸对应的目标特征。
其中,卷积层中包含多个不同尺寸的卷积核,每个卷积核用于基于其对应的采样尺寸,把某些特征放大并提取出来。示例性的,采样尺寸可以为3字符、4字符、5字符等尺寸,即把连续的3个字符、4个字符、5个字符作为感兴趣的特征,提取出来供后面处理,由此可以把3~5个字符作为整体来看待,若这个整体是词语或短语就当成整体考虑,如果都是单字,则考虑它们的前后关系。
仍以待处理文本为“放一首ABC的×××”为例,以卷积层的采样尺寸包括:3字符、4字符和5字符为例,当采样尺寸为3字符时,每三个字符作为一个感兴趣特征,获得的目标特征分别为“放一首”、“一首A”、“首AB”、“ABC”、“BC的”、“C的×”、“的××”、“×××”对应的特征;当采样尺寸为4字符时,每四个字符作为一个感兴趣特征,获得的目标特征分别为“放一首A”、“一首AB”、“首ABC”、“ABC的”、“BC的×”、“C的××”、“的×××”对应的特征;当采样尺寸为5字符时,每5个字符作为一个感兴趣特征,获得的目标特征分别为“放一首AB”、“一首ABC”、“首ABC的”、“ABC的×”、“BC的××”、“C的×××”对应的特征。
本申请实施例中,卷积层的输入是上述第一融合层输出的矩阵,卷积层的输出也是一个矩阵,该矩阵的大小和卷积核的大小相关,例如,3个字符长度特征提取对应卷积核为[3,32],则卷积以后输出的目标特征为[68,1]的矩阵;4个字符长度特征提取对应卷积核为[4,32],则卷积以后输出的目标特征为[67,1]的矩阵;5个字符长度特征提取对应卷积核[5,32],则卷积以后输出的目标特征为[66,1]的矩阵。
一些实施例中,每个尺寸的卷积核有多个,例如可以为128个,也就是说,本申请实施例提供的卷积层共包含3*128个卷积核。通过该卷积层,获得的目标特征为[68,128]、[67,128]、[66,128]的矩阵。
本申请实施例中,通过设置卷积层,可以忽略待处理文本中的大部分特征,从而提取感兴趣特征,以准确获取待处理文本的意图,另外,由于设置了不同的采样尺寸来获取不同感受野的目标特征,可以多维度的充分挖掘待处理文本的特征,从而进一步提升分类结果的准确性。
进一步的,通过最大池化层,提取不同采样尺寸对应的目标特征中的最大值特征。
其中,最大池化层的作用是忽略目标特征中不重要的特性,只考虑最重要的特征,相应采取的手段是“下采样”,所谓“下采样”就是找出卷积层输出的矩阵中的最大的值,用该最大值特征替代整个矩阵。
本申请实施例中,卷积层中的每一个卷积核后面接一个最大池化层,通过该最大池化层,获取对应卷积核输出的目标矩阵中的最大值特征。
仍以上为例,以目标特征包括[68,128]、[67,128]、[66,128]为例,分别采用68、67、66的池化尺寸,对目标特征进行最大池化处理,输出的最大特征值分别为[1,128]、[1,128]、[1,128]的矩阵。
最后,通过第二融合层,融合不同采样尺寸对应的最大值特征,获得待处理文本的信息特征。
具体的,通过第二融合层,将多个最大池化层输出的数据进行组合得到一个大的一维数组,作为待处理文本的信息特征。仍以上述为例,组成的一维数组为[1,384],也即待处理文本的信息特征为[1,384]的矩阵。
其中,数组中每个元素都是一个浮点数。
S305、根据信息特征获得待处理文本的分类结果。
请继续参考图4,如图4所示,目标拒识模型还包括:全连接层和决策层。
首先,通过全连接层,基于信息特征,确定待处理文本为拒识文本的概率值。
具体的,全连接层基于如下公式,获得待处理文本为拒识文本的概率值:
Y = X * W + B
其中,X是输入的信息特征[1,K];W是目标拒识模型的权重矩阵,其维度为[K,M];B是偏置,其为一维数组[M];Y为全连接层输出的概率矩阵。
需要说明的是,Y的维度与目标拒识模型的分类类别(训练时的噪声类别)有关,示例性的,若共包含M个类别的噪声,则Y的维度为[1,M],用于表示待处理文本映射到M个噪声类别的概率。
其中,每个维度的概率值均为一个浮点数。
进一步的,通过决策层,基于概率值和阈值概率,输出待处理文本对应的分类结果。
可以理解的是,由于目标拒识模型用于识别待处理文本是否为拒识文本,其属于二分类问题,因此,M的值为1,也就是说,全连接层输出为[1,1]的矩阵,该矩阵用于指示待处理文本映射到拒识文本的概率。
因此,若待处理文本为拒识文本,则全连接层输出的概率值越趋近于0,若待处理文本为非拒识文本,则全连接层输出的概率值越趋近于1。
需要说明的是,本申请实施例对于阈值概率的大小不做具体限定,示例性的,以阈值概率为0.6为例,若全连接层输出的概率值大于0.6,则说明待处理文本为非拒识文本,若全连接层输出的概率值小于或等于0.6,则说明待处理文本为拒识文本。
一些实施例中,决策层可以采用sigmoid二分类决策函数。
图5为本申请实施例提供的目标拒识模型的结构及原理示意图二。如图5所示,目标拒识模型还包括对抗嵌入层。
其中,对抗嵌入层连接在字嵌入层之后,用于在字嵌入层输出的各字符的基础字符特征中添加扰动特征,获得各字符的字符特征。
本申请实施例中,通过设置对抗嵌入层,可以向字嵌入层中引入来自损失梯度方向的微量扰动,以提升字嵌入层的鲁棒性,从而获得更加准确的字符特征,提升待处理文本对应的分类结果的准确性,保障交互过程中的有效性和流畅性,提升交互体验。
在一些实施例中,目标拒识模型还包括最小池化层。如图5所示,该最小池化层连接在卷积层之后,用于提取不同采样尺寸对应的目标特征中的最小值特征,从而从目标特征中忽略不重要的特性,只考虑最重要的特征。
本申请实施例中,卷积层中的每一个卷积核后面接一个最小池化层,通过该最小池化层,获取对应卷积核输出的目标矩阵中的最小值特征。仍以上为例,以目标特征包括[68,128]、[67,128]、[66,128]为例,分别采用68、67、66的池化尺寸,对目标特征进行最小池化处理,输出的最小特征值分别为[1,128]、[1,128]、[1,128]的矩阵。
进一步的,在获得最小值特征之后,还需要通过第二融合层,融合不同采样尺寸对应的最大值特征和最小值特征,获得待处理文本的信息特征。
本申请实施例中,由于目标拒识模型的决策层采用的是二分类决策函数,全连接层输出的概率值大小为0到1之间,通过目标拒识模型得到的非拒识文本的概率值趋近于1,拒识文本的概率值趋近于0,当拒识文本中含有与非拒识文本中相同的关键字时,若仅采用最大池化层,很容易将其分类为非拒识文本。例如,待处理文本为“导航到北京宣武门附近”为非拒识文本,“导航杀得快乐哈客户端非对话框”为拒识文本本,通过目标拒识模型,提取到的最大特征可能是导航相关的字符,很有可能将其识别为非拒识样本,从而对该非拒识文本进行了正常识别,降低交互的流畅性和效率。
本申请实施例中,通过设置最小池化层,可以充分提取待处理文本中的其他字符的特征,进一步提升目标拒识模型的准确性,保障交互过程中的有效性和流畅性,提升交互体验。
图6为本申请实施例提供的文本处理设备的结构示意图。如图6所示,该文本处理设备600包括:获取模块601和处理模块602。
其中,获取模块601,用于获取待处理文本,待处理文本中包含多个字符;
处理模块602,用于将待处理文本输入目标拒识模型,通过目标拒识模型获取待处理文本中每个字符的字符特征和全局位置特征,并根据字符特征和全局位置特征输出待处理文本对应的分类结果,分类结果用于指示待处理文本是否为拒识文本,目标拒识模型是通过样本拒识文本中字符的字符特征和全局位置特征对初始拒识模型进行训练得到的。
在一种可能的设计中,目标拒识模型包括输入层、字嵌入层和位置嵌入层;处理模块602具体用于:通过输入层,获取待处理文本中各字符对应的独热编码;通过字嵌入层,基于各字符对应独热编码,获取各字符的基础字符特征作为字符特征,基础字符特征用于指示字符的含义;通过位置嵌入层,根据各字符对应独热编码,获取各字符的全局位置特征,全局位置特征用于指示字符在待处理文本中的顺序。
在一种可能的设计中,目标拒识模型还包括对抗嵌入层;处理模块602还用于:通过对抗嵌入层,在各字符的基础字符特征中添加扰动特征,获得各字符的字符特征。
在一种可能的设计中,处理模块602具体用于:根据字符特征和全局位置特征,获取待处理文本的文本特征;从文本特征中提取与待处理文本对应的信息特征;根据信息特征获得待处理文本的分类结果。
在一种可能的设计中,目标拒识模型还包括第一融合层;处理模块602具体用于:通过第一融合层,融合各字符对应的字符特征和全局位置特征,获得各字符对应的融合特征;根据各字符对应的融合特征,获得待处理文本的文本特征。
在一种可能的设计中,目标拒识模型还包括卷积层、最大池化层和第二融合层;处理模块602具体用于:通过卷积层,基于不同采样尺寸对待处理文本的文本特征进行特征提取,获得待处理文本在不同采样尺寸对应的目标特征;通过最大池化层,提取不同采样尺寸对应的目标特征中的最大值特征;通过第二融合层,融合不同采样尺寸对应的最大值特征,获得待处理文本的信息特征。
在一种可能的设计中,目标拒识模型还包括:最小池化层;处理模块602还用于:通过最小池化层,提取不同采样尺寸对应的目标特征中的最小值特征;通过第二融合层,融合不同采样尺寸对应的最大值特征和最小值特征,获得待处理文本的信息特征。
在一种可能的设计中,目标拒识模型还包括全连接层和决策层;处理模块602具体用于:通过全连接层,基于信息特征,确定待处理文本为拒识文本的概率值;通过决策层,基于概率值和阈值概率,输出待处理文本对应的分类结果。
本申请实施例提供的文本处理设备,可用于执行上述的方法实施例,其实现原理和技术效果类似,本实施例此处不再赘述。
图7为本申请实施例提供的电子设备的结构示意图。该电子设备可以为终端或者服务器,终端例如是计算机、平板设备和车机系统等,一些实施例中,该电子设备可以设置在无人驾驶车辆上。
如图7所示,电子设备700可以包括以下一个或多个组件:处理组件701,存储器702,电源组件703,多媒体组件704,音频组件705,输入/输出(I/ O)接口706,传感器组件707,以及通信组件708。
处理组件701通常控制电子设备700的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件701可以包括一个或多个处理器709来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件701可以包括一个或多个模块,便于处理组件701和其他组件之间的交互。例如,处理组件701可以包括多媒体模块,以方便多媒体组件704和处理组件701之间的交互。
存储器702被配置为存储各种类型的数据以支持在电子设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件703为电子设备700的各种组件提供电力。电源组件703可以包括电源管理系统,一个或多个电源,及其他与为电子设备700生成、管理和分配电力相关联的组件。
多媒体组件704包括在电子设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件704包括一个前置摄像头和/或后置摄像头。当电子设备700处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件705被配置为输出和/或输入音频信号。例如,音频组件705包括一个麦克风(MIC),当电子设备700处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或经由通信组件708发送。在一些实施例中,音频组件705还包括一个扬声器,用于输出音频信号。
I/ O接口706为处理组件701和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件707包括一个或多个传感器,用于为电子设备700提供各个方面的状态评估。例如,传感器组件707可以检测到电子设备700的打开/关闭状态,组件的相对定位,例如组件为电子设备700的显示器和小键盘,传感器组件707还可以检测电子设备700或电子设备700一个组件的位置改变,用户与电子设备700接触的存在或不存在,电子设备700方位或加速/减速和电子设备700的温度变化。传感器组件707可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件707还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件707还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件708被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件708经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,通信组件708还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器702,上述指令可由电子设备700的处理器709执行以完成上述方法。例如,非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
上述的计算机可读存储介质,上述可读存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。可读存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific IntegratedCircuits,简称:ASIC)中。当然,处理器和可读存储介质也可以作为分立组件存在于设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例还提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时,实现如上文本处理设备执行的文本处理方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (6)

1.一种文本处理方法,其特征在于,包括:
获取待处理文本,所述待处理文本中包含多个字符;
将所述待处理文本输入目标拒识模型,通过所述目标拒识模型获取所述待处理文本中每个字符的字符特征和全局位置特征,并根据所述字符特征和所述全局位置特征输出所述待处理文本对应的分类结果,所述分类结果用于指示所述待处理文本是否为拒识文本,所述目标拒识模型是通过样本拒识文本中字符的字符特征和全局位置特征对初始拒识模型进行训练得到的;
所述目标拒识模型包括卷积层、最大池化层、最小池化层和第二融合层;
所述根据所述字符特征和所述全局位置特征输出所述待处理文本对应的分类结果,包括:
根据所述字符特征和所述全局位置特征,获取所述待处理文本的文本特征;通过所述卷积层,基于不同采样尺寸对所述待处理文本的文本特征进行特征提取,获得所述待处理文本在不同采样尺寸对应的目标特征;通过所述最大池化层,提取不同采样尺寸对应的目标特征中的最大值特征;通过所述最小池化层,提取不同采样尺寸对应的目标特征中的最小值特征;通过所述第二融合层,融合不同采样尺寸对应的最大值特征以及最小值特征,获得所述待处理文本的信息特征;根据所述信息特征获得所述待处理文本的分类结果;
所述目标拒识模型包括输入层、字嵌入层、位置嵌入层和对抗嵌入层;
所述通过所述目标拒识模型获取所述待处理文本中每个字符的字符特征和全局位置特征,包括:
通过所述输入层,获取所述待处理文本中各字符对应的独热编码;
通过所述字嵌入层,基于各所述字符对应独热编码,获取各所述字符的基础字符特征作为所述字符特征,所述基础字符特征用于指示字符的含义;
通过所述位置嵌入层,根据各所述字符对应独热编码,获取各所述字符的全局位置特征,所述全局位置特征用于指示字符在所述待处理文本中的顺序;
在通过所述字嵌入层获取所述待处理文本中每个字符的基础字符特征之后,还包括:通过对抗嵌入层,在各字符的基础字符特征中添加扰动特征,获得各字符的字符特征。
2.根据权利要求1所述的文本处理方法,其特征在于,所述目标拒识模型还包括第一融合层;
所述根据字符特征和所述全局位置特征,获取所述待处理文本的文本特征,包括:
通过所述第一融合层,融合各所述字符对应的字符特征和全局位置特征,获得各所述字符对应的融合特征;
根据各所述字符对应的融合特征,获得所述待处理文本的文本特征。
3.根据权利要求2所述的文本处理方法,其特征在于,所述目标拒识模型还包括全连接层和决策层;
所述根据所述信息特征获得所述待处理文本的分类结果,包括:
通过所述全连接层,基于所述信息特征,确定所述待处理文本为拒识文本的概率值;
通过所述决策层,基于所述概率值和阈值概率,输出所述待处理文本对应的分类结果。
4.一种文本处理设备,其特征在于,包括:
获取模块,用于获取待处理文本,所述待处理文本中包含多个字符;
处理模块,用于将所述待处理文本输入目标拒识模型,通过所述目标拒识模型获取所述待处理文本中每个字符的字符特征和全局位置特征,并根据所述字符特征和所述全局位置特征输出所述待处理文本对应的分类结果,所述分类结果用于指示所述待处理文本是否为拒识文本,所述目标拒识模型是通过样本拒识文本中字符的字符特征和全局位置特征对初始拒识模型进行训练得到的;
所述目标拒识模型包括卷积层、最大池化层、最小池化层和第二融合层;
所述处理模块具体用于:根据所述字符特征和所述全局位置特征,获取所述待处理文本的文本特征;通过所述卷积层,基于不同采样尺寸对所述待处理文本的文本特征进行特征提取,获得所述待处理文本在不同采样尺寸对应的目标特征;通过所述最大池化层,提取不同采样尺寸对应的目标特征中的最大值特征;通过所述最小池化层,提取不同采样尺寸对应的目标特征中的最小值特征;通过所述第二融合层,融合不同采样尺寸对应的最大值特征以及最小值特征,获得所述待处理文本的信息特征;根据所述信息特征获得所述待处理文本的分类结果;
所述目标拒识模型包括输入层、字嵌入层、位置嵌入层和对抗嵌入层;
所述通过所述目标拒识模型获取所述待处理文本中每个字符的字符特征和全局位置特征,包括:
通过所述输入层,获取所述待处理文本中各字符对应的独热编码;
通过所述字嵌入层,基于各所述字符对应独热编码,获取各所述字符的基础字符特征作为所述字符特征,所述基础字符特征用于指示字符的含义;
通过所述位置嵌入层,根据各所述字符对应独热编码,获取各所述字符的全局位置特征,所述全局位置特征用于指示字符在所述待处理文本中的顺序;
在通过所述字嵌入层获取所述待处理文本中每个字符的基础字符特征之后,还包括:通过对抗嵌入层,在各字符的基础字符特征中添加扰动特征,获得各字符的字符特征。
5.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至3任一项所述的文本处理方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至3任一项所述的文本处理方法。
CN202111381627.2A 2021-11-22 2021-11-22 文本处理方法、设备、存储介质 Active CN113822020B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111381627.2A CN113822020B (zh) 2021-11-22 2021-11-22 文本处理方法、设备、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111381627.2A CN113822020B (zh) 2021-11-22 2021-11-22 文本处理方法、设备、存储介质

Publications (2)

Publication Number Publication Date
CN113822020A CN113822020A (zh) 2021-12-21
CN113822020B true CN113822020B (zh) 2022-07-08

Family

ID=78919397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111381627.2A Active CN113822020B (zh) 2021-11-22 2021-11-22 文本处理方法、设备、存储介质

Country Status (1)

Country Link
CN (1) CN113822020B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100051214A (ko) * 2008-11-07 2010-05-17 주식회사 씨에스 화자 독립 음성 인식 처리 방법
CN107665708A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 智能语音交互方法及系统
CN111583919A (zh) * 2020-04-15 2020-08-25 北京小米松果电子有限公司 信息处理方法、装置及存储介质
CN113326351A (zh) * 2021-06-17 2021-08-31 湖北亿咖通科技有限公司 一种用户意图确定方法及装置
CN113571052A (zh) * 2021-07-22 2021-10-29 湖北亿咖通科技有限公司 一种噪声提取及指令识别方法和电子设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110442840B (zh) * 2019-07-11 2022-12-09 新华三大数据技术有限公司 序列标注网络更新方法、电子病历处理方法及相关装置
CN110570853A (zh) * 2019-08-12 2019-12-13 阿里巴巴集团控股有限公司 基于语音数据的意图识别方法和装置
CN112749561B (zh) * 2020-04-17 2023-11-03 腾讯科技(深圳)有限公司 一种实体识别方法及设备
CN113221580B (zh) * 2021-07-08 2021-10-12 广州小鹏汽车科技有限公司 语义拒识方法、语义拒识装置、交通工具及介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100051214A (ko) * 2008-11-07 2010-05-17 주식회사 씨에스 화자 독립 음성 인식 처리 방법
CN107665708A (zh) * 2016-07-29 2018-02-06 科大讯飞股份有限公司 智能语音交互方法及系统
CN111583919A (zh) * 2020-04-15 2020-08-25 北京小米松果电子有限公司 信息处理方法、装置及存储介质
CN113326351A (zh) * 2021-06-17 2021-08-31 湖北亿咖通科技有限公司 一种用户意图确定方法及装置
CN113571052A (zh) * 2021-07-22 2021-10-29 湖北亿咖通科技有限公司 一种噪声提取及指令识别方法和电子设备

Also Published As

Publication number Publication date
CN113822020A (zh) 2021-12-21

Similar Documents

Publication Publication Date Title
CN109522424B (zh) 数据的处理方法、装置、电子设备及存储介质
CN108038103B (zh) 一种对文本序列进行分词的方法、装置和电子设备
CN107491541B (zh) 文本分类方法及装置
US20210232847A1 (en) Method and apparatus for recognizing text sequence, and storage medium
CN111524521B (zh) 声纹提取模型训练方法和声纹识别方法、及其装置和介质
CN111539443B (zh) 一种图像识别模型训练方法及装置、存储介质
CN109615006B (zh) 文字识别方法及装置、电子设备和存储介质
CN113792207B (zh) 一种基于多层次特征表示对齐的跨模态检索方法
CN110781813B (zh) 图像识别方法及装置、电子设备和存储介质
CN110874145A (zh) 一种输入方法、装置及电子设备
KR20210094445A (ko) 정보 처리 방법, 장치 및 저장 매체
CN109558599B (zh) 一种转换方法、装置和电子设备
CN110781323A (zh) 多媒体资源的标签确定方法、装置、电子设备及存储介质
CN111814538B (zh) 目标对象的类别识别方法、装置、电子设备及存储介质
CN111160047A (zh) 一种数据处理方法、装置和用于数据处理的装置
CN111753917A (zh) 数据处理方法、装置及存储介质
CN111368161B (zh) 一种搜索意图的识别方法、意图识别模型训练方法和装置
CN111538998B (zh) 文本定密方法和装置、电子设备及计算机可读存储介质
CN111984765B (zh) 知识库问答过程关系检测方法及装置
CN113822020B (zh) 文本处理方法、设备、存储介质
CN112784700B (zh) 人脸图像显示的方法、装置及存储介质
CN114842404A (zh) 时序动作提名的生成方法及装置、电子设备和存储介质
CN112149653B (zh) 信息处理方法、装置、电子设备及存储介质
CN113807540A (zh) 一种数据处理方法及装置
CN114154485A (zh) 一种文本纠错方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220402

Address after: 430051 No. b1336, chuanggu startup area, taizihu cultural Digital Creative Industry Park, No. 18, Shenlong Avenue, Wuhan Economic and Technological Development Zone, Wuhan, Hubei Province

Applicant after: Yikatong (Hubei) Technology Co.,Ltd.

Address before: 430056 building B, building 7, Qidi Xiexin science and Innovation Park, South Taizi Lake innovation Valley, Wuhan Economic and Technological Development Zone, Wuhan City, Hubei Province (qdxx-f7b)

Applicant before: HUBEI ECARX TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant