CN117236320A - 文本信息的识别方法和装置、存储介质和电子装置 - Google Patents

文本信息的识别方法和装置、存储介质和电子装置 Download PDF

Info

Publication number
CN117236320A
CN117236320A CN202210631680.1A CN202210631680A CN117236320A CN 117236320 A CN117236320 A CN 117236320A CN 202210631680 A CN202210631680 A CN 202210631680A CN 117236320 A CN117236320 A CN 117236320A
Authority
CN
China
Prior art keywords
text
identified
model
target
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210631680.1A
Other languages
English (en)
Inventor
孙树兵
苑春明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Original Assignee
Qingdao Haier Technology Co Ltd
Haier Smart Home Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Haier Technology Co Ltd, Haier Smart Home Co Ltd filed Critical Qingdao Haier Technology Co Ltd
Priority to CN202210631680.1A priority Critical patent/CN117236320A/zh
Priority to PCT/CN2022/099876 priority patent/WO2023236246A1/zh
Publication of CN117236320A publication Critical patent/CN117236320A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本申请公开了一种文本信息的识别方法和装置、存储介质和电子装置,涉及智能家居技术领域,其中,该方法包括:获取待识别文本,其中,待识别文本包含至少一个待识别文本单元;通过目标识别模型的嵌入层对每个待识别文本单元进行向量化处理,得到与待识别文本对应的第一文本向量,其中,向量化处理包含哈希编码;将第一文本向量输入到目标识别模型的目标模型结构,得到目标模型结构输出的文本识别结果,其中,目标模型结构是目标识别模型中位于嵌入层之后的模型结构,通过本申请,解决了相关技术中的文本信息的识别方法存在由于模型的嵌入层参数量过大导致的识别模型的运行效率低的问题。

Description

文本信息的识别方法和装置、存储介质和电子装置
技术领域
本申请涉及自然语言处理领域,具体而言,涉及一种文本信息的识别方法和装置、存储介质和电子装置。
背景技术
在自然语言处理领域中,通常会涉及对短文本的意图识别、槽位提取等模型。在使用这些模型进行处理短文本时,由于模型的嵌入层的参数量(例如,字表或者词表的数量)较大,使得整个模型的体积大,导致模型推理的时间长,且占用的内存空间大。
目前,对于文本识别模型,可以通过因式分解的方式,对嵌入层进行压缩,并使用了投影线性层的方式将低维度的嵌入层投射到更高的维度,以此来减少嵌入层的参数量,提高模型的推理速度。
然而,将文本识别模型部署到手机或者其他边沿计算设备(例如,智能家电)时,由于文本识别模型嵌入层的参数量对于这些设备而言过于庞大,需要占用设备的大量内存来进行推理,即使采用因式分解的方式压缩了嵌入层的参数,也不能达到让文本识别模型在这些设备上流畅运行的条件,导致在这些设备上运行文本识别模型时推理时间长,内存占用大,运行效率低下。
也就是说,相关技术中的文本信息的识别方法,存在由于模型的嵌入层参数量过大导致的识别模型的运行效率低的问题。
发明内容
本申请实施例提供了一种文本信息的识别方法和装置、存储介质和电子装置,以至少解决相关技术中的文本信息的识别方法存在由于模型的嵌入层参数量过大导致的识别模型的运行效率低的问题。
根据本申请实施例的一个方面,提供了一种文本信息的识别方法,包括:获取待识别文本,其中,所述待识别文本包含至少一个待识别文本单元;通过目标识别模型的嵌入层对每个待识别文本单元进行向量化处理,得到与所述待识别文本对应的第一文本向量,其中,所述向量化处理包含哈希编码;将所述第一文本向量输入到所述目标识别模型的目标模型结构,得到所述目标模型结构输出的文本识别结果,其中,所述目标模型结构是所述目标识别模型中位于所述嵌入层之后的模型结构。
在一个示例性实施例中,所述通过目标识别模型的嵌入层对每个待识别文本单元进行向量化处理,得到与所述待识别文本对应的第一文本向量,包括:通过所述嵌入层对所述每个待识别文本单元进行哈希编码,得到与所述每个待识别文本单元对应的哈希值;通过所述嵌入层对与所述每个待识别文本单元对应的哈希值进行投影操作,得到所述第一文本向量,其中,所述投影操作用于将与所述每个待识别文本单元映射为目标数量的值表示的向量。
在一个示例性实施例中,所述通过所述嵌入层对所述每个待识别文本单元进行哈希编码,得到与所述每个待识别文本单元对应的哈希值,包括:通过所述嵌入层使用目标长度的哈希算法对所述每个待识别文本单元进行哈希编码,得到所述与所述每个待识别文本单元对应的哈希值,其中,与所述每个待识别文本单元对应的哈希值的长度为所述目标长度。
在一个示例性实施例中,所述通过所述嵌入层对与所述每个待识别文本单元对应的哈希值进行投影操作,得到所述第一文本向量,包括:通过所述嵌入层将所述与所述每个待识别文本单元对应的哈希值中每相邻的预设个数的比特位为一组映射到有界值域内,得到所述第一文本向量,其中,所述有界值域内包含的值的数量与所述目标数量相同。
在一个示例性实施例中,所述通过所述嵌入层将所述与所述每个待识别文本单元对应的哈希值中每相邻的预设个数的比特位为一组映射到有界值域内,得到所述第一文本向量,包括:通过所述嵌入层将所述与所述每个待识别文本单元对应的哈希值中的每两个连续的比特位为一组映射到所述有界值域,得到所述第一文本向量,其中,所述有界值域内包括三个值。
在一个示例性实施例中,所述通过所述嵌入层将所述与所述每个待识别文本单元对应的哈希值中的每两个连续的比特位为一组映射到所述有界值域,得到所述第一文本向量,包括:通过所述嵌入层依次遍历所述与所述每个待识别文本单元对应的哈希值中的每两个连续的比特位,对遍历到的当前连续比特位执行以下映射操作,得到所述第一文本向量:在所述当前连续比特位上的两个值为相同值的情况下,将所述当前连续比特位映射为所述有界值域内的第一值;在所述当前连续比特位上的两个值中位于高位上的值大于位于低位上的值的情况下,将所述当前连续比特位映射为所述有界值域内的第二值;在所述当前连续比特位上的两个值中位于高位上的值小于位于低位上的值的情况下,将所述当前连续比特位映射为所述有界值域内的第三值。
在一个示例性实施例中,所述方法还包括:获取模型训练样本,其中,所述模型训练样本包含模型训练文本以及所述模型训练文本的标注信息,所述模型训练文本包括至少一个训练文本单元;通过初始识别模型的所述嵌入层对每个训练文本单元进行所述向量化处理,得到与所述模型训练文本对应的第二文本向量;使用所述第二文本向量以及所述模型训练文本的标注信息对初始模型结构进行模型训练,得到所述目标识别模型,其中,所述初始模型结构为所述初始识别模型中位于所述嵌入层之后的模型结构。
在一个示例性实施例中,所述将所述第一文本向量输入到所述目标识别模型的目标模型结构,得到所述目标模型结构输出的文本识别结果,包括:将所述第一文本向量输入到所述目标模型结构,得到所述目标模型结构输出的所述文本识别结果,其中,所述文本识别结果包括以下至少之一:意图识别结果,槽位提取结果。
根据本申请实施例的另一个方面,还提供了一种文本信息的识别装置,包括:第一获取单元,用于获取待识别文本,其中,所述待识别文本包含至少一个待识别文本单元;第一处理单元,用于通过目标识别模型的嵌入层对每个待识别文本单元进行向量化处理,得到与所述待识别文本对应的第一文本向量,其中,所述向量化处理包含哈希编码;输入单元,用于将所述第一文本向量输入到所述目标识别模型的目标模型结构,得到所述目标模型结构输出的文本识别结果,其中,所述目标模型结构是所述目标识别模型中位于所述嵌入层之后的模型结构。
在一个示例性实施例中,所述第一处理单元包括:编码模块,用于通过所述嵌入层对所述每个待识别文本单元进行哈希编码,得到与所述每个待识别文本单元对应的哈希值;投影模块,用于通过所述嵌入层对与所述每个待识别文本单元对应的哈希值进行投影操作,得到所述第一文本向量,其中,所述投影操作用于将与所述每个待识别文本单元映射为目标数量的值表示的向量。
在一个示例性实施例中,所述编码模块包括:编码子模块,用于通过所述嵌入层使用目标长度的哈希算法对所述每个待识别文本单元进行哈希编码,得到所述与所述每个待识别文本单元对应的哈希值,其中,与所述每个待识别文本单元对应的哈希值的长度为所述目标长度。
在一个示例性实施例中,所述投影模块包括:投影子模块,用于通过所述嵌入层将所述与所述每个待识别文本单元对应的哈希值中每相邻的预设个数的比特位为一组映射到有界值域内,得到所述第一文本向量,其中,所述有界值域内包含的值的数量与所述目标数量相同。
在一个示例性实施例中,所述投影子模块包括:映射子单元,用于通过所述嵌入层将所述与所述每个待识别文本单元对应的哈希值中的每两个连续的比特位为一组映射到所述有界值域,得到所述第一文本向量,其中,所述有界值域内包括三个值。
在一个示例性实施例中,所述映射子单元包括:映射次子单元,用于通过所述嵌入层依次遍历所述与所述每个待识别文本单元对应的哈希值中的每两个连续的比特位,对遍历到的当前连续比特位执行以下映射操作,得到所述第一文本向量:在所述当前连续比特位上的两个值为相同值的情况下,将所述当前连续比特位映射为所述有界值域内的第一值;在所述当前连续比特位上的两个值中位于高位上的值大于位于低位上的值的情况下,将所述当前连续比特位映射为所述有界值域内的第二值;在所述当前连续比特位上的两个值中位于高位上的值小于位于低位上的值的情况下,将所述当前连续比特位映射为所述有界值域内的第三值。
在一个示例性实施例中,所述装置还包括:第二获取单元,用于获取模型训练样本,其中,所述模型训练样本包含模型训练文本以及所述模型训练文本的标注信息,所述模型训练文本包括至少一个训练文本单元;第二处理单元,用于通过初始识别模型的所述嵌入层对每个训练文本单元进行所述向量化处理,得到与所述模型训练文本对应的第二文本向量;训练单元,用于使用所述第二文本向量以及所述模型训练文本的标注信息对初始模型结构进行模型训练,得到所述目标识别模型,其中,所述初始模型结构为所述初始识别模型中位于所述嵌入层之后的模型结构。
在一个示例性实施例中,所述输入单元包括:输入模块,用于将所述第一文本向量输入到所述目标模型结构,得到所述目标模型结构输出的所述文本识别结果,其中,所述文本识别结果包括以下至少之一:意图识别结果,槽位提取结果。
根据本申请实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述文本信息的识别方法。
根据本申请实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的文本信息的识别方法。
在本申请实施例中,采用在模型的嵌入层对输入文本进行包含哈希编码向量化处理,得到对应的文本向量的方式,通过获取待识别文本,其中,待识别文本包含至少一个待识别文本单元;通过目标识别模型的嵌入层对每个待识别文本单元进行向量化处理,得到与待识别文本对应的第一文本向量,其中,向量化处理包含哈希编码;将第一文本向量输入到目标识别模型的目标模型结构,得到目标模型结构输出的文本识别结果,其中,目标模型结构是目标识别模型中位于嵌入层之后的模型结构,由于通过嵌入层对输入文本进行包含哈希编码的向量化处理,在不需要词表的情况下即可将输入文本转换为对应的文本向量,可以实现减少嵌入层的参数量的目的,使得识别模型可以部署到边沿计算设备上,达到了提高识别模型的运行效率的技术效果,进而解决了相关技术中的文本信息的识别方法存在由于模型的嵌入层参数量过大导致的识别模型的运行效率低的问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是根据本申请实施例的一种可选的文本信息的识别方法的硬件环境的示意图;
图2是根据本申请实施例的一种可选的文本信息的识别方法的流程示意图;
图3是根据本申请实施例的另一种可选的文本信息的识别方法的流程示意图;
图4是根据本申请实施例的一种可选的文本信息的识别装置的结构框图;
图5是根据本申请实施例的一种可选的电子装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例的一个方面,提供了一种文本信息的识别方法。该文本信息的识别方法可以广泛应用于智慧家庭(Smart Home)、智能家居、智能家用设备生态、智慧住宅(Intelligence House)生态等全屋智能数字化控制应用场景。可选地,在本实施例中,上述文本信息的识别方法可以应用于如图1所示的由终端设备102和服务器104所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:WIFI(Wireless Fidelity,无线保真),蓝牙。终端设备102可以并不限定于为PC、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
本申请实施例的文本信息的识别方法可以由服务器104来执行,也可以由终端设备102来执行,还可以是由服务器104和终端设备102共同执行。其中,终端设备102执行本申请实施例的文本信息的识别方法也可以是由安装在其上的客户端来执行。
以由终端设备来执行本实施例中的文本信息的识别方法为例,图2是根据本申请实施例的一种可选的文本信息的识别方法的流程示意图,如图2所示,该方法的流程可以包括以下步骤:
步骤S202,获取待识别文本,其中,待识别文本包含至少一个待识别文本单元。
本实施例中的文本信息的识别方法可以应用到使用识别模型进行文本识别的场景中,上述识别模型可以是文本识别模型,例如,短文本的意图识别模型,短文本的槽位提取模型等,还可以是可以执行其他文本识别任务的识别模型,本实施例中对此不作限定。
在本实施例中,进行文本识别的识别模型为目标识别模型,该目标识别模型可以是用于执行目标文本识别任务的识别模型,例如,神经网络模型等,该目标识别模型可以包括嵌入层和位于嵌入层之后的目标模型结构,其中,嵌入层用于将输入的文本映射为对应的文本向量,而目标模型结构基于嵌入层输出的文本向量进行文本识别,并输出文本识别的结果。
上述目标识别模型可以布设到目标设备上,目标设备可以是移动终端、边缘计算设备等,也可以是其他可以运行目标识别模型的设备。基于用户的语音输入、键盘输入或者其他输入方式,目标设备可以获取待识别文本(可以是从语音等中识别到的文本),这里的待识别文本可以包括待识别文本单元,例如,字、词、单词、短语等等,待识别文本单元的数量可以为一个或多个,本实施例中对于待识别文本单元不做限定。
步骤S204,通过目标识别模型的嵌入层对每个待识别文本单元进行向量化处理,得到与待识别文本对应的第一文本向量,其中,向量化处理包含哈希编码。
在自然语言处理领域,可以使用文本识别模型(可以是基于分布式表示的深度学习模型)执行对应的文本识别任务。在进行文本识别时,通过查询词表得到对应的词向量,然后通过Embedding层(即,嵌入层)的参数矩阵,对词向量进行降维,得到降维后的向量。
为了便于进行模型部署,通常要求模型快、准、小。然而,由于自然语言词表示的稀疏性,词表或者字表的数量比较庞大(词表的大小通常可达百万级别),会导致很大的参数量,模型推理时间长,占用较大的内存空间。即便使用字向量,中文常用的汉字也多达5千,而且可能会出现OOV(未登录词)的情况。例如,预训练模型BERT(Bidirectional EncoderRepresentations from Transformers,来自变换器的双向编码器表征量)等的词表也高达3万,这对终端设备的内存占用有较高的要求,对云端部署大量模型等带来了挑战。
相关技术中,可以通过减少嵌入层的参数量的方式,对识别模型的体积进行压缩。目前,减少嵌入层的参数量的方法有以下三种:
一、通过因式分解的方式,对模型的嵌入层进行压缩,并使用了投影线性层的方式,将低维度的嵌入层投射到更高的维度,以此来减少模型嵌入层的参数量;
二、通过克罗内克分解的方式,通过克罗内克因式分解法对嵌入层进行压缩,减少嵌入层的参数量;
三、通过Adaptive Representation(自适应表示)的方式,将词表根据频度进行排序,例如,依据TF-IDF(term frequency-inverse document frequency,词频-逆向文件频率)将词表划分成多个集合,序号在前的集合中的词有更高的频度,依据词频来自适应词的维度,以减少模型嵌入层的参数量。
然而,使用因式分解的方式减小嵌入层的参数量,减少参数量意味着降低了通讯量,虽然可以降低嵌入层参数量,但计算量和延迟依然较大,仍然不适合部署到如手机或者边缘计算设备等、以及低内存使用场景上,导致在这些设备上运行文本识别模型时推理时间长,内存占用大,运行效率低下。并且,为了提高识别的准确性,针对不同的领域可以提供对应的识别模型,即使每个识别模型文件体积较小,但在领域较多时,那么总模型的大小依然会较大。例如,意图分类模型文件大小约11M,如果有有100多个领域,总模型的大小高达1-2G,对模型维护带来挑战。
对此,为了减少识别模型的嵌入层的参数量,在本实施例中,可以通过目标识别模型的嵌入层,对每个待识别文本单元进行向量化处理,得到与待识别文本对应的第一文本向量,这里的向量化处理是将每个待识别文本单元转换为对应的向量的过程,向量化处理至少包括:哈希编码,即,将每个待识别文本单元编码为其对应的哈希值,此外,还可以每个待识别文本单元编码为其对应的哈希值进行其他处理,例如,映射到有界值域等,可以包含其他处理,本实施例中对此不作限定。对应地,第一文本向量包含每个待识别文本单元转换为的向量。
步骤S206,将第一文本向量输入到目标识别模型的目标模型结构,得到目标模型结构输出的文本识别结果,其中,目标模型结构是目标识别模型中位于嵌入层之后的模型结构。
在得到第一文本向量之后,可以将第一文本向量输入到目标模型结构,目标模型结构即为目标识别模型中位于上述嵌入层之后的模型结构,目标模型结构可以包括卷积层、池化层和全连接层等的结构,通过目标模型结构可以对第一文本向量进行解析,得到文本识别结果,这里的文本识别结果是与目标识别模型的识别任务所对应的,例如,文本识别结果为识别到的意图,提取出的事件槽位等,本实施例中对于目标模型结构基于输入的第一文本向量进行文本识别的过程不做限定。
通过上述步骤S202至S206,获取待识别文本,其中,待识别文本包含至少一个待识别文本单元;通过目标识别模型的嵌入层对每个待识别文本单元进行向量化处理,得到与待识别文本对应的第一文本向量,其中,向量化处理包含哈希编码;将第一文本向量输入到目标识别模型的目标模型结构,得到目标模型结构输出的文本识别结果,其中,目标模型结构是目标识别模型中位于嵌入层之后的模型结构,解决了相关技术中的文本信息的识别方法存在由于模型的嵌入层参数量过大导致的识别模型的运行效率低的问题,提高了识别模型的运行效率。
在一个示例性实施例中,通过目标识别模型的嵌入层对每个待识别文本单元进行向量化处理,得到与待识别文本对应的第一文本向量,包括:
S11,通过嵌入层对每个待识别文本单元进行哈希编码,得到与每个待识别文本单元对应的哈希值;
S12,通过嵌入层对与每个待识别文本单元对应的哈希值进行投影操作,得到第一文本向量,其中,投影操作用于将与每个待识别文本单元映射为目标数量的值表示的向量。
在本实施例中,为了进一步减少识别模型的嵌入层的参数量,以使得识别模型在手机或者其他边沿计算设备、以及低内存使用场景上流畅运行,可以对待识别文本进行向量化处理,得到进行文本识别所需的文本向量。在进行向量化的过程中,通过哈希编码得到对应的哈希值,且通过对得到的哈希值执行映射操作,得到对应的文本向量,不需要词典,并且可以去除嵌入层的参数矩阵,从而可以减少嵌入层的参数量,使得模型文件的大小减小(模型文件大小可以变为原来的1/10),模型训练时间缩短,推理时间变快,使得文本识别模型可以应用到手机或者边缘计算设备上以及低内存使用场景中。
对于待识别文本中的每个待识别文本单元,可以对其进行哈希编码,得到对应的哈希值。在待识别文本单元有多个时,可以分别确定与每个待识别文本单元对应的哈希值。对每个待识别文本单元进行哈希编码的方式可以是类似的,在此不做赘述。
这里,对文本单元进行哈希编码的方式可以是:基于文本单元对应的ASCII(American Standard Code for Information Interchange,美国信息交换标准代码)进行哈希编码,由于针对的是单个文本单元(例如,单个字,单个单词)进行的哈希编码,不需要设置词表,也不会出现未登录词的问题。
在得到与每个待识别文本单元对应的哈希值之后,可以通过嵌入层对与每个待识别文本单元对应的哈希值进行投影操作,这里的投影操作可以是将与每个待识别文本单元映射为目标数量的值表示的向量,通过对与每个待识别文本单元对应的哈希值进行投影操作,可以得到与每个待识别文本单元对应的向量,进而得到与待识别文本对应的第一文本向量。
通过本实施例,通过嵌入层对待识别文本进行哈希编码,以及与每个对待识别文本单元对应的哈希值进行投影操作,可以压缩模型的大小,提高模型的运行效率。
在一个示例性实施例中,通过嵌入层对每个待识别文本单元进行哈希编码,得到与每个待识别文本单元对应的哈希值,包括:
S21,通过嵌入层使用目标长度的哈希算法对每个待识别文本单元进行哈希编码,得到与每个待识别文本单元对应的哈希值,其中,与每个待识别文本单元对应的哈希值的长度为目标长度。
在本实施例中,嵌入层中对于待识别文本单元进行哈希编码所使用的哈希算法可以是目标长度的哈希算法,目标长度的哈希算法是指哈希编码得到的哈希值为目标长度,例如,可以使用64位Hash(即,哈希)函数编码文本的token(即,分割得到的文本单元),64位Hash函数可以是使用CityHash、MurmurHash等64位哈希算法。对于待识别文本,可以通过嵌入层使用目标长度的哈希算法对待识别文本单元进行哈希编码,得到与每个待识别文本单元对应的哈希值,其长度为目标长度。
例如,可以使用64位哈希算法,对token(待识别文本中的每个字)进行哈希,得到2B bits的哈希值,其中,B是一个超参数,B∈[128,512],词语嵌入层的维度d∈[32,96],参数量为B*d,远远小于使用词表得到的参数量|V|*d。
通过本实施例,使用哈希函数对文本单元进行哈希编码,将文本单元编码为特定长度的哈希值,可以提高哈希编码的合理性。
在一个示例性实施例中,通过嵌入层对与每个待识别文本单元对应的哈希值进行投影操作,得到第一文本向量,包括:
S31,通过嵌入层将与每个待识别文本单元对应的哈希值中每相邻的预设个数的比特位为一组映射到有界值域内,得到第一文本向量,其中,有界值域内包含的值的数量与目标数量相同。
在本实施例中,嵌入层对与每个待识别文本单元对应的哈希值进行投影操作,可以是使用投影函数将每个待识别文本单元对应的哈希值映射到有界值域内。这里的有界值域可以是包含目标数量的值的取值范围。上述映射过程可以是:每相邻的预设个数的比特位为一组,按照预设映射规则确定每个组所映射为的值,从而得到与每个待识别文本单元对应的哈希值对应的第一文本向量。预设个数可以为至少两个,目标数量可以为至少两个。
需要说明的是,投影函数可以按照需要进行设定,任何能将bit(比特)值映射到有界值域的映射方式均可。通过上述映射,不需要嵌入层的参数矩阵,且投影函数也不需要占用多大的内存空间。因此,对于TextCNN(Convolutional Neural Networks)这样的轻量级模型,可以进一步压缩到几百字节,从而减少模型的维护成本,节约了模型的运行成本。
通过本实施例,通过使用投影函数将哈希值映射到有界值域内,可以进一步压缩模型的大小,减少模型的维护成本,提高模型的运行效率。
在一个示例性实施例中,通过嵌入层将与每个待识别文本单元对应的哈希值中每相邻的预设个数的比特位为一组映射到有界值域内,得到第一文本向量,包括:
S41,通过嵌入层将与每个待识别文本单元对应的哈希值中的每两个连续的比特位为一组映射到有界值域,得到第一文本向量,其中,有界值域内包括三个值。
在本实施例中,有界值域内可以包含三个值,例如,{-1,0,1},通过嵌入层可以将与每个待识别文本单元对应的哈希值映射为对应的三值化向量,映射成三值化向量的方式可以是:将与每个待识别文本单元对应的哈希值中的每两个连续的比特位为一组映射到有界值域,得到第一文本向量。
例如,可以使用投影函数(或者映射函数)将token表示为由{-1,0,1}表示的三值化向量,直接组成文本的浅层表示,从而去掉深度学习常用的嵌入层的参数矩阵,不需要词表,减少参数量,获得了模型性能的显著提高。
在对与每个待识别文本单元对应的哈希值进行映射时,可以从第一个比特位开始,每两个比特位为一组,确定当前组所包含的两个比特位,通过投影函数确定有界值域内与当前组中的两个比特位对应的值,遍历结束之后,即可得到与每个待识别文本单元对应的哈希值对应的三值化向量。
通过本实施例,通过投影函数将每个待识别文本单元对应的哈希值映射为三值化向量,可以提高哈希值向量化的便捷性。
在一个示例性实施例中,通过嵌入层将与每个待识别文本单元对应的哈希值中的每两个连续的比特位为一组映射到有界值域,得到第一文本向量,包括:
S51,通过嵌入层依次遍历与每个待识别文本单元对应的哈希值中的每两个连续的比特位,对遍历到的当前连续比特位执行以下映射操作,得到第一文本向量:
在当前连续比特位上的两个值为相同值的情况下,将当前连续比特位映射为有界值域内的第一值;
在当前连续比特位上的两个值中位于高位上的值大于位于低位上的值的情况下,将当前连续比特位映射为有界值域内的第二值;
在当前连续比特位上的两个值中位于高位上的值小于位于低位上的值的情况下,将当前连续比特位映射为有界值域内的第三值。
在本实施例中,可以通过嵌入层从第一个比特位开始,依次遍历与每个待识别文本单元对应的哈希值中的每两个连续的比特位,对遍历到的连续比特位,可以将其作为当前连续比特位执行以下映射操作,得到第一文本向量:
如果当前连续比特位上的两个值为相同值,例如,00,11,可以将当前连续比特位映射为有界值域内的第一值,例如,0;
如果当前连续比特位上的两个值中位于高位上的值大于位于低位上的值,例如,10,可以将当前连续比特位映射为有界值域内的第二值,例如,1或者-1;
如果当前连续比特位上的两个值中位于高位上的值小于位于低位上的值,例如,01,将当前连续比特位映射为有界值域内的第三值,例如,-1或者1。
需要说明的是,本实施例中的有界值域为{-1,0,1},第一值、第二值和第三值可以为上述有界值域内的不同值,关于第一值、第二值和第三值与{-1,0,1}中的各个值的对应关系,本实施例中对此不做限定。例如,可以对每两个连续的比特位与3(即,二进制数的11)做位与运算,并根据计算的结果确定取值。
通过本实施例,按照预设的连续比特位与有界值域内的值的对应关系对哈希值进行三值化处理,可以提高哈希值向量化的效率。
在一个示例性实施例中,将第一文本向量输入到目标识别模型的目标模型结构,得到目标模型结构输出的文本识别结果,包括:
S61,将第一文本向量输入到目标模型结构,得到目标模型结构输出的文本识别结果,其中,文本识别结果包括以下至少之一:意图识别结果,槽位提取结果。
目标识别模型可以为以下至少之一:意图识别模型,槽位提取模型(或者说,槽位识别模型),可以应用到语音智能问答系统中涉及短文本的意图识别、槽位提取等。对应地,可以将第一文本向量输入到目标模型结构,得到目标模型结构输出的文本识别结果,这里,文本识别结果包括以下至少之一:意图识别结果,槽位提取结果,上述意图识别结果可以是从一组预设意图中所识别出的、与待识别文本对应的意图,槽位提取可以是按照预设规则所提取出的、与待识别文本对应的槽位。
在本实施例中,目标设备可以是手机或者其他的边沿计算设备,在第一设备上可以布设有目标识别模型,目标识别模型可以为意图识别模型,该意图识别模型可以用于对待识别文本进行识别,得到与待识别文本对应的意图。对于一个待识别文本,目标设备可以将待识别文本输入到目标设备上布设的目标识别模型中,得到目标识别模型输出的意图识别结果,意图识别结果用于指示控制第二设备执行目标设备操作。
按照意图识别结果,可以控制对应的设备执行目标设备操作,得到目标设备操作的执行结果。上述对应的设备可以是用于执行目标设备操作的设备,对应的设备可以是与目标设备相同的设备,也可以是与目标设备不同的设备。在此不做限定。
例如,获取到的待识别文本可以是“房间太冷了”,“房间有点热”,可以将待识别文本输入至目标识别模型中,得到目标识别模型输出的意图识别结果为“调高房间温度”,“调低房间温度”。按照输出的意图识别结果,可以控制对应的设备(例如,空调)执行调高温度或者调低温度的操作,以升高房间温度或者降低房间温度。
通过本实施例,通过将对文本单元进行哈希编码、并对编码得到的哈希值进行向量化处理应用到意图识别、槽位提取中,可以方便应用到语音智能问答系统,提高识别模型配置的适用性(例如,可以部署到手机等终端设备上)。
在一个示例性实施例中,上述方法还包括:
S71,获取模型训练样本,其中,模型训练样本包含模型训练文本以及模型训练文本的标注信息,模型训练文本包括至少一个训练文本单元;
S72,通过初始识别模型的嵌入层对每个训练文本单元进行向量化处理,得到与模型训练文本对应的第二文本向量;
S73,使用第二文本向量以及模型训练文本的标注信息对初始模型结构进行模型训练,得到目标识别模型,其中,初始模型结构为初始识别模型中位于嵌入层之后的模型结构。
为了得到目标识别模型,可以首先使用模型训练样本对初始识别模型进行模型训练,从而得到目标识别模型。对初始识别模型进行训练的设备(模型训练设备)与部署目标识别模型的设备可以是同一设备,也可以为不同设备,本实施例中对此不做限定。初始识别模型可以包括嵌入层和初始识别模型,初始识别模型中与目标模型结构对应的模型结构为初始模型结构,该初始模型结构位于第二嵌入层之后。
为了训练初始训练模型,可以获取模型训练样本,模型训练样本包含模型训练文本以及模型训练文本的标注信息,模型训练文本可以包括一个或者多个训练文本单元。模型训练文本的标注信息与初始识别模型所对应的任务相关,其可以是与模型训练文本对应的意图,也可以是模型训练文本中的槽位。模型训练样本可以为多个,多个模型训练样本中不同的模型训练样本的标注信息可以是相同的(例如,意图相同),也可以是不同的,本实施例中对此不做限定。
获取到模型训练样本的方式可以有一种或多种,可以至少包括以下之一:通过查找数据库获取到模型训练样本,通过网络获取到线上的模型训练样本,还可以是通过其他方式获取到模型训练样本,本实施例中对此不作限定。
模型训练样本可以是对通过数据采集得到的初始样本进行处理后得到的。在获取到初始样本之后,可以对初始样本进行数据清洗以及采样,得到处理后的文本数据集,该文本数据集可以划分为训练集、验证集和测试集,其中,训练集用于进行模型训练,验证集用于确保模型的拟合程度,测试集用于评估模型的运行效果。
对于模型训练样本,可以通过嵌入层对模型训练文本进行哈希编码,得到与模型训练文本对应的哈希值,对模型训练文本进行哈希编码可以是对模型训练文本中所包含的一个或者多个训练文本单元分别进行哈希编码;通过嵌入层还可以对与模型训练文本对应的哈希值进行向量化处理,得到与模型训练文本对应的第二文本向量,对模型训练文本中的文本单元进行哈希编码的方式、以及对与模型训练文本对应的哈希值进行向量化处理的方式与前述实施例中类似,在此不做赘述。
将第二文本向量输入到初始模型结构中,可以得到初始模型结构输出的识别结果,即,模型训练文本的识别结果。在得到模型训练文本的识别结果之后,可以根据模型训练文本的标注信息和模型训练文本的识别结果,对初始模型结构的模型参数进行调整。可选地,对初始模型结构的模型参数进行调整,可以是对初始模型结构中的卷积层的参数、池化层的参数、线性层的参数或全连接层的参数中的至少一个参数进行调整,也可以是对上述的全部参数进行调整,本实施例中对此不作限定。通过进行上述模型参数调整操作,可以得到更新后的初始模型结构。通过至少一轮的迭代,可以得到目标识别模型。
为了保证模型训练的准确性,可以根据迭代停止条件使用第二文本向量以及模型训练文本的标注信息对初始模型结构进行多轮迭代训练,得到目标识别模型。上述迭代停止条件可以有一种或多种,可以是在初始识别模型的损失函数足够小时,也可以是在预设的训练次数到达时,还可以是其他的迭代停止条件。本实施例中对迭代停止条件不作限定。
可选地,上述迭代停止条件可以是根据epoch(迭代轮次)确定的。epoch用于表示将模型训练样本中的所有样本输入到初始训练模型进行训练的一个轮次。可以使用第二文本向量以及模型训练文本的标注信息对初始模型结构进行多轮迭代训练,直到达到epoch所指定的迭代轮次数。
通过本实施例,通过使用训练文本样本对初始识别模型进行训练,使得训练得到的识别模型满足对应任务的需求,可以提高模型识别的准确性。
下面结合可选示例对本申请实施例中的文本信息的识别方法进行解释说明。在本可选实例中,初始模型结构包括池化层、线性层和全连接层,识别模型为意图识别模型,文本单元为字,即,token。
本可选示例从手机或者边缘计算设备上以及低内存使用场景的角度出发,提供了一种基于哈希三值化向量的模型压缩方法,相较于嵌入层因式分解方法,可以避免矩阵运算,且容易实现。结合图3,本可选示例中的基于哈希三值化向量的模型压缩方法可以包括以下步骤:
步骤S302,将模型训练样本输入到初始识别模型中,这里的模型训练样本是通过数据采集、数据清洗和采样得到的,每个模型训练样本包含对应的训练文本和文本标注(即,前述标注信息)。
步骤S304,对模型训练样本中的字进行哈希编码,得到对应的哈希值。
嵌入层使用64位哈希函数对token进行哈希编码,得到2B bits的哈希值。
步骤S306,对哈希值进行三值化映射,得到三值化向量。
嵌入层使用三值化函数将2B个位中的每两个连续的比特映射到{-1,0,1}中,得到的一个{-1,0,1}的长度为B的向量。每个token经过步骤S304和S306,得到embedding,即,表示每个token的一个低维的向量。
步骤S308,将三值化向量输入到动态卷积网络中。
为了提高模型嵌入层的可用性,在得到一组三值化向量后,可以将一组三值化向量输入至Dynamic CNN(动态卷积神经网络),以此对三值化向量进行多维度提取特征,得到一组高维度的三值化向量。
步骤S310,通过线性层。
可以将动态卷积神经网的输出通过一层线性层,将一组高维度的三值化向量映射为一组低维度的三值化向量,即,可以是与原本的三值化向量维度相同的三值化向量。
步骤S312,进行残差连接和层归一化。
为防止线性层输出的三值化向量的梯度消失,可以将通过线性层后的三值化向量,与输入Dynamic CNN块的张量(三值化向量)进行残差连接,保证三值化向量梯度的稳定。在进行残差连接后,可以通过Layer Normalization(层标准化)对三值化向量进行归一化,稳定每个模型训练样本的通道维度的分布。
为了保证充分提取模型训练样本的特征,可以设置提取模型训练样本特征的epoch,可以多次迭代步骤S308值步骤S310,直至迭代次数达到预设的epoch。在迭代次数达到预设的epoch后,可以输出迭代后的一组三值化向量。
步骤S314,通过池化层。
迭代后的一组三值化向量可以输入到池化层中,池化层可在sequence_length(序列长度)的维度对一组三值化向量进行Maxpooling(最大池化),丢弃三值化向量中的冗余信息,此时的输出维度:batch_size,hidden_size。
步骤S316,通过线性层。
池化后的一组三值化向量可以输入至线性层中,通过线性层进一步降低三值化向量的维度。
步骤S318,通过全连接层。
通过线性层后的一组三值化向量可以输入至全连接层中,通过全连接将三值化向量的通道维度数量变化成标签数量。可以通过Softmax(指数归一化)函数对三值化向量进行归一化处理,计算出与模型训练样本最匹配的标签。
步骤S320,输出结果。
全连接层可以输出与模型训练样本对应的标签,此时输出维度:batch_size,num_labels。为了保证模型的准确性,可以设置初始识别模型训练的epoch,使用一组三值化向量以及模型训练文本的标注信息对初始模型结构进行多轮迭代训练,在迭代次数达到epoch所指定的迭代轮次数之后,可以输出对应的识别模型。
通过本可选示例,通过使用哈希算法和投影算法将文本转化为三值化{-1,0,1}的向量表示输入到模型中,不需要词表,去除嵌入层的参数矩阵,可以大幅度减少模型的参数量级,使得模型训练时间缩短,推理时间变快。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM(Read-Only Memory,只读存储器)/RAM(Random Access Memory,随机存取存储器)、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
根据本申请实施例的又一个方面,还提供了一种用于实施上述文本信息的识别方法的文本信息的识别装置。图4是根据本申请实施例的一种可选的文本信息的识别装置的结构框图,如图4所示,该装置可以包括:
第一获取单元402,获取待识别文本,其中,待识别文本包含至少一个待识别文本单元;
第一处理单元404,与第一获取单元402相连,用于通过目标识别模型的嵌入层对每个待识别文本单元进行向量化处理,得到与待识别文本对应的第一文本向量,其中,向量化处理包含哈希编码;
输入单元406,与第一处理单元404相连,用于将第一文本向量输入到目标识别模型的目标模型结构,得到目标模型结构输出的文本识别结果,其中,目标模型结构是目标识别模型中位于嵌入层之后的模型结构。
需要说明的是,该实施例中的第一获取单元402可以用于执行上述步骤S202,该实施例中的第一处理单元404可以用于执行上述步骤S204,该实施例中的输入单元406可以用于执行上述步骤S206。
通过上述模块,获取待识别文本,其中,待识别文本包含至少一个待识别文本单元;通过目标识别模型的嵌入层对每个待识别文本单元进行向量化处理,得到与待识别文本对应的第一文本向量,其中,向量化处理包含哈希编码;将第一文本向量输入到目标识别模型的目标模型结构,得到目标模型结构输出的文本识别结果,其中,目标模型结构是目标识别模型中位于嵌入层之后的模型结构,解决了相关技术中的文本信息的识别方法存在由于模型的嵌入层参数量过大导致的识别模型的运行效率低的问题,提高了识别模型的运行效率。
在一个示例性实施例中,第一处理单元包括:
编码模块,用于通过嵌入层对每个待识别文本单元进行哈希编码,得到与每个待识别文本单元对应的哈希值;
投影模块,用于通过嵌入层对与每个待识别文本单元对应的哈希值进行投影操作,得到第一文本向量,其中,投影操作用于将与每个待识别文本单元映射为目标数量的值表示的向量。
在一个示例性实施例中,编码模块包括:
编码子模块,用于通过嵌入层使用目标长度的哈希算法对每个待识别文本单元进行哈希编码,得到与每个待识别文本单元对应的哈希值,其中,与每个待识别文本单元对应的哈希值的长度为目标长度。
在一个示例性实施例中,投影模块包括:
投影子模块,用于通过嵌入层将与每个待识别文本单元对应的哈希值中每相邻的预设个数的比特位为一组映射到有界值域内,得到第一文本向量,其中,有界值域内包含的值的数量与目标数量相同。
在一个示例性实施例中,投影子模块包括:
映射子单元,用于通过嵌入层将与每个待识别文本单元对应的哈希值中的每两个连续的比特位为一组映射到有界值域,得到第一文本向量,其中,有界值域内包括三个值。
在一个示例性实施例中,映射子单元包括:
映射次子单元,用于通过嵌入层依次遍历与每个待识别文本单元对应的哈希值中的每两个连续的比特位,对遍历到的当前连续比特位执行以下映射操作,得到第一文本向量:
在当前连续比特位上的两个值为相同值的情况下,将当前连续比特位映射为有界值域内的第一值;
在当前连续比特位上的两个值中位于高位上的值大于位于低位上的值的情况下,将当前连续比特位映射为有界值域内的第二值;
在当前连续比特位上的两个值中位于高位上的值小于位于低位上的值的情况下,将当前连续比特位映射为有界值域内的第三值。
在一个示例性实施例中,上述装置还包括:
第二获取单元,用于获取模型训练样本,其中,模型训练样本包含模型训练文本以及模型训练文本的标注信息,模型训练文本包括至少一个训练文本单元;
第二处理单元,用于通过初始识别模型的嵌入层对每个训练文本单元进行向量化处理,得到与模型训练文本对应的第二文本向量;
训练单元,用于使用第二文本向量以及模型训练文本的标注信息对初始模型结构进行模型训练,得到目标识别模型,其中,初始模型结构为初始识别模型中位于嵌入层之后的模型结构。
在一个示例性实施例中,输入单元包括:
输入模块,用于将第一文本向量输入到目标模型结构,得到目标模型结构输出的文本识别结果,其中,文本识别结果包括以下至少之一:意图识别结果,槽位提取结果。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
根据本申请实施例的又一个方面,还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行本申请实施例中上述任一项文本信息的识别方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S1,获取待识别文本,其中,待识别文本包含至少一个待识别文本单元;
S2,通过目标识别模型的嵌入层对每个待识别文本单元进行向量化处理,得到与待识别文本对应的第一文本向量,其中,向量化处理包含哈希编码;
S3,将第一文本向量输入到目标识别模型的目标模型结构,得到目标模型结构输出的文本识别结果,其中,目标模型结构是目标识别模型中位于嵌入层之后的模型结构。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例中对此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM、RAM、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
根据本申请实施例的又一个方面,还提供了一种用于实施上述文本信息的识别方法的电子装置,该电子装置可以是服务器、终端、或者其组合。
图5是根据本申请实施例的一种可选的电子装置的结构框图,如图5所示,包括处理器502、通信接口504、存储器506和通信总线508,其中,处理器502、通信接口504和存储器506通过通信总线508完成相互间的通信,其中,
存储器506,用于存储计算机程序;
处理器502,用于执行存储器506上所存放的计算机程序时,实现如下步骤:
S1,获取待识别文本,其中,待识别文本包含至少一个待识别文本单元;
S2,通过目标识别模型的嵌入层对每个待识别文本单元进行向量化处理,得到与待识别文本对应的第一文本向量,其中,向量化处理包含哈希编码;
S3,将第一文本向量输入到目标识别模型的目标模型结构,得到目标模型结构输出的文本识别结果,其中,目标模型结构是目标识别模型中位于嵌入层之后的模型结构。
可选地,通信总线可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线、或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。通信接口用于上述电子装置与其他设备之间的通信。
存储器可以包括RAM,也可以包括非易失性存储器(non-volatile memory),例如,至少一个磁盘存储器。可选地,存储器还可以是至少一个位于远离前述处理器的存储装置。
作为一种示例,上述存储器506中可以但不限于包括上述文本信息的识别装置中的第一获取单元402、第一处理单元404、以及输入单元406。此外,还可以包括但不限于上述文本信息的识别装置中的其他模块单元,本示例中不再赘述。
上述处理器可以是通用处理器,可以包含但不限于:CPU(Central ProcessingUnit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(DigitalSignal Processing,数字信号处理器)、ASIC(Application Specific IntegratedCircuit,专用集成电路)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图5所示的结构仅为示意,实施上述文本信息的识别方法的设备可以是终端设备,该终端设备可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图5其并不对上述电子装置的结构造成限定。例如,电子装置还可包括比图5中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图5所示的不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、ROM、RAM、磁盘或光盘等。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例中所提供的方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (11)

1.一种文本信息的识别方法,其特征在于,包括:
获取待识别文本,其中,所述待识别文本包含至少一个待识别文本单元;
通过目标识别模型的嵌入层对每个待识别文本单元进行向量化处理,得到与所述待识别文本对应的第一文本向量,其中,所述向量化处理包含哈希编码;
将所述第一文本向量输入到所述目标识别模型的目标模型结构,得到所述目标模型结构输出的文本识别结果,其中,所述目标模型结构是所述目标识别模型中位于所述嵌入层之后的模型结构。
2.根据权利要求1所述的方法,其特征在于,所述通过目标识别模型的嵌入层对每个待识别文本单元进行向量化处理,得到与所述待识别文本对应的第一文本向量,包括:
通过所述嵌入层对所述每个待识别文本单元进行哈希编码,得到与所述每个待识别文本单元对应的哈希值;
通过所述嵌入层对与所述每个待识别文本单元对应的哈希值进行投影操作,得到所述第一文本向量,其中,所述投影操作用于将与所述每个待识别文本单元映射为目标数量的值表示的向量。
3.根据权利要求2所述的方法,其特征在于,所述通过所述嵌入层对所述每个待识别文本单元进行哈希编码,得到与所述每个待识别文本单元对应的哈希值,包括:
通过所述嵌入层使用目标长度的哈希算法对所述每个待识别文本单元进行哈希编码,得到所述与所述每个待识别文本单元对应的哈希值,其中,与所述每个待识别文本单元对应的哈希值的长度为所述目标长度。
4.根据权利要求2所述的方法,其特征在于,所述通过所述嵌入层对与所述每个待识别文本单元对应的哈希值进行投影操作,得到所述第一文本向量,包括:
通过所述嵌入层将所述与所述每个待识别文本单元对应的哈希值中每相邻的预设个数的比特位为一组映射到有界值域内,得到所述第一文本向量,其中,所述有界值域内包含的值的数量与所述目标数量相同。
5.根据权利要求4所述的方法,其特征在于,所述通过所述嵌入层将所述与所述每个待识别文本单元对应的哈希值中每相邻的预设个数的比特位为一组映射到有界值域内,得到所述第一文本向量,包括:
通过所述嵌入层将所述与所述每个待识别文本单元对应的哈希值中的每两个连续的比特位为一组映射到所述有界值域,得到所述第一文本向量,其中,所述有界值域内包括三个值。
6.根据权利要求5所述的方法,其特征在于,所述通过所述嵌入层将所述与所述每个待识别文本单元对应的哈希值中的每两个连续的比特位为一组映射到所述有界值域,得到所述第一文本向量,包括:
通过所述嵌入层依次遍历所述与所述每个待识别文本单元对应的哈希值中的每两个连续的比特位,对遍历到的当前连续比特位执行以下映射操作,得到所述第一文本向量:
在所述当前连续比特位上的两个值为相同值的情况下,将所述当前连续比特位映射为所述有界值域内的第一值;
在所述当前连续比特位上的两个值中位于高位上的值大于位于低位上的值的情况下,将所述当前连续比特位映射为所述有界值域内的第二值;
在所述当前连续比特位上的两个值中位于高位上的值小于位于低位上的值的情况下,将所述当前连续比特位映射为所述有界值域内的第三值。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取模型训练样本,其中,所述模型训练样本包含模型训练文本以及所述模型训练文本的标注信息,所述模型训练文本包括至少一个训练文本单元;
通过初始识别模型的所述嵌入层对每个训练文本单元进行所述向量化处理,得到与所述模型训练文本对应的第二文本向量;
使用所述第二文本向量以及所述模型训练文本的标注信息对初始模型结构进行模型训练,得到所述目标识别模型,其中,所述初始模型结构为所述初始识别模型中位于所述嵌入层之后的模型结构。
8.根据权利要求1至7中任一项所述的方法,其特征在于,所述将所述第一文本向量输入到所述目标识别模型的目标模型结构,得到所述目标模型结构输出的文本识别结果,包括:
将所述第一文本向量输入到所述目标模型结构,得到所述目标模型结构输出的所述文本识别结果,其中,所述文本识别结果包括以下至少之一:意图识别结果,槽位提取结果。
9.一种文本信息的识别装置,其特征在于,包括:
第一获取单元,用于获取待识别文本,其中,所述待识别文本包含至少一个待识别文本单元;
第一处理单元,用于通过目标识别模型的嵌入层对每个待识别文本单元进行向量化处理,得到与所述待识别文本对应的第一文本向量,其中,所述向量化处理包含哈希编码;
输入单元,用于将所述第一文本向量输入到所述目标识别模型的目标模型结构,得到所述目标模型结构输出的文本识别结果,其中,所述目标模型结构是所述目标识别模型中位于所述嵌入层之后的模型结构。
10.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行权利要求1至8中任一项所述的方法。
11.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至8中任一项所述的方法。
CN202210631680.1A 2022-06-06 2022-06-06 文本信息的识别方法和装置、存储介质和电子装置 Pending CN117236320A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210631680.1A CN117236320A (zh) 2022-06-06 2022-06-06 文本信息的识别方法和装置、存储介质和电子装置
PCT/CN2022/099876 WO2023236246A1 (zh) 2022-06-06 2022-06-20 文本信息的识别方法和装置、存储介质和电子装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210631680.1A CN117236320A (zh) 2022-06-06 2022-06-06 文本信息的识别方法和装置、存储介质和电子装置

Publications (1)

Publication Number Publication Date
CN117236320A true CN117236320A (zh) 2023-12-15

Family

ID=89081275

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210631680.1A Pending CN117236320A (zh) 2022-06-06 2022-06-06 文本信息的识别方法和装置、存储介质和电子装置

Country Status (2)

Country Link
CN (1) CN117236320A (zh)
WO (1) WO2023236246A1 (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102321798B1 (ko) * 2019-08-15 2021-11-05 엘지전자 주식회사 인공 신경망 기반의 음성 인식 모델을 학습시키는 방법 및 음성 인식 디바이스
CN110569361B (zh) * 2019-09-06 2021-10-19 腾讯科技(深圳)有限公司 一种文本识别方法及设备
CN110929749B (zh) * 2019-10-15 2022-04-29 平安科技(深圳)有限公司 文本识别方法、装置、介质及电子设备
CN113868420A (zh) * 2021-09-29 2021-12-31 有米科技股份有限公司 文本的特征的确定方法及装置
CN113962199B (zh) * 2021-12-20 2022-04-08 腾讯科技(深圳)有限公司 文本识别方法、装置、设备、存储介质及程序产品

Also Published As

Publication number Publication date
WO2023236246A1 (zh) 2023-12-14

Similar Documents

Publication Publication Date Title
CN108959246B (zh) 基于改进的注意力机制的答案选择方法、装置和电子设备
CN108694225B (zh) 一种图像搜索方法、特征向量的生成方法、装置及电子设备
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN112528029A (zh) 文本分类模型处理方法、装置、计算机设备及存储介质
CN113673260A (zh) 模型处理方法、装置、存储介质和处理器
CN112364664B (zh) 意图识别模型的训练及意图识别方法、装置、存储介质
CN114676689A (zh) 语句文本的识别方法和装置、存储介质及电子装置
CN114936280A (zh) 文本分类方法、文本分类装置、存储介质及电子装置
CN112669215A (zh) 一种训练文本图像生成模型、文本图像生成的方法和装置
CN110209875A (zh) 用户内容画像确定方法、访问对象推荐方法和相关装置
CN108320740B (zh) 一种语音识别方法、装置、电子设备及存储介质
CN113869398B (zh) 一种不平衡文本分类方法、装置、设备及存储介质
CN109829040B (zh) 一种智能对话方法及装置
CN117056494B (zh) 开放域问答的方法、装置、电子设备和计算机存储介质
CN105992178B (zh) 一种垃圾短信识别方法及装置
CN110019832B (zh) 语言模型的获取方法和装置
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
CN115525740A (zh) 对话应答语句的生成方法、装置、电子设备及存储介质
CN113220828A (zh) 意图识别模型处理方法、装置、计算机设备及存储介质
CN116645956A (zh) 语音合成方法、语音合成系统、电子设备及存储介质
CN117236320A (zh) 文本信息的识别方法和装置、存储介质和电子装置
CN116958738A (zh) 图片识别模型的训练方法和装置、存储介质及电子设备
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113204973B (zh) 答非所问识别模型的训练方法、装置、设备和存储介质
CN114925158A (zh) 语句文本的意图识别方法和装置、存储介质及电子装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination