CN113723484B - 短链接生成方法、系统和电子设备 - Google Patents
短链接生成方法、系统和电子设备 Download PDFInfo
- Publication number
- CN113723484B CN113723484B CN202110960732.5A CN202110960732A CN113723484B CN 113723484 B CN113723484 B CN 113723484B CN 202110960732 A CN202110960732 A CN 202110960732A CN 113723484 B CN113723484 B CN 113723484B
- Authority
- CN
- China
- Prior art keywords
- training
- text
- feature vector
- short
- vector sequence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及短链接的领域,具体地涉及一种短链接生成方法、系统和电子设备,其采用语义理解模型来对短链接的文本进行语义理解以得到短链接的标签,并且本申请考虑到短链接的文本是基于长链接的文本通过生成算法自动生成的,因此在语义理解模型中,充分利用了长链接的文本信息和短链接的文本信息两者以在短链接的生成阶段中对于该短链接进行需要唤起的APP进行标注。这样,基于所述短连接的标注能够支持不同APP的唤起功能。
Description
技术领域
本申请涉及短链接的领域,且更为具体地,涉及一种短链接生成方法、系统和电子设备。
背景技术
短链接是指通讯双方有数据交互时,就建立一个链接,数据发送完成后,则断开此链接,即每次链接只完成一项业务的发送。短链接具有不需要长期占用通道,且对于业务频率不高的场合能节省通道使用率的优点。并且现今实现技术语言Java,相关技术使用Nginx,SpringBoot,Redis,MySQL。采用自定义算法、缓存处理等方式保证短链接转换处理快速。
但是,在实际的应用过程中,通过手机Push、短信等方式发送URL链接过长会引起字符集转化、参数太长而占用网络资源,短信长度太长而导致分条发送等各种问题。并且现有的技术导致URL链接字符过多,这就会占用短信等内容长度。因此,如何实现同一套短链接系统支持不同APP唤起功能是需要考虑的问题。
因此,期望一种短链接生成方案。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种短链接生成方法、系统和电子设备,其采用语义理解模型来对短链接的文本进行语义理解以得到短链接的标签,并且本申请考虑到短链接的文本是基于长链接的文本通过生成算法自动生成的,因此在语义理解模型中,充分利用了长链接的文本信息和短链接的文本信息两者以在短链接的生成阶段中对于该短链接进行需要唤起的APP进行标注。这样,基于所述短连接的标注能够支持不同APP的唤起功能。
根据本申请的一个方面,提供了一种短链接生成方法,其包括:
训练阶段,包括:
获取训练数据集,所述训练数据集包括训练用长链接文本和对应于所述训练用长链接文本的真实短链接文本;
将所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列,其中,所述训练用特征向量序列中的每个训练用特征向量对应于所述训练用长文本所对应的短链接文本的一个字符;
将所述训练用特征向量序列通过解码器模型以将所述训练用特征向量序列解码为解码短链接文本;
通过最小化所述解码短链接文本和所述训练集中的真实短连接文本之间的差异来训练所述语义理解模型和所述解码器模型;以及
预测阶段,包括:
获取待编码的长链接文本;
将所述待编码的长链接文本输入经训练阶段训练完成的所述语义理解模型以获得特征向量序列;
将所述特征向量序列通过经训练阶段训练完成的所述解码器模型以获得生成短连接文本;
将所述特征向量序列通过转换器以获得由多个掩码转换值组成的分类特征向量,其中,所述转换器基于其内在的结构计算所述特征向量序列中每个特征向量的掩码转换值;以及
将所述分类特征向量通过多标签分类器以对所述生成短链接文本进行类别标注,以获得具有类别标注的短链接文本。
根据本申请的另一方面,提供了一种短链接生成系统,其包括:
训练模块,包括:
数据集获取单元,用于获取训练数据集,所述训练数据集包括训练用长链接文本和对应于所述训练用长链接文本的真实短链接文本;
训练用特征向量序列生成单元,用于将所述数据集获取单元获得的所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列,其中,所述训练用特征向量序列中的每个训练用特征向量对应于所述训练用长文本所对应的短链接文本的一个字符;
解码单元,用于将所述训练用特征向量序列生成单元获得的所述训练用特征向量序列通过解码器模型以将所述训练用特征向量序列解码为解码短链接文本;
训练单元,用于通过最小化所述解码单元获得的所述解码短链接文本和所述数据集获取单元获得的所述训练集中的真实短连接文本之间的差异来训练所述语义理解模型和所述解码器模型;以及
预测模块,包括:
待编码文本获取单元,用于获取待编码的长链接文本;
语义理解模型处理单元,用于将所述待编码文本获取单元获得的所述待编码的长链接文本输入经训练阶段训练完成的所述语义理解模型以获得特征向量序列;
解码器模型处理单元,用于将所述语义理解模型处理单元获得的所述特征向量序列通过经训练阶段训练完成的所述解码器模型以获得生成短连接文本;
分类特征向量生成单元,用于将所述语义理解模型处理单元获得的所述特征向量序列通过转换器以获得由多个掩码转换值组成的分类特征向量,其中,所述转换器基于其内在的结构计算所述特征向量序列中每个特征向量的掩码转换值;以及
分类器处理单元,用于将所述分类特征向量生成单元获得的所述分类特征向量通过多标签分类器以对所述解码器模型处理单元获得的所述生成短链接文本进行类别标注,以获得具有类别标注的短链接文本。
根据本申请的再一方面,提供了一种电子设备,包括:处理器;以及,存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的短链接生成方法。
与现有技术相比,本申请的实施例提供了一种短链接生成方法、系统和电子设备,其采用语义理解模型来对短链接的文本进行语义理解以得到短链接的标签,并且本申请考虑到短链接的文本是基于长链接的文本通过生成算法自动生成的,因此在语义理解模型中,充分利用了长链接的文本信息和短链接的文本信息两者以在短链接的生成阶段中对于该短链接进行需要唤起的APP进行标注。通过这样的方式,可以使得对于短链接文本进行基于语义标注的效果更好。
附图说明
通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1为根据本申请实施例的短链接生成方法中训练阶段的流程图。
图2为根据本申请实施例的短链接生成方法中预测阶段的流程图。
图3为根据本申请实施例的短链接生成方法中训练阶段的架构示意图。
图4为根据本申请实施例的短链接生成方法中预测阶段的架构示意图。
图5为根据本申请实施例的短链接生成方法中,将所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列的流程图。
图6为根据本申请实施例的短链接生成方法中,通过最小化所述解码短链接文本和所述训练集中的真实短连接文本之间的差异来训练所述语义理解模型和所述解码器模型的流程图。
图7为根据本申请实施例的短链接生成系统的框图。
图8为根据本申请实施例的短链接生成系统中训练用特征向量序列生成单元的框图。
图9为根据本申请实施例的短链接生成系统中训练单元的框图。
图10为根据本申请实施例的电子设备的框图。
具体实施方式
下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。
场景概述
如上所述,在实际的应用过程中,通过手机Push、短信等方式发送URL链接过长会引起字符集转化、参数太长而占用网络资源,短信长度太长而导致分条发送等各种问题。并且现有的技术导致URL链接字符过多,这就会占用短信等内容长度。因此,如何实现同一套短链接系统支持不同APP唤起功能是需要考虑的问题。因此,期望一种短链接生成方案。
相应地,在本申请中,短链接的字符生成部分可以采用多种编码方法实现,从而从普通链接生成对于字符大小写敏感且链接唯一的短链接,但是,考虑到后续短链接还需要由智能手机识别以唤起对应的APP功能,因此期望在短链接的生成阶段即对于该短链接进行需要唤起的APP的标注。
本申请的申请人注意到,这是一个标准的基于字符数据的标签标注问题,因此,可以采用当前成熟的语义理解模型来对短链接的文本进行语义理解,从而得到短链接的标签。并且,考虑到短链接的文本是基于长链接的文本通过生成算法自动生成的,在语义理解模型中,如果能够充分利用长链接的文本信息和短链接的文本信息两者,那么显然更有助于对短链接文本进行基于语义的标注。
在语义理解模型中,如何对文本进行编码从而得到相应的特征向量序列是语义理解的准确性的重要环节,本申请的申请人考虑到当前例如Bert模型的语义理解模型的预测机制越发完善,因此可以将长链接文本到短链接文本的生成认为是一个预测过程,从而通过Bert模型来从长链接文本生成短链接文本的特征向量序列,这就解决了基于语义进行短链接的文本的特征编码的问题。
因此,在本申请的技术方案中,首先使用例如Bert模型的语义理解模型作为预测编码模型,从训练集中的长链接文本获得特征向量序列,其中特征向量序列中的每个特征向量对应于长链接文本所对应的短链接文本的一个字符。然后,通过由多个全连接层构成的解码器模型从所述特征向量序列恢复短链接文本,并通过最小化恢复出的短链接文本与训练集中的真实的短链接文本的差异来训练预测编码模型和解码器模型,从而获得能够基于语义进行短链接的文本的特征编码的编码器模型。
这样,当新生成短链接时,就可以将新生成的短链接对应的长链接文本输入训练好的编码器模型,从而得到对应于生成的短链接对应的特征向量序列,并通过对特征向量序列进行分类来进行短链接文本的标注。
同样,考虑到在诸如Bert模型的语义理解模型中均包含用于预测的转换器(transformer)模型,因此期望通过特征向量序列中的多个特征向量的上下文关系来进行分类,而不是简单地对多个特征向量进行并行的回归分类,例如级联后分类。因此,基于转换器的内在结构计算每个特征向量的掩码转换值,即:
其中Fi为每个特征向量,Fj是特征向量序列中Fi以外的特征向量,∑j≠i(·)表示对所有特征向量Fj求和,表示Fi与Fj之间的距离,且α表示Fi是否在预测编码过程被掩码。其中如果Fi在预测编码过程被掩码,则取预定值,而如果Fi在预测编码过程未被掩码,则取预定值的负数。
这样,在得到每个特征向量的掩码转换值之后,将掩码转换值构成为分类向量,并通过多标签分类器来标注短链接文本的类别。
基于此,本申请提出了一种短链接生成方法,其包括:训练阶段和预测阶段,其中,训练阶段包括步骤:获取训练数据集,所述训练数据集包括训练用长链接文本和对应于所述训练用长链接文本的真实短链接文本;将所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列,其中,所述训练用特征向量序列中的每个训练用特征向量对应于所述训练用长文本所对应的短链接文本的一个字符;将所述训练用特征向量序列通过解码器模型以将所述训练用特征向量序列解码为解码短链接文本;以及,通过最小化所述解码短链接文本和所述训练集中的真实短连接文本之间的差异来训练所述语义理解模型和所述解码器模型。其中,预测阶段包括步骤:获取待编码的长链接文本;将所述待编码的长链接文本输入经训练阶段训练完成的所述语义理解模型以获得特征向量序列;将所述特征向量序列通过经训练阶段训练完成的所述解码器模型以获得生成短连接文本;将所述特征向量序列通过转换器以获得由多个掩码转换值组成的分类特征向量,其中,所述转换器基于其内在的结构计算所述特征向量序列中每个特征向量的掩码转换值;以及,将所述分类特征向量通过多标签分类器以对所述生成短链接文本进行类别标注,以获得具有类别标注的短链接文本。这样,基于所述短连接的标注能够支持不同APP的唤起功能。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示例性方法
图1图示了根据本申请实施例的短链接生成方法中训练阶段的流程图。如图1所示,根据本申请实施例的短链接生成方法,包括:训练阶段,包括:S110,获取训练数据集,所述训练数据集包括训练用长链接文本和对应于所述训练用长链接文本的真实短链接文本;S120,将所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列,其中,所述训练用特征向量序列中的每个训练用特征向量对应于所述训练用长文本所对应的短链接文本的一个字符;S130,将所述训练用特征向量序列通过解码器模型以将所述训练用特征向量序列解码为解码短链接文本;以及,S140,通过最小化所述解码短链接文本和所述训练集中的真实短连接文本之间的差异来训练所述语义理解模型和所述解码器模型。
图2图示了根据本申请实施例的短链接生成方法中预测阶段的流程图。如图2所示,根据本申请实施例的短链接生成方法,还包括:预测阶段,包括:S210,获取待编码的长链接文本;S220,将所述待编码的长链接文本输入经训练阶段训练完成的所述语义理解模型以获得特征向量序列;S230,将所述特征向量序列通过经训练阶段训练完成的所述解码器模型以获得生成短连接文本;S240,将所述特征向量序列通过转换器以获得由多个掩码转换值组成的分类特征向量,其中,所述转换器基于其内在的结构计算所述特征向量序列中每个特征向量的掩码转换值;以及,S250,将所述分类特征向量通过多标签分类器以对所述生成短链接文本进行类别标注,以获得具有类别标注的短链接文本。
图3图示了根据本申请实施例的短链接生成方法中训练阶段的架构示意图。如图3所示,在训练阶段中,在该网络架构中,首先,将从终端设备获取的所述训练数据集中的训练用长链接文本(例如,如图3中所示意的IN1)输入语义理解模型(例如,如图3中所示意的SUM1)以获得训练用特征向量序列(例如,如图3中所示意的ES1),其中,所述训练用特征向量序列中的每个训练用特征向量对应于所述训练用长文本所对应的短链接文本的一个字符;接着,将所述训练用特征向量序列通过解码器模型(例如,如图3中所示意的DM1)以将所述训练用特征向量序列解码为解码短链接文本(例如,如图3中所示意的S1);最后,通过最小化所述解码短链接文本和所述训练集中的真实短连接文本(例如,如图3中所示意的IN2)之间的差异来训练所述语义理解模型和所述解码器模型。
图4图示根据本申请实施例的短链接生成方法中预测阶段的架构示意图。如图4所示,在预测阶段中,在该网络架构中,首先,将获取的所述待编码的长链接文本(例如,如图4中所示意的IN)输入经训练阶段训练完成的所述语义理解模型(例如,如图4中所示意的SUM2)以获得特征向量序列(例如,如图4中所示意的ES2);接着,将所述特征向量序列通过经训练阶段训练完成的所述解码器模型(例如,如图4中所示意的DM2)以获得生成短连接文本(例如,如图4中所示意的S2);然后,将所述特征向量序列通过转换器(例如,如图4中所示意的C)以获得由多个掩码转换值组成的分类特征向量(例如,如图4中所示意的V);以及,最后,将所述分类特征向量通过多标签分类器(例如,如图4中所示意的分类器)以对所述生成短链接文本进行类别标注,以获得具有类别标注的短链接文本(例如,如图4中所示意的S)。
更具体地,在训练阶段中,在步骤S110中,获取训练数据集,所述训练数据集包括训练用长链接文本和对应于所述训练用长链接文本的真实短链接文本。如前所述,短链接的字符生成部分可以采用多种编码方法实现,从而从普通链接生成对于字符大小写敏感且链接唯一的短链接,但是,考虑到后续短链接还需要由智能手机识别以唤起对应的APP功能,因此,在本申请的技术方案中,期望在短链接的生成阶段即对于该短链接进行需要唤起的APP的标注,这样,首先就需要获取所述训练数据集以便于后续对于需要唤起的APP进行更准确的标注。
在一个具体示例中,可以从终端设备获取所述训练数据集,值得一提的是,所述终端设备包括但不局限于智能手机、智能平板、智能计算机以及智能手环等。
更具体地,在训练阶段中,在步骤S120中,将所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列,其中,所述训练用特征向量序列中的每个训练用特征向量对应于所述训练用长文本所对应的短链接文本的一个字符。应可以理解,本申请采用当前成熟的语义理解模型来对短链接的文本进行语义理解,从而得到短链接的标签。并且,考虑到短链接的文本是基于长链接的文本通过生成算法自动生成的,在语义理解模型中,如果能够充分利用长链接的文本信息和短链接的文本信息两者,那么显然更有助于对短链接文本进行基于语义的标注。也就是,首先使用例如Bert模型的语义理解模型作为预测编码模型,从所述训练集中的长链接文本获得特征向量序列,其中特征向量序列中的每个特征向量对应于长链接文本所对应的短链接文本的一个字符。
具体地,在本申请实施例中,将所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列的过程,包括:首先,使用所述语义理解模型的词嵌入层将所述训练用长连接文本中的每个词转化为词向量以获得词向量序列;然后,使用所述语义理解模型的Bert模型对所述词向量序列进行处理以获得所述训练用特征向量序列。应可以理解,考虑到在语义理解模型中,如何对文本进行编码从而得到相应的特征向量序列是语义理解的准确性的重要环节,本申请考虑到当前例如Bert模型的语义理解模型的预测机制越发完善,因此,在本申请的技术方案中,可以将长链接文本到短链接文本的生成认为是一个预测过程,从而通过Bert模型来从长链接文本生成短链接文本的特征向量序列,这就解决了基于语义进行短链接的文本的特征编码的问题。
图5为根据本申请实施例的短链接生成方法中,将所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列的流程图。如图5所示,在本申请实施例中,将所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列,包括:S310,使用所述语义理解模型的词嵌入层将所述训练用长连接文本中的每个词转化为词向量以获得词向量序列;S320,使用所述语义理解模型的Bert模型对所述词向量序列进行处理以获得所述训练用特征向量序列。
更具体地,在训练阶段中,在步骤S130和步骤S140中,将所述训练用特征向量序列通过解码器模型以将所述训练用特征向量序列解码为解码短链接文本,并通过最小化所述解码短链接文本和所述训练集中的真实短连接文本之间的差异来训练所述语义理解模型和所述解码器模型。也就是,通过由多个全连接层构成的解码器模型从所述特征向量序列恢复短链接文本,并通过最小化恢复出的短链接文本与训练集中的真实的短链接文本的差异来训练预测编码模型和解码器模型,从而获得能够基于语义进行短链接的文本的特征编码的编码器模型。应可以理解,这里充分利用了所述长链接的文本信息和所述短链接的文本信息两者之间的关联性特征以对于所述语义理解模型和所述解码器模型进行训练,从而使得对所述短链接文本进行基于语义标注的准确度更高。
具体地,在本申请实施例中,所述解码器模型为由多个全连接层组成的深度全连接神经网络模型。并且通过最小化所述解码短链接文本和所述训练集中的真实短连接文本之间的差异来训练所述语义理解模型和所述解码器模型的过程,包括:首先,计算所述解码短链接文本和所述训练集中的真实短连接文本交叉熵损失函数值作为损失函数值,这里,所述交叉熵损失函数值表示所述短链接文本与所述真实的短链接文本之间的差异程度。然后,基于所述损失函数值来训练所述语义理解模型和所述解码器模型。
图6为根据本申请实施例的短链接生成方法中,通过最小化所述解码短链接文本和所述训练集中的真实短连接文本之间的差异来训练所述语义理解模型和所述解码器模型的流程图。如图6所示,在本申请实施例中,通过最小化所述解码短链接文本和所述训练集中的真实短连接文本之间的差异来训练所述语义理解模型和所述解码器模型,包括:S410,计算所述解码短链接文本和所述训练集中的真实短连接文本交叉熵损失函数值作为损失函数值;S420,基于所述损失函数值来训练所述语义理解模型和所述解码器模型。
在训练完成后,进入预测阶段。也就是,在使用短链接生成算法来训练卷积神经网络后,将训练完成的卷积神经网络用于新生成短链接文本的类别标注中进行预测。
更具体地,在预测阶段中,在步骤S210和步骤S220中,获取待编码的长链接文本,并将所述待编码的长链接文本输入经训练阶段训练完成的所述语义理解模型以获得特征向量序列。也就是,首先,从终端设备中获取待编码的长链接文本;然后,将所述待编码的长链接文本输入至经训练阶段训练完成的所述语义理解模型中,以通过所述训练后的语义理解模型对所述待编码的长链接文本进行处理,以提取出所述长链接文本数据中的文本信息,从而获得所述特征向量序列。
更具体地,在预测阶段中,在步骤S230中,将所述特征向量序列通过经训练阶段训练完成的所述解码器模型以获得生成短连接文本。也就是,将所述特征向量序列通过训练阶段训练完成的所述解码器模型,以通过所述训练后的解码器模型对所述特征向量序列进行处理,从而生成短链接文本。
更具体地,在预测阶段中,在步骤S240中,将所述特征向量序列通过转换器以获得由多个掩码转换值组成的分类特征向量,其中,所述转换器基于其内在的结构计算所述特征向量序列中每个特征向量的掩码转换值。应可以理解,考虑到在诸如Bert模型的语义理解模型中均包含用于预测的转换器模型,因此,在本申请的技术方案中,期望通过特征向量序列中的多个特征向量的上下文关系来进行分类,而不是简单地对多个特征向量进行并行的回归分类,例如级联后分类。因此,基于转换器的内在结构计算每个特征向量的掩码转换值。
具体地,在本申请实施例中,将所述特征向量序列通过转换器以获得由多个掩码转换值组成的分类特征向量的过程,包括:所述转换器以如下公式所述特征向量序列中每个特征向量的掩码转换值;所述公式为:
其中Fi为每个特征向量,Fj是特征向量序列中Fi以外的特征向量,∑j≠i(·)表示对所有特征向量Fj求和,表示Fi与Fj之间的距离,且α表示Fi是否在预测编码过程被掩码。特别地,如果Fi在预测编码过程被掩码,则取预定值,而如果Fi在预测编码过程未被掩码,则取预定值的负数。
更具体地,在预测阶段中,在步骤S250中,将所述分类特征向量通过多标签分类器以对所述生成短链接文本进行类别标注,以获得具有类别标注的短链接文本。也就是,在得到每个所述特征向量的掩码转换值之后,将所述掩码转换值构成为所述分类向量,并通过多标签分类器来标注短链接文本的类别。
具体地,在本申请实施例中,将所述分类特征向量通过多标签分类器以对所述生成短链接文本进行类别标注,以获得具有类别标注的短链接文本的过程,包括:首先,将所述分类特征向量通过所述多标签分类器的Softmax分类函数以获得所述分类特征向量分别归属于各个类别标签的概率值;然后,将所述多个概率值中最大者对应的类别标签作为所述生成短文本连接的类别。
综上,基于本申请实施例的短链接生成方法被阐明,其采用语义理解模型来对短链接的文本进行语义理解以得到短链接的标签,并且本申请考虑到短链接的文本是基于长链接的文本通过生成算法自动生成的,因此在语义理解模型中,充分利用了长链接的文本信息和短链接的文本信息两者以在短链接的生成阶段中对于该短链接进行需要唤起的APP进行标注。这样,基于所述短连接的标注能够支持不同APP的唤起功能。
示例性系统
图7为根据本申请实施例的短链接生成系统的框图。如图7所示,根据本申请实施例的短链接生成系统800,包括:训练模块810和预测模块820。
如图7所示,所述训练模块810,包括:数据集获取单元811,用于获取训练数据集,所述训练数据集包括训练用长链接文本和对应于所述训练用长链接文本的真实短链接文本;训练用特征向量序列生成单元812,用于将所述数据集获取单元811获得的所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列,其中,所述训练用特征向量序列中的每个训练用特征向量对应于所述训练用长文本所对应的短链接文本的一个字符;解码单元813,用于将所述训练用特征向量序列生成单元812获得的所述训练用特征向量序列通过解码器模型以将所述训练用特征向量序列解码为解码短链接文本;以及,训练单元814,用于通过最小化所述解码单元813获得的所述解码短链接文本和所述数据集获取单元811获得的所述训练集中的真实短连接文本之间的差异来训练所述语义理解模型和所述解码器模型。
如图7所示,所述预测模块820,包括:待编码文本获取单元821,用于获取待编码的长链接文本;语义理解模型处理单元822,用于将所述待编码文本获取单元821获得的所述待编码的长链接文本输入经训练阶段训练完成的所述语义理解模型以获得特征向量序列;解码器模型处理单元823,用于将所述语义理解模型处理单元822获得的所述特征向量序列通过经训练阶段训练完成的所述解码器模型以获得生成短连接文本;分类特征向量生成单元824,用于将所述语义理解模型处理单元822获得的所述特征向量序列通过转换器以获得由多个掩码转换值组成的分类特征向量,其中,所述转换器基于其内在的结构计算所述特征向量序列中每个特征向量的掩码转换值;以及,分类器处理单元825,用于将所述分类特征向量生成单元824获得的所述分类特征向量通过多标签分类器以对所述解码器模型处理单元823获得的所述生成短链接文本进行类别标注,以获得具有类别标注的短链接文本。
在一个示例中,在短链接生成系统800中,如图8所示,所述训练用特征向量序列生成单元812,包括:词向量序列生成子单元8121,用于使用所述语义理解模型的词嵌入层将所述训练用长连接文本中的每个词转化为词向量以获得词向量序列;以及,词向量序列处理子单元8122,用于使用所述语义理解模型的Bert模型对所述词向量序列生成子单元8121获得的所述词向量序列进行处理以获得所述训练用特征向量序列。
在一个示例中,在短链接生成系统800中,如图9所示,所述训练单元814,包括:损失函数值计算子单元8141,用于计算所述解码短链接文本和所述训练集中的真实短连接文本交叉熵损失函数值作为损失函数值;以及,基于函数值训练子单元8142,用于基于所述损失函数值计算子单元8141获得的所述损失函数值来训练所述语义理解模型和所述解码器模型。
在一个示例中,在短链接生成系统800中,所述解码器模型为由多个全连接层组成的深度全连接神经网络模型。
在一个示例中,在短链接生成系统800中,所述分类特征向量生成单元824,进一步用于:所述转换器以如下公式所述特征向量序列中每个特征向量的掩码转换值;所述公式为:
在一个示例中,在短链接生成系统800中,所述分类特征向量生成单元824,进一步用于:如果Fi在预测编码过程被掩码,则取预定值,而如果Fi在预测编码过程未被掩码,则取预定值的负数。
在一个示例中,在短链接生成系统800中,所述分类器处理单元825,包括:概率值计算子单元,用于将所述分类特征向量通过所述多标签分类器的Softmax分类函数以获得所述分类特征向量分别归属于各个类别标签的概率值;以及,类别确定子单元,用于将所述概率值计算子单元获得的所述多个概率值中最大者对应的类别标签作为所述生成短文本连接的类别。
这里,本领域技术人员可以理解,上述短链接生成系统800中的各个单元和模块的具体功能和操作已经在上面参考图1到图6的短链接生成方法的描述中得到了详细介绍,并因此,将省略其重复描述。
如上所述,根据本申请实施例的短链接生成系统800可以实现在各种终端设备中,例如短链接生成算法的服务器等。在一个示例中,根据本申请实施例的短链接生成系统800可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如,该短链接生成系统800可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该短链接生成系统800同样可以是该终端设备的众多硬件模块之一。
替换地,在另一示例中,该短链接生成系统800与该终端设备也可以是分立的设备,并且该短链接生成系统800可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。
示例性电子设备
下面,参考图10来描述根据本申请实施例的电子设备。
如图10所示,所述电子设备10包括至少一个处理器11和至少一个存储器12。
处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。
存储器12可以包括至少一个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储至少一个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的短链接生成方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如解码短链接文本、特征向量序列等各种内容。
在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
该输入装置13可以包括例如键盘、鼠标等等。
该输出装置14可以向外部输出各种信息,包括类别标注等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图10中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
Claims (10)
1.一种短链接生成方法,其特征在于,包括:训练阶段,包括:获取训练数据集,所述训练数据集包括训练用长链接文本和对应于所述训练用长链接文本的真实短链接文本;将所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列,其中,所述训练用特征向量序列中的每个训练用特征向量对应于所述训练用长文本所对应的短链接文本的一个字符;将所述训练用特征向量序列通过解码器模型以将所述训练用特征向量序列解码为解码短链接文本;通过最小化所述解码短链接文本和所述训练集中的真实短链接文本之间的差异来训练所述语义理解模型和所述解码器模型;以及预测阶段,包括:获取待编码的长链接文本;将所述待编码的长链接文本输入经训练阶段训练完成的所述语义理解模型以获得特征向量序列;将所述特征向量序列通过经训练阶段训练完成的所述解码器模型以获得生成短链接文本;将所述特征向量序列通过转换器以获得由多个掩码转换值组成的分类特征向量,其中,所述转换器基于其内在的结构计算所述特征向量序列中每个特征向量的掩码转换值;以及将所述分类特征向量通过多标签分类器以对所述生成短链接文本进行类别标注,以获得具有类别标注的短链接文本。
2.根据权利要求1所述的短链接生成方法,其中,将所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列,包括:使用所述语义理解模型的词嵌入层将所述训练用长链接文本中的每个词转化为词向量以获得词向量序列;以及使用所述语义理解模型的Bert模型对所述词向量序列进行处理以获得所述训练用特征向量序列。
3.根据权利要求1所述的短链接生成方法,其中,通过最小化所述解码短链接文本和所述训练集中的真实短链接文本之间的差异来训练所述语义理解模型和所述解码器模型,包括:
计算所述解码短链接文本和所述训练集中的真实短链接文本交叉熵损失函数值作为损失函数值;以及基于所述损失函数值来训练所述语义理解模型和所述解码器模型。
4.根据权利要求3所述的短链接生成方法,其中,所述解码器模型为由多个全连接层组成的深度全连接神经网络模型。
7.根据权利要求1所述的短链接生成方法,其中,将所述分类特征向量通过多标签分类器以对所述生成短链接文本进行类别标注,以获得具有类别标注的短链接文本,包括:
将所述分类特征向量通过所述多标签分类器的Softmax分类函数以获得所述分类特征向量分别归属于各个类别标签的概率值;以及将所述多个概率值中最大者对应的类别标签作为所述生成短链接文本的类别。
8.一种短链接生成系统,其特征在于,包括:训练模块,包括:数据集获取单元,用于获取训练数据集,所述训练数据集包括训练用长链接文本和对应于所述训练用长链接文本的真实短链接文本;训练用特征向量序列生成单元,用于将所述数据集获取单元获得的所述训练数据集中的训练用长链接文本输入语义理解模型以获得训练用特征向量序列,其中,所述训练用特征向量序列中的每个训练用特征向量对应于所述训练用长文本所对应的短链接文本的一个字符;解码单元,用于将所述训练用特征向量序列生成单元获得的所述训练用特征向量序列通过解码器模型以将所述训练用特征向量序列解码为解码短链接文本;训练单元,用于通过最小化所述解码单元获得的所述解码短链接文本和所述数据集获取单元获得的所述训练集中的真实短链接文本之间的差异来训练所述语义理解模型和所述解码器模型;以及预测模块,包括:待编码文本获取单元,用于获取待编码的长链接文本;语义理解模型处理单元,用于将所述待编码文本获取单元获得的所述待编码的长链接文本输入经训练阶段训练完成的所述语义理解模型以获得特征向量序列;解码器模型处理单元,用于将所述语义理解模型处理单元获得的所述特征向量序列通过经训练阶段训练完成的所述解码器模型以获得生成短链接文本;分类特征向量生成单元,用于将所述语义理解模型处理单元获得的所述特征向量序列通过转换器以获得由多个掩码转换值组成的分类特征向量,其中,所述转换器基于其内在的结构计算所述特征向量序列中每个特征向量的掩码转换值;以及分类器处理单元,用于将所述分类特征向量生成单元获得的所述分类特征向量通过多标签分类器以对所述解码器模型处理单元获得的所述生成短链接文本进行类别标注,以获得具有类别标注的短链接文本。
9.根据权利要求8所述的短链接生成系统,其中,所述训练用特征向量序列生成单元,包括:词向量序列生成子单元,用于使用所述语义理解模型的词嵌入层将所述训练用长链接文本中的每个词转化为词向量以获得词向量序列;以及词向量序列处理子单元,用于使用所述语义理解模型的Bert模型对所述词向量序列生成子单元获得的所述词向量序列进行处理以获得所述训练用特征向量序列。
10.一种电子设备,包括:处理器;以及存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-7中任一项所述的短链接生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110960732.5A CN113723484B (zh) | 2021-08-20 | 2021-08-20 | 短链接生成方法、系统和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110960732.5A CN113723484B (zh) | 2021-08-20 | 2021-08-20 | 短链接生成方法、系统和电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113723484A CN113723484A (zh) | 2021-11-30 |
CN113723484B true CN113723484B (zh) | 2022-08-02 |
Family
ID=78677117
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110960732.5A Active CN113723484B (zh) | 2021-08-20 | 2021-08-20 | 短链接生成方法、系统和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723484B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111601314A (zh) * | 2020-05-27 | 2020-08-28 | 北京亚鸿世纪科技发展有限公司 | 预训练模型加短信地址双重判定不良短信的方法和装置 |
CN112307369A (zh) * | 2019-07-31 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种短链接处理方法、装置、终端及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10955463B2 (en) * | 2014-04-25 | 2021-03-23 | Rohde & Schwarz Gmbh & Co. Kg | Measuring device with functional units controllable via a block diagram |
-
2021
- 2021-08-20 CN CN202110960732.5A patent/CN113723484B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307369A (zh) * | 2019-07-31 | 2021-02-02 | 腾讯科技(深圳)有限公司 | 一种短链接处理方法、装置、终端及存储介质 |
CN111601314A (zh) * | 2020-05-27 | 2020-08-28 | 北京亚鸿世纪科技发展有限公司 | 预训练模型加短信地址双重判定不良短信的方法和装置 |
Non-Patent Citations (2)
Title |
---|
基于内容提取的短链接生成算法研究;薛富 等;《网络安全技术与应用》;20140228(第2期);全文 * |
短网址服务系统的实现及相关技术研究;郭一华;《软件》;20170131;第38卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113723484A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639175B (zh) | 一种自监督的对话文本摘要方法及系统 | |
CN110288980A (zh) | 语音识别方法、模型的训练方法、装置、设备及存储介质 | |
CN111460807A (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
CN112269868A (zh) | 一种基于多任务联合训练的机器阅读理解模型的使用方法 | |
CN112632314A (zh) | 一种图像检索方法、系统、设备以及介质 | |
CN111738169A (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
US20240078385A1 (en) | Method and apparatus for generating text | |
CN111767697B (zh) | 文本处理方法、装置、计算机设备以及存储介质 | |
CN117251795A (zh) | 基于自适应融合的多模态虚假新闻检测方法 | |
CN110516125B (zh) | 识别异常字符串的方法、装置、设备及可读存储介质 | |
CN112232070A (zh) | 自然语言处理模型构建方法、系统、电子设备及存储介质 | |
CN111898338A (zh) | 文本生成方法、装置和电子设备 | |
CN113723484B (zh) | 短链接生成方法、系统和电子设备 | |
CN116956289B (zh) | 动态调整潜在黑名单和黑名单的方法 | |
CN116127925A (zh) | 基于对文本进行破坏处理的文本数据增强方法及装置 | |
CN113434650B (zh) | 问答对扩展方法、装置、电子设备及可读存储介质 | |
CN113723107A (zh) | 智能终端间的联系人信息传送提取方法、系统和电子设备 | |
CN115311664A (zh) | 图像中文本类别的识别方法、装置、介质及设备 | |
CN115827856A (zh) | 一种基于计算机的军工领域消息的传递方法 | |
CN115687607A (zh) | 文本标签识别方法及系统 | |
Wang et al. | Capsule network based on multi-granularity attention model for text classification | |
CN114444443A (zh) | 一种标识识别方法、装置及终端设备 | |
CN112559750A (zh) | 文本数据的分类方法、装置、非易失性存储介质、处理器 | |
Bijoy et al. | Image Tagging by Fine-tuning Class Semantics Using Text Data from Web Scraping | |
CN118332387B (zh) | 一种应用基于bert模型的文本内容分类系统的分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |