CN110866195A

CN110866195A - 文本描述的生成方法、装置、电子设备及存储介质

Info

Publication number: CN110866195A
Application number: CN201911117717.3A
Authority: CN
Inventors: 邓颖; 张金超; 牛成
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-12
Filing date: 2019-11-12
Publication date: 2020-03-06
Anticipated expiration: 2039-11-12
Also published as: CN110866195B

Abstract

本发明实施例公开了一种文本描述的生成方法、装置、电子设备及介质，其中方法包括：获取目标单位关联的原始文本；根据原始文本生成目标数值，目标数值用于优化预设置的模型；根据目标数值针对所述模型执行迭代优化，以完成所述模型的训练；获取目标地理位置点关联的N条原始文本；将N条原始文本输入所述模型中，生成N条文本对应的N条语义特征文本；计算N条语义特征文本的加权平均和，得到目标地理位置点的分布式表示文本；将分布式表示文本输入预设的解码器中，得到目标地理位置点的文本描述。实施本发明实施例有利于提升生成文本描述的效率以及生成文本描述的便捷性。

Description

文本描述的生成方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，具体涉及多数据处理技术领域，尤其涉及一种文本描述的生成方法、一种文本描述的生成装置、一种电子设备及一种计算机存储介质。

背景技术

随着电子技术的进步，互联网的发展，大众可以通过互联网自由的发表对于物品，地理位置等感兴趣的事物评论。当前，针对具体位置地点，物体的文本描述通常都是由专业的人员编辑生成的，但专业人员编辑的内容比较单一，且内容往往比较主观；如果根据位置地点或者物体的评论信息生成对应的文本描述可充分多的利用互联网中评论的价值，且可利用信息更多，使得生成的文本描述包含的信息更加丰富也更加客观；但目前缺少很好的将互联网中评论信息进行分类和融合的方法，导致无法全面深入的挖掘互联网评论中的信息，进而无法生成针对物体或者地理位置点全面、精准的文本描述。

发明内容

本发明实施例提供了一种文本描述的生成方法、装置、电子设备及计算机存储介质，有利于提升生成文本描述的效率以及生成文本描述的便捷性。

一方面，本发明实施例提供了一种文本描述的生成方法，该文本描述的生成方法包括：

获取目标单位关联的原始文本；

根据所述原始文本生成目标数值，所述目标数值用于优化预设置的模型；

根据所述目标数值针对所述模型执行迭代优化，以完成所述模型的训练；

获取目标地理位置点关联的N条原始文本，N为正整数；

将所述N条原始文本输入所述模型中，生成所述N条文本对应的N条语义特征文本；

计算所述N条语义特征文本的加权平均和，得到所述目标地理位置点的分布式表示文本；

将所述分布式表示文本输入预设的解码器中，得到所述目标地理位置点的文本描述。

另一方面，本发明实施例提供了一种文本描述的生成装置，该文本描述的生成装置包括：

通信单元，用于获取目标单位关联的原始文本；

处理单元，用于根据所述原始文本生成目标数值，所述目标数值用于优化预设置的模型；以及用于根据所述目标数值针对所述模型执行迭代优化，以完成所述模型的训练；

所述通信单元，获取目标地理位置点关联的N条原始文本，N为正整数；

所述处理单元，用于将所述N条原始文本输入所述模型中，生成所述N条文本对应的N条语义特征文本；以及用于计算所述N条语义特征文本的加权平均和，得到所述目标地理位置点的分布式表示文本；以及用于将所述分布式表示文本输入预设的解码器中，得到所述目标地理位置点的文本描述。

再一方面，本发明实施例提供了一种电子设备，所述电子设备包括输入设备和输出设备，所述电子设备还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

获取目标单位关联的原始文本；

获取目标地理位置点关联的N条原始文本，N为正整数；

再一方面，本发明实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如下步骤：

获取目标单位关联的原始文本；

获取目标地理位置点关联的N条原始文本，N为正整数；

本发明实施例中电子设备首先获取目标单位关联的原始文本；其次根据原始文本生成目标数值，目标数值用于优化预设置的模型；其次根据目标数值针对模型执行迭代优化，以完成模型的训练；其次获取目标地理位置点关联的N条原始文本；将N条原始文本输入模型中，生成N条文本对应的N条语义特征文本；计算N条语义特征文本的加权平均和，得到目标地理位置点的分布式表示文本；将分布式表示文本输入预设的解码器中，得到目标地理位置点的文本描述。由此可见，本发明实施例将原始文本全部输入生成分布式表示文本，而不是根据原始文本中的少量关键词生成分布式表示文本，有利于充分的挖掘原始文本中的语义特征；计算语义特征文本的加权平均和，实现了信息的全面融合，使得生成的文本描述更加全面、精准。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种神经网络的架构图；

图2A是本发明实施例提供的一种文本描述的生成方法的流程示意图；

图2B是本发明实施例提供的一种模型训练方法的流程示意图；

图3是本发明实施例提供的一种编码器的结构图；

图4是本发明另一实施例提供的一种模型训练方法的流程示意图；

图5是本发明另一实施例提供的一种文本描述的生成方法的交互流程图；

图6是本发明实施例提供的一种文本描述的生成装置的结构示意图；

图7是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明实施例提出一种文本描述的生成方法，以全面的获取原始文本中的信息，并充分的学习原始文本中的语义特征，使得最终训练得到模型可全面、精准的学习目标单位关联的原始文本，进而生成目标单位的文本描述。该文本描述的生成方案可运用在电子设备中，此处的电子设备可以包括但不限于：智能手机、平板电脑、膝上计算机以及台式电脑等等。电子设备可通过互联网或者本端以外的电子设备获取到目标单位关联的原始文本；并根据原始文本进行训练。举例来说，目标单位可以是物体或者地理位置点；原始文本可以是由用户发表的物体或者地理位置点关联的信息内容，例如地理位置点可包含，位置信息，时间，游览体验等多种类型的信息。

如图1所示，图1是本申请实施例中提供的一种神经网络的架构图，本申请实施例提供的文本描述的生成方法可运用在如图1所示的神经网络架构中，其中包括编码器101、解码器102和分类网络103，其中编码器101用于根据输入的原始文本W₁，W₂,……W_L生成该原始文本对应的语义特征文本，其中，W₁表示原始文本中的第一个字符，W₂表示原始文本的第二个字符，同理，W_L表示原始文本中的第L个字符，及该原始文本共包含L个字符。解码器102将编码器101生成的语义特征文本进行无监督学习，并生成输出文本Q₁，Q₂,……Q_L,输出文本中的每个字符与原始文本中的每个字符对应，及W₁对应Q₁，W₂对应Q₂，……W_L对应Q_L。电子设备可计算输出文本中的每个字符与原始文本中每个字符之间的误差，进而确定出输出文本与原始文本之间的重构误差。分类网络103用于计算语义特征文本中每一种特征类别的概率得到特征分布概率P₁，P₂,……P_M少,其中M为特征类别的总数量。电子设备可根据特征分布概率计算得到损失数值，根据损失数值和重构误差确定出目标数值，并根据目标数值针对模型进行迭代优化，以实现针对模型的训练。

需要说明的是，本发明实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

基于上述的描述，本发明实施例提出一种文本描述的生成方法，该文本描述的生成方法可以由电子设备执行。请参见图2A，该文本描述的生成方法可包括以下步骤S201-S205：

S201，获取目标单位关联的原始文本。

其中，目标单位可以是地理位置点，物体等可以被大众评价，描述的事物。其中，原始文本可以是大众发表的与目标单位有关联的信息。其中原始文本可以包括多条信息。

举例来说，目标单位可以是旅游景点，例如华山，原始文本可以是网络上的不同用户对于华山的游览评价，游玩体验，游玩感受等信

S202，根据原始文本生成目标数值，目标数值用于优化预设置的模型；

S203，根据目标数值针对模型执行迭代优化，以完成模型的训练；

S204，获取目标地理位置点关联的N条原始文本，N为正整数；

S205，将N条原始文本输入模型中，生成N条文本对应的N条语义特征文本；

S206，计算N条语义特征文本的加权平均和，得到目标地理位置点的分布式表示文本；

S207，将分布式表示文本输入预设的解码器中，得到目标地理位置点的文本描述。

基于上述的描述，本发明实施例提出一种模型训练方法，该模型训练方法可以由电子设备执行。请参见图2B，该模型训练方法可包括以下步骤S301-S306：

S301，获取目标单位关联的原始文本。

举例来说，目标单位可以是旅游景点，例如华山，原始文本可以是网络上的不同用户对于华山的游览评价，游玩体验，游玩感受等信息。

S302，根据原始文本中的每个字符生成语义特征文本。

其中，根据原始文本中的每个字符生成语义特征文本的具体方式可以是将原始文本中的每个字符输入至预设类型的编码器中，编码器输出对应的语义特征文本。在原始文本中包含多条信息的情况下，每次只输入一条信息，针对输入的一条信息执行本申请实施例中提供的模型训练方法中的步骤，实现对模型的一次迭代优化，直至原始文本中的每条信息均执行了本申请实施例中提供的模型训练方法中的步骤，完成针对模型的训练。本申请实施例中的编码器可由多个子编码层连接构成，如图3所示，其中，每个子编码层均包括自注意力层和前馈神经网络层；编码器将原始文本转换成语义特征文本的具体步骤包括：编码器首先将当前输入的一条文本中包含的每个字符转换成初始词向量；将转换生成的初始词向量输入到第一个子编码层中，第一个子编码层中的自注意力层针对整个初始词向量序列进行计算生成每个初始词向量对应的中间词向量，将中间词向量输入到前馈神经网络层，前馈神经网络层根据每个中间词向量计算得到每个中间词向量对应的输出词向量，及得到了第一个子编码层的输出词向量；将第一个子编码层的输出词向量输入到第二个子编码层中，执行与上述第一个子编码层中相同的步骤，得到第二个子编码层的输出词向量……以此类推，最后一个子编码层的输出即为上述语义特征文本。具体的，本申请实施例中的编码器可以是BERT(Bidirectional Encoder Representation from Transformers)模型，BERT模型是一种双向编码器，可将输入的原始文本编译为对应的语义特征文本。

S303，针对语义特征文本执行无监督学习操作，生成输出文本。

其中，本申请实施例中提供的原始文本是无标签的，在本申请实施例中，无监督学习指的是电子设备对原始文本自动的进行分类或者区分。例如本申请实施例中输入的原始文本中为某个旅游景点的评价信息，评价信息中包括美食、风景、交通等多种类别的信息，针对语义特征文本执行无监督学习之后可将评价信息中包含的信息划分至对应的类别中。具体的，本申请实施例中执行无监督学习的步骤可以在预设的解码器中进行，及将语义特征文本输入到解码器中，解码器输出对应的输出文本。

S304，根据语义特征文本确定目标单位在至少一个特征类型中的特征分布概率。

具体的，可以根据softmax函数计算语义特征文本中包含的每种特征的概率，得到特征分布概率。

S305，根据输出文本和特征分布概率生成目标数值。

其中，输出文本中的每个字符与语义特征文本中的每个字符根据字符在输出文本和原始文本中的位置关系一一对应，如输出文本中的第一个字符与原始文本中的第一个字符对应，输出文本中的第二个字符与原始文本中的第二个字符对应，……输出文本中的最后一个字符与原始文本中的最后一个字符对应。电子设备可计算输出文本中的每个字符和对应的语义特征文本中的字符之间的误差信息，根据字符之间的误差信息确定出输出文本和语义特征文本之间的重构误差。同时电子设备可根据特征分布概率和每种特征预设的指示变量计算得到交叉熵损失。电子设备针对重构误差和交叉熵损失进行求和，得到目标数值。

S306，根据目标数值针对模型执行迭代优化，以完成模型的训练。

本发明实施例首先获取目标单位关联的原始文本；根据原始文本中的每个字符生成语义特征文本，而不是根据原始文本中的少量关键词生成语义特征文本，有利于全面充分的挖掘原始文本中语义特征。针对语义特征文本执行无监督学习操作，生成输出文本，有利于充分的挖掘语义特征文本的关联性，进而全面的学习语义特征。根据语义特征文本确定目标单位在至少一个特征类型中的特征分布概率，有利于确定出原始文本中每种特征类型的概率。根据输出文本和特征分布概率生成目标数值，根据目标数值实现对模型的迭代优化，以完成模型的训练。由此可见，本发明实施例可全面的获取原始文本中的信息；进而使生成的语义特征更加准确；针对语义特征文本进行无监督学习，以充分的学习语义特征文本中涉及的特征类别，深入挖掘语义特征之间的关联性，实现针对语义特征的充分学习。同时结合特征分布概率生成目标数值，使得根据目标数值针对模型的优化更加精准，进而使最终训练完成的模型可实现针对原始文本中包含信息的充分融合，生成全面、精准的文本描述。

请参见图4，是本发明实施例提供的另一种模型训练方法的流程示意图。该模型训练方法可以由电子设备执行。如图4所示，该模型训练方法可包括以下步骤S401-S407：

S401，获取目标单位关联的原始文本。

S402，将原始文本中的每个字符输入到预设编码器，确定预设编码器的输出为语义特征文本。

其中，预设编码器用于根据原始文本生成对应的语义特征；

可见，电子设备将原始文本中包括的字符全部输入到编码器中，而不是筛选原始文本中的少量关键词来生成原始文本对应的语义特征，使得生成的语义特征文本包含的信息更全面，也使得后续针对语义特征文本的学习更加的深入。

S403，针对语义特征文本执行无监督学习操作，生成输出文本。

S404，根据softmax函数针对语义特征文本进行处理，得到特征分布概率。

具体的，特征分布概率P_C＝softmax(e)，c＝1,2，…，M；其中e表示语义特征文本，M为特征类别的总数量。

S405，根据输出文本计算得到重构误差。

其中，重构误差可以是输出文本中每个字符和语义特征文本中每个字符的交叉熵之和，具体计算过程中可根据预设的公式计算，预设的公式可以是：

其中，V是数据库中字符的总数量，例如原始文本为英文，字符的总数量即为数据库中存储的全部英文单词，若原始文本为中文，字符的总数量即为数据中存储的全部的中文汉字；若原始文本中包括中英文，则字符的总数量及为数据库中存储和的全部的中文汉字和英文单词的集合。x_j ^t为语义特征文本中第t个字符的编码数值，具体可以是one-hot编码数值；y_j ^t为输出文本中第t个字符等于词典中第j个字符的概率；

S406，根据特征分布概率计算得到损失数值。

具体的，损失数值可以为交叉熵损失，具体计算公式可以是：

其中，y_c为指示变量，如果语义特征文本中的特征类别与样本的类别相同则y_c为1，否则y_c为0。y_c与P_C对应。

S407，根据重构误差和损失数值生成目标数值。

具体的，目标数值L的计算方式可以是重构误差和损失数值之和，及目标数值L＝L_rec+L_cls。

S408，根据目标数值针对模型执行迭代优化，以完成模型的训练。

在一个实施例中，在完成模型的训练之后，本身申请实施例还可以包括以下步骤：

获取目标地理位置点关联的N条原始文本，N为正整数；将N条原始文本输入模型中，生成N条文本对应的N条语义特征文本；计算N条语义特征文本的加权平均和，得到目标地理位置点的分布式表示文本；将分布式表示文本输入预设的解码器中，得到目标地理位置点的文本描述。

在一个实施例中，在生成地理位置点的文本描述之后，电子设备还可执行如图5所示的步骤，S501-S505：

S501，接收到用户设备发送的位置推荐请求。

具体的，当用户想要出行时，可以输入想要去的地点的特征，例如用户想要去周边开车散心，且希望目的地是有山，有湖，美食的地方；则用户可以在用户设备中输入上述信息，用户设备根据上述信息生成位置推荐请求，并发送给电子设备。

S502，解析位置推荐请求，确定位置推荐请求中包括的第二数量个特征类别和第二数量个特征类别的权重值。

其中，用户在录入时可以设置不同类别对应的权重值，权重值表示对于某一特征的需求程度，例如山对应的权重值为40％(及用户一定要去有山的地方)，湖的权重值为30％，美食的权重值为30％。

S503，若第一数量个特征类别包含第二数量个特征类别，则计算第二数量个特征类别中每个特征类别与对应的特征类别的相似度。

举例来说，用户在录入特征时可具体录入对应的特征，如高度，攀爬难易度；湖的大小，湖中是否设置有人工的游船，美食包括湘菜、粤菜等。在第一数量个特征类型中包括山、湖和美食三个类别时，再根据具体的特征计算每种特征类别的相似度。

S504，根据相似度和第二数量个特征类别的权重计算得到匹配分值。

具体的，将每种类别的相似度和权重相乘，再进行累和，得到匹配分值。

S505，若匹配分值大于预设阈值，则向用户设备发送目标地理位置点的文本描述。

再一个实施例中，在生成地理位置点的文本描述之后，电子设备还可执行如下步骤：

接收到用户设备发送的位置推荐请求；解析位置推荐请求，获取位置推荐请求中包括的至少一个位置信息；确定至少一个位置信息中每个位置信息对应的分布式表示；确定至少一个位置信息的分布式表示包含的特征类别的总数量，得到第三数量个特征类别；确定第三数量个特征类别在至少一个位置信息的分布式中的出现概率；从第三数量个特征类别中筛选出出现概率大于预设阈值的第四数量个特征类别；若目标地理位置点的分布式文本包含第四数量个特征类别，则向用户设备发送目标地理位置点的文本描述。

举例来说，用户设备可存储用户去过的游玩地点的信息，在用户点击用户设备中的游玩地点推荐按钮时，用户设备可根据用户去过的多个游玩地点的信息生成位置推荐请求，并发送给设置有本申请实施例中训练完成的模型的电子设备，电子设备检测是否存储有上述多个游玩地点的分布式表示，若不存在，则获取对应的游玩地点的文本内容，生成对应的分布式表示，得到多个游玩地点中每个游玩地点的分布式表示；确定多个游玩地点的分布式表示中包含的总的特征类别的数量，例如当前有三个游玩地点的分布式表示，其中第一游玩地点的分布式表示包括四种特征类别，第二游玩地点的分布式表示包括三种特征类别，第三游玩地点的分布式表示有两种特征类别，且第一游玩地点和第二游玩地点包含的特征类别均不同，第三游玩地点的两个特征类别中一个特征类别与第一游玩地点中的一个特征类别相同，另一个特征类别与第二游玩地点中的一个特征类别相同，因此上述三个游玩地点的分布式表示包含的总的特征类别的数量为七个。在确定出包含的总的特征类别之后，确定每种特征类别的概率，举例来说，共有十个游玩地点，若一种特征类别在其中八个游玩地点均出现了，则确定出现的概率为80％；预设阈值可以是用户设定的值，例如60％；若总的特征类别中有三个特征类别出现的概率大于60％，则判断目标地理位置点的分布式文本中是否包含上述三个特征类别(三个特征类可以是具体的特征，例如三个特征类别可以是火锅，某品牌专卖店，海景；使得根据特征类别筛选出的目标地理位置点更符合用户的需求)，若包含，则表示目标地理位置点符合用户的需求，向用户设备发送目标地理位置点的文本描述。

基于上述文本描述的生成方法实施例的描述，本发明实施例还公开了一种文本描述的生成装置，所述文本描述的生成装置可以是运行于电子设备中的一个计算机程序(包括程序代码)。该文本描述的生成装置可以执行图2A或图2B或图4所示的方法。请参见图6，所述文本描述的生成装置可以运行如下单元：

通信单元101，用于获取目标单位关联的原始文本；

处理单元102，用于根据所述原始文本生成目标数值，所述目标数值用于优化预设置的模型；以及用于根据所述目标数值针对所述模型执行迭代优化，以完成所述模型的训练；

所述通信单元101，获取目标地理位置点关联的N条原始文本，N为正整数；

所述处理单元102，用于将所述N条原始文本输入所述模型中，生成所述N条文本对应的N条语义特征文本；以及用于计算所述N条语义特征文本的加权平均和，得到所述目标地理位置点的分布式表示文本；以及用于将所述分布式表示文本输入预设的解码器中，得到所述目标地理位置点的文本描述。

再一种实施方式中，所述分布式表示文本包括第一数量个特征类别，处理单元102在用于得到所述目标地理位置点的文本描述之后，具体还用于：接收到电子设备发送的位置推荐请求；解析所述位置推荐请求，确定所述位置推荐请求中包括的第二数量个特征类别和所述第二数量个特征类别的权重值；若所述第一数量个特征类别包含所述第二数量个特征类别，则计算所述第二数量个特征类别中每个特征类别与对应的特征类别的相似度；根据所述相似度和所述第二数量个特征类别的权重计算得到匹配分值；若所述匹配分值大于预设阈值，则向所述电子设备发送所述目标地理位置点的所述文本描述。

再一种实施方式中，所述分布式表示文本包括第一数量个特征类别，处理单元102在用于得到所述目标地理位置点的文本描述之后，具体还用于：接收到用户设备发送的位置推荐请求；解析所述位置推荐请求，获取所述位置推荐请求中包括的至少一个位置信息；确定所述至少一个位置信息中每个位置信息对应的分布式表示；确定所述至少一个位置信息的分布式表示包含的特征类别的总数量，得到第三数量个特征类别；确定所述第三数量个特征类别在所述至少一个位置信息的分布式表示中的出现概率；从所述第三数量个特征类别中筛选出所述出现概率大于预设阈值的第四数量个特征类别；若所述目标地理位置点的分布式文本包含所述第四数量个特征类别，则向所述用户设备发送所述目标地理位置点的所述文本描述。

再一种实施方式中，处理单元102在用于根据所述原始文本生成目标数值时，具体用于：根据所述原始文本中的每个字符生成语义特征文本；针对所述语义特征文本执行无监督学习操作，生成输出文本；根据所述语义特征文本确定所述目标单位在至少一个特征类型中的特征分布概率；根据所述输出文本和所述特征分布概率生成所述目标数值。

在一种实施方式中，处理单元102在用于根据所述输出文本和所述特征分布概率生成所述目标数值时，具体用于：根据所述输出文本计算生成重构误差；根据所述特征分布概率计算得到损失数值；根据所述重构误差和所述损失数值生成目标数值。

再一种实施方式中，处理单元102在用于根据所述输出文本计算生成重构误差时，具体用于：确定所述语义特征文本中每个字符和所述输出文本中每个字符的对应关系；根据所述对应关系确定所述语义特征文本中每个字符和对应的所述输出文本中的字符之间的差异性信息；根据所述差异性信息生成所述语义特征文本和所述输出文本之间的所述重构误差。

再一种实施方式中，处理单元102在用于根据所述输出文本计算生成重构误差时，具体用于：根据预设公式计算所述语义特征文本和所述输出文本的交叉熵之和；所述述预设公式为：

其中，V是数据库中字符的总数量，x_j ^t为所述语义特征文本中第t个字符的编码数值；y_j ^t为所述输出文本中第t个字符等于所述词典中第j个字符的概率；确定所述交叉熵之和为所述重构误差。

再一种实施方式中，处理单元102在用于根据所述语义特征文本确定所述目标单位在至少一个特征类型中的特征分布概率时，具体用于：根据softmax函数针对所述语义特征文本进行处理，得到所述特征分布概率。

再一种实施方式中，处理单元102在用于根据所述特征分布概率计算得到损失数值时，具体用于：获取所述至少一个特征类型的指示变量；根据所述特征分布概率和所述指示变量计算得到所述特征分布概率包含的每种特征类别对应的交叉熵损失；根据所述每种特征类别对应的交叉熵损失计算得到所述损失数值。

再一种实施方式中，处理单元102在用于根据所述原始文本中的每个字符生成语义特征文本时，具体用于：将所述原始文本中的每个字符输入到预设编码器，所述预设编码器用于根据原始文本生成对应的语义特征；确定所述预设编码器的输出为所述语义特征文本。

再一种实施方式中，所述目标单位包括地理位置点，处理单元102在用于完成所述模型的训练之后，具体还用于：通过所述通信单元101获取目标地理位置点关联的N条原始文本，N为正整数；将所述N条原始文本输入所述模型中，生成所述N条文本对应的N条语义特征文本；计算所述N条语义特征文本的加权平均和，得到所述目标地理位置点的分布式表示文本；将所述分布式表示文本输入预设的解码器中，得到所述目标地理位置点的文本描述。

根据本发明的一个实施例，图2A或图2B或图4所示的方法所涉及的各个步骤均可以是由图6所示的文本描述的生成装置中的各个单元来执行的。例如，图2B中所示的步骤S301、S303、S304、S306-S308可以由图6中所示的通信单元101来执行，步骤S302-S306可由图6中所示的处理单元102来执行；又如，图4中所示的步骤S401可以由图6中所示的通信单元101来执行，步骤S402-S409可由图6中所示的处理单元102来执行。

根据本发明的另一个实施例，图6所示的文本描述的生成装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以由多个单元来实现，或者多个单元的功能由一个单元实现。在本发明的其它实施例中，基于文本描述的生成装置也可以包括其它单元，在实际应用中，这些功能也可以由其它单元协助实现，并且可以由多个单元协作实现。

根据本发明的另一个实施例，可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2A或图2B或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图6中所示的文本描述的生成装置设备，以及来实现本发明实施例的文本描述的生成方法。所述计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算设备中，并在其中运行。

基于上述方法实施例以及装置实施例的描述，本发明实施例还提供一种电子设备。请参见图7，该电子设备至少包括处理器201、输入设备202、输出设备203以及计算机存储介质204。其中，电子设备内的处理器201、输入设备202、输出设备203以及计算机存储介质204可通过总线或其他方式连接。

计算机存储介质204可以存储在电子设备的存储器中，所述计算机存储介质204用于存储计算机程序，所述计算机程序包括程序指令，所述处理器201用于执行所述计算机存储介质204存储的程序指令。处理器201(或称CPU(Central Processing Unit，中央处理器))是电子设备的计算核心以及控制核心，其适于实现一条或多条指令，具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能；在一个实施例中，本发明实施例所述的处理器201可以用于进行一系列的文本描述的生成处理，包括：获取目标单位关联的原始文本；根据所述原始文本生成目标数值，所述目标数值用于优化预设置的模型；根据所述目标数值针对所述模型执行迭代优化，以完成所述模型的训练；获取目标地理位置点关联的N条原始文本，N为正整数；将所述N条原始文本输入所述模型中，生成所述N条文本对应的N条语义特征文本；计算所述N条语义特征文本的加权平均和，得到所述目标地理位置点的分布式表示文本；将所述分布式表示文本输入预设的解码器中，得到所述目标地理位置点的文本描述，等等。

本发明实施例还提供了一种计算机存储介质(Memory)，所述计算机存储介质是电子设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质既可以包括电子设备中的内置存储介质，当然也可以包括电子设备所支持的扩展存储介质。计算机存储介质提供存储空间，该存储空间存储了电子设备的操作系统。并且，在该存储空间中还存放了适于被处理器201加载并执行的一条或多条的指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器的计算机存储介质。

在一个实施例中，可由处理器201加载并执行计算机存储介质中存放的一条或多条指令，以实现上述有关文本描述的生成实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或多条指令由处理器201加载并执行如下步骤：

获取目标单位关联的原始文本；

获取目标地理位置点关联的N条原始文本，N为正整数；

在一种实施方式中，所述分布式表示文本包括第一数量个特征类别，在得到所述目标地理位置点的文本描述之后，所述一条或多条指令还可由处理器201加载并具体执行：接收到电子设备发送的位置推荐请求；解析所述位置推荐请求，确定所述位置推荐请求中包括的第二数量个特征类别和所述第二数量个特征类别的权重值；若所述第一数量个特征类别包含所述第二数量个特征类别，则计算所述第二数量个特征类别中每个特征类别与对应的特征类别的相似度；根据所述相似度和所述第二数量个特征类别的权重计算得到匹配分值；若所述匹配分值大于预设阈值，则向所述电子设备发送所述目标地理位置点的所述文本描述。

再一种实施方式中，所述分布式表示文本包括第一数量个特征类别，在得到所述目标地理位置点的文本描述之后，所述一条或多条指令还可由处理器201加载并具体执行：接收到用户设备发送的位置推荐请求；解析所述位置推荐请求，获取所述位置推荐请求中包括的至少一个位置信息；确定所述至少一个位置信息中每个位置信息对应的分布式表示；确定所述至少一个位置信息的分布式表示包含的特征类别的总数量，得到第三数量个特征类别；确定所述第三数量个特征类别在所述至少一个位置信息的分布式表示中的出现概率；从所述第三数量个特征类别中筛选出所述出现概率大于预设阈值的第四数量个特征类别；若所述目标地理位置点的分布式文本包含所述第四数量个特征类别，则向所述用户设备发送所述目标地理位置点的所述文本描述。

再一种实施方式中，在根据所述原始文本生成目标数值时，所述一条或多条指令还可由处理器201加载并具体执行：根据所述原始文本中的每个字符生成语义特征文本；针对所述语义特征文本执行无监督学习操作，生成输出文本；据所述语义特征文本确定所述目标单位在至少一个特征类型中的特征分布概率；根据所述输出文本和所述特征分布概率生成所述目标数值。

再一种实施方式中，在根据所述输出文本和所述特征分布概率生成目标数值时，所述一条或多条指令还可由处理器201加载并具体执行：根据所述输出文本计算生成重构误差；根据所述特征分布概率计算得到损失数值；根据所述重构误差和所述损失数值生成目标数值。

再一种实施方式中，在根据所述输出文本计算生成重构误差时，所述一条或多条指令还可由处理器201加载并具体执行：确定所述语义特征文本中每个字符和所述输出文本中每个字符的对应关系；根据所述对应关系确定所述语义特征文本中每个字符和对应的所述输出文本中的字符之间的差异性信息；根据所述差异性信息生成所述语义特征文本和所述输出文本之间的所述重构误差。

再一种实施方式中，在根据所述输出文本计算生成重构误差时，所述一条或多条指令还可由处理器201加载并具体执行：根据预设公式计算所述语义特征文本和所述输出文本的交叉熵之和；所述述预设公式为：

再一种实施方式中，在根据所述语义特征文本确定所述目标单位在至少一个特征类型中的特征分布概率时，所述一条或多条指令还可由处理器201加载并具体执行：根据softmax函数针对所述语义特征文本进行处理，得到所述特征分布概率。

再一种实施方式中，在根据所述特征分布概率计算得到损失数值时，所述一条或多条指令还可由处理器201加载并具体执行：获取所述至少一个特征类型的指示变量；根据所述特征分布概率和所述指示变量计算得到所述特征分布概率包含的每种类别对应的交叉熵损失；根据所述每种特征类别对应的交叉熵损失计算得到所述损失数值。

再一种实施方式中，在根据所述原始文本中的每个字符生成语义特征文本时，所述一条或多条指令还可由处理器201加载并具体执行：将所述原始文本中的每个字符输入到预设编码器，所述预设编码器用于根据原始文本生成对应的语义特征；确定所述预设编码器的输出为所述语义特征文本。

再一种实施方式中，所述目标单位包括地理位置点，在完成所述模型的训练之后，所述一条或多条指令还可由处理器201加载并具体执行：通过所述通信单元101获取目标地理位置点关联的N条原始文本，N为正整数；将所述N条原始文本输入所述模型中，生成所述N条文本对应的N条语义特征文本；计算所述N条语义特征文本的加权平均和，得到所述目标地理位置点的分布式表示文本；将所述分布式表示文本输入预设的解码器中，得到所述目标地理位置点的文本描述。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种文本描述的生成方法，其特征在于，所述方法包括：

获取目标单位关联的原始文本；

获取目标地理位置点关联的N条原始文本，N为正整数；

2.如权利要求1所述的方法，其特征在于，所述分布式表示文本包括第一数量个特征类别，所述得到所述目标地理位置点的文本描述之后，所述方法还包括：

接收到用户设备发送的位置推荐请求；

解析所述位置推荐请求，确定所述位置推荐请求中包括的第二数量个特征类别和所述第二数量个特征类别的权重值；

若所述第一数量个特征类别包含所述第二数量个特征类别，则计算所述第二数量个特征类别中每个特征类别与对应的特征类别的相似度，所述对应的特征类别指的是所述第一数量个特征类别中的特征类别；

根据所述相似度和所述第二数量个特征类别的权重计算得到匹配分值；

若所述匹配分值大于预设阈值，则向所述用户设备发送所述目标地理位置点的所述文本描述。

3.如权利要求1所述的方法，其特征在于，所述分布式表示文本包括第一数量个特征类别，所述得到所述目标地理位置点的文本描述之后，所述方法还包括：

接收到用户设备发送的位置推荐请求；

解析所述位置推荐请求，获取所述位置推荐请求中包括的至少一个位置信息；

确定所述至少一个位置信息中每个位置信息对应的分布式表示；

确定所述至少一个位置信息的分布式表示包含的特征类别的总数量，得到第三数量个特征类别；

确定所述第三数量个特征类别在所述至少一个位置信息的分布式表示中的出现概率；

从所述第三数量个特征类别中筛选出所述出现概率大于预设阈值的第四数量个特征类别；

若所述目标地理位置点的分布式文本包含所述第四数量个特征类别，则向所述用户设备发送所述目标地理位置点的所述文本描述。

4.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述原始文本生成目标数值，包括：

根据所述原始文本中的每个字符生成语义特征文本；

针对所述语义特征文本执行无监督学习操作，生成输出文本；

根据所述语义特征文本确定所述目标单位在至少一个特征类型中的特征分布概率；

根据所述输出文本和所述特征分布概率生成所述目标数值。

5.如权利要求4所述的方法，其特征在于，所述根据所述输出文本和所述特征分布概率生成所述目标数值，包括：

根据所述输出文本计算生成重构误差；

根据所述特征分布概率计算得到损失数值；

根据所述重构误差和所述损失数值生成目标数值。

6.如权利要求5所述的方法，其特征在于，所述根据所述输出文本计算生成重构误差，包括：

确定所述语义特征文本中每个字符和所述输出文本中每个字符的对应关系；

根据所述对应关系确定所述语义特征文本中每个字符和对应的所述输出文本中的字符之间的差异性信息；

根据所述差异性信息生成所述语义特征文本和所述输出文本之间的所述重构误差。

7.如权利要求5所述的方法，其特征在于，所述根据所述输出文本计算生成重构误差，包括：

根据预设公式计算所述语义特征文本和所述输出文本的交叉熵之和；所述述预设公式为：

其中，V是数据库中字符的总数量，x_j ^t为所述语义特征文本中第t个字符的编码数值；y_j ^t为所述输出文本中第t个字符等于所述词典中第j个字符的概率；

确定所述交叉熵之和为所述重构误差。

8.如权利要求4-7任一项所述的方法，其特征在于，所述根据所述语义特征文本确定所述目标单位在至少一个特征类型中的特征分布概率，包括：

根据softmax函数针对所述语义特征文本进行处理，得到所述特征分布概率。

9.如权利要求5-7任一项所述的方法，其特征在于，所述根据所述特征分布概率计算得到损失数值，包括：

获取所述至少一个特征类型的指示变量；

根据所述特征分布概率和所述指示变量计算得到所述特征分布概率包含的每种特征类别对应的交叉熵损失；

根据所述每种特征类别对应的交叉熵损失计算得到所述损失数值。

10.如权利要求4-9任一项所述的方法，其特征在于，所述根据所述原始文本中的每个字符生成语义特征文本，包括：

将所述原始文本中的每个字符输入到预设编码器，所述预设编码器用于根据原始文本生成对应的语义特征；

确定所述预设编码器的输出为所述语义特征文本。

11.一种文本描述的生成装置，其特征在于，包括：

通信单元，用于获取目标单位关联的原始文本；

12.一种电子设备，包括输入设备和输出设备，其特征在于，还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如权利要求1-10任一项所述的文本描述的生成方法。

13.一种计算机存储介质，其特征在于，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由处理器加载并执行如权利要求1-10任一项所述的文本描述的生成方法。