CN113807102B

CN113807102B - 建立语义表示模型的方法、装置、设备和计算机存储介质

Info

Publication number: CN113807102B
Application number: CN202110960601.7A
Authority: CN
Inventors: 孙一博; 黄际洲; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-08-20
Filing date: 2021-08-20
Publication date: 2022-11-01
Anticipated expiration: 2041-08-20
Also published as: CN113807102A

Abstract

本公开公开了一种建立语义表示模型的方法、装置、设备和计算机存储介质，涉及人工智能技术领域下的大数据、深度学习等技术。具体实现方案为：获取预训练语言模型；利用地理实体预测任务、地理纠错任务和语义相关性任务中的至少两种对所述预训练语言模型进行联合训练，得到语义表示模型，所述语义表示模型用以获取输入文本的各第一语义单元的向量表示。通过该技术方案使得建立的语义表达模型能够准确表达地理实体类相关文本的语义。

Description

建立语义表示模型的方法、装置、设备和计算机存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及人工智能技术领域下的大数据、深度学习等技术。

背景技术

近年来，以深度学习为代表的表示学习技术在语音识别、图像分析和NLP(NaturalLanguage Processing，自然语言处理)领域获得了广泛关注。语义表示学习旨在将研究对象的语义信息表示为低维稠密实值向量。与更简单的one-hot(独热)表示方法相比，语义表示学习的向量维度较低，有助于提高计算效率，同时能够充分利用对象间的语义信息，从而有效缓解数据稀疏问题。语义表示技术的发展使得信息的有效建模与语义表示成为可能，进而为推荐、检索、预测等实际应用场景提供支撑。

然而对于地图类应用而言，目前尚没有很好的语义表示模型能够准确表达地理实体类相关文本的语义。

发明内容

有鉴于此，本公开提供了一种建立语义表示模型的方法、装置、设备和计算机存储介质，以便于建立的语义表达模型能够准确表达地理实体类相关文本的语义。

根据本公开的第一方面，提供了一种建立语义表示模型的方法，包括：

获取预训练语言模型；

利用地理实体预测任务、地理纠错任务和语义相关性任务中的至少两种对所述预训练语言模型进行联合训练，得到语义表示模型，所述语义表示模型用以获取输入文本的各第一语义单元的向量表示；

其中，所述地理实体预测任务包括：利用所述预训练语言模型学习第一训练样本中被掩码的地理实体；

所述地理纠错任务包括：利用所述预训练语言模型学习第二训练样本中被替换为错误表述的地理实体的正确表述；

所述语义相关性任务包括：利用所述预训练语言模型学习第三训练样本中第一文本与第二文本的语义相关性，所述第二文本包括地理实体。

根据本公开的第二方面，提供了一种建立兴趣点POI状态识别模型的方法，包括：

获取训练数据，所述训练数据包括：文本以及对该文本中所包含POI名称和POI状态的标签标注结果；

将所述文本作为POI状态识别模型的输入，将所述文本中所包含POI名称和POI状态的标签标注结果作为所述POI状态识别模型的目标预测结果，以训练所述POI状态识别模型；其中所述POI状态识别模型包括：

语义表示模块，用于获取所述文本中各第一语义单元的向量表示；

语义依存表示模块，用于基于所述文本的语义依存信息获取所述文本中各第二语义单元的向量表示；

表示融合模块，用于将所述各第一语义单元的向量表示和所述各第二语义单元的向量表示进行融合处理，得到所述各第一语义单元的融合向量表示；

标签预测模块，用于基于各第一语义单元的融合向量表示进行POI名称和POI状态的标签预测；

其中，所述语义表示模块采用第一方面所提供的方法预先训练得到的语义表示模型，或者采用第一方面所提供的方法所得到的语义表示模型进行热启动。

根据本公开的第三方面，提供了一种建立语义表示模型的装置，包括：

热启动单元，用于获取预训练语言模型；

模型训练单元，用于利用地理实体预测任务、地理纠错任务和语义相关性任务中的至少两种对所述预训练语言模型进行联合训练，得到语义表示模型，所述语义表示模型用以获取输入文本的各第一语义单元的向量表示；

根据本公开的第四方面，提供了一种建立POI状态识别模型的装置，包括：

获取单元，用于获取训练数据，所述训练数据包括：文本以及对该文本中所包含POI名称和POI状态的标签标注结果；

训练单元，用于将所述文本作为POI状态识别模型的输入，将所述文本中所包含POI名称和POI状态的标签标注结果作为所述POI状态识别模型的目标预测结果，以训练所述POI状态识别模型；其中所述POI状态识别模型包括：

其中，所述语义表示模块采用第三方面所提供的装置预先训练得到的语义表示模型，或者采用如第三方面所提供的装置所得到的语义表示模型进行热启动。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如上所述的方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行如上所述的方法。

根据本公开的第七方面，一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如上所述的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的建立语义表示模型的方法流程图；

图2a为本公开实施例提供的地理实体预测任务的示意图；

图2b为本公开实施例提供的地理纠错任务的示意图；

图2c为本公开实施例提供的语义相关性任务的示意图；

图3为本公开实施例提供的建立POI状态识别模型的方法流程图；

图4为本公开实施例提供的获取训练数据的方法流程图；

图5为本公开实施例提供的POI状态识别模型的原理图；

图6为本公开实施例提供的获取POI状态信息的方法流程图；

图7为本公开实施例提供的建立语义表示模型的装置结构图；

图8为本公开实施例提供的建立POI状态识别模型的装置结构图；

图9是用来实现本公开实施例的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

为了方便对本公开的理解，首先对地理实体的概念进行解释。地理实体(GeoEntity)指的是现实世界中独立存在、可以唯一性标识的自然或人工地物。地理实体包括基本实体、扩展实体两类。其中基本地理实体是指能够比较方便地从基础地理信息数据成果中提取整合的实体对象，包括境界实体、政区实体、道路实体、铁路实体、河流实体、房屋实体、院落实体等；扩展地理实体由地理实体生产部门及应用部门根据具体数据源及应用情况而定义并整合，但必须遵循本规范定义的概念数据模型。

图1为本公开实施例提供的建立语义表示模型的方法流程图，该方法的执行主体执行主体可以为建立语义表示模型的装置，该装置可以为位于服务器端的应用，或者还可以为位于服务器端的应用中的插件或软件开发工具包(Software Development Kit，SDK)等功能单元，或者，还可以位于具有较强计算能力的计算机终端，本发明实施例对此不进行特别限定。其中，该服务器可以是单个的服务器，也可以是由多个服务器组成的服务器集群，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPs，Ⅵirtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷。如图1中所示，该方法可以包括以下步骤：

在101中，获取预训练语言模型。

在102中，利用地理实体预测任务、地理纠错任务和语义相关性任务中的至少两种对预训练语言模型进行联合训练，得到语义表示模型，语义表示模型用以获取输入文本的各第一语义单元的向量表示；其中，地理实体预测任务包括：利用预训练语言模型学习第一训练样本中被掩码的地理实体；地理纠错任务包括：利用预训练语言模型学习第二训练样本中被替换为错误表述的地理实体的正确表述；语义相关性任务包括：利用预训练语言模型学习第三训练样本中第一文本与第二文本的语义相关性，第二文本包括地理实体。

由以上技术方案可以看出，本公开利用地理实体预测任务、地理纠错任务和语义相关性任务对预训练语言模型进行联合训练，从而使得建立的语义表达模型能够准确表达地理实体类相关文本的语义。

下面结合实施例对上述各步骤进行详细描述。首先对上述步骤101进行详细描述。

由于在地图类应用中涉及的各种地理实体常常是长尾词，使用传统的预训练词向量(例如Word2vec、golve等)智能对有限的地理实体进行表达，且无法利用已有地理实体数据库中的海量数据辅助模型进行语义建模。因此，在本公开中使用已有的预训练语言模型作为热启动，然后在后续步骤102中设计地理领域相关的任务对已有的预训练语言模型进行进一步训练，从而得到一个地理知识增强的预训练模型。

上述的预训练语言模型可以采用诸如ERNIE(Enhanced Representation fromkNowledge IntEgration，知识增强语义表示)、BERT(Bidirectional EncoderRepresentations from Transformers，Transformer的双向编码器表示)等。例如，由于ERNIE模型使用subword(子词)策略，即采用BPE(Byte-Pair Encoding，双字节编码)算法将地理实体拆解成更细粒度的字，从而高效地解决长尾词的问题。

下面结合实施例对上述步骤102即“利用地理实体预测任务、地理纠错任务和语义相关性任务中的至少两种对预训练语言模型进行联合训练，得到语义表示模型”进行详细描述。

在本公开实施例中构建了三个任务：地理实体预测任务、地理纠错任务和语义相关性任务。在实际训练过程中可以选择其中任意两个的组合或三个。在本公开实施例中以采用上述三个任务为例进行描述。

任务一：地理实体预测任务。

地理实体预测任务是利用预训练语言模型学习第一训练样本中被掩码的地理实体。

首先在获取第一训练样本时，可以利用用户搜索日志和地理实体数据库，将搜索文本以及搜索文本所包含至少一个地理实体的属性信息进行拼接得到的拼接文本作为第一训练样本。

需要说明的是，本公开中涉及的“第一”、“第二”等限定并不具备大小、顺序和数量等方面的限制，仅仅用以在名称上加以区分。例如“第一训练数据”、“第二训练数据”、“第三训练数据”以区分不同各类型的训练数据。再例如“第一文本”和“第二文本”用以区分不同文本。

在诸如地图类应用等与地理实体相关的搜索应用中，存在大量的用户搜索日志，从中可以获取包含至少一个地理实体的搜索文本。然后从地理实体数据库中获取该至少一个地理实体的属性信息，例如名称、地址或类别等。然后将搜索文本与获取的至少一个地理实体的属性信息进行拼接，得到的拼接文本作为一条第一训练样本。

例如用户搜索“AAA眼科”，其中“AAA”为一个字号。从地理实体数据库中获取其名称为“AAA眼科医院”，地址为“上海市长林区川汇路BB号”，其中“BB”为门牌号，类型为“医疗”。将“AAA眼科”、“AAA眼科医院”、“上海市长林区川汇路BB号”和“医疗”进行拼接，去除重复的部分，得到一条第一训练样本“AAA眼科医院上海市长林区川汇路BB号医疗”。

在训练过程中，将包含至少一个被掩码(Mask)的地理实体的第一训练样本作为预训练语言模型的输入，由所述预训练语言模型输出所述第一训练样本中各第一语义单元的向量表示，再经由预测单元利用各第一语义单元的向量表示预测被Mask部分的内容，训练目标为最小化预测单元的预测结果与被Mask部分在第一训练样本中真实内容之间的差异。

也就是说，地理实体预测任务类似于传统的WWM(Whole Word Masking，全词掩码预测)，利用预训练语言模型构建MLM(Masked Language Model，掩码语言模型)，如图2a中所示，该MLM包括预训练语言模型和预测单元。

将第一训练样本中至少一个地理实体进行Mask，例如，将第一训练样本“AAA眼科医院上海市长林区川汇路BB号医疗”中的“上海”进行Mask，图2a中以“M”表示被掩码的内容。由预训练语言模型输出该第一训练样本中各第一语义单元的向量表示。其中第一语义单元可以是字、词、词组、句等，但在本公开实施例中优选第一语义单元为字。这在中文中比较常见。在英文中，第一语义单元可以是一个单词(word)，也可以是更细粒度的，例如复合词中的每一个“字”。举个例子，对于可以将“yellowstone”作为一个第一语义单元，也可以将“yellow”和“stone”分别作为第一语义单元。

再经由预测单元利用各第一语义单元的向量表示预测被掩码部分的内容。仍以上面的例子来说明，由预测单元来预测被mask部分的内容，其目标是预测被mask部分的内容为“上海”。也就是说，让预训练语言模型能够学习到“AAA眼科医院”是在“上海”。

上述的预测单元可以采用softmax层、基于softmax实现的解码网络等。

在实际训练过程中，可以依据训练目标即“最小化预测单元的预测结果与被掩码部分在第一训练样本中真实内容之间的差异”设计损失函数L1，利用损失函数L1进行预训练语言模型的模型参数更新。

任务二：地理纠错任务。

地理纠错任务是利用预训练语言模型学习第二训练样本中被替换为错误表述的地理实体的正确表述。

首先在获取第二训练样本时，与获取第一训练样本类似，可以利用用户搜索日志和地理实体数据库，将搜索文本以及搜索文本所包含至少一个地理实体的属性信息进行拼接得到拼接文本。与第一训练样本不同的是，将拼接文本中至少一个地理实体替换为错误表述，将替换后的拼接文本作为第二训练样本，并对错误表述对应的正确表述进行标注。

例如在进行拼接后得到的拼接文本“AAA眼科医院上海市长林区川汇路BB号医疗”中，将“AAA”替换为“XXX”，得到“XXX眼科医院上海市长林区川汇路BB号医疗”作为第二训练样本，并且对该第二训练样本中“XXX”对应的正确表述进行标注。

在进行上述错误表述的替换时，即将“AAA”替换为“XXX”时，可以采用“AAA”的形近词(字形相近的词)、声近词(发音相近的词，例如拼音相近的词)进行替换。也可以采用地理实体数据库中与“AAA”相同类型的其他地理实体进行随机替换。还可以从用户搜索日志中预先挖掘出“AAA”的错误表达进行替换。举个例子，不同用户在地图类应用中进行不同的搜索，但在搜索结果中都点击了相同的POI。例如，用户在搜索“AAA”、“XXX”、“CCC”时，都在对应的搜索结果中点击了相同的一家眼科医院，其中“XXX”和“CCC”都可以用以替换“AAA”来生成第二训练样本。

在利用地理纠错任务训练预训练语言模型时，地理纠错任务利用的是一个地理纠错模型，如图2b中所示，该地理纠错模型包括预训练语言模型和识别单元。

其中，将第二训练样本作为预训练语言模型的输入，由预训练语言模型输出第二训练样本中各第一语义单元的向量表示，再经由识别单元利用各第一语义单元的向量表示识别第二训练样本中的错误表述以及该错误表述对应的正确表述；训练目标为最小化识别单元的识别结果与对应标注之间的差异。

例如，将第二训练样本“XXX眼科医院上海市长林区川汇路BB号医疗”输入预训练语言模型。由预训练语言模型输出该第二训练样本中各第一语义单元的向量表示。其中第一语义单元可以是字、词、词组、句等，但在本公开实施例中优选第一语义单元为字。

再经由识别单元利用各第一语义单元的向量表示识别其中的错误表述以及错误表述对应的正确表述。其目标是找出错误表述“XXX”以及确定其对应的正确表述“AAA”。也就是说，让预训练语言模型能够学习到上海汇川路BB号医疗眼科相关的是“AAA”，而并非“XXX”。

上述的识别单元可以采用softmax层、基于softmax实现的解码网络。

在实际训练过程中，可以依据训练目标即“最小化识别单元的识别结果与对应标注之间的差异”设计损失函数L2，利用损失函数L2进行预训练语言模型的模型参数更新。

任务三：语义相关性任务。

语义相关性任务是利用预训练语言模型学习第三训练样本中第一文本与第二文本的语义相关性，其中至少第二文本包括地理实体。

首先在获取第三训练样本时，可以利用用户搜索日志。在诸如地图类应用等与地理实体相关的搜索应用中，用户搜索日志中包含大量的搜索文本。这些搜索文本通常是为了搜索与地理实体相关的内容。因此可以获取搜索文本作为第一文本，从搜索文本对应的包含地理实体的搜索结果中获取第二文本，将第一文本和第二文本构成的文本对作为第三训练样本，并对第一文本和第二文本的相关度进行标注。

第一文本和第二文本的相关度可以依据用户对搜索结果的行为来确定。例如，可以设置三挡相关度：强相关、弱相关和不相关。将用户的搜索文本作为第一文本，将该搜索文本所对应的被点击搜索结果(例如包含地理实体的标题、摘要或正文)作为第二文本，并将该第一文本和第二文本标注为强相关。将用户搜索文本作为第一文本，将该搜索文本所对应的未被点击的搜索结果作为第二文本，并将该第一文本和第二文本标注为弱相关。将用户搜索文本作为第一文本，将随机获取的包含地理实体的文本作为第二文本，将第一文本和第二文本标注为不相关。

除了依据用户对搜索结果的行为来确定第一文本和第二文本的相关度之外，还可以采用其他方式，例如人工标注的方式。

举个例子，假设在用户搜索日志中获取到搜索文本“AAA眼科”，从该搜索文本对应的搜索结果中，获取被点击搜索结果的标题“上海AAA眼科医院”，将“AAA眼科”作为第一文本，将“上海AAA眼科医院”作为第二文本，标注第一文本和第二文本为强相关。

假设在用户搜索日志中获取到搜索文本“AAA眼科”，从该搜索文本对应的搜索结果中，获取未被点击搜索结果的标题“上海AAA中兴眼科医院”，将“AAA眼科”作为第一文本，将“上海AAA中兴眼科医院”作为第二文本，标注第一文本和第二文本为弱相关。

假设在用户搜索日志中获取到搜索文本“AAA眼科”，从用户搜索日志中随机获取一个包含地理实体的文本“BBB购物商场大峡谷店”，将“AAA眼科”作为第一文本，将“BBB购物商场大峡谷店”作为第二文本，标注第一文本和第二文本为不相关。

在训练过程中，利用的是相似度确定模型，如图2c中所示，该相似度确定模型包括预训练语言模型和映射单元。

其中，将第三训练样本作为预训练语言模型的输入，由预训练语言模型输出第三训练样本中各第一语义单元的向量表示，再经由映射单元利用第一文本中各第一语义单元的向量表示和第二文本中各第一语义单元的向量表示确定第一文本和第二文本的相关度；训练目标为最小化映射单元得到的相关度结果与对应标注之间的差异。

例如，将第三训练样本中的第一文本“AAA眼科”和第二文本“上海AAA眼科医院”输入预训练语言模型。由预训练语言模型输出第一文本和第二文本中各第一语义单元的向量表示。其中第一语义单元可以是字、词、词组、句等，但在本公开实施例中优选第一语义单元为字。

再经由映射单元利用“AAA眼科”中各字的向量表示以及“上海AAA眼科医院”中各字的向量表示，确定“AAA眼科”和“上海AAA眼科医院”的相似度是强相关、弱相关还是不相关。映射单元可以采用诸如分类模型或Softmax层。目标是使得映射单元确定出的相似度结果与训练样本中标注的一致，即需要学习第一文本“AAA眼科”和第二文本“上海AAA眼科医院”为强相关。

在采用上述三个任务进行联合训练时，可以按照顺序依次采用三个任务进行训练。例如先采用地理实体预测任务对预训练语言模型进行训练。在达到第一训练停止条件后，在当前训练得到的预训练语言模型的基础上，再利用地理纠错任务对预训练语言模型进行进一步训练。在达到第二训练停止条件后，在当前训练得到的预训练语言模型的基础上，再利用语义相关性任务对预训练语言模型进行进一步训练，直至达到第三训练停止条件。其中，第一训练停止条件可以是损失函数L1满足预设条件、地理实体预测任务的迭代次数已达到预设的次数阈值等。第二训练停止条件可以是损失函数L2满足预设条件、地理纠错任务的迭代次数已达到预设的次数阈值等。第三训练停止条件可以是损失函数L3满足预设条件、语义相关性任务的迭代次数已达到预设的次数阈值等。

也可以交替采用三个任务进行训练。例如先采用地理实体预测任务对预训练语言模型进行训练；迭代预设次数后，再采用地理纠错任务对预训练语言模型进行进一步训练；迭代预设次数后，再采用语义相关性任务对预训练语言模型进行进一步训练；迭代预设次数后再采用地理实体预测任务对预训练语言模型进行进一步训练……，如此周而复始，直至达到训练停止条件。训练停止条件可以是预训练语言模型的参数收敛、总迭代次数达到预设的总次数阈值等。

还可以采用同时训练的方式，即利用损失函数L1、L2和L3设计一个总的损失函数L；然后在每一轮迭代中同时采用三个任务，依据总损失函数L的取值进行预训练语言模型的参数更新，直至达到训练停止条件。其中，训练停止条件可以是总的损失函数L满足预设条件、迭代次数达到预设的迭代次数阈值等。

还可以采用一种训练方式，即在第一训练阶段，利用地理实体预测任务训练预训练语言模型；在第二训练阶段利用地理实体预测任务和地理纠错任务进一步训练所述预训练语言模型；在第三训练阶段利用地理位置预测任务、地理纠错任务和语义相关性任务再进一步训练所述预训练语言模型。

上述三个训练阶段中每个阶段的训练结束条件可以由预训练语言模型是否收敛控制，也可以由迭代次数是否达到预设迭代次数阈值来控制。

在第二训练阶段中，可以对地理实体预测任务和地理纠错任务进行交替式训练。在第三训练阶段中，可以对地理位置预测任务、地理纠错任务和语义相关性任务进行交替式训练。

这种分为三个阶段的训练方式采用递进式的方式，即递进式的在不同阶段逐渐加入训练任务，这种方式相比较单纯顺序式的训练方式(即顺序采用三个任务进行训练)，可以防止阶段性的遗忘。

这种训练方式相比较单纯交替式的训练方式(即交替采用三个任务进行训练)，又可以提高训练收敛速度。

采用上述方式建立地理知识增强的语义表示模型之后，可以将该语义表示模型应用于后续的多种应用场景。在本公开中，可以将其应用于建立POI状态识别模型，下面对该应用进行详细描述。

POI(Point ofInterest)指的是兴趣点，是地理信息系统中的一个术语，泛指一切可以抽象为点的地理对象，一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站、一所学校、一个医院，等等。POI的主要用途是对事物或事件的位置进行描述，从而增强对事物或事件位置的描述能力和查询能力。POI的定义可以看做是地理实体的一个下位的概念，即地理实体包括POI。

在互联网地图类应用中，POI扮演了非常重要的角色。通过使用POI用户可以在地图中方便地找到感兴趣的地点以及到达该地点的路线。但由于受到城市规划以及其他因素的影响，随着时间的推移会有部分POI的信息发生变化，例如新增的POI、搬迁的POI、更名的POI、关闭的POI等等。如果不能够及时对POI数据库进行更新，用户在使用地图搜索时可能找不到他们感兴趣的信息，甚至会对用户产生误导。例如用户导航到某个商场后，发现该商场已经搬迁或者停业，显然会给用户带来非常不好的体验。

目前对POI状态信息的获取主要依靠人力，例如由工作人员到现场采集，或者由用户主动上报。但这些方式一方面浪费人力资源，成本较高；另一方面严重依赖人为的主动性，时效性和准确性难以保证。

本公开基于互联网大数据所具有的丰富性和实时性，将互联网大数据作为数据源，从互联网文本中挖掘POI状态信息。核心思想在于，从互联网获取预设时段内包含POI信息的文本；利用预先训练得到的POI状态识别模型对所述文本进行识别，得到文本中的二元组，二元组包括POI名称和该POI名称对应的POI状态信息。其中，从本公开的整体方案上来看，涉及到两个部分，一个是POI状态识别模型的建立，另一个是利用POI状态识别模型对POI状态信息的获取。下面分别结合实施例对这两个部分进行详细描述。

图3为本公开实施例提供的建立POI状态识别模型的方法流程图，如图3中所示，该方法可以包括以下步骤：

在301中，获取训练数据，其中训练数据包括：文本以及对该文本中所包含POI名称和POI状态的标签标注结果。

在302中，将文本作为POI状态识别模型的输入，将该文本中所包含POI名称和POI状态的标签标注结果作为POI状态识别模型的目标预测结果，以训练该POI状态识别模型。

其中POI状态识别模型包括：

语义表示模块，用于获取所述文本中各第一语义单元的向量表示；该语义表示模块可以采用如图1所示实施例提供的方法预先训练得到的语义表示模型，或者采用如图1所示实施例提供的方法所得到的语义表示模型进行热启动。

语义依存表示模块，用于基于所述文本的语义依存信息获取所述文本中各第二语义单元的向量表示。

表示融合模块，用于将所述各第一语义单元的向量表示和所述各第二语义单元的向量表示进行融合处理，得到所述各第一语义单元的融合向量表示。

标签预测模块，用于基于各第一语义单元的融合向量表示进行POI名称和POI状态的标签预测。

下面对上述步骤301即“获取训练数据”进行详细描述。

在获取训练数据时，可以采用人工标注的方式对一些包含POI名称和POI状态的文本进行标注以作为训练数据。但这种方式因人力的限制只能产生少量数据，对模型训练的准确性会带来一定制约。在此，作为一种优选的实施方式，可以采用如图4中所示的方式来获取训练数据，具体包括：

在401中，利用预先训练得到的POI识别器从互联网获取包含POI名称的文本。

从网页上爬取互联网文本，为了确保文本中包含POI信息，可以训练一个POI识别器，并保留被POI识别器识别出包含POI信息的文本。

其中预先训练POI识别器的过程为：从POI数据库中抽取出POI信息，其中抽取的POI信息可以是热门的POI信息，即可以为检索热度超过一定程度的POI信息，例如设定时长内的检索次数超过预设次数阈值的POI信息；然后利用抽取的POI信息在互联网中进行搜索，利用搜索得到的文本以及对应的POI信息训练标签预测模型，从而得到POI识别器。POI识别器能够在输入文本后，输出该文本中包含的POI信息。其中，POI信息可以包括POI名称。需要说明的是，在本公开中，POI名称指代能够标明和区分一个POI的信息，可以是中文名称、英文名称、名称缩写，等等。

训练POI识别器过程中采用的标签预测模型可以是由双向LSTM(Long Short-TermMemory，长短期记忆网络)和CRF(conditional random field，条件随机场)构成的结构。当然也可以采用其他类型的结构，在此不做一一列举和详细描述。

在402中，利用预先构建的词典从包含POI名称的文本中过滤掉不包含POI状态变化信息的文本，得到种子文本。

其中词典包括包含POI状态变化信息的词。为了确保文本中包含描述POI状态变化的信息，预先构建了一个词典，这个词典中的词语义与POI状态变化相关。其中POI状态变化可以包括新增、搬迁、更名、关闭等。

经过上述401和402的处理后，得到的种子文本中均包括POI名称和POI状态变化信息。上述401和402是获取种子文本的一种优选实施方式，除了上述方式之外，也可以简单地采用人工构建文本方式来得到种子文本。

在403中，获取对种子文本所包含POI名称和该POI名称对应的POI状态的标签标注结果。

本步骤中获取的种子文本数量不多，可以采用人工标注的方式。然而，若数量不多的种子文本作为训练数据进行POI状态识别模型的训练，则可能会使得POI状态识别模型的准确度不够高。为了进一步提高训练效果，可以在此基础上利用POI数据库对种子文本进行数据增强。即在404中，利用POI数据库中与种子文本所包含POI名称同类型的POI名称，对种子文本中的POI名称进行替换，得到扩展文本。

具体地，可以采用一个分类模型对种子文本中包含的POI名称和POI数据库中的POI名称分别进行分类。分类得到的类别用以区分POI的特性，例如餐厅类、公司类、住宅类等等。

举个例子，若一个种子文本为“A公司已搬迁，搬迁期间暂停办理业务”，其中种子文本中包含的POI名称“A公司”为公司类，则可以从POI数据库中找到同类型的POI名称“B公司”、“C公司”等等，分别利用这些名称对种子文本中的“A”公司进行替换后，得到扩展文本：“B公司已搬迁，搬迁期间暂停办理业务”、“C公司已搬迁，搬迁期间暂停办理业务”等等。

其中分类模型可以预先利用POI数据库中大量的(POI名称，类型标签)对进行训练，分类模型的结构可以采用诸如双向LSTM和softmax构成的结构。

在405中，由种子文本和扩展文本得到训练数据。

经过对种子文本进行扩展后，可以得到大量的扩展文本，然后将这些种子文本和扩展文本共同构成训练数据。这些训练数据中包含文本以及对文本中包含的POI名称和该POI名称对应的POI状态的标签标注结果。

下面结合实施例对上述步骤302即“将文本作为POI状态识别模型的输入，将该文本中所包含POI名称和POI状态的标签标注结果作为POI状态识别模型的目标预测结果，以训练该POI状态识别模型”进行详细描述。

在本公开涉及的POI状态识别模型中，如图5中所示，主要包含四个部分：语义表示模块、语义依存表示模块、表示融合模块和标签预测模块。

其中，语义表示模块用以获取文本中各第一语义单元的向量表示。

假设训练数据中某文本D对应的字序列表示为{x₁,x₂,…,x_n}，其中，n为D中字的数量。{x₁,x₂,…,x_n}作为语义表示模块的输入，语义表示模块提取语义特征后输出隐层向量序列{h₁,h₂,…,h_n}。其中，h_i是字x_i对应的向量表示。

在本公开实施例中，语义表示模块可以采用图1所示实施例提供的方式建立的语义表示模型。但作为一种优选的实现方式，语义表示模块可以采用图1所示实施例提供的方式建立的语义表示模型进行热启动，即在此语义表示模型的基础上在训练POI状态识别模型的过程中进一步更新模型参数。

语义依存表示模块用以基于文本的语义依存信息获取该文本中各第二语义单元的向量表示。

具体地，可以对文本进行句法分析得到文本的语义依存树；然后获取语义依存树对应的有向图，在有向图中各节点为各第二语义单元；利用RGCN(Relational GraphConvolutional Network，关系图卷积神经网络)获取有向图中各节点的向量表示。

其中可以使用依存句法分析器对文本进行分析得到文本的语义依存树。依存句法分析是自然语言处理的核心技术之一，旨在通过分析句子中词语之间的依存关系确定句子的句法结构。通常包括对文本进行分词、词性标注、命名实体识别、语法分析等处理。依存句法分析器是目前较为成熟的工具，本公开中可以直接使用此类工具实现。

本公开中的第二语义单元可以是词语。除此之外，也可以是短语、词语组合等。在此以词语为例。

在语义依存树中，节点为文本中的词语，边为词语之间的语义关系。可以将语义依存树转化为有向图。在有向图中节点为文本中的词语，边体现词语之间的语义关系。

然后有向图作为RGCN的输入，由RGCN输出有向图中各节点的向量表示。

对于语义依存表示模块而言，针对D对应的词序列表示为{y₁,y₂,…,y_m}，其中，m为D中词语的数量。经过语义依存表示模块后，得到各词语对应的向量表示分别为{l₁,l₂,…,l_m}。

表示融合模块用以将各第一语义单元的向量表示和各第二语义单元的向量表示进行融合处理，得到各第一语义单元的融合向量表示。

其中，表示融合模块可以采用但不限于以下两种方式：

第一种方式：若第二语义单元包含第一语义单元，则将该第一语义单元的向量表示和该第二语义单元的向量表示进行拼接后，得到该第一语义单元的融合向量。

以第一语义单元是字、第二语义单元是词为例，假设词A是由字A1和字A2组成，则将字A1的向量表示与词A的向量表示进行拼接后得到字A1的融合向量表示，将A2的向量表示与词A的向量表示进行拼接后得到字A2的融合向量表示。

第二种方式：若各第二语义单元的向量表示对第一语义单元进行注意力处理，得到该第一语义单元的融合向量表示。

以第一语义单元是字、第二语义单元是词为例，将得到的所有词的向量表示对字A1的向量表示进行Attention(注意力)处理。由于第二语义单元是从有向图获取的，因此实际上就相当于使用整个有向图对字A1进行Attention，从而得到整个有向图关于该字A1的向量表示。即可以将字的向量表示作为query，将每个词的向量表示分别作为key，从而进行Attention。

标签预测模块用以基于各第一语义单元的融合向量表示进行POI名称和POI状态的标签预测。

在此可以利用诸如CRF(条件随机场)等序列预测模型进行标签预测。对于包含n个字的文档D，D＝{x₁,x₂,...,x_n}。经过上述表示融合模块的融合后，得到各字的融合向量表示，即序列{h'₁,h'₂,...,h'_n}。对于文档中的每个字x_i，标签预测模块的任务是预测其标签t_i，其中，t_i∈T^p。在进行标签预测时，对于字x_i的标签指示该字x_i是否是POI名称以及POI状态，也就是说，一个标签会对POI名称和POI状态信息同时进行指示。例如，标签集合可以采用:

T^p＝{B-NEW,I-NEW,B-RELOCATE,I-RELOCATE,B-RENAME,I-RENAME,B-CLOSE,I-CLOSE,B-NONE,I-NONE,O}

其中，B、I和O指示该字是POI名称的开始、中间和非POI名称。

NEW、RELOCATE、RENAME、CLOSE和NONE分别指示POI状态为新增、更名、搬迁、关闭和未识别出POI状态。

因此，标签B-NEW指示该字是POI名称的开始且POI状态为新增，标签I-NEW指示该字是POI名称的中间且POI状态为新增，其他标签类似。

若该子模型输出的预测序列为T＝{t₁,t₂,…,t_n}，则可以得到这个序列的得分：

其中，

为权重参数，是模型参数之一。

其中，

代表实数域，d为h'_i的维度，c为模型输出标签的数量。

表示从t_i到t_i+1的转移概率矩阵。

最终可以使用softmax层得到每个预测序列T的概率：

其中，T_D为所有的预测序列构成的集合。

训练阶段采用的损失函数为：L_θ＝∑log(p(T|D)。

训练过程中利用损失函数的值更新模型参数，包括语义表示模块、语义依存表示模块、表示融合模块和标签预测模块的参数值，直至达到训练结束条件。其中训练结束条件可以包括：损失函数的值小于或等于预设的损失函数阈值，迭代次数达到预设的次数阈值，等等。

最终训练得到的POI状态识别模型能够对输入的文本进行识别，得到文本中的二元组，该二元组包括POI名称和POI名称对应的POI状态信息，表示为(POI名称，状态信息)。

图6为本公开实施例提供的获取POI状态信息的方法流程图，该方法基于图3所示流程所建立的POI状态识别模型。如图6中所示，该方法可以包括以下步骤：

在601中，从互联网获取预设时段内包含POI信息的文本。

为了保证POI状态信息的实时性，可以从互联网爬取最近一段时间的文本，然后利用预先训练得到的POI识别器对获取到的文本进行POI信息识别，保留包含POI信息的文本。

关于POI识别器的相关记载可以参见上面实施例中针对步骤401的相关记载，在此不做赘述。

在602中，利用预先训练得到的POI状态识别模型对该文本进行识别，得到该文本中的二元组，即(POI名称，状态信息)。

其中POI状态识别模型获取文本中各第一语义单元的向量表示，以及基于文本的语义依存信息获取该文本中各第二语义单元的向量表示；将各第一语义单元的向量表示和各第二语义单元的向量表示进行融合处理，得到各第一语义单元的融合向量表示；基于各第一语义单元的融合向量表示进行POI名称和POI状态的标签预测。

在步骤602中，可以使用图5中所示的POI状态识别模型对文本进行识别。

其中，语义表示模块用以获取文本中各第一语义单元的向量表示。在本公开中，第一语义单元可以是字，这在中文中比较常见。在英文中，第一语义单元可以是一个单词(word)，也可以是更细粒度的，例如复合词中的每一个“字”。

可以使用传统的word2vec模型、glove模型等实现对文本中各字的语义特征提取。但由于POI名称常常使用长尾词，采用传统的模型并不能够很好地对各字的语义进行表达。因此，本公开中采用了一种优选的实施方式，由ERNIE、BERT等预训练语言模型对文本对应的词序列进行语义特征的提取。由于ERNIE模型使用subword策略，即采用BPE算法将POI名称拆解成更细粒度的字，从而高效地解决长尾词的问题。

具体地，可以对文本进行句法分析得到文本的语义依存树；然后获取语义依存树对应的有向图，在有向图中各节点为各第二语义单元；利用RGCN获取有向图中各节点的向量表示。

其中，表示融合模块可以采用但不限于以下两种方式：

标签预测模块用以基于各第一语义单元的融合向量表示进行POI名称和POI状态的标签预测。在此可以利用诸如CRF(条件随机场)等序列预测模型进行标签预测。预测的标签会对POI名称和POI状态信息同时进行指示。

上述POI状态识别模型中各模块的具体实现方式可以参见图3所示实施例中的相关记载，在此不做一一赘述。

举个例子：

假设输入文本为“继aa图书馆开业之后，aa艺术博物馆也在3月30日正式开业”。其中“aa”为一个地方的名称。

经过POI状态识别模型的预测之后，依据打上的标签可以确定出二元组(aa图书馆，新增)和(aa艺术博物馆，新增)。

在针对互联网文本挖掘出一系列二元组后，可以将挖掘出的二元组与POI数据库中记录的POI名称及其对应的POI状态信息进行比对，如果存在不一致，可以利用挖掘出的二元组对POI数据库中记录的POI名称及其对应的POI状态信息进行更新。

其中，在进行更新时，可以依据挖掘出的二元组的出现次数对二元组的准确性进行衡量，例如认为出现次数大于预设次数阈值的二元组认为是准确的，可以利用准确的二元组对POI数据库进行更新。

以上是对本公开所提供方法进行的详细描述，下面结合实施例对本公开所提供的装置进行详细描述。

图7为本公开实施例提供的建立语义表示模型的装置结构图，如图7中所示，该装置700可以包括：热启动单元701和模型训练单元702，还可以进一步包括第一样本获取单元703、第二样本获取单元704和第三样本获取单元705中的至少两个。其中各组成单元的主要功能如下：

热启动单元701，用于获取预训练语言模型。

模型训练单元702，用于利用地理实体预测任务、地理纠错任务和语义相关性任务中的至少两种对预训练语言模型进行联合训练，得到语义表示模型，语义表示模型用以获取输入文本的各第一语义单元的向量表示。

其中，地理实体预测任务包括：利用预训练语言模型学习第一训练样本中被掩码的地理实体。

地理纠错任务包括：利用预训练语言模型学习第二训练样本中被替换为错误表述的地理实体的正确表述。

语义相关性任务包括：利用预训练语言模型学习第三训练样本中第一文本与第二文本的语义相关性，第二文本包括地理实体。

第一样本获取单元703，用于利用用户搜索日志和地理实体数据库，将搜索文本以及搜索文本所包含至少一个地理实体的属性信息进行拼接得到的拼接文本作为第一训练样本。

相应地，模型训练单元702，具体用于在利用地理实体预测任务训练预训练语言模型时，将包含至少一个被掩码的地理实体的第一训练样本作为预训练语言模型的输入，由预训练语言模型输出第一训练样本中各第一语义单元的向量表示，再经由预测单元利用各第一语义单元的向量表示预测被掩码部分的内容，训练目标为最小化预测单元的预测结果与被掩码部分在第一训练样本中真实内容之间的差异。

第二样本获取单元704，用于利用用户搜索日志和地理实体数据库，将搜索文本以及搜索文本所包含至少一个地理实体的属性信息进行拼接得到拼接文本，将拼接文本中至少一个地理实体替换为错误表述，将替换后的拼接文本作为第二训练样本，并对错误表述对应的正确表述进行标注。

相应地，模型训练单元702，具体用于在利用地理纠错任务训练预训练语言模型时，将第二训练样本作为预训练语言模型的输入，由预训练语言模型输出第二训练样本中各第一语义单元的向量表示，再经由识别单元利用各第一语义单元的向量表示识别第二训练样本中的错误表述以及该错误表述对应的正确表述；训练目标为最小化识别单元的识别结果与对应标注之间的差异。

第三样本获取单元705，用于利用用户搜索日志，获取搜索文本作为第一文本，从搜索文本对应的包含地理实体的搜索结果中获取第二文本，将第一文本和第二文本构成的文本对作为第三训练样本，并对第一文本和第二文本的相关度进行标注。

相应地，模型训练单元702，具体用于在利用语义相关性任务训练预训练语言模型时，将第三训练样本作为预训练语言模型的输入，由预训练语言模型输出第三训练样本中各第一语义单元的向量表示，再经由映射单元利用第一文本中各第一语义单元的向量表示和第二文本中各第一语义单元的向量表示确定第一文本和第二文本的相关度；训练目标为最小化映射单元得到的相关度结果与对应标注之间的差异。

在采用上述三个任务进行联合训练时，模型训练单元702可以按照顺序依次采用三个任务进行训练，也可以交替采用三个任务进行训练，还可以同时对三个任务进行训练。作为一种优选的实施方式，可以在第一训练阶段利用地理实体预测任务训练预训练语言模型；在第二训练阶段利用地理实体预测任务和地理纠错任务进一步训练预训练语言模型；在第三训练阶段利用地理位置预测任务、地理纠错任务和语义相关性任务再进一步训练预训练语言模型。

图8为本公开实施例提供的建立POI状态识别模型的装置结构图，如图8中所示，该装置可以包括：获取单元801和训练单元802，其中各组成单元的主要功能如下：

获取单元801，用于获取训练数据，训练数据包括：文本以及对该文本中所包含POI名称和POI状态的标签标注结果。

其中获取单元801可以获取种子文本以及对种子文本所包含POI名称和该POI名称对应的POI状态的标签标注结果；利用POI数据库中与种子文本所包含POI名称同类型的POI名称，对种子文本中的POI名称进行替换，得到扩展文本；由种子文本和扩展文本得到训练数据。

其中获取单元801在获取种子文本时，可以从互联网获取包含POI名称的文本；利用预先构建的词典从所述包含POI名称的文本中过滤掉不包含POI状态变化信息的文本，得到所述种子文本；其中所述词典包括表达POI状态变化信息的词。

训练单元802，用于将文本作为POI状态识别模型的输入，将文本中所包含POI名称和POI状态的标签标注结果作为POI状态识别模型的目标预测结果，以训练POI状态识别模型。

其中POI状态识别模型如图5中所示，可以包括：

语义表示模块，用于获取文本中各第一语义单元的向量表示。

具体地，语义表示模块可以采用如图7中所示的装置预先训练得到的语义表示模型，或者采用如图7中所示的装置所得到的语义表示模型进行热启动。

语义依存表示模块，用于基于文本的语义依存信息获取文本中各第二语义单元的向量表示。

作为一种优选的实施方式，语义依存表示模块可以对文本进行句法分析得到文本的语义依存树；获取语义依存树对应的有向图，有向图中的各节点为各第二语义单元；利用RGCN获取有向图中各节点的向量表示。

表示融合模块，用于将各第一语义单元的向量表示和各第二语义单元的向量表示进行融合处理，得到各第一语义单元的融合向量表示。

其中，表示融合模块可以采用但不限于以下两种方式：

第一种方式：若第二语义单元包含第一语义单元，则将该第一语义单元的向量表示和该第二语义单元的向量表示进行拼接后得到该第一语义单元的融合向量表示。

第二种方式：将各第二语义单元的向量表示对第一语义单元进行注意力处理，得到该第一语义单元的融合向量表示。

作为一种优选的实施方式，标签预测模块可以利用CRF模型将各第一语义单元的融合向量进行映射，得到各第一语义单元的标签，标签指示是否为POI名称以及POI状态。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

如图9所示，是根据本公开实施例的建立语义表示模型的方法或建立POI状态识别模型的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如建立语义表示模型的方法或建立POI状态识别模型的方法。例如，在一些实施例中，建立语义表示模型的方法或建立POI状态识别模型的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。

在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的建立语义表示模型的方法或建立POI状态识别模型的方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行建立语义表示模型的方法或建立POI状态识别模型的方法。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(VPs，Ⅵirtual Private Server)服务中存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种建立语义表示模型的方法，包括：

获取预训练语言模型；

利用地理实体预测任务、地理纠错任务和语义相关性任务对所述预训练语言模型进行联合训练，得到语义表示模型，所述语义表示模型用以获取输入文本的各第一语义单元的向量表示；

2.根据权利要求1所述的方法，还包括：

利用用户搜索日志和地理实体数据库，将搜索文本以及所述搜索文本所包含至少一个地理实体的属性信息进行拼接得到的拼接文本作为第一训练样本；

在利用地理实体预测任务训练预训练语言模型时，将包含至少一个被掩码的地理实体的第一训练样本作为预训练语言模型的输入，由所述预训练语言模型输出所述第一训练样本中各第一语义单元的向量表示，再经由预测单元利用各第一语义单元的向量表示预测被掩码部分的内容，训练目标为最小化预测单元的预测结果与被掩码部分在第一训练样本中真实内容之间的差异。

3.根据权利要求1所述的方法，还包括：

利用用户搜索日志和地理实体数据库，将搜索文本以及所述搜索文本所包含至少一个地理实体的属性信息进行拼接得到拼接文本，将所述拼接文本中至少一个地理实体替换为错误表述，将替换后的拼接文本作为第二训练样本，并对所述错误表述对应的正确表述进行标注；

在利用地理纠错任务训练预训练语言模型时，将所述第二训练样本作为预训练语言模型的输入，由所述预训练语言模型输出所述第二训练样本中各第一语义单元的向量表示，再经由识别单元利用各第一语义单元的向量表示识别所述第二训练样本中的错误表述以及该错误表述对应的正确表述；训练目标为最小化识别单元的识别结果与对应标注之间的差异。

4.根据权利要求1所述的方法，还包括：

利用用户搜索日志，获取搜索文本作为第一文本，从所述搜索文本对应的包含地理实体的搜索结果中获取第二文本，将所述第一文本和第二文本构成的文本对作为第三训练样本，并对所述第一文本和第二文本的相关度进行标注；

在利用语义相关性任务训练预训练语言模型时，将第三训练样本作为预训练语言模型的输入，由所述预训练语言模型输出所述第三训练样本中各第一语义单元的向量表示，再经由映射单元利用第一文本中各第一语义单元的向量表示和第二文本中各第一语义单元的向量表示确定所述第一文本和第二文本的相关度；训练目标为最小化映射单元得到的相关度结果与对应标注之间的差异。

5.根据权利要求1至4中任一项所述的方法，其中，所述利用地理实体预测任务、地理纠错任务和语义相关性任务中的至少两种对所述预训练语言模型进行联合训练，得到语义表示模型包括：

在第一训练阶段利用地理实体预测任务训练所述预训练语言模型；

在第二训练阶段利用地理实体预测任务和地理纠错任务进一步训练所述预训练语言模型；

在第三训练阶段利用地理位置预测任务、地理纠错任务和语义相关性任务再进一步训练所述预训练语言模型。

6.一种建立兴趣点POI状态识别模型的方法，包括：

其中，所述语义表示模块采用如权利要求1至5中任一项所述的方法预先训练得到的语义表示模型，或者采用如权利要求1至5中任一项所述的方法所得到的语义表示模型进行热启动。

7.一种建立语义表示模型的装置，包括：

热启动单元，用于获取预训练语言模型；

模型训练单元，用于利用地理实体预测任务、地理纠错任务和语义相关性任务对所述预训练语言模型进行联合训练，得到语义表示模型，所述语义表示模型用以获取输入文本的各第一语义单元的向量表示；

8.根据权利要求7所述的装置，还包括：

第一样本获取单元，用于利用用户搜索日志和地理实体数据库，将搜索文本以及所述搜索文本所包含至少一个地理实体的属性信息进行拼接得到的拼接文本作为第一训练样本；

所述模型训练单元，具体用于在利用地理实体预测任务训练预训练语言模型时，将包含至少一个被掩码的地理实体的第一训练样本作为预训练语言模型的输入，由所述预训练语言模型输出所述第一训练样本中各第一语义单元的向量表示，再经由预测单元利用各第一语义单元的向量表示预测被掩码部分的内容，训练目标为最小化预测单元的预测结果与被掩码部分在第一训练样本中真实内容之间的差异。

9.根据权利要求7所述的装置，还包括：

第二样本获取单元，用于利用用户搜索日志和地理实体数据库，将搜索文本以及所述搜索文本所包含至少一个地理实体的属性信息进行拼接得到拼接文本，将所述拼接文本中至少一个地理实体替换为错误表述，将替换后的拼接文本作为第二训练样本，并对所述错误表述对应的正确表述进行标注；

所述模型训练单元，具体用于在利用地理纠错任务训练预训练语言模型时，将所述第二训练样本作为预训练语言模型的输入，由所述预训练语言模型输出所述第二训练样本中各第一语义单元的向量表示，再经由识别单元利用各第一语义单元的向量表示识别所述第二训练样本中的错误表述以及该错误表述对应的正确表述；训练目标为最小化识别单元的识别结果与对应标注之间的差异。

10.根据权利要求7所述的装置，还包括：

第三样本获取单元，用于利用用户搜索日志，获取搜索文本作为第一文本，从所述搜索文本对应的包含地理实体的搜索结果中获取第二文本，将所述第一文本和第二文本构成的文本对作为第三训练样本，并对所述第一文本和第二文本的相关度进行标注；

所述模型训练单元，具体用于在利用语义相关性任务训练预训练语言模型时，将第三训练样本作为预训练语言模型的输入，由所述预训练语言模型输出所述第三训练样本中各第一语义单元的向量表示，再经由映射单元利用第一文本中各第一语义单元的向量表示和第二文本中各第一语义单元的向量表示确定所述第一文本和第二文本的相关度；训练目标为最小化映射单元得到的相关度结果与对应标注之间的差异。

11.根据权利要求7至10中任一项所述的装置，其中，所述模型训练单元，具体用于在第一训练阶段利用地理实体预测任务训练所述预训练语言模型；在第二训练阶段利用地理实体预测任务和地理纠错任务进一步训练所述预训练语言模型；在第三训练阶段利用地理位置预测任务、地理纠错任务和语义相关性任务再进一步训练所述预训练语言模型。

12.一种建立POI状态识别模型的装置，包括：

其中，所述语义表示模块采用如权利要求7至11中任一项所述的装置预先训练得到的语义表示模型，或者采用如权利要求7至11中任一项所述的装置所得到的语义表示模型进行热启动。

13.一种建立模型的电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。