CN114036956A

CN114036956A - 一种旅游知识语义分析方法及装置

Info

Publication number: CN114036956A
Application number: CN202111371152.9A
Authority: CN
Inventors: 李涓子; 朱洪银; 彭皓; 侯磊; 唐杰; 许斌
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2022-02-11

Abstract

本发明提供一种旅游知识语义分析方法及装置。其中，该方法包括：获取待理解旅游知识文本；将所述待理解旅游知识文本输入至基于异构旅游知识的预训练语言模型中，得到所述预训练语言模型输出的语义理解结果；其中，所述预训练语言模型是以预设的非结构化文本、半结构化文本和满足结构条件的预设知识三元组文本为训练样本，并基于相应的无监督训练任务将所述训练样本统一建模到相同的上下文表示空间中得到的。本发明提供的旅游知识语义分析方法，能够通过利用多种格式文本训练得到的基于异构旅游知识的预训练语言模型对不同粒度的旅游知识文本进行分析，以提高旅游知识文本语义理解的准确度和鲁棒性，从而提升用户的使用体验。

Description

一种旅游知识语义分析方法及装置

技术领域

本发明涉及数据模型分析技术领域，具体涉及一种旅游知识语义分析方法及装置。另外，还涉及一种电子设备及处理器可读存储介质。

背景技术

预训练语言模型(Bidirectional Encoder Representation fromTransformers；BERT)是一个预训练的语言表征模型，其扩展旨在增强现有语言模型，以便更好地理解下游文本。目前，现有技术中的预训练语言模型设计了不同的学习任务、不同的语义粒度、不同的模型架构以及不同的学习算法，但是通常使用单一格式的文本来预训练，缺乏对文档结构和相关结构化知识的学习，导致针对特定旅游领域的知识语义分析效果较差。然而，实践中旅游数据文档内通常存在大量未使用的半结构化和结构良好的文本等数据，这些数据对于单词、实体和段落的分层理解至关重要。因此，如何设计一种高效、稳定的旅游知识语义分析方案以提升旅游知识文本语义理解的精确度成为亟待解决的难题。

发明内容

为此，本发明提供一种旅游知识语义分析方法及装置，以解决现有技术中存在的基于传统预训练语言模型的旅游知识语义分析方案局限性较高，导致旅游知识文本语义理解的精确度较差的缺陷。

第一方面，本发明提供一种旅游知识语义分析方法，包括：获取待理解旅游知识文本；将所述待理解旅游知识文本输入至基于异构旅游知识的预训练语言模型中，得到所述预训练语言模型输出的语义理解结果；其中，所述预训练语言模型是以预设的非结构化文本、半结构化文本和满足结构条件的预设知识三元组文本为训练样本，并基于相应的无监督训练任务将所述训练样本统一建模到相同的上下文表示空间中得到的。

进一步的，所述的旅游知识语义分析方法，还包括：确定所述预训练语言模型；

所述确定所述预训练语言模型，具体包括：

获取异构的多格式文本，构建语料库；所述语料库包含所述非结构化文本、所述半结构化文本和满足结构条件的预设知识三元组文本；

将所述非结构化文本与所述预设知识三元组文本对齐，确定所述异构的多格式文本之间的对应关系；

基于预设的相应目标函数，分别对所述非结构化文本、所述半结构化文本、所述预设知识三元组文本进行无监督训练，将所述非结构化文本、所述半结构化文本、所述预设知识三元组文本统一建模到相同的上下文表示空间中，得到所述预训练语言模型。

进一步的，将所述非结构化文本与所述预设知识三元组文本对齐，具体包括：

基于预设的TF-IDF相似性分析原理，利用相应的TF-IDF向量来确定每个预设知识三元组文本与非结构化文本的相似度，并基于相似度结果将所述非结构化文本与所述预设知识三元组文本对齐。

进一步的，所述预训练语言模型用于基于对所述异构的多格式文本进行特征提取得到的表示特征，对所述待理解旅游知识文本进行语义理解。

进一步的，所述待理解旅游知识文本包含单词文本、实体文本、主题文本中的至少一种粒度的旅游知识文本。

第二方面，本发明还提供一种旅游知识语义分析装置，包括：

旅游知识文本获取单元，用于获取待理解旅游知识文本；

旅游知识语义分析单元，用于将所述待理解旅游知识文本输入至基于异构旅游知识的预训练语言模型中，得到所述预训练语言模型输出的语义理解结果；其中，所述预训练语言模型是以预设的非结构化文本、半结构化文本和满足结构条件的预设知识三元组文本为训练样本，并基于相应的无监督训练任务将所述训练样本统一建模到相同的上下文表示空间中得到的。

进一步的，所述的旅游知识语义分析装置，还包括：模型训练单元，用于确定所述预训练语言模型；

所述确定所述预训练语言模型，具体包括：

进一步的，将所述非结构化文本与所述预设知识三元组文本对齐，具体包括：基于预设的TF-IDF相似性分析原理，利用相应的TF-IDF向量来确定每个预设知识三元组文本与非结构化文本的相似度，并基于相似度结果将所述非结构化文本与所述预设知识三元组文本对齐。

第三方面，本发明还提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行所述计算机程序时实现如上述任意一项所述旅游知识语义分析方法的步骤。

第四方面，本发明还提供一种处理器可读存储介质，所述处理器可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现如上述任意一项所述旅游知识语义分析方法的步骤。

本发明提供的旅游知识语义分析方法，能够通过利用多种格式文本训练得到的基于异构旅游知识的预训练语言模型对不同粒度的旅游知识文本进行分析，以提高旅游知识文本语义理解的准确度和鲁棒性，从而提升用户的使用体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获取其他的附图。

图1是本发明实施例提供的旅游知识语义分析方法的流程示意图；

图2是本发明实施例提供的旅游知识语义分析方法中的无监督预训练示意图；

图3是本发明实施例提供的预训练语言模型的训练流程示意图；

图4是本发明实施例提供的旅游知识语义分析装置的结构示意图；

图5是本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获取的所有其他实施例，都属于本发明保护的范围。

下面基于本发明所述的旅游知识语义分析方法，对其实施例进行详细描述。如图1所示，其为本发明实施例提供的旅游知识语义分析方法的流程示意图，具体实现过程包括以下步骤：

步骤101：获取待理解旅游知识文本。

在本发明实施例中，执行本步骤之前，需要预先进行模型训练，以得到满足本发明预设条件的预训练语言模型。具体的，首先采用启发式方法对齐多格式文本，然后设计无监督训练任务，最后将知识增强的预训练语言模型应用于不同的旅游领域下游任务中。

在具体实施过程中，确定所述预训练语言模型包括：获取异构的多格式文本，构建语料库；所述语料库包含所述非结构化文本、所述半结构化文本和满足结构条件的预设知识三元组文本；将所述非结构化文本与所述预设知识三元组文本对齐，确定所述异构的多格式文本之间的对应关系；基于预设的相应目标函数，分别对所述非结构化文本、所述半结构化文本、所述预设知识三元组文本进行无监督训练，将所述非结构化文本、所述半结构化文本、所述预设知识三元组文本统一建模到相同的上下文表示空间中，得到基于异构旅游知识的预训练语言模型(Travel BERT)。所述预训练语言模型用于基于对所述异构的多格式文本进行特征提取得到的表示特征，对所述待理解旅游知识文本进行语义理解。其中，将所述非结构化文本与所述预设知识三元组文本对齐，具体实现过程包括：基于预设的TF-IDF(Term Frequency–Inverse Document Frequency)相似性分析原理，利用相应的TF-IDF向量来确定每个预设知识三元组文本与非结构化文本的相似度，并基于相似度结果将所述非结构化文本与所述预设知识三元组文本对齐。

如图3所示，在本发明实施例模型训练过程中，对齐多格式文本时，为了减少模型的运算压力并保留足够的非结构化文本，本发明采用知识三元组检索策略，将非机构化文本对应到相关的预设知识三元组文本。基于TF-IDF相似性进行上述对齐过程，这样可以找到非结构化文本描述中包含的知识三元组文本。这里使用TF-IDF向量来计算每个预设知识三元组文本与非结构化文本的相似度，如下所示。

similarity＝cos(vec(s^(e)),vec((s,p,o)))

其中，vec(.)是将非结构化文本转换为TF-IDF向量的映射操作；s^(e)和(s,p,o)看作不同的非结构化文本。由此，可计算非结构化文本之间的余弦相似度。使用此方法可以计算从各类百科网站中获取的旅游景点文本段落和知识三元组文本构成的语料库的TF-IDF，如下所示。

其中，d是包含术语t的文档；f_t,d是文档d中t的词频；N是语料库的文档数；n_t是包含t的文档数。

在无监督训练过程中，如图2(a)所示，原始数据由非结构化文本“A建筑是目标地区两代的皇家宫殿，旧称B城，位于目标地区中轴线的中心”、对应标题“摘要”和相关知识三元组<A建筑，所属地点，目标地区>、<A建筑，所属年代，XXXX>、<A建筑，旧称，B城>组成。如图2(b)下半部分所示，输入由文本“A建筑是目标地区两代的皇家宫殿，旧称B城，位于目标地区中轴线的中心”、标题“摘要”、正样本的三元组PT和负样本的三元组NT组成。此处使用公式以下公式来计算每个元素的表示：

h^(D),h^(T),h^(KG)＝F_bert(<[CLS]；s^(e)；[SEP0]；t^(e)；[SEP1]；(e,p_j,o_i)；[SEP2]…>)

其中，新符号[SEP0]来标识标题；[SEPi](i>1)用于表示每个知识三元组。三元组的每个元素都被视为文本而不是标识符，优点是可以在同一个上下文表示空间中表示不同形式的知识或文本。该模型需要预测小节的标题是否与段落文本匹配，以及三元组的谓词是否被修改过。同时，训练过程中也保留了掩码语言模型损失以帮助模型从旅游领域的文本中学习token级别的知识或文本。

在本发明实施例的模型训练过程中，通过满足结构条件的预设知识三元组文本(结构良好的文本)学习实体知识。具体的，在预训练过程中能够以15％的概率随机掩盖token。为了更好地学习实体的属性，除了屏蔽段落文本外，该预训练语言模型还可随机屏蔽知识三元组文本。其中，一个实体可能有几个到几十个属性，例如地址、位置、名胜、气候类型、景点等级、景点类型、建筑时间、完时间等。采用三元组文本分类任务增强实体知识学习，比如可使用预设程序给三元组文本添加噪声，然后让预训练语言模型去判断三元组文本是否被修改过，使预训练语言模型可通过自注意力机制，利用非结构化文本来验证知识三元组文本。其中，采用的添加噪声的方法可以是属性重采样操作，其目的是将一些三元组文本的属性p随机替换为其他三元组文本的属性

如下所示。

其中，P表示所有属性。重采样属性可以提高预训练语言模型对关系语义的理解。

除此之外，还可通过半结构化文本学习段落知识。

在无监督训练的场景中，本发明使用小节的标题作为相应段落的自然标签来引导预训练语言模型理解段落的主题。具体的，可使用一个预设的程序来自动构建“标题-段落”对，预训练语言模型只需要根据段落预测标题是否被修改即可。

对于多级标题，课使用最靠近段落的标题来获得更具体的主题。在预训练语言模型时，本发明将文本与相应的标题连接起来，表示为<[CLS]；s^(e)；[SEP0]；t^(e)；…>。本发明使用[SEP0]的表示进行分类。为了生成负样本，对于“摘要”这个标题t，程序将采样同一文章中的另一个小节标题

来替换原来的标题，如下所示。

其中，t表示“摘要”这个标题；

表示小节标题；T表示预设的时间参数。

在本发明实施例的模型训练过程中，对于三个预训练的子任务，本发明可以采用如下相应的目标函数。

其中，

分别表示三个子任务对应的目标函数；|D|是数据集的大小；Θ是相应的模型参数；λ和μ是用于衡量每个子任务影响力的超参数。训练损失是对完形填空任务的偏差、三元组分类任务的偏差和标题匹配任务的偏差求和。本发明采用负对数似然作为优化目标，如下所示：

其中，p^(mlm)代表完形填空任务的真实类别的概率，i表示token的索引。

其中，p^(tc)表示三元组分类任务的真实类别的概率；i表示三元组的索引。

其中，p^(tmt)表示标题匹配任务的真实类别的概率。最终采用AdamW优化算法来训练模型参数。

另外，在具体实施过程中，还包括为旅游NLP(自然语言处理)任务微调基于异构旅游知识的预训练语言模型(Travel BERT)。

具体的，可使用预设的5个下游旅游NLP任务评估基于异构旅游知识的预训练语言模型，包括命名实体识别、开放信息抽取、问答、细粒度实体类型标注和对话。在对下游旅游NLP任务进行微调时，由于预训练语言模型可以在预训练阶段学习异构知识从而学习到更好的参数，因此该预训练语言模型不需要更改输入文本，然后预训练语言模型使用学习到的知识(参数)来更好地解决下游旅游NLP任务。

对于命名实体识别任务，本发明采用序列标记形式，并使用预训练语言模型最后一层中每个token的向量对实体标签进行分类。对于细粒度实体类型标注任务，为了向文本中的实体提及分配细粒度类型标签。本发明添加了两个特殊符号[ENT]来指示实体的位置，并使用预训练语言模型最后一层的[CLS]向量对标签进行分类。对于开放信息抽取任务，本发明使用两阶段文本片段抽取阅读理解模型。具体而言，本发明首先训练一个关系预测模型来抽取句子中的多个谓词片段。预训练语言模型提取每个片段的方式是预测开始和结束位置。在本发明实施例中，可使用阈值来选择多个谓词片段，因为一个句子可能包含多个三元组文本(知识三元组文本)。通过添加了两个特殊符号[REL]来指示出谓词片段的位置，然后本发明训练一个实体预测模型来提取每个谓词的主语和宾语片段。对于问答任务，本发明使用预训练语言模型最后一层的[CLS]向量来计算和排名每个候选答案与问题的匹配分数。对于对话任务，本发明采用基于检索策略，训练任务是根据上下文预测候选回复是否是正确的下一句话语，对于测试过程，在具体实施过程中选择概率最大的候选回复。

步骤102：将所述待理解旅游知识文本输入至基于异构旅游知识的预训练语言模型中，得到所述预训练语言模型输出的语义理解结果；其中，所述预训练语言模型是以预设的非结构化文本、半结构化文本和满足结构条件的预设知识三元组文本为训练样本，并基于相应的无监督训练任务将所述训练样本统一建模到相同的上下文表示空间中得到的。

在本发明实施例中，通过上述模型训练方法得到满足应用需要的基于异构旅游知识的预训练语言模型之后，可将获取到的待理解旅游知识文本输入至基于异构旅游知识的预训练语言模型中，进而得到所述预训练语言模型输出的语义理解结果。其中，所述待理解旅游知识文本包含单词文本、实体文本、主题文本等中的至少一种粒度的旅游知识文本。本发明提供一种旅游知识语义分析方法所使用的基于异构旅游知识的预训练语言模型同时将非结构化文本、半结构化文本和结构良好的文本通过预训练语言模型建模到相同的上下文表示空间中。

采用本发明实施例所述的旅游知识语义分析方法，能够通过利用多种格式文本训练得到的基于异构旅游知识的预训练语言模型对不同粒度的旅游知识文本进行分析，以提高旅游知识文本语义理解的准确度和鲁棒性，可有效提升了处理下游NLP任务时的分析效果，从而提升用户的使用体验。

与上述提供的一种旅游知识语义分析方法相对应，本发明还提供一种旅游知识语义分析装置。由于该装置的实施例相似于上述方法实施例，所以描述得比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的旅游知识语义分析装置的实施例仅是示意性的。请参考图4所示，其为本发明实施例提供的一种旅游知识语义分析装置的结构示意图。

本发明所述的旅游知识语义分析装置，具体包括如下部分：

旅游知识文本获取单元401，用于获取待理解旅游知识文本；

旅游知识语义分析单元402，用于将所述待理解旅游知识文本输入至基于异构旅游知识的预训练语言模型中，得到所述预训练语言模型输出的语义理解结果；其中，所述预训练语言模型是以预设的非结构化文本、半结构化文本和满足结构条件的预设知识三元组文本为训练样本，并基于相应的无监督训练任务将所述训练样本统一建模到相同的上下文表示空间中得到的。

所述确定所述预训练语言模型，具体包括：

采用本发明实施例所述的旅游知识语义分析装置，能够通过利用多种格式文本训练得到的基于异构旅游知识的预训练语言模型对不同粒度的旅游知识文本进行分析，以提高旅游知识文本语义理解的准确度和鲁棒性，从而提升用户的使用体验。

与上述提供的旅游知识语义分析方法相对应，本发明还提供一种电子设备。由于该电子设备的实施例相似于上述方法实施例，所以描述得比较简单，相关之处请参见上述方法实施例部分的说明即可，下面描述的电子设备仅是示意性的。如图5所示，其为本发明实施例公开的一种电子设备的实体结构示意图。该电子设备可以包括：处理器(processor)501、存储器(memory)502和通信总线503，其中，处理器501，存储器502通过通信总线503完成相互间的通信，通过通信接口504与外部进行通信。处理器501可以调用存储器502中的逻辑指令，以执行旅游知识语义分析方法，该方法包括：获取待理解旅游知识文本；将所述待理解旅游知识文本输入至基于异构旅游知识的预训练语言模型中，得到所述预训练语言模型输出的语义理解结果；其中，所述预训练语言模型是以预设的非结构化文本、半结构化文本和满足结构条件的预设知识三元组文本为训练样本，并基于相应的无监督训练任务将所述训练样本统一建模到相同的上下文表示空间中得到的。

此外，上述的存储器502中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：存储芯片、U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在处理器可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的旅游知识语义分析方法。该方法包括：获取待理解旅游知识文本；将所述待理解旅游知识文本输入至基于异构旅游知识的预训练语言模型中，得到所述预训练语言模型输出的语义理解结果；其中，所述预训练语言模型是以预设的非结构化文本、半结构化文本和满足结构条件的预设知识三元组文本为训练样本，并基于相应的无监督训练任务将所述训练样本统一建模到相同的上下文表示空间中得到的。

又一方面，本发明实施例还提供一种处理器可读存储介质，所述处理器可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的旅游知识语义分析方法。该方法包括：获取待理解旅游知识文本；将所述待理解旅游知识文本输入至基于异构旅游知识的预训练语言模型中，得到所述预训练语言模型输出的语义理解结果；其中，所述预训练语言模型是以预设的非结构化文本、半结构化文本和满足结构条件的预设知识三元组文本为训练样本，并基于相应的无监督训练任务将所述训练样本统一建模到相同的上下文表示空间中得到的。

所述处理器可读存储介质可以是处理器能够存取的任何可用介质或数据存储设备，包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(MO)等)、光学存储器(例如CD、DVD、BD、HVD等)、以及半导体存储器(例如ROM、EPROM、EEPROM、非易失性存储器(NANDFLASH)、固态硬盘(SSD))等。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种旅游知识语义分析方法，其特征在于，包括：

获取待理解旅游知识文本；

将所述待理解旅游知识文本输入至基于异构旅游知识的预训练语言模型中，得到所述预训练语言模型输出的语义理解结果；其中，所述预训练语言模型是以预设的非结构化文本、半结构化文本和满足结构条件的预设知识三元组文本为训练样本，并基于相应的无监督训练任务将所述训练样本统一建模到相同的上下文表示空间中得到的。

2.根据权利要求1所述的旅游知识语义分析方法，其特征在于，还包括：确定所述预训练语言模型；

所述确定所述预训练语言模型，具体包括：

3.根据权利要求2所述的旅游知识语义分析方法，其特征在于，将所述非结构化文本与所述预设知识三元组文本对齐，具体包括：

4.根据权利要求2所述的旅游知识语义分析方法，其特征在于，所述预训练语言模型用于基于对所述异构的多格式文本进行特征提取得到的表示特征，对所述待理解旅游知识文本进行语义理解。

5.根据权利要求1或2所述的旅游知识语义分析方法，其特征在于，所述待理解旅游知识文本包含单词文本、实体文本、主题文本中的至少一种粒度的旅游知识文本。

6.一种旅游知识语义分析装置，其特征在于，包括：

旅游知识文本获取单元，用于获取待理解旅游知识文本；

7.根据权利要求6所述的旅游知识语义分析装置，其特征在于，还包括：模型训练单元，用于确定所述预训练语言模型；

所述确定所述预训练语言模型，具体包括：

8.根据权利要求7所述的旅游知识语义分析装置，其特征在于，所述预训练语言模型用于基于对所述异构的多格式文本进行特征提取得到的表示特征，对所述待理解旅游知识文本进行语义理解。

9.一种电子设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5任意一项所述旅游知识语义分析方法的步骤。

10.一种处理器可读存储介质，所述处理器可读存储介质上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任意一项所述旅游知识语义分析方法的步骤。