CN111400507A

CN111400507A - 实体匹配方法及其装置

Info

Publication number: CN111400507A
Application number: CN202010507647.9A
Authority: CN
Inventors: 苑爱泉; 何旺贵; 王磊; 王宇昊; 邓哲宇; 王晓峰; 杨涛; 桑梓森; 朱培源
Original assignee: Zhejiang Koubei Network Technology Co Ltd
Current assignee: Zhejiang Koubei Network Technology Co Ltd
Priority date: 2020-06-05
Filing date: 2020-06-05
Publication date: 2020-07-10
Anticipated expiration: 2040-06-05
Also published as: CN111400507B

Abstract

本申请公开了实体匹配方法及其装置，涉及互联网技术领域。其中方法包括：对接收到的查询请求中的关键词进行实体识别，得到关键词实体；将所述关键词实体与预置数据库中的业务信息进行多维度识别结果的相似度计算，得到所述关键词实体与预置数据库中的业务信息之间的多维度相似度；根据所述关键词实体和预置数据库中的业务信息的多阶段相似度，以及所述多维度相似度，得到与所述关键词实体匹配的目标业务信息；根据所述目标业务信息，生成对应所述查询请求的操作指令。通过本申请的技术方案，能够有效提升用户的查询体验，同时有效避免在暂无知识图谱或知识图谱不完善的情况下，关键词查询准确度较低的技术问题。

Description

实体匹配方法及其装置

技术领域

本申请涉及互联网技术领域，尤其是涉及到实体匹配方法及其装置。

背景技术

随着移动互联网的不断发展，用户越来越喜欢通过提供业务服务的应用程序等平台来搜索其感兴趣的服务内容，且对应用程序等平台的个性化搜索功能的需求越来越高。

现有提供业务服务的应用程序等平台的个性化搜索功能都是基于现有的知识图谱进行相似度计算，根据用户输入的关键词计算出用户想要搜索的多个选择项，以便用户从多个选择项中选择与关键词最为贴切的选择项完成搜索操作。

但现有技术存在的不足有，现有的知识图谱均是基于团队的专业经验历经数年构建的，随着业务服务的多样化需求，知识图谱的更新对具有专业经验的工作人员的成本需求较高，而在暂无知识图谱或知识图谱不完善的情况下，又很难满足关键词搜索的超高标准，导致推送不准确，可见，基于现有的知识图谱得到的相关性准确度较低，无法满足用户的体验需求，同时，现有的整个搜索过程以及相关性计算阶段无法体现业务服务本身的特征信息，也会导致相关性准确度较低，用户体验较差。

发明内容

有鉴于此，本申请提供了实体匹配方法及其装置，主要目的在于解决现有技术中基于人工构建的知识图谱，通过对用户输入的关键词进行相似度计算完成相应推送，导致知识图谱的构建成本较高，以及在暂无知识图谱或知识图谱不完善的情况下，很难满足关键词搜索的超高标准，导致推送不准确，用户体验较差的技术问题。

根据本申请的一个方面，提供了实体匹配方法，该方法包括：

对接收到的查询请求中的关键词进行实体识别，得到关键词实体；

将所述关键词实体与预置数据库中的业务信息进行多维度识别结果的相似度计算，得到所述关键词实体与预置数据库中的业务信息之间的多维度相似度；

根据所述关键词实体和预置数据库中的业务信息的多阶段相似度，以及所述多维度相似度，得到与所述关键词实体匹配的目标业务信息；

根据所述目标业务信息，生成对应所述查询请求的操作指令。

优选地，所述将所述关键词实体与预置数据库中的业务信息进行多维度识别结果的相似度计算，得到所述关键词实体与预置数据库中的业务信息之间的多维度相似度，包括：

将所述关键词实体的初始识别结果与预置数据库中业务信息的初始识别结果进行相似度计算，得到初始匹配值；

将所述关键词实体的层级识别结果与所述业务信息的层级识别结果进行相似度计算，得到层级匹配值；

根据得到的初始匹配值和层级匹配值，计算得到多维度相似度。

优选地，所述将所述关键词实体的层级识别结果与所述业务信息的层级识别结果进行相似度计算，得到层级匹配值，包括：

将所述关键词实体的子级识别结果与所述业务信息的子级识别结果进行相似度计算，得到子级匹配值；

若所述子级匹配值超过预置子级匹配值，则所述子级匹配值为层级匹配值；

若所述子级匹配值未超过预置子级匹配值，则将所述关键词实体的父级识别结果与所述业务信息的父级识别结果进行相似度计算，得到父级匹配值并作为层级匹配值；

其中，所述关键词实体的子级识别结果是根据所述关键词实体的初始识别结果确定的。

优选地，将所述关键词实体的子级识别结果与所述业务信息的子级识别结果进行相似度计算，得到子级匹配值，包括：

将所述关键词实体的子级识别结果与所述业务信息的子级识别结果进行相似度计算，得到子级初始匹配值；

根据所述子级初始匹配值和初始匹配值，计算出子级匹配值。

根据所述查询请求获取相应的查询行为日志；

获取对应所述关键词实体的子级识别结果的业务信息的子级识别结果；

根据所述查询行为日志中的查询实体信息和所述业务信息的子级识别结果进行相似度计算，得到子级匹配值。

优选地，所述根据所述关键词实体和预置数据库中的业务信息的多阶段相似度，以及所述多维度相似度，得到与所述关键词实体匹配的目标业务信息，包括：

利用多模实体识别模型对所述关键词进行实体识别，得到关键词相似度；

对所述预置数据库中的业务信息进行实体信息提取，得到初始实体及其相似度；

对所述初始实体进行实体识别，得到业务实体及其相似度；

根据所述关键词相似度、初始实体相似度、业务实体相似度和多维度相似度，确定与所述关键词实体匹配的目标业务信息。

优选地，若所述关键词相似度、初始实体相似度、业务实体相似度、多维度相似度中至少一个存在多个相似度结果，则根据所述关键词相似度、初始实体相似度、业务实体相似度和多维度相似度，确定与所述关键词实体匹配的目标业务信息，包括：

将所述多个相似度结果与其对应的相似度阈值进行比对，得到大于所述相似度阈值的相似度结果；

根据大于所述相似度阈值的相似度结果，确定与所述关键词实体匹配的目标业务信息。

优选地，所述多阶段相似度，以及所述多维度相似度是利用具有边的类型的置信知识库计算得到的，所述置信知识库的构建方法，具体包括：

根据业务场景特征，对初始知识库中的初始知识节点赋予业务属性信息、或者增加相应的业务属性知识节点，得到新的知识节点；

根据所述新的知识节点之间的关联关系类型，得到所述新的知识节点之间的权重系数。

根据本申请的又一方面，提供了一种实体匹配装置，该装置包括：

识别模块，用于对接收到的查询请求中的关键词进行实体识别，得到关键词实体；

多维度模块，用于将所述关键词实体与预置数据库中的业务信息进行多维度识别结果的相似度计算，得到所述关键词实体与预置数据库中的业务信息之间的多维度相似度；

多阶段模块，用于根据所述关键词实体和预置数据库中的业务信息的多阶段相似度，以及所述多维度相似度，得到与所述关键词实体匹配的目标业务信息；

生成模块，用于根据所述目标业务信息，生成对应所述查询请求的操作指令。

优选地，所述多维度模块，包括：

初始匹配单元，用于将所述关键词实体的初始识别结果与预置数据库中业务信息的初始识别结果进行相似度计算，得到初始匹配值；

层级匹配单元，用于将所述关键词实体的层级识别结果与所述业务信息的层级识别结果进行相似度计算，得到层级匹配值；

计算单元，用于根据得到的初始匹配值和层级匹配值，计算得到多维度相似度。

优选地，所述层级匹配单元，包括：

优选地，所述将所述关键词实体的子级识别结果与所述业务信息的子级识别结果进行相似度计算，得到子级匹配值，包括：

根据所述查询请求获取相应的查询行为日志；

优选地，所述多阶段模块，包括：

多模单元，用于利用多模实体识别模型对所述关键词进行实体识别，得到关键词相似度；

初始实体单元，用于对所述预置数据库中的业务信息进行实体信息提取，得到初始实体及其相似度；

业务实体单元，用于对所述初始实体进行实体识别，得到业务实体及其相似度；

目标业务单元，用于根据所述关键词相似度、初始实体相似度、业务实体相似度和多维度相似度，确定与所述关键词实体匹配的目标业务信息。

优选地，若所述关键词相似度、初始实体相似度、业务实体相似度、多维度相似度中至少一个存在多个相似度结果，则所述目标业务单元，包括：

依据本申请再一个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述实体匹配方法。

依据本申请再一个方面，提供了一种设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述实体匹配方法。

借由上述技术方案，本申请提供的实体匹配方法及其装置，与目前现有技术相比，本申请在接收到来自用户的查询请求后，对接收到的查询请求中的关键词进行实体识别，得到关键词实体，同时将关键词实体与预置数据库中的业务信息进行多维度识别结果的相似度计算，得到多维度相似度结果，以及根据关键词实体和预置数据库中的业务信息的多阶段相似度结果，以及多维度相似度结果，得到与关键词实体匹配的目标业务信息，以便根据得到的目标业务信息，生成对应查询请求的操作指令。可见，利用多维度识别结果的相似度计算以及多阶段相似度计算，能够对来自用户的查询请求进行更加准确地实体匹配，以及生成更加准确的查询结果，有效提升用户的查询体验，同时有效避免在暂无知识图谱或知识图谱不完善的情况下，关键词查询准确度较低的技术问题。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了本申请实施例提供的一种实体匹配方法的流程示意图；

图2示出了本申请实施例提供的另一种实体匹配方法的流程示意图；

图3示出了本申请实施例提供的多维度相似度计算的示意图；

图4示出了本申请实施例提供的一种实体匹配装置的结构示意图；

图5示出了本申请实施例提供的另一种实体匹配装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

针对目前现有技术中存在的问题，本实施例提供了一种实体匹配方法，当接收到来自用户的查询请求后，能够为用户智能生成与其查询请求相匹配的查询结果，从而满足用户的查询体验需求，如图1所示，该方法包括：

步骤101、对接收到的查询请求中的关键词进行实体识别，得到关键词实体。

在本实施例中，来自用户的查询请求中包含用于查询的关键词信息，关键词信息包括文本信息或/和图像信息。其中，关键词的文本信息可以按照场景类型进行分类，场景类型信息包括时间信息（例如，时段、节假日、周末），位置信息（例如，城市）、兴趣点类型信息（例如，写字楼、居民区），人群画像信息（例如，性别、年龄、购买力）等。该场景类型信息可以携带在查询请求中，也可以根据查询请求中的用户标识所对应的查询行为日志获得，此处不对场景信息的获取方式进行具体限定。图像信息是指，该查询请求中的关键词是以图像形式存在，而非文本形式，关键词信息可以是图像信息，或者既包含物品图像又包含文本信息，此处不对关键词信息的形式进行具体限定。

根据实际应用场景的需求，当接收到来自用户的查询请求时，若关键词信息包括文本信息或/和图像信息，则根据文本信息或/和图像信息，利用多模实体识别模型识别得到关键词实体，或者根据文本信息、文本信息的场景类型信息、图像信息中的一个或者多个，利用多模实体识别模型识别得到关键词实体，此处不对多模实体识别模型的输入信息进行具体限定。

步骤102、将所述关键词实体与预置数据库中的业务信息进行多维度识别结果的相似度计算，得到所述关键词实体与预置数据库中的业务信息之间的多维度相似度。

在本实施例中，多维度识别结果的相似度计算是指，关键词实体的多维度识别结果与预置数据库中业务信息的多维度识别结果之间的相似度计算，具体为，将利用多模实体识别模型识别得到的关键词实体作为关键词实体的初始识别结果，利用多模实体识别模型预置数据库中的业务信息，得到业务信息的初始识别结果，利用精确匹配算法对关键词实体的初始识别结果与业务信息的初始识别结果进行第一维度的初始相似度计算，得到初始匹配值；利用模糊匹配算法对关键词实体的层级识别结果与业务信息的层级识别结果进行第二维度的层级相似度计算，得到层级匹配值，从而根据初始匹配值和层级匹配值计算出关键词实体与预置数据库中的业务信息之间的多维度相似度。

其中，预置数据库为用于与关键词实体进行多维度识别结果的相似度计算的物料数据库，例如，外卖平台服务器侧用于存储所有业务信息的物料数据库，业务信息可以按照业务类型确定业务信息的多维度识别结果，以便关键词实体的多维度识别结果分别与物料数据库中不同业务类型的业务信息的多维度识别结果进行多维度相似度计算，得到所述关键词实体与预置数据库中的业务信息之间的多维度相似度。其中，店铺信息按照业务类型包括店铺基础信息、店铺内物品信息、店铺评论信息、店铺相册信息等，根据实际应用场景的需求，此处不对店铺信息的业务类型维度进行具体限定。

步骤103、根据所述关键词实体和预置数据库中的业务信息的多阶段相似度，以及所述多维度相似度，得到与所述关键词实体匹配的目标业务信息。

在本实施例中，关键词实体和预置数据库中的业务信息的多阶段相似度是指，在整个关键词搜索的过程中，包括关键词实体识别阶段（对应关键词相似度计算）、初始实体识别阶段（对应初始实体相似度计算）、业务实体识别阶段（对应业务实体相似度计算）、多维度相似度计算阶段（对应多维度相似度计算）。可见，通过上述四个阶段能够实现双侧同时进行多维度识别结果的相似度计算以及多阶段相似度计算。

步骤104、根据所述目标业务信息，生成对应所述查询请求的操作指令。

在本实施例中，所述目标业务信息为一个或多个，将一个或多个目标业务信息按照相似度进行降序排列并生成相应的待查询指令，以便当接收到来自用户的查询指令后，激活待查询指令，并跳转至与所查询的目标业务信息对应的浏览页面。

本实施例提供的一种实体匹配方法，与目前现有技术相比，本实施例能够在接收到来自用户的查询请求后，对接收到的查询请求中的关键词进行实体识别，得到关键词实体，同时将关键词实体与预置数据库中的业务信息进行多维度识别结果的相似度计算，得到多维度相似度结果，以及根据关键词实体和预置数据库中的业务信息的多阶段相似度结果，以及多维度相似度结果，得到与关键词实体匹配的目标业务信息，以便根据得到的目标业务信息，生成对应查询请求的操作指令。可见，利用多维度识别结果的相似度计算以及多阶段相似度计算，能够对来自用户的查询请求进行更加准确地实体匹配，以及生成更加准确的查询结果，有效提升用户的查询体验，同时有效避免在暂无知识图谱或知识图谱不完善的情况下，关键词查询准确度较低的技术问题。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例中的过程，提供了另一种实体匹配方法，如图2所示，该方法包括：

步骤201、对接收到的查询请求中的关键词进行实体识别，得到关键词实体。

具体实施中，利用多模实体识别模型对查询请求中的关键词进行实体识别，得到关键词实体，其中，根据关键词获取文本信息、图像信息，根据查询请求获取文本信息的场景类型信息。

针对文本信息获取多模实体识别模型的第一输入，具体为：利用基于Bilstm+CRF结构的实体识别模型，其数据样本包括人工标注的样本和基于半自动化算法生成的样本。在对本文信息进行文本识别时，可以先利用字典进行初始识别，若初始识别成功，则其识别结果作为多模实体识别模型的第一输入；若初始识别失败，则利用基于Bilstm+CRF结构的实体识别模型进行实体识别，其识别结果作为多模实体识别模型的第一输入。其中，字典识别用于针对高频流量词汇的识别，其准确率能够达到95%以上，业务覆盖率能够达到70%以上。

针对文本信息的场景类型信息获取多模实体识别模型的第二输入，具体为：根据实际应用场景的需求，可以在实体识别模型中加入场景类型特征（例如，基于本地生活的场景类型特征），得到带有场景属性的识别结果，并作为多模实体识别模型的第二输入，以便基于场景类型信息提升文本信息的识别准确率和覆盖率，以及后续与预置数据库中业务信息的相似度计算准确率。

例如，当查询请求中的关键词为柚子，根据查询请求中的用户标识所对应的查询行为日志获得位置信息，即对应关键词柚子的场景类型信息为位置信息，当位置信息为城市信息“上海”时，利用加入场景类型特征的实体识别模型能够识别出该关键词柚子对应的识别结果包括水果场景属性的柚子和店铺场景属性的柚子店铺。可见，通过引入场景类型特征，实现多义词鉴别，能够有效提升关键词的识别准确率和覆盖率。

针对图像信息获取多模实体识别模型的第三输入，具体为：利用人工标注的样本对CNN模型进行训练，可使其图像实体识别准确率达到94%以上，即利用训练完成的CNN模型对图像信息进行实体识别，得到图像识别结果并作为多模实体识别模型的第三输入。

根据实际应用场景的需求，图像信息中可能包括多个物品，例如套餐图像，此时对图像信息的识别规则为仅识别其核心物品（例如，图像占比最大的物品），即肯德基炸鸡腿套餐图像中包括鸡腿、可乐等，则将该图像识别为鸡腿，而不是可乐，以提升关键词的识别准确率。

多模实体识别模型是基于Wide&Deep深度神经网络框架构建的，将文本信息的识别结果利用Word Embedding进行编码后作为第一输入，将根据文本信息的场景类型信息得到的带有业务属性的识别结果作为第二输入，将图像信息经由CNN模型得到的输出结果作为第三输入。其中，第二输入可以为类别特征，也可以为值类特征，基于上述的三个输入得到的关键词实体可有效提升关键词的识别准确度，其识别准确率可达96.8%以上。

步骤202、将所述关键词实体的初始识别结果与预置数据库中业务信息的初始识别结果进行相似度计算，得到初始匹配值。

具体实施中，在关键词实体识别阶段，关键词实体A的初始识别结果为多模实体识别模型的输出结果，例如带有不同场景属性的多个关键词实体A以及不同场景属性对应的关键词相似度值或权重值，预置数据库中业务信息B的初始识别结果可利用上述多模实体识别模型的思想获取，即将业务信息B基于本文信息、本文信息的业务类型信息、图像信息三个维度进行实体识别，得到业务信息B的初始识别结果，例如带有不同业务属性的多个业务信息B以及不同业务属性对应的业务实体相似度值或权重值。

进一步地，将关键词实体A的初始识别结果分别与预置数据库中的业务信息B的初始识别结果进行相似度计算（精确匹配算法），若关键词实体A与业务信息B属于同一实体，且关键词实体A的场景属性与业务信息B的业务属性一致，则在多维度相似度计算阶段，关键词实体A与业务信息B属于精确匹配，其初始匹配值为1，此时业务信息B为与关键词实体A匹配的目标业务信息，多维度相似度计算阶段结束。

相应地，若关键词实体A与业务信息B不属于同一实体，或/和关键词实体A的场景属性与业务信息B的业务属性不一致，则在多维度相似度计算阶段，关键词实体A与业务信息B不匹配，其初始匹配值大于0小于1，此时对关键词实体A的层级识别结果与所述业务信息B的层级识别结果进行相似度计算（模糊匹配算法），得到层级匹配值。步骤203、将所述关键词实体的层级识别结果与所述业务信息的层级识别结果进行相似度计算，得到层级匹配值。

进一步地，为了说明步骤203具体的实施过程，作为一种可选方式，该过程具体可包括：

步骤2031、将所述关键词实体的子级识别结果与所述业务信息的子级识别结果进行相似度计算，得到子级匹配值；其中，所述关键词实体的子级识别结果是根据所述关键词实体的初始识别结果确定的。

进一步地，为了说明步骤2031具体的实施过程，作为一种可选方式，该过程具体可包括：将所述关键词实体的子级识别结果与所述业务信息的子级识别结果进行相似度计算，得到子级初始匹配值；以及，根据所述子级初始匹配值和初始匹配值，计算出子级匹配值。

进一步地，为了说明步骤2031具体的实施过程，作为一种可选方式，该过程具体还可包括：根据所述查询请求获取相应的查询行为日志；获取对应所述关键词实体的子级识别结果的业务信息的子级识别结果；以及，根据所述查询行为日志中的查询实体信息和所述业务信息的子级识别结果进行相似度计算，得到子级匹配值。

步骤2032、若所述子级匹配值超过预置子级匹配值，则所述子级匹配值为层级匹配值。

步骤2033、若所述子级匹配值未超过预置子级匹配值，则将所述关键词实体的父级识别结果与所述业务信息的父级识别结果进行相似度计算，得到父级匹配值并作为层级匹配值。

步骤204、根据得到的初始匹配值和层级匹配值，计算得到多维度相似度。

具体实施中，利用具有边的类型的知识库（例如，家谱Tree）及模糊匹配算法获取层级匹配值，其中，以边的类型为上下位关系为例，关键词实体A的子级识别结果A1是关键词实体A的初始识别结果的上位关系，同理，获取业务信息B的子级识别结果B1，根据关键词实体A的子级识别结果A1和业务信息B的子级识别结果B1进行相似度计算，若子级识别结果A1与B1属于同一节点，则子级匹配值为1，超过预置子级匹配值，子级匹配值为层级匹配值，根据步骤202计算得到的初始匹配值dish_score和层级匹配值level_score，通过线性融合方式得到多维度相似度final_score，线性融合方式的计算公式为，final_score=k*dish_score+（1-k）*level_score，k为相似度系数，根据实际的业务效果进行调整，例如0.3，此处不对线性融合方式进行具体限定。

相应地，若子级识别结果A1与B1不属于精确匹配，则子级匹配值为大于等于0小于1，未超过预置子级匹配值，继续各自向上回溯，获取关键词实体A的父级识别结果A2与业务信息B的父级识别结果B2，并计算其相似度，若父级识别结果A2与B2属于同一节点，则子级匹配值为1，超过预置父级匹配值，父级匹配值为层级匹配值，根据步骤202计算得到的初始匹配值dish_score和层级匹配值level_score，通过线性融合方式得到多维度相似度final_score；若父级识别结果A2与B2属于亲密度为0的两个节点，则多维度相似度为0。

例如，关键词实体A为咖啡，业务信息B为冰淇淋，关键词实体A的子级识别结果A1为饮品，业务信息B的子级识别结果B1为甜食，两者初始匹配值大于等于0小于1，向上回溯获取关键词实体A的父级识别结果A2为美食，业务信息B的父级识别结果B2为美食，属于同一节点，父级匹配值为层级匹配值，计算出多维度相似度，多维度相似度计算阶段的流程结束。根据实际应用场景的需求，除了直系上下位关系外，也可以是具有一定亲密度的旁系上下位关系，例如，根据初始匹配值、子级匹配值、旁系匹配值进行线性融合计算，得到多维度相似度，此处不对多维度相似度的计算维度进行具体限定。需要说明的是，每向上回溯一步，其相似度越弱，即相似度系数越小。

其中，针对旁系匹配值的紧密度系数设定，具体为，获取查询请求中的用户标识所对应的查询行为日志获得用户行为信息，例如，咖啡点击9次、购买3次、冰淇淋点击1次、购买1次；设定用户不同行为的权重系数，例如，点击行为权重系数为0.3，购买行为权重系数为0.7，得到咖啡对应的紧密度为9*0.3+3*0.7=4.8、冰淇淋对应的紧密度为1*0.3 +1*0.7=1，对咖啡和冰淇淋进行归一化处理，得到紧密度系数为：1/（4.8+1）=0.172，此处不对旁系匹配值的紧密度系数的设定方法进行具体限定。

同理，根据查询请求中的用户标识所对应的查询行为日志获得用户行为信息及用户行为信息中包括的查询实体信息，例如，用户行为信息及用户行为信息中包括的查询实体信息为摩卡咖啡点击9次、购买3次、咖啡冰淇淋点击1次、购买1次；与关键词实体A的子级识别结果咖啡匹配的多维度业务信息B的子级识别结果包括摩卡咖啡和咖啡冰淇淋。通过设定用户不同行为的权重系数，例如，点击行为权重系数为0.3，购买行为权重系数为0.7，得到查询行为日志中的查询实体信息摩卡咖啡和多维度业务信息B的子级识别结果摩卡咖啡的子级匹配值为摩卡咖啡识别相似度*（9*0.3+3*0.7）、查询行为日志中的查询实体信息咖啡冰淇淋和多维度业务信息B的子级识别结果咖啡冰淇淋的子级匹配值为咖啡冰淇淋识别相似度*（1*0.3+1*0.7）。

需要说明的是，子级识别结果A1和B1、父级识别结果A2和B2的相似度计算方法（模糊匹配）具体为，将子级识别结果A1和B1、父级识别结果A2和B2分别映射到同一个语义向量空间内，计算其在同一个语义向量空间内的相似度。其中，语义向量空间是基于上述具有边的类型的知识库生成的，具体为：

基于具有边的类型的知识库生成Graph Embedding，利用基于deepWalk的图遍历算法或基于GCN的深度图表示学习算法，将子级识别结果A1和B1、父级识别结果A2和B2映射到相同的语义向量空间内；或者，将具有边的类型的知识库中的每个知识节点利用特定的Embedding向量进行表示，以便将子级识别结果A1和B1、父级识别结果A2和B2映射到相同的语义向量空间内，从而进一步计算出子级识别结果A1和B1、父级识别结果A2和B2的语义向量的余弦相似度，并作为层级匹配值。

如图3所示，对关键词实体query与预置数据库中的业务信息（例如，店铺信息）进行多维度识别结果的相似度计算，具体为，对关键词实体query进行菜名识别，得到初始识别结果菜名A，子级识别结果level1和父级识别结果level2，相应地，获取店铺信息中的多个菜品，通过菜名抽取得到初始识别结果菜名B，子级识别结果level1和父级识别结果level2，进一步地，利用具有边的类型的知识库，根据初始识别结果菜名A和初始识别结果菜名B进行相似度计算，得到初始匹配值，根据菜名A的子级识别结果level1和菜名B的子级识别结果level1进行相似度计算，得到子级匹配值，根据菜名A的父级识别结果level2和菜名B的父级识别结果level2进行相似度计算，得到父级匹配值，从而得到菜名A和菜名B的多维度相似度（即基于知识的匹配度），以便根据最终的相似度结果进行排序，得到相似度结果最大值所对应的目标业务实体。其中，子级识别结果和父级识别结果分别对应菜品知识体系中的二级知识和一级知识，例如，一级知识为小吃，对应的二级知识为麻辣烫、米线/米粉、面食/面馆，此处不对菜品知识体系的层级维度进行具体限定。

步骤205、利用多模实体识别模型对所述关键词进行实体识别，得到关键词相似度。

步骤206、对所述预置数据库中的业务信息进行实体信息提取，得到初始实体及其相似度。

步骤207、对所述初始实体进行实体识别，得到业务实体及其相似度。

步骤208、根据所述关键词相似度、初始实体相似度、业务实体相似度和多维度相似度，确定与所述关键词实体匹配的目标业务信息。

具体实施中，在步骤201中，利用多模实体识别模型对接收到的查询请求中的关键词进行实体识别，得到关键词实体的同时，获取关键词实体对应的关键词相似度Sim_a。根据实际应用场景的需求，若查询请求中的文本信息为咖啡，则可利用多模实体识别模型，以及基于步骤204中的具有边的类型的知识库分别计算出两个关键词实体及其对应的关键词相似度，例如，关键词实体为摩卡咖啡、咖啡冰激凌，分别对应的关键词相似度为4.8和1。

其中，在关键词实体识别阶段，关键词相似度Sim_a的计算方法为，根据输入信息咖啡，利用多模实体识别模型得到关键词实体摩卡咖啡、咖啡冰淇淋等多种不同的实体，获取查询请求中的用户标识所对应的查询行为日志获得用户行为信息，例如，摩卡咖啡点击9次、购买3次、咖啡冰淇淋点击1次、购买1次；设定用户不同行为的权重系数，例如，点击行为权重系数为0.3，购买行为权重系数为0.7，得到摩卡咖啡对应的关键词相似度为9*0.3 +3*0.7=4.8、咖啡冰淇淋对应的关键词相似度为1*0.3 +1*0.7=1。根据实际应用场景的需求，关键词相似度也可利用基于步骤204中的具有边的类型的知识库构建的多模实体识别模型输出的置信度来确定，此处不对关键词相似度的获取方式进行具体限定。

相应地，在初始实体识别阶段，对物料数据库中的业务信息按照不同业务类型进行实体信息提取，得到多维度的初始实体及其相似度Sim_b。其中，相似度Sim_b的计算方法可以根据业务类型的完善度、准确度来确定，例如，业务类型共4种，若某一业务信息仅覆盖3种业务类型，则其相似度Sim_b为75%，此处不对相似度Sim_b的计算方法进行具体限定。

相应地，在业务实体识别阶段，对得到的初始实体进行紧密度计算，得到多维度的业务实体B及其相似度Sim_c。其中，业务信息按照线上店铺信息的维度进行存储，多维度的业务实体B及其相似度Sim_c的计算方法可以根据初始实体与物料数据库中的线上店铺信息之间的紧密度来确定，即根据线上店铺信息的店铺类别确定物品类别（例如，核心物品和非核心物品），从而计算出初始实体与物料数据库中线上店铺信息包含的核心物品之间的紧密度，即得到多维度的业务实体B及其相似度Sim_c。例如，海底捞火锅店铺中的火锅套餐，火锅套餐中的实体信息包括火锅、牛肚、米饭、汽水，其紧密度顺序为：火锅>牛肚>米饭=汽水=0，若初始实体为火锅，则计算出初始实体火锅与物料数据库中线上店铺信息包含的核心物品火锅之间的紧密度，即多维度的业务实体B为火锅，其相似度Sim_c为1。

综上，由于多维度相似度Sim_d计算已根据步骤202、203、204得到，而每个阶段的实体识别均存在一个或者多个识别结果及对应的相似度结果，因此，对多个阶段的相似度结果进行多路径融合，例如，关键词相似度Sim_a、初始实体相似度Sim_b、业务实体相似度Sim_c、多维度相似度Sim_d之间进行线性乘积或求和并取最大值，最大值所对应的业务实体B即与关键词实体匹配的目标业务信息，此处不对多路径融合的计算方式进行具体限定。

进一步地，为了说明步骤208具体的实施过程，作为一种可选方式，该过程具体可包括：若所述关键词相似度、初始实体相似度、业务实体相似度、多维度相似度中至少一个存在多个相似度结果，则将所述多个相似度结果与其对应的相似度阈值进行比对，得到大于所述相似度阈值的相似度结果；以及，根据大于所述相似度阈值的相似度结果，确定与所述关键词实体匹配的目标业务信息。

具体实施中，由于多路径融合的计算工作量较大，因此，对关键词相似度Sim_a、初始实体相似度Sim_b、业务实体相似度Sim_c、多维度相似度Sim_d进行相似度剪枝，具体为，基于动态规划算法，按照每个阶段的相似度阈值，对每个阶段的识别结果及相似度进行剪枝，即该阶段对应的路径终止，以减少多路径融合的计算工作量。例如，关键词实体A为火锅，业务信息为店铺信息海底捞火锅，对业务信息海底捞火锅进行业务实体识别，得到多维度业务实体B为火锅（按照业务类型中的店铺基础信息维度识别得到）、火锅4人套餐（按照业务类型中的店铺内物品信息维度识别得到，其中，店铺内物品信息按照店铺类别确定其核心物品为火锅）、火锅鸡（按照业务类型中的店铺内物品信息维度识别得到）。通过相似度计算得到火锅鸡的相似度低于相似度阈值，则剪枝火锅鸡对应的路径，得到最终与关键词实体匹配的目标业务信息为火锅和火锅4人套餐，而不包括火锅鸡。其中，相似度阈值也可以由最高相似度来替代，此处不进行具体限定。

进一步地，作为一种可选方式，本实施例具体还包括：所述多阶段相似度，以及所述多维度相似度是利用具有边的类型的置信知识库计算得到的，所述置信知识库的构建方法，具体包括：根据业务场景特征，对初始知识库中的初始知识节点赋予业务属性信息、或者增加相应的业务属性知识节点，得到新的知识节点；根据所述新的知识节点之间的关联关系类型，得到所述新的知识节点之间的权重系数。

具体实施中，多阶段相似度，以及多维度相似度均可以利用具有边的类型的置信知识库（例如，家谱Tree）来计算，其中，具有边的类型的置信知识库可以通过对知识节点提纯和知识关系优化来构建。具体为：

1）知识节点提纯。对初始知识库中的知识节点按照业务场景进行实体抽取，例如，知识节点“陕西肉夹馍二人餐”，按照业务场景进行实体信息抽取，得到知识节点“肉夹馍”，以及修饰关系特征“陕西”、“二人餐”，其中修饰关系特征“陕西”、“二人餐”可以作为知识节点“肉夹馍”的业务属性信息，也可以作为独立的知识节点，增加知识库节点数量，实现知识库的自动增量。

2）知识关系优化。边的类型构建具体为，将知识节点之间的关系分为多个类别，即上下位关系（父子关系）、修饰关系（核心与非核心或旁系关系）、组合关系、互斥关系、依赖关系等。其中，知识节点之间的紧密度计算方法具体为，获取用户的查询行为日志，包括搜索、点击、收藏、加购、购买等多种行为维度，不同行为的紧密度不同，例如购买行为的紧密度最大；利用贝叶斯统计方法，按照行为维度分别统计从当前知识节点到达不同邻近知识节点的分布，从而得到知识节点之间的紧密度，因此，知识节点之间的紧密度又称为行为权重系数。

根据实际应用场景的需求，根据实时新增的初始业务信息进行知识节点提纯和知识关系优化，实现知识库的更新，即得到具有边的类型的置信知识库，并利用Doc Dump实现线上搜索引擎，同时，对置信知识库进行定时抽检，包括人工抽样评测和基于NLP模板匹配实现的自动化算法评估，从而实现置信知识库的自我增长及自循环。

步骤209、根据所述目标业务信息，生成对应所述查询请求的操作指令。

通过应用本实施例提供的方法，即在接收到来自用户的查询请求后，对接收到的查询请求中的关键词进行实体识别，得到关键词实体，同时将关键词实体与预置数据库中的业务信息进行多维度识别结果的相似度计算，得到多维度相似度结果，以及根据关键词实体和预置数据库中的业务信息的多阶段相似度结果，以及多维度相似度结果，得到与关键词实体匹配的目标业务信息，以便根据得到的目标业务信息，生成对应查询请求的操作指令。可见，通过双侧同时进行多维度识别结果的相似度计算以及多阶段相似度计算，能够得到结构化的、有业务语义的更加准确地实体匹配及识别，以及生成更加准确的查询结果，有效提升用户的查询体验，同时有效避免在暂无知识图谱或知识图谱不完善的情况下，关键词查询准确度较低的技术问题。

进一步地，作为图1和图2所示方法的具体实现，本申请实施例提供了一种实体匹配装置，如图4所示，该装置包括：识别模块31、多维度模块32、多阶段模块33、生成模块34。

识别模块31，用于对接收到的查询请求中的关键词进行实体识别，得到关键词实体。

多维度模块32，用于将所述关键词实体与预置数据库中的业务信息进行多维度识别结果的相似度计算，得到所述关键词实体与预置数据库中的业务信息之间的多维度相似度。

多阶段模块33，用于根据所述关键词实体和预置数据库中的业务信息的多阶段相似度，以及所述多维度相似度，得到与所述关键词实体匹配的目标业务信息。

生成模块34，用于用于根据所述目标业务信息，生成对应所述查询请求的操作指令。

在具体的应用场景中，如图5所示，所述多维度模块32，具体包括：初始匹配单元321、层级匹配单元322、计算单元323。

初始匹配单元321，具体用于将所述关键词实体的初始识别结果与预置数据库中业务信息的初始识别结果进行相似度计算，得到初始匹配值。

层级匹配单元322，具体用于将所述关键词实体的层级识别结果与所述业务信息的层级识别结果进行相似度计算，得到层级匹配值。

计算单元323，具体用于根据得到的初始匹配值和层级匹配值，计算得到多维度相似度。

在具体的应用场景中，所述层级匹配单元322，包括：将所述关键词实体的子级识别结果与所述业务信息的子级识别结果进行相似度计算，得到子级匹配值；若所述子级匹配值超过预置子级匹配值，则所述子级匹配值为层级匹配值；以及，若所述子级匹配值未超过预置子级匹配值，则将所述关键词实体的父级识别结果与所述业务信息的父级识别结果进行相似度计算，得到父级匹配值并作为层级匹配值；其中，所述关键词实体的子级识别结果是根据所述关键词实体的初始识别结果确定的。

在具体的应用场景中，所述将所述关键词实体的子级识别结果与所述业务信息的子级识别结果进行相似度计算，得到子级匹配值，包括：将所述关键词实体的子级识别结果与所述业务信息的子级识别结果进行相似度计算，得到子级初始匹配值；以及，根据所述子级初始匹配值和初始匹配值，计算出子级匹配值。

在具体的应用场景中，将所述关键词实体的子级识别结果与所述业务信息的子级识别结果进行相似度计算，得到子级匹配值，包括：根据所述查询请求获取相应的查询行为日志；获取对应所述关键词实体的子级识别结果的业务信息的子级识别结果；以及，根据所述查询行为日志中的查询实体信息和所述业务信息的子级识别结果进行相似度计算，得到子级匹配值。

在具体的应用场景中，所述多阶段模块33，具体包括：多模单元331、初始实体单元332、业务实体单元333、目标业务单元334。

多模单元331，具体用于利用多模实体识别模型对所述关键词进行实体识别，得到关键词相似度。

初始实体单元332，具体用于对所述预置数据库中的业务信息进行实体信息提取，得到初始实体及其相似度。

业务实体单元333，具体用于对所述初始实体进行实体识别，得到业务实体及其相似度。

目标业务单元334，具体用于根据所述关键词相似度、初始实体相似度、业务实体相似度和多维度相似度，确定与所述关键词实体匹配的目标业务信息。

在具体的应用场景中，若所述关键词相似度、初始实体相似度、业务实体相似度、多维度相似度中至少一个存在多个相似度结果，则所述目标业务单元334，具体包括：将所述多个相似度结果与其对应的相似度阈值进行比对，得到大于所述相似度阈值的相似度结果；以及，根据大于所述相似度阈值的相似度结果，确定与所述关键词实体匹配的目标业务信息。

需要说明的是，本实施例提供的一种实体匹配装置所涉及各功能模块、功能单元的其它相应描述，可以参考图1和图2中的对应描述，在此不再赘述。

通过应用上述实体匹配装置，在接收到来自用户的查询请求后，对接收到的查询请求中的关键词进行实体识别，得到关键词实体，同时将关键词实体与预置数据库中的业务信息进行多维度识别结果的相似度计算，得到多维度相似度结果，以及根据关键词实体和预置数据库中的业务信息的多阶段相似度结果，以及多维度相似度结果，得到与关键词实体匹配的目标业务信息，以便根据得到的目标业务信息，生成对应查询请求的操作指令。可见，通过双侧同时进行多维度识别结果的相似度计算以及多阶段相似度计算，能够得到结构化的、有业务语义的更加准确地实体匹配及识别，以及生成更加准确的查询结果，有效提升用户的查询体验，同时有效避免在暂无知识图谱或知识图谱不完善的情况下，关键词查询准确度较低的技术问题。

基于上述如图1和图2所示方法，相应的，本申请实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1和图2所示的实体匹配方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施场景的实体匹配方法。

基于上述如图1和图2所示的方法，以及图4和图5所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种终端设备，具体可以为个人计算机、平板电脑、智能手机、智能手表、POS设备或其他网络设备等，该终端设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1和图2所示的实体匹配方法。

可选的，上述实体设备都还可以包括用户接口、网络接口、摄像头、射频（RadioFrequency，RF）电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏（Display）、输入单元比如键盘（Keyboard）等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口（如WI-FI接口）等。

本领域技术人员可以理解，本实施例提供的一种终端设备的实体设备结构并不构成对上述实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述两个实体设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与目前现有技术相比，本实施例利用多维度识别结果的相似度计算以及多阶段相似度计算，能够对来自用户的查询请求进行更加准确地实体匹配，以及生成更加准确的查询结果，有效提升用户的查询体验，同时有效避免在暂无知识图谱或知识图谱不完善的情况下，关键词查询准确度较低的技术问题。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种实体匹配方法，其特征在于，包括：

根据所述目标业务信息，生成对应所述查询请求的操作指令；

其中，所述多维度识别结果的相似度计算是指，关键词实体的多维度识别结果与预置数据库中业务信息的多维度识别结果之间的相似度计算。

2.根据权利要求1所述的方法，其特征在于，所述将所述关键词实体与预置数据库中的业务信息进行多维度识别结果的相似度计算，得到所述关键词实体与预置数据库中的业务信息之间的多维度相似度，包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述关键词实体的层级识别结果与所述业务信息的层级识别结果进行相似度计算，得到层级匹配值，包括：

4.根据权利要求3所述的方法，其特征在于，将所述关键词实体的子级识别结果与所述业务信息的子级识别结果进行相似度计算，得到子级匹配值，包括：

5.根据权利要求3所述的方法，其特征在于，将所述关键词实体的子级识别结果与所述业务信息的子级识别结果进行相似度计算，得到子级匹配值，包括：

根据所述查询请求获取相应的查询行为日志；

6.根据权利要求1所述的方法，其特征在于，所述根据所述关键词实体和预置数据库中的业务信息的多阶段相似度，以及所述多维度相似度，得到与所述关键词实体匹配的目标业务信息，包括：

对所述初始实体进行实体识别，得到业务实体及其相似度；

7.根据权利要求6所述的方法，其特征在于，若所述关键词相似度、初始实体相似度、业务实体相似度、多维度相似度中至少一个存在多个相似度结果，则根据所述关键词相似度、初始实体相似度、业务实体相似度和多维度相似度，确定与所述关键词实体匹配的目标业务信息，包括：

8.一种实体匹配装置，其特征在于，包括：

生成模块，用于根据所述目标业务信息，生成对应所述查询请求的操作指令；

9.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7中任一项所述的实体匹配方法。

10.一种设备，包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至7中任一项所述的实体匹配方法。