CN114462357A - 实体链接方法、构建方法、装置及存储介质 - Google Patents

实体链接方法、构建方法、装置及存储介质 Download PDF

Info

Publication number
CN114462357A
CN114462357A CN202210266043.9A CN202210266043A CN114462357A CN 114462357 A CN114462357 A CN 114462357A CN 202210266043 A CN202210266043 A CN 202210266043A CN 114462357 A CN114462357 A CN 114462357A
Authority
CN
China
Prior art keywords
entity
result
candidate
mention
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210266043.9A
Other languages
English (en)
Inventor
王子奕
刘嘉伟
鞠剑勋
李健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhilv Information Technology Co ltd
Original Assignee
Shanghai Zhilv Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhilv Information Technology Co ltd filed Critical Shanghai Zhilv Information Technology Co ltd
Priority to CN202210266043.9A priority Critical patent/CN114462357A/zh
Publication of CN114462357A publication Critical patent/CN114462357A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/134Hyperlinking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开实施例中提供实体链接方法、构建方法、装置及存储介质,在实体链接方法中,分别输入用户的查询文本至前缀树和命名实体识别模型,以得到第一实体提及结果和第二实体提及结果,并合并第一实体提及结果和第二实体提及结果得到合并实体提及结果;基于所述合并实体提及结果召回候选实体集;基于实体消歧模型,根据所述候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率;基于各所述候选实体的概率确定目标实体。通过结合并行的前缀树和命名实体识别模型的实体提及结果,以提升所包含实体的全面度,并利用基于实体消歧模型等机器学习模型来提升预测的准确性,从而提升实体链接结果的准确性,提升用户体验。

Description

实体链接方法、构建方法、装置及存储介质
技术领域
本公开涉及信息处理技术领域,尤其涉及实体链接方法、构建方法、装置及存储介质。
背景技术
随着网络应用技术的飞速发展,互联网已成为人类生产和获取信息的首要渠道,多元化、低密度数据的急剧膨胀对既有搜索引擎技术带来巨大挑战。实现对海量数据的高效处理,降低信息过载,准确识别用户搜索意图,提高检索结果的可靠性,是搜索引擎未来的发展趋势。
与通用搜索引擎相比,垂直搜索场景更加强调对行业信息的深度挖掘、过滤、筛选与整合,因此资源定位需要更加精准。具体到旅游行业,对于广大线上旅游公司(OnlineTravelAgency,OTA)商家来说,搜索引擎是将自身产品与服务同潜在消费者关联的重要媒介,对用户查询的理解程度直接关系到如何选出满意的旅游地、旅行线路、旅行社或旅游计划,一个智能的搜索引擎会极大提升用户使用体验和留存,提高订单转换,带来收益增长。
在旅游搜索中,用户通常关注度假目的地的周边景点、酒店和玩乐方式等,这些对象在地理信息系统中统称为兴趣点(Point ofInterest,POI)。用户的搜索词往往隐含了特定POI的信息,将用户查询映射到真实世界中的POI需要借助实体链接技术。
实体链接,指将文本中的表述链接到知识库中相应实体来进行实体消歧、帮助计算机理解文本具体含义的任务,一般包含实体提及识别、候选实体生成和候选实体消歧三个步骤。其中,实体消歧对实体链接效果往往起决定性作用,是当前学界业界研究的热点。传统做法通常是将用户搜索查询(Query)文本与候选实体的描述文本进行编码并计算二者之间的相似度,但这种方式未能考虑到候选实体在其它方面的特征,导致实体链接不准确的问题,不利于用户体验。
发明消息
鉴于以上相关技术的缺点,本公开的目的在于提供实体链接方法、构建方法、装置及存储介质,以解决相关技术中实体链接不精准的问题。
本公开第一方面提供一种实体链接方法,应用于实体链接系统;所述方法包括:获取用户输入的查询文本;分别输入所述查询文本至前缀树和命名实体识别模型,以得到第一实体提及结果和第二实体提及结果,并合并第一实体提及结果和第二实体提及结果得到合并实体提及结果;其中,所述前缀树的根节点至每个叶节点之间的闭合路径对应于一实体别名;基于所述合并实体提及结果召回候选实体集;基于实体消歧模型,根据所述候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率;基于各所述候选实体的概率确定目标实体。
在第一方面的实施例中,所述基于查询文本输入前缀树以得到第一实体提及结果,包括:依据前向最大匹配策略,依次基于查询文本中的每个待匹配字符在所述前缀树执行匹配以得到闭合路径,并获得对应的实体别名以形成所述第一实体提及结果。
在第一方面的实施例中,所述前缀树所对应的各个所述实体别名获取自预先建立的知识库。
在第一方面的实施例中,所述命名实体识别模型基于所述查询文本获取第二实体提及结果,包括:命名体识别模型基于查询文本生成文本嵌入序列;所述命名实体识别模型映射所述文本嵌入序列为序列表征向量,序列表征向量包含与查询文本中每个字符对应的一特征值;所述命名实体识别模型基于所述序列表征向量分别预测每个字符属于实体的头部或尾部的概率值,以得到预测结果;所述预测结果包括:实体头部预测向量和实体尾部预测向量;基于所述实体头部预测向量和实体尾部预测向量的组合识别所述查询文本中的各实体以形成所述第二实体提及结果。
在第一方面的实施例中,所述命名实体识别模型由对神经网络模型训练得到,所述训练包括:输入训练样本至所述命名实体识别模型;其中,所述训练样本包括输入文本及对应的标签,所述标签包括实体头部参考向量和实体尾部参考向量;获得所述命名实体识别模型对于所述输入文本的预测结果;基于交叉熵损失函数计算所述预测结果与标签之间的损失,并根据所述损失更新所述命名实体识别模型。
在第一方面的实施例中,所述基于所述合并实体提及结果召回候选实体集,包括:基于所述合并实体提及结果在知识库中匹配实体,并将与所匹配到的实体关联的各实体别名的链接对象确定为候选实体。
在第一方面的实施例中,所述知识库为旅游知识库,所述链接对象包括以下至少一种:兴趣点、目的地、旅游产品。
在第一方面的实施例中,所述实体消歧模型包括:推荐网络及文本匹配网络,所述推荐网络包括并行的因式分解机和深度神经网络;所述基于实体消歧模型,根据所述候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率,包括:获取当前候选实体的特征表示结果;其中,所述特征表示结果包括所述当前候选实体的每个特征的第一特征向量;拼接所述查询文本及当前候选实体的描述文本为待匹配文本序列;利用所述文本匹配网络映射待匹配文本序列以得到文本匹配结果,包括:获取所述查询文本的句特征向量、所述当前候选实体在查询文本中提及片段的首位置的首位置特征向量、及尾位置的尾位置特征向量;映射所述句特征向量、首位置特征向量和尾位置特征向量的拼接向量至与所述第一特征向量位于相同向量空间的第二特征向量;以所述特征表示结果和文本匹配结果为输入特征信息,输入至所述推荐网络,由所述因式分解机根据所述输入特征信息得到第一中间结果,以及由所述深度神经网络根据所述输入特征信息得到第二中间结果;融合所述第一中间结果和第二中间结果,并据以计算得到所述当前候选实体作为所述链接结果的概率。
在第一方面的实施例中,所述实体消歧模型是经训练得到的,所述训练包括:输入训练样本至所述实体消歧模型;其中,所述训练样本包括:查询文本、候选实体的特征数据、候选实体的描述文本及对应的候选实体标签;所述候选实体标签指示所述候选实体是否作为对应的查询文本的链接结果;获得所述实体消歧模型对于所述特征表示结果和文本匹配结果的预测结果;基于交叉熵损失函数计算所述预测结果与候选实体标签之间的损失,并根据所述损失更新所述实体消歧模型。
在第一方面的实施例中,所述候选实体的特征分为离散型特征和连续型特征;和/或,所述候选实体的每个特征具有所属的特征域,每个特征域对应于一种特征或者一种特征分类。
在第一方面的实施例中,所述获取当前候选实体的特征表示结果,包括:特征预处理步骤,包括:对当前候选实体的各特征间进行归一化处理、对连续型特征执行分桶、及对离散型特征执行独热编码。
在第一方面的实施例中,所述基于各所述候选实体的概率确定目标实体,包括:确定所述概率高于预设阈值的候选实体作为目标实体。
在第一方面的实施例中,所述训练样本基于用户查询日志构建。
本公开第二方面提供一种实体链接系统的构建方法,用于构建应用如第一方面任一项所述的实体链接方法的实体链接系统;所述构建方法包括:构建知识库,所述知识库包括实体及其关联的各实体别名,其中至少一个实体别名具有链接对象;基于所述知识库的各实体别名构建前缀树,用于基于输入的查询文本得到第一实体提及结果;其中,所述前缀树的根节点至每个叶节点之间的闭合路径对应于一实体别名;建立并训练命名实体识别模型,用于基于输入的查询文本得到第二实体提及结果;建立并训练实体消歧模型;所述实体消歧模型用于根据候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率;其中,每个所述候选实体为基于合并实体提及结果从所述知识库召回得到,所述合并实体提及结果为合并所述第一实体提及结果和第二实体提及结果得到。
本公开第三方面提供一种实体链接装置,应用于实体链接系统,所述实体链接装置包括:获取模块,用于获取用户输入的查询文本;实体提及模块,用于分别输入所述查询文本至前缀树和命名实体识别模型,以得到第一实体提及结果和第二实体提及结果,并合并第一实体提及结果和第二实体提及结果得到合并实体提及结果;其中,所述前缀树的根节点至每个叶节点之间的闭合路径对应于一实体别名;候选实体获取模块,用于基于所述合并实体提及结果召回候选实体集;实体链接预测模块,用于基于实体消歧模型,根据所述候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率;实体链接确定模块,用于基于各所述候选实体的概率确定目标实体。
本公开第四方面提供一种实体链接系统的构建装置,用于构建应用如第一方面任一项所述的实体链接方法的实体链接系统;所述构建装置包括:知识库构建模块,用于构建知识库,所述知识库包括实体及其关联的各实体别名,其中至少一个实体别名具有链接对象;前缀树构建模块,用于基于所述知识库的各实体别名构建前缀树,用于基于输入的查询文本得到第一实体提及结果;其中,所述前缀树的根节点至每个叶节点之间的闭合路径对应于一实体别名;命名实体识别模型构建模块,用于建立并训练命名实体识别模型,用于基于输入的查询文本得到第二实体提及结果;实体消歧模型构建模块,用于建立并训练实体消歧模型;所述实体消歧模型用于根据候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率;其中,每个所述候选实体为基于合并实体提及结果从所述知识库召回得到,所述合并实体提及结果为合并所述第一实体提及结果和第二实体提及结果得到。
本公开第五方面提供一种计算机装置,包括:通信器、存储器及处理器;所述通信器用于与外部通信;所述存储器存储有程序指令;所述处理器用于运行所述程序指令以执行如第一方面任一项所述的实体链接方法;或者,执行如权利要求第二方面任一项所述的构建方法。
本公开第六方面提供一种计算机可读存储介质,存储有程序指令,所述程序指令被运行以执行如第一方面任一项所述的实体链接方法;或者,执行如权利要求第二方面任一项所述的构建方法。
如上所述,本公开实施例中提供实体链接方法、构建方法、装置及存储介质,在实体链接方法中,分别输入用户的查询文本至前缀树和命名实体识别模型,以得到第一实体提及结果和第二实体提及结果,并合并第一实体提及结果和第二实体提及结果得到合并实体提及结果;基于所述合并实体提及结果召回候选实体集;基于实体消歧模型,根据所述候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率;基于各所述候选实体的概率确定目标实体。通过结合并行的前缀树和命名实体识别模型的实体提及结果,以提升所包含实体的全面度,并利用基于实体消歧模型等机器学习模型来提升预测的准确性,从而提升实体链接结果的准确性,提升用户体验。
附图说明
图1展示本公开一实施例中实体链接方法的流程示意图。
图2展示本公开一实施例中前缀树的示意图。
图3展示本公开一实施例中通过命名实体识别模型得到第二实体提及结果的流程示意图。
图4展示本公开一实施例中命名实体识别模型实现的结构示意图。
图5展示本公开一实施例中候选实体召回的原理图。
图6展示本公开一实施例中步骤S104的具体流程示意图。
图7展示本公开一实施例中实体消歧模型的结构示意图。
图8展示本公开一实施例中实体链接系统处理流程示意图。
图9展示本公开一实施例中的实体链接系统的构建方法的流程示意图。
图10展示本公开一实施例中实体链接装置的模块示意图。
图11展示本公开一实施例中实体链接系统的构建装置的模块示意图。
图12展示本公开一实施例中计算机装置的结构示意图。
具体实施方式
以下通过特定的具体实例说明本公开的实施方式,本领域技术人员可由本公开所揭露的消息轻易地了解本公开的其他优点与功效。本公开还可以通过另外不同的具体实施方式加以实施或应用系统,本公开中的各项细节也可以根据不同观点与应用系统,在没有背离本公开的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。
下面以附图为参考,针对本公开的实施例进行详细说明,以便本公开所属技术领域的技术人员能够容易地实施。本公开可以以多种不同形态体现,并不限定于此处说明的实施例。
在本公开的表示中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的表示意指结合该实施例或示例表示的具体特征、结构、材料或者特点包括于本公开的至少一个实施例或示例中。而且,表示的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本公开中表示的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于表示目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的表示中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
为了明确说明本公开,省略与说明无关的器件,对于通篇说明书中相同或类似的构成要素,赋予了相同的参照符号。
在通篇说明书中,当说某器件与另一器件“连接”时,这不仅包括“直接连接”的情形,也包括在其中间把其它元件置于其间而“间接连接”的情形。另外,当说某种器件“包括”某种构成要素时,只要没有特别相反的记载,则并非将其它构成要素排除在外,而是意味着可以还包括其它构成要素。
虽然在一些实例中术语第一、第二等在本文中用来表示各种元件,但是这些元件不应当被这些术语限制。这些术语仅用来将一个元件与另一个元件进行区分。例如,第一接口及第二接口等表示。再者,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、步骤、操执行、元件、模块、项目、种类、和/或组,但不排除一个或多个其他特征、步骤、操执行、元件、模块、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能、步骤或操执行的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。
此处使用的专业术语只用于言及特定实施例,并非意在限定本公开。此处使用的单数形态,只要语句未明确表示出与之相反的意义,那么还包括复数形态。在说明书中使用的“包括”的意义是把特定特性、区域、整数、步骤、执行业、要素及/或成份具体化,并非排除其它特性、区域、整数、步骤、执行业、要素及/或成份的存在或附加。
表示“下”、“上”等相对空间的术语可以为了更容易地说明在附图中图示的一器件相对于另一器件的关系而使用。这种术语是指,不仅是在附图中所指的意义,还包括使用中的装置的其它意义或执行业。例如,如果翻转附图中的装置,曾说明为在其它器件“下”的某器件则说明为在其它器件“上”。因此,所谓“下”的示例性术语,全部包括上与下方。装置可以旋转90°或其它角度,代表相对空间的术语也据此来解释。
虽然未不同地定义,但包括此处使用的技术术语及科学术语,所有术语均具有与本公开所属技术领域的技术人员一般理解的意义相同的意义。普通使用的字典中定义的术语追加解释为具有与相关技术文献和当前提示的消息相符的意义,只要未进行定义,不得过度解释为理想的或非常公式性的意义。
目前,互联网普遍采用搜索引擎来满足用户搜索需求,但是搜索引擎所使用的实体链接技术,在准确度上仍有不足。比如,通过计算用户输入的查询文本与候选实体的描述文本的相似度及排序的方式来实现实体消歧。多数实体链接系统侧重于改进候选实体消歧步骤,即根据候选实体特征为其计算出一个排序得分的方式,但是这种方式未能考虑候选实体在其它方面的特征,导致实体链接不准确,影响到用户搜索的体验。
鉴于此,本公开实施例中可以提供一种实体链接方法,应用于实体链接系统。所述实体链接系统可以应用于搜索引擎等。
如图1所示,展示本公开一实施例中实体链接方法的流程示意图。
在图1中,所述实体链接方法包括:
步骤S101:获取用户输入的查询文本。
在搜索场景中下,所述用户输入查询文本以搜索目标。相应的,实体链接即根据查询文本中的提及片段来查询对应的实体的信息,如查询文本为“我在上海火车站”,根据提及片段“上海火车站”查询实体“上海火车站”的相关信息。
步骤S102:分别输入所述查询文本至前缀树和命名实体识别模型,以得到第一实体提及结果和第二实体提及结果,并合并第一实体提及结果和第二实体提及结果得到合并实体提及结果。
在一些实施例中,所述前缀树基于实体别名构建,比如实体别名“上海火车站”,“上”、“海”、“火”、“车”、“站”每个字对应一个前缀树中的中间节点,这些中间节点按与字顺序一致的根节点(Root)到叶节点的方向依次相连。“上”节点向上连接根节点,“站”节点会向下有一条路径分支连接叶节点,此根节点和叶节点之间形成的闭合路径即对应于实体别名“上海火车站”。其中,根节点可以不包含字符,叶节点可以包含终止符(end)。因此,树中每个节点的后继节点都拥有相同的前缀,故叫做前缀树。
以此类推,带有“上”、“上海”、“上海火”、“上海火车”、“上海火车站”的字符的实体别名皆可以通过此前缀树中的一条闭合路径来表示,比如“上海动物园”,是从“海”这个节点开始引出的分支。
在一些实施例中,所述前缀树所对应的各个所述实体别名获取自预先建立的知识库,也可以通过知识图谱呈现。例如,可以根据此知识库中每个实体别名来构建一棵前缀树。所述知识库与用户搜索的领域相关,比如旅游方面的知识库,其中包含了与旅游交通、旅游地点等相关的各种实体及相关实体别名。
如图2所示,展示本公开一实施例中前缀树的示意图。
在此示例中,前缀树对应的实体别名包括“武汉”、“武汉站”、“东湖”、“东湖景区”、“东湖宾馆”等。其中,实体“武汉”、“武汉站”是与实体“武汉”相关的实体别名,“东湖”、“东湖景区”、“东湖宾馆”是与实体“东湖”相关的实体别名。
根据查询文本中的各个字符可以依次在此前缀树中匹配到所需要的实体别名。在一些实施例中,可以依据如前向最大匹配策略,依次基于查询文本中的每个待匹配字符在所述前缀树执行匹配以得到闭合路径,并获得对应的实体别名以形成所述第一实体提及结果。示例性地,所述前向最大匹配策略包括:
1)如果当前(比如使用文本指针指向)的待匹配字符在当前中间节点的后继节点中,则移动至待匹配字符对应的子节点,同时指向下一字符。
2)如果当前的待匹配字符不在当前中间节点的后继节点中,则停止搜索。若后继节点中包含叶节点,则闭合得到第一实体提及结果的字符串;否则,递归地回退至上级节点,直至上级节点的后继节点中包含叶节点,然后闭合得到第一实体提及结果的字符串。当回退至根节点时,匹配失败。
前缀树可以最大程度减少对用户查询文本中无效字符串的匹配,且最坏情况的时间复杂度优于哈希表。本公开实施例中,利用每个实体相关的全面的实体别名构建前缀树,以能更准确地搜索到满足用户搜索意图的实体别名,作为第一实体提及结果。
在一些实施例中,在知识库中可以预先为实体别名创建关联的链接对象,所述链接对象可以被作为后续召回的候选实体。例如,所述知识库为旅游知识库,则所述链接对象包括以下至少一种:兴趣点(POI)、目的地、旅游产品等。举例来说,在构建旅游知识的知识库或知识图谱时,将目的地、POI、旅游产品等实体的字符串与可能的实体提及结果的字符串之间创建别名关系以进行关联,则根据匹配查询文本的实体提及结果可以匹配到目的地、POI、旅游产品等的实体别名。
在可能示例中,在知识图谱中,“实体别名”可以作为一种特殊的节点类型,会以(实体,hasAlias,实体别名)的三元组形式形成实体和实体别名之间的关联。
在一些实施例中,所述命名实体识别模型用于识别出查询文本中的实体的字符串以形成第二实体提及结果。
如图3所示,展示本公开一实施例中通过命名实体识别模型得到第二实体提及结果的流程示意图。
在图3中,所述流程包括:
步骤S301:命名体识别模型基于查询文本生成文本嵌入序列。
在一些实施例中,可预先对查询文本进行截断至符合预设输入维度的要求。可以对查询文本进行分词处理后转化。在可能示例中,命名体识别模型可以通过词语标记器(tokenizer)来对查询文本进行词语标记化以得到文本嵌入序列。词语标记器可以对查询文本进行分词处理,并根据分词得到的每个字符(对于中文对应“字”,对于英文可对应“字母”)生成标记(token),并且在文本的首位增加分类符号[CLS],尾部增加分隔符号[SEP]。例如,查询文本为“上海火车站”,形成的文本嵌入序列为{[CLS],“上”,“海”,“火”,“车”,“站”,[SEP]}。
在一些实施例中,所述命名实体识别模型可以基于神经网络模型构建,其可以包含文本预训练模型,如BERT模型。
步骤S302:所述命名实体识别模型映射所述文本嵌入序列为序列表征向量,序列表征向量包含与查询文本中每个字符对应的一特征值。
在一些实施例中,通过文本预训练模型(如BERT),可将所述文本嵌入序列映射为序列表征向量,所述序列表征向量中的每一特征值的值对应于一token,也即对应输入的查询文本的一个字。
步骤S303:所述命名实体识别模型基于所述序列表征向量分别预测每个字符属于实体的头部或尾部的概率值,以得到预测结果。
所述预测结果包括:实体头部预测向量和实体尾部预测向量。实体头部预测向量和实体尾部预测向量的每一维度对应表示查询文本中的一个字属于某一实体的头/尾的概率值。
在一些实施例中,所述实体头部预测向量和实体尾部预测向量可以分别基于一个线性层来实现,连接在上述文本预训练模型之后。所述线性层可以例如基于y=softmax(Wx+b)的函数实现,y为线性层的输出,即预测结果;W为权重,b为偏置值;softmax用于映射到(0,1)之间的概率值作为y。
步骤S304:基于所述实体头部预测向量和实体尾部预测向量的组合识别所述查询文本中的各实体以形成所述第二实体提及结果。
在一些实施例中,如果根据概率值判断查询文本中相邻位的两个字分别属于某个实体的头部和尾部,则可以确定查询文本包含该实体。
例如,在实体头部预测向量中的第1位,对应第1个字位置的概率值,表示第1个字为某个实体1的实体头部的概率为0.6,不是所述实体头部的概率为0.4,则判断第1个字为所述实体头部;若根据实体尾部预测向量中的第2位对应第2个字位置的概率值,表示第2个字为实体1的实体尾部的概率为0.9,不是所述实体尾部的概率为0.1,则可以推断出第1个字是实体1的头部,第2个字是实体1的尾部,则可以识别出实体1。
可参考图4所示,展示本公开一实施例中命名实体识别模型实现的结构示意图。
示例性地,所述命名实体识别模型可以是基于BERT为骨架的指针网络实现,通过此BERT为骨架的指针网络对文本嵌入序列逐个token映射得到序列表征向量。例如,图4中将查询文本“武汉东湖景区”在嵌入(Embedding)层头部添加[CLS]符号,尾部添加[SEP]符号。在可能示例中,可以使用以BERT为骨架的指针网络进行序列标注,指针用于移动以逐个指向不同字对应的特征维度,获得用户Query文本分词后的文本嵌入序列为
Figure BDA0003552575410000111
即T维token的序列,例如图中的{[CLS],“武”,“汉”,“东”,“湖”,“景”,“区”,[SEP]}。进而,经BERT编码处理后的T维序列表征向量如下式所示:
h1:T=BERT(x1:T)
在BERT之后,可将其输出的ht分别接入两个线性层来预测各token作为某个实体的头部和尾部的概率,分别得到实体头部预测向量
Figure BDA0003552575410000112
和实体尾部预测向量
Figure BDA0003552575410000113
Figure BDA0003552575410000114
Figure BDA0003552575410000115
其中,
Figure BDA0003552575410000116
是仿射变换参数;其中,
Figure BDA0003552575410000117
为参数矩阵,h是维数,L为标签集。在图4中,start预测层用于根据ht预测
Figure BDA0003552575410000118
即预存每个token为实体头部的概率,如图示的entity一行分别对应“武”,“汉”,“东”,“湖”,“景”,“区”为实体头部的概率值,null一行表示“武”,“汉”,“东”,“湖”,“景”,“区”非实体头部的概率值。相似的,end预测层用于根据ht预测
Figure BDA0003552575410000119
即每个token为实体尾部的概率,如图示的entity一行分别对应“武”,“汉”,“东”,“湖”,“景”,“区”为实体尾部的概率值,null一行表示“武”,“汉”,“东”,“湖”,“景”,“区”非实体尾部的概率值。
在推理阶段,根据上述是否实体头、尾的预测结果闭合相同类型实体标签的token位置,从而获得文本中的实体提及结果的边界。
例如,在图4中,由图可知,start预测层预测“武”为实体头部的概率为0.9,不是头部的概率为0.1;end预测层预测“武”为实体尾部的概率为0.2,不是尾部的概率为0.8,可以推断“武”预测为实体头部而非实体尾部。而“武”后一字“汉”,start预测层预测为实体头部的概率为0.1,不是头部的概率为0.9;end预测层预测“汉”为实体尾部的概率为0.7,不是尾部的概率为0.3,可以推断“汉”预测为实体尾部而非实体头部。由此,如图中虚框所标注,根据“武”预测为实体头部而非实体尾部,“汉”预测为实体尾部而非实体头部,可以闭合得到实体“武汉”,同理,还可以根据之后预测实体头部和实体尾部相配合的结果得到实体“东湖”。再之后对应“景”、“区”均未能预测出实体头部和尾部,故并未识别出“景区”。
在一些实施例中,所述命名实体识别模型由对神经网络模型训练得到。例如在上述示例中,命名实体识别模型包括BERT和两个线性层,它们的模型参数皆可通过训练得到。
示例性地,所述训练的流程包括:
A:输入训练样本至所述命名实体识别模型;其中,所述训练样本包括输入文本及对应的标签,所述标签包括实体头部参考向量和实体尾部参考向量。
在一些实施例中,所述训练样本的输入文本可以根据用户查询日志得到,所述用户查询日志可以来自于用户在网络搜索时使用搜索引擎的记录。通过采集用户查询日志中的真实查询文本;以及所述标签可以根据用户查询日志中最终符合用户意图的真实实体来获得,所述标签可以通过独热编码表示,表示为例如
Figure BDA0003552575410000121
的对应查询文本中对应真实实体的尾的字符位置的特征维度的概率值应为1,
Figure BDA0003552575410000122
的对应查询文本中对应真实实体的尾的字符位置的特征维度的概率值应为1。例如,查询文本为“我在上海”,而真实实体为“上海”,则
Figure BDA0003552575410000123
Figure BDA0003552575410000124
可以表示为{0,0,1,0}和{0,0,0,1}。
B:获得所述命名实体识别模型对于所述输入文本的预测结果。
即计算实体头部预测向量
Figure BDA0003552575410000125
和实体尾部预测向量
Figure BDA0003552575410000126
C:基于交叉熵损失函数计算所述预测结果与标签之间的损失,并根据所述损失更新所述命名实体识别模型。
在一些实施例中,所述交叉熵损失函数可以表示为下式所示:
Figure BDA0003552575410000127
根据损失更新所述命名实体识别模型,可以通过反向传播(BP)算法,从输出端分别经两个线性层、至BERT进行逐层更新。多次输入训练样本至命名实体识别模型,以迭代上述过程,基于梯度下降即使损失最小化的原则,当损失下降到低于阈值或者满足其它预设条件时,可以认为命名实体识别模型训练完成。
在一些实施例中,第一实体提及结果和第二实体提及结果中可能存在重复实体,因此可以对重复实体进行去重。
可以理解的是,前缀树适合于匹配最长实体别名,若该实体别名中又嵌套了其它实体的提及,这部分信息可能会被忽视;作为补充,基于命名实体识别模型相当于引入另外一路并行的提及检测流程,可以在一定程度上缓解以上被嵌套实体的提及被忽视的问题。
回到图1,接续步骤S102,执行步骤S103:基于所述合并实体提及结果召回候选实体集。
在一些的实施例中,步骤S103中的召回,可以是基于所述合并实体提及结果在知识库中匹配实体,并将与所匹配到的实体关联的各实体别名的链接对象确定为候选实体。如之前示例所描述,知识库可以示例性地为旅游知识库,则实体别名可以是相关于目的地、POI、旅游产品等等,从而选择链接对象为目的地、POI、旅游产品等作为候选实体。
如图5所示,展示本公开一实施例中候选实体召回的原理图。
从图中可见,通过识别到的实体提及“东湖”在知识库中匹配实体别名“东湖”,与该实体别名相关联的实体:如各种场景出现的“东湖”、“东湖公园”、“上海东湖”、“揭阳东湖”、“芦林湖”等实体,皆可选择为候选实体。需说明的是,图5只是示例,其它“东湖”相关的目的地、POI、旅游产品等实名皆可作为候选实体召回。
步骤S104:基于实体消歧模型,根据所述候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率;
在第一方面的实施例中,所述实体消歧模型包括:推荐网络及文本匹配网络,所述推荐网络包括并行的因式分解机(FM)和深度神经网络(DNN)。示例性地,所述推荐网络可以例如为DeepFM网络,所述文本匹配网络可以例如为BERT实现。
如图6所示,展示本公开一实施例中步骤S104的具体流程示意图,流程具体包括:
步骤S601:获取当前候选实体的特征表示结果。
其中,所述特征表示结果包括所述当前候选实体的每个特征的第一特征向量。
在一些实施例中,所述候选实体的特征分为离散型特征和连续型特征。具体而言,连续型特征指的是在时间上取值连续的特征,离散型特征指的是在时间上取值不连续的特征。特征可以取自于实体的属性,以旅游相关实体的属性为例,其相关的连续型特征可以包括如:评论数、最近一个统计周期内的热度、在用户点击/下单产品中的占比等;离散型特征可以包括如:是否位于国内等。
在一些实施例中,步骤S601还可包括特征预处理步骤,可以包括例如:对当前候选实体的各特征间进行归一化处理(处理到预设数值范围区间,如0~1等,以使各特征值相互之间能真实反映各自权重)、对连续型特征执行分桶、及对离散型特征执行独热编码(one-hot)。
在一些实施例中,所述候选实体的每个特征具有所属的特征域(field),每个特征域对应于一种特征或者一种特征分类,例如不同的目的地、POI、用户行为等等。也即是说,通过合适的特征域的选择及区分,可以将多源异构的特征进行融合,比如从POI知识图谱、百科等众多数据源获取到实体的属性字段,这些字段值按类型又可分为数值型、分类型、字符串型等,通过对上述不同特征域的特征的处理并拼接,可以实现多源异构的特征的融合,进而输入到实体消歧模型。
示例性地,可以基于对各个特征的取值映射到向量空间,以得到初始化的隐向量,作为第一特征向量。假设一共使用m个特征,分别为f1,…,fm,为每个特征初始化隐向量
Figure BDA0003552575410000141
为投影矩阵。
步骤S602:拼接所述查询文本及当前候选实体的描述文本为待匹配文本序列。
在一些实施例中,比如查询文本是“我在上海火车站”,当前候选实体是“上海火车站”,其描述文本是“上海火车站位于静安区”,将“上海火车站”和“上海火车站位于静安区”拼接(concat),经tokenize,相互之间通过[SEP]分隔,尾部添加[SEP],首部添加[CLS],得到待匹配文本序列{[CLS],“上”,“海”,“火”,“车”,“站”,[SEP],“上”,“海”,“火”,“车”,“站”,“位”,“于”,“静”,“安”,“区”,[SEP]}。
步骤S603:利用所述文本匹配网络映射待匹配文本序列以得到文本匹配结果。
文本匹配网络是为了建模查询文本与候选实体的描述文本之间的交互特征。在一些实施例中,所述文本匹配网络可以基于例如BERT网络实现。
在一些示例中,所述步骤S603可以包括:
步骤S6031:获取所述查询文本的句特征向量、所述当前候选实体在查询文本中提及片段的首位置的首位置特征向量、及尾位置的尾位置特征向量。
由于候选实体是通过实体提及片段在知识库召回的,实体提及片段是命名实体识别模型获得的结果,因此候选实体在提及片段的首、尾位置是已知的,直接取候选实体的这两个位置上的向量得到首位置特征向量和尾位置特征向量,所述句向量可通过例如自注意力(SelfAttention)以根据其它token的特征向量计算得到。
在一些实施例中,所述句特征向量通过[CLS]的对应向量hCLS表示,首位置特征向量由hhead表示,尾位置特征向量由htail表示。
步骤S6032:映射所述句特征向量、首位置特征向量和尾位置特征向量的拼接向量至与所述第一特征向量位于相同向量空间的第二特征向量。
即,hCLS,hhead,htail拼接为一拼接向量concat(hCLS,hhead,htail),并映射成第二特征向量。
步骤S6033:以所述特征表示结果和文本匹配结果为输入特征信息,输入至所述推荐网络,由所述因式分解机根据所述输入特征信息得到第一中间结果,以及由所述深度神经网络根据所述输入特征信息得到第二中间结果;
步骤S6034:融合所述第一中间结果和第二中间结果,并据以计算得到所述当前候选实体作为所述链接结果的概率。
可以理解的是,所述实体消歧模型用于对候选实体计算排序得分以能选择目标实体,从而将实体消歧转换为学习排序任务。
可参考图7所示,展示本公开一实施例中实体消歧模型的结构示意图。
示例性地,所述实体消歧模型可以通过CTR预估模型DeepFM和基于BERT的文本匹配模型结合实现。通过自动组合多类型低阶特征(离散、连续特征及实体描述的特征的组合),还学习高阶特征(通过DNN得到),故相比于传统的基于Query和实体描述相似度算法,能有大幅度的实体链接的准确性提升。
假设一共使用m个特征,可按特征类别分为多个域排列;m个特征分别为f1,…,fm,输入到Embedding层,为每个特征初始化隐向量
Figure BDA0003552575410000151
在基于例如BERT实现的文本匹配层,拼接查询文本Query与候选实体的描述文本(Description)的字符串,传给BERT提取特征,取输出序列中[CLS]位置上的特征向量hCLS与该候选实体在原Query中提及片段的首、尾位置token的特征向量hhead(图7中以方框S表示)、htail(图7中以方框E表示)进行拼接,然后输入到所述Embedding层,通过一个投影矩阵
Figure BDA0003552575410000161
映射至与左侧的离散型和连续型特征相同的隐空间,经变换后的文本匹配隐向量为:
vtext=Wprojconcat(hCLS,hhead,htail)
FM层用于建模多元输入的二阶交叉特征表示,计算方式如下:
Figure BDA0003552575410000162
其中,w0,w1,…,wm为FM层的连接权重。
DNN层用于建模高阶特征表示,其输入为各分域特征隐向量拼接后的向量
a(0)=concat(v1,v2,…,vtext)
假设一共使用K个隐层,每一层权重和偏置分别为W(k)、b(k),前向传播如下
a(k)=act(W(k)a(k-1)+b(k)),k=1,…,K
输出层参数为W(out)、b(out),则DNN网络的输出为
yDNN=act(W(out)a(K)+b(out))
在输出层,通过sigmoid层处理FM层和DNN的输出以得到该候选实体为用户查询文本的链接结果(即符合用户意图)的概率:
Figure BDA0003552575410000163
在一些实施例中,如上述所示,所述实体消歧模型是基于神经网络模型实现,如DeepFM和BERT的结合,因此其需要经训练以得到准确预测结果。所述训练可以包括:
A、输入训练样本至所述实体消歧模型。
其中,所述训练样本包括:查询文本、候选实体的特征数据、候选实体的描述文本及对应的候选实体标签;所述候选实体标签指示所述候选实体是否作为对应的查询文本的链接结果。
在一些实施例中,参考实体消歧模型的应用,可以理解的是,根据候选实体的特征数据可以得到特征表示结果(见上述示例的初始化隐向量vi),根据查询文本和候选实体的描述文本可以得到文本匹配结果(见向量vtext),所述候选实体标签可以通过“0”、“1”来表示,“0”表示训练样本中候选实体不是查询文本的链接结果的实际情况即“负样例”,“1”表示训练样本中候选实体是查询文本的链接结果的实际情况即“正样例”。即构造正、负训练样本以让实体消歧模型学习。
在一些实施例中,所述训练样本可基于用户查询日志构建,比如用户搜索日志。
B、获得所述实体消歧模型对于所述特征表示结果和文本匹配结果的预测结果。
例如,参考以上示例,根据特征表示结果和文本匹配结果组合分别输入FM层和DNN层以分别得到yFM和yDNN,并进一步得到
Figure BDA0003552575410000171
C、基于交叉熵损失函数计算所述预测结果与候选实体标签之间的损失,并根据所述损失更新所述实体消歧模型。
在一些实施例中,所述交叉熵损失函数可以示例性地表示为:
Figure BDA0003552575410000172
其中,y为候选实体标签,可通过例如“0”、“1”来表示候选实体是否为最终链接结果的目标实体,而比较
Figure BDA0003552575410000173
的概率相比于正确结果的1或0之间的损失,进而可以基于反向传播来更新实体消歧模型的模型参数,比如更新FM、DNN、BERT的参数。
当损失低于预设阈值或者满足其它预设条件,可以认为实体消歧模型训练完成。
再回到图1,接续步骤S104,执行步骤S105:基于各所述候选实体的概率确定目标实体。
在一些实施例中,可以设置预设阈值,从而确定所述概率高于预设阈值的候选实体作为目标实体。例如,预设阈值设为0.5,
Figure BDA0003552575410000174
大于0.5的候选实体作为目标实体予以保留。目标实体的概率越大,作为查询文本的链接结果的可能性越大。由此,通过按概率大小排序各个目标实体,并返回给用户作为查询结果。
为直观说明上述实体链接方法的实际应用及相应实体链接系统的构建,以下通过应用示例进行说明。
如图8所示,展示本公开一实施例中实体链接系统处理流程示意图。
实体提及及识别环节,实体链接系统执行:
1:文本预处理:例如对输入的Query文本进行预处理,例如全角转半角、繁体转简体等规范化操作,截断超过模型最大处理长度的部分等。
2:前缀树搜索:得到第一实体提及结果;
3:命名实体识别模型检测:得到第二实体提及结果:
即,分别使用前缀树和神经网络检测Query中的第一和第二实体提及结果,合并二者结果并去重。
进入候选实体生成环节,执行:
4:实体别名召回:使用合并实体提及结果的字符串从知识库中召回候选实体集;
5:实体预过滤:可以从候选实体集中去掉部分不符合需求的元素;
6:实体属性查询:可以查询各个候选实体的属性,以用于构造特征。
进入候选实体消歧环节,执行:
7:特征构建:对于候选集中的每个候选实体,取出作为实体消歧模型输入的字段,并采用特征预处理方式(例如归一化、分桶、one-hot);
8:实体消歧模型:实体消歧模型基于候选实体及其相关的所构建的特征、实体描述和Query等,预测该候选实体是否为Query链接结果的概率。
9:排序:按概率对候选实体排序;其中,可以对大于预设阈值(如0.5)的保留,其余剔除。
在一个应用示例中,实体链接系统的预测流程可例如以下所示:
1)对输入的Query文本进行全角转半角、繁体转简体等规范化操作,截断超过模型最大处理长度的部分;
2)分别使用前缀树和神经网络检测Query中的实体提及,合并二者结果并去重;
3)使用合并实体提及结果的字符串从知识库中召回候选实体集;
4)对于候选集中的每个候选实体,获取作为实体消歧模型输入的特征字段,并进行特征预处理方式后,传给实体消歧模型预测该候选是否为Query链接结果的概率;
5)概率大于0.5的候选实体作为目标实体保留,否则剔除。
如图9所示,展示本公开一实施例中的实体链接系统的构建方法的流程示意图。所述构建方法实现的具体细节可以参考之前实施例,此处不作重复赘述。
所述构建方法包括:
步骤S901:构建知识库,所述知识库包括实体及其关联的各实体别名,其中至少一个实体别名具有链接对象;
步骤S902:基于所述知识库的各实体别名构建前缀树,用于基于输入的查询文本得到第一实体提及结果。
其中,所述前缀树的根节点至每个叶节点之间的闭合路径对应于一实体别名;
步骤S903:建立并训练命名实体识别模型,用于基于输入的查询文本得到第二实体提及结果。
步骤S904:建立并训练实体消歧模型;所述实体消歧模型用于根据候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率。
其中,每个所述候选实体为基于合并实体提及结果从所述知识库召回得到,所述合并实体提及结果为合并所述第一实体提及结果和第二实体提及结果得到。
在一个应用示例中,实体链接系统的构建流程可例如以下所示,以旅游应用场景为例:
1)搭建旅游知识库/知识图谱,对目的地、POI、旅游产品等实体可能存在的实体提及字符串创建别名关系以实现关联,以便能快速地通过知识库/知识图谱召回实体;
2)利用知识库/知识图谱已有的各个实体别的名字符串构建一棵前缀树,用于检测用户Query中的实体提及片段,即第一实体提及结果;
3)取一批用户查询日志,标注用户Query中的实体提及边界以形成标签,创建训练样本集并训练基于BERT指针网络的命名实体识别模型;
4)取一批用户查询日志,根据用户Query召回候选实体集,并标注各候选实体是否作为最终链接结果以形成标签,构造正、负样例,并从知识库/知识图谱中获取候选实体的属性信息,包括实体描述、评论数、是否位于国内、(行政区划方面)上级节点路径、最近一个统计周期内的热度、在用户点击/下单产品中的占比等,以构建特征,经过归一化、分桶、one-hot编码等预处理后,训练基于BERT+DeepFM的实体消歧模型。
在本公开的实施例中,通过在实体提及识别阶段引入多路并行检测,在候选实体生成阶段可以利用知识库辅助候选实体召回,在实体消歧阶段可以实现自动组合多元特征的低阶和高阶表示的实体消歧摸象模型。经实际的验证数据集验证,在验证数据集上的F1值=正确率*召回率*2/(正确率+召回率)相对传统的文本相似度模型有了较大提升,可达88%,可有效提升查询准确率。并且,与传统实体链接方法相比,本公开实施例中方案在异构输入的特征融合方面也给出了有效可行的解决方案。
如图10所示,展示本公开一实施例中实体链接装置的模块示意图。所述实体链接装置应用于实体链接系统。由于所述实体链接装置的具体实现可以参考之前的实体链接方法实施例,因此此处不再对技术细节作重复赘述。
所述实体链接装置1000包括:
获取模块1001,用于获取用户输入的查询文本;实体提及模块,用于分别输入所述查询文本至前缀树和命名实体识别模型,以得到第一实体提及结果和第二实体提及结果,并合并第一实体提及结果和第二实体提及结果得到合并实体提及结果;其中,所述前缀树的根节点至每个叶节点之间的闭合路径对应于一实体别名。
候选实体获取模块1002,用于基于所述合并实体提及结果召回候选实体集。
实体链接预测模块1003,用于基于实体消歧模型,根据所述候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率。
实体链接确定模块1004,用于基于各所述候选实体的概率确定目标实体。
如图11所示,展示本公开一实施例中实体链接系统的构建装置的模块示意图。由于所述构建装置的具体实现可以参考之前的构建方法实施例,因此此处不再对技术细节作重复赘述。
所述构建装置1100包括:
知识库构建模块1101,用于构建知识库,所述知识库包括实体及其关联的各实体别名,其中至少一个实体别名具有链接对象;
前缀树构建模块1102,用于基于所述知识库的各实体别名构建前缀树,用于基于输入的查询文本得到第一实体提及结果;其中,所述前缀树的根节点至每个叶节点之间的闭合路径对应于一实体别名;
命名实体识别模型构建模块1103,用于建立并训练命名实体识别模型,用于基于输入的查询文本得到第二实体提及结果;
实体消歧模型构建模块1104,用于建立并训练实体消歧模型;所述实体消歧模型用于根据候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率;其中,每个所述候选实体为基于合并实体提及结果从所述知识库召回得到,所述合并实体提及结果为合并所述第一实体提及结果和第二实体提及结果得到。
需特别说明的是,在图10、图11实施例中的各个功能模块,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以程序指令产品的形式实现。程序指令产品包括一个或多个程序指令。在计算机上加载和执行程序指令指令时,全部或部分地产生按照本公开的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。程序指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
并且,图10、图11实施例所揭露的装置,可通过其它的模块划分方式实现。以上所表示的装置实施例仅仅是示意性的,例如所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或模块可以结合或者可以动态到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接于可以是通过一些接口,装置或模块的间接耦合或通信连接于,可以是电性或其它的形式。
另外,图10、图11实施例中的各功能模块及子模块可以动态在一个处理部件中,也可以是各个模块单独物理存在,也可以两个或两个以上模块动态在一个部件中。上述动态的部件既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述动态的部件如果以软件功能模块的形式实现并执行为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
需特别说明的是,本公开上述实施例的流程图表示的流程或方法表示可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
例如,图1、图3、图6、图9等实施例中的各个步骤的顺序可能可以在具体场景中加以变化,并非以上述表示为限。
如图12所示,展示本公开一实施例中计算机装置的结构示意图。
在一些实施例中,所述计算机装置用于装载实现前述方法实施例(例如图1、图3、图6、图9等)的程序指令。所述计算机装置具体可实现为例如服务器、台式机、笔记本电脑、移动终端等,而可能被基于开发、测试等商业目的而存储和/或运行此程序指令的实施者所使用。
图12展示的计算机装置1200仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图12所示,计算机装置1200以通用计算设备的形式表现。计算机装置1200的组件可以包括但不限于:上述至少一个处理单元1210、上述至少一个存储单元1220、连接不同系统组件(包括存储单元1220和处理单元1210)的总线1230。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元1210执行,使得计算机装置用于实现本公开上述实施例中所描述方法步骤。
在一些实施例中,存储单元1220可以包括易失性存储单元,例如随机存取存储单元(RAM)12201和/或高速缓存存储单元12202,还可以进一步包括只读存储单元(ROM)12203。
在一些实施例中,存储单元1220还可以包括具有一组(至少一个)程序模块12205的程序/实用工具12204,这样的程序模块12205包括但不限于:操执行系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
在一些实施例中,总线1230可以包括数据总线、地址总线和控制总线。
在一些实施例中,计算机装置1200也可以与一个或多个外部设备1300(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口1250进行。可选的,计算机装置1200还包括显式单元1240,其连接到输入/输出(I/O)接口1250,用于进行显式。并且,计算机装置1200还可以通过网络适配器12100与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器12100通过总线1230与计算机装置1200的其它模块通信。应当明白,尽管图中未示出,可以结合计算机装置1200使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
本公开的实施例中还可以提供计算机刻度存储介质,其可以包含程序代码,并可以在设备上运行,例如个人电脑上运行,以实现本公开上述方法实施例(如图1、图3、图6、图9等)中的各个步骤及子步骤的执行。在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序代码可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
综上,本公开实施例中提供实体链接方法、构建方法、装置及存储介质,在实体链接方法中,分别输入用户的查询文本至前缀树和命名实体识别模型,以得到第一实体提及结果和第二实体提及结果,并合并第一实体提及结果和第二实体提及结果得到合并实体提及结果;基于所述合并实体提及结果召回候选实体集;基于实体消歧模型,根据所述候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率;基于各所述候选实体的概率确定目标实体。通过结合并行的前缀树和命名实体识别模型的实体提及结果,以提升所包含实体的全面度,并利用基于实体消歧模型等机器学习模型来提升预测的准确性,从而提升实体链接结果的准确性,提升用户体验。
上述实施例仅例示性说明本公开的原理及其功效,而非用于限制本公开。任何熟悉此技术的人士皆可在不违背本公开的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本公开所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本公开的权利要求所涵盖。

Claims (18)

1.一种实体链接方法,其特征在于,应用于实体链接系统;所述方法包括:
获取用户输入的查询文本;
分别输入所述查询文本至前缀树和命名实体识别模型,以得到第一实体提及结果和第二实体提及结果,并合并第一实体提及结果和第二实体提及结果得到合并实体提及结果;其中,所述前缀树的根节点至每个叶节点之间的闭合路径对应于一实体别名;
基于所述合并实体提及结果召回候选实体集;
基于实体消歧模型,根据所述候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率;
基于各所述候选实体的概率确定目标实体。
2.根据权利要求1所述的实体链接方法,其特征在于,基于查询文本输入前缀树以得到第一实体提及结果,包括:
依据前向最大匹配策略,依次基于查询文本中的每个待匹配字符在所述前缀树执行匹配以得到闭合路径,并获得对应的实体别名以形成所述第一实体提及结果。
3.根据权利要求2所述的实体链接方法,其特征在于,所述前缀树所对应的各个所述实体别名获取自预先建立的知识库。
4.根据权利要求1所述的实体链接方法,其特征在于,所述命名实体识别模型基于所述查询文本获取第二实体提及结果,包括:
命名体识别模型基于查询文本生成文本嵌入序列;
所述命名实体识别模型映射所述文本嵌入序列为序列表征向量,序列表征向量包含与查询文本中每个字符对应的一特征值;
所述命名实体识别模型基于所述序列表征向量分别预测每个字符属于实体的头部或尾部的概率值,以得到预测结果;所述预测结果包括:实体头部预测向量和实体尾部预测向量;
基于所述实体头部预测向量和实体尾部预测向量的组合识别所述查询文本中的各实体以形成所述第二实体提及结果。
5.根据权利要求4所述的实体链接方法,其特征在于,所述命名实体识别模型由对神经网络模型训练得到,所述训练包括:
输入训练样本至所述命名实体识别模型;其中,所述训练样本包括输入文本及对应的标签,所述标签包括实体头部参考向量和实体尾部参考向量;
获得所述命名实体识别模型对于所述输入文本的预测结果;
基于交叉熵损失函数计算所述预测结果与标签之间的损失,并根据所述损失更新所述命名实体识别模型。
6.根据权利要求1所述的实体链接方法,其特征在于,所述基于所述合并实体提及结果召回候选实体集,包括:
基于所述合并实体提及结果在知识库中匹配实体,并将与所匹配到的实体关联的各实体别名的链接对象确定为候选实体。
7.根据权利要求6所述的实体链接方法,其特征在于,所述知识库为旅游知识库,所述链接对象包括以下至少一种:兴趣点、目的地、旅游产品。
8.根据权利要求1所述的实体链接方法,其特征在于,所述实体消歧模型包括:推荐网络及文本匹配网络,所述推荐网络包括并行的因式分解机和深度神经网络;所述基于实体消歧模型,根据所述候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率,包括:
获取当前候选实体的特征表示结果;其中,所述特征表示结果包括所述当前候选实体的每个特征的第一特征向量;
拼接所述查询文本及当前候选实体的描述文本为待匹配文本序列;
利用所述文本匹配网络映射待匹配文本序列以得到文本匹配结果,包括:获取所述查询文本的句特征向量、所述当前候选实体在查询文本中提及片段的首位置的首位置特征向量、及尾位置的尾位置特征向量;映射所述句特征向量、首位置特征向量和尾位置特征向量的拼接向量至与所述第一特征向量位于相同向量空间的第二特征向量;
以所述特征表示结果和文本匹配结果为输入特征信息,输入至所述推荐网络,由所述因式分解机根据所述输入特征信息得到第一中间结果,以及由所述深度神经网络根据所述输入特征信息得到第二中间结果;
融合所述第一中间结果和第二中间结果,并据以计算得到所述当前候选实体作为所述链接结果的概率。
9.根据权利要求8所述的实体链接方法,其特征在于,所述实体消歧模型是经训练得到的,所述训练包括:
输入训练样本至所述实体消歧模型;其中,所述训练样本包括:查询文本、候选实体的特征数据、候选实体的描述文本及对应的候选实体标签;所述候选实体标签指示所述候选实体是否作为对应的查询文本的链接结果;
获得所述实体消歧模型对于所述特征表示结果和文本匹配结果的预测结果;
基于交叉熵损失函数计算所述预测结果与候选实体标签之间的损失,并根据所述损失更新所述实体消歧模型。
10.根据权利要求8或9所述的实体链接方法,其特征在于,所述候选实体的特征分为离散型特征和连续型特征;和/或,所述候选实体的每个特征具有所属的特征域,每个特征域对应于一种特征或者一种特征分类。
11.根据权利要求8或9所述的实体链接方法,其特征在于,所述获取当前候选实体的特征表示结果,包括:
特征预处理步骤,包括:对当前候选实体的各特征间进行归一化处理、对连续型特征执行分桶、及对离散型特征执行独热编码。
12.根据权利要求1所述的实体链接方法,其特征在于,所述基于各所述候选实体的概率确定目标实体,包括:确定所述概率高于预设阈值的候选实体作为目标实体。
13.根据权利要求5或9所述的实体链接方法,其特征在于,所述训练样本基于用户查询日志构建。
14.一种实体链接系统的构建方法,其特征在于,用于构建应用如权利要求1至13中任一项所述的实体链接方法的实体链接系统;所述构建方法包括:
构建知识库,所述知识库包括实体及其关联的各实体别名,其中至少一个实体别名具有链接对象;
基于所述知识库的各实体别名构建前缀树,用于基于输入的查询文本得到第一实体提及结果;其中,所述前缀树的根节点至每个叶节点之间的闭合路径对应于一实体别名;
建立并训练命名实体识别模型,用于基于输入的查询文本得到第二实体提及结果;
建立并训练实体消歧模型;所述实体消歧模型用于根据候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率;其中,每个所述候选实体为基于合并实体提及结果从所述知识库召回得到,所述合并实体提及结果为合并所述第一实体提及结果和第二实体提及结果得到。
15.一种实体链接装置,其特征在于,应用于实体链接系统,所述实体链接装置包括:
获取模块,用于获取用户输入的查询文本;
实体提及模块,用于分别输入所述查询文本至前缀树和命名实体识别模型,以得到第一实体提及结果和第二实体提及结果,并合并第一实体提及结果和第二实体提及结果得到合并实体提及结果;其中,所述前缀树的根节点至每个叶节点之间的闭合路径对应于一实体别名;
候选实体获取模块,用于基于所述合并实体提及结果召回候选实体集;
实体链接预测模块,用于基于实体消歧模型,根据所述候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率;
实体链接确定模块,用于基于各所述候选实体的概率确定目标实体。
16.一种实体链接系统的构建装置,其特征在于,用于构建应用如权利要求1至13中任一项所述的实体链接方法的实体链接系统;所述构建装置包括:
知识库构建模块,用于构建知识库,所述知识库包括实体及其关联的各实体别名,其中至少一个实体别名具有链接对象;
前缀树构建模块,用于基于所述知识库的各实体别名构建前缀树,用于基于输入的查询文本得到第一实体提及结果;其中,所述前缀树的根节点至每个叶节点之间的闭合路径对应于一实体别名;
命名实体识别模型构建模块,用于建立并训练命名实体识别模型,用于基于输入的查询文本得到第二实体提及结果;
实体消歧模型构建模块,用于建立并训练实体消歧模型;所述实体消歧模型用于根据候选实体集中的每个候选实体的特征,以预测所述候选实体为所述查询文本的链接结果的概率;其中,每个所述候选实体为基于合并实体提及结果从所述知识库召回得到,所述合并实体提及结果为合并所述第一实体提及结果和第二实体提及结果得到。
17.一种计算机装置,其特征在于,包括:通信器、存储器及处理器;所述通信器用于与外部通信;所述存储器存储有程序指令;所述处理器用于运行所述程序指令以执行如权利要求1至13中任一项所述的实体链接方法;或者,执行如权利要求14所述的实体链接系统的构建方法。
18.一种计算机可读存储介质,其特征在于,存储有程序指令,所述程序指令被运行以执行如权利要求1至13中任一项所述的实体链接方法;或者,执行如权利要求14所述的实体链接系统的构建方法。
CN202210266043.9A 2022-03-17 2022-03-17 实体链接方法、构建方法、装置及存储介质 Pending CN114462357A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210266043.9A CN114462357A (zh) 2022-03-17 2022-03-17 实体链接方法、构建方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210266043.9A CN114462357A (zh) 2022-03-17 2022-03-17 实体链接方法、构建方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN114462357A true CN114462357A (zh) 2022-05-10

Family

ID=81416539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210266043.9A Pending CN114462357A (zh) 2022-03-17 2022-03-17 实体链接方法、构建方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN114462357A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859987A (zh) * 2023-01-19 2023-03-28 阿里健康科技(中国)有限公司 实体提及识别模块和的链接方法、装置、设备和介质
CN116128461A (zh) * 2023-04-04 2023-05-16 北京华品博睿网络技术有限公司 一种用于在线招聘的双向推荐系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115859987A (zh) * 2023-01-19 2023-03-28 阿里健康科技(中国)有限公司 实体提及识别模块和的链接方法、装置、设备和介质
CN115859987B (zh) * 2023-01-19 2023-06-16 阿里健康科技(中国)有限公司 实体提及识别模块及其链接方法、设备和介质
CN116128461A (zh) * 2023-04-04 2023-05-16 北京华品博睿网络技术有限公司 一种用于在线招聘的双向推荐系统及方法

Similar Documents

Publication Publication Date Title
Qi et al. Finding all you need: web APIs recommendation in web of things through keywords search
CN109408622B (zh) 语句处理方法及其装置、设备和存储介质
CN108363698B (zh) 兴趣点关系识别方法及装置
CN112329467B (zh) 地址识别方法、装置、电子设备以及存储介质
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
CN110019616B (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
CN111061856A (zh) 一种基于知识感知的新闻推荐方法
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN114048350A (zh) 一种基于细粒度跨模态对齐模型的文本-视频检索方法
CN114462357A (zh) 实体链接方法、构建方法、装置及存储介质
CN118103834A (zh) 一种信息获取方法以及装置
CN111274822A (zh) 语义匹配方法、装置、设备及存储介质
CN115017425B (zh) 地点检索方法、装置、电子设备以及存储介质
Alsudais Quantifying the offline interactions between hosts and guests of Airbnb
CN112818091A (zh) 基于关键词提取的对象查询方法、装置、介质与设备
CN115390806A (zh) 基于双模态联合建模的软件设计模式推荐方法
Li et al. Neural Chinese address parsing
CN111143534A (zh) 基于人工智能的品牌名的提取方法、装置及存储介质
Zhang et al. Automatic latent street type discovery from web open data
CN112632223B (zh) 案事件知识图谱构建方法及相关设备
CN114330704A (zh) 语句生成模型更新方法、装置、计算机设备和存储介质
CN111125550A (zh) 兴趣点分类方法、装置、设备及存储介质
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN112712056A (zh) 视频语义分析方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination