CN113761105A - 文本数据处理方法、装置、设备以及介质 - Google Patents

文本数据处理方法、装置、设备以及介质 Download PDF

Info

Publication number
CN113761105A
CN113761105A CN202110567596.3A CN202110567596A CN113761105A CN 113761105 A CN113761105 A CN 113761105A CN 202110567596 A CN202110567596 A CN 202110567596A CN 113761105 A CN113761105 A CN 113761105A
Authority
CN
China
Prior art keywords
entity
sample
query
representation
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110567596.3A
Other languages
English (en)
Inventor
费昊
刘一仝
郑孙聪
周博通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110567596.3A priority Critical patent/CN113761105A/zh
Publication of CN113761105A publication Critical patent/CN113761105A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种文本数据处理方法、装置、设备以及介质,该方法包括:获取包含样本查询实体的样本文本数据,在实体知识库中将样本查询实体对应的标注实体确定为正样本;根据初始实体召回模型获取样本查询实体的第一实体表示特征,以及实体知识库中所有样本实体的第二实体表示特征;根据第一实体表示特征和所有第二实体表示特征之间的实体相似度,在实体样本中获取样本查询实体对应的第一负样本;在实体知识库中获取样本查询实体的第二负样本,根据正样本、第一负样本以及第二负样本,对初始实体召回模型的网络参数进行修正,将参数修正后的初始实体召回模型确定为目标实体召回模型。采用本申请实施例,可以提高实体召回模型的召回率。

Description

文本数据处理方法、装置、设备以及介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种文本数据处理方法、装置、设备以及介质。
背景技术
实体链接服务是指将文本中出现的实体与知识图谱中存在的实体对应起来,该实体链接服务可以应用在信息搜索、问答以及推荐等场景中。
目前,在实体链接服务的各应用场景中,在获取到文本内容后,可以识别出文本内容中所包含的实体,并基于预先梳理得到的词表,查找到与文本内容中的实体所对应的知识库中的实体,从而召回知识库中的候选实体列表,对候选实体列表中所包含的实体进行过滤、排序,最终得到与上述文本内容相匹配的知识库实体,最终得到的知识库实体有利于准确理解上述文本内容。然而,基于词表召回候选实体列表时,可能会因为词表的不完整性,造成召回的候选实体与文本内容本身差异过大,进而导致文本内容的召回率过低。
发明内容
本申请实施例提供一种文本数据处理方法、装置、设备以及介质,可以提高实体召回模型的召回率。
本申请实施例一方面提供了一种文本数据处理方法,包括:
获取包含样本查询实体的样本文本数据,在实体知识库中将样本查询实体对应的标注实体确定为正样本;
根据初始实体召回模型获取样本查询实体对应的第一实体表示特征,根据初始实体召回模型,获取实体知识库中的样本实体对应的第二实体表示特征;实体知识库中的样本实体包括正样本;
根据第一实体表示特征和样本实体对应的第二实体表示特征之间的实体相似度,在样本实体中获取样本查询实体对应的第一负样本;第一负样本对应的第二实体表示特征与第一实体表示特征之间的实体相似度,大于第一实体表示特征与正样本对应的第二实体表示特征之间的实体相似度;
在实体知识库中获取样本查询实体对应的第二负样本,根据正样本、第一负样本以及第二负样本,对初始实体召回模型的网络参数进行修正,将参数修正后的初始实体召回模型确定为目标实体召回模型;第二负样本属于实体知识库中除正样本和第一负样本之外的样本实体,目标实体召回模型用于从实体知识库中召回查询文本数据对应的候选实体。
本申请实施例一方面提供了一种文本数据处理装置,包括:
样本数据获取模块,用于获取包含样本查询实体的样本文本数据,在实体知识库中将样本查询实体对应的标注实体确定为正样本;
实体表示模块,用于根据初始实体召回模型获取样本查询实体对应的第一实体表示特征,根据初始实体召回模型,获取实体知识库中的样本实体对应的第二实体表示特征;实体知识库中的样本实体包括正样本;
负样本确定模块,用于根据第一实体表示特征和样本实体对应的第二实体表示特征之间的实体相似度,在样本实体中获取样本查询实体对应的第一负样本;第一负样本对应的第二实体表示特征与第一实体表示特征之间的实体相似度,大于第一实体表示特征与正样本对应的第二实体表示特征之间的实体相似度;
参数修正模块,用于在实体知识库中获取样本查询实体对应的第二负样本,根据正样本、第一负样本以及第二负样本,对初始实体召回模型的网络参数进行修正,将参数修正后的初始实体召回模型确定为目标实体召回模型;第二负样本属于实体知识库中除正样本和第一负样本之外的样本实体,目标实体召回模型用于从实体知识库中召回查询文本数据对应的候选实体。
其中,样本查询实体的数量为M个,M为正整数;
样本数据获取模块包括:
查询实体获取单元,用于获取样本文本数据,根据样本文本数据携带的位置标识信息,在样本文本数据中获取M个样本查询实体;
标注实体获取单元,用于根据样本文本数据携带的实体标识信息,在实体知识库中分别获取与M个样本查询实体相匹配的标注实体,将标注实体确定为M个样本查询实体分别对应的正样本。
其中,实体知识库包括N个样本实体,N为正整数;
实体表示模块包括:
第一编码单元,用于将样本文本数据输入至初始实体召回模型中的第一文本编码组件,通过第一文本编码组件生成样本查询实体对应的第一实体表示特征;
第二编码单元,用于将实体知识库中的N个样本实体依次输入至初始实体召回模型中的第二文本编码组件,通过第二文本编码组件生成N个样本实体分别对应的第二实体表示特征。
其中,第一编码单元包括:
词向量获取子单元,用于将样本文本数据划分为D个单位字符,获取D个单位字符分别对应的第一单位词向量;D为正整数;
文本向量获取子单元,用于根据D个单位字符在样本文本数据中的语义信息,获取D个单位字符分别对应的第一文本向量;
位置向量获取子单元,用于根据D个单位字符在样本文本数据中的文本位置,获取D个单位字符分别对应的第一位置向量;
第一向量叠加子单元,用于将第一单位词向量、第一文本向量以及第一位置向量进行叠加,得到第一输入表示特征;
第一表示特征生成子单元,用于将第一输入表示特征输入至初始实体召回模型中的第一文本编码组件,根据第一文本编码组件对第一输入表示特征进行文本编码,生成样本查询实体对应的第一实体表示特征。
其中,第二编码单元包括:
第二向量叠加子单元,用于获取实体知识库中的N个样本实体分别对应的第二单位词向量、第二文本向量以及第二位置向量,将第二单位词向量、第二文本向量以及第二位置向量进行叠加,得到第二输入表示特征;
第二表示特征生成子单元,用于将第二输入表示特征输入至初始实体召回模型中的第二文本编码组件,根据第二文本编码组件对第二输入表示特征进行文本编码,生成N个样本实体分别对应的第二实体表示特征;
索引建立子单元,用于为N个第二实体表示特征建立索引信息,将N个第二实体表示特征分别对应的索引信息添加至索引数据库。
其中,负样本确定模块包括:
实体相似度获取单元,用于根据第一实体表示特征分别与N个样本实体对应的第二实体表示特征之间的点积结果,获取第一实体表示特征分别与N个第二实体表示特征之间的实体相似度;
相似实体获取单元,用于根据实体相似度,在索引数据库中查找与第一实体表示特征相匹配的相似索引信息,在N个第二实体表示特征中获取相似索引信息关联的相似实体表示特征;
第一负样本确定单元,用于将第一实体表示特征与标注实体对应的第二实体表示特征之间的实体相似度确定为阈值相似度,将实体相似度大于阈值相似度的相似实体表示特征所对应的样本实体,确定为样本查询实体对应的第一负样本。
其中,实体知识库包括N个样本实体,N为正整数;
参数修正模块包括:
样本数量确定单元,用于统计第一负样本对应的第一样本数量,根据负样本比例值和第一样本数量,确定第二样本数量;
第二负样本获取单元,用于在实体知识库所包含的N个样本实体中,获取满足第二样本数量的第二负样本。
其中,参数修正模块包括:
第一判别结果获取单元,用于将正样本和第一负样本组合为第一训练数据,获取第一训练数据对应的第一判别结果;
第二判别结果获取单元,用于将正样本和第二负样本组合为第二训练数据,获取第二训练数据对应的第二判别结果;
网络参数修正单元,用于根据第一判别结果和第二判别结果,对初始实体召回模型的网络参数进行修正,将参数修正后的初始实体召回模型确定为目标实体召回模型。
其中,网络参数修正单元具体用于:
根据第一判别结果和第二判别结果,确定初始实体召回模型对应的模型损失函数;
根据模型损失函数对初始实体召回模型的网络参数进行修正,当初始实体召回模型对应的训练次数满足训练终止条件时,将满足训练终止条件的初始实体召回模型确定为目标实体召回模型。
其中,该装置还包括:
待查询实体识别模块,用于获取信息查询平台中的查询文本数据,获取查询文本数据中所包含的待查询实体;
特征表示模块,用于通过目标实体召回模型,输出待查询实体对应的查询实体表示特征,以及实体知识库中的样本实体分别对应的样本实体表示特征;
候选实体召回模块,用于根据查询实体表示特征与样本实体表示特征之间的特征相似度,在实体知识库中获取与待查询实体相关联的K个候选实体;K为正整数;
链接实体确定模块,用于获取K个候选实体分别对应的推送评估值,在K个候选实体中将最大的推送评估值所对应的候选实体,确定为待查询实体对应的链接实体。
其中,该装置还包括:
实体详情信息展示模块,用于获取链接实体所对应的实体详情信息,将实体详情信息作为查询文本数据的查询结果推送至信息查询平台,在信息查询平台中展示查询结果。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器与处理器相连,存储器用于存储计算机程序,处理器用于调用计算机程序,以使得该计算机设备执行本申请实施例中上述一方面提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序适于由处理器加载并执行,以使得具有处理器的计算机设备执行本申请实施例中上述一方面提供的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面提供的方法。
本申请实施例可以通过获取包含样本查询实体的样本文本数据,在实体知识库中将样本查询实体对应的标注实体确定为正样本,根据初始实体召回模型获取样本查询实体对应的第一实体表示特征,以及实体知识库中的样本实体对应的第二实体表示特征,根据第一实体表示特征与样本实体对应的第二实体表示特征之间的实体相似度,在样本实体中获取样本查询实体对应的第一负样本,其中第一负样本对应的第二实体表示特征与第一实体表示特征之间的实体相似度,大于第一实体表示特征与正样本对应的第二实体表示特征之间的实体相似度;在实体知识库中获取样本查询实体对应的第二负样本,根据正样本、第一负样本以及第二负样本,对初始实体召回模型的网络参数进行修正,以得到训练完成的目标实体召回模型,其中第一负样本属于实体数据库中除正样本和第一负样本之外的样本实体。可见,通过初始实体召回模型可以确定样本查询实体对应的第一负样本,其中正样本为样本查询实体的标注实体,即正样本是已知的,第一负样本为实体知识库中实体相似度大于正样本的样本实体,即第一负样本与正样本相似,第二负样本为实体知识库中选取的样本实体,通过正样本、第一负样本、第二负样本对初始实体召回模型进行训练,使得训练完成的目标实体召回模型可以更好地区分相似的实体,进而可以提高目标实体召回模型的召回率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种实体召回模型的训练场景图;
图3是本申请实施例提供的一种文本数据处理方法的流程示意图;
图4是本申请实施例提供的一种样本文本数据的数据格式示意图;
图5是本申请实施例提供的一种获取实体表示特征的示意图;
图6是本申请实施例提供的一种计算实体相似度的示意图;
图7是本申请实施例提供的一种基于对抗学习训练实体召回模型的示意图;
图8是本申请实施例提供的一种训练实体召回模型的流程示意图;
图9是本申请实施例提供的一种实体链接服务的应用场景示意图;
图10是本申请实施例提供的一种文本数据处理装置的结构示意图;
图11是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请涉及人工智能(Artificial Intelligence,AI)技术,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请具体涉及人工智能技术下属的自然语言处理技术(Nature Languageprocessing,NLP)。
其中,自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请具体涉及待处理文本的实体识别,从待处理文本中识别出实体后,将该实体转换为第一实体表示特征(表示向量),通过计算上述实体表示特征与实体知识库中的所有实体对应的第二实体表示特征之间的实体相似度,召回对应的实体知识库中的候选实体,进而对候选实体进行过滤、排序,得到最终正确的目标实体,将上述待处理文本中的实体与实体知识库中的目标实体之间建立对应关系,以更好地理解上述待处理文本。
本申请还涉及以下几个概念:
知识图谱:知识图谱是一种由节点和连接节点的边所构成的网络,其中知识图谱中的节点可以为节点,边是实体之间的关系。例如,知识图谱包括节点“小A”和节点“中国”,这两个节点通过一条由节点“小A”指向实体“中国”的边连接,这条边为“国籍”,代表“小A”的国籍是“中国”。在本申请中,上述知识图谱中所包含的实体均属于实体知识库,其中实体知识库可以包括知识图谱中每个实体分别对应的实体名和实体详情信息(也可称为实体简介),实体知识库中的实体可以称为样本实体。
实体链接:实体链接是将文本中出现的实体与知识图谱中存在的实体对应起来。例如,文本为“小A为全国高考状元”,该文本中存在一个实体“小A”,在知识图谱中名称为“小A”的同名实体由若干个,实体链接需要将文本中的“小A”识别出来,并将文本中的实体“小A”与知识图谱中的高考学生“小A”对应起来。
对抗学习:对抗学习是一种新提出的机器学习方法,该对抗学习的实现方式是让两个网络互相竞争对抗,这两个网络可以为生成器网络和判别器网路,生成器网络可以不断捕捉训练库里真实样本的概率分布,将输入的随机噪声转变成新的样本(可以称为假数据);判别器网络可以同时观察真实数据和假数据,判断输入的数据到底是不是真的;通过反复对抗,生成器和判别器的能力都会不断增强,直到达成一个平衡,最终训练完成的生成器可以生成高质量、以假乱真的数据。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括服务器10d和用户终端集群,该用户终端集群可以包括一个或者多个用户终端,这里不对用户终端的数量进行限制。如图1所示,该用户终端集群可以具体包括用户终端10a、用户终端10b以及用户终端10c等。其中,服务器10d可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端10a、用户终端10b以及用户终端10c等均可以包括:智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)以及智能电视等具有视频/图像播放功能的智能终端。如图1所示,用户终端10a、用户终端10b以及用户终端10c等可以分别与服务器10d进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10d之间进行数据交互。
如图1所示,以用户终端集群中的用户终端10a为例,该用户终端10a可以获取样本文本数据,该样本文本数据包含样本查询实体,在实体知识库中获取与该样本查询实体相匹配的标注实体,对于样本查询实体所对应的标注实体是已知的;可以获取初始实体召回模型,通过初始实体召回模型生成样本查询实体对应的第一实体表示特征,以及实体知识库中的样本实体对应的第二实体表示特征,该实体知识库中的样本实体包括上述标注实体,可以将标注实体对应的第二实体表示特征确定为样本查询实体的正样本,通过计算第一实体表示特征与样本实体对应的第二实体表示特征之间的实体相似度,可以从样本实体中获取样本查询实体对应的第一负样本,该第一负样本对应的第二实体表示特征与第一实体表示特征之间的实体相似度,大于正样本与第一实体表示特征之间的实体相似度;进而可以根据正样本、第一负样本以及样本查询实体对应的第二负样本(可以从样本实体对应的第二实体表示特征中随机选择除正样本和第一负样本之外的样本实体),对初始实体召回模型的网络参数进行修正,以得到训练完成的目标实体召回模型。换言之,初始实体召回模型的训练过程中,可以使用前一轮训练的网络参数确定样本查询实体的第一负样本,即第一负样本为前一轮训练的网络参数所生成的,正样本是已知的,第二负样本是从实体知识库中随机选择的除正样本之外的样本实体,进而可以基于正样本、第一负样本以及第二负样本对前一轮训练好的网络参数进行再次修正,以得到本轮训练的网络参数;重复上述训练过程,直至达到训练终止条件(例如,训练终止条件可以为达到预先设置的最大训练次数,或者达到训练收敛条件),得到目标实体召回模型,训练完成的实体召回模型可以用于从实体知识库中召回与查询文本数据对应的候选实体,该查询文本数据可以是指搜索场景中的搜索文本,或者为问答场景中的问题,或者为推荐场景中的待推荐文本内容等;通过目标实体召回模型所召回的候选实体与查询文本数据之间具有强关联性,即通过上述训练方式,可以提高实体召回模型的召回率。
请一并参见图2,图2是本申请实施例提供的一种实体召回模型的训练场景图,本申请实施例以上述图1所示的用户终端10a为例,采用对抗学习的方式对实体召回模型进行训练。如图2所示,用户终端10a可以获取初始化的实体召回模型(可以称为初始实体召回模型),用于训练初始实体召回模型的所有数据均可以标注出所包含的样本查询实体,以及每个样本查询实体分别在实体知识库中的标注实体;在初始实体召回模型的训练过程中,需要不断对初始实体召回模型的网络参数进行训练,可以将前一轮训练产生的初始实体召回模型作为生成器,将本轮训练的初始实体召回模型作为判别器,其中生成器可以用于生成第一负样本,该第一负样本可以通过生成器生成的实体表示特征之间的实体相似度来确定的,判别器可以用于区分生成器所生成的样本。需要说明的是,初始实体召回模型作为生成器时,可以理解为在初始实体召回模型中进行前向计算,初始实体召回模型作为判别器时,可以理解为对初始实体召回模型的网络参数进行修正的过程,即初始实体召回模型的网络参数训练过程是在初始实体召回模型作为判别器时完成的。
如图2所示,用户终端10a可以获取用于训练初始实体召回模型的样本文本数据20a,该样本文本数据20a可以具体表示为“高考状元小A”,该样本文本数据20a可以预先标注出样本查询实体20b(“小A”),并在实体知识库20c中获取与样本查询实体20b相对应的标注实体,此时的标注实体可以为“小A(高考状元)”。其中,实体知识库20c所包含的实体数量可以为N个,N为正整数,如N可以取值为1,2,3,……,可以将实体知识库20c所包含的N个实体均可以作为样本实体,此处的N个样本实体包括上述标注实体;如图2所示,实体知识库20c还可以包括“小A(外科医生)”、“小B(影视演员)”等样本实体,其中样本实体“小A(外科医生)”的实体名为“小A”,实体详情信息为“小A,20xx年xx省的理科高考状元,毕业于xx学校……”;样本实体“小B(影视演员)”的实体名为“小B”,实体详情信息为“小B,影视剧《乡村xxx》的女主角……”等。
进一步地,用户终端10a可以获取初始实体召回模型,该初始实体召回模型可以是指初始化的实体召回模型,也可以是指未训练完成的实体召回模型,本申请实施例中的初始实体召回模型可以为语言表示模型,该初始实体召回模型可以用于将自然语言描述的文本转换为实体表示向量(可以称为实体表示特征)。用户终端10a可以将样本文本数据20a(“高考状元小A”)全部划分为单位字符:“高”、“考”、“状”、“元”、“小”、“A”,通过初始实体召回模型可以生成样本文本数据20a中每个单位字符分别对应的表示向量(例如,单位字符“高”对应的表示向量、单位字符“考”对应的表示向量等),进而可以根据每个单位字符分别对应的表示向量,得到样本查询实体20b对应的实体表示特征20d。同理,对于实体知识库20c中所包含的N个样本实体(包括样本实体名,以及样本实体对应的实体详情信息),可以采用上述相同的方式,生成N个样本实体分别对应的实体表示特征;进而可以将N个样本实体所对应的实体表示特征构成实体表示特征集合20e,该实体表示特征集合20e可以包括标注实体“小A(高考状元)”对应的实体表示特征1,样本实体“小A(外科医生)”对应的实体表示特征2,样本实体“小B(影视演员)”对应的实体表示特征3,……。
进一步地,用户终端10a可以计算实体表示特征20d分别与实体表示特征集合20e中的N个实体表示特征之间的实体相似度,如可以计算实体表示特征20d与实体表示特征集合20e中的实体表示特征1之间的实体相似度1,计算实体表示特征20d与实体表示特征2之间的实体相似度2,计算实体表示特征20d与实体表示特征3之间的实体相似度3,……;其中,样本查询实体20b对应的实体表示特征20d与标注实体对应的实体表示特征1之间的实体相似度为:实体相似度1。用户终端10a可以在实体表示特征集合20e中,将实体相似度大于上述实体相似度1的实体表示特征所对应的样本实体,作为样本查询实体20b对应的第一负样本。换言之,可以从实体知识库中挖掘出与实体查询实体20b相似的样本实体,此处相似的样本实体所对应的实体表示特征可以作为第一负样本。
可选的,可以将标注实体“小A(高考状元)”作为样本查询实体20b的正样本;当然,用户终端10a可以从实体知识库20c中除标注实体和第一负样本之外的样本实体中,随机选择样本查询实体20b的第二负样本,进而可以将第一负样本与第二负样本组合为样本查询实体20b的负样本,根据负样本和正样本,对初始实体召回模型的网络参数进行训练,通过不断训练,最终可以得到训练完成的目标实体召回模型。本申请实施例中,上述初始实体召回模型训练所使用的第一负样本,是由前一轮训练生成的初始实体召回模型所生成的实体表示特征所确定的,根据正样本和负样本,可以用于训练初始实体召回模型的网络参数;由于负样本中包括与样本查询实体20b的实体表示特征20d相似的第一负样本,基于负样本和正样本训练完成的目标实体召回模型,可以更好地区分难以识别的实体数据,进而可以提高目标实体召回模型的召回率。
请参见图3,图3是本申请实施例提供的一种文本数据处理方法的流程示意图。可以理解地,该文本数据处理方法可以由计算机设备执行,该计算机设备可以为用户终端,或者服务器,或者为用户终端和服务器组成的系统,或者为一个计算机程序应用(包括程序代码),这里不做具体限定。如图3所示,该文本数据处理方法可以包括以下步骤:
步骤S101,获取包含样本查询实体的样本文本数据,在实体知识库中将样本查询实体对应的标注实体确定为正样本。
具体的,实体链接服务可以包括实体识别(mention识别)、候选实体召回以及实体消歧等步骤;其中,实体识别可以是指从自然语言描述的文本数据(query)中识别出所有实体;候选实体召回可以是指通过实体召回模型(此处的实体召回模型可以是指训练完成的模型,也可以称为目标实体召回模型),从实体知识库中召回与文本数据query所包含的实体相关的候选实体(候选实体的数量可以为大于1的数值);实体消歧可以是指对召回的候选实体进行过滤、排序,以得到文本数据query中的实体所对应的正确实体,进而可以将文本数据query中的实体链接到实体知识库中的正确实体。在使用实体召回模型从实体知识库中召回候选实体之前,需要对实体召回模型进行训练;在实体召回模型的训练过程中,计算机设备可以获取用于训练实体召回模型的训练集,该训练集中所包含的训练数据也可以称为样本文本数据,每个样本文本数据均可以标注出其包含的样本查询实体,样本查询实体对应的实体知识库中的标注实体是已知的;当计算机设备从训练集中获取到样本文本数据时,可以从样本文本数据中获取标注出的样本查询实体,同时还可以从实体知识库中获取与样本查询实体相匹配的标注实体,即实体知识库中的标注实体可以用于辅助理解上述样本文本数据。举例来说,当样本文本数据为搜索平台中的查询文本时,标注实体可以用于辅助理解查询文本在实体知识库中的语义信息,以得到与样本文本数据相关联的查询结果;当样本文本数据为问答系统中的问题时,标注实体可以用于表征样本文本数据在实体知识库中的准确答案;当样本文本数据为推荐平台中的文章内容时,标注实体可以用于表征样本文本数据在实体知识库中的推送内容。
可选的,训练集中的样本文本数据可以包括一个或者多个样本查询实体,当样本文本数据包括一个样本查询实体时,需要从实体知识库中获取一个样本查询实体所对应的标注实体;当样本文本数据包括多个样本查询实体时,需要从实体知识库中获取样本文本数据所包含的所有样本查询实体分别对应的标注实体。假设样本文本数据中所包含的样本查询实体的数量为M个,M为正整数,如M可以取值为1,2,……,计算机设备在获取到样本文本数据后,可以根据样本文本数据携带的位置标识信息(offset),在样本文本数据中获取M个样本查询实体,还可以根据样本文本数据携带的实体标识信息(实体id),在实体知识库中分别获取与M个样本查询实体相匹配的标注实体,并将标注实体确定为M个样本查询实体分别对应的正样本。
请一并参见图4,图4是本申请实施例提供的一种样本文本数据的数据格式示意图。如图4所示,对于训练集中的样本文本数据30a(“小A是全国高考状元吗”),该样本文本数据30a可以标注出每个样本查询实体在当前样本文本数据30a中对应的实体集(即实体知识库中的实体id)。如图4所示,样本文本数据30a标注的样本查询实体为:“小A”;样本文本数据30a所携带的位置标识信息为0,即样本查询实体在样本文本数据30a中的位置为:0(此时的位置标识信息的表示形式为offset:0,表示样本查询实体“小A”位于样本文本数据30a中的起始位置);样本文本数据30a所携带的实体标识信息30b可以为:实体id具体为da77793c-fe70-xxxx-ff98,该实体id可以用于表示样本查询实体“小A”对应的标注实体;可选的,当样本文本数据30a的上下文不充分的情况下,一个样本查询实体在实体知识库中可以对应多个标注实体。需要说明的是,本申请实施例中的正样本、第一负样本以及第二负样本可以为实体知识库中的样本实体所对应的实体id。
步骤S102,根据初始实体召回模型获取样本查询实体对应的第一实体表示特征,根据初始实体召回模型,获取实体知识库中的样本实体对应的第二实体表示特征;实体知识库中的样本实体包括正样本。
具体的,计算机设备可以获取初始化的实体召回模型(也可以称为初始实体召回模型),通过初始实体召回模型可以输出样本查询实体对应的第一实体表示特征,以及实体知识库中的所有样本实体所对应的第二实体表示特征;本申请中的第一实体表示特征也可以为样本数文本数据对应的表示向量。
可选的,初始实体召回模型可以为双塔模型,该双塔模型可以包括第一文本编码组件和第二文本编码组件,实体知识库可以包括N个样本实体,N可以为正整数,如N可以取值为1,2,……;计算机设备可以将样本文本数据输入至初始实体召回模型中的第一文本编码组件,通过第一文本编码组件生成样本查询实体对应的第一实体表示特征;将实体知识库中的N个样本实体依次输入至初始实体召回模型中的第二文本编码组件,通过第二文本编码组件生成N个样本实体分别对应的第二实体表示特征。其中,上述第一文本编码组件和第二文本编码组件均可以为语言表示模型,例如,第一文本编码组件和第二文本编码组件均可以为BERT(Bidirectional Encoder Representations from Transformers)模型、Word2Vec(一种词向量表示模型)、潜在语义分析模型(Latent Semantic Analysis,LSA)、潜在狄利克雷分配模型(Latent Dirichlet Allocation,LDA)、随机索引(randomindexing)等。需要说明的是,第一文本编码组件和第二文本编码组件的模型结构可以是相同的,但是两者在经过训练后所得到的模型参数是不相同的。需要说明的是,本申请实施例中所涉及的初始实体召回模型可以是指前一轮训练生成的模型。
可选的,通过第一文本编码组件获取第一实体表示特征的过程可以包括:计算机设备可以将样本文本数据划分为D个单位字符,获取D个单位字符分别对应的第一单位词向量,其中D为正整数,如D可以取值为1,2,……;进而可以根据D个单位字符在样本文本数据中的语义信息,获取D个单位字符分别对应的第一文本向量;根据D个单位字符在样本文本数据中的文本位置,获取D个单位字符分别对应的第一位置向量;将第一单位词向量、第一文本向量以及第一位置向量进行叠加,可以得到第一输入表示特征;将第一输入表示特征输入至初始实体召回模型中的第一文本编码组件,根据第一文本编码组件对第一输入表示特征进行文本编码,生成样本查询实体对应的第一实体表示特征。
其中,计算机设备可以通过查询字向量表,将样本文本数据中的每个单位字符转换为词向量(即第一单位词向量),其中字向量表可以包含所有常用字符对应的字向量,该字向量表可以理解为包含所有常用字符向量的“词典”,单位字符可以是指样本文本数据中的每个字;第一文本向量的取值可以在初始实体召回模型的训练过程中自动学习,该第一文本向量可以用于刻画样本文本数据的全局语义信息,可以与第一单位词向量进行融合;由于出现在样本文本数据不同位置的单位字符所携带的语义信息存在差异(例如,“我等你”和“你等我”所携带的语义信息存在差异),因此可以为样本文本数据中的D个单位字符分别附加一个不同的位置向量以作区分。可以将第一单位词向量、第一文本向量以及第一位置向量的加和作为第一文本编辑组件的输入数据(即第一输入表示特征),将第一输入表示特征输入至第一文本编码组件后,可以通过该第一文本编辑组件对第一输入表示特征进行文本编码,以得到样本查询实体对应的第一实体表示特征。
可选的,通过第二文本编码组件获取N个样本实体所对应的第二实体表示特征的过程可以包括:计算机设备可以获取实体知识库中的N个样本实体分别对应的第二单位词向量、第二文本向量以及第二位置向量,将第二单位词向量、第二文本向量以及第二位置向量进行叠加,得到第二输入表示特征;将第二输入表示特征输入至初始实体召回模型中的第二文本编码组件,根据第二文本编码组件对第二输入表示特征进行文本编码,生成N个样本实体分别对应的第二实体表示特征;进而可以为N个第二实体表示特征建立索引信息,将N个第二实体表示特征分别对应的索引信息添加至索引数据库。
其中,第二文本编码组件对实体知识库中的样本实体的处理过程,与前述第一文本编码组件对样本文本数据的处理过程相同,此处不再进行赘述。通过第二文本编辑组件输出实体知识库中的所有样本实体所对应的第二实体表示特征后,可以为每个样本实体所对应的第二实体表示特征建立索引信息,并将每个第二实体表示特征分别对应的索引信息均添加至索引数据库(faiss index),其中,该索引数据库可以用于搜索与第一实体表示特征相似的第二实体表示特征。
可选的,请一并参见图5,图5是本申请实施例提供的一种获取实体表示特征的示意图。初始实体召回模型可以包括第一文本编码组件和第二文本编码组件,其中,第一文本编码组件可以是指样本查询文本侧的语言表示模型,第二文本编码组件可以是指实体知识库中的样本实体侧的语言表示模型,本申请实施例以第一文本编码组件和第二文本编码组件均为BERT模型为例,对样本文本数据和实体知识库中的样本实体的处理过程进行描述。如图5所示,计算机设备获取到样本文本数据40a(“高考状元小A”)后,可以在“高考状元小A”中插入特殊字符标识出样本查询实体;其中,“高考状元小A”中插入的特殊字符可以包括:[CLS]符号、[SEP]符号、[L]符号、[R]符号;[CLS]符号对应的输出向量可以用于分类模型,对于非分类模型,该[CLS]符号可以省略,也可以保留;[SEP]符号可以为分句符号,用于分割输入第一文本编码组件中的两个句子;[L]符号和[R]符号用于标识出“高考状元小A”中所包含的样本查询实体“小A”。插入特殊字符的样本文本数据40a所包含的单位字符可以包括:“[CLS]”、“高”、“考”、“状”、“元”、“[L]”、“小”、“A”、“[R]”、“[SEP]”,通过第一文本编码组件可以输出[CLS]符号对应的输出向量E1、单位字符“高”对应的输出向量E2、单位字符“考”对应的输出向量E3、单位字符“状”对应的输出向量E4、单位字符“元”对应的输出向量E5、[L]符号对应的输出向量E6、单位字符“小”对应的输出向量E7、单位字符“A”对应的输出向量E8、[R]符号对应的输出向量E9以及[SEP]符号对应的输出向量E10,根据上述输出向量E1至输出向量E10,可以生成样本文本数据40a(“高考状元小A”)对应的第一实体表示特征40c。
同理,对于实体知识库中的样本实体40b“小A(湖南省高考状元)”,计算机设备可以在样本实体40b“小A(湖南省高考状元)”的实体名和实体详情信息中插入特殊字符,如在样本实体“小A”后插入[S]字符,以断开样本实体“小A”与实体详情信息“湖南省高考状元”,在样本实体40b的文本前添加[CLS]符号,在实体详情信息“湖南省高考状元”添加[SEP]符号,该[SEP]符号用于分割“湖南省高考状元”与后续文本语句。进一步地,通过第二文本编码组件可以输出样本实体40b中的每个单位字符分别对应的输出向量(例如,样本实体40b中的[CLS]符号所对应的输出向量为Q1,单位字符“湖”对应的输出向量为Q5等);当然,样本实体40b中所插入的特殊字符在经过第二文本编码组件后,同样可以得到对应的输出向量。计算机设备可以根据样本实体40b所包含的每个单位字符分别对应的输出向量(例如,如图5所示的输出向量Q1-输出向量Q12),生成样本实体40b“小A(湖南省高考状元)”对应的第二实体表示特征40d。对于实体知识库所包含的每个样本文本,均可以通过上述处理过程,得到每个样本实体分别对应的第二实体表示特征。
进一步地,计算机设备可以对第一实体表示特征40c与第二实体表示特征40d的点积结果计算sigmoid(可以称为S型函数,也可以称为S型生长曲线,还可以作为激活函数),以得到第一实体表示特征40c与第二实体表示特征40d之间的实体相似度,此时的实体相似度也可以理解为样本文本数据40a与样本实体40b之间的相似度。
步骤S103,根据第一实体表示特征和样本实体对应的第二实体表示特征之间的实体相似度,在样本实体中获取样本查询实体对应的第一负样本;第一负样对应的第二实体表示特征本与第一实体表示特征之间的实体相似度,大于第一实体表示特征与正样本对应的第二实体表示特征之间的实体相似度。
具体的,在通过初始实体召回模型输出样本查询实体对应的第一实体表示特征,以及实体知识库中的每个样本文本分别对应的第二实体表示特征后,计算机设备可以获取第一实体表示特征分别与每个样本实体所对应的第二实体表示特征之间的实体相似度。在初始实体召回模型的训练过程中,可以将实体相似度大于正样本的样本实体,确定为样本查询实体对应的第一负样本,其中第一负样本对应的第二实体表示特征与第一实体表示特征之间的实体相似度,大于第一实体表示特征与正样本对应的第二实体表示特征之间的实体相似度。
可选的,从N个实体样本中确定第一负样本时,可以通过在索引数据库中使用最近邻搜索法(Nearest Neighbor Search),以得到样本查询实体对应的第一负样本。其中,第一负样本的确定过程可以包括:计算机设备可以根据第一实体表示特征分别与N个样本实体对应的第二实体表示特征之间的点积结果,对该点积结果计算sigmoid,以获取第一实体表示特征分别与N个第二实体表示特征之间的实体相似度;根据实体相似度,在索引数据库中查找与第一实体表示特征相匹配的相似索引信息(例如,可以将第一实体表示特征作为索引数据库中新的数据点,通过最近邻搜索法从索引数据库中查找与第一实体表示特征最近的相似索引信息),在N个第二实体表示特征中获取相似索引信息关联的相似实体表示特征,即将相似索引信息对应的第二实体表示特征作为相似实体表示特征;进而可以将第一实体表示特征与标注实体(正样本)对应的第二实体表示特征之间的实体相似度确定为阈值相似度,将实体相似度大于阈值相似度的相似实体表示特征所对应的样本实体,确定为样本查询实体对应的第一负样本。
其中,最近邻搜索法可以是指在一个尺度空间中搜索最近点的优化问题,本申请所使用的最近邻搜索法也可以是指K-近邻搜索法,即可以在一个尺度空间中搜索K个与查询点最相近的数据点,最近邻搜索法可以包括但不限于:线性查找(涉及第一实体表示特征与N个样本实体所对应的第二实体表示特征之间的实体相似度的计算)、K-D树(K-dimensional tree,为一个二叉树结构)、Ball树(一种树数据结构)、LSH(Localitysensitive hashing)、矢量量化方法、基于压缩/聚类的搜索、在小的图中进行贪婪搜索。
需要说明的是,对初始实体召回模型进行训练的目的在于:使得样本文本数据的第一实体表示特征与正样本对应的第二实体表示特征之间的实体相似度,高于第一实体表示特征与负样本(第一负样本和第二负样本)所对应的第二实体表示特征之间的实体相似度。请一并参见图6,图6是本申请实施例提供的一种计算实体相似度的示意图。如图6所示的样本文本数据50a为:高考状元小A,实体知识库所包含的样本实体50b为:“小A(高考状元)”,实体知识库所包含的样本实体50c为:“小A(外科医生)”;当然,实体知识库还可以包括样本实体“小B”、样本实体“小C”以及样本实体“太阳”等实体。通过初始实体召回模型中的第一文本编码组件,可以生成样本文本数据50a中的样本查询实体对应的实体表示特征1(即第一实体表示特征),通过初始实体召回模型中的第二文本编码组件,可以生成实体知识库所包含的N个样本实体分别对应的第二实体表示特征,如样本实体50b对应的第二实体表示特征可以为:实体表示特征2,样本实体50c对应的第二实体表示特征可以为:实体表示特征3等。
计算机设备可以将实体知识库中所有样本实体对应的第二实体表示特征,以及样本查询实体对应的实体表示特征1构建向量空间50d,样本文本数据中样本查询实体的实体表示特征1与向量空间50d中的表示向量50e相对应,样本实体50b对应的实体表示特征2与向量空间50d中的表示向量50f相对应,样本实体50c对应的实体表示特征3与向量空间50d中的表示向量50g相对应。本申请实施例中,假设样本文本数据50a所包含的样本查询实体在实体知识库中的标注实体为样本实体50b,对初始实体召回模型进行训练后,可以使得样本文本数据50a与样本实体50b之间的实体相似度,大于样本文本数据50a与样本实体50c之间的实体相似度,更是大于样本文本数据50a与样本文本“小B”、样本实体“小C”等实体之间的实体相似度。
步骤S104,在实体知识库中获取样本查询实体对应的第二负样本,根据正样本、第一负样本以及第二负样本,对初始实体召回模型的网络参数进行修正,将参数修正后的初始实体召回模型确定为目标实体召回模型;第二负样本属于实体知识库中除正样本和第一负样本之外的样本实体,目标实体召回模型用于从实体知识库中召回查询文本数据对应的候选实体。
具体的,计算机设备在确定了样本文本数据所包含的样本查询实体对应的第一负样本后,可以将第一负样本与原有的第二负样本进行组合,其中第二负样本可以是指在N个样本实体中,随机选择的除第一负样本和正样本(标注实体)之外的样本实体。上述第一负样本、第二负样本以及正样本可以作为训练初始实体召回模型的批处理数据(batch),为了防止初始实体召回模型过拟合第一负样本任务,可以保持每次训练所使用的batch中第二负样本数量与第一负样本数量之间的比例不变。换言之,计算机设备可以统计第一负样本对应的第一样本数量,根据负样本比例值(可以理解为预先设置的batch中的第二负样本数量与第一负样本数量之间的比例值,可以根据实际需求进行人为设置)和第一样本数量,确定第二样本数量,即确定当前batch中的第二负样本的数量;在N个样本实体中,获取满足第二样本数量的第二负样本;根据正样本、第一负样本以及第二负样本,对初始实体召回模型的网络参数进行修正,将训练完成的初始实体召回模型确定为目标实体召回模型。
其中,在确定了第一负样本、第二负样本以及正样本后,可以利用多任务学习对初始实体召回模型进行训练,此处的多任务可以是指第一负样本任务和第二负样本任务。计算机设备可以将正样本和第一负样本组合为第一训练数据,获取第一训练数据对应的第一判别结果,该第一训练数据可以用于第一负样本任务学习,第一判别结果可以是指将本轮训练的初始实体召回模型作为判别器,得到的针对第一负样本的第一判别结果;将正样本和第二负样本组合为第二训练数据,获取第二训练数据对应的第二判别结果,该第二训练数据可以用于第二负样本任务学习,第二判别结果可以是指将本轮训练的初始实体召回模型作为判别器,得到的针对第二负样本的第二判别结果。进一步地,可以根据第一判别结果和第二判别结果,确定初始实体召回模型对应的模型损失函数,进而可以根据模型损失函数对初始实体召回模型的网络参数进行修正,当初始实体召回模型对应的训练次数满足训练终止条件时,将满足训练终止条件的初始实体召回模型确定为目标实体召回模型。其中,上述训练终止条件可以包括预先设置的最大训练迭代次数,或者训练收敛条件,训练完成的初始实体召回模型即可称为目标实体召回模型。
可选的,初始实体召回模型经过反复的训练,可以得到训练完成的目标实体召回模型。本申请实施例中,可以将前一轮训练生成的初始实体召回模型作为生成器,将本轮训练生成的初始实体召回模型作为判别器,其中生成器可以用于生成上述第一负样本,判别器可以用于区分生成器所生成的第一负样本,以及正样本和第二负样本。请一并参见图7,图7是本申请实施例提供的一种基于对抗学习训练实体召回模型的示意图。如图7所示的生成器为前一轮训练生成的初始实体召回模型,判别器为本轮训练生成的初始实体召回模型;通过生成器可以生成样本文本数据所包含的样本查询实体对应的第一实体表示特征,以及实体知识库中所包含的所有样本实体分别对应的第二实体表示特征,根据第一实体表示特征与样本实体对应的第二实体表示特征之间的实体相似度,从所有样本实体中确定第一负样本60c;其中,第一负样本60c的确定过程可以参见上述步骤S103的描述,此处不再赘述。
如图7所示的数据集60a可以包括实体知识库中所有样本实体,从数据集60a中随机选择第二负样本60b,其中第二负样本60b可以为数据集60a中除正样本(标注实体)和第一负样本之外的样本实体;将第一负样本60c和第二负样本60b输入至判别器,通过判别器区分生成器所生成的正样本、第一负样本60c以及第二负样本60b的真实性。
请一并参见图8,图8是本申请实施例提供的一种训练实体召回模型的流程示意图。如图8所示,训练初始实体召回模型的流程可以包括:在初始实体召回模型的第一轮训练时,可以将样本文本数据所包含的样本查询实体对应的标注实体作为正样本,在实体知识库中随机选择除标注实体以外的样本实体作为第二负样本,也就是说,在第一轮训练时不存在第一负样本。在初始实体召回模型之后的每轮训练,可以利用第T-1(T可以为大于1的正整数)轮训练生成的模型(初始实体召回模型)作为生成器,将实体知识库中的所有样本实体生成第二实体表示特征,并对所有样本实体对应的第二实体表示特征建立索引信息,并将索引信息放入索引数据库(faiss index)中;与此同时,还可以对样本文本数据(query)中插入特殊字符并标识出样本查询实体(mention)后,利用第T-1轮训练生成的模型生成样本文本数据(query)对应的第一实体表示特征;通过第一实体表示特征在faissindex数据库中检索出相似度的TOP-K个第二实体表示特征,即前K个最高实体相似度所对应的第二实体表示特征;进而可以从K个第二实体表示特征中过滤掉正样本对应的第二实体表示特征,筛选出实体相似度高于正样本的实体相似度的第二实体表示特征所对应的样本实体,作为第一负样本(也可以称为难负样本);将挖掘出的第一负样本与随机选择的第二负样本组合为负样本,利用多任务学习对模型进行第T轮训练。为了防止模型过拟合第一负样本任务(也可以称为难负样本任务),需要保持batch中第二负样本数量与第一负样本数量之间的比例不变。
可选的,对于训练完成的目标实体召回模型,可以用于召回实体知识库中与查询文本数据对应的候选实体,通过目标实体召回模型从实体知识库中所召回的候选实体与查询文本数据之间的关联性,可以评估目标实体召回模型的召回率。为了验证训练得到的目标实体召回模型的候选实体召回性能,本申请实施例可以基于搜索点击日志,人工标注构建包含训练数据集7000条、测试数据集3000条的数据集,并在该数据集上完成对初始实体召回模型的训练过程,以及对训练好的目标实体召回模型的测试过程。为了直观地体现本申请实施例训练完成的目标实体召回模型的候选实体召回性能,可以将使用对抗学习进行训练得到的目标实体召回模型,与基于词典的候选实体召回方式以及采用随机选择负样本进行训练得到的模型进行比较,其测试实验结果如下述表1所示:
表1
Figure BDA0003081335060000211
如上述表1所示,top1(K=1)召回可以表示为:对于每个测试实体,均可以为其召回一个候选实体;top10(K=10)召回可以表示为:对于每个测试实体,均可以为其召回10个候选实体。与基于词典的候选实体召回方式相比,使用对抗学习训练完成的目标实体召回模型,top10召回在性能上提升了8个点,与此同时,由于使用对抗学习训练完成的目标实体召回模型在用于召回候选实体时,可以限制召回候选实体的数量,提升了整个实体链接服务的吞吐量(吞吐量提升了5倍),且降低了95分位延迟(降为基线方案的1/20)。
可选的,在对初始实体召回模型进行训练的过程中,除了引入对抗学习外,还可以引入预训练,以挖掘更多的训练数据进行预训练,进一步提高目标实体召回模型的召回率(recall),达到优化召回率的目标。需要说明的是,本申请所涉及的召回率是指在测试过程中,目标实体召回模型预测得到的正样本数量占测试数据集中真实的正样本数量的比例。
可选的,计算机设备通过对抗学习训练得到目标实体召回模型后,可以将该目标实体召回模型可以应用在实体链接服务中,其中,实体链接服务可以包括实体识别(mention识别)、候选实体召回以及实体消歧等步骤,上述目标实体召回模型可以具体应用在候选实体召回步骤,可以提高所召回的候选实体的准确性。当目标实体召回模型应用在信息查询平台(例如,搜索系统)中时,计算机设备可以获取信息查询平台中的查询文本数据,获取查询文本数据中所包含的待查询实体,即从自然语言描述的查询文本数据中识别包含的所有待查询实体,如从查询文本数据“2020年全国高考状元是谁”中识别出待查询实体“2020年全国高考状元”。
进一步地,通过目标实体召回模型,可以输出待查询实体对应的查询实体表示特征,以及实体知识库中的样本实体分别对应的样本实体表示特征,进而可以根据查询实体表示特征与样本实体表示特征之间的特征相似度,在实体知识库中获取与待查询实体相关联的K个候选实体,其中K为正整数,如K可以取值为1,2,……;如前述举例,根据待查询实体“2020年全国高考状元”可以从实体知识库中召回K个候选实体,该K个候选实体可以分别为:“全国高考状元(全国高考分数最高分)”、“全国高考状元(2019年高考状元为xx省高考状元)”、“全国高考状元(小A于全国高考状元失之交臂)”、“全国高考状元(2010年高考状元小B)”,此时候选实体的数量K为4。
进一步地,可以获取K个候选实体分别对应的推送评估值,在K个候选实体中将最大的推送评估值所对应的候选实体,确定为待查询实体对应的链接实体,进而可以获取链接实体所对应的实体详情信息,将实体详情信息作为查询文本数据的查询结果推送至信息查询平台,在信息查询平台中展示查询结果。如前述举例,可以分别对上述“全国高考状元(全国高考分数最高分)”、“全国高考状元(2019年高考状元为xx省高考状元)”、“全国高考状元(小A于全国高考状元失之交臂)”、“全国高考状元(2010年高考状元小B)”等召回的候选实体进行推送评估值排序(也可以理解为打分排序),最终得出“全国高考状元(2010年高考状元小B)的推送评估值最高,即“全国高考状元(2010年高考状元小B)为待查询实体“2020年全国高考状元”对应的链接实体;可以将“全国高考状元(2010年高考状元小B)对应的实体详情信息推送至信息查询平台,在该信息查询平台中可以展示上述实体详情信息。本申请实施例中,引入目标实体召回模型,既不会召回过多的候选实体导致实体消歧时间过长,拉低整个实体链接服务的效率,又不会漏召回相关候选实体,导致实体链接服务的召回过低。换言之,引入目标实体召回模型可以提高实体链接服务的效率,并提高实体链接服务的召回率。
可选的,引入目标实体召回模型的实体链接服务可以应用在搜索场景、知识问答场景、信息流的推荐场景等场景中。请一并参见图9,图9是本申请实施例提供的一种实体链接服务的应用场景示意图。如图9所示,计算机设备可以从查询文本数据70a(“2017版XX英雄传主演是谁”)中识别出待查询实体“2017版XX英雄传”;通过目标实体召回模型可以从实体知识库(Topbase知识库)中召回待查询实体“2017版XX英雄传”对应的候选实体70b、候选实体70c以及候选实体70d,该候选实体70b为“XX英雄传(小C创作的唱片武侠小说)”,该候选实体70c为“XX英雄传(2017年小D执导的电视剧)”,候选实体70d为“XX英雄传(2003年小A和小B主演电视剧)”。
进一步地,通过对候选实体70b、候选实体70c以及候选实体70d进行推送评估值排序,可以确定待查询实体“2017版XX英雄传”对应的链接实体为候选实体70c,即“XX英雄传(2017年小D执导的电视剧)”;候选实体70b与候选实体70d均不是与待查询实体“2017版XX英雄传”对应的链接实体。
可选的,当实体链接服务应用在搜索场景时,可以给出链接实体“XX英雄传(2017年小D执导的电视剧)”的类型和其他属性(例如,演员、导演、原著等属性),辅助搜索引擎完成对查询文本数据70a(“2017版XX英雄传主演是谁”)的理解。
可选的,当实体链接服务应用在知识问答场景时,可以精准定位查询文本数据70a(“2017版XX英雄传主演是谁”)中的主实体(如“2017版XX英雄传”),即查询文本数据70a可以作为知识问答场景中的问题,以更精确地查询到实体知识库;如图9所示,可以给出链接实体对应的实体id(707xxx7f),以及实体属性(演员),进而可以从实体知识库中精准查询到演员小E和演员小F,即问题“2017版XX英雄传主演是谁”的答案为:演员小E和演员小F。
可选的,当实体链接服务应用在信息流的推荐场景时,实体链接服务具体应用在信息流中的文章内容理解,可以识别文章标题中的实体,并付诸内容分类推送。如图9所示,可以给出链接实体“XX英雄传(2017年小D执导的电视剧)”的类型,以及类型对应的相关文章,如类型为演员小E主演,对应的相关文章的标题为“与其余演员撞衫,同款裙装不同风格,气质不相上下”;类型为古装武侠剧,对应的相关文章的标题为“古装寒碜?20多年前的造型才是武侠剧该有的样子”;类型为小C电视剧,对应的相关文章的标题为“15部武侠电视剧你看过多少部,最喜欢哪几部”。
本本申请实施例中,通过初始实体召回模型可以确定样本查询实体对应的第一负样本,其中正样本为样本查询实体的标注实体,即正样本是已知的,第一负样本为实体知识库中实体相似度大于正样本的样本实体,即第一负样本与正样本相似,第二负样本为实体知识库中选取的样本实体,通过正样本、第一负样本、第二负样本对初始实体召回模型进行训练,使得训练完成的目标实体召回模型可以更好地区分相似的实体,进而可以提高目标实体召回模型的召回率;使用目标实体召回模型,可以对召回的候选实体数量进行限制的同时,还可以确保不会漏掉与查询文本数据相关联的候选实体,以减少实体消歧时长,进而可以提高实体链接服务的效率。
请参见图10,图10是本申请实施例提供的一种文本数据处理装置的结构示意图。可以理解地,文本数据处理装置可以是应用于计算机设备中的一个计算机程序(包括程序代码),例如该文本数据处理装置可以为一个文本应用软件,该文本数据处理装置可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示,文本数据处理装置1可以包括:样本数据获取模块11,实体表示模块12,负样本确定模块13,参数修正模块14;
样本数据获取模块11,用于获取包含样本查询实体的样本文本数据,在实体知识库中将样本查询实体对应的标注实体确定为正样本;
实体表示模块12,用于根据初始实体召回模型获取样本查询实体对应的第一实体表示特征,根据初始实体召回模型,获取实体知识库中的样本实体对应的第二实体表示特征;实体知识库中的样本实体包括正样本;
负样本确定模块13,用于根据第一实体表示特征和样本实体对应的第二实体表示特征之间的实体相似度,在样本实体中获取样本查询实体对应的第一负样本;第一负样本对应的第二实体表示特征与第一实体表示特征之间的实体相似度,大于第一实体表示特征与正样本对应的第二实体表示特征之间的实体相似度;
参数修正模块14,用于在实体知识库中获取样本查询实体对应的第二负样本,根据正样本、第一负样本以及第二负样本,对初始实体召回模型的网络参数进行修正,将参数修正后的初始实体召回模型确定为目标实体召回模型;第二负样本属于实体知识库中除正样本和第一负样本之外的样本实体,目标实体召回模型用于从实体知识库中召回查询文本数据对应的候选实体。
其中,样本数据获取模块11,实体表示模块12,负样本确定模块13,参数修正模块14的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101-步骤S104,这里不再进行赘述。
在一些可行的实施方式中,样本查询实体的数量为M个,M为正整数;
样本数据获取模块11可以包括:查询实体获取单元111,标注实体获取单元112;
查询实体获取单元111,用于获取样本文本数据,根据样本文本数据携带的位置标识信息,在样本文本数据中获取M个样本查询实体;
标注实体获取单元112,用于根据样本文本数据携带的实体标识信息,在实体知识库中分别获取与M个样本查询实体相匹配的标注实体,将标注实体确定为M个样本查询实体分别对应的正样本。
其中,查询实体获取单元111,标注实体获取单元112的具体功能实现方式可以参见上述图3所对应实施例中的步骤S101,这里不再进行赘述。
在一些可行的实施方式中,实体知识库包括N个样本实体,N为正整数;
实体表示模块12可以包括:第一编码单元121,第二编码单元122;
第一编码单元121,用于将样本文本数据输入至初始实体召回模型中的第一文本编码组件,通过第一文本编码组件生成样本查询实体对应的第一实体表示特征;
第二编码单元122,用于将实体知识库中的N个样本实体依次输入至初始实体召回模型中的第二文本编码组件,通过第二文本编码组件生成N个样本实体分别对应的第二实体表示特征。
其中,第一编码单元121,第二编码单元122的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。
在一些可行的实施方式中,第一编码单元121可以包括:词向量获取子单元1211,文本向量获取子单元1212,位置向量获取子单元1213,第一向量叠加子单元1214,第一表示特征生成子单元1215;
词向量获取子单元1211,用于将样本文本数据划分为D个单位字符,获取D个单位字符分别对应的第一单位词向量;D为正整数;
文本向量获取子单元1212,用于根据D个单位字符在样本文本数据中的语义信息,获取D个单位字符分别对应的第一文本向量;
位置向量获取子单元1213,用于根据D个单位字符在样本文本数据中的文本位置,获取D个单位字符分别对应的第一位置向量;
第一向量叠加子单元1214,用于将第一单位词向量、第一文本向量以及第一位置向量进行叠加,得到第一输入表示特征;
第一表示特征生成子单元1215,用于将第一输入表示特征输入至初始实体召回模型中的第一文本编码组件,根据第一文本编码组件对第一输入表示特征进行文本编码,生成样本查询实体对应的第一实体表示特征。
其中,词向量获取子单元1211,文本向量获取子单元1212,位置向量获取子单元1213,第一向量叠加子单元1214,第一表示特征生成子单元1215的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。
在一些可行的实施方式中,第二编码单元122可以包括:第二向量叠加子单元1221,第二表示特征生成子单元1222,索引建立子单元1223;
第二向量叠加子单元1221,用于获取实体知识库中的N个样本实体分别对应的第二单位词向量、第二文本向量以及第二位置向量,将第二单位词向量、第二文本向量以及第二位置向量进行叠加,得到第二输入表示特征;
第二表示特征生成子单元1222,用于将第二输入表示特征输入至初始实体召回模型中的第二文本编码组件,根据第二文本编码组件对第二输入表示特征进行文本编码,生成N个样本实体分别对应的第二实体表示特征;
索引建立子单元1223,用于为N个第二实体表示特征建立索引信息,将N个第二实体表示特征分别对应的索引信息添加至索引数据库。
其中,第二向量叠加子单元1221,第二表示特征生成子单元1222,索引建立子单元1223的具体功能实现方式可以参见上述图3所对应实施例中的步骤S102,这里不再进行赘述。
在一些可行的实施方式中,负样本确定模块13可以包括:实体相似度获取单元131,相似实体获取单元132,第一负样本确定单元133;
实体相似度获取单元131,用于根据第一实体表示特征分别与N个样本实体对应的第二实体表示特征之间的点积结果,获取第一实体表示特征分别与N个第二实体表示特征之间的实体相似度;
相似实体获取单元132,用于根据实体相似度,在索引数据库中查找与第一实体表示特征相匹配的相似索引信息,在N个第二实体表示特征中获取相似索引信息关联的相似实体表示特征;
第一负样本确定单元133,用于将第一实体表示特征与标注实体对应的第二实体表示特征之间的实体相似度确定为阈值相似度,将实体相似度大于阈值相似度的相似实体表示特征所对应的样本实体,确定为样本查询实体对应的第一负样本。
其中,实体相似度获取单元131,相似实体获取单元132,第一负样本确定单元133的具体功能实现方式可以参见上述图3所对应实施例中的步骤S103,这里不再进行赘述。
在一些可行的实施方式中,实体知识库包括N个样本实体,N为正整数;
参数修正模块14可以包括:样本数量确定单元141,第二负样本获取单元142,第一判别结果获取单元143,第二判别结果获取单元144,网络参数修正单元145;
样本数量确定单元141,用于统计第一负样本对应的第一样本数量,根据负样本比例值和第一样本数量,确定第二样本数量;
第二负样本获取单元142,用于在实体知识库所包含的N个样本实体中,获取满足第二样本数量的第二负样本。
第一判别结果获取单元143,用于将正样本和第一负样本组合为第一训练数据,获取第一训练数据对应的第一判别结果;
第二判别结果获取单元144,用于将正样本和第二负样本组合为第二训练数据,获取第二训练数据对应的第二判别结果;
网络参数修正单元145,用于根据第一判别结果和第二判别结果,对初始实体召回模型的网络参数进行修正,将参数修正后的初始实体召回模型确定为目标实体召回模型。
可选的,网络参数修正单元145具体用于:
根据第一判别结果和第二判别结果,确定初始实体召回模型对应的模型损失函数;
根据模型损失函数对初始实体召回模型的网络参数进行修正,当初始实体召回模型对应的训练次数满足训练终止条件时,将满足训练终止条件的初始实体召回模型确定为目标实体召回模型。
其中,样本数量确定单元141,第二负样本获取单元142,第一判别结果获取单元143,第二判别结果获取单元144,网络参数修正单元145的具体功能实现方式可以参见上述图3所对应实施例中的步骤S104,这里不再进行赘述。
在一些可行的实施方式中,该文本数据处理装置1还可以包括:待查询实体识别模块15,特征表示模块16,候选实体召回模块17,链接实体确定模块18,实体详情信息展示模块19;
待查询实体识别模块15,用于获取信息查询平台中的查询文本数据,获取查询文本数据中所包含的待查询实体;
特征表示模块16,用于通过目标实体召回模型,输出待查询实体对应的查询实体表示特征,以及实体知识库中的样本实体分别对应的样本实体表示特征;
候选实体召回模块17,用于根据查询实体表示特征与样本实体表示特征之间的特征相似度,在实体知识库中获取与待查询实体相关联的K个候选实体;K为正整数;
链接实体确定模块18,用于获取K个候选实体分别对应的推送评估值,在K个候选实体中将最大的推送评估值所对应的候选实体,确定为待查询实体对应的链接实体。
实体详情信息展示模块19,用于获取链接实体所对应的实体详情信息,将实体详情信息作为查询文本数据的查询结果推送至信息查询平台,在信息查询平台中展示查询结果。
其中,待查询实体识别模块15,特征表示模块16,候选实体召回模块17,链接实体确定模块18,实体详情信息展示模块19的具体功能实现方式可以参见上述图3所对应实施例中的步骤S104,这里不再进行赘述。
本本申请实施例中,通过初始实体召回模型可以确定样本查询实体对应的第一负样本,其中正样本为样本查询实体的标注实体,即正样本是已知的,第一负样本为实体知识库中实体相似度大于正样本的样本实体,即第一负样本与正样本相似,第二负样本为实体知识库中选取的样本实体,通过正样本、第一负样本、第二负样本对初始实体召回模型进行训练,使得训练完成的目标实体召回模型可以更好地区分相似的实体,进而可以提高目标实体召回模型的召回率;使用目标实体召回模型,可以对召回的候选实体数量进行限制的同时,还可以确保不会漏掉与查询文本数据相关联的候选实体,以减少实体消歧时长,进而可以提高实体链接服务的效率。
请参见图11,图11是本申请实施例提供的一种计算机设备的结构示意图。如图11所示,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,上述计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。可选的,网络接口1004可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器1005还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在如图11所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取包含样本查询实体的样本文本数据,在实体知识库中将样本查询实体对应的标注实体确定为正样本;
根据初始实体召回模型获取样本查询实体对应的第一实体表示特征,根据初始实体召回模型,获取实体知识库中的样本实体对应的第二实体表示特征;实体知识库中的样本实体包括正样本;
根据第一实体表示特征和样本实体对应的第二实体表示特征之间的实体相似度,在样本实体中获取样本查询实体对应的第一负样本;第一负样本对应的第二实体标识特征与第一实体表示特征之间的实体相似度,大于第一实体表示特征与正样本对应的第二实体表示特征之间的实体相似度;
在实体知识库中获取样本查询实体对应的第二负样本,根据正样本、第一负样本以及第二负样本,对初始实体召回模型的网络参数进行修正,将参数修正后的初始实体召回模型确定为目标实体召回模型;第二负样本属于实体知识库中除正样本和第一负样本之外的样本实体,目标实体召回模型用于从实体知识库中召回查询文本数据对应的候选实体。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3所对应实施例中对文本数据处理方法的描述,也可执行前文图10所对应实施例中对文本数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的文本数据处理装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3所对应实施例中对文本数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3所对应实施例中对文本数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。

Claims (14)

1.一种文本数据处理方法,其特征在于,包括:
获取包含样本查询实体的样本文本数据,在实体知识库中将所述样本查询实体对应的标注实体确定为正样本;
根据初始实体召回模型获取所述样本查询实体对应的第一实体表示特征,根据所述初始实体召回模型,获取所述实体知识库中的样本实体对应的第二实体表示特征;所述实体知识库中的样本实体包括所述正样本;
根据所述第一实体表示特征和所述样本实体对应的第二实体表示特征之间的实体相似度,在所述样本实体中获取所述样本查询实体对应的第一负样本;所述第一负样本对应的第二实体表示特征与所述第一实体表示特征之间的实体相似度,大于所述第一实体表示特征与所述正样本对应的第二实体表示特征之间的实体相似度;
在所述实体知识库中获取所述样本查询实体对应的第二负样本,根据所述正样本、所述第一负样本以及所述第二负样本,对所述初始实体召回模型的网络参数进行修正,将参数修正后的初始实体召回模型确定为目标实体召回模型;所述第二负样本属于所述实体知识库中除所述正样本和所述第一负样本之外的样本实体,所述目标实体召回模型用于从所述实体知识库中召回查询文本数据对应的候选实体。
2.根据权利要求1所述的方法,其特征在于,所述样本查询实体的数量为M个,M为正整数;
所述获取包含样本查询实体的样本文本数据,在实体知识库中将所述样本查询实体对应的标注实体确定为正样本,包括:
获取所述样本文本数据,根据所述样本文本数据携带的位置标识信息,在所述样本文本数据中获取M个样本查询实体;
根据所述样本文本数据携带的实体标识信息,在所述实体知识库中分别获取与所述M个样本查询实体相匹配的标注实体,将所述标注实体确定为所述M个样本查询实体分别对应的正样本。
3.根据权利要求1所述的方法,其特征在于,所述实体知识库包括N个样本实体,N为正整数;
所述根据初始实体召回模型获取所述样本查询实体对应的第一实体表示特征,根据所述初始实体召回模型,获取所述实体知识库中的样本实体对应的第二实体表示特征,包括:
将所述样本文本数据输入至所述初始实体召回模型中的第一文本编码组件,通过所述第一文本编码组件生成所述样本查询实体对应的第一实体表示特征;
将所述实体知识库中的N个样本实体依次输入至所述初始实体召回模型中的第二文本编码组件,通过所述第二文本编码组件生成所述N个样本实体分别对应的第二实体表示特征。
4.根据权利要求3所述的方法,其特征在于,所述将所述样本文本数据输入至所述初始实体召回模型中的第一文本编码组件,通过所述第一文本编码组件生成所述样本查询实体对应的第一实体表示特征,包括:
将所述样本文本数据划分为D个单位字符,获取所述D个单位字符分别对应的第一单位词向量;D为正整数;
根据所述D个单位字符在所述样本文本数据中的语义信息,获取所述D个单位字符分别对应的第一文本向量;
根据所述D个单位字符在所述样本文本数据中的文本位置,获取所述D个单位字符分别对应的第一位置向量;
将所述第一单位词向量、所述第一文本向量以及所述第一位置向量进行叠加,得到第一输入表示特征;
将所述第一输入表示特征输入至所述初始实体召回模型中的第一文本编码组件,根据所述第一文本编码组件对所述第一输入表示特征进行文本编码,生成所述样本查询实体对应的第一实体表示特征。
5.根据权利要求3所述的方法,其特征在于,所述将所述实体知识库中的N个样本实体依次输入至所述初始实体召回模型中的第二文本编码组件,通过所述第二文本编码组件生成所述N个样本实体分别对应的第二实体表示特征,包括:
获取所述实体知识库中的N个样本实体分别对应的第二单位词向量、第二文本向量以及第二位置向量,将所述第二单位词向量、所述第二文本向量以及所述第二位置向量进行叠加,得到第二输入表示特征;
将所述第二输入表示特征输入至所述初始实体召回模型中的第二文本编码组件,根据所述第二文本编码组件对所述第二输入表示特征进行文本编码,生成所述N个样本实体分别对应的第二实体表示特征;
为N个第二实体表示特征建立索引信息,将所述N个第二实体表示特征分别对应的索引信息添加至索引数据库。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一实体表示特征和所述样本实体对应的第二实体表示特征之间的实体相似度,在所述样本实体中获取所述样本查询实体对应的第一负样本,包括:
根据所述第一实体表示特征分别与所述N个样本实体对应的第二实体表示特征之间的点积结果,获取所述第一实体表示特征分别与N个第二实体表示特征之间的实体相似度;
根据所述实体相似度,在所述索引数据库中查找与所述第一实体表示特征相匹配的相似索引信息,在所述N个第二实体表示特征中获取所述相似索引信息关联的相似实体表示特征;
将所述第一实体表示特征与所述标注实体对应的第二实体表示特征之间的实体相似度确定为阈值相似度,将实体相似度大于所述阈值相似度的相似实体表示特征所对应的样本实体,确定为所述样本查询实体对应的第一负样本。
7.根据权利要求1所述的方法,其特征在于,所述实体知识库包括N个样本实体,N为正整数;
所述在所述实体知识库中获取所述样本查询实体对应的第二负样本,包括:
统计所述第一负样本对应的第一样本数量,根据负样本比例值和所述第一样本数量,确定第二样本数量;
在所述实体知识库所包含的所述N个样本实体中,获取满足所述第二样本数量的第二负样本。
8.根据权利要求1所述的方法,其特征在于,所述根据所述正样本、所述第一负样本以及所述第二负样本,对所述初始实体召回模型的网络参数进行修正,将参数修正后的初始实体召回模型确定为目标实体召回模型,包括:
将所述正样本和所述第一负样本组合为第一训练数据,获取所述第一训练数据对应的第一判别结果;
将所述正样本和所述第二负样本组合为第二训练数据,获取所述第二训练数据对应的第二判别结果;
根据所述第一判别结果和所述第二判别结果,对所述初始实体召回模型的网络参数进行修正,将参数修正后的初始实体召回模型确定为目标实体召回模型。
9.根据权利要求8所述的方法,其特征在于,所述根据所述第一判别结果和所述第二判别结果,对所述初始实体召回模型的网络参数进行修正,将参数修正后的初始实体召回模型确定为目标实体召回模型,包括:
根据所述第一判别结果和所述第二判别结果,确定所述初始实体召回模型对应的模型损失函数;
根据所述模型损失函数对所述初始实体召回模型的网络参数进行修正,当所述初始实体召回模型对应的训练次数满足训练终止条件时,将满足所述训练终止条件的初始实体召回模型确定为目标实体召回模型。
10.根据权利要求1所述的方法,其特征在于,还包括:
获取信息查询平台中的查询文本数据,获取所述查询文本数据中所包含的待查询实体;
通过所述目标实体召回模型,输出所述待查询实体对应的查询实体表示特征,以及所述实体知识库中的样本实体分别对应的样本实体表示特征;
根据所述查询实体表示特征与所述样本实体表示特征之间的特征相似度,在所述实体知识库中获取与所述待查询实体相关联的K个候选实体;K为正整数;
获取所述K个候选实体分别对应的推送评估值,在所述K个候选实体中将最大的推送评估值所对应的候选实体,确定为所述待查询实体对应的链接实体。
11.根据权利要求10所述的方法,其特征在于,还包括:
获取所述链接实体所对应的实体详情信息,将所述实体详情信息作为所述查询文本数据的查询结果推送至所述信息查询平台,在所述信息查询平台中展示所述查询结果。
12.一种文本数据处理装置,其特征在于,包括:
样本数据获取模块,用于获取包含样本查询实体的样本文本数据,在实体知识库中将所述样本查询实体对应的标注实体确定为正样本;
实体表示模块,用于根据初始实体召回模型获取所述样本查询实体对应的第一实体表示特征,根据所述初始实体召回模型,获取所述实体知识库中的样本实体对应的第二实体表示特征;所述实体知识库中的样本实体包括所述正样本;
负样本确定模块,用于根据所述第一实体表示特征和所述样本实体对应的第二实体表示特征之间的实体相似度,在所述样本实体中获取所述样本查询实体对应的第一负样本;所述第一负样本对应的第二实体表示特征与所述第一实体表示特征之间的实体相似度,大于所述第一实体表示特征与所述正样本对应的第二实体表示特征之间的实体相似度;
参数修正模块,用于在所述实体知识库中获取所述样本查询实体对应的第二负样本,根据所述正样本、所述第一负样本以及所述第二负样本,对所述初始实体召回模型的网络参数进行修正,将参数修正后的初始实体召回模型确定为目标实体召回模型;所述第二负样本属于所述实体知识库中除所述正样本和所述第一负样本之外的样本实体,所述目标实体召回模型用于从所述实体知识库中召回查询文本数据对应的候选实体。
13.一种计算机设备,其特征在于,包括存储器和处理器;
所述存储器与所述处理器相连,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-11任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-11任一项所述的方法。
CN202110567596.3A 2021-05-24 2021-05-24 文本数据处理方法、装置、设备以及介质 Pending CN113761105A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110567596.3A CN113761105A (zh) 2021-05-24 2021-05-24 文本数据处理方法、装置、设备以及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110567596.3A CN113761105A (zh) 2021-05-24 2021-05-24 文本数据处理方法、装置、设备以及介质

Publications (1)

Publication Number Publication Date
CN113761105A true CN113761105A (zh) 2021-12-07

Family

ID=78787194

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110567596.3A Pending CN113761105A (zh) 2021-05-24 2021-05-24 文本数据处理方法、装置、设备以及介质

Country Status (1)

Country Link
CN (1) CN113761105A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114020974A (zh) * 2022-01-04 2022-02-08 阿里巴巴达摩院(杭州)科技有限公司 样本数据确定及对话意图识别方法、存储介质及程序产品
CN114416941A (zh) * 2021-12-28 2022-04-29 北京百度网讯科技有限公司 融合知识图谱的对话知识点确定模型的生成方法及装置
CN116523024A (zh) * 2023-07-03 2023-08-01 腾讯科技(深圳)有限公司 召回模型的训练方法、装置、设备及存储介质
CN114595697B (zh) * 2022-03-14 2024-04-05 京东科技信息技术有限公司 用于生成预标注样本的方法、装置、服务器和介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114416941A (zh) * 2021-12-28 2022-04-29 北京百度网讯科技有限公司 融合知识图谱的对话知识点确定模型的生成方法及装置
CN114416941B (zh) * 2021-12-28 2023-09-05 北京百度网讯科技有限公司 融合知识图谱的对话知识点确定模型的生成方法及装置
CN114020974A (zh) * 2022-01-04 2022-02-08 阿里巴巴达摩院(杭州)科技有限公司 样本数据确定及对话意图识别方法、存储介质及程序产品
CN114020974B (zh) * 2022-01-04 2022-06-21 阿里巴巴达摩院(杭州)科技有限公司 样本数据确定及对话意图识别方法、存储介质及程序产品
CN114595697B (zh) * 2022-03-14 2024-04-05 京东科技信息技术有限公司 用于生成预标注样本的方法、装置、服务器和介质
CN116523024A (zh) * 2023-07-03 2023-08-01 腾讯科技(深圳)有限公司 召回模型的训练方法、装置、设备及存储介质
CN116523024B (zh) * 2023-07-03 2023-10-13 腾讯科技(深圳)有限公司 召回模型的训练方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN111625635B (zh) 问答处理方法、装置、设备及存储介质
CN112199375B (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN111858954B (zh) 面向任务的文本生成图像网络模型
CN110781347A (zh) 一种视频处理方法、装置、设备以及可读存储介质
CN113761105A (zh) 文本数据处理方法、装置、设备以及介质
CN111444326B (zh) 一种文本数据处理方法、装置、设备以及存储介质
CN110097094B (zh) 一种面向人物交互的多重语义融合少样本分类方法
CN113395578B (zh) 一种提取视频主题文本的方法、装置、设备及存储介质
CN112738556B (zh) 视频处理方法及装置
CN109829478B (zh) 一种基于变分自编码器的问题分类方法和装置
CN113298151A (zh) 一种基于多级特征融合的遥感图像语义描述方法
CN113705313A (zh) 文本识别方法、装置、设备及介质
Xu et al. Multi-modal transformer with global-local alignment for composed query image retrieval
CN112163560A (zh) 一种视频信息处理方法、装置、电子设备及存储介质
Zhang et al. Online modeling of esthetic communities using deep perception graph analytics
CN116091836A (zh) 一种多模态视觉语言理解与定位方法、装置、终端及介质
CN111444695A (zh) 基于人工智能的文本生成方法、装置、设备及存储介质
CN115131801A (zh) 基于多模态的文档识别方法、装置、设备和存储介质
CN110659392A (zh) 检索方法及装置、存储介质
Lu et al. Web multimedia object classification using cross-domain correlation knowledge
CN116186310B (zh) 一种融合ai通用助手的ar空间标注及展示方法
CN113761887A (zh) 基于文本处理的匹配方法、装置、计算机设备和存储介质
Saleem et al. Stateful human-centered visual captioning system to aid video surveillance
CN109299777B (zh) 一种基于人工智能的数据处理方法及其系统
CN110851629A (zh) 一种图像检索的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination