CN114416929A - 实体召回模型的样本生成方法、装置、设备及存储介质 - Google Patents
实体召回模型的样本生成方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114416929A CN114416929A CN202210100895.0A CN202210100895A CN114416929A CN 114416929 A CN114416929 A CN 114416929A CN 202210100895 A CN202210100895 A CN 202210100895A CN 114416929 A CN114416929 A CN 114416929A
- Authority
- CN
- China
- Prior art keywords
- entity
- query
- query text
- text corpus
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种实体召回模型的样本生成方法、装置、设备及存储介质,属于人工智能技术领域。所述方法包括:获取属于同一目标领域的多个查询文本语料,以及多个查询文本语料分别对应的应答文本语料;从查询文本语料对应的应答文本语料中,提取满足第一条件的至少一个实体,得到查询文本语料对应的实体集合;对于多个查询文本语料中的第一查询文本语料,基于第一查询文本语料以及第一实体集合,生成第一实体召回模型的训练样本正例;基于第一查询文本语料,以及第二实体集合,生成第一实体召回模型的训练样本负例。本申请实现训练样本正例和训练样本负例的自动生成,提高实体召回模型的训练效率。
Description
技术领域
本申请涉及人工智能技术领域,特别涉及一种实体召回模型的样本生成方法、装置、设备及存储介质。
背景技术
目前,用户可以通过搜索引擎进行搜索以获取相关的应答文本。
在相关技术中,在获取用户帐号输入的查询文本之后,通过分类模型对该查询文本进行处理,以得到该查询文本对应的实体,并以该实体为索引确定查询文本对应的一个或多个应答文本。其中,上述分类模型是基于人工标注的有监督训练样本训练得到的。
在分类模型训练之前,需要人工对不同类别的训练样本进行准确标注,且一个实体对应一个类别,标注速度慢,导致模型训练效率低。
发明内容
本申请实施例提供了一种实体召回模型的样本生成方法、装置、设备及存储介质,能够提高实体召回模型的训练样本生成效率,提高实体召回模型的训练效率。所述技术方案如下。
根据本申请实施例的一个方面,提供了一种实体召回模型的样本生成方法,所述方法包括以下步骤:
获取属于同一目标领域的多个查询文本语料,以及多个所述查询文本语料分别对应的应答文本语料;
从所述查询文本语料对应的应答文本语料中,提取满足第一条件的至少一个实体,得到所述查询文本语料对应的实体集合;
对于多个所述查询文本语料中的第一查询文本语料,基于所述第一查询文本语料以及第一实体集合,生成所述第一实体召回模型的训练样本正例;其中,所述第一实体集合是指所述第一查询文本语料对应的实体集合;
基于所述第一查询文本语料以及第二实体集合,生成所述第一实体召回模型的训练样本负例;其中,所述第二实体集合是指第二查询文本语料对应的实体集合,所述第二查询文本语料是多个所述查询文本语料中,除所述第一查询文本语料之外的查询文本语料;
其中,所述训练样本正例和所述训练样本负例用于对所述第一实体召回模型进行训练,完成训练的所述第一实体召回模型用于确定属于所述目标领域的目标查询文本与目标实体之间的语义匹配度。
根据本申请实施例的一个方面,提供了一种搜索方法,所述方法包括以下步骤:
获取属于目标领域的目标查询文本;
采用第一实体召回模型,分别获取所述目标查询文本与实体库中各个查询实体之间的语义匹配度;其中,实体库包括属于所述目标领域的多个查询实体;
根据所述语义匹配度满足目标条件的查询实体,生成所述目标查询文本对应的至少一个候选实体;
采用第二实体召回模型,对至少一个对应组进行处理,得到各个所述对应组的关系判别结果;其中,一个所述对应组包括所述目标查询文本和一个所述候选实体;
基于所述关系判别结果,从所述至少一个候选实体中确定所述目标查询文本对应的召回实体;
根据所述目标查询文本对应的召回实体,从文本数据库中搜索得到所述目标查询文本对应的至少一个应答文本。
根据本申请实施例的一个方面,提供了一种实体召回模型的样本生成装置,所述装置包括以下模块:
语料获取模块,用于获取属于同一目标领域的多个查询文本语料,以及多个所述查询文本语料分别对应的应答文本语料;
实体获取模块,用于从所述查询文本语料对应的应答文本语料中,提取满足第一条件的至少一个实体,得到所述查询文本语料对应的实体集合;
正例生成模块,用于对于多个所述查询文本语料中的第一查询文本语料,基于所述第一查询文本语料以及第一实体集合,生成所述第一实体召回模型的训练样本正例;其中,所述第一实体集合是指所述第一查询文本语料对应的实体集合;
负例生成模块,用于基于所述第一查询文本语料以及第二实体集合,生成所述第一实体召回模型的训练样本负例;其中,所述第二实体集合是指第二查询文本语料对应的实体集合,所述第二查询文本语料是多个所述查询文本语料中,除所述第一查询文本语料之外的查询文本语料;
其中,所述训练样本正例和所述训练样本负例用于对所述第一实体召回模型进行训练,完成训练的所述第一实体召回模型用于确定属于所述目标领域的目标查询文本与目标实体之间的语义匹配度。
根据本申请实施例的一个方面,提供了一种搜索装置,所述装置包括以下模块:
文本获取模块,用于获取属于目标领域的目标查询文本;
匹配获取模块,用于采用第一实体召回模型,分别获取所述目标查询文本与实体库中各个查询实体之间的语义匹配度;其中,实体库包括属于所述目标领域的多个查询实体;
实体生成模块,用于根据所述语义匹配度满足目标条件的查询实体,生成所述目标查询文本对应的至少一个候选实体;
结果获取模块,用于采用第二实体召回模型,对至少一个对应组进行处理,得到各个所述对应组的关系判别结果;其中,一个所述对应组包括所述目标查询文本和一个所述候选实体;
实体确定模块,用于基于所述关系判别结果,从所述至少一个候选实体中确定所述目标查询文本对应的召回实体;
文本检索模块,用于根据所述目标查询文本对应的召回实体,从文本数据库中搜索得到所述目标查询文本对应的至少一个应答文本。
根据本申请实施例的一个方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述实体召回模型的样本生成方法,或实现上述搜索方法。
根据本申请实施例的一个方面,本申请实施例提供了一种计算机可读存储介质,所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述实体召回模型的样本生成方法,或实现上述搜索方法。
根据本申请实施例的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实体召回模型的样本生成方法,或实现上述搜索方法。
本申请实施例提供的技术方案可以带来如下有益效果:
通过第一查询文本语料、第一实体集合,生成第一实体召回模型的训练样本正例,通过第一查询文本语料、第二实体集合,生成第一实体召回模型的训练样本负例,且实体集合是从已有的应答文本语料中提取得到的,实现训练样本正例和训练样本负例的自动生成,不需要人工对第一查询文本语料对应的实体进行标注,提高第一实体召回模型的训练样本生成效率,提高后续第一实体召回模型的训练效率;而且,应答文本语料与查询文本语料之间具有对应关系,从查询文本语料对应的应答文本语料中提取得到查询文本语料对应的实体集合,提高实体集合获取的准确性,进而提高第一实体召回模型的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一个实施例提供的实体召回模型的样本生成系统的示意图;
图2示例性示出了一种实体召回模型的样本生成系统的示意图;
图3是本申请一个实施例提供的实体召回系统的示意图;
图4示例性示出了一种实体召回系统的示意图;
图5是本申请一个实施例提供的实体召回模型的样本生成方法的流程图;
图6示例性示出了一种实体集合获取方式的示意图;
图7是本申请另一个实施例提供的实体召回模型的样本生成方法的流程图;
图8示例性示出了一种第一实体召回模型在训练过程中数据处理方式的示意图;
图9示例性示出了一种第二实体召回模型的训练方式的示意图;
图10示例性示出了一种第二实体召回模型在训练过程中数据处理方式的示意图;
图11示例性示出了一种医疗领域中实体召回模型的训练方式的流程的示意图;
图12是本申请一个实施例提供的搜索方法的流程图;
图13示例性示出了一种第一实体召回模型的示意图;
图14是本申请一个实施例提供的实体召回模型的样本生成装置的框图;
图15是本申请另一个实施例提供的实体召回模型的样本生成装置的框图;
图16是本申请一个实施例提供的搜索装置的框图;
图17是本申请另一个实施例提供的搜索装置的框图;
图18是本申请一个实施例提供的计算机设备的结构框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请中实体召回模型的样本生成方法、搜索方法涉及以下技术:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的机器学习等技术,下面,结合几个实施例对本申请技术方案进行介绍说明。
请参考图1,其示出了本申请一个实施例提供的实体召回模型的样本生成系统的示意图。该实体召回模型的样本生成系统可以包括:第一设备10和第二设备20。
第一设备10用于提供模型训练所需的数据。可选地,第一设备10为任意具有数据收集和数据上传功能的设备,如手机、平板电脑、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备、PC(Personal Computer,个人计算机)、智能语音交互设备、智能家电、车载终端、客户端后台服务器等电子设备,本申请实施例对此不作限定。
第二设备20用于训练模型。可选地,第二设备20可以是服务器、计算机设备、PC等电子设备,本申请实施例对此不作限定。其中,上述服务器可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。
上述第一设备10与上述第二设备20之间通过网络进行数据传输。
可选地,在本申请实施例中,上述模型是指实体召回模型,该实体召回模型包括第一实体召回模型和第二实体召回模型。其中,第一实体召回模型用于确定目标查询文本与实体库中的各个查询实体的语义匹配度;第二实体召回模型用于确定目标查询文本与各个候选实体之间的对应关系是否准确,该候选实体是依据语义匹配度确定的。
示例性地,如图2所示,第一设备10收集多个查询文本语料,以及各个查询文本语料分别对应的应答文本语料,并将多个查询文本语料和多个应答文本语料发送至第二设备20。进一步地,对于上述多个查询文本语料中的每一个查询文本语料,第二设备20从应答文本语料中获取查询文本语料对应的实体集合,并基于查询文本语料对应的实体集合生成第一实体召回模型的训练样本正例,基于其它查询文本语料对应的实体集合生成第一实体召回模型的训练样本负例,进而基于训练样本正例与训练样本负例对第一实体召回模型进行训练。而且,第二设备20在获取上述查询文本语料对应的实体集合之后,获取查询文本语料对应的第一标签和第二标签,并以查询文本语料、查询文本语料对应的实体集合和第一标签对第二实体召回模型进行第一任务训练,以查询文本语料和第二标签对第二实体召回模型进行第二任务训练。其中,上述第一标签用于指示查询文本语料与某个实体之间的对应关系是否准确,该实体是指查询文本语料对应的实体集合中的任一实体,一个实体对应有一个第一标签;上述第二标签用于指示查询文本语料中是否包括目标领域的特征文本。
可选地,上述第一设备10和上述第二设备20可以为同一设备,也可以为不同的设备,本申请实施例对此不作限定。
需要说明的一点是,上述图2的介绍只是示例性和解释性的,在示例性实施例,可以对第一设备10和第二设备20的功能进行灵活设置和调整,本申请实施例对此不作限定。示例性地,第一设备10在获取查询文本语料和应答文本语料之后,生成训练样本正例和训练样本负例,进而由第二设备20进行模型训练。
请参考图3,其示出了本申请一个实施例提供的实体召回系统的示意图。该实体召回系统可以包括:终端30和服务器40。
终端30包括但不限定于手机、平板电脑、游戏主机、电子书阅读器、多媒体播放设备、可穿戴设备、PC(Personal Computer,个人计算机)、智能语音交互设备、智能家电、车载终端等电子设备。终端30中可以包括应用程序的客户端。可选地,该应用程序可以是任意具有查询功能的应用程序,如搜索引擎、问题解答应用程序、社交应用程序等,本申请实施例对此不作限定。其中,上述应用程序可以是需要下载安装的应用程序,也可以是即点即用的应用程序,本申请实施例对此不作限定。
服务器40用于为终端30提供后台服务。服务器40可以是一台服务器,也可以是由多台服务器组成的服务器集群,或者是一个云计算服务中心。可选地,服务器40可以是上述应用程序的客户端的后台服务器。在示例性实施例中,服务器40为多个终端30提供后台服务。
上述终端30和上述服务器40通过网络进行互相通信。
可选地,在本申请实施例中,服务器40为终端30提供搜索功能。示例性地,如图4所示,终端30在检测到用户的查询操作时,将用户所查询的问题作为目标查询文本,并将该目标查询文本发送至服务器40;进一步地,服务器40在获取该目标查询文本之后,基于第一实体召回模型对目标查询文本进行处理,分别确定目标查询文本与实体库中的各个查询实体之间的语义匹配度,根据该语义匹配度选择与目标查询文本匹配的至少一个候选实体,进而基于第二实体召回模型对目标查询文本和候选实体进行处理,确定目标查询文本与候选实体之间是否具有准确的对应关系。若目标查询文本与候选实体之间具有准确的对应关系,则确定该候选实体为目标查询文本对应的召回实体,并根据该召回实体从文本数据库中获取目标查询文本对应的至少一个应答文本。之后,服务器40向终端30发送该至少一个应答文本,对应地,终端30在用户界面中向用户展示该至少一个应答文本。其中,上述文本数据库可以设置在服务器40中,也可以设置在其它设备中,本申请实施例对此不作限定。
可选地,上述服务器40与图1实施例中的第二设备20可以为相同的设备,本申请实施例对此不作限定。
需要说明的一点是,上述图4的介绍只是示例性和解释性的,在示例性实施例,可以对终端30和服务器40的功能进行灵活设置和调整,本申请实施例对此不作限定。示例性地,终端30在获取目标查询文本之后,基于第一实体召回模型和第二实体召回模型,确定目标查询文本对应的召回实体,进而通过服务器40从文本数据库中获取应答文本。
请参考图5,其示出了本申请一个实施例提供的实体召回模型的样本生成方法的流程图。该方法可应用于图1所示的实体召回模型的样本生成系统的第二设备20,如各步骤的执行主体可以是第二设备20(以下称为“计算机设备”)。该方法可以包括以下几个步骤(501~504)中的至少一个步骤:
步骤501,获取属于同一目标领域的多个查询文本语料,以及多个查询文本语料分别对应的应答文本语料。
目标领域用于指示实体召回模型的使用场景。示例性地,目标领域为医疗领域,实体召回模型的使用场景为病症描述检索场景。可选地,上述目标领域可以是大范围领域,如医疗领域、教育领域、交通领域等;或者,上述目标领域还可以是小范围领域,如眼科领域、耳鼻喉科领域、神经科领域等;本申请实施例对此不作限定。
查询文本语料是基于用户所提出的问题生成的文本语料。该查询文本语料也可以称为问题文本语料。可选地,在生成查询文本语料时,可以直接将问题作为查询文本语料,也可以对问题进行处理后生成查询文本语料。示例性地,若用户基于文本提出问题,则可以直接将问题文本作为上述查询文本语料;若用户基于图像提出问题,则对问题图像进行图文转换处理,以生成上述查询文本语料。需要说明的一点是,上述用户只是一个泛称。可选地,该用户可以为单个人、多人组成的团体、自动提出问题的人工智能等,本申请实施例对此不作限定。
应答文本语料是指针对查询文本语料的回答文本语料。在本申请实施例中,计算机设备获取属于同一目标领域的多个查询文本语料,以及多个查询文本语料分别对应的应答文本语料。可选地,各个领域的查询文本语料和应答文本语料预先存储在该领域对应的数据库中,计算机设备在获取目标领域的查询文本语料和该查询文本语料对应的应答文本语料时,可以直接从目标领域对应的数据库中的已存储数据中获取。当然,在示例性实施例,计算机设备也可以在确定生成实体召回模型的样本时,实时从数据上传设备中获取查询文本语料和该查询文本语料对应的应答文本语料。可选地,上述数据上传设备为图1实施例中的第一设备10。
可选地,在本申请实施例中,上述应答文本语料包括一个或多个针对查询文本语料的回答文本。
在一种可能的实施方式中,上述应答文本语料包括一个针对查询文本语料的回答文本。可选地,若查询文本语料对应有唯一的回答文本,则基于该唯一的回答文本生成上述应答文本语料;若查询文本语料对应有多个回答文本,则从该多个回答文本中选择一个回答文本生成上述应答文本语料。可选地,在对多个回答文本进行选择时,获取各个回答文本的可靠程度,依据可靠程度最高的回答文本生成上述应答文本语料。当然,在示例性实施例中,在对多个回答文本进行选择时,也可以随机从多个回答文本中选择一个回答文本,本申请实施例对此不作限定。
在另一种可能的实施方式中,上述应答文本语料包括多个针对查询文本语料的回答文本。可选地,在查询文本语料对应多个回答文本的情况下,对该多个回答文本进行拼接以生成上述应答文本语料;或者,在查询文本语料对应多个回答文本的情况下,基于各个回答文本的可靠程度,从该多个回答文本中选择可靠的回答文本进行拼接以生成上述应答文本语料。
可选地,上述可靠程序的影响因素包括但不限于以下至少一项:回答文本的数据量、回答文本的撰写者、回答文本的赞同数等。示例性地,以回答文本的数据量确定该回答文本的可靠程度,回答文本的数据量越多,则该回答文本越可靠;以回答文本的撰写者确定该回答文本的可靠程序,回答文本的撰写者为上述目标领域的专家,则该回答文本可靠;以回答文本的赞同数确定回答文本的可靠程度,回答文本的赞同数越多,则该回答文本越可靠,其中,用户可以通过点赞和/或撰写正面评论的方式来表达对回答文本的赞同。
可选地,在本申请实施例中,为了提高实体召回模型训练的准确性,计算机设备在获取查询文本语料时,从多个候选查询文本语料中,获取具有可靠的回答文本的候选查询文本语料作为上述查询文本语料。
步骤502,从查询文本语料对应的应答文本语料中,提取满足第一条件的至少一个实体,得到查询文本语料对应的实体集合。
在本申请实施例中,计算机设备在获取上述查询文本语料和应答文本语料之后,从查询文本语料对应的应答文本语料中,提取满足第一条件的至少一个实体,得到查询文本语料对应的实体集合。其中,查询文本语料对应的实体集合中包括至少一个实体,该实体可以称为查询文本语料对应的正例实体。
可选地,上述第一条件是基于实体与查询文本语料之间的关联度设定的。计算机设备在获取查询文本语料和该查询文本语料对应的应答文本语料之后,以第一条件为基准,从应答文本语料中,提取与查询文本语料所关联的至少一个实体,生成查询文本语料对应的实体集合。
查询文本语料对应的实体集合的获取方式在下文进行详细介绍,在此不作赘述。
步骤503,对于多个查询文本语料中的第一查询文本语料,基于第一查询文本语料以及第一实体集合,生成第一实体召回模型的训练样本正例。
在本申请实施例中,计算机设备在获取查询文本语料对应的实体集合之后,基于查询文本语料以及查询文本语料对应的实体集合,生成第一实体召回模型的训练样本正例。其中,完成训练的第一实体召回模型用于确定属于目标领域的目标查询文本与目标实体之间的语义匹配度,该语义匹配度用于指示目标查询文本与目标实体之间的相似度。可选地,语义匹配度越高,目标查询文本与目标实体之间的相似度越大;反之,语义匹配度越低,目标查询文本与目标实体之间的相似度越小。
以多个查询文本语料中的第一查询文本语料为例,在本申请实施例中,对于该第一查询文本语料,计算机设备基于第一查询文本语料以及第一实体集合,生成第一实体召回模型的训练样本正例。其中,第一实体集合是指第一查询文本语料对应的实体集合。
可选地,训练样本正例包括第一查询文本语料,以及第一实体集合中的至少一个实体。
在一种可能的实施方式中,训练样本正例包括第一查询文本语料,以及第一实体集合中的多个实体。可选地,计算机设备在获取第一实体集合之后,以设定数值为基准,基于第一查询文本语料以及第一实体集合,生成第一实体召回模型的训练样本正例。
可选地,上述设定数值可以为针对实体的设定数值,也可以为针对训练样本正例的设定数值。
在一种可能的实施方式中,设定数值为针对实体的设定数值,计算机设备在获取上述第一实体集合之后,以该设定数值为基准,对第一实体集合中的实体进行分组,得到至少一个实体组合,并根据该至少一个实体组合以及上述第一查询文本语料,生成训练样本正例;此时,一个训练样本正例中包括第一查询文本语料和一个实体组合,一个实体组合中包含的实体的数量即为上述设定数值。
在另一种可能的实施方式中,设定数值为针对训练样本正例的设定数值,则计算机设备在获取上述第一实体集合之后,以该设定数值为基准,结合第一实体集合包含的实体的数量,对第一实体集合中的实体进行分组,得到至少一个实体组合,并根据该至少一个实体组合以及上述第一查询文本语料,生成训练样本正例;此时,一个训练样本正例中包括第一查询文本语料和一个实体组合,且训练样本正例的数量即为上述设定数值。
可选地,上述设定数值可以为具体的数值,也可以是数值条件。示例性地,数值条件为:实体集合中的全部实体;或者,实体集合中的一半实体;或者,实体集合中的三分之一实体,本申请实施例对此不作限定。
在另一种可能的实施方式中,训练样本正例包括第一查询文本语料,以及第一实体集合中的一个实体。可选地,计算机设备在获取第一实体集合之后,基于第一查询文本语料以及第一实体集合中的全部或部分实体,生成第一实体召回模型的训练样本正例。
在一种可能的实施方式中,为了控制训练样本正例的数量以提高第一实体召回模型的训练速度,计算机设备基于第一查询文本语料以及第一实体集合中的部分实体,生成第一实体召回模型的训练样本正例。可选地,若第一实体集合中包含a个实体,则在获取上述训练样本正例时,基于第一查询文本语料以及c个实体,生成第一实体召回模型的c个训练样本正例。其中,c个训练样本正例中的一个训练样本正例,包括第一查询文本语料以及c个实体中的一个实体,a、c均为正整数,且a大于c。
在另一种可能的实施方式中,为了提高第一实体召回模型的准确性,计算机设备基于第一查询文本语料以及第一实体集合中的全部实体,生成第一实体召回模型的训练样本正例。可选地,若第一实体集合中包含a个实体,则在获取上述训练样本正例时,基于第一查询文本语料以及a个实体,生成第一实体召回模型的a个训练样本正例。其中,a个训练样本正例中的一个训练样本正例,包括第一查询文本语料以及a个实体中的一个实体,a为正整数。
需要说明的一点是,在本申请实施例中,第一查询文本语料与训练样本正例的实体之间的语义匹配度高。
步骤504,基于第一查询文本语料以及第二实体集合,生成第一实体召回模型的训练样本负例。
在本申请实施例中,计算机设备在获取查询文本语料对应的实体集合之后,基于查询文本语料,以及除该查询文本语料之外的其它查询文本语料对应的实体集合,生成第一实体召回模型的训练样本负例。
以多个查询文本语料中的第一查询文本语料为例,在本申请实施例中,对于该第一查询文本语料,计算机设备以第一查询文本语料以及第二实体集合,生成第一实体召回模型的训练负样本。其中,第二实体集合是指第二查询文本语料对应的实体集合;第二查询文本语料是上述多个查询文本语料中,除第一查询文本语料之外的查询文本语料。可选地,第二实体集合中包括至少一个实体,该实体可以称为第一查询文本语料对应的负例实体,也可以称为第二查询文本语料对应的正例实体。
在一种可能的实施方式中,为了控制训练样本正例的数量以提高第一实体召回模型的训练速度,计算机设备基于第一查询文本语料以及第二实体集合中的部分实体,生成第一实体召回模型的训练样本负例。可选地,若第二实体集合中包含b个实体,则在获取上述训练样本负例时,基于第一查询文本语料以及d个实体,生成第一实体召回模型的d个训练样本负例。其中,d个训练样本负例中的一个训练样本负例,包括第一查询文本语料以及d个实体中的一个实体,b、d均为正整数,且b大于d。
在另一种可能的实施方式中,为了提高第一实体召回模型的准确性,计算机设备基于第一查询文本语料以及第二实体集合中的全部实体,生成第一实体召回模型的训练样本负例。可选地,若第二实体集合中包含b个实体,则在获取上述训练样本负例时,基于第一查询文本语料以及b个实体,生成第一实体召回模型的b个训练样本负例。其中,b个训练样本负例中的一个训练样本负例,包括第一查询文本语料以及b个实体中的一个实体,b为正整数。
需要说明的一点是,在本申请实施例中,第一查询文本语料与训练样本负例的实体之间的语义匹配度低。
可选地,上述第二查询文本语料是上述多个查询文本语料中除第一查询文本语料的任意查询文本;或者,上述第二查询文本语料是基于各个查询文本语料对应的实体向量,从上述多个查询文本语料中选取的查询文本语料。
在一种可能的实施方式中,上述第二查询文本语料是上述多个查询文本语料中除第一查询文本语料的任意查询文本。可选地,计算机设备在获取上述第一查询文本语料之后,从多个查询文本语料中获取除第一查询文本语料之外的至少一个剩余查询文本语料,并从该至少一个剩余查询文本语料中随机选择第二查询文本语料。
在另一种可能的实施方式中,上述第二查询文本语料是基于各个查询文本语料对应的实体向量,从多个查询文本语料中选取的查询文本语料。可选地,计算机设备在获取上述第一实体集合之后,基于该第一实体集合,对各个其它查询文本语料对应的实体集合进行遍历,得到各个其它查询文本语料分别对应的实体重复结果;进一步地,根据实体重复结果,从各个其它查询文本语料中确定至少一个第二查询文本语料。其中,上述实体重复结果用于指示第一实体集合,与其它查询文本语料对应的实体集合之间相同实体的数量小于某个数值,该数据可以是任意数值,本申请实施例对此不作限定。可选地,为了提高第一实体召回模型的准确性,上述数值为零;即上述实体重复结果用于指示第一实体集合,与其它查询文本语料对应的实体集合之间不存在相同的实体;上述第二实体集合与第一实体集合之间不存在相同的实体。其中,上述其它查询文本语料是指上述多个查询文本语料中,除第一查询文本语料之外的查询文本语料。
可选地,在本申请实施例中,上述步骤503和上述步骤504可以同步执行。
综上所述,本申请实施例提供的技术方案中,通过第一查询文本语料、第一实体集合,生成第一实体召回模型的训练样本正例,通过第一查询文本语料、第二实体集合,生成第一实体召回模型的训练样本负例,且实体集合是从已有的应答文本语料中提取得到的,实现训练样本正例和训练样本负例的自动生成,不需要人工对第一查询文本语料对应的实体进行标注,提高第一实体召回模型的训练样本生成效率,提高后续第一实体召回模型的训练效率;而且,应答文本语料与查询文本语料之间具有对应关系,从查询文本语料对应的应答文本语料中提取得到查询文本语料对应的实体集合,提高实体集合获取的准确性,进而提高第一实体召回模型的准确性。
另外,第二实体集合与第一实体集合之间不存在相同的实体,在第一实体召回模型的训练过程中,不存在某个实体既存在于训练样本正例,又存在于训练样本负例的情况,提高生成的训练样本的准确性,进而提高第一实体召回模型的准确性。
下面,对查询文本语料对应的实体集合的获取方式进行介绍。
在示例性实施例中,上述步骤502包括以下至少一个步骤:
1、对查询文本语料对应的应答文本语料进行分词处理,得到至少一个分词;
2、基于目标领域的实体库的查询实体,从至少一个分词中确定满足第一条件的至少一个实体,得到查询文本语料对应的实体集合。
在本申请实施例中,计算机设备在获取查询文本语料和应答文本语料之后,对查询文本语料对应的应答文本语料进行分词处理,得到至少一个分词;进一步地,获取目标领域的实体库的查询实体,基于该查询实体,从上述至少一个分词中确定满足第一条件的至少一个实体。其中,实体库包括至少一个查询实体。
在一种可能的实施方式中,上述第一条件为:分词为查询实体。可选地,计算机设备在获取上述至少一个分词之后,基于实体库的查询实体,分别对各个分词进行遍历,确定该分词是否存在于实体库中。若该分词存在于实体库中,则确定该分词为查询实体,进而确定该分词满足上述第一条件;若该分词未存在于实体库中,则确定该分词不为查询实体,进而确定该分词不满足上述第一条件。
可选地,计算机设备在对各个分词进行遍历时,将分词与实体库中已有的查询实体逐一比较,若该分词为查询实体或查询实体的同义词,则确定该分词存在于实体库中。
在另一种可能的实施方式中,上述第一条件为:分词为应答文本语料中的重要查询实体。可选地,计算机设备在获取上述至少一个分词之后,从该至少一个分词中确定包含于实体库的分词,得到至少一个候选实体;进一步地,计算机设备分别获取各个候选实体在应答文本语料中的重要程度,并基于该重要程度满足第二条件的候选实体,得到查询文本语料对应的实体集合。其中,上述第二条件可以为重要程度大于第一阈值;或者,上述第二条件还可以为重要程度由高到低排序后,排列在前。
在一种可能的实施方式中,计算机设备在获取候选实体的重要程度时,获取该候选实体在上述至少一个分词中的出现次数,基于该出现次数确定候选实体在应答文本语料中的重要程度。其中,上述出现次数与上述重要程度呈正相关关系,出现次数越多,重要程度越高,出现次数越少,重要程度越低。
在另一种可能的实施方式中,计算机设备在获取候选实体的重要程度时,获取该候选实体在上述至少一个分词中的出现次数,以及该至少一个分词的总数量;进一步地,根据出现次数和总数量,确定候选实体在应答文本语料中的出现频率,并基于该出现频率确定候选实体在应答文本语料中的重要程度。可选地,上述出现频率是通过出现次数除以总数量得到的;对应地,上述出现频率与上述重要程度呈正相关关系,出现频率越大,重要程度越高,出现频率越小,重要程度越低。
在再一种可能的实施方式中,计算机设备在获取候选实体的重要程度时,获取该候选实体在上述至少一个分词中的出现次数,以及各个候选实体在至少一个分词中的出现总次数;进一步地,根据出现次数和出现总次数,确定候选实体在多个候选实体中的出现比例,并基于该出现比例确定候选实体在应答文本语料中的重要程度。可选地,上述出现比例是通过出现次数除以出现总次数得到的;对应地,上述出现比例与上述重要程度呈正相关关系,出现频率越大,重要程度越高,出现频率越小,重要程度越低。
需要说明的一点是,上述对重要程度获取方式的介绍只是示例性和解释性的,在示例性实施例中,可以通过出现次数、出现频率、出现比例中的一个或多个确定候选实体在应答文本语料中的重要程度。
示例性地,结合参考图6,对实体集合的获取方式进行完整介绍。对于查询文本语料61:26天新生儿吃母乳拉肚子,获取该查询文本语料61对应的应答文本语料62,并对应答文本语料62进行分词处理,得到至少一个分词63,进一步地,将实体库64的查询实体与该至少一个分词63进行比较,从该至少一个分词63中获取至少一个候选分词65,进而确定各个候选分词65在至少一个分词63中的出现次数,将出现次数大于一定数值的候选分词65确定为查询文本语料61对应的实体集合66。
可选地,实体库为用于存储查询实体的数据库,不同的领域对应有不同的实体库。在本申请实施例中,上述实体库包括属于目标领域的多个查询实体。在生成该实体库时,获取属于目标领域的至少一个候选查询实体,进而分别获取各个候选查询实体在历史查询数据中的查询次数,并基于查询次数满足第三条件的候选查询实体,生成实体库中的查询实体,进而生成上述实体库。其中,上述第三条件可以为查询次数大于第二阈值;或者,上述第三条件还可以为查询次数由高到低排序后,排列在前。可选地,在获取查询次数满足第三条件的候选查询实体之后,将该候选查询实体和候选查询实体的同义实体确定为实体库中的查询实体。
请参考图7,其示出了本申请另一个实施例提供的实体召回模型的样本生成方法的流程图。该方法可应用于图1所示的实体召回模型的样本生成系统的第二设备20,如各步骤的执行主体可以是第二设备20(以下称为“计算机设备”)。
该方法可以包括以下几个步骤(701~707)中的至少一个步骤:
步骤701,获取属于同一目标领域的多个查询文本语料,以及多个查询文本语料分别对应的应答文本语料。
步骤702,从查询文本语料对应的应答文本语料中,提取满足第一条件的至少一个实体,得到查询文本语料对应的实体集合。
步骤703,对于多个查询文本语料中的第一查询文本语料,基于第一查询文本语料以及第一实体集合,生成第一实体召回模型的训练样本正例。
步骤704,基于第一查询文本语料以及第二实体集合,生成第一实体召回模型的训练样本负例。
上述步骤701-704与图5实施例中的步骤501-504相同,具体参见图5实施例,在此不作赘述。
步骤705,将训练样本正例和训练样本负例分别输入至第一实体召回模型,得到第一实体召回模型针对第一查询文本语料的输出结果。
在本申请实施例中,计算机设备在获取上述训练样本正例和上述训练样本负例之后,将该训练样本正例和该训练样本负例分别输入至第一实体召回模型,得到第一实体召回模型针对第一查询文本语料的输出结果。
可选地,上述第一查询文本语料的输出结果包括各个正例实体分别对应的第一语义距离,以及各个负例实体分别对应的第二语义距离。在示例性实施例中,上述步骤705包括以下至少一个步骤:
1、获取第一查询文本语料的文本语义向量;以及,分别获取第一实体集合的各个正例实体的正例语义向量;以及,分别获取第二实体集合的各个负例实体的负例语义向量;
2、基于文本语义向量和正例语义向量,确定第一语义距离;
3、基于文本语义向量和负例语义向量,确定第二语义距离。
可选地,在本申请实施例中,第一实体召回模型在获取训练样本正例和训练样本负例之后,基于第一查询文本语料获取第一查询文本语料的文本语义向量;基于第一实体集合,分别获取第一实体集合的各个正例实体的正例语义向量;基于第二实体集合,分别获取第二实体集合的各个负例实体的负例语义向量。
可选地,在本申请实施例中,上述训练样本正例与上述训练样本负例中均包括第一查询文本语料,在这种情况下,第一实体召回模型对该第一查询文本语料处理一次即可获取上述文本语义向量。示例性地,第一实体召回模型在基于训练样本正例中的第一查询文本语料获取文本语义向量之后,在训练样本负例输入至第一实体召回模型时,直接根据之前获取的文本语义向量进行语义距离计算。
可选地,在本申请实施例中,计算机设备在获取上述文本语义向量、上述正例语义向量和上述负例语义向量之后,基于文本语义向量和正例语义向量,确定第一语义距离;以及,基于文本语义向量和负例语义向量,确定第二语义距离。
需要说明的一点是,在本申请实施例中,语义距离与语义匹配度呈负相关关系;即语义距离越小,语义匹配度越大;反之,语义距离越大,语义匹配度越小。在本申请实施例中,对第一实体召回模型进行训练的目的在于,使得上述第一语义距离尽可能小,并且,使得上述第二语义距离尽可能大。
以第一查询文本语料、一个正例实体、一个负例实体为例,结合参考图8,对第一实体召回模型在训练过程中的数据处理方式进行介绍。第一实体召回模型在获取第一查询文本语料之后,对该第一查询文本语料进行处理,获取第一查询文本语料的各个字的字向量、文本向量和位置向量。其中,字向量是指第一查询文本语料的字的编码向量,文本向量是根据第一查询文本语料的上下文内容获取的字的向量,位置向量用于指示字在第一查询文本语料中的位置特征。进一步地,基于上述字向量、文本向量和位置向量,生成第一查询文本语料的文本语义向量。类似地,第一实体召回模型在获取正例实体之后,对该正例实体进行处理,获取正例实体的各个字的字向量、文本向量和位置向量,进而获取正例实体的正例语义向量;第一实体召回模型在获取负例实体之后,对该负例实体进行处理,获取负例实体的各个字的字向量、文本向量和位置向量,进而获取负例实体的负例语义向量。之后,第一实体召回模型基于文本语义向量和正例语义向量获取第一语义距离,基于文本语义向量和负例语义向量获取第二语义距离。
需要说明的一点是,上述图8只是示例性和解释性的,在示例性实施例中,可以根据实际情况对第一查询文本语料、正例实体和负例实体的输入方式进行灵活设置和调整。示例性地,第一查询文本语料、正例实体和负例实体的输入方式为“[cls]第一查询文本语料[sep]正例实体[sep]负例实体[sep]”;或者,第一查询文本语料、正例实体和负例实体的输入方式为“[cls]第一查询文本语料[sep]正例实体[sep]、[cls]第一查询文本语料[sep]负例实体[sep]”;或者,第一查询文本语料、正例实体和负例实体的输入方式为“[cls]第一查询文本语料[sep]、[cls]正例实体[sep]、[cls]负例实体[sep]”;等等。
步骤706,基于多个查询文本语料的输出结果,确定第一实体召回模型的损失。
在本申请实施例中,计算机设备在获取多个查询文本语料的输出结果之后,基于该多个查询文本语料的输出结果,确定第一实体召回模型的损失。其中,该损失用于衡量第一实体召回模型的输出结果的准确性。
在示例性实施例中,上述步骤706包括以下至少一个步骤:
1、对第一实体集合的任一正例实体,与第二实体集合的任一负例实体进行组合,得到至少一个实体组;其中,一个实体组包括一个正例实体和一个负例实体;
2、对于至少一个实体组中的目标实体组,根据目标实体组中目标正例实体对应的第一语义距离,以及目标实体组中目标负例实体对应的第二语义距离,确定第一实体召回模型针对目标实体组的损失;
3、根据第一实体召回模型针对各个实体组的损失,确定第一实体召回模型针对第一查询文本语料的损失;
4、根据第一实体召回模型针对各个查询文本语料的损失,确定第一实体召回模型的损失。
可选地,在本申请实施例中,计算机设备在获取多个查询文本语料的输出结果之后,对各个正例实体和各个负例实体两两匹配,得到至少一个实体组;进一步地,以实体组为单位,根据实体组中正例实体对应的第一语义距离,以及实体组中负例实体对应的第二语义距离,分别确定第一实体召回模型针对各个实体组的损失。之后,根据各个实体组的损失,确定第一实体召回模型针对查询文本语料的损失,并根据第一实体召回模型针对各个查询文本语料的损失,确定第一实体召回模型的损失。
示例性地,假设第一查询文本语料为q,对于至少一个实体组中的目标实体组,目标实体组中目标正例实体为r1,目标实体组中目标负例实体为r2,则第一实体召回模型针对目标实体组的损失L11为:
L11=max(0,m十d(q,r2)-d(q,r1));
其中,d(q,r1)表示第一语义距离;d(q,r2)表示第二语义距离;m代表第一实体召回模型训练完成后,第一语义距离和第二语义距离之间的最大距离;
第一实体召回模型针对第一查询文本语料的损失L1为:
L1=L11十L12十·.....+L1n;
其中,L12……L1n表示第一查询文本语料对应的多个实体组中,除目标实体组之外,各个实体组分别对应的损失;
第一实体召回模型的损失L为:
L=(L1十L2十......十Lx)/x;
其中,L2……Lx表示除第一查询文本语料之外,各个查询文本语料分别对应的损失。
步骤707,根据第一实体召回模型的损失对第一实体召回模型进行参数调整。
在本申请实施例中,计算机设备在获取上述第一实体召回模型的损失之后,根据该损失对第一实体召回模型进行参数调整,进一步地,继续对参数调整后的第一实体召回模型进行训练,得到新的损失并继续进行参数调整,直至得到的损失收敛。
综上所述,本申请实施例提供的技术方案中,通过自动生成的训练样本正例和训练样本负例,对第一实体召回模型进行训练,提高第一实体召回模型的训练效率。
另外,一个训练样本正例包括第一查询文本语料,以及第一实体集合中的一个实体;一个训练样本负例包括第一查询文本语料,以及第二实体集合中的一个实体;在第一实体召回模型的训练过程中,训练样本正例的全部内容,以及训练样本负例的全部内容均会输入至第一实体召回模型,第一实体召回模型在训练过程中可以从查询文本语料和实体两个方面进行学习,提高第一实体召回模型的准确性;然而,在相关技术的分类模型中,仅仅将查询文本语料的全部或部分内容输入至分类模型,将实体作为样本标签对分类模型的输出结果进行判断,分类模型在训练过程中,仅仅依靠查询文本语料的全部或部分内容进行学习,分类模型的准确性低于本申请中的第一实体召回模型的准确性。
可选地,在本申请实施例中,实体召回模型包括第一实体召回模型和第二实体召回模型。请参考图9,第二实体召回模型的训练方式包括以下至少一个步骤:
步骤901,获取针对第二实体召回模型的第一训练样本集合。
可选地,第二实体召回模型具有关系判别功能,该关系判别功能用于判别目标查询文本与目标实体之间的对应关系是否准确。
在本申请实施例中,计算机设备在对第二实体召回模型进行训练之前,获取针对第二实体召回模型的第一训练样本集合。其中,该第一训练样本集合中的一个第一训练样本,包括训练文本语料、训练文本语料对应的一个样本实体和样本实体对应的第一标签,该第一标签用于指示训练文本语料与样本实体之间的对应关系是否准确。
示例性地,第一训练样本集合包含的内容如下表一所示:
表一第一训练样本集合
训练文本语料 | 样本实体 | 第一标签 | |
第一训练样本1 | 腰抽筋一样疼 | 腰痛 | 1 |
第一训练样本2 | 看东西也模糊 | 视物模糊 | 1 |
第一训练样本3 | 月经期会延长 | 月经推迟 | 0 |
第一训练样本4 | 上腹部胀胀 | 下腹涨 | 0 |
其中,在上述表一中,第一标签“1”表示训练文本语料与样本实体之间的对应关系准确,第一标签“0”表示训练文本语料与样本实体之间的对应关系不准确。
在一种可能的实施方式中,上述训练文本语料为上述查询文本语料,上述样本实体为上述查询文本语料对应的实体集合中的任一实体。可选地,计算机设备在获取训练样本正例之后,将该训练样本正例的查询文本语料确定为训练文本语料,将该训练样本正例的实体确定为样本实体,进而生成上述第一训练样本集合。
在另一种可能的实施方式中,上述训练文本语料为上述查询文本语料;上述样本实体为基于完成训练后的第一实体召回模型针对该查询文本语料的处理结果,确定的一个实体。可选地,计算机设备在第一实体召回模型训练完成之后,采用该第一实体召回模型对查询文本语料进行处理,进而根据该第一实体召回模型的输出结果,确定该查询文本语料对应的至少一个实体,从该至少一个实体中选取一个实体作为上述样本实体,进而生成上述第一训练样本集合。
可选地,上述第一训练样本集合中可以包括重复的训练文本语料,但该第一训练样本集合中不包括重复的样本实体;也就是说,在该第一训练样本集合中,同一训练文本语料可以对应不同的样本实体。
步骤902,基于第一训练样本集合中的各个第一训练样本,对第二实体召回模型进行第一任务训练,得到第二实体召回模型的第一损失。
在本申请实施例中,计算机设备在获取上述第一训练样本集合之后,基于该第一训练样本集合中的各个第一训练样本,对第二实体召回模型进行第一任务训练,得到第二实体召回模型的第一损失。其中,该第一损失用于衡量第二实体召回模型的关系判别功能的准确性。
可选地,在获取上述第一损失时,计算机设备获取训练文本语料的文本语义向量,以及训练文本语料对应的样本实体的实体语义向量;进一步地,根据文本语义向量和实体语义向量,生成第二实体召回模型针对各个第一训练样本的第一判别结果。其中,该第一判别结果是指训练文本语料,与训练文本语料对应的样本实体之间的对应关系准确的概率。之后,计算机设备基于各个第一训练样本语料的第一判别结果,以及各个第一训练样本的第一标签,确定上述第一损失。
步骤903,根据第一损失对第二实体召回模型进行参数调整。
在本申请实施例中,计算机设备在获取上述第一损失之后,根据该第一损失对第二实体召回模型进行参数调整,进一步地,继续对参数调整后的第二实体召回模型进行训练,得到新的第一损失并继续进行参数调整,直至得到的第一损失收敛。
综上所述,本申请实施例提供的技术方案中,通过第一训练样本集合对第二实体召回模型进行训练,且该第二实体召回模型能够判别目标查询文本与目标实体之间的对应关系是否准确,即通过第二实体召回模型能够对第一实体召回模型得到的实体进行判别,以确定第一实体召回模型得到的实体与目标查询文本之间的对应关系是否准确,提高实体召回的准确率。
另外,在相关技术的分类模型中,需要标注各个训练样本对应的实体类别,且一个实体对应一个实体类别,所需标注的类别数量多;而在本申请实施例提供的技术方案中,第一标签用于指示训练文本语料与样本实体之间的对应关系是否准确,对训练文本语料与样本实体之间的对应关系进行标注,所需标注的类别只有准确和不准确两种,有利于提高标注速率,提高第二实体召回模型的第一训练样本的生成效率,进而提高第二实体召回模型的训练效率。而且,在第二实体召回模型的训练过程中,将训练文本语料与样本实体均输入至第二实体召回模型中,使得第二实体召回模型可以从训练文本语料和样本实体两个方面进行学习,提高第二实体召回模型的准确性。
可选地,在本申请实施例中,上述第二实体召回模型还具有特征判别功能,该特征判别功能用于判别目标查询文本中是否包括目标领域的特征文本。在示例性实施例中,第二实体召回模型的训练方式还包括以下至少一个步骤:
1、获取针对第二实体召回模型的第二训练样本集合。
在本申请实施例中,计算机设备在对第二实体召回模型进行训练之前,获取针对第二实体召回模型的第二训练样本集合。其中,该第二训练样本集合中的一个第二训练样本,包括训练文本语料和训练文本语料对应的第二标签,该第二标签用于指示训练文本语料是否包含目标领域的特征文本。
可选地,第一训练样本集合的训练文本语料,与第二训练样本集合的训练文本语料相同。
可选地,在本申请实施例中,计算机设备在获取上述第二训练样本集合之后,采用该第二训练样本集合对第二实体召回模型进行第二任务训练。
2、获取训练文本语料的文本语义向量。
在本申请实施例中,计算机设备在获取上述第二训练样本集合之后,分别获取第二训练样本集合的各个训练文本语料的文本语义向量。
3、根据文本语义向量,生成第二实体召回模型针对训练文本语料的第二判别结果。
在本申请实施例中,计算机设备在获取上述文本语义向量之后,根据各个训练文本语料的文本语义向量,分别生成第二实体召回模型针对各个训练文本语料的第二判别结果。其中,该第二判别结果是指训练文本语料包含目标领域的特征文本的概率。
4、基于训练样本集合的各个训练文本语料的第二判别结果,以及各个训练文本语料的第二标签,确定第二损失。
在本申请实施例中,计算机设备在获取训练文本语料的第二判别结果之后,基于训练样本集合的各个训练文本语料分别对应的第二判别结果,以及各个训练文本语料的第二标签,确定第二实体召回模型的第二损失。其中,该第二损失用于衡量第二实体召回模型的特征判别功能的准确性。
可选地,计算机设备在获取上述第一损失和上述第二损失之后,根据该第一损失和该第二损失,对第二实体召回模型进行参数调整。
可选地,在示例性实施例中,在对第二实体召回模型进行训练时,上述第一任务与上述第二任务交替训练。以一个训练文本语料、该训练文本语料对应的一个样本实体为例,结合参考图10,对第二实体召回模型在训练过程中的数据处理方式进行介绍。第二实体召回模型在获取训练文本语料和样本实体之后,对该训练文本语料和样本实体分别进行处理,得到该训练文本语料的文本语义向量,以及该样本实体的实体语义向量。之后,第二实体召回模型根据文本语义向量和实体语义向量,输出上述第一判别结果,并根据文本语义向量,输出上述第二判别结果。
可选地,在本申请实施例中,上述第一实体召回模型也可称为实体粗召模型,上述第二实体召回模型也可称为实体精排模型。
另外,如图11所示,以医疗领域为例,对实体召回模型的训练方式进行完整介绍。具体包括以下至少一个步骤:
步骤1101,获取属于医疗领域的多个查询文本语料。
示例性地,该多个查询文本语料中包括查询文本语料q1、查询文本语料q2和查询文本语料q3。
步骤1102,从查询文本语料对应的应答文本语料中提取满足第一条件的至少一个实体,得到查询文本语料对应的实体集合。
示例性地,查询文本语料q1对应的实体集合中包括实体r11、r12、r13,查询文本语料q2对应的实体集合中包括实体r21,查询文本语料q3对应的实体集合中包括实体r31、r32。
步骤1103,基于各个查询文本语料对应的实体集合,生成第一实体召回模型的训练样本正例和训练样本负例。
示例性地,训练样本正例包括:“查询文本语料q1,实体r11”、“查询文本语料q1,实体r12”、“查询文本语料q1,实体r13”、“查询文本语料q2,实体r21”、“查询文本语料q3,实体r31”、“查询文本语料q3,实体r32”;训练样本负例包括:“查询文本语料q1,实体r21”、“查询文本语料q1,实体r31”、“查询文本语料q1,实体r32”、“查询文本语料q2,实体r11”、“查询文本语料q2,实体r12”、“查询文本语料q2,实体r13”、“查询文本语料q2,实体r31”、“查询文本语料q2,实体r32”、“查询文本语料q3,实体r11”、“查询文本语料q3,实体r12”、“查询文本语料q3,实体r13”、“查询文本语料q3,实体r21”。
步骤1104,基于训练样本正例和训练样本负例对第一实体召回模型进行训练。
步骤1105,基于各个查询文本语料对应的实体集合,生成针对第二实体召回模型的第一训练样本集合和第二训练样本集合。
示例性地,第一训练样本集合包括:“查询文本语料q1,实体r11,第一标签1”、“查询文本语料q1,实体r12,第一标签1”、“查询文本语料q1,实体r13,第一标签0”、“查询文本语料q2,实体r21,第一标签1”、“查询文本语料q3,实体r31,第一标签1”、“查询文本语料q3,实体r32,第一标签0”;第二训练样本集合包括:“查询文本语料q1,第二标签1”、“查询文本语料q2,第二标签0”、“查询文本语料q3,第一标签1”。
步骤1106,基于第一训练样本集合对第二实体召回模型进行第一任务训练;以及,基于第二训练样本集合对第二实体召回模型进行第二任务训练。其中,第一任务与第二任务交替训练。
请参考图12,其示出了本申请一个实施例提供的搜索方法的流程图。该方法可应用于图2所示的实体召回系统的服务器20,如各步骤的执行主体可以是服务器20(以下称为“计算机设备”)。该方法可以包括以下几个步骤(1201~1205)中的至少一个步骤:
步骤1201,获取属于目标领域的目标查询文本。
在本申请实施例中,计算机设备获取属于目标领域的目标查询文本。目标查询文本是基于用户所提出的问题生成的文本。该目标查询文本也可以称为问题文本。可选地,在生成目标查询文本时,可以直接将问题作为目标查询文本,也可以对问题进行处理后生成目标查询文本。
可选地,在本申请实施例中,上述问题可以是用户帐号所输入的问题,也可以是用户帐号从候选问题中所选择的问题,本申请实施例对此不作限定。
步骤1202,采用第一实体召回模型,分别获取目标查询文本与实体库中各个查询实体之间的语义匹配度。
在本申请实施例中,计算机设备在获取上述目标查询文本之后,采用第一实体召回模型,分别获取目标查询文本与实体库中各个查询实体之间的语义匹配度。其中,该语义匹配度用于指示目标查询文本与查询实体之间的相似度,该实体库包括属于目标领域的多个查询实体。可选地,语义匹配度越高,目标查询文本与查询实体之间的相似度越大;反之,语义匹配度越低,目标查询文本与查询实体之间的相似度越小。
在示例性实施例中,上述步骤1202包括以下至少一个步骤:
1、获取目标查询文本的文本语义向量,以及预先存储的各个查询实体的实体语义向量;
2、分别获取文本语义向量与各个查询实体的实体语义向量之间的语义距离,语义距离与语义匹配度呈负相关关系。
示例性地,如图13所示,第一实体召回模型1300包括在线处理版块1310和离线处理版块1320。第一实体召回模型1300在获取实体库中的查询实体之后,基于离线处理版块1320预先对各个查询实体分别进行处理,得到各个查询实体的实体语义向量。之后,第一实体召回模型1300在获取目标查询文本之后,基于在线处理版块1310对目标查询文本进行处理,得到该目标查询文本的文本语义向量;进一步地,从离线处理版块1320中获取预先得到的各个查询实体的实体语义向量,并根据文本语义向量与各个查询实体的实体语义向量,分别确定目标查询文本与各个查询实体之间的语义匹配度。
步骤1203,根据语义匹配度满足目标条件的查询实体,生成目标查询文本对应的至少一个候选实体。
在本申请实施例中,计算机设备在获取上述语义匹配度之后,根据语义匹配度满足目标条件的查询实体,生成目标查询文本对应的至少一个候选实体。
其中,上述目标条件可以为语义匹配度大于第三阈值;或者,上述目标条件还可以为语义匹配度由高到低排序后,排列在前。
步骤1204,采用第二实体召回模型,对至少一个对应组进行处理,得到各个对应组的关系判别结果。
在本申请实施例中,计算机设备在获取上述至少一个候选实体之后,采用第二实体召回模型,对至少一个对应组进行处理,得到各个对应组的关系判别结果。其中,一个对应组包括目标查询文本和一个候选实体。
步骤1205,基于关系判别结果,从至少一个候选实体中确定目标查询文本对应的召回实体。
在本申请实施例中,计算机设备在获取上述关系判别结果之后,基于该关系判别结果,从至少一个候选实体中确定目标查询文本对应的召回实体。可选地,计算机设备在获取各个对应组的关系判别结果,基于该各个对应组的关系判别结果,确定对应组的目标查询文本和候选实体的对应关系准确的对应组,进而将所确定的对应组的候选实体,确定为目标查询文本对应的召回实体。
步骤1206,根据目标查询文本对应的召回实体,从文本数据库中搜索得到目标查询文本对应的至少一个应答文本。
在本申请实施例中,计算机设备在获取上述召回实体之后,根据该目标查询文本对应的召回实体,从文本数据库中搜索得到目标查询文本对应的至少一个应答文本。在一种可能的实施方式中,计算机设备将召回实体作为索引,从文本数据库中获取应答文本;在另一种可能的实施方式中,计算机设备将召回实体和该召回实体的同义实体作为索引,从文本数据库中获取应答文本。
需要说明的一点是,关于第一实体召回模型和第二实体召回模型的部分细节,可以参考上述图5至图11所介绍的内容。
综上所述,本申请实施例提供的技术方案中,通过训练好的第一实体召回模型,从实体库中的查询实体中获取目标查询文本对应的至少一个候选实体,提高候选实体的获取准确性;而且,通过训练好的第二实体召回模型,从至少一个候选实体中获取目标查询文本对应的召回实体,提高召回实体的获取准确性。
另外,第一实体召回模型包括在线处理版块和离线处理版块,基于离线处理版块预先获取各个查询实体的实体语义向量,在后续通过在线处理版块获取文本语义向量之后,能够快速确定文本语义向量与实体语义向量之间的语义距离,提高第一实体召回模型的数据处理效率。
需要说明的一点是,上文中通过实施例对本申请的介绍,仅仅是示例性和解释性的,将上述实施例中的步骤进行任意组合形成的新的实施例,也在本申请的保护范围内。
还需要说明的一点是,上文中通过实施例对本申请的介绍,仅仅是示例性和解释性的,将上述实施例中的步骤进行任意组合形成的新的实施例,也在本申请的保护范围内。可以理解的是,本申请的具体实施方式中,涉及到用户信息等相关数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或同意,且相关数据的收集、使用和处理需要遵守相关国家和地图的相关法律法规和标准;例如,本申请中涉及到的查询文本语料和应答文本语料等,均是在用户允许且符合相关法律法规和标准的情况下进行的,该用户可以为上传查询文本语料和/或应答文本语料的用户。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请方法实施例。
请参考图14,其示出了本申请一个实施例提供的实体召回模型的样本生成装置的框图。该装置具有实现上述实体召回模型的样本生成方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置计算机设备中。该装置1400可以包括:语料获取模块1410、实体获取模块1420、正例生成模块1430和负例生成模块1440。
语料获取模块1410,用于获取属于同一目标领域的多个查询文本语料,以及多个所述查询文本语料分别对应的应答文本语料。
实体获取模块1420,用于从所述查询文本语料对应的应答文本语料中,提取满足第一条件的至少一个实体,得到所述查询文本语料对应的实体集合。
正例生成模块1430,用于对于多个所述查询文本语料中的第一查询文本语料,基于所述第一查询文本语料以及第一实体集合,生成所述第一实体召回模型的训练样本正例;其中,所述第一实体集合是指所述第一查询文本语料对应的实体集合。
负例生成模块1440,用于基于所述第一查询文本语料以及第二实体集合,生成所述第一实体召回模型的训练样本负例;其中,所述第二实体集合是指第二查询文本语料对应的实体集合,所述第二查询文本语料是多个所述查询文本语料中,除所述第一查询文本语料之外的查询文本语料;其中,所述训练样本正例和所述训练样本负例用于对所述第一实体召回模型进行训练,完成训练的所述第一实体召回模型用于确定属于所述目标领域的目标查询文本与目标实体之间的语义匹配度。
在示例性实施例中,如图15所示,所述实体获取模块1420,包括:分词获取单元1421和实体获取单元1422。
分词获取单元1421,用于对所述查询文本语料对应的应答文本语料进行分词处理,得到至少一个分词。
实体获取单元1422,用于基于所述目标领域的实体库的查询实体,从所述至少一个分词中确定满足所述第一条件的至少一个实体,得到所述查询文本语料对应的实体集合。
在示例性实施例中,所述实体获取单元1422,包括:分词处理子单元、重要程度获取子单元和实体获取子单元。
分词处理子单元,从所述至少一个分词中确定包含于所述实体库的分词,得到至少一个候选实体。
程度获取子单元,用于分别获取各个所述候选实体在所述应答文本语料中的重要程度。
实体获取子单元,用于基于所述重要程度满足第二条件的候选实体,得到所述查询文本语料对应的实体集合。
在示例性实施例中,所述程度获取子单元,用于获取所述候选实体在所述至少一个分词中的出现次数,所述出现次数与所述重要程度呈正相关关系;或者,获取所述候选实体在所述至少一个分词中的出现次数,以及所述至少一个分词的总数量;根据所述出现次数和所述总数量,确定所述候选实体在所述应答文本语料中的出现频率;其中,所述出现频率与所述重要程度呈正相关关系;或者,获取所述候选实体在所述至少一个分词中的出现次数,以及各个所述候选实体在所述至少一个分词中的出现总次数;根据所述出现次数和所述出现总次数,确定所述候选实体在多个所述候选实体中的出现比例;其中,所述出现比例与所述重要程度呈正相关关系。
在示例性实施例中,如图15所示,所述装置1400还包括:实体库获取单元1450。
实体库获取单元1450,用于获取属于所述目标领域的至少一个候选查询实体;分别获取各个所述候选查询实体在历史查询数据中的查询次数;基于所述查询次数满足第三条件的候选查询实体,生成所述实体库中的查询实体;其中,所述实体库包括属于所述目标领域的多个查询实体。
在示例性实施例中,所述第一实体集合中包含a个实体,a为正整数;所述第二实体集合中包含b个实体,b为正整数。
在示例性实施例中,所述正例生成模块1430,用于基于所述第一查询文本语料以及所述a个实体,生成所述第一实体召回模型的a个训练样本正例;其中,所述a个训练样本正例中的一个训练样本正例,包括所述第一查询文本语料以及所述a个实体中的一个实体。
在示例性实施例中,所述负例生成模块1440,用于基于所述第一查询文本语料以及所述b个实体,生成所述第一实体召回模型的b个训练样本负例;其中,所述b个训练样本负例中的一个训练样本负例,包括所述第一查询文本语料以及所述b个实体中的一个实体。
在示例性实施例中,所述语料获取模块1410,还用于基于所述第一实体集合,对各个所述其它查询文本语料对应的实体集合进行遍历,得到各个所述查询文本语料分别对应的实体重复结果;其中,所述实体重复结果用于指示所述第一实体集合,与所述其它查询文本语料对应的实体集合之间是否存在相同的实体;根据所述实体重复结果,从各个所述其它查询文本语料中确定至少一个所述第二查询文本语料;其中,所述第二实体集合与所述第一实体集合之间不存在相同的实体。
在示例性实施例中,如图15所示,所述装置1400,包括:结果输出模块1460、损失获取模块1470和模型训练模块1480。
结果输出模块1460,用于将所述训练样本正例和所述训练样本负例分别输入至所述第一实体召回模型,得到所述第一实体召回模型针对所述第一查询文本语料的输出结果。
损失获取模块1470,用于基于多个所述查询文本语料的输出结果,确定所述第一实体召回模型的损失。
模型训练模块1480,用于根据所述第一实体召回模型的损失对所述第一实体召回模型进行参数调整。
在示例性实施例中,所述结果输出模块1460,用于获取所述第一查询文本语料的文本语义向量;以及,分别获取所述第一实体集合的各个正例实体的正例语义向量;以及,分别获取所述第二实体集合的各个负例实体的负例语义向量;基于所述文本语义向量和所述正例语义向量,确定第一语义距离;基于所述文本语义向量和所述负例语义向量,确定第二语义距离;其中,所述第一查询文本语料的输出结果包括各个所述正例实体分别对应的第一语义距离,以及各个所述负例实体分别对应的第二语义距离。
在示例性实施例中,所述损失获取模块1470,用于对所述第一实体集合的任一正例实体,与所述第二实体集合的任一负例实体进行组合,得到至少一个实体组;其中,一个实体组包括一个正例实体和一个负例实体;对于所述至少一个实体组中的目标实体组,根据所述目标实体组中目标正例实体对应的第一语义距离,以及所述目标实体组中目标负例实体对应的第二语义距离,确定所述第一实体召回模型针对所述目标实体组的损失;根据所述第一实体召回模型针对各个所述实体组的损失,确定所述第一实体召回模型针对所述第一查询文本语料的损失;根据所述第一实体召回模型针对各个所述查询文本语料的损失,确定所述第一实体召回模型的损失。
在示例性实施例中,如图15所示,所述装置1400,还包括:样本生成模块1490。
样本生成模块1490,用于获取针对第二实体召回模型的第一训练样本集合;其中,所述第一训练样本集合中的一个第一训练样本,包括训练文本语料、所述训练文本语料对应的一个样本实体和所述样本实体对应的第一标签,所述第一标签用于指示所述训练文本语料与所述样本实体之间的对应关系是否准确。
所述损失获取模块1470,还用于基于所述第一训练样本集合中的各个第一训练样本,对所述第二实体召回模型进行第一任务训练,得到所述第二实体召回模型的第一损失;其中,所述第一损失用于衡量所述第二实体召回模型的关系判别功能的准确性;
所述模型训练模块1480,还用于根据所述第一损失对所述第二实体召回模型进行参数调整。
在示例性实施例中,所述样本生成模块1490,还用于获取针对所述第二实体召回模型的第二训练样本集合;其中,所述第二训练样本集合中的一个第二训练样本,包括所述训练文本语料和所述训练文本语料对应的第二标签,所述第二标签用于指示所述训练文本语料是否包含所述目标领域的特征文本。
所述损失获取模块1470,还用于获取所述训练文本语料的文本语义向量;根据所述文本语义向量,生成所述第二实体召回模型针对所述训练文本语料的第二判别结果;其中,所述第二判别结果是指所述训练文本语料包含所述目标领域的特征文本的概率;基于所述训练样本集合的各个所述训练文本语料的第二判别结果,以及各个所述训练文本语料的第二标签,确定所述第二实体召回模型的第二损失。
所述模型训练模块1480,还用于根据所述第一损失和所述第二损失,对所述第二实体召回模型进行参数调整。
综上所述,本申请实施例提供的技术方案中,通过第一查询文本语料、第一实体集合,生成第一实体召回模型的训练样本正例,通过第一查询文本语料、第二实体集合,生成第一实体召回模型的训练样本负例,且实体集合是从已有的应答文本语料中提取得到的,实现训练样本正例和训练样本负例的自动生成,不需要人工对第一查询文本语料对应的实体进行标注,提高第一实体召回模型的训练样本生成效率,提高后续第一实体召回模型的训练效率;而且,应答文本语料与查询文本语料之间具有对应关系,从查询文本语料对应的应答文本语料中提取得到查询文本语料对应的实体集合,提高实体集合获取的准确性,进而提高第一实体召回模型的准确性。
请参考图16,其示出了本申请一个实施例提供的搜索装置的框图。该装置具有实现上述搜索方法的功能,所述功能可以由硬件实现,也可以由硬件执行相应的软件实现。该装置可以是计算机设备,也可以设置计算机设备中。该装置1600可以包括:文本获取模块1610、匹配获取模块1620、实体生成模块1630、结果获取模块1640、实体确定模块1650和文本检索模块1660。
文本获取模块1610,用于获取属于目标领域的目标查询文本。
匹配获取模块1620,用于采用第一实体召回模型,分别获取所述目标查询文本与实体库中各个查询实体之间的语义匹配度;其中,实体库包括属于所述目标领域的多个查询实体。
实体生成模块1630,用于根据所述语义匹配度满足目标条件的查询实体,生成所述目标查询文本对应的至少一个候选实体。
结果获取模块1640,用于采用第二实体召回模型,对至少一个对应组进行处理,得到各个所述对应组的关系判别结果;其中,一个所述对应组包括所述目标查询文本和一个所述候选实体。
实体确定模块1650,用于基于所述关系判别结果,从所述至少一个候选实体中确定所述目标查询文本对应的召回实体。
文本检索模块1660,用于根据所述目标查询文本对应的召回实体,从文本数据库中搜索得到所述目标查询文本对应的至少一个应答文本。
在示例性实施例中,如图17所示,所述匹配获取模块1620,包括:向量获取单元1621和距离获取单元1622。
向量获取单元1621,用于获取所述目标查询文本的文本语义向量,以及预先存储的各个所述查询实体的实体语义向量。
距离获取单元1622,用于分别获取所述文本语义向量与各个所述查询实体的实体语义向量之间的语义距离,所述语义距离与所述语义匹配度呈负相关关系。
综上所述,本申请实施例提供的技术方案中,通过训练好的第一实体召回模型,从实体库中的查询实体中获取目标查询文本对应的至少一个候选实体,提高候选实体的获取准确性;而且,通过训练好的第二实体召回模型,从至少一个候选实体中获取目标查询文本对应的召回实体,提高召回实体的获取准确性。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
请参考图18,其示出了本申请一个实施例提供的计算机设备的结构框图。该计算机设备可用于实现上述实体召回模型的样本生成方法或搜索方法的功能。具体来讲:
计算机设备1800包括中央处理单元(Central Processing Unit,CPU)1801、包括随机存取存储器(Random Access Memory,RAM)1802和只读存储器(Read Only Memory,ROM)1803的系统存储器1804,以及连接系统存储器1804和中央处理单元1801的系统总线1805。计算机设备1800还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output,I/O系统)1806,和用于存储操作系统1813、应用程序1814和其他程序模块1815的大容量存储设备1807。
基本输入/输出系统1806包括有用于显示信息的显示器1808和用于用户输入信息的诸如鼠标、键盘之类的输入设备1809。其中显示器1808和输入设备1809都通过连接到系统总线1805的输入输出控制器1810连接到中央处理单元1801。基本输入/输出系统1806还可以包括输入输出控制器1810以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入输出控制器1810还提供输出到显示屏、打印机或其他类型的输出设备。
大容量存储设备1807通过连接到系统总线1805的大容量存储控制器(未示出)连接到中央处理单元1801。大容量存储设备1807及其相关联的计算机可读介质为计算机设备1800提供非易失性存储。也就是说,大容量存储设备1807可以包括诸如硬盘或者CD-ROM(Compact Disc Read-Only Memory,只读光盘)驱动器之类的计算机可读介质(未示出)。
不失一般性,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦除可编程只读存储器)、EEPROM(Electrically Erasable Programmable Read Only Memory,电可擦可编程只读存储器)、闪存或其他固态存储设备,CD-ROM、DVD(Digital Video Disc,高密度数字视频光盘)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器1804和大容量存储设备1807可以统称为存储器。
根据本申请的各种实施例,计算机设备1800还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1800可以通过连接在系统总线1805上的网络接口单元1811连接到网络1812,或者说,也可以使用网络接口单元1811来连接到其他类型的网络或远程计算机系统(未示出)。
所述存储器还包括计算机程序,该计算机程序存储于存储器中,且经配置以由一个或者一个以上处理器执行,以实现上述实体召回模型的样本生成方法,或实现上述搜索方法。
在示例性实施例中,还提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集在被处理器执行时以实现上述实体召回模型的样本生成方法,或实现上述搜索方法。
可选地,该计算机可读存储介质可以包括:ROM(Read Only Memory,只读存储器)、RAM(Random Access Memory,随机存取记忆体)、SSD(Solid State Drives,固态硬盘)或光盘等。其中,随机存取记忆体可以包括ReRAM(Resistance Random Access Memory,电阻式随机存取记忆体)和DRAM(Dynamic Random Access Memory,动态随机存取存储器)。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实体召回模型的样本生成方法,或执行上述搜索方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。另外,本文中描述的步骤编号,仅示例性示出了步骤间的一种可能的执行先后顺序,在一些其它实施例中,上述步骤也可以不按照编号顺序来执行,如两个不同编号的步骤同时执行,或者两个不同编号的步骤按照与图示相反的顺序执行,本申请实施例对此不作限定。
以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (18)
1.一种实体召回模型的样本生成方法,其特征在于,所述方法包括:
获取属于同一目标领域的多个查询文本语料,以及多个所述查询文本语料分别对应的应答文本语料;
从所述查询文本语料对应的应答文本语料中,提取满足第一条件的至少一个实体,得到所述查询文本语料对应的实体集合;
对于多个所述查询文本语料中的第一查询文本语料,基于所述第一查询文本语料以及第一实体集合,生成所述第一实体召回模型的训练样本正例;其中,所述第一实体集合是指所述第一查询文本语料对应的实体集合;
基于所述第一查询文本语料以及第二实体集合,生成所述第一实体召回模型的训练样本负例;其中,所述第二实体集合是指第二查询文本语料对应的实体集合,所述第二查询文本语料是多个所述查询文本语料中,除所述第一查询文本语料之外的查询文本语料;
其中,所述训练样本正例和所述训练样本负例用于对所述第一实体召回模型进行训练,完成训练的所述第一实体召回模型用于确定属于所述目标领域的目标查询文本与目标实体之间的语义匹配度。
2.根据权利要求1所述的方法,其特征在于,所述从所述查询文本语料对应的应答文本语料中,提取满足第一条件的至少一个实体,得到所述查询文本语料对应的实体集合,包括:
对所述查询文本语料对应的应答文本语料进行分词处理,得到至少一个分词;
基于所述目标领域的实体库的查询实体,从所述至少一个分词中确定满足所述第一条件的至少一个实体,得到所述查询文本语料对应的实体集合。
3.根据权利要求2所述的方法,其特征在于,所述基于所述目标领域的实体库的查询实体,从所述至少一个分词中确定满足所述第一条件的至少一个实体,得到所述查询文本语料对应的实体集合,包括:
从所述至少一个分词中确定包含于所述实体库的分词,得到至少一个候选实体;
分别获取各个所述候选实体在所述应答文本语料中的重要程度;
基于所述重要程度满足第二条件的候选实体,得到所述查询文本语料对应的实体集合。
4.根据权利要求3所述的方法,其特征在于,所述分别获取各个所述候选实体在所述应答文本语料中的重要程度,包括:
获取所述候选实体在所述至少一个分词中的出现次数,所述出现次数与所述重要程度呈正相关关系;
或者,
获取所述候选实体在所述至少一个分词中的出现次数,以及所述至少一个分词的总数量;根据所述出现次数和所述总数量,确定所述候选实体在所述应答文本语料中的出现频率;其中,所述出现频率与所述重要程度呈正相关关系;
或者,
获取所述候选实体在所述至少一个分词中的出现次数,以及各个所述候选实体在所述至少一个分词中的出现总次数;根据所述出现次数和所述出现总次数,确定所述候选实体在多个所述候选实体中的出现比例;其中,所述出现比例与所述重要程度呈正相关关系。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
获取属于所述目标领域的至少一个候选查询实体;
分别获取各个所述候选查询实体在历史查询数据中的查询次数;
基于所述查询次数满足第三条件的候选查询实体,生成所述实体库中的查询实体;
其中,所述实体库包括属于所述目标领域的多个查询实体。
6.根据权利要求1所述的方法,其特征在于,所述第一实体集合中包含a个实体,a为正整数;所述第二实体集合中包含b个实体,b为正整数;
所述基于所述第一查询文本语料以及第一实体集合,生成所述第一实体召回模型的训练样本正例,包括:
基于所述第一查询文本语料以及所述a个实体,生成所述第一实体召回模型的a个训练样本正例;
其中,所述a个训练样本正例中的一个训练样本正例,包括所述第一查询文本语料以及所述a个实体中的一个实体;
所述基于所述第一查询文本语料以及第二实体集合,生成所述第一实体召回模型的训练样本负例,包括:
基于所述第一查询文本语料以及所述b个实体,生成所述第一实体召回模型的b个训练样本负例;
其中,所述b个训练样本负例中的一个训练样本负例,包括所述第一查询文本语料以及所述b个实体中的一个实体。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
基于所述第一实体集合,对各个其它查询文本语料对应的实体集合进行遍历,得到各个所述其它查询文本语料分别对应的实体重复结果;其中,所述实体重复结果用于指示所述第一实体集合,与所述其它查询文本语料对应的实体集合之间是否存在相同的实体;
根据所述实体重复结果,从各个所述其它查询文本语料中确定至少一个所述第二查询文本语料;其中,所述第二实体集合与所述第一实体集合之间不存在相同的实体。
8.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
将所述训练样本正例和所述训练样本负例分别输入至所述第一实体召回模型,得到所述第一实体召回模型针对所述第一查询文本语料的输出结果;
基于多个所述查询文本语料的输出结果,确定所述第一实体召回模型的损失;
根据所述第一实体召回模型的损失对所述第一实体召回模型进行参数调整。
9.根据权利要求8所述的方法,其特征在于,所述将所述训练样本正例和所述训练样本负例分别输入至所述第一实体召回模型,得到所述第一实体召回模型针对所述第一查询文本语料的输出结果,包括:
获取所述第一查询文本语料的文本语义向量;以及,分别获取所述第一实体集合的各个正例实体的正例语义向量;以及,分别获取所述第二实体集合的各个负例实体的负例语义向量;
基于所述文本语义向量和所述正例语义向量,确定第一语义距离;
基于所述文本语义向量和所述负例语义向量,确定第二语义距离;
其中,所述第一查询文本语料的输出结果包括各个所述正例实体分别对应的第一语义距离,以及各个所述负例实体分别对应的第二语义距离。
10.根据权利要求9所述的方法,其特征在于,所述基于多个所述查询文本语料的输出结果,确定所述第一实体召回模型的损失,包括:
对所述第一实体集合的任一正例实体,与所述第二实体集合的任一负例实体进行组合,得到至少一个实体组;其中,一个实体组包括一个正例实体和一个负例实体;
对于所述至少一个实体组中的目标实体组,根据所述目标实体组中目标正例实体对应的第一语义距离,以及所述目标实体组中目标负例实体对应的第二语义距离,确定所述第一实体召回模型针对所述目标实体组的损失;
根据所述第一实体召回模型针对各个所述实体组的损失,确定所述第一实体召回模型针对所述第一查询文本语料的损失;
根据所述第一实体召回模型针对各个所述查询文本语料的损失,确定所述第一实体召回模型的损失。
11.根据权利要求1至6任一项所述的方法,其特征在于,所述方法还包括:
获取针对第二实体召回模型的第一训练样本集合;其中,所述第一训练样本集合中的一个第一训练样本,包括训练文本语料、所述训练文本语料对应的一个样本实体和所述样本实体对应的第一标签,所述第一标签用于指示所述训练文本语料与所述样本实体之间的对应关系是否准确;
基于所述第一训练样本集合中的各个第一训练样本,对所述第二实体召回模型进行第一任务训练,得到所述第二实体召回模型的第一损失;其中,所述第一损失用于衡量所述第二实体召回模型的关系判别功能的准确性;
根据所述第一损失对所述第二实体召回模型进行参数调整。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
获取针对所述第二实体召回模型的第二训练样本集合;其中,所述第二训练样本集合中的一个第二训练样本,包括所述训练文本语料和所述训练文本语料对应的第二标签,所述第二标签用于指示所述训练文本语料是否包含所述目标领域的特征文本;
获取所述训练文本语料的文本语义向量;
根据所述文本语义向量,生成所述第二实体召回模型针对所述训练文本语料的第二判别结果;其中,所述第二判别结果是指所述训练文本语料包含所述目标领域的特征文本的概率;
基于所述训练样本集合的各个所述训练文本语料的第二判别结果,以及各个所述训练文本语料的第二标签,确定所述第二实体召回模型的第二损失;其中,所述第二损失用于衡量所述第二实体召回模型的特征判别功能的准确性;
所述根据所述第一损失对所述第二实体召回模型进行参数调整,包括:
根据所述第一损失和所述第二损失,对所述第二实体召回模型进行参数调整。
13.一种搜索方法,其特征在于,所述方法还包括:
获取属于目标领域的目标查询文本;
采用第一实体召回模型,分别获取所述目标查询文本与实体库中各个查询实体之间的语义匹配度;其中,实体库包括属于所述目标领域的多个查询实体;
根据所述语义匹配度满足目标条件的查询实体,生成所述目标查询文本对应的至少一个候选实体;
采用第二实体召回模型,对至少一个对应组进行处理,得到各个所述对应组的关系判别结果;其中,一个所述对应组包括所述目标查询文本和一个所述候选实体;
基于所述关系判别结果,从所述至少一个候选实体中确定所述目标查询文本对应的召回实体;
根据所述目标查询文本对应的召回实体,从文本数据库中搜索得到所述目标查询文本对应的至少一个应答文本。
14.根据权利要求13所述的方法,其特征在于,所述采用第一实体召回模型,分别获取所述目标查询文本与实体库中各个查询实体之间的语义匹配度,包括:
获取所述目标查询文本的文本语义向量,以及预先存储的各个所述查询实体的实体语义向量;
分别获取所述文本语义向量与各个所述查询实体的实体语义向量之间的语义距离,所述语义距离与所述语义匹配度呈负相关关系。
15.一种实体召回模型的样本生成装置,其特征在于,所述装置包括:
语料获取模块,用于获取属于同一目标领域的多个查询文本语料,以及多个所述查询文本语料分别对应的应答文本语料;
实体获取模块,用于从所述查询文本语料对应的应答文本语料中,提取满足第一条件的至少一个实体,得到所述查询文本语料对应的实体集合;
正例生成模块,用于对于多个所述查询文本语料中的第一查询文本语料,基于所述第一查询文本语料以及第一实体集合,生成所述第一实体召回模型的训练样本正例;其中,所述第一实体集合是指所述第一查询文本语料对应的实体集合;
负例生成模块,用于基于所述第一查询文本语料以及第二实体集合,生成所述第一实体召回模型的训练样本负例;其中,所述第二实体集合是指第二查询文本语料对应的实体集合,所述第二查询文本语料是多个所述查询文本语料中,除所述第一查询文本语料之外的查询文本语料;
其中,所述训练样本正例和所述训练样本负例用于对所述第一实体召回模型进行训练,完成训练的所述第一实体召回模型用于确定属于所述目标领域的目标查询文本与目标实体之间的语义匹配度。
16.一种搜索装置,其特征在于,所述装置包括:
文本获取模块,用于获取属于目标领域的目标查询文本;
匹配获取模块,用于采用第一实体召回模型,分别获取所述目标查询文本与实体库中各个查询实体之间的语义匹配度;其中,实体库包括属于所述目标领域的多个查询实体;
实体生成模块,用于根据所述语义匹配度满足目标条件的查询实体,生成所述目标查询文本对应的至少一个候选实体;
结果获取模块,用于采用第二实体召回模型,对至少一个对应组进行处理,得到各个所述对应组的关系判别结果;其中,一个所述对应组包括所述目标查询文本和一个所述候选实体;
实体确定模块,用于基于所述关系判别结果,从所述至少一个候选实体中确定所述目标查询文本对应的召回实体;
文本检索模块,用于根据所述目标查询文本对应的召回实体,从文本数据库中搜索得到所述目标查询文本对应的至少一个应答文本。
17.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至12任一项所述的实体召回模型的样本生成方法,或实现如权利要求13或14所述的搜索方法。
18.一种计算机程序产品或计算机程序,其特征在于,所述计算机程序产品或计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中,处理器从所述计算机可读存储介质读取并执行所述计算机指令,以实现如权利要求1至12任一项所述的实体召回模型的样本生成方法,或实现如权利要求13或14所述的搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210100895.0A CN114416929A (zh) | 2022-01-27 | 2022-01-27 | 实体召回模型的样本生成方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210100895.0A CN114416929A (zh) | 2022-01-27 | 2022-01-27 | 实体召回模型的样本生成方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114416929A true CN114416929A (zh) | 2022-04-29 |
Family
ID=81279818
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210100895.0A Pending CN114416929A (zh) | 2022-01-27 | 2022-01-27 | 实体召回模型的样本生成方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114416929A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943228A (zh) * | 2022-06-06 | 2022-08-26 | 北京百度网讯科技有限公司 | 端到端敏感文本召回模型的训练方法、敏感文本召回方法 |
CN116523024A (zh) * | 2023-07-03 | 2023-08-01 | 腾讯科技(深圳)有限公司 | 召回模型的训练方法、装置、设备及存储介质 |
-
2022
- 2022-01-27 CN CN202210100895.0A patent/CN114416929A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114943228A (zh) * | 2022-06-06 | 2022-08-26 | 北京百度网讯科技有限公司 | 端到端敏感文本召回模型的训练方法、敏感文本召回方法 |
CN114943228B (zh) * | 2022-06-06 | 2023-11-24 | 北京百度网讯科技有限公司 | 端到端敏感文本召回模型的训练方法、敏感文本召回方法 |
CN116523024A (zh) * | 2023-07-03 | 2023-08-01 | 腾讯科技(深圳)有限公司 | 召回模型的训练方法、装置、设备及存储介质 |
CN116523024B (zh) * | 2023-07-03 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 召回模型的训练方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111708873B (zh) | 智能问答方法、装置、计算机设备和存储介质 | |
CN111949787A (zh) | 基于知识图谱的自动问答方法、装置、设备及存储介质 | |
Branson et al. | The ignorant led by the blind: A hybrid human–machine vision system for fine-grained categorization | |
CN111753098A (zh) | 一种基于跨媒体动态知识图谱的教学方法及系统 | |
CN103425635B (zh) | 一种答案推荐方法和装置 | |
CN108491486B (zh) | 模拟病人问诊对话方法、装置、终端设备及存储介质 | |
KR102265573B1 (ko) | 인공지능 기반 입시 수학 학습 커리큘럼 재구성 방법 및 시스템 | |
CN114565104A (zh) | 语言模型的预训练方法、结果推荐方法及相关装置 | |
CN111737426B (zh) | 问答模型的训练方法、计算机设备以及可读存储介质 | |
CN111444344A (zh) | 实体分类方法、装置、计算机设备和存储介质 | |
US20230058194A1 (en) | Text classification method and apparatus, device, and computer-readable storage medium | |
CN114416929A (zh) | 实体召回模型的样本生成方法、装置、设备及存储介质 | |
CN113342958B (zh) | 问答匹配方法、文本匹配模型的训练方法和相关设备 | |
CN112819023A (zh) | 样本集的获取方法、装置、计算机设备和存储介质 | |
CN112148831B (zh) | 图文混合检索方法、装置、存储介质、计算机设备 | |
CN111782826A (zh) | 知识图谱的信息处理方法、装置、设备及存储介质 | |
CN112348417A (zh) | 一种基于主成分分析算法的营销价值评估方法及装置 | |
CN113157867A (zh) | 一种问答方法、装置、电子设备及存储介质 | |
CN117076688A (zh) | 基于领域知识图谱的知识问答方法及其装置、电子设备 | |
CN112069329A (zh) | 文本语料的处理方法、装置、设备及存储介质 | |
CN115222443A (zh) | 客户群体划分方法、装置、设备及存储介质 | |
CN113821587B (zh) | 文本相关性确定方法、模型训练方法、装置及存储介质 | |
CN108509588B (zh) | 一种基于大数据的律师评估方法及推荐方法 | |
CN112148994B (zh) | 信息推送效果评估方法、装置、电子设备及存储介质 | |
CN113569018A (zh) | 问答对挖掘方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |