CN112115697B

CN112115697B - 用于确定目标文本的方法、装置、服务器以及存储介质

Info

Publication number: CN112115697B
Application number: CN202011022106.3A
Authority: CN
Inventors: 王春宇; 夏源; 施振辉; 黄海峰; 陆超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-09-25
Filing date: 2020-09-25
Publication date: 2024-03-12
Anticipated expiration: 2040-09-25
Also published as: CN112115697A

Abstract

本公开提供了用于确定目标文本的方法、装置、电子设备以及存储介质，涉及人工智能领域，具体涉及自然语言处理、知识图谱和大数据，可应用于智慧医疗场景。所述方法包括：获取包括至少两个实体的查询文本；基于所述查询文本获取与所述至少两个实体有关的至少两个候选文本；针对每个候选文本，基于所述至少两个实体以及该候选文本的文本类型确定所述至少两个实体关于该文本类型的关联性；基于所述关联性从所述候选文本中确定用于所述查询文本的目标文本。利用本公开提供的方法，能够检测查询文本中实体之间的关系并确定与查询文本中实体关注的内容作为目标文本。

Description

用于确定目标文本的方法、装置、服务器以及存储介质

技术领域

本公开实施例涉及人工智能领域，具体涉及自然语言处理、知识图谱和大数据，可应用于智慧医疗场景，具体涉及用于确定目标文本的方法、装置、服务器以及存储介质。

背景技术

在针对包括两个或更多的实体的查询文本进行查询时，可以通过确定查询文本和文本库中的文本之间的相关性确定多个查询结果。然而，当查询文本中的实体之间具有特定的关系时，期望的查询结果可能是与实体之间的关系有关的结果。目前尚未有针对实体间关系进行自动检测的方案。

发明内容

根据本公开示例性实施例的一个方面，提供了一种用于确定目标文本的方法，包括：获取包括至少两个实体的查询文本；基于所述查询文本获取与所述至少两个实体有关的至少两个候选文本；针对每个候选文本，基于所述至少两个实体以及该候选文本的文本类型确定所述至少两个实体关于该文本类型的关联性；基于所述关联性从所述候选文本中确定用于所述查询文本的目标文本。

根据本公开示例性实施例的另一个方面，提供了一种用于确定目标文本的装置，包括：获取单元，配置成获取包括至少两个实体的查询文本；候选文本确定单元，配置成基于所述查询文本获取与所述至少两个实体有关的候选文本；关联单元，配置成针对每个候选文本，基于所述至少两个实体以及该候选文本的文本类型确定所述至少两个实体关于该文本类型的关联性；目标文本确定单元，配置成基于所述关联性从所述候选文本中确定用于所述查询文本的目标文本。

根据本公开示例性实施例的另一个方面，提供了一种服务器。该服务器包括：处理器以及存储程序的存储器。程序包括指令，指令在由处理器执行时使处理器执行根据本公开一些示例性实施例的方法。

根据本公开示例性实施例的另一个方面，提供了一种存储程序的计算机可读存储介质。程序包括指令，指令在由服务器的处理器执行时，致使处理器执行根据本公开一些示例性实施例的方法。

根据本公开示例性实施例的另一个方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现根据本公开一些示例性实施例的方法。

借助于本公开示例性实施例的用于确定目标文本的方法、装置、服务器以及存储介质，通过对查询文本中的实体和文本内容的文本类型进行处理来预测查询文本中的实体是否关注该种类型的文本。由此，可以更准确地确定查询文本中的实体期望关注的文本内容。

附图说明

附图示例性地示出了实施例并且构成说明书的一部分，与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的，并不限制权利要求的范围。在所有附图中，相同的附图标记指代类似但不一定相同的元素：

图1示出了根据本公开实施例的用于确定目标文本的方法的示意性的流程图；

图2示出了根据本公开的实施例的确定第一候选文本的方法的示例性的流程图；

图3示出了根据本公开的实施例的确定第二候选文本的方法的示例性的流程图；

图4示出了根据本公开的实施例对实体关系预测模型进行训练的方法的示例性的流程图；

图5示出了根据本公开的实施例的用于确定目标文本的装置的示意性框图；以及

图6示出了根据本公开示例性实施例的示例计算设备的示意性框图。

具体实施方式

在本公开中，除非另有说明，否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系，这种术语只是用于将一个元件与另一元件区分开。在一些示例中，第一要素和第二要素可以指向该要素的同一实例，而在某些情况下，基于上下文的描述，它们也可以指代不同实例。

在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的，而并非旨在进行限制。除非上下文另外明确地表明，如果不特意限定要素的数量，则该要素可以是一个也可以是多个。此外，本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

为了从海量的文本中获取有价值的信息，可以应用人工智能技术来实现大规模的机器阅读，从而帮助用户获取更多的有意义的信息。

可以基于用户输入的查询文本中的实体在文本库中进行检索，以获得与实体有关的查询结果。在查询文本中包括两个或更多实体的情况下，如果在查询时能够考虑到实体之间的关系，则可以向用户提供更具有针对性的查询结果。在一些实现方式中，可以通过实现人工标注的方法标注实体之间的关系。在另一些实现方式中，可以通过检测实体在指定窗口中的距离和/或共同出现的频率来判断实体之间的关系。在又一些实现方式中，可以通过文本硬匹配的方式来判断实体之间的关系。

然而，上述方法中人工标注的方法繁琐耗时，并且人工的方式难以避免标注遗漏导致漏召回的情况。检测实体的共现情况和硬匹配的方式在处理复杂文本时难以做到精准匹配，也会导致对于实体间关系的判断不准确。

对此，本公开提供了一种用于确定目标文本的方法，通过对查询文本中的实体和候选文本的文本类型的关联性进行检测，可以自动确定查询文本中的实体关系对该种文本类型的文本是否具有较高的关注程度。从而能够以机器阅读的方式自动基于实体间的关系确定作为查询结果的目标文本。

本公开提供的实施例可以用于医疗领域。可以利用本公开提供的方法构建一种循证医学平台。诸如医生或科研人员的用户可以通过这样的循证医学平台查询医学实体之间的关系以及对应的循证文本。通过对海量的生物医学领域的文献进行机器阅读，可以快速地挖掘到对于用户有价值的信息。利用循证医学能够综合评价现有资料中能够获得的可靠证据，并帮助用户做出相应的医疗决策。

下文中将以医学领域为例描述本公开的原理。然而，本领域技术人员可以理解，除了医学领域以外，本公开提供的实施例还可以用于任何其他科学领域的资料获取。例如社会学、历史学、新闻学、法学、经济学、地理学、计算科学、物理学、化学等等。

图1示出了根据本公开实施例的用于确定目标文本的方法100的示意性的流程图。

如图1所示，在步骤S102中，可以获取包括至少两个实体的查询文本。其中，查询文本可以使包括上述至少两个实体的句子、短语或者词组。

上述至少两个实体可以包括主题实体和至少一个目标实体。主题实体可以指示查询文本关注的主题对象，目标实体可以指示与主题实体关联的内容。在医学领域中，主题实体可以是疾病名称，目标实体可以是症状、检验项、手术项、检查项、药物中的至少一个。在其他领域中，主题实体和目标实体可以被设置成其他内容。例如，在物理学领域中，主题实体可以是物理分支学科的名称(如力学、热学、电学、光学等)，目标实体可以是与这些分支学科相关联的公式、定理等。

在一些实施例中，可以通过各种输入设备获取查询文本。例如，可以利用键盘、触摸屏、手写板等设备获取文字输入的查询文本。又例如，可以利用麦克风等音频输入设备获取语音输入，然后可以利用语音识别的方法确定语音输入对应的查询文本的内容。再例如，可以通过图像获取设备获取图像输入，然后可以对图像进行处理以识别图像中存在的文字，从而获取图像中存在的查询文本的内容。再例如，可以通过向用户提供预先存储的查询文本的列表，并响应于用户选择列表中的某个查询文本来获取查询文本。在一些实现方式中，查询文本中可以包括主题实体和一个目标实体。在另一些实现方式中，查询文本中可以包括主题实体和多个目标实体。

在步骤S104中，可以基于查询文本获取与至少两个实体有关的至少两个候选文本。可以基于查询文本在检索文本库中进行查询以获取与上述至少两个实体有关的检索文本作为候选文本。

以医学领域为例，可以基于现有的医学资料(如医学期刊、医学图书、诸如会议录或专题论文集的特种文献等)构建用于医学领域的检索文本库。检索文本库中可以包括多个检索文本。在一些实施例中，检索文本库中的检索文本可以是结构化的文本。可以通过对现有的医学资料进行解析以得到结构化的文本。在一些实现方式中，结构化的检索文本可以包括文本主题、文本类型、文本来源、文本段落以及文本标识。其中文本主题可以是该领域的主题实体例如疾病名称，文本类型可以是临床表现、检查、诊断、治疗、鉴别诊断、病因、摘要、预防、预后中的一种，文本来源可以指示该检索文本的内容出处，文本段落可以是该检索文本的文本内容，文本标识可以是用于指示该检索文本的标识符。结构化的文本可以使得检索精确度更高。

可以通过至少两种方式在检索文本库中获取与上述两个实体有关的候选文本。在一些实施例中，可以确定查询文本中至少一个实体的近义实体，并在检索文本库中获取与查询文本中的至少一个实体的近义实体相关联的检索文本作为第一候选文本。在另一些实施例中，可以在检索文本库中获取与查询文本中的实体精准匹配的检索文本作为第二候选文本。

在一些实施例中，可以确定查询文本和检索文本库中的多个检索文本之间的召回相关性。当检索文本库中的检索文本与查询文本之间的召回相关性大于召回阈值时，可以将这样的检索文本确定为用于查询文本的候选文本。召回阈值可以是本领域技术人员根据实际应用场景预先设置的任何合适的值。

在一些实现方式中，候选文本是与查询文本中的至少一个实体的近义实体相关联的第一候选文本。在另一些实现方式中，候选文本是与查询文本中的实体精准匹配的第二候选文本。在又一些实现方式中，候选文本可以是上述第一候选文本和第二候选文本的组合。下文中将结合图2和图3分别描述第一候选文本和第二候选文本的获取方式，在此不再加以赘述。

在步骤S106中，针对每个候选文本，可以基于至少两个实体以及该候选文本的文本类型确定至少两个实体关于该文本类型的关联性。

如前所述，检索文本的文本类型可以包括临床表现、检查、诊断、治疗、鉴别诊断、病因、摘要、预防、预后。因此，根据检索文本确定的候选文本的文本类型也可以包括临床表现、检查、诊断、治疗、鉴别诊断、病因、摘要、预防、预后。

在医学领域中，当查询文本中包括的医学实体之间具有不同的关系时，查询文本所关注的焦点是不同的。例如，当查询文本中包括的医学实体包括疾病和症状时，主要关注的是关于疾病的临床表现、诊断、摘要等内容。当查询文本中包括的医学实体包括疾病和检查项时，主要关注的是关于疾病的诊断、辅助检查、检查、摘要等内容。当查询文本中包括的医学实体包括疾病和药物时，主要关注的是治疗等内容。

在一些实施例中，可以利用训练好的实体关系预测模型确定查询文本中的至少两个实体关于候选文本的文本类型的关联性。这样的关联性可以用于指示查询文本关注该类型的候选文本的程度。关联性越高表示查询文本越有可能关注该类型的文本内容。关联性越低则表示查询文本不太关注该类型的文本内容。

在一些实现方式中，可以将查询文本中的实体以及候选文本的文本类型作为实体关系预测模型的输入。例如，可以对查询文本中的至少两个实体和候选文本的文本类型进行拼接，以得到拼接文本。在一些示例中，以查询文本中的实体包括“急性上呼吸道感染”(疾病)和“咳嗽”(症状)为例，候选文本的文本类型是“临床表现”。可以将上述两个实体和候选文本的文本类型进行拼接，以得到拼接文本“急性上呼吸道感染#咳嗽#临床表现”作为实体关系预测模型的输入。

进一步地，实体关系预测模型的输入还可以包括候选文本的文本内容。

通过利用训练好的实体关系预测模型对上述拼接文本和候选文本的文本内容进行处理。实体关系预测模型可以输出实体之间关于候选文本的文本类型的关联性。在一些示例中，实体关系预测模型输出的预测概率值可以作为输出实体之间关于候选文本的文本类型的关联性，该预测概率值指示查询文本中实体之间的关系关注该种类型的候选文本的概率。

在一些实施例中，可以利用自然语言的预训练模型实现上述实体关系预测模型。在一些实现方式中，实体关系预测模型可以是ERNIE模型或BERT模型。在一些示例中，可以通过相同或相似领域(如医学领域、历史领域、物理领域等)的数据训练好的ERNIE模型或BERT模型作为预训练模型，以确定上述实体关系预测模型的初始参数。然后可以对预训练模型进行微调以得到本公开使用的训练好的实体关系预测模型的最终参数。

下文中将结合图4描述根据本公开的实施例对实体关系预测模型进行训练的方法的过程，在此不再加以赘述。

在步骤S108中，可以基于步骤S106中确定的关联性从步骤S104中确定的候选文本中确定用于查询文本的目标文本。

在一些实施例中，当步骤S106中确定的查询文本中的实体关于候选文本的文本类型的关联性大于关联阈值时，可以将该候选文本确定为上述目标文本。其中关联阈值可以是本领域技术人员根据实际的应用场景设置的任何可能的值。如果通过步骤S106针对所有候选文本得到的关联性都小于关联阈值，则可以认为候选文本都不是查询文本中的实体关注的内容，因此可以不输出任何结果。

在另一些实施例中。可以将与查询文本中的实体具有最高的关联性的N个候选文本确定为用于查询文本的目标文本。其中N是大于零的整数。

在一些实施例中，方法100还可以包括输出步骤S108中确定的目标文本。可以通过各种输出设备如显示器、投影仪、音响等设备输出目标文本。

在一些实现方式中，可以基于步骤S104中确定的查询文本和检索文本之间的召回相关性输出目标文本。例如，当步骤S108确定了多个目标文本时，可以根据步骤S104中确定的召回相关性对步骤S108中确定的多个目标文本进行排序，并根据排序结果输出多个目标文本。其中，目标文本和查询文本之间的召回相关性越高，意味着目标文本与查询文本之间的相似度越高，也因此更有可能是用户期望的查询结果。

图2示出了根据本公开的实施例的确定第一候选文本的方法200的示例性的流程图。在图2示出的实施例中以查询文本中的至少两个实体包括第一实体和第二实体为例描述本公开的原理。在一些实现方式中，第一实体可以是主题实体例如疾病，第二主体可以是目标实体，例如症状、检验项、手术项、检查项、药物中的一个。

在步骤S202中，可以在检索文本库中确定与第一实体有关的检索文本作为召回文本。在一些实施例中，可以利用例如Elasticsearch的搜索引擎工具在检索文本库中获取对应于第一实体的第一召回文本。在一些实现方式中，Elasticsearch可以是基于BM25或基于tf/idf的相似度算法。例如，基于BM25的相似度算法可以基于文本中的词汇在文本中出现的次数和位置评估检索文本和第一实体之间的相似度，并将相似度高于相似度阈值的检索文本输出作为第一召回文本。

进一步地，还可以确定第一实体的近义实体，并在检索文本库中确定对应于第一实体的近义实体的第二召回文本。例如，可以利用例如Elasticsearch的搜索引擎工具在检索文本库中获取对应于第一实体的近义实体的第二召回文本。

在一些实施例中，第一实体的近义实体可以包括第一实体的上位实体、下位实体以及别名实体。例如，可以认为“感冒”是“上呼吸道感染”的下位实体，“上呼吸道感染”是“感冒”的上位实体，“伤风”是“感冒”的别名实体。

在步骤S204中，可以确定第二实体和步骤S202中确定的召回文本之间的相似度。可以利用根据本公开的实施例训练的召回模型对第二实体和召回文本进行处理，以得到第二实体和召回文本之间的相似度。

在一些实施例中，可以对召回文本进行分句，以得到至少一个召回句子。然后，针对每个召回句子，可以利用训练好的召回模型对第二实体和该召回句子进行处理，以得到第二实体和该召回句子的相似度。

上述召回模型可以用于识别第二实体和召回句子之间的相似度。由于步骤S204中涉及的召回文本(召回句子)是通过在检索文本库中对第一实体进行检索得到的召回文本，因此召回文本和第一实体之间具有较高的相似度。因此，步骤S204中得到的第一候选文本与第一实体和第二实体之间都具有较高的相似度。

可以利用自然语言处理的预训练模型实现上述召回模型。在一些实现方式中，召回模型可以使ERNIE模型或BERT模型。在一些示例中，可以通过同一领域(如医学领域)的数据训练好的ERNIE模型或BERT模型作为召回模型的初始参数。然后可以对初始参数进行微调以得到本公开使用的训练好的召回模型的最终参数。

本公开提供的经过训练的召回模型能够识别出第二实体与包含第二实体的近义实体召回句子之间具有较高的相似度。也就是说，对于其中不包含第二实体的检索文本，如果检索文本的内容中包括第二实体的近义实体，召回模型也能够识别出这样的文本内容和第二实体之间具有较高的相似度。由此，本公开提供的召回模型能够基于近义词的关系召回无法通过搜索引擎工具精准匹配的文本内容。

类似于第一实体的近义实体，第二实体的近义实体可以是第二实体的上位实体、下位实体或别名实体。在一些实施例中，第二实体的近义实体还可以是根据与第二实体有关的属性合成的。

在一些实施例中，可以基于预先确定的近义词对获取第一实体和/或第二实体的近义实体。

在一些实现方式中，近义词对可以是从多源的语料数据中获取的。例如，可以根据多源医学语料中的“别名”属性获取医学实体的别名。例如，可以获取“打鼾”和“鼾症”作为“阻塞性睡眠呼吸暂停低通气综合征”的别名，“弥漫性致密性骨病”作为“周身性脆性硬化症”的别名。

在另一些实现方式中，近义词对可以是根据预定义的规则模板获取的。例如，规则模板可以是“简称|俗称|又译|又译作|全称是|是……的缩写”。可以从语料库中获取符合规则模板的文本内容，在上述符合规则的文本的上下文可以获取近义词对。

在又一些实现方式中，近义词对可以是通过合成的方式构建的。可以根据与第一实体/第二实体有关的属性合成近义实体。例如，以症状实体为例，可以根据与症状有关的各种属性来形成合成词作为近义词。在一些示例中，症状实体的属性可以包括用于说明症状的频率(如阵发性、持续性、间断性等)、程度(如剧烈、轻微等)、颜色(如棕褐色、乳黄色、淡红色等)、性质(如胀痛、隐痛、烧灼样疼痛等)、部位(如喉咙、腰背部)等等。对于任一已知的症状实体，可以根据预定义的合成规则对实体的属性进行不同组合来形成近义词对。例如，可以通过对各个属性中的内容进行替换、增加或减少来形成近义词对。例如“背部隐痛”可以是“背痛”的近义词，“持续性腹痛”可以是“腹痛”的近义词。

可以理解的是，通过合成产生的近义实体可能是不符合语法规则的。因此，可以进一步对合成产生的近义词对进行筛选以确定能够符合语法规则的近义词对。

在一些示例中，可以利用基于投票的方式对合成结果进行筛选。例如，可以利用至少两种计算实体相似度的方法确定合成词和已知的实体之间的实体相似度。针对每种计算实体相似度的方法，如果计算得到的结果指示合成词和已知的症状实体之间的实体相似度大于实体相似度阈值，可以将针对该种方法的投票结果记为有效标记(如1)。如果计算得到的结果指示合成词和已知的症状实体之间的实体相似度小于实体相似度阈值，可以将针对该种方法的投票结果记为无效标记(如0)。统计所有计算实体相似度的方法的结果，在记为有效标记的实体相似度的数量大于记为无效标记的实体相似度的数量时，可以认为合成词通过了筛选。反之，则可以认为合成词是不符合语法规则的。

在另一些示例中，可以利用基于共现的方法确定合成词和已知的实体是否可以形成相似词对。例如，在语料库中确定已知实体和合成词在指定窗口中共同出现的频率，即共现频率。当共现频率大于共现阈值时，可以认为合成词和已知的实体可以形成相似词对。反之，可以认为合成词和已知的实体不是近义词。

为了使得召回模型能够实现识别第二实体和包含第二实体的近义实体召回句子之间的相似度，可以利用下面描述的方法训练的到召回模型。

可以基于上述近义词对确定第二实体的近义实体，并在检索文本库中确定包含第二实体的近义实体的近义文本。其中，近义文本可以是包含第二实体的近义实体的句子、段落或章节。类似地，可以确定第二实体的非近义实体，并在检索文本库中确定包含第二实体的非近义实体的非近义文本。其中，非近义文本可以是包含第二实体的非近义实体的句子、段落或章节。

可以将第二实体和上述近义文本确定文用于训练召回模型的正样本，将第二实体和非近义文本确定为用于训练召回模型的负样本。可以利用上述召回模型的正样本和召回模型的负样本对召回模型的初始参数进行调整以得到召回模型的最终参数。其中，召回模型的最终参数使得召回模型能够识别出第二实体和近义文本之间的召回相关性比第二实体与非近义文本之间的召回相关性更高。

在一些示例中，在训练时，可以利用召回模型的当前参数对正样本和负样本分别进行处理，并得到正样本和负样本的预测输出作为输入的第二实体和近义文本(或非近义文本)之间的相似度。其中预测输出可以是0～1之间的概率值，并且用于正样本的真实输出值为1，用于负样本的真实输出值为0。根据预测输出和真实值之间的差，可以利用反向传播的方式对召回模型的当前参数进行调整。通过反复迭代后，当达到最大迭代次数或预测输出和真实输出之间的差收敛到小于预定的收敛阈值时，可以确定召回模型的最终参数。

在步骤S206中，可以将步骤S204中确定的第二实体和召回文本之间的相似度确定为查询文本和召回文本之间的召回相关性。

通过上述方法训练的召回模型能够识别第二实体和包含第二实体的近义文本之间的相似度。当将第二实体和召回句子输入召回模型后，召回模型的输出的预测概率能够指示第二实体和召回句子之间的相似度。由于召回句子是与第一实体(或第一实体的近义实体)匹配的检索结果中的文本，因此，可以利用第二实体和召回句子之间的相似度指示查询文本和召回文本之间的召回相关性。

在步骤S208中，可以将与第二实体之间的相似度大于相似度阈值的召回句子确定为所述第一候选文本。

图3示出了根据本公开的实施例的确定第二候选文本的方法300的示例性的流程图。

如图3所示，在步骤S302中，可以利用搜索引擎工具在检索文本库中对查询文本进行检索。例如，可以利用Elasticsearch工具在检索文本库中对查询文本(如第一实体和第二实体)进行检索，以确定检索文本库中的检索文本和查询文本之间的相似度。可以将检索文本和查询文本中的至少两个实体之间的相似度确定为查询文本和检索文本库中的检索文本之间的召回相关性。

在步骤S304中，可以将与查询文本中的至少两个实体之间的相似度大于相似度阈值的检索文本确定为第二候选文本。

图4示出了根据本公开的实施例对实体关系预测模型进行训练的方法400的示例性的流程图。

如图4所示，在步骤S402中，可以确定指示查询文本中的至少两个实体之间具有关联性的第一文本类型。例如，当查询文本中包括的医学实体包括疾病和症状时，第一文本类型可以是临床表现、诊断、摘要等。当查询文本中包括的医学实体包括疾病和检查项时，第一文本类型可以是诊断、辅助检查、检查、摘要等。当查询文本中包括的医学实体包括疾病和药物时，第一文本类型可以是治疗等。

在步骤S404中，可以确定不同于第一文本类型的第二文本类型。如前所述，第一文本类型可以是查询文本中包括的实体更关注的内容。因此，文本类型中除了第一文本类型以外的其他文本类型是查询文本中包括的实体不关注的内容。因此，可以将文本类型中除了第一文本类型以外的其他文本类型确定为第二文本类型。

在步骤S406中，可以确定包括至少两个实体和第一文本类型的第一训练拼接文本以及包括至少两个实体和第二文本类型的第二训练拼接文本。以至少两个实体是急性上呼吸道感染和咳嗽，第一文本类型可以是临床表现，第二文本类型可以是检查。在这个示例中，第一训练拼接文本可以是“急性上呼吸道感染#咳嗽#临床表现”，第二训练拼接文本可以是“急性上呼吸道感染#咳嗽#治疗”。

在步骤S408中，可以将第一训练拼接文本和第一文本类型的检索文本确定为实体关系预测模型的正样本，将第二训练拼接文本和第二文本类型的检索文本确定为实体关系预测模型的负样本。

在步骤S410中，可以利用上述实体关系预测模型的正样本和实体关系预测模型的负样本对实体关系预测模型的初始参数进行调整以得到实体关系预测模型的最终参数。其中实体关系预测模型的最终参数使得实体关系预测模型识别出至少两个实体与第一文本类型的检索文本之间的关联性比至少两个实体与第二文本类型的检索文本之间的关联性更高。

在一些示例中，在训练时，可以利用实体关系预测模型的当前参数对正样本和负样本分别进行处理，并得到正样本和负样本的预测输出作为输入的至少两个实体和检索文本之间的关联性。其中预测输出可以是0～1之间的概率值，并且用于正样本的真实输出值为1，用于负样本的真实输出值为0。根据预测输出和真实值之间的差，可以利用反向传播的方式对实体关系预测模型的当前参数进行调整。通过反复迭代后，当达到最大迭代次数或预测输出和真实输出之间的差收敛到小于预定的收敛阈值时，可以确定实体关系预测模型的最终参数。

利用本公开提供的用于确定目标文本的方法，通过对查询文本中的实体和文本内容的文本类型进行处理来预测查询文本中的实体是否关注该种类型的文本。由此，可以更准确地确定查询文本中的实体期望关注的文本内容。此外，通过在确定候选文本是考虑实体的近义实体，可以在无法实现精准匹配的情况下扩大召回文本的范围，从而提高目标文本的召回率。进一步地，通过构建结构化的检索文本库，能够提高对查询文本进行检索的效率。

图5示出了根据本公开的实施例的用于确定目标文本的装置的示意性框图。如图5所示，用于确定目标文本的装置500可以包括获取单元510、候选文本确定单元520、关联单元530以及目标文本确定单元540。

获取单元510可以配置成获取包括至少两个实体的查询文本。候选文本确定单元520可以配置成基于查询文本获取与至少两个实体有关的至少两个候选文本。关联单元530可以配置成针对每个候选文本，基于至少两个实体以及该候选文本的文本类型确定至少两个实体关于该文本类型的关联性。目标文本确定单元540可以配置成基于关联单元530确定的关联性从候选文本确定单元520确定的候选文本中确定用于查询文本的目标文本。

这里所说的用于确定目标文本的装置500的上述各单元510～540的操作分别与前面描述的步骤S102～S108的操作类似，在此不再加以赘述。

利用本公开提供的用于确定目标文本的装置，通过对查询文本中的实体和文本内容的文本类型进行处理来预测查询文本中的实体是否关注该种类型的文本。由此，可以更准确地确定查询文本中的实体期望关注的文本内容。此外，通过在确定候选文本是考虑实体的近义实体，可以在无法实现精准匹配的情况下扩大召回文本的范围，从而提高目标文本的召回率。进一步地，通过构建结构化的检索文本库，能够提高对查询文本进行检索的效率。

虽然上面参考特定模块讨论了特定功能，但是应当注意，本文讨论的各个模块的功能可以分为多个模块，和/或多个模块的至少一些功能可以组合成单个模块。本文讨论的特定模块执行动作包括该特定模块本身执行该动作，或者替换地该特定模块调用或以其他方式访问执行该动作的另一个组件或模块(或结合该特定模块一起执行该动作)。因此，执行动作的特定模块可以包括执行动作的该特定模块本身和/或该特定模块调用或以其他方式访问的、执行动作的另一模块。

更一般地，本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。上面关于图5中描述的各个单元可以在硬件中或在结合软件和/或固件的硬件中实现。例如，这些模块可以被实现为计算机程序代码/指令，该计算机程序代码/指令被配置为在一个或多个处理器中执行并存储在计算机可读存储介质中。可替换地，这些模块可以被实现为硬件逻辑/电路。例如，在一些实施例中，获取单元510、候选文本确定单元520、关联单元530以及目标文本确定单元540中的一个或多个可以一起被实现在片上系统(SoC)中。SoC可以包括集成电路芯片(其包括处理器(例如，中央处理单元(CPU)、微控制器、微处理器、数字信号处理器(DSP)等)、存储器、一个或多个通信接口、和/或其他电路中的一个或多个部件)，并且可以可选地执行所接收的程序代码和/或包括嵌入式固件以执行功能。

本公开示例性实施例提供了一种服务器，该服务器可包括处理器；以及存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行前述任何方法。

本公开示例性实施例还提供了一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由服务器的处理器执行时，致使所述处理器执行前述任何方法。

下面参考图6来描述这样的服务器和计算机可读存储介质的示例。

如图6所示，是用于实现执行根据本申请实施例的用于确定目标文本的方法的服务器的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图6所示，该电子设备包括：一个或多个处理器601、存储器602，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。

存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的用于确定目标文本的方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的用于确定目标文本的方法。

存储器602作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的用于确定目标文本的方法对应的程序指令/模块(例如，附图5所示的获取单元510、候选文本确定单元520、关联单元530以及目标文本确定单元540)。处理器601通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的用于确定目标文本的方法。

存储器602可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据用于确定目标文本的电子设备的使用所创建的数据等。此外，存储器602可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器602可选包括相对于处理器601远程设置的存储器，这些远程存储器可以通过网络连接至用于确定目标文本的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

用于确定目标文本的方法的电子设备还可以包括：输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接，图6中以通过总线连接为例。

输入装置603可接收输入的数字或字符信息，以及产生与用于确定目标文本的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

虽然在附图和和前面的描述中已经详细地说明和描述了本公开，但是这样的说明和描述应当被认为是说明性的和示意性的，而非限制性的；本公开不限于所公开的实施例。通过研究附图、公开内容和所附的权利要求书，本领域技术人员在实践所要求保护的主题时，能够理解和实现对于所公开的实施例的变型。在权利要求书中，词语“包括”不排除未列出的其他元件或步骤，不定冠词“一”或“一个”不排除多个，并且术语“多个”是指两个或两个以上。在相互不同的从属权利要求中记载了某些措施的仅有事实并不表明这些措施的组合不能用来获益。

Claims

1.一种用于确定目标文本的方法，包括：

获取包括至少两个实体的查询文本；

基于所述查询文本获取与所述至少两个实体有关的至少两个候选文本；

针对每个候选文本，基于所述至少两个实体以及该候选文本的文本类型确定所述至少两个实体关于该文本类型的关联性；

基于所述关联性从所述候选文本中确定用于所述查询文本的目标文本，

其中，针对每个候选文本，基于所述至少两个实体以及该候选文本的文本类型确定所述至少两个实体关于该文本类型的关联性包括：

对所述至少两个实体和该候选文本的文本类型进行拼接，以得到拼接文本；

利用训练好的实体关系预测模型对所述拼接文本和该候选文本进行处理，以得到所述拼接文本中的所述两个实体关于该候选文本的文本类型的关联性，

其中所述实体关系预测模型是通过以下方法训练的：

确定指示所述至少两个实体之间具有关联性的第一文本类型；

确定不同于所述第一文本类型的第二文本类型；

确定包括所述至少两个实体和所述第一文本类型的第一训练拼接文本；

确定包括所述至少两个实体和所述第二文本类型的第二训练拼接文本；

将所述第一训练拼接文本和具有所述第一文本类型的检索文本确定为所述实体关系预测模型的正样本；

将所述第二训练拼接文本和具有所述第二文本类型的检索文本确定为所述实体关系预测模型的负样本；

利用所述实体关系预测模型的正样本和所述实体关系预测模型的负样本对所述实体关系预测模型中的初始参数进行调整以得到所述实体关系预测模型的最终参数，其中所述实体关系预测模型的最终参数使得所述实体关系预测模型识别出所述至少两个实体与所述第一文本类型的检索文本之间的关联性比所述至少两个实体与所述第二文本类型的检索文本之间的关联性更高。

2.如权利要求1所述的方法，其中，基于所述查询文本获取与所述至少两个实体有关的至少两个候选文本包括：

确定所述查询文本和检索文本库中的检索文本之间的召回相关性，

将与所述查询文本之间的召回相关性大于召回阈值的检索文本确定为所述候选文本。

3.如权利要求2所述的方法，其中，所述至少两个实体包括第一实体和第二实体，确定所述查询文本和检索文本库中的检索文本之间的召回相关性包括：

在检索文本库中确定与所述第一实体有关的检索文本作为召回文本；

确定所述第二实体与所述召回文本的相似度；

将所述第二实体与所述召回文本的相似度确定为所述查询文本和所述召回文本之间的召回相关性。

4.如权利要求3所述的方法，其中，在检索文本库中确定与所述第一实体有关的检索文本作为召回文本包括：

确定所述第一实体的上位实体、下位实体以及别名实体；

在所述检索文本库中确定对应于所述第一实体的第一召回文本和对应于所述第一实体的上位实体、下位实体以及别名实体的第二召回文本。

5.如权利要求3所述的方法，其中，确定所述第二实体与所述召回文本的相似度包括：

对所述召回文本进行分句，以得到至少一个召回句子；

对于所述至少一个召回句子中的每个召回句子，利用训练好的召回模型对所述第二实体和该召回句子进行处理，以得到所述第二实体与该召回句子的相似度。

6.如权利要求5所述的方法，其中，将与所述查询文本之间的召回相关性大于召回阈值的检索文本确定为所述候选文本包括：

将与第二实体之间的相似度大于相似度阈值的召回句子确定为第一候选文本。

7.如权利要求6所述的方法，其中所述召回模型是通过以下方式训练的：

确定所述第二实体的近义实体和所述第二实体的非近义实体；

在所述检索文本库中确定包含所述第二实体的近义实体的近义文本；

在所述检索文本库中确定包含所述第二实体的非近义实体的非近义文本；

将所述第二实体和所述近义文本确定为用于训练召回模型的正样本；

将所述第二实体和所述非近义文本确定为用于训练召回模型的负样本；

利用所述召回模型的正样本和所述召回模型的负样本对所述召回模型中的初始参数进行调整以得到所述召回模型的最终参数，其中所述召回模型的最终参数使得所述召回模型识别出所述第二实体与所述近义文本之间的召回相关性比所述第二实体与所述非近义文本之间的召回相关性更高。

8.如权利要求7所述的方法，其中所述第二实体的近义实体是第二实体的上位实体、下位实体、别名实体或根据与第二实体有关的属性合成的实体。

9.如权利要求2所述的方法，其中，确定所述查询文本和检索文本库中的检索文本之间的召回相关性包括：

利用搜索引擎工具在所述检索文本库中进行检索，以确定所述至少两个实体和检索文本库中的检索文本之间的相似度作为查询文本和检索文本库中的检索文本之间的召回相关性。

10.如权利要求9所述的方法，其中，将与所述查询文本之间的召回相关性大于召回阈值的检索文本确定为所述候选文本包括：

将与所述至少两个实体之间的相似度大于相似度阈值的检索文本确定为第二候选文本。

11.如权利要求2所述的方法，还包括：

基于所述目标文本与所述查询文本之间的召回相关性输出所述目标文本。

12.如权利要求2所述的方法，其中所述检索文本是结构化的文本，所述结构化的文本包括文本主题、文本类型、文本来源、文本段落以及文本标识。

13.如权利要求1所述的方法，其中，基于所述关联性从所述候选文本中确定用于所述查询文本的目标文本包括：

当所述两个实体关于该候选文本的文本类型的关联性大于关联阈值时，将该候选文本确定为用于所述查询文本的目标文本。

14.如权利要求1所述的方法，其中，所述至少两个实体是医学实体，所述至少两个实体包括主题实体和目标实体，所述主题实体是疾病，所述目标实体包括症状、检验项、手术项、检查项、药物中的至少一个。

15.如权利要求14所述的方法，其中所述文本类型包括临床表现、检查、诊断、治疗、鉴别诊断、病因、摘要、预防、预后。

16.一种用于确定目标文本的装置，包括：

获取单元，配置成获取包括至少两个实体的查询文本；

候选文本确定单元，配置成基于所述查询文本获取与所述至少两个实体有关的候选文本；

关联单元，配置成针对每个候选文本，基于所述至少两个实体以及该候选文本的文本类型确定所述至少两个实体关于该文本类型的关联性；

目标文本确定单元，配置成基于所述关联性从所述候选文本中确定用于所述查询文本的目标文本，

其中所述实体关系预测模型是通过以下方法训练的：

确定不同于所述第一文本类型的第二文本类型；

17.一种服务器，包括：

处理器；以及

存储程序的存储器，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至15中任一项所述的方法。

18.一种存储程序的计算机可读存储介质，所述程序包括指令，所述指令在由电子设备的处理器执行时，致使所述处理器执行根据权利要求1至15中任一项所述的方法。