CN116484857A

CN116484857A - 文本生成方法、装置、计算机设备和存储介质

Info

Publication number: CN116484857A
Application number: CN202310388865.9A
Authority: CN
Inventors: 邵若琦
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-07-25

Abstract

本申请涉及一种文本生成方法、装置、计算机设备和存储介质，涉及大数据技术领域。所述方法包括：接收输入文本，并根据输入文本确定目标三元组中的目标头实体、及目标三元组中的目标连接关系；通过目标头实体及目标连接关系对问答数据库进行查询，得到至少一个第一备选三元组，并通过目标头实体及目标连接关系对问答知识图谱进行查询，得到至少一个第二备选三元组；从各第一备选三元组和各第二备选三元组中，确定目标三元组中的目标尾实体；根据目标头实体、目标连接关系及目标尾实体构建目标三元组，并根据目标三元组构建针对输入文本的目标输出文本。采用本方法能够提高目标输出文本的生成精度。

Description

文本生成方法、装置、计算机设备和存储介质

技术领域

本申请涉及大数据技术领域，特别是涉及一种文本生成方法、装置、计算机设备和存储介质。

背景技术

随着自然语言处理技术的快速发展，出现了自然语言处理技术和知识图谱技术相结合的知识图谱问答系统。当前的知识图谱问答系统通过解析客户输入的关键词，并根据关键词匹配知识图谱中最接近的答案来快速回答客户，再通过收集客户对回答结果的满意程度，由工作人员汇总问题与问题下满意度较高的答案去实现问答系统的更新。

然而，上述方法对问答系统的更新频率较低，使得问答系统中的答案可能会存在不准确或过期的情况，导致问答系统向用户返回的答案精度较低。

发明内容

基于此，有必要针对上述技术问题，提供一种文本生成方法、装置、计算机设备和存储介质。

第一方面，本申请提供了一种文本生成方法。所述方法包括：

接收输入文本，并根据所述输入文本确定目标三元组中的目标头实体、及所述目标三元组中的目标连接关系；

通过所述目标头实体及所述目标连接关系对问答数据库进行查询，得到至少一个第一备选三元组，并通过所述目标头实体及所述目标连接关系对问答知识图谱进行查询，得到至少一个第二备选三元组；

从各所述第一备选三元组和各所述第二备选三元组中，确定所述目标三元组中的目标尾实体；

根据所述目标头实体、所述目标连接关系及所述目标尾实体构建所述目标三元组，并根据所述目标三元组构建针对所述输入文本的目标输出文本。

在其中一个实施例中，所述根据所述输入文本构建目标三元组中的目标头实体，包括：

从所述输入文本中提取第一分词和第二分词，并将所述第二分词作为所述目标三元组中的目标连接关系，其中，所述第一分词为名词，所述第二分词为修饰所述第一分词的谓语；

将所述第一分词作为候选头实体，并根据所述候选头实体，从所述问答知识图谱中匹配得到和所述候选头实体对应的全部第一实体；

在所述第一实体的数量小于或者等于数量阈值的情况下，将所述候选头实体作为目标三元组中的目标头实体。

在其中一个实施例中，所述方法还包括：

在所述第一实体的数量大于所述数量阈值的情况下，根据所述候选头实体和各所述第一实体生成中间输出文本，并向发送所述输入文本的终端设备发送所述中间输出文本；

接收所述终端设备针对所述中间输出文本反馈的中间输入文本，并从所述中间输入文本中提取第三分词，所述第三分词为名词；

将所述第三分词作为所述候选头实体，并跳转至根据所述候选头实体，从所述问答知识图谱中匹配得到和所述候选头实体对应的全部第一实体的步骤。

在其中一个实施例中，所述根据所述候选头实体，从所述问答知识图谱中匹配得到和所述候选头实体对应的全部第一实体，包括：

分别确定所述候选头实体，和所述问答知识图谱中各实体之间的实体相似度；

根据当前发送所述中间输出文本的总次数，确定相似度阈值，其中所述相似度阈值与发送所述中间输出文本的总次数正相关；

将所述实体相似度大于相似度阈值的实体，作为所述候选头实体对应的第一实体。

在其中一个实施例中，所述方法还包括：

在所述第一实体的数量大于所述数量阈值时，获取所述输入文本对应的用户信息，并从所述用户信息中获取所述候选头实体的关联信息；

根据所述关联信息和所述候选头实体，构建所述目标三元组中的目标头实体。

在其中一个实施例中，所述通过所述目标头实体及所述目标连接关系对问答数据库进行查询，得到至少一个第一备选三元组，包括：

基于所述目标头实体和所述目标连接关系，对所述问答数据库中的全部文本进行分类，并将与所述目标头实体和所述目标连接关系属于同一类别的文本作为候选文本；

针对任一所述候选文本，从所述候选文本中提取第一备选三元组中的头实体、第一备选三元组中的连接关系，及第一备选三元组中的尾实体，并根据所述第一备选三元组中的头实体、所述第一备选三元组中的连接关系，及所述第一备选三元组中的尾实体构建所述第一备选三元组。

在其中一个实施例中，所述从各所述第一备选三元组和各所述第二备选三元组中，确定所述目标三元组中的目标尾实体，包括：

分别确定所述目标头实体和各第一头实体、各第二头实体的第一相似度，其中，所述第一头实体为所述第一备选三元组中的头实体，所述第二头实体为所述第二备选三元组中的头实体；

分别确定所述目标连接关系和各第一连接关系、各第二连接关系的第二相似度，其中，所述第一连接关系为所述第一备选三元组中的连接关系，所述第二连接关系为所述第二备选三元组中的连接关系；

根据各所述第一相似度和各所述第二相似度，从各所述第一备选三元组及各所述第二备选三元组中，确定与所述目标头实体及所述目标连接关系相匹配的第三备选三元组；

将所述第三备选三元组的尾实体作为所述目标尾实体。

在其中一个实施例中，所述方法还包括：

在所述第三备选三元组属于所述第一备选三元组的情况下，将所述目标三元组和/或所述第三备选三元组添加至所述问答知识图谱中。

第二方面，本申请还提供了一种文本生成装置。所述装置包括：

第一接收模块，用于接收输入文本，并根据所述输入文本确定目标三元组中的目标头实体、及所述目标三元组中的目标连接关系；

查询模块，用于通过所述目标头实体及所述目标连接关系对问答数据库进行查询，得到至少一个第一备选三元组，并通过所述目标头实体及所述目标连接关系对问答知识图谱进行查询，得到至少一个第二备选三元组；

确定模块，用于从各所述第一备选三元组和各所述第二备选三元组中，确定所述目标三元组中的目标尾实体；

第一构建模块，用于根据所述目标头实体、所述目标连接关系及所述目标尾实体构建所述目标三元组，并根据所述目标三元组构建针对所述输入文本的目标输出文本。

在其中一个实施例中，所述第一接收模块，还用于：

在其中一个实施例中，所述装置还包括：

发送模块，用于在所述第一实体的数量大于所述数量阈值的情况下，根据所述候选头实体和各所述第一实体生成中间输出文本，并向发送所述输入文本的终端设备发送所述中间输出文本。

第二接收模块，用于接收所述终端设备针对所述中间输出文本反馈的中间输入文本，并从所述中间输入文本中提取第三分词，所述第三分词为名词；

跳转模块，用于将所述第三分词作为所述候选头实体，并跳转至根据所述候选头实体，从所述问答知识图谱中匹配得到和所述候选头实体对应的全部第一实体的步骤。

在其中一个实施例中，所述第一接收模块，还用于：

在其中一个实施例中，所述装置还包括：

获取模块，用于在所述第一实体的数量大于所述数量阈值时，获取所述输入文本对应的用户信息，并从所述用户信息中获取所述候选头实体的关联信息；

第二构建模块，用于根据所述关联信息和所述候选头实体，构建所述目标三元组中的目标头实体。

在其中一个实施例中，所述查询模块，还用于：

在其中一个实施例中，所述确定模块，还用于：

将所述第三备选三元组的尾实体作为所述目标尾实体。

在其中一个实施例中，所述装置还包括：

添加模块，用于在所述第三备选三元组属于所述第一备选三元组的情况下，将所述目标三元组和/或所述第三备选三元组添加至所述问答知识图谱中。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以上任一项方法。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以上任一项方法。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以上任一项方法。

上述文本生成方法、装置、计算机设备和存储介质，通过对用户输入的文本进行解析获取目标头实体及目标连接关系，并基于目标头实体及目标连接关系在问答数据库和问答知识图谱中分别查找备选三元组，进而根据查找到的各备选三元组确定目标尾实体，也即问题的答案。本申请实施例在外部的问答数据库和问答知识图谱中同时查找答案，故而不需要完全依赖于问答知识图谱，即便问答知识图谱中的信息由于更新不及时等原因而不准确，也可以在问答数据库中找到准确的信息，故而能够提升答案文本生成的精度。

附图说明

图1为一个实施例中文本生成方法的流程示意图；

图2为一个实施例中步骤102的流程示意图；

图3为一个实施例中文本生成方法的流程示意图；

图4为一个实施例中步骤204的流程示意图；

图5为一个实施例中文本生成方法的流程示意图；

图6为一个实施例中步骤104的流程示意图；

图7为一个实施例中BERT模型Transformer层的示意图；

图8为一个实施例中步骤106的流程示意图；

图9为一个实施例中文本生成方法的流程示意图；

图10为一个实施例中文本生成装置的结构框图；

图11为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种文本生成方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤102，接收输入文本，并根据输入文本确定目标三元组中的目标头实体、及目标三元组中的目标连接关系。

本申请实施例中，输入文本为用户在终端设备上输入的文本，输入文本可以通过网络或其他传输手段发送至服务器。服务器在接收输入文本后，可以通过自然语言处理技术从输入文本中提取出目标头实体以及目标连接关系。本申请实施例对于提取目标头实体和目标连接关系的方式不作具体限定，例如，可以分别训练用于从文本片段中提取名词的自然语言处理模型，以及用于从文本片段中提取谓语的自然语言处理模型，进而根据上述自然语言处理模型分别提取输入文本中的名词及谓语，将输入文本中的名词作为目标头实体，将输入文本中的谓语作为目标连接关系。

需要说明的是，由于用户输入的文本通常具有一定模糊性，因此通过自然语言处理模型提取出的目标头实体和目标连接关系在文字上不一定和输入文本完全一致，具体提取出的目标头实体和目标连接关系取决于自然语言处理模型的训练方式。举例来说，若输入文本为“储蓄卡为什么异常不能用”，则提取出的目标头实体可以是“储蓄卡”，目标连接关系可以是“异常原因”。

同时，从输入文本中可能会提取出多个目标头实体和多个目标连接关系，例如当输入文本为“一年期定期存款和三年期定期存款的利率分别是多少”时，即存在两个目标头实体：“一年期定期存款”和“三年期定期存款”。可以根据各目标头实体和各目标连接关系分别查找目标尾实体，也即最终可以构建出多个目标三元组，并基于多个目标三元组生成输出文本。

步骤104，通过目标头实体及目标连接关系对问答数据库进行查询，得到至少一个第一备选三元组，并通过目标头实体及目标连接关系对问答知识图谱进行查询，得到至少一个第二备选三元组。

本申请实施例中，问答数据库中存储有和问答系统对应的领域相关的信息，例如若知识图谱问答系统针对的是银行金融领域，则问答数据库中可以存储有银行金融领域中人工客服和用户之间的对话、相关文件、各产品的相关说明等。问答数据库可以由工作人员进行定期更新，也可以连接外部数据库并从外部数据库中定期抓取数据自动更新，本申请实施例对此不作具体限定。问答知识图谱是问答系统中的知识图谱。

通过目标头实体和目标连接关系，可以从问答数据库中查询得到至少一个第一备选三元组。例如，可以根据文本匹配算法从问答数据库中查询到和目标头实体及目标连接关系相匹配的文本，进而从文本中提取头实体、连接关系和尾实体以构建第一备选三元组。

还可以通过目标头实体和目标连接关系，从问答知识图谱中查询得到至少一个第二备选三元组。例如，可以在问答知识图谱的全部实体中查询和目标头实体之间的相似度大于阈值的头实体，并在和各头实体对应的各连接关系中，查询和目标连接关系之间的相似度大于阈值的连接关系，进而通过头实体、连接关系和与头实体通过连接关系相连的尾实体构建第二备选三元组。

步骤106，从各第一备选三元组和各第二备选三元组中，确定目标三元组中的目标尾实体。

本申请实施例中，在确定各第一备选三元组和各第二备选三元组后(以下将第一备选三元组和第二备选三元组合称为备选三元组)，可以从备选三元组中确定第三备选三元组(也即其尾实体可能为输入文本答案的三元组)，并将第三备选三元组的尾实体作为目标三元组中的目标尾实体。第三备选三元组可以为一个或多个三元组，也即目标尾实体也可以为一个或多个。在存在多个目标尾实体的情况下，可以针对每一个目标尾实体均构建一个目标三元组。例如，若目标头实体为“储蓄卡”，目标连接关系为“异常原因”，查询到的第三备选三元组分别为<储蓄卡，异常原因，账户长期未使用>、<储蓄卡，异常原因，身份信息不完整>，则目标尾实体便共有两个，且分别为“账户长期未使用”和“身份信息不完整”。

可以通过多种方式确定第三备选三元组。例如，可以将各备选三元组的头实体和目标头实体之间的相似度作为判断依据，确定与目标头实体之间相似度大于头实体相似度阈值的头实体，并将这部分头实体对应的备选三元组作为第三备选三元组；或者，也可以将各备选三元组的连接关系和目标连接关系之间的相似度作为判断依据，确定与目标连接关系之间相似度大于连接关系相似度阈值的连接关系，并将这部分连接关系对应的备选三元组作为第三备选三元组；也可以将头实体和目标头实体之间的相似度大于头实体相似度阈值，且连接关系和目标连接关系之间的相似度也大于连接关系相似度阈值的备选三元组作为第三备选三元组，本申请实施例对此不作具体限定。

步骤108，根据目标头实体、目标连接关系及目标尾实体构建目标三元组，并根据目标三元组构建针对输入文本的目标输出文本。

本申请实施例中，将目标头实体、目标连接关系和目标尾实体组建为目标三元组后，可以根据目标三元组构建目标输出文本。目标输出文本即针对输入文本的答案。例如，可以预先设置回答模板，并将目标头实体、目标连接关系和目标尾实体填入回答模板中以构建目标输出文本。也可以通过自然语言处理的方式生成目标输出文本，本申请实施例对此不作具体限定。

进一步地，若问答知识图谱中还存在与目标尾实体相连的其他实体，则还可以获取这部分实体与目标尾实体之间的连接关系，并通过自然语言处理技术判断和输入文本可能存在问题-答案关系的连接关系(可以通过采用问题和答案的文本对训练自然语言处理模型实现)，进而通过该连接关系对应的实体对目标输出文本进行进一步完善。例如，以目标尾实体为“身份信息不完整”为例，若目标尾实体存在一个为“解决方案”的连接关系，而该连接关系与“异常原因”可能为问题-答案关系，则可以将通过“解决方案”和目标尾实体连接的实体(假设分别为“登录手机app完善身份信息”和“至线下网点完善身份信息”)添加至目标输出文本中。也即针对“储蓄卡为什么异常不能用”的输出文本可以是“储蓄卡异常可能由身份信息不完善引起，您可以选择登录手机app完善身份信息，此外，您也可以选择前往线下网点完善身份信息。”

在得到目标输出文本后，还可以将目标输出文本发送至输入文本对应的终端设备上，以使得发送输入文本的用户可以看到目标输出文本。

本申请实施例提供的文本生成方法，通过对用户输入的文本进行解析获取目标头实体及目标连接关系，并基于目标头实体及目标连接关系在问答数据库和问答知识图谱中分别查找备选三元组，进而根据查找到的各备选三元组确定目标尾实体，也即问题的答案。本申请实施例在外部的问答数据库和问答知识图谱中同时查找答案，故而不需要完全依赖于问答知识图谱，即便问答知识图谱中的信息由于更新不及时等原因而不准确，也可以在问答数据库中找到准确的信息，故而能够提升答案文本生成的精度。

在一个实施例中，如图2所示，步骤102中，根据输入文本构建目标三元组中的目标头实体，包括：

步骤202，从输入文本中提取第一分词和第二分词，并将第二分词作为目标三元组中的目标连接关系，其中，第一分词为名词，第二分词为修饰第一分词的谓语。

步骤204，将第一分词作为候选头实体，并根据候选头实体，从问答知识图谱中匹配得到和候选头实体对应的全部第一实体。

步骤206，在第一实体的数量小于或者等于数量阈值的情况下，将候选头实体作为目标三元组中的目标头实体。

本申请实施例中，可以从输入文本中提取属于名词的第一分词、及属于修饰第一分词的谓语的第二分词，并将第二分词作为目标连接关系。

由于在第一分词涵盖的范围过大时，直接将第一分词作为目标头实体会使得查找范围过大，导致查询到的结果不精确(例如，若第一分词为“银行卡”，则查询到的备选三元组中可能包括信用卡、借记卡、储蓄卡等全部类型的银行卡对应的三元组，而用户有较大可能只想获取一类银行卡的信息，此时不对第一分词进行进一步限定会导致问答系统返回用户不需要的答案)，因此可以将第一分词作为候选头实体，并根据候选头实体，查询知识图谱中和候选头实体的相似度较高的全部第一实体，并统计第一实体的数量。若第一实体的数量大于数量阈值，则表明候选头实体涵盖的范围过大，需要告知用户应当对候选头实体进行进一步限定；若第一实体的数量小于或者等于数量阈值，则可以将候选头实体作为目标头实体，进行备选三元组的查询。其中，数量阈值可以由本领域技术人员根据问答知识图谱的规模进行设定，例如在知识图谱的规模较小时，可以将数量阈值也设置的较小；在知识图谱的规模较大时，可以将数量阈值也设置的较大。

本申请实施例提供的文本生成方法，将输入文本中的第一分词作为候选头实体，并查询候选头实体在问答知识图谱中对应的第一实体的数量，并在第一实体的数量小于或者等于数量阈值时，将候选头实体作为目标头实体。本申请实施例在候选头实体的涵盖范围较小时才将候选头实体作为目标头实体，并进行后续基于目标头实体和目标连接关系获取备选三元组的步骤，可以避免目标头实体范围过大而导致查询到与用户期望不相关的答案，提升答案文本生成的精度。

在一个实施例中，如图3所示，上述方法还包括：

步骤302，在第一实体的数量大于数量阈值的情况下，根据候选头实体和各第一实体生成中间输出文本，并向发送输入文本的终端设备发送中间输出文本。

步骤304，接收终端设备针对中间输出文本反馈的中间输入文本，并从中间输入文本中提取第三分词，第三分词为名词。

步骤306，将第三分词作为候选头实体，并跳转至根据候选头实体，从问答知识图谱中匹配得到和候选头实体对应的全部第一实体的步骤。

本申请实施例中，在候选头实体涵盖的范围过大，也即第一实体的数量大于数量阈值的情况下，可以通过和用户进行交互以对候选头实体进行进一步限定。可以通过候选头实体和查询到的全部第一实体生成中间输出文本，以提示用户在各第一实体中进行选择。例如，若候选头实体为“银行卡”，第一实体分别为“信用卡”、“借记卡”和“储蓄卡”，则生成的中间输出文本可以为“请确认银行卡的种类：(1)信用卡；(2)借记卡；(3)储蓄卡”。在生成中间输出文本后，可以将中间输出文本发送至向服务器发送输入文本的终端设备，以向用户展示中间输出文本。

在用户输入针对中间输出文本反馈的中间输入文本后，终端设备将中间输入文本发送回服务器，服务器可以从中间输入文本中提取为名词的第三分词。由于中间输出文本为提示用户对候选头实体进行进一步限定的文本，故而第三分词涵盖的范围大概率比候选头实体小。可以通过将第三分词作为候选头实体并重新查询候选头实体对应的第一实体数量，确定候选头实体所涵盖的范围。若第一实体的数量仍然大于数量阈值，则可以重复进行提示用户对候选头实体进行进一步限定的步骤，直至第一实体的数量小于阈值或达到预设的交互轮次限制为止。

本申请实施例提供的文本生成方法，通过和用户进行交互并提示用户对候选头实体进一步限定以获取第三分词，并重复进行将第三分词作为候选头实体，并获取候选头实体对应的第一实体的数量的步骤，直至候选头实体的涵盖范围缩小为止，可以避免目标头实体范围过大而导致查询到与用户期望不相关的答案，提升答案文本生成的精度。

在一个实施例中，如图4所示，步骤204中，根据候选头实体，从问答知识图谱中匹配得到和候选头实体对应的全部第一实体，包括：

步骤402，分别确定候选头实体，和问答知识图谱中各实体之间的实体相似度。

步骤404，根据当前发送中间输出文本的总次数，确定相似度阈值，其中相似度阈值与发送中间输出文本的总次数正相关。

步骤406，将实体相似度大于相似度阈值的实体，作为候选头实体对应的第一实体。

本申请实施例中，可以预先设置相似度阈值(具体数值可由本领域技术人员根据实际需求选择)，并确定问答知识图谱中各实体和候选头实体之间的实体相似度。若实体相似度大于相似度阈值，则可以将实体作为候选头实体对应的第一实体。

在和用户进行交互时，相似度阈值可以随着交互轮次(也即发送中间输出文本的次数)逐渐上升，以更快限缩候选头实体涵盖的范围，避免出现和候选头实体之间相似度大于相似度阈值的实体数量同时也大于数量阈值，导致陷入死循环的情况。相似度阈值的上升速率可由本领域技术人员根据实际需求确定，例如可以每发送一次中间输出文本，便在相似度阈值上增加一个固定值；或者也可以使得相似度阈值和中间输出文本的发送次数为固定比值，本申请实施例对此不作具体限定。

本申请实施例提供的文本生成方法，通过在每一轮交互中提升相似度阈值，可以避免出现和候选头实体之间相似度大于相似度阈值的实体数量同时也大于数量阈值，导致陷入死循环的情形。通过缩小候选头实体的涵盖范围，可以避免目标头实体范围过大而导致查询到与用户期望不相关的答案，提升答案文本生成的精度。

在一个实施例中，如图5所示，上述方法还包括：

步骤502，在第一实体的数量大于数量阈值时，获取输入文本对应的用户信息，并从用户信息中获取候选头实体的关联信息。

步骤504，根据关联信息和候选头实体，构建目标三元组中的目标头实体。

本申请实施例中，在第一实体的数量大于数量阈值，需要对候选头实体涵盖的范围进行限缩时，由于用户的问题有较大可能是针对用户所持有的产品的，因此可以通过查询用户的信息，对候选头实体进行进一步限定。

由于用户通常需要在终端设备上进行登录才能够使用知识图谱问答系统，故而服务器可以通过获取发送输入文本的用户信息，从用户信息中确定候选头实体的关联信息。关联信息是在用户信息中和候选头实体属于同一类型的信息。例如，若用户信息的形式为数据表，则可以通过查询数据表的表头，获取和候选头实体相似度最高的字段名或者具有映射关系的字段名，并获取该字段名对应的字段下的所有信息作为关联信息，进而从关联信息中获取目标头实体。

例如，在候选头实体为“银行卡”时，若用户信息数据表中存在字段名为“卡类型”的字段，则可以确定该字段和候选头实体相对应。若卡类型字段下存在“借记卡”和“储蓄卡”，则可以将“借记卡”和“储蓄卡”分别作为目标头实体，并根据两个目标头实体分别进行后续的备选三元组的查询步骤。

此外，由于用户所需要的信息可能也并不是用户自身所持有的产品的相关信息，也可以在查询到相关信息后，将相关信息作为一个目标头实体，将候选头实体作为另一个目标头实体。也即最终将得到至少两个目标尾实体。在文本生成时，可以根据候选头实体对应的目标三元组首先生成一段文本，进而根据相关信息对应的目标三元组生成另一段文本，对前一段文本进行进一步限定。例如，若输入文本为“银行卡的异常原因”，最终生成的文本可以为“银行卡的异常原因可能有多种，例如信用卡的异常原因是……，借记卡的异常原因是……；同时，基于您所持有的银行卡信息，您查询的可能是‘信用卡的异常原因’，信用卡的异常原因具体是……”，以此同时为用户提供范围较大的答案和贴近用户信息的答案。

本申请实施例提供的文本生成方法，通过查询用户信息获取和候选头实体的关联信息，进而根据关联信息构建候选头实体。由于关联信息是较为具体的信息，其范围比候选头实体小，因而根据关联信息构建候选头实体可以缩小候选头实体的涵盖范围，可以避免目标头实体范围过大而导致查询到与用户期望不相关的答案，提升答案文本生成的精度。

在一个实施例中，如图6所示，步骤104中，通过目标头实体及目标连接关系对问答数据库进行查询，得到至少一个第一备选三元组，包括：

步骤602，基于目标头实体和目标连接关系，对问答数据库中的全部文本进行分类，并将与目标头实体和目标连接关系属于同一类别的文本作为候选文本。

步骤604，针对任一候选文本，从候选文本中提取第一备选三元组中的头实体、第一备选三元组中的连接关系，及第一备选三元组中的尾实体，并根据第一备选三元组中的头实体、第一备选三元组中的连接关系，及第一备选三元组中的尾实体构建第一备选三元组。

本申请实施例中，可以通过文本分类算法，基于目标头实体和目标连接关系对问答数据库中的文本进行分类。示例性的，可以通过支持向量机、逻辑回归、随机森林等算法对问答文本进行分类，本申请实施例对此不作具体限定。

以文本分类算法为支持向量机为例，支持向量机的原理为寻找到一个可以在高维空间中划分样本的超平面。由于在文本分类中，特征空间中的样本集是非线性可分的，故而需要通过非线性变换将分类问题转化为高维空间中的线性分类问题。设存在从特征空间到另一高维空间的映射并设在高维空间中存在核函数K(x,z)(x，z为特征空间中的任意两个参数)(参见公式(一))：

则可以将支持向量机在线性分类中的决策函数表示为公式(二)：

其中y_i∈{-1,1},N为支持向量的个数，为需要优化的参数，b^*可表示为公式(三)：

使用拉格朗日乘子法使其转化为求解对偶问题，此时的目标即为在公式(四)的约束下求解

C,i＝1,2,...N公式(四)

求解得到最优解后，从中选择满足条件的分量/>(其中C＞0，为一个常数)，代入上述决策函数中，可得到分类决策函数，从而解决非线性可分样本的分类问题。

在通过文本分类算法将问答文本分为两类后，可以将和目标头实体及目标连接关系属于同一类的文本作为候选文本，并从候选文本中提取头实体、连接关系和尾实体，以构建候选文本对应的第一备选三元组。从候选文本中提取头实体、连接关系和尾实体的方式可参见前述从输入文本中提取目标头实体和目标连接关系的相关描述，本申请实施例在此不再赘述。

例如，可以通过BERT模型(Bidirectional Encoder Representation fromTransformers)提取头实体、连接关系和尾实体。BERT模型通过嵌入层将文本转化为编码，进而将编码输入至Transformer层(编码器层)中得到文本的向量表示。参见图7，为Transformer层原理的一个示例。图中的[CLS]为BERT模型中的句向量，[SEP]为句子之间的区分符，输出的x₁、x₂……x_n为句子的向量表示。

BERT的嵌入层包含token嵌入、Segment嵌入和Position嵌入，一个长度为n的文本将有3种不同的向量表示：

(1)token嵌入，记为E_token(w_i)，形状是(1，n，768)的一个向量，代表文本中每个字的向量表示。

(2)Segment嵌入，记为E_segment(w_i)，形状是(1，n，768)，用于区分文本中的不同句子。

(3)Position嵌入，记为E_Position(w_i)，形状是(1，n，768)，代表文本中每个字的位置属性。

对这些向量表示进行求和，可以生成一个形状为(1，n，768)的合成表示，也即传递给BERT的编码器层的输入表示。在合成表示中，文本中的每个字w_i都有一个编码向量E_i(参见公式(五))。

E_i＝E_token(w_i)+E_segment(w_i)+E_Position(w_i) 公式(五)

本申请实施例提供的文本生成方法，通过文本分类得到和目标头实体及目标连接关系属于同一类的候选文本，进而针对每一候选文本都提取出一个第一备选三元组，故而可以在问答数据库中查询得到和目标头实体和目标连接关系较为相似的备选三元组，提升在问答数据库中查询到的信息的精度，进而提升答案文本生成的精度。

在一个实施例中，如图8所示，步骤106中，从各第一备选三元组和各第二备选三元组中，确定目标三元组中的目标尾实体，包括：

步骤802，分别确定目标头实体和各第一头实体、各第二头实体的第一相似度，其中，第一头实体为第一备选三元组中的头实体，第二头实体为第二备选三元组中的头实体。

步骤804，分别确定目标连接关系和各第一连接关系、各第二连接关系的第二相似度，其中，第一连接关系为第一备选三元组中的连接关系，第二连接关系为第二备选三元组中的连接关系。

步骤806，根据各第一相似度和各第二相似度，从各第一备选三元组及各第二备选三元组中，确定与目标头实体及目标连接关系相匹配的第三备选三元组。

步骤808，将第三备选三元组的尾实体作为目标尾实体。

本申请实施例中，针对任一备选三元组，可以通过备选三元组中的头实体和目标头实体之间的相似度、以及备选三元组中的连接关系和目标连接关系之间的相似度，确定备选三元组和目标头实体及目标连接关系之间的相似度，进而根据相似度选取第三备选三元组。

头实体及目标头实体之间的相似度(第一相似度)可以根据头实体的语义向量和目标头实体的语义向量之间的相似度，以及头实体的名称和目标头实体的名称之间的相似度计算。其中，头实体的语义向量和目标头实体的语义向量可以通过任意自然语言处理模型进行提取，本申请实施例对此不作具体限定。语义向量之间的相似度可通过欧氏距离、巴氏距离等计算，名称之间的相似度可通过SimHash算法(一种文字相似度算法)、编辑距离算法等计算，本申请实施例对此不作具体限定。

类似的，也可以通过连接关系的语义向量和目标连接关系的语义向量之间的相似度，以及连接关系的名称和目标连接关系的名称之间的相似度，计算连接关系和目标连接关系之间的相似度(第二相似度)。计算第二相似度的具体方法可参照前述对计算第一相似度的方法的描述，本申请实施例在此不再赘述。

可以通过对第一相似度和第二相似度进行求和、加权求和或取平均值等，获得目标头实体及目标连接关系与各备选三元组之间的三元组相似度，进而根据三元组相似度从各备选三元组中选取第三备选三元组。例如，可以预先设置相似度阈值，并将三元组相似度大于相似度阈值的备选三元组作为第三备选三元组；或者也可以按照三元组相似度对各备选三元组进行排序，并取排列靠前的固定数量的备选三元组作为第三备选三元组，本申请实施例对此不作具体限定。

在获取各第三备选三元组后，可以将第三备选三元组的尾实体作为目标三元组的目标尾实体，以完成目标三元组的构建。

本申请实施例提供的文本生成方法，通过各备选三元组中的头实体和目标头实体之间的相似度，以及各备选三元组中的连接关系和目标连接关系之间的相似度确定第三备选三元组，可以在选取第三备选三元组时同时考虑头实体之间的相似度和连接关系之间的相似度，进而找到和目标头实体以及目标连接关系较为相似的第三备选三元组，提升第三备选三元组的查找精度，进而提升答案文本生成的精度。

在一个实施例中，上述方法还包括：

在第三备选三元组属于第一备选三元组的情况下，将目标三元组和/或第三备选三元组添加至问答知识图谱中。

本申请实施例中，若第三备选三元组是第一备选三元组，也即若第三备选三元组是从问答数据库而非问答知识图谱中查询到的，则说明最佳答案不在问答知识图谱中，需要对问答知识图谱进行更新。更新时可以将第三备选三元组添加至问答知识图谱中，也可以将最终构建出的目标三元组添加至问答知识图谱中。本申请实施例对于将第三备选三元组(或目标三元组)添加至问答知识图谱中的方式不作具体限定，例如，可以确定第三备选三元组/目标三元组中的头实体在问答知识图谱中是否存在对应的实体，若不存在，则将第三备选三元组/目标三元组作为独立的三元组添加至问答知识图谱中；若存在，则根据第三备选三元组、目标三元组中的连接关系和尾实体，为与头实体对应的该实体构建一个新的三元组。或者也可以通过现有的知识图谱补全算法(如transE算法、transR算法等)，将第三备选三元组/目标三元组添加至问答知识图谱中，本申请实施例对此不作具体限定。

本申请实施例提供的文本生成方法，在第三备选三元组属于从问答数据库中查询到的信息的情况下，将第三备选三元组和/或目标三元组添加至问答知识图谱中，以使得问答知识图谱中的信息随着用户查询次数的增加逐渐完善，可以实现问答知识图谱的自适应更新，提高问答知识图谱的更新效率。

为使本领域技术人员更好的理解本申请实施例，以下通过具体示例对本申请实施例加以说明。

参照图9所示，示出了一种文本生成方法的流程图。

本申请实施例中，可以预先通过训练文本对知识图谱问答系统进行训练。训练文本为问题和答案的文本对，可以通过训练好的BERT模型从问题中提取出目标头实体和目标连接关系，并从答案中提取出目标尾实体。通过支持向量机，可以从问答数据库中查询到和目标头实体及目标连接关系对应的第一备选三元组；此外还可以从问答知识图谱中查询到和目标头实体及目标连接关系对应的第二备选三元组。

训练的目标为最小化查询到的第三备选三元组中的尾实体和目标尾实体之间的差异。具体匹配得到第三备选三元组的方式可参见前述实施例的相关描述。本申请实施例中，可以将模型的训练目标设置为如下所示的公式：

其中，C为候选事实三元组集合(也即各备选三元组)，h为头实体，l为连接关系，t为尾实体，p_l为备选三元组中的连接关系，为目标连接关系，e_h为备选三元组中的头实体，为目标头实体，f(e_h，p_l)为备选三元组中的尾实体，/>为目标尾实体，n(h)为备选三元组中的头实体的名称，HED_entity为目标头实体的名称，n(l)为备选三元组中的连接关系的名称，HED_non为目标连接关系的名称，sim[]指SimHash算法，β₁、β₂、β₃、β₄是待优化参数。

在训练好知识图谱问答系统后，可以根据前述实施例中的方式，生成针对输入文本的输出文本，对用户的问题进行回答。生成输出文本的方式可参见前述实施例中的相关描述，本申请实施例在此不再赘述。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的文本生成方法的文本生成装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个文本生成装置实施例中的具体限定可以参见上文中对于文本生成方法的限定，在此不再赘述。

在一个实施例中，如图10所示，提供了一种文本生成装置1000，包括：第一接收模块1002、查询模块1004，确定模块1006，第一构建模块1008，其中：

第一接收模块1002，用于接收输入文本，并根据所述输入文本确定目标三元组中的目标头实体、及所述目标三元组中的目标连接关系；

查询模块1004，用于通过所述目标头实体及所述目标连接关系对问答数据库进行查询，得到至少一个第一备选三元组，并通过所述目标头实体及所述目标连接关系对问答知识图谱进行查询，得到至少一个第二备选三元组；

确定模块1006，用于从各所述第一备选三元组和各所述第二备选三元组中，确定所述目标三元组中的目标尾实体；

第一构建模块1008，用于根据所述目标头实体、所述目标连接关系及所述目标尾实体构建所述目标三元组，并根据所述目标三元组构建针对所述输入文本的目标输出文本。

本申请实施例提供的文本生成装置，通过对用户输入的文本进行解析获取目标头实体及目标连接关系，并基于目标头实体及目标连接关系在问答数据库和问答知识图谱中分别查找备选三元组，进而根据查找到的各备选三元组确定目标尾实体，也即问题的答案。本申请实施例在外部的问答数据库和问答知识图谱中同时查找答案，故而不需要完全依赖于问答知识图谱，即便问答知识图谱中的信息由于更新不及时等原因而不准确，也可以在问答数据库中找到准确的信息，故而能够提升答案文本生成的精度。

在其中一个实施例中，所述第一接收模块1002，还用于：

在其中一个实施例中，所述装置还包括：

在其中一个实施例中，所述第一接收模块1002，还用于：

在其中一个实施例中，所述装置还包括：

在其中一个实施例中，所述查询模块1004，还用于：

在其中一个实施例中，所述确定模块1006，还用于：

将所述第三备选三元组的尾实体作为所述目标尾实体。

在其中一个实施例中，所述装置还包括：

上述文本生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本生成方法。

本领域技术人员可以理解，图11中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种文本生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述输入文本构建目标三元组中的目标头实体，包括：

3.根据权利要求2所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述候选头实体，从所述问答知识图谱中匹配得到和所述候选头实体对应的全部第一实体，包括：

5.根据权利要求2所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述通过所述目标头实体及所述目标连接关系对问答数据库进行查询，得到至少一个第一备选三元组，包括：

7.根据权利要求1所述的方法，其特征在于，所述从各所述第一备选三元组和各所述第二备选三元组中，确定所述目标三元组中的目标尾实体，包括：

将所述第三备选三元组的尾实体作为所述目标尾实体。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

9.一种文本生成装置，其特征在于，所述装置包括：

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

12.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。