CN111914568A

CN111914568A - 文本修辞句的生成方法、装置、设备及可读存储介质

Info

Publication number: CN111914568A
Application number: CN202010770699.5A
Authority: CN
Inventors: 崔艳; 陈曦; 李薿; 庄伯金; 王少军
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-10
Anticipated expiration: 2040-07-31
Also published as: CN111914568B; WO2021139229A1

Abstract

本发明涉及人工智能，提供一种基于文本生成模型的文本修辞句的生成方法、装置、设备及可读存储介质，所述方法包括：基于知识抽取模型，抽取样本语句中具有修辞关系的第一词语和第二词语；识别所述样本语句中的多个关键词，并根据多个所述关键词，将所述第一词语和所述第二词语形成为图结构；将所述图结构构建为知识图谱，并基于所述知识图谱生成文本生成模型；当接收到文本生成指令时，基于所述文本生成模型生成文本修辞句。本发明通过由知识图谱构建的文本生成模型生成具有逻辑性的文本修辞句，确保了所生成的修辞文本符合逻辑，有利于阅读和理解。

Description

文本修辞句的生成方法、装置、设备及可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种文本修辞句的生成方法、装置、设备及可读存储介质。

背景技术

修辞学是人类日常使用和文学创作当中的重要组成部分，合理的运用修辞手法能够更加丰富的表达作者的语言情感。修辞包含多种表达形式，如比喻和拟人。比喻用某一具体、浅显、熟悉的事物或情景来说明另一种抽象的、深奥、生疏的事物或情境的一种修辞方法；它能够把不同概念而且不相关的事物进行类比，这样的表达更加生动、具体，给人留下深刻鲜明的印象。而拟人则是将本来不具备人动作和情感的事物赋予人类属性。无论是比喻还是拟人，在语义层面上均具有一定程度的内部逻辑，因此研究修辞手法的自动检测和逻辑分析将有助于推动自然语言生成的发展。

随着人工智能技术的发展，实现了通过语言模型来进行修辞手法的文本创作。但创作的内容在常识和逻辑上难以控制，生成的文本语句通常缺乏常识，或者没有逻辑性，天马行空，难以理解。

因此，如何准确生成符合逻辑性的修辞文本是当前亟待解决的技术问题。

发明内容

本发明的主要目的在于提供一种文本修辞句的生成方法、装置、设备及可读存储介质，旨在解决现有技术中如何准确生成符合逻辑性的修辞文本的技术问题。

为实现上述目的，本发明实施例提供一种文本修辞句的生成方法，所述文本修辞句的生成方法包括以下步骤：

基于知识抽取模型，抽取样本语句中具有修辞关系的第一词语和第二词语；

识别所述样本语句中的多个关键词，并根据多个所述关键词，将所述第一词语和所述第二词语形成为图结构；

将所述图结构构建为知识图谱，并基于所述知识图谱生成文本生成模型；

当接收到文本生成指令时，基于所述文本生成模型生成文本修辞句。

优选地，所述根据多个所述关键词，将所述第一词语和所述第二词语形成为图结构的步骤包括：

将多个所述关键词分别与所述第一词语进行相似度计算，获得多个第一相似度值；

将多个所述关键词分别与所述第二词语进行相似度计算，获得多个第二相似度值；

查找多个所述第一相似度值中大于预设阈值的第一目标相似度值，以及多个所述第二相似度值中大于预设阈值的第二目标相似度值；

确定与所述第一目标相似度值对应的第一关键词，以及与所述第二目标相似度值对应的第二关键词；

当所述第一关键词和所述第二关键词相同时，将所述第一关键词和所述第一词语，以及第二词语一并形成为图结构。

优选地，所述基于知识抽取模型，抽取样本语句中具有修辞关系的第一词语和第二词语的步骤包括：

将所述样本语句传输到知识抽取模型，基于所述知识抽取模型抽取所述样本语句中的实体词语；

查找各所述实体词语中满足先验关系的待验证词语对，并确定与各所述待验证词语对中每一词语对应的关系概率；

根据各所述关系概率之间的大小关系，确定各所述待验证词语对中的目标词语对，其中所述目标词语对中包含第一词语和所述第二词语。

优选地，所述基于所述知识抽取模型抽取所述样本语句中的实体词语的步骤包括：

基于所述知识抽取模型的字编码模块，确定所述样本语句中各个字的字编码，并将各个所述字编码排列为句子编码；

基于所述知识抽取模型的预设层对所述句子编码进行打分处理，得到所述样本语句中每个字的分数，并根据所述样本语句中每个字的分数，确定所述样本语句中的实体词语。

优选地，所述确定与各所述待验证词语对中每一词语对应的关系概率的步骤包括：

根据各所述实体词语在所述样本语句中的实体位置，确定各所述实体词语的实体编码，并将各所述实体编码转换为实体编码向量；

确定所述样本语句中除各所述实体词语之外的非实体词语，并根据各所述非实体词语在所述样本语句中的非实体位置，对各所述实体编码向量进行补全，获得与所述句子编码对应的向量序列；

基于所述知识抽取模型中的隐藏层输出、所述句子编码、所述向量序列、所述实体编码向量，确定与各所述待验证词语对中每一词语对应的关系概率。

优选地，所述当接收到文本生成指令时，基于所述文本生成模型生成文本修辞句的步骤包括：

当接收到文本生成指令时，获取所述文本生成指令中的本体名词以及修辞类型信息；

根据所述文本生成模型，确定与所述修辞类型信息对应的目标知识图谱；

基于所述目标知识图谱，确定与所述本体名词对应的目标图结构，并基于所述目标图结构生成所述文本修辞句。

优选地，所述基于所述目标图结构生成所述文本修辞句的步骤包括：

确定所述文本生成指令对应的句子类型，若所述句子类型为完整类型，则基于所述目标图结构生成句义完整的所述文本修辞句；

若所述句子类型为槽位类型，则基于所述目标图结构生成具有槽位的所述文本修辞句，以及与各所述槽位对应的参考词。

为实现上述目的，本发明还提供一种文本修辞句的生成装置，所述文本修辞句的生成装置包括：

抽取模块，用于基于知识抽取模型，抽取样本语句中具有修辞关系的第一词语和第二词语；

识别模块，用于识别所述样本语句中的多个关键词，并根据多个所述关键词，将所述第一词语和所述第二词语形成为图结构；

构建模块，用于将所述图结构构建为知识图谱，并基于所述知识图谱生成文本生成模型；

生成模块，用于当接收到文本生成指令时，基于所述文本生成模型生成文本修辞句。

进一步地，为实现上述目的，本发明还提供文本修辞句的生成设备，所述文本修辞句的生成设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的文本修辞句的生成程序，所述文本修辞句的生成程序被所述处理器执行时实现上述的文本修辞句的生成方法的步骤。

此外，为实现上述目的，本发明还提供一种可读存储介质，所述可读存储介质上存储有文本修辞句的生成程序，所述文本修辞句的生成程序被处理器执行时实现上述的文本修辞句的生成方法的步骤。

本发明提供一种文本修辞句的生成方法、装置、设备及可读存储介质，预先设置有知识抽取模型，先通过该知识抽取模型，对样本语句中具有修辞关系的第一词语和第二词语进行抽取；再识别样本语句中的多个关键词，并根据多个关键词，将第一词语和第二词语形成为图结构；进而将图结构构建为知识图谱，并基于知识图谱生成文本生成模型；此后，一旦接收到文本生成指令，则基于文本生成模型生成文本修辞句。其中，用于生成文本修辞句的文本生成模型，由图结构所构建的知识图谱生成，图结构体现了样本语句中具有修辞关系的第一词语和第二词语之间的逻辑关系，使得知识图谱中的各项词语也相互具有修辞上的逻辑性。因此，通过由知识图谱构建的文本生成模型，所生成的文本修辞句也相应具有逻辑性，确保了所生成的修辞文本符合逻辑，有利于阅读和理解。

附图说明

图1为本发明实施例方案涉及的硬件运行环境的文本修辞句的生成设备结构示意图；

图2为本发明文本修辞句的生成方法第一实施例的流程示意图；

图3为本发明文本修辞句的生成装置较佳实施例的功能模块示意图；

图4为本发明文本修辞句的生成方法中图结构的示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的文本修辞句的生成设备结构示意图。

在后续的描述中，使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本发明的说明，其本身没有特定的意义。因此，“模块”、“部件”或“单元”可以混合地使用。

本发明实施例文本修辞句的生成设备可以是PC，也可以是平板电脑、便携计算机等可移动式终端设备。

如图1所示，该文本修辞句的生成设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的文本修辞句的生成设备结构并不构成对文本修辞句的生成设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及检测程序。

在图1所示的设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的检测程序，并执行以下操作：

进一步地，所述根据多个所述关键词，将所述第一词语和所述第二词语形成为图结构的步骤包括：

进一步地，所述基于知识抽取模型，抽取样本语句中具有修辞关系的第一词语和第二词语的步骤包括：

进一步地，所述基于所述知识抽取模型抽取所述样本语句中的实体词语的步骤包括：

进一步地，所述确定与各所述待验证词语对中每一词语对应的关系概率的步骤包括：

进一步地，所述当接收到文本生成指令时，基于所述文本生成模型生成文本修辞句的步骤包括：

进一步地，所述基于所述目标图结构生成所述文本修辞句的步骤包括：

本发明文本修辞句的生成设备的具体实施方式与下述文本修辞句的生成方法各实施例基本相同，在此不再赘述。

为了更好的理解上述技术方案，下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

参照图2，本发明第一实施例提供一种文本修辞句的生成方法的流程示意图。该实施例中，所述文本修辞句的生成方法包括以下步骤：

步骤S10，基于知识抽取模型，抽取样本语句中具有修辞关系的第一词语和第二词语；

本实施例中的文本修辞句的生成方法应用于服务器，适用于通过服务器训练得到文本生成模型，由文本生成模型来生成文本修辞句。其中，文本修辞句为包含有修辞手法的语句，修辞手法包括但不限于比喻、拟人等，本实施例以比喻为例进行说明。服务器中预先设定有经训练的知识抽取模型，如bert模型，用以对携带有修辞手法的句子中的实体进行抽取，训练生成文本生成模型。其中实体表征构成修辞关系的物体，包括主实体和客实体。对于比喻的修辞，其中的本体构成主实体，喻体构成客实体。

进一步地，预先设定供训练的多个样本语句，通过知识抽取模型，对样本语句进行抽取，得到样本语句中与修辞关系对应的第一词语和第二词语。该第一词语和第二词语分别表征构成修辞关系的主实体词语和客实体词语，即将样本语句中的主实体抽取为第一词语，客实体抽取为第二词语。如对于样本语句“白云像棉花糖一样”，其中具有比喻修辞，“白云”为本体，“棉花糖”为喻体；在比喻的修辞中，本体构成主实体，喻体构成客实体，故将主实体“白云”抽取为第一词语，而将客实体“棉花糖”抽取为第二词语。需要说明的是，若样本语句中包含多组主实体和客实体，则对各主实体和客实体均进行抽取，得到多个具有修辞关系的第一词语和第二词语。

步骤S20，识别所述样本语句中的多个关键词，并根据多个所述关键词，将所述第一词语和所述第二词语形成为图结构；

可理解地，对于比喻的修辞手法，除了本体和喻体之外，还包含有喻底，用以表征本体和喻体之间所具有的相似性和共同点。本实施例在通过知识抽取模型抽取到样本语句表征本体的第一词语和表征喻体的第二词语之后，继续查找两者之间的喻底。具体地，通过语义识别的方式，识别样本语句中的多个关键字，并针对每个关键词，计算每个关键词分别与第一词语以及第二词语的相似度，得到每一关键词与第一词语之间的第一相似度值，以及与第二词语之间的第二相似度值。通过各第一相似度值的大小以及各第二相似度值的大小，表征各个关键词与第一词语以及第二词语之间相似程度的高低；进而依据相似度程度的高低，确定与第一词语和第二词语的相似性均高的关键词，并将该关键词和第一词语，以及第二词语一并形成为图结构。图结构中第一词语和第二词语之间除了具有直接的映射关系，还可通过关键词进行映射，具体如图4所示。通过形成图结构在优化存储的同时，还体现了修辞关系的逻辑性，避免因链式存储在查询时引发的逻辑错误问题。

步骤S30，将所述图结构构建为知识图谱，并基于所述知识图谱生成文本生成模型；

可理解地，知识抽取模型对大量的样本语句进行处理，每次处理均生成不同的图结构。对于每次生成的图结构，识别其中的节点，将相同的节点进行合并，得到扩展延伸的带有修辞逻辑的知识图谱。其中，图结构中的节点为形成图结构中的本体、喻体或者喻底。识别各图结构中，是否存在相同的本体、喻体或者喻底；若存在，则判定各图结构中存在相同的节点，故而将相同的节点进行合并，形成包含多个图结构的知识图谱。

进一步地，预先设置有待训练的初始神经网络模型，将所形成的知识图谱中的修辞信息作为训练样本，参与对初始神经网络模型的训练，得到文本生成模型，用于生成文本修辞句。具体地，初始神经网络模型可以是有监督学习模型，也可以是无监督学习模型，本实施例以有监督学习模型为例进行说明。对知识图谱中的各项修辞信息标注不同的标签，将各项修辞信息及其标签传输到初始神经网络模型中进行训练，并计算其中的损失函数，判断损失函数的损失是否满足损失条件。若满足条件，则说明经训练的初始神经网络模型，可生成有效的文本修辞句，故将其作为文本生成模型；若不满足条件，则说明初始神经网络模型未能生成有效的文本修辞句，对初始神经网络模型的参数进行更新，并用更新的参数对各项修辞信息及其标签训练，如此循环，直到损失函数满足损失条件，生成文本生成模型。

步骤S40，当接收到文本生成指令时，基于所述文本生成模型生成文本修辞句。

更进一步地，将生成的文本生成模型部署到服务器运行，并在接收到文本生成指令，表征具有生成文本修辞句的需求时，通过该文本生成模型来生成文本修辞句。具体地，当接收到文本生成指令时，基于文本生成模型生成文本修辞句的步骤包括：

步骤S41，当接收到文本生成指令时，获取所述文本生成指令中的本体名词以及修辞类型信息；

进一步地，文本生成指令中携带有本体名词和修辞类型信息，本体名词表征所需要生成修辞的对象信息，如携带“白云”的名词，则说明需要对“白云”构建修辞语句；修辞类型信息表征所需要生成修辞的类型，如比喻的修辞类型，或者拟人的修辞类型等。服务器在接收到文本生成指令后，对其中携带的本体名词和修辞类型信息进行获取，以依据本体名词和修辞类型信息，来构建满足需求的修辞句。

步骤S42，根据所述文本生成模型，确定与所述修辞类型信息对应的目标知识图谱；

可理解地，文本生成模型中包含用于构建多种不同修辞的知识图谱，在获取到修辞类型信息后，则从文本生成模型中确定出与修辞类型信息对应的目标知识图谱，以通过目标知识图谱构建满足类型需求的修辞句。

步骤S43，基于所述目标知识图谱，确定与所述本体名词对应的目标图结构，并基于所述目标图结构生成所述文本修辞句。

更进一步地，目标知识图谱由多项图结构组成，用以对不同的对象生成修辞句。在确定目标知识图谱后，则从目标知识图谱的各项图结构中确定出与本体名词对应目标图结构，进而依据目标图结构生成文本修辞句。

此外，考虑到文本修辞句的需求可能是完整的修辞语句，以用于修辞手法的阅读；也可能是带有空缺的修辞语句，以用于填写。针对不同的需求，可通过文本生成指令中添加句子类型信息体现。具体地，基于目标图结构生成文本修辞句的步骤包括：

步骤S431，确定所述文本生成指令对应的句子类型，若所述句子类型为完整类型，则基于所述目标图结构生成句义完整的所述文本修辞句；

进一步地，文本生成指令中携带有表征所需要生成句子类型的标识，通过读取并识别该标识，确定与文本生成指令对应的句子类型。若经识别标识为完整类型标识，表征所需要生成的句子类型为完整类型，则通过目标图结构生成句义完整的文本修辞句。其中，句义完整的文本修辞句中包含完整的本体和喻体，以便于阅读。

步骤S432，若所述句子类型为槽位类型，则基于所述目标图结构生成具有槽位的所述文本修辞句，以及与各所述槽位对应的参考词。

更进一步地，若经识别标识为空缺类型标识，表征所需要生成的句子类型为槽位类型，则通过目标图结构生成具有槽位的文本修辞句。其中，具有槽位的文本修辞句中的客体空缺或喻底空缺，用以对客体或喻底进行填写。并且，还预先设置有槽位扩展词表，目标图结构参考该槽位扩展词表生成具有槽位的文本修辞句，使得文本修辞句中的槽位更为准确。同时，还生成与各槽位对应的参考词，以对填写的内容进行参考。参考词与具有槽位的文本修辞句不同显示，先将具有槽位的文本修辞句进行显示，以供用户填写。此后，在检测到填写完成后，将参考词显示供用户参考；或者由用户主动触发查看请求，对参考词显示供用户参考。

本实施例的文本修辞句的生成方法，预先设置有知识抽取模型，先通过该知识抽取模型，对样本语句中与修辞关系对应的第一词语和第二词语进行抽取；再识别样本语句中的多个关键词，并根据多个关键词，将第一词语和第二词语形成为图结构；进而将图结构构建为知识图谱，并基于知识图谱生成文本生成模型；此后，一旦接收到文本生成指令，则基于文本生成模型生成文本修辞句。其中，用于生成文本修辞句的文本生成模型，由图结构所构建的知识图谱生成，图结构体现了样本语句中具有修辞关系的第一词语和第二词语之间的逻辑关系，使得知识图谱中的各项词语也相互具有修辞上的逻辑性。因此，通过由知识图谱构建的文本生成模型，所生成的文本修辞句也相应具有逻辑性，确保了所生成的修辞文本符合逻辑，有利于阅读和理解。

进一步的，基于本发明文本修辞句的生成方法第一实施例，提出本发明文本修辞句的生成方法第二实施例，在第二实施例中，所述根据多个所述关键词，将所述第一词语和所述第二词语形成为图结构的步骤包括：

步骤S21，将多个所述关键词分别与所述第一词语进行相似度计算，获得多个第一相似度值；

本实施例通过多个关键词与第一词语以及第二词语之间的相似度大小，来生成图结构。具体地，将多个关键词分别与第一词语进行相似度计算，得到多个第一相似度值。并且，相似度计算，可以采用余弦距离，也可以采用欧氏距离进行计算，对此不做限制。

步骤S22，将多个所述关键词分别与所述第二词语进行相似度计算，获得多个第二相似度值；

更进一步地，将多个关键词分别与第二词语进行相似度计算，得到多个第二相似度值。考虑到一个样本语句中包含多项第一词语和第二词语，如两个比喻修辞，则涉及到两个第一词语和两个第二词语。此时，将两个第一词语均与多个关键词进行相似度计算，得到各自的第一相似度值；同时，将两个第二词语也均与多个关键词进行相似度计算，得到各自的第二相似度值。本实施例仅以一个第一词语和一个第二词语为例进行说明。

步骤S23，查找多个所述第一相似度值中大于预设阈值的第一目标相似度值，以及多个所述第二相似度值中大于预设阈值的第二目标相似度值；

进一步地，为了表征相似度大小，预先设置有预设阈值，将各第一相似度值和预设阈值进行对比，确定其中大于预设阈值的第一目标相似度值。同时，将各第二相似度值和预设阈值对比，确定其中大于预设阈值的第二目标相似度值。

步骤S24，确定与所述第一目标相似度值对应的第一关键词，以及与所述第二目标相似度值对应的第二关键词；

更进一步地，从各所述关键词中查找生成第一目标相似度值的第一关键词，以及生成第二目标相似度值的第二关键词。各第一关键词与第一词语之间的相似度较高，各第二关键词与第二词语之间的相似度较高。

步骤S25，当所述第一关键词和所述第二关键词相同时，将所述第一关键词和所述第一词语，以及第二词语一并形成为图结构。

进一步地，针对每一第一关键词，分别和各第二关键词对比，判断各第二关键词中是否存在与第一关键词一致的第二关键词。若存在与第一关键词一致的第二关键词，则判定该第一关键词与第二关键词相同。进而将第一关键词或第二关键词中的任何一项，结合第一词语，以及第二词语一并形成为图结构。

需要说明的是，若各项第一关键词与各项第二关键词均不相同，则说明与第一词语相似的关键词，和与第二词语相似的关键词并不相同，第一词语和第二词语之间没有共同相似的特征，可能并不是有效的修辞关系。若各项第一关键词和各项第二关键词之间具有多对相同的第一关键词和第二关键词，此时将多对第一关键词和第二关键词归类为多个待定关键词，依据第一词语或第二词语与多个待定关键词的相似度大小，来从多个待定关键词中确定最为相似的关键词，进而将最为相似的关键词，和第一词语以及第二词语构建为图结构。

本实施例通过查找与第一词语和第二词语相似度均大于预设阈值，表征与第一词语和第二词语均相似的关键词，进而将查找的关键词，和第一词语，第二词语一并形成为图结构，通过图结构中的关键词来体现第一词语和第二词语之间的修辞逻辑关系，确保依据图结构查找的逻辑正确性。

进一步的，基于本发明文本修辞句的生成方法第一实施例或第二实施例，提出本发明文本修辞句的生成方法第三实施例，在第三实施例中，所述基于知识抽取模型，抽取样本语句中具有修辞关系的第一词语和第二词语的步骤包括：

步骤S11，将所述样本语句传输到知识抽取模型，基于所述知识抽取模型抽取所述样本语句中的实体词语；

本实施例通过知识抽取模型，从样本语句中抽取具有修辞关系的第一词语和第二词语。具体地，将样本语句传输到知识抽取模型，通过知识抽取模型对样本语句中的各个字进行打分，来抽取样本语句中的实体词语。具体地，基于知识抽取模型抽取样本语句中的实体词语的步骤包括：

步骤S111，基于所述知识抽取模型的字编码模块，确定所述样本语句中各个字的字编码，并将各个所述字编码排列为句子编码；

进一步地，知识抽取模型中包含共享编码层和字编码库，将该共享编码层和字编码库共同作为字编码模块。在将样本语句传输到知识抽取模型后，先由字编码模块中的共享编码层通过bert encode，识别样本语句中的各个字；再将各个字和字编码库(如berttokenizer)对比，查找各个字的字编码。以此，得到样本语句中各个字的字编码。此后，将各个字的字编码，依据各个字在样本语句中的顺序，进行组合，排列为句子编码。

步骤S112，基于所述知识抽取模型的预设层对所述句子编码进行打分处理，得到所述样本语句中每个字的分数，并根据所述样本语句中每个字的分数，确定所述样本语句中的实体词语。

更进一步地，知识抽取模型中预先设置有对于样本语句中每个字进行打分的预设层，通过该预设层对句子编码进行打分处理。该预设层优选为包含BiLSTM层和CRF层，先将句子编码传入BiLSTM中，得到每个字对应的每个标签的分数，即样本语句中每个字的分数。这里使用BIO结构，其中“B”表示该汉字是词汇起始字符，同时也可以表示单字；“I”表示该汉字是中间字符；“O”表示该汉字不在词汇表中；即若B表征本体，则I表征本体；若B表征喻体，则I也表征喻体。随后接入CRF层，学习样本语句的约束条件，减少BiLSTM层可能出现的错误预测序列，比如句子的开头应该是B或O，而不是I等。进而，由各个字的分数，确定样本语句中的实体词语；该实体词语包括主实体和客实体，为具有修辞关系的待验证的第一词语和第二词语。

步骤S12，查找各所述实体词语中满足先验关系的待验证词语对，并确定与各所述待验证词语对中每一词语对应的关系概率；

进一步地，预先设定表征所需求修辞关系的先验关系图谱，如将拟人关系、比喻关系形成为先验关系图谱，对抽取的各实体词语依据先验关系图谱进行验证，判断抽取的各实体词语之间的修辞关系是否满足先验关系图谱的先验关系要求。若满足先验关系要求，则将实体词语作为待验证词语对以进行后续的处理，若不满足先验关系要求则不进行后续的处理。后续处理过程中，对各项待验证词语对中每一词语对应的关系概率进行确定。该关系概率表征与每一词语与另一词语形成修辞关系的概率，在确定时，以待验证词语对中的一个词语作为基础，计算其和其他词语之间的概率大小。具体地，确定与各待验证词语对中每一词语对应的关系概率的步骤包括：

步骤S121，根据各所述实体词语在所述样本语句中的实体位置，确定各所述实体词语的实体编码，并将各所述实体编码转换为实体编码向量；

更进一步地，对于抽取的各实体词语，通过知识抽取模型中的“半指针-半标注”结构，确定各自的首尾位置，由各自的首尾位置确定各实体词语在样本预警中的实体位置。进而对实体位置在句子编码中对应的编码进行查找，得到的编码即为实体词语在句子编码中的实体编码。此后，将查找得到的实体编码传输到知识抽取模型，通过知识抽取模型进行向量化处理，实现将各实体编码转换为实体编码向量。

步骤S122，确定所述样本语句中除各所述实体词语之外的非实体词语，并根据各所述非实体词语在所述样本语句中的非实体位置，对各所述实体编码向量进行补全，获得与所述句子编码对应的向量序列；

可理解地，样本预警中除了各实体词语之外的词语构成非实体词语，依据实体词语，从样本语句中确定出非实体词语。并且，查找各非实体词语在样本语句中的位置，作为非实体位置。进而依据非实体位置，用预先设定的编码向量，如position embedding，对实体词语的编码向量进行补全。即将预先设定的编码向量按照非实体位置，添加到各实体编码的编码相同中，得到与句子编码对应的向量序列。其中，句子编码与向量序列之间的长度相同。

步骤S123，基于所述知识抽取模型中的隐藏层输出、所述句子编码、所述向量序列、所述实体编码向量，确定与各所述待验证词语对中每一词语对应的关系概率。

进一步地，将样本语句传输到知识抽取模型的隐藏层，以通过隐藏层对样本语句进行处理，得到隐藏层输出。进而依据该隐藏层输出、句子编码、向量序列实体编码向量，确定与各待验证实体对中每一词语对应的关系概率。通过各待验证词语对中每一词语的关系概率，来确定与各待验证词语对中每一词语存在修辞关系的另一词语。

步骤S13，根据各所述关系概率之间的大小关系，确定各所述待验证词语对中的目标词语对，其中所述目标词语对中包含第一词语和所述第二词语。

更进一步地，依据各待验证词语对中每一词语与另一词语所具有的关系概率大小，确定各待验证词语对中具有修辞关系的目标词语对，该目标词语对包含第一词语和第二词语，以依据第一词语和第二词语形成图结构，并构建知识图谱，得到文本生成模型，用以生成文本修辞句。具体地，针对每一词语，在其所具有的各个关系概率之间对比，确定各关系概率之间数值最大的关系概率。查找生成数值最大的关系概率的词语，并将其和当前作为基础计算的词语形成各待验证词语之间的目标实体对，两个词语分别形成目标词语对中的第一词语和第二词语。如对于满足先验关系的待验证词语对A1和B1，以及A2和B2，需要分别以A1、B1、A2和B2为基础进行计算；对于A1，将其分别与B1和B2进行概率计算，以确定与A1关联的是B1还是B2。即，依据隐藏层输出、句子编码、向量序列以及A1、B1、B2的实体编码向量，确定A1与B1的关系概率，以及A1和B2之间的关系概率，从其中选择生成概率最大的确定为与A1具有关联关系的词语，A1及其具有关联关系的词语，即形成目标词语对体。以此，得到各待验证实体中具有修辞关系的多对目标词语对，即多个分别包含第一词语和第二词语的目标词语对。

本实施例通过知识抽取模型，来抽取样本语句中的实体词语，并对于满足先验关系的实体词语进行关系概率的计算，通过各关系概率的大小来确定包含第一词语和第二词语的目标词语对。由关系概率所确定的目标词语对具有较高的准确性，使得抽取的具有修辞关系的第一词语和第二词语也相应准确，进而有利于文本生成模型的准确生成，提高了通过文本生成模型所生成文本修辞句的准确性。

进一步地，本发明还提供一种文本修辞句的生成装置。

参照图3，图3为本发明文本修辞句的生成装置第一实施例的功能模块示意图。所述文本修辞句的生成装置包括：

抽取模块10，用于基于知识抽取模型，抽取样本语句中具有修辞关系的第一词语和第二词语；

识别模块20，用于识别所述样本语句中的多个关键词，并根据多个所述关键词，将所述第一词语和所述第二词语形成为图结构；

构建模块30，用于将所述图结构构建为知识图谱，并基于所述知识图谱生成文本生成模型；

生成模块40，用于当接收到文本生成指令时，基于所述文本生成模型生成文本修辞句。

本实施例的文本修辞句的生成装置，预先设置有知识抽取模型，先由抽取模块10通过该知识抽取模型，对样本语句中与修辞关系对应的第一词语和第二词语进行抽取；再由识别模块20识别样本语句中的多个关键词，并根据多个关键词，将第一词语和第二词语形成为图结构；进而由构建模块30将图结构构建为知识图谱，并基于知识图谱生成文本生成模型；此后，一旦接收到文本生成指令，则由生成模块40基于文本生成模型生成文本修辞句。其中，用于生成文本修辞句的文本生成模型，由图结构所构建的知识图谱生成，图结构体现了样本语句中具有修辞关系的第一词语和第二词语之间的逻辑关系，使得知识图谱中的各项词语也相互具有修辞上的逻辑性。因此，通过由知识图谱构建的文本生成模型，所生成的文本修辞句也相应具有逻辑性，确保了所生成的修辞文本符合逻辑，有利于阅读和理解。

进一步地，所述识别模块20包括：

第一计算单元，用于将多个所述关键词分别与所述第一词语进行相似度计算，获得多个第一相似度值；

第二计算单元，用于将多个所述关键词分别与所述第二词语进行相似度计算，获得多个第二相似度值；

第一查找单元，用于查找多个所述第一相似度值中大于预设阈值的第一目标相似度值，以及多个所述第二相似度值中大于预设阈值的第二目标相似度值；

第一确定单元，用于确定与所述第一目标相似度值对应的第一关键词，以及与所述第二目标相似度值对应的第二关键词；

形成单元，用于当所述第一关键词和所述第二关键词相同时，将所述第一关键词和所述第一词语，以及第二词语一并形成为图结构。

进一步地，所述抽取模块10包括：

抽取单元，用于将所述样本语句传输到知识抽取模型，基于所述知识抽取模型抽取所述样本语句中的实体词语；

第二查找单元，用于查找各所述实体词语中满足先验关系的待验证词语对，并确定与各所述待验证词语对中每一词语对应的关系概率；

第二确定单元，用于根据各所述关系概率之间的大小关系，确定各所述待验证词语对中的目标词语对，其中所述目标词语对中包含第一词语和所述第二词语。

进一步地，所述抽取单元还用于：

进一步地，所述第二查找单元还用于：

进一步地，所述生成模块40还包括：

获取单元，用于当接收到文本生成指令时，获取所述文本生成指令中的本体名词以及修辞类型信息；

第三确定单元，用于根据所述文本生成模型，确定与所述修辞类型信息对应的目标知识图谱；

生成单元，用于基于所述目标知识图谱，确定与所述本体名词对应的目标图结构，并基于所述目标图结构生成所述文本修辞句。

进一步地，所述生成单元还用于：

本发明文本修辞句的生成装置具体实施方式与上述文本修辞句的生成方法各实施例基本相同，在此不再赘述。

此外，本发明实施例还提出一种可读存储介质。

可读存储介质上存储有文本修辞句的生成程序，文本修辞句的生成程序被处理器执行时实现如上所述的文本修辞句的生成方法的步骤。

本发明可读存储介质的具体实施方式与上述文本修辞句的生成方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种文本修辞句的生成方法，其特征在于，所述文本修辞句的生成方法包括以下步骤：

2.如权利要求1所述的文本修辞句的生成方法，其特征在于，所述根据多个所述关键词，将所述第一词语和所述第二词语形成为图结构的步骤包括：

3.如权利要求1所述的文本修辞句的生成方法，其特征在于，所述基于知识抽取模型，抽取样本语句中具有修辞关系的第一词语和第二词语的步骤包括：

4.如权利要求3所述的文本修辞句的生成方法，其特征在于，所述基于所述知识抽取模型抽取所述样本语句中的实体词语的步骤包括：

5.如权利要求4所述的文本修辞句的生成方法，其特征在于，所述确定与各所述待验证词语对中每一词语对应的关系概率的步骤包括：

6.如权利要求1-5任一项所述的文本修辞句的生成方法，其特征在于，所述当接收到文本生成指令时，基于所述文本生成模型生成文本修辞句的步骤包括：

7.如权利要求7所述的文本修辞句的生成方法，其特征在于，所述基于所述目标图结构生成所述文本修辞句的步骤包括：

8.一种文本修辞句的生成装置，其特征在于，所述文本修辞句的生成装置包括：

9.一种文本修辞句的生成设备，其特征在于，所述文本修辞句的生成设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的文本修辞句的生成程序，所述文本修辞句的生成程序被所述处理器执行时实现如权利要求1-7中任一项所述的文本修辞句的生成方法的步骤。

10.一种可读存储介质，其特征在于，所述可读存储介质上存储有文本修辞句的生成程序，所述文本修辞句的生成程序被处理器执行时实现如权利要求1-7中任一项所述的文本修辞句的生成方法的步骤。