CN114265926A

CN114265926A - 一种基于自然语言的素材推荐方法、系统、设备及介质

Info

Publication number: CN114265926A
Application number: CN202111567862.9A
Authority: CN
Inventors: 许冠中
Original assignee: Shenzhen Power Supply Bureau Co Ltd
Current assignee: Shenzhen Power Supply Bureau Co Ltd
Priority date: 2021-12-21
Filing date: 2021-12-21
Publication date: 2022-04-01

Abstract

本发明提供一种基于自然语言的素材推荐方法、系统、设备及介质，包括，采集目标用户输入的实时内容；根据预设的行业知识库对所述目标用户输入的实时内容进行查询分析，得到相应的关键词；并通过预设的检索算法对所述相应的关键词进行检索，得到第一推荐结果；将输入的实时内容转化为语义向量输入预先训练的句向量搜索引擎，得到第二推荐结果；将所述第一推荐结果和所述第二推荐结果作为输入量输入预先训练的排序模型，输出对应的相似性得分，并对所述第一推荐结果和所述第二推荐结果进行排序，将得到排序结果输出为最终的推荐结果。本发明自动捕获用户的编辑操作，利用查询分析、语义搜索，智能推荐等技术，实现用户在写作过程中的写作素材推荐。

Description

一种基于自然语言的素材推荐方法、系统、设备及介质

技术领域

本发明涉及素材推荐技术领域，特别是涉及一种基于自然语言的素材推荐方法、系统、设备及介质。

背景技术

存在大量新闻稿件、通知、报告等文档写作需求时，文档编写人员需花费大量人力从海量的存留文档中层层分析，筛选写作素材，存在遗漏、费时、费力等诸多问题，写作效率较低，基层负担较重。特别是针对当前用户正在写作的内容进行选题、结构化模板、关键词等方面的提示和推荐，需要一种的智能写作辅助系统，有效地解决用户缺乏写作素材或主题模板的问题；包括实时获取编辑文本信息、查询分析、语义搜索及L2R(Learning toRank)、候选短语推荐、例句实时推荐、相关主题段落推荐及推荐标题等；所述编辑信息获取模块用于实时采集用户输入，并将获取的输入数据自动发送给查询分析模块、L2R(Learning to Rank)，实现候选短语推荐、例句推荐、主题段落推荐等功能。

发明内容

本发明的目的在于，提出一种基于自然语言的素材推荐方法、系统、设备及介质，解决现有方法人工方式写作效率较低且负担较重的技术问题。

一方面，提供一种基于自然语言的素材推荐方法，包括：

采集目标用户输入的实时内容；

根据预设的行业知识库对所述目标用户输入的实时内容进行查询分析，得到相应的关键词；并通过预设的检索算法对所述相应的关键词进行检索，得到第一推荐结果；

将输入的实时内容转化为语义向量输入预先训练的句向量搜索引擎，得到第二推荐结果；

将所述第一推荐结果和所述第二推荐结果作为输入量输入预先训练的排序模型，输出所述第一推荐结果和所述第二推荐结果对应的相似性得分，并根据对应的相似性得分对所述第一推荐结果和所述第二推荐结果进行排序，将得到排序结果输出为最终的推荐结果。

优选地，所述预设的行业知识库根据以下过程获得：

采集行业语料数据并转换成预设的格式；

识别所述行业语料数据中的文本元素，生成文档树；

根据预设的电力行业知识图谱识别对应关键词，并根据预设的知识三元组数据对所述关键词进行拆分；

判断拆分后的关键词是否存在语义相同的词语，并将语义相同的词语组成为一个新的关键词集；

将关键词集预设的电力行业知识图谱中，得到预设的行业知识库；

其中，所述预设的行业知识库包括用于检索的词语、与所述词语对应的问句及对应的答案。

优选地，所述预先训练的句向量搜索引擎根据以下过程进行训练：

将采集的行业语料数据按照预设的格式进行格式转化；

对格式转化后的采集的行业语料数据按照预设的类别标准进行分类，得到电力行业知识相似问句样本数据集；

将所述电力行业知识相似问句样本数据集按照预设比例组成电力专业知识问答训练数据集。

优选地，所述预先训练的句向量表示模型通过以下过程获得：

将电力专业知识问答训练数据集作为输入项输入预设的句向量表示模型，得到领域知识问答问句的句向量；将得到的领域知识问答问句的句向量存入预设的向量搜索引擎，得到句向量搜索引擎；其中，所述句向量搜索引擎包括问句向量、对应的问句答案。

另一方面，还提供一种基于自然语言的素材推荐系统，用以实现所述的基于自然语言的素材推荐方法，包括：

数据采集模块，用以采集目标用户输入的实时内容；

第一推荐模块，用以根据预设的行业知识库对所述目标用户输入的实时内容进行查询分析，得到相应的关键词；并通过预设的检索算法对所述相应的关键词进行检索，得到第一推荐结果；

第二推荐模块，用以将输入的实时内容转化为语义向量输入预先训练的句向量搜索引擎，得到第二推荐结果；

最终推荐模块，用以将所述第一推荐结果和所述第二推荐结果作为输入量输入预先训练的排序模型，输出所述第一推荐结果和所述第二推荐结果对应的相似性得分，并根据对应的相似性得分对所述第一推荐结果和所述第二推荐结果进行排序，将得到排序结果输出为最终的推荐结果。

优选地，所述第一推荐模块还用于采集行业语料数据并转换成预设的格式；

识别所述行业语料数据中的文本元素，生成文档树；

优选地，所述第二推荐模块还用于将采集的行业语料数据按照预设的格式进行格式转化；

另一方面，一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时下述方法的步骤：

采集目标用户输入的实时内容；

另一方面，一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现下述的方法的步骤：

采集目标用户输入的实时内容；

综上，实施本发明的实施例，具有如下的有益效果：

本发明提供的基于自然语言的素材推荐方法、系统、设备及介质，通过采集、清洗、分析特定领域的专业语料数据，对异构的语料数据进行格式转换、内容切分、元数据自动标引、创建多维度索引，构建智能写作的语义搜索引擎，自动捕获用户的编辑操作，利用查询分析、语义搜索，智能推荐等技术，实现用户在写作过程中的写作素材推荐。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，根据这些附图获得其他的附图仍属于本发明的范畴。

图1为本发明实施例中一种基于自然语言的素材推荐方法的主流程示意图。

图2为本发明实施例中一种句向量表示模型的示意图。

图3为本发明实施例中一种基于自然语言的素材推荐系统的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述。

如图1所示，为本发明提供的一种基于自然语言的素材推荐方法的一个实施例的示意图。在该实施例中，所述方法包括以下步骤：

采集目标用户输入的实时内容；也就是，动态采集用户写作时的输入内容，边写边推荐。

进一步的，根据预设的行业知识库对所述目标用户输入的实时内容进行查询分析，得到相应的关键词；并通过预设的检索算法对所述相应的关键词进行检索，得到第一推荐结果；也就是，搜索引擎对用户输入的内容文本进行查询分析处理：对输入的文本进行包括分词，去停用词，抽取其中的关键词和业务实体；利用同义词、相似词库替换其中、关键词，扩展或改写检索词。并利用BM25算法对文本进行召回，返回最相关的结果。

具体实施例中，所述预设的行业知识库根据以下过程获得：采集行业语料数据并转换成预设的格式；即，部署爬虫，抓取内网的行业新闻资讯、企业内参、动态、活动、事件、会议展览、工作报告、专业期刊、论文、图书、文献、专业词典等海量异构的行业语料数据。对采集的文档进行数据预处理，包括格式转换、内容自动切分、SPO识别元数据自动标引，构建行业知识库。其中，SPO识别指知识三元组数据，包括Subject(实体)、Predicate(实体属性/实体之间的关系)以及Object(实体属性值/关联实体)。识别所述行业语料数据中的文本元素，生成文档树；即，将不同格式的文档如word、pdf、xls等文件，转换成统一的HTML格式。并解析HTML格式文件，识别其中层次化标题、正文段落、表格、图注、插图等元素，生成文档树，用于后续实体识别、SPO识别。根据预设的电力行业知识图谱识别对应关键词，并根据预设的知识三元组数据对所述关键词进行拆分；即，根据电力行业知识图谱的schema识别实体，实体识别算法包括基于文本匹配识别、NER模型、基于Schema和文档层级关系识别等几种。根据Schema中定义的属性，识别每个实体的SPO，当前的SPO识别算法包括表格SPO抽取、键-值类SPO抽取、纯文本SPO抽取、复杂实体结构化几种。对于SPO识别产生的schema中未定义的关系，计算其与schema中定义的关系的语义相似度，判定映射关系。对SPO三元组中的实体值进行拆分和规范化。判断拆分后的关键词是否存在语义相同的词语，并将语义相同的词语组成为一个新的关键词集；即，判断输入实体集合中是否存在语义相同的实体，并将语义相同的实体组融合为一个新的实体。判断SPO三元组中的实体文本值是否是实体，如果是实体，则将其对应实体ID补充到实体值中。将关键词集预设的电力行业知识图谱中，得到预设的行业知识库；即，将实体信息存储到图数据库中，便于上层的智能问答应用使用知识图谱。其中，所述预设的行业知识库包括用于检索的词语、与所述词语对应的问句及对应的答案。抽取文档元数据与内容数据，进行文本分析，为文档元数据(标题、来源、关键字、主题词、作者、专业分类、发布时间等属性)和文本内容建立关键字全文索引。

进一步的，将输入的实时内容转化为语义向量输入预先训练的句向量搜索引擎，得到第二推荐结果；也就是，将用户输入的问题文本转换成语义向量的表示，向句向量搜索引擎提交基于语义向量的检索，通过ANN算法快速获得最相似的K个问答，实现语义向量的召回。

具体实施例中，所述预先训练的句向量搜索引擎根据以下过程进行训练：

将采集的行业语料数据按照预设的格式进行格式转化；对格式转化后的采集的行业语料数据按照预设的类别标准进行分类，得到电力行业知识相似问句样本数据集；将所述电力行业知识相似问句样本数据集按照预设比例组成电力专业知识问答训练数据集；也就是，基于搜索爬虫、文档全文检索、分词技术、热词分析、情感分析等相对成熟的采集工具和自然语言处理工具，在电力企业中的专业知识库、行业动态、电力Siri、企业内网、专业期刊、论文等专业领域内容源中按专业主题抽取专业知识问答语料，构建电力行业知识相似问句样本数据集。利用样本增强工具，通过同义词、近义词、反义词、上位词、下位词替换；生成一定比例的负样本，即不相似的句子对。对生成的正负样本进行人工确认修订，导出电力专业知识问答训练数据集。

将电力专业知识问答训练数据集作为输入项输入预设的句向量表示模型，得到领域知识问答问句的句向量；将得到的领域知识问答问句的句向量存入预设的向量搜索引擎，得到句向量搜索引擎；其中，所述句向量搜索引擎包括问句向量、对应的问句答案。也就是，如图2所示，左图为微调训练阶段结构，采用分类目标函数，右图是训练好模型之后利用句向量计算两个句子之间的相似度，采用回归目标函数。u，v分别表示输入的两个句子的向量表示，|u-v|表示取两个向量的绝对值，(u,v,|u-v|)表示将三个向量在-1维度进行拼接，因此得到的向量的维度为3*d，d表示隐层维度。针对下游的文本分类目标任务进行小规模的微调，达到知识迁移、算力共享和专项高精等多赢的目标。搭建Sentencetransformers孪生BERT模型，对预训练的BERT进行修改：使用孪生(Siamese)和三级网络结构来获得语义上有意义的句子向量表示，孪生BERT网络体系结构使输入句子可以导出固定大小的向量表征。使用类似余弦相似度或曼哈顿/欧几里得距离这样的相似性度量，可以找到语义上相似的句子。加载蒸馏压缩后的预训练中文BERT模型，选择TinyALBERT。训练sentencetransformers模型，使用两个句向量的余弦值用来度量两个文本语义的相似度。对预训练模型进行Fine-tune。使用特定领域的问答数据集样本(电力专业知识问答训练数据集)，训练sentence transformers模型。文本编码部分采用相同的BERT变种模型，sentencetransformers模型的池化操作拼接在TinyALBERT，以获得固定大小的句子语义向量表示。采用平均(mean-pooling)池化操作策略，即将句子的所有token在token维度上计算平均，对BERT输出的向量进一步特征提取、压缩。池化操作后分别得到两个句子的向量表示u和v；然后拼接u、v以及他们元素级别的差值|u-v|，得到(u，v，|u-v|)；接入全链接网络，经softmax分类输出，分类任务的损失函数采用交叉熵损失函数，回归任务的损失函数为均方差损失函数。训练参数设置如下：学习率：0.00002；warmup:0.1；batchsize:16；优化器：Adam。

保存微调后的TinyALBERT模型(句向量表示模型)，使用Flask框架封装模型预测接口，提供将领域问句文本转换成语义向量的表示服务，将生成的句向量存入向量存储引擎milvus，在高维向量空间中对它们进行索引，生成领域知识问答典型问句的语义索引(预先训练的句向量搜索引擎)。

进一步的，将所述第一推荐结果和所述第二推荐结果作为输入量输入预先训练的排序模型，输出所述第一推荐结果和所述第二推荐结果对应的相似性得分，并根据对应的相似性得分对所述第一推荐结果和所述第二推荐结果进行排序，将得到排序结果输出为最终的推荐结果。

具体实施例中，对上述的两个召回结果(第一推荐结果和第二推荐结果)相关性进行排序，即对召回结果进行文本特征抽取，训练排序分类器。构建了基本的评分器和特征提取器来获得基本的匹配得分和特征，主要包括：

两个问题的长度

Skip-Gram Scorer，Psb和Qsb表示问题中的skip-ngram集合；最终得分是上述两个分值的调和平均：

TermMatch Scorer：对每一个检索词计算匹配到的term的idf之和以及问题中所有term的idf之和。之所以用idf，是因为不同词汇的重要性不一样。

Text Alignment Scorer：这里利用Waterman-Smith距离来计算对齐得分。和编辑距离或Needleman-Wunsch距离相比，此距离更偏重局部对齐，也就是最优的子序列的对齐。

Embedding Scorer：利用词向量平均获得问题向量，计算两个问题向量的相似性，包括基于字和基于词的相似性。

Entity Scorer：实体重合度得分。

Neural Scorer：可输入神经网络的输出

在获得基本特征后，利用GBDT决策树模型训练得到评分最高的结果，形成最终的L2R模型(排序模型)。

如图3所示，为本发明提供的一种基于自然语言的素材推荐系统的一个实施例的示意图。在该实施例中，包括：

数据采集模块，用以采集目标用户输入的实时内容；

第一推荐模块，用以根据预设的行业知识库对所述目标用户输入的实时内容进行查询分析，得到相应的关键词；并通过预设的检索算法对所述相应的关键词进行检索，得到第一推荐结果；具体地，所述第一推荐模块还用于采集行业语料数据并转换成预设的格式；

识别所述行业语料数据中的文本元素，生成文档树；

第二推荐模块，用以将输入的实时内容转化为语义向量输入预先训练的句向量搜索引擎，得到第二推荐结果；具体地，所述第二推荐模块还用于将采集的行业语料数据按照预设的格式进行格式转化；

将所述电力行业知识相似问句样本数据集按照预设比例组成电力专业知识问答训练数据集；

以上所描述的系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

需说明的是，上述实施例所述系统与上述实施例所述方法对应，因此，上述实施例所述系统未详述部分可以参阅上述实施例所述方法的内容得到，此处不再赘述。

并且，上述实施例所述智能设备接入的管理系统如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

相应地，本发明的又一方面还提供一种计算机设备，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于自然语言的素材推荐方法。

本领域技术人员可以理解的是，上述计算机设备的结构，仅仅是与本申请方案相关的部分结构，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比上述情况中更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如下的步骤：

采集目标用户输入的实时内容；

相应地，本发明的又一方面还提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下的步骤；

采集目标用户输入的实时内容；

可以理解的是，上述计算机设备以及计算机可读存储介质中涉及的各步骤的更多细节可以参考前述对于基于自然语言的素材推荐方法的限定，在此不再赘述。

综上，实施本发明的实施例，具有如下的有益效果：

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于自然语言的素材推荐方法，其特征在于，包括：

采集目标用户输入的实时内容；

2.如权利要求1所述的方法，其特征在于，所述预设的行业知识库根据以下过程获得：

采集行业语料数据并转换成预设的格式；

识别所述行业语料数据中的文本元素，生成文档树；

3.如权利要求1所述的方法，其特征在于，所述预先训练的句向量搜索引擎根据以下过程进行训练：

将采集的行业语料数据按照预设的格式进行格式转化；

4.如权利要求3所述的方法，其特征在于，所述预先训练的句向量表示模型通过以下过程获得：

5.一种基于自然语言的素材推荐系统，用以实现如权利要求1-4任一项所述的方法，其特征在于，包括：

数据采集模块，用以采集目标用户输入的实时内容；

6.如权利要求5所述的系统，其特征在于，所述第一推荐模块还用于采集行业语料数据并转换成预设的格式；

识别所述行业语料数据中的文本元素，生成文档树；

7.如权利要求6所述的系统，其特征在于，所述第二推荐模块还用于将采集的行业语料数据按照预设的格式进行格式转化；

8.如权利要求7所述的系统，其特征在于，所述第二推荐模块还用于将电力专业知识问答训练数据集作为输入项输入预设的句向量表示模型，得到领域知识问答问句的句向量；将得到的领域知识问答问句的句向量存入预设的向量搜索引擎，得到句向量搜索引擎；其中，所述句向量搜索引擎包括问句向量、对应的问句答案。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。