CN113378539A

CN113378539A - 一种面向标准文档编写的模板推荐方法

Info

Publication number: CN113378539A
Application number: CN202110730159.9A
Authority: CN
Inventors: 蔡毅; 彭淇; 郑昌萌
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-10
Anticipated expiration: 2041-06-29
Also published as: CN113378539B

Abstract

本发明公开了一种面向标准文档编写的模板推荐方法，包括步骤：构建标准文档库，包括标准编号，各层标题以及对应标准内容；对用户输入的标准文档的标题进行字符级的精确匹配，返回匹配文档结果；对标题查询无结果的输入，采用分词算法对用户输入进行分词，匹配包含分词各结果的标准文档标题，返回匹配文档结果；对于分词查询无结果的输入，采用词嵌入模型对查询单词进行特征映射，并根据语义特征向量进行匹配查询最接近的标准文档标题，并返回匹配结果。本发明能够根据标准文档和标准用户的输入特性，有效的进行标准文档编写的模板推荐。

Description

一种面向标准文档编写的模板推荐方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种面向标准文档编写的模板推荐方法。

背景技术

标准数据的存在帮助工业界解决了大量问题，提高了工业产品和服务的性能、效率和创新性。随着各行业标准文档写作的标准不断提出与确立，标准文档的写作呈现规范化、多样性、领域性的特点，给标准文档编写者在标准用语的使用、素材选取、文档格式的规范化带来困难。

基于标准写作用户的需求，有针对性的进行写作模板的推荐能够有效的提高标准文档写作的质量。2019年龙婧(龙婧，徐文峰，罗启星.面向智能写作的混合推荐模型研究[J].电力信息与通信技术，2019，17(4):56-61.)等人提出了一种面向智能写作的混合推荐模型，根据用户信息和输入内容从文档中找出匹配度最高的信息为用户进行推荐。然而，这种方法的结果取决于模板文档的质量，当模板文档缺失或用户信息不足时无法很好的完成推荐。同时，该方法采用人工设计的特征提取文本信息，用户的输入偏向个性化、不满足匹配要求时，基于手工设计特征的方法性能会因此下降。同样的，针对标准写作模板的推荐的两大问题：

(1)标准写作文档模板缺失；

(2)用户的个性化输入使得传统的字符串匹配算法无法精确的匹配最相关的标准模板，获取通用的标准文档模板数据以及提出一种基于文本语义匹配的标准文档模板推荐算法具有重要的意义。

发明内容

本发明的目的在于克服现有技术的不足，提供一种面向标准文档编写的模板推荐方法。本发明建立一个标准文档库，包括标准编号、各层标题以及对应标准内容；针对用户输入的标准文档的标题进行字符级的精确匹配，返回匹配文档结果；

对标题查询无结果的输入，采用分词算法对用户输入进行分词，匹配包含分词各结果的标准文档标题，返回匹配文档结果；对于分词查询无结果的输入，采用词嵌入模型对查询单词进行特征映射，并根据语义特征向量进行匹配查询最接近的标准文档标题，并返回匹配结果。本发明能够根据标准文档和标准用户的输入特性，有效的进行标准文档编写的模板推荐。

本发明至少通过如下技术方案之一实现。

一种面向标准文档编写的模板推荐方法，包括以下步骤：

步骤S1、构建标准文档库；

步骤S2、用户通过交互界面输入需要寻找的标题；

步骤S3、对用户输入的字符进行匹配，在标准文档库中进行遍历查找，若存在与用户输入字符完全匹配的标题，则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本；若不存在完全匹配的标题，则转步骤S4；

步骤S4、对用户输入的字符进行分词，分词后再进行遍历匹配，若某标准文档中的标题包含分词后的单词，则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本，若不存在包含分词后的单词，则转步骤S5；

步骤S5、将分词后的单词映射到对应的embedding向量，再对所有分词单词的embedding向量进行求平均，同样对所有标准文档中的所有标题进行分词后映射到单词对应的embedding向量后求平均，若用户输入字符的embedding和标题对应的embedding的cosine距离大于的设定值，则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本。

优选的，每一个标准文档包括标准编号、标题以及对应标题下的文本内容。

优选的，将分词后的单词映射到对应的embedding向量，再对所有分词单词的embedding向量进行求平均，计算过程如下：

w_i＝emb(x_i)

其中，emb(·)是embedding映射矩阵；x_i是用户输入的文本分词后对应的第i个单词；w_i是第i个单词映射得到的embedding向量；n是用户输入文本分词后的总单词数；s_user是用户输入分词后所有单词embedding的平均值。

优选的，对标准文档中的标题进行分词、分词后映射到embedding向量、求平均操作，得到标题embedding，对应表示为s_title：

其中，w_h是标准文档中的标题第h个单词映射得到的embedding向量；m是标准文档中的标题分词后的总单词数；s_title是标准文档中的标题分词后所有单词embedding的平均值；

若s_user和s_title的cosine距离大于设定值，则返回对应标题、该标题对应的标准文档编号以及标题下的文本。

优选的，步骤S2中，在python的交互介面用户需要输入需要寻找的模板标题。

优选的，步骤S4的分词利用python的jieba分词库、pkuseg分词库、SnowNLP分词库或THULAC分词库对输入进行分词。

优选的，步骤S5的分词利用python的jieba分词库、pkuseg分词库、SnowNLP分词库或THULAC分词库对输入进行分词。

优选的，所述embedding映射矩阵为预训练的wiki-100中文embedding。

优选的，所述embedding映射矩阵为百度百科语料库预训练的中文embedding。

优选的，中文维基百科语料库预训练的中文embedding。

本发明相较于现有技术，具有以下的有益效果：

1、本发明收集和提出了通用标准文档的写作模板，并根据内容进行了标题和编号的整理。

2、本发明提出了利用分词算法对用户的个性化标准文档的标题输入进行拆分，并根据分词结果进行匹配，提升了匹配的有效性。

3、本发明提出采用词嵌入的方式将用户输入的标准文档标题内容进行语义表示，通过语义向量空间的相似性更准确的进行标准写作模板的匹配。

附图说明

图1是本发明实施例一种面向标准文档编写的模板推荐方法的流程图。

具体实施方式

本部分将详细描述本发明的具体实施例，本发明之较佳实施例在附图中示出，附图的作用在于用图形补充说明书文字部分的描述，使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案，但其不能理解为对本发明保护范围的限制。

实施例1

如图1所示的一种面向标准文档编写的模板推荐方法，包括以下步骤：

(1)首先获取一批通用的标准文档库，每一个标准文档包括标准编号、标题、对应标题下的文本内容，如：GB_T 23465-2009、评价方法、受试者应预先了解评价项目，在试验过程中应注意体会相关评价项目，并作出主观评价；

(2)运行本项目的代码后，在python的交互介面用户输入其想要寻找的模板标题，如检测方法、术语定义等等。

(3)根据用户输入的模板标题，遍历所有标准文档进行精确匹配，判断用户输入的标题与文档中的标题是否完全一致，若完全一致，则返回用户匹配得到的标题、标题对应的标准文档编号以及对应标题下的内容文本；若没有一致的标题，则转步骤S4

(4)对用户输入的模板标题符进行分词，分词后再进行遍历匹配，若某标准文档中的标题包含分词后的单词，则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本，若不存在包含分词后的单词，则转步骤S5；

利用python的jieba分词库对用户输入进行分词，如检测方法会被分词为检测/方法。再利用分词后的单词在标准文档库中进行遍历匹配，若某标准文档的标题包含了分词后的单词，如标题口罩检测方法包含了分词后的单词检测，则返回口罩检测方法这个标题，以及该标题对应的标准文档编号以及标题下的文本。

(5)对用户输入字符进行分词，采用预训练的wiki-100中文词嵌入模型将分词后的单词映射到对应的embedding(词嵌入)向量，再对所有分词单词的embedding向量进行求平均，同样对所有标准文档中的所有标题进行分词后映射到单词对应的embedding向量后求平均，若用户输入字符的embedding和标题对应的embedding的cos距离大于0.9，则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本。

利用python的jieba分词库对输入进行分词，如检测方法会被分隔为检测/方法。再将分词后的词语映射到对应的embedding向量，得到每个单词的embedding向量后再求平均，计算过程如下：

w_i＝emb(x_i)

其中，emb(·)是embedding映射矩阵，采用的是预训练的wiki-100中文embedding；x_i是用户输入的文本分词后对应的第i个单词；w_i是第i个单词映射得到的embedding向量。n是用户输入文本分词后的总单词数；s_user是用户输入分词后所有单词embedding的平均值。同样地，对标准文档中的标题也一样进行分词、分词后映射到embedding向量、求平均三步操作，得到标题embedding，这里表示为s_title，若s_user和s_title的cosine距离大于0.9，则返回对应标题、该标题对应的标准文档编号以及标题下的文本。

实施例2

利用python的THULAC分词库对用户输入进行分词，如检测方法会被分词为检测/方法。再利用分词后的单词在标准文档库中进行遍历匹配，若某标准文档的标题包含了分词后的单词，如标题口罩检测方法包含了分词后的单词检测，则返回口罩检测方法这个标题，以及该标题对应的标准文档编号以及标题下的文本。

(5)对用户输入字符进行分词，采用预训练的wiki-100中文词嵌入模型将分词后的单词映射到对应的embedding向量，再对所有分词单词的embedding向量进行求平均，同样对所有标准文档中的所有标题进行分词后映射到单词对应的embedding向量后求平均，若用户输入字符的embedding和标题对应的embedding的cos距离大于0.9，则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本。

w_i＝emb(x_i)

其中，emb(·)是embedding映射矩阵，采用的是预训练的wiki-100中文embedding；x_i是用户输入的文本分词后对应的第i个单词；w_i是第i个单词映射得到的embedding向量，n是用户输入文本分词后的总单词数；s_user是用户输入分词后所有单词embedding的平均值。同样地，对标准文档中的标题也一样进行分词、分词后映射到embedding向量、求平均三步操作，得到标题embedding，这里表示为s_title，若s_user和s_title的cosine距离大于0.9，则返回对应标题、该标题对应的标准文档编号以及标题下的文本。

实施例3

利用python的pkuseg分词库对用户输入进行分词，如检测方法会被分词为检测/方法。再利用分词后的单词在标准文档库中进行遍历匹配，若某标准文档的标题包含了分词后的单词，如标题口罩检测方法包含了分词后的单词检测，则返回口罩检测方法这个标题，以及该标题对应的标准文档编号以及标题下的文本。

w_i＝emb(x_i)

实施例4

(5)对用户输入字符进行分词，采用预训练的百度百科中文词嵌入模型将分词后的单词映射到对应的embedding向量，再对所有分词单词的embedding向量进行求平均，同样对所有标准文档中的所有标题进行分词后映射到单词对应的embedding向量后求平均，若用户输入字符的embedding和标题对应的embedding的cos距离大于0.9，则返回给用户标题、标题对应的标准文档编号以及对应标题下的内容文本。

w_i＝emb(x_i)

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种面向标准文档编写的模板推荐方法，其特征在于，包括以下步骤：

步骤S1、构建标准文档库；

步骤S2、用户通过交互界面输入需要寻找的标题；

2.根据权利要求1所述的面向标准文档编写的模板推荐方法，其特征在于，每一个标准文档包括标准编号、标题以及对应标题下的文本内容。

3.根据权利要求2所述的面向标准文档编写的模板推荐方法，其特征在于，将分词后的单词映射到对应的embedding向量，再对所有分词单词的embedding向量进行求平均，计算过程如下：

w_i＝emb(x_i)

4.根据权利要求3所述的面向标准文档编写的模板推荐方法，其特征在于，对标准文档中的标题进行分词、分词后映射到embedding向量、求平均操作，得到标题embedding，对应表示为s_title：

5.根据权利要求4所述的面向标准文档编写的模板推荐方法，其特征在于，步骤S2中，在python的交互介面用户需要输入需要寻找的模板标题。

6.根据权利要求5所述的面向标准文档编写的模板推荐方法，其特征在于，步骤S4的分词利用python的jieba分词库、pkuseg分词库、SnowNLP分词库或THULAC分词库对输入进行分词。

7.根据权利要求6所述的面向标准文档编写的模板推荐方法，其特征在于，步骤S5的分词利用python的jieba分词库、pkuseg分词库、SnowNLP分词库或THULAC分词库对输入进行分词。

8.根据权利要求7所述的面向标准文档编写的模板推荐方法，其特征在于，所述embedding映射矩阵为预训练的wiki-100中文embedding。

9.根据权利要求7所述的面向标准文档编写的模板推荐方法，其特征在于，所述embedding映射矩阵为百度百科语料库预训练的中文embedding。

10.根据权利要求7所述的面向标准文档编写的模板推荐方法，其特征在于，中文维基百科语料库预训练的中文embedding。