CN116401340B

CN116401340B - 一种标准文献的查询比对方法及系统

Info

Publication number: CN116401340B
Application number: CN202310671606.7A
Authority: CN
Inventors: 旻苏
Original assignee: China National Institute of Standardization
Current assignee: China National Institute of Standardization
Priority date: 2023-06-08
Filing date: 2023-06-08
Publication date: 2023-08-11
Anticipated expiration: 2043-06-08
Also published as: CN116401340A

Abstract

本发明公开了一种标准文献的查询比对方法及系统，包括对用户输入的关键词和抓取的文献进行文本预处理，计算预处理后的用户输入关键词和抓取的文献相似性，将所述相似性作为目标函数，根据相似性构建深度神经网络模型，采用第一算法优化所述深度神经网络模型的学习率，采用第二算法优化所述深度神经网络模型的梯度估计，用预处理后的文本训练所述优化后的深度神经网络模型，保留相似性大0.9的文献直到遍历所有的文献，输出比对结果。该方法不仅可以提高比对精度，同时具有较好的可解释性，可以直接应用于标准文献的查询比对系统中。

Description

一种标准文献的查询比对方法及系统

技术领域

本发明涉及比对技术领域，尤其涉及一种标准文献的查询比对方法及系统。

背景技术

比对技术在中文信息处理领域的应用越来越广泛，可以帮助标准文献的查询比对系统及时、高效地获取标准文献信息，实现用户输入关键词和文献的精准比对。目前，标准文献具有数量庞大、类型多样、信息密度大、多学科综合性等共性特点，比对技术的定性分析和判断存在较多的不确定因素，导致比对分析的结果出现较大的随机性。虽然已经构建了一些标准全文数据库，也有一些专业的全文检索软件工具，但仍不能有效解决标准文献比对工作中的随机问题，因此需要一种标准文献的查询比对方法及系统。

发明内容

本发明的目的是要提供一种标准文献的查询比对方法及系统。

为达到上述目的，本发明是按照以下技术方案实施的：

本发明包括以下步骤：

A对用户输入的关键词和抓取的文献进行文本预处理；

B计算预处理后的文本相似性，将所述相似性作为目标函数；

C根据相似性构建深度神经网络模型，采用第一算法优化所述深度神经网络模型的学习率，包括：

给定超参数，在时间步t>0计算状态变量：

其中小批量随机梯度；

目标函数：

其中梯度下降；

将目标函数自变量中每个元素的学习率通过按元素运算重新调整，再更新自变量：

其中是学习率，维持数值稳定常数/>；

迭代直到相似性大于0.9且学习率不变时输出学习率；

采用第二算法优化所述深度神经网络模型的梯度估计，包括：

设定优化后的学习率，当时间步为零时初始化/>和/>中的每个元素，给定超参数，时间步的小批量随机梯度的指数加权移动平均：

其中小批量随机梯度；给定超参数/>，将小批量随机梯度按元素平方后的项/>做指数加权移动平均得到/>：

对变量和/>偏差修正：

使用偏差修正后的变量和/>，将模型参数中每个元素的学习率通过按元素运行重新调整：

其中是为了维持数值稳定的常数，使用/>迭代自变量：

并且计算相似性，迭代直到相似性大于0.9且梯度估计最大时输出结果；

D用预处理后的文本训练所述优化后的深度神经网络模型，保留相似性大于0.9的文献直到遍历所有的文献，输出结果。

进一步，采用第一模型对所述对所述向量进行序列标记的方法，包括：

设定初始值：

其中t时刻的属于状态i的概率，t时刻状态i的隐状态序号/>，混淆矩阵/>；

递推计算：

其中整段时间序列的时长T，存在可能得状态数N，序列长度k，隐藏状态的转移矩阵；

递推结束：

其中函数求出概率/>取最大值时的参数；

预测最优的状态序列：

通过设置t的值可能得到每一个时刻对应最优的状态。

进一步，所述采用第二模型对所述序列标记后的向量进分词的方法，包括：

将带分词的字符串从左到右切分为；计算当前词与前驱词的概率：

其中字符串词m个，相关的前几个词；

计算该词的累计概率值:

保留大的累计概率，直到该字符串结束：

从开始，按照从右到左的顺序，将前驱词输出分词结束。

进一步，计算预处理后的用户输入关键词和抓取的文献相似性的方法，包括：

其中n维向量表示句子，目标文本中n维向量/>表示句子，在目标文本出现的次数n，相似性/>。

进一步，所述用预处理后的数据训练所述优化后的深度神经网络模型的方法，包括：

将优化后的学习率和梯度估计带入所述深度神经网络模型中，将预处理后的数据送入网络中，逐层进行前向计算，直至输出层，然后将当前网络输出与标准文献比较，并计算相似性；根据链式法则，逐层计算出相似性关于各层的梯度：

其中L是相似性函数，相似性函数对于激活函数的梯度，权重梯度；

根据反向过程得到权重的梯度，更新权重：

其中，权重的梯度，学习率/>；比较权重，保留大的并输出为结果。

第二方面，一种标准文献的查询比对系统，包括

预处理模块，用于取出所述用户输入关键词和抓取的文献的中文字符，将所述中文字符转变为向量，采用第一模型对所述向量进行序列标记，采用第二模型对所述序列标记后的向量进行分词；

计算模块，用于计算预处理后的文本相似性，将所述相似性作为目标函数；

构建模块，用于根据相似性构建深度神经网络模型，采用第一算法优化所述深度神经网络模型的学习率，包括：

给定超参数，在时间步t>0计算状态变量：

其中小批量随机梯度；

目标函数：

其中梯度下降；

其中是学习率，维持数值稳定常数/>；

迭代直到相似性大于0.9且学习率不变时输出学习率；

对变量和/>偏差修正：

其中是为了维持数值稳定的常数，使用/>迭代自变量：

输出模块，用于训练所述优化后的深度神经网络模型，保留相似性大于0.9的文献直到遍历所有的文献，输出比对结果。

本发明的有益效果是：

本发明是一种标准文献的查询比对方法及系统，与现有技术相比，本发明具有以下技术效果：

1．本发明通过预处理、计算相似性、构建优化深度神经网络和训练深度神经网络步骤，可以提高比对的准确性，从而提高比对的精度，系统将比对自动化，可以大大提高精度和速度，提高工作效率，可以实现对用户输入的关键词和抓取的文献的实时比对，及时给出不同用户输入的关键词对应的标准文献，对标准文献的查询比对系统具有重要意义，可以适应不同关键词、不同位置的标准文献的比对需求，具有一定的普适性。

2．本发明的方法可以综合考虑用户输入关键词和抓取的文献的相关性，利用深度神经网络模型将比对问题转化为预测问题，使用第一算法和第二算法优化深度神经网络，通过对已知用户输入关键词和抓取的文献的文本预处理，实现对比对的准确把控。该方法不仅可以提高比对精度，同时具有较好的可解释性，可以直接应用于标准文献的查询比对系统中。

附图说明

图1为本发明一种标准文献的查询比对方法及系统的步骤流程图。

具体实施方式

下面以及具体实施例对本发明作进一步描述，在此发明的示意性实施例以及说明用来解释本发明，但并不作为对本发明的限定。

本发明标准文献的查询比对方法及系统包括以下步骤：

如图1所示，在本实施例中，包括以下步骤：

A对用户输入的关键词和抓取的文献进行文本预处理；

B计算预处理后的用户输入关键词和抓取的文献相似性，将所述相似性作为目标函数；

给定超参数，在时间步t>0计算状态变量：

其中小批量随机梯度；

目标函数：

其中梯度下降；

其中是学习率，维持数值稳定常数/>；

迭代直到相似性大于0.9且学习率不变时输出学习率；

对变量和/>偏差修正：

其中是为了维持数值稳定的常数，使用/>迭代自变量：

在本实施例中，采用第一模型对所述对所述向量进行序列标记的方法，包括：

设定初始值：

递推计算：

递推结束：

其中函数求出概率/>取最大值时的参数；

预测最优的状态序列：

通过设置t的值可能得到每一个时刻对应最优的状态。

在本实施例中，所述采用第二模型对所述序列标记后的向量进分词的方法，包括：

将带分词的字符串“欢迎大家来到文本计算与认知智能实验室”从左到右切分为；计算当前词与前驱词的概率：

其中字符串词7个，相关的前几个词；

计算该词的累计概率值:

保留大的累计概率，直到该字符串结束：

从开始，按照从右到左的顺序，将前驱词输出分词“欢迎/大家/来/到/文本/计算/与/认知/智能/实验室”。

在本实施例中，计算预处理后的用户输入关键词和抓取的文献相似性的方法，包括：

在实际评估中，分别将技术管理标准输入未优化和优化后的深度神经网络，当梯度估计为0.001其他配置参数相同的情况下，未优化的耗时37s，优化的耗时45s；当梯度估计调为0.01时，未优化的耗时28s，优化的耗时17s，比校可得优化后的深度神经网络处理速度更快。

在本实施例中，所述用预处理后的数据训练所述优化后的深度神经网络模型的方法，包括：

将优化后的学习率和梯度估计带入所述深度神经网络模型中，将预处理后的数据分批送入网络中，逐层进行前向计算，直至输出层，然后将当前网络输出与标准文献比较，并计算相似性；根据链式法则，逐层计算出相似性关于各层的梯度：

根据反向过程得到权重的梯度，更新权重：

在实际评估中，根据用户给出的不同关键词，修改了部分词语和汉字，将有些词语换了一种说法，使用优化后的神经网络进行比对，通过比较之后，系统给出标准文献的相似程度为96%。

第二方面，一种标准文献的查询比对系统，包括

给定超参数，在时间步t>0计算状态变量：

其中小批量随机梯度；

目标函数：

其中梯度下降；

其中是学习率，维持数值稳定常数/>；

迭代直到相似性大于0.9且学习率不变时输出学习率；

对变量和/>偏差修正：

其中是为了维持数值稳定的常数，使用/>迭代自变量：

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种标准文献的查询比对方法，其特征在于，包括：

A对用户输入的关键词和抓取的文献进行文本预处理，包括取出所述用户输入关键词和抓取的文献的中文字符，将所述中文字符转变为向量，采用第一模型对所述向量进行序列标记，采用第二模型对所述序列标记后的向量进行分词；

B计算预处理后的文本相似性，将所述相似性作为目标函数；

给定超参数，在时间步t>0计算状态变量：/>，

其中小批量随机梯度；

目标函数：

，

其中梯度下降；

，

其中是学习率，维持数值稳定常数/>；

迭代直到相似性大于0.9且学习率不变时输出学习率；

，

其中小批量随机梯度；给定超参数/>，将小批量随机梯度按元素平方后的项做指数加权移动平均得到/>：

，

对变量和/>偏差修正：

，

其中是为了维持数值稳定的常数，使用/>迭代自变量：

，

D用预处理后的随机选取文本训练所述优化后的深度神经网络模型，保留相似性大于0.9的文献直到遍历所有的文献，输出比对结果。

2.根据权利要求1所述标准文献的查询比对方法，其特征在于，采用第一模型对所述向量进行序列标记的方法，包括：

设定初始值：

，

递推计算：

，

递推结束：

，

其中函数求出概率/>取最大值时的参数；

预测最优的状态序列：

，

通过设置t的值可能得到每一个时刻对应最优的状态。

3.根据权利要求1所述标准文献的查询比对方法，其特征在于，所述采用第二模型对所述序列标记后的向量进分词的方法，包括：

，

其中字符串词m个，相关的前几个词n()；

计算该词的累计概率值:

，

保留大的累计概率，直到该字符串结束：

从开始，按照从右到左的顺序，将前驱词输出分词结束。

4.根据权利要求1所述标准文献的查询比对方法，其特征在于，计算预处理后的用户输入关键词和抓取的文献相似性的方法，包括：

，

5.根据权利要求1所述的标准文献的查询比对方法，其特征在于，所述用预处理后的数据训练所述优化后的深度神经网络模型的方法，包括：

，

其中L是相似性函数，相似性函数对于激活函数的梯度，权重梯度/>；

根据反向过程得到权重梯度，更新权重：

，

其中，权重梯度，学习率/>；比较权重，保留大的并输出为结果。

6.一种标准文献的查询比对系统，其特征在于，包括，

预处理模块，用于取出用户输入关键词和抓取的文献的中文字符，将所述中文字符转变为向量，采用第一模型对所述向量进行序列标记，采用第二模型对所述序列标记后的向量进行分词；

给定超参数，在时间步t>0计算状态变量：

，

其中小批量随机梯度；

目标函数：

，

其中梯度下降；

，

其中是学习率，维持数值稳定常数/>；

迭代直到相似性大于0.9且学习率不变时输出学习率；

，

对变量和/>偏差修正：

，

其中是为了维持数值稳定的常数，使用/>迭代自变量：

，