CN116991979B

CN116991979B - 一种基于明确语义内容的匹配方法与装置

Info

Publication number: CN116991979B
Application number: CN202311253096.8A
Authority: CN
Inventors: 张智雄; 张彧; 刘熠
Original assignee: National Science Library Chinese Academy Of Sciences
Current assignee: National Science Library Chinese Academy Of Sciences
Priority date: 2023-09-27
Filing date: 2023-09-27
Publication date: 2023-12-01
Anticipated expiration: 2043-09-27
Also published as: CN116991979A

Abstract

本申请涉及智能数据处理相关技术领域，提供一种基于明确语义内容的匹配方法与装置。连接文献数据库，对文献进行多维数据抽取，建立抽取数据集；将抽取数据集进行数据预处理，并与对应文献关联，存储到Milvus数据库中；配置推荐控制网络；对接所述推荐控制网络与所述Milvus数据库，通过多路召回模式生成候选文件簇；依据所述约束数据对所述候选文件簇进行结果排序，生成匹配结果。解决了现有技术在进行文献匹配的过程中，存在不能深度解析科技文献，进而导致对于文献的分析不够准确，匹配维度单一，导致存在匹配结果不精准的技术问题。

Description

一种基于明确语义内容的匹配方法与装置

技术领域

本申请涉及智能数据处理相关技术领域，特别是涉及一种基于明确语义内容的匹配方法与装置。

背景技术

传统文本匹配技术有TF-IDF、BM25等算法，主要解决词汇层面的相似度问题，但其实际存在很大局限性，例如两篇文献在词汇上相似但研究题却不相同，在词汇上不相似的两篇文献可能研究的是相同问题，因此存在不能准确进行文献的准确分析，难以完成相似匹配。

综上所述，现有技术在进行文献匹配的过程中，存在不能深度解析科技文献，进而导致对于文献的分析不够准确，匹配维度单一，导致存在匹配结果不精准的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够实现准确匹配技术效果的一种基于明确语义内容的匹配方法与装置。

第一方面，提供了一种基于明确语义内容的匹配方法，方法包括：连接文献数据库，通过SciAIEngine引擎对文献进行多维数据抽取，建立抽取数据集，多维数据抽取包括科研实体抽取、中图法分类抽取、关键短语抽取；将所述抽取数据集进行数据预处理，并将执行数据预处理后的语义特征存储至Elasticsearch索引，并与对应文献关联，并通过bert-as-service工具将处理好的语义特征进行拼接，转换为语义向量存储到Milvus数据库中；配置推荐控制网络，所述推荐控制网络包括内容相似子网络、语义单元子网络和兴趣推荐子网络，其中，所述推荐控制网络通过对用户输入数据采集后完成配置，所述输入数据包括账户数据、输入文献数据、约束数据；对接所述推荐控制网络与所述Milvus数据库，通过多路召回模式生成候选文件簇；依据所述约束数据对所述候选文件簇进行结果排序，生成匹配结果。

第二方面，提供了一种基于明确语义内容的匹配装置，装置包括：

抽取模块，所述抽取模块用于连接文献数据库，通过SciAIEngine引擎对文献进行多维数据抽取，建立抽取数据集，多维数据抽取包括科研实体抽取、中图法分类抽取、关键短语抽取；

预处理模块，所述预处理模块用于将所述抽取数据集进行数据预处理，并将执行数据预处理后的语义特征存储至Elasticsearch索引，并与对应文献关联，并通过bert-as-service工具将处理好的语义特征进行拼接，转换为语义向量存储到Milvus数据库中；

配置模块，所述配置模块用于配置推荐控制网络，所述推荐控制网络包括内容相似子网络、语义单元子网络和兴趣推荐子网络，其中，所述推荐控制网络通过对用户输入数据采集后完成配置，所述输入数据包括账户数据、输入文献数据、约束数据；

对接模块，所述对接模块用于对接所述推荐控制网络与所述Milvus数据库，通过多路召回模式生成候选文件簇；

生成模块，所述生成模块用于依据所述约束数据对所述候选文件簇进行结果排序，生成匹配结果。

第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现第一方面方法的步骤。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面方法的步骤。

上述一种基于明确语义内容的匹配方法与装置，通过连接文献数据库，对文献进行多维数据抽取，建立抽取数据集，并将抽取数据集进行数据预处理后，建立数据与文献的关联映射，构建了准确进行匹配推荐的特征集合，以用户的输入数据作为配置的约束数据，以抽取数据集作为数据库，配置推荐控制网络，完成候选文件簇生成，依据约束数据进行候选文件簇的结果排序，最终生成匹配结果。通过对于文献的多维数据抽取，建立了更加丰满的文献表述特征，进而通过建立不同的文献匹配规则，使得后续对于文献的匹配结果与用户的需求更加的契合，进而实现准确的文献匹配的技术效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为一个实施例中一种基于明确语义内容的匹配方法的流程示意图；

图2为一个实施例中一种基于明确语义内容的匹配装置的结构框图；

附图标记说明：抽取模块01，预处理模块02，配置模块03，对接模块04，生成模块05。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，本申请提供了一种基于明确语义内容的匹配方法，所述方法包括：

连接文献数据库，通过SciAIEngine引擎对文献进行多维数据抽取，建立抽取数据集，多维数据抽取包括科研实体抽取、中图法分类抽取、关键短语抽取；

进一步的，通过SciAIEngine引擎对文献进行多维数据抽取，建立抽取数据集，还包括：

基于BERT模型，使用BIO标注方法，进行科研实体抽取，其中，抽取的科研实体包括：研究问题、方法模型、理论原理、度量指标、数据资料、软件系统、仪器设备；

基于BERT模型，构建多层分类器集群，对科技文献进行中图法分类，完成中图法分类抽取；

基于BERT模型，使用字符级序列标注方法，进行科技文献关键短语自动提取，完成关键短语抽取。

文献数据库为收录了论文、期刊、报纸等数据的数据库，通过建立与文献数据库的连接，为进行准确的文献匹配提供了基础的数据支持。当建立与文献数据库的连接后，通过SciAIEngine引擎对文献进行多维数据抽取，所述SciAIEngine引擎是科技文献知识驱动的人工智能（AI）引擎。它利用科技文献大数据和深度学习技术方法，从科技文献中自动学习获取科技文本挖掘的重要知识，并基于这些知识构建起核心的人工智能组件，支撑科技文献的深入挖掘和利用。

进一步，多维数据抽取包括科研实体抽取、中图法分类抽取、关键短语抽取。

一般而言，科研实体抽取为对研究问题、方法模型、理论原理、度量指标、数据资料、软件系统、仪器设备进行抽取的过程，BERT模型是一个自编码语言模型 (AutoencoderLM)，以研究问题、方法模型、理论原理、度量指标、数据资料、软件系统、仪器设备分别作为模型训练的目标数据，对BERT模型进行数据提取训练，使用BIO标注方法，完成科研实体抽取。举例而言，针对下述文献语段，进行科研实体抽取，“基于随机森林的直升机飞行状态识别方法。针对直升机飞行状态识别训练样本数据少而导致识别率不高的问题，提出一种基于随机森林的直升机飞行状态识别方法。首先利用去野点、限幅、平滑处理对飞行数据进行预处理，并根据特征参数将飞行状态分为8个小类：然后利用随机森林识别率较高的特点，对每一小类进行随机森林分类器设计；最后利用训练样本训练每个随机森林分类器，并将训练好的随机森林分类器识别直升机全起落飞行状态。以某型直升机实飞数据作为实验数据，将该方法与RBF神经网络法和SVM法进行对比实验，结果表明在小样本情况下该方法识别率有明显提高，识别速度也有所提高，可为直升机寿命预测提供依据。”，科研实体识别后为：“仪器设备：随机森林分类器，度量指标：识别率、特征参数、飞行状态、识别速度，数据资料：飞行数据、直升机实飞数据，方法模型：限幅、SVM法、去野点、平滑处理、RBF神经网络法，研究问题：直升机飞行状态识别方法全起落飞行状态直升机寿命预测”。

中图法分类抽取为以图法分类号为基准，进行文献特征表征的方式，一般来说，基于BERT模型，构建多层分类器集群，对科技文献进行中图法分类，完成文献的中图法分类抽取。举例而言，针对下述文献语段，进行中图法分类抽取，“利用般烧－酸漫工艺对天然硅藻土进行改性，并取代部分胶凝材料制备出水泥基调湿材料。通过对比研究了改性前后硅藻土及其掺量对水泥基调湿材料的工作性、力学及吸-放湿速率的影响，并结合硅藻土改性前后的成分与表面结构变化规律，水泥硬化体孔结构特征参数，分析改性硅藻土的作用机理。”，进行中图法分类抽取“TU528 混凝土及混凝土制品”，“TQ172 水泥工业”。

关键短语抽取为通过割离文献的关键词特征，对文献进行关键词的特征表征的抽取过程，关键词短语是用于表达文献主题内容的短语，一般基于BERT模型，使用字符级序列标注方法，进行科技文献关键短语自动提取。举例而言，针对于下述文献语段，进行关键短语提取，“Research on the Design of Measurement and Control of ResidualChlorine Based on Non-Membrane Sensor. Inorder to meet the needs of real-timemonitoring and control of residual chlorine in the water, the relatedtechnologyon the design of monitoring system of residual chlorine wasstudied, including non-membrane sensor design.structure design of flow-through cell and the design of potentiostatic circuit for three electrodesensor. Firstly, theinternal structure and working principle of non-membranechlorine sensor was introduced.”提取结果为“Non-Membrane Sensor flow-throughcell structure design three electrode potentiostatic circuit controlprecision flow cell stability and control DPD methodoperation rules constantflow rate counter electrode related technology potential stabilitycalibration method”。

通过科研实体抽取、中图法分类抽取、关键短语抽取，建立抽取数据集，提供了文献的多维度特征，为后续进行准确的文献匹配提供了多维度的特征支持。

将所述抽取数据集进行数据预处理，并将执行数据预处理后的语义特征存储至Elasticsearch索引，并与对应文献关联，并通过bert-as-service工具将处理好的语义特征进行拼接，转换为语义向量存储到Milvus数据库中；

进一步的，将所述抽取数据集进行数据预处理，还包括：

建立特殊字符识别库，依据所述特殊字符识别库进行所述抽取数据集的特殊字符识别，并依据识别结果剔除特殊字符，更新所述抽取数据集；

建立纠错还原的匹配识别库，以所述匹配识别库对更新后的所述抽取数据集进行纠错处理，并基于处理结果更新所述抽取数据集；

设定重复消除规则，依据所述重复消除规则对所述抽取数据集进行去重处理，完成所述数据预处理。

进一步的，数据预处理还包括编码转换、数字处理、归一化改写。

当完成抽取数据集构建后，为了更加便捷的数据存储，降低存储工作量，避免存储无效数据，需要进行数据的预处理，数据预处理包括去重处理、特殊字符去除处理，编码转换处理、归一化改写处理、纠错处理等。

首先，对于构建的所述抽取数据集进行特殊字符去除，特殊字符去除可通过建立特殊字符识别数库实现，依据大数据或者文献数据库，通过自动提取或人工标识，建立特殊字符识别库的基础数据，通过监督训练，实现特殊字符识别库的灵敏识别，当识别准确率满足95%准确率，则特殊字符识别库搭建完成，通过所述特殊字符识别库对所述抽取数据集进行特殊字符识别，并依据匹配结果剔除特殊字符，更新所述抽取数据集。

当特殊字符去除完成后，对更新后的所述抽取数据集进行纠错还原，纠错还原通过匹配识别库实现，以所述匹配识别库对更新后的所述抽取数据集进行纠错处理，并基于处理结果更新所述抽取数据集。在特殊字符去除后，执行纠错还原，避免了对于特殊字符的纠错识别的工作量，使得对于抽取数据集的构建更加合理，进而避免抽取数据集中存在错误数据，影响匹配效果和匹配性能，为后续进行准确的文献匹配夯实了基础。

更进一步，为避免冗余数据，可以通过设定重复消除规则，依据重复消除规则对所述抽取数据集进行去重处理。

预处理举例如下：“Biological&Medicinal Chemistry ->Biological andMedicinal Chemistry”，“中科院 ->中国科学院”，“NSFC ->National ScienceFoundation of China”。

当预处理完成后，将抽取数据集存储到Elasticsearch索引当中并与文献关联，然后使用bert-as-service工具将处理好的语义特征进行拼接并转换为语义向量存储到Milvus数据库中。

配置推荐控制网络，所述推荐控制网络包括内容相似子网络、语义单元子网络和兴趣推荐子网络，其中，所述推荐控制网络通过对用户输入数据采集后完成配置，所述输入数据包括账户数据、输入文献数据、约束数据；

进一步的，账户数据构建包括：

读取所述用户的历史行为数据，并依据所述历史行为数据构建用户画像；

建立分段时段约束，所述分段时段约束包括实时时段约束、短时时段约束和长时时段约束；

依据所述分段时段约束对所述用户画像约束，生成所述账户数据。

对接所述推荐控制网络与所述Milvus数据库，通过多路召回模式生成候选文件簇；

依据所述约束数据对所述候选文件簇进行结果排序，生成匹配结果。

进一步的，排序还包括：

设定召回约束，依据所述召回约束通过多路召回模式生成所述候选文件簇，其中，所述候选文件簇为未排序的候选文件集合；

对所述候选文件簇通过双塔模型执行粗排列，生成粗排候选文件集合，所述粗排候选文件集合通过粗排列文献数量约束构建；

通过所述粗排候选文件集合完成结果排序，获得所述匹配结果。

推荐控制网络为进行文献特征匹配的智能化集成网络，它一般由多个子网络集成，集成的子网络各自具有独立的功能，他们相互配合，实现文献特征的智能化匹配，所述推荐控制网络包括内容相似子网络、语义单元子网络、兴趣推荐子网络，所述内容相似子网络为使用目标文献的语义内容特征匹配最相关内容的文献的处理网络，也可以依据某些特定特征进行匹配，举例而言，研究问题是A并且使用了仪器设备B的文献。语义单元子网络为根据用户点选的指定语义单元匹配相关语义单元的处理网络，例如：匹配与研究问题A相似的研究问题；匹配研究问题B的相关方法模型；匹配使用理论原理C的相关研究问题；对于匹配的语义单元结果，继续给出相关的代表文献匹配列表，此处代表文献至少分别给出感兴趣的和热度最高的两种匹配结果。兴趣推荐子网络为依据用户特征构建的与用户兴趣度关联的匹配网络，一般通过加入用户画像与用户实时、短期、长期历史行为序列个性化表征，形成基于用户兴趣和用户所在领域热门文献的综合文献匹配。一般而言，在所述推荐控制网络的适配化构建完成后，需要对所述推荐控制网络进行个性化的适配处理，即通过输入数据完成配置，输入数据包括账户数据、输入文献数据、约束数据，所述账户数据为用户的历史行为数据的记录载体，通过对所述历史行为数据进行不同时段的约束，形成多种带有用户习惯特征的数据集，一般分段时段约束包括实时时段约束、短时时段约束和长时时段约束，一般设定长时段的约束时间值为3年。通过三种带有用户习惯特征的数据集使得对于推荐控制网络的配置更加准确，进而获得更多样化的匹配结果。所述输入文献数据即为需要进行匹配的参考本体，当所述输入文献数据输入所述推荐控制网络后，通过其子网络对所述输入文献数据进行特征词提取，而后基于提取结果进行Milvus数据库内的语义向量匹配。所述约束数据为各特征之间的优先级关系，用户可根据需求，自行设定，也可保持默认状态。

当推荐控制网络配置完成后，对接所述推荐控制网络与所述Milvus数据库，通过多路召回模式生成候选文件簇。生成候选文件簇的过程为召回匹配的过程，召回环节采用多路召回模式，包括基于倒排索引的文本匹配、基于科技文献的协同过滤和基于向量的ANN检索，从海量文献中快速形成未排序的小规模候选文献集合。本质而言，所述候选文件簇为相关匹配的过程，一般而言，所述候选文件簇设定的约束数量为1万。

进一步的，执行粗排列方案，对所述候选文件簇通过双塔模型进行粗排列，生成粗排候选文件集合，所述粗排候选文件集合通过粗排列文献数量约束构建（一般数量约束为1000）；粗排环节采用双塔模型，兼顾精准性和系统延时，使用蒸馏学习的方式处理交叉特征提升模型精度，从召回文献合集中形成1000个候选文献集合。以所述粗排候选文件集合作为基础数据，进行后续匹配结果排序，获得所述匹配结果。

进一步的，生成所述匹配还包括：

提取所述约束数据，建立注意力机制；

通过所述注意力机制对所述粗排候选文件集合进行预定数量的排序筛选，构建精排候选文件集合；

基于Transformer结构对精排候选文件集合进行多维筛选排序，生成所述匹配结果。

所述注意力机制反映了用户对于特征的关注度的排序筛选机制，通过所述排序筛选机制，确定筛选的标定优先级关系，完成精排筛选，精排环节采用注意力机制和序列建模，使用更复杂的特征和模型结果保证排序精准性，从粗排候选文献中形成预定数量候选文献集合。一般精排筛选的预定数量为100个。

当精排完成后，基于Transformer结构的个性化重排序模型，更多从整个序列的角度考虑结构，同时兼顾多样性和新颖性，从精排候选文献中返回10条结果作为最终的推荐内容。

进一步的，还可以通过周期性的、批量的将科技文献特征转换为向量存储到Milvus数据库，用于ANN检索；线下使用线上真实文献访问日志训练各排序环节模型，天级更新模型参数；线上预测时调用特征服务实时获取目标论文、目标语义单元、用户的特征信息，触发多路召回形成未排序的文献合集输出给下游排序环节，经过粗排、精排和重排最终返回推荐结果。

在一个实施例中，如图2所示，提供了一种基于明确语义内容的匹配装置，所述装置包括：

抽取模块01，所述抽取模块01用于连接文献数据库，通过SciAIEngine引擎对文献进行多维数据抽取，建立抽取数据集，多维数据抽取包括科研实体抽取、中图法分类抽取、关键短语抽取；

预处理模块02，所述预处理模块02用于将所述抽取数据集进行数据预处理，并将执行数据预处理后的语义特征存储至Elasticsearch索引，并与对应文献关联，并通过bert-as-service工具将处理好的语义特征进行拼接，转换为语义向量存储到Milvus数据库中；

配置模块03，所述配置模块03用于配置推荐控制网络，所述推荐控制网络包括内容相似子网络、语义单元子网络和兴趣推荐子网络，其中，所述推荐控制网络通过对用户输入数据采集后完成配置，所述输入数据包括账户数据、输入文献数据、约束数据；

对接模块04，所述对接模块04用于对接所述推荐控制网络与所述Milvus数据库，通过多路召回模式生成候选文件簇；

生成模块05，所述生成模块05用于依据所述约束数据对所述候选文件簇进行结果排序，生成匹配结果。

进一步的，所述生成模块05还用于：

提取所述约束数据，建立注意力机制；

进一步的，所述抽取模块01还用于：

进一步的，所述预处理模块02还用于：

进一步的，所述配置模块03还用于：

所述数据预处理还包括编码转换、数字处理、归一化改写。

进一步的，读取所述用户的历史行为数据，并依据所述历史行为数据构建用户画像；

关于一种基于明确语义内容的匹配装置的具体实施例可以参见上文中对于一种基于明确语义内容的匹配方法的实施例，在此不再赘述。上述一种基于明确语义内容的匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储新闻数据以及时间衰减因子等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于明确语义内容的匹配方法。

在一个实施例中，提供了一种计算机可读存储介质，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：连接文献数据库，通过SciAIEngine引擎对文献进行多维数据抽取，建立抽取数据集，多维数据抽取包括科研实体抽取、中图法分类抽取、关键短语抽取；将所述抽取数据集进行数据预处理，并将执行数据预处理后的语义特征存储至Elasticsearch索引，并与对应文献关联，并通过bert-as-service工具将处理好的语义特征进行拼接，转换为语义向量存储到Milvus数据库中；配置推荐控制网络，所述推荐控制网络包括内容相似子网络、语义单元子网络和兴趣推荐子网络，其中，所述推荐控制网络通过对用户输入数据采集后完成配置，所述输入数据包括账户数据、输入文献数据、约束数据；对接所述推荐控制网络与所述Milvus数据库，通过多路召回模式生成候选文件簇；依据所述约束数据对所述候选文件簇进行结果排序，生成匹配结果。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基于明确语义内容的匹配方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述方法还包括：

3.如权利要求2所述的方法，其特征在于，所述方法还包括：

提取所述约束数据，建立注意力机制；

4.如权利要求1所述的方法，其特征在于，所述通过SciAIEngine引擎对文献进行多维数据抽取，建立抽取数据集，还包括：

5.如权利要求1所述的方法，其特征在于，所述将所述抽取数据集进行数据预处理，还包括：

6.如权利要求5所述的方法，其特征在于，所述数据预处理还包括编码转换、数字处理、归一化改写。

7.如权利要求1所述的方法，其特征在于，所述方法还包括：

8.一种基于明确语义内容的匹配装置，其特征在于，所述装置包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。