CN115794743A - 一种针对专利和期刊文献的综合检索方法及系统 - Google Patents
一种针对专利和期刊文献的综合检索方法及系统 Download PDFInfo
- Publication number
- CN115794743A CN115794743A CN202211476004.8A CN202211476004A CN115794743A CN 115794743 A CN115794743 A CN 115794743A CN 202211476004 A CN202211476004 A CN 202211476004A CN 115794743 A CN115794743 A CN 115794743A
- Authority
- CN
- China
- Prior art keywords
- document
- documents
- target
- retrieval
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及文献检索的技术领域,公开了一种针对专利和期刊文献的综合检索方法及系统,针对专利和期刊文献的综合检索方法包括:获取检索信息,基于所述检索信息从文献数据库中匹配对应的检索文献,生成检索文献列表,所述检索文献包括专利文献和期刊文献;基于用户所选择的目标文献,获取分类信息,根据分类信息从目标文献的文本中提取初步关键词;基于初步关键词进行拓展处理和简化处理,生成最终关键词;基于最终关键词从文献数据库中匹配对应的关联文献,基于各关联文献与目标文献的关联度排序生成关联文献列表;本申请具有提高用户同时检索专利文献和期刊文献效率的效果。
Description
技术领域
本申请涉及文献检索的技术领域,尤其是涉及一种针对专利和期刊文献的综合检索方法及系统。
背景技术
专利相关文件与期刊文献同属于技术文件,具有许多共同点,且许多用户在检索专利文献时,具有技术使用需求,或者是专利的新颖性、创造性的评估需求,因此,许多用户在检索专利文献时,希望同时能够检索到相关的期刊文献。
目前已有许多收录了专利文献和期刊文献的数据库网站,也有一站式检索多个不同数据库的检索网站,可以根据用户输入的关键词同时检索到专利文献和期刊文献,然而,用户在使用这些网站进行专利文献或期刊文献的检索时,检索到的相关文件较多,信息冗余且关联性较差。
针对上述相关技术,发明人认为进行专利文献及期刊文献检索时存在效率较低的问题。
发明内容
为了提高用户同时检索专利文献和期刊文献的效率,本申请提供一种针对专利和期刊文献的综合检索方法及系统。
本申请的发明目的一采用如下技术方案实现:
一种针对专利和期刊文献的综合检索方法,包括:
获取检索信息,基于所述检索信息从文献数据库中匹配对应的检索文献,生成检索文献列表,所述检索文献包括专利文献和期刊文献;
基于用户所选择的目标文献,获取分类信息,根据分类信息从目标文献的文本中提取初步关键词;
基于初步关键词进行拓展处理和简化处理,生成最终关键词;
基于最终关键词从文献数据库中匹配对应的关联文献,基于各关联文献与目标文献的关联度排序生成关联文献列表。
通过采用上述技术方案,获取用户用于检索专利文献和期刊文献所使用的检索信息,根据检索信息从文献数据库中匹配对应的检索文献,根据匹配到的若干专利文献和期刊文献生成检索文献列表,供用户选择查阅;将用户所选择查阅的文献定义为目标文献,获取目标文献的分类信息,基于分类信息从目标文献中提取出初步关键词,以便提高初步关键词提取的准确性;基于初步关键词,进行同义词、上位词、下位词、近义词、反义词等词汇的拓展,再根据目标文献所属的技术领域,对拓展后的初步关键词进行简化处理,以便提取出更准确的关键词作为最终关键词;基于最终关键词从文献数据库中匹配对应的关联文献,从而便于根据用户所查阅的目标文献匹配对应的关联文献,判断各关联文献与目标文献的关联度,并根据各关联文献的关联度进行排序后生成关联文献列表,使得用户可以基于当前查阅的目标文献匹配其他关联文献,且各关联文献根据关联度从高到低排列,进而提高了用户同时查阅专利文献和期刊文献时的效率。
本申请在一较佳示例中:基于用户所选择的目标文献,获取分类信息,根据分类信息从目标文献的文本中提取初步关键词的步骤中,包括:
确定用户所选择的目标文献,从所述目标文献中获取分类信息;
基于分类信息选择对应的目标词典,基于目标词典通过自然语言处理算法从目标文献中提取初步关键词。
通过采用上述技术方案,目前常通过自然语言算法识别文本的语义,以提取文本的关键词,然而,在许多语句中,根据不同的分词方式可能提取出不同的关键词;因此,确定用户所选择的目标文献后,从目标文献中获取分类信息,以便确定目标文献所属的技术领域,基于分类信息选择对应的目标词典,基于目标词典,并通过自然语言处理算法从目标文献中提取初步关键词,以便提高初步关键词与目标文献的关联性。
本申请在一较佳示例中:基于初步关键词进行拓展处理和简化处理,生成最终关键词的步骤中,包括:
将初步关键词输入至关键词库中进行匹配,以确定对应的拓展词,所述拓展词包括初步关键词的同义词、近义词、上位词、下位词和反义词;
基于所述目标文献的分类信息,对目标文献对应的初步关键词和拓展词进行简化处理,生成最终关键词。
通过采用上述技术方案,将初步关键词输入至关键词库中进行匹配,以确定初步关键词的同义词、近义词、上位词、下位词和反义词并定义为拓展词,便于拓展关键词的范围,以便后续从中确定更适合的关键词;基于目标文献的分类信息,将目标文献对应的初步关键词和拓展词进行简化处理,以便将与目标文献分类信息关联性较低的关键词进行删减,从而确定最终关键词,提高了关键词与目标文献的关联度。
本申请在一较佳示例中:所述检索信息包括检索式和筛选信息;基于最终关键词从文献数据库中匹配对应的关联文献的步骤中,包括:
从用户的检索信息中确定对应的检索式和筛选信息,从而生成检索策略信息;
基于检索策略信息和最终关键词,确定关联检索信息和关联数据库;
基于关联检索信息从关联数据库中匹配对应的关联文献。
通过采用上述技术方案,检索信息中包括用户从文献数据库中匹配检索文献时所使用的检索式和筛选信息,从检索信息中确定对应的检索式和筛选信息,从而生成对应的检索策略信息,以便确定用户在初次获取目标文献时所采取的检索策略,评估用户的文献检索需求;基于检索策略信息和最终关键词确定用于进行关联文献匹配的关联检索信息,并根据检索策略信息确定用于进行关联文献匹配的关联数据库;基于关联检索信息从关联数据库中匹配对应的关联文献,以供用户在查阅目标文献后,可进一步查阅相关的关联文献。
本申请在一较佳示例中:基于各关联文献与目标文献的关联度排序生成关联文献列表的步骤中,包括:
对各关联文献和目标文献进行段落划分,依次将各关联文献和目标文献输入至文献降噪模型中;
通过文本匹配算法判断各段落内是否存在降噪特征词和最终关键词,以确定降噪段落和特征段落;
基于各关联文献的特征段落生成关联对比文本,基于目标文献的特征段落生成目标对比文本,逐一计算各关联对比文本相对于目标对比文本的关联度数据,对各关联对比文本进行排序后生成关联文献列表。
通过采用上述技术方案,由于期刊文献和专利文献均存在许多格式文本内容,因而可能对文本相似度或关联度计算的准确度造成影响,因而在对比不同文献之间关联度时需要进行降噪处理;对各关联文献和目标文献进行段落划分,以便后续针对不同的段落对于文献的重要性进行区分,依次将各关联文献的目标文献输入至文献降噪模型中,以便针对各文献进行降噪处理;其中,通过文本匹配算法判断各特征段落内是否存在降噪特征词,若存在降噪特征词,则认为该段落属于可能对不同文献关联度计算造成影响的内容,因而将该段落标记为降噪段落;通过文本匹配算法判断各特征段落内是否存在最终关键词,若存在最终关键词,则认为该段落属于对不同文献关联度计算的关键内容,因而将该段落标记为特征段落;基于各关联文献的特征段落生成各关联对比文本,基于目标文献的特征段落生成目标对比文本,便于后续基于关联文献的特征段落和目标文献的特征段落进行关联度计算,降低降噪段落对关联度计算所造成的干扰,提高关联度计算的科学性;逐一计算各关联对比文本相对于目标对比文本的关联度数据,以便判断各关联文献与对比文献之间的关联性,基于各关联对比文件的关联度数据进行排序后,生成关联文献列表,便于用户根据关联文献列表查阅各关联文献。
本申请在一较佳示例中:基于各关联文献的特征段落生成关联对比文本,基于目标文献的特征段落生成目标对比文本,逐一计算各关联对比文本相对于目标对比文本的关联度数据的步骤中,包括:
基于各特征段落中最终关键词所占的篇幅比例,计算对应的段落权重值;
基于各特征段落的段落权重值,逐一计算各关联对比文本相对于目标对比文本的关联度数据。
通过采用上述技术方案,由于在各文献的特征段落中,不同段落与文献主题的关联性存在差异,特征段落中最终关键词所占的篇幅比例越大,则该特征段落与文献主题的关联性越大;因此,基于各特征段落中最终关键词所占的篇幅比例,计算各特征段落对应段落权重值,以便判断各特征段落对于文献主题的重要性,基于各特征段落的段落权重值,逐一计算各关联对比文件相对于目标对比文件的关联度数据,以便在计算关联度数据时考虑各段落的重要性,提高关联度数据结构的科学性。
本申请在一较佳示例中:基于目标词典通过自然语言处理算法从目标文献中提取初步关键词的步骤中,包括:
基于目标词典,通过双向最大匹配算法从目标文献中提取初步关键词。
通过采用上述技术方案,由于使用双向最大匹配算法对文本进行分词,具有较大的准确度,但分词效率较低;但在本申请的使用场景中,通过双向最大匹配算法提取初步关键词的流程发生在检索文献列表生成后;因此,通过双向最大匹配算法从目标文献中提取初步关键词,具有准确度较高的优点,且其缺点被规避。
本申请的发明目的二采用如下技术方案实现:
一种在客户端页面植入百科词条的系统,包括:
检索文献列表生成模块,用于获取检索信息,基于所述检索信息从文献数据库中匹配对应的检索文献,生成检索文献列表,所述检索文献包括专利文献和期刊文献;
初步关键词提取模块,用于基于用户所选择的目标文献,获取分类信息,根据分类信息从目标文献的文本中提取初步关键词;
最终关键词生成模块,用于基于初步关键词进行拓展处理和简化处理,生成最终关键词;
关联文献列表生成模块,用于基于最终关键词从文献数据库中匹配对应的关联文献,基于各关联文献与目标文献的关联度排序生成关联文献列表。
通过采用上述技术方案,获取用户用于检索专利文献和期刊文献所使用的检索信息,根据检索信息从文献数据库中匹配对应的检索文献,根据匹配到的若干专利文献和期刊文献生成检索文献列表,供用户选择查阅;将用户所选择查阅的文献定义为目标文献,获取目标文献的分类信息,基于分类信息从目标文献中提取出初步关键词,以便提高初步关键词提取的准确性;基于初步关键词,进行同义词、上位词、下位词、近义词、反义词等词汇的拓展,再根据目标文献所属的技术领域,对拓展后的初步关键词进行简化处理,以便提取出更准确的关键词作为最终关键词;基于最终关键词从文献数据库中匹配对应的关联文献,从而便于根据用户所查阅的目标文献匹配对应的关联文献,判断各关联文献与目标文献的关联度,并根据各关联文献的关联度进行排序后生成关联文献列表,使得用户可以基于当前查阅的目标文献匹配其他关联文献,且各关联文献根据关联度从高到低排列,进而提高了用户同时查阅专利文献和期刊文献时的效率。
本申请的发明目的三采用如下技术方案实现:
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述针对专利和期刊文献的综合检索方法的步骤。
本申请的发明目的四采用如下技术方案实现:
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述针对专利和期刊文献的综合检索方法的步骤。
综上所述,本申请包括以下至少一种有益技术效果:
1. 获取用户用于检索专利文献和期刊文献所使用的检索信息,根据检索信息从文献数据库中匹配对应的检索文献,根据匹配到的若干专利文献和期刊文献生成检索文献列表,供用户选择查阅;将用户所选择查阅的文献定义为目标文献,获取目标文献的分类信息,基于分类信息从目标文献中提取出初步关键词,以便提高初步关键词提取的准确性;基于初步关键词,进行同义词、上位词、下位词、近义词、反义词等词汇的拓展,再根据目标文献所属的技术领域,对拓展后的初步关键词进行简化处理,以便提取出更准确的关键词作为最终关键词;基于最终关键词从文献数据库中匹配对应的关联文献,从而便于根据用户所查阅的目标文献匹配对应的关联文献,判断各关联文献与目标文献的关联度,并根据各关联文献的关联度进行排序后生成关联文献列表,使得用户可以基于当前查阅的目标文献匹配其他关联文献,且各关联文献根据关联度从高到低排列,进而提高了用户同时查阅专利文献和期刊文献时的效率。
2. 由于期刊文献和专利文献均存在许多格式文本内容,因而可能对文本相似度或关联度计算的准确度造成影响,因而在对比不同文献之间关联度时需要进行降噪处理;对各关联文献和目标文献进行段落划分,以便后续针对不同的段落对于文献的重要性进行区分,依次将各关联文献的目标文献输入至文献降噪模型中,以便针对各文献进行降噪处理;其中,通过文本匹配算法判断各特征段落内是否存在降噪特征词,若存在降噪特征词,则认为该段落属于可能对不同文献关联度计算造成影响的内容,因而将该段落标记为降噪段落;通过文本匹配算法判断各特征段落内是否存在最终关键词,若存在最终关键词,则认为该段落属于对不同文献关联度计算的关键内容,因而将该段落标记为特征段落;基于各关联文献的特征段落生成各关联对比文本,基于目标文献的特征段落生成目标对比文本,便于后续基于关联文献的特征段落和目标文献的特征段落进行关联度计算,降低降噪段落对关联度计算所造成的干扰,提高关联度计算的科学性;逐一计算各关联对比文本相对于目标对比文本的关联度数据,以便判断各关联文献与对比文献之间的关联性,基于各关联对比文件的关联度数据进行排序后,生成关联文献列表,便于用户根据关联文献列表查阅各关联文献。
3. 由于在各文献的特征段落中,不同段落与文献主题的关联性存在差异,特征段落中最终关键词所占的篇幅比例越大,则该特征段落与文献主题的关联性越大;因此,基于各特征段落中最终关键词所占的篇幅比例,计算各特征段落对应段落权重值,以便判断各特征段落对于文献主题的重要性,基于各特征段落的段落权重值,逐一计算各关联对比文件相对于目标对比文件的关联度数据,以便在计算关联度数据时考虑各段落的重要性,提高关联度数据结构的科学性。
附图说明
图1是本申请实施例一中针对专利和期刊文献的综合检索方法的流程图。
图2是本申请针对专利和期刊文献的综合检索方法中步骤S20的流程图。
图3是本申请针对专利和期刊文献的综合检索方法中步骤S30的流程图。
图4是本申请针对专利和期刊文献的综合检索方法中步骤S40的流程图。
图5是本申请针对专利和期刊文献的综合检索方法中步骤S40的另一流程图。
图6是本申请针对专利和期刊文献的综合检索方法中步骤S46的流程图。
图7是本申请实施例二中针对专利和期刊文献的综合检索系统的一原理框图。
图8是本申请实施例三中的设备示意图。
具体实施方式
以下结合附图1至8对本申请作进一步详细说明。
实施例一
本申请公开了一种针对专利和期刊文献的综合检索方法,可用于专利文献和期刊文献的综合检索平台;如图1所示,具体包括如下步骤:
S10:获取检索信息,基于所述检索信息从文献数据库中匹配对应的检索文献,生成检索文献列表,所述检索文献包括专利文献和期刊文献。
在本实施例中,检索信息是指用户在进行专利文献和/或期刊文献检索时用于确定检索内容和检索需求的信息;文献数据库是指用于存储专利文献和期刊文献等文献的数据库;检索文献是指基于检索信息从文献数据库中匹配到的检索结果对应的文献;检索文献列表是指根据各检索文献的信息而生成的列表。
具体地,获取用户在进行文献检索时输入的检索信息,以便确定用户所需的检索内容和检所需求,根据检索信息从文献数据库中匹配对应的检索文献,在本实施例中,文献数据库包括若干用于存储不同类型文献的数据库;检索文献包括专利文献、期刊文献,根据匹配到的检索文献以及检索信息中对于检索结果的排序规则,生成检索文献列表,便于用户根据设定的规则逐一查阅检索文献。
S20:基于用户所选择的目标文献,获取分类信息,根据分类信息从目标文献的文本中提取初步关键词。
在本实施例中,目标文献是指用户从检索文献列表中选择的,需要进行详细查阅的文献;分类信息是指目标文献的所属技术领域信息,初步关键词是指从目标文献的文本中初步提取的关键词。
具体地,基于用户选择进行详细查阅的目标文献,获取对应的分类信息,其中,专利文献的分类信息可以是IPC分类号,期刊文献的分类是根据相关国家标准文件的规定进行分类,将专利文献和期刊文献中领域相近的分类进行关联,以便打通专利文献和专利文献的检索,便于用户能够同时对专利文献和期刊文献进行检索;根据分类信息,从目标文献的文本中提取初步关键词,以便提高初步关键词提取的准确性。
其中,根据分类信息从目标文献的文本中提取初步关键词的方法可参照图2,在步骤S20中,包括:
S21:确定用户所选择的目标文献,从所述目标文献中获取分类信息。
具体地,确定用户所选择的目标文献,通过文本匹配算法从目标文献中获取分类信息,便于后续根据目标文献的分类信息进行初步关键词的提取,以提高初步关键词提取的准确度。
S22:基于分类信息选择对应的目标词典,基于目标词典通过自然语言处理算法从目标文献中提取初步关键词。
在本实施例中,目标词典是指根据目标文献的分类信息而选择的用于对目标文献进行语义识别的分词时所使用的词典。
具体地,目前常通过自然语言算法识别文本的语义,以提取文本的关键词,然而,在许多语句中,根据不同的分词方式可能提取出不同的关键词;基于目标文献的分类信息,确定目标文献所属的技术领域,从而选择对应技术领域的目标词典;基于目标词典,并通过自然语言处理算法从目标文献中提取初步关键词,以便提高初步关键词与目标文献的关联性。
在步骤S22中,包括:
S221:基于目标词典,通过双向最大匹配算法从目标文献中提取初步关键词。
由于使用双向最大匹配算法对文本进行分词,具有较大的准确度,但分词效率较低;但在本申请的使用场景中,通过双向最大匹配算法提取初步关键词的流程发生在检索文献列表生成后;因此,通过双向最大匹配算法从目标文献中提取初步关键词,具有准确度较高的优点,且其不会对本实施例中匹配检索文献的效率造成影响。
具体地,确定目标词典后,选取双向最大匹配算法,基于目标词典对双向最大匹配算法进行特化训练,从而提高双向最大匹配算法针对该技术领域文本的识别准确度;使用特化训练后的双向最大匹配算法对目标文献进行分词,并使用自然语言算法提取目标文献中的关键词并定义为初步关键词,由于初步关键词是从目标文献文本中直接提取的,而在不同文献中,同一含义的物品/概念可以通过不同的词汇进行表达,因此,需对初步关键词进行处理后再进行关联文献的匹配,以便提高关联文献匹配的准确性。
S30:基于初步关键词进行拓展处理和简化处理,生成最终关键词。
具体地,针对初步关键词进行拓展处理,以便获取与初步关键词含义相关的词汇,提高关联文献的匹配成功率;对初步关键词进行拓展处理后,再进行简化处理,减少无关的关键词,从而生成最终关键词,以便提高后续根据最终关键词匹配到的关联文献与目标文献的关联性。
其中,参照图3,在步骤S30中,包括:
S31:将初步关键词输入至关键词库中进行匹配,以确定对应的拓展词,所述拓展词包括初步关键词的同义词、近义词、上位词、下位词和反义词。
在本实施例中,关键词库是指用于存储各类专业词汇的词库,其中,关键词库可以根据目标文献的分类信息而选择。
具体地,根据目标文献的分类信息,选择对应的技术名词库作为关键词库,将初步关键词输入至关键词库中进行匹配,从而确定初步关键词中各词汇的同义词、近义词、上位词、下位词和反义词,并定义为拓展词,以便后续进行关联文献的匹配时,能够匹配到含有初步关键词关联词汇的文献,提高匹配到的关联文献的广度。
S32:基于所述目标文献的分类信息,对目标文献对应的初步关键词和拓展词进行简化处理,生成最终关键词。
具体地,基于目标文献的分类信息,对目标文献的初步关键词和拓展词进行简化处理,将初步关键词和拓展词中不属于分类信息对应的技术领域的词汇删除,从而生成最终关键词,便于后续根据最终关键词匹配关联文献,提高关联文献与目标文献的关联性。
S40:基于最终关键词从文献数据库中匹配对应的关联文献,基于各关联文献与目标文献的关联度排序生成关联文献列表。
具体地,基于最终关键词从文献数据库中匹配对应的关联文献,便于在用户选定了目标文献的情况下,为用户匹配与目标文献相关的关联文献,使用户能够拓展阅读目标文献的关联文献;计算各关联文献相对于目标文献的关联度,并根据各关联文献相对于目标文献的关联度排序,生成关联文献列表,便于用户能够查看各关联文献相对于目标文献的关联度,以便提高用户的阅读体验;其中,在关联文献列表中,对关联文献中的专利文献和期刊文献进行分类,并分别进行关联度排序,便于用户定向阅读特定种类的关联文献。
其中,参照图4,在步骤S40中,基于最终关键词从文献数据库中匹配对应的关联文献的方法包括:
S41:从用户的检索信息中确定对应的检索式和筛选信息,从而生成检索策略信息。
在本实施例中,检索信息中包括用户从文献数据库中匹配检索文献时所使用的检索式和筛选信息;检索策略信息是指用于记录用户在匹配检索文献时所采取的策略。
具体地,从检索信息中确定对应的检索式和筛选信息,以便确定用户在获取检索文献时所采取的检索策略,从而生成对应的检索策略信息,便于评估用户的文献检索需求。
S42:基于检索策略信息和最终关键词,确定关联检索信息和关联数据库。
在本实施例中,关联检索信息是指用于从文献数据库中匹配关联文献时的检索信息,其中,关联检索信息包括关联检索式和筛选信息。
具体地,基于检索策略信息和最终关键词,生成关联检索式,根据检索策略信息生成关联检索时的筛选信息,从而基于关联检索式和关联检索时的筛选信息生成关联检索信息;基于最终关联词确定用于进行关联文献匹配的关联数据库,便于后续从关联数据库中匹配关联文献,其中,关联数据库是文献数据库的子数据库,用于存储特定类型的专利文献或期刊文献,关联数据库可以是由多个用于存储不同类型文献的子数据库构成。
S43:基于关联检索信息从关联数据库中匹配对应的关联文献。
具体地,基于关联检索信息,从关联数据库中匹配对应的关联文献,以供用户在查阅目标文献后,可进一步查阅相关的关联文献。
参照图5,在步骤S40中,基于各关联文献与目标文献的关联度排序生成关联文献列表的方法包括:
S44:对各关联文献和目标文献进行段落划分,依次将各关联文献和目标文献输入至文献降噪模型中。
在本实施例中,文献降噪模型是指用于对关联文献或目标文献的内容进行降噪的模型。
由于期刊文献和专利文献均存在许多格式文本内容,例如专利文献中的“上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定”,因而可能对文本相似度或关联度计算的准确度造成影响,因而在对比不同文献之间关联度时需要进行降噪处理。
具体地,对各关联文献和目标文献进行段落划分,从而生成若干段落文本,以便后续针对不同的段落对于文献的重要性进行区分;依次将各关联文献和目标文献输入至文献降噪模型中,以便后续针对各文献进行降噪处理。
S45:通过文本匹配算法判断各段落内是否存在降噪特征词和最终关键词,以确定降噪段落和特征段落。
在本实施例中,降噪特征词是指用于判断段落文本是否属于降噪段落的特征词,降噪特征词可以是由人为收录而确定的;降噪段落是指格式段落等与文献主题关联性较低的段落。
具体地,基于预设的降噪特征词和最终关键词,通过文本匹配算法判断各段落的文本是否存在降噪特征词和最终关键词,若存在降噪特征词,则认为该段落属于可能对不同文献关联度计算造成影响的内容,将对应的段落确定为降噪段落;若存在最终关键词,则认为该段落属于对不同文献关联度计算的关键内容,因而将对应的段落确定为特征段落;若既无降噪特征词,又无最终关键词,则将对应的段落确定为特征段落;若既有降噪特征词,又有最终关键词,则将对应的段落确定为降噪段落。
进一步地,由于存在既无降噪特征词,又无最终关键词的特征段落,可能对文本关联度计算的准确度造成影响,因而可以根据各特征段落中的最终关键词所占的篇幅比例设定各特征段落在文本关联度计算中的权重。
S46:基于各关联文献的特征段落生成关联对比文本,基于目标文献的特征段落生成目标对比文本,逐一计算各关联对比文本相对于目标对比文本的关联度数据,对各关联对比文本进行排序后生成关联文献列表。
具体地,基于各关联文献的特征段落生成对应的关联对比文本,并基于目标文献的特征段落生成对应的目标对比文本,便于后续基于关联文献的特征段落和目标文献的特征段落进行关联度计算,降低降噪段落对关联度计算所造成的干扰,提高关联度计算的科学性。
具体地,逐一计算各关联对比文本相对于目标对比文本的关联度数据,以便判断各关联文献与对比文献之间的关联性;将各关联文献根据文献类型分类为专利文献和期刊文献,分别对专利文献类别的各关联对比文件的关联度数据进行排序,并对期刊文献类别的各关联对比文件的关联度数据进行排序,以生成关联文献列表,便于用户根据关联文献列表查阅各关联文献。
参照图6,在步骤S46中,包括:
S461:基于各特征段落中最终关键词所占的篇幅比例,计算对应的段落权重值。
在本实施例中,段落权重值是指在进行关联文献与目标文献的关联度计算时,各段落在关联度计算时的权重,每篇文献中各特征段落对应的段落权重值之和为1。
具体地,计算各特征段落中最终关键词所占的篇幅比例,其中,最终关键词所占的篇幅比例应当根据最终关键词的字数与特征段落的总字数进行计算,进行字数统计时应当剔除标点符号。
具体地,根据实际需求设定若干篇幅对比值,例如5%、10%、15%、20%,并将各篇幅对比值构成的区间设定对应的权重系数,优选的,若最终关键词所占的篇幅比例为0%,则对应权重系数为0,若最终关键词所占的篇幅比例为0%到5%,则对应权重系数为0.5,若最终关键词所占的篇幅比例为5%到10%,则对应权重系数为0.8,若最终关键词所占的篇幅比例为10%到15%,则对应权重系数为1,若最终关键词所占的篇幅比例为15%到20%,则对应权重系数为1.5,若最终关键词所占的篇幅比例为20%以上,则对应权重系数为2;当某特征段落的权重系数为1时,则该特征段落对应的段落权重值为1÷(各特征段落的权重系数之和),例如,一篇关联对比文件包括六个段落,各段落对应的权重系数分别为0、0.5、0.8、1、1.5、2,则各段落对应的段落权重值分别为0、5/58、4/29、5/29、15/58、10/29。
S462:基于各特征段落的段落权重值,逐一计算各关联对比文本相对于目标对比文本的关联度数据。
具体地,基于各特征段落的段落权重值,以便判断各特征段落对于文献主题的重要性,逐一计算各关联对比文本相对于目标对比文本的关联度数据,以便在计算关联度数据时考虑各段落的重要性,提高关联度数据结构的科学性。
应理解,上述实施例中各步骤的序号大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
实施例二
如图7所示,本申请公开了一种针对专利和期刊文献的综合检索系统,用于执行上述针对专利和期刊文献的综合检索方法的步骤,该针对专利和期刊文献的综合检索系统与上述实施例中针对专利和期刊文献的综合检索方法相对应。
针对专利和期刊文献的综合检索系统包括检索文献列表生成模块、初步关键词提取模块、最终关键词生成模块和关联文献列表生成模块。各功能模块的详细说明如下:
检索文献列表生成模块,用于获取检索信息,基于所述检索信息从文献数据库中匹配对应的检索文献,生成检索文献列表,所述检索文献包括专利文献和期刊文献;
初步关键词提取模块,用于基于用户所选择的目标文献,获取分类信息,根据分类信息从目标文献的文本中提取初步关键词;
最终关键词生成模块,用于基于初步关键词进行拓展处理和简化处理,生成最终关键词;
关联文献列表生成模块,用于基于最终关键词从文献数据库中匹配对应的关联文献,基于各关联文献与目标文献的关联度排序生成关联文献列表。
其中,初步关键词提取模块包括:
获取分类信息子模块,用于确定用户所选择的目标文献,从所述目标文献中获取分类信息;
目标文献处理子模块,用于基于分类信息选择对应的目标词典,基于目标词典通过自然语言处理算法从目标文献中提取初步关键词。
其中,目标文献处理子模块包括:
双向最大匹配算法处理子模块,用于基于目标词典,通过双向最大匹配算法从目标文献中提取初步关键词。
其中,最终关键词生成模块包括:
拓展词匹配子模块,用于将初步关键词输入至关键词库中进行匹配,以确定对应的拓展词,所述拓展词包括初步关键词的同义词、近义词、上位词、下位词和反义词;
最终关键词生成子模块,用于基于所述目标文献的分类信息,对目标文献对应的初步关键词和拓展词进行简化处理,生成最终关键词。
其中,关联文献列表生成模块包括:
检索策略信息生成子模块,用于从用户的检索信息中确定对应的检索式和筛选信息,从而生成检索策略信息;
关联检索信息确定子模块,用于基于检索策略信息和最终关键词,确定关联检索信息和关联数据库;
关联文献匹配子模块,用于基于关联检索信息从关联数据库中匹配对应的关联文献;
文献降噪子模块,用于对各关联文献和目标文献进行段落划分,依次将各关联文献和目标文献输入至文献降噪模型中;
文本匹配子模块,用于通过文本匹配算法判断各段落内是否存在降噪特征词和最终关键词,以确定降噪段落和特征段落;
关联文献排序子模块,用于基于各关联文献的特征段落生成关联对比文本,基于目标文献的特征段落生成目标对比文本,逐一计算各关联对比文本相对于目标对比文本的关联度数据,对各关联对比文本进行排序后生成关联文献列表。
其中,关联文献排序子模块包括:
段落权重值计算子模块,用于基于各特征段落中最终关键词所占的篇幅比例,计算对应的段落权重值;
关联度数据计算子模块,用于基于各特征段落的段落权重值,逐一计算各关联对比文本相对于目标对比文本的关联度数据。
关于针对专利和期刊文献的综合检索系统的具体限定可以参见上文中对于针对专利和期刊文献的综合检索方法的限定,在此不再赘述;上述针对专利和期刊文献的综合检索系统中的各个模块可全部或部分通过软件、硬件及其组合来实现;上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以是以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
实施例三
一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储检索信息、检索文献、检索文献列表、目标文献、分类信息、初步关键词、最终关键词、关联文献和关联文献列表等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现针对专利和期刊文献的综合检索方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
S10:获取检索信息,基于所述检索信息从文献数据库中匹配对应的检索文献,生成检索文献列表,所述检索文献包括专利文献和期刊文献;
S20:基于用户所选择的目标文献,获取分类信息,根据分类信息从目标文献的文本中提取初步关键词;
S30:基于初步关键词进行拓展处理和简化处理,生成最终关键词;
S40:基于最终关键词从文献数据库中匹配对应的关联文献,基于各关联文献与目标文献的关联度排序生成关联文献列表。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
S10:获取检索信息,基于所述检索信息从文献数据库中匹配对应的检索文献,生成检索文献列表,所述检索文献包括专利文献和期刊文献;
S20:基于用户所选择的目标文献,获取分类信息,根据分类信息从目标文献的文本中提取初步关键词;
S30:基于初步关键词进行拓展处理和简化处理,生成最终关键词;
S40:基于最终关键词从文献数据库中匹配对应的关联文献,基于各关联文献与目标文献的关联度排序生成关联文献列表。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)、DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域普通技术人员应当理解;其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种针对专利和期刊文献的综合检索方法,其特征在于,包括:
获取检索信息,基于所述检索信息从文献数据库中匹配对应的检索文献,生成检索文献列表,所述检索文献包括专利文献和期刊文献;
基于用户所选择的目标文献,获取分类信息,根据分类信息从目标文献的文本中提取初步关键词;
基于初步关键词进行拓展处理和简化处理,生成最终关键词;
基于最终关键词从文献数据库中匹配对应的关联文献,基于各关联文献与目标文献的关联度排序生成关联文献列表。
2.根据权利要求1所述的一种针对专利和期刊文献的综合检索方法,其特征在于:基于用户所选择的目标文献,获取分类信息,根据分类信息从目标文献的文本中提取初步关键词的步骤中,包括:
确定用户所选择的目标文献,从所述目标文献中获取分类信息;
基于分类信息选择对应的目标词典,基于目标词典通过自然语言处理算法从目标文献中提取初步关键词。
3.根据权利要求1所述的一种针对专利和期刊文献的综合检索方法,其特征在于:基于初步关键词进行拓展处理和简化处理,生成最终关键词的步骤中,包括:
将初步关键词输入至关键词库中进行匹配,以确定对应的拓展词,所述拓展词包括初步关键词的同义词、近义词、上位词、下位词和反义词;
基于所述目标文献的分类信息,对目标文献对应的初步关键词和拓展词进行简化处理,生成最终关键词。
4.根据权利要求1所述的一种针对专利和期刊文献的综合检索方法,其特征在于:所述检索信息包括检索式和筛选信息;基于最终关键词从文献数据库中匹配对应的关联文献的步骤中,包括:
从用户的检索信息中确定对应的检索式和筛选信息,从而生成检索策略信息;
基于检索策略信息和最终关键词,确定关联检索信息和关联数据库;
基于关联检索信息从关联数据库中匹配对应的关联文献。
5.根据权利要求1所述的一种针对专利和期刊文献的综合检索方法,其特征在于:基于各关联文献与目标文献的关联度排序生成关联文献列表的步骤中,包括:
对各关联文献和目标文献进行段落划分,依次将各关联文献和目标文献输入至文献降噪模型中;
通过文本匹配算法判断各段落内是否存在降噪特征词和最终关键词,以确定降噪段落和特征段落;
基于各关联文献的特征段落生成关联对比文本,基于目标文献的特征段落生成目标对比文本,逐一计算各关联对比文本相对于目标对比文本的关联度数据,对各关联对比文本进行排序后生成关联文献列表。
6.根据权利要求5所述的一种针对专利和期刊文献的综合检索方法,其特征在于:基于各关联文献的特征段落生成关联对比文本,基于目标文献的特征段落生成目标对比文本,逐一计算各关联对比文本相对于目标对比文本的关联度数据的步骤中,包括:
基于各特征段落中最终关键词所占的篇幅比例,计算对应的段落权重值;
基于各特征段落的段落权重值,逐一计算各关联对比文本相对于目标对比文本的关联度数据。
7.根据权利要求2所述的一种针对专利和期刊文献的综合检索方法,其特征在于:基于目标词典通过自然语言处理算法从目标文献中提取初步关键词的步骤中,包括:
基于目标词典,通过双向最大匹配算法从目标文献中提取初步关键词。
8.一种针对专利和期刊文献的综合检索系统,其特征在于,包括:
检索文献列表生成模块,用于获取检索信息,基于所述检索信息从文献数据库中匹配对应的检索文献,生成检索文献列表,所述检索文献包括专利文献和期刊文献;
初步关键词提取模块,用于基于用户所选择的目标文献,获取分类信息,根据分类信息从目标文献的文本中提取初步关键词;
最终关键词生成模块,用于基于初步关键词进行拓展处理和简化处理,生成最终关键词;
关联文献列表生成模块,用于基于最终关键词从文献数据库中匹配对应的关联文献,基于各关联文献与目标文献的关联度排序生成关联文献列表。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述针对专利和期刊文献的综合检索方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述针对专利和期刊文献的综合检索方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211476004.8A CN115794743A (zh) | 2022-11-23 | 2022-11-23 | 一种针对专利和期刊文献的综合检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211476004.8A CN115794743A (zh) | 2022-11-23 | 2022-11-23 | 一种针对专利和期刊文献的综合检索方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115794743A true CN115794743A (zh) | 2023-03-14 |
Family
ID=85440608
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211476004.8A Withdrawn CN115794743A (zh) | 2022-11-23 | 2022-11-23 | 一种针对专利和期刊文献的综合检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115794743A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116431799A (zh) * | 2023-06-14 | 2023-07-14 | 湖南科德信息咨询集团有限公司 | 基于技术创新研发的内容精准挖掘系统 |
-
2022
- 2022-11-23 CN CN202211476004.8A patent/CN115794743A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116431799A (zh) * | 2023-06-14 | 2023-07-14 | 湖南科德信息咨询集团有限公司 | 基于技术创新研发的内容精准挖掘系统 |
CN116431799B (zh) * | 2023-06-14 | 2023-08-18 | 湖南科德信息咨询集团有限公司 | 基于技术创新研发的内容精准挖掘系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109871446B (zh) | 意图识别中的拒识方法、电子装置及存储介质 | |
CN110674319B (zh) | 标签确定方法、装置、计算机设备及存储介质 | |
US20220261427A1 (en) | Methods and system for semantic search in large databases | |
US8014604B2 (en) | OCR of books by word recognition | |
US10311374B2 (en) | Categorization of forms to aid in form search | |
CN108228541B (zh) | 生成文档摘要的方法和装置 | |
US20040083224A1 (en) | Document automatic classification system, unnecessary word determination method and document automatic classification method | |
WO2007086059A2 (en) | Determining near duplicate 'noisy' data objects | |
CN111177405A (zh) | 数据搜索匹配方法、装置、计算机设备和存储介质 | |
CN110377558A (zh) | 文档查询方法、装置、计算机设备和存储介质 | |
CA3138556A1 (en) | Apparatuses, storage medium and method of querying data based on vertical search | |
WO2021253873A1 (zh) | 相似文档检索方法及装置 | |
CN111090719A (zh) | 文本分类方法、装置、计算机设备及存储介质 | |
US20160147867A1 (en) | Information matching apparatus, information matching method, and computer readable storage medium having stored information matching program | |
CN112699923A (zh) | 文档分类预测方法、装置、计算机设备及存储介质 | |
CN112685475A (zh) | 报表查询方法、装置、计算机设备及存储介质 | |
CN111859916A (zh) | 古诗关键词提取、诗句生成方法、装置、设备及介质 | |
CN115794743A (zh) | 一种针对专利和期刊文献的综合检索方法及系统 | |
CN111368061A (zh) | 短文本过滤方法、装置、介质及计算机设备 | |
CN111723179B (zh) | 基于概念图谱的反馈模型信息检索方法、系统及介质 | |
CN112527985A (zh) | 未知问题处理方法、装置、设备及介质 | |
CN110851709B (zh) | 资讯推送方法、装置、计算机设备和存储介质 | |
CN117194607A (zh) | 基于自然语言的搜索方法和系统 | |
CN110888977B (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN116303968A (zh) | 基于技术关键词抽取的语义搜索方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 518000 2201, block D, building 1, Chuangzhi Yuncheng bid section 1, Liuxian Avenue, Xili community, Xili street, Nanshan District, Shenzhen City, Guangdong Province Applicant after: Qizhi Technology Co.,Ltd. Address before: 518000 2201, block D, building 1, Chuangzhi Yuncheng bid section 1, Liuxian Avenue, Xili community, Xili street, Nanshan District, Shenzhen City, Guangdong Province Applicant before: Qizhi Network Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20230314 |
|
WW01 | Invention patent application withdrawn after publication |