CN113821646A - 基于语义检索的智能化专利相似度搜索方法及装置 - Google Patents

基于语义检索的智能化专利相似度搜索方法及装置 Download PDF

Info

Publication number
CN113821646A
CN113821646A CN202111372547.0A CN202111372547A CN113821646A CN 113821646 A CN113821646 A CN 113821646A CN 202111372547 A CN202111372547 A CN 202111372547A CN 113821646 A CN113821646 A CN 113821646A
Authority
CN
China
Prior art keywords
text
data
target
sample
fields
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111372547.0A
Other languages
English (en)
Inventor
许华伟
徐红
昝云飞
陈运文
纪达麒
王百含
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daguan Technology Beijing Co ltd
Original Assignee
Daguan Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daguan Technology Beijing Co ltd filed Critical Daguan Technology Beijing Co ltd
Priority to CN202111372547.0A priority Critical patent/CN113821646A/zh
Publication of CN113821646A publication Critical patent/CN113821646A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种基于语义检索的智能化专利相似度搜索方法及装置。该方法通过获取目标专利的专利文本相关字段,对目标专利的专利文本相关字段进行分词,通过预先训练的同义词扩展模型,对目标专利的专利文本相关字段分词的结果进行同义词扩展;根据目标专利的专利文本相关字段分词的结果以及同义词扩展的结果,构建Elasticsearch的Query,从而基于Elasticsearch得到粗召回的专利数据;计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度;根据余弦相似度,对粗召回的专利数据中的每条专利文本进行排序,返回最终排序结果;与现有技术相比,专利相似度搜索的检索效率更高效,专利相似度搜索的召回准确度更高,且同义词扩展模型可以根据增量数据不断优化。

Description

基于语义检索的智能化专利相似度搜索方法及装置
技术领域
本发明涉及智能搜索技术领域,尤其涉及一种基于语义检索的智能化专利相似度搜索方法及装置。
背景技术
专利相似度搜索实质是专利检索的一种智能化体现,就是根据一项或数项特征,从海量的专利文献或专利数据库中挑选符合某一特定要求的文献或信息的过程,并且提供基于专利文档相似度大小的排序召回。
专利CN106372226B公开了一种信息检索装置及方法,该装置包括:接收单元,接收用户输入的特定专利号;关键词获取单元,从上述特定专利号对应专利信息中自动抽取关键词;比较单元,按照关键词与上述特定专利之间的相关程度,将所抽取关键词分为多个优先级;分类号获取单元,从上述特定专利号对应专利信息中提取分类号,并将所提取的多个分类号分为多个优先级;检索式构建单元,将关键词和分类号按优先级从高到低的顺序构建检索式,直到构建出检索结果满足预定阈值条件的检索式。该专利可以更精确且高效地自动检索出与期望检索的主题相似的专利信息,但并未给出在具体的专利检索中如何对检索到的专利进行相似度的准确排序。
专利CN107247780A公开了一种基于知识本体的专利文献相似性度量方法,该方法依据专利文献结构特点、位置特征和关键词特征提取核心技术方案;构建专利分类号主题词词间关系模型;根据分类号主题词词间关系模型构建领域词典并以之对核心技术方案分词和去停用词;主题词词间关系结合以TF-IDF作为TextRank词初始权重提取关键词和权重;训练FastText模型,生成词向量;根据关键词、词权重和词向量,计算EMD距离,得出语义距离。该专利解决了传统专利文献相似性度量方法未充分考虑专利文本结构特点,领域特点,词间关系特点及语义近似表述不一致导致的相似度低的问题,但基于EMD距离的相似度算法较为负责,运行效率较低,降低了专利的检索速率。
专利CN107492052A公开了一种基于专利交易的检索匹配方法,包括如下步骤:获取用户在检索页面输入的多个关键词;识别所述关键词的语义,为所述关键词匹配多个同义词,将所有关键词及其同义词排列组合为多个检索式,在检索页面的第一显示区显示所述检索式的链接;接收用户对任意检索式链接的选中指令,对用户选中的检索式进行检索,在检索页面显示相应的检索结果,将用户选中的检索式链接移动至检索页面的第二显示区。该专利公开了为关键词匹配多个同义词,但对于同义词的匹配较为粗略,没有提供有效的同义词扩展手段,使得相似专利召回率仍有待提升。
专利CN102999625A公开一种检索请求语义扩展方法,包括如下步骤:接收用户的检索请求;对检索请求进行分词处理,生成关键词;基于知识树对关键词进行语义扩展,生成扩展后的关键词组合;对关键词组合,结合检索组合库进行最优匹配组合查询,得到有效检索组合;将有效检索组合与用户已经输入的检索请求合并,生成有效检索组合集。该专利公开了检索请求语义扩展的方案,但并未给出在具体的专利检索中如何对检索到的专利进行相似度的准确排序。
发明内容
本发明提供一种基于语义检索的智能化专利相似度搜索方法及装置,以解决现有技术在专利相似度排序准确度、相似专利召回率、检索速率方面还有所不足的问题。
第一方面,本发明提供一种基于语义检索的智能化专利相似度搜索方法,包括:
获取目标专利的专利文本相关字段;
对目标专利的专利文本相关字段进行分词;
通过预先训练的同义词扩展模型,对所述目标专利的专利文本相关字段分词的结果进行同义词扩展;其中,所述同义词扩展模型通过以下方式训练得到:获取样本专利文档;按照专利文档结构,对所述样本专利文档拆分数据字段,所述数据字段包括样本专利文本相关字段和样本专利信息相关字段;将所述样本专利文本相关字段进行分词;将所述样本专利文本相关字段分词的结果、所述样本专利信息相关字段存入Elasticsearch,将全部数据字段存入Redis;基于样本专利文本相关字段分词的结果,使用word2vec训练同义词扩展模型;
根据所述目标专利的专利文本相关字段分词的结果以及同义词扩展的结果,构建Elasticsearch的Query,从而基于Elasticsearch得到粗召回的专利数据;
计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度;
根据所述余弦相似度,对粗召回的专利数据中的每条专利文本进行排序,返回最终排序结果。
进一步地,所述样本专利文本相关字段包括:标题、摘要、权利要求以及说明书中的技术领域、背景技术、发明内容、附图说明和具体实施方式。
进一步地,所述样本专利信息相关字段包括:原始申请号ID、原始公开号ID、申请人、分类号,以及法律状态、同族专利信息和引证信息。
进一步地,对目标专利的专利文本相关字段进行分词的步骤中,采用jieba分词器对目标专利的专利文本相关字段进行分词。
进一步地,基于样本专利文本相关字段分词的结果,使用word2vec训练同义词扩展模型之后,还包括:根据增量数据对同义词扩展模型进行补充训练,从而不断优化同义词扩展模型。
进一步地,计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度的步骤中,计算余弦相似度的文本包括标题、摘要、权利要求以及说明书中的技术领域、背景技术和发明内容。
进一步地,计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度的步骤中,基于TF-IDF法计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度。
进一步地,根据所述余弦相似度,对粗召回的专利数据中的每条专利文本进行排序,返回最终排序结果的步骤中,采用下式计算专利数据中的每条专利文本与目标专利的最终相似度,根据所述最终相似度返回最终排序结果:
(余弦相似度 / 余弦最高相似度)* n + (es_score / es最高score)* (1-n),其中,0<=n<=1,es_score为粗召回的专利数据中的每条专利文本的打分。
第二方面,本发明提供一种基于语义检索的智能化专利相似度搜索装置,包括:
获取单元,用于获取目标专利的专利文本相关字段;
分词单元,用于对目标专利的专利文本相关字段进行分词;
扩展单元,用于通过预先训练的同义词扩展模型,对所述目标专利的专利文本相关字段分词的结果进行同义词扩展;其中,所述同义词扩展模型通过以下方式训练得到:获取样本专利文档;按照专利文档结构,对所述样本专利文档拆分数据字段,所述数据字段包括样本专利文本相关字段和样本专利信息相关字段;将所述样本专利文本相关字段进行分词;将所述样本专利文本相关字段分词的结果、所述样本专利信息相关字段存入Elasticsearch,将全部数据字段存入Redis;基于样本专利文本相关字段分词的结果,使用word2vec训练同义词扩展模型;
粗召回单元,用于根据所述目标专利的专利文本相关字段分词的结果以及同义词扩展的结果,构建Elasticsearch的Query,从而基于Elasticsearch得到粗召回的专利数据;
计算单元,用于计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度;
排序单元,用于根据所述余弦相似度,对粗召回的专利数据中的每条专利文本进行排序,返回最终排序结果。
本发明的有益效果如下:本发明提供的一种基于语义检索的智能化专利相似度搜索方法及装置,通过获取目标专利的专利文本相关字段,对目标专利的专利文本相关字段进行分词,通过预先训练的同义词扩展模型,对目标专利的专利文本相关字段分词的结果进行同义词扩展;根据目标专利的专利文本相关字段分词的结果以及同义词扩展的结果,构建Elasticsearch的Query,从而基于Elasticsearch得到粗召回的专利数据;计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度;根据余弦相似度,对粗召回的专利数据中的每条专利文本进行排序,返回最终排序结果;与现有技术相比,专利相似度搜索的检索效率更高效,专利相似度搜索的召回准确度更高,且同义词扩展模型可以根据增量数据不断优化。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于语义检索的智能化专利相似度搜索方法的流程图;
图2为训练同义词扩展模型的流程图;
图3为本发明实施例提供的基于语义检索的智能化专利相似度搜索方法的架构图;
图4为本发明实施例提供的基于语义检索的智能化专利相似度搜索装置的示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。以下结合附图,详细说明本发明各实施例提供的技术方案。
请参阅图1,本发明提供一种基于语义检索的智能化专利相似度搜索方法,包括:
步骤S101,获取目标专利的专利文本相关字段。
具体地,目标专利的专利文本相关字段可以包括:Title(标题)、Abstract(摘要)、ClaimsText(权利要求)以及Description中TechnicalField(技术领域)、BackgroundArt(背景技术)、Disclosure(发明内容)、DrawingsDescription(附图说明)、InventionMode(具体实施方式)等字段。
步骤S102,对目标专利的专利文本相关字段进行分词。
具体地,可采用jieba分词器对目标专利的专利文本相关字段进行分词。
步骤S103,通过预先训练的同义词扩展模型,对所述目标专利的专利文本相关字段分词的结果进行同义词扩展。
步骤S104,根据所述目标专利的专利文本相关字段分词的结果以及同义词扩展的结果,构建Elasticsearch的Query,从而基于Elasticsearch得到粗召回的专利数据。
具体地,构建Elasticsearch的Query时,本发明方案主要根据实际的审查习惯,对不同字段赋予不同的权重、对关键词词性赋予不同权重、对分类号进行加权的方式进行构建Query,从而基于Elasticsearch得到粗召回。
步骤S105,计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度。
具体地,计算余弦相似度的文本包括标题、摘要、权利要求以及说明书中的技术领域、背景技术和发明内容。基于TF-IDF法计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度。
步骤S106,根据所述余弦相似度,对粗召回的专利数据中的每条专利文本进行排序,返回最终排序结果。
具体地,可采用下式计算专利数据中的每条专利文本与目标专利的最终相似度,根据所述最终相似度返回最终排序结果:
(余弦相似度 / 余弦最高相似度)* n + (es_score / es最高score)* (1-n),其中,0<=n<=1。此公式采用加权平均的方式,对粗召回排序结果(es_score即为粗召回的专利数据中的每条专利文本的打分的打分)和二次排序结果(即粗召回每条数据的余弦相似度)进行计算最终相似度。采用该公式计算每条数据的最终相似度,可以灵活利用粗召回排序以及余弦相似度排序的结果,并调整n值进行测试优化。经过测试得到n=0.4排序效果最优。
其中,如图2所示,所述同义词扩展模型通过以下方式训练得到:
步骤S201,获取样本专利文档。
步骤S202,按照专利文档结构,对所述样本专利文档拆分数据字段,所述数据字段包括样本专利文本相关字段和样本专利信息相关字段。
具体地,所述样本专利文本相关字段包括:标题、摘要、权利要求以及说明书中的技术领域、背景技术、发明内容、附图说明和具体实施方式。所述样本专利信息相关字段包括:原始申请号ID、原始公开号ID、申请人、分类号,以及法律状态、同族专利信息和引证信息。专利信息相关字段仅为部分示例,并未完全列出。
步骤S203,将所述样本专利文本相关字段进行分词。
其中,采用jieba分词器对样本专利文本相关字段经过分词,并载入专利全领域词典(约800万词条)。
步骤S204,将所述样本专利文本相关字段分词的结果、所述样本专利信息相关字段存入Elasticsearch,将全部数据字段存入Redis。
本发明采用Elasticsearch作为基础的搜索引擎作为第一次的粗排召回,并使用缓存数据库(Redis)作为全量字段存储以提高检索效率。
步骤S205,基于样本专利文本相关字段分词的结果,使用word2vec训练同义词扩展模型。
进一步地,基于样本专利文本相关字段分词的结果,使用word2vec训练同义词扩展模型之后,还包括:根据增量数据对同义词扩展模型进行补充训练,从而不断优化同义词扩展模型。
如图3所示,为基于本发明提供的一种基于语义检索的智能化专利相似度搜索方法的一种构架设计。
由以上实施例可知,本发明提供的一种基于语义检索的智能化专利相似度搜索方法,通过获取目标专利的专利文本相关字段,对目标专利的专利文本相关字段进行分词,通过预先训练的同义词扩展模型,对目标专利的专利文本相关字段分词的结果进行同义词扩展;根据目标专利的专利文本相关字段分词的结果以及同义词扩展的结果,构建Elasticsearch的Query,从而基于Elasticsearch得到粗召回的专利数据;计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度;根据余弦相似度,对粗召回的专利数据中的每条专利文本进行排序,返回最终排序结果;与现有技术相比,专利相似度搜索的检索效率更高效,专利相似度搜索的召回准确度更高,且同义词扩展模型可以根据增量数据不断优化。
如图4所示,本发明提供一种基于语义检索的智能化专利相似度搜索装置,包括:
获取单元301,用于获取目标专利的专利文本相关字段。
分词单元302,用于对目标专利的专利文本相关字段进行分词。
扩展单元303,用于通过预先训练的同义词扩展模型,对所述目标专利的专利文本相关字段分词的结果进行同义词扩展;其中,所述同义词扩展模型通过以下方式训练得到:获取样本专利文档;按照专利文档结构,对所述样本专利文档拆分数据字段,所述数据字段包括样本专利文本相关字段和样本专利信息相关字段;将所述样本专利文本相关字段进行分词;将所述样本专利文本相关字段分词的结果、所述样本专利信息相关字段存入Elasticsearch,将全部数据字段存入Redis;基于样本专利文本相关字段分词的结果,使用word2vec训练同义词扩展模型。
粗召回单元304,用于根据所述目标专利的专利文本相关字段分词的结果以及同义词扩展的结果,构建Elasticsearch的Query,从而基于Elasticsearch得到粗召回的专利数据。
计算单元305,用于计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度。
排序单元306,用于根据所述余弦相似度,对粗召回的专利数据中的每条专利文本进行排序,返回最终排序结果。
本发明提供的一种基于语义检索的智能化专利相似度搜索装置,采用一种新型的专利相似度检索的方案,通过分词预处理提高专利相似度搜索的检索效率,通过分词词典的优化、同义词扩展模型、粗排、精排等方案提高了专利相似度排序准确度、相似专利召回率。
本发明实施例还提供一种存储介质,本发明实施例还提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现本发明提供的基于语义检索的智能化专利相似度搜索方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文:Read-OnlyMemory,简称:ROM)或随机存储记忆体(英文:RandomAccessMemory,简称:RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中各个实施例之间相同相似的部分互相参见即可。尤其,对于基于语义检索的智能化专利相似度搜索装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例中的说明即可。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。

Claims (9)

1.一种基于语义检索的智能化专利相似度搜索方法,其特征在于,包括:
获取目标专利的专利文本相关字段;
对目标专利的专利文本相关字段进行分词;
通过预先训练的同义词扩展模型,对所述目标专利的专利文本相关字段分词的结果进行同义词扩展;其中,所述同义词扩展模型通过以下方式训练得到:获取样本专利文档;按照专利文档结构,对所述样本专利文档拆分数据字段,所述数据字段包括样本专利文本相关字段和样本专利信息相关字段;将所述样本专利文本相关字段进行分词;将所述样本专利文本相关字段分词的结果、所述样本专利信息相关字段存入Elasticsearch,将全部数据字段存入Redis;基于样本专利文本相关字段分词的结果,使用word2vec训练同义词扩展模型;
根据所述目标专利的专利文本相关字段分词的结果以及同义词扩展的结果,构建Elasticsearch的Query,从而基于Elasticsearch得到粗召回的专利数据;
计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度;
根据所述余弦相似度,对粗召回的专利数据中的每条专利文本进行排序,返回最终排序结果。
2.如权利要求1所述的方法,其特征在于,所述样本专利文本相关字段包括:标题、摘要、权利要求以及说明书中的技术领域、背景技术、发明内容、附图说明和具体实施方式。
3.如权利要求1所述的方法,其特征在于,所述样本专利信息相关字段包括:原始申请号ID、原始公开号ID、申请人、分类号,以及法律状态、同族专利信息和引证信息。
4.如权利要求1所述的方法,其特征在于,对目标专利的专利文本相关字段进行分词的步骤中,采用jieba分词器对目标专利的专利文本相关字段进行分词。
5.如权利要求1所述的方法,其特征在于,基于样本专利文本相关字段分词的结果,使用word2vec训练同义词扩展模型之后,还包括:根据增量数据对同义词扩展模型进行补充训练,从而不断优化同义词扩展模型。
6.如权利要求1所述的方法,其特征在于,计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度的步骤中,计算余弦相似度的文本包括标题、摘要、权利要求以及说明书中的技术领域、背景技术和发明内容。
7.如权利要求1所述的方法,其特征在于,计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度的步骤中,基于TF-IDF法计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度。
8.如权利要求1所述的方法,其特征在于,根据所述余弦相似度,对粗召回的专利数据中的每条专利文本进行排序,返回最终排序结果的步骤中,采用下式计算专利数据中的每条专利文本与目标专利的最终相似度,根据所述最终相似度返回最终排序结果:
(余弦相似度 / 余弦最高相似度)* n + (es_score / es最高score)* (1-n),其中,0<=n<=1,es_score为粗召回的专利数据中的每条专利文本的打分。
9.一种基于语义检索的智能化专利相似度搜索装置,其特征在于,包括:
获取单元,用于获取目标专利的专利文本相关字段;
分词单元,用于对目标专利的专利文本相关字段进行分词;
扩展单元,用于通过预先训练的同义词扩展模型,对所述目标专利的专利文本相关字段分词的结果进行同义词扩展;其中,所述同义词扩展模型通过以下方式训练得到:获取样本专利文档;按照专利文档结构,对所述样本专利文档拆分数据字段,所述数据字段包括样本专利文本相关字段和样本专利信息相关字段;将所述样本专利文本相关字段进行分词;将所述样本专利文本相关字段分词的结果、所述样本专利信息相关字段存入Elasticsearch,将全部数据字段存入Redis;基于样本专利文本相关字段分词的结果,使用word2vec训练同义词扩展模型;
粗召回单元,用于根据所述目标专利的专利文本相关字段分词的结果以及同义词扩展的结果,构建Elasticsearch的Query,从而基于Elasticsearch得到粗召回的专利数据;
计算单元,用于计算粗召回的专利数据中的每条专利文本与目标专利的余弦相似度;
排序单元,用于根据所述余弦相似度,对粗召回的专利数据中的每条专利文本进行排序,返回最终排序结果。
CN202111372547.0A 2021-11-19 2021-11-19 基于语义检索的智能化专利相似度搜索方法及装置 Pending CN113821646A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111372547.0A CN113821646A (zh) 2021-11-19 2021-11-19 基于语义检索的智能化专利相似度搜索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111372547.0A CN113821646A (zh) 2021-11-19 2021-11-19 基于语义检索的智能化专利相似度搜索方法及装置

Publications (1)

Publication Number Publication Date
CN113821646A true CN113821646A (zh) 2021-12-21

Family

ID=78919370

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111372547.0A Pending CN113821646A (zh) 2021-11-19 2021-11-19 基于语义检索的智能化专利相似度搜索方法及装置

Country Status (1)

Country Link
CN (1) CN113821646A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114443989A (zh) * 2022-01-30 2022-05-06 北京百度网讯科技有限公司 排序方法、排序模型的训练方法、装置、电子设备及介质
CN114528829A (zh) * 2021-12-25 2022-05-24 北京云集智造科技有限公司 一种外部规章制度在企业内部执行落实的方法
CN115186650A (zh) * 2022-09-07 2022-10-14 中国中金财富证券有限公司 数据检测方法及相关装置
CN115357691A (zh) * 2022-10-21 2022-11-18 成都数之联科技股份有限公司 一种语义检索方法及系统、设备和计算机可读存储介质
CN115905505A (zh) * 2022-12-30 2023-04-04 企知道网络技术有限公司 一种专利查重方法、装置及电子设备
CN117076652A (zh) * 2023-10-17 2023-11-17 天启黑马信息科技(北京)有限公司 一种用于中短句的语义文本检索方法、系统及存储介质
CN117112735A (zh) * 2023-10-19 2023-11-24 中汽信息科技(天津)有限公司 一种专利数据库的构建方法和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015013677A2 (en) * 2013-07-26 2015-01-29 The Trustees Of Columbia University In The City Of New York Total property optimization system for energy efficiency and smart buildings
CN109508414A (zh) * 2018-11-13 2019-03-22 北京奇艺世纪科技有限公司 一种同义词挖掘方法及装置
CN112000783A (zh) * 2020-08-03 2020-11-27 北京大学 基于文本相似性分析的专利推荐方法、装置、设备及存储介质
CN112380844A (zh) * 2020-10-15 2021-02-19 北京信息科技大学 武器装备属性同义词扩展方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015013677A2 (en) * 2013-07-26 2015-01-29 The Trustees Of Columbia University In The City Of New York Total property optimization system for energy efficiency and smart buildings
CN109508414A (zh) * 2018-11-13 2019-03-22 北京奇艺世纪科技有限公司 一种同义词挖掘方法及装置
CN112000783A (zh) * 2020-08-03 2020-11-27 北京大学 基于文本相似性分析的专利推荐方法、装置、设备及存储介质
CN112380844A (zh) * 2020-10-15 2021-02-19 北京信息科技大学 武器装备属性同义词扩展方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
彭晨阳: "《复杂软件设计之道:领域驱动设计全面解析与实战》", 31 August 2020, 机械工业出版社 *
王炳锡: "《实用语音识别基础》", 31 January 2005, 国防工业出版社 *
袁津生: "《搜索引擎与信息检索教程》", 30 April 2008, 中国水利水电出版社 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114528829A (zh) * 2021-12-25 2022-05-24 北京云集智造科技有限公司 一种外部规章制度在企业内部执行落实的方法
CN114443989A (zh) * 2022-01-30 2022-05-06 北京百度网讯科技有限公司 排序方法、排序模型的训练方法、装置、电子设备及介质
CN114443989B (zh) * 2022-01-30 2023-02-03 北京百度网讯科技有限公司 排序方法、排序模型的训练方法、装置、电子设备及介质
CN115186650A (zh) * 2022-09-07 2022-10-14 中国中金财富证券有限公司 数据检测方法及相关装置
CN115186650B (zh) * 2022-09-07 2022-12-09 中国中金财富证券有限公司 数据检测方法及相关装置
CN115357691A (zh) * 2022-10-21 2022-11-18 成都数之联科技股份有限公司 一种语义检索方法及系统、设备和计算机可读存储介质
CN115905505A (zh) * 2022-12-30 2023-04-04 企知道网络技术有限公司 一种专利查重方法、装置及电子设备
CN117076652A (zh) * 2023-10-17 2023-11-17 天启黑马信息科技(北京)有限公司 一种用于中短句的语义文本检索方法、系统及存储介质
CN117076652B (zh) * 2023-10-17 2023-12-29 天启黑马信息科技(北京)有限公司 一种用于中短句的语义文本检索方法、系统及存储介质
CN117112735A (zh) * 2023-10-19 2023-11-24 中汽信息科技(天津)有限公司 一种专利数据库的构建方法和电子设备
CN117112735B (zh) * 2023-10-19 2024-02-13 中汽信息科技(天津)有限公司 一种专利数据库的构建方法和电子设备

Similar Documents

Publication Publication Date Title
CN113821646A (zh) 基于语义检索的智能化专利相似度搜索方法及装置
CN108197117B (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
CN107577671B (zh) 一种基于多特征融合的主题词提取方法
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
JP2002510076A (ja) 言語モデルに基づく情報検索および音声認識
CN111753167B (zh) 搜索处理方法、装置、计算机设备和介质
CN108182186B (zh) 一种基于随机森林算法的网页排序方法
US11893537B2 (en) Linguistic analysis of seed documents and peer groups
CN106649605B (zh) 一种推广关键词的触发方法及装置
CN112184021B (zh) 一种基于相似支持集的答案质量评估方法
CN105956010B (zh) 基于分布式表征和局部排序的分布式信息检索集合选择方法
CN116644174A (zh) 一种基于科技政策的资源分类筛选方法和系统
WO2011037753A1 (en) Method and apparatus for ordering results of a query
Juan An effective similarity measurement for FAQ question answering system
CN111737413A (zh) 基于概念网语义的反馈模型信息检索方法、系统及介质
CN115328945A (zh) 数据资产的检索方法、电子设备及计算机可读存储介质
JP3249743B2 (ja) 文書検索システム
CN111930880A (zh) 一种文本编码检索的方法、装置及介质
Tyar et al. Jaccard coefficient-based word sense disambiguation using hybrid knowledge resources
KR100250442B1 (ko) 자연언어 정보 검색의 어의 모호성 해소 방법
CN110413735A (zh) 一种问答检索方法及其系统、计算机设备、可读存储介质
CN112613320A (zh) 一种获取相似语句的方法、装置、存储介质及电子设备
US11928427B2 (en) Linguistic analysis of seed documents and peer groups
Lu et al. Improving web search relevance with semantic features
CN110909533B (zh) 资源主题判定方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20211221