CN112257419A - 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质 - Google Patents

一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质 Download PDF

Info

Publication number
CN112257419A
CN112257419A CN202011227890.1A CN202011227890A CN112257419A CN 112257419 A CN112257419 A CN 112257419A CN 202011227890 A CN202011227890 A CN 202011227890A CN 112257419 A CN112257419 A CN 112257419A
Authority
CN
China
Prior art keywords
word
data
similarity
bag
calculating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011227890.1A
Other languages
English (en)
Other versions
CN112257419B (zh
Inventor
汪敏
严妍
肖国泉
裴非
肖克
彭祖剑
邵罗树
赵达
石鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xinghe Zhiyuan Technology Co.,Ltd.
Original Assignee
Beijing Kaipuyun Information Technology Co ltd
Cape Cloud Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kaipuyun Information Technology Co ltd, Cape Cloud Information Technology Co ltd filed Critical Beijing Kaipuyun Information Technology Co ltd
Priority to CN202011227890.1A priority Critical patent/CN112257419B/zh
Publication of CN112257419A publication Critical patent/CN112257419A/zh
Application granted granted Critical
Publication of CN112257419B publication Critical patent/CN112257419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质,对专利数据库中的所有文献进行词袋统计和词向量计算,得到对应的词袋数据和词距离数据;建立模型,输入内容或考题号,在题库数据中获取待审专利的标题、摘要、权利要求书、说明书进行多种组合,并分别根据词袋算法和语义算法进行粗选和细选,针对选择后数据进行文本相似度分析,将分析结果融合排序得到综合相似度,经查重筛选,给出待查专利的可疑答案集合。本发明提升了检索速度,采用两轮筛选,第一轮粗选旨在快速缩小对比范围,第二轮细选旨在兼顾提高准确率;可以有效节省人力和时间,帮助专利审查员缩减相关专利审查范围,提高审查效率。

Description

一种基于词频和语义计算专利文献相似度的智能检索方法、 装置、电子设备及其存储介质
技术领域
本发明属于数据查重技术领域,尤其涉及一种基于词频和语义计算专利 文献相似度的智能检索方法、装置、电子设备及其存储介质。
背景技术
专利是一种受法律保护的特殊文件,是政府对社会发明创造的一种保护 手段,在国家专利管理部门受理专利申请后,需要对专利进行有效审查,而审查 过程中的查重工作无疑是重要环节之一,现有查重系统常用的查重算法是词袋算 法或者语义算法。
词袋算法,是指根据文本内容的分词统计词袋结果进行相似度计算,源 于文本分类技术。在信息检索中,它假定对于一个文本,忽略其词序、语法和句 法,将其仅仅看作是一个词集合,或者说是词的一个组合。文本中每个词的出现 都是独立的,不依赖于其它词是否出现,或者说这篇文章的任意一个位置词汇都 不受前面句子的影响而独立选择的。
语义算法,是指将文本内容转化为特征向量进行相似度计算。首先把词 处理成实数向量,完成向量化,把特征从词汇表大小的高维度空间降低到一个相 对低的维度空间;再使用简单的代数运算来发现它们之间的语义相似度,并且保 证向量间的相对相似度和语义相似度是相关的。计算向量间的相似度可以采用诸 如余弦相似度的方法。
但是,现有技术针对专利查重算法使用方式单一且结果准确率不高,审 查人员在专利审查过程中需要付出大量的时间和精力,工作效率较低且存在审核 意见主观性强的问题。
发明内容
本发明为了弥补现有技术的不足,提供一种基于词频和语义计算专利文 献相似度的智能检索方法、装置、电子设备及其存储介质,本技术方案权衡了针 对字面的词袋算法和针对语义的语义算法的优缺点,旨在从字面和语义两方面双 管齐下,将两种算法相融合来综合审查专利文献的重复度,提升专利审查效率。
本发明的实施例是这样实现的:
第一方面,本发明实施例提供了基于词频和语义计算专利文献相似度的 智能检索方法,应用于服务器,具体实现步骤是:首先对专利数据库中的所有文 献进行词袋统计和词向量计算,得到对应的词袋数据和词距离数据;然后建立模 型,待用户输入内容或考题号,在目前加载的题库数据中获取待审专利的标题、 摘要、权利要求书、说明书四部分内容进行多种组合,并分别根据词袋算法和语 义算法进行粗选和细选,针对选择后数据进行文本相似度分析,将分析结果融合 排序得到综合相似度,以此为标准进行客观有效的查重筛选,最后给出待查专利 的可疑答案集合。
进一步地,粗选是指:根据组合结果从专利语料库中生成字典和词典; 结合生成的字典和词典,从专利数据库中为每篇专利获取词袋,根据词袋的不同 属性生成词袋文件,词袋文件的集合形成词袋库;根据考题内容,从词袋库中取 出对应专利的词袋,由词袋得到文本内容;根据词袋算法将每条考题不同字段的 组合词袋与全量专利的相应词袋进行逐一比较,计算得出语义相似值;将对应的 每篇专利的不同组合词袋的TopN1结果融合取交集,再对剩余组合词袋按语义相 似值从大到小排序,取出一定数量凑足TopN1作为粗选的结果集,从而形成粗选 集;统计出所有考题对应的粗选集,将其传给细选算法模型作为输入。
进一步地,细选是指:对词袋使用粗选算法,对各个不同组合词袋的结 果集进行词袋算法相似值计算,并赋予一定权重;再使用语义算法,将词袋中所 有词和考题中词逐一进行余弦相似度计算得到相似值,并将所有相似值累加,得 到两篇专利整体的语义相似度;不同字段的组合词袋分别对应一个总相似值,并 赋予一个权重;对多个词袋和语义的相似值连同权重进行计算和累加,将结果作 为相似值进行排序,得到TopN2作为细选的结果集,从而形成细选集,作为检索 结果。
第二方面,本发明实施例还提供了一种基于单台服务器的数据智能检索 的方法,具体实现步骤是:从题库的XML文件中提取专利信息和内容并进行入库 操作,提取的内容在专利数据库内经初步清洗和整理后,下载成指定字段的CSV 文件;对全量内容进行分词、去停用词、筛选高频词汇后,构建向量模型;对向 量模型数据进行加载,结合基于字面的词袋算法和基于语义的语义算法的多组融 合结果,预测出排名靠前的专利。
进一步地,预测是指:对从原始专利数据中提取的所有文本形式的内容 数据进行分词,将分词结果作为待训练的文本信息文件;调用word2vec模型, 将分词结果转化为可计算的特征向量形式;结合停用词和高频词筛选得到一定数 量的有效词汇,计算每个词与其它所有词汇的余弦相似值,从而得到词距离;统 计筛选后所有词的词袋和权重,预测检索结果。
第三方面,本发明实施例还提供了一种基于词频和语义计算专利文献相 似度的智能检索装置,应用于服务器,该装置包括以下组件:
数据处理模块:用于从题库中将所有专利文本内容按照字段和重要性进行提取, 得到用于建模的数据标准格式;
智能计算模块:用于对提取的标准数据进行各类计算,得到文本中体现其频率、 语义、权重的模型数据;
模型构建模块:用于对模型数据进行建模计算,对计算结果进行组合优化,再结 合业务要求构建智能检索模型;
模型预测模块:用于将智能检索模型进行封装,根据用户输入信息预测出相似结 果排名。
进一步地,数据处理模块中专利文本内容主要是指专利的字段内容,包 括标题、摘要、权利声明、说明书等内容数据。
进一步地,智能计算模块中各类计算是指各种数据处理方法,包括分词、 构建词向量、统计词袋、计算词距离、计算词权重等,得到的建模数据质量直接 关联后续建模的效果和质量,有大约150万的词用于词频计算,11万的词向量 用于语义计算。
进一步地,模型构建模块中建模计算是指粗选方式和细选方式,采用粗 选方式对标题、摘要、权利声明三个字段组合进行快速筛选,再采用细选方式对 标题、摘要、权利声明和说明书四个字段组合进行词频加语义计算。
第四方面,本发明实施例还提供了一种电子设备,包括:存储器和处理 器,存储器与处理器连接,存储器用于存储程序代码指令,处理器用于调用存储 器中存储的程序代码指令,按照获得的程序执行如第一方面、第二方面实施例所 提供的方法。
第五方面,本发明实施例还提供了一种存储介质,该存储介质存储有处 理器可执行的程序代码指令,存储介质包括多条程序代码指令,多条指令被配置 成使处理器执行如第一方面、第二方面实施例所提供的方法。
本发明提供的一种基于词频和语义计算专利文献相似度的智能检索方 法、装置、电子设备及其存储介质,相比于现有技术具有以下优点:
本发明首先提升了检索速度,采用两轮筛选,第一轮粗选旨在快速缩小对比范围, 第二轮细选旨在兼顾提高准确率,其查询结果的前十名大概率是审查员需要的结 果;其次,机器检索是按照统一的算法进行相似度计算,评判标准比人工审查更 为客观。使用计算机进行大量重复性的对比工作,可以有效节省人力和时间,帮 助专利审查员缩减相关专利审查范围,提高审查效率。
附图说明
图1为实施例一提供的一种基于词频和语义计算专利文献相似度的智能 检索方法的流程图。
图2为实施例二提供的一种基于单台服务器的数据智能检索方法的流程 图。
图3为实施例三提供的一种基于词频和语义计算专利文献相似度的智能 检索装置的流程图。
图4为实施例四提供的一种电子设备的结构示意图。
图5为实施例五提供的一种网络系统的交互示意图。
具体实施方式
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技 术手段,而可以找说明书的内容予以实施,并且为了让本发明的上述和其它目的、 特征和有点能够更明显易懂,以下为本发明的具体实施方式。
实施例一
参见图1,为本实施例提供的一种基于词频和语义计算专利文献相似度 的智能检索方法,所举实例只用于解释本发明,并非用于限定本发明的范围。该 方法具体包括以下步骤:
S101、针对题库的全部专利数据,提取与考题内容相关的文本信息,整理成结构 化数据,形成分词结果;
S102、针对上述全部专利数据的分词结果进行词袋统计和词向量转化计算,得到 每个词的权重值,作为模型预测的预加载数据;
S103、加载上述全部词袋、词向量、词汇数据,根据考题公开号进行全量匹配查 询,比较模型预测的相似度,返回排名靠前的考题结果。
其中,S101中所述“考题”是指用户输入的标识号,所述“题库”是指 用户查询的一个或多个专利数据库,S101进一步包括:
S1011、获取题库的全部专利数据;
S1012、提取与考题内容相关的文本信息;
S1013、分词处理,形成结构化数据;
S1014、得到分词结果。
其中,S102进一步包括:
S1021、针对上述分词结果进行词袋统计,完成粗选;
S1022、针对粗选结果再次进行词袋统计和词向量转化计算,完成细选;
S1023、计算细选结果的权重值;
S1024、构建数据向量模型。
其中,S102中所述“词的权重值”的计算公式为:
Figure BSA0000223953760000051
公式中,分母加上1是为了避免分母为0
其中,相比其它权重计算方法,采用IDF权重计算方法的准确率最高, 每个词的IDF权重值域在0.3-13左右。
其中,S103进一步包括:
S1031、加载数据向量模型的全部词袋、词向量、词汇数据;
S1032、根据考题公开号进行全量匹配查询,得到模型预测数据;
S1033、比较模型预测数据的相似度;
S1034、返回排名靠前的专利公开号,得到考题结果。
其中,S1021进一步包括:
S10211、根据分词结果从专利语料库中生成字典和词典;
S10212、结合生成的字典和词典,从专利数据库中为每篇专利获取词袋,根据词 袋的不同属性生成词袋文件,词袋文件的集合形成词袋库;
S10213、根据考题内容,从词袋库中取出对应专利的词袋,由词袋得到文本内容;
S10214、根据词袋算法将每条考题不同字段的组合词袋与全量专利的相应词袋进 行逐一比较,计算得出语义相似值;将对应的每篇专利的不同组合词袋的TopN1结果融合取交集,再对剩余组合词袋按语义相似值从大到小排序,取出一定数量 凑足TopN1作为粗选的结果集,从而形成粗选集;
S10215、统计出所有考题对应的粗选集,将其传给细选算法模型作为输入。
其中,S10211中所述“字典”是包含考题内容中所有出现的中文字、重 要性及其唯一序号;所述“词典”是去除停用词以及按照高频数量筛选后的结果, 即每个词、重要性及其唯一序号。
其中,S10212中所述“词袋文件”中的词袋部分包含一篇专利中的词序 号(或字序号)和词频数(或字频数),每条记录以专利公开号作为唯一标识, 并且一篇专利可以由不同的部分(如标题、摘要等)得出不同的词袋,因此,一 篇专利可以根据字典或词典生成多个词袋文件。
其中,S1022进一步包括:
S10221、对词袋再次执行S1021所述粗选算法,对各个不同组合词袋的结果集进 行词袋算法相似值计算,并赋予一定权重;
S10222、使用语义算法,将词袋中所有词和考题中词逐一进行余弦相似度计算得 到相似值,并将所有相似值累加,得到两篇专利整体的语义相似度;不同字段的 组合词袋分别对应一个总相似值,并赋予一个权重;
S10223、对多个词袋和语义的相似值连同权重进行计算和累加,将结果作为相似 值进行排序,得到TopN2作为细选的结果集,从而形成细选集,作为检索结果。
其中,S10222中所述“余弦相似度计算”是指对N维变量进行余弦相似 度计算,公式为:
Figure BSA0000223953760000061
Figure BSA0000223953760000062
Figure BSA0000223953760000063
其中,单个字段语义的cosθ余弦值大部分在0.5以上,本发明将组合词 频与语义余弦的组合进行融合,得到相似度最终结果。
其中,本实施例所述方法是应用于实施例五中所述电子设备200的解调 方法。
实施例二
参见图2,为本实施例提供的一种基于单台服务器的数据智能检索方法, 所举实例只用于解释本发明,并非用于限定本发明的范围。该方法具体包括以下 步骤:
S201、从题库的XML文件中提取专利信息和内容并进行入库操作,提取的内容在 专利数据库内经初步清洗和整理后,下载成指定字段的CSV文件;
S202、对全量内容进行分词、去停用词、筛选高频词汇后,构建向量模型;
S203、对向量模型数据进行加载,结合基于字面的词袋算法和基于语义的语义算 法的多组融合结果,预测出排名靠前的专利。
其中,S203进一步包括:
S2031、对从原始专利数据中提取的所有文本形式的内容数据进行分词,将分词 结果作为待训练的文本信息文件;
S2032、调用word2vec模型,将分词结果转化为可计算的特征向量形式;
S2033、结合停用词和高频词筛选得到一定数量的有效词汇,计算每个词与其它 所有词汇的余弦相似值,从而得到词距离;
2034、统计筛选后所有词的词袋和权重,预测检索结果。
其中,所述“word2vec模型”是输入一个词的序列(一段文本),输出 这个词序列属于不同类别的概率。序列中的词和词组组成特征向量,将特征向量 映射到D维空间中,使得语义越相近的两个词之间的距离越小。word2vec模型 适合大型数据训练,具有训练速度高效的优点。
其中,本实施例所述方法是按照实施例一中所述方法通过执行程序代码 完成数据智能检索。
实施例三
参见图3,为本实施例提供的一种基于词频和语义计算专利文献相似度 的智能检索装置210,所举实例只用于解释本发明,并非用于限定本发明的范围。
该装置具体包括以下组件:
数据处理模块211:用于从题库中将所有专利文本内容按照字段和重要性进行提 取,得到用于建模的数据标准格式;
智能计算模块212:用于对提取的标准数据进行各类计算,得到文本中体现其频 率、语义、权重的模型数据;
模型构建模块213:用于对模型数据进行建模计算,对计算结果进行组合优化, 再结合业务要求构建智能检索模型;
模型预测模块214:用于将智能检索模型进行封装,根据用户输入信息预测出相 似结果排名。
其中,所述数据处理模块211中专利文本内容主要是指专利的字段内容, 包括标题、摘要、权利声明、说明书等内容数据。
其中,所述智能计算模块212中各类计算是指各种数据处理方法,包括 分词、构建词向量、统计词袋、计算词距离、计算词权重等,得到的建模数据质 量直接关联后续建模的效果和质量,有大约150万的词用于词频计算,11万的 词向量用于语义计算。
其中,所述模型构建模块213中建模计算是指粗选方式和细选方式,采 用粗选方式对标题、摘要、权利声明三个字段组合进行快速筛选,再采用细选方 式对标题、摘要、权利声明和说明书四个字段组合进行词频加语义计算。
其中,专利审查人员在进行专利查重时,在所述智能检索装置210中输 入需要查重的专利公开号(可以批量查询),该装置会依次获取专利信息,并与 专利数据库中的所有文献进行比对,先用词袋算法对文献的不同部分(如标题、 摘要、声明、说明)进行第一轮快速粗选,在粗选的结果中再结合语义算法对文 献的不同部分进行第二轮细选,最后,该装置快速得出精准答案,专利审查员再 根据审查需要进行更专业的人工审查。
其中,现有检索系统在检索Top50的准确率平均约为35%左右;而所述 智能检索装置210针对部分测试考题的准确率能达到50%以上,且大部分测试考 题的准确率平均维持在40%以上。
其中,所述智能检索装置210处理单条考题检索的响应时间,目前已经 平均维持在0.2s以内,相比其它现有检索系统基本保持一致甚至略快。
其中,本实施例所述智能检索装置210,其实现原理及产生的技术效果 与实施例一和实施例二中各所述方法相同,为简要描述,本实施例中未提及之处, 可参考前述方法实施例中相应内容。
实施例四
参见图4,为本实施例提供的一种电子设备200,所举实例只用于解释本 发明,并非用于限定本发明的范围。所述电子设备200包括:智能检索装置210、 存储器220和处理器230。
其中,所述智能检索装置210、存储器220、处理器230各元件相互之间 直接或间接地电性连接,以实现数据的传输或交互。
其中,上述各元件相互之间可通过一条或多条通讯总线或信号线实现电 性连接。所述智能检索装置210包括至少一个可以软件或固件(firmware)的形 式存储于所述存储器220中或固化在所述电子设备200的操作系统(0S)中的软 件功能模块。所述处理器230用于执行所述存储器220中存储的可执行模块,比 如,所述智能检索装置210包括的软件功能模块或计算机程序。
其中,所述存储器220不限于随机存取存储器(RAM),只读存储器(ROM), 可编程只读存储器(PROM),可擦除只读存储器(EPROM),电可擦除只读存储 器(EEPROM)等。
其中,所述存储器220用于存储程序,所述处理器230在接收到执行指 令后,执行所述程序。本发明实施例一、实施例二和实施例三中所执行的方法均 可以应用于本实施例所述电子设备200的处理器230中,或者由处理器230实现。
其中,所述处理器230可能是一种集成电路芯片,具有信号的处理能力。 所述处理器230可以是通用处理器,包括中央处理器(CPU)、网络处理器(NP) 等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门 阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件 组件。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用 处理器可以是微处理器,或者也可以是任何常规的处理器等。
其中,本实施例所述电子设备200可以是实施例五中所述服务器110。
实施例五
参见图5,为本实施例提供的一种网络系统100,所举实例只用于解释本 发明,并非用于限定本发明的范围。所述网络系统100包括:服务器110和客户 终端120,客户终端120通过网络与服务器110进行数据交互。
其中,所述服务器110在数据载入加速时,将预设提示信息发送至与所 述服务器110通信的客户终端120。
其中,所述服务器110不限于网络服务器、数据库服务器、云端服务器 等。所述客户终端120不限于个人电脑(PC)、智能手机、平板电脑、移动上网 设备(MID)、个人数字助理(PDA)等电子设备。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个 实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同相似的部 分互相参见即可。并且,各个实施例公开并不局限于上面已经描述并在附图中示 出的精确结构,还可以在不脱离其范围进行各种修改和改变。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围不局 限于此,任何熟悉本技术领域的技术人员在本发明的技术范围内,可轻易想到的 变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该 以权利要求的保护范围为准。

Claims (13)

1.一种基于词频和语义计算专利文献相似度的智能检索方法,其特征在于:包括以下步骤:
S101、针对题库的全部专利数据,提取与考题内容相关的文本信息,整理成结构化数据,形成分词结果;
S102、针对上述全部专利数据的分词结果进行词袋统计和词向量转化计算,得到每个词的权重值,作为模型预测的预加载数据;
S103、加载上述全部词袋、词向量、词汇数据,根据考题公开号进行全量匹配查询,比较模型预测的相似度,返回排名靠前的考题结果。
2.如权利要求1所述的一种基于词频和语义计算专利文献相似度的智能检索方法,其特征在于:所述S101进一步包括以下步骤:
S1011、获取题库的全部专利数据;
S1012、提取与考题内容相关的文本信息;
S1013、分词处理,形成结构化数据;
S1014、得到分词结果。
3.如权利要求1所述的一种基于词频和语义计算专利文献相似度的智能检索方法,其特征在于:所述S102进一步包括以下步骤:
S1021、针对上述分词结果进行词袋统计,完成粗选;
S1022、针对粗选结果再次进行词袋统计和词向量转化计算,完成细选;
S1023、计算细选结果的权重值;
S1024、构建数据向量模型。
4.如权利要求1所述的一种基于词频和语义计算专利文献相似度的智能检索方法,其特征在于:所述S103进一步包括以下步骤:
S1031、加载数据向量模型的全部词袋、词向量、词汇数据;
S1032、根据考题公开号进行全量匹配查询,得到模型预测数据;
S1033、比较模型预测数据的相似度;
S1034、返回排名靠前的专利公开号,得到考题结果。
5.如权利要求3所述的一种基于词频和语义计算专利文献相似度的智能检索方法,其特征在于:所述S1021进一步包括以下步骤:
S10211、根据分词结果从专利语料库中生成字典和词典;
S10212、结合生成的字典和词典,从专利数据库中为每篇专利获取词袋,根据词袋的不同属性生成词袋文件,词袋文件的集合形成词袋库;
S10213、根据考题内容,从词袋库中取出对应专利的词袋,由词袋得到文本内容;
S10214、根据词袋算法将每条考题不同字段的组合词袋与全量专利的相应词袋进行逐一比较,计算得出语义相似值;将对应的每篇专利的不同组合词袋的TopN1结果融合取交集,再对剩余组合词袋按语义相似值从大到小排序,取出一定数量凑足TopN1作为粗选的结果集,从而形成粗选集;
S10215、统计出所有考题对应的粗选集,将其传给细选算法模型作为输入。
6.如权利要求3所述的一种基于词频和语义计算专利文献相似度的智能检索方法,其特征在于:所述S1022进一步包括以下步骤:
S10221、对词袋再次执行S1021所述粗选算法,对各个不同组合词袋的结果集进行词袋算法相似值计算,并赋予一定权重;
S10222、使用语义算法,将词袋中所有词和考题中词逐一进行余弦相似度计算得到相似值,并将所有相似值累加,得到两篇专利整体的语义相似度;不同字段的组合词袋分别对应一个总相似值,并赋予一个权重;
S10223、对多个词袋和语义的相似值连同权重进行计算和累加,将结果作为相似值进行排序,得到TopN2作为细选的结果集,从而形成细选集,作为检索结果。
7.如权利要求1所述的一种基于词频和语义计算专利文献相似度的智能检索方法,其特征在于:S101中所述“考题”是指用户输入的标识号,所述“题库”是指用户查询的一个或多个专利数据库;S102中所述“每个词的权重值”的阈值范围在0.3-13左右,计算准确率最高。
8.一种基于单台服务器的数据智能检索方法,其特征在于:包括以下步骤:
S201、从题库的XML文件中提取专利信息和内容并进行入库操作,提取的内容在专利数据库内经初步清洗和整理后,下载成指定字段的CSV文件;
S202、对全量内容进行分词、去停用词、筛选高频词汇后,构建向量模型;
S203、对向量模型数据进行加载,结合基于字面的词袋算法和基于语义的语义算法的多组融合结果,预测出排名靠前的专利。
9.如权利要求8所述的一种基于单台服务器的数据智能检索方法,其特征在于:
所述S203进一步包括以下步骤:
S2031、对从原始专利数据中提取的所有文本形式的内容数据进行分词,将分词结果作为待训练的文本信息文件;
S2032、调用word2vec模型,将分词结果转化为可计算的特征向量形式;
S2033、结合停用词和高频词筛选得到一定数量的有效词汇,计算每个词与其它所有词汇的余弦相似值,从而得到词距离;
2034、统计筛选后所有词的词袋和权重,预测检索结果。
10.一种基于词频和语义计算专利文献相似度的智能检索装置,其特征在于:该装置包括以下模块:
数据处理模块:用于从题库中将所有专利文本内容按照字段和重要性进行提取,得到用于建模的数据标准格式;
智能计算模块:用于对提取的标准数据进行各类计算,得到文本中体现其频率、语义、权重的模型数据;
模型构建模块:用于对模型数据进行建模计算,对计算结果进行组合优化,再结合业务要求构建智能检索模型;
模型预测模块:用于将智能检索模型进行封装,根据用户输入信息预测出相似结果排名。
11.如权利要求10所述的一种基于词频和语义计算专利文献相似度的智能检索装置,其特征在于:
数据处理模块中所述“专利文本内容”主要是指专利的字段内容,包括标题、摘要、权利声明、说明书的内容数据;
智能计算模块中所述“各类计算”是指各种数据处理方法,包括分词、构建词向量、统计词袋、计算词距离和计算词权重,得到的建模数据质量直接关联后续建模的效果和质量,有大约150万的词用于词频计算,11万的词向量用于语义计算;
模型构建模块中所述“建模计算”是指粗选方式和细选方式,采用粗选方式对标题、摘要、权利声明三个字段组合进行快速筛选,再采用细选方式对标题、摘要、权利声明和说明书四个字段组合进行词频加语义计算。
12.一种电子设备,其特征在于:所述电子设备包括:存储器和处理器,所述存储器与所述处理器连接;所述存储器用于存储程序;所述处理器用于调用存储于所述存储器中的程序,以执行如权利要求1-9任一项所述的方法。
13.一种存储介质,其特征在于:所述存储介质存储有处理器可执行的程序代码于计算机内,所述存储介质包括多条指令,所述多条指令被配置成使所述处理器执行如权利要求1-9任一项所述的方法。
CN202011227890.1A 2020-11-06 2020-11-06 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质 Active CN112257419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011227890.1A CN112257419B (zh) 2020-11-06 2020-11-06 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011227890.1A CN112257419B (zh) 2020-11-06 2020-11-06 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质

Publications (2)

Publication Number Publication Date
CN112257419A true CN112257419A (zh) 2021-01-22
CN112257419B CN112257419B (zh) 2021-05-28

Family

ID=74265042

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011227890.1A Active CN112257419B (zh) 2020-11-06 2020-11-06 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质

Country Status (1)

Country Link
CN (1) CN112257419B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254586A (zh) * 2021-05-31 2021-08-13 中国科学院深圳先进技术研究院 一种基于深度学习的无监督文本检索方法
CN114090799A (zh) * 2021-11-24 2022-02-25 开普云信息科技股份有限公司 文本检索方法、装置、存储介质及服务器
CN114580556A (zh) * 2022-03-10 2022-06-03 北京中知智慧科技有限公司 专利文献的预评估方法及装置
CN115878760A (zh) * 2023-02-10 2023-03-31 北京知呱呱科技服务有限公司 一种基于图匹配的跨语种专利检索方法及系统
CN115878759A (zh) * 2023-01-05 2023-03-31 京华信息科技股份有限公司 一种文本查找方法、装置及存储介质
CN116975068A (zh) * 2023-09-25 2023-10-31 中国标准化研究院 基于元数据的专利文献数据存储方法、装置及存储介质
CN117112735A (zh) * 2023-10-19 2023-11-24 中汽信息科技(天津)有限公司 一种专利数据库的构建方法和电子设备
CN117931881A (zh) * 2024-03-15 2024-04-26 四川鑫正工程项目管理咨询有限公司 一种工程造价查询管理方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索系统
US20160275196A1 (en) * 2015-03-18 2016-09-22 Industry-Academic Cooperation Foundation, Yonsei University Semantic search apparatus and method using mobile terminal
CN106294684A (zh) * 2016-08-06 2017-01-04 上海高欣计算机系统有限公司 词向量的文本分类方法及终端设备
CN108595706A (zh) * 2018-05-10 2018-09-28 中国科学院信息工程研究所 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN109948121A (zh) * 2017-12-20 2019-06-28 北京京东尚科信息技术有限公司 文章相似度挖掘方法、系统、设备及存储介质
CN110704621A (zh) * 2019-09-25 2020-01-17 北京大米科技有限公司 文本处理方法、装置及存储介质和电子设备
CN111401043A (zh) * 2020-03-06 2020-07-10 中国平安人寿保险股份有限公司 近义词挖掘方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059806A (zh) * 2007-06-06 2007-10-24 华东师范大学 一种基于语义的本地文档检索方法
CN103136352A (zh) * 2013-02-27 2013-06-05 华中师范大学 基于双层语义分析的全文检索系统
US20160275196A1 (en) * 2015-03-18 2016-09-22 Industry-Academic Cooperation Foundation, Yonsei University Semantic search apparatus and method using mobile terminal
CN106294684A (zh) * 2016-08-06 2017-01-04 上海高欣计算机系统有限公司 词向量的文本分类方法及终端设备
CN109948121A (zh) * 2017-12-20 2019-06-28 北京京东尚科信息技术有限公司 文章相似度挖掘方法、系统、设备及存储介质
CN108595706A (zh) * 2018-05-10 2018-09-28 中国科学院信息工程研究所 一种基于主题词类相似性的文档语义表示方法、文本分类方法和装置
CN110704621A (zh) * 2019-09-25 2020-01-17 北京大米科技有限公司 文本处理方法、装置及存储介质和电子设备
CN111401043A (zh) * 2020-03-06 2020-07-10 中国平安人寿保险股份有限公司 近义词挖掘方法、装置、设备及存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254586A (zh) * 2021-05-31 2021-08-13 中国科学院深圳先进技术研究院 一种基于深度学习的无监督文本检索方法
CN113254586B (zh) * 2021-05-31 2021-11-05 中国科学院深圳先进技术研究院 一种基于深度学习的无监督文本检索方法
CN114090799A (zh) * 2021-11-24 2022-02-25 开普云信息科技股份有限公司 文本检索方法、装置、存储介质及服务器
CN114580556A (zh) * 2022-03-10 2022-06-03 北京中知智慧科技有限公司 专利文献的预评估方法及装置
CN115878759A (zh) * 2023-01-05 2023-03-31 京华信息科技股份有限公司 一种文本查找方法、装置及存储介质
CN115878760A (zh) * 2023-02-10 2023-03-31 北京知呱呱科技服务有限公司 一种基于图匹配的跨语种专利检索方法及系统
CN116975068A (zh) * 2023-09-25 2023-10-31 中国标准化研究院 基于元数据的专利文献数据存储方法、装置及存储介质
CN117112735A (zh) * 2023-10-19 2023-11-24 中汽信息科技(天津)有限公司 一种专利数据库的构建方法和电子设备
CN117112735B (zh) * 2023-10-19 2024-02-13 中汽信息科技(天津)有限公司 一种专利数据库的构建方法和电子设备
CN117931881A (zh) * 2024-03-15 2024-04-26 四川鑫正工程项目管理咨询有限公司 一种工程造价查询管理方法
CN117931881B (zh) * 2024-03-15 2024-05-24 四川鑫正工程项目管理咨询有限公司 一种工程造价查询管理方法

Also Published As

Publication number Publication date
CN112257419B (zh) 2021-05-28

Similar Documents

Publication Publication Date Title
CN112257419B (zh) 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质
WO2019214245A1 (zh) 一种信息推送方法、装置、终端设备及存储介质
CN109885773B (zh) 一种文章个性化推荐方法、系统、介质及设备
CN104199965B (zh) 一种语义信息检索方法
CN101430695B (zh) 用于计算单词之间的差相关度的系统和方法
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN112035598A (zh) 一种智能语义检索方法、系统和电子设备
CN103425691A (zh) 一种搜索方法和系统
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN109885651B (zh) 一种问题推送方法和装置
Wu et al. Extracting topics based on Word2Vec and improved Jaccard similarity coefficient
CN108287848B (zh) 用于语义解析的方法和系统
CN111782793A (zh) 智能客服处理方法和系统及设备
CN113806492B (zh) 基于语义识别的记录生成方法、装置、设备及存储介质
CN115248839A (zh) 一种基于知识体系的长文本检索方法以及装置
CN113569118B (zh) 自媒体推送方法、装置、计算机设备及存储介质
CN114840766A (zh) 一种用户画像构建方法、系统、设备及存储介质
CN111737607B (zh) 数据处理方法、装置、电子设备以及存储介质
CN113434639A (zh) 审计数据处理方法及装置
Ruambo et al. Towards enhancing information retrieval systems: A brief survey of strategies and challenges
CN105512270B (zh) 一种确定相关对象的方法和装置
CN111460114A (zh) 检索方法、装置、设备及计算机可读存储介质
CN116361428A (zh) 一种问答召回方法、装置和存储介质
CN109062551A (zh) 基于大数据开发命令集的开发框架

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220729

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Zhiguquan Technology Service Co.,Ltd.

Address before: Room 1805, unit 2, building 5, Huixing business center, No.1 Dongsheng Road, Middle Shandong, Shilong Town, Dongguan City, Guangdong Province, 523000

Patentee before: Cape Cloud Information Technology Co.,Ltd.

Patentee before: BEIJING KAIPUYUN INFORMATION TECHNOLOGY CO.,LTD.

CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Zhiguagua Technology Co.,Ltd.

Address before: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee before: Beijing Zhiguquan Technology Service Co.,Ltd.

CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee after: Beijing Xinghe Zhiyuan Technology Co.,Ltd.

Country or region after: China

Address before: No. 401-1, 4th floor, podium, building 3 and 4, No. 11, Changchun Bridge Road, Haidian District, Beijing 100089

Patentee before: Beijing Zhiguagua Technology Co.,Ltd.

Country or region before: China