CN114580556A - 专利文献的预评估方法及装置 - Google Patents

专利文献的预评估方法及装置 Download PDF

Info

Publication number
CN114580556A
CN114580556A CN202210240159.5A CN202210240159A CN114580556A CN 114580556 A CN114580556 A CN 114580556A CN 202210240159 A CN202210240159 A CN 202210240159A CN 114580556 A CN114580556 A CN 114580556A
Authority
CN
China
Prior art keywords
patent document
evaluated
similarity
similar
technical characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210240159.5A
Other languages
English (en)
Inventor
朱欣昱
程序
杨瑞琦
刘琦
赵亮
赵国璧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongzhi Zhihui Technology Co ltd
Original Assignee
Beijing Zhongzhi Zhihui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongzhi Zhihui Technology Co ltd filed Critical Beijing Zhongzhi Zhihui Technology Co ltd
Priority to CN202210240159.5A priority Critical patent/CN114580556A/zh
Publication of CN114580556A publication Critical patent/CN114580556A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Technology Law (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Tourism & Hospitality (AREA)
  • Biomedical Technology (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种专利文献的预评估方法及装置,其中该方法包括:将待评估专利文献信息输入预先建立的语义分析模型,检索得到与待评估专利文献相似的多篇近似专利文献;利用待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行特征比对,得到待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度;根据该相似度绘制技术特征光谱图;光谱图中的纵轴对应待评估专利文献的多个权利要求项,横轴对应多篇近似专利文献;每一权利要求项与每一篇近似专利文献的交叉点对应技术特征相似度,以预设色调对应该相似度的大小;根据技术特征光谱图,对待评估专利文献进行预评估。本发明可以高效准确且直观地对专利文献进行预评估。

Description

专利文献的预评估方法及装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种专利文献的预评估方法及装置。
背景技术
本部分旨在为权利要求书中陈述的本发明实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
目前,现有的专利文献的预评估方法是人工比对两篇文献的相似度,得到待评估专利文献的预评估结果,因此,现有专利文献的预评估方法效率低下,且直观性较差。
发明内容
本发明实施例提供一种专利文献的预评估方法,用以高效准确且直观地对专利文献进行预评估,该方法包括:
将待评估专利文献信息输入预先建立的语义分析模型,检索得到与待评估专利文献相似的多篇近似专利文献;
利用待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行技术特征比对,得到待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度;
根据待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度绘制技术特征光谱图;所述技术特征光谱图中的纵轴对应待评估专利文献的多个权利要求项,横轴对应多篇近似专利文献;每一权利要求项与每一篇近似专利文献在技术特征光谱图中的交叉点对应每一权利要求项与每一篇近似专利文献的技术特征相似度,以预设色调对应所述相似度的大小;
根据所述技术特征光谱图,对待评估专利文献进行预评估,得到待评估专利文献的预评估结果。
本发明实施例还提供一种专利文献的预评估装置,用以高效准确且直观地对专利文献进行预评估,该装置包括:
智能检索单元,用于将待评估专利文献信息输入预先建立的语义分析模型,检索得到与待评估专利文献相似的多篇近似专利文献;
遍历特征对比单元,用于利用待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行技术特征比对,得到待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度;
光谱图绘制单元,用于根据待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度绘制技术特征光谱图;所述技术特征光谱图中的纵轴对应待评估专利文献的多个权利要求项,横轴对应多篇近似专利文献;每一权利要求项与每一篇近似专利文献在技术特征光谱图中的交叉点对应每一权利要求项与每一篇近似专利文献的技术特征相似度,以预设色调对应所述相似度的大小;
可视化交互评估单元,用于根据所述技术特征光谱图,对待评估专利文献进行预评估,得到待评估专利文献的预评估结果。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述专利文献的预评估方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述专利文献的预评估方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述专利文献的预评估方法。
与现有技术中通过人工比对文献的相似度对待评估专利文献进行预评估,效率低且直观性也差的技术方案相比,本发明实施例提供的专利文献的预评估方案的有益技术效果是:
首先,本发明实施例将待评估专利文献信息输入预先建立的语义分析模型,检索得到与待评估专利文献相似的多篇近似专利文献,实现了通过语义分析进行高效检索,为后续高效地进行专利文献的预评估奠定了坚实的基础。
其次,本发明实施例利用遍历算法将待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行技术特征比对,得到待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度,实现了利用遍历算法进行技术特征比对:待评估专利文献遍历所有权利要求项,近似专利文献遍历所有文档内容。此算法逻辑,同用户使用的业务逻辑接近,从而可以准确地对专利文献进行预评估。
再次,本发明实施例中,根据待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度绘制技术特征光谱图;所述技术特征光谱图中的纵轴对应待评估专利文献的多个权利要求项,横轴对应多篇近似专利文献;每一权利要求项与每一篇近似专利文献在技术特征光谱图中的交叉点对应每一权利要求项与每一篇近似专利文献的技术特征相似度,以预设色调对应所述相似度的大小;根据所述技术特征光谱图,对待评估专利文献进行预评估,得到待评估专利文献的预评估结果,实现了基于技术特征相似度绘制的技术特征光谱图,进行可视化交互,从而可以直观地获得待评估专利文献的预评估结果。
综上,本发明实施例提供的专利文献的预评估方案可以高效准确且直观地对专利文献进行预评估。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中专利文献的预评估方法的流程示意图;
图2为本发明实施例中遍历特征对比的流程示意图;
图3为本发明实施例中技术特征光谱图;
图4为本发明实施例中专利文献的预评估的原理示意图;
图5为本发明另一实施例中专利文献的预评估的原理示意图;
图6为本发明实施例中专利文献的预评估的一个示例示意图;
图7为本发明实施例中专利文献的预评估装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
本发明提出了一种专利文献的预评估方案,该方案以光谱图的形式展示某一专利文献的相似文献,相似度越高的文献,对应光谱图上点的热力值越大(红色越重)。将某一专利文献(目标专利文献)的权利要求书与多篇相近专利文献的全文进行比对特征比对,比对结果以光谱图的形式展示,光谱上的每个方格(交叉点)对应目标专利文献(待评估专利文献)与一篇相似文献(近似专利文献),点击某一个方格,可展示目标专利文献与某一篇相似文献的比对结果;点击某一行可展示目标专利文献的某个特征与各个相似文献的比对结果,通过点击某一列可展示某一个相似文献与目标专利文献权利要求书中各个特征的比对结果。根据光谱图的颜色,能够直观反映目标专利文献的新创性。下面对该专利文献的预评估方案进行详细介绍。
图1为本发明实施例中专利文献的预评估方法的流程示意图,如图1所示,该方法包括如下步骤:
步骤101:将待评估专利文献信息输入预先建立的语义分析模型,检索得到与待评估专利文献相似的多篇近似专利文献;
步骤102:利用待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行技术特征比对,得到待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度;
步骤103:根据待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度绘制技术特征光谱图;所述技术特征光谱图中的纵轴对应待评估专利文献的多个权利要求项,横轴对应多篇近似专利文献;每一权利要求项与每一篇近似专利文献在技术特征光谱图中的交叉点对应每一权利要求项与每一篇近似专利文献的技术特征相似度,以预设色调对应所述相似度的大小;
步骤104:根据所述技术特征光谱图,对待评估专利文献进行预评估,得到待评估专利文献的预评估结果。
与现有技术中通过人工比对文献的相似度对待评估专利文献进行预评估,效率低且直观性也差的技术方案相比,本发明实施例提供的专利文献的预评估方法的有益技术效果是:
首先,本发明实施例将待评估专利文献信息输入预先建立的语义分析模型,检索得到与待评估专利文献相似的多篇近似专利文献,实现了通过语义分析进行高效检索,为后续高效地进行专利文献的预评估奠定了坚实的基础。
其次,本发明实施例利用遍历算法将待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行技术特征比对,得到待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度,实现了利用遍历算法进行技术特征比对:待评估专利文献遍历所有权利要求项,近似专利文献遍历所有文档内容。此算法逻辑,同用户使用的业务逻辑接近,从而可以准确地对专利文献进行预评估。
再次,本发明实施例中,根据待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度绘制技术特征光谱图;所述技术特征光谱图中的纵轴对应待评估专利文献的多个权利要求项,横轴对应多篇近似专利文献;每一权利要求项与每一篇近似专利文献在技术特征光谱图中的交叉点对应每一权利要求项与每一篇近似专利文献的技术特征相似度,以预设色调对应所述相似度的大小;根据所述技术特征光谱图,对待评估专利文献进行预评估,得到待评估专利文献的预评估结果,实现了基于技术特征相似度绘制的技术特征光谱图,进行可视化交互,从而可以直观地获得待评估专利文献的预评估结果。
综上,本发明实施例提供的专利文献的预评估方法可以高效准确且直观地对专利文献进行预评估。下面结合图2至图6对该专利文献的预评估方法进行详细介绍。
一、首先,介绍上述步骤101,即基于语义分析进行智能检索的步骤。
首先介绍语义网的构建,即预先建立语义分析模型。
1、模型选型
语义网的构建,是使用训练数据,构建起语义要素之间彼此关联的语义关系。其作用是能够实现词汇的向量表示,以便于后续的语义计算。
现阶段语义网的训练,大多是使用以神经网络为基础的语义模型,本发明实施例使用了FASTTEXT,以及BERT作为语义网的训练模型,即在一个实施例中,语义分析模型包括FASTTEXT以及BERT模型,并调研了WORD2VECT模型(经典模型)。
三种模型,在本发明实施例中的特点如下表1所示:
Figure BDA0003541076810000051
Figure BDA0003541076810000061
表1
本发明实施例并没有使用word2vect模型,而是选用了fasttext以及bert来作为语义网构建模型,其原因在于:
1)word2vect虽是经典语义模型,但相对陈旧,其基本理论基础是线性的统计模型,而非神经网络。其调整提升空间都很有限。发明人在其他研究中也曾经使用过word2vect模型,其向量化结果用于语义比对,略显不足。
2)本发明实施例最倾向尝试使用的模型,为bert模型。原因有三:其一,bert模型的神经网络规模最大,词向量规模最大,这意味着每一个词汇,在bert模型中,其向量表达的粒度最细。模型调整的可能性最多。其二,bert模型的社会研究也很多,有大量的预训练成果可以拿来直接应用,这使得本发明实施例的研究起点不必从零开始,本发明实施例的成果,也可以提供给后续研究者使用。其三,欧洲专利局在其自动分类项目中,使用了google为基础的bert预训练结果,进行了再训练。其在英文专利领域的应用效果不错。
3)本发明实施例仍然选择先使用FASTTEXT模型的原因。因为fasttext模型,无论在训练时间,神经网络模型,向量规模等参数方面,都介于word2vect和bert之间。其训练时间其实更接近word2vect,使用效果却接近bert。其实际上是一个效率非常高的神经网络模型。而bert的训练时间过长是一个非常重要的影响因素。由于本发明实施例是在语义网的构建基础上,需要顺序开展后续的技术特征选择、语义比对、可视化实验,实证研究等等相关工作。因此在语义网环节需要有一个相对比较可靠,能够快速获得结果的模型保底。
具体实施例时,在实际的研究过程中,也证明了发明人选择fasttext的正确性。因为第一次bert训练,使用的是基于网络资源预训练的bert模型,导致其训练效果,在计算专利语句的比对效果层面,尚不及fasttext的效果。但本次bert训练,却消耗了发明人将近2个月的时间。
具体实施例时,在本发明实施例研究过程中,发现一个非常重要的关键性问题:专利审查中的语义比对,往往需要对比计算的是两项技术描述文字的“接近程度”,“相似程度”。而现阶段,基于神经网络的语义网训练,其基本理论基础,是基于专利行文的文本关系统计,例如两个词汇同句出现,则判定为有语义关联,并计入统计(神经网络亦为统计)。其统计的关系,其实是“上下文关联”关系。这与我们在专利审查中需要的“相似程度”,是存在偏差的。诚然,当两个词汇,如果其统计学视角下,上下文关联高度相似的话,确实形成的词汇向量会很接近,一定程度上也能实现“相似程度”的计算。但毕竟业务场景需求和技术底层逻辑基础是不一样的。如要真正实现“专精”的针对“技术相似程度”的对比,需要对底层模型的训练语料进行特殊挑选,这在本发明实施例能力范围内进行了一些尝试。
2、分词策略
分词是所有中文语义系统所必须考虑的环节,其作用是使用词典,将中文句子切分成词汇单元,并标注出每个词汇单元的词性。
目前本发明实施例中采用的分词策略如下:
1)按预设词典分类策略。
目前FASTTEXT采用的是按照预设技术词典进行分类。预设技术词典是在专利数据基础上,使用语义引擎(含新词发现功能)进行抽取,并经多年总结获得的技术词典。
2)无分词(字分割)策略。
目前BERT模型采用的是无分词,即按字分割策略。此策略亦不标注词性。此策略的基本理念在于汉语最小单元为字,任何形式的切词均可能损失或者误导语义。因此使用按字分割策略,使用字之间的有序组合,训练语义模型。其训练计算量是正常分词的几何级数倍。只有BERT模型针对此类分词策略,有过相对较好的表现(其他模型有过类似尝试,但效果不佳)。因此在本发明实施例的BERT训练中,使用的均为无分词策略
3)冗余分词策略(实验后未采用)。
冗余分词策略为针对一个长的组合词,对其进行冗余切词。例如,“电动汽车”,分词后,会成为,“电动汽车”“、”“电动”“、”“汽车”“。冗余切词的好处是,可以一定程度上避免切词错误导致的语义歧义,智能检索使用冗余切词会有不错的效果。缺点是会使运算量提升数倍至数十倍。本发明实施例的FASTTEXT模型训练中,曾经尝试了冗余切词的策略。但由于整体几乎没有任何效果方面的提升,因此最终该策略成为弃案。注:冗余切词效果不明显的原因,在于我们使用的是专利全文文本切词训练。单一长词虽然冗余切词的效果非常明显,但冗余出来的词汇,往往在全文切词中本来就存在,其语境也类似,因此性价比极低。
4)短词策略。
本发明实施例FSATTEXT模型使用的是短词切词策略。其原因在于,专利领域是一个新词出现极多的领域,每年新词量约百万级。新词过多,会导致切词词典频繁更新不稳定。但是专利领域的新词,往往是复合词的形式,是由多个技术词汇组合成的新词。例如“电动汽车”,将其分词成“电动“、””“汽车”,还是“电动汽车”,本身对于语义层面而言,损失并不大。因此,在本发明实施例的FASTTEXT模型中,为了让词典保持相对稳定的状态,使用的是短词切词策略(五字以下词汇)。
5)名词策略
目前本发明实施例的FASTTEXT模型中,特征选择中采用的是切词后选用名词词性词汇的策略。因为名词包含了绝大多数技术类词汇。而其他词性的词汇,跟技术的相关度较低。其实,本发明实施例选择名词词性也有一部分原因是因为工作量和实验时间受限,没有做更多的尝试。在技术交流中,发明人认为如果把动词也纳入后续特征选择,也许会有效果提升作用。
3、训练数据选择
本发明实施例选择的训练集之一可以是近5年公开公告的发明专利数据与实用新型专利数据。该数据集被用于FASTTEXT模型的训练,以及BERT模型的第一层训练。
选择近五年的数据范围,是因为:首先,近五年的发明专利数据与实用新型专利数据总计超过1800万,数量足够丰富,技术领域覆盖完整,在语料丰富程度上已经完全满足模型训练的需求。其次,由于随着时间的推移,语言表述方法、技术名词会有所变化,选择较近时间的数据作为训练语料,有助于训练出来的模型更适合当前的语言环境。
本发明实施例选择的训练集之二可以是在检索报告中,审查员标记的比对文献(对比文件)的对应章节片段。此训练集用于BERT模型的第二层训练,可以进一步提高后续智能检索的精度。
选择此训练数据集的原因,在于:常规专利数据作为语料,其训练的是“语义相关”关系,而非“技术相近”关系。因此使用常规语料训练的语义网的底层逻辑,其实并不完全符合审查员进行文献对比时的判断逻辑。因此需要发掘底层逻辑完全一致的语料来进行训练。
该语料仅作为BERT模型的补充训练语料,是因为其基础数量不足,难以构建起完整的语义模型。
此类语料还有一个问题,就是其收集和整理存在着极大的困难。虽然在检索报告中有所提及,但是检索报告中实际提及的,是其语料对的指向性信息,并非实际语料,需要将指向信息提取出来,而后根据指向信息定位对应语料,再提取出来。而且这些指向信息混杂在检索报告或者通知书的表格、文本等非结构化数据中,如何完整的,大批量的抽取这些语料用于训练成为了一个新的问题。
本发明实施例中,暂时使用了相对简化的语料抽取规则。如下:
1)选择只有一个独立权利要求项,并且拥有X、Y类对比文献的专利(发明人曾尝试选择仅有一个权利要求项的上述专利,但数据量过小无法满足训练需要)。
2)从检索报告中,抽取其对应权利要求项,以及比对文献定位信息(文献号,段落位置),无上述精确位置信息的专利数据排除。
3)通过上述指向信息,至两件专利处,分别抽取对应位置的文本段落,拼成语料对。
本发明实施例根据上述规则,目前抽取了超过8000对专利文本,作为训练语料。
4、语义模型的分结构套用
除了上述针对业务的模型定制化学习以外,本发明实施例还提出了一种BERT模型的分结构套用模型。
BERT模型有一个特点,当训练语料不同的时候,其语义网的构建结果也完全不同,在一次训练的基础上,还可以进行第二次训练。本发明实施例的第一次bert模型训练,是在开源共享的现有BERT模型基础上进行的。这样选择的原因在于,在第一阶段,发明人认为专利作为唯一的训练语料,其语义体系过于偏向专利特有的描述方式,也就是语义网不完整。如果只用专利数据来训练,很可能会造成语义网的过于片面,例如,专利中的同义词,很少会同篇文献出现。这就导致语义网训练之后,同义词之间的相关度极低。所以本发明实施例第一次BERT模型训练,使用的是已经训练好的现有模型,在此基础上进行的专利数据训练。
但第一次训练得到的结果非常不好,分析原因在于:由于原模型是在亿级别的新闻和媒体语料中训练的,其语料数量远远大于专利语料规模。因此专利语料起到的作用就非常的小。
但受此启发,发明人提出了BERT模型的分结构套用模型。具体思路是:把专利语料按照其侧重不同进行细分,例如标题(侧重发明主题)、摘要(侧重发明关键点)、权利要求(侧重完整技术特征及保护点)、背景技术(侧重领域和效果)、效用句(侧重效果)、实施例(侧重实施案例)。并且抛弃附图说明(语义结构过于特殊)。针对不同的部分,训练不同的bert模型。而在使用的时候,由于使用的场景往往也是针对专利,所以也可以针对使用对象,先进行各部分的拆解,而后再进行语义模型的描述。这在客观上,形成了一种语义特征区分使用的效果。
其次介绍技术特征单元的选择,即检索时比对两篇文献相似性时选用的特征单元。
在本发明实施例中,技术特征单元的选择主要指的是用于比较的最小技术特征描述单元。
最小技术特征描述单元的选择,一般存在如下几个层级:
1、词汇级。即使用技术型词汇作为专利的技术特征描述单元。例如专利CN111273180A“一种锂电池的析锂检测方法及装置”,使用词汇级特征单元,就是在比对“锂电池”、“装置”、“析锂”、“充电”等等这类词汇。
2、短语级。即使用短语作为专利的技术特征描述单元。例如专利CN111273180A“一种锂电池的析锂检测方法及装置”,使用短语级特征单元,就是在比较“析锂检测方法及装置””、“提高析锂诊断的可靠性”、“所导致的压力信息”等等这类短语。
3、短句级。即使用短句作为专利的技术特征描述单元。例如专利CN111273180A“一种锂电池的析锂检测方法及装置”,使用短句级特征单元,就是在比较“本申请提供一种锂电池的析锂检测方法及装置”、“涉及电动汽车技术领域”、“用于提高析锂诊断的可靠性”等等这类短句。
4、段落级。即使用段落作为专利的技术特征描述单元。例如专利CN111273180A“一种锂电池的析锂检测方法及装置”,使用段落级特征单元,就是在比较“本申请提供一种锂电池的析锂检测方法及装置,涉及电动汽车技术领域,用于提高析锂诊断的可靠性。该方法包括:分别使用至少两个充电倍率对锂电池进行循环充电,至少两个充电倍率包括第一充电倍率和第二充电倍率,第一充电倍率大于第二充电倍率且与第二充电倍率的差值大于预设倍率阈值;在循环充电过程中,分别检测锂电池的状态参数,对应得到至少两个压力信息;根据至少两个压力信息,确定锂电池的析锂效应所导致的压力信息,析锂效应所导致的压力信息用于指示锂电池在不同SOC下由析锂效应所导致的压力值变化;当析锂效应所导致的压力信息中存在连续的多个SOC对应的压力值大于零时,确定锂电池发生析锂。”这样的段落。
5、其他。除此以外,也可以使用范式结构,长句之类的特殊规则来约定用于对比的技术特征描述单元。
本发明实施例最终采用的技术特征单元选择策略。该策略是特殊规则:选择权利要求项作为技术特征单元。权利要求项作为技术特征单元,其技术特征单元的拆分规则是延续长句的拆分规则,以句号等长句结束符作为分割标识。但其表现形式是段落级,因为其文本量,与正文的长句文本量明显不同。以外,以权利要求项为技术特征单元的策略,还附加了一个特殊的语义处理,剔除非技术表述环节,即“特征在于”之前的文本内容。
此外,上述技术特征单元的选择,是比对双方的一方规则,即待审查专利文献方(此时待评估专利文献为待审查的专利文献)。对于比对所用的专利文献这一方,其技术特征单元的选择策略是不同的。其权利要求项文本部分仍使用以权利要求项为技术特征单元的策略不变。但其全文部分,则是使用了“长句策略+规模对等策略”。长句策略不赘述了,规模对等策略是指将比对用的文本长度,是由多个长句拼接而成,拼接的文本长度,一般低于正文的段落规模,而是和权利要求项的文本规模对等。
具体实施时,不使用词汇级,短语级技术特征单元的原因,是因为专利在描述技术方案的时候,单纯的词汇和短语,会损失掉大量的语义信息。
具体实施时,不使用短句级技术特征单元的原因,是因为专利中往往有大量的排比型短句,其语义信息含量与词汇和短语区别不大
具体实施时,选择权利要求项整句作为技术特征单元的原因,是因为这样能够最大限度的保留技术方案中单个创新特征的完整语义内容。同时不同创新特征之间的区分也是最清晰的。
具体实施时,在对比文献的技术特征单元选择中,使用规模对等策略。是因为权利要求项和正文中,长句与段落的描述粒度不对等。权利要求项的长句,规模往往远大于正文长句,远小于正文段落。正文使用长句或者段落策略,都有可能造成语义比对双方的语义规模不对等,失去对比意义。
再次介绍技术特征单元间的对比。
技术特征单元间的比对,在于将技术单元向量化之后,使用余弦相似度公式进行计算。
余弦相似性通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1,而其他任何角度的余弦值都不大于1;并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时,余弦相似度的值为1;两个向量夹角为90°时,余弦相似度的值为0;两个向量指向完全相反的方向时,余弦相似度的值为-1。这结果是与向量的长度无关的,仅仅与向量的指向方向相关。余弦相似度通常用于正空间,因此给出的值为-1到1之间。
注意这上下界对任何维度的向量空间中都适用,而且余弦相似性最常用于高维正空间。例如在信息检索中,每个词项被赋予不同的维度,而一个维度由一个向量表示,其各个维度上的值对应于该词项在文档中出现的频率。余弦相似度因此可以给出两篇文档在其主题方面的相似度。它通常用于文本挖掘中的文件比较。
给定两个属性向量,A和B,其余弦相似性θ由点积和向量长度给出,如下面公式所示。
Figure BDA0003541076810000121
这里的i分别代表向量A和B的各分量。
在一个实施例中,将待评估专利文献信息输入预先建立的语义分析模型,检索得到与待评估专利文献相似的多篇近似专利文献,可以包括:按照如下方法检索得到与待评估专利文献相似的每一篇近似专利文献:
将待评估专利文献以及每一待比较文献划分为多个部分;
对每一部分进行语义分析得到每一部分的语义分析结果;
根据每一部分的语义分析结果,确定待评估专利文献以及每一待比较文献的每一部分的权重值;
根据待评估专利文献以及每一待比较文献的每一部分的权重值,得到待评估专利文献以及每一待比较文献的加权平均结果;
根据待评估专利文献以及每一待比较文献的加权平均结果,确定待评估专利文献与待比较文献之间的相似度;
在待评估专利文献与待比较文献之间的相似度大于预设值时,将待比较文献作为待评估专利文献的近似专利文献。
具体实施时,上述基于语义分析检索得到与待评估专利文献相似的每一篇近似专利文献的详细实施方案进一步提高了专利文献评估的效率。
具体实施时,上述“部分”可以是摘要、权利要求书、说明书等。
具体实施时,待评估专利文献可以是专利申请提交之前的专利申请文档,也可以是待审查的专利文献,也可以是已获得授权的专利文献。本发明实施例的应用场景可以包括:高校自我预审,辅助撰写(培育),面向审查员的界面友好的审查辅助(打通自定义添加比对文献和自动匹配比对文献的功能+新颖性可视化),其他更多场景。关于本发明实施例的应用场景举2个例子如下。
场景1:对专利文献技术文档进行可专利性评级:用户在此步骤提交技术文档(待评估专利文献信息)可以是1)名称,2)权利要求项,或者技术文档的关键技术特征,一段是一个特征,3)技术文档的全文。通过以上三个简便输入即可提交进行预评估。
场景2对已专利的文献进行无效分析:用户在此步骤提交技术文档(待评估专利文献信息)的1)名称,2)权利要求项,一段是一个特征,3)专利全文,4)专利申请时间。或者用户直接输入专利号进行快速分析,通过以上输入即可提交进行无效分析。
具体实施时,该步骤101是基于语义分析技术的特征比对算法,该算法通过构建领域专利知识库,计算词项的专利语义权重,将待比对的专利文本表示成带有专利语义信息的向量,结合词项在专利文献结构中的位置,将专利文本进一步表示成带有位置权重信息的专利文本向量,最终将专利文本表示成带有专利语义权重信息、位置权重信息以及词频权重信息的专利文本向量。通过待比对文本的向量集合和已专利文本的向量集合的语义比对,进而研究此算法在新创性智能判断的可行性。
语义分析技术基础上的特征比对算法研究,是本发明实施例的核心研究点之一。此研究点细分为三:
第一、使用最先进的语义和自学习技术相结合,首先使用专利数据构建语义空间。语义空间具备词汇定位和联系能力。
第二、对专利进行技术特征分割,力求在语义计算模型中,清晰完整的表达专利的技术特征。
第三、对特征进行整体性对比。对比要求尽可能的接近“技术实质”的对比,而不是字面意思的对比。
因此,通过上述可知,在进行智能检索时,除了考虑语义权重,还可以考虑词频权重、位置权重等,进一步提高检索的准确率。
与专利智能检索的衔接:对现有基于专利数据库的,适用于专利审查业务场景的智能检索方法进行摸底调研,以及现有相似性检索技术的应用情况摸底,确定合适的智能检索技术作为后续语义比对应用研究的基础。该研究内容,旨在将应用场景“特定数据范围内的专利技术方案比对”从应用场景“海量专利数据库智能检索”中剥离出来,规范两者之间的具体技术参数要求。从而使得本发明实施例的研究成果可以比较灵活的接入到现有的智能检索系统中。
二、其次,介绍上述步骤102,即待评估专利文献(例如待审文献)与智能检索结果集(多篇近似专利文献构成的集合)的特征对比遍历。
如图2所示,该遍历的步骤可以包括:
步骤1:从外部获取比对专利集合(本发明实施例实验中,系从智能检索系统引擎获得,前50件)。
步骤2:对待审文献的权利要求项进行特征分解(本发明实施例中,采用权利要求项按句分解的方式进行,详见下面实施例的介绍。
步骤3:对专利集合中所有专利的说明书所有文本内容(含权利要求项、说明书全文),采用类似权利要求项接近粒度方式进行特征分解,详见下面实施例的介绍。
步骤4:按照待审文献的权利要求项顺序,依次选择分解后的特征。
步骤5:按照比对专利集合的顺序,依次选择比对专利。
步骤6:按照比对专利的行文顺序,依次选择分解后的特征。
步骤7:使用步骤4选择的待审文献权利要求特征,和步骤6选择的比对专利特征,进行特征比对。
步骤8:判别是否遍历完该比对专利的所有特征。若否,则回到步骤6。若是,则进入步骤9。
步骤9:使用全部比对结果的最大值,作为该权利要求特征的最终比对值。
步骤10:判断是否已遍历完所有比对专利,若否,则回到步骤5。若是,则进入步骤11。
步骤11:判断是否待审文献的所有特征均被比对完毕,若否,则回到步骤4.若是,则进入步骤12。
步骤12:比对遍历结束。
具体实施时,因为判断专利的权利要求项中,一句完整的权利要求项,才会真正完整的表达出一个最小单元的技术特征,而非技术特征碎片。所以本发明实施例最终采用了权利要求项的按句分解,作为发起比对的最小特征单元。
在一个实施例中,利用待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行技术特征比对,得到待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度,可以包括:利用待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行全篇技术特征比对,得到待评估专利文献中每一权利要求项与每一篇近似专利文献中技术特征相似度最大的技术特征的相似度;
根据待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度绘制技术特征光谱图,可以包括:根据待评估专利文献中每一权利要求项与每一篇近似专利文献中技术特征相似度最大的技术特征的相似度,绘制技术特征光谱图;每一权利要求项与每一篇近似专利文献在技术特征光谱图中的交叉点对应每一权利要求项与每一篇近似专利文献中技术特征相似度最大的技术特征的相似度。
具体实施时,所有权利要求项同近似专利文献(对比文件、对比文献)的所有文档都进行了对比,使用最高值(待评估专利文献中每一权利要求项与每一篇近似专利文献中技术特征相似度最大的技术特征)作为比对结果。便于直接定位特征比对点。当然具体实施时也可以针对一篇近似专利文献计算出一个综合的特征向量,将某一权利要求项的特征向量与该综合的特征向量比对,得到二者技术特征的相似度。
在一个实施例中,利用待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行技术特征比对,得到待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度,可以包括:
根据待评估专利文献的每一权利要求项的规模大小,调整每一篇近似专利文献的比对特征的规模大小,得到调整结果;
根据所述调整结果,利用待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行技术特征比对,得到待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度。
具体实施时,专利全文与专利的权利要求项不同,其句表述可以很长也可以很短,并没有特别明确的方法可以区分其技术特征表述的完整性和颗粒度。在语义比对中,会导致一个现实操作的问题,就是权利要求项分解出来的句子特征大多较长,而全文中分解出来的句子特征大多较短。两者直接进行比对的话,其实存在着颗粒度不对等的问题。因此本发明实施例采用的方法是以句为最小单元,使用权利要求项的特征规模来调整近似专利文献中特征的大小,保证比对双方在特征规模(该规模可以指的是字数等)上基本相等,可以提高比对的精度,进而提高了专利文献的预评估精度。
综上,该遍历算法的优点是:
1.待审专利遍历所有权利要求项,对比文献遍历所有文档内容。此算法逻辑,同用户例如审查员审查时使用的业务逻辑接近。
2.所有权利要求,同对比专利的所有文档都进行了对比,使用最高值作为比对结果。便于直接定位特征比对点。
三、再次,为了便于理解,下面一同介绍上述步骤103和步骤104,基于绘制的技术特征光谱图进行可视化交互评估的步骤,即对比结果的可视化呈现算法及交互设计。
在一个实施例中,根据所述技术特征光谱图,对待评估专利文献进行预评估,得到待评估专利文献的预评估结果,可以包括:
在接收到用户对所述交叉点的点击操作时,得到待评估专利文献的单项权利要求与单篇近似专利文献比对的预评估结果;
或,在接收到用户对纵轴上预设纵坐标的点击操作时,得到待评估专利文献的单项权利要求与所有篇近似专利文献比对的预评估结果;
或,在接收到用户对横轴上预设横坐标的点击操作时,得到待评估专利文献的所有项权利要求与单篇近似专利文献比对的预评估结果。
具体实施时,点击具体方格(交叉点,该交叉点的形式除了为方格的形式,当然也可以是圆形等),实现单个特征(权利要求项)对单篇专利的比对,单击纵坐标,实现单个特征(权利要求项)对所有相似专利的比对,单击横坐标,实现所有特征(权利要求项)对单篇专利的比对。
在一个实施例中,根据所述技术特征光谱图,对待评估专利文献进行预评估,得到待评估专利文献的预评估结果,还可以包括:
在接收到用户对技术特征光谱图中特征相似性极值的点击操作时,得到待评估专利文献的所有项权利要求与每一项权利要求对应相似度最大的近似专利文献比对的预评估结果。
具体实施时,单击图例“特征相似性极值”,实现所有特征(权利要求项)与其各自对应最大相似性的专利进行比对。
具体实施时,上述基于图形的交互设计,此功能可以为使用者提供更为详尽的新颖性判断依据,提供不同粒度的专利数据,使用者可以对该技术文档在当前专利库中的定位与差异有更精准的把控。用户可从与相似性专利比对图中获得关于自己待申请专利的技术更具有针对性的启发,方便精准修改技术方案和调整专利文本语言;方便用户针对待申请专利的权利要求项新颖性进行判断,从细粒度数据探寻待申请专利的可专利化前景。
具体实施时,关于本发明实施例涉及的指标进行描述如下。
1、如何获取的50篇:可以基于权利要求和说明书两部分,合成一个整体进行全库相似性检索,并且按照相似性得分倒序排列取前50篇。
2,何为“相似度”,目前表格中的“相似度”是基于文本全篇相似性检索时系统给的排序分值,后续我们会把相似性得分映射到0-100分。
3、其他指标的解释:通过把每个权利要求与得到的这50篇专利进行逐句比对,绘制“技术光谱图”。
4、全篇综合新颖度:从技术光谱图的整体进行分析和评估该申请文件的综合可专利性。
5、特征最大新颖度:多个权利要求(特征)中得新颖性最高的那个,以便申请人可以根据数据和光谱图对权利要求进行调整和策略重组等操作。
6、比对专利阻尼系数:找出基于特征比对的数据中,最有可能是那个抵触申请的专利,并且把这个比对数据列出,举例,如果对已申请专利进行预评估,大概率这个阻尼系数就是1.越接近1,越容易被抵触。
7、竞争深度:最相似的这50专利和本申请的抵触程度。
8、竞争广度:基于申请文件的全文,进行相似性检索时检回的所有数据和这个申请文件的抵触程度。
9、技术耦合:本申请和其他专利可能的关联程度。
如图3所示,以光谱图的形式展示某一专利文献的相似文献,相似度越高的文献,对应光谱图上点的热力值越大(红色越重),如果相似度越低,光谱图上的点对应的热力值越小,颜色也就越轻,例如用浅蓝色标识。由于专利附图中不能有颜色,因此图3中未显示颜色,然而本领域技术人员可以想象到,以一个不同相似度大小、热力值、色调的表格来绘制出技术特征光谱图。另外,除了用不同色调表示不同的相似度大小之外,还可以用其他形式,例如不同的图形等等。
目标技术文档的技术特征通过本发明实施例的语义对比计算,将其结果按照二维展开的方式,平铺展现在一屏之内。纵轴对应申请专利文献的权利要求项,横轴对应N=50个最近似的专利。横纵轴交叉点,为该权利要求项,针对对应专利文献,全篇文字逐句逐段进行特征对比计算遍历,获得的最高比对相似度值。使用冷暖渐变的色调,从低到高表现特征的相似度,从而实现宏观的观察和定位效果。
从整体颜色冷暖状况,可以宏观地看出待申请文件的技术新颖性整体概况以纵向颜色为线索,寻找到可能产生技术创新冲突的比对文献或抵触申请;以横向颜色为线索,寻找到待申请文献的“优质”创新点。甚至可以把相对散落的对比点串起来寻找组合抵触的可能性。
具体实施时,可以通过光谱图“三眼看穿技术特征新颖性”,第一眼,从整体颜色冷暖状况,感性地看出待申请文件的技术新颖性整体概况;第二眼,以纵向颜色为线索,寻找到可能产生技术创新冲突的比对文献或抵触申请;第三眼,以横向颜色为线索,寻找到待申请文献的“优质”创新点。
具体实施时,本发明实施例最大的优势在于信息的高度压缩,带来的宏观判断能力提升。目前尚没有任何同类产品能够在50件专利同时浏览的基础上提供新颖性判断的明确线索。
具体实施时,本发明实施例查看技术文档每个权利要求项与相似专利的整体拟合情况,对待申请专利文本和50件与其最为相似的专利进行技术特征解析、以及特征比对。并将相关信息,以颜色的方式高度压缩在一张图中。使用颜色冷暖,特征排列来显示待申请专利的整体技术特征新颖性。
具体实施时,该步骤103和步骤104是基于可视化交互技术的特征比对应用场景研究:可视化交互应用研究,研究如何运用可视化技术在数十件专利同时浏览的基础上提供新创性判断的明确线索。研究如何把大量的比对信息的高度压缩,在专利审查流程上,为审查员带来宏观判断能力的提升。
目前在专利检索的相关人工智能技术研究上,更多的还是遵循原有的人工的工作应用模式,鲜有突破现有应用模式的研究案例。本发明实施例拟尝试在小数量的专利集合综合性比对浏览方面,进行创新性的研究,尝试研究可视化技术对于业务形态改变。
四、最后,介绍进一步优选的步骤。
具体实施时,本发明实施例依靠丰富的知识产权数据,强悍可靠的专利评估能力积累,专利申请预评估系统通过机器学习运用专利大数据,实现自动化对还未申请专利的技术文档进行语义理解,在全库检索与其技术方案相似的专利,进而得到该技术的相似专利库,实现对该技术文档的评估,如图4和图5所示,评估结果可以包括新颖性,竞争态势,商业前景三个部分。
在一个实施例中,上述专利文献的预评估方法还可以包括:对待评估专利文献的竞争态势和商业前景进行预评估,得到待评估专利文献的竞争态势和商业前景的预评估结果;
根据所述技术特征光谱图,对待评估专利文献进行预评估,得到待评估专利文献的预评估结果,可以包括:根据所述技术特征光谱图,对待评估专利文献的新颖性进行预评估,得到待评估专利文献的新颖性预评估结果;
所述的专利文献的预评估方法还可以包括:根据待评估专利文献的新颖性预评估结果,以及竞争态势和商业前景的预评估结果,得到待评估专利文献的综合预评估结果。
具体实施时,如图4和图5所示,在本发明实施例中,除了根据所述技术特征光谱图,对待评估专利文献的新颖性进行预评估,得到待评估专利文献的新颖性预评估结果,还可以对待评估专利文献的竞争态势和商业前景进行预评估,得到待评估专利文献的竞争态势和商业前景的预评估结果;综合待评估专利文献的新颖性预评估结果,以及竞争态势和商业前景的预评估结果可以得到待评估专利文献的综合预评估结果,例如该综合预评估结果可以是A级、B级等等,便于用户全面地了解自己专利文献的可专利性以及各方面的价值,便于后续专利申请或无效程序的顺利进行。
具体实施时,在提交所评技术文档(专利)之后,经过一定时间的智能评估,专利申请(技术文档)预评估不但能评估技术文档的新颖性,竞争态势,商业前景,还能得到技术相似专利库,每一个相似专利都有单独的评估数据,查看每篇专利的评估过程数据;还有整个相似专利库的统计评估数据,例如IPC分类,可以预测该技术文本可能的分类,甚至获得该分类的技术前景,商业前景等信息,最终给用户以清晰的专利方面的知识反馈。
具体实施时,本发明实施例会针对每一篇技术文档进行通篇语义理解,多维度特征分析,全盘数据计算最终对目标技术文档进行一个综合评级。用户可以开门见山,快速获得该技术文档在专利视角下的定位,方便后续决策。
具体实施时,本发明实施例也给出目标技术文档的一个简明评估报告,其中包含文档的综合评级、可专利性星级、目标技术文档在中国专利全库中的竞争态势、目标专利文档的商业前景预判。并且给出目标技术在专利领域中的技术分类。
具体实施时,本发明实施例中目标技术文档(待评估专利文献)的技术特征通过计算棱镜折射到相似专利库为基础的“荧幕布”获得目标技术文档的特征光谱图。如同每一个物质都有其特定的特征谱线,每一篇技术文档都有其特定的特征光谱图。系统对目标技术文档进行光谱分析进而得出文档的可专利性,竞争态势等情报。
具体实施时,本发明实施例为用户提供更为详细的评估数据以方便用户对目标技术文档评估结果有更全面的了解。包括1)新颖度其中包含全篇综合新颖度、特征最大新颖度、比对专利阻尼系数,2)竞争度其中包括竞争深度、竞争广度、技术耦合,3)商业前景其中包括预估价值、技术热度、许可热度、质押热度、转让热度、海关备案热度。
具体实施时,用户可以通过技术文档相似专利库查看相似的已经专利化技术,可以据此来再创造自己的技术,或者修改已有的技术方案。
具体实施时,用户可以通过可视化控件直观了解目标技术文档的商业前景五个维度的能力和技术可能落在专利领域中的那些分类中。
在一个实施例中,上述专利文献的预评估方法还可以包括:根据待评估专利文献的预评估结果调整待评估专利文献的专利申请策略。
具体实施时,根据待评估专利文献的预评估结果调整待评估专利文献的专利申请策略,便于后续专利申请的授权。
具体实施时,用户可以修改/添加比对专利,修改新颖性默认值。用户可以自定义添加和删除横坐标上的比对专利以满足更加专业化,个性化的功能需求。用户还可以修改权利要求相似性判断默认值。加入了用户的参与,更进一步提高了专利文献的预评估的准确性。
为了便于理解本发明如何实施,下面结合附图6举个例子详细说明。
如图6所示,本实施例中使用了“技术过度拆分”的申请策略,即申请人将原本可申请专利的一个完整技术,其中某个可替代的技术环节进行过度的拆分,多次申请专利的行为。例如本例中的包括Cd在内的Cd,Zn,Cu……等重金属元素。这种现象,对于高校是很有害的:
一方面加大了无意义的专利申请成本。
另一方面可能导致最终授权的专利,保护范围锁定在一个极小的范围,完全丧失了对技术的保护,使技术客观上成了“公知公用技术”。
第三方面,也会让高校对于自身专利技术实力有错误估计,因为这种重复的专利其实只有一项核心技术。
所以后续调整的申请策略的效果是:节省成本、加强保护和正确评价技术能力。
实验验证:基于上述技术研究的成果,发明人构建试验系统。并在试验系统中,进行案例实验和评测。试验目前语义比对技术在多大程度上判断待申请专利的新创性。以及辅助提高审查效率的视觉技术形式和交互体验效果。实证性的论证本发明实施例研究成果对于辅助提高审查效率等方面的实际意义。
综上,本发明实施例提供的专利文献的预评估方法实现了:
1、本发明实施例实现了基于专利文本的语义比对算法模型。此算法的语义比对结果,是倾向于技术实质的比对,而非语言层面的比对。这一特点,符合审查员在判断专利新颖性时的基本思维方式。
2、本发明实施例尝试了fasttext、BERT等先进语义网模型,深度学习算法,在专利领域的专业化应用。在模型输入、模型输出、训练数据集、语义网分结构套用、特征长度选择、特征选取、分词策略等等诸多技术应用细节上,都针对专利数据和专利行业的不同特点,进行了针对性的设计和实验。也获得了正向的结果。本发明实施例将所有的设计思路,技术路线,技术参数等信息披露出来,以便于后续的研究者继续开展相关工作。
3、本发明实施例设计了一种可视化交互方式,使用视觉压缩的方式,实现了“智能检索最后一公里”问题的创新性解决。这种可视化交互方式创新性的解决了数十件专利快速宏观浏览,近似特征快速定位的问题。
4、本发明实施例针对授权、无效、非正常申请等情况的专利,进行了案例式和统计式的验证研究。验证研究的结果显示,本发明实施例的语义比对算法和可视化交互设计,针对于专利审查的业务场景,具备实际应用价值。
本发明实施例中还提供了一种专利文献的预评估装置,如下面的实施例所述。由于该装置解决问题的原理与专利文献的预评估方法相似,因此该装置的实施可以参见专利文献的预评估方法的实施,重复之处不再赘述。
图7为本发明实施例中专利文献的预评估装置的结构示意图,如图7所示,该装置包括:
智能检索单元01,用于将待评估专利文献信息输入预先建立的语义分析模型,检索得到与待评估专利文献相似的多篇近似专利文献;
遍历特征对比单元02,用于利用待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行技术特征比对,得到待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度;
光谱图绘制单元03,用于根据待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度绘制技术特征光谱图;所述技术特征光谱图中的纵轴对应待评估专利文献的多个权利要求项,横轴对应多篇近似专利文献;每一权利要求项与每一篇近似专利文献在技术特征光谱图中的交叉点对应每一权利要求项与每一篇近似专利文献的技术特征相似度,以预设色调对应所述相似度的大小;
可视化交互评估单元04,用于根据所述技术特征光谱图,对待评估专利文献进行预评估,得到待评估专利文献的预评估结果。
在一个实施例中,所述遍历特征对比单元具体用于:利用待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行全篇技术特征比对,得到待评估专利文献中每一权利要求项与每一篇近似专利文献中技术特征相似度最大的技术特征的相似度;
所述光谱图绘制单元具体用于:根据待评估专利文献中每一权利要求项与每一篇近似专利文献中技术特征相似度最大的技术特征的相似度,绘制技术特征光谱图;每一权利要求项与每一篇近似专利文献在技术特征光谱图中的交叉点对应每一权利要求项与每一篇近似专利文献中技术特征相似度最大的技术特征的相似度。
在一个实施例中,所述可视化交互评估单元具体用于:
在接收到用户对所述交叉点的点击操作时,得到待评估专利文献的单项权利要求与单篇近似专利文献比对的预评估结果;
或,在接收到用户对纵轴上预设纵坐标的点击操作时,得到待评估专利文献的单项权利要求与所有篇近似专利文献比对的预评估结果;
或,在接收到用户对横轴上预设横坐标的点击操作时,得到待评估专利文献的所有项权利要求与单篇近似专利文献比对的预评估结果。
在一个实施例中,所述可视化交互评估单元还用于:在接收到用户对技术特征光谱图中特征相似性极值的点击操作时,得到待评估专利文献的所有项权利要求与每一项权利要求对应相似度最大的近似专利文献比对的预评估结果。
在一个实施例中,所述智能检索单元具体用于:按照如下方法检索得到与待评估专利文献相似的每一篇近似专利文献:
将待评估专利文献以及每一待比较文献划分为多个部分;
对每一部分进行语义分析得到每一部分的语义分析结果;
根据每一部分的语义分析结果,确定待评估专利文献以及每一待比较文献的每一部分的权重值;
根据待评估专利文献以及每一待比较文献的每一部分的权重值,得到待评估专利文献以及每一待比较文献的加权平均结果;
根据待评估专利文献以及每一待比较文献的加权平均结果,确定待评估专利文献与待比较文献之间的相似度;
在待评估专利文献与待比较文献之间的相似度大于预设值时,将待比较文献作为待评估专利文献的近似专利文献。
需能够将待申请文献,按照专利的不同部分(例如标题、摘要、权利要求书之类),分类进行输入
在一个实施例中,上述专利文献的预评估装置还可以包括:竞争态势和商业前景评估单元,用于:对待评估专利文献的竞争态势和商业前景进行预评估,得到待评估专利文献的竞争态势和商业前景的预评估结果;
所述遍历特征对比单元具体用于:根据所述技术特征光谱图,对待评估专利文献的新颖性进行预评估,得到待评估专利文献的新颖性预评估结果;
所述的专利文献的预评估装置还可以包括:综合评估单元,用于根据待评估专利文献的新颖性预评估结果,以及竞争态势和商业前景的预评估结果,得到待评估专利文献的综合预评估结果。
在一个实施例中,上述专利文献的预评估方法还可以包括:策略调整单元,用于根据待评估专利文献的预评估结果调整待评估专利文献的专利申请策略。
在一个实施例中,所述遍历特征对比单元具体用于:
根据待评估专利文献的每一权利要求项的规模大小,调整每一篇近似专利文献的比对特征的规模大小,得到调整结果;
根据所述调整结果,利用待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行技术特征比对,得到待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度。
本发明实施例还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述专利文献的预评估方法。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述专利文献的预评估方法。
本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现上述专利文献的预评估方法。
与现有技术中通过人工比对文献的相似度对待评估专利文献进行预评估,效率低且直观性也差的技术方案相比,本发明实施例提供的专利文献的预评估方案的有益技术效果是:
首先,本发明实施例将待评估专利文献信息输入预先建立的语义分析模型,检索得到与待评估专利文献相似的多篇近似专利文献,实现了通过语义分析进行高效检索,为后续高效地进行专利文献的预评估奠定了坚实的基础。
其次,本发明实施例利用遍历算法将待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行技术特征比对,得到待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度,实现了利用遍历算法进行技术特征比对:待评估专利文献遍历所有权利要求项,近似专利文献遍历所有文档内容。此算法逻辑,同用户使用的业务逻辑接近,从而可以准确地对专利文献进行预评估。
再次,本发明实施例中,根据待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度绘制技术特征光谱图;所述技术特征光谱图中的纵轴对应待评估专利文献的多个权利要求项,横轴对应多篇近似专利文献;每一权利要求项与每一篇近似专利文献在技术特征光谱图中的交叉点对应每一权利要求项与每一篇近似专利文献的技术特征相似度,以预设色调对应所述相似度的大小;根据所述技术特征光谱图,对待评估专利文献进行预评估,得到待评估专利文献的预评估结果,实现了基于技术特征相似度绘制的技术特征光谱图,进行可视化交互,从而可以直观地获得待评估专利文献的预评估结果。
综上,本发明实施例提供的专利文献的预评估方案可以高效准确且直观地对专利文献进行预评估。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种专利文献的预评估方法,其特征在于,包括:
将待评估专利文献信息输入预先建立的语义分析模型,检索得到与待评估专利文献相似的多篇近似专利文献;
利用待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行技术特征比对,得到待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度;
根据待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度绘制技术特征光谱图;所述技术特征光谱图中的纵轴对应待评估专利文献的多个权利要求项,横轴对应多篇近似专利文献;每一权利要求项与每一篇近似专利文献在技术特征光谱图中的交叉点对应每一权利要求项与每一篇近似专利文献的技术特征相似度,以预设色调对应所述相似度的大小;
根据所述技术特征光谱图,对待评估专利文献进行预评估,得到待评估专利文献的预评估结果。
2.如权利要求1所述的专利文献的预评估方法,其特征在于,利用待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行技术特征比对,得到待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度,包括:利用待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行全篇技术特征比对,得到待评估专利文献中每一权利要求项与每一篇近似专利文献中技术特征相似度最大的技术特征的相似度;
根据待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度绘制技术特征光谱图,包括:根据待评估专利文献中每一权利要求项与每一篇近似专利文献中技术特征相似度最大的技术特征的相似度,绘制技术特征光谱图;每一权利要求项与每一篇近似专利文献在技术特征光谱图中的交叉点对应每一权利要求项与每一篇近似专利文献中技术特征相似度最大的技术特征的相似度。
3.如权利要求1所述的专利文献的预评估方法,其特征在于,根据所述技术特征光谱图,对待评估专利文献进行预评估,得到待评估专利文献的预评估结果,包括:
在接收到用户对所述交叉点的点击操作时,得到待评估专利文献的单项权利要求与单篇近似专利文献比对的预评估结果;
或,在接收到用户对纵轴上预设纵坐标的点击操作时,得到待评估专利文献的单项权利要求与所有篇近似专利文献比对的预评估结果;
或,在接收到用户对横轴上预设横坐标的点击操作时,得到待评估专利文献的所有项权利要求与单篇近似专利文献比对的预评估结果。
4.如权利要求1所述的专利文献的预评估方法,其特征在于,将待评估专利文献信息输入预先建立的语义分析模型,检索得到与待评估专利文献相似的多篇近似专利文献,包括:按照如下方法检索得到与待评估专利文献相似的每一篇近似专利文献:
将待评估专利文献以及每一待比较文献划分为多个部分;
对每一部分进行语义分析得到每一部分的语义分析结果;
根据每一部分的语义分析结果,确定待评估专利文献以及每一待比较文献的每一部分的权重值;
根据待评估专利文献以及每一待比较文献的每一部分的权重值,得到待评估专利文献以及每一待比较文献的加权平均结果;
根据待评估专利文献以及每一待比较文献的加权平均结果,确定待评估专利文献与待比较文献之间的相似度;
在待评估专利文献与待比较文献之间的相似度大于预设值时,将待比较文献作为待评估专利文献的近似专利文献。
5.如权利要求1所述的专利文献的预评估方法,其特征在于,还包括:对待评估专利文献的竞争态势和商业前景进行预评估,得到待评估专利文献的竞争态势和商业前景的预评估结果;
根据所述技术特征光谱图,对待评估专利文献进行预评估,得到待评估专利文献的预评估结果,包括:根据所述技术特征光谱图,对待评估专利文献的新颖性进行预评估,得到待评估专利文献的新颖性预评估结果;
所述的专利文献的预评估方法还包括:根据待评估专利文献的新颖性预评估结果,以及竞争态势和商业前景的预评估结果,得到待评估专利文献的综合预评估结果。
6.如权利要求1所述的专利文献的预评估方法,其特征在于,还包括:根据待评估专利文献的预评估结果调整待评估专利文献的专利申请策略。
7.一种专利文献的预评估装置,其特征在于,包括:
智能检索单元,用于将待评估专利文献信息输入预先建立的语义分析模型,检索得到与待评估专利文献相似的多篇近似专利文献;
遍历特征对比单元,用于利用待评估专利文献的每一权利要求项遍历每一篇近似专利文献进行技术特征比对,得到待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度;
光谱图绘制单元,用于根据待评估专利文献的每一权利要求项与每一篇近似专利文献的技术特征相似度绘制技术特征光谱图;所述技术特征光谱图中的纵轴对应待评估专利文献的多个权利要求项,横轴对应多篇近似专利文献;每一权利要求项与每一篇近似专利文献在技术特征光谱图中的交叉点对应每一权利要求项与每一篇近似专利文献的技术特征相似度,以预设色调对应所述相似度的大小;
可视化交互评估单元,用于根据所述技术特征光谱图,对待评估专利文献进行预评估,得到待评估专利文献的预评估结果。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6任一所述方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现权利要求1至6任一所述方法。
CN202210240159.5A 2022-03-10 2022-03-10 专利文献的预评估方法及装置 Pending CN114580556A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210240159.5A CN114580556A (zh) 2022-03-10 2022-03-10 专利文献的预评估方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210240159.5A CN114580556A (zh) 2022-03-10 2022-03-10 专利文献的预评估方法及装置

Publications (1)

Publication Number Publication Date
CN114580556A true CN114580556A (zh) 2022-06-03

Family

ID=81780731

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210240159.5A Pending CN114580556A (zh) 2022-03-10 2022-03-10 专利文献的预评估方法及装置

Country Status (1)

Country Link
CN (1) CN114580556A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116795789A (zh) * 2023-08-24 2023-09-22 卓望信息技术(北京)有限公司 自动生成专利检索报告的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007220144A (ja) * 2007-05-18 2007-08-30 Seiko Epson Corp 特許検索装置、特許検索装置の制御方法および制御プログラム
KR20090087836A (ko) * 2008-02-13 2009-08-18 (주)한국아이피보호기술연구소 주요특허 선별 시스템 및 그 방법
CN102792262A (zh) * 2010-02-03 2012-11-21 汤姆森路透社全球资源公司 使用权利要求分析排序知识产权文档的方法和系统
US20130282735A1 (en) * 2012-04-20 2013-10-24 Patterson Thuente Pedersen, P.A. System for computerized evaluation of patent-related information
KR20140022286A (ko) * 2012-08-14 2014-02-24 최승욱 특허 청구범위 구성요소 및 기술적 해결수단 추출 시스템 및 방법
CN112257419A (zh) * 2020-11-06 2021-01-22 开普云信息科技股份有限公司 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007220144A (ja) * 2007-05-18 2007-08-30 Seiko Epson Corp 特許検索装置、特許検索装置の制御方法および制御プログラム
KR20090087836A (ko) * 2008-02-13 2009-08-18 (주)한국아이피보호기술연구소 주요특허 선별 시스템 및 그 방법
CN102792262A (zh) * 2010-02-03 2012-11-21 汤姆森路透社全球资源公司 使用权利要求分析排序知识产权文档的方法和系统
US20130282735A1 (en) * 2012-04-20 2013-10-24 Patterson Thuente Pedersen, P.A. System for computerized evaluation of patent-related information
KR20140022286A (ko) * 2012-08-14 2014-02-24 최승욱 특허 청구범위 구성요소 및 기술적 해결수단 추출 시스템 및 방법
CN112257419A (zh) * 2020-11-06 2021-01-22 开普云信息科技股份有限公司 一种基于词频和语义计算专利文献相似度的智能检索方法、装置、电子设备及其存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116795789A (zh) * 2023-08-24 2023-09-22 卓望信息技术(北京)有限公司 自动生成专利检索报告的方法及装置
CN116795789B (zh) * 2023-08-24 2024-04-19 卓望信息技术(北京)有限公司 自动生成专利检索报告的方法及装置

Similar Documents

Publication Publication Date Title
CN109684448B (zh) 一种智能问答方法
CN110309268B (zh) 一种基于概念图的跨语言信息检索方法
CN106997341B (zh) 一种创新方案匹配方法、装置、服务器及系统
CN103927358A (zh) 文本检索方法及系统
CN111143672B (zh) 基于知识图谱的专业特长学者推荐方法
CN105393265A (zh) 人机交互学习中的主动特征化
Wang et al. Neural related work summarization with a joint context-driven attention mechanism
CN103605781A (zh) 一种隐式篇章关系类型推理方法及系统
CN110888991A (zh) 一种弱标注环境下的分段式语义标注方法
CN111767325A (zh) 基于深度学习的多源数据深度融合方法
Li et al. Knowledge map construction for question and answer archives
CN114580556A (zh) 专利文献的预评估方法及装置
CN112084312B (zh) 一种基于知识图构建的智能客服系统
Quemy et al. ECHR-OD: On building an integrated open repository of legal documents for machine learning applications
CN117273134A (zh) 一种基于预训练语言模型的零样本知识图谱补全方法
Rahul et al. Social media sentiment analysis for Malayalam
CN107818078B (zh) 汉语自然语言对话的语义关联与匹配方法
CN115408532A (zh) 一种面向开源情报的武器装备知识图谱构建方法、系统、装置及存储介质
Ramachandran et al. A Novel Method for Text Summarization and Clustering of Documents
CN113486177A (zh) 一种基于文本分类的电力领域表格列标注方法
CN113342950A (zh) 基于语义联合的答案选取方法及系统
Wu et al. Community answer recommendation based on heterogeneous semantic fusion
CN115599892B (zh) 面向社交网络数据的语义搜索方法
Kainan et al. Extraction method of judicial language entities based on regular expression
CN116702786B (zh) 融合规则和统计特征的中文专业术语抽取方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination