CN115496630A - 一种基于自然语言算法的专利撰写质量核检方法以及系统 - Google Patents

一种基于自然语言算法的专利撰写质量核检方法以及系统 Download PDF

Info

Publication number
CN115496630A
CN115496630A CN202211070188.8A CN202211070188A CN115496630A CN 115496630 A CN115496630 A CN 115496630A CN 202211070188 A CN202211070188 A CN 202211070188A CN 115496630 A CN115496630 A CN 115496630A
Authority
CN
China
Prior art keywords
writing information
patent writing
auditing
evaluation
evaluating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211070188.8A
Other languages
English (en)
Inventor
高涵
李佳炜
梁彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Weizheng Intellectual Property Technology Co ltd
Original Assignee
Weizheng Intellectual Property Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Weizheng Intellectual Property Technology Co ltd filed Critical Weizheng Intellectual Property Technology Co ltd
Priority to CN202211070188.8A priority Critical patent/CN115496630A/zh
Publication of CN115496630A publication Critical patent/CN115496630A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services
    • G06Q50/184Intellectual property management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Computational Linguistics (AREA)
  • Educational Administration (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Operations Research (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于自然语言算法的专利撰写质量核检方法以及系统,涉及文档审核技术领域,解决了专利文档只有上传至质检工具才能进行质量检测,不仅降低了专利工程师发现撰写错误的效率,而且还可能导致专利文档中多次出现同样的错误,导致后续修改耗时增加的问题,其包括:获取专利撰写信息;根据预设的专利领域语言模型,审核评估专利撰写信息,形成审核评估报告,其中,专利撰写信息的审核评估方向包括通顺度审核评估、错别字检测审核评估、去重审核评估;显示审核评估报告。本申请具有如下效果:方便专利处理人员及时查找到问题并完成修改,间接提高了专利处理人员完结案件处理的效率。

Description

一种基于自然语言算法的专利撰写质量核检方法以及系统
技术领域
本申请涉及文档审核技术领域,尤其是涉及一种基于自然语言算法的专利撰写质量核检方法以及系统。
背景技术
专利一般是由政府机关或者代表若干国家的区域性组织根据申请而颁发的一种文件,这种文件记载了发明创造的内容,并且在一定时期内产生这样一种法律状态,即获得专利的发明创造在一般情况下他人只有经专利权人许可才能予以实施。专利一般分为发明、实用新型和外观设计三种类型。
对于发明和实用新型专利而言,其一般是通过文字和附图的记载来限定专利的保护范围,以及对专利技术进行详细的介绍,并且专利作为法律文件也需要有一定的准确性保障。专利一般由人工撰写,难免会出现各种错误,因此,对专利文档进行自动化审核或辅助撰写,成为了亟待解决的问题。
相关技术中,专利撰写质量的质检需要在完成专利撰写后,将专利文档上传到质检工具中进行质量检测。
针对上述中的相关技术,发明人发现存在有如下缺陷:由于专利文档只有上传至质检工具才能进行质量检测,不仅降低了专利工程师发现撰写错误的效率,而且还可能导致专利文档中多次出现同样的错误,导致后续修改耗时增加。
发明内容
为了方便专利处理人员及时查找到问题并完成修改,间接提高了专利处理人员完结案件处理的效率,本申请提供一种基于自然语言算法的专利撰写质量核检方法以及系统。
第一方面,本申请提供一种基于自然语言算法的专利撰写质量核检方法,采用如下的技术方案:
一种基于自然语言算法的专利撰写质量核检方法,包括:
获取专利撰写信息;
根据预设的专利领域语言模型,审核评估专利撰写信息,形成审核评估报告,其中,专利撰写信息的审核评估方向包括通顺度审核评估、错别字检测审核评估、去重审核评估;
显示审核评估报告。
通过采用上述技术方案,能够在专利处理人员处理专利文件的时候,对专利文件作各方面的审核评估,并及时展示审核评估报告,节省了审核人力,方便专利处理人员及时查找到问题并完成修改,间接提高了专利处理人员完结案件处理的效率。
可选的,若专利撰写信息的审核评估方向为通顺度审核评估,根据预设的专利领域语言模型,审核评估专利撰写信息,形成审核评估报告如下:
用文本增强方法构建多个正负样本;
用正负样本训练分类模型,获取段落/句子的通顺度;
根据段落/句子的通顺度,形成审核评估报告。
通过采用上述技术方案,在针对专利撰写信息作通顺度审核评估的时候,通过正负样本的构建以及用正负样本训练分类模型的方式,可以有效分析判断段落/句子是否通顺,并获取通顺度,从而间接减少专利撰写信息中存在句子不通顺情况的发生。
可选的,若专利撰写信息的审核评估方向为错别字检测审核评估,根据预设的专利领域语言模型,审核评估专利撰写信息,形成审核评估报告如下:
用掩码语言模型分析判断每个字的合理性;
根据所分析判断每个字的合理性,形成审核评估报告。
通过采用上述技术方案,在针对专利撰写信息作错别字检测审核评估的时候,通过掩码语言模型可以有效分析每个字的合理性,从而间接减少专利撰写信息中存在不合理字的可能性。
可选的,若专利撰写信息的审核评估方向为单独去重审核评估,根据预设的专利领域语言模型,审核评估专利撰写信息,形成审核评估报告如下:
基于simhash功能从历史专利中检索出完全相似的专利;
基于语义向量检索出语义上最接近的专利;
根据从历史专利中检索出完全相似的专利以及语义向量检索出语义上最接近的专利,分析获取与专利撰写信息的相似度,形成审核评估报告。
通过采用上述技术方案,在针对专利撰写信息作单独去重审核评估的时候,通过simhash功能以及语义向量检索的方式,可以作有效单独去重审核评估。
可选的,专利撰写信息的获取包括:
获取专利撰写信息的整体审核评估报告;
根据预设的专利撰写信息不同审核评估方向的准确率和分值占比,分析获取审核评估分数;
若审核评估分数小于预设的第一审核评估分数,则实时获取专利撰写信息;
若审核评估分数大于等于预设的第一审核评估分数,则根据预设的第一定期时段定期获取专利撰写信息或根据预设的专利撰写信息所包含的内容量定量获取专利撰写信息。
通过采用上述技术方案,可以有效对专利撰写信息作整体审核评估并得到审核评估分数,在审核评估分数较低的时候,作专利撰写信息的实时获取,而在审核评估分数达到预期分数的情况下,则会根据预设的专利撰写信息获取方式来获取专利撰写信息,从而满足问题较少的专利处理人员。
可选的,根据预设的第一定期时段定期获取专利撰写信息或根据预设的专利撰写信息所包含的内容量定量获取专利撰写信息包括:
查询用户预设的专利撰写信息获取方式优先级,其中,专利撰写信息获取方式包括根据预设的第一定期时段定期获取专利撰写信息或根据预设的专利撰写信息所包含的内容量定量获取专利撰写信息;
若查询到,则将优先级高的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式;
反之,则根据用户历史选用不同专利撰写信息获取方式的审核评估分数的变化情况,分析审核评估分数增长速度最快的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式。
通过采用上述技术方案,在用户有预设专利撰写信息获取方式优先级的前提下,能够根据用户所预设的优先级高的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式,而且考虑到用户在没有设置专利撰写信息获取方式优先级的情况,在这个情况下会根据不同专利撰写信息获取方式对审核评估分数的影响情况,来选取最有利于整体审核评估分数的专利撰写信息获取方式来作为本次使用的专利撰写信息获取方式。
可选的,根据用户历史选用不同专利撰写信息获取方式的审核评估分数的变化情况,分析审核评估分数增长速度最快的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式包括:
获取用户历史选用不同专利撰写信息获取方式的审核评估分数;
筛选出用户前后两次均选择同一专利撰写信息获取方式的审核评估分数以及间隔时间,分析获取同一专利撰写信息获取方式的审核评估分数增长速度;
根据同一专利撰写信息获取方式的审核评估分数增长速度,分析获取同一专利撰写信息获取方式的审核评估分数平均增长速度,并选择其中最高的审核评估分数平均增长速度所对应的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式。
通过采用上述技术方案,重点考虑前后两次同一专利撰写信息获取方式的审核评估分数的平均增长速度情况,有效避免前后两次不同专利撰写信息获取方式对审核评估分数的影响,而且有利于选取最有利于整体审核评估分数的专利撰写信息获取方式。
可选的,根据预设的第一定期时段定期获取专利撰写信息或根据预设的专利撰写信息所包含的内容量定量获取专利撰写信息包括:
查询用户预设的专利撰写信息获取方式优先级,其中,专利撰写信息获取方式包括根据预设的第一定期时段定期获取专利撰写信息或根据预设的专利撰写信息所包含的内容量定量获取专利撰写信息;
若查询到,则将优先级高的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式;
反之,则根据专利撰写信息所对应专利类型在不同审核评估方向的准确率,选择最低准确率所对应的审核评估方向,并获取历史选用不同专利撰写信息获取方式下相应审核评估方向的审核评估分数的变化情况,分析审核评估分数增长速度最快的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式。
通过采用上述技术方案,在用户有预设专利撰写信息获取方式优先级的前提下,能够根据用户所预设的优先级高的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式,而且考虑到用户在没有设置专利撰写信息获取方式优先级的情况,在这个情况下会分析最有利于用户最薄弱的审核评估方向审核评估分数提升的专利撰写信息获取方式,来作为本次使用的专利撰写信息获取方式。
可选的,根据专利撰写信息所对应专利类型在不同审核评估方向的准确率,选择最低准确率所对应的审核评估方向,并获取历史选用不同专利撰写信息获取方式下相应审核评估方向的审核评估分数的变化情况,分析审核评估分数增长速度最快的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式包括:
获取历史专利撰写信息所对应专利类型在不同审核评估方向的准确率,并选择最低准确率所对应的审核评估方向;
筛选出用户前后两次均选择同一专利撰写信息获取方式,关于最低准确率所对应的审核评估方向的审核评估分数以及间隔时间,分析获取同一专利撰写信息获取方式下最低准确率所对应的审核评估方向的审核评估分数增长速度;
根据同一专利撰写信息获取方式下最低准确率所对应的审核评估方向的审核评估分数增长速度,分析获取同一专利撰写信息获取方式下最低准确率所对应的审核评估方向的审核评估分数平均增长速度,并选择其中最高的审核评估分数平均增长速度所对应的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式。
通过采用上述技术方案,重点考虑前后两次同一专利撰写信息获取方式下最低准确率所对应的审核评估方向的审核评估分数增长速度,有效避免前后两次不同专利撰写信息获取方式对审核评估分数的影响,而且有利于选取最有利于用户最薄弱的审核评估方向审核评估分数提升的专利撰写信息获取方式,来作为本次使用的专利撰写信息获取方式。
第二方面,本申请提供一种基于自然语言算法的专利撰写质量核检系统,采用如下的技术方案:
一种基于自然语言算法的专利撰写质量核检系统,包括:
获取模块,用于:获取专利撰写信息;
形成模块,用于:根据预设的专利领域语言模型,审核评估专利撰写信息,形成审核评估报告,其中,专利撰写信息的审核评估方向包括通顺度审核评估、错别字检测审核评估、去重审核评估;
显示模块,用于:显示审核评估报告。
通过采用上述技术方案,结合获取模块、形成模块可以在专利处理人员处理专利文件的时候,对专利文件作各方面的审核评估,并通过显示模块及时展示审核评估报告,节省了审核人力,方便专利处理人员及时查找到问题并完成修改,间接提高了专利处理人员完结案件处理的效率。
综上所述,本申请的有益技术效果为:
1.节省了审核人力,方便专利处理人员及时查找到问题并完成修改,间接提高了专利处理人员完结案件处理的效率。
2.能够根据用户所设置的专利撰写信息获取方式以及审核评估分数,分析最适合于用户的专利撰写信息获取方式,从而间接降低用户犯错误的同时,提高用户的工作效率。
附图说明
图1是本申请实施例一种基于自然语言算法的专利撰写质量核检方法的流程示意图。
图2是图1中步骤S200中当专利撰写信息的审核评估方向为通顺度审核评估时,形成审核评估报告的流程示意图。
图3是图1中步骤S200中当专利撰写信息的审核评估方向为错别字检测审核评估时,形成审核评估报告的流程示意图。
图4是图1中步骤S200中当专利撰写信息的审核评估方向为单独去重审核评估时,形成审核评估报告的流程示意图。
图5是本申请另一实施例获取专利撰写信息的流程示意图。
图6是本申请另一实施例根据预设的专利撰写信息不同审核评估方向的准确率和分值占比,分析获取审核评估分数的流程示意图。
图7是图5中步骤S1b0其中一种实施方式的流程示意图。
图8是图7中步骤S1b3的具体流程示意图。
图9是图5中步骤S1b0另一实施方式的流程示意图。
图10是图9中步骤S1bc的具体流程示意图。
图11是本申请实施例一种基于自然语言算法的专利撰写质量核检系统的系统框图。
图中,1、获取模块;2、形成模块;3、显示模块。
具体实施方式
以下结合附图对本申请作进一步详细说明。
参照图1,为本申请公开的一种基于自然语言算法的专利撰写质量核检方法,包括:
步骤S100,获取专利撰写信息。
其中,专利撰写信息可以是专利技术交底文档或已部分撰写的专利文档;专利撰写信息可以通过处理器作实时识别获取,处理器包括但局限于中央处理器。
具体地,专利技术交底文档一般是发明人提供的对于专利技术进行介绍的文档,其中一般包括了背景技术,技术方案、保护要点和技术效果等内容。已部分撰写的专利文档即对专利文档进行撰写但是还未撰写完成。
步骤S200,根据预设的专利领域语言模型,审核评估专利撰写信息,形成审核评估报告。
其中,专利领域语言模型为基于WWM(全词遮罩,Whole Word Masking)预训练中文模型,在专利领域进行了领域预训练得到,其中,专利领域语言模型所参加的预训练部分包括但不局限于《专利法》、《专利法实施细则》、《专利审查指南》;专利撰写信息的审核评估方向包括通顺度审核评估、错别字检测审核评估、去重审核评估。
步骤S300,显示审核评估报告。
其中,审核评估报告为专利撰写规范审核结果;审核评估报告的显示方式可以通过操作界面显示,操作界面可以用于显示专利文件、显示审核结果、以及接收用户输入的操作指令。
其中,操作界面可以包括文档显示区域、审核结果显示区域以及多个操作按钮,文档显示区域用于显示专利文档,审核结果显示区域用于显示审核结果,多个操作按钮用于接收用户输入的操作指令;其中,审核结果区域可划分为4个区域,其中3个区域为3个不同审核评估方向的审核结果,剩余的1个区域可以汇总整体的审核结果显示。
本实施例的原理如下:实时获取专利撰写信息,并对专利撰写信息作三个审核评估方向上的审核,并将审核结果通过操作界面显示。
在图1的步骤S200中,当专利撰写信息的审核评估方向为通顺度审核评估时,形成审核评估报告的方式参照图2作详细说明。
参照图2,若专利撰写信息的审核评估方向为通顺度审核评估,根据预设的专利领域语言模型,审核评估专利撰写信息,形成审核评估报告如下:
步骤S2A0,用文本增强方法构建多个正负样本。
其中,文本增强方法构建多个正负样本如下:
其中,文本增强的本质为在尽量保证标签语义不变的前提下,用少量有标注的数据生成大量的有标注的数据,文本增强方法构建多个正负样本的过程如下:有一个基础训练集,然后用一个分类器去测试它的训练效果,分类器具体可以选用CNN或者RNN,也可以采用其它分类器,然后对这个训练集做文本增强,再将样本输入至文本增强后的训练集中进行测试,测试分析获取正负样本。
其中,正样本为将语料集中的正常单语句,正常语句需要预先人为设定且语句通顺度最佳,相对于正样本而言,负样本的语句通顺度较差。为形成足够多的负样本,从而模拟实际应用场景中出现的各种可能性,因此,需要重复调整同一正样本中字词的表达顺序,从而形成多种不同的负样本。
本实施例中具体通过调整各正样本中字词的表达顺序后所形成。例如,正样本为;“请问,这件产品的价格是多少”,则对应的负样本可以是“请问,产品的价格是多少这件”,或者“产品请问的价格是多少这件”等等。
步骤S2B0,用正负样本训练分类模型,获取段落/句子的通顺度。
其中,用正负样本训练分类模型的过程如下:将各带样本标签的正样本和负样本输入神经网络模型中进行训练,并判断神经网络模型对应的交叉熵损失函数是否收敛,当神经网络模型对应的交叉熵损失函数收敛,则停止训练,得到语句通顺度模型,此处语句通顺度模型为分类模型,语句通顺度模型为神经网络模型,且以Bert模型作为神经网络模型的输入层、以CNN模型作为神经网络模型的分类器。
其中,获取段落/句子的通顺度的过程以获取句子的通顺度为例,如下:使用预先训练好的Bert模型将单语句转换为对应的句向量,并句向量作为CNN模型的输入层,以便于通过CNN模型最终实现单语句的通顺度计算。
具体的输出层采用Sigmoid函数构成,Sigmoid函数的表达式如下所示:
Figure 501827DEST_PATH_IMAGE002
其中s是CNN模型上一层的输出,Sigmoid函数有这样的特点:s=0时,g(s)=0.5;s>>0时,g≈1,s<<0时,g≈0。显然,g(s)可将前一级的线性输出映射到[0,1]之间的数值概率上。这里的g(s)就是CNN模型的预测输出值,也即本实施例中的语句通顺度值,其中,语句通顺度值越大,则语句越通顺。
具体的,Bert模型为基于Transformer的双向编码器表征,其与其他语言表示模型不同,BERT模型旨在通过联合调节所有层中的上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,适用于广泛任务的最先进模型的构建,比如问答任务和语言推理,并且无需针对具体任务做大幅架构修改。
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络,是深度学习的代表算法之一。卷积神经网络具有表征学习能力,能够按其阶层结构对输入信息进行平移不变分类。
步骤S2C0,根据段落/句子的通顺度,形成审核评估报告。
其中,审核评估报告会标注存在通顺度问题的段落/句子。
在图1的步骤S200中,当专利撰写信息的审核评估方向为错别字检测审核评估时,形成审核评估报告的方式参照图3作详细说明。
参照图3,若专利撰写信息的审核评估方向为错别字检测审核评估,根据预设的专利领域语言模型,审核评估专利撰写信息,形成审核评估报告如下:
步骤S2a0,用掩码语言模型分析判断每个字的合理性。
其中,掩码语言模型分析判断每个字的合理性的分析过程如下:一定的掩码率在模型的输入句子中随机选取部分字词,将它们掩盖(mask)掉,然后让模型经过训练而最终学会预测出这些被掩盖住的字词,从而分析每个字的合理性。
步骤S2b0,根据所分析判断每个字的合理性,形成审核评估报告。
其中,所形成的审核评估报告会包含所有不合理的字。
在图1的步骤S200中,当专利撰写信息的审核评估方向为单独去重审核评估时,形成审核评估报告的方式参照图4作详细说明。
参照图4,若专利撰写信息的审核评估方向为单独去重审核评估,根据预设的专利领域语言模型,审核评估专利撰写信息,形成审核评估报告如下:
步骤S210,基于simhash功能从历史专利中检索出完全相似的专利。
其中,simhash为一种算法,通过SimHash计算得到的Hash串会非常的相近,从而可以判断两个文本的相似程度。
步骤S220,基于语义向量检索出语义上最接近的专利。
其中,语义向量为将文本的符号表示转换为语义空间中的向量表示是现在量化比较语义的通用做法,这类方法通常都基于Harris的分布式假设,即在相似上下文中的词通常都有着相似的语义。
步骤S230,根据从历史专利中检索出完全相似的专利以及语义向量检索出语义上最接近的专利,分析获取与专利撰写信息的相似度,形成审核评估报告。
其中,审核评估报告会汇总历史专利中检索出完全相似的专利以及语义向量检索出语义上最接近的专利,并通过文本相似度算法分析获取与专利撰写信息的相似度。
具体的文本相似度计算方法分为有监督和无监督两类。有监督方法,就是用朴素贝叶斯分类器之类的有监督模型来判断文本相似性或者计算相似度。这类方法要求有一定数量的标注语料,构建的代价比较高;由于训练语料通常无法做得很大,模型的泛化性不够,实际用起来会有点麻烦;距离计算环节的复杂度会比较高。无监督方法,就是用欧氏距离等方法,直接计算文本之间的距离或者相似度。
在图1的步骤S100中,进一步考虑到专利撰写信息的获取在用户问题较少的时候并不需要实时获取,如实时获取并显示审核结果容易导致用户在处理过程中容易分心,因此需要对专利撰写信息的获取作进一步分析判断,具体参照图5所示实施例作详细说明。
参照图5,专利撰写信息的获取包括:
步骤S110,获取专利撰写信息的整体审核评估报告。
其中,专利撰写信息的整体审核评估报告即为相应用户过往所有专利撰写信息的审核评估数据的汇总;专利撰写信息的整体审核评估报告的获取可以是从预设的存储有专利撰写信息的整体审核评估报告的数据库中查询获取。
步骤S120,根据预设的专利撰写信息不同审核评估方向的准确率和分值占比,分析获取审核评估分数。
其中,预设的专利撰写信息不同审核评估方向的准确率可以从预设的存储有专利撰写信息不同审核评估方向的准确率的数据库中查询获取;专利撰写信息不同审核评估方向的分值占比可以从预设的存储有专利撰写信息不同审核评估方向的分值占比的数据库中查询获取。
其中,通顺度审核评估的准确率为出现通顺度问题的句子/段落的个数与所有专利撰写信息的句子/短路汇总个数的商;错别字检测审核评估的准确率为所出现的所有错别字个数与专利撰写信息所包含内容的字数汇总数量的商;去重审核评估的准确率为1与平均相似度的差值,平均相似度为历史专利中检索出完全相似的专利与专利撰写信息的相似度和语义向量检索出语义上最接近的专利与专利撰写信息的相似度的平均值。
假设通顺度审核评估的准确率为99%,错别字检测审核评估的准确率为98%,去重审核评估的准确率为97%,通顺度审核评估的分值占比为40%,错别字检测审核评估的分值占比为50%,去重审核评估的分值占比为10%,假定整体分数为100分,那么审核评估分数为98.3分。
步骤S1a0,若审核评估分数小于预设的第一审核评估分数,则实时获取专利撰写信息。
其中,预设的第一审核评估分数可以为99分,还可以是用户根据需要设置的其他评估分数。
步骤S1b0,若审核评估分数大于等于预设的第一审核评估分数,则根据预设的第一定期时段定期获取专利撰写信息或根据预设的专利撰写信息所包含的内容量定量获取专利撰写信息。
其中,预设的第一定期时段可以是20分钟或40分钟,还可以是用户根据需要设置的其它时间;预设的专利撰写信息所包含的内容量定量获取专利撰写信息中所提及的定量可以是每100字或每200字,还可以是用户根据需要设置的其他字数。
本实施例的原理如下:
能够根据汇总的专利撰写信息的整体审核评估报告,来分析不同审核评估方向的准确率和分值占比,分析获取审核评估分数,并根据不同审核评估分数采用不同的专利撰写信息获取方式。
在图5的步骤S120,进一步考虑到用户在不同审核评估方向的准确率会随着用户自身的注意和成长发生变化,为使用户后续在成长过程中对自己准确率不高的审核评估方向能够更加重视,因此需要进一步考虑分析获取审核评估分数,具体参照图6所示实施例作详细说明。
参照图6,根据预设的专利撰写信息不同审核评估方向的准确率和分值占比,分析获取审核评估分数;
步骤S121,获取历史专利撰写信息不同审核评估方向的准确率。
其中,历史专利撰写信息不同审核评估方向的准确率可以从预设的历史专利撰写信息不同审核评估方向的准确率的数据库中查询获取。
步骤S122,根据历史专利撰写信息不同审核评估方向的准确率的比值,分析获取历史专利撰写信息不同审核评估方向的总分值占比,分析确定专利撰写信息不同审核评估方向的分值占比。
其中,假设通顺度审核评估的准确率为90%,错别字检测审核评估的准确率为80%,去重审核评估的准确率为80%,那么专利撰写信息不同审核评估方向依次的分值占比为9:8:8。
步骤S123,根据所分析确定的专利撰写信息不同审核评估方向的分值占比、本次专利撰写信息不同审核评估方向的准确率,分析获取审核评估分数。
其中,假定满分为100分的情况下,那么专利撰写信息不同审核评估方向依次的分值占比为9:8:8,那么通顺度审核评估的总分数为36分,错别字检测审核评估的总分数为32分,去重审核评估的总分数为32分。
在根据不同审核评估方向的准确率和总分数,可以分析获取审核评估分数为83.6分。
在图5的步骤S1b0中,进一步考虑到在确定所采用的专利撰写信息获取方式的时候,能够综合考虑用户预设的专利撰写信息获取方式优先级以及最有利于提升用户审核评估分数的专利撰写信息获取方式,因此需要对获取专利撰写信息作进一步分析判断,具体参照图7所示实施例作详细说明。
参照图7,根据预设的第一定期时段定期获取专利撰写信息或根据预设的专利撰写信息所包含的内容量定量获取专利撰写信息包括:
步骤S1b1,查询用户预设的专利撰写信息获取方式优先级。若查询到,则执行步骤S1b2,;反之,则执行步骤S1b3。
其中,专利撰写信息获取方式包括根据预设的第一定期时段定期获取专利撰写信息或根据预设的专利撰写信息所包含的内容量定量获取专利撰写信息。
步骤S1b2,将优先级高的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式。
步骤S1b3,根据用户历史选用不同专利撰写信息获取方式的审核评估分数的变化情况,分析审核评估分数增长速度最快的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式。
其中,用户历史选用不同专利撰写信息获取方式的审核评估分数的变化情况可以从预设的存储有用户历史选用不同专利撰写信息获取方式的审核评估分数的变化情况的数据库中查询获取,审核评估分数增长速度最快的专利撰写信息获取方式的分析如下:首先,汇总每两次采用同一专利撰写信息获取方式的审核评估分数差值,根据审核评估分数差值与两次之间的时间分析获取每两次的审核评估分数的增幅,汇总分析获取增幅的均值,将增幅均值最大的专利撰写信息获取方式作为本次所使用的专利撰写信息获取方式。
在图7的步骤S1b3中,进一步考虑到分析确定审核评估分数增长速度最快的专利撰写信息获取方式的时候,如果前后两次所采用的专利撰写信息获取方式存在不同,会影响对审核评估分数增长速度最快的专利撰写信息获取方式分析的准确性和合理性,因此还需要对审核评估分数增长速度最快的专利撰写信息获取方式作进一步分析判断,具体参照图8作详细说明。
参照图8,根据用户历史选用不同专利撰写信息获取方式的审核评估分数的变化情况,分析审核评估分数增长速度最快的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式包括:
步骤S1b3.1,获取用户历史选用不同专利撰写信息获取方式的审核评估分数。
其中,用户历史选用不同专利撰写信息获取方式的审核评估分数可以从预设的存储有用户历史选用不同专利撰写信息获取方式的审核评估分数的数据库中查询获取。
步骤S1b3.2,筛选出用户前后两次均选择同一专利撰写信息获取方式的审核评估分数以及间隔时间,分析获取同一专利撰写信息获取方式的审核评估分数增长速度。
其中,同一专利撰写信息获取方式的审核评估分数增长速度的分析获取如下:将用户前后两次均选择同一专利撰写信息获取方式的审核评估分数的差值作为被除数,将间隔时间作为除数,获取商作为同一专利撰写信息获取方式的审核评估分数增长速度。
举例来说,审核评估分数的差值为5分,间隔时间为1天,那么审核评估分数增长速度为5分/天。
步骤S1b3.3,根据同一专利撰写信息获取方式的审核评估分数增长速度,分析获取同一专利撰写信息获取方式的审核评估分数平均增长速度,并选择其中最高的审核评估分数平均增长速度所对应的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式。
其中,同一专利撰写信息获取方式的审核评估分数平均增长速度的分析获取如下:汇总同一专利撰写信息获取方式的审核评估分数增长速度总和作为被除数,以采用同一专利撰写信息获取方式的次数作为除数,获取的商作为同一专利撰写信息获取方式的审核评估分数平均增长速度。
在图5的步骤S1b0中,进一步考虑到在确定所采用的专利撰写信息获取方式的时候,能够综合考虑用户预设的专利撰写信息获取方式优先级以及最有利于提升用户最低准确率所对应的审核评估方向的审核评估分数的专利撰写信息获取方式,因此需要对获取专利撰写信息作进一步分析判断,具体参照图9所示实施例作详细说明。
参照图9,根据预设的第一定期时段定期获取专利撰写信息或根据预设的专利撰写信息所包含的内容量定量获取专利撰写信息包括:
步骤S1ba,查询用户预设的专利撰写信息获取方式优先级。若查询到,则执行步骤S1bb,反之,则执行步骤S1bc。
其中,专利撰写信息获取方式包括根据预设的第一定期时段定期获取专利撰写信息或根据预设的专利撰写信息所包含的内容量定量获取专利撰写信息。
步骤S1bb,若查询到,则将优先级高的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式。
步骤S1bc,反之,则根据专利撰写信息所对应专利类型在不同审核评估方向的准确率,选择最低准确率所对应的审核评估方向,并获取历史选用不同专利撰写信息获取方式下相应审核评估方向的审核评估分数的变化情况,分析审核评估分数增长速度最快的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式。
其中,根据专利撰写信息所对应专利类型在不同审核评估方向的准确率,选择最低准确率所对应的审核评估方向,举例来说,假定通顺度审核评估的准确率为90%,错别字检测审核评估的准确率为80%,去重审核评估的准确率为85%,那么最低准确率所对应的审核评估方向为错别字检测审核评估。
其中,历史选用不同专利撰写信息获取方式下相应审核评估方向的审核评估分数的变化情况可以从预设的存储有历史选用不同专利撰写信息获取方式下相应审核评估方向的审核评估分数的变化情况的数据库中查询获取,审核评估分数增长速度最快的专利撰写信息获取方式的分析如下:首先,汇总每两次采用同一专利撰写信息获取方式下相应审核评估方向的审核评估分数
的审核评估分数差值,根据审核评估分数差值与两次之间的时间分析获取每两次的审核评估分数的增幅,汇总分析获取增幅的均值,将增幅均值最大的专利撰写信息获取方式作为本次所使用的专利撰写信息获取方式。
在图9的步骤S1bc中,进一步考虑到分析确定审核评估分数增长速度最快的专利撰写信息获取方式的时候,如果前后两次所采用的专利撰写信息获取方式存在不同,会影响对审核评估分数增长速度最快的专利撰写信息获取方式分析的准确性和合理性,因此还需要对审核评估分数增长速度最快的专利撰写信息获取方式作进一步分析判断,具体参照图10所示实施例作详细说明。
参照图10,根据专利撰写信息所对应专利类型在不同审核评估方向的准确率,选择最低准确率所对应的审核评估方向,并获取历史选用不同专利撰写信息获取方式下相应审核评估方向的审核评估分数的变化情况,分析审核评估分数增长速度最快的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式包括:
步骤S1bc.1,获取历史专利撰写信息所对应专利类型在不同审核评估方向的准确率,并选择最低准确率所对应的审核评估方向。
本步骤的举例类似于步骤S1bc,此处不作过多赘述。
步骤S1bc.2,筛选出用户前后两次均选择同一专利撰写信息获取方式,关于最低准确率所对应的审核评估方向的审核评估分数以及间隔时间,分析获取同一专利撰写信息获取方式下最低准确率所对应的审核评估方向的审核评估分数增长速度。
同一专利撰写信息获取方式下最低准确率所对应的审核评估方向的审核评估分数增长速度的分析获取如下:将用户前后两次均选择同一专利撰写信息获取方式下最低准确率所对应的审核评估方向的审核评估分数的差值作为被除数,将间隔时间作为除数,获取商作为同一专利撰写信息获取方式下最低准确率所对应的审核评估方向的审核评估分数增长速度。
举例来说,审核评估分数的差值为5分,间隔时间为1天,那么审核评估分数增长速度为5分/天。
步骤S1bc.3,根据同一专利撰写信息获取方式下最低准确率所对应的审核评估方向的审核评估分数增长速度,分析获取同一专利撰写信息获取方式下最低准确率所对应的审核评估方向的审核评估分数平均增长速度,并选择其中最高的审核评估分数平均增长速度所对应的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式。
其中,同一专利撰写信息获取方式下最低准确率所对应的审核评估方向的审核评估分数平均增长速度的分析获取如下:汇总同一专利撰写信息获取方式最低准确率所对应的审核评估方向的审核评估分数的增长速度总和作为被除数,以采用次数作为除数,获取的商作为同一专利撰写信息获取方式下最低准确率所对应的审核评估方向的审核评估分数平均增长速度。
参照图11,本申请实施例还提供一种基于自然语言算法的专利撰写质量核检系统,包括:
获取模块1,用于:获取专利撰写信息。
形成模块2,用于:根据预设的专利领域语言模型,审核评估专利撰写信息,形成审核评估报告,其中,专利撰写信息的审核评估方向包括通顺度审核评估、错别字检测审核评估、去重审核评估。
显示模块3,用于:显示审核评估报告。
本具体实施方式的实施例均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

Claims (10)

1.一种基于自然语言算法的专利撰写质量核检方法,其特征在于,包括:
获取专利撰写信息;
根据预设的专利领域语言模型,审核评估专利撰写信息,形成审核评估报告,其中,专利撰写信息的审核评估方向包括通顺度审核评估、错别字检测审核评估、去重审核评估;
显示审核评估报告。
2.根据权利要求1所述的一种基于自然语言算法的专利撰写质量核检方法,其特征在于,若专利撰写信息的审核评估方向为通顺度审核评估,根据预设的专利领域语言模型,审核评估专利撰写信息,形成审核评估报告如下:
用文本增强方法构建多个正负样本;
用正负样本训练分类模型,获取段落/句子的通顺度;
根据段落/句子的通顺度,形成审核评估报告。
3.根据权利要求1所述的一种基于自然语言算法的专利撰写质量核检方法,其特征在于,若专利撰写信息的审核评估方向为错别字检测审核评估,根据预设的专利领域语言模型,审核评估专利撰写信息,形成审核评估报告如下:
用掩码语言模型分析判断每个字的合理性;
根据所分析判断每个字的合理性,形成审核评估报告。
4.根据权利要求1所述的一种基于自然语言算法的专利撰写质量核检方法,其特征在于,若专利撰写信息的审核评估方向为单独去重审核评估,根据预设的专利领域语言模型,审核评估专利撰写信息,形成审核评估报告如下:
基于simhash功能从历史专利中检索出完全相似的专利;
基于语义向量检索出语义上最接近的专利;
根据从历史专利中检索出完全相似的专利以及语义向量检索出语义上最接近的专利,分析获取与专利撰写信息的相似度,形成审核评估报告。
5.根据权利要求1至4任意一项所述的一种基于自然语言算法的专利撰写质量核检方法,其特征在于,专利撰写信息的获取包括:
获取专利撰写信息的整体审核评估报告;
根据预设的专利撰写信息不同审核评估方向的准确率和分值占比,分析获取审核评估分数;
若审核评估分数小于预设的第一审核评估分数,则实时获取专利撰写信息;
若审核评估分数大于等于预设的第一审核评估分数,则根据预设的第一定期时段定期获取专利撰写信息或根据预设的专利撰写信息所包含的内容量定量获取专利撰写信息。
6.根据权利要求5所述的一种基于自然语言算法的专利撰写质量核检方法,其特征在于,根据预设的第一定期时段定期获取专利撰写信息或根据预设的专利撰写信息所包含的内容量定量获取专利撰写信息包括:
查询用户预设的专利撰写信息获取方式优先级,其中,专利撰写信息获取方式包括根据预设的第一定期时段定期获取专利撰写信息或根据预设的专利撰写信息所包含的内容量定量获取专利撰写信息;
若查询到,则将优先级高的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式;
反之,则根据用户历史选用不同专利撰写信息获取方式的审核评估分数的变化情况,分析审核评估分数增长速度最快的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式。
7.根据权利要求6所述的一种基于自然语言算法的专利撰写质量核检方法,其特征在于,根据用户历史选用不同专利撰写信息获取方式的审核评估分数的变化情况,分析审核评估分数增长速度最快的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式包括:
获取用户历史选用不同专利撰写信息获取方式的审核评估分数;
筛选出用户前后两次均选择同一专利撰写信息获取方式的审核评估分数以及间隔时间,分析获取同一专利撰写信息获取方式的审核评估分数增长速度;
根据同一专利撰写信息获取方式的审核评估分数增长速度,分析获取同一专利撰写信息获取方式的审核评估分数平均增长速度,并选择其中最高的审核评估分数平均增长速度所对应的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式。
8.根据权利要求5所述的一种基于自然语言算法的专利撰写质量核检方法,其特征在于,根据预设的第一定期时段定期获取专利撰写信息或根据预设的专利撰写信息所包含的内容量定量获取专利撰写信息包括:
查询用户预设的专利撰写信息获取方式优先级,其中,专利撰写信息获取方式包括根据预设的第一定期时段定期获取专利撰写信息或根据预设的专利撰写信息所包含的内容量定量获取专利撰写信息;
若查询到,则将优先级高的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式;
反之,则根据专利撰写信息所对应专利类型在不同审核评估方向的准确率,选择最低准确率所对应的审核评估方向,并获取历史选用不同专利撰写信息获取方式下相应审核评估方向的审核评估分数的变化情况,分析审核评估分数增长速度最快的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式。
9.根据权利要求8所述的一种基于自然语言算法的专利撰写质量核检方法,其特征在于,根据专利撰写信息所对应专利类型在不同审核评估方向的准确率,选择最低准确率所对应的审核评估方向,并获取历史选用不同专利撰写信息获取方式下相应审核评估方向的审核评估分数的变化情况,分析审核评估分数增长速度最快的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式包括:
获取历史专利撰写信息所对应专利类型在不同审核评估方向的准确率,并选择最低准确率所对应的审核评估方向;
筛选出用户前后两次均选择同一专利撰写信息获取方式,关于最低准确率所对应的审核评估方向的审核评估分数以及间隔时间,分析获取同一专利撰写信息获取方式下最低准确率所对应的审核评估方向的审核评估分数增长速度;
根据同一专利撰写信息获取方式下最低准确率所对应的审核评估方向的审核评估分数增长速度,分析获取同一专利撰写信息获取方式下最低准确率所对应的审核评估方向的审核评估分数平均增长速度,并选择其中最高的审核评估分数平均增长速度所对应的专利撰写信息获取方式,作为本次所使用的专利撰写信息获取方式。
10.一种基于自然语言算法的专利撰写质量核检系统,其特征在于,包括:
获取模块(1),用于:获取专利撰写信息;
形成模块(2),用于:根据预设的专利领域语言模型,审核评估专利撰写信息,形成审核评估报告,其中,专利撰写信息的审核评估方向包括通顺度审核评估、错别字检测审核评估、去重审核评估;
显示模块(3),用于:显示审核评估报告。
CN202211070188.8A 2022-09-02 2022-09-02 一种基于自然语言算法的专利撰写质量核检方法以及系统 Pending CN115496630A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211070188.8A CN115496630A (zh) 2022-09-02 2022-09-02 一种基于自然语言算法的专利撰写质量核检方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211070188.8A CN115496630A (zh) 2022-09-02 2022-09-02 一种基于自然语言算法的专利撰写质量核检方法以及系统

Publications (1)

Publication Number Publication Date
CN115496630A true CN115496630A (zh) 2022-12-20

Family

ID=84468933

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211070188.8A Pending CN115496630A (zh) 2022-09-02 2022-09-02 一种基于自然语言算法的专利撰写质量核检方法以及系统

Country Status (1)

Country Link
CN (1) CN115496630A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116128364A (zh) * 2023-02-20 2023-05-16 北京中联迅捷通信科技有限公司 一种文本撰写质量监控方法与系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116128364A (zh) * 2023-02-20 2023-05-16 北京中联迅捷通信科技有限公司 一种文本撰写质量监控方法与系统
CN116128364B (zh) * 2023-02-20 2024-01-16 北京天方智力知识产权代理有限公司 一种文本撰写质量监控方法与系统

Similar Documents

Publication Publication Date Title
CN112115238B (zh) 一种基于bert和知识库的问答方法和系统
CN109829159B (zh) 一种古汉语文本的一体化自动词法分析方法及系统
CN110110585A (zh) 基于深度学习的智能阅卷实现方法及系统、计算机程序
CN111782807B (zh) 一种基于多方法集成学习的自承认技术债务检测分类方法
JPH07295989A (ja) データを解析するためのインタプリタを形成する装置
CN112883714B (zh) 基于依赖图卷积和迁移学习的absc任务句法约束方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN113204967B (zh) 简历命名实体识别方法及系统
CN111966944A (zh) 一种多层级用户评论安全审核的模型构建方法
CN110750978A (zh) 情感倾向分析方法、装置、电子设备及存储介质
CN113886562A (zh) 一种ai简历筛选方法、系统、设备和存储介质
Westermann et al. Computer-assisted creation of boolean search rules for text classification in the legal domain
CN114861636A (zh) 文本纠错模型的训练方法及装置、文本纠错方法及装置
CN116451646A (zh) 一种标准草案检测方法、系统、电子设备及存储介质
CN117574858A (zh) 一种基于大语言模型的类案检索报告自动生成方法
CN115496630A (zh) 一种基于自然语言算法的专利撰写质量核检方法以及系统
CN114548117A (zh) 一种基于bert语义增强的因果关系抽取方法
CN116304062B (zh) 一种基于级联深度学习模型的公平竞争审查方法
CN112632265A (zh) 智能机器阅读理解方法、装置、电子设备及存储介质
CN112667819A (zh) 一种实体描述推理知识库构建与推理证据量化信息获取方法和装置
CN116955534A (zh) 投诉工单智能处理方法、装置、设备及存储介质
Eswaraiah et al. A Hybrid Deep Learning GRU based Approach for Text Classification using Word Embedding
CN115827871A (zh) 互联网企业分类的方法、装置和系统
Saha et al. SPOCK at FinCausal 2022: Causal information extraction using span-based and sequence tagging models
Li et al. Grading Chinese answers on specialty subjective questions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination