CN111598526A - 一种针对描述科技创新内容的智能比对评审方法 - Google Patents

一种针对描述科技创新内容的智能比对评审方法 Download PDF

Info

Publication number
CN111598526A
CN111598526A CN202010317813.9A CN202010317813A CN111598526A CN 111598526 A CN111598526 A CN 111598526A CN 202010317813 A CN202010317813 A CN 202010317813A CN 111598526 A CN111598526 A CN 111598526A
Authority
CN
China
Prior art keywords
phrase
frequency
ratio
sequencing
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010317813.9A
Other languages
English (en)
Other versions
CN111598526B (zh
Inventor
聂文华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiji Jiangsu Technology Service Co ltd
Original Assignee
Qiji Jiangsu Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qiji Jiangsu Technology Service Co ltd filed Critical Qiji Jiangsu Technology Service Co ltd
Priority to CN202010317813.9A priority Critical patent/CN111598526B/zh
Publication of CN111598526A publication Critical patent/CN111598526A/zh
Application granted granted Critical
Publication of CN111598526B publication Critical patent/CN111598526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Artificial Intelligence (AREA)
  • Technology Law (AREA)
  • Primary Health Care (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种针对描述科技创新内容的智能对比评审方法,包括从描述科技创新内容的文本中识别出作为科技成果的专利号,再通过专利号检索出所述专利文档,包括专利的申请、审查、授权文件,把所述专利授权文件中摘要、权利要求书、说明书中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第一高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第一高频词组次比及次比范围,同理处理科技创新内容的文本,得到形成第二高频词组次比及次比范围。

Description

一种针对描述科技创新内容的智能比对评审方法
技术领域
本发明涉及技术文献识别对比技术领域,尤其是一种针对描述科技创新内容的智能比对评审方法。
背景技术
我国科技型企业处于飞速发展阶段,为了提供更优的科技市场环境和鼓励企业研发具有自主知识产权的科研项目,制定了一系列的扶持政策,包括高薪企业认定等,可享受税收减免、资金补助、为企业上市等发展创造了便利条件,同时拥有自主知识产权的科技项目也是吸引投资方注资根本基础,对于一些科技项目的申报也少不了申报企业的知识产权情况说明。
例如在科技项目、高新企业认定过程中,企业的知识产权申报量和知识产权运营能力往往是评审专家们认定企业是否符合高新企业特性的重要指标和加分项。有些企业以申报为目的,提供了大量与其自身产品项目无关的所属专利“充数”,不仅干扰了评审员的评审方向,也扰乱了高新企业认定市场。除高薪企业申报外,一些企业通过低品质专利“以次充好”套取投资人的资金,也是一种难以识别避免的现实情况。
发明内容
本发明的目的在于提供一种针对描述科技创新内容的智能比对评审方法,技术文献在某一技术领域具体创新内容描述词组的排序、次比方面,具有高度的相似性,排序、次比相似范围越大,往往标志技术文献之间的相关性越大,本发明实现包括下列步骤:
步骤一,从描述科技创新内容的文本中识别出作为科技成果的专利号,再通过专利号检索出所述专利文档,包括专利的申请、审查、授权文件;
步骤二,把所述专利授权文件中摘要、权利要求书、说明书中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第一高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第一高频词组次比及次比范围;
步骤三,把描述科技创新内容的文本中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第二高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第二高频词组次比及次比范围;
步骤四,根据设定的排序范围和排序比较阈值,比较第二高频词组排序与第一高频词组排序是否相似,若相似,则进入步骤五;若不相似,则进入步骤六;
步骤五,根据设定的次比范围和次比比较阈值,比较第二高频词组次比与第一高频词组次比是否相似,若相似,则进入步骤八;若不相似,则进入步骤七;
步骤六,在第一高频词组排序范围内变更设定的排序范围,重新执行步骤四;
步骤七,在第一高频词组次比范围内变更设定的次比范围,重新执行步骤五。
步骤八,记录相应排序、次比范围及对应的词组和/或词组组合。
所述步骤八还包括如下步骤:然后执行步骤六。
本发明有如下优点:
1、可智能识别描述科技创新内容文本与作为科技成果的专利文献之间的相关性以及相关性程度,快速筛除利用不相关专利技术支撑各类科技项目、高新企业资质的申报文件,避免人为因素的干扰;
2、本发明特别适合各类科技项目技术评审的初审筛查,可以大大节省评审周期,节省评审人力资源,提高了评审效率;
3、本发明中词组、词组组合的排序、排序范围、次比范围可以根据评审要求,灵活设置,具有高度的适应性,便于各类要求不同的科技项目评审使用。
附图说明
图1是本发明一种针对描述科技创新内容的智能比对评审方法流程图。
具体实施方式
实施例一,参见图1一种针对描述科技创新内容的智能比对评审方法,包括下列步骤:
步骤一,从描述科技创新内容的文本中识别出作为科技成果的专利号,再通过专利号检索出所述专利文档,包括专利的申请、审查、授权文件;
步骤二,把所述专利授权文件中摘要、权利要求书、说明书中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第一高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第一高频词组次比及次比范围;
第一高频词组排序如下表,排序范围是1至10:
Figure BDA0002460214870000021
Figure BDA0002460214870000031
第一高频词组次比如下表,以排序出现最多词组A出现次数为基数,计算其与其他排序词组出现次数之间的比值,次比范围1至10:
排序 词组 次比
1 A 1
2 B 0.9
3 C 0.8
4 D 0.7
5 E 0.6
6 F 0.5
7 G 0.4
8 H 0.3
9 I 0.2
10 J 0.1
步骤三,把描述科技创新内容的文本中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第二高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第二高频词组次比及次比范围;
第二高频词组排序如下表,排序范围是1至10:
Figure BDA0002460214870000032
Figure BDA0002460214870000041
第二高频词组次比如下表,以排序出现最多词组A出现次数为基数,计算出其与其他排序词组出现次数之间的比值,次比范围1至10:
排序 词组 次比
1 A 1
2 B 0.9
3 C 0.8
4 D 0.6
5 J 0.5
6 K 0.4
7 L 0.3
8 H 0.2
9 I 0.1
10 F 0.09
步骤四,根据设定的排序范围和排序比较阈值,比较第二高频词组排序与第一高频词组排序是否相似,若相似,则进入步骤五;若不相似,则进入步骤六;
设定的排序范围1至10,排序比较阈值要求排序词组全部相同,经比较第二高频词组排序与第一高频词组排序不相同(相似)。
步骤六,在第一高频词组排序范围内变更设定的排序范围,重新执行步骤四;
设定的排序范围1至9,排序比较阈值要求排序词组全部相同,经比较第二高频词组排序与第一高频词组排序不相同(相似)。再执行步骤6。
如此循环比较,直到设定的排序范围1至4,排序比较阈值要求排序词组全部相同,经比较第二高频词组排序与第一高频词组排序相同。
步骤五,根据设定的次比范围和次比比较阈值,比较第二高频词组次比与第一高频词组次比是否相似,若相似,则进入步骤八;若不相似,则进入步骤七;
设定的次比范围1至4,次比比较阈值要求词组之间次比全部相同,经比较第二高频词组次比与第一高频词组次比不相同(相似)。
步骤七,在第一高频词组次比范围内变更设定的次比范围,重新执行步骤五。
设定的次比范围1至3,次比比较阈值要求词组之间次比全部相同,经比较第二高频词组次比与第一高频词组次比相同。
步骤八,记录相应排序、次比范围及对应的词组和/或词组组合。
排序1至4的词组相同,参见下表:
排序 词组
1 A
2 B
3 C
4 D
排序1至3的词组次比相同(出现次数比例),参见下表:
排序 词组 次比
1 A 1
2 B 0.9
3 C 0.8
在上述步骤中,排序比较阈值、次比比较阈值还可以设定为至多有n个词组不同,n不大于设定的排序范围、次比。
通过上述步骤获得的词组排序、次比相同、相似的信息,可以直观的展现描述科技创新内容文本与作为科技成果的专利文献之间的相关程度,排序、次比相同(相似)范围越大,往往标志技术文献之间的相关性越大。词组、词组组合的排序、排序范围、次比范围可以根据评审要求,灵活设置,具有高度的适应性,便于各类要求不同的科技项目评审使用。
实施例二,其与实施例一不同之处在于,所述步骤八还包括如下步骤:然后执行步骤六,通过变更排序范围,再次对比核查两者相似程度,进一步确保对比结果的精确性。
本发明并不局限于上述实施方式,任何本领域技术人员都可做多种修改和变化,在不脱离本发明的精神下,都在本发明所要求保护范围。

Claims (2)

1.一种针对描述科技创新内容的智能比对评审方法,其特征在于:包括下列步骤:
步骤一,从描述科技创新内容的文本中识别出作为科技成果的专利号,再通过专利号检索出所述专利文档,包括专利的申请、审查、授权文件;
步骤二,把所述专利授权文件中摘要、权利要求书、说明书中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第一高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第一高频词组次比及次比范围;
步骤三,把描述科技创新内容的文本中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第二高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第二高频词组次比及次比范围;
步骤四,根据设定的排序范围和排序比较阈值,比较第二高频词组排序与第一高频词组排序是否相似,若相似,则进入步骤五;若不相似,则进入步骤六;
步骤五,根据设定的次比范围和次比比较阈值,比较第二高频词组次比与第一高频词组次比是否相似,若相似,则进入步骤八;若不相似,则进入步骤七;
步骤六,在第一高频词组排序范围内变更设定的排序范围,重新执行步骤四;
步骤七,在第一高频词组次比范围内变更设定的次比范围,重新执行步骤五;
步骤八,记录相应排序、次比范围及对应的词组和/或词组组合。
2.根据权利要求1所述的智能比对评审方法,其特征在于:所述步骤八还包括如下步骤:然后执行步骤六。
CN202010317813.9A 2020-04-21 2020-04-21 一种针对描述科技创新内容的智能比对评审方法 Active CN111598526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010317813.9A CN111598526B (zh) 2020-04-21 2020-04-21 一种针对描述科技创新内容的智能比对评审方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010317813.9A CN111598526B (zh) 2020-04-21 2020-04-21 一种针对描述科技创新内容的智能比对评审方法

Publications (2)

Publication Number Publication Date
CN111598526A true CN111598526A (zh) 2020-08-28
CN111598526B CN111598526B (zh) 2023-02-03

Family

ID=72189091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010317813.9A Active CN111598526B (zh) 2020-04-21 2020-04-21 一种针对描述科技创新内容的智能比对评审方法

Country Status (1)

Country Link
CN (1) CN111598526B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631859A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种面向科技项目的评审专家智能推荐方法
CN106033445A (zh) * 2015-03-16 2016-10-19 北京国双科技有限公司 获取文章关联度数据的方法和装置
CN108681564A (zh) * 2018-04-28 2018-10-19 北京京东尚科信息技术有限公司 关键词和答案的确定方法、装置和计算机可读存储介质
CN108846056A (zh) * 2018-06-01 2018-11-20 云南电网有限责任公司电力科学研究院 一种科技成果评审专家推荐方法及装置
CN109543001A (zh) * 2018-10-18 2019-03-29 华南理工大学 一种表征科研论文研究内容的科技词条抽取方法
CN109918496A (zh) * 2018-12-27 2019-06-21 杭州环形智能科技有限公司 一种基于多词汇摘要的精确文档检索方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631859A (zh) * 2013-10-24 2014-03-12 杭州电子科技大学 一种面向科技项目的评审专家智能推荐方法
CN106033445A (zh) * 2015-03-16 2016-10-19 北京国双科技有限公司 获取文章关联度数据的方法和装置
CN108681564A (zh) * 2018-04-28 2018-10-19 北京京东尚科信息技术有限公司 关键词和答案的确定方法、装置和计算机可读存储介质
CN108846056A (zh) * 2018-06-01 2018-11-20 云南电网有限责任公司电力科学研究院 一种科技成果评审专家推荐方法及装置
CN109543001A (zh) * 2018-10-18 2019-03-29 华南理工大学 一种表征科研论文研究内容的科技词条抽取方法
CN109918496A (zh) * 2018-12-27 2019-06-21 杭州环形智能科技有限公司 一种基于多词汇摘要的精确文档检索方法

Also Published As

Publication number Publication date
CN111598526B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
US11055307B2 (en) Automatic modeling method and classifier for OLAP data model
CN101625680B (zh) 面向专利领域的文档检索方法
US8935233B2 (en) Approximate index in relational databases
CN103995876A (zh) 一种基于卡方统计和smo算法的文本分类方法
US8364679B2 (en) Method, system, and apparatus for delivering query results from an electronic document collection
CN111506727B (zh) 文本内容类别获取方法、装置、计算机设备和存储介质
AU2009350126A1 (en) Method, system, and apparatus for delivering query results from an electronic document collection
CN101221578B (zh) 数据筛选的方法、装置以及证券化贷款的筛选方法、装置
US8438173B2 (en) Indexing and querying data stores using concatenated terms
CN102270201B (zh) 用于网络文件的多维索引的方法和设备
CN117725437B (zh) 一种基于机器学习的数据精准匹配分析方法
CN111598526B (zh) 一种针对描述科技创新内容的智能比对评审方法
JP3703064B2 (ja) ソフトウェア品質評価装置および品質評価方法
WO2010128974A1 (en) Method, system, and apparatus for targeted searching of multi-sectional documents within an electronic document collection
CN116127194A (zh) 一种企业推荐方法
CN111782657B (zh) 数据处理方法及装置
CN114021716A (zh) 一种模型训练的方法、系统及电子设备
Jędrzejewski et al. Performance of k-nearest neighbors algorithm in opinion classification
CN112967759A (zh) 基于内存堆栈技术的dna物证鉴定str分型比对方法
CN111598528A (zh) 一种企业项目对比评审方法
Deleglise et al. Automatic extraction of food security knowledge from newspaper articles-Appendix
CN111881668B (zh) 基于卡方统计和tf-crf改进的tf-idf计算装置
CN117763080B (zh) 一种技术属性多重相关度计算方法及系统
CN118535672B (zh) 一种建设工程咨询档案资料构建方法及系统
CN107644290A (zh) 一种专利技术生命周期分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant