CN111598526B - 一种针对描述科技创新内容的智能比对评审方法 - Google Patents

一种针对描述科技创新内容的智能比对评审方法 Download PDF

Info

Publication number
CN111598526B
CN111598526B CN202010317813.9A CN202010317813A CN111598526B CN 111598526 B CN111598526 B CN 111598526B CN 202010317813 A CN202010317813 A CN 202010317813A CN 111598526 B CN111598526 B CN 111598526B
Authority
CN
China
Prior art keywords
phrase
frequency
ratio
sequencing
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010317813.9A
Other languages
English (en)
Other versions
CN111598526A (zh
Inventor
聂文华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qiji Jiangsu Technology Service Co ltd
Original Assignee
Qiji Jiangsu Technology Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qiji Jiangsu Technology Service Co ltd filed Critical Qiji Jiangsu Technology Service Co ltd
Priority to CN202010317813.9A priority Critical patent/CN111598526B/zh
Publication of CN111598526A publication Critical patent/CN111598526A/zh
Application granted granted Critical
Publication of CN111598526B publication Critical patent/CN111598526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Operations Research (AREA)
  • Technology Law (AREA)
  • Primary Health Care (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种针对描述科技创新内容的智能对比评审方法,包括从描述科技创新内容的文本中识别出作为科技成果的专利号,再通过专利号检索出所述专利文档,包括专利的申请、审查、授权文件,把所述专利授权文件中摘要、权利要求书、说明书中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第一高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第一高频词组次比及次比范围,同理处理科技创新内容的文本,得到形成第二高频词组次比及次比范围。

Description

一种针对描述科技创新内容的智能比对评审方法
技术领域
本发明涉及技术文献识别对比技术领域,尤其是一种针对描述科技创新内容的智能比对评审方法。
背景技术
我国科技型企业处于飞速发展阶段,为了提供更优的科技市场环境和鼓励企业研发具有自主知识产权的科研项目,制定了一系列的扶持政策,包括高薪企业认定等,可享受税收减免、资金补助、为企业上市等发展创造了便利条件,同时拥有自主知识产权的科技项目也是吸引投资方注资根本基础,对于一些科技项目的申报也少不了申报企业的知识产权情况说明。
例如在科技项目、高新企业认定过程中,企业的知识产权申报量和知识产权运营能力往往是评审专家们认定企业是否符合高新企业特性的重要指标和加分项。有些企业以申报为目的,提供了大量与其自身产品项目无关的所属专利“充数”,不仅干扰了评审员的评审方向,也扰乱了高新企业认定市场。除高薪企业申报外,一些企业通过低品质专利“以次充好”套取投资人的资金,也是一种难以识别避免的现实情况。
发明内容
本发明的目的在于提供一种针对描述科技创新内容的智能比对评审方法,技术文献在某一技术领域具体创新内容描述词组的排序、次比方面,具有高度的相似性,排序、次比相似范围越大,往往标志技术文献之间的相关性越大,本发明实现包括下列步骤:
步骤一,从描述科技创新内容的文本中识别出作为科技成果的专利号,再通过专利号检索出所述专利文档,包括专利的申请、审查、授权文件;
步骤二,把所述专利授权文件中摘要、权利要求书、说明书中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第一高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第一高频词组次比及次比范围;
步骤三,把描述科技创新内容的文本中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第二高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第二高频词组次比及次比范围;
步骤四,根据设定的排序范围和排序比较阈值,比较第二高频词组排序与第一高频词组排序是否相似,若相似,则进入步骤五;若不相似,则进入步骤六;
步骤五,根据设定的次比范围和次比比较阈值,比较第二高频词组次比与第一高频词组次比是否相似,若相似,则进入步骤八;若不相似,则进入步骤七;
步骤六,在第一高频词组排序范围内变更设定的排序范围,重新执行步骤四;
步骤七,在第一高频词组次比范围内变更设定的次比范围,重新执行步骤五。
步骤八,记录相应排序、次比范围及对应的词组和/或词组组合。
所述步骤八还包括如下步骤:然后执行步骤六。
本发明有如下优点:
1、可智能识别描述科技创新内容文本与作为科技成果的专利文献之间的相关性以及相关性程度,快速筛除利用不相关专利技术支撑各类科技项目、高新企业资质的申报文件,避免人为因素的干扰;
2、本发明特别适合各类科技项目技术评审的初审筛查,可以大大节省评审周期,节省评审人力资源,提高了评审效率;
3、本发明中词组、词组组合的排序、排序范围、次比范围可以根据评审要求,灵活设置,具有高度的适应性,便于各类要求不同的科技项目评审使用。
附图说明
图1是本发明一种针对描述科技创新内容的智能比对评审方法流程图。
具体实施方式
实施例一,参见图1一种针对描述科技创新内容的智能比对评审方法,包括下列步骤:
步骤一,从描述科技创新内容的文本中识别出作为科技成果的专利号,再通过专利号检索出所述专利文档,包括专利的申请、审查、授权文件;
步骤二,把所述专利授权文件中摘要、权利要求书、说明书中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第一高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第一高频词组次比及次比范围;
第一高频词组排序如下表,排序范围是1至10:
Figure BDA0002460214870000021
Figure BDA0002460214870000031
第一高频词组次比如下表,以排序出现最多词组A出现次数为基数,计算其与其他排序词组出现次数之间的比值,次比范围1至10:
排序 词组 次比
1 A 1
2 B 0.9
3 C 0.8
4 D 0.7
5 E 0.6
6 F 0.5
7 G 0.4
8 H 0.3
9 I 0.2
10 J 0.1
步骤三,把描述科技创新内容的文本中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第二高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第二高频词组次比及次比范围;
第二高频词组排序如下表,排序范围是1至10:
Figure BDA0002460214870000032
Figure BDA0002460214870000041
第二高频词组次比如下表,以排序出现最多词组A出现次数为基数,计算出其与其他排序词组出现次数之间的比值,次比范围1至10:
排序 词组 次比
1 A 1
2 B 0.9
3 C 0.8
4 D 0.6
5 J 0.5
6 K 0.4
7 L 0.3
8 H 0.2
9 I 0.1
10 F 0.09
步骤四,根据设定的排序范围和排序比较阈值,比较第二高频词组排序与第一高频词组排序是否相似,若相似,则进入步骤五;若不相似,则进入步骤六;
设定的排序范围1至10,排序比较阈值要求排序词组全部相同,经比较第二高频词组排序与第一高频词组排序不相同(相似)。
步骤六,在第一高频词组排序范围内变更设定的排序范围,重新执行步骤四;
设定的排序范围1至9,排序比较阈值要求排序词组全部相同,经比较第二高频词组排序与第一高频词组排序不相同(相似)。再执行步骤6。
如此循环比较,直到设定的排序范围1至4,排序比较阈值要求排序词组全部相同,经比较第二高频词组排序与第一高频词组排序相同。
步骤五,根据设定的次比范围和次比比较阈值,比较第二高频词组次比与第一高频词组次比是否相似,若相似,则进入步骤八;若不相似,则进入步骤七;
设定的次比范围1至4,次比比较阈值要求词组之间次比全部相同,经比较第二高频词组次比与第一高频词组次比不相同(相似)。
步骤七,在第一高频词组次比范围内变更设定的次比范围,重新执行步骤五。
设定的次比范围1至3,次比比较阈值要求词组之间次比全部相同,经比较第二高频词组次比与第一高频词组次比相同。
步骤八,记录相应排序、次比范围及对应的词组和/或词组组合。
排序1至4的词组相同,参见下表:
排序 词组
1 A
2 B
3 C
4 D
排序1至3的词组次比相同(出现次数比例),参见下表:
排序 词组 次比
1 A 1
2 B 0.9
3 C 0.8
在上述步骤中,排序比较阈值、次比比较阈值还可以设定为至多有n个词组不同,n不大于设定的排序范围、次比。
通过上述步骤获得的词组排序、次比相同、相似的信息,可以直观的展现描述科技创新内容文本与作为科技成果的专利文献之间的相关程度,排序、次比相同(相似)范围越大,往往标志技术文献之间的相关性越大。词组、词组组合的排序、排序范围、次比范围可以根据评审要求,灵活设置,具有高度的适应性,便于各类要求不同的科技项目评审使用。
实施例二,其与实施例一不同之处在于,所述步骤八还包括如下步骤:然后执行步骤六,通过变更排序范围,再次对比核查两者相似程度,进一步确保对比结果的精确性。
本发明并不局限于上述实施方式,任何本领域技术人员都可做多种修改和变化,在不脱离本发明的精神下,都在本发明所要求保护范围。

Claims (2)

1.一种针对描述科技创新内容的智能比对评审方法,其特征在于:包括下列步骤:
步骤一,从描述科技创新内容的文本中识别出作为科技成果的专利号,再通过专利号检索出所述专利文档,包括专利的申请、审查、授权文件;
步骤二,把所述专利授权文件中摘要、权利要求书、说明书中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第一高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第一高频词组次比及次比范围;
步骤三,把描述科技创新内容的文本中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第二高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第二高频词组次比及次比范围;
步骤四,根据设定的排序范围和排序比较阈值,比较第二高频词组排序与第一高频词组排序是否相似,若相似,则进入步骤五;若不相似,则进入步骤六;
步骤五,根据设定的次比范围和次比比较阈值,比较第二高频词组次比与第一高频词组次比是否相似,若相似,则进入步骤八;若不相似,则进入步骤七;
步骤六,在第一高频词组排序范围内变更设定的排序范围,重新执行步骤四;
步骤七,在第一高频词组次比范围内变更设定的次比范围,重新执行步骤五;
步骤八,记录相应排序、次比范围及对应的词组和/或词组组合。
2.根据权利要求1所述的智能比对评审方法,其特征在于:所述步骤八还包括如下步骤:然后执行步骤六。
CN202010317813.9A 2020-04-21 2020-04-21 一种针对描述科技创新内容的智能比对评审方法 Active CN111598526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010317813.9A CN111598526B (zh) 2020-04-21 2020-04-21 一种针对描述科技创新内容的智能比对评审方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010317813.9A CN111598526B (zh) 2020-04-21 2020-04-21 一种针对描述科技创新内容的智能比对评审方法

Publications (2)

Publication Number Publication Date
CN111598526A CN111598526A (zh) 2020-08-28
CN111598526B true CN111598526B (zh) 2023-02-03

Family

ID=72189091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010317813.9A Active CN111598526B (zh) 2020-04-21 2020-04-21 一种针对描述科技创新内容的智能比对评审方法

Country Status (1)

Country Link
CN (1) CN111598526B (zh)

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103631859B (zh) * 2013-10-24 2017-01-11 杭州电子科技大学 一种面向科技项目的评审专家智能推荐方法
CN106033445B (zh) * 2015-03-16 2019-10-25 北京国双科技有限公司 获取文章关联度数据的方法和装置
CN108681564B (zh) * 2018-04-28 2021-06-29 北京京东尚科信息技术有限公司 关键词和答案的确定方法、装置和计算机可读存储介质
CN108846056B (zh) * 2018-06-01 2021-04-23 云南电网有限责任公司电力科学研究院 一种科技成果评审专家推荐方法及装置
CN109543001A (zh) * 2018-10-18 2019-03-29 华南理工大学 一种表征科研论文研究内容的科技词条抽取方法
CN109918496B (zh) * 2018-12-27 2022-09-16 杭州环形智能科技有限公司 一种基于多词汇摘要的精确文档检索方法

Also Published As

Publication number Publication date
CN111598526A (zh) 2020-08-28

Similar Documents

Publication Publication Date Title
CN109101477B (zh) 一种企业领域分类及企业关键词筛选方法
US11055307B2 (en) Automatic modeling method and classifier for OLAP data model
US7856416B2 (en) Automated latent star schema discovery tool
US20040205524A1 (en) Spreadsheet data processing system
US8935233B2 (en) Approximate index in relational databases
US8364679B2 (en) Method, system, and apparatus for delivering query results from an electronic document collection
Abedinnia et al. New simple constructive heuristic algorithms for minimizing total flow-time in the permutation flowshop scheduling problem
CN111506727B (zh) 文本内容类别获取方法、装置、计算机设备和存储介质
AU2009350126A1 (en) Method, system, and apparatus for delivering query results from an electronic document collection
Yu et al. Two birds, one stone: a fast, yet lightweight, indexing scheme for modern database systems
CN105893380A (zh) 一种改良的文本分类特征选择方法
Xu et al. An improved information gain feature selection algorithm for SVM text classifier
US8438173B2 (en) Indexing and querying data stores using concatenated terms
CN102270201B (zh) 用于网络文件的多维索引的方法和设备
CN111598526B (zh) 一种针对描述科技创新内容的智能比对评审方法
CN105787004A (zh) 一种文本分类方法及装置
CN113553491A (zh) 一种基于倒排索引的工业大数据搜索优化方法
Revindasari et al. Traceability between business process and software component using Probabilistic Latent Semantic Analysis
WO2010128974A1 (en) Method, system, and apparatus for targeted searching of multi-sectional documents within an electronic document collection
CN116127194A (zh) 一种企业推荐方法
Patchigolla et al. Embedded database management performance
Deleglise et al. Automatic extraction of food security knowledge from newspaper articles-Appendix
CN111881668B (zh) 基于卡方统计和tf-crf改进的tf-idf计算装置
TWI474197B (zh) Information retrieval methods and systems
Rushiti Improving the performance of data warehouse using column store indexes.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant