CN111598526A - 一种针对描述科技创新内容的智能比对评审方法 - Google Patents
一种针对描述科技创新内容的智能比对评审方法 Download PDFInfo
- Publication number
- CN111598526A CN111598526A CN202010317813.9A CN202010317813A CN111598526A CN 111598526 A CN111598526 A CN 111598526A CN 202010317813 A CN202010317813 A CN 202010317813A CN 111598526 A CN111598526 A CN 111598526A
- Authority
- CN
- China
- Prior art keywords
- phrase
- frequency
- ratio
- sequencing
- range
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012552 review Methods 0.000 title claims abstract description 15
- 238000000034 method Methods 0.000 title claims abstract description 14
- 238000012163 sequencing technique Methods 0.000 claims abstract description 47
- 238000013475 authorization Methods 0.000 claims abstract description 8
- 238000011156 evaluation Methods 0.000 description 4
- 238000011161 development Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Economics (AREA)
- Marketing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Artificial Intelligence (AREA)
- Technology Law (AREA)
- Primary Health Care (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种针对描述科技创新内容的智能对比评审方法,包括从描述科技创新内容的文本中识别出作为科技成果的专利号,再通过专利号检索出所述专利文档,包括专利的申请、审查、授权文件,把所述专利授权文件中摘要、权利要求书、说明书中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第一高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第一高频词组次比及次比范围,同理处理科技创新内容的文本,得到形成第二高频词组次比及次比范围。
Description
技术领域
本发明涉及技术文献识别对比技术领域,尤其是一种针对描述科技创新内容的智能比对评审方法。
背景技术
我国科技型企业处于飞速发展阶段,为了提供更优的科技市场环境和鼓励企业研发具有自主知识产权的科研项目,制定了一系列的扶持政策,包括高薪企业认定等,可享受税收减免、资金补助、为企业上市等发展创造了便利条件,同时拥有自主知识产权的科技项目也是吸引投资方注资根本基础,对于一些科技项目的申报也少不了申报企业的知识产权情况说明。
例如在科技项目、高新企业认定过程中,企业的知识产权申报量和知识产权运营能力往往是评审专家们认定企业是否符合高新企业特性的重要指标和加分项。有些企业以申报为目的,提供了大量与其自身产品项目无关的所属专利“充数”,不仅干扰了评审员的评审方向,也扰乱了高新企业认定市场。除高薪企业申报外,一些企业通过低品质专利“以次充好”套取投资人的资金,也是一种难以识别避免的现实情况。
发明内容
本发明的目的在于提供一种针对描述科技创新内容的智能比对评审方法,技术文献在某一技术领域具体创新内容描述词组的排序、次比方面,具有高度的相似性,排序、次比相似范围越大,往往标志技术文献之间的相关性越大,本发明实现包括下列步骤:
步骤一,从描述科技创新内容的文本中识别出作为科技成果的专利号,再通过专利号检索出所述专利文档,包括专利的申请、审查、授权文件;
步骤二,把所述专利授权文件中摘要、权利要求书、说明书中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第一高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第一高频词组次比及次比范围;
步骤三,把描述科技创新内容的文本中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第二高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第二高频词组次比及次比范围;
步骤四,根据设定的排序范围和排序比较阈值,比较第二高频词组排序与第一高频词组排序是否相似,若相似,则进入步骤五;若不相似,则进入步骤六;
步骤五,根据设定的次比范围和次比比较阈值,比较第二高频词组次比与第一高频词组次比是否相似,若相似,则进入步骤八;若不相似,则进入步骤七;
步骤六,在第一高频词组排序范围内变更设定的排序范围,重新执行步骤四;
步骤七,在第一高频词组次比范围内变更设定的次比范围,重新执行步骤五。
步骤八,记录相应排序、次比范围及对应的词组和/或词组组合。
所述步骤八还包括如下步骤:然后执行步骤六。
本发明有如下优点:
1、可智能识别描述科技创新内容文本与作为科技成果的专利文献之间的相关性以及相关性程度,快速筛除利用不相关专利技术支撑各类科技项目、高新企业资质的申报文件,避免人为因素的干扰;
2、本发明特别适合各类科技项目技术评审的初审筛查,可以大大节省评审周期,节省评审人力资源,提高了评审效率;
3、本发明中词组、词组组合的排序、排序范围、次比范围可以根据评审要求,灵活设置,具有高度的适应性,便于各类要求不同的科技项目评审使用。
附图说明
图1是本发明一种针对描述科技创新内容的智能比对评审方法流程图。
具体实施方式
实施例一,参见图1一种针对描述科技创新内容的智能比对评审方法,包括下列步骤:
步骤一,从描述科技创新内容的文本中识别出作为科技成果的专利号,再通过专利号检索出所述专利文档,包括专利的申请、审查、授权文件;
步骤二,把所述专利授权文件中摘要、权利要求书、说明书中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第一高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第一高频词组次比及次比范围;
第一高频词组排序如下表,排序范围是1至10:
第一高频词组次比如下表,以排序出现最多词组A出现次数为基数,计算其与其他排序词组出现次数之间的比值,次比范围1至10:
排序 | 词组 | 次比 |
1 | A | 1 |
2 | B | 0.9 |
3 | C | 0.8 |
4 | D | 0.7 |
5 | E | 0.6 |
6 | F | 0.5 |
7 | G | 0.4 |
8 | H | 0.3 |
9 | I | 0.2 |
10 | J | 0.1 |
步骤三,把描述科技创新内容的文本中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第二高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第二高频词组次比及次比范围;
第二高频词组排序如下表,排序范围是1至10:
第二高频词组次比如下表,以排序出现最多词组A出现次数为基数,计算出其与其他排序词组出现次数之间的比值,次比范围1至10:
排序 | 词组 | 次比 |
1 | A | 1 |
2 | B | 0.9 |
3 | C | 0.8 |
4 | D | 0.6 |
5 | J | 0.5 |
6 | K | 0.4 |
7 | L | 0.3 |
8 | H | 0.2 |
9 | I | 0.1 |
10 | F | 0.09 |
步骤四,根据设定的排序范围和排序比较阈值,比较第二高频词组排序与第一高频词组排序是否相似,若相似,则进入步骤五;若不相似,则进入步骤六;
设定的排序范围1至10,排序比较阈值要求排序词组全部相同,经比较第二高频词组排序与第一高频词组排序不相同(相似)。
步骤六,在第一高频词组排序范围内变更设定的排序范围,重新执行步骤四;
设定的排序范围1至9,排序比较阈值要求排序词组全部相同,经比较第二高频词组排序与第一高频词组排序不相同(相似)。再执行步骤6。
如此循环比较,直到设定的排序范围1至4,排序比较阈值要求排序词组全部相同,经比较第二高频词组排序与第一高频词组排序相同。
步骤五,根据设定的次比范围和次比比较阈值,比较第二高频词组次比与第一高频词组次比是否相似,若相似,则进入步骤八;若不相似,则进入步骤七;
设定的次比范围1至4,次比比较阈值要求词组之间次比全部相同,经比较第二高频词组次比与第一高频词组次比不相同(相似)。
步骤七,在第一高频词组次比范围内变更设定的次比范围,重新执行步骤五。
设定的次比范围1至3,次比比较阈值要求词组之间次比全部相同,经比较第二高频词组次比与第一高频词组次比相同。
步骤八,记录相应排序、次比范围及对应的词组和/或词组组合。
排序1至4的词组相同,参见下表:
排序 | 词组 |
1 | A |
2 | B |
3 | C |
4 | D |
排序1至3的词组次比相同(出现次数比例),参见下表:
排序 | 词组 | 次比 |
1 | A | 1 |
2 | B | 0.9 |
3 | C | 0.8 |
在上述步骤中,排序比较阈值、次比比较阈值还可以设定为至多有n个词组不同,n不大于设定的排序范围、次比。
通过上述步骤获得的词组排序、次比相同、相似的信息,可以直观的展现描述科技创新内容文本与作为科技成果的专利文献之间的相关程度,排序、次比相同(相似)范围越大,往往标志技术文献之间的相关性越大。词组、词组组合的排序、排序范围、次比范围可以根据评审要求,灵活设置,具有高度的适应性,便于各类要求不同的科技项目评审使用。
实施例二,其与实施例一不同之处在于,所述步骤八还包括如下步骤:然后执行步骤六,通过变更排序范围,再次对比核查两者相似程度,进一步确保对比结果的精确性。
本发明并不局限于上述实施方式,任何本领域技术人员都可做多种修改和变化,在不脱离本发明的精神下,都在本发明所要求保护范围。
Claims (2)
1.一种针对描述科技创新内容的智能比对评审方法,其特征在于:包括下列步骤:
步骤一,从描述科技创新内容的文本中识别出作为科技成果的专利号,再通过专利号检索出所述专利文档,包括专利的申请、审查、授权文件;
步骤二,把所述专利授权文件中摘要、权利要求书、说明书中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第一高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第一高频词组次比及次比范围;
步骤三,把描述科技创新内容的文本中出现的高频词组和/或词组组合按照出现次数由多至少进行排序,形成第二高频词组排序及排序范围;计算所述排序的高频词组和/或词组组合出现次数之间的比值,形成第二高频词组次比及次比范围;
步骤四,根据设定的排序范围和排序比较阈值,比较第二高频词组排序与第一高频词组排序是否相似,若相似,则进入步骤五;若不相似,则进入步骤六;
步骤五,根据设定的次比范围和次比比较阈值,比较第二高频词组次比与第一高频词组次比是否相似,若相似,则进入步骤八;若不相似,则进入步骤七;
步骤六,在第一高频词组排序范围内变更设定的排序范围,重新执行步骤四;
步骤七,在第一高频词组次比范围内变更设定的次比范围,重新执行步骤五;
步骤八,记录相应排序、次比范围及对应的词组和/或词组组合。
2.根据权利要求1所述的智能比对评审方法,其特征在于:所述步骤八还包括如下步骤:然后执行步骤六。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010317813.9A CN111598526B (zh) | 2020-04-21 | 2020-04-21 | 一种针对描述科技创新内容的智能比对评审方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010317813.9A CN111598526B (zh) | 2020-04-21 | 2020-04-21 | 一种针对描述科技创新内容的智能比对评审方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111598526A true CN111598526A (zh) | 2020-08-28 |
CN111598526B CN111598526B (zh) | 2023-02-03 |
Family
ID=72189091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010317813.9A Active CN111598526B (zh) | 2020-04-21 | 2020-04-21 | 一种针对描述科技创新内容的智能比对评审方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111598526B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631859A (zh) * | 2013-10-24 | 2014-03-12 | 杭州电子科技大学 | 一种面向科技项目的评审专家智能推荐方法 |
CN106033445A (zh) * | 2015-03-16 | 2016-10-19 | 北京国双科技有限公司 | 获取文章关联度数据的方法和装置 |
CN108681564A (zh) * | 2018-04-28 | 2018-10-19 | 北京京东尚科信息技术有限公司 | 关键词和答案的确定方法、装置和计算机可读存储介质 |
CN108846056A (zh) * | 2018-06-01 | 2018-11-20 | 云南电网有限责任公司电力科学研究院 | 一种科技成果评审专家推荐方法及装置 |
CN109543001A (zh) * | 2018-10-18 | 2019-03-29 | 华南理工大学 | 一种表征科研论文研究内容的科技词条抽取方法 |
CN109918496A (zh) * | 2018-12-27 | 2019-06-21 | 杭州环形智能科技有限公司 | 一种基于多词汇摘要的精确文档检索方法 |
-
2020
- 2020-04-21 CN CN202010317813.9A patent/CN111598526B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103631859A (zh) * | 2013-10-24 | 2014-03-12 | 杭州电子科技大学 | 一种面向科技项目的评审专家智能推荐方法 |
CN106033445A (zh) * | 2015-03-16 | 2016-10-19 | 北京国双科技有限公司 | 获取文章关联度数据的方法和装置 |
CN108681564A (zh) * | 2018-04-28 | 2018-10-19 | 北京京东尚科信息技术有限公司 | 关键词和答案的确定方法、装置和计算机可读存储介质 |
CN108846056A (zh) * | 2018-06-01 | 2018-11-20 | 云南电网有限责任公司电力科学研究院 | 一种科技成果评审专家推荐方法及装置 |
CN109543001A (zh) * | 2018-10-18 | 2019-03-29 | 华南理工大学 | 一种表征科研论文研究内容的科技词条抽取方法 |
CN109918496A (zh) * | 2018-12-27 | 2019-06-21 | 杭州环形智能科技有限公司 | 一种基于多词汇摘要的精确文档检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111598526B (zh) | 2023-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11055307B2 (en) | Automatic modeling method and classifier for OLAP data model | |
CN101625680B (zh) | 面向专利领域的文档检索方法 | |
US8935233B2 (en) | Approximate index in relational databases | |
CN103995876A (zh) | 一种基于卡方统计和smo算法的文本分类方法 | |
US8364679B2 (en) | Method, system, and apparatus for delivering query results from an electronic document collection | |
CN111506727B (zh) | 文本内容类别获取方法、装置、计算机设备和存储介质 | |
AU2009350126A1 (en) | Method, system, and apparatus for delivering query results from an electronic document collection | |
CN101221578B (zh) | 数据筛选的方法、装置以及证券化贷款的筛选方法、装置 | |
US8438173B2 (en) | Indexing and querying data stores using concatenated terms | |
CN102270201B (zh) | 用于网络文件的多维索引的方法和设备 | |
CN117725437B (zh) | 一种基于机器学习的数据精准匹配分析方法 | |
CN111598526B (zh) | 一种针对描述科技创新内容的智能比对评审方法 | |
JP3703064B2 (ja) | ソフトウェア品質評価装置および品質評価方法 | |
WO2010128974A1 (en) | Method, system, and apparatus for targeted searching of multi-sectional documents within an electronic document collection | |
CN116127194A (zh) | 一种企业推荐方法 | |
CN111782657B (zh) | 数据处理方法及装置 | |
CN114021716A (zh) | 一种模型训练的方法、系统及电子设备 | |
Jędrzejewski et al. | Performance of k-nearest neighbors algorithm in opinion classification | |
CN112967759A (zh) | 基于内存堆栈技术的dna物证鉴定str分型比对方法 | |
CN111598528A (zh) | 一种企业项目对比评审方法 | |
Deleglise et al. | Automatic extraction of food security knowledge from newspaper articles-Appendix | |
CN111881668B (zh) | 基于卡方统计和tf-crf改进的tf-idf计算装置 | |
CN117763080B (zh) | 一种技术属性多重相关度计算方法及系统 | |
CN118535672B (zh) | 一种建设工程咨询档案资料构建方法及系统 | |
CN107644290A (zh) | 一种专利技术生命周期分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |