CN112287679A - 一种科技项目评审中文本信息的结构化抽取方法及系统 - Google Patents
一种科技项目评审中文本信息的结构化抽取方法及系统 Download PDFInfo
- Publication number
- CN112287679A CN112287679A CN202011108855.8A CN202011108855A CN112287679A CN 112287679 A CN112287679 A CN 112287679A CN 202011108855 A CN202011108855 A CN 202011108855A CN 112287679 A CN112287679 A CN 112287679A
- Authority
- CN
- China
- Prior art keywords
- text
- structured
- information
- word
- scientific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012552 review Methods 0.000 title claims abstract description 40
- 238000000605 extraction Methods 0.000 title claims abstract description 38
- 230000011218 segmentation Effects 0.000 claims abstract description 53
- 238000005516 engineering process Methods 0.000 claims abstract description 46
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012098 association analyses Methods 0.000 claims abstract description 11
- 238000010224 classification analysis Methods 0.000 claims abstract description 3
- 238000007781 pre-processing Methods 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 9
- 238000011160 research Methods 0.000 claims description 8
- 238000012827 research and development Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 abstract description 5
- 230000008901 benefit Effects 0.000 description 3
- 230000008520 organization Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000009833 condensation Methods 0.000 description 1
- 230000005494 condensation Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Entrepreneurship & Innovation (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种科技项目评审中文本信息的结构化抽取方法及系统,该方法包括:通过文本切分技术在科技项目评审文本中抽取文本特征,以将文本数据转化为能够表述文本内容的结构化数据;通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本;对所述结构化文本中的文本信息进行提取,以获取所述结构化文本中文本信息之间的相互关系。本发明对知识表示模型通过层次聚类后再进行相似度计算,能够提取出关键词间的同义关系、概念上下位关系,从而有效提高了文本信息抽取的准确度。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种科技项目评审中文本信息的结构化抽取方法及系统。
背景技术
随着科技项目管理系统在我国各职能部门迅速普及,科技项目的评审工作从以往的集中会议模式发展到当前的网络模式,打破了评审工作中专家地域的限制。评审专家在网上根据领域知识和资助机构的资助标准,对项目申请书进行评议,资助机构依据专家的评议情况决定是否资助。
由于申请资助的科技项目众多,且遍布多个领域,因此,需要构建专家推荐系统,以根据科技项目的内容推荐相应专家对待审项目进行评审。而对科技项目评审中文本信息进行抽取是构建专家推荐系统的前提。
科技项目与专家主要信息来源是申请书与专家履历等数据库字段,以半结构化的方式存储于数据库中。现有技术中,主要采用关键词提取、知识表示等文本挖掘方法构建知识表示模型。知识表示模型虽能有效地表征文档的主题,但无法表述关键词间的同义关系、概念上下位关系等,抽取的准确度不高。
发明内容
针对上述问题,本发明的一个目的在于提出一种科技项目评审中文本信息的结构化抽取方法,以解决现有技术抽取准确度不高的问题。
一种科技项目评审中文本信息的结构化抽取方法,包括:
通过文本切分技术在科技项目评审文本中抽取文本特征,以将文本数据转化为能够表述文本内容的结构化数据;
通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本;
对所述结构化文本中的文本信息进行提取,以获取所述结构化文本中文本信息之间的相互关系。
根据本发明提供的科技项目评审中文本信息的结构化抽取方法,首先通过文本切分技术在科技项目评审文本中抽取文本特征,以将文本数据转化为能够表述文本内容的结构化数据,然后通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本,对知识表示模型通过层次聚类后再进行相似度计算,能够提取出关键词间的同义关系、概念上下位关系,从而有效提高了文本信息抽取的准确度。
另外,根据本发明上述的科技项目评审中文本信息的结构化抽取方法,还可以具有如下附加的技术特征:
进一步地,通过文本切分技术在科技项目评审文本中抽取文本特征,以将文本数据转化为能够表述文本内容的结构化数据的步骤具体包括:
基于中文分词方法,对文本进行预处理;
基于词语语义相似性,将科技项目与专家的文本映射成词语网络;
根据社会网络的概念,计算词语网络的居间度;
根据词语居间度与统计特性计算关键度,并根据关键度筛选关键词集合。
进一步地,所述统计特性包括词频和位置。
进一步地,基于中文分词方法,对文本进行预处理的步骤具体包括:
利用ICTCLAS中文分词工具,对Lucene中的Analyzer接口进行重写,实现定制化分词;
创建一个TokenStream实例,调用类中的resuableTokenStream方法,实现对文本信息的分词获得关键词;
调用StopFilter类,将上一步得到的第一次分词结果中的所有无意义虚词及自定义的停用词去掉;
通过前三步得到词语集合,并将这些词语作为表示文本信息的分词结果返回。
进一步地,所述结构化文本中的文本信息包括项目信息和专家信息;
所述项目信息包括项目名称、关键技术与公关方向、项目主要研发内容、项目主要技术指标、可行性报告;
所述专家信息包括熟悉专业、研究方向、专家简历、所获奖项、期刊发表情况、课题承担完成情况。
本发明的另一个目的在于提出一种科技项目评审中文本信息的结构化抽取系统,以解决现有技术抽取准确度不高的问题。
一种科技项目评审中文本信息的结构化抽取系统,包括:
抽取模块,用于通过文本切分技术在科技项目评审文本中抽取文本特征,以将文本数据转化为能够表述文本内容的结构化数据;
转换模块,用于通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本;
获取模块,用于对所述结构化文本中的文本信息进行提取,以获取所述结构化文本中文本信息之间的相互关系。
根据本发明提供的科技项目评审中文本信息的结构化抽取系统,首先通过文本切分技术在科技项目评审文本中抽取文本特征,以将文本数据转化为能够表述文本内容的结构化数据,然后通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本,对知识表示模型通过层次聚类后再进行相似度计算,能够提取出关键词间的同义关系、概念上下位关系,从而有效提高了文本信息抽取的准确度。
另外,根据本发明上述的科技项目评审中文本信息的结构化抽取系统,还可以具有如下附加的技术特征:
进一步地,所述抽取模块包括:
预处理单元,用于基于中文分词方法,对文本进行预处理;
映射单元,用于基于词语语义相似性,将科技项目与专家的文本映射成词语网络;
计算单元,用于根据社会网络的概念,计算词语网络的居间度;
筛选单元,用于根据词语居间度与统计特性计算关键度,并根据关键度筛选关键词集合。
进一步地,所述统计特性包括词频和位置。
进一步地,所述预处理单元具体用于:
利用ICTCLAS中文分词工具,对Lucene中的Analyzer接口进行重写,实现定制化分词;
创建一个TokenStream实例,调用类中的resuableTokenStream方法,实现对文本信息的分词获得关键词;
调用StopFilter类,将上一步得到的第一次分词结果中的所有无意义虚词及自定义的停用词去掉;
通过前三步得到词语集合,并将这些词语作为表示文本信息的分词结果返回。
进一步地,所述结构化文本中的文本信息包括项目信息和专家信息;
所述项目信息包括项目名称、关键技术与公关方向、项目主要研发内容、项目主要技术指标、可行性报告;
所述专家信息包括熟悉专业、研究方向、专家简历、所获奖项、期刊发表情况、课题承担完成情况。
附图说明
本发明实施例的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明第一实施例的科技项目评审中文本信息的结构化抽取方法的流程图;
图2是根据本发明第二实施例的科技项目评审中文本信息的结构化抽取系统的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明第一实施例提出的科技项目评审中文本信息的结构化抽取方法,包括步骤S101~S103。
S101,通过文本切分技术在科技项目评审文本中抽取文本特征,以将文本数据转化为能够表述文本内容的结构化数据。
其中,步骤101具体包括:
基于中文分词方法,对文本进行预处理;
基于词语语义相似性,将科技项目与专家的文本映射成词语网络;
根据社会网络的概念,计算词语网络的居间度;
根据词语居间度与统计特性计算关键度,并根据关键度筛选关键词集合,具体的,所述统计特性包括词频和位置。
其中,本实施例采用用了Lucene和中科院的ICTCLAS中文分词工具的组合。
具体的,基于中文分词方法,对文本进行预处理的步骤包括:
利用ICTCLAS中文分词工具,对Lucene中的Analyzer接口进行重写,实现定制化分词;
创建一个TokenStream实例,调用类中的resuableTokenStream方法,实现对文本信息的分词获得关键词;
调用StopFilter类,将上一步得到的第一次分词结果中的所有无意义虚词及自定义的停用词去掉;
通过前三步得到词语集合,并将这些词语作为表示文本信息的分词结果返回。
S102,通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本。
其中,通过词语网络(WordNet)表述文档的核心主题、语义间关系结构和整体体系结构。其是由文档中心词构成的网络G(Graph)描述文档D(Document)的核心主题,网络中的顶点V(Vertex)表示文档中的词语W(Word),边E(Edge)表示文档中词语间的关系R(Relation)。
S103,对所述结构化文本中的文本信息进行提取,以获取所述结构化文本中文本信息之间的相互关系。
其中,所述结构化文本中的文本信息包括项目信息和专家信息;
所述项目信息包括:
项目名称,题目是项目信息的一个凝缩点。
关键技术与公关方向,能表明申报项目的具体研究方向。
项目主要研发内容,是申报项目的研究的具体方式、内容、能达到的预期结果的详细描述。
项目主要技术指标、经济指标,反映申报项目计划目标和实际情况。
可行性报告,申报项目所属单位从经济、技术、研发、运营到社会的各种环境、政策、法律等多种角度进行调研、分析、论述,预见各类利害因素及项目的可行性,估计项目风险、经济贡献和社会效益等指标。
所述专家信息包括:
熟悉专业,专家所从事的研究专业。
研究方向,专家所研究的具体方向。
专家的简历,专家的个人形象,包括资历与能力的书面表述。
所获得的各种奖项。
期刊发表情况。
课题承担完成情况。
根据本实施例提供的科技项目评审中文本信息的结构化抽取方法,首先通过文本切分技术在科技项目评审文本中抽取文本特征,以将文本数据转化为能够表述文本内容的结构化数据,然后通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本,对知识表示模型通过层次聚类后再进行相似度计算,能够提取出关键词间的同义关系、概念上下位关系,从而有效提高了文本信息抽取的准确度。
请参阅图2,基于同一发明构思,本发明第二实施例提出的科技项目评审中文本信息的结构化抽取系统,包括:
抽取模块,用于通过文本切分技术在科技项目评审文本中抽取文本特征,以将文本数据转化为能够表述文本内容的结构化数据;
转换模块,用于通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本;
获取模块,用于对所述结构化文本中的文本信息进行提取,以获取所述结构化文本中文本信息之间的相互关系。
本实施例中,所述抽取模块包括:
预处理单元,用于基于中文分词方法,对文本进行预处理;
映射单元,用于基于词语语义相似性,将科技项目与专家的文本映射成词语网络;
计算单元,用于根据社会网络的概念,计算词语网络的居间度;
筛选单元,用于根据词语居间度与统计特性计算关键度,并根据关键度筛选关键词集合。
本实施例中,所述统计特性包括词频和位置。
本实施例中,所述预处理单元具体用于:
利用ICTCLAS中文分词工具,对Lucene中的Analyzer接口进行重写,实现定制化分词;
创建一个TokenStream实例,调用类中的resuableTokenStream方法,实现对文本信息的分词获得关键词;
调用StopFilter类,将上一步得到的第一次分词结果中的所有无意义虚词及自定义的停用词去掉;
通过前三步得到词语集合,并将这些词语作为表示文本信息的分词结果返回。
本实施例中,所述结构化文本中的文本信息包括项目信息和专家信息;
所述项目信息包括项目名称、关键技术与公关方向、项目主要研发内容、项目主要技术指标、可行性报告;
所述专家信息包括熟悉专业、研究方向、专家简历、所获奖项、期刊发表情况、课题承担完成情况。
根据本实施例提供的科技项目评审中文本信息的结构化抽取系统,首先通过文本切分技术在科技项目评审文本中抽取文本特征,以将文本数据转化为能够表述文本内容的结构化数据,然后通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本,对知识表示模型通过层次聚类后再进行相似度计算,能够提取出关键词间的同义关系、概念上下位关系,从而有效提高了文本信息抽取的准确度。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具体用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (10)
1.一种科技项目评审中文本信息的结构化抽取方法,其特征在于,包括:
通过文本切分技术在科技项目评审文本中抽取文本特征,以将文本数据转化为能够表述文本内容的结构化数据;
通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本;
对所述结构化文本中的文本信息进行提取,以获取所述结构化文本中文本信息之间的相互关系。
2.根据权利要求1所述的科技项目评审中文本信息的结构化抽取方法,其特征在于,通过文本切分技术在科技项目评审文本中抽取文本特征,以将文本数据转化为能够表述文本内容的结构化数据的步骤具体包括:
基于中文分词方法,对文本进行预处理;
基于词语语义相似性,将科技项目与专家的文本映射成词语网络;
根据社会网络的概念,计算词语网络的居间度;
根据词语居间度与统计特性计算关键度,并根据关键度筛选关键词集合。
3.根据权利要求2所述的科技项目评审中文本信息的结构化抽取方法,其特征在于,所述统计特性包括词频和位置。
4.根据权利要求2所述的科技项目评审中文本信息的结构化抽取方法,其特征在于,基于中文分词方法,对文本进行预处理的步骤具体包括:
利用ICTCLAS中文分词工具,对Lucene中的Analyzer接口进行重写,实现定制化分词;
创建一个TokenStream实例,调用类中的resuableTokenStream方法,实现对文本信息的分词获得关键词;
调用StopFilter类,将上一步得到的第一次分词结果中的所有无意义虚词及自定义的停用词去掉;
通过前三步得到词语集合,并将这些词语作为表示文本信息的分词结果返回。
5.根据权利要求1所述的科技项目评审中文本信息的结构化抽取方法,其特征在于,所述结构化文本中的文本信息包括项目信息和专家信息;
所述项目信息包括项目名称、关键技术与公关方向、项目主要研发内容、项目主要技术指标、可行性报告;
所述专家信息包括熟悉专业、研究方向、专家简历、所获奖项、期刊发表情况、课题承担完成情况。
6.一种科技项目评审中文本信息的结构化抽取系统,其特征在于,包括:
抽取模块,用于通过文本切分技术在科技项目评审文本中抽取文本特征,以将文本数据转化为能够表述文本内容的结构化数据;
转换模块,用于通过聚类技术、分类技术和关联分析技术将所述结构化数据转换为结构化文本;
获取模块,用于对所述结构化文本中的文本信息进行提取,以获取所述结构化文本中文本信息之间的相互关系。
7.根据权利要求6所述的科技项目评审中文本信息的结构化抽取系统,其特征在于,所述抽取模块包括:
预处理单元,用于基于中文分词方法,对文本进行预处理;
映射单元,用于基于词语语义相似性,将科技项目与专家的文本映射成词语网络;
计算单元,用于根据社会网络的概念,计算词语网络的居间度;
筛选单元,用于根据词语居间度与统计特性计算关键度,并根据关键度筛选关键词集合。
8.根据权利要求7所述的科技项目评审中文本信息的结构化抽取系统,其特征在于,所述统计特性包括词频和位置。
9.根据权利要求7所述的科技项目评审中文本信息的结构化抽取系统,其特征在于,所述预处理单元具体用于:
利用ICTCLAS中文分词工具,对Lucene中的Analyzer接口进行重写,实现定制化分词;
创建一个TokenStream实例,调用类中的resuableTokenStream方法,实现对文本信息的分词获得关键词;
调用StopFilter类,将上一步得到的第一次分词结果中的所有无意义虚词及自定义的停用词去掉;
通过前三步得到词语集合,并将这些词语作为表示文本信息的分词结果返回。
10.根据权利要求6所述的科技项目评审中文本信息的结构化抽取系统,其特征在于,所述结构化文本中的文本信息包括项目信息和专家信息;
所述项目信息包括项目名称、关键技术与公关方向、项目主要研发内容、项目主要技术指标、可行性报告;
所述专家信息包括熟悉专业、研究方向、专家简历、所获奖项、期刊发表情况、课题承担完成情况。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011108855.8A CN112287679A (zh) | 2020-10-16 | 2020-10-16 | 一种科技项目评审中文本信息的结构化抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011108855.8A CN112287679A (zh) | 2020-10-16 | 2020-10-16 | 一种科技项目评审中文本信息的结构化抽取方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112287679A true CN112287679A (zh) | 2021-01-29 |
Family
ID=74497397
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011108855.8A Pending CN112287679A (zh) | 2020-10-16 | 2020-10-16 | 一种科技项目评审中文本信息的结构化抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112287679A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113255364A (zh) * | 2021-05-28 | 2021-08-13 | 华斌 | 基于知识融合的政务信息化项目多专家意见机器整合方法 |
CN113435843A (zh) * | 2021-06-28 | 2021-09-24 | 平安信托有限责任公司 | 批复文件生成方法、装置、电子设备及存储介质 |
US11573790B2 (en) | 2019-12-05 | 2023-02-07 | International Business Machines Corporation | Generation of knowledge graphs based on repositories of code |
CN116187299A (zh) * | 2023-03-07 | 2023-05-30 | 广东省技术经济研究发展中心 | 一种科技项目文本数据检定评价方法、系统及介质 |
US11954424B2 (en) | 2022-05-02 | 2024-04-09 | International Business Machines Corporation | Automatic domain annotation of structured data |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605665A (zh) * | 2013-10-24 | 2014-02-26 | 杭州电子科技大学 | 一种基于关键词的评审专家智能检索与推荐方法 |
CN103631859A (zh) * | 2013-10-24 | 2014-03-12 | 杭州电子科技大学 | 一种面向科技项目的评审专家智能推荐方法 |
CN106055538A (zh) * | 2016-05-26 | 2016-10-26 | 达而观信息科技(上海)有限公司 | 主题模型和语义分析相结合的文本标签自动抽取方法 |
-
2020
- 2020-10-16 CN CN202011108855.8A patent/CN112287679A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605665A (zh) * | 2013-10-24 | 2014-02-26 | 杭州电子科技大学 | 一种基于关键词的评审专家智能检索与推荐方法 |
CN103631859A (zh) * | 2013-10-24 | 2014-03-12 | 杭州电子科技大学 | 一种面向科技项目的评审专家智能推荐方法 |
CN106055538A (zh) * | 2016-05-26 | 2016-10-26 | 达而观信息科技(上海)有限公司 | 主题模型和语义分析相结合的文本标签自动抽取方法 |
Non-Patent Citations (1)
Title |
---|
罗灏;徐小良;吕跃华;: "科技项目申请书关键词提取方法", 电子科技, no. 07, 15 July 2013 (2013-07-15), pages 7 - 10 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11573790B2 (en) | 2019-12-05 | 2023-02-07 | International Business Machines Corporation | Generation of knowledge graphs based on repositories of code |
CN113255364A (zh) * | 2021-05-28 | 2021-08-13 | 华斌 | 基于知识融合的政务信息化项目多专家意见机器整合方法 |
CN113435843A (zh) * | 2021-06-28 | 2021-09-24 | 平安信托有限责任公司 | 批复文件生成方法、装置、电子设备及存储介质 |
US11954424B2 (en) | 2022-05-02 | 2024-04-09 | International Business Machines Corporation | Automatic domain annotation of structured data |
CN116187299A (zh) * | 2023-03-07 | 2023-05-30 | 广东省技术经济研究发展中心 | 一种科技项目文本数据检定评价方法、系统及介质 |
CN116187299B (zh) * | 2023-03-07 | 2024-03-15 | 广东省技术经济研究发展中心 | 一种科技项目文本数据检定评价方法、系统及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112287679A (zh) | 一种科技项目评审中文本信息的结构化抽取方法及系统 | |
Aston et al. | Exploring built environment impacts on transit use–an updated meta-analysis | |
Wang et al. | Spatiotemporal and semantic information extraction from Web news reports about natural hazards | |
Pagdee et al. | What makes community forest management successful: a meta-study from community forests throughout the world | |
CN113392986A (zh) | 一种基于大数据的公路桥梁信息抽取方法及管理养护系统 | |
El Emam et al. | A method for managing re-identification risk from small geographic areas in Canada | |
KR101335540B1 (ko) | 온톨로지 기반의 문서 분류 방법 및 장치 | |
Acharjya et al. | A framework for attribute selection in marketing using rough computing and formal concept analysis | |
US11620453B2 (en) | System and method for artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations | |
Wu et al. | An integrated proactive knowledge management model for enhancing engineering services | |
CN111259160A (zh) | 知识图谱构建方法、装置、设备及存储介质 | |
Piotrowski | Accepting and modeling uncertainty | |
Kim | Analysis of standard vocabulary use of the open government data: the case of the public data portal of Korea | |
WO2023071127A1 (zh) | 政策推荐方法、装置、设备及存储介质 | |
CN115687787A (zh) | 产业政策目标群画像构建方法、系统及存储介质 | |
Wei et al. | Comparative study of decision performance of decision tables induced by attribute reductions | |
Hunter et al. | A knowledge-based approach to merging information | |
Di Cara et al. | Mapping population vulnerability and community support during COVID-19: a case study from Wales | |
CN117057866A (zh) | 业务推荐方法和装置、电子设备及存储介质 | |
Hofmeister et al. | Semantic agent framework for automated flood assessment using dynamic knowledge graphs | |
Travers et al. | Implementation of emergency medical text classifier for syndromic surveillance | |
KR20190052980A (ko) | 인재 정보 처리 방법 및 장치 | |
Xu et al. | Development of a maritime safety management database using relational database approach | |
CN114780744A (zh) | 一种面向知识图谱构建的人物简历解析方法 | |
Schuurman et al. | alt. metadata. health: Ontological Context for Data Use and Integration |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |