CN114780673A - 基于领域匹配的科技成果管理方法和科技成果管理平台 - Google Patents
基于领域匹配的科技成果管理方法和科技成果管理平台 Download PDFInfo
- Publication number
- CN114780673A CN114780673A CN202210313286.3A CN202210313286A CN114780673A CN 114780673 A CN114780673 A CN 114780673A CN 202210313286 A CN202210313286 A CN 202210313286A CN 114780673 A CN114780673 A CN 114780673A
- Authority
- CN
- China
- Prior art keywords
- matching
- scientific
- participle
- achievement
- field
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000007726 management method Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 claims abstract description 56
- 238000007689 inspection Methods 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims description 118
- 230000008569 process Effects 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 13
- 238000011056 performance test Methods 0.000 claims description 6
- 230000004069 differentiation Effects 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 10
- 238000000605 extraction Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 210000001503 joint Anatomy 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 238000003032 molecular docking Methods 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于领域匹配的科技成果管理方法和科技成果管理平台,方法包括:获取成果供给方的科技成果文本数据;将其分级划分并标记属性信息;针对每个领域关键词库,利用各分词的属性信息判断每个分词与该领域关键词库是否匹配;利用判断结果确定科技成果文本数据与该领域关键词库的匹配程度并确定目标领域关键词库;利用每个匹配分词的属性信息查找到科技成果文本数据中的疑似匹配分词;通过将疑似匹配分词导入词库试检验的方式判断其是否为确定匹配分词;利用所有确定匹配分词更新目标领域关键词库并将科技成果文本数据划分至目标领域内进行管理;管理至少包括:在目标领域内为其自动匹配成果需求方。本发明能自动实现供需双方精准匹配。
Description
技术领域
本发明属于科技成果转化技术领域,具体涉及一种基于领域匹配的科技成果管理方法和科技成果管理平台。
背景技术
科技是经济增长的发动机,是提高综合国力的主要驱动力。促进科技成果转化、加速科技成果产业化,已经成为世界各国科技政策的新趋势。
近年来,随着我国促进科技成果转化的多项政策措施陆续出台,全社会对科技成果转化的投入明显增加,但相较发达国家而言,目前我国的科技成果转化率仍明显偏低,究其原因在于难以对成果供给方和需求方实现有效对接。
为了解决该问题,目前涌现出了越来越多的第三方机构,通过自建的管理平台为成果供给方和成果需求方牵线搭桥,并由技术经理人开展具体的科技成果转化工作。但技术经理人在具体对接过程中,由于供需双方涉及的成果领域(需求领域)较多,进行人工筛选、匹配的工作量较大,耗时较长,且受不同技术经理人主观影响的程度较为明显,很难实现供需双方的精准匹配,给科技成果转化带来了一定的困难。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种基于领域匹配的科技成果管理方法、科技成果管理平台和电子设备。本发明要解决的技术问题通过以下技术方案实现:
第一方面,本发明实施例提供了一种基于领域匹配的科技成果管理方法,包括:
利用成果上传入口获取来自成果供给方的科技成果文本数据;
将所述科技成果文本数据进行分级划分并对划分出的各级单元标记对应的属性信息;其中,所述分级划分的最小单元为分词;
针对已有的每个领域关键词库,利用各分词的属性信息,判断每个分词与该领域关键词库是否匹配;利用每个分词的匹配判断结果确定所述科技成果文本数据与该领域关键词库的匹配程度;并将所有领域关键词库中,匹配程度满足预设要求的领域关键词库确定为目标领域关键词库;
针对所述科技成果文本数据中与所述目标领域关键词库匹配的每个匹配分词,利用该匹配分词的属性信息,查找到所述科技成果文本数据中与该匹配分词的同现频率达到预设要求的分词作为所述目标领域关键词库的疑似匹配分词;
通过将疑似匹配分词导入词库试检验的方式,判断每个疑似匹配分词是否为所述目标领域关键词库的确定匹配分词;
利用所有确定匹配分词更新所述目标领域关键词库,以及将所述科技成果文本数据划分至所述目标领域关键词库对应的目标领域内进行管理;其中,所述管理至少包括:在所述目标领域内为所述科技成果文本数据自动匹配成果需求方。
在本发明的一个实施例中,所述利用成果上传入口获取来自成果供给方的科技成果文本数据,包括:
将所述成果上传入口上传的所述科技成果信息进行格式检验,如果并非为预设的文本格式,则将其转换为所述预设的文本格式。
在本发明的一个实施例中,所述将所述科技成果文本数据进行分级划分并对划分出的各级单元标记对应的属性信息,包括:
将所述科技成果文本数据划分为多个字段,并对每个字段标记字段属性信息;其中,所述字段属性信息至少包括字段信息内容和字段匹配值;所述字段信息内容至少包括该字段的文本内容和该字段下的分词属性信息;所述字段匹配值的初始值为0;
将每个字段划分为多个分词,并对每个分词标记分词属性信息;其中,所述分词属性信息至少包括分词信息内容、分词关联信息和分词匹配值;所述分词信息内容至少包括分词的文本内容;所述分词匹配值的初始值为0。
在本发明的一个实施例中,所述通过将疑似匹配分词导入词库试检验的方式,判断每个疑似匹配分词是否为所述目标领域关键词库的确定匹配分词,包括:
针对每个疑似匹配分词,将该疑似匹配分词分别导入所述目标领域关键词库,得到该疑似匹配分词对应的测试关键词库;
利用预设指标对该疑似匹配分词对应的测试关键词库进行性能检验,若性能满足预设要求,则将该疑似匹配分词判定为所述目标领域关键词库的确定匹配分词;若性能不满足预设要求,则将该疑似匹配分词判定为所述目标领域关键词库的非匹配分词;
所述利用所有确定匹配分词更新所述目标领域关键词库,包括:
将所有确定匹配分词导入所述目标领域关键词库得到更新后目标领域关键词库。
在本发明的一个实施例中,所述通过将疑似匹配分词导入词库试检验的方式,判断每个疑似匹配分词是否为所述目标领域关键词库的确定匹配分词,包括:
依据多个疑似匹配分词的排列次序,针对当前次的疑似匹配分词,将其导入当前次的目标领域关键词库;其中,第一次的疑似匹配分词对应的当前次的目标领域关键词库为所述目标领域关键词库;
利用预设指标对导入疑似匹配分词后的当前次的目标领域关键词库进行性能检验;
若性能满足预设要求,则将该当前次的疑似匹配分词判定为确定匹配分词并正式加入当前次的目标领域关键词库;判断该当前次的疑似匹配分词是否为最后一个疑似匹配分词,如果是,则结束迭代;如果不是,则返回所述依据多个疑似匹配分词的排列次序,针对当前次的疑似匹配分词,将其导入当前次的目标领域关键词库的步骤;
若性能不满足预设要求,则将该当前次的疑似匹配分词判定为非匹配分词不正式加入当前次的目标领域关键词库;判断该当前次的疑似匹配分词是否为最后一个疑似匹配分词,如果是,则结束迭代;如果不是,则返回所述依据多个疑似匹配分词的排列次序,针对当前次的疑似匹配分词,将其导入当前次的目标领域关键词库的步骤;
所述利用所有确定匹配分词更新所述目标领域关键词库,包括:
将迭代结束后,最后一个确定匹配分词正式加入其对应的当前次的目标领域关键词库后所得到的词库,作为更新后目标领域关键词库。
在本发明的一个实施例中,所述预设指标,包括:
词库差异化率、非领域文本检测差异和领域信息检测文本差异。
在本发明的一个实施例中,所述在所述目标领域内为所述科技成果文本数据自动匹配成果需求方,包括:
获取所述目标领域内多个成果需求各自的成果需求关键词集合;
获取所述科技成果文本数据中与所述目标领域对应的匹配分词集合;其中,所述匹配分词集合由所述科技成果文本数据中与所述目标领域关键词库确定匹配的分词构成;
分别计算每个成果需求关键词集合与所述匹配分词集合的集合相似度;
选取出集合相似度满足预设选取条件的目标成果需求关键词集合,并将所述目标成果需求关键词集合的需求方确定为与所述科技成果文本数据匹配的目标成果需求方。
在本发明的一个实施例中,所述将所述目标成果需求关键词集合的需求方确定为与所述科技成果文本数据匹配的目标成果需求方之后,所述方法还包括:
向供需双方发送供需匹配成功消息,并对所述科技成果文本数据在供需匹配过程中的关键数据进行可视化显示。
第二方面,本发明实施例提供了一种科技成果管理平台,包括:
科技成果文本数据获取模块,用于利用成果上传入口获取来自成果供给方的科技成果文本数据;
分级划分和属性信息标记模块,用于将所述科技成果文本数据进行分级划分并对划分出的各级单元标记对应的属性信息;其中,所述分级划分的最小单元为分词;
领域匹配模块,用于针对已有的每个领域关键词库,利用各分词的属性信息,判断每个分词与该领域关键词库是否匹配;利用每个分词的匹配判断结果确定所述科技成果文本数据与该领域关键词库的匹配程度;并将所有领域关键词库中,匹配程度满足预设要求的领域关键词库确定为目标领域关键词库;
疑似匹配分词获取模块,用于针对所述科技成果文本数据中与所述目标领域关键词库匹配的每个匹配分词,利用该匹配分词的属性信息,查找到所述科技成果文本数据中与该匹配分词的同现频率达到预设要求的分词作为所述目标领域关键词库的疑似匹配分词;
疑似匹配分词判断模块,用于通过将疑似匹配分词导入词库试检验的方式,判断每个疑似匹配分词是否为所述目标领域关键词库的确定匹配分词;
词库更新和管理模块,用于利用所有确定匹配分词更新所述目标领域关键词库,以及将所述科技成果文本数据划分至所述目标领域关键词库对应的目标领域内进行管理;其中,所述管理至少包括:在所述目标领域内为所述科技成果文本数据自动匹配成果需求方。
第三方面,本发明实施例提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面所述的任一种基于领域匹配的科技成果管理方法的方法步骤。
本发明的有益效果:通过利用规格标准化划分出的分词的属性信息,针对每个领域关键词库,确定出科技成果文本数据对应的数据集中每个分词与该领域关键词库是否匹配,并且利用分词的匹配判断结果确定数据集与该领域关键词库的匹配程度,从所有领域关键词库中依据匹配程度高低选出目标领域关键词库,从而自动实现科技成果文本数据的领域匹配。在实现领域匹配的基础上,针对数据集中与目标领域关键词库匹配的每个匹配分词的属性信息,查找到科技成果文本数据中与该匹配分词的同现频率达到预设要求的分词作为目标领域关键词库的疑似匹配分词。可见,本发明实施例能够基于语境中语义的关联性,查找到新增的匹配分词,因此,能够提高目标领域关键词的查全率。本发明实施例针对每个疑似匹配分词通过导入词库性能检验的方式,进一步核实是否真正与目标领域具有匹配性,能够剔除不符合要求的虚假关键词,提高新增匹配分词的准确性。并且本发明实施例利用所有与目标领域确定具有匹配关系的分词能够自动实现目标领域关键词库的更新。可见本发明实施例采用基于机器学习的关键词库构建方法解决领域关键词的识别提取和词库更新问题,能够利用来自成果供给方的科技成果文本数据,自动进行准确的领域匹配、领域关键词识别、提取和领域关键词库更新,能够实现系统自我迭代升级。该方法无需人工操作,具有收敛性快,效率高,能够进行我学习以及维护成本低等优点,且能够避免操作人的主观影响,实现供需双方的精准匹配,能够提高科技成果对接的精准性。
以下将结合附图及实施例对本发明做进一步详细说明。
附图说明
图1为本发明实施例提供的一种基于领域匹配的科技成果管理方法的流程示意图;
图2为本发明实施例提供的分词与一领域关键词库是否匹配的判断过程的流程示意图;
图3为本发明实施例提供的一种疑似匹配分词判定至词库更新过程的流程示意图;
图4为本发明实施例提供的另一种疑似匹配分词判定至词库更新过程的流程示意图;
图5为本发明实施例提供的科技成果管理平台的结构示意图;
图6为本发明实施例所提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了对成果供给方和成果需求方进行精准对接,本发明实施例提供了一种基于领域匹配的科技成果管理方法、科技成果管理平台和电子设备。
其中,本发明实施例提出的基于领域匹配的科技成果管理方法的执行主体,可以为一种基于领域匹配的科技成果管理装置,该装置为本发明实施例提供的科技成果管理平台中的软件模块。可以理解的是,该科技成果管理平台是一个软件平台,可以安装于电子设备中。该电子设备可以是台式计算机、便携式计算机、智能移动终端、服务器等。任何可以使用本发明实施例所提供的基于领域匹配的科技成果管理方法的电子设备,均属于本发明实施例所提供的电子设备的范畴。
第一方面,本发明实施例提供了一种基于领域匹配的科技成果管理方法。请参见图1,该基于领域匹配的科技成果管理方法包括以下步骤:
S1,利用成果上传入口获取来自成果供给方的科技成果文本数据。
本发明实施例的科技成果管理平台配置有多种用户角色,并具有相应的权限范围。其中,成果供给方是持有科技成果信息,并在该科技成果管理平台注册的技术研发方,比如可以是高校用户、企业用户等。
本发明实施例的科技成果管理平台的软件界面中可以设置至少一个成果上传入口。成果供给方可以将自身的科技成果信息经由成果上传入口上传至该科技成果管理平台。或者,也可以由第三方将成果供给方的科技成果信息经由成果上传入口上传至该科技成果管理平台。其中,第三方是除成果供给方和成果需求方之外的用户角色,比如可以是在该科技成果管理平台注册的技术经理人账号或者平台管理者账号等。
可选的一种实施方式中,该科技成果管理平台的成果上传入口支持的数据格式为预设的文本格式,如TXT或DOC等格式。
但是由于现实生活中,科技成果信息的形式可以是多样化的,比如可以是电子文档、产品图片以及介绍产品的视频和音频等,本发明实施例为了方便各种用户角色上传科技成果信息,该科技成果管理平台的成果上传入口支持的数据格式可以为多种图片格式、音频格式、视频格式和文本格式。比如常见的多种图片格式,如bmp、jpg、tiff、gif等;常见的多种音频格式,如WAVE、MP3、AMR等;常见的多种视频格式,如AVI、rmvb、mp4等;以及常见的多种文本格式,如TXT、DOC、PPT、PDF等。
因此,可选的一种实施方式中,利用成果上传入口获取来自成果供给方的科技成果文本数据,包括:
将成果上传入口上传的科技成果信息进行格式检验,如果并非为预设的文本格式,则将其转换为预设的文本格式;以便于计算机程序进行后续处理。
其中,将图像格式转换为预设的文本格式可以利用图像文字识别技术实现,图像文字识别也称为OCR光学字符识别(Optical Character Recognition),具体可以利用机器学习算法实现,比如利用诸如CNN(Convolutional Neural Network,卷积神经网络)、CRNN(Convolutional Recurrent Neural Network)、LeNet-5等神经网络实现。当然,也可以利用现有的OCR文字识别工具实现。具体识别过程请参见相关技术,在此不做详细说明。
将音频格式或者视频格式转换为预设的文本格式可以利用语音识别技术实现,比如可以利用现有的一些语音转换文字的工具或者代码实现,如利用python相关代码提取视频里的语音转换为文字。具体识别过程请参见相关技术,在此不做详细说明。
可以理解的是,本发明实施例中,来自成果供给方的一份科技成果文本数据可能是由上传的成果供给方的多份科技成果信息所提取出的文字构成的,比如,从一个图片格式的科技成果信息中提取出部分关于附图的文字描述;从一个音频或者视频格式的科技成果信息中提取出部分关于产品介绍的文字描述;并从一个文本格式的科技成果信息中提取出部分关于技术方案介绍的文字描述,由这三部分文字描述共同构成科技成果文本数据。
可选的一种实施方式中,本发明实施例可以对格式转化得到的文本数据先进行校正处理,以修改错别字、消除明显的语义错误,如去除重复字等。上述校正处理可以利用相关的现有技术实现,在此不做详细说明。
S2,将科技成果文本数据进行分级划分并对划分出的各级单元标记对应的属性信息。
本发明实施例可以将科技成果文本数据按照数据量从高到低划分为多个级别,比如各级划分的单元可以依次为小节、字段和分词。其中,分级划分的最小单元为分词。分词即为英文或拼音的一个字母,如“a”,或汉字的一个字,如“文”等。可以理解的是,多个分词构成字段,多个段落构成小节,多个小节构成科技成果文本数据。当然,本发明实施例对科技成果文本数据的级别划分形式可以不限于以上方式,但不论采用何种划分方式均具有最小单元-分词。
本发明实施例可以根据科技成果文本数据的数据量大小,利用一定的阈值,确定划分的级别数,当科技成果文本数据的数据量较大,可以划分为三个级别:小节、字段和分词,当科技成果文本数据的数据量较小可以划分为两个级别:字段和分词,等等。
将科技成果文本数据划分为多个级别后,针对每一级别,将划分出的各单元均进行多方面的属性标记,利用标记的多方面的属性信息来描述该单元的信息内容和信息特征,以实现各级别内信息内容的标准化。多方面的属性信息可以包括与该单元位置、内容相关的信息。针对不同的级别,多方面的属性信息可以不相同。
可选的一种实施方式中,为了简化处理,提高效率,可以将每一科技成果文本数据划分为字段和分词两个级别。
具体的,将科技成果文本数据进行分级划分并对划分出的各级单元标记对应的属性信息,包括:
(1)将科技成果文本数据划分为多个字段,并对每个字段标记字段属性信息。
其中,字段属性信息至少包括字段信息内容和字段匹配值;字段信息内容至少包括该字段的文本内容和该字段下的分词属性信息;字段匹配值的初始值为0。
可选的一种实施方式中,字段属性信息包括字段编号、字段信息内容、字段权重和字段匹配值。
具体的,科技成果文本数据Q划分出的多个字段可以表示为{Q1,Q2,...,QN};其中,N为大于0的自然数,表示Q划分出的字段总数,比如,N可以为8等。
其中,Num为“number”的缩写,NumQ表示字段编号,用于定位该字段在科技成果文本数据中的位置;字段编号可以用数字表示,对应的数字表示该字段在科技成果文本数据中的第几个字段。
Con为“content”的缩写,ConQ表示字段信息内容,字段信息内容包括该字段的文本内容、字段长度和该字段下的分词属性信息。关于该字段下的分词属性信息将在后续分词划分过程中予以说明。
Wei为“Weight”的缩写,WeiQ表示字段权重,数值介于0和1之间,数值越大,表明该字段在科技成果文本数据对应的数据集Q中的重要性越高,影响力越大。字段权重的计算过程包括:
针对每个字段,求取该字段的字段长度与科技成果文本数据中所有字段的字段长度和的商值,得到该字段的字段权重。
Mat为“Match value”的缩写,MatQ表示字段匹配值;针对一个领域关键词库,MatQ用于衡量科技成果文本数据的一个字段中与该领域关键词库匹配的分词数量。此时,还没有与领域关键词库进行匹配检测,因此,字段匹配值还未知,在该步骤时,MatQ的数值先一律设置为0,留待后续检测后更新。除了MatQ的其余属性在该步骤具有确定出的明确数值信息。
(2)将每个字段划分为多个分词,并对每个分词标记分词属性信息。
其中,分词属性信息至少包括分词信息内容、分词关联信息和分词匹配值;分词信息内容至少包括分词的文本内容;分词匹配值的初始值为0。
可选的一种实施方式中,分词属性信息包括分词编号、分词信息内容、分词关联信息、分词权重和分词匹配值。
具体的,一个字段划分出的多个分词可以表示为一个分词数组:{W1,W2,...,WM};其中,M为大于0的自然数,表示字段划分出的分词总数。
一个分词的分词属性信息可以表示为[NumW,ConW,CorW,WeiW,MatW]。
其中,Num为“number”的缩写,NumW表示分词编号,用于定位该分词在所属字段中的位置;分词编号可以用数字序列表示,比如分词编号为(3,2)表示该分词是科技成果文本数据中第3个字段的第2个分词。
Con为“content”的缩写,ConW表示分词信息内容,分词信息内容包括该分词的文本内容和分词长度。
Cor为“correlation”的缩写,ConW表示分词关联信息。分词关联信息包括同字段中与该分词有关联的其他分词的信息。具体可以包括同字段中与该分词有关联的其他分词的地址信息。说明该分词和这样的任一个与其有关联的其他分词可以组成一个分词组合,这些分词组合被称为该分词的相关词组。比如,针对一个字段划分出的分词“a”,它的ConW中存储的是这个字段划分出的所有分词中除了“a”之外的其余分词的地址信息。那么,利用“a”的ConW可以确定与该分词“a”有关联的其他分词为“b”和“c”,也就是说“a”和“b”可以生成词组“ab”;“a”和“c”可以生成词组“ac”。“ab”和“ac”即为分词“a”的相关词组。
Wei为“Weight”的缩写,WeiW表示分词权重,数值介于0和1之间,数值越大,表明该分词在所属字段中的重要性越高,影响力越大。分词权重的计算过程包括:
针对每个分词,获取该分词的所有相关词组的长度之和,并与该分词的分词长度求和得到该分词对应的第一加和;
对该分词所属字段内,所有分词对应的第一加和进行求和,得到第二加和;
求取第一加和与第二加和的商值,得到该分词的分词权重。
Mat为“Match value”的缩写,MatW表示分词匹配值。MatW用于衡量一个分词与一个领域关键词库是否匹配。此时,还没有与领域关键词库进行匹配检测,因此,分词匹配值还未知,在该步骤时,MatW的数值一律设置为0。除MatW之外的其余属性在该步骤具有确定出的明确数值信息。
在将字段划分为分词之后,字段信息内容中该字段下的分词属性信息即为划分得到的分词数组:{W1,W2,...,WM},其中每个分词已经进行分词的属性信息标记。
本发明实施例通过对科技成果文本数据对应的信息集进行分段,再对所得字段进行分词划分处理,可以将凌乱的信息集划分为格式统一的分词,这些分词具有标准化、详细的数据信息,能够便于后续步骤的数据查找、对比等信息处理。
S3,针对已有的每个领域关键词库,利用各分词的属性信息,判断每个分词与该领域关键词库是否匹配;利用每个分词的匹配判断结果确定科技成果文本数据与该领域关键词库的匹配程度;并将所有领域关键词库中,匹配程度满足预设要求的领域关键词库确定为目标领域关键词库。
本发明实施例的科技成果管理平台可以预先存储多个领域关键词库,每个领域关键词库中包括该领域内的若干专属词汇。在最初建立领域关键词库时,可以由人工进行,或者辅以一些文字识别和提取技术,比如可以利用深度学习的神经网络等实现。多个领域比如可以包括电学领域、机械领域、生物医药领域等。当然,还可以对各个领域进一步细分,比如电学领域可以进一步包括电路领域、信号处理领域等等。
本发明实施例可以将科技成果文本数据与每个领域关键词库分别进行分词匹配性的判断,以下以一个领域关键词库的分词匹配性判断为例说明。
可选的一种实施方式中,利用各分词的属性信息,判断每个分词与该领域关键词库是否匹配,请参见图2,图2为本发明实施例提供的分词与一领域关键词库是否匹配的判断过程的流程示意图。该过程包括以下步骤:
S001,针对每个分词,判断在该领域关键词库中是否存在与该分词的文本内容相同的关键词。
若存在,执行S006,则判定该分词与该领域关键词库匹配;并且,执行S007。
若不存在,执行S002,利用该分词的分词关联信息,确定由该分词和与该分词有关联的其他分词共同构成的各相关词组。
S003,判断在该领域关键词库中是否有与至少一个相关词组的文本内容相同的关键词组。
若有,执行S006,则判定该分词与该领域关键词库匹配;并且,执行S007。
若无,执行S004,则判定该分词与该领域关键词库不匹配;并且,执行S005。
其中,
S005,若判定该分词与该领域关键词库不匹配,则确定该分词为该领域关键词库的非匹配分词。
S007,若判定该分词与该领域关键词库匹配,则确定该分词为该领域关键词库的匹配分词,并将该匹配分词的分词匹配值修改为1。
为了便于理解,在此举例说明,针对一个分词“a”,将其在该领域关键词库中进行检索,如果该领域关键词库中能够检索到“a”,则说明针对“a”的直接匹配成功,将该分词“a”的分词匹配值从0修改为1,并结束该分词的匹配进程;如果该领域关键词库中未能够检索到“a”,则利用“a”的分词关联信息,确定出它的相关词组为“ab”和“ac”,在该领域关键词库中若能够检索到“ab”和“ac”中的至少一个,则说明针对“a”的间接匹配成功,将“a”的分词价值量从0修改为1,并结束该分词的匹配进程,如果直接匹配和间接匹配均未成功,则维持“a”的分词价值量为0,并结束该分词的匹配进程。
可以理解的是,针对一个领域关键词库,在图2所示的步骤结束后,科技成果文本数据中的每个分词的匹配判断结果已经确定,即分词价值量具有最终的数值。
既然已经得到了科技成果文本数据中每个分词与该领域关键词库的匹配判断结果,那么,可以基于每个分词与该领域关键词库的匹配判断结果,得到科技成果文本数据整体上与该领域关键词库的匹配程度的判断结果。
可选的一种实施方式中,利用每个分词的匹配判断结果确定科技成果文本数据与该领域关键词库的匹配程度,包括:
A1,将所有分词的分词匹配值求和。
A2,计算求和结果与分词数量的比值,以该比值的大小确定科技成果文本数据与该领域关键词库的匹配程度。
具体的,该比值的数值越大,表明科技成果文本数据与该领域关键词库的匹配程度越高。
针对每个领域关键词库,利用该种实施方式能够较为简便快速地确定出科技成果文本数据与该领域关键词库的匹配程度。
但是,考虑到分词之间具有相关性,不同分词的分词权重也不同,为了获得较为准确的计算结果,在计算时考虑将两者加入。可选的一种实施方式中,利用每个分词的匹配判断结果确定科技成果文本数据与该领域关键词库的匹配程度,包括:
B1,针对科技成果文本数据中的每个字段,基于该字段内各分词被赋值的分词匹配值以及预设的字段匹配值计算公式,计算得到该字段的字段匹配值。
其中,预设的字段匹配值计算公式可以为:
其中,MatQ表示字段匹配值;M表示字段划分出的分词数组中的分词总数;MatWj和WeiWj分别表示分词数组中第j个分词的分词匹配值和分词权重。表示分词数组中第j个分词的相关词组的数量;θ和φ为预设的系数,均为(0,1)之间的数值,且θ≠φ,比如θ可以为0.6,φ可以为0.8等。
或者,预设的字段匹配值计算公式也可以为:
可以理解的是,针对每个字段,计算出的字段匹配值为[0,1]之间的数值,字段匹配值的数值越高,说明该字段中与该领域关键词库匹配的分词数量越多,即该字段与该领域关键词库的匹配程度越高。
B2,利用计算得到的所有字段的字段匹配值以及预设的数据集匹配值计算公式,计算科技成果文本数据对应的数据集匹配值,以数据集匹配值的大小衡量科技成果文本数据与该领域关键词库的匹配程度。
其中,可选的一种实施方式中,预设的数据集匹配值计算公式可以为:
或者,也可以为:
其中,MatΩ表示科技成果文本数据对应的数据集与该领域关键词库的数据集匹配值;N表示该数据集划分出的字段总数;MatQi和WeiQi分别表示该数据集中第i个字段的字段匹配值和字段权重,可以根据前文相关公式计算得到。
可以理解的是,针对科技成果文本数据对应的数据集,计算出的数据集匹配值为[0,1]之间的数值,数据集匹配值的数值越高,说明该数据集中与该领域关键词库匹配的字段数量越多,即该数据集与该领域关键词库的匹配程度越高。
本领域技术人员可以理解的是,针对每个领域关键词库,均能够得到该领域关键词库针对科技成果文本数据的一个数据集匹配值。
那么,可以将所有领域关键词库的数据集匹配值进行比较,从而选择出匹配程度较高的一个或多个目标领域关键词库。
可选的一种实施方式中,将所有领域关键词库中,匹配程度满足预设要求的领域关键词库确定为目标领域关键词库,包括:
将所有领域关键词库中,数据集匹配值最高的领域关键词库确定为目标领域关键词库。
在该种实施方式下,可以选出唯一的一个目标领域关键词库。
或者,可选的一种实施方式中,将所有领域关键词库中,匹配程度满足预设要求的领域关键词库确定为目标领域关键词库,包括:
将所有领域关键词库中,数据集匹配值大于预设数据集匹配值门限的领域关键词库确定为目标领域关键词库。
在该种实施方式下,选出的目标领域关键词库可能有不止一个。
S4,针对科技成果文本数据中与目标领域关键词库匹配的每个匹配分词,利用该匹配分词的属性信息,查找到科技成果文本数据中与该匹配分词的同现频率达到预设要求的分词作为目标领域关键词库的疑似匹配分词。
由于分词之间具有一定的关联性,在一些语义场景中,往往一些分词会同时出现,比如,神经网络相关的技术中,“卷积”和“池化”往往同时出现在一段话中。如果一个分词与目标领域关键词库匹配,那么,和它同时出现且出现频率较高的分词也有可能与目标领域关键词库匹配,因此,可以利用分词的关联性查找新增匹配分词。
可选的一种实施方式中,S4可以包括以下步骤:
(1)针对每个匹配分词,在该匹配分词的每个所属字段中,分别确定该匹配分词的所有相关词组。
匹配分词即分词匹配值为1的分词,比如,针对匹配分词“d”,利用分词编号可以确定其在两个字段Q1和Q2中均存在,Q1和Q2即为匹配分词“d”的所属字段。
在字段Q1中,利用“d”的分词关联信息CorW,确定与其具有关联性,即可以同时作为词组出现的分词有“e”和“f”,那么在字段Q1中,“d”的相关词组有“de”、“df”和“def”。
在字段Q2中,利用“d”的分词关联信息CorW,确定与其具有关联性,即可以同时作为词组出现的分词有“e”和“h”,那么在字段Q2中,“d”的相关词组有“de”、“dh”和“deh”。
(2)在该匹配分词所有的所属字段内,分别确定该匹配分词的每个相关词组的出现次数,并依据选择条件选择出现次数排名在前的至少一个相关词组作为被选相关词组。
本发明实施例中,同现频率即为同时出现的频率,可以用同时出现的次数表示。
在上述示例中,计算“d”的每个相关词组在字段Q1和Q2中出现的次数;具体得到,“de”2次,“df”1次,“def”1次,“dh”1次,“deh”1次。
选择条件可以是全部选择,那么被选相关词组有“de”、“df”、“def”、“dh”和“deh”。
选择条件也可以是选择出现的次数最高的,那么,被选相关词组为“de”。在某些情况下,可能同时有几个相关词组的出现次数相同且均达到最高,那么,可以全部选择这几个相关词组作为被选相关词组。
针对某些情况,出现次数会呈现出多个等级,比如4、3、2和1。每个等级下该出现次数有多个相关词组,那么选择条件也可以是选择前x个出现次数等级所有的相关词组作为被选相关词组,比如x可以为2等。
当然,被选相关词组的选择条件不限于以上。
(3)将被选相关词组中匹配分词以外的分词确定为疑似匹配分词。
可以理解的是,针对上述任意一种方式确定出的每个被选相关词组,其中匹配分词以外的分词被确定为目标领域关键词库的疑似匹配分词。
S5,通过将疑似匹配分词导入词库试检验的方式,判断每个疑似匹配分词是否为目标领域关键词库的确定匹配分词。
本发明实施例的科技成果管理平台虽然预设有多个领域的领域关键词库,但由于各领域科学技术的发展速度较快,面对浩如烟海的技术关键词,依靠人工进行领域内的关键词筛选和提取是非常不现实的,而成果供给方作为技术研发方,往往掌握着本领域内最新的研究动态,在其提供的科技成果文本数据中往往凝聚着最新最为关键的领域内研究成果,因此,如果能从成果供给方提供的科技成果文本数据中提炼出领域关键词对领域关键词库进行自动更新,无疑将会极大地扩充领域关键词库的词库内容,提高科技成果管理平台进行技术成果对接的精准性和对接效率。
本发明实施例中,疑似匹配分词表示该分词有较大概率也和目标领域关键词库具有匹配性,可以进一步利用检验手段确定这种匹配性是否确实存在,如果确实存在,才能够将疑似匹配分词正式加入目标领域关键词库实现词库更新。
以下以一个目标领域关键词库为例进行说明。
可选的一种实施方式中,S5可以包括以下步骤:
针对每个疑似匹配分词,将该疑似匹配分词分别导入目标领域关键词库,得到该疑似匹配分词对应的测试关键词库。
利用预设指标对该疑似匹配分词对应的测试关键词库进行性能检验,若性能满足预设要求,则将该疑似匹配分词判定为目标领域关键词库的确定匹配分词;若性能不满足预设要求,则将该疑似匹配分词判定为目标领域关键词库的非匹配分词。
该种实施方式中,每个疑似匹配分词的检验过程是并行进行的,导入的都是同一个目标领域关键词库。得到的每个测试关键词库均是目标领域关键词库添加了相应的一个疑似匹配分词后得到的。同时,每个疑似匹配分词导入时,需要将该疑似匹配分词和它的分词关联关系、分词信息内容等属性信息同时导入,便于后续步骤的词库检验。
可选的另一种实施方式中,S5可以包括以下步骤:
依据多个疑似匹配分词的排列次序,针对当前次的疑似匹配分词,将其导入当前次的目标领域关键词库;其中,第一次的疑似匹配分词对应的当前次的目标领域关键词库为目标领域关键词库。
利用预设指标对导入疑似匹配分词后的当前次的目标领域关键词库进行性能检验。
若性能满足预设要求,则将该当前次的疑似匹配分词判定为确定匹配分词并正式加入当前次的目标领域关键词库;判断该当前次的疑似匹配分词是否为最后一个疑似匹配分词,如果是,则结束迭代;如果不是,则返回依据多个疑似匹配分词的排列次序,针对当前次的疑似匹配分词,将其导入当前次的目标领域关键词库的步骤。
若性能不满足预设要求,则将该当前次的疑似匹配分词判定为非匹配分词不正式加入当前次的目标领域关键词库;判断该当前次的疑似匹配分词是否为最后一个疑似匹配分词,如果是,则结束迭代;如果不是,则返回依据多个疑似匹配分词的排列次序,针对当前次的疑似匹配分词,将其导入当前次的目标领域关键词库的步骤。
该种实施方式中,每个疑似匹配分词的检验过程是串行进行的,每个疑似匹配分词导入的都是之前最新确定的一个当前次的目标领域关键词库。当迭代次数增加,当前次获得的目标领域关键词库的数据量会增加。同时,每个疑似匹配分词导入时,需要将该疑似匹配分词和它的分词关联关系、分词信息内容等属性信息同时导入,便于后续步骤的词库检验。
经实验验证,第一种实施方式的误判率会更低一些。第二种实施方式的查全率会更高一些,可以根据具体使用需求选择使用,或者将两种实施方式结合使用,都是合理的。
关于利用预设指标对测试关键词库/当前次的目标领域关键词库进行性能检验,可选的一种实施方式中,预设指标可以包括词库差异化率、非领域文本检测差异和领域信息检测文本差异。性能检验的目的是检验新词库和旧词库的性能变化。其中,针对第一种实施方式,旧词库为目标领域关键词库,新词库为测试关键词库。针对第二种实施方式,旧词库为当前次的目标领域关键词库,新词库为导入疑似匹配分词后的当前次的目标领域关键词库。
其中,词库差异化率表示为δ;非领域文本检测差异表示为ε;领域信息检测文本差异表示为η。具体的:
其中,L表示旧词库;L*表示新词库;MAT()表示计算数据集匹配值;K表示文本信息的数量;TKi(i∈K)表示测试用非领域文本信息,也就是TKi(i∈K)使用的文本信息并非是目标领域关键词库对应的目标领域内的;TKj(j∈K)表示测试用领域信息,也就是TKj(j∈K)使用的文本信息是目标领域关键词库对应的目标领域内的;i和j分别表示对应公式中的迭代序号。
若δ大于0,说明新词库的系统综合性能相比旧词库有所提升,则说明导入的这个疑似匹配分词是有意义的,可以考虑正式导入。ε表示非目标领域的文本误判率降低程度,数值越大,表示新词库对非目标领域文本的误判率越小,性能越佳。η表示目标领域信息识别准确率,数值越高,表示新词库对目标领域信息的识别准确率越高,性能越佳。
本发明实施例可以根据不同领域,预先配置对应的一组判断阈值(δ',ε',η')。当满足δ>δ',ε>ε',η>η'时,确定性能满足预设要求,判定被检验的疑似匹配分词为确定匹配分词。
S6,利用所有确定匹配分词更新目标领域关键词库,以及将科技成果文本数据划分至目标领域关键词库对应的目标领域内进行管理。
针对S5可选的第一种实施方式,利用所有确定匹配分词更新目标领域关键词库,包括:
将所有确定匹配分词导入目标领域关键词库得到更新后目标领域关键词库。
针对该种实施方式,从疑似匹配分词判定至词库更新的过程请参见图3理解,图3为本发明实施例提供的一种疑似匹配分词判定至词库更新过程的流程示意图。
针对S5可选的第一种实施方式,利用所有确定匹配分词更新目标领域关键词库,包括:
将迭代结束后,最后一个确定匹配分词正式加入其对应的当前次的目标领域关键词库后所得到的词库,作为更新后目标领域关键词库。
针对该种实施方式,从疑似匹配分词判定至词库更新的过程请参见图4理解,图4为本发明实施例提供的另一种疑似匹配分词判定至词库更新过程的流程示意图。
可见,本发明实施例能够利用与领域匹配的科技成果文本数据实现目标领域关键词库的自动更新。
另外,本发明实施例能够将科技成果文本数据划分至目标领域关键词库对应的目标领域内进行管理。
具体的,本发明实施例的科技成果管理平台,可以为科技成果文本数据添加领域标签,即标记其领域为目标领域,比如电路领域等。该科技成果管理平台可以以成果数据库的形式将所有科技成果文本数据统一存储,并以领域标签区分各数据,并实现数据查询和调取。
并且,本发明实施例的科技成果管理平台可以利用匹配分词和确定匹配分词形成科技成果文本数据的词云,进而生成科技成果文本数据的简介,以便于展示。
该科技成果管理平台可以设置成果检索功能,比如设置相应的关键词检索框,如成果领域、成果主要技术、成果产品形态、成果功效、成果来源单位以及成果供给方联系人等。以使成果需求方或者其余用户在输入相应的检索词后可以对该科技成果管理平台中的科技成果文本数据进行一定的检索。
其中,成果主要技术比如可以为“迁移学习”、“FDA-MIMO雷达”、“非线性流行建模”等。成果产品形态比如可以为“太阳电池”、“微带功分器”等等。成果功效比如可以是“分类精度高”、“能量转换率高”、“公分比高”等等。成果来源单位比如可以是“XX大学”、“XX公司”等。
同时,该科技成果管理平台还可以将检索结果进行分析显示,比如可以针对所有领域统计科技成果文本数据的数量分布、查询热度分布,以及成果转移率分布等。或者针对某一特定领域,可以对该特定领域内所有科技成果文本数据按照查看热度进行排序,或者统计各成果主要技术、各成果产品形态或者各成果功效等的分布情况,并生成相应的曲线和图表等。
本发明实施例的科技成果管理平台设置有成果需求发布页面,成果需求方或者第三方可以在成果需求发布页面发布关于成果需求的关键信息,比如,需求领域、需求产品/技术名称、需求技术效果、需求转化形式以及成果需求联系人等。该科技成果管理平台可以将录入的各项成果需求的关键信息以数据库的形式进行存储,并按照不同领域进行标记划分。同时,该科技成果管理平台可以设置成果需求检索功能,比如对应上述关键信息可以设置对应的检索框,以使成果需求方或者其余用户在输入相应的检索词后可以对该科技成果管理平台中的成果需求进行一定的检索,并可以进行类似上述的各项统计分析。
该科技成果管理平台的功能包括常见数据库和检索平台的管理以及检索功能,但针对科技成果管理,最重要的一环是进行科技成果转化,因此,供需双方的对接是该科技成果管理平台有别于一般数据库和检索平台的功能项目。
也就是说,管理至少包括:在目标领域内为科技成果文本数据自动匹配成果需求方。
可选的一种实施方式中,在目标领域内为科技成果文本数据自动匹配成果需求方,包括:
①获取目标领域内多个成果需求各自的成果需求关键词集合。
可以理解的是,该科技成果管理平台针对目标领域,存储有多个成果需求的相关信息,每个成果需求的相关信息含有多个成果需求关键词,这些成果需求关键词共同构成该成果需求的成果需求关键词集合。
②获取科技成果文本数据中与目标领域对应的匹配分词集合。
其中,匹配分词集合由科技成果文本数据中与目标领域关键词库确定匹配的分词构成。具体包括匹配分词和确定匹配分词。
③分别计算每个成果需求关键词集合与匹配分词集合的集合相似度。
以计算一个成果需求关键词集合与匹配分词集合的集合相似度为例说明,比如成果需求关键词集合表示为X,匹配分词集合表示为Y,集合相似度则表示为|X∩Y|/|X∪Y|。
本发明实施例可以利用现有的任意一种计算集合之间相似度的方法实现该步骤,比如,可以利用simhash+汉明距离的方法,先利用SinHash将每个集合的数据降维压缩成一串哈希值,再利用汉明距离(Hamming Distance)来比较数据集之间的相似度。或者也可以利用MinHash算法计算两个集合的集合相似度。关于具体的计算方法请参见相关的现有技术,在此不做详细说明。
可以理解的是,针对每个成果需求关键词集合,均能够得到对应的一个集合相似度,集合相似度的数值越高,表明该成果需求关键词集合与匹配分词集合的相似度越高。
④选取出集合相似度满足预设选取条件的目标成果需求关键词集合,并将目标成果需求关键词集合的需求方确定为与科技成果文本数据匹配的目标成果需求方。
可以将所有成果需求关键词集合对应的多个集合相似度按照数值由高至低进行排序,按照预设选取条件选择排序在前的一个或者多个集合相似度,将选出的一个或者多个集合相似度对应的成果需求关键词集合确定为目标成果需求关键词集合,并利用该科技成果管理平台中存储的目标成果需求关键词集合来源信息,将目标成果需求关键词集合的需求方确定为与科技成果文本数据匹配的目标成果需求方。
预设选取条件可以是选择排序第一的集合相似度;也可以是选择高于预设集合相似度阈值的集合相似度;或者也可以是利用多个集合相似度的平均值等确定一个当前集合相似度阈值,选择高于该当前集合相似度阈值的集合相似度,等等,这都是合理的。
可选的一种实施方式中,将目标成果需求关键词集合的需求方确定为与科技成果文本数据匹配的目标成果需求方之后,方法还包括:
向供需双方发送供需匹配成功消息,并对科技成果文本数据在供需匹配过程中的关键数据进行可视化显示。
具体的,可以在该科技成果管理平台内部利用消息功能向供需双方发送供需匹配成功消息,或者利用该科技成果管理平台中录入的供需双方的联系方式,通过联系方式中记载的电话、短信、邮件等向供需双方发送供需匹配成功消息。供需匹配成功消息可以携带有科技成果文本数据的关键词、简介以及供需双方的主要信息等。
另外,该科技成果管理平台提供有显示页面,针对每个科技成果文本数据,在显示页面可以查看相应的生命流程,以类似分叉树的形式显示。生命流程可以包括科技成果文本数据在该科技成果管理平台中的多个生命节点,比如,成果上传、供需匹配,以及后续的对接意向、转化流程等。各节点具有折叠和展开功能,当节点展开后,可以显示详细的流程相关数据。这些显示的节点和节点下的流程相关数据均为关键数据。比如针对成果上传-供需匹配过程,成果上传节点展开后可以显示出成果上传节点下科技成果文本数据的上传时间、成果供给方资料、科技成果文本数据的简介等详细信息。供需匹配节点展开后可以显示出目标领域,以及每个目标领域内目标成果需求方的相关需求信息。同时,还能够显示出每个目标领域对应与科技成果文本数据的数据集匹配值;以及还能够显示出每个目标领域内各成果需求关键词集合对应的集合相似度,以便于用户进行人工进一步比较筛选。
本发明实施例所提供的基于领域匹配的科技成果管理方法,通过利用规格标准化划分出的分词的属性信息,针对每个领域关键词库,确定出科技成果文本数据对应的数据集中每个分词与该领域关键词库是否匹配,并且利用分词的匹配判断结果确定数据集与该领域关键词库的匹配程度,从所有领域关键词库中依据匹配程度高低选出目标领域关键词库,从而自动实现科技成果文本数据的领域匹配。在实现领域匹配的基础上,针对数据集中与目标领域关键词库匹配的每个匹配分词的属性信息,查找到科技成果文本数据中与该匹配分词的同现频率达到预设要求的分词作为目标领域关键词库的疑似匹配分词。可见,本发明实施例能够基于语境中语义的关联性,查找到新增的匹配分词,因此,能够提高目标领域关键词的查全率。本发明实施例针对每个疑似匹配分词通过导入词库性能检验的方式,进一步核实是否真正与目标领域具有匹配性,能够剔除不符合要求的虚假关键词,提高新增匹配分词的准确性。并且本发明实施例利用所有与目标领域确定具有匹配关系的分词能够自动实现目标领域关键词库的更新。可见本发明实施例采用基于机器学习的关键词库构建方法解决领域关键词的识别提取和词库更新问题,能够利用来自成果供给方的科技成果文本数据,自动进行准确的领域匹配、领域关键词识别、提取和领域关键词库更新,能够实现系统自我迭代升级。该方法无需人工操作,具有收敛性快,效率高,能够进行我学习以及维护成本低等优点,且能够避免操作人的主观影响,实现供需双方的精准匹配,能够提高科技成果对接的精准性。
第二方面,本发明实施例提供了一种科技成果管理平台,请参见图5,该科技成果管理平台包括:
科技成果文本数据获取模块501,用于利用成果上传入口获取来自成果供给方的科技成果文本数据。
分级划分和属性信息标记模块502,用于将科技成果文本数据进行分级划分并对划分出的各级单元标记对应的属性信息;其中,分级划分的最小单元为分词。
领域匹配模块503,用于针对已有的每个领域关键词库,利用各分词的属性信息,判断每个分词与该领域关键词库是否匹配;利用每个分词的匹配判断结果确定科技成果文本数据与该领域关键词库的匹配程度;并将所有领域关键词库中,匹配程度满足预设要求的领域关键词库确定为目标领域关键词库。
疑似匹配分词获取模块504,用于针对科技成果文本数据中与目标领域关键词库匹配的每个匹配分词,利用该匹配分词的属性信息,查找到科技成果文本数据中与该匹配分词的同现频率达到预设要求的分词作为目标领域关键词库的疑似匹配分词。
疑似匹配分词判断模块505,用于通过将疑似匹配分词导入词库试检验的方式,判断每个疑似匹配分词是否为目标领域关键词库的确定匹配分词。
词库更新和管理模块506,用于利用所有确定匹配分词更新目标领域关键词库,以及将科技成果文本数据划分至目标领域关键词库对应的目标领域内进行管理;其中,管理至少包括:在目标领域内为科技成果文本数据自动匹配成果需求方。
可选的,科技成果文本数据获取模块501,具体用于:
将成果上传入口上传的科技成果信息进行格式检验,如果并非为预设的文本格式,则将其转换为预设的文本格式。
可选的,分级划分和属性信息标记模块502,具体用于:
将科技成果文本数据划分为多个字段,并对每个字段标记字段属性信息;其中,字段属性信息至少包括字段信息内容和字段匹配值;字段信息内容至少包括该字段的文本内容和该字段下的分词属性信息;字段匹配值的初始值为0;
将每个字段划分为多个分词,并对每个分词标记分词属性信息;其中,分词属性信息至少包括分词信息内容、分词关联信息和分词匹配值;分词信息内容包括分词的文本内容和分词长度;分词匹配值的初始值为0。
可选的,疑似匹配分词判断模块505,具体用于:
针对每个疑似匹配分词,将该疑似匹配分词分别导入目标领域关键词库,得到该疑似匹配分词对应的测试关键词库;
利用预设指标对该疑似匹配分词对应的测试关键词库进行性能检验,若性能满足预设要求,则将该疑似匹配分词判定为目标领域关键词库的确定匹配分词;若性能不满足预设要求,则将该疑似匹配分词判定为目标领域关键词库的非匹配分词;
相应的,词库更新和管理模块506利用所有确定匹配分词更新目标领域关键词库时,具体用于:
将所有确定匹配分词导入目标领域关键词库得到更新后目标领域关键词库。
可选的,疑似匹配分词判断模块505,具体用于:
依据多个疑似匹配分词的排列次序,针对当前次的疑似匹配分词,将其导入当前次的目标领域关键词库;其中,第一次的疑似匹配分词对应的当前次的目标领域关键词库为目标领域关键词库;
利用预设指标对导入疑似匹配分词后的当前次的目标领域关键词库进行性能检验;
若性能满足预设要求,则将该当前次的疑似匹配分词判定为确定匹配分词并正式加入当前次的目标领域关键词库;判断该当前次的疑似匹配分词是否为最后一个疑似匹配分词,如果是,则结束迭代;如果不是,则返回依据多个疑似匹配分词的排列次序,针对当前次的疑似匹配分词,将其导入当前次的目标领域关键词库的步骤;
若性能不满足预设要求,则将该当前次的疑似匹配分词判定为非匹配分词不正式加入当前次的目标领域关键词库;判断该当前次的疑似匹配分词是否为最后一个疑似匹配分词,如果是,则结束迭代;如果不是,则返回依据多个疑似匹配分词的排列次序,针对当前次的疑似匹配分词,将其导入当前次的目标领域关键词库的步骤;
相应的,词库更新和管理模块506利用所有确定匹配分词更新目标领域关键词库时,具体用于:
将迭代结束后,最后一个确定匹配分词正式加入其对应的当前次的目标领域关键词库后所得到的词库,作为更新后目标领域关键词库。
可选的,预设指标,包括:
词库差异化率、非领域文本检测差异和领域信息检测文本差异。
可选的,词库更新和管理模块506在目标领域内为科技成果文本数据自动匹配成果需求方时,具体用于:
获取目标领域内多个成果需求各自的成果需求关键词集合;
获取科技成果文本数据中与目标领域对应的匹配分词集合;其中,匹配分词集合由科技成果文本数据中与目标领域关键词库确定匹配的分词构成;
分别计算每个成果需求关键词集合与匹配分词集合的集合相似度;
选取出集合相似度满足预设选取条件的目标成果需求关键词集合,并将目标成果需求关键词集合的需求方确定为与科技成果文本数据匹配的目标成果需求方。
可选的,科技成果管理平台还包括提醒和显示模块,用于在将目标成果需求关键词集合的需求方确定为与科技成果文本数据匹配的目标成果需求方之后,向供需双方发送供需匹配成功消息,并对科技成果文本数据在供需匹配过程中的关键数据进行可视化显示。
关于具体内容,请参见第一方面的相关介绍,在此不做赘述。
本发明实施例所提供的科技成果管理平台,通过利用规格标准化划分出的分词的属性信息,针对每个领域关键词库,确定出科技成果文本数据对应的数据集中每个分词与该领域关键词库是否匹配,并且利用分词的匹配判断结果确定数据集与该领域关键词库的匹配程度,从所有领域关键词库中依据匹配程度高低选出目标领域关键词库,从而自动实现科技成果文本数据的领域匹配。在实现领域匹配的基础上,针对数据集中与目标领域关键词库匹配的每个匹配分词的属性信息,查找到科技成果文本数据中与该匹配分词的同现频率达到预设要求的分词作为目标领域关键词库的疑似匹配分词。可见,本发明实施例能够基于语境中语义的关联性,查找到新增的匹配分词,因此,能够提高目标领域关键词的查全率。本发明实施例针对每个疑似匹配分词通过导入词库性能检验的方式,进一步核实是否真正与目标领域具有匹配性,能够剔除不符合要求的虚假关键词,提高新增匹配分词的准确性。并且本发明实施例利用所有与目标领域确定具有匹配关系的分词能够自动实现目标领域关键词库的更新。可见本发明实施例采用基于机器学习的关键词库构建方法解决领域关键词的识别提取和词库更新问题,能够利用来自成果供给方的科技成果文本数据,自动进行准确的领域匹配、领域关键词识别、提取和领域关键词库更新,能够实现系统自我迭代升级。该过程无需人工操作,具有收敛性快,效率高,能够进行我学习以及维护成本低等优点,且能够避免操作人的主观影响,实现供需双方的精准匹配,能够提高科技成果对接的精准性。
第三方面,本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
存储器603,用于存放计算机程序;
处理器601,用于执行存储器603上所存放的程序时,实现如第一方面的基于领域匹配的科技成果管理方法的步骤。
该电子设备可以为:台式计算机、便携式计算机、智能移动终端、服务器等。在此不作限定,任何可以实现本发明的电子设备,均属于本发明的保护范围。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
对于电子设备而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。此外,本领域的技术人员可以将本说明书中描述的不同实施例或示例进行接合和组合。
以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (10)
1.一种基于领域匹配的科技成果管理方法,其特征在于,包括:
利用成果上传入口获取来自成果供给方的科技成果文本数据;
将所述科技成果文本数据进行分级划分并对划分出的各级单元标记对应的属性信息;其中,所述分级划分的最小单元为分词;
针对已有的每个领域关键词库,利用各分词的属性信息,判断每个分词与该领域关键词库是否匹配;利用每个分词的匹配判断结果确定所述科技成果文本数据与该领域关键词库的匹配程度;并将所有领域关键词库中,匹配程度满足预设要求的领域关键词库确定为目标领域关键词库;
针对所述科技成果文本数据中与所述目标领域关键词库匹配的每个匹配分词,利用该匹配分词的属性信息,查找到所述科技成果文本数据中与该匹配分词的同现频率达到预设要求的分词作为所述目标领域关键词库的疑似匹配分词;
通过将疑似匹配分词导入词库试检验的方式,判断每个疑似匹配分词是否为所述目标领域关键词库的确定匹配分词;
利用所有确定匹配分词更新所述目标领域关键词库,以及将所述科技成果文本数据划分至所述目标领域关键词库对应的目标领域内进行管理;其中,所述管理至少包括:在所述目标领域内为所述科技成果文本数据自动匹配成果需求方。
2.根据权利要求1所述的基于领域匹配的科技成果管理方法,其特征在于,所述利用成果上传入口获取来自成果供给方的科技成果文本数据,包括:
将所述成果上传入口上传的所述科技成果信息进行格式检验,如果并非为预设的文本格式,则将其转换为所述预设的文本格式。
3.根据权利要求1所述的基于领域匹配的科技成果管理方法,其特征在于,所述将所述科技成果文本数据进行分级划分并对划分出的各级单元标记对应的属性信息,包括:
将所述科技成果文本数据划分为多个字段,并对每个字段标记字段属性信息;其中,所述字段属性信息至少包括字段信息内容和字段匹配值;所述字段信息内容至少包括该字段的文本内容和该字段下的分词属性信息;所述字段匹配值的初始值为0;
将每个字段划分为多个分词,并对每个分词标记分词属性信息;其中,所述分词属性信息至少包括分词信息内容、分词关联信息和分词匹配值;所述分词信息内容至少包括分词的文本内容;所述分词匹配值的初始值为0。
4.根据权利要求1所述的基于领域匹配的科技成果管理方法,其特征在于,所述通过将疑似匹配分词导入词库试检验的方式,判断每个疑似匹配分词是否为所述目标领域关键词库的确定匹配分词,包括:
针对每个疑似匹配分词,将该疑似匹配分词分别导入所述目标领域关键词库,得到该疑似匹配分词对应的测试关键词库;
利用预设指标对该疑似匹配分词对应的测试关键词库进行性能检验,若性能满足预设要求,则将该疑似匹配分词判定为所述目标领域关键词库的确定匹配分词;若性能不满足预设要求,则将该疑似匹配分词判定为所述目标领域关键词库的非匹配分词;
所述利用所有确定匹配分词更新所述目标领域关键词库,包括:
将所有确定匹配分词导入所述目标领域关键词库得到更新后目标领域关键词库。
5.根据权利要求1所述的基于领域匹配的科技成果管理方法,其特征在于,所述通过将疑似匹配分词导入词库试检验的方式,判断每个疑似匹配分词是否为所述目标领域关键词库的确定匹配分词,包括:
依据多个疑似匹配分词的排列次序,针对当前次的疑似匹配分词,将其导入当前次的目标领域关键词库;其中,第一次的疑似匹配分词对应的当前次的目标领域关键词库为所述目标领域关键词库;
利用预设指标对导入疑似匹配分词后的当前次的目标领域关键词库进行性能检验;
若性能满足预设要求,则将该当前次的疑似匹配分词判定为确定匹配分词并正式加入当前次的目标领域关键词库;判断该当前次的疑似匹配分词是否为最后一个疑似匹配分词,如果是,则结束迭代;如果不是,则返回所述依据多个疑似匹配分词的排列次序,针对当前次的疑似匹配分词,将其导入当前次的目标领域关键词库的步骤;
若性能不满足预设要求,则将该当前次的疑似匹配分词判定为非匹配分词不正式加入当前次的目标领域关键词库;判断该当前次的疑似匹配分词是否为最后一个疑似匹配分词,如果是,则结束迭代;如果不是,则返回所述依据多个疑似匹配分词的排列次序,针对当前次的疑似匹配分词,将其导入当前次的目标领域关键词库的步骤;
所述利用所有确定匹配分词更新所述目标领域关键词库,包括:
将迭代结束后,最后一个确定匹配分词正式加入其对应的当前次的目标领域关键词库后所得到的词库,作为更新后目标领域关键词库。
6.根据权利要求4或5所述的基于领域匹配的科技成果管理方法,其特征在于,所述预设指标,包括:
词库差异化率、非领域文本检测差异和领域信息检测文本差异。
7.根据权利要求1所述的基于领域匹配的科技成果管理方法,其特征在于,所述在所述目标领域内为所述科技成果文本数据自动匹配成果需求方,包括:
获取所述目标领域内多个成果需求各自的成果需求关键词集合;
获取所述科技成果文本数据中与所述目标领域对应的匹配分词集合;其中,所述匹配分词集合由所述科技成果文本数据中与所述目标领域关键词库确定匹配的分词构成;
分别计算每个成果需求关键词集合与所述匹配分词集合的集合相似度;
选取出集合相似度满足预设选取条件的目标成果需求关键词集合,并将所述目标成果需求关键词集合的需求方确定为与所述科技成果文本数据匹配的目标成果需求方。
8.根据权利要求7所述的基于领域匹配的科技成果管理方法,其特征在于,所述将所述目标成果需求关键词集合的需求方确定为与所述科技成果文本数据匹配的目标成果需求方之后,所述方法还包括:
向供需双方发送供需匹配成功消息,并对所述科技成果文本数据在供需匹配过程中的关键数据进行可视化显示。
9.一种科技成果管理平台,其特征在于,包括:
科技成果文本数据获取模块,用于利用成果上传入口获取来自成果供给方的科技成果文本数据;
分级划分和属性信息标记模块,用于将所述科技成果文本数据进行分级划分并对划分出的各级单元标记对应的属性信息;其中,所述分级划分的最小单元为分词;
领域匹配模块,用于针对已有的每个领域关键词库,利用各分词的属性信息,判断每个分词与该领域关键词库是否匹配;利用每个分词的匹配判断结果确定所述科技成果文本数据与该领域关键词库的匹配程度;并将所有领域关键词库中,匹配程度满足预设要求的领域关键词库确定为目标领域关键词库;
疑似匹配分词获取模块,用于针对所述科技成果文本数据中与所述目标领域关键词库匹配的每个匹配分词,利用该匹配分词的属性信息,查找到所述科技成果文本数据中与该匹配分词的同现频率达到预设要求的分词作为所述目标领域关键词库的疑似匹配分词;
疑似匹配分词判断模块,用于通过将疑似匹配分词导入词库试检验的方式,判断每个疑似匹配分词是否为所述目标领域关键词库的确定匹配分词;
词库更新和管理模块,用于利用所有确定匹配分词更新所述目标领域关键词库,以及将所述科技成果文本数据划分至所述目标领域关键词库对应的目标领域内进行管理;其中,所述管理至少包括:在所述目标领域内为所述科技成果文本数据自动匹配成果需求方。
10.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-8任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210313286.3A CN114780673B (zh) | 2022-03-28 | 2022-03-28 | 基于领域匹配的科技成果管理方法和科技成果管理平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210313286.3A CN114780673B (zh) | 2022-03-28 | 2022-03-28 | 基于领域匹配的科技成果管理方法和科技成果管理平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114780673A true CN114780673A (zh) | 2022-07-22 |
CN114780673B CN114780673B (zh) | 2024-04-30 |
Family
ID=82425969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210313286.3A Active CN114780673B (zh) | 2022-03-28 | 2022-03-28 | 基于领域匹配的科技成果管理方法和科技成果管理平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114780673B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116431930A (zh) * | 2023-06-13 | 2023-07-14 | 天津联创科技发展有限公司 | 科技成果转化数据查询方法、系统、终端及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030069873A1 (en) * | 1998-11-18 | 2003-04-10 | Kevin L. Fox | Multiple engine information retrieval and visualization system |
CN105447142A (zh) * | 2015-11-23 | 2016-03-30 | 中国农业大学 | 一种双模式农业科技成果分类方法及系统 |
CN110399385A (zh) * | 2019-06-24 | 2019-11-01 | 厦门市美亚柏科信息股份有限公司 | 一种用于小数据集的语义分析方法和系统 |
CN111090737A (zh) * | 2018-10-24 | 2020-05-01 | 北京嘀嘀无限科技发展有限公司 | 词库更新方法、装置、电子设备及可读存储介质 |
CN112131394A (zh) * | 2020-08-18 | 2020-12-25 | 国网河北省电力有限公司沧州供电分公司 | 一种科技成果关键词网络构建方法及装置 |
CN113190658A (zh) * | 2021-06-10 | 2021-07-30 | 湖南正宇软件技术开发有限公司 | 提案热点精准提取的方法、装置、计算机设备和存储介质 |
WO2021189951A1 (zh) * | 2020-10-21 | 2021-09-30 | 平安科技(深圳)有限公司 | 文本搜索方法、装置、计算机设备和存储介质 |
CN114090735A (zh) * | 2021-11-18 | 2022-02-25 | 金蝶云科技有限公司 | 一种文本匹配方法、装置、设备及存储介质 |
-
2022
- 2022-03-28 CN CN202210313286.3A patent/CN114780673B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030069873A1 (en) * | 1998-11-18 | 2003-04-10 | Kevin L. Fox | Multiple engine information retrieval and visualization system |
CN105447142A (zh) * | 2015-11-23 | 2016-03-30 | 中国农业大学 | 一种双模式农业科技成果分类方法及系统 |
CN111090737A (zh) * | 2018-10-24 | 2020-05-01 | 北京嘀嘀无限科技发展有限公司 | 词库更新方法、装置、电子设备及可读存储介质 |
CN110399385A (zh) * | 2019-06-24 | 2019-11-01 | 厦门市美亚柏科信息股份有限公司 | 一种用于小数据集的语义分析方法和系统 |
CN112131394A (zh) * | 2020-08-18 | 2020-12-25 | 国网河北省电力有限公司沧州供电分公司 | 一种科技成果关键词网络构建方法及装置 |
WO2021189951A1 (zh) * | 2020-10-21 | 2021-09-30 | 平安科技(深圳)有限公司 | 文本搜索方法、装置、计算机设备和存储介质 |
CN113190658A (zh) * | 2021-06-10 | 2021-07-30 | 湖南正宇软件技术开发有限公司 | 提案热点精准提取的方法、装置、计算机设备和存储介质 |
CN114090735A (zh) * | 2021-11-18 | 2022-02-25 | 金蝶云科技有限公司 | 一种文本匹配方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
孙海霞 等: "科技知识组织体系语义互操作网络协同工作平台设计与实现", 《 农业图书情报学刊》, no. 1, 31 January 2019 (2019-01-31) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116431930A (zh) * | 2023-06-13 | 2023-07-14 | 天津联创科技发展有限公司 | 科技成果转化数据查询方法、系统、终端及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114780673B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jacksi et al. | Clustering documents based on semantic similarity using HAC and K-mean algorithms | |
US20200081899A1 (en) | Automated database schema matching | |
CN109815487B (zh) | 文本质检方法、电子装置、计算机设备及存储介质 | |
CN107463605B (zh) | 低质新闻资源的识别方法及装置、计算机设备及可读介质 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN110619051B (zh) | 问题语句分类方法、装置、电子设备及存储介质 | |
CN112541338A (zh) | 相似文本匹配方法、装置、电子设备及计算机存储介质 | |
CN110532352B (zh) | 文本查重方法及装置、计算机可读存储介质、电子设备 | |
CN112115232A (zh) | 一种数据纠错方法、装置及服务器 | |
CN111767375A (zh) | 语义召回方法、装置、计算机设备及存储介质 | |
CN111985228A (zh) | 文本关键词提取方法、装置、计算机设备和存储介质 | |
CN110222192A (zh) | 语料库建立方法及装置 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN111325033A (zh) | 实体识别方法、装置、电子设备及计算机可读存储介质 | |
CN114780673A (zh) | 基于领域匹配的科技成果管理方法和科技成果管理平台 | |
CN112579781B (zh) | 文本归类方法、装置、电子设备及介质 | |
CN114328800A (zh) | 文本处理方法、装置、电子设备和计算机可读存储介质 | |
CN111191011A (zh) | 一种文本标签的搜索匹配方法、装置、设备及存储介质 | |
CN111737607A (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
CN116578700A (zh) | 日志分类方法、日志分类装置、设备及介质 | |
CN116150376A (zh) | 一种样本数据分布优化方法、装置和存储介质 | |
CN116151258A (zh) | 文本消岐方法、电子设备、存储介质 | |
CN114528378A (zh) | 文本分类方法、装置、电子设备及存储介质 | |
CN111368036B (zh) | 用于搜索信息的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |