CN113220996B - 基于知识图谱的科技服务推荐方法、装置、设备及存储介质 - Google Patents

基于知识图谱的科技服务推荐方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113220996B
CN113220996B CN202110508376.3A CN202110508376A CN113220996B CN 113220996 B CN113220996 B CN 113220996B CN 202110508376 A CN202110508376 A CN 202110508376A CN 113220996 B CN113220996 B CN 113220996B
Authority
CN
China
Prior art keywords
scientific
document
initial
technological service
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110508376.3A
Other languages
English (en)
Other versions
CN113220996A (zh
Inventor
孙圣力
徐嘉辰
李青山
司华友
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Boya Blockchain Research Institute Co ltd
Peking University
Original Assignee
Nanjing Boya Blockchain Research Institute Co ltd
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Boya Blockchain Research Institute Co ltd, Peking University filed Critical Nanjing Boya Blockchain Research Institute Co ltd
Priority to CN202110508376.3A priority Critical patent/CN113220996B/zh
Publication of CN113220996A publication Critical patent/CN113220996A/zh
Application granted granted Critical
Publication of CN113220996B publication Critical patent/CN113220996B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于知识图谱的科技服务推荐方法、装置、设备及存储介质,其中的科技服务推荐方法包括:获取流程文档及各流程环节的需求文档;获取各流程环节的需求文档的初始关键词;爬取到各流程环节的初始科技服务文档;抽取出初始科技服务文档所涉及的初始命名实体;对初始关键词进行扩充得到各流程环节的需求文档的扩充关键词;基于扩充关键词获得各流程环节的最终科技服务文档;抽取出最终科技服务文档所涉及的扩充命名实体;抽取出各扩充命名实体之间的关系;形成知识图谱;基于知识图谱实施科技服务推荐。本发明针对科各流程环节的不同需求分别爬取科技服务文档,并构建知识图谱,从而实现对科技服务需求对象各流程环节的针对性推荐。

Description

基于知识图谱的科技服务推荐方法、装置、设备及存储介质
技术领域
本发明涉及科技服务推荐领域,具体而言,本发明涉及一种基于知识图谱的科技服务推荐方法、装置、设备及存储介质。
背景技术
科技服务业是围绕科技创新开展的服务支撑性行业。高科技产品的研制过程涉及专利技术、技术人才、技术设备、研发平台等科技要素。随着科技的飞速发展,各类科技服务要素爆发式发展。面对海量的科技服务要素信息,需求方往往难以找到与项目产品匹配的科技服务要素,从而影响了产品的研发效率。
特别是,大多数的项目产品的研制过程都涉及到多个流程环节,每个流程环节对科技服务要素的需求情况各不相同。因此,如何针对项目产品研制过程的各个流程环节,实施针对性的科技服务推荐是目前亟待解决的问题。
发明内容
为了解决上述技术问题中的至少一个,本发明第一方面提出了一种基于知识图谱的科技服务推荐方法,其具体技术方案如下:
一种基于知识图谱的科技服务推荐方法,其包括:
获取科技服务需求对象的包括有若干流程环节的流程文档,及各流程环节对应的需求文档;
获取各流程环节对应的需求文档的初始关键词;
使用网络爬虫爬取到各流程环节的初始科技服务文档;
基于命名实体抽取模型及初始科技服务文档抽取出初始科技服务文档所涉及的初始命名实体;
使用抽取出的初始命名实体对初始关键词进行扩充得到各流程环节对应的需求文档的扩充关键词;
基于流程环节对应的需求文档的扩充关键词获得各流程环节的最终科技服务文档;
基于命名实体抽取模型及最终科技服务文档抽取出最终科技服务文档所涉及的扩充命名实体;
基于关系抽取模型、最终科技服务文档及扩充命名实体抽取出各扩充命名实体之间的关系;
将扩充命名实体及各扩充命名实体之间的关系存储至图数据库中以形成知识图谱;
基于知识图谱实施对科技服务需求对象的科技服务推荐。
本发明第二方面提供了一种基于知识图谱的科技服务推荐装置,其包括:
获取模块,用于获取科技服务需求对象的包括有若干流程环节的流程文档,及各流程环节对应的需求文档;
初始关键词获取模块,用于获取各流程环节对应的需求文档的初始关键词;
初始科技服务文档爬取模块,用于使用网络爬虫爬取到各流程环节的初始科技服务文档;
初始命名实体抽取模块,用于基于命名实体抽取模型及初始科技服务文档抽取出初始科技服务文档所涉及的初始命名实体;
扩充关键词获取模块,用于使用抽取出的初始命名实体对初始关键词进行扩充得到各流程环节对应的需求文档的扩充关键词;
最终科技服务文档获取模块,用于基于流程环节对应的需求文档的扩充关键词获得各流程环节的最终科技服务文档;
扩充命名实体抽取模块,用于基于命名实体抽取模型及最终科技服务文档抽取出最终科技服务文档所涉及的扩充命名实体;
关系抽取模块,用于基于关系抽取模型、最终科技服务文档及扩充命名实体抽取出各扩充命名实体之间的关系;
知识图谱形成模块,用于将扩充命名实体及各扩充命名实体之间的关系存储至图数据库中以形成知识图谱;
科技服务推荐模块,用于基于知识图谱实施对科技服务需求对象的科技服务推荐。
本发明第三方面提供了一种电子设备,包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现本发明第一方面提供的科技服务推荐方法。
本发明第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行所述程序时实现本发明第一方面提供的科技服务推荐方法。
与现有技术中的科技服务推荐相比,本发明至少存在如下技术效果:
1、针对科技服务需求对象的各流程环节的不同需求,分别爬取科技服务文档,并在此基础上构建知识图谱,从而实现对科技服务需求对象的各个流程环节的针对性科技服务推荐。
2、对需求文档的关键词进行扩充,并基于扩充后的关键词从爬取出的科技服务文档中匹配出与需求的相关度更高的最终科技服务文档,从而提升了推荐的精准度。
附图说明
图1为本发明一实施例提供的科技服务推荐方法的流程图;
图2为本发明又一实施例提供的科技服务推荐方法的流程图;
图3为本发明又一实施例提供的科技服务推荐方法的流程图;
图4为本发明又一实施例提供的科技服务推荐方法的流程图;
图5为本发明又一实施例提供的科技服务推荐方法的流程图;
图6为本发明一实施例中BERT-BILSTM-CRF中文命名识别算法模型的结构示意图;
图7为本发明一实施例提供的基于知识图谱的科技服务推荐装置的结构图;
图8为本发明一实施例提供的电子设备的结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
大多数的项目产品的研制过程都涉及到多个流程环节,每个流程环节对科技服务要素的需求情况各不相同。因此,如何针对项目产品研制过程的各个流程环节,实施针对性的科技服务推荐是目前亟待解决的问题。
基于此,本发明提供了一种基于知识图谱的科技服务推荐方法、装置、设备及存储介质。
下面以具体实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
实施例一
本发明实施例提供了一种基于知识图谱的科技服务推荐方法,如图1所示,该科技服务推荐方法包括:
S101、获取科技服务需求对象的包括有若干流程环节的流程文档,及各流程环节 对应的需求文档。
科技服务需求对象可以是项目产品研制项目,其包括的流程环节多,每个流程环节所需的科技服务多而杂,因此在启动项目之前,有必要厘清流程文档和每个流程环节对应的需求文档,从而实现有效的科技服务推荐。
以小型涡轮机的生产设计项目为例,该项目的流程文档为有关其主要工艺流程的描述文档,描述了项目所包括的主要流程环节,如市场调研环节、产品设计环节、零部件生产环节、装配试验环节、交付出厂环节等。
由于每个流程环节对服务要素的需求情况均不相同,因此,一般的,项目实施方需要对每个流程环节的科技服务要素的需求情况均进行针对性描述,即,每个流程环节均对应有自己的需求文档。如:市场调研环节,其所需的科技服务包括产业链构成分析、行业分析、竞争对手分析等调研报告。产品设计环节,其所需的科技服务包括国内外行业标准的查询,论文、专利的检索分析,零部件设计、流程仿真分析、三维模拟装配等。零部件生产环节,小核心大协作模式往往需要在零部件生产环节获取大量的供应商信息,从而完成对零部件的加工配备,这其中需要完成对零部件供应商的技术能力的评估,包括材料供应商、冷加工供应商、热加工供应商、计量检测供应商等。装配试验环节,由于部分试验需要外协,因此需要获取各试验厂商的资质及能力。
需要说明的是,流程文档和各流程环节对应的需求文档可以被保存在一份总的描述文档内,也可以被分别保存在不同的描述文档内。
S102、获取各流程环节对应的需求文档的初始关键词。
如前文所描述的,各流程环节对应的需求文档均对流程环节所需要的科技服务要素进行了描述,其中的关键词则是与科技服务要素最相关的词句,如技术的名称,设备的名称等。
可选的,按如下步骤提取出各流程环节对应的需求文档的初始关键词。
首先,采用jieba中文分词方法对各流程环节对应的需求文档进行分词处理,从而获得分词处理后的需求文档,优选的,可以参照百度停用词表、哈工大停用词表等工具剔除掉分词中的停用词。
随后,从经过分词处理后的需求文档中统计出高频词作为初始关键词。
S103、使用网络爬虫爬取到各流程环节的初始科技服务文档。
具体的,如图2所示,本步骤S103包括如下子步骤:
S1031、针对各流程环节,使用网络爬虫分别从选定的目标网络平台上爬取到若干候选科技服务文档。
如前文所描述的,各流程环节所需要的科技服务要素各不相同。因此,针对不同的流程环节,选定的爬取数据的目标网络平台并不一定相同。
例如,市场调研环节,爬取的对象为领域内的调研报告、知名的行业调研机构。为了爬取到尽可能多的数据,使用的爬取关键词一般比较笼统,仍然以小型涡轮发动机的生产设计为例,针对市场调研环节,可以采用“发动机”、“涡轮”等词作为技术成果爬取关键词,以“调研”、“检测”等作为机构爬取关键词。
执行完步骤S1031,各流程环节均对应获取到若干候选科技服务文档。
S1032、计算候选科技服务文档与对应的需求文档的初始关键词之间的相关度,选择相关度大于预定阈值的候选科技服务文档作为初始科技服务文档。
由于步骤S1031使用的爬取关键词比较笼统,因此,爬取到的各流程环节对应的候选科技服务文档的数据量都较大,其中的冗余数据也比较多。因此,有必要从中选择出与初始关键词之间的相关度较大的候选科技服务文档作为各流程环节对应的初始科技服务文档。
具体的,本步骤中,根据候选科技服务文档的长短进行如下处理:
情形1:当候选科技服务文档为词数少于预定阈值(如30个词)的短文本,如图3所示,按如下步骤计算各候选科技服务文档与对应的需求文档的初始关键词之间的相关度:
S10321、采用jieba中文分词方法对候选科技服务文档进行分词处理,并剔除其中的停用词,统计出其中的高频词作为候选科技服务文档的关键词。
S10322、使用word2vec模型分别将候选科技服务文档的关键词和对应的需求文档的初始关键词映射为词向量。
S10323、基于候选科技服务文档和需求文档的初始关键词的词向量计算候选科技服务文档与需求文档的初始关键词之间的相关度。
情形2:当候选科技服务文档为词数等于或多于预定阈值(如30个词)的长文本,如图4所示,按如下步骤计算候选科技服务文档与对应的需求文档的初始关键词之间的相关度包括:
S10321’、采用LDA模型从候选科技服务文档中抽取出关键词。
采用LDA模型从文档中抽取关键词(或者称之为主题词)是文本处理领域常用的一种降维技术,其用于将长文本抽象成若干关键词,并以概率分布方式对关键词进行排序。其处理过程大致如下:
获取一篇文档d;
从Dirichlet分布中取样文档d的主题分布,主题分布由Dirichlet分布生成。
从主题的多项式分布中取样文档d的第i个词的主题。
从Dirichlet分布中取样主题对应的词分布,词分布由Dirichlet分布生成。
从词的多项式分布中采样最终生成的主题词语。
通过LDA模型,可以生成TopN的主题词来代表长文本,从而实现对长文本的降维。
S10322’、使用word2vec模型分别将候选科技服务文档的关键词和对应的需求文档的初始关键词映射为词向量。
S10323’、基于候选科技服务文档和需求文档的初始关键词的词向量计算候选科技服务文档与需求文档的初始关键词之间的相关度。
可选的,步骤S10323和S10323’中,采用余弦相关度算法计算候选科技服务文档与需求文档的初始关键词之间的相关度。
余弦相关度的计算公式为:
Figure BDA0003058531880000061
其中,λ为相关度,a为候选科技服务文档的词向量,b为需求文档的初始关键词的词向量。
计算结果在0~1范围内,越接近1,则相关度越高,候选科技服务文档与需求文档的初始关键词的匹配度越高。
可选的,针对各流程环节,选择相关度大于0.7的候选科技服务文档作为其初始科技服务文档。
S104、基于命名实体抽取模型及初始科技服务文档抽取出初始科技服务文档所涉 及的初始命名实体。
命名实体识别(NER)是自然语言处理中的一项基础任务,应用范围非常广泛。命名实体一般指的是文本中具有特定意义或者指代性强的实体,通常包括人名、地名、组织机构名、日期时间、专有名词等。命名实体抽取模型就是从非结构化的文本中抽取出实体,并且可以按照业务需求识别出更多类别的实体,比如产品名称、型号、价格等。实体这个概念可以很广,只要是业务需要的特殊文本片段都可以称为实体。
本发明中,需要抽取出的实体为科技服务(科技要素)的相关命名实体,例如设备的名称、技术的名称、技术人员的姓名等等。
可选的,本发明采用有监督的BERT-BILSTM-CRF中文命名识别算法模型实现对初始科技服务文档的命名实体的抽取。如图5所示,具体的,使用该中文命名识别算法模型实施对初始科技服务文档的命名实体的抽取包括如下步骤:
S1041、构建BERT-BILSTM-CRF中文命名识别算法模型。
可选的,本发明实施例中的BERT-BILSTM-CRF中文命名识别算法模型的结构如图6所示,该BERT-BILSTM-CRF中文命名识别算法模型包括依次连接的BERT层、前向LSTM层与后向LSTM层组合而成双向LSTM层、CRF条件随机场层,
其中:
BERT即双向Transformer的Encoder。其通过使用Masked LM和Next SentencePrediction两种方法分别捕捉词语和句子级别的表示。BERT的具体结构及算法原理为本领域一般技术人员所熟悉,此处不再进行详细描述。
双向LSTM可以充分应用上下文信息,从而提升模型的识别准确率。
LSTM的计算公式一般如下:
ft=σg(Wfxt+UfHt-1+bf)
it=σg(Wixt+UiHt-1+bi)
ot=σg(Woxt+UoHt-1+bo)
Figure BDA0003058531880000086
Figure BDA0003058531880000087
其中:ft、it、ot分别代表遗忘门、输入门和输出门,ct代表记忆单元,ht代表隐含状态。也是输出向量,包含前面t时刻所有有效信息。σ代表sigmoid激活函数。
CRF条件随机场层过考虑标签之间的相邻关系获得全局最优标签序列,计算过程如下:
Figure BDA0003058531880000081
ft=σg(Wfxt+UfHt-1+bf)
it=σg(Wixt+UiHt-1+bi)
ot=σg(Woxt+UoHt-1+bo)
Figure BDA0003058531880000088
Figure BDA0003058531880000089
Pi=Wsh(t)+bs
其中:s表示评估分数,W是转换矩阵,
Figure BDA0003058531880000085
1表示标签转移分数,
Figure BDA0003058531880000084
表示该字符的第yi个标签的分数,根据评估分数计算序列x到标签y的概率为:
Figure BDA0003058531880000082
在对模型进行训练时,训练损失函数为:
Figure BDA0003058531880000083
使用SGD或其他优化方法训练该模型的参数,当模型产生的损失值满足设定要求或者达到最大迭代次数N时,则终止该模型的训练。
S1042、获取若干初始科技服务文档并利用数据标注平台对各初始科技服务文档进行BIO标注以形成经标注后的训练样本集,利用训练样本集完成对BERT-BILSTM-CRF中文命名识别算法模型的训练。
由于BERT-BILSTM-CRF是一种有监督的学习算法模型。因此,在对模型进行训练之前,需要准备若干初始科技服务文档,然后阅读初始科技服务文档并利用数据标注平台对初始科技服务文档进行BIO标注。具体的:
如果字符为实体词的开始字符,则在该字符后置入标记(B-X);如果字符为实体词的非开始字符,则在该字符后置入标记(I-X);如果字符为非实体词的字符,则在该字符后置入标记(O)。
例如,某初始科技服务文档为一篇专利文献,其说明书摘要的部分内容如下“本发明公开一种快照式紧凑噪声免疫型光场成像全偏振光谱探测装置及方法,装置包括物镜、光场调制单元、微光学阵列、面阵探测器和数据采集处理显示系统…”。
经过字符切分和BIO标注后的训练样本为“[CLS][CLS]、本O、发O、明O、公O开O、一B-Techserver、种I-Techserver、快I-Techserver、照I-Techserver、式I-Techserver、紧I-Techserver、凑I-Techserver、噪I-Techserver、声I-Techserver、免I-Techserver、疫I-Techserver、型I-Techserver、光I-Techserver、场I-Techserver、成I-Techserver、像I-Techserver、全I-Techserver、偏I-Techserver、振I-Techserver、光I-Techserver、谱I-Techserver、探I-Techserver、测I-Techserver、装I-Techserver、置I-Techserver、及I-Techserver、方I-Techserver、法I-Techserver、,[SEP]、装O、置O、包O、括O、物B-Item镜I-Item、、O、光I-Item、场I-Item、调I-Item、制I-Item、单I-Item、元I-Item、、O、微B-Item、光I-Item、学I-Item、阵I-Item、列I-Item、面I-Item、阵I-Item、探I-Item、测I-Item、器I-Item、和O、数B-Item、据B-Item、采B-Item、集B-Item、处B-Item、理B-Item、显B-Item、示B-Item、系B-Item、统、B-Item、。[SEP]”。
完成标注后,根据预设定的字符-标号字典将字符转化成标号,将有效标题部分的标号存入id序列中,mask置为1,表示需要模型处理这部分内容,segment置为0,表示这是一段统一的句意。
同前文,将各训练样本的长度处理为统一文本长度。具体的,对超过统一文本长度的部分字符进行截断处理,不足统一文本长度的部分用[pad]补齐,这部分的mask置为0,代表不需要模型处理这一部分内容,type置为1,代表这部分句意和之前有效标题部分不是一个整体。
至此,获得最终的经过实体标注的训练样本集。
最后使用经过实体标注的训练样本集对BERT-BILSTM-CRF中文命名识别算法模型进行有监督的训练,从而获得最终的训练好的BERT-BILSTM-CRF中文命名识别算法模型。
S1043、最后,将待抽取命名实体的初始科技服务文档输入至训练好的BERT-BILSTM-CRF中文命名识别算法模型内,以抽取出初始科技服务文档涉及的命名实体。
完成BERT-BILSTM-CRF中文命名识别算法模型的训练后,将待抽取命名实体的初始科技服务文档输入BERT-BILSTM-CRF中文命名识别算法模型中。各初始科技服务文档均对应输出一个或多个命名实体。
S105、使用抽取出的初始命名实体对初始关键词进行扩充得到各流程环节对应的 需求文档的扩充关键词。
如上文所描述的,各流程环节对应的需求文档由项目实施方事先人为描述的,因此,步骤S102从需求文档中抽取出的初始关键词的数量较少、准确度不高,最终导致爬取到的各流程环节的初始科技服务文档中的干扰数据过多。因此有必要对关键词进行扩充,以期爬取到匹配度更高的科技服务文档。
鉴于此考虑,本发明使用抽取出的初始命名实体对初始关键词进行扩充从而得到各流程环节对应的需求文档的扩充关键词。
利用扩充关键词的方法,一方面可以剔除干扰数据,另外一方面可以使得后续的知识图谱更加丰富。仍以前文中的小型涡轮发动机的生产设计为例,如,步骤S102抽取到的针对产品设计环节的初始关键词为“发动机”,通过执行步骤S103和步骤104后,匹配到多个服务机构名,通过命名实体识别,发现某些机构经常与农业器械等词共现,这些机构可能与小型涡轮发动机的生产关系不大,需要剔除这部分数据。此外还有一些专业名词,如“涡轮增压”、“轴承冷却”等,这些命名实体,虽然没有出现在需求文档内,但是这些相关的科技服务对小型涡轮发动机的生产设计无疑是有帮助的,因此选择将这些专业名词加入到关键词中,获得扩充后的关键词。
S106、基于流程环节对应的需求文档的扩充关键词获得各流程环节的最终科技服 务文档。
具体的:首先计算候选科技服务文档与对应的需求文档的扩充关键词之间的相关度,然后选择相关度大于预定阈值的候选科技服务文档作为最终科技服务文档。
其中的候选科技服务文档即步骤103中的子步骤S1031爬取到的科技服务文档。候选科技服务文档与对应的需求文档的扩充关键词之间的相关度的计算过程及最终科技服务文档的选择过程与步骤103中的子步骤S1032的实施过程基本相同,此处不再赘述。
至此,获得了与各流程环节的科技服务需求的相关度较高、干扰数据较少的最终科技服务文档。
S107、基于命名实体抽取模型及最终科技服务文档抽取出最终科技服务文档所涉 及的扩充命名实体。
此处,步骤S107的具体执行过程与步骤S104的执行过程基本一致,此处不再赘述。
S108、基于关系抽取模型、最终科技服务文档及扩充命名实体抽取出各扩充命名 实体之间的关系。
前文中的步骤S107已经从最终科技服务文档中抽取出了最终科技服务文档所涉及到的命名实体,本步骤要做的是抽取出各命名实体之间的关系。
可选的,本发明采用有监督的BERT关系抽取模型实现对实体关系的抽取。使用BERT关系抽取模型实现对实体关系的抽取的具体过程为本领域一般技术人员所熟知,此处不再赘述。
S109、将扩充命名实体及各扩充命名实体之间的关系存储至图数据库中以形成知 识图谱。
可选的,采用的neo4j图数据库作为生成知识图谱的图数据库。
如本领域一般技术人员所熟悉的,neo4j图数据库具备成熟的知识图谱生成模板,其通过脚本程序即能完成知识图谱节点及边的生成。其中的知识图谱节点对应于命名实体,边则对应命名实体之间的关系。
至此,我们已经完成了针对科技服务需求对象的各流程环节的知识图谱。
S110、基于知识图谱实施对科技服务需求对象的科技服务推荐。
从知识图谱中,我们能够快速地获取到与科技服务需求对象的各流程环节相关联的科技服务实体,即与各流程环节关联的科技服务实体能够提供相关的科技服务给该对应的流程环节。因此,通过读取知识图谱,即能完成对科技服务需求对象的各个流程环节的科技服务的针对性推荐。
优选的,通过如下步骤选择最合适的科技服务实体进行推荐:
计算科技服务实体与对应的流程环节的扩充关键词的相关度,相关度计算使用余弦相关度算法。相关度和科技服务实体的数量有关。例如,某节点代表机构A,机构A有n个相邻服务节点与流程需求文本有关,相关度分别为x1x2...xn,则机构A的匹配度为
Figure BDA0003058531880000121
经过计算可以得到各流程环节的相关度最高的科技服务实体,将每个流程环节相关度最高的科技服务实体组合起来实现科技服务组合的推荐。
实施例二
图7为本发明实施例提供的基于知识图谱的科技服务推荐装置10的结构示意图。该科技服务推荐装置10包括
获取模块11,用于获取科技服务需求对象的包括有若干流程环节的流程文档,及各所述流程环节对应的需求文档;
初始关键词获取模块12,用于获取各流程环节对应的需求文档的初始关键词;
初始科技服务文档爬取模块13,用于使用网络爬虫爬取到各流程环节的初始科技服务文档;
初始命名实体抽取模块14,用于基于命名实体抽取模型及初始科技服务文档抽取出初始科技服务文档所涉及的初始命名实体;
扩充关键词获取模块15,用于使用抽取出的初始命名实体对初始关键词进行扩充得到各流程环节对应的需求文档的扩充关键词;
最终科技服务文档获取模块16,用于基于流程环节对应的需求文档的扩充关键词获得各流程环节的最终科技服务文档;
扩充命名实体抽取模块17,用于基于命名实体抽取模型及最终科技服务文档抽取出最终科技服务文档所涉及的扩充命名实体;
关系抽取模块18,用于基于关系抽取模型、最终科技服务文档及扩充命名实体抽取出各扩充命名实体之间的关系;
知识图谱形成模块19,用于将扩充命名实体及各扩充命名实体之间的关系存储至图数据库中以形成知识图谱;
科技服务推荐模块110,用于基于知识图谱实施对科技服务需求对象的科技服务推荐。
由于所述科技服务推荐装置10的各功能模块的处理过程与前述实施例一的科技服务推荐方法的处理步骤一一对应,因此本实施例不再对科技服务推荐装置10的各功能模块的处理过程进行重复描述,可以参考实施例一的相关描述。
实施例三
图8为本发明实施例提供的电子设备30的结构示意图,如图8所示,该电子设备30包括处理器31和存储器33,处理器31和存储器33相连,如通过总线32相连。
处理器31可以是CPU,通用处理器、DSP,ASIC,FPGA或者其他可编程器件、晶体管逻辑器件、硬件部件或者其他任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器31也可以是实现计算功能的组合,例如包括一个或多个微处理器组合,DSP和微处理器的组合等。
总线32可以包括一通路,在上述组件之间传送信息。总线32可以是PCI总线或EISA总线等。总线32可以分为地址总线、数据总线、控制总线等。为了便于表示,图中仅以一条粗线表示,但是并不表示仅有一根总线或一种类型的总线。
存储器33可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可以储存信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储、磁盘存储介质或其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器33用于存储本发明方案的应用程序代码,并由处理器31来控制执行。处理器31用于执行存储器33中存储的应用程序代码,以实现实施例一中的科技服务推荐方法。
本发明实施例最后还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现实施例一中的科技服务推荐方法。
上文对本发明进行了足够详细的具有一定特殊性的描述。所属领域内的普通技术人员应该理解,实施例中的描述仅仅是示例性的,在不偏离本发明的真实精神和范围的前提下做出所有改变都应该属于本发明的保护范围。本发明所要求保护的范围是由所述的权利要求书进行限定的,而不是由实施例中的上述描述来限定的。

Claims (8)

1.一种基于知识图谱的科技服务推荐方法,其特征在于,包括:
获取科技服务需求对象的包括有若干流程环节的流程文档,及各所述流程环节对应的需求文档;
获取各所述流程环节对应的需求文档的初始关键词;
使用网络爬虫爬取到各所述流程环节的初始科技服务文档;
基于命名实体抽取模型及所述初始科技服务文档抽取出所述初始科技服务文档所涉及的初始命名实体;
使用抽取出的初始命名实体对所述初始关键词进行扩充得到各所述流程环节对应的需求文档的扩充关键词;
基于所述流程环节对应的需求文档的扩充关键词获得各所述流程环节的最终科技服务文档;
基于命名实体抽取模型及所述最终科技服务文档抽取出所述最终科技服务文档所涉及的扩充命名实体;
基于关系抽取模型、所述的最终科技服务文档及所述扩充命名实体抽取出各所述扩充命名实体之间的关系;
将所述扩充命名实体及各所述扩充命名实体之间的关系存储至图数据库中以形成知识图谱;
基于知识图谱实施对科技服务需求对象的科技服务推荐;
所述获取各所述流程环节对应的需求文档的初始关键词包括:
采用jieba中文分词方法对所述流程环节对应的需求文档进行分词处理,并剔除其中的停用词,统计出高频词作为所述初始关键词;
所述使用网络爬虫爬取到各所述流程环节的初始科技服务文档包括:
针对各所述流程环节,使用网络爬虫分别从选定的目标网络平台上爬取到若干候选科技服务文档;
计算各所述候选科技服务文档与对应的需求文档的初始关键词之间的相关度,选择相关度大于预定阈值的所述候选科技服务文档作为所述初始科技服务文档。
2.如权利要求1所述的科技服务推荐方法,其特征在于:
所述候选科技服务文档为词数少于预定阈值的短文本,所述计算各所述候选科技服务文档与对应的需求文档的初始关键词之间的相关度包括:
采用jieba中文分词方法对所述候选科技服务文档进行分词处理,并剔除其中的停用词,并统计出其中的高频词作为所述候选科技服务文档的关键词;
使用word2vec模型分别将所述候选科技服务文档的关键词和对应的需求文档的初始关键词映射为词向量;
基于所述候选科技服务文档和所述需求文档的初始关键词的词向量计算所述候选科技服务文档与所述需求文档的初始关键词之间的相关度。
3.如权利要求1所述的科技服务推荐方法,其特征在于:
所述候选科技服务文档为词数等于或多于预定阈值的长文本,所述计算各所述候选科技服务文档与对应的需求文档的初始关键词之间的相关度包括:
采用LDA模型从所述选科技服务文档中抽取出关键词;
使用word2vec模型分别将所述候选科技服务文档的关键词和对应的需求文档的初始关键词映射为词向量;
基于所述候选科技服务文档和所述需求文档的初始关键词的词向量计算所述候选科技服务文档与所述需求文档的初始关键词之间的相关度。
4.如权利要求1所述的科技服务推荐方法,其特征在于,所述命名实体抽取模型为BERT-BILSTM-CRF中文命名识别算法模型,
所述基于命名实体抽取模型及所述初始科技服务文档抽取出所述初始科技服务文档所涉及的初始命名实体包括:
构建BERT-BILSTM-CRF中文命名识别算法模型;
获取若干所述初始科技服务文档并利用数据标注平台对各所述初始科技服务文档进行BIO标注以形成经标注后的训练样本集,利用训练样本集完成对所述BERT-BILSTM-CRF中文命名识别算法模型的训练;
将所述初始科技服务文档输入至训练好的所述BERT-BILSTM-CRF中文命名识别算法模型,以抽取出所述初始科技服务文档的初始命名实体。
5.如权利要求1所述的科技服务推荐方法,其特征在于,所述图数据库为Neo4j图数据库。
6.一种基于知识图谱的科技服务推荐装置,其特征在于,其包括:
获取模块,用于获取科技服务需求对象的包括有若干流程环节的流程文档,及各所述流程环节对应的需求文档;
初始关键词获取模块,用于获取各所述流程环节对应的需求文档的初始关键词;
初始科技服务文档爬取模块,用于使用网络爬虫爬取到各所述流程环节的初始科技服务文档;
初始命名实体抽取模块,用于基于命名实体抽取模型及所述初始科技服务文档抽取出所述初始科技服务文档所涉及的初始命名实体;
扩充关键词获取模块,用于使用抽取出的初始命名实体对所述初始关键词进行扩充得到各所述流程环节对应的需求文档的扩充关键词;
最终科技服务文档获取模块,用于基于所述流程环节对应的需求文档的扩充关键词获得各所述流程环节的最终科技服务文档;
扩充命名实体抽取模块,用于基于命名实体抽取模型及所述最终科技服务文档抽取出所述最终科技服务文档所涉及的扩充命名实体;
关系抽取模块,用于基于关系抽取模型、所述的最终科技服务文档及所述扩充命名实体抽取出各所述扩充命名实体之间的关系;
知识图谱形成模块,用于将所述扩充命名实体及各所述扩充命名实体之间的关系存储至图数据库中以形成知识图谱;
科技服务推荐模块,用于基于所述知识图谱实施对科技服务需求对象的科技服务推荐;
所述获取各所述流程环节对应的需求文档的初始关键词包括:
采用jieba中文分词方法对所述流程环节对应的需求文档进行分词处理,并剔除其中的停用词,统计出高频词作为所述初始关键词;
所述使用网络爬虫爬取到各所述流程环节的初始科技服务文档包括:
针对各所述流程环节,使用网络爬虫分别从选定的目标网络平台上爬取到若干候选科技服务文档;
计算各所述候选科技服务文档与对应的需求文档的初始关键词之间的相关度,选择相关度大于预定阈值的所述候选科技服务文档作为所述初始科技服务文档。
7.一种电子设备,包括存储器、处理器及存储在存储器内并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至5任一项所述的科技服务推荐方法。
8.计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现权利要求1至5任一项所述的科技服务推荐方法。
CN202110508376.3A 2021-05-10 2021-05-10 基于知识图谱的科技服务推荐方法、装置、设备及存储介质 Active CN113220996B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110508376.3A CN113220996B (zh) 2021-05-10 2021-05-10 基于知识图谱的科技服务推荐方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110508376.3A CN113220996B (zh) 2021-05-10 2021-05-10 基于知识图谱的科技服务推荐方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113220996A CN113220996A (zh) 2021-08-06
CN113220996B true CN113220996B (zh) 2022-09-27

Family

ID=77094539

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110508376.3A Active CN113220996B (zh) 2021-05-10 2021-05-10 基于知识图谱的科技服务推荐方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113220996B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113641833B (zh) * 2021-08-17 2024-04-09 同济大学 服务需求匹配方法及装置
CN114398498A (zh) * 2022-01-21 2022-04-26 中国电子科技集团公司第十研究所 一种科技档案知识图谱构建方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364172A (zh) * 2020-10-16 2021-02-12 上海晏鼠计算机技术股份有限公司 一种政务公文领域知识图谱构建方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170193393A1 (en) * 2016-01-04 2017-07-06 International Business Machines Corporation Automated Knowledge Graph Creation
CN109885698A (zh) * 2019-02-13 2019-06-14 北京航空航天大学 一种知识图谱构建方法及装置、电子设备
CN110457487B (zh) * 2019-07-10 2022-03-29 北京邮电大学 专利知识图谱的构建方法及装置

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112364172A (zh) * 2020-10-16 2021-02-12 上海晏鼠计算机技术股份有限公司 一种政务公文领域知识图谱构建方法

Also Published As

Publication number Publication date
CN113220996A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN106980683B (zh) 基于深度学习的博客文本摘要生成方法
CN111506721B (zh) 一种面向领域知识图谱的问答系统及构建方法
WO2020211720A1 (zh) 数据处理方法和代词消解神经网络训练方法
CN112528672A (zh) 一种基于图卷积神经网络的方面级情感分析方法及装置
CN111488137B (zh) 一种基于共同注意力表征学习的代码搜索方法
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN112711953A (zh) 一种基于注意力机制和gcn的文本多标签分类方法和系统
CN109165380A (zh) 一种神经网络模型训练方法及装置、文本标签确定方法及装置
CN113220996B (zh) 基于知识图谱的科技服务推荐方法、装置、设备及存储介质
CN112256822A (zh) 文本搜索方法、装置、计算机设备和存储介质
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN112100401B (zh) 面向科技服务的知识图谱构建方法、装置、设备及存储介质
CN112085091A (zh) 基于人工智能的短文本匹配方法、装置、设备及存储介质
CN112183102A (zh) 基于注意力机制与图注意力网络的命名实体识别方法
CN113722512A (zh) 基于语言模型的文本检索方法、装置、设备及存储介质
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
Jurgovsky et al. Evaluating memory efficiency and robustness of word embeddings
CN113761124A (zh) 文本编码模型的训练方法、信息检索方法及设备
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
CN112256970B (zh) 一种新闻文本推送方法、装置、设备及存储介质
Wongchaisuwat Automatic keyword extraction using textrank
Dey et al. Word Embeddings as Statistical Estimators
Younas et al. An Artificial Intelligence Approach for Word Semantic Similarity Measure of Hindi Language.
CN113704452A (zh) 基于Bert模型的数据推荐方法、装置、设备及介质
CN110569331A (zh) 一种基于上下文的关联性预测方法、装置及存储设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210824

Address after: 100000 No. 5, the Summer Palace Road, Beijing, Haidian District

Applicant after: Peking University

Applicant after: Nanjing Boya blockchain Research Institute Co.,Ltd.

Address before: 100000 No. 5, the Summer Palace Road, Beijing, Haidian District

Applicant before: Peking University

GR01 Patent grant
GR01 Patent grant