CN109783605B

CN109783605B - 一种基于贝叶斯推理技术的科技服务对接方法

Info

Publication number: CN109783605B
Application number: CN201811535672.7A
Authority: CN
Inventors: 宫秀军; 刘申
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2021-05-11
Anticipated expiration: 2038-12-14
Also published as: CN109783605A

Abstract

本发明公开了一种基于贝叶斯推理技术的科技服务对接方法，通过构建基于语义网技术的企业技术需求及专家技术特长的知识表示模型，搜集、整合高校、院所专家信息及企业需求信息；利用深度学习技术，挖掘技术需求及专家技术表达的内在关联关系，构建跨领域、行业的科技服务知识库；利用贝叶斯推理技术，开发科技服务机器人，实现企业技术需求与专家技术特长的无缝沟通对接；建立面向环保及现代制造企业的示范应用。

Description

一种基于贝叶斯推理技术的科技服务对接方法

技术领域

本发明属于语言分析和识别领域，具体涉及跨领域语言文本表征学习和引入专家特长的语义表示模型的构建，提出一种基于贝叶斯推理技术的科技服务对接方法。

背景技术

贝叶斯推理是由英国牧师贝叶斯发现的一种归纳推理方法，后来的许多研究者对贝叶斯方法在观点、方法和理论上不断的进行完善，最终形成了一种有影响的统计学派，打破了经典统计学一统天下的局面。贝叶斯推理是在经典的统计归纳推理——估计和假设检验的基础上发展起来的一种新的推理方法。与经典的统计归纳推理方法相比，贝叶斯推理在得出结论时不仅要根据当前所观察到的样本信息，而且还要根据推理者过去有关的经验和知识。

语义网的概念是由万维网联盟的蒂姆·伯纳斯-李(Tim Berners-Lee)在1998年提出的一个概念，实际上是基于很多现有技术的，也依赖于后来和text-and-markup与知识表现的综合。其渊源甚至可以追溯到20世纪60年代末期的Collins、Quillian、Loftus等人的研究，还有之后70年代初Simon、Schamk、Minsky等人陆续提出的一些理论上的成果。其中Simon在进行自然语言理解的应用研究时提出了语义网络(Semantic Network，不是现在的Semantic Web)的概念。

语义网就是能够根据语义进行判断的智能网络，实现人与电脑之间的无障碍沟通。它好比一个巨型的大脑，智能化程度极高，协调能力非常强大。在语义网上连接的每一部电脑不但能够理解词语和概念，而且还能够理解它们之间的逻辑关系，可以干人所从事的工作。它将使人类从搜索相关网页的繁重劳动中解放出来，把用户变成全能的上帝。语义网中的计算机能利用自己的智能软件，在万维网上的海量资源中找到你所需要的信息，从而将一个个现存的信息孤岛发展成一个巨大的数据库。

语义网的建立极大地涉及了人工智能领域的部分，与Web 3.0智能网络的理念不谋而合，因此语义网的初步实现也作为Web 3.0的重要特征之一，但是想要实现成为网络上的超级大脑，需要长期的研究，这意味着语义网的相关实现会占据网络发展进程的重要部分，并且延续于数个网络时代，逐渐转化成“智能网”。

知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。它把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，为学科研究提供切实的、有价值的参考。迄今为止，其实际应用在发达国家已经逐步拓展并取得了较好的效果，但它在我国仍属研究的起步阶段。

Google为了提升搜索引擎返回的答案质量和用户查询的效率，于2012年5月16日发布了知识图谱(Knowledge Graph)。有知识图谱作为辅助，搜索引擎能够洞察用户查询背后的语义信息，返回更为精准、结构化的信息，更大可能地满足用户的查询需求。Google知识图谱的宣传语“things not strings”给出了知识图谱的精髓，即，不要无意义的字符串，而是获取字符串背后隐含的对象或事物。还是以罗纳尔多为例，我们想知道罗纳尔多的相关信息(很多情况下，用户的搜索意图可能也是模糊的，这里我们输入的查询为“罗纳尔多”)，在之前的版本，我们只能得到包含这个字符串的相关网页作为返回结果，然后不得不进入某些网页查找我们感兴趣的信息；现在，除了相关网页，搜索引擎还会返回一个“知识卡片”，包含了查询对象的基本信息和其相关的其他对象(C罗名字简称也为罗纳尔多，搜索引擎只是根据“罗纳尔多”的指代概率返回了“肥罗”这个罗纳尔多的基本资料，但也许你需要C罗的相关信息，那么搜索引擎把C罗这个实体作为备选项列出)，如下图红色方框中的内容。如果我们只是想知道罗纳尔多的国籍、年龄、婚姻状况、子女信息，那么我们不用再做多余的操作。在最短的时间内，我们获取了最为简洁，最为准确的信息。

深度学习的概念由Hinton等人于2006年提出。基于深度置信网络(DBN)提出非监督贪心逐层训练算法，为解决深层结构相关的优化难题带来希望，随后提出多层自动编码器深层结构。此外Lecun等人提出的卷积神经网络是第一个真正多层结构学习算法，它利用空间相对关系减少参数数目以提高训练性能。[1]

深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值(例如一幅图像)可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如，人脸识别或面部表情识别)。深度学习的好处是用非监督式或半监督式的特征学习和分层特征提取高效算法来替代手工获取特征。

深度学习是机器学习研究中的一个新的领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像，声音和文本。

同机器学习方法一样，深度机器学习方法也有监督学习与无监督学习之分.不同的学习框架下建立的学习模型很是不同.例如，卷积神经网络(Convolutional neuralnetworks，简称CNNs)就是一种深度的监督学习下的机器学习模型，而深度置信网(DeepBelief Nets，简称DBNs)就是一种无监督学习下的机器学习模型。

长短期记忆(Long Short-Term Memory,LSTM)是一种时间递归神经网络(RNN)，论文首次发表于1997年。由于独特的设计结构，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。LSTM的表现通常比时间递归神经网络及隐马尔科夫模型(HMM)更好，比如用在不分段连续手写识别上。2009年，用LSTM构建的人工神经网络模型赢得过ICDAR手写识别比赛冠军。LSTM还普遍用于自主语音识别，2013年军用TIMIT自然演讲资料库达成17.7％错误率的记录。作为非线性模型，LSTM可作为复杂的非线性单元用于构造更大型深度神经网络。

语音文本转换(voice-to-text，speech-to-text)是一种语音识别程序，可以将口头语言转换成书面语言。语音文本转换最初是一种为听力有障碍的人开发的助听技术。语音文本转换的应用受到限制，主要是因为旧的语音文本转换程序需要通过训练来识别某一个人的声音，然后才能达到一定程度的准确性。

附图1展示了一个传统科技对接活动流程图，整个流程需要多个相关领域的专家(在本流程图中即软件专家、机械仪表专家和嵌入式专家)共同参与讨论，并且中间需要额外的人力资源进行协调，耗费较多的人力、财力和时间成本。

发明内容

本发明主要针对科技对接服务中，各方需求及服务内容表述及理解的差异性，提供一种基于贝叶斯推理技术的科技服务对接方法，构建基于语义网技术的企业技术需求及专家技术特长的知识表示模型，搜集、整合高校、院所专家信息及企业需求信息；利用深度学习技术，挖掘技术需求及专家技术表达的内在关联关系，构建跨领域、行业的科技服务知识库；利用贝叶斯推理技术，开发科技服务机器人，实现企业技术需求与专家技术特长的无缝沟通对接；建立面向环保及现代制造企业的示范应用。

本发明的目的是通过以下技术方案实现的：一种基于贝叶斯推理技术的科技服务对接方法，包括以下步骤：

第一步：通过查询待对接领域关键字，从相关数据库中，获取相应的企业技术需求与专家特长文本；

第二步：使用分词工具，并结合专家经验，将所获取的文本切分成词汇表的形式，并将所有的有效词汇构建成词典；

第三步：使用gensim库，对所获取的词汇表形式的文本进行word2vec转换，将企业技术需求及专家特长的自然语言描述转化为数学向量；

第四步：利用获取的数学向量，使用grakn工具，对由上一步中获得的向量结果进行表达和分析，得到多领域之间的知识图谱；

第五步：对构建的知识图谱进行聚类操作，并使用专家经验进行修正，细化知识图谱中每个知识点所属的科技服务领域；

第六步：使用python作为脚本语言，编写语义识别算法，通过该算法可将任意文本转换至相关知识点以及其所属的科技服务领域；

第七步：编写知识图谱中的领域连接算法，用以查找到相关的科技服务领域；

第八步：使用语音合成api，编写语音文本转换程序；

第九步：编写数据流控制程序，将上述算法打包成软件，部署到具有python运行环境的计算机中；

第十步：添加输入输出设备，将计算机组装成可实现所需科技服务对接的机器人，即可通过机器人实现科技服务的对接。

与现有技术相比，本发明的技术方案所带来的有益效果是：

1.具有领域建模的先进性，综合采用语义网技术、知识图谱技术及大数据技术，对企业技术需求及专家特长表达进行建模。

2.具有技术需求与专家特长表达关联关系挖掘的先进性，将利用word2vec模型来表示企业技术需求及专家特长的自然语言描述，利用机器学习技术，尤其是深度学习技术来挖掘各表达项之间跨领域、跨行业的关联关系。

3.具有科技服务对接服务形式的先进性，开发基于贝叶斯推理技术的科技服务机器人，实现需求与特长自助表达、文本及语音两种形式的双向对接服务支撑。

附图说明

图1是传统科技对接活动的流程示意图。

图2是通过本发明方法进行科技对接活动的流程示意图。

具体实施方式

下面结合附图对本发明作进一步的描述。

结合附图2所示的技术流程图，以编写机械仪表检测软件为例，对实施方案进行详细说明：

第一步：通过查询领域关键字，如“软件”、“机械仪表”，从相关数据库中，获取相应的企业技术需求与专家特长文本。

第二步：使用jieba分词工具，并结合专家经验，将所获取的文本切分成词汇表的形式，并将所有的有效词汇构建成词典，实现对企业技术需求与专家特长文本的切分。

第三步：使用gensim库，对所获取的词汇表形式的文本进行word2vec转换，将企业技术需求及专家特长的自然语言描述转化为数学向量。

第四步：利用获取的数学向量，使用grakn工具，对由上一步中获得的向量结果进行表达和分析，得到多领域之间的知识图谱。

第五步：对构建的知识图谱进行聚类操作，并使用专家经验进行修正，细化知识图谱中每个知识点所属的科技服务领域，如“软件工程”、“模电转换”、“嵌入式设计”、“仪表显示”等子领域。

第六步：使用python作为脚本语言，编写语义识别算法，该算法能够将任意文本转换至相关知识点以及其所属的科技服务领域，在本项目中使用的是语音文本转换模块获取到的文本。

第七步：编写知识图谱中的领域连接算法，用来查找到相关的科技服务领域。

第八步：使用百度语音合成api，编写语音文本转换程序。

第九步：编写数据流控制程序，将以上算法打包成软件，部署到具有python运行环境的计算机中。

第十步：添加麦克风、显示屏等输入输出设备，将计算机组装成能够实现本项目所需的科技服务对接的机器人。

通过上述方法得到的本项目基于贝叶斯推理技术的科技服务机器人，主要技术内容包含以下模块：

模块1：企业技术需求及专家特长语义表示模块；

本模块所设计的语义表示是指使用向量来表达可用的企业技术需求与专家特长文本，将单个词汇或多个词汇使用向量运算得出语义表示向量，它能够衡量文本之间的相似度，从而判别相应的文本语义是否相似。本模块的具体构建过程为：获取与企业技术需求和专家特长相关的大量有效文本，使用语义转换工具，训练文本与向量对应转换词典和换算方式。本项目将深入分析公司积累的企业技术需求及人才技术特长数据的基础上，结合科技服务对接过程中各方关注的核心问题，构建企业技术需求及专家特长表达框架体系，利用语义网技术开发语义表示模型及辅助表达助手。

本模块涉及上述最佳实施步骤中的第一、二和三步。

模块2：跨领域、跨部门和科技服务知识图谱及关联科技服务对接模块；

本模块所构建的知识图谱是一种使用几何方法和图理论来表示不同的知识领域之间相关性的表示方法，每个知识点都具有一个空间坐标。通过构建知识图谱，可以获取不同领域和部门之间知识相关性，通过判别相关性的大小，来给出合理的对接选项。如在获取到“编写机械仪表监控软件”或与之相似的文本信息后，通过语义分析，可以获取到“软件”、“机械”等基本知识点，并通过判断知识点距离，即知识关联度的方法构建出一套相连的路径，获取到“嵌入式”、“接口”、“模电转换”等相关知识点，即可查找到和整个科技服务相关的内容。本项目将利用word2vec模型来表示企业技术需求及专家特长的自然语言描述，利用机器学习技术，尤其是深度学习技术来挖掘各表达项之间跨领域、跨行业的关联关系，使用开源工具grakn(https://grakn.ai)来表示、存储及可视化挖掘结果。

本模块涉及上述最佳实施步骤中的第四、五、七步。

模块3：语音文本转换模块；

本模块包含语音输入过程和语音向文本的转换过程，使用麦克风获取输入的语音，并将声音信号输入到模块中，通过相关api转化成文本。因为一般人说话的速度比他们打字的速度快，所以语音文本转换(voice-to-text)可以提高工作效率，特别是提高做书写或转录工作的人员的效率。本实施例将借助百度公司开发的语音合成API，实现文本及语音的相互转换。

本模块涉及上述最佳实施步骤中的第八、十步。

模块4：信息反馈模块；

本模块主要将需要反馈给使用人的信息，转化成有效且通顺的文本，并使用显示屏进行显示。

本模块涉及上述最佳实施步骤中的第十步。

模块5：功能协同模块；

该模块主要负责多个模块之间的功能协同，通过程序框架将多个模块串联起来，实现以下数据流控制：将语音文本转换模块中声音录入和语音文本转换产生的数据输入对接模块中，通过企业技术需求及专家特长语义表示模块，理解文本所表达的含义，并在跨领域、跨部门和科技服务知识图谱及关联科技服务对接模块中，查找与输入文本相关的领域、部门以及相关的科技服务内容，给出相关领域的专家建议并通过信息反馈模块进行展示，实现整个功能流程。

本模块涉及上述最佳实施步骤中的第六、九、十步。

本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

Claims

1.一种基于贝叶斯推理技术的科技服务对接方法，其特征在于，包括以下步骤：

第八步：使用语音合成api，编写语音文本转换程序；