CN110705523A

CN110705523A - 一种基于神经网络的创业者路演能力测评方法及其测评系统

Info

Publication number: CN110705523A
Application number: CN201911011886.9A
Authority: CN
Inventors: 于晓宇; 李雅洁; 渠娴娴; 李恒宇
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2019-10-23
Filing date: 2019-10-23
Publication date: 2020-01-17
Anticipated expiration: 2039-10-23
Also published as: CN110705523B

Abstract

本发明涉及计算机视觉技术领域，公开了一种创业者路演能力测评方法及测评系统，方法步骤为：1）采集受试者模拟路演视频、音频和视线信息，并评价其路演能力，得到受试者路演能力类别标签；2）对视频信息进行处理，统计视频序列中行为类别和表情类别占比；3）对音频信息进行处理，获取受试者感情倾向、感召力倾向和语言素养评分；4）对视线信息进行处理，获取受试者的眼神交流次数；5）将步骤2）、3）、4）得到的数据合并作为输入数据，结合步骤1）的路演能力类别标签构建数据集，训练路演能力测评网络模型；6）采集待测者的输入数据，将输入数据输入训练后的路演能力测评网络模型，获取待测者路演能力评分。该方法评估结果客观、准确。

Description

一种基于神经网络的创业者路演能力测评方法及其测评系统

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于神经网络的创业者路演能力测评方法及其测评系统。

背景技术

创业项目路演是实现创业者与投资人零距离对话、平等交流、专业切磋的一种重要方式，可以促进创业者和投资人的充分沟通和深入了解，最终推动创业项目的融资进程。企业的创立和发展需要资金支持，然而中小企业常常面临资金缺乏的困境。如何更好、更高效的获得融资是创业者需要解决的问题。

创业融资路演是企业获得融资的主要途径之一。对于处于发展阶段的企业来说，他们为了获得满足其增长需求的资金，仅依靠自己的财富积累很难达到，所以不得不向外部寻求资金支持，主要有三个来源获得：（1）来自亲戚朋友的资助；（2）来自天使投资人的投资；（3）风险投资基金的投资，由专业投资经理人管理的基金。除了第一种来自亲戚朋友的资助外，另外两种途径都需要创业者通过项目路演获得融资。

经文献调研分析可见，创业投融资研究发展趋势从注重项目本身转向注重创业者融资路演的表现，并强调创业者融资路演表现对融资效果显著且关键的影响。例如，Connelly及其合作者（2011）研究证明在投资市场中，潜在投资者通过创业者向其传递的信号作为判断初创企业未来发展潜力的关键，这些信号包括创业者特征、创业者表现等。

创业融资的研究已经证明创业者融资路演时的手势、面部表情、语音、眼神四种非语言会对投资者的投资决策产生关键影响。Zott和Huy（2007）研究发现，投资者除了根据市场和金融数据对创业项目做出评估外，也将依赖于他们从创业者路演中收集到的明确、微妙的社会和象征线索。这些线索涉及创业者讲故事的质量，影响投资者对投资机会的感知。这其中包括非语言线索，如频繁的手势和面部表情。Chen、Yao和Kotha（2009）基于实验室实验和田野实验的证据，研究发现创业者路演时的肢体动作、面部表情、说话时脸上露出喜色、语音这些非语言会影响投资者对创业者激情的感知。Clarke、Cornelissen和Healey（2018）以认知科学和创业学的研究为基础，研究创业者在路演时使用的特定语言和手势的性质和影响，研究发现创业者熟练地使用手势，有助于潜在投资者想象企业的方方面面，从而增强了其投资的可能性。刘宗粤（1990）指出“目光”这一特殊语言能使听众更有效地理解、把握演讲者所传递的信息，并做出相应的反应。同时指出，目光接触也会影响到演讲本身的信度。除此之外，实证研究已经证明创业者的外形会对路演效果产生显著影响。例如，黄玖立和田媛（2018）在控制了创业者的个体特征以及外部环境特征之后，发现外形对创业者的收入有着正向促进作用，也即外形更具有吸引力的创业者能够获得更高的融资金额。

目前创业者路演能力的测评方法，多为问卷打分的形式，虽然这种方式能在一定程度上对创业者路演能力进行评估，但易受到评测者主观感受和环境因素的干扰，客观性和准确性有待提高。因此，非常有必要通过客观分析创业者路演表现，实现对创业者路演能力的评价。

发明内容

针对现有技术存在的问题和不足，本发明的目的是提供一种基于神经网络的创业者路演能力测评方法及其测评系统。

为实现发明目的，本发明采用的技术方案如下：

一种基于神经网络的创业者路演能力测评方法，包括以下步骤：

（1）招募N位受试者进行模拟路演，采集模拟路演过程中受试者的路演视频信息、音频信息和视线信息，模拟路演结束后对受试者的路演能力进行评定，根据评定结果将受试者分为路演能力好、中、差三个类别，得到每位受试者的路演能力类别标签；

（2）提取受试者路演视频信息中的人体视频序列，分析统计人体视频序列中不同行为类别的占比和不同表情类别的占比；

（3）对受试者的路演音频信息进行预处理，获取音频信息的声谱图，对声谱图进行处理分析，得到受试者的感情倾向结果、感召力倾向结果和语言素养评分；

（4）对受试者的视线信息进行处理分析，获取受试者路演过程中与观看者的眼神交流次数；

（5）以步骤（2）得到的每位受试者路演中不同行为类别、表情类别占比，步骤（3）得到的每位受试者感情倾向结果、感召力倾向结果和语言素养评分，步骤（4）得到的每位受试者眼神交流次数，合并作为每位受试者对应的输入数据，以受试者的输入数据结合步骤（1）得到的每位受试者的路演能力类别标签构建N位受试者的数据集，然后采用构建的数据集训练路演能力测评网络模型，优化路演能力测评网络模型的参数，得到训练后的路演能力测评网络模型；

（6）采集待测评创业者路演视频信息、音频信息和视线信息，对采集的视频信息、音频信息和视线信息进行处理分析，得到待测评创业者路演过程中不同行为类别占比、不同表情类别占比、感情倾向结果、感召力倾向结果、语言素养评分和眼神交流次数，将上述得到的待测评创业者的各参数指标输入训练后的路演能力测评网络模型，得到待测评创业者的路演能力评分结果；然后根据评分结果从路演能力评价语料库中调取相应的评价结果，获得待测评创业者的路演能力评分和相应的评价结果。

根据上述的创业者路演能力测评方法，优选地，步骤（2）的具体操作为：

采用人体区域切分模块提取路演视频信息中的人体视频序列，然后将人体视频序列分别输入行为识别模块和表情检测模块，行为识别模块对人体视频序列进行处理，将人体视频序列中的每一帧视频进行行为分类，得到每一帧视频对应的行为类别，所述行为类别包括三类：加分行为、中性行为和减分行为，根据每种行为类别的帧数占人体视频序列总帧数的比例，统计每种行为类别的占比；表情检测模块对人体视频序列进行处理，获取人脸区域视频序列，然后将人脸区域视频序列的每一帧视频进行表情分类，得到每一帧视频对应的表情类别，所述表情类别包括三类：加分表情、中性表情和减分表情，根据每种表情类别的帧数占人脸区域视频序列总帧数的比例，统计每种表情类别的占比。

根据上述的创业者路演能力测评方法，优选地，所述人体区域切分模块包括人体区域检测网络和人体切分程序，所述人体区域检测网络是以YOLO网络作为基础构建的，在YOLO网络源代码最后加入对人类别之外的输出的屏蔽代码，使YOLO网络只输出人的坐标位置及类别标签；所述人体切分程序是根据人体坐标位置从路演视频中提取受试者的人体视频序列，人体切分程序为图像处理领域常用的程序，采用特定python库通过几条简单指令即可实现。采用人体区域切分模块提取路演视频中的人体视频序列的具体操作为：将路演视频信息输入人体区域检测网络，人体区域检测网络对路演视频进行处理分析后输出受试者的人体坐标位置，将人体坐标位置映射回原路演视频得到原路演视频中受试者的位置，结合原视频和受试者的位置，采用人体切分程序自动提取出路演视频中受试者的人体视频序列。

根据上述的创业者路演能力测评方法，优选地，所述行为识别模块包括行为识别网络，所述行为识别网络是以AlexNet网络为基础构建的，在AlexNet网络基础上减少了三个卷积层，输出层为三个神经元，得到三类结果，三类结果分别为加分行为、中性行为和减分行为；所述行为识别网络的输入是人体视频序列，输出是人体视频序列中每一帧视频对应的行为类别。

根据上述的创业者路演能力测评方法，优选地，所述表情检测模块包括人脸检测网络、人脸分割程序和表情识别网络三部分；人脸检测网络用于检测人体视频序列中的人脸区域坐标，人脸分割程序（人脸分割程序为图像处理领域常用的程序，采用特定python库通过几条简单指令即可实现）用于从人体视频序列中获取人脸区域视频序列，表情识别网络用于对人脸区域视频序列中每一帧视频进行表情分类；人体视频序列经预处理后输入人脸检测网络，得到人脸区域坐标，将人脸区域坐标输入人脸分割程序，人脸分割程序采用腐蚀和膨胀方法对人脸区域坐标进行放大，同时结合前后帧情况，使人脸区域坐标变化平滑，然后将人脸区域坐标映射回原路演视频，使用人脸分割程序自动化分割出人脸区域，得到人脸区域视频序列；将人脸区域视频序列输入到表情识别网络中，表情识别网络对人脸区域视频序列中每一帧视频的人脸表情进行分类，得到每一帧视频对应的表情类别。

根据上述的创业者路演能力测评方法，优选地，所述人脸检测网络为成熟的MTCNN人脸检测网络，人脸检测网络的输入为人体视频序列，输出为人脸区域坐标；所述表情识别网络是以AlexNet网络为基础构建的，在AlexNet网络基础上减少了三个卷积层，输出层为三个神经元，得到三类结果，三类结果分别为加分表情、中性表情和减分表情，表情识别网络的输入为人脸区域视频序列，输出为人脸区域视频序列中每一帧视频对应的表情类别。

根据上述的创业者路演能力测评方法，优选地，所述步骤（3）的具体操作为：对受试者的路演音频信息进行预处理，得到音频信息的声谱图，将声谱图输入音频处理模块，所述音频处理模块包括情感分析网络、语言素养网络和感召力分析网络，声谱图经情感分析网络处理后得到声谱图中中性、亢奋、底气不足和紧张四种情感类别的概率，以概率最高的情感类别作为受试者的情感倾向结果，声谱图经语言素养网络处理后得到受试者的语言素养得分，声谱图经感召力分析网络处理后得到声谱图中感召力强、感召力弱两种感召力类别的概率，以概率高的感召力类别作为受试者的感召力倾向结果。

根据上述的创业者路演能力测评方法，优选地，所述情感分析网络、语言素养网络和感召力分析都是以AlexNet网络为基础构建的，不同之处在于输出层不同。其中，所述情感分析网络是以AlexNet网络为基础构建的，调整AlexNet网络的输出层，使其输出层为四个神经元，激活函数为softmax函数，得到四类结果，分别对应中性、亢奋、底气不足和紧张四种情感类别的概率，情感分析网络的输入为声谱图，输出为情感倾向结果；所述语言素养网络以AlexNet网络为基础构建的，调整AlexNet网络的输出层，使其输出层为三个分数，分别对应发音得分、语速得分和节奏得分，语言素养网络的输入为声谱图，输出为发音得分、语速得分和节奏得分；所述感召力分析网络以AlexNet网络为基础构建的，调整AlexNet网络的输出层，使其输出层为一个神经元，得到两类结果，分别对应感召力强和感召力弱的概率。

根据上述的创业者路演能力测评方法，优选地，步骤（4）中所述视线信息包括视野视频数据和视线移动数据，视线移动数据信息包括瞳孔注视中心点，与视野视频每一帧一一对应；步骤（4）中获取受试者路演过程中与观众的眼神交流次数的具体操作为：采用视线注视区域提取程序对视野视频数据进行处理，得到视线注视区域视频，然后采用MTCNN人脸检测网络检测视线注视区域视频中每一帧中是否有人脸，并统计连续两秒钟以上出现人脸的次数，连续两秒钟出现人脸的次数即为受试者路演过程中与观看者的眼神交流的次数；其中，所述视线注视区域提取程序对视野数据进行处理的具体过程为：以瞳孔注视中心点为中心，高和宽均设为50px，划定感兴趣区域，将划定的感兴趣区域从视野视频数据中裁剪出来，得到视线注视区域视频。

根据上述的创业者路演能力测评方法，优选地，所述路演能力测评网络模型为双层全连接网络（不包括输入层），输入层共12个神经元，输入样本为行为类别占比、表情类别占比、情感倾向结果、语言素养得分、感召力倾向结果、眼神交流次数合并后形成的12维向量，第二层神经元为6个神经元，输出层为3个神经元，使用softmax输出函数，输出三个比例，对应好、中、差（三个比例中占比最大的对应的评分为路演能力评分结果）。

根据上述的创业者路演能力测评方法，优选地，训练路演能力测评网络模型的具体操作过程为：将数据集中每位受试者对应的输入数据（行为类别占比、表情类别占比、情感倾向结果、语言素养得分、感召力倾向结果、眼神交流次数合并后形成的12维向量）输入到路演能力测评网络模型中，以路演能力测评网络模型的输出值作为预测结果，以数据集中每位受试者的路演能力类别标签作为真实结果，利用预测结果和真实结果构造损失函数，损失函数选择为交叉熵损失函数，通过带动量的梯度下降法优化网络内部参数，降低损失函数值；不断迭代此过程优化网络，直至损失函数停止下降，路演能力测评网络模型训练过程结束。

根据上述的创业者路演能力测评方法，优选地，步骤（1）中模拟路演的具体操作为：招募N位受试者，N位受试者从N个创业项目中任选一个创业项目进行路演汇报，路演汇报时间为10min，路演汇报过程中采用视频采集设备记录路演视频，采用音频采集设备采集路演音频信息，采用视线采集设备采集受试者的视线信息；路演前邀请专业评委阅读每个创业项目的项目书，根据项目书给出每个创业项目的一个投资金额，路演结束后专业评委根据每个创业项目的具体路演情况再次给出一个投资金额，以相对量值（相对量值是第二次给出的投资金额减去第一次给出的投资金额的差值除以第一次给出的投资金额所得到的数值）用作评定每位受试者的路演能力的标准，将N位受试者分为路演能力好、中、差三个类别。相对量值为负时，表示创业者的路演表现给项目的投资金额带来了负面影响，定义为路演能力差；0≤相对量值＜10%时，表示创业者的路演表现没有给项目的投资金额带来了负面影响，定义为路演能力中；当相对量值≥10%时，表示创业者的路演表现给项目的投资金额带来了正面影响，定义为路演能力好。

根据上述的创业者路演能力测评方法，优选地，步骤（1）中，所述视频采集设备为摄像机。

根据上述的创业者路演能力测评方法，优选地，步骤（1）中，所述音频采集设备为麦克风，麦克风配套系统支持内录，即将最终输入到扬声器的音频文件保存一份副本供后面数据处理。

根据上述的创业者路演能力测评方法，优选地，所述视线采集设备为眼动仪，所述眼动仪为具有无线实时观察功能的Tobii ProGlasses 2可穿戴式眼动仪，通过其配套的Tobii Studio眼动仪软件获取眼睛视野视频数据和视线移动数据。

根据上述的创业者路演能力测评方法，优选地，N位受试者均为创业多年的创业者，而且创业时间跨度不同，创业背景不同。

根据上述的创业者路演能力测评方法，优选地，所述路演能力评价语料库为自建语料库，语料库涵盖本专利所有评价范围，如涉及情感的语料有“语言过于平淡”、“语言显得过于紧张”等，如果情感评价网络输出为总体情感偏向于紧张，则选择“语言显得过于紧张”，组合其他语言，输出总体评价。

一种基于神经网络的创业者路演能力测评系统，所述系统包括视频采集设备、音频采集设备、视线信息采集设备、计算机和人机界面终端；所述计算机中内置有视频处理模块、音频处理模块、视线信息处理模块、路演能力评价语料库和上述训练后的路演能力测评网络模型；所述视频处理模块包括人体区域切分模块、行为识别模块和表情检测模块，所述音频处理模块包括情感分析网络、语言素养网络和感召力分析网络，所述视线信息处理模块包括视线注视区域提取程序和MTCNN人脸检测网络；所述视频采集设备、音频采集设备、视线信息采集设备将采集的视频信息、音频信息和视线信息传输至计算机，计算机利用视频处理模块、音频处理模块、视线信息处理模块对接收的视频信息、音频信息和视线信息进行分别处理，并将视频信息、音频信息和视线信息处理的结果输入训练后的路演能力测评网络模型，通过训练后的路演能力测评网络模型测评创业者的路演能力，获取创业者的路演能力评分结果，然后根据路演能力评分结果从路演能力评价语料库中调取相应的评价结果，最终将路演能力评分结果和评价结果通过人机界面终端呈现。

根据上述的创业者路演能力测评系统，优选地，所述人体区域切分模块包括人体区域检测网络和人体切分程序，所述人体区域检测网络是以YOLO网络作为基础构建的，在YOLO网络源代码最后加入对人类别之外的输出的屏蔽代码，使YOLO网络只输出人的坐标位置及类别标签，所述人体切分程序是根据人体坐标位置从路演视频中提取受试者的人体视频序列，人体切分程序为图像处理领域常用的程序，采用特定python库通过几条简单指令即可实现。

根据上述的创业者路演能力测评系统，优选地，所述行为识别模块包括行为识别网络，所述行为识别网络是以AlexNet网络为基础构建的，在AlexNet网络基础上减少了三个卷积层，输出层为三个神经元，得到三类结果，三类结果分别为加分行为、中性行为和减分行为；所述行为识别网络的输入是人体视频序列，输出是人体视频序列中每一帧视频对应的行为类别。

根据上述的创业者路演能力测评系统，优选地，所述表情检测模块包括人脸检测网络、人脸分割程序和表情识别网络三部分；人脸检测网络用于检测人体视频序列中的人脸区域坐标，人脸分割程序用于从人体视频序列中获取人脸区域视频序列，人脸分割程序为图像处理领域常用的程序，采用特定python库通过几条简单指令即可实现，表情识别网络用于对人脸区域视频序列中每一帧视频进行表情分类。更加优选地，所述人脸检测网络为MTCNN人脸检测网络，人脸检测网络的输入为人体视频序列，输出为人脸区域坐标；所述表情识别网络是以AlexNet网络为基础构建的，在AlexNet网络基础上减少了三个卷积层，输出层为三个神经元，得到三类结果，三类结果分别为加分表情、中性表情和减分表情，表情识别网络的输入为人脸区域视频序列，输出为人脸区域视频序列中每一帧视频对应的表情类别。

根据上述的创业者路演能力测评系统，优选地，所述情感分析网络是以AlexNet网络为基础构建的，调整AlexNet网络的输出层，使其输出层为四个神经元，激活函数为softmax函数，得到四类结果，分别对应中性、亢奋、底气不足和紧张四种情感类别的概率，情感分析网络的输入为声谱图，输出为情感倾向结果；所述语言素养网络以AlexNet网络为基础构建的，调整AlexNet网络的输出层，使其输出层为三个分数，分别对应发音得分、语速得分和节奏得分，语言素养网络的输入为声谱图，输出为发音得分、语速得分和节奏得分；所述感召力分析网络以AlexNet网络为基础构建的，调整AlexNet网络的输出层，使其输出层为一个神经元，得到两类结果，分别对应感召力强和感召力弱。

根据上述的创业者路演能力测评系统，优选地，所述路演能力评价语料库为自建语料库，语料库涵盖本专利所有评价范围，如涉及情感的语料有“语言过于平淡”、“语言显得过于紧张”等，如果情感评价网络输出为总体情感偏向于紧张，则选择“语言显得过于紧张”，组合其他语言，输出总体评价。

根据上述的创业者路演能力测评系统，优选地，所述行为识别网络的训练过程为：将行为识别网络训练样本中的人体视频序列经缩放、归一化操作后输入到行为识别网络中，输出为行为识别网络对人体视频序列进行的行为分类，共三个类别，分别为加分行为、中性行为和减分行为，其为网络的预测结果。人工对人体视频序列标注的行为分类为真实结果。利用预测结果和真实结果构造损失函数，损失函数选择为交叉熵损失函数；通过带动量的随机梯度下降法优化网络内部参数，降低损失函数值；不断迭代此过程进行网络优化，直至损失函数停止下降，行为识别网络训练过程结束。

根据上述的创业者路演能力测评系统，优选地，所述表情识别网络的训练过程为：将表情识别网络训练样本中的人脸表情视频序列经缩放、归一化操作后输入到表情识别网络中，输出为表情识别对人脸表情视频序列进行的表情分类，共三个类别，分别为加分表情、中性表情和减分表情，其为网络的预测结果。人工对人脸表情视频序列标注的表情分类为真实结果。利用预测结果和真实结果构造损失函数，损失函数选择为交叉熵损失函数；通过带动量的随机梯度下降法优化网络内部参数，降低损失函数值；不断迭代此过程进行网络优化，直至损失函数停止下降，表情识别网络训练过程结束。

根据上述的创业者路演能力测评系统，优选地，所述情感分析网络的训练过程为：将情感分析网络训练样本中的语音数据经过预处理，成为声谱图，经缩放、归一化操作后输入到情感分析网络中，输出为情感分析网络对语音数据的情感分类，共四个类别，分别对应中性、亢奋、底气不足和紧张，其为网络的预测结果。人工对语音数据标注的情感分类为真实结果。利用预测结果和真实结果构造损失函数，损失函数选择为交叉熵损失函数；通过带动量的随机梯度下降法优化网络内部参数，降低损失函数值，不断迭代此过程进行网络优化，直至损失函数停止下降，情感分析网络训练过程结束。情感分析网络采用的训练样本为CASIA数据集、ACCorpus系列数据库和自标记的数据集。

根据上述的创业者路演能力测评系统，优选地，所述语言素养网络的训练过程为：将语言素养网络训练样本中的语音数据经过预处理，成为声谱图，经缩放、归一化操作后输入到语言素养网络中，输出为语言素养网络对语音数据的评分，共三个分数，分别对应发音得分、语速得分和节奏得分，其为网络的预测结果。人工对语音数据标注的分数为真实结果。利用预测结果和真实结果构造损失函数，损失函数选择为均方误差（MSE）；通过带动量的随机梯度下降法优化网络内部参数，降低损失函数值，不断迭代此过程进行网络优化，直至损失函数停止下降，语言素养网络训练过程结束。

根据上述的创业者路演能力测评系统，优选地，所述感召力分析网络的训练过程为：将感召力分析网络训练样本中的语音数据经过预处理，成为声谱图，经缩放、归一化操作后输入到感召力分析网络中，输出为感召力分析网络对语音数据的二分类，数值越接近1表示感召力强，数值越接近0表示感召力弱，其为网络的预测结果。人工对语音数据标注的感召力分类为真实结果。利用预测结果和真实结果构造损失函数，损失函数选择为交叉熵损失函数；通过带动量的随机梯度下降法优化网络内部参数，降低损失函数值，不断迭代此过程进行网络优化，直至损失函数停止下降，感召力分析网络训练过程结束。

与现有技术相比，本发明取得的积极有益效果为：

（1）本发明的创业者路演能力测评方法中，在采集到路演视频信息后，首先采用人体区域切分模块对视频信息进行处理，人体区域切分模块能够从复杂、冗长的视频信息中提取出路演者的人体视频序列，极大地减少了分析样本，便于后续行为识别模块和表情检测模块对视频样本进行处理分析，提高了行为识别模块和表情检测模块的计算速度和计算结果的准确性。

（2）本发明对人体视频序列进行分析，获取人体视频序列中每一帧图像的表情分类时，首先采用人脸检测网络对人体视频序列进行处理，人脸检测网络能够快速的从冗长的人体视频序列中获取人脸区域坐标，然后采用人脸分割程序根据人脸检测网络输出的人脸区域坐标从人体视频序列中自动化分割出人脸区域，得到人脸区域视频序列用于表情识别网络进行表情分类识别，因此，通过人脸检测网络和人脸分割程序的处理，能够过滤除去人体视频序列中的无用样本信息，极大地减少了表情识别网络的分析样本，提高了表情识别网络的计算速度和计算结果准确性。

（3）本发明在对视线信息进行处理分析时，首先采用视线注视区域提取程序对视野视频数据进行处理，视线注视区域提取程序以瞳孔注视中心点为中心，划定感兴趣区域，将划定的感兴趣区域从视野视频数据中裁剪出来，得到视线注视区域视频用于MTCNN人脸检测网络分析，因此，采用视线注视区域提取程序对视野视频数据进行处理能够过滤除去视野视频数据中的无用样本信息，减少了MTCNN人脸检测网络的分析样本，提高了MTCNN人脸检测网络的计算速度和计算结果准确性。

（4）本发明通过对大量且多样的创业者路演样本进行分析，得到用于评价创业者路演能力的指标，该评价指标包括行为、表情、情感、语素、感召力及眼神交流等方面，然后采用深度学习方法构建路演能力测评网络模型，通过路演能力测评网络模型能够对新数据样本进行有效的测评，为了解、评价创业者路演能力提供了一种新方法和系统。

（5）本发明创业者路演能力测评系统结构简单，设计合理，能够快速对创业者进行路演能力评估，评估结果客观，准确。

附图说明

图1为本发明基于神经网络的创业者路演能力测评方法的流程图；

图2为本发明中人体切分程序的示例；

图3为本发明中行为识别网络、表情识别网络的结构图；

图4为本发明中人脸分割程序的示例；

图5为本发明中MTCNN人脸检测网络的结构图；

图6为本发明中情感分析网络、语言素养网络和感召力分析网络的结构图（注：该网络结构图不包括输出层，是情感分析网络、语言素养网络和感召力分析网络的共同部分）

图7为本发明中路演能力测评网络模型的结构图；

图8为本发明基于神经网络的创业者路演能力测评系统的示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清晰明了，下面结合具体实施例对本发明作详细说明。以下实施例中所涉及的方法或步骤，如无特别说明，则均为本技术领域的常规方法或步骤，本领域技术人员均能根据具体应用场景做出常规选择或者适应性选择。

实施例1：

一种基于神经网络的创业者路演能力测评方法，如图1所示，包括以下步骤：

（1）招募N位受试者进行模拟路演，采集模拟路演过程中受试者的路演视频信息、音频信息和视线信息，模拟路演结束后对受试者的路演能力进行评定，根据评定结果将受试者分为路演能力好、中、差三个类别，得到每位受试者的路演能力类别标签。

模拟路演的具体操作为：招募N位受试者（N位受试者均为创业多年的创业者，而且创业时间跨度不同，创业背景不同），N位受试者从N个创业项目中任选一个创业项目进行路演汇报，路演汇报时间为10min，路演汇报过程中采用视频采集设备记录路演视频，采用音频采集设备采集路演音频信息，采用视线采集设备采集受试者的视线信息，而且，邀请专业评委观看每位受试者的路演汇报。其中，所述视频采集设备为摄像机；所述音频采集设备为麦克风，麦克风配套系统支持内录，即将最终输入到扬声器的音频文件保存一份副本供后面数据处理；所述视线采集设备为眼动仪，眼动仪为具有无线实时观察功能的TobiiProGlasses 2可穿戴式眼动仪，通过其配套的Tobii Studio眼动仪软件获取眼睛视野视频数据和视线移动数据。

对受试者的路演能力进行评定的具体操作为：路演前邀请专业评委阅读每个创业项目的项目书，根据项目书给出每个创业项目的一个投资金额，路演结束后专业评委根据每个创业项目的具体路演情况再次给出一个投资金额，以相对量值（相对量值是第二次给出的投资金额减去第一次给出的投资金额的差值除以第一次给出的投资金额所得到的数值）用作评定每位受试者的路演能力的标准，将N位受试者分为路演能力好、中、差三个类别。相对量值为负时，表示创业者的路演表现给项目的投资金额带来了负面影响，定义为路演能力差；0≤相对量值＜10%时，表示创业者的路演表现没有给项目的投资金额带来了负面影响，定义为路演能力中；当相对量值≥10%时，表示创业者的路演表现给项目的投资金额带来了正面影响，定义为路演能力好。

（2）采用人体区域切分模块提取路演视频信息中的人体视频序列，然后将人体视频序列分别输入行为识别模块和表情检测模块，行为识别模块对人体视频序列进行处理，将人体视频序列中的每一帧视频进行行为分类，得到每一帧视频对应的行为类别，所述行为类别包括三类：加分行为、中性行为和减分行为，根据每种行为类别的帧数占人体视频序列总帧数的比例，统计每种行为类别的占比；表情检测模块对人体视频序列进行处理，获取人脸区域视频序列，然后将人脸区域视频序列的每一帧视频进行表情分类，得到每一帧视频对应的表情类别，所述表情类别包括三类：加分表情、中性表情和减分表情，根据每种表情类别的帧数占人脸区域视频序列总帧数的比例，统计每种表情类别的占比。

其中，所述人体区域切分模块包括人体区域检测网络和人体切分程序，所述人体区域检测网络是以YOLO网络作为基础构建的，在YOLO网络源代码最后加入对人类别之外的输出的屏蔽代码，使YOLO网络只输出人的坐标位置及类别标签；所述人体切分程序是根据人体坐标位置从路演视频中提取受试者的人体视频序列（如图2所示），人体切分程序为图像处理领域常用的程序，采用特定python库通过几条简单指令即可实现。采用人体区域切分模块提取路演视频中的人体视频序列的具体操作为：将路演视频信息输入人体区域检测网络，人体区域检测网络对路演视频进行处理分析后输出受试者的人体坐标位置，将人体坐标位置映射回原路演视频得到原路演视频中受试者的位置，结合原视频和受试者的位置，采用人体切分程序自动提取出路演视频中受试者的人体视频序列。

所述行为识别模块包括行为识别网络，如图3所示，所述行为识别网络是以AlexNet网络为基础构建的，在AlexNet网络基础上减少了三个卷积层，输出层为三个神经元，得到三类结果，三类结果分别为加分行为、中性行为和减分行为；所述行为识别网络的输入是人体视频序列，输出是人体视频序列中每一帧视频对应的行为类别。

所述表情检测模块包括人脸检测网络、人脸分割程序和表情识别网络三部分；人脸检测网络用于检测人体视频序列中的人脸区域坐标；人脸分割程序用于从人体视频序列中获取人脸区域视频序列（如图4所示），人脸分割程序为图像处理领域常用的程序，采用特定python库通过几条简单指令即可实现；表情识别网络用于对人脸区域视频序列中每一帧视频进行表情分类。人体视频序列经预处理后输入人脸检测网络，得到人脸区域坐标，将人脸区域坐标输入人脸分割程序，人脸分割程序采用腐蚀和膨胀方法对人脸区域坐标进行放大，同时结合前后帧情况，使人脸区域坐标变化平滑，然后将人脸区域坐标映射回原路演视频，使用人脸分割程序自动化分割出人脸区域，得到人脸区域视频序列；将人脸区域视频序列输入到表情识别网络中，表情识别网络对人脸区域视频序列中每一帧视频的人脸表情进行分类，得到每一帧视频对应的表情类别。

所述人脸检测网络为成熟的MTCNN人脸检测网络，人脸检测网络的输入为人体视频序列，输出为人脸区域坐标，所述MTCNN人脸检测网络的具体结构参见图5所示。所述表情识别网络是以AlexNet网络为基础构建的，在AlexNet网络基础上减少了三个卷积层，输出层为三个神经元，得到三类结果，三类结果分别为加分表情、中性表情和减分表情，表情识别网络的输入为人脸区域视频序列，输出为人脸区域视频序列中每一帧视频对应的表情类别（参见图3）。

（3）对受试者的路演音频信息进行预处理，得到音频信息的声谱图，将声谱图输入音频处理模块，所述音频处理模块包括情感分析网络、语言素养网络和感召力分析网络，声谱图经情感分析网络处理后得到声谱图中中性、亢奋、底气不足和紧张四种情感类别的概率，以概率最高的情感类别作为受试者的情感倾向结果，声谱图经语言素养网络处理后得到受试者的语言素养得分，声谱图经感召力分析网络处理后得到声谱图中感召力强、感召力弱两种感召力类别的概率，以概率高的感召力类别作为受试者的感召力倾向结果。

所述情感分析网络、语言素养网络和感召力分析都是以AlexNet网络为基础构建的，不同之处在于输出层不同（如图6所示）。其中，所述情感分析网络是以AlexNet网络为基础构建的，调整AlexNet网络的输出层，使其输出层为四个神经元，激活函数为softmax函数，得到四类结果，分别对应中性、亢奋、底气不足和紧张四种情感类别的概率，情感分析网络的输入为声谱图，输出为情感倾向结果；所述语言素养网络以AlexNet网络为基础构建的，调整AlexNet网络的输出层，使其输出层为三个分数，分别对应发音得分、语速得分和节奏得分，语言素养网络的输入为声谱图，输出为发音得分、语速得分和节奏得分；所述感召力分析网络以AlexNet网络为基础构建的，调整AlexNet网络的输出层，使其输出层为一个神经元，得到两类结果，分别对应感召力强和感召力弱的概率。

（4）对受试者的视线信息进行处理分析，获取受试者路演过程中与观看者的眼神交流次数。所述视线信息包括视野视频数据和视线移动数据，视线移动数据信息包括瞳孔注视中心点，与视野视频每一帧一一对应。

获取受试者路演过程中与观众的眼神交流次数的具体操作为：采用视线注视区域提取程序对视野视频数据进行处理，得到视线注视区域视频，然后采用MTCNN人脸检测网络检测视线注视区域视频中每一帧中是否有人脸，并统计连续两秒钟以上出现人脸的次数，连续两秒钟出现人脸的次数即为受试者路演过程中与观看者的眼神交流的次数；其中，所述视线注视区域提取程序对视野数据进行处理的具体过程为：以瞳孔注视中心点为中心，高和宽均设为50px，划定感兴趣区域，将划定的感兴趣区域从视野视频数据中裁剪出来，得到视线注视区域视频。

（5）以步骤（2）得到的每位受试者路演视频中不同行为类别、表情类别占比，步骤（3）得到的每位受试者感情倾向结果、感召力倾向结果和语言素养评分，步骤（4）得到的每位受试者的眼神交流次数，合并作为每位受试者对应的输入数据，以受试者的输入数据结合步骤（1）得到的每位受试者的路演能力类别标签构建N位受试者的数据集，然后采用构建的数据集训练路演能力测评网络模型，优化路演能力测评网络模型的参数，得到训练后的路演能力测评网络模型。

其中，所述路演能力测评网络模型（如图7所示）为双层全连接网络（不包括输入层），输入层共12个神经元，输入样本为行为类别占比、表情类别占比、情感倾向结果、语言素养得分、感召力倾向结果、眼神交流次数合并后形成的12维向量，第二层神经元为6个神经元，输出层为3个神经元，使用softmax输出函数，输出三个比例，对应好、中、差（三个比例中占比最大的对应的评分为路演能力评分结果）。

训练路演能力测评网络模型的具体操作过程为：将数据集中每位受试者对应的输入数据（行为类别占比、表情类别占比、情感倾向结果、语言素养得分、感召力倾向结果、眼神交流次数合并后形成的12维向量）输入到路演能力测评网络模型中，以路演能力测评网络模型的输出值作为预测结果，以数据集中每位受试者的路演能力类别标签作为真实结果，利用预测结果和真实结果构造损失函数，损失函数选择为交叉熵损失函数，通过带动量的梯度下降法优化网络内部参数，降低损失函数值；不断迭代此过程优化网络，直至损失函数停止下降，路演能力测评网络模型训练过程结束。

（6）采集待测评创业者路演视频信息、音频信息和视线信息，按照上述步骤（2）、（3）、（4）记载的方法对采集的视频信息、音频信息和视线信息进行处理分析，得到待测评创业者路演过程中不同行为类别占比、不同表情类别占比、感情倾向结果、感召力倾向结果、语言素养评分和眼神交流次数，将上述得到的待测评创业者的各参数指标输入训练后的路演能力测评网络模型，得到待测评创业者的路演能力评分结果；然后根据评分结果从路演能力评价语料库中调取相应的评价结果，获得待测评创业者的路演能力评分和相应的评价结果。其中，所述路演能力评价语料库为自建语料库，语料库涵盖本专利所有评价范围，如涉及情感的语料有“语言过于平淡”、“语言显得过于紧张”等，如果情感评价网络输出为总体情感偏向于紧张，则选择“语言显得过于紧张”，组合其他语言，输出总体评价。

实施例2：

一种基于神经网络的创业者路演能力测评系统，如图8所示，包括视频采集设备、音频采集设备、视线信息采集设备、计算机和人机界面终端；所述计算机中内置有视频处理模块、音频处理模块、视线信息处理模块、路演能力评价语料库和实施例1中所述的训练后的路演能力测评网络模型；所述视频处理模块包括人体区域切分模块、行为识别模块和表情检测模块，所述音频处理模块包括情感分析网络、语言素养网络和感召力分析网络，所述视线信息处理模块包括视线注视区域提取程序和MTCNN人脸检测网络；所述视频采集设备、音频采集设备、视线信息采集设备将采集的视频信息、音频信息和视线信息传输至计算机，计算机利用视频处理模块、音频处理模块、视线信息处理模块对接收的视频信息、音频信息和视线信息进行分别处理，并将视频信息、音频信息和视线信息处理的结果输入训练后的路演能力测评网络模型，通过训练后的路演能力测评网络模型测评创业者的路演能力，获取创业者的路演能力评分结果，然后根据路演能力评分结果从路演能力评价语料库中调取相应的评价结果，最终将路演能力评分结果和评价结果通过人机界面终端呈现。

所述人体区域切分模块包括人体区域检测网络和人体切分程序，所述人体区域检测网络、人体切分程序的具体结构和作用与实施例1中记载的人体区域检测网络、人体切分程序相同，在此不再赘述。

所述行为识别模块包括行为识别网络，所述表情检测模块包括人脸检测网络、人脸分割程序和表情识别网络三部分。所述行为识别网络、人脸检测网络、人脸分割程序和表情识别网络的具体结构和作用与实施例1相同。

所述情感分析网络、语言素养网络、感召力分析网络的具体结构和作用与实施例1相同。

所述路演能力评价语料库为自建语料库，语料库涵盖本专利所有评价范围，如涉及情感的语料有“语言过于平淡”、“语言显得过于紧张”等，如果情感评价网络输出为总体情感偏向于紧张，则选择“语言显得过于紧张”，组合其他语言，输出总体评价。

以上所述仅为本发明的较佳实施例而已，但不仅限于上述实例，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经网络的创业者路演能力测评方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的创业者路演能力测评方法，其特征在于，步骤（2）的具体操作为：

3.根据权利要求2所述的创业者路演能力测评方法，其特征在于，所述人体区域切分模块包括人体区域检测网络和人体切分程序，所述人体区域检测网络是以YOLO网络作为基础构建的，在YOLO网络源代码最后加入对人类别之外的输出的屏蔽代码，使YOLO网络只输出人的坐标位置及类别标签；采用人体区域切分模块提取路演视频中的人体视频序列的具体操作为：将路演视频信息输入人体区域检测网络，人体区域检测网络对路演视频进行处理分析后输出受试者的人体坐标位置，将人体坐标位置映射回原路演视频得到原路演视频中受试者的位置，结合原视频和受试者的位置，采用人体切分程序自动提取出路演视频中受试者的人体视频序列；所述行为识别模块包括行为识别网络，所述行为识别网络是以AlexNet网络为基础构建的，在AlexNet网络基础上减少了三个卷积层，输出层为三个神经元，得到三类结果，三类结果分别为加分行为、中性行为和减分行为；所述行为识别网络的输入是人体视频序列，输出是人体视频序列中每一帧视频对应的行为类别。

4.根据权利要求2所述的创业者路演能力测评方法，其特征在于，所述表情检测模块包括人脸检测网络、人脸分割程序和表情识别网络三部分；人脸检测网络用于检测人体视频序列中的人脸区域坐标，人脸分割程序用于从人体视频序列中获取人脸区域视频序列，表情识别网络用于对人脸区域视频序列中每一帧视频进行表情分类；人体视频序列经预处理后输入人脸检测网络，得到人脸区域坐标，将人脸区域坐标输入人脸分割程序，人脸分割程序采用腐蚀和膨胀方法对人脸区域坐标进行放大，同时结合前后帧情况，使人脸区域坐标变化平滑，然后将人脸区域坐标映射回原始路演视频，使用人脸分割程序自动化分割出人脸区域，得到人脸区域视频序列；将人脸区域视频序列输入到表情识别网络中，表情识别网络对人脸区域视频序列中每一帧视频的人脸表情进行分类，得到每一帧视频对应的表情类别。

5.根据权利要求4所述的创业者路演能力测评方法，其特征在于，所述人脸检测网络为MTCNN人脸检测网络，人脸检测网络的输入为人体视频序列，输出为人脸区域坐标；所述表情识别网络是以AlexNet网络为基础构建的，在AlexNet网络基础上减少了三个卷积层，输出层为三个神经元，得到三类结果，三类结果分别为加分表情、中性表情和减分表情，表情识别网络的输入为人脸区域视频序列，输出为人脸区域视频序列中每一帧视频对应的表情类别。

6.根据权利要求1所述的创业者路演能力测评方法，其特征在于，所述步骤（3）的具体操作为：对受试者的路演音频信息进行预处理，得到音频信息的声谱图，将声谱图输入音频处理模块，所述音频处理模块包括情感分析网络、语言素养网络和感召力分析网络，声谱图经情感分析网络处理后得到声谱图中中性、亢奋、底气不足和紧张四种情感类别的概率，以概率最高的情感类别作为受试者的情感倾向结果，声谱图经语言素养网络处理后得到受试者的语言素养得分，声谱图经感召力分析网络处理后得到声谱图中感召力强、感召力弱两种感召力类别的概率，以概率高的感召力类别作为受试者的感召力倾向结果。

7.根据权利要求6所述的创业者路演能力测评方法，其特征在于，所述情感分析网络是以AlexNet网络为基础构建的，调整AlexNet网络的输出层，使其输出层为四个神经元，激活函数为softmax函数，得到四类结果，分别对应中性、亢奋、底气不足和紧张四种情感类别的概率，情感分析网络的输入为声谱图，输出为情感倾向结果；所述语言素养网络以AlexNet网络为基础构建的，调整AlexNet网络的输出层，使其输出层为三个分数，分别对应发音得分、语速得分和节奏得分，语言素养网络的输入为声谱图，输出为发音得分、语速得分和节奏得分；所述感召力分析网络以AlexNet网络为基础构建的，调整AlexNet网络的输出层，使其输出层为一个神经元，得到两类结果，分别对应感召力强和感召力弱的概率。

8.根据权利要求1所述的创业者路演能力测评方法，其特征在于，步骤（4）中所述视线信息包括视野视频数据和视线移动数据，视线移动数据信息包括瞳孔注视中心点，与视野视频数据每一帧一一对应；步骤（4）中获取受试者路演过程中与观众的眼神交流次数的具体操作为：采用视线注视区域提取程序对视野视频数据进行处理，得到视线注视区域视频，然后采用MTCNN人脸检测网络检测视线注视区域视频中每一帧中是否有人脸，并统计连续两秒钟以上出现人脸的次数，连续两秒钟出现人脸的次数即为受试者路演过程中与观看者的眼神交流的次数；其中，所述视线注视区域提取程序对视野数据进行处理的具体过程为：以瞳孔注视中心点为中心，高和宽均设为50px，划定感兴趣区域，将划定的感兴趣区域从视野视频数据中裁剪出来，得到视线注视区域视频。

9.根据权利要求1所述的创业者路演能力测评方法，其特征在于，所述路演能力测评网络模型为双层全连接网络，输入层共12个神经元，输入样本为行为类别占比、表情类别占比、情感倾向结果、语言素养得分、感召力倾向结果、眼神交流次数合并后形成的12维向量，第二层神经元为6个神经元，输出层为3个神经元，使用softmax输出函数，输出三个比例，对应好、中、差。

10.一种基于神经网络的创业者路演能力测评系统，其特征在于，所述系统包括视频采集设备、音频采集设备、视线信息采集设备、计算机和人机界面终端；所述计算机中内置有视频处理模块、音频处理模块、视线信息处理模块、路演能力评价语料库和权利要求1～9任一所述的训练后的路演能力测评网络模型；所述视频处理模块包括人体区域切分模块、行为识别模块和表情检测模块，所述音频处理模块包括情感分析网络、语言素养网络和感召力分析网络，所述视线信息处理模块包括视线注视区域提取程序和MTCNN人脸检测网络；所述视频采集设备、音频采集设备、视线信息采集设备将采集的视频信息、音频信息和视线信息传输至计算机，计算机利用视频处理模块、音频处理模块、视线信息处理模块对接收的视频信息、音频信息和视线信息进行分别处理，并将视频信息、音频信息和视线信息处理的结果输入训练后的路演能力测评网络模型，通过训练后的路演能力测评网络模型测评创业者的路演能力，获取创业者的路演能力评分结果，然后根据路演能力评分结果从路演能力评价语料库中调取相应的评价结果，最终将路演能力评分结果和评价结果通过人机界面终端呈现。