CN115600966A

CN115600966A - 团队讨论语料分析方法及装置

Info

Publication number: CN115600966A
Application number: CN202211160690.8A
Authority: CN
Inventors: 王琛; 张嘉惠; 李乐飞
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-09-22
Filing date: 2022-09-22
Publication date: 2023-01-13

Abstract

本发明实施例提供一种团队讨论语料分析方法及装置，该方法包括：获取团队讨论全过程的语料数据，对语料数据进行预处理；其中，预处理包括将语料数据进行分词处理，保留分词结果中预设词性的分词以及预设专有词汇，得到信息词汇的集合；计算信息词汇两两之间的关联性指标，将关联性指标的值大于预设阈值的信息词汇相连，得到认知地图。本发明实施例提供的团队讨论语料分析方法及装置，能够了解整个讨论涉及信息词汇的结构、信息词汇之间的关联关系，以及讨论过程出现的关联性强的信息词汇情况，有利于对团队讨论特点及效果进行评估，对团队讨论情况给出评价。

Description

团队讨论语料分析方法及装置

技术领域

本发明实施例涉及计算机技术领域，具体涉及一种团队讨论语料分析方法及装置。

背景技术

在决策问题中识别目标、产生方案是决策分析的核心步骤。在决策的早期阶段，决策者希望产生更多更好的备选方案，从而提升最终解决问题的表现水平。因此，以多人小组为单位的决策者(称为决策小组)往往可以使用头脑风暴过程来产生尽可能多的目标和方案。在头脑风暴中，组内成员轮流产生并提出(有关目标与方案的)不同想法，针对现有想法的讨论与新想法的提出交替进行。在这个过程中，决策小组可能体现出不同的特点。这些特点的不同，决定了不同决策小组头脑风暴过程形式上和内容上的差异性，有的能够体现其策略的差异，有的能够体现其水平的高下。

过往研究主要关注外界干预手段对团队讨论质量的影响，侧重设计和改变干预手段，观察不同被试组产生目标和方案数量的不同。然而鲜有研究涉及团队讨论特点及效果的评估，无法对团队讨论情况给出评价。

发明内容

针对现有技术存在的缺陷，本发明实施例提供一种团队讨论语料分析方法及装置。

本发明实施例提供一种团队讨论语料分析方法，包括：获取团队讨论全过程的语料数据，对所述语料数据进行预处理；其中，所述预处理包括将所述语料数据进行分词处理，保留分词结果中预设词性的分词以及预设专有词汇，得到信息词汇的集合；计算所述信息词汇两两之间的关联性指标，将所述关联性指标的值大于预设阈值的所述信息词汇相连，得到认知地图。

根据本发明实施例提供的一种团队讨论语料分析方法，所述关联性指标为词间互信息；所述计算所述信息词汇两两之间的关联性指标，包括：基于所述语料数据中两两所述信息词汇在预设距离内的共现次数，以及结合词向量数据集给出的词汇关联强度信息，计算所述信息词汇两两之间的关联性指标。

根据本发明实施例提供的一种团队讨论语料分析方法，所述方法还包括：根据所述信息词汇的来源语料归属的团队成员的信息，在所述认知地图中将所述信息词汇用不同的颜色进行标识。

根据本发明实施例提供的一种团队讨论语料分析方法，所述方法还包括：在所述认知地图上通过网络社群发现算法得到话题簇；其中，所述话题簇包括多个所述信息词汇。

根据本发明实施例提供的一种团队讨论语料分析方法，所述方法还包括：展示所述话题簇对应话题沿时间线的词频速率的变化情况。

根据本发明实施例提供的一种团队讨论语料分析方法，所述方法还包括：将所述认知地图中的每个所述信息词汇建模为霍克斯过程的一个维度，利用自我激励参数、他人激励参数、间接联想参数及话题敏感度参数定义所述信息词汇之间的激励；设定衰减参数和背景速率，输入所述语料数据，得到所述自我激励参数、所述他人激励参数、所述间接联想参数及所述话题敏感度参数的估计值；其中，所述自我激励参数用于表示个人的思路活跃程度基础值；所述他人激励参数用于表示个人对他人注意力的大小；所述间接联想参数用于表示个人的联想激励相对直接激励的大小，所述联想激励表示个人的所述信息词汇受到不直接相连的其他所述信息词汇的激励，所述直接激励表示个人的所述信息词汇受到直接相连的所述信息词汇的激励；所述话题敏感度参数表示个人对所述认知地图上的所述话题簇的敏感程度。

根据本发明实施例提供的一种团队讨论语料分析方法，所述方法还包括：根据预处理后的所述语料数据获取团队成员发言时的词频速率；展示所述词频速率随时间变化的可视化图。

根据本发明实施例提供的一种团队讨论语料分析方法，所述方法还包括：根据预处理后的所述语料数据获取团队成员发言中提到的新信息；展示团队成员发言中的所述新信息的累计数量随时间变化的可视化图。

根据本发明实施例提供的一种团队讨论语料分析方法，所述方法还包括：根据所述话题簇对应话题沿时间线的词频速率的变化情况，所述自我激励参数、所述他人激励参数、所述间接联想参数及所述话题敏感度参数的估计值，所述团队成员发言时的词频速率及所述团队成员发言中的所述新信息的累计数量随时间变化的可视化图生成各个团队的综合评价报告；根据所述综合评价报告进行团队排名。

根据本发明实施例提供的一种团队讨论语料分析方法，所述生成各个团队的综合评价报告，包括：利用第一颜色的第一图形的大小表示团队成员对应的所述自我激励参数的大小，利用连接两个团队成员的所述第一图形的连线上的颜色深度及延伸长度表示所述两个团队成员的所述他人激励参数的大小；和/或，利用第二颜色的第二图形的大小表示团队成员的发言占比的大小，利用各个团队成员的连线交点表示团队参与度重心。

本发明实施例还提供一种团队讨论语料分析装置，包括：预处理模块，用于：获取团队讨论全过程的语料数据，对所述语料数据进行预处理；其中，所述预处理包括将所述语料数据进行分词处理，保留分词结果中预设词性的分词以及预设专有词汇，得到信息词汇的集合；分析模块，用于：计算所述信息词汇两两之间的关联性指标，将所述关联性指标的值大于预设阈值的所述信息词汇相连，得到认知地图。

本发明实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述团队讨论语料分析方法的步骤。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述团队讨论语料分析方法的步骤。

本发明实施例还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述团队讨论语料分析方法的步骤。

本发明实施例提供的团队讨论语料分析方法及装置，通过获取团队讨论全过程的语料数据，将语料数据进行分词处理，保留分词结果中预设词性的分词以及预设专有词汇，得到信息词汇的集合，计算信息词汇两两之间的关联性指标，将关联性指标的值大于预设阈值的信息词汇相连，得到认知地图，能够了解整个讨论涉及信息词汇的结构、信息词汇之间的关联关系，以及讨论过程出现的关联性强的信息词汇情况，有利于对团队讨论特点及效果进行评估，对团队讨论情况给出评价。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的团队讨论语料分析方法的流程示意图；

图2是本发明实施例提供的团队讨论语料分析方法中认知地图的示意图；

图3是本发明实施例提供的团队讨论语料分析方法中话题随时间涨落的示意图；

图4为本发明实施例提供的团队讨论语料分析方法中每名成员发言的词频速率随时间变化图；

图5为本发明实施例提供的团队讨论语料分析方法中每名成员发言中的新信息的累计数量随时间变化图；

图6为本发明实施例提供的团队讨论语料分析方法中综合评价示意图之一；

图7是本发明实施例提供的团队讨论语料分析方法中综合评价示意图之二；

图8是本发明实施例提供的团队讨论语料分析装置的结构示意图；

图9是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例提供的团队讨论语料分析方法的流程示意图。如图1所示，该方法包括：

步骤S1、获取团队讨论全过程的语料数据，对所述语料数据进行预处理；其中，所述预处理包括将所述语料数据进行分词处理，保留分词结果中预设词性的分词以及预设专有词汇，得到信息词汇的集合。

团队中包括至少两个团队成员。给定团队讨论全过程的语音或文字语料信息作为输入，统一转为分词格式，仅保留用户指定的词性(默认保留名词和动词)和用户指定的专有词汇(如相关领域中计算机不容易识别的词)。

若输入的语料数据中包括语音形式的语料，则可以将语音形式的语料转换成文本形式后，再对语料数据进行分词处理。语料数据本身包括时间信息，预处理后的得到的信息词汇仍然保留时间信息。

步骤S2、计算所述信息词汇两两之间的关联性指标，将所述关联性指标的值大于预设阈值的所述信息词汇相连，得到认知地图。

设置信息词汇间的关联性指标，用于描述信息词汇之间的关联关系。计算信息词汇两两之间的关联性指标，将关联性指标的值大于预设阈值的信息词汇相连，得到认知地图，信息词汇为认知地图中的点。如果某个信息词汇和任一信息词汇的关联性指标均不大于预设阈值，则该信息词汇可以不出现在认知地图中。

图2是本发明实施例提供的团队讨论语料分析方法中认知地图的示意图。认知地图能辅助研究者认识到讨论涉及信息的整体结构、信息之间的关联关系，以及讨论对认知图的遍历情况(比如出现了哪些关联性强的信息词汇)。

本发明实施例提供的团队讨论语料分析方法，通过获取团队讨论全过程的语料数据，将语料数据进行分词处理，保留分词结果中预设词性的分词以及预设专有词汇，得到信息词汇的集合，计算信息词汇两两之间的关联性指标，将关联性指标的值大于预设阈值的信息词汇相连，得到认知地图，能够了解整个讨论涉及信息词汇的结构、信息词汇之间的关联关系，以及讨论过程出现的关联性强的信息词汇情况，有利于对团队讨论特点及效果进行评估，对团队讨论情况给出评价。

将关联性指标设置为信息词汇之间的互信息，称为词间互信息。计算信息词汇两两之间的关联性指标(词间互信息)时，基于语料数据中两两信息词汇在预设距离内的共现次数，以及结合词向量数据集给出的词汇关联强度信息进行计算。

其中，预设距离用于表示两个信息词汇在语料数据中的距离。共现次数指共同出现的次数。词向量数据集可以采用第三方API接口数据，词向量数据集给出的词汇关联强度信息表示了一般场景中词与词之间的关联情况。

本发明实施例提供的团队讨论语料分析方法，通过基于语料数据中两两信息词汇在预设距离内的共现次数，以及结合词向量数据集给出的词汇关联强度信息，计算信息词汇两两之间的关联性指标，实现了关联性指标的准确确定。

可以根据信息词汇的来源语料归属的团队成员的信息，在认知地图中将信息词汇用不同的颜色进行标识，得到的认知地图能用以评估成员注意力在认知地图上的分配情况。

比如一个团队中有甲乙丙三位成员，将只是属于甲的语料得到的信息词汇(只是甲说的词汇)用红色表示，将只是属于乙的语料得到的信息词汇(只是乙说的词汇)用蓝色表示，将只是属于丙的语料得到的信息词汇(只是丙说的词汇)用绿色表示，将同时属于甲和乙的语料得到的信息词汇(甲和乙说的词汇)用红蓝的间色表示，将同时属于甲和丙的语料得到的信息词汇(甲和丙说的词汇)用红绿的间色表示，将同时属于乙和丙的语料得到的信息词汇(乙和丙说的词汇)用蓝绿的间色表示，将同时属于甲、乙及丙的信息词汇(甲、乙、丙说的词汇)用另外一种不同的颜色表示。当然，具体采用那种颜色来表示各类的信息词汇，不一定遵循上述规则，只要能够区分各类不同信息词汇即可。

本发明实施例提供的团队讨论语料分析方法，通过根据信息词汇的来源语料归属的团队成员的信息，在认知地图中将信息词汇用不同的颜色进行标识，可以实现评估成员注意力在认知地图上的分配情况。

认知地图中的节点为信息词汇，节点之间的连接关系为信息词汇之间的关联关系。将认知地图(包括节点及节点间的连接关系)输入到网络社群发现算法，可以实现对信息词汇进行分簇，得到的信息词汇的簇称为话题簇，也即话题簇中包含的多个信息词汇归属于同一话题。

本发明实施例提供的团队讨论语料分析方法，通过在认知地图上通过网络社群发现算法得到话题簇，能够辅助判断讨论所涉及的话题，为进行团队讨论中的话题分析提供基础。

词频速率可以定义为单位时间内(如1分钟)出现的词汇的数量。话题簇对应话题的词频速率是指话题簇中包含的信息词汇在单位时间内出现的数量。随着讨论的进行，话题簇对应话题的词频速率可能不断变化，可以体现为沿着时间线词频速率的涨落变化，能够体现团队整体对各个话题的注意力随时间的变化情况，能够反映话题讨论的聚焦情况、受欢迎的话题，以及话题之间可能存在的关联性。

图3是本发明实施例提供的团队讨论语料分析方法中话题随时间涨落的示意图。图3中，T1、T2、T3、T4表示不同话题。

本发明实施例提供的团队讨论语料分析方法，通过展示话题簇对应话题沿时间线的词频速率的变化情况，有利于实现团队整体对各个话题的注意力随时间的变化情况，话题讨论的聚焦情况、受欢迎的话题，以及话题之间可能存在的关联性的分析。

基于认知地图给出讨论过程的多元Hawkes(霍克斯)过程建模，拟合团队讨论过程。在指定的衰减参数和背景速率大小下，将对每个团队分别进行估计，得到每名成员的特性参数估计。模型中使用自我激励、他人激励、间接联想、话题敏感度四个特性参数刻画一个成员在讨论过程中表现出的特性。

霍克斯过程为多维过程。建模时，将认知地图中的每个信息词汇建模为霍克斯过程的一个维度，利用自我激励参数、他人激励参数、间接联想参数及话题敏感度参数定义信息词汇之间的激励。设定衰减参数和背景速率，输入语料数据，得到自我激励参数、他人激励参数、间接联想参数及话题敏感度参数的估计值。

其中，自我激励参数用于表示个人的思路活跃程度基础值，可以理解为自己说的话对自己未来说的话的激励大小；他人激励参数用于表示个人对他人注意力的大小，可以理解为别人说的话对自己未来说的话的激励大小；间接联想参数用于表示个人的联想激励相对直接激励的大小，个人联想激励表示个人的信息词汇受到不直接相连的其他信息词汇的激励，可以理解为与自己说的信息词汇不直接相连的信息词汇对自己未来说的话的激励大小，直接激励表示个人的信息词汇受到直接相连的信息词汇的激励，可以理解为与自己说的信息词汇直接相连的信息词汇对自己未来说的话的激励大小；话题敏感度参数表示个人对认知地图上的话题簇的敏感程度，可以理解为话题簇中的信息词汇对自己未来说的话的激励大小。

一名成员思路的整体活跃水平主要由自我激励参数与他人激励参数的尺度大小决定；而这两个参数的相对大小则反映了某个成员对团队内其他人所付出的注意力相对大小。比如，成员1，自我激励参数和他人激励参数分别为4、3，成员2，自我激励参数和他人激励参数分别为40、8，则成员1对团队内其他人所付出的注意力相对更大。

霍克斯建模能够给出每个成员的四个特性参数(包括自我激励参数、他人激励参数、间接联想参数及话题敏感度参数)的估计值，分别刻画了每个成员的特定特性，能够辅助研究者了解成员的参与情况、特点和可能面临的问题，如思路局限、分神等。

本发明实施例提供的团队讨论语料分析方法，通过基于认知地图给出讨论过程的多元霍克斯过程建模，可以能够给出团队成员包括自我激励参数、他人激励参数、间接联想参数及话题敏感度参数的四个特性参数的估计值，能够辅助研究者了解成员的讨论参与情况及特点。

语料数据在预处理后可以给出团队中各个成员的角色动态图，其中包括团队成员发言时的词频速率随时间变化的可视化图。根据语料数据获取团队成员发言时的词频速率，展示词频速率随时间变化的可视化图。

图4为本发明实施例提供的团队讨论语料分析方法中每名成员发言的词频速率随时间变化图。成员发言的词频速率随时间变化图可以用以评估成员的积极性随时间的变化情况，以及团队内部的交互模式倾向于快速交替的集中讨论，还是轮流进行长篇发言的严肃讨论。图4中，P1、P2、P3表示不同成员。

本发明实施例提供的团队讨论语料分析方法，通过根据语料数据获取团队成员发言时的词频速率，展示词频速率随时间变化的可视化图，能够评估成员的积极性随时间的变化情况以及团队内部的交互模式。

根据预处理后的语料数据获取团队成员发言中提到的新信息，可以通过新的信息词汇表示新信息(或新想法)的出现，并累计新信息的数量，展示团队成员发言中的新信息的累计数量随时间变化的可视化图。

图5为本发明实施例提供的团队讨论语料分析方法中每名成员发言中的新信息的累计数量随时间变化图。每名成员发言中的新信息的累计数量随时间变化图可以用以评估成员在讨论过程中的创新性贡献程度，以及新思路产生情况随时间的变化等。图5中，P1、P2、P3表示不同成员。

本发明实施例提供的团队讨论语料分析方法，通过根据预处理后的语料数据获取团队成员发言中提到的新信息，展示团队成员发言中的新信息的累计数量随时间变化的可视化图，能够评估成员在讨论过程中的创新性贡献程度以及新思路产生情况随时间的变化情况。

根据话题簇对应话题沿时间线的词频速率的变化情况可以进行团队整体对各个话题的注意力随时间的变化情况，话题讨论的聚焦情况、受欢迎的话题，以及话题之间可能存在的关联性的分析。

根据自我激励参数、他人激励参数、间接联想参数及话题敏感度参数的估计值，能够辅助研究者了解成员的讨论参与情况及特点。

根据团队成员发言时的词频速率及团队成员发言中的新信息的累计数量随时间变化的可视化图，评估成员的积极性随时间的变化情况，以及团队内部的交互模式倾向于快速交替的集中讨论，还是轮流进行长篇发言的严肃讨论。并且，还可以将各个成员的团队成员发言时的词频速率及团队成员发言中的新信息的累计数量随时间变化的可视化图进行整合，得到整个团队发言时的词频速率及新信息的累计数量随时间变化的可视化图。

因此，经过上述分析可以得到各个团队及团队成员主要关注的话题、讨论的策略风格、各个特性参数的数值，以及思维跳转和话题涨落的可视化图。可以基于上述各种分析结果生成各个团队的综合评价报告。可以通过设定评价指标根据综合评价报告进行团队排名。如整个团队发言时的各个时间点新信息的累计数量越大，则表示新想法越多。另外，还可以将各个团队的话题簇汇总得到所有团队汇总形成的总话题空间情况。

本发明实施例可以用于评价小组头脑风暴乃至其他团队讨论过程中，各个成员的特点和表现水平，从而为企业、高校等在与小组讨论相关的面试环节中评价被试方提供信息参考。

本发明实施例提供的团队讨论语料分析方法，通过根据话题簇对应话题沿时间线的词频速率的变化情况，自我激励参数、他人激励参数、间接联想参数及话题敏感度参数的估计值，团队成员发言时的词频速率及团队成员发言中的新信息的累计数量随时间变化的可视化图生成各个团队的综合评价报告，根据综合评价报告进行团队排名，实现了各个团队的比较。

其中，第一图形和第二图形可以相同，比如都为圆形。

图6为本发明实施例提供的团队讨论语料分析方法中综合评价示意图之一。如图6所示，通过图示的方式示出了团队中成员1、成员2及成员3的自我激励参数及他人激励参照的大小。其中，可以利用每个成员处的红色圆圈代表其自我激励参数的大小，利用成员之间圆圈的连线的颜色深度及延伸长度表示两个团队成员的他人激励参数的大小。在用成员之间圆圈的连线的颜色深度及延伸长度表示两个团队成员的他人激励参数的大小时，由于两个成员均存在他人激励参数的值，表征某个成员的他人激励参数大小的颜色深度将从相应成员处的圆圈处开始延伸，他人激励参数越大，颜色越深，延伸长度越长，表示该成员接受对方成员的激励更多。可以视为每个成员对其他成员的他人激励参数均相同。

图7是本发明实施例提供的团队讨论语料分析方法中综合评价示意图之二。如图7所示，通过图示的方式示出了团队中成员1、成员2及成员3的发言占比的大小，并利用各个团队成员的连线交点表示团队参与度重心。其中，可以利用每个成员处的蓝色圆圈代表其发言占比(可以基于该成员的信息词汇的数量进行统计)的大小，三个箭头汇聚点为团队参与度重心。重心偏向于哪个成员，表示该成员在团队讨论中的参与度更高。

图6、图7中每个成员头像旁边的Self处的柱状图代表成员自我激励参数的大小，Other处的柱状图代表成员他人激励参数的大小。

本发明实施例提供的团队讨论语料分析方法，通过利用第一颜色的第一图形的大小表示团队成员对应的自我激励参数的大小，利用连接两个团队成员的第一图形的连线上的颜色深度及延伸长度表示两个团队成员的他人激励参数的大小；和/或，利用第二颜色的第二图形的大小表示团队成员的发言占比的大小，利用各个团队成员的连线交点表示团队参与度重心，可以实现团队中各个成员的比较及综合评价，有利于发现贡献最大、活跃度最高的成员。

本发明实施例提供的团队讨论语料分析方法，主要涉及决策分析、自然语言处理和统计分析领域。以多人团队讨论过程的语音(或文字语料)作为输入，通过自然语言处理、词间互信息计算、知识图谱构建、Hawkes过程拟合等统计方法，定性和定量评估各个成员在讨论过程中表现的特点及其差异，能够给出讨论的话题分布、认知地图、能够对讨论的整个时间序列上话题的涨落进行可视化，并能给出对应Hawkes过程中，每名成员的自我激励参数(表征个人的思路活跃程度基础值)、他人激励参数(表征个人对他人注意力的大小)、联想激励参数(表征个人联想激励相对直接激励的大小)、簇敏感度参数(表征个人对认知地图上话题簇的敏感程度)等分析结果。

需要说明的是，本实施例所给出的多个优选实施方式，在逻辑或结构相互不冲突的前提下，可以自由组合，本发明对此不做限定。

下面对本发明实施例提供的团队讨论语料分析装置进行描述，下文描述的团队讨论语料分析装置与上文描述的团队讨论语料分析方法可相互对应参照。

图8是本发明实施例提供的团队讨论语料分析装置的结构示意图。如图8所示，该装置包括预处理模块10及分析模块20，其中：预处理模块10用于：获取团队讨论全过程的语料数据，对所述语料数据进行预处理；其中，所述预处理包括将所述语料数据进行分词处理，保留分词结果中预设词性的分词以及预设专有词汇，得到信息词汇的集合；分析模块20用于：计算所述信息词汇两两之间的关联性指标，将所述关联性指标的值大于预设阈值的所述信息词汇相连，得到认知地图。

本发明实施例提供的团队讨论语料分析装置，通过获取团队讨论全过程的语料数据，将语料数据进行分词处理，保留分词结果中预设词性的分词以及预设专有词汇，得到信息词汇的集合，计算信息词汇两两之间的关联性指标，将关联性指标的值大于预设阈值的信息词汇相连，得到认知地图，能够了解整个讨论涉及信息词汇的结构、信息词汇之间的关联关系，以及讨论过程出现的关联性强的信息词汇情况，有利于对团队讨论特点及效果进行评估，对团队讨论情况给出评价。

根据本发明实施例提供的一种团队讨论语料分析装置，所述关联性指标为词间互信息；分析模块20在用于计算所述信息词汇两两之间的关联性指标时，具体用于：基于所述语料数据中两两所述信息词汇在预设距离内的共现次数，以及结合词向量数据集给出的词汇关联强度信息，计算所述信息词汇两两之间的关联性指标。

本发明实施例提供的团队讨论语料分析装置，通过基于语料数据中两两信息词汇在预设距离内的共现次数，以及结合词向量数据集给出的词汇关联强度信息，计算信息词汇两两之间的关联性指标，实现了关联性指标的准确确定。

根据本发明实施例提供的一种团队讨论语料分析装置，分析模块20还用于根据所述信息词汇的来源语料归属的团队成员的信息，在所述认知地图中将所述信息词汇用不同的颜色进行标识。

本发明实施例提供的团队讨论语料分析装置，通过根据信息词汇的来源语料归属的团队成员的信息，在认知地图中将信息词汇用不同的颜色进行标识，可以实现评估成员注意力在认知地图上的分配情况。

根据本发明实施例提供的一种团队讨论语料分析装置，分析模块20还用于在所述认知地图上通过网络社群发现算法得到话题簇；其中，所述话题簇包括多个所述信息词汇。

本发明实施例提供的团队讨论语料分析装置，通过在认知地图上通过网络社群发现算法得到话题簇，能够辅助判断讨论所涉及的话题，为进行团队讨论中的话题分析提供基础。

根据本发明实施例提供的一种团队讨论语料分析装置，分析模块20还用于展示所述话题簇对应话题沿时间线的词频速率的变化情况。

本发明实施例提供的团队讨论语料分析装置，通过展示话题簇对应话题沿时间线的词频速率的变化情况，有利于实现团队整体对各个话题的注意力随时间的变化情况，话题讨论的聚焦情况、受欢迎的话题，以及话题之间可能存在的关联性的分析。

根据本发明实施例提供的一种团队讨论语料分析装置，分析模块20还用于将所述认知地图中的每个所述信息词汇建模为霍克斯过程的一个维度，利用自我激励参数、他人激励参数、间接联想参数及话题敏感度参数定义所述信息词汇之间的激励；设定衰减参数和背景速率，输入所述语料数据，得到所述自我激励参数、所述他人激励参数、所述间接联想参数及所述话题敏感度参数的估计值；其中，所述自我激励参数用于表示个人的思路活跃程度基础值；所述他人激励参数用于表示个人对他人注意力的大小；所述间接联想参数用于表示个人的联想激励相对直接激励的大小，所述联想激励表示个人的所述信息词汇受到不直接相连的其他所述信息词汇的激励，所述直接激励表示个人的所述信息词汇受到直接相连的所述信息词汇的激励；所述话题敏感度参数表示个人对所述认知地图上的所述话题簇的敏感程度。

本发明实施例提供的团队讨论语料分析装置，通过基于认知地图给出讨论过程的多元霍克斯过程建模，可以能够给出团队成员包括自我激励参数、他人激励参数、间接联想参数及话题敏感度参数的四个特性参数的估计值，能够辅助研究者了解成员的讨论参与情况及特点。

根据本发明实施例提供的一种团队讨论语料分析装置，分析模块20还用于根据预处理后的所述语料数据获取团队成员发言时的词频速率；展示所述词频速率随时间变化的可视化图。

本发明实施例提供的团队讨论语料分析装置，通过根据语料数据获取团队成员发言时的词频速率，展示词频速率随时间变化的可视化图，能够评估成员的积极性随时间的变化情况以及团队内部的交互模式。

根据本发明实施例提供的一种团队讨论语料分析装置，分析模块20还用于根据预处理后的所述语料数据获取团队成员发言中提到的新信息；展示团队成员发言中的所述新信息的累计数量随时间变化的可视化图。

本发明实施例提供的团队讨论语料分析装置，通过根据预处理后的语料数据获取团队成员发言中提到的新信息，展示团队成员发言中的新信息的累计数量随时间变化的可视化图，能够评估成员在讨论过程中的创新性贡献程度以及新思路产生情况随时间的变化情况。

根据本发明实施例提供的一种团队讨论语料分析装置，分析模块20还用于根据所述话题簇对应话题沿时间线的词频速率的变化情况，所述自我激励参数、所述他人激励参数、所述间接联想参数及所述话题敏感度参数的估计值，所述团队成员发言时的词频速率及所述团队成员发言中的所述新信息的累计数量随时间变化的可视化图生成各个团队的综合评价报告；根据所述综合评价报告进行团队排名。

本发明实施例提供的团队讨论语料分析装置，通过根据话题簇对应话题沿时间线的词频速率的变化情况，自我激励参数、他人激励参数、间接联想参数及话题敏感度参数的估计值，团队成员发言时的词频速率及团队成员发言中的新信息的累计数量随时间变化的可视化图生成各个团队的综合评价报告，根据综合评价报告进行团队排名，实现了各个团队的比较。

根据本发明实施例提供的一种团队讨论语料分析装置，分析模块在用于生成各个团队的综合评价报告时，具体用于：利用第一颜色的第一图形的大小表示团队成员对应的所述自我激励参数的大小，利用连接两个团队成员的所述第一图形的连线上的颜色深度及延伸长度表示所述两个团队成员的所述他人激励参数的大小；和/或，利用第二颜色的第二图形的大小表示团队成员的发言占比的大小，利用各个团队成员的连线交点表示团队参与度重心。

本发明实施例提供的团队讨论语料分析装置，通过利用第一颜色的第一图形的大小表示团队成员对应的自我激励参数的大小，利用连接两个团队成员的第一图形的连线上的颜色深度及延伸长度表示两个团队成员的他人激励参数的大小；和/或，利用第二颜色的第二图形的大小表示团队成员的发言占比的大小，利用各个团队成员的连线交点表示团队参与度重心，可以实现团队中各个成员的比较及综合评价，有利于发现贡献最大、活跃度最高的成员。

图9是本发明实施例提供的电子设备的结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行团队讨论语料分析方法，该方法包括：获取团队讨论全过程的语料数据，对所述语料数据进行预处理；其中，所述预处理包括将所述语料数据进行分词处理，保留分词结果中预设词性的分词以及预设专有词汇，得到信息词汇的集合；计算所述信息词汇两两之间的关联性指标，将所述关联性指标的值大于预设阈值的所述信息词汇相连，得到认知地图。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的团队讨论语料分析方法，该方法包括：获取团队讨论全过程的语料数据，对所述语料数据进行预处理；其中，所述预处理包括将所述语料数据进行分词处理，保留分词结果中预设词性的分词以及预设专有词汇，得到信息词汇的集合；计算所述信息词汇两两之间的关联性指标，将所述关联性指标的值大于预设阈值的所述信息词汇相连，得到认知地图。

又一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的团队讨论语料分析方法，该方法包括：获取团队讨论全过程的语料数据，对所述语料数据进行预处理；其中，所述预处理包括将所述语料数据进行分词处理，保留分词结果中预设词性的分词以及预设专有词汇，得到信息词汇的集合；计算所述信息词汇两两之间的关联性指标，将所述关联性指标的值大于预设阈值的所述信息词汇相连，得到认知地图。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种团队讨论语料分析方法，其特征在于，包括：

获取团队讨论全过程的语料数据，对所述语料数据进行预处理；其中，所述预处理包括将所述语料数据进行分词处理，保留分词结果中预设词性的分词以及预设专有词汇，得到信息词汇的集合；

计算所述信息词汇两两之间的关联性指标，将所述关联性指标的值大于预设阈值的所述信息词汇相连，得到认知地图。

2.根据权利要求1所述的团队讨论语料分析方法，其特征在于，所述关联性指标为词间互信息；所述计算所述信息词汇两两之间的关联性指标，包括：

基于所述语料数据中两两所述信息词汇在预设距离内的共现次数，以及结合词向量数据集给出的词汇关联强度信息，计算所述信息词汇两两之间的关联性指标。

3.根据权利要求1所述的团队讨论语料分析方法，其特征在于，所述方法还包括：

根据所述信息词汇的来源语料归属的团队成员的信息，在所述认知地图中将所述信息词汇用不同的颜色进行标识。

4.根据权利要求1所述的团队讨论语料分析方法，其特征在于，所述方法还包括：

在所述认知地图上通过网络社群发现算法得到话题簇；其中，所述话题簇包括多个所述信息词汇。

5.根据权利要求4所述的团队讨论语料分析方法，其特征在于，所述方法还包括：

展示所述话题簇对应话题沿时间线的词频速率的变化情况。

6.根据权利要求5所述的团队讨论语料分析方法，其特征在于，所述方法还包括：

将所述认知地图中的每个所述信息词汇建模为霍克斯过程的一个维度，利用自我激励参数、他人激励参数、间接联想参数及话题敏感度参数定义所述信息词汇之间的激励；

设定衰减参数和背景速率，输入所述语料数据，得到所述自我激励参数、所述他人激励参数、所述间接联想参数及所述话题敏感度参数的估计值；

其中，所述自我激励参数用于表示个人的思路活跃程度基础值；所述他人激励参数用于表示个人对他人注意力的大小；所述间接联想参数用于表示个人的联想激励相对直接激励的大小，所述联想激励表示个人的所述信息词汇受到不直接相连的其他所述信息词汇的激励，所述直接激励表示个人的所述信息词汇受到直接相连的所述信息词汇的激励；所述话题敏感度参数表示个人对所述认知地图上的所述话题簇的敏感程度。

7.根据权利要求6所述的团队讨论语料分析方法，其特征在于，所述方法还包括：

根据预处理后的所述语料数据获取团队成员发言时的词频速率；

展示所述词频速率随时间变化的可视化图。

8.根据权利要求7所述的团队讨论语料分析方法，其特征在于，所述方法还包括：

根据预处理后的所述语料数据获取团队成员发言中提到的新信息；

展示团队成员发言中的所述新信息的累计数量随时间变化的可视化图。

9.根据权利要求8所述的团队讨论语料分析方法，其特征在于，所述方法还包括：

根据所述话题簇对应话题沿时间线的词频速率的变化情况，所述自我激励参数、所述他人激励参数、所述间接联想参数及所述话题敏感度参数的估计值，所述团队成员发言时的词频速率及所述团队成员发言中的所述新信息的累计数量随时间变化的可视化图生成各个团队的综合评价报告；

根据所述综合评价报告进行团队排名。

10.根据权利要求9所述的团队讨论语料分析方法，其特征在于，所述生成各个团队的综合评价报告，包括：

利用第一颜色的第一图形的大小表示团队成员对应的所述自我激励参数的大小，利用连接两个团队成员的所述第一图形的连线上的颜色深度及延伸长度表示所述两个团队成员的所述他人激励参数的大小；

和/或，

利用第二颜色的第二图形的大小表示团队成员的发言占比的大小，利用各个团队成员的连线交点表示团队参与度重心。

11.一种团队讨论语料分析装置，其特征在于，包括：

预处理模块，用于：获取团队讨论全过程的语料数据，对所述语料数据进行预处理；其中，所述预处理包括将所述语料数据进行分词处理，保留分词结果中预设词性的分词以及预设专有词汇，得到信息词汇的集合；

分析模块，用于：计算所述信息词汇两两之间的关联性指标，将所述关联性指标的值大于预设阈值的所述信息词汇相连，得到认知地图。

12.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至10任一项所述团队讨论语料分析方法的步骤。

13.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述团队讨论语料分析方法的步骤。

14.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10任一项所述团队讨论语料分析方法的步骤。