CN111797599A

CN111797599A - 一种会议记录抽取与ppt插入方法与系统

Info

Publication number: CN111797599A
Application number: CN202010616804.XA
Authority: CN
Inventors: 沈之锐
Original assignee: Shaoguan Qizhi Information Technology Co ltd
Current assignee: Shaoguan Qizhi Information Technology Co ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2020-10-20

Abstract

在会议中获取演讲者的语音数据自动转换为文本数据，做分句、分词，做非负矩阵分解，获得会议话题列表，判断出前后无法连接形成话题的孤立句子，判断所述孤立句子是否在topK个话题中；获取PPT内容；通过ImageCaption技术，将PPT中的图像转化为图像文本描述，并将所述图像文本描述与所述去噪后会议内容文本进行相似度匹配；最终获得去除了会议噪音并包含有PPT的会议记录内容。本发明通过将会议中上下文无关联的噪音去除，能有效的降低自动会议记录产生大量话题噪音的问题。并且基于更加重要核心的话题去提取PPT内容，又使PPT内容更加具有精确度，使会议记录更加突出重点，值得阅读。

Description

一种会议记录抽取与PPT插入方法与系统

技术领域

本发明涉及计算机应用技术领域，尤其涉及一种会议记录抽取与PPT插入方法与系统。

背景技术

疫情期间，大部分会议都是线上会议，这种会议如果有会议记录，能够很好的对内容进行重点总结，能够给没有时间在直播的时候参加会议的人，给出总结的内容，方便查看和阅读。会议内容的自动记录，将参加会议的人的语音内容通过语音识别技术识别为文本内容，并记录下来，能够节省人工录入的时间成本，但是因为自动，也会导致格式没有人工整理那么规范。而且跟会议无关的发音也被记录。例如，跟讨论话题无关的，“把PPT打开，把音量开大点”，“我先喝口水”，甚至因为一些用户的麦克风没有关掉，会把跟会议无关，生活录音内容也录进去，造成语音识别的会议内容有很多杂音和不规范的文本。没有话题依赖关系的发言，不具有记录的价值，而且导致会议记录不严谨。没有人工记录那么具有真实意义，应该被去除。

另一方面，由于会议的讲解经常会需要根据PPT来讲。而一张PPT要能够让用户看清，经常需要放大到半个页面。当PPT很多时，会导致文档很长，而实际有些PPT并不是重要内容。例如，PPT的插入到会议纪要中，有些内容对某种PPT的内容讲解得多，有些讲解得少。需要将有价值的PPT插入到里面。将不重要的剔除。根据内容中，显示某张PPT的时间，以及根据在谈话中是否提到PPT内容，来进行判断PPT的价值。

发明内容

本发明提供了一种会议记录抽取与PPT插入方法与系统用于自动将会议记录进去去除杂音并将关键PPT插入其中。

本发明提供了一种会议记录抽取与PPT插入方法与系统，主要包括以下步骤：

在会议中获取演讲者的语音数据，通过语音识别技术，自动转换为文本数据，做分句、分词，并基于scikit-learn工具做非负矩阵分解，获得会议话题列表，判断出前后无法连接形成话题的孤立句子，所述孤立句子是指所述句子即不跟上文有关联又不跟下文有关联；判断所述孤立句子是否在topK个话题中，若否，删除所述孤立句子；删除所有的所述孤立句子后，获得去噪后会议内容文本；获取PPT内容；通过ImageCaption技术，将PPT中的图像转化为图像文本描述，并将所述图像文本描述与所述去噪后会议内容文本进行相似度匹配；如果相似度大于预设的阈值，则将所述PPT插入到会议记录之中，如果相似度小于预设的阈值，则PPT不插入到会议记录；最终获得会议记录。最终获得去除了会议噪音并包含有PPT的会议记录内容。

进一步可选地，如上所述的方法中，所述在会议中获取演讲者的语音数据，通过语音识别技术，自动转换为文本数据，主要包括：

获取参与会议发言的所有人员的语音内容，将语音数据通过语音识别接口转换为文本内容，所述语音识别接口采用百度或者科大讯飞的语音识别API接口。

进一步可选地，如上所述的方法中，所述做分句、分词，并基于scikit-learn工具做非负矩阵分解，获得会议话题列表，主要包括：

采用哈工大LTP自然语言处理工具对所述文本数据做分句、分词处理，获取分词后的词语，经过L1正则化处理，调用sklearn.decomposition.NMF包，进行非负矩阵分解，获得描述全部会议内容的话题列表。

进一步可选地，如上所述的方法中，所述判断出前后无法连接形成话题的孤立句子，主要包括：

获取文本中所有具有前后顺序关系的第一句子，第二句子，第三句子；将所述第一句子中的所有词语，与所述第二句子中的所有词语，通过程序做并集处理，所述并集大于等于两个词，判断所述并集中的词语是否与所述会议话题列表存在交集，并且交集的词语同时存在于第一句子与第二句子；若否，则通过相同的处理方法，继续判断所述第二句子与所述第三句子的词语的并集是否存在于所述会议话题列表中，若两次判断的结果都为否。则说明，所述第二句子即不跟上文关联又不跟下文关联，因此确定第二句子，为孤立句子；判断第三句子是否为孤立句子的方法，与判断第二句子类似，只需再判断它与第四句子的词语并集，是否与所述会议话题列表存在交集，并且交集的词语同时存在于第三句子与第四句子；后续判断第N个句子是否为孤立句子的方法，以此类推。

进一步可选地，如上所述的方法中，所述判断所述孤立句子是否在topK个话题中，若否，删除所述孤立句子，主要包括：

获得孤立句子后，对句子进行分词，并与所述话题列表中最重要的topk个话题匹配，看看是否相似度大于阈值，若是，保留所述孤立句子，若否，移除所述孤立句子。

进一步可选地，如上所述的方法中，所述删除所有的所述孤立句子后，获得去噪后会议内容文本；获取PPT内容，通过ImageCaption技术，将PPT中的图像转化为图像文本描述，将所述图像文本描述与所述去噪后会议内容文本进行相似度匹配，主要包括：

删除所有孤立句子，获得去除了噪音的会议内容文本，将所述会议内容文本与PPT的图像文本描述进行相似度匹配；所述获取PPT内容，通过PPT文本抽取工具将PPT内的文字转化为文本内容，获得PPT内文本；通过训练好的ImageCaption模型，对PPT内的图片进行处理，生成PPT图片文本描述；合并所述PPT内文本与PPT图片文本描述，合并后称为PPT文本描述，针对每一张PPT的文本描述，都与所述去除了噪音的会议内容文本进行相似度匹配。

进一步可选地，如上所述的方法中，所述针对每一张PPT的文本描述，都与所述去除了噪音的会议内容文本进行相似度匹配，主要包括：

获取会议中每一张PPT从开始播放到被切换的时间间隔区间，将所述时间间隔区间作为获取会议内容文本的内容区间，所述会议内容文本只取所述内容区间与所述PPT文本描述进行相似度匹配。

进一步可选地，如上所述的方法中，所述如果相似度大于预设的阈值，则将所述PPT插入到会议记录之中，如果相似度小于预设的阈值，则所述PPT不插入会议记录，主要包括：

判断每一张PPT的文本描述，与会议内容文本进行相似度匹配的相似度，是否大于阈值；如果是，进一步，判断PPT对应的内容，是否在所述话题列表的最重要的topK个话题中，如果是，将所述PPT插入到会议记录里，并且将PPT插入到与所述会议内容文本相似度最高的段落，作为插入位置；如果否，则说明所述PPT为非重要的PPT内容，不用插入到会议记录里；

本发明提供了一种会议记录抽取与PPT插入系统，所述系统包括：

会议语音内容处理模块，用于对语音格式的会议内容进行转换和预处理；

文本内容话题挖掘模块，用于对会议内容进行挖掘，获得最重要的topK个主题内容；

孤立话题提取与剔除模块，用于对前后文不相关的噪音数据进行去除；

PPT内容抽取与生成模块，用于对PPT内容进行处理，并生成描述，方便与去除过噪音的会议内容进行匹配；

PPT内容与会议内容匹配模块，用于匹配有价值的PPT，将有价值的PPT内容插入会议记录中。

本发明实施例提供的技术方案可以包括以下有益效果：

本发明通过将会议中上下文无关联的噪音去除，能有效的降低自动会议记录产生大量话题噪音的问题。并且基于更加重要核心的话题去提取PPT内容，又使PPT内容更加具有精确度，能够自动的，准确的将会议中提到的最重要的PPT自动插入到会议记录中，减少了会议记录插入了无关紧要的PPT内容，使会议记录更加突出重点，值得阅读。

附图说明

图1为本发明的会议记录抽取与PPT插入方法实施例的流程图。

图2为本发明的会议记录抽取与PPT插入系统实施例的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

图1为本发明的一种会议记录抽取与PPT插入方法的流程图。如图1所示，本实施例一种会议记录抽取与PPT插入方法具体可以包括如下步骤：

步骤101，在会议中获取演讲者的语音数据，通过语音识别技术，自动转换为文本数据。

获取参与会议发言的所有人员的语音内容，将语音数据通过语音识别接口转换为文本内容，所述识别接口采用百度或者科大讯飞的语音识别API接口。

例如通过语音接口可以获得以下内容的文本：

“一直没有建立专门的人力资源部，招聘也是由各部门独立完成。

你好，请再给我倒杯水谢谢。

最近公司刚刚经过一次股权变更，新任的总经理迫切希望改变公司人力资源管理现状。

于是希望我来建立起公司的人事管理。

按照总经理的思路，需要先梳理各部门职责，确定公司的组织架构框架。”

步骤102，做分句、分词，并基于scikit-learn工具做非负矩阵分解，获得会议话题列表。

采用哈工大LTP自然语言处理工具对所述文本数据做分句、分词处理，获取分词后的词语，经过L1正则化处理，调用sklearn.decomposition.NMF包，进行非负矩阵分解，获得描述全部会议内容的话题列表。通过非负矩阵分解获得的话题列表，是针对全部话题进行的话题排序，它可以识别出全部文本中，正在讲的大概有哪些话题，这些话题是通过多个词语的集合来描述一个话题的。最后通过非负矩阵分解跑出来的数据类似下面的结果：

1.人力资源、招聘、部门、人事、...

2.股权、人员、招聘、组建、...

3.组织结构、经理、梳理、有效、搭建、...

4, 销售、税收、避税、业绩、...

以上是通过程序跑出来之后的样例，每一个话题都有大量的，不固定词语量的词语组成，但它们总体可以构建成一个领域的话题。话题列表是根据与整篇文档的相关性降序排列的。例如话题1 就比话题4更加重要，我们可以推断全文中讲解人力资源的内容，多于讲解销售方面的内容。话题很多，当文本量大时，可以有上千个。但是排名在第一千位的话题，一般都是很不重要的话题。以上的程序输出结果，可以通过NMF算法工具，或者LDA算法工具实现。

步骤103，判断出前后无法连接形成话题的孤立句子。

通过上面的例子来举例说明。例如在步骤一中的举例句子。

首先，第一个句子和第二个句子中的词语，做并集处理。就是将句子进行分词，合并去重。得到：“ 一直、没有、建立、专门、的、人力资源部、招聘、部门、独立完成、你好、请、再给、我、倒、杯水、谢谢”

其次，各个并集中所有的词语，都通过设计好的python程序，与步骤二中处理过后得到的话题列表，逐个进行匹配。看看是否存在交集。例如，发现第一个句子和第二个句子中的词语的并集与第一个话题存在‘招聘、部门’的交集。接下去判断，交集的词语是否同时存在于第一句子与第二句子。判断结果是，它只存在于第一个句子中，跟第二个句子无关。因此它不满足跟上文的关联。接下去，相同的道理，计算第二第三个句子的关联度，也是跟上面的步骤一样，只是变换了句子序号。同样经历，获取并集，取交集，判断是否交集内词语同时分布于上下两个句子。最后，发现第二个句子也没有出现在话题中，因此“你好，请再给我倒杯水谢谢”它是一个孤立句子。

步骤104，判断所述孤立句子是否在topK个话题中，若否，删除所述孤立句子。

获得孤立句子后，进一步的，判断所述孤立句子是否本身就是会议内容中的重要话题之一，通过对句子进行分词，并与最重要的topk个话题匹配，看看是否相似度大于阈值，若是，保留所述孤立句子，若否，移除所述孤立句子。例如，通过步骤103获得的孤立句子“你好，请再给我倒杯水谢谢”是否存在前topK个例如300个话题中，发现前面的话题基本都匹配不到相似度大于0.01的，因此它不属于前面三百个话题内，可以推断它跟会议内容无关。可以在会议记录里将这个句子删除，以去除噪音数据。对会议内容去除噪音的原因除了能够避免将不重要的会议内容引入到会议记录里，避免人们看会议记录时莫名其妙看到其他无关内容。另外也能在后面关于PPT的插入筛选上，避免噪音数据导致的相似度算法误差，而导致误插入PPT。

步骤105，当删除所有所述孤立句子后，删除所有的所述孤立句子后，获得去噪后会议内容文本；获取PPT内容，通过ImageCaption技术，将PPT中的图像转化为图像文本描述，将所述图像文本描述与所述去噪后会议内容文本进行相似度匹配。

删除所有孤立句子，获得去除了噪音的会议内容文本，将所述会议内容文本与PPT的图像文本描述进行相似度匹配；所述获取PPT内容，通过PPT文本抽取工具将PPT内的文字转化为文本内容，获得PPT内文本；通过训练好的ImageCaption模型，对PPT内的图片进行处理，生成PPT图片文本描述；合并所述PPT内文本与PPT图片文本描述，合并后称为PPT文本描述，针对每一张PPT的文本描述，都与所述去除了噪音的会议内容文本进行相似度匹配。其中，ImageCaption模型的训练方法，与现有的深度学习基于端到端技术的ImageCaption生成方式一样，它属于公知技术，在此不展开描述。PPT包含有图片和文字内容，由于图片无法直接与文字进行相似度匹配，因此需要将图片内容转换为文字表示，将图片生成的文字描述与PPT内部的文字合并起来。就可以完整的描述一张PPT的所有内容。通过这一完整内容，与步骤104获取的以及经过去除噪音的会议内容文本进行匹配，能够很好的起到最优质的匹配效果。因为如果会议内容本身就是有噪音的，那么跟PPT匹配会导致噪音内容可能将不重要的PPT匹配到而，误插入到会议内容中，导致会议内容杂乱冗余。如果可以匹配到去除了噪音的会议内容，说明该PPT是会议内容的重要部分，应该保留。如果匹配不到，说明这一张PPT内容不重要，它可能只是过渡标题的PPT或者一些没有实用价值的PPT，无需被保留。以免占用了会议记录的篇幅，增加了更多的翻页动作却无法获取有价值的内容信息。

步骤106，如果相似度大于预设的阈值，则该PPT为用于演讲过程中的PPT，将该PPT插入到语音内容之中。

例如，研究者播放第3张PPT时的时间是从9:45:37 开始，到9:48:34切换到第四张PPT，因此他在这段时间的录音内容，会被转化为文本内容。而这第四张PPT在步骤106中获得的文本描述，也只与在9:45:37至9:48:34 这段时间内，获得的文本内容匹配而已。如果演讲者打开一个PPT但是讲解内容并无关这个PPT描述的内容，则这个PPT就是一个不重要的PPT。

判断每一张PPT的文本描述，与会议内容文本进行相似度匹配的相似度，是否大于阈值。如果是，进一步，判断PPT对应的内容，是否在所述话题列表的最重要的topK个话题中，将所述PPT插入到会议记录里，插入位置是插入到与会议内容相似度最高的段落里，例如在9:45:37至9:48:34的演讲内容共有5段话，这些内容都包含在一张PPT内，并且他们都包含在步骤102分析得到的最重要的前300个话题中，那么与PPT内容最相近的那段话的上面或者下面可以插入PPT内容；如果相似度小于阈值，或者不在最重要的topK个话题中，则确定所述PPT为非重要的PPT内容，不插入到会议记录里；最终获得，去除了会议噪音并包含有重要的PPT的会议记录。

用于实现本发明进行信息控制的程序，可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、python、C++，还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）或处理器（processor）执行本发明各个实施例所述方法的部分步骤。

而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-Only Memory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种会议记录抽取与PPT插入方法，其特征在于，所述方法包括：

在会议中获取演讲者的语音数据，通过语音识别技术，自动转换为文本数据，做分句、分词，并基于scikit-learn工具做非负矩阵分解，获得会议话题列表，判断出前后无法连接形成话题的孤立句子，所述孤立句子是指所述句子即不跟上文有关联又不跟下文有关联；判断所述孤立句子是否在topK个话题中，若否，删除所述孤立句子；删除所有的所述孤立句子后，获得去噪后会议内容文本；获取PPT内容；通过ImageCaption技术，将PPT中的图像转化为图像文本描述，并将所述图像文本描述与所述去噪后会议内容文本进行相似度匹配；如果相似度大于预设的阈值，则将所述PPT插入到会议记录之中，如果相似度小于预设的阈值，则所述PPT不插入会议记录；最终获得去除了会议噪音并包含有PPT的会议记录内容。

2.根据权利要求1所述的方法，其中，所述在会议中获取演讲者的语音数据，通过语音识别技术，自动转换为文本数据，主要包括：

3.根据权利要求1所述的方法，其中，所述做分句、分词，并基于scikit-learn工具做非负矩阵分解，获得会议话题列表，主要包括：

4.根据权利要求1所述的方法，其中，所述判断出前后无法连接形成话题的孤立句子，主要包括：

5.根据权利要求1所述的方法，其中，所述判断所述孤立句子是否在topK个话题中，若否，删除所述孤立句子，主要包括：

6.根据权利要求1所述的方法，其中，所述删除所有的所述孤立句子后，获得去噪后会议内容文本；获取PPT内容，通过ImageCaption技术，将PPT中的图像转化为图像文本描述，将所述图像文本描述与所述去噪后会议内容文本进行相似度匹配，主要包括：

7.根据权利要求6所述的方法，其中，所述针对每一张PPT的文本描述，都与所述去除了噪音的会议内容文本进行相似度匹配，主要包括：

8.根据权利要求1所述的方法，其中，所述如果相似度大于预设的阈值，并且PPT对应的内容在topK个话题中，则将所述PPT插入到会议记录之中，如果相似度小于预设的阈值，则所述PPT不插入会议记录，主要包括：

判断每一张PPT的文本描述，与会议内容文本进行相似度匹配的相似度，是否大于阈值；如果是，进一步，判断PPT对应的内容，是否在所述话题列表的最重要的topK个话题中，如果是，将所述PPT插入到会议记录里，并且将PPT插入到与所述会议内容文本相似度最高的段落，作为插入位置；如果否，则说明所述PPT为非重要的PPT内容，不用插入到会议记录里。

9.一种会议记录抽取与PPT插入系统，其特征在于，所述系统包括：