CN111797599A - 一种会议记录抽取与ppt插入方法与系统 - Google Patents
一种会议记录抽取与ppt插入方法与系统 Download PDFInfo
- Publication number
- CN111797599A CN111797599A CN202010616804.XA CN202010616804A CN111797599A CN 111797599 A CN111797599 A CN 111797599A CN 202010616804 A CN202010616804 A CN 202010616804A CN 111797599 A CN111797599 A CN 111797599A
- Authority
- CN
- China
- Prior art keywords
- ppt
- conference
- content
- sentence
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000605 extraction Methods 0.000 title claims description 10
- 238000012966 insertion method Methods 0.000 title description 2
- 238000000034 method Methods 0.000 claims abstract description 37
- 101100481876 Danio rerio pbk gene Proteins 0.000 claims abstract description 17
- 101100481878 Mus musculus Pbk gene Proteins 0.000 claims abstract description 17
- 238000005516 engineering process Methods 0.000 claims abstract description 14
- 230000011218 segmentation Effects 0.000 claims abstract description 13
- 238000000354 decomposition reaction Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims abstract description 11
- 238000012545 processing Methods 0.000 claims description 15
- 238000003780 insertion Methods 0.000 claims description 10
- 230000037431 insertion Effects 0.000 claims description 10
- 238000005065 mining Methods 0.000 claims description 4
- 230000000717 retained effect Effects 0.000 claims description 4
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000003672 processing method Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 230000007115 recruitment Effects 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 4
- 101710129069 Serine/threonine-protein phosphatase 5 Proteins 0.000 description 2
- 101710199542 Serine/threonine-protein phosphatase T Proteins 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 229920000470 poly(p-phenylene terephthalate) polymer Polymers 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/194—Calculation of difference between files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Library & Information Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Transfer Between Computers (AREA)
Abstract
在会议中获取演讲者的语音数据自动转换为文本数据,做分句、分词,做非负矩阵分解,获得会议话题列表,判断出前后无法连接形成话题的孤立句子,判断所述孤立句子是否在topK个话题中;获取PPT内容;通过ImageCaption技术,将PPT中的图像转化为图像文本描述,并将所述图像文本描述与所述去噪后会议内容文本进行相似度匹配;最终获得去除了会议噪音并包含有PPT的会议记录内容。本发明通过将会议中上下文无关联的噪音去除,能有效的降低自动会议记录产生大量话题噪音的问题。并且基于更加重要核心的话题去提取PPT内容,又使PPT内容更加具有精确度,使会议记录更加突出重点,值得阅读。
Description
技术领域
本发明涉及计算机应用技术领域,尤其涉及一种会议记录抽取与PPT插入方法与系统。
背景技术
疫情期间,大部分会议都是线上会议,这种会议如果有会议记录,能够很好的对内容进行重点总结,能够给没有时间在直播的时候参加会议的人,给出总结的内容,方便查看和阅读。会议内容的自动记录,将参加会议的人的语音内容通过语音识别技术识别为文本内容,并记录下来,能够节省人工录入的时间成本,但是因为自动,也会导致格式没有人工整理那么规范。而且跟会议无关的发音也被记录。例如,跟讨论话题无关的,“把PPT打开,把音量开大点”,“我先喝口水”,甚至因为一些用户的麦克风没有关掉,会把跟会议无关,生活录音内容也录进去,造成语音识别的会议内容有很多杂音和不规范的文本。没有话题依赖关系的发言,不具有记录的价值,而且导致会议记录不严谨。没有人工记录那么具有真实意义,应该被去除。
另一方面,由于会议的讲解经常会需要根据PPT来讲。而一张PPT要能够让用户看清,经常需要放大到半个页面。当PPT很多时,会导致文档很长,而实际有些PPT并不是重要内容。例如,PPT的插入到会议纪要中,有些内容对某种PPT的内容讲解得多,有些讲解得少。需要将有价值的PPT插入到里面。将不重要的剔除。根据内容中,显示某张PPT的时间,以及根据在谈话中是否提到PPT内容,来进行判断PPT的价值。
发明内容
本发明提供了一种会议记录抽取与PPT插入方法与系统用于自动将会议记录进去去除杂音并将关键PPT插入其中。
本发明提供了一种会议记录抽取与PPT插入方法与系统,主要包括以下步骤:
在会议中获取演讲者的语音数据,通过语音识别技术,自动转换为文本数据,做分句、分词,并基于scikit-learn工具做非负矩阵分解,获得会议话题列表,判断出前后无法连接形成话题的孤立句子,所述孤立句子是指所述句子即不跟上文有关联又不跟下文有关联;判断所述孤立句子是否在topK个话题中,若否,删除所述孤立句子;删除所有的所述孤立句子后,获得去噪后会议内容文本;获取PPT内容;通过ImageCaption技术,将PPT中的图像转化为图像文本描述,并将所述图像文本描述与所述去噪后会议内容文本进行相似度匹配;如果相似度大于预设的阈值,则将所述PPT插入到会议记录之中,如果相似度小于预设的阈值,则PPT不插入到会议记录;最终获得会议记录。最终获得去除了会议噪音并包含有PPT的会议记录内容。
进一步可选地,如上所述的方法中,所述在会议中获取演讲者的语音数据,通过语音识别技术,自动转换为文本数据 ,主要包括:
获取参与会议发言的所有人员的语音内容,将语音数据通过语音识别接口转换为文本内容,所述语音识别接口采用百度或者科大讯飞的语音识别API接口。
进一步可选地,如上所述的方法中,所述做分句、分词,并基于scikit-learn工具做非负矩阵分解,获得会议话题列表 ,主要包括:
采用哈工大LTP自然语言处理工具对所述文本数据做分句、分词处理,获取分词后的词语,经过L1正则化处理,调用sklearn.decomposition.NMF包,进行非负矩阵分解,获得描述全部会议内容的话题列表。
进一步可选地,如上所述的方法中,所述判断出前后无法连接形成话题的孤立句子,主要包括:
获取文本中所有具有前后顺序关系的第一句子,第二句子,第三句子;将所述第一句子中的所有词语,与所述第二句子中的所有词语,通过程序做并集处理,所述并集大于等于两个词,判断所述并集中的词语是否与所述会议话题列表存在交集,并且交集的词语同时存在于第一句子与第二句子;若否,则通过相同的处理方法,继续判断所述第二句子与所述第三句子的词语的并集是否存在于所述会议话题列表中,若两次判断的结果都为否。则说明,所述第二句子即不跟上文关联又不跟下文关联,因此确定第二句子,为孤立句子;判断第三句子是否为孤立句子的方法,与判断第二句子类似,只需再判断它与第四句子的词语并集,是否与所述会议话题列表存在交集,并且交集的词语同时存在于第三句子与第四句子;后续判断第N个句子是否为孤立句子的方法,以此类推。
进一步可选地,如上所述的方法中,所述判断所述孤立句子是否在topK个话题中,若否,删除所述孤立句子,主要包括:
获得孤立句子后,对句子进行分词,并与所述话题列表中最重要的topk个话题匹配,看看是否相似度大于阈值,若是,保留所述孤立句子,若否,移除所述孤立句子。
进一步可选地,如上所述的方法中,所述删除所有的所述孤立句子后,获得去噪后会议内容文本;获取PPT内容 ,通过ImageCaption技术,将PPT中的图像转化为图像文本描述,将所述图像文本描述与所述去噪后会议内容文本进行相似度匹配,主要包括:
删除所有孤立句子,获得去除了噪音的会议内容文本,将所述会议内容文本与PPT的图像文本描述进行相似度匹配;所述获取PPT内容,通过PPT文本抽取工具将PPT内的文字转化为文本内容,获得PPT内文本;通过训练好的ImageCaption模型,对PPT内的图片进行处理,生成PPT图片文本描述;合并所述PPT内文本与PPT图片文本描述,合并后称为PPT文本描述,针对每一张PPT的文本描述,都与所述去除了噪音的会议内容文本进行相似度匹配。
进一步可选地,如上所述的方法中,所述针对每一张PPT的文本描述,都与所述去除了噪音的会议内容文本进行相似度匹配,主要包括:
获取会议中每一张PPT从开始播放到被切换的时间间隔区间,将所述时间间隔区间作为获取会议内容文本的内容区间,所述会议内容文本只取所述内容区间与所述PPT文本描述进行相似度匹配。
进一步可选地,如上所述的方法中,所述如果相似度大于预设的阈值,则将所述PPT插入到会议记录之中,如果相似度小于预设的阈值,则所述PPT不插入会议记录,主要包括:
判断每一张PPT的文本描述,与会议内容文本进行相似度匹配的相似度,是否大于阈值;如果是,进一步,判断PPT对应的内容,是否在所述话题列表的最重要的topK个话题中,如果是,将所述PPT插入到会议记录里,并且将PPT插入到与所述会议内容文本相似度最高的段落,作为插入位置;如果否,则说明所述PPT为非重要的PPT内容,不用插入到会议记录里;
本发明提供了一种会议记录抽取与PPT插入系统,所述系统包括:
会议语音内容处理模块,用于对语音格式的会议内容进行转换和预处理;
文本内容话题挖掘模块,用于对会议内容进行挖掘,获得最重要的topK个主题内容;
孤立话题提取与剔除模块,用于对前后文不相关的噪音数据进行去除;
PPT内容抽取与生成模块,用于对PPT内容进行处理,并生成描述,方便与去除过噪音的会议内容进行匹配;
PPT内容与会议内容匹配模块,用于匹配有价值的PPT,将有价值的PPT内容插入会议记录中。
本发明实施例提供的技术方案可以包括以下有益效果:
本发明通过将会议中上下文无关联的噪音去除,能有效的降低自动会议记录产生大量话题噪音的问题。并且基于更加重要核心的话题去提取PPT内容,又使PPT内容更加具有精确度,能够自动的,准确的将会议中提到的最重要的PPT自动插入到会议记录中,减少了会议记录插入了无关紧要的PPT内容,使会议记录更加突出重点,值得阅读。
附图说明
图1为本发明的会议记录抽取与PPT插入方法实施例的流程图。
图2为本发明的会议记录抽取与PPT插入系统实施例的结构图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图1为本发明的一种会议记录抽取与PPT插入方法的流程图。如图1所示,本实施例一种会议记录抽取与PPT插入方法具体可以包括如下步骤:
步骤101,在会议中获取演讲者的语音数据,通过语音识别技术,自动转换为文本数据。
获取参与会议发言的所有人员的语音内容,将语音数据通过语音识别接口转换为文本内容,所述识别接口采用百度或者科大讯飞的语音识别API接口。
例如通过语音接口可以获得以下内容的文本:
“一直没有建立专门的人力资源部,招聘也是由各部门独立完成。
你好,请再给我倒杯水谢谢。
最近公司刚刚经过一次股权变更,新任的总经理迫切希望改变公司人力资源管理现状。
于是希望我来建立起公司的人事管理。
按照总经理的思路,需要先梳理各部门职责,确定公司的组织架构框架。”
步骤102,做分句、分词,并基于scikit-learn工具做非负矩阵分解,获得会议话题列表。
采用哈工大LTP自然语言处理工具对所述文本数据做分句、分词处理,获取分词后的词语,经过L1正则化处理,调用sklearn.decomposition.NMF包,进行非负矩阵分解,获得描述全部会议内容的话题列表。通过非负矩阵分解获得的话题列表,是针对全部话题进行的话题排序,它可以识别出全部文本中,正在讲的大概有哪些话题,这些话题是通过多个词语的集合来描述一个话题的。最后通过非负矩阵分解跑出来的数据类似下面的结果:
1.人力资源、招聘、部门、人事、...
2.股权、人员、招聘、组建、...
3.组织结构、经理、梳理、有效、搭建、...
4, 销售、税收、避税、业绩、...
以上是通过程序跑出来之后的样例,每一个话题都有大量的,不固定词语量的词语组成,但它们总体可以构建成一个领域的话题。话题列表是根据与整篇文档的相关性降序排列的。例如话题1 就比话题4更加重要,我们可以推断全文中讲解人力资源的内容,多于讲解销售方面的内容。话题很多,当文本量大时,可以有上千个。但是排名在第一千位的话题,一般都是很不重要的话题。以上的程序输出结果,可以通过NMF算法工具,或者LDA算法工具实现。
步骤103,判断出前后无法连接形成话题的孤立句子。
获取文本中所有具有前后顺序关系的第一句子,第二句子,第三句子;将所述第一句子中的所有词语,与所述第二句子中的所有词语,通过程序做并集处理,所述并集大于等于两个词,判断所述并集中的词语是否与所述会议话题列表存在交集,并且交集的词语同时存在于第一句子与第二句子;若否,则通过相同的处理方法,继续判断所述第二句子与所述第三句子的词语的并集是否存在于所述会议话题列表中,若两次判断的结果都为否。则说明,所述第二句子即不跟上文关联又不跟下文关联,因此确定第二句子,为孤立句子;判断第三句子是否为孤立句子的方法,与判断第二句子类似,只需再判断它与第四句子的词语并集, 是否与所述会议话题列表存在交集,并且交集的词语同时存在于第三句子与第四句子;后续判断第N个句子是否为孤立句子的方法,以此类推。
通过上面的例子来举例说明。例如在步骤一中的举例句子。
首先,第一个句子和第二个句子中的词语,做并集处理。就是将句子进行分词,合并去重。得到:“ 一直、没有、建立、专门、的、人力资源部、招聘、部门、独立完成、你好、请、再给、我、倒、杯水、谢谢”
其次,各个并集中所有的词语,都通过设计好的python程序,与步骤二中处理过后得到的话题列表,逐个进行匹配。看看是否存在交集。例如,发现第一个句子和第二个句子中的词语的并集与第一个话题存在‘招聘、部门’的交集。接下去判断,交集的词语是否同时存在于第一句子与第二句子。判断结果是,它只存在于第一个句子中,跟第二个句子无关。 因此它不满足跟上文的关联。接下去,相同的道理,计算第二第三个句子的关联度,也是跟上面的步骤一样,只是变换了句子序号。同样经历,获取并集,取交集,判断是否交集内词语同时分布于上下两个句子。最后,发现第二个句子也没有出现在话题中,因此“你好,请再给我倒杯水谢谢”它是一个孤立句子。
步骤104,判断所述孤立句子是否在topK个话题中,若否,删除所述孤立句子。
获得孤立句子后,进一步的,判断所述孤立句子是否本身就是会议内容中的重要话题之一,通过对句子进行分词,并与最重要的topk个话题匹配,看看是否相似度大于阈值,若是,保留所述孤立句子,若否,移除所述孤立句子。例如,通过步骤103获得的孤立句子“你好,请再给我倒杯水谢谢”是否存在前topK个例如300个话题中,发现前面的话题基本都匹配不到相似度大于0.01的,因此它不属于前面三百个话题内,可以推断它跟会议内容无关。可以在会议记录里将这个句子删除,以去除噪音数据。 对会议内容去除噪音的原因除了能够避免将不重要的会议内容引入到会议记录里,避免人们看会议记录时莫名其妙看到其他无关内容。另外也能在后面关于PPT的插入筛选上,避免噪音数据导致的相似度算法误差,而导致误插入PPT。
步骤105,当删除所有所述孤立句子后,删除所有的所述孤立句子后,获得去噪后会议内容文本;获取PPT内容 ,通过ImageCaption技术,将PPT中的图像转化为图像文本描述,将所述图像文本描述与所述去噪后会议内容文本进行相似度匹配。
删除所有孤立句子,获得去除了噪音的会议内容文本,将所述会议内容文本与PPT的图像文本描述进行相似度匹配;所述获取PPT内容,通过PPT文本抽取工具将PPT内的文字转化为文本内容,获得PPT内文本;通过训练好的ImageCaption模型,对PPT内的图片进行处理,生成PPT图片文本描述;合并所述PPT内文本与PPT图片文本描述,合并后称为PPT文本描述,针对每一张PPT的文本描述,都与所述去除了噪音的会议内容文本进行相似度匹配。其中,ImageCaption模型的训练方法,与现有的深度学习基于端到端技术的ImageCaption生成方式一样,它属于公知技术,在此不展开描述。PPT包含有图片和文字内容,由于图片无法直接与文字进行相似度匹配,因此需要将图片内容转换为文字表示,将图片生成的文字描述与PPT内部的文字合并起来。就可以完整的描述一张PPT的所有内容。通过这一完整内容,与步骤104获取的以及经过去除噪音的会议内容文本进行匹配,能够很好的起到最优质的匹配效果。因为如果会议内容本身就是有噪音的,那么跟PPT匹配会导致噪音内容可能将不重要的PPT匹配到而,误插入到会议内容中,导致会议内容杂乱冗余。如果可以匹配到去除了噪音的会议内容,说明该PPT是会议内容的重要部分,应该保留。如果匹配不到,说明这一张PPT内容不重要,它可能只是过渡标题的PPT或者一些没有实用价值的PPT,无需被保留。以免占用了会议记录的篇幅,增加了更多的翻页动作却无法获取有价值的内容信息。
步骤106,如果相似度大于预设的阈值,则该PPT为用于演讲过程中的PPT,将该PPT插入到语音内容之中。
获取会议中每一张PPT从开始播放到被切换的时间间隔区间,将所述时间间隔区间作为获取会议内容文本的内容区间,所述会议内容文本只取所述内容区间与所述PPT文本描述进行相似度匹配。
例如,研究者播放第3张PPT时的时间是从9:45:37 开始,到9:48:34切换到第四张PPT,因此他在这段时间的录音内容,会被转化为文本内容。而这第四张PPT在步骤106中获得的文本描述,也只与在9:45:37至9:48:34 这段时间内,获得的文本内容匹配而已。如果演讲者打开一个PPT但是讲解内容并无关这个PPT描述的内容,则这个PPT就是一个不重要的PPT。
判断每一张PPT的文本描述,与会议内容文本进行相似度匹配的相似度,是否大于阈值。如果是,进一步,判断PPT对应的内容,是否在所述话题列表的最重要的topK个话题中,将所述PPT插入到会议记录里,插入位置是插入到与会议内容相似度最高的段落里,例如在9:45:37至9:48:34的演讲内容共有5段话,这些内容都包含在一张PPT内,并且他们都包含在步骤102分析得到的最重要的前300个话题中,那么与PPT内容最相近的那段话的上面或者下面可以插入PPT内容;如果相似度小于阈值,或者不在最重要的topK个话题中,则确定所述PPT为非重要的PPT内容,不插入到会议记录里;最终获得,去除了会议噪音并包含有重要的PPT的会议记录。
用于实现本发明进行信息控制的程序,可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、python、C++,还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。
而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (9)
1.一种会议记录抽取与PPT插入方法,其特征在于,所述方法包括:
在会议中获取演讲者的语音数据,通过语音识别技术,自动转换为文本数据,做分句、分词,并基于scikit-learn工具做非负矩阵分解,获得会议话题列表,判断出前后无法连接形成话题的孤立句子,所述孤立句子是指所述句子即不跟上文有关联又不跟下文有关联;判断所述孤立句子是否在topK个话题中,若否,删除所述孤立句子;删除所有的所述孤立句子后,获得去噪后会议内容文本;获取PPT内容;通过ImageCaption技术,将PPT中的图像转化为图像文本描述,并将所述图像文本描述与所述去噪后会议内容文本进行相似度匹配;如果相似度大于预设的阈值,则将所述PPT插入到会议记录之中,如果相似度小于预设的阈值,则所述PPT不插入会议记录;最终获得去除了会议噪音并包含有PPT的会议记录内容。
2.根据权利要求1所述的方法,其中,所述在会议中获取演讲者的语音数据,通过语音识别技术,自动转换为文本数据 ,主要包括:
获取参与会议发言的所有人员的语音内容,将语音数据通过语音识别接口转换为文本内容,所述语音识别接口采用百度或者科大讯飞的语音识别API接口。
3.根据权利要求1所述的方法,其中,所述做分句、分词,并基于scikit-learn工具做非负矩阵分解,获得会议话题列表 ,主要包括:
采用哈工大LTP自然语言处理工具对所述文本数据做分句、分词处理,获取分词后的词语,经过L1正则化处理,调用sklearn.decomposition.NMF包,进行非负矩阵分解,获得描述全部会议内容的话题列表。
4.根据权利要求1所述的方法,其中,所述 判断出前后无法连接形成话题的孤立句子,主要包括:
获取文本中所有具有前后顺序关系的第一句子,第二句子,第三句子;将所述第一句子中的所有词语,与所述第二句子中的所有词语,通过程序做并集处理,所述并集大于等于两个词,判断所述并集中的词语是否与所述会议话题列表存在交集,并且交集的词语同时存在于第一句子与第二句子;若否,则通过相同的处理方法,继续判断所述第二句子与所述第三句子的词语的并集是否存在于所述会议话题列表中,若两次判断的结果都为否。则说明,所述第二句子即不跟上文关联又不跟下文关联,因此确定第二句子,为孤立句子;判断第三句子是否为孤立句子的方法,与判断第二句子类似,只需再判断它与第四句子的词语并集,是否与所述会议话题列表存在交集,并且交集的词语同时存在于第三句子与第四句子;后续判断第N个句子是否为孤立句子的方法,以此类推。
5.根据权利要求1所述的方法,其中,所述判断所述孤立句子是否在topK个话题中,若否,删除所述孤立句子,主要包括:
获得孤立句子后,对句子进行分词,并与所述话题列表中最重要的topk个话题匹配,看看是否相似度大于阈值,若是,保留所述孤立句子,若否,移除所述孤立句子。
6.根据权利要求1所述的方法,其中,所述删除所有的所述孤立句子后,获得去噪后会议内容文本;获取PPT内容 ,通过ImageCaption技术,将PPT中的图像转化为图像文本描述,将所述图像文本描述与所述去噪后会议内容文本进行相似度匹配,主要包括:
删除所有孤立句子,获得去除了噪音的会议内容文本,将所述会议内容文本与PPT的图像文本描述进行相似度匹配;所述获取PPT内容,通过PPT文本抽取工具将PPT内的文字转化为文本内容,获得PPT内文本;通过训练好的ImageCaption模型,对PPT内的图片进行处理,生成PPT图片文本描述;合并所述PPT内文本与PPT图片文本描述,合并后称为PPT文本描述,针对每一张PPT的文本描述,都与所述去除了噪音的会议内容文本进行相似度匹配。
7.根据权利要求6所述的方法,其中,所述针对每一张PPT的文本描述,都与所述去除了噪音的会议内容文本进行相似度匹配,主要包括:
获取会议中每一张PPT从开始播放到被切换的时间间隔区间,将所述时间间隔区间作为获取会议内容文本的内容区间,所述会议内容文本只取所述内容区间与所述PPT文本描述进行相似度匹配。
8.根据权利要求1所述的方法,其中,所述如果相似度大于预设的阈值,并且PPT对应的内容在topK个话题中,则将所述PPT插入到会议记录之中,如果相似度小于预设的阈值,则所述PPT不插入会议记录,主要包括:
判断每一张PPT的文本描述,与会议内容文本进行相似度匹配的相似度,是否大于阈值;如果是,进一步,判断PPT对应的内容,是否在所述话题列表的最重要的topK个话题中,如果是,将所述PPT插入到会议记录里,并且将PPT插入到与所述会议内容文本相似度最高的段落,作为插入位置;如果否,则说明所述PPT为非重要的PPT内容,不用插入到会议记录里。
9.一种会议记录抽取与PPT插入系统,其特征在于,所述系统包括:
会议语音内容处理模块,用于对语音格式的会议内容进行转换和预处理;
文本内容话题挖掘模块,用于对会议内容进行挖掘,获得最重要的topK个主题内容;
孤立话题提取与剔除模块,用于对前后文不相关的噪音数据进行去除;
PPT内容抽取与生成模块,用于对PPT内容进行处理,并生成描述,方便与去除过噪音的会议内容进行匹配;
PPT内容与会议内容匹配模块,用于匹配有价值的PPT,将有价值的PPT内容插入会议记录中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010616804.XA CN111797599A (zh) | 2020-06-30 | 2020-06-30 | 一种会议记录抽取与ppt插入方法与系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010616804.XA CN111797599A (zh) | 2020-06-30 | 2020-06-30 | 一种会议记录抽取与ppt插入方法与系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111797599A true CN111797599A (zh) | 2020-10-20 |
Family
ID=72810935
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010616804.XA Withdrawn CN111797599A (zh) | 2020-06-30 | 2020-06-30 | 一种会议记录抽取与ppt插入方法与系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797599A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492375A (zh) * | 2020-10-26 | 2022-05-13 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置、电子设备以及计算机可读存储介质 |
CN115396726A (zh) * | 2022-08-01 | 2022-11-25 | 陈兵 | 一种用于商务直播的演示文稿生成系统及方法 |
CN115859970A (zh) * | 2021-09-24 | 2023-03-28 | 青岛聚看云科技有限公司 | 服务器及字幕生成方法 |
CN117577115A (zh) * | 2024-01-15 | 2024-02-20 | 杭州讯意迪科技有限公司 | 一种智慧型无纸化会议系统 |
-
2020
- 2020-06-30 CN CN202010616804.XA patent/CN111797599A/zh not_active Withdrawn
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114492375A (zh) * | 2020-10-26 | 2022-05-13 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置、电子设备以及计算机可读存储介质 |
CN115859970A (zh) * | 2021-09-24 | 2023-03-28 | 青岛聚看云科技有限公司 | 服务器及字幕生成方法 |
CN115396726A (zh) * | 2022-08-01 | 2022-11-25 | 陈兵 | 一种用于商务直播的演示文稿生成系统及方法 |
CN115396726B (zh) * | 2022-08-01 | 2024-05-07 | 陈兵 | 一种用于商务直播的演示文稿生成系统及方法 |
CN117577115A (zh) * | 2024-01-15 | 2024-02-20 | 杭州讯意迪科技有限公司 | 一种智慧型无纸化会议系统 |
CN117577115B (zh) * | 2024-01-15 | 2024-03-29 | 杭州讯意迪科技有限公司 | 一种智慧型无纸化会议系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110517689B (zh) | 一种语音数据处理方法、装置及存储介质 | |
CN107993665B (zh) | 多人会话场景中发言人角色确定方法、智能会议方法及系统 | |
CN111797599A (zh) | 一种会议记录抽取与ppt插入方法与系统 | |
CN109509470B (zh) | 语音交互方法、装置、计算机可读存储介质及终端设备 | |
US8532994B2 (en) | Speech recognition using a personal vocabulary and language model | |
CN111785275A (zh) | 语音识别方法及装置 | |
CN113614825A (zh) | 用于自动语音识别的字词网格扩增 | |
CN111415128B (zh) | 控制会议的方法、系统、装置、设备和介质 | |
CN109256133A (zh) | 一种语音交互方法、装置、设备及存储介质 | |
CN111370030A (zh) | 语音情感检测方法与装置、存储介质、电子设备 | |
JP2012181358A (ja) | テキスト表示時間決定装置、テキスト表示システム、方法およびプログラム | |
WO2023048746A1 (en) | Speaker-turn-based online speaker diarization with constrained spectral clustering | |
US20210264812A1 (en) | Language learning system and method | |
CN112818109A (zh) | 邮件的智能回复方法、介质、装置和计算设备 | |
CN111046148A (zh) | 智能交互系统及智能客服机器人 | |
CN114254587A (zh) | 主题段落划分方法、装置、电子设备及存储介质 | |
CN117765932A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN113129895A (zh) | 一种语音检测处理系统 | |
US20230326369A1 (en) | Method and apparatus for generating sign language video, computer device, and storage medium | |
CN110099332B (zh) | 一种音频环境展示方法及装置 | |
CN115831125A (zh) | 语音识别方法、装置、设备、存储介质及产品 | |
US20230394854A1 (en) | Video-based chapter generation for a communication session | |
CN116187292A (zh) | 对话模板生成方法、装置及计算机可读存储介质 | |
CN113435902A (zh) | 一种基于语音信息分析的智能物流客服机器人 | |
CN117453895B (zh) | 一种智能客服应答方法、装置、设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201020 |
|
WW01 | Invention patent application withdrawn after publication |