CN109817245A - 会议纪要的生成方法、装置、计算机设备及存储介质 - Google Patents

会议纪要的生成方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN109817245A
CN109817245A CN201910044750.1A CN201910044750A CN109817245A CN 109817245 A CN109817245 A CN 109817245A CN 201910044750 A CN201910044750 A CN 201910044750A CN 109817245 A CN109817245 A CN 109817245A
Authority
CN
China
Prior art keywords
meeting
spokesman
minutes
voice messaging
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910044750.1A
Other languages
English (en)
Inventor
张誉怀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
Original Assignee
OneConnect Smart Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Smart Technology Co Ltd filed Critical OneConnect Smart Technology Co Ltd
Priority to CN201910044750.1A priority Critical patent/CN109817245A/zh
Publication of CN109817245A publication Critical patent/CN109817245A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种会议纪要的生成方法、装置、计算机设备及存储介质,包括:将会场中发言者的语音信息转换为表征所述语音信息声波的波形图;将所述波形图输入到预设的情绪识别模型中,其中,所述情绪识别模型为训练至收敛状态用于识别声波图像表征的用户情绪信息的神经网络模型;获取所述情绪识别模型输出的表示所述波形图的情绪信息的分类结果;根据所述分类结果对所述语音信息对应的会议记录进行标记记录,其中,所述标记记录用于生成会议纪要。通过识别发言者的情绪信息就能够得到发言者发言的重点内容,将该终端内容加以标记,使其成为会议纪要的内容,完成了对会议记录重点内容的提取,节省了人力成本。

Description

会议纪要的生成方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及数据处理领域,尤其是一种会议纪要的生成方法、装置、计算机设备及存储介质。
背景技术
会议记录是指在会议过程中,由记录人员把会议的组织情况和具体内容记录下来,就形成了会议记录。会议记录要求忠于事实,不能夹杂记录者的任何个人情感,更不允许有意增删发言内容。伴随着科学技术的发展,语音转换软件能够将会议的语音信息转换为文字记录。
现有技术中,用于会议记录的语音-文字转换工具,能够将会议中的每个人发言转换为文字文本,然后,由人工对转换后文字文本进行核对后,形成会议记录。
本发明创造的发明人在研究中发现,现有技术中会议记录使用的语音-文字转换工具虽然能够记录会议中每个人的发言,并将其转换为完整的文档。但是,并不能够对会议记录进行重点提取,形成会议纪要。而会议纪要的生成则需要记录着进行重点记录,然后结合转换后的会议文档形成简洁并标记有发言重点的会议纪要。因此,现有技术中使用的语音-文字转换工具只能机械的进行文字文档的生成,后期还需要大量的人工参与,对文字文档进行分割整理形成会议纪要。
发明内容
本发明实施例提供一种能够识别发言者语言表征的情绪波动,并根据该情绪波动对发言者的发言重点进行标记,以便于生成会议纪要的会议纪要的生成方法、装置、计算机设备及存储介质。
为解决上述技术问题,本发明创造的实施例采用的一个技术方案是:提供一种会议纪要的生成方法,包括:
将会场中发言者的语音信息转换为表征所述语音信息声波的波形图;
将所述波形图输入到预设的情绪识别模型中,其中,所述情绪识别模型为训练至收敛状态用于识别声波图像表征的用户情绪信息的神经网络模型;
获取所述情绪识别模型输出的表示所述波形图的情绪信息的分类结果;
根据所述分类结果对所述语音信息对应的会议记录进行标记记录,其中,所述标记记录用于生成会议纪要。
可选地,所述将会场中发言者的语音信息,并将所述语音信息转换为表征所述语音信息声波的波形图之前,还包括:
获取会场中发言者的语音信息;
将所述语音信息转换为文字信息,并将所述文字信息写入预设的会议记录文档中生成会议记录。
可选地,当所述分类结果表示的情绪信息波动较大时,所述根据所述分类结果对所述语音信息对应的会议记录进行标记记录包括:
读取会场中的会议记录;
在所述会议记录中查找与所述语音信息具有映射关系的目标字段;
将所述目标字段进行区别化渲染,以使所述目标字段区别于所述会议记录的常规字体。
可选地,将所述目标字段进行区别化渲染,以使所述目标字段区别于所述会议记录的常规字体之后,还包括:
提取所述会议记录中的所述目标字段;
将所述目标字段作为会议提纲写入至预设的纪要文本中生成所述会议纪要。
可选地,所述将所述语音信息转换为文字信息,并将所述文字信息写入预设的会议记录文档中生成会议记录之后,还包括:
获取会场中的参会者的人脸图像;
将所述人脸图像依次输入到预设的判断模型中,其中,所述判断模型为预先训练至收敛状态用于判断人脸图像是否处于发言状态的神经网络模型;
根据所述判断模型输出的判断结果确认所述参会者中的发言者。
可选地,所述根据所述判断模型输出的判断结果确认所述参会者中的发言者之后,还包括:
获取所述发言者的目标人脸图像;
将所述目标人脸图像输入到预设的识别模型中,其中,所述识别模型为预先训练至收敛状态用于提取人脸图像特征向量的神经网络模型;
以所述识别模型输出的所述目标人脸图像的特征向量为限定条件,在预设的参会者身份数据库中查询发言者的身份信息,其中,所述参会者身份数据库中包括各参会者的身份信息,且所述身份信息具有人脸图像的特征向量标签。
可选地,所述以所述识别模型输出的所述目标人脸图像的特征向量为限定条件,在预设的参会者身份数据库中查询发言者的身份信息之后,还包括:
获取所述身份信息中发言者的姓名信息;
以所述姓名信息为划分条件,将所述会议记录中不同发言者的发言内容进行区分。
为解决上述技术问题,本发明创造还提供一种会议纪要的生成装置,包括:
转换模块,用于将会场中发言者的语音信息转换为表征所述语音信息声波的波形图;
处理模块,用于将所述波形图输入到预设的情绪识别模型中,其中,所述情绪识别模型为训练至收敛状态用于识别声波图像表征的用户情绪信息的神经网络模型;
获取模块,用于获取所述情绪识别模型输出的表示所述波形图的情绪信息的分类结果;
执行模块,用于根据所述分类结果对所述语音信息对应的会议记录进行标记记录,其中,所述标记记录用于生成会议纪要。
可选地,所述会议纪要的生成装置还包括:
第一获取子模块,用于获取会场中发言者的语音信息;
第一处理子模块,用于将所述语音信息转换为文字信息,并将所述文字信息写入预设的会议记录文档中生成会议记录。
可选地,当所述分类结果表示的情绪信息波动较大时,所述会议纪要的生成装置还包括:
第一读取子模块,用于读取会场中的会议记录;
第一查找子模块,用于在所述会议记录中查找与所述语音信息具有映射关系的目标字段;
第一渲染子模块,用于将所述目标字段进行区别化渲染,以使所述目标字段区别于所述会议记录的常规字体。
可选地,所述会议纪要的生成装置还包括:
第一提取子模块,用于提取所述会议记录中的所述目标字段;
第一执行子模块,用于将所述目标字段作为会议提纲写入至预设的纪要文本中生成所述会议纪要。
可选地,所述会议纪要的生成装置还包括:
第二获取子模块,用于获取会场中的参会者的人脸图像;
第二处理子模块,用于将所述人脸图像依次输入到预设的判断模型中,其中,所述判断模型为预先训练至收敛状态用于判断人脸图像是否处于发言状态的神经网络模型;
第二执行子模块,用于根据所述判断模型输出的判断结果确认所述参会者中的发言者。
可选地,所述会议纪要的生成装置还包括:
第三获取子模块,用于获取所述发言者的目标人脸图像;
第三处理子模块,用于将所述目标人脸图像输入到预设的识别模型中,其中,所述识别模型为预先训练至收敛状态用于提取人脸图像特征向量的神经网络模型;
第三执行子模块,用于以所述识别模型输出的所述目标人脸图像的特征向量为限定条件,在预设的参会者身份数据库中查询发言者的身份信息,其中,所述参会者身份数据库中包括各参会者的身份信息,且所述身份信息具有人脸图像的特征向量标签。
可选地,所述会议纪要的生成装置还包括:
第四获取子模块,用于获取所述身份信息中发言者的姓名信息;
第四处理子模块,用于以所述姓名信息为划分条件,将所述会议记录中不同发言者的发言内容进行区分。
为解决上述技术问题,本发明创造还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述会议纪要的生成方法的步骤。
为解决上述技术问题,本发明创造还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述会议纪要的生成方法的步骤。
本发明实施例的有益效果是:通过将会场中发言者的语音信息转换为声波的波形图,然后,将波形图输入至被训练用于对波形图进行情绪判断的神经网络模型中,得到与语音信息对应的情绪信息,根据该情绪信息在会议记录中对发言者明显具有情绪波动的内容进行标记。由于,人们天性使然在讲到发言重点时,情绪会发生波动,而情绪的波动会直接导致发言者发声的腔调和音量发生变化,因此,通过识别发言者的情绪信息就能够得到发言者发言的重点内容,将该终端内容加以标记,使其成为会议纪要的内容,完成了对会议记录重点内容的提取,节省了人力成本,提高了会议纪要记录的准确性。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例会议纪要的生成方法的基本流程示意图;
图2为本发明实施例会议记录的一种生成方式的流程示意图;
图3为本发明实施例对情绪信息对应的目标字段进行的突出显示的流程示意图;
图4为本发明实施例生成会议纪要的一种流程示意图;
图5为本发明实施例识别发言者的流程示意图;
图6为本发明实施例通过人脸图像获取发言者身份信息的流程示意图;
图7为本发明实施例对会议记录进行分割的流程示意图;
图8为本发明实施例会议纪要的生成装置基本结构示意图;
图9为本发明实施例计算机设备基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
请参阅图1,图1为本实施例会议纪要的生成方法的基本流程示意图。
如图1所示,一种会议纪要的生成方法,包括:
S1100、将会场中发言者的语音信息转换为表征所述语音信息声波的波形图;
在会议进行中,发言者进行发言时,通过语音采集装置(例如(不限于):麦克风或话筒等声音收集装置)收集发言者的语音信息。然后,将语音信息进行保存,语音信息的保存格式为WAV格式。但不局限于此,根据具体应用场景的不同,在一些实施方式中,语音信息的保存格式能够为(不限于):MP3、WMA、FLAC、AAC、MMF、AMR、M4A、M4R、OGG或MP2等格式。
通过傅里叶变换将存储的语音信息转换为表征语音信息声波的波形图。在一些实施方式中,为控制波形图的尺寸,能够将语音信息通过时间切片成为等长的语音片段,然后将语音片段通过傅里叶变换转换为波形图。
S1200、将所述波形图输入到预设的情绪识别模型中,其中,所述情绪识别模型为训练至收敛状态用于识别声波图像表征的用户情绪信息的神经网络模型;
将生成的波形图输入到预先训练好的情绪识别模型中,本实施方式中情绪识别模型能够为已经训练至收敛状态的卷积神经网络模型(CNN),但是,不局限于此,情绪识别模型还能够是:深度神经网络模型(DNN)、循环神经网络模型(RNN)或者上述三种网络模型的变形模型。
作为情绪识别模型的初始神经网络模型在训练时,通过收集大量的声波波形图作为训练样本,通过人为或者已经训练完成的神经网络模型对训练样本进行标定(标定是指训练样本是否具有情绪波动)。然后将训练样本输入到初始的神经网络模型中,并获取模型输出的分类结果,并通过神经网络模型的损失函数计算该分类结果与标定结果之间的距离(例如:欧氏距离、马氏距离或余弦距离等),将计算结果与设定的距离阈值进行比对,若计算结果小于等于距离阈值则通过验证,继续进行下一个训练样本的训练,若计算结果大于距离阈值则则通过损失函数计算二者之间的差值,并通过反向传播校正神经网络模型内的权值,使神经网络模型能够提高训练样本中情绪波动明显位置像素点的权重,以此,增大判断的准确率。通过大量的训练样本,训练得到的对人脸图像的判断准确率大于一定数值的,例如,97%,则该神经网络模型训练至收敛状态,则该训练至收敛的神经网络即为情绪识别模型。
训练至收敛状态的情绪识别模型能够对波形图是否存在情绪波动做出准确的判断。
S1300、获取所述情绪识别模型输出的表示所述波形图的情绪信息的分类结果;
将波形图输入至情绪识别模型后,获得情绪识别模型输出的分类结果。本实施方式中,情绪识别模型设定的分类结果有两种:情绪具有波动和情绪平和两种。因此,分类结果也只有两种,即判断波形图中用户具有情绪波动和判断波形图中用户情绪平和两种结果。但是情绪识别模型的分类结果不局限于此,在一些实施方式中,为更加准确的判断用户情绪波动,分类结果被划分为不同的层级,例如:剧烈的情绪波动、一般情绪波动、微弱的情绪波动和无情绪波动。或者为了体现情绪波动引起的情绪变化的种类,将分类结果按照情绪进行分类,例如,分类结果为:悲伤的情绪波动、激昂的情绪波动、愤慨的情绪波动和无情绪波动。分类结果的设计取决于具体应用环境的需要和模型训练难度的综合结果,情绪检测越细腻的模型训练难度则越大。
S1400、根据所述分类结果对所述语音信息对应的会议记录进行标记记录,其中,所述标记记录用于生成会议纪要。
根据获取到的情绪识别模型输出的分类结果,对语音信息转换成的会议记录进行标记。会议记录为完整的记录整个会议发言的文本文档,而会议纪要则是记录会议重点内容的文本文档,因此,从产生顺序上会议纪要托生于会议记录,是会议记录的精华提取版本。
因此,当分类结果表明用户在说某一句话或者某一段话时出现情绪波动,则该发言部分为重点内容,需要在会议记录的对应位置处进行着重标记。而未出现情绪波动的发言,则无需进行着重标记,或者标记对应的文档为一般发言。着重标记应当使被标记对的文档或者字段有别于会议记录中常规的字体。例如,对情绪波动明显的字段进行加粗、变色、增大字号、划下划线或修改文档底色等方式,使情绪波动较为明显的字段进行突出显示。
上述实施方式通过将会场中发言者的语音信息转换为声波的波形图,然后,将波形图输入至被训练用于对波形图进行情绪判断的神经网络模型中,得到与语音信息对应的情绪信息,根据该情绪信息在会议记录中对发言者明显具有情绪波动的内容进行标记。由于,人们天性使然在讲到发言重点时,情绪会发生波动,而情绪的波动会直接导致发言者发声的腔调和音量发生变化,因此,通过识别发言者的情绪信息就能够得到发言者发言的重点内容,将该终端内容加以标记,使其成为会议纪要的内容,完成了对会议记录重点内容的提取,节省了人力成本,提高了会议纪要记录的准确性。
在一些实施方式中,在进行重点内容确定之前,需要通过语音转换的方式将语音信息转化为文字信息,并生成会议记录。请参阅图2,图2为本实施例会议记录的一种生成方式的流程示意图。
如图2所示,S1100之前还包括:
S1011、获取会场中发言者的语音信息;
在会议进行中,发言者进行发言时,通过语音采集装置(例如(不限于):麦克风或话筒等声音收集装置)收集发言者的语音信息。
S1012、将所述语音信息转换为文字信息,并将所述文字信息写入预设的会议记录文档中生成会议记录。
通过语音转换的应用程序将语音信息转换为文字信息,例如使用隐马尔科夫模型(HMM)和人工神经元网络(ANN)进行语音识别。将转换后得到的文字信息按次序写入到会议记录文档中,生成会场的会议记录。
通过语音转化功能进行会场会议记录,能够完整快速的完成会议记录的撰写,而快速的生成会议记录也为对会议纪要的重点内容标记提供了必要条件。
在一些实施方式中,在获取发言者情绪信息后,需要在会议记录中对情绪信息对应的目标字段进行渲染,以使其能够区别于会议记录中的常规字体,以方便用户阅读和会议纪要的生成。请参阅图3,图3为本实施例对情绪信息对应的目标字段进行的突出显示的流程示意图。
如图3所示,S1400还包括:
S1411、读取会场中的会议记录;
获取情绪识别模型输出的波形图的分类结果,当分类结果中记载的内容表示的意思为:情绪信息波动较大时。根据会议记录的存储位置读取会议记录。
S1412、在所述会议记录中查找与所述语音信息具有映射关系的目标字段;
会议记录是由语音信息转换后得到的,而用于判断发言者情绪信息的波形图也是由语音信息转化的,因此,每个波形图在会议记录中均由一个字段与其对应,与波形图对应的字段被定义为目标字段,目标字段能够为一段文字,也能够为一个文字或者一个音节。
S1413、将所述目标字段进行区别化渲染,以使所述目标字段区别于所述会议记录的常规字体。
由于,目标字段记录的内容为引起发言者情绪变化的内容,因此,属于发言者发言内容的重点内容,需要在会议记录的对应位置处进行着重标记。着重标记应当使被标记对的目标字段有别于会议记录中常规的字体。例如,对目标字段在会议文档常规字体的基础上字段进行加粗、变色、增大字号、划下划线或修改文档底色等渲染方式,使目标字段在进行突出显示。
对于记录内容能够引起发言者情绪波动的目标字段进行渲染,使其能够区别于会议记录使用的常规字体进行显示,有便于人们阅读发言者的发言重点,也能够方便会议纪要生成时对会议文档的重点内容的提取。
在一些实施方式中,对表征发言者情绪波动明显的目标字段进行突出显示后,提取目标字段的内容生成会议纪要。请参阅图4,图4为本实施例生成会议纪要的一种流程示意图。
如图4所示,S1413之后还包括:
S1421、提取所述会议记录中的所述目标字段;
在将目标字段在会议记录中进行着重标记后,对会议记录中的目标字段进行提取,提取的方式与与目标字段的突出显示规则相关。例如,若目标字段的突出显示方式为加粗字号,则提取的策略为提取会议记录中的加粗字段。
S1422、将所述目标字段作为会议提纲写入至预设的纪要文本中生成所述会议纪要。
将提取的目标字段作为会议提纲进行提取,并将提取的提纲内容归类至发言人的名下,将提取的会议提纲写入到空白的纪要文本中生成会议纪要。纪要文本为设置的带有格式的文本文档,文本文档的控件中写明会议纪要的字体信息,写入时直接套用该字体信息完成会议纪要的写入。
在一些实施方式中,在会场发言的发言者并非同一个人,当会场具有多个发言者且发言者发言的位置也不同时,如何确定参会者中是谁在进行发言成为会议记录的难点。请参阅图5,图5为本实施例识别发言者的流程示意图。
如图5所示,S1012之后还包括:
S1021、获取会场中的参会者的人脸图像;
通过设置在会场的摄像头或者多个摄像头,对参会者的人脸图像进行采。上述人脸图像能够是单个的人脸图像,也能够是多个人脸图像的的集合。
S1022、将所述人脸图像依次输入到预设的判断模型中,其中,所述判断模型为预先训练至收敛状态用于判断人脸图像是否处于发言状态的神经网络模型;
将采集的人脸图像输入到预先训练至收敛的判断模型中,本实施方式中判断模型能够为已经训练至收敛状态的卷积神经网络模型(CNN),但是,不局限于此,判断模型还能够是:深度神经网络模型(DNN)、循环神经网络模型(RNN)或者上述三种网络模型的变形模型。
作为判断模型的初始神经网络模型在训练时,通过收集大量的人脸图像作为训练样本,通过人为或者已经训练完成的神经网络模型对训练样本进行标定(标定是指训练样本是否处于说话状态)。然后将训练样本输入到初始的神经网络模型中,并获取模型输出的分类结果,并通过神经网络模型的损失函数计算该分类结果与标定结果之间的距离(例如:欧氏距离、马氏距离或余弦距离等),将计算结果与设定的距离阈值进行比对,若计算结果小于等于距离阈值则通过验证,继续进行下一个训练样本的训练,若计算结果大于距离阈值则则通过损失函数计算二者之间的差值,并通过反向传播校正神经网络模型内的权值,使神经网络模型能够提高训练样本中嘴部轮廓位置像素点的权重,以此,增大判断的准确率。通过大量的训练样本,训练得到的对人脸图像判断准确率大于一定数值的,例如,97%,则该神经网络模型训练至收敛状态,则该训练至收敛的神经网络即为判断模型。
训练至收敛状态的判断模型能够对人脸图像是否在讲话做出准确的判断。
S1023、根据所述判断模型输出的判断结果确认所述参会者中的发言者。
根据判断模型输出的判断结果(分类结果)确认该人脸图像是否处于讲话状态,若是,则该人脸图像表征的用户则为发言者。在一些实施方式中,为避免偶发性判断错误,能够连续的采集同一人的多张人脸图像,对其进行是否发言的判断,若是,则确定为发言者。
通过神经网络模型对人脸图像进行讲话状态的判断,能够快速的准确的确定会场中的发言者,进而对其发言内容进行记录,避免人为操作寻找发言者,节省了人力成本。
在一些实施方式中,对于会场记录和会议纪要的记录,一个重要的环节在于记录发言者的名称或者身份信息。因此,如何快速识别人脸图像成为会议记录的一个难题。请参阅图6,图6为本实施例通过人脸图像获取发言者身份信息的流程示意图。
S1031、获取所述发言者的目标人脸图像;
通过设置在会场的摄像头或者多个摄像头,对发言者的人脸图像进行采。
S1032、将所述目标人脸图像输入到预设的识别模型中,其中,所述识别模型为预先训练至收敛状态用于提取人脸图像特征向量的神经网络模型;
将采集的人脸图像输入到预先训练至收敛的识别模型中,本实施方式中识别模型能够为已经训练至收敛状态的卷积神经网络模型(CNN),但是,不局限于此,识别模型还能够是:深度神经网络模型(DNN)、循环神经网络模型(RNN)或者上述三种网络模型的变形模型。
作为识别模型的初始神经网络模型在训练时,通过收集大量的人脸图像作为训练样本,通过已经训练完成的神经网络模型对训练样本进行标定(标定是指训练样本预先提取人脸图像的特征向量)。然后将训练样本输入到初始的神经网络模型中,并获取模型输出的分类结果,并通过神经网络模型的损失函数计算该分类结果与标定结果之间的距离(例如:欧氏距离、马氏距离或余弦距离等),将计算结果与设定的距离阈值进行比对,若计算结果小于等于距离阈值则通过验证,继续进行下一个训练样本的训练,若计算结果大于距离阈值则则通过损失函数计算二者之间的差值,并通过反向传播校正神经网络模型内的权值,使神经网络模型能够提高训练样本中人脸关键点位置像素点的权重,以此,增大判断的准确率。通过大量的训练样本,训练得到的对人脸图像判断准确率大于一定数值的,例如,97%,则该神经网络模型训练至收敛状态,则该训练至收敛的神经网络即为识别模型。
训练至收敛状态的识别模型能够准确的提取人脸图像的特征向量。
S1033、以所述识别模型输出的所述目标人脸图像的特征向量为限定条件,在预设的参会者身份数据库中查询发言者的身份信息,其中,所述参会者身份数据库中包括各参会者的身份信息,且所述身份信息具有人脸图像的特征向量标签。
在识别模型提取了发言者的人脸图像的特征向量后,以该特征向量为限定条件在预设的参会者身份数据库中查询发言者的身份信息。参会者在入场之前或者参加报名时需要提供自己的身份信息和证件照片,将所有参会者的身份信息存储在同一个数据库中生成参会者身份数据库。参会者身份数据库中每个身份信息在入库之前,需要制作标签信息,标签信息为通过已经训练好的人脸图像处理的神经网络模型,对参会者的证件图像进行脸部特征向量的提取,并将提取的特征向量作为对应身份信息的标签。当识别模型提取了发言者的人脸图像的特征向量后,以该特征向量为限定条件在预设的参会者身份数据库中查询发言者的身份信息,查询的方式即查找是否具有与该特征向量相同或者相似标签的身份信息,若是,则提取该身份信息确定发言者的身份,若否,则确定该发言者为临时参会人员,并存储该发言者的人脸图像至会议记录中,以便于在会后进行身份辨识。
通过人脸图像识别能够快速的确定发言者的身份,实现了会议记录的快速记录和横向的知识扩展(即标定发言者的身份信息)。
在一些实施方式中,通过发言者的姓名对会议记录中不同发言者的发言内容进行区分,以便于对发言内容进行清晰地分割界定。请参阅图7,图7为本实施例对会议记录进行分割的流程示意图。
如图7所示,S1033之后还包括:
S1041、获取所述身份信息中发言者的姓名信息;
本实施方式中身份信息包括发言者的姓名信息,通过读取身份信息的指定位置得到发言者的姓名信息。但是身份信息中不仅仅包括发言者的姓名,根据具体应用场景的不同,身份信息包括(不限于):发言者的年龄、籍贯、年龄、公司、职务和擅长领域等信息。
S1042、以所述姓名信息为划分条件,将所述会议记录中不同发言者的发言内容进行区分。
获取发言者的姓名信息后,以姓名为划分条件,在会议记录中将不同发言者的发言内容进行分割,使不同发言者的发言内容得以区分。对会议记录内容加以分割,能够使会议记录更加具有条理性。
为解决上述技术问题,本发明实施例还提供一种会议纪要的生成装置。
具体请参阅图8,图8为本实施例会议纪要的生成装置基本结构示意图。
如图8所示,一种会议纪要的生成装置,包括:转换模块2100、处理模块2200、获取模块2300和执行模块2400。其中,转换模块2100用于将会场中发言者的语音信息转换为表征语音信息声波的波形图;处理模块2200用于将波形图输入到预设的情绪识别模型中,其中,情绪识别模型为训练至收敛状态用于识别声波图像表征的用户情绪信息的神经网络模型;获取模块2300用于获取情绪识别模型输出的表示波形图的情绪信息的分类结果;执行模块2400用于根据分类结果对语音信息对应的会议记录进行标记记录,其中,标记记录用于生成会议纪要。
会议纪要的生成装置通过将会场中发言者的语音信息转换为声波的波形图,然后,将波形图输入至被训练用于对波形图进行情绪判断的神经网络模型中,得到与语音信息对应的情绪信息,根据该情绪信息在会议记录中对发言者明显具有情绪波动的内容进行标记。由于,人们天性使然在讲到发言重点时,情绪会发生波动,而情绪的波动会直接导致发言者发声的腔调和音量发生变化,因此,通过识别发言者的情绪信息就能够得到发言者发言的重点内容,将该终端内容加以标记,使其成为会议纪要的内容,完成了对会议记录重点内容的提取,节省了人力成本,提高了会议纪要记录的准确性。
在一些实施方式中,会议纪要的生成装置还包括:第一获取子模块和第一处理子模块。其中,第一获取子模块用于获取会场中发言者的语音信息;第一处理子模块用于将语音信息转换为文字信息,并将文字信息写入预设的会议记录文档中生成会议记录。
在一些实施方式中,当分类结果表示的情绪信息波动较大时,会议纪要的生成装置还包括:第一读取子模块、第一查找子模块和第一渲染子模块。其中,第一读取子模块用于读取会场中的会议记录;第一查找子模块用于在会议记录中查找与语音信息具有映射关系的目标字段;第一渲染子模块用于将目标字段进行区别化渲染,以使目标字段区别于会议记录的常规字体。
在一些实施方式中,会议纪要的生成装置还包括:第一提取子模块和第一执行子模块。其中,第一提取子模块用于提取会议记录中的目标字段;第一执行子模块用于将目标字段作为会议提纲写入至预设的纪要文本中生成会议纪要。
在一些实施方式中,会议纪要的生成装置还包括:第二获取子模块、第二处理子模块和第二执行子模块。其中,第二获取子模块用于获取会场中的参会者的人脸图像;第二处理子模块用于将人脸图像依次输入到预设的判断模型中,其中,判断模型为预先训练至收敛状态用于判断人脸图像是否处于发言状态的神经网络模型;第二执行子模块用于根据判断模型输出的判断结果确认参会者中的发言者。
在一些实施方式中,会议纪要的生成装置还包括:第三获取子模块、第三处理子模块和第三执行子模块。其中,第三获取子模块用于获取发言者的目标人脸图像;第三处理子模块用于将目标人脸图像输入到预设的识别模型中,其中,识别模型为预先训练至收敛状态用于提取人脸图像特征向量的神经网络模型;第三执行子模块用于以识别模型输出的目标人脸图像的特征向量为限定条件,在预设的参会者身份数据库中查询发言者的身份信息,其中,参会者身份数据库中包括各参会者的身份信息,且身份信息具有人脸图像的特征向量标签。
在一些实施方式中,会议纪要的生成装置还包括:第四获取子模块和第四处理子模块。其中,第四获取子模块用于获取身份信息中发言者的姓名信息;第四处理子模块用于以姓名信息为划分条件,将会议记录中不同发言者的发言内容进行区分。
为解决上述技术问题,本发明实施例还提供计算机设备。具体请参阅图9,图9为本实施例计算机设备基本结构框图。
如图9所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种会议纪要的生成方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种会议纪要的生成方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图8中转换模块2100、处理模块2200、获取模块2300和执行模块2400的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有人脸图像关键点检测装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
计算机设备通过将会场中发言者的语音信息转换为声波的波形图,然后,将波形图输入至被训练用于对波形图进行情绪判断的神经网络模型中,得到与语音信息对应的情绪信息,根据该情绪信息在会议记录中对发言者明显具有情绪波动的内容进行标记。由于,人们天性使然在讲到发言重点时,情绪会发生波动,而情绪的波动会直接导致发言者发声的腔调和音量发生变化,因此,通过识别发言者的情绪信息就能够得到发言者发言的重点内容,将该终端内容加以标记,使其成为会议纪要的内容,完成了对会议记录重点内容的提取,节省了人力成本,提高了会议纪要记录的准确性。
本发明还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例会议纪要的生成方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

Claims (10)

1.一种会议纪要的生成方法,其特征在于,包括:
将会场中发言者的语音信息转换为表征所述语音信息声波的波形图;
将所述波形图输入到预设的情绪识别模型中,其中,所述情绪识别模型为训练至收敛状态用于识别声波图像表征的用户情绪信息的神经网络模型;
获取所述情绪识别模型输出的表示所述波形图的情绪信息的分类结果;
根据所述分类结果对所述语音信息对应的会议记录进行标记记录,其中,所述标记记录用于生成会议纪要。
2.根据权利要求1所述的会议纪要的生成方法,其特征在于,所述将会场中发言者的语音信息,并将所述语音信息转换为表征所述语音信息声波的波形图之前,还包括:
获取会场中发言者的语音信息;
将所述语音信息转换为文字信息,并将所述文字信息写入预设的会议记录文档中生成会议记录。
3.根据权利要求1所述的会议纪要的生成方法,其特征在于,当所述分类结果表示的情绪信息波动较大时,所述根据所述分类结果对所述语音信息对应的会议记录进行标记记录包括:
读取会场中的会议记录;
在所述会议记录中查找与所述语音信息具有映射关系的目标字段;
将所述目标字段进行区别化渲染,以使所述目标字段区别于所述会议记录的常规字体。
4.根据权利要求3所述的会议纪要的生成方法,其特征在于,将所述目标字段进行区别化渲染,以使所述目标字段区别于所述会议记录的常规字体之后,还包括:
提取所述会议记录中的所述目标字段;
将所述目标字段作为会议提纲写入至预设的纪要文本中生成所述会议纪要。
5.根据权利要求2所述的会议纪要的生成方法,其特征在于,所述将所述语音信息转换为文字信息,并将所述文字信息写入预设的会议记录文档中生成会议记录之后,还包括:
获取会场中的参会者的人脸图像;
将所述人脸图像依次输入到预设的判断模型中,其中,所述判断模型为预先训练至收敛状态用于判断人脸图像是否处于发言状态的神经网络模型;
根据所述判断模型输出的判断结果确认所述参会者中的发言者。
6.根据权利要求5所述的会议纪要的生成方法,其特征在于,所述根据所述判断模型输出的判断结果确认所述参会者中的发言者之后,还包括:
获取所述发言者的目标人脸图像;
将所述目标人脸图像输入到预设的识别模型中,其中,所述识别模型为预先训练至收敛状态用于提取人脸图像特征向量的神经网络模型;
以所述识别模型输出的所述目标人脸图像的特征向量为限定条件,在预设的参会者身份数据库中查询发言者的身份信息,其中,所述参会者身份数据库中包括各参会者的身份信息,且所述身份信息具有人脸图像的特征向量标签。
7.根据权利要求6所述的会议纪要的生成方法,其特征在于,所述以所述识别模型输出的所述目标人脸图像的特征向量为限定条件,在预设的参会者身份数据库中查询发言者的身份信息之后,还包括:
获取所述身份信息中发言者的姓名信息;
以所述姓名信息为划分条件,将所述会议记录中不同发言者的发言内容进行区分。
8.一种会议纪要的生成装置,其特征在于,包括:
转换模块,用于将会场中发言者的语音信息转换为表征所述语音信息声波的波形图;
处理模块,用于将所述波形图输入到预设的情绪识别模型中,其中,所述情绪识别模型为训练至收敛状态用于识别声波图像表征的用户情绪信息的神经网络模型;
获取模块,用于获取所述情绪识别模型输出的表示所述波形图的情绪信息的分类结果;
执行模块,用于根据所述分类结果对所述语音信息对应的会议记录进行标记记录,其中,所述标记记录用于生成会议纪要。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述会议纪要的生成方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述会议纪要的生成方法的步骤。
CN201910044750.1A 2019-01-17 2019-01-17 会议纪要的生成方法、装置、计算机设备及存储介质 Pending CN109817245A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910044750.1A CN109817245A (zh) 2019-01-17 2019-01-17 会议纪要的生成方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910044750.1A CN109817245A (zh) 2019-01-17 2019-01-17 会议纪要的生成方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN109817245A true CN109817245A (zh) 2019-05-28

Family

ID=66604555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910044750.1A Pending CN109817245A (zh) 2019-01-17 2019-01-17 会议纪要的生成方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN109817245A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232925A (zh) * 2019-06-28 2019-09-13 百度在线网络技术(北京)有限公司 生成会议记录的方法、装置和会议终端
CN110782916A (zh) * 2019-09-30 2020-02-11 北京淇瑀信息科技有限公司 一种多模态的投诉识别方法、装置和系统
CN111666746A (zh) * 2020-06-05 2020-09-15 中国银行股份有限公司 会议纪要的生成方法及装置、电子设备及存储介质
CN111723205A (zh) * 2020-06-18 2020-09-29 中国银行股份有限公司 会议纪要处理方法、装置及会议纪要处理设备
CN112416963A (zh) * 2020-11-11 2021-02-26 北京字跳网络技术有限公司 搜索内容的匹配方法、装置、电子设备及存储介质
CN112466306A (zh) * 2019-08-19 2021-03-09 中国科学院自动化研究所 会议纪要生成方法、装置、计算机设备及存储介质
CN112786045A (zh) * 2021-01-04 2021-05-11 上海明略人工智能(集团)有限公司 用于会议记录的设备、服务器、方法及系统
CN113517002A (zh) * 2020-03-25 2021-10-19 钉钉控股(开曼)有限公司 信息处理方法、装置以及系统、会议端、服务器
CN113822205A (zh) * 2021-09-26 2021-12-21 北京市商汤科技开发有限公司 会议记录生成方法、装置、电子设备以及存储介质
US11303464B2 (en) * 2019-12-05 2022-04-12 Microsoft Technology Licensing, Llc Associating content items with images captured of meeting content
WO2022267322A1 (zh) * 2021-06-24 2022-12-29 深圳前海微众银行股份有限公司 会议纪要的生成方法、装置、终端设备及计算机存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782545A (zh) * 2016-12-16 2017-05-31 广州视源电子科技股份有限公司 一种将音视频数据转化成文字记录的系统和方法
JP2018132892A (ja) * 2017-02-14 2018-08-23 株式会社イトーキ 会議記録装置、会議記録方法、及びプログラム。
CN108877801A (zh) * 2018-06-14 2018-11-23 南京云思创智信息科技有限公司 基于多模态情绪识别系统的多轮对话语义理解子系统
CN108962255A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 语音会话的情绪识别方法、装置、服务器和存储介质
CN108986826A (zh) * 2018-08-14 2018-12-11 中国平安人寿保险股份有限公司 自动生成会议记录的方法、电子装置及可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106782545A (zh) * 2016-12-16 2017-05-31 广州视源电子科技股份有限公司 一种将音视频数据转化成文字记录的系统和方法
WO2018107605A1 (zh) * 2016-12-16 2018-06-21 广州视源电子科技股份有限公司 一种将音视频数据转化成文字记录的系统和方法
JP2018132892A (ja) * 2017-02-14 2018-08-23 株式会社イトーキ 会議記録装置、会議記録方法、及びプログラム。
CN108877801A (zh) * 2018-06-14 2018-11-23 南京云思创智信息科技有限公司 基于多模态情绪识别系统的多轮对话语义理解子系统
CN108962255A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 语音会话的情绪识别方法、装置、服务器和存储介质
CN108986826A (zh) * 2018-08-14 2018-12-11 中国平安人寿保险股份有限公司 自动生成会议记录的方法、电子装置及可读存储介质

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110232925A (zh) * 2019-06-28 2019-09-13 百度在线网络技术(北京)有限公司 生成会议记录的方法、装置和会议终端
CN112466306B (zh) * 2019-08-19 2023-07-04 中国科学院自动化研究所 会议纪要生成方法、装置、计算机设备及存储介质
CN112466306A (zh) * 2019-08-19 2021-03-09 中国科学院自动化研究所 会议纪要生成方法、装置、计算机设备及存储介质
CN110782916A (zh) * 2019-09-30 2020-02-11 北京淇瑀信息科技有限公司 一种多模态的投诉识别方法、装置和系统
CN110782916B (zh) * 2019-09-30 2023-09-05 北京淇瑀信息科技有限公司 一种多模态的投诉识别方法、装置和系统
US11303464B2 (en) * 2019-12-05 2022-04-12 Microsoft Technology Licensing, Llc Associating content items with images captured of meeting content
CN113517002A (zh) * 2020-03-25 2021-10-19 钉钉控股(开曼)有限公司 信息处理方法、装置以及系统、会议端、服务器
CN111666746A (zh) * 2020-06-05 2020-09-15 中国银行股份有限公司 会议纪要的生成方法及装置、电子设备及存储介质
CN111666746B (zh) * 2020-06-05 2023-09-29 中国银行股份有限公司 会议纪要的生成方法及装置、电子设备及存储介质
CN111723205A (zh) * 2020-06-18 2020-09-29 中国银行股份有限公司 会议纪要处理方法、装置及会议纪要处理设备
CN111723205B (zh) * 2020-06-18 2023-07-14 中国银行股份有限公司 会议纪要处理方法、装置及会议纪要处理设备
CN112416963A (zh) * 2020-11-11 2021-02-26 北京字跳网络技术有限公司 搜索内容的匹配方法、装置、电子设备及存储介质
CN112786045A (zh) * 2021-01-04 2021-05-11 上海明略人工智能(集团)有限公司 用于会议记录的设备、服务器、方法及系统
CN112786045B (zh) * 2021-01-04 2024-03-12 上海明略人工智能(集团)有限公司 用于会议记录的设备、服务器、方法及系统
WO2022267322A1 (zh) * 2021-06-24 2022-12-29 深圳前海微众银行股份有限公司 会议纪要的生成方法、装置、终端设备及计算机存储介质
CN113822205A (zh) * 2021-09-26 2021-12-21 北京市商汤科技开发有限公司 会议记录生成方法、装置、电子设备以及存储介质

Similar Documents

Publication Publication Date Title
CN109817245A (zh) 会议纪要的生成方法、装置、计算机设备及存储介质
EP3850624B1 (en) Transforming audio content into images
US9672829B2 (en) Extracting and displaying key points of a video conference
Anguera et al. Speaker diarization: A review of recent research
US20200065379A1 (en) Speech recognition and summarization
CN112088402A (zh) 用于说话者识别的联合神经网络
US9154629B2 (en) System and method for generating personalized tag recommendations for tagging audio content
CN112075075A (zh) 用于会议的计算机化智能助理
WO2019210796A1 (zh) 语音识别方法、装置、存储介质及电子设备
CN110335612A (zh) 基于语音识别的会议记录生成方法、装置及存储介质
CN107492382A (zh) 基于神经网络的声纹信息提取方法及装置
CN107211058A (zh) 基于会话动态的会议分段
CN107210045A (zh) 会议搜索以及搜索结果的回放
CN107211061A (zh) 用于空间会议回放的优化虚拟场景布局
Friedland et al. The ICSI RT-09 speaker diarization system
CN107211027A (zh) 感知质量比会议中原始听到的更高的后会议回放系统
CN109543020B (zh) 问询处理方法及系统
CN107210034A (zh) 选择性会议摘要
CN109509470A (zh) 语音交互方法、装置、计算机可读存储介质及终端设备
CN107210036A (zh) 会议词语云
US20200013389A1 (en) Word extraction device, related conference extraction system, and word extraction method
CN110265032A (zh) 会议数据分析处理方法、装置、计算机设备和存储介质
Lucey et al. Integration strategies for audio-visual speech processing: applied to text-dependent speaker recognition
CN109754808B (zh) 语音转换文字的方法、装置、计算机设备及存储介质
Wang et al. A network model of speaker identification with new feature extraction methods and asymmetric BLSTM

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190528