CN117577115A - 一种智慧型无纸化会议系统 - Google Patents
一种智慧型无纸化会议系统 Download PDFInfo
- Publication number
- CN117577115A CN117577115A CN202410054331.7A CN202410054331A CN117577115A CN 117577115 A CN117577115 A CN 117577115A CN 202410054331 A CN202410054331 A CN 202410054331A CN 117577115 A CN117577115 A CN 117577115A
- Authority
- CN
- China
- Prior art keywords
- data
- module
- conference
- area
- dialogue
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 claims abstract description 37
- 230000037406 food intake Effects 0.000 claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 8
- 238000004590 computer program Methods 0.000 claims description 25
- 230000006870 function Effects 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Telephonic Communication Services (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
本发明属于智能会议设备技术领域。本发明提供了一种智慧型无纸化会议系统,包括摄取模块、提取模块及记录模块;摄取模块,用于获取会议区域内的音频数据及视频数据;提取模块,用于对音频数据进行音频解析以获得对话数据,对视频数据进行人脸识别以获得发言人员数据,将对话数据和发言人员数据进行关联得到有效对话数据;以及,按照时间顺序将有效对话数据进行整理得到数字化会议记录档案;记录模块,存储和/或输出数字化会议记录档案。本发明的方案可通过对会议现场的音频数据进行解析而自动生成数字化的会议记录,不再需要会议记录人员手动实施会议记录,提升了会议记录的效率和准确性。
Description
技术领域
本发明涉及智能会议设备技术领域,具体而言,涉及一种智慧型无纸化会议系统。
背景技术
传统的会议记录都是通过会议记录人员手写记录的,该方式十分低效。后续又出现了使用会议录像、会议录音等方式的会议记录方式,但这些方式得到的音视频数据中会包含较多的非必要信息,不利于后续的查看使用,需要后续二次处理加工(主要是回放音视频数据再手动誊写至纸件之上),导致会议记录人员的工作量十分之大。本发明的方案旨在解决该技术问题。
发明内容
本发明的第一方面提供了一种智慧型无纸化会议系统,包括摄取模块、提取模块及记录模块,所述提取模块分别与所述摄取模块与所述记录模块电连接;其中,所述摄取模块,用于获取会议区域内的音频数据及视频数据;所述提取模块,用于对所述音频数据进行音频解析以获得对话数据,对所述视频数据进行人脸识别以获得发言人员数据,将所述对话数据和所述发言人员数据进行关联得到有效对话数据;以及,按照时间顺序将所述有效对话数据进行整理得到数字化会议记录档案;所述记录模块,存储和/或输出所述数字化会议记录档案。
在一些实施例中,所述摄取模块获取会议区域内的音频数据及视频数据,包括:所述摄取模块获取第一会议区域内的第一音频数据和第一视频数据;根据所述第一音频数据提取得到第一发言人员集合,根据所述第一视频数据提取得到第二发言人员集合,对所述第二发言人员集合与所述第一发言人员集合进行差处理;若差处理结果为空,则将所述第一音频数据和所述第一视频数据分别作为所述音频数据、所述视频数据;若差处理结果不为空,则所述摄取模块根据所述差处理结果确定第二会议区域,并获取所述第二会议区域内的第二音频数据和第二视频数据,将所述第二音频数据和所述第二视频数据分别作为所述音频数据、所述视频数据。
在一些实施例中,所述摄取模块根据所述差处理结果确定第二会议区域,包括:根据所述差处理结果中涉及的发言人员的所述第一音频数据确定若干第一音源位置;根据所述第一发言人员集合和所述第二发言人员集合的交集所涉及的发言人员的所述第一视频数据确定若干第二音源位置;根据各所述第一音源位置和各所述第二音源位置确定所述第二会议区域。
在一些实施例中,所述摄取模块在获取第一会议区域内的第一音频数据和第一视频数据之前,还包括:获取第三会议区域内的第三视频数据,并对所述第三视频数据中的标定发言人员进行轨迹跟踪;若任一所述标定发言人员进入所述第三会议区域的指定边缘区域内,则所述摄取模块根据全部标定发言人员的轨迹位置确定第一会议区域;否则,将所述第三会议区域作为所述第一会议区域。
在一些实施例中,所述指定边缘区域通过如下方式确定:识别所述第三视频数据中的座椅,根据各所述座椅的位置及朝向预测得出就座人员在就座后的头部所处区域;若所述头部所处区域的指定比例的区域位于所述第三会议区域外,则将其作为所述指定边缘区域。
在一些实施例中,所述提取模块将所述对话数据和所述发言人员数据进行关联得到有效对话数据,包括:对第一发言人员的第一对话数据进行语义分析,评估所述第一对话数据的语义完整度;若所述语义完整度大于或等于第一阈值,则将所述第一对话数据和第一发言人员数据进行关联得到第一有效对话数据;以及,按照时间顺序将所述第一有效对话数据记录于所述数字化会议记录档案;若所述语义完整度小于第一阈值,则获取第一指定时长内的所述第一发言人员的第二对话数据,评估所述第一对话数据和所述第二对话数据的语义关联度;若所述语义关联度大于或等于第二阈值,则将所述第一对话数据和所述第二对话数据进行整合得到第三对话数据,并将所述第三对话数据与所述第一发言人员数据关联后记录于所述第一对话数据在所述数字化会议记录档案中的位置;若所述语义关联度小于第二阈值,则将所述第一对话数据和所述第二对话数据与所述第一发言人员数据关联后,分别记录于所述数字化会议记录档案中各自的位置。
在一些实施例中,在所述语义完整度小于第一阈值时,还包括:计算第二指定时长内所述语义完整度小于第一阈值的情况出现的次数;若所述次数大于第三阈值,则将所述第二指定时长内全部对话数据与对应的发言人员进行关联后,以候选形式分别记录于所述数字化会议记录档案中各自的位置。
本发明的第二方面提供了一种电子设备,该电子设备应用于前述的智慧型无纸化会议系统;该电子设备包括摄取模块、提取模块、存储模块,所述提取模块与所述摄取模块及所述存储模块连接;其中,所述存储模块,用于存储可执行的计算机程序代码,以及存储所述提取模块生成的数字化会议记录档案;所述摄取模块,用于获取会议区域内的音频数据及视频数据,并将其发送给所述提取模块;所述提取模块,用于通过调用所述存储模块中的所述可执行的计算机程序代码,以生成数字化会议记录档案。
本发明的第三方面提供了一种电子设备,其应用于前述的智慧型无纸化会议系统,包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述摄取模块、提取模块的对应功能。
本发明的第四方面提供了一种计算机存储介质,其应用于前述的智慧型无纸化会议系统,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述摄取模块、提取模块的对应功能。
本发明的第五方面提供了一种计算机程序产品,当计算机程序产品在终端上运行时,使得终端执行时实现可实现前述摄取模块、所述提取模块的对应功能。
本发明的有益效果在于:本发明的方案可通过对会议现场的音频数据进行解析而自动生成数字化的会议记录,不再需要会议记录人员手动实施会议记录,提升了会议记录的效率和准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。
图1是本发明实施例公开的一种智慧型无纸化会议系统的结构示意图。
具体实施方式
以下由特定的具体实施例说明本申请的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其他优点及功效,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
此外,下面所描述的本申请不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
如图1所示,本发明实施例公开了一种智慧型无纸化会议系统,包括摄取模块、提取模块及记录模块,所述提取模块分别与所述摄取模块与所述记录模块电连接;其中,所述摄取模块,用于获取会议区域内的音频数据及视频数据;所述提取模块,用于对所述音频数据进行音频解析以获得对话数据,对所述视频数据进行人脸识别以获得发言人员数据,将所述对话数据和所述发言人员数据进行关联得到有效对话数据;以及,按照时间顺序将所述有效对话数据进行整理得到数字化会议记录档案;所述记录模块,存储和/或输出所述数字化会议记录档案。
本发明提供了包括摄取模块、提取模块及记录模块的上述会议系统。在使用时,用户可以在会议现场选择合适的布设位置,并调整布设方位以使摄取模块覆盖全部参会人员,至少覆盖发言人员;在会议开始后,提取模块就可以根据摄取模块所摄取的音视频数据提取得到该会议过程中的有效对话数据,再按照时间顺序将其存储在记录模块中,进而得到数字化会议记录档案。于是,本发明的方案不再需要会议记录人员手动(笔写或打字)实施会议记录,提升了会议记录的效率和准确性。
需要说明的是,本发明的智慧型无纸化会议系统不仅包含上述摄取模块、提取模块及记录模块,而是一般还包括例如壳体、电源件、控制按钮等部件,在此不再赘述。以及,上述输出可以是通过自带屏幕或关联终端设备的屏幕进行输出,也可以是指向指定的服务器进行输出。
在一些实施例中,所述摄取模块获取会议区域内的音频数据及视频数据,包括:所述摄取模块获取第一会议区域内的第一音频数据和第一视频数据;根据所述第一音频数据提取得到第一发言人员集合,根据所述第一视频数据提取得到第二发言人员集合,对所述第二发言人员集合与所述第一发言人员集合进行差处理;若差处理结果为空,则将所述第一音频数据和所述第一视频数据分别作为所述音频数据、所述视频数据;若差处理结果不为空,则所述摄取模块根据所述差处理结果确定第二会议区域,并获取所述第二会议区域内的第二音频数据和第二视频数据,将所述第二音频数据和所述第二视频数据分别作为所述音频数据、所述视频数据。
在本发明实施例中,用户可预先根据对会议现场发言人员的就座情况的观察来确定摄取模块的对准方位,将发言人员至于摄取模块的覆盖范围内,然后启动本发明的会议系统。在会议正式开始前或开始初期,摄取模块从音频数据和视频数据中分别提取得出发言人员的相关数据,即上述第一发言人员集合、第二发言人员集合,在二者集合的差处理结果为空时,说明发言人员全部在视频画面中(即位于第一会议区域内或位于与第一视频数据对应的视频画面中),此时将对应的第一音频数据和第一视频数据作为音视频数据;否则,说明实际发言人员中有部分人员不在视频画面中,此时可对摄取模块的覆盖范围进行对应调控,以实现将全部发言人员覆盖至视频画面中。
其中,差处理结果不为空的原因包括多种,例如原来第一会议区域内的某些发言人员变更了座位、场外参会人员进行了发言等。
需要说明的是,将全部发言人员覆盖至视频画面中的目的在于对发言人员身份的识别提取,进而用于数字化会议记录档案中各对话内容的标注,例如,“王经理:我觉得应当再深入考核A公司的实力”。以及,第一发言人员集合、第二发言人员集合包含的内容可以是发言人员的数量,也可以是发言人员的身份(通过音频识别和预存储声纹数据的比对,也可以锁定各发言人员的身份)。以及,将摄取模块的覆盖范围的调整可以通过改变摄取模块的对准方位角度、调整焦距等方式实现。身份数据可以预先存储或调取获得,该细节内容不再赘述。
当然,对于那些进行了发言但没有预先存储身份数据的发言人员(例如场外人员),则可以将该对话数据标识为“未知”,用户可以根据对话时刻在记录的视频数据中翻找,从而确定出其身份,然后再对数字化会议记录档案进行手动修改。优选地,数字化会议记录档案中的对话数据全部标识对话时刻。
在一些实施例中,所述摄取模块根据所述差处理结果确定第二会议区域,包括:根据所述差处理结果中涉及的发言人员的所述第一音频数据确定若干第一音源位置;根据所述第一发言人员集合和所述第二发言人员集合的交集所涉及的发言人员的所述第一视频数据确定若干第二音源位置;根据各所述第一音源位置和各所述第二音源位置确定所述第二会议区域。
在本发明实施例中,差处理结果中涉及的发言人员即是不在视频画面中的人员,通过音频定位可以确定这些人员的相对准确的音源位置;而位于视频画面中的人员的位置即第二音源位置则可以通过图像识别技术轻易且更为准确地得出。依据全部发言人员的音源位置即可确定出能够包含所有发言人员的第二会议区域。然后即可控制摄取模块通过改变对准方位角度、调整焦距等方式完成对第二会议区域的覆盖。而且,第二会议区域多数情况下是大于第一会议区域的。
在一些实施例中,所述摄取模块在获取第一会议区域内的第一音频数据和第一视频数据之前,还包括:获取第三会议区域内的第三视频数据,并对所述第三视频数据中的标定发言人员进行轨迹跟踪;若任一所述标定发言人员进入所述第三会议区域的指定边缘区域内,则所述摄取模块根据全部标定发言人员的轨迹位置确定第一会议区域;否则,将所述第三会议区域作为所述第一会议区域。
在本发明实施例中,用户虽然可以在布设摄取模块时将全部发言人员覆盖在视频画面中(即第三会议区域),但在会议开始之前经常出现发言人员调整就座位置的情况,这会导致部分发言人员位于视频画面之外,此时就不能确定对话内容的主体。对此,本发明设置摄取模块对第三会议区域中的各标定的发言人员进行轨迹跟踪,在这些人员位于了指定边缘区域内时,意味着这些人员的人脸可能会位于视频画面之外,此时可根据全部发言人员的实际位置进行覆盖区域的调整,具体调整方式与前述类似。
其中,标定发言人员是用户预先在会议系统中手动标定的,也可以是会议系统基于预先输入的发言人员的身份识别信息自动标定的,本发明不作限定。
在一些实施例中,所述指定边缘区域通过如下方式确定:识别所述第三视频数据中的座椅,根据各所述座椅的位置及朝向预测得出就座人员在就座后的头部所处区域;若所述头部所处区域的指定比例的区域位于所述第三会议区域外,则将其作为所述指定边缘区域。
在本发明实施例中,本发明并非将第三会议区域的位于边缘位置处的指定大小的区域全部作为指定边缘区域,这样是不准确的。具体地,本发明根据第三会议区域中的座椅的位置及朝向预测得出发言人员以各种坐姿就座后头部可能所处的全部区域的合集,在确定发言人员的身份时需要对该区域进行人脸拍摄及提取;若该区域的较多部分位于第三会议区域外,则意味着发言人员改变位置到达该座椅位置时在某种坐姿下会导致脸部脱离视频画面,进而无法确认其身份,不利于后续数字化会议记录档案的生成,所以将这类区域认定为指定边缘区域。
需要说明的是,指定比例可以根据人脸或头部大小进行统计分析得出,具体不赘述。
在一些实施例中,所述提取模块将所述对话数据和所述发言人员数据进行关联得到有效对话数据,包括:对第一发言人员的第一对话数据进行语义分析,评估所述第一对话数据的语义完整度;若所述语义完整度大于或等于第一阈值,则将所述第一对话数据和第一发言人员数据进行关联得到第一有效对话数据;以及,按照时间顺序将所述第一有效对话数据记录于所述数字化会议记录档案;若所述语义完整度小于第一阈值,则获取第一指定时长内的所述第一发言人员的第二对话数据,评估所述第一对话数据和所述第二对话数据的语义关联度;若所述语义关联度大于或等于第二阈值,则将所述第一对话数据和所述第二对话数据进行整合得到第三对话数据,并将所述第三对话数据与所述第一发言人员数据关联后记录于所述第一对话数据在所述数字化会议记录档案中的位置;若所述语义关联度小于第二阈值,则将所述第一对话数据和所述第二对话数据与所述第一发言人员数据关联后,分别记录于所述数字化会议记录档案中各自的位置。
在本发明实施例中,发言人员的发言可能会被其他发言人员打断,而且此时发言人员的发言大概率并不完整,如果不进行整理,则会导致数字化会议记录档案过于冗长,后续阅读难度较大。对此,本发明在识别到第一发言人员的第一对话数据的语义完整度不高时,说明该第一发言人员的此次发言被打断的概率较大,于是对其在后续临近的指定时长内的第二发言数据继续进行获取,并分析第一发言数据和第二发言数据之间的关联性,若关联性高则说明存在打断情况的概率高,此时将两段发言数据整合为一段后存入数字化会议记录档案中的第一发言数据的位置。
此外,在判断打断情况时,还可以进一步考虑第二发言人员的第四发言数据与第一发言人员的第一发言数据之间的第一时间间隔,以及第一发言人员的第二发言数据与第二发言人员的第四发言数据之间的第二时间间隔,第一时间间隔和第二时间间隔均小于间隔阈值时,可判定打断情况存在,进而触发开启对于语义完整度的后续计算及分析。
在一些实施例中,在所述语义完整度小于第一阈值时,还包括:计算第二指定时长内所述语义完整度小于所述第一阈值的情况出现的次数;若所述次数大于第三阈值,则将所述第二指定时长内全部对话数据与对应的发言人员进行关联后,以候选形式分别记录于所述数字化会议记录档案中各自的位置。
在本发明实施例中,在短时间内出现过多的打断情况时,会导致发言人员前后发言之间的关联性出现较多的不确定性,而且该关联性的计算的难度也逐渐增大,此时实际上难以保证语义关联度计算的准确性。对此,本发明在监测到后续临近的第二指定时长内语义完整度小于第一阈值的情况出现的次数超过了第三阈值,则不再进行语义关联度的计算及对话数据的整合,而是将各条原始对话数据保留记录(优选包括被打断的上述第一对话数据),但在数字化会议记录档案中以候选形式进行记录。候选形式可以通过特定字体、粗细、括号包围等形式实现。
需要说明的是,语义关联度可以通过基于AI、CNN、RNN等算法的模型进行预测得出,并且可以统计该模型对不同语句条数进行语义关联度预测时的等效准确性,将满足一定等效准确性条件(例如准确率大于80%)的最大语句条数作为前述第三阈值的确定基准,例如,语句条数为6条时,第三阈值可以为4。
本发明实施例还公开了一种电子设备,该电子设备应用于前述的智慧型无纸化会议系统;该电子设备包括摄取模块、提取模块、存储模块,所述提取模块与所述摄取模块及所述存储模块连接;其中,所述存储模块,用于存储可执行的计算机程序代码,以及存储所述提取模块生成的数字化会议记录档案;所述摄取模块,用于获取会议区域内的音频数据及视频数据,并将其发送给所述提取模块;所述提取模块,用于通过调用所述存储模块中的所述可执行的计算机程序代码,以生成数字化会议记录档案。
本发明实施例还公开了一种电子设备,其应用于前述的智慧型无纸化会议系统,包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述摄取模块、提取模块的对应功能。
本发明实施例还公开了一种计算机存储介质,其应用于前述的智慧型无纸化会议系统,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现前述摄取模块、提取模块的对应功能。
本发明实施例还公开了一种计算机程序产品,当计算机程序产品在终端上运行时,使得终端执行时实现可实现前述摄取模块、所述提取模块的对应功能。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。
Claims (9)
1.一种智慧型无纸化会议系统,其特征在于:包括摄取模块、提取模块及记录模块,所述提取模块分别与所述摄取模块与所述记录模块电连接;其中,所述摄取模块,用于获取会议区域内的音频数据及视频数据;所述提取模块,用于对所述音频数据进行音频解析以获得对话数据,对所述视频数据进行人脸识别以获得发言人员数据,将所述对话数据和所述发言人员数据进行关联得到有效对话数据;以及,按照时间顺序将所述有效对话数据进行整理得到数字化会议记录档案;所述记录模块,存储和/或输出所述数字化会议记录档案;所述摄取模块获取会议区域内的音频数据及视频数据,包括:所述摄取模块获取第一会议区域内的第一音频数据和第一视频数据;根据所述第一音频数据提取得到第一发言人员集合,根据所述第一视频数据提取得到第二发言人员集合,对所述第二发言人员集合与所述第一发言人员集合进行差处理;若差处理结果为空,则将所述第一音频数据和所述第一视频数据分别作为所述音频数据、所述视频数据;若差处理结果不为空,则所述摄取模块根据所述差处理结果确定第二会议区域,并获取所述第二会议区域内的第二音频数据和第二视频数据,将所述第二音频数据和所述第二视频数据分别作为所述音频数据、所述视频数据。
2.根据权利要求1所述的一种智慧型无纸化会议系统,其特征在于:所述摄取模块根据所述差处理结果确定第二会议区域,包括:根据所述差处理结果中涉及的发言人员的所述第一音频数据确定若干第一音源位置;根据所述第一发言人员集合和所述第二发言人员集合的交集所涉及的发言人员的所述第一视频数据确定若干第二音源位置;根据各所述第一音源位置和各所述第二音源位置确定所述第二会议区域。
3.根据权利要求1所述的一种智慧型无纸化会议系统,其特征在于:所述摄取模块在获取第一会议区域内的第一音频数据和第一视频数据之前,还包括:获取第三会议区域内的第三视频数据,并对所述第三视频数据中的标定发言人员进行轨迹跟踪;若任一所述标定发言人员进入所述第三会议区域的指定边缘区域内,则所述摄取模块根据全部标定发言人员的轨迹位置确定第一会议区域;否则,将所述第三会议区域作为所述第一会议区域。
4.根据权利要求3所述的一种智慧型无纸化会议系统,其特征在于:所述指定边缘区域通过如下方式确定:识别所述第三视频数据中的座椅,根据各所述座椅的位置及朝向预测得出就座人员在就座后的头部所处区域;若所述头部所处区域的指定比例的区域位于所述第三会议区域外,则将其作为所述指定边缘区域。
5.根据权利要求1所述的一种智慧型无纸化会议系统,其特征在于:所述提取模块将所述对话数据和所述发言人员数据进行关联得到有效对话数据,包括:对第一发言人员的第一对话数据进行语义分析,评估所述第一对话数据的语义完整度;若所述语义完整度大于或等于第一阈值,则将所述第一对话数据和第一发言人员数据进行关联得到第一有效对话数据;以及,按照时间顺序将所述第一有效对话数据记录于所述数字化会议记录档案;若所述语义完整度小于第一阈值,则获取第一指定时长内的所述第一发言人员的第二对话数据,评估所述第一对话数据和所述第二对话数据的语义关联度;若所述语义关联度大于或等于第二阈值,则将所述第一对话数据和所述第二对话数据进行整合得到第三对话数据,并将所述第三对话数据与所述第一发言人员数据关联后记录于所述第一对话数据在所述数字化会议记录档案中的位置;若所述语义关联度小于第二阈值,则将所述第一对话数据和所述第二对话数据与所述第一发言人员数据关联后,分别记录于所述数字化会议记录档案中各自的位置。
6.根据权利要求5所述的一种智慧型无纸化会议系统,其特征在于:在所述语义完整度小于第一阈值时,还包括:计算第二指定时长内所述语义完整度小于第一阈值的情况出现的次数;若所述次数大于第三阈值,则将所述第二指定时长内全部对话数据与对应的发言人员进行关联后,以候选形式分别记录于所述数字化会议记录档案中各自的位置。
7.一种电子设备,该电子设备应用于如权利要求1-6任一项所述的智慧型无纸化会议系统;其特征在于:该电子设备包括摄取模块、提取模块、存储模块,所述提取模块与所述摄取模块及所述存储模块连接;其中,所述存储模块,用于存储可执行的计算机程序代码,以及存储所述提取模块生成的数字化会议记录档案;所述提取模块,用于获取会议区域内的音频数据及视频数据,并将其发送给所述提取模块;所述提取模块,用于通过调用所述存储模块中的所述可执行的计算机程序代码,以生成数字化会议记录档案。
8.一种电子设备,其应用于如权利要求1-6任一项所述的智慧型无纸化会议系统,包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现前述摄取模块、提取模块的对应功能。
9.一种计算机存储介质,其应用于如权利要求1-6任一项所述的智慧型无纸化会议系统,所述计算机存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现前述摄取模块、提取模块的对应功能。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410054331.7A CN117577115B (zh) | 2024-01-15 | 2024-01-15 | 一种智慧型无纸化会议系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410054331.7A CN117577115B (zh) | 2024-01-15 | 2024-01-15 | 一种智慧型无纸化会议系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117577115A true CN117577115A (zh) | 2024-02-20 |
CN117577115B CN117577115B (zh) | 2024-03-29 |
Family
ID=89890414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410054331.7A Active CN117577115B (zh) | 2024-01-15 | 2024-01-15 | 一种智慧型无纸化会议系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117577115B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110085160A (ko) * | 2010-01-19 | 2011-07-27 | 주식회사 소리자바 | 얼굴인식 회의 속기 시스템 및 방법 |
JP2013183183A (ja) * | 2012-02-29 | 2013-09-12 | Nippon Telegr & Teleph Corp <Ntt> | 会議装置、会議方法および会議プログラム |
CN106782545A (zh) * | 2016-12-16 | 2017-05-31 | 广州视源电子科技股份有限公司 | 一种将音视频数据转化成文字记录的系统和方法 |
JP2019061594A (ja) * | 2017-09-28 | 2019-04-18 | 株式会社野村総合研究所 | 会議支援システムおよび会議支援プログラム |
US20190318759A1 (en) * | 2018-04-12 | 2019-10-17 | Qualcomm Incorporated | Context-based detection of end-point of utterance |
CN111601069A (zh) * | 2020-05-13 | 2020-08-28 | 中国三峡建设管理有限公司 | 智能会议系统 |
CN111797599A (zh) * | 2020-06-30 | 2020-10-20 | 韶关市启之信息技术有限公司 | 一种会议记录抽取与ppt插入方法与系统 |
CN111818294A (zh) * | 2020-08-03 | 2020-10-23 | 上海依图信息技术有限公司 | 结合音视频的多人会议实时展示的方法、介质和电子设备 |
CN112801608A (zh) * | 2021-01-15 | 2021-05-14 | 招明香 | 基于大数据和云计算的远程视频会议智能管理系统及云会议管理平台 |
JP2022035229A (ja) * | 2020-08-20 | 2022-03-04 | 国立大学法人秋田大学 | 発話区間抽出方法、発話区間抽出プログラム、及び、発話区間抽出装置 |
CN116074629A (zh) * | 2022-12-13 | 2023-05-05 | 厦门华联电子股份有限公司 | 一种基于多模态数据的视频会议发言人跟踪装置、系统及方法 |
-
2024
- 2024-01-15 CN CN202410054331.7A patent/CN117577115B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20110085160A (ko) * | 2010-01-19 | 2011-07-27 | 주식회사 소리자바 | 얼굴인식 회의 속기 시스템 및 방법 |
JP2013183183A (ja) * | 2012-02-29 | 2013-09-12 | Nippon Telegr & Teleph Corp <Ntt> | 会議装置、会議方法および会議プログラム |
CN106782545A (zh) * | 2016-12-16 | 2017-05-31 | 广州视源电子科技股份有限公司 | 一种将音视频数据转化成文字记录的系统和方法 |
JP2019061594A (ja) * | 2017-09-28 | 2019-04-18 | 株式会社野村総合研究所 | 会議支援システムおよび会議支援プログラム |
US20190318759A1 (en) * | 2018-04-12 | 2019-10-17 | Qualcomm Incorporated | Context-based detection of end-point of utterance |
CN111601069A (zh) * | 2020-05-13 | 2020-08-28 | 中国三峡建设管理有限公司 | 智能会议系统 |
CN111797599A (zh) * | 2020-06-30 | 2020-10-20 | 韶关市启之信息技术有限公司 | 一种会议记录抽取与ppt插入方法与系统 |
CN111818294A (zh) * | 2020-08-03 | 2020-10-23 | 上海依图信息技术有限公司 | 结合音视频的多人会议实时展示的方法、介质和电子设备 |
JP2022035229A (ja) * | 2020-08-20 | 2022-03-04 | 国立大学法人秋田大学 | 発話区間抽出方法、発話区間抽出プログラム、及び、発話区間抽出装置 |
CN112801608A (zh) * | 2021-01-15 | 2021-05-14 | 招明香 | 基于大数据和云计算的远程视频会议智能管理系统及云会议管理平台 |
CN116074629A (zh) * | 2022-12-13 | 2023-05-05 | 厦门华联电子股份有限公司 | 一种基于多模态数据的视频会议发言人跟踪装置、系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117577115B (zh) | 2024-03-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107818798B (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
Anguera et al. | Speaker diarization: A review of recent research | |
US20180197548A1 (en) | System and method for diarization of speech, automated generation of transcripts, and automatic information extraction | |
CN112037791B (zh) | 会议纪要转录方法、设备和存储介质 | |
US20060111904A1 (en) | Method and apparatus for speaker spotting | |
Minotto et al. | Multimodal multi-channel on-line speaker diarization using sensor fusion through SVM | |
CN110136727A (zh) | 基于说话内容的说话者身份识别方法、装置及存储介质 | |
CN111785279A (zh) | 视频说话人的识别方法、装置、计算机设备及存储介质 | |
CN110505504B (zh) | 视频节目处理方法、装置、计算机设备及存储介质 | |
Sahoo et al. | Emotion recognition from audio-visual data using rule based decision level fusion | |
CN111833876A (zh) | 会议发言控制方法、系统、电子设备及存储介质 | |
JP2001092974A (ja) | 話者認識方法及びその実行装置並びに音声発生確認方法及び装置 | |
CN112259101B (zh) | 语音关键词识别方法、装置、计算机设备和存储介质 | |
CN111526405B (zh) | 媒体素材处理方法、装置、设备、服务器及存储介质 | |
CN110941992B (zh) | 微笑表情检测方法、装置、计算机设备及存储介质 | |
Wang et al. | Multi-source domain adaptation for text-independent forensic speaker recognition | |
JP7204337B2 (ja) | 会議支援装置、会議支援システム、会議支援方法及びプログラム | |
DE60318450T2 (de) | Vorrichtung und Verfahren zur Segmentation von Audiodaten in Metamustern | |
CN117577115B (zh) | 一种智慧型无纸化会议系统 | |
Uzan et al. | I know that voice: Identifying the voice actor behind the voice | |
Shashidhar et al. | Audio visual speech recognition using feed forward neural network architecture | |
US11238289B1 (en) | Automatic lie detection method and apparatus for interactive scenarios, device and medium | |
Chetty | Robust audio visual biometric person authentication with liveness verification | |
US20230260519A1 (en) | System, method and programmed product for uniquely identifying participants in a recorded streaming teleconference | |
Hung et al. | Towards audio-visual on-line diarization of participants in group meetings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |