CN116996337A - 基于物联网及麦克风切换技术的会议数据管理系统及方法 - Google Patents
基于物联网及麦克风切换技术的会议数据管理系统及方法 Download PDFInfo
- Publication number
- CN116996337A CN116996337A CN202310971974.3A CN202310971974A CN116996337A CN 116996337 A CN116996337 A CN 116996337A CN 202310971974 A CN202310971974 A CN 202310971974A CN 116996337 A CN116996337 A CN 116996337A
- Authority
- CN
- China
- Prior art keywords
- conference
- microphone
- data
- audio
- speaker
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000005516 engineering process Methods 0.000 title claims abstract description 27
- 238000013523 data management Methods 0.000 title claims abstract description 20
- 230000005236 sound signal Effects 0.000 claims abstract description 38
- 238000007405 data analysis Methods 0.000 claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims description 26
- 238000012545 processing Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000007726 management method Methods 0.000 claims description 9
- 238000011282 treatment Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000013500 data storage Methods 0.000 claims description 6
- 239000012634 fragment Substances 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012216 screening Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 5
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000001502 supplementing effect Effects 0.000 claims description 3
- 230000005540 biological transmission Effects 0.000 claims description 2
- 230000006855 networking Effects 0.000 claims 1
- 238000001514 detection method Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/08—Mouthpieces; Microphones; Attachments therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
- H04L12/1813—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
- H04L12/1831—Tracking arrangements for later retrieval, e.g. recording contents, participants activities or behavior, network status
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
- H04N7/155—Conference systems involving storage of or access to video conference sessions
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明公开了基于物联网及麦克风切换技术的会议数据管理系统及方法,涉及物联网技术领域,本发明通过麦克风数据获取模块获取会议中麦克风捕获的音频信号和各麦克风位置的参会人员身份信息;通过会议数据记录模块基于麦克风捕获的音频信号对会议中的音频数据进行记录;通过会议数据分析模块对会议音频数据中的模糊指代词汇进行分析,判断发言人所述代词的指代对象;通过会议记录生成模块基于会议数据分析结果对会议记录音频数据进行转换,生成会议记录文本数据;通过分析发言人在发言时的朝向确定候选实体集可以缩小匹配范围,对会议记录中的模糊指代词进行补充说明,可以有效提高了会议记录的清晰程度,有助于相关人员对会议记录的理解。
Description
技术领域
本发明涉及物联网技术领域,具体为基于物联网及麦克风切换技术的会议数据管理系统及方法。
背景技术
在某些场合,需要对讲话者进行录音或监听,如在进行会议或演讲时,通常使用麦克风进行录制、收听。然而,随着物联网的广泛普及,当前,基于物联网的智能麦克风系统成为了管理会议记录的一种重要方式,智能麦克风可以实时捕获发言人的声音,并可将其传输到云端服务器进行语音识别和记录,这不仅方便了参与者查看会议的文字记录,还能够对会议内容进行后续的分析和处理。在会议中,当发言人在多个位置交替发言时,基于物联网的智能麦克风系统可以根据发言人位置自适应地切换麦克风,从而保证发言人的声音能够被捕获。但是,在实际的会议记录中,由于语言表述中存在许多不具有明确指向的代词,可能会影响到会议记录内容的清晰性和准确性,使得相关人员在后续对会议记录的内容进行查看和分析时,可能导致对会议记录中的部分内容理解困难或理解产生歧义。
因此,为了解决上述问题,本发明提供了一种基于物联网的可视化信息数据处理系统及方法。
发明内容
本发明的目的在于提供一种基于物联网的可视化信息数据处理系统及方法,以解决上述背景技术中提出的问题。
为了解决上述技术问题,本发明提供如下技术方案:基于物联网及麦克风切换技术的会议数据管理方法,包括以下步骤:
S1:获取会议中的麦克风位置信息和麦克风捕获的会议中各发言人的语音信号,并通过麦克风设备安装的应用程序将参会人员的身份信息与设备标识进行绑定,获取到麦克风设备标识对应的参会人员发言相关数据;
S2:基于麦克风捕获的语音信号获得会议音频数据,对原始音频数据进行处理,对处理后的会议音频数据进行记录;并对会议记录的音频数据进行转换,将转换得到的会议记录文本数据进行保存;
S3:对会议记录文本数据中的模糊指代词和实体进行识别,并添加位置标记信息;结合S1和S2中的相关数据对会议音频数据中的模糊指代词进行分析,判断发言人所述代词的指代对象;
S4:根据S3的分析结果对会议记录文本数据进行修订,根据位置标记信息对会议记录文本数据中的模糊表述添加补充说明;并结合预设的会议记录文本格式将生成的会议记录文本数据进行存储。
进一步的,所述S1包括:
步骤S1-1:在会议开始前,对会议室内的参会人员进行登记,通过麦克风连接的应用程序实现麦克风设备标识和参会人员身份信息的绑定操作;
步骤S1-2:所述麦克风设备的个数为n,且全部麦克风位于同一平面,在会议场景中根据实际可使用麦克风数量进行修正;通过会议场景数据上传或麦克风位置检测的方法对会议中的n个麦克风位置进行获取;
步骤S1-3:使用麦克风对会议进行录音,获取参会人员的发言数据,从各个麦克风中采集语音信号,并记录下每个麦克风的采集时间戳、采样率、声道数等信息。
进一步的,所述S2包括:
步骤S2-1:通过麦克风设备录制会议中的语音信号,将信号转化为音频数据,这些数据包含有音频信号的振幅、频率和时间信息等;并对原始音频数据进行预处理,包括消除噪声、过滤杂音等处理,以提高音频的质量和可靠性,使得后续处理更加准确和可靠;
步骤S2-2:根据麦克风设备绑定的身份信息和声音强度或参会人员声纹信息对每个参会人员在会议中的发言内容进行分割,并将每个发言人的音频信号与其身份信息进行绑定;
步骤S2-3:将音频数据转换为文本数据,并将分割后的会议发言内容与其所属发言人进行绑定;通过自然语言处理技术对音频数据中的会议发言进行自动识别,生成会议文本数据;;将转换得到的会议记录文本数据进行保存,以便后续的数据检索和查询。
进一步的,所述S3包括:
步骤S3-1:遍历会议记录文本,通过命名实体识别技术对S2中的会议记录文本中具有明确含义的实体进行识别,如人名、地名、公司名、项目名称等;
通过模糊代词搜索模型对S2中的会议记录文本数据进行识别,对文本中的模糊指代词进行标记;所述模糊代词搜索模型是一种自然语言处理模型,用于对文本中的语义模糊的代词进行识别;
步骤S3-2:对标记的模糊指代词在其对应的音频数据中进行定位,根据S1中获取的麦克风位置信息和麦克风捕获的会议中各发言人的发言相关数据对定位的模糊指代词进行第一阶段分析;
当第一发言人的发言内容包含模糊指代词xi时,生成第一触发信号,基于麦克风获取的发言相关数据对会议现场中的第一发言人在表述模糊指代词xi时的面部朝向进行分析;
其中,对发言人面部朝向进行分析包括以下步骤:
A1:对于已知麦克风位置距离的会议现场,接收到第一触发信号,通过获取麦克风捕获的会议中各发言人的发言相关数据,对模糊指代词xi所在的音频片段进行提取;
A2:对提取到的音频片段进行分析;以第一发言人绑定的麦克风位置为原点,将接收到的第一发言人音频信号强度大于设定阈值θ的麦克风组成麦克风集合;
A3:通过筛选得到的麦克风集合对发言人面部朝向进行分析;将第一发言人绑定的麦克风与麦克风集合内的各麦克风分别进行连线,以各麦克风接收到的第一发言人的音频信号强度为权重;设麦克风集合包括m个麦克风,第i个麦克风接收到来自第一发言人的音频信号强度为Si ’,则第i个麦克风与第一发言人绑定的麦克风之间的连线的权重为Si;通过数据库中的预制表单选取音频信号强度Si ’对应的权重Si;信号强度越高则权重越大;则第一发言人的面部朝向角度范围δ的计算公式为:
δ={Σ(Si*cosαi)/[Σ(Si*sinαi)]+c}±λ;
其中,以第一发言人绑定的麦克风为原点,将原点与距离原点最近的麦克风的连线作为x轴,并规定其方向为正方向,将x轴沿逆时针方向旋转90度形成y轴,并规定其方向为正方向;将每个麦克风的位置映射到直角坐标系上的对应坐标,对于第i个麦克风,将原点与第i个麦克风的映射进行连线,αi为该连线与x轴正方向之间的夹角;c为常数,λ表示偏转角,由相关技术人员预先设置;
优选的,对发言人面部朝向进行分析还包括以下方法:
B1:将各麦克风的位置信息和各位置对不同角度声源信号的接收强度作为输入,构建一个麦克风阵列模型;
B2:对于激发第一触发信号的发言人,将麦克风阵列接收的音频片段相关数据输入麦克风阵列模型;以此计算出发言人相对于原点的在麦克风阵列中的朝向角度;
步骤S3-3:根据计算得到发言人面部朝向,对模糊指代词xi建立第一候选实体集H={h1,h2,...hk};所述候选实体集基于发言人面部朝向,对步骤S1中获取的参会人员身份信息、会议场景数据和步骤S3-1中识别的实体进行筛选,将会议记录中的候选实体范围进行缩小,选取有发言人朝向范围内的会议场景布局中的物品或参会人员及其发言内容中的实体作为模糊指代词xi的候选实体;通过分析发言人在发言时的朝向确定候选实体集可以缩小匹配范围,极大的减少计算量,从而提高指代消解的效率;
第二候选实体集可以根据实际需要进行动态更新和扩展,能够应对不同的任务要求和语言环境,防止因第一候选集局限造成的指代消解失败;
优选的,另一种建立候选实体集的方法包括:
对麦克风的切换进行分析,将当前发言人所绑定的麦克风的前/后一定范围内切换的麦克风进行标记,对切换麦克风进行发言的参会人员的发言内容进行筛选,选择切换麦克风所属的发言人及其发言内容中的实体做为候选实体集;
步骤S3-4:根据建立的候选实体集,对会议记录中的指代词进行分析;对指代词汇的候选实体进行位置识别;对每个指代词,根据前后文信息和上下文语境,基于第一候选实体集确定其对应的第二候选实体集;对每个指代词和其对应的第二候选实体集,计算实体与指代词之间的语义相似度,并根据阈值判断是否需要扩展第二候选实体集;其中,当计算得到的实体与指代词之间的语义相似度低于相似度阈值Ω时,认为当前第二候选实体集不能满足对指代词进行说明的需求,需要对第二候选实体集进行扩展,扩展时,可超出第一候选实体集的范围;根据实体与指代词之间的属性匹配结果和扩展操作,选取匹配程度最高的实体作为该指代词所代表的实体;将分析结果进行汇总和整理,将各指代词与其相应的指代对象进行关联;
需要注意的是,在进行指代词分析时,需要充分考虑语境和前后文信息,以确保匹配结果的准确性和可靠性。此外,还可以结合知识图谱等外部知识资源,进一步提高指代消解的精度和效果。
进一步的,在步骤S4中,
S4-1:基于各指代词与其指代对象的关联;对会议记录中标记的模糊指代词汇进行补充说明,对于存在模糊表述的句子,在会议记录文本数据中添加相关的位置标记信息和以便提高其可读性和准确性;优选的,对于无法说明的指代词,可以将其标记为未解决的指代词,并记录下来,以供后续处理。
S4-2:根据预设的会议记录文本格式,对完成修订的会议记录文本数据进行格式化,并对格式化的会议记录文本数据进行安全存储,格式化是指将数据按照一定规则进行排版、安排和组织,使之具有良好的可读性和可操作性,以便后续的数据检索和查询;例如,在会议记录文本数据中,格式化可以将时间、地点、参会人员、议题等信息按照一定的规则排列组合,以方便用户快速地获取相关信息;
S4-3:对于不需要的数据或者重复的数据进行清理,以提高数据的质量和可用性。
基于物联网及麦克风切换技术的会议数据管理系统,所述系统包括:麦克风数据获取模块、会议数据记录模块、会议数据分析模块和会议记录生成模块;
所述麦克风数据获取模块用于获取会议中麦克风捕获的音频信号和各麦克风位置的参会人员身份信息;
所述会议数据记录模块用于基于麦克风捕获的音频信号对会议中的音频数据进行记录,并对原始音频数据进行处理;
所述会议数据分析模块用于对会议音频数据中的模糊指代词汇进行分析,判断发言人所述代词的指代对象;
所述会议记录生成模块用于基于会议数据分析结果对会议记录音频数据进行转换,生成会议记录文本数据并对其进行存储。
进一步的,所述麦克风数据获取模块包括麦克风接口管理单元、音频采样管理单元、麦克风位置校准单元和人员身份识别单元;
所述麦克风接口设置单元用于对通过对麦克风的硬件或软件接口进行设置,使麦克风连接到计算机或其他设备;
所述音频采样管理单元用于对麦克风采集音频信号的采样率进行设置,通过麦克风采集会议现场的音频信号,使得麦克风数据获取模块的采样率能够满足应用需求;
所述麦克风位置校准单元用于通过感知设备周围环境的声音传播情况或其他位置感应方式,分析每个麦克风相对的物理位置;常见的麦克风位置检测方法有声源定位、混响时间差等。
所述人员身份识别单元用于对参会人员的身份信息进行识别,以区分每个人员在会议中对应的麦克风;常见的身份识别手段有指纹识别、人脸识别、语音特征识别等。
所述会议数据记录模块包括音频分割单元和音频预处理单元;
所述音频预处理单元用于对采集的会议现场音频信号进行质量检测,并对其进行语音增强处理;以便于提高音频信号的质量和清晰度;
所述音频分割单元用于将整个音频数据分割成小段,便于后续对每段音频数据进行处理和分析;并将其转换为数字信号存储在计算机内存或硬盘中;
进一步的,所述会议数据分析模块包括会议记录识别单元和指代关系分析单元;
所述会议记录识别单元用于对会议记录数据进行识别,对记录中的实体和模糊指代词汇进行标记,以便于判断代词的指代对象;
所述指代关系分析单元用于对会议记录中的指代词进行分析,进行排除和筛选,确定其最大可能的指代对象,并将分析结果进行汇总和整理。
进一步的,所述会议记录生成模块包括数据转换单元、文本修订单元和数据存储单元;
所述数据转换单元用于将会议数据记录模块处理后的会议记录音频数据转换成文本数据;
所述文本修订单元用于根据会议数据分析模块的分析结果对转换的文本数据进行修订,将会议记录中的模糊表述进行标记、补充说明;
所述数据存储单元用于将修订后的会议记录文本进行存储,以便于后续相关人员对其进行访问。
与现有技术相比,本发明所达到的有益效果是:
本发明通过麦克风数据获取模块获取会议中麦克风捕获的音频信号和各麦克风位置的参会人员身份信息;通过会议数据记录模块基于麦克风捕获的音频信号对会议中的音频数据进行记录,并对原始音频数据进行处理;通过会议数据分析模块对会议音频数据中的模糊指代词汇进行分析,判断发言人所述代词的指代对象;通过会议记录生成模块基于会议数据分析结果对会议记录音频数据进行转换,生成会议记录文本数据并对其进行存储;通过分析发言人在发言时的朝向确定候选实体集可以缩小匹配范围,极大的减少计算量,从而提高指代消解的效率;对会议记录中的模糊指代词进行补充说明,可以有效提高了会议记录的清晰程度,有助于相关人员对会议记录的理解。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明基于物联网及麦克风切换技术的会议数据管理系统的模块结构示意图;
图2是本发明基于物联网及麦克风切换技术的会议数据管理方法的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1、图2和具体实施例对本发明作进一步的说明。
实施例1:如图1所示,本实施例提供了一种基于物联网及麦克风切换技术的会议数据管理系统,所述系统包括:麦克风数据获取模块、会议数据记录模块、会议数据分析模块和会议记录生成模块;
麦克风数据获取模块,用于获取会议中麦克风捕获的音频信号和各麦克风位置的参会人员身份信息;其中,麦克风数据获取模块包括麦克风接口管理单元、音频采样管理单元、麦克风位置校准单元和人员身份识别单元;
麦克风接口设置单元用于对通过对麦克风的硬件或软件接口进行设置,使麦克风连接到计算机或其他设备;
音频采样管理单元用于对麦克风采集音频信号的采样率进行设置,通过麦克风采集会议现场的音频信号,使得麦克风数据获取模块的采样率能够满足应用需求;
麦克风位置校准单元用于通过感知设备周围环境的声音传播情况或其他位置感应方式,分析每个麦克风相对的物理位置;常见的麦克风位置检测方法有声源定位、混响时间差等。
人员身份识别单元用于对参会人员的身份信息进行识别,以区分每个人员在会议中对应的麦克风;常见的身份识别手段有指纹识别、人脸识别、语音特征识别等。
会议数据记录模块,用于基于麦克风捕获的音频信号对会议中的音频数据进行记录,并对原始音频数据进行处理;其中,会议数据记录模块包括音频分割单元和音频预处理单元;
音频预处理单元用于对采集的会议现场音频信号进行质量检测,并对其进行语音增强处理;例如去噪、滤波等操作;以便于提高音频信号的质量和清晰度;
音频分割单元用于将整个音频数据分割成小段,便于后续对每段音频数据进行处理和分析;分割方式可以基于时间间隔或者声音强度、能量等信号特征来进行;并将其转换为数字信号存储在计算机内存或硬盘中;
会议数据分析模块,用于对会议音频数据中的模糊指代词汇进行分析,判断发言人所述代词的指代对象;其中,会议数据分析模块包括会议记录识别单元和指代关系分析单元;
会议记录识别单元用于对会议记录数据进行识别,对记录中的实体和模糊指代词汇进行标记,以便于判断代词的指代对象;
指代关系分析单元用于对会议记录中的指代词进行分析,进行排除和筛选,确定其最大可能的指代对象,并将分析结果进行汇总和整理。
会议记录生成模块,用于基于会议数据分析结果对会议记录音频数据进行转换,生成会议记录文本数据并对其进行存储;其中,会议记录生成模块包括数据转换单元、文本修订单元和数据存储单元;
所述数据转换单元用于将会议数据记录模块处理后的会议记录音频数据转换成文本数据;
所述文本修订单元用于根据会议数据分析模块的分析结果对转换的文本数据进行修订,将会议记录中的模糊表述进行标记、补充说明;
所述数据存储单元用于将修订后的会议记录文本进行存储,以便于后续相关人员对其进行访问。
实施例2:如图2所示,本实施例提供了一种基于物联网及麦克风切换技术的会议数据管理方法,其基于实施例中的基于物联网及麦克风切换技术的会议数据管理系统实现,具体包括以下步骤:
S1:获取会议中的麦克风位置信息和麦克风捕获的会议中各发言人的语音信号,并通过麦克风设备安装的应用程序将参会人员的身份信息与设备标识进行绑定,获取到麦克风设备标识对应的参会人员发言相关数据;
其中,S1包括:
步骤S1-1:在会议开始前,对会议室内的参会人员进行登记,通过麦克风连接的应用程序实现麦克风设备标识和参会人员身份信息的绑定操作;
步骤S1-2:所述麦克风设备的个数为n,且全部麦克风位于同一平面,在会议场景中根据实际可使用麦克风数量进行修正;通过会议场景数据上传或麦克风位置检测的方法对会议中的n个麦克风位置进行获取;
步骤S1-3:使用麦克风对会议进行录音,获取参会人员的发言数据,从各个麦克风中采集语音信号,并记录下每个麦克风的采集时间戳、采样率、声道数等信息。
S2:基于麦克风捕获的语音信号获得会议音频数据,对原始音频数据进行处理,对处理后的会议音频数据进行记录;并对会议记录的音频数据进行转换,将转换得到的会议记录文本数据进行保存;其中,S2包括:
步骤S2-1:通过麦克风设备录制会议中的语音信号,将信号转化为音频数据,这些数据包含有音频信号的振幅、频率和时间信息等;并对原始音频数据进行预处理,包括消除噪声、过滤杂音等处理,以提高音频的质量和可靠性,使得后续处理更加准确和可靠;
步骤S2-2:根据麦克风设备绑定的身份信息和声音强度或参会人员声纹信息对每个参会人员在会议中的发言内容进行分割,并将每个发言人的音频信号与其身份信息进行绑定;
步骤S2-3:将音频数据转换为文本数据,并将分割后的会议发言内容与其所属发言人进行绑定;通过自然语言处理技术对音频数据中的会议发言进行自动识别,生成会议文本数据;可以使用如语音识别系统和音频编码解码器来进行音频到文本的转换;将转换得到的会议记录文本数据进行保存,以便后续的数据检索和查询。文本数据可以存储在数据库或文本文件中,可以根据需要对其进行处理和分析。
S3:对会议记录文本数据中的模糊指代词和实体进行识别,并添加位置标记信息;结合S1和S2中的相关数据对会议音频数据中的模糊指代词进行分析,判断发言人所述代词的指代对象;其中,S3包括:
步骤S3-1:遍历会议记录文本,通过命名实体识别技术对S2中的会议记录文本中具有明确含义的实体进行识别,如人名、地名、公司名、项目名称等,可通过训练好的实体识别器或者使用开放源码软件包完成,常见的软件包包括Stanford NER、SpaCy、NLTK等;
通过模糊代词搜索模型对S2中的会议记录文本数据进行识别,对文本中的模糊指代词进行标记;所述模糊代词搜索模型是一种自然语言处理模型,用于对文本中的语义模糊的代词进行识别;
步骤S3-2:对标记的模糊指代词在其对应的音频数据中进行定位,根据S1中获取的麦克风位置信息和麦克风捕获的会议中各发言人的发言相关数据对定位的模糊指代词进行第一阶段分析;
当第一发言人的发言内容包含模糊指代词xi时,生成第一触发信号,基于麦克风获取的发言相关数据对会议现场中的第一发言人在表述模糊指代词xi时的面部朝向进行分析;
其中,对发言人面部朝向进行分析包括以下步骤:
A1:对于已知麦克风位置距离的会议现场,接收到第一触发信号,通过获取麦克风捕获的会议中各发言人的发言相关数据,对模糊指代词xi所在的音频片段进行提取;
A2:对提取到的音频片段进行分析;以第一发言人绑定的麦克风位置为原点,将接收到的第一发言人音频信号强度大于设定阈值θ的麦克风组成麦克风集合;
A3:通过筛选得到的麦克风集合对发言人面部朝向进行分析;将第一发言人绑定的麦克风与麦克风集合内的各麦克风分别进行连线,以各麦克风接收到的第一发言人的音频信号强度为权重;设麦克风集合包括m个麦克风,第i个麦克风接收到来自第一发言人的音频信号强度为Si ’,则第i个麦克风与第一发言人绑定的麦克风之间的连线的权重为Si;则第一发言人的面部朝向角度范围δ的计算公式为:
δ={Σ(Si*cosαi)/[Σ(Si*sinαi)]+c}±λ;
其中,以第一发言人绑定的麦克风为原点,将原点与距离原点最近的麦克风的连线作为x轴,并规定其方向为正方向,将x轴沿逆时针方向旋转90度形成y轴,并规定其方向为正方向;将每个麦克风的位置映射到直角坐标系上的对应坐标,对于第i个麦克风,将原点与第i个麦克风的映射进行连线,αi为该连线与x轴正方向之间的夹角;c为常数,λ表示偏转角,由相关技术人员预先设置;用于调整计算得到的面部朝向;
步骤S3-3:根据计算得到发言人面部朝向,对模糊指代词xi建立第一候选实体集H={h1,h2,...hk};所述候选实体集基于发言人面部朝向,对步骤S1中获取的参会人员身份信息、会议场景数据和步骤S3-1中识别的实体进行筛选,将会议记录中的候选实体范围进行缩小,选取有发言人朝向范围内的会议场景布局中的物品或参会人员及其发言内容中的实体作为模糊指代词xi的候选实体;通过分析发言人在发言时的朝向确定候选实体集可以缩小匹配范围,极大的减少计算量,从而提高指代消解的效率;
候选实体集可以根据需要进行动态更新和扩展,能够应对不同的任务要求和语言环境。
步骤S3-4:根据建立的候选实体集,对会议记录中的指代词进行分析;对指代词汇的候选实体进行位置识别;对每个指代词,根据前后文信息和上下文语境,基于第一候选实体集确定其对应的第二候选实体集;对每个指代词和其对应的第二候选实体集,计算实体与指代词之间的语义相似度,并根据阈值判断是否需要扩展第二候选实体集;根据实体与指代词之间的属性匹配结果和扩展操作,选取匹配程度最高的实体作为该指代词所代表的实体;将分析结果进行汇总和整理,将各指代词与其相应的指代对象进行关联;
需要注意的是,在进行指代词分析时,需要充分考虑语境和前后文信息,以确保匹配结果的准确性和可靠性。此外,还可以结合知识图谱等外部知识资源,进一步提高指代消解的精度和效果。
例如,在一个办公室场景中,发言人A的之后,麦克风切换至发言人B开始发言,常规的技术手段中会主要基于发言顺序对发言内容中的代词在记录位置的上下文进行分析,如对发言人B的发言内容进行分析。本发明考虑到会议发言中的人物发言习惯,基于发言人进行发言时的面部朝向,对发言内容中的指代对象进行进一步的范围缩小,可以有效减少对代词分析的计算量;
当分析得到发言人的面部朝向是办公室大门的方向,问题中提到的模糊指代词xi可能是“门”、“门的方向的参会人员”“该方向参会人员的发言内容中的实体”等,则可以将这些实体作为候选实体集,进一步筛选出其中符合上下文信息的实体。
S4:根据S3的分析结果对会议记录文本数据进行修订,根据位置标记信息对会议记录文本数据中的模糊表述添加补充说明;并结合预设的会议记录文本格式将生成的会议记录文本数据进行存储;其中,S4包括:
S4-1:基于各指代词与其指代对象的关联;对会议记录中标记的模糊指代词汇进行补充说明,对于存在模糊表述的句子,在会议记录文本数据中添加相关的位置标记信息和以便提高其可读性和准确性;例如,可以添加注释、括号或者脚注等,用以解释模糊表述的具体含义;
优选的,对于无法说明的指代词,可以将其标记为未解决的指代词,并记录下来,以供后续处理。
S4-2:根据预设的会议记录文本格式,对完成修订的会议记录文本数据进行格式化,并对格式化的会议记录文本数据进行安全存储,格式化是指将数据按照一定规则进行排版、安排和组织,使之具有良好的可读性和可操作性,以便后续的数据检索和查询;例如,在会议记录文本数据中,格式化可以将时间、地点、参会人员、议题等信息按照一定的规则排列组合,以方便用户快速地获取相关信息;
S4-3:对于不需要的数据或者重复的数据进行清理,以提高数据的质量和可用性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.基于物联网及麦克风切换技术的会议数据管理方法,其特征在于:包括以下步骤:
S1:获取会议中的麦克风位置信息和麦克风捕获的会议中各发言人的语音信号,并通过麦克风设备安装的应用程序将参会人员的身份信息与设备标识进行绑定,获取到麦克风设备标识对应的参会人员发言相关数据;
S2:基于麦克风捕获的语音信号获得会议音频数据,对原始音频数据进行处理,对处理后的会议音频数据进行记录;并对会议记录的音频数据进行转换,将转换得到的会议记录文本数据进行保存;
S3:对会议记录文本数据中的模糊指代词和实体进行识别,并添加位置标记信息;结合S1和S2中的相关数据对会议音频数据中的模糊指代词进行分析,判断发言人所述代词的指代对象;
S4:根据S3的分析结果对会议记录文本数据进行修订,根据位置标记信息对会议记录文本数据中的模糊表述添加补充说明;并结合预设的会议记录文本格式将生成的会议记录文本数据进行存储。
2.根据权利要求1所述的基于物联网及麦克风切换技术的会议数据管理方法,其特征在于:所述S1包括:
步骤S1-1:在会议开始前,对会议室内的参会人员进行登记,通过麦克风连接的应用程序实现麦克风设备标识和参会人员身份信息的绑定操作;
步骤S1-2:所述麦克风设备的个数为n;通过会议场景数据上传n个麦克风位置进行获取;
步骤S1-3:使用麦克风对会议进行录音,获取参会人员的发言数据,从各个麦克风中采集语音信号。
3.根据权利要求1所述的基于物联网及麦克风切换技术的会议数据管理方法,其特征在于:所述S2包括:
步骤S2-1:通过麦克风设备录制会议中的语音信号,将信号转化为音频数据,并对原始音频数据进行预处理;
步骤S2-2:根据麦克风设备绑定的身份信息和声音强度或参会人员声纹信息对每个参会人员在会议中的发言内容进行分割,并将每个发言人的音频信号与其身份信息进行绑定;
步骤S2-3:将音频数据转换为文本数据,并将分割后的会议发言内容与其所属发言人进行绑定;通过自然语言处理技术对音频数据中的会议发言进行自动识别,生成会议文本数据;将转换得到的会议记录文本数据进行保存。
4.根据权利要求1所述的基于物联网及麦克风切换技术的会议数据管理方法,其特征在于:所述S3包括:
步骤S3-1:遍历会议记录文本,通过命名实体识别技术对S2中的会议记录文本中具有明确含义的实体进行识别;通过模糊代词搜索模型对S2中的会议记录文本数据进行识别,对文本中的模糊指代词进行标记;
步骤S3-2:对标记的模糊指代词在其对应的音频数据中进行定位,根据S1中获取的麦克风位置信息和麦克风捕获的会议中各发言人的发言相关数据对定位的模糊指代词进行第一阶段分析;
当第一发言人的发言内容包含模糊指代词xi时,生成第一触发信号,基于麦克风获取的发言相关数据对会议现场中的第一发言人在表述模糊指代词xi时的面部朝向进行分析;
其中,对发言人面部朝向进行分析包括以下步骤:
A1:对于已知麦克风位置距离的会议现场,接收到第一触发信号,通过获取麦克风捕获的会议中各发言人的发言相关数据,对模糊指代词xi所在的音频片段进行提取;
A2:对提取到的音频片段进行分析;以第一发言人绑定的麦克风位置为原点,将接收到的第一发言人音频信号强度大于设定阈值θ的麦克风组成麦克风集合;
A3:通过筛选得到的麦克风集合对发言人面部朝向进行分析;将第一发言人绑定的麦克风与麦克风集合内的各麦克风分别进行连线,以各麦克风接收到的第一发言人的音频信号强度为权重;设麦克风集合包括m个麦克风,第i个麦克风接收到来自第一发言人的音频信号强度为Si ’,则第i个麦克风与第一发言人绑定的麦克风之间的连线的权重为Si;则第一发言人的面部朝向角度范围δ的计算公式为:
δ={Σ(Si*cosαi)/[Σ(Si*sinαi)]+c}±λ;
其中,以第一发言人绑定的麦克风为原点,将原点与距离原点最近的麦克风的连线作为x轴,并规定其方向为正方向,将x轴沿逆时针方向旋转90度形成y轴,并规定其方向为正方向;将每个麦克风的位置映射到直角坐标系上的对应坐标,对于第i个麦克风,将原点与第i个麦克风的映射进行连线,αi为该连线与x轴正方向之间的夹角;c为常数,λ表示偏转角,由相关技术人员预先设置;
步骤S3-3:根据计算得到发言人面部朝向,对模糊指代词xi建立第一候选实体集H={h1,h2,...hk};所述候选实体集基于发言人面部朝向,对步骤S1中获取的参会人员身份信息、会议场景数据和步骤S3-1中识别的实体进行筛选,将会议记录中的实体范围进行缩小,选取有发言人朝向范围内的会议场景布局中的物品或参会人员及其发言内容中的实体作为模糊指代词xi的候选实体;
步骤S3-4:根据建立的候选实体集,对会议记录中的指代词进行分析;对指代词汇的候选实体进行位置识别;对每个指代词,根据前后文信息和上下文语境,基于第一候选实体集确定其对应的第二候选实体集;对每个指代词和其对应的第二候选实体集,计算实体与指代词之间的语义相似度,并根据阈值判断是否需要扩展第二候选实体集;根据实体与指代词之间的属性匹配结果和扩展操作,选取匹配程度最高的实体作为该指代词所代表的实体;将分析结果进行汇总和整理,将各指代词与其相应的指代对象进行关联。
5.根据权利要求1所述的基于物联网及麦克风切换技术的会议数据管理方法,其特征在于:所述S4包括:
S4-1:基于各指代词与其指代对象的关联;对会议记录中标记的模糊指代词汇进行补充说明;
S4-2:根据预设的会议记录文本格式,对完成修订的会议记录文本数据进行格式化,并对格式化的会议记录文本数据进行安全存储。
6.基于物联网及麦克风切换技术的会议数据管理系统,其特征在于:所述系统包括:麦克风数据获取模块、会议数据记录模块、会议数据分析模块和会议记录生成模块;
所述麦克风数据获取模块用于获取会议中麦克风捕获的音频信号和各麦克风位置的参会人员身份信息;
所述会议数据记录模块用于基于麦克风捕获的音频信号对会议中的音频数据进行记录,并对原始音频数据进行处理;
所述会议数据分析模块用于对会议音频数据中的模糊指代词汇进行分析,判断发言人所述代词的指代对象;
所述会议记录生成模块用于基于会议数据分析结果对会议记录音频数据进行转换,生成会议记录文本数据并对其进行存储。
7.根据权利要求6所述的基于物联网及麦克风切换技术的会议数据管理系统,其特征在于:所述麦克风数据获取模块包括麦克风接口管理单元、音频采样管理单元、麦克风位置校准单元和人员身份识别单元;
所述麦克风接口设置单元用于对通过对麦克风的硬件或软件接口进行设置,使麦克风连接到计算机或其他设备;所述音频采样管理单元用于对麦克风采集音频信号的采样率进行设置,通过麦克风采集会议现场的音频信号;所述麦克风位置校准单元用于通过感知设备周围环境的声音传播情况或其他位置感应方式,分析每个麦克风相对的物理位置;所述人员身份识别单元用于对参会人员的身份信息进行识别,以区分每个人员在会议中对应的麦克风;
所述会议数据记录模块包括音频分割单元和音频预处理单元;
所述音频预处理单元用于对采集的会议现场音频信号进行质量检测,并对其进行语音增强处理;所述音频分割单元用于将整个音频数据分割成小段,并将其转换为数字信号存储在计算机内存或硬盘中。
8.根据权利要求6所述的基于物联网及麦克风切换技术的会议数据管理系统,其特征在于:所述会议数据分析模块包括会议记录识别单元和指代关系分析单元;
所述会议记录识别单元用于对会议记录数据进行识别,对记录中的实体和模糊指代词汇进行标记;
所述指代关系分析单元用于对会议记录中的指代词进行分析,确定其最大可能的指代对象,并将分析结果进行汇总和整理。
9.根据权利要求6所述的基于物联网及麦克风切换技术的会议数据管理系统,其特征在于:所述会议记录生成模块包括数据转换单元、文本修订单元和数据存储单元;
所述数据转换单元用于将会议数据记录模块处理后的会议记录音频数据转换成文本数据;
所述文本修订单元用于根据会议数据分析模块的分析结果对转换的文本数据进行修订,将会议记录中的模糊表述进行标记、补充说明;
所述数据存储单元用于将修订后的会议记录文本进行存储。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310971974.3A CN116996337B (zh) | 2023-08-03 | 2023-08-03 | 基于物联网及麦克风切换技术的会议数据管理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310971974.3A CN116996337B (zh) | 2023-08-03 | 2023-08-03 | 基于物联网及麦克风切换技术的会议数据管理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116996337A true CN116996337A (zh) | 2023-11-03 |
CN116996337B CN116996337B (zh) | 2024-01-26 |
Family
ID=88522947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310971974.3A Active CN116996337B (zh) | 2023-08-03 | 2023-08-03 | 基于物联网及麦克风切换技术的会议数据管理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116996337B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108366216A (zh) * | 2018-02-28 | 2018-08-03 | 深圳市爱影互联文化传播有限公司 | 会议视频录制、记录及传播方法、装置及服务器 |
CN108597518A (zh) * | 2018-03-21 | 2018-09-28 | 安徽咪鼠科技有限公司 | 一种基于语音识别的会议记录智能麦克风系统 |
CN109388701A (zh) * | 2018-08-17 | 2019-02-26 | 深圳壹账通智能科技有限公司 | 会议记录生成方法、装置、设备和计算机存储介质 |
US20200118569A1 (en) * | 2018-10-12 | 2020-04-16 | Shenzhen Oceanwing Smart Innovations Technology Co., Ltd | Conference sound box and conference recording method, apparatus, system and computer storage medium |
CN111522909A (zh) * | 2020-04-10 | 2020-08-11 | 海信视像科技股份有限公司 | 一种语音交互方法及服务器 |
CN114257778A (zh) * | 2021-12-27 | 2022-03-29 | 新联合众(北京)科技有限公司 | 一种远程会议系统及多麦克风语音识别播放方法 |
-
2023
- 2023-08-03 CN CN202310971974.3A patent/CN116996337B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108366216A (zh) * | 2018-02-28 | 2018-08-03 | 深圳市爱影互联文化传播有限公司 | 会议视频录制、记录及传播方法、装置及服务器 |
CN108597518A (zh) * | 2018-03-21 | 2018-09-28 | 安徽咪鼠科技有限公司 | 一种基于语音识别的会议记录智能麦克风系统 |
CN109388701A (zh) * | 2018-08-17 | 2019-02-26 | 深圳壹账通智能科技有限公司 | 会议记录生成方法、装置、设备和计算机存储介质 |
US20200118569A1 (en) * | 2018-10-12 | 2020-04-16 | Shenzhen Oceanwing Smart Innovations Technology Co., Ltd | Conference sound box and conference recording method, apparatus, system and computer storage medium |
CN111522909A (zh) * | 2020-04-10 | 2020-08-11 | 海信视像科技股份有限公司 | 一种语音交互方法及服务器 |
CN114257778A (zh) * | 2021-12-27 | 2022-03-29 | 新联合众(北京)科技有限公司 | 一种远程会议系统及多麦克风语音识别播放方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116996337B (zh) | 2024-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11900947B2 (en) | Method and system for automatically diarising a sound recording | |
WO2020211354A1 (zh) | 基于说话内容的说话者身份识别方法、装置及存储介质 | |
CN107562760B (zh) | 一种语音数据处理方法及装置 | |
WO2019148586A1 (zh) | 多人发言中发言人识别方法以及装置 | |
WO2019196205A1 (zh) | 外语教学评价信息生成方法以及装置 | |
CN109584882B (zh) | 一种针对特定场景的语音转文字的优化方法及系统 | |
CN108962282A (zh) | 语音检测分析方法、装置、计算机设备及存储介质 | |
Hoover et al. | Putting a face to the voice: Fusing audio and visual signals across a video to determine speakers | |
CN108305618B (zh) | 语音获取及搜索方法、智能笔、搜索终端及存储介质 | |
US11501546B2 (en) | Media management system for video data processing and adaptation data generation | |
WO2023124647A1 (zh) | 一种纪要确定方法及其相关设备 | |
CN116246610A (zh) | 基于多模态识别的会议记录生成方法及系统 | |
JP2000235585A (ja) | トピックに基づくテキストと音声とのクロスインデックスの方法及びシステム | |
CN116996337B (zh) | 基于物联网及麦克风切换技术的会议数据管理系统及方法 | |
CN108520740B (zh) | 基于多种特征的音频内容一致性分析方法和分析系统 | |
Hoover et al. | Using audio-visual information to understand speaker activity: Tracking active speakers on and off screen | |
CN114155845A (zh) | 服务确定方法、装置、电子设备及存储介质 | |
CN113889081A (zh) | 语音识别方法、介质、装置和计算设备 | |
Aurchana et al. | Musical instruments sound classification using GMM | |
CN110807370A (zh) | 一种基于多模态的会议发言人身份无感确认方法 | |
CN117174092B (zh) | 基于声纹识别与多模态分析的移动语料转写方法及装置 | |
CN111696527B (zh) | 语音质检区域的定位方法、装置、定位设备及存储介质 | |
Cosi | SLAM: a PC-based multi-level segmentation tool | |
CN116504391A (zh) | 一种智能人工诊后随访质控评估系统、方法及装置 | |
CN115019951A (zh) | 一种基于混合现实的医疗智能诊断决策系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |