CN116246633A - 无线智能物联网会议系统 - Google Patents
无线智能物联网会议系统 Download PDFInfo
- Publication number
- CN116246633A CN116246633A CN202310533330.6A CN202310533330A CN116246633A CN 116246633 A CN116246633 A CN 116246633A CN 202310533330 A CN202310533330 A CN 202310533330A CN 116246633 A CN116246633 A CN 116246633A
- Authority
- CN
- China
- Prior art keywords
- file
- keyword
- word
- conversion
- matching
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/02—Details
- H04L12/16—Arrangements for providing special services to substations
- H04L12/18—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast
- H04L12/1813—Arrangements for providing special services to substations for broadcast or conference, e.g. multicast for computer conferences, e.g. chat rooms
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了无线智能物联网会议系统,其技术方案要点是包括主控模块、文件获取模块、拾音模块以及扬声模块,并配置有声音修正策略,声音修正策略包括获取发言文件并进行关键词识别处理形成文件关键词库;获取声音信号并进行文字转换得到初级转换语句;通过文件关键词库对初级转换文字进行修正得到次级转换语句;通过句式结构修正模型对次级转换语句进行修正得到三级转换语句;将三级转换语句进行声音转换形成声音并广播。该会议系统通过声音修正策略能够对发言人的发言进行修正,使得发言内容清楚,便于参会人员快速、准确得理解发言内容,从而提高会议效果。
Description
技术领域
本发明涉及会议系统领域,更具体的说是涉及无线智能物联网会议系统。
背景技术
会议室是信息交流、业务谈判等活动的重要场所。为了提高会议效果,在中大型会议室内通常配置有会议系统。会议系统是对会议室的话筒、音响、投屏设备等进行统一控制的系统。
在会议中,若发言人因为口齿不清、带有口音或者喉咙不适等原因导致发音不准时,容易造成发言内容不清楚,导致参会人员难以快速、准确得理解发言内容,将严重影响会议效果。
而现有的会议系统通常只具有将参会人员提前准备好的PPT等发言文件进行投屏,将发言人的声音通过话筒和音响进行扩大等基础作用,功能简单,无法解决发言人发言内容不清楚的问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供无线智能物联网会议系统,该会议系统能够对发言人的发言进行修正,使得发言内容清楚,便于参会人员快速、准确得理解发言内容,从而提高会议效果。
为实现上述目的,本发明提供了如下技术方案:无线智能物联网会议系统,包括主控模块、文件获取模块、拾音模块以及扬声模块,所述无线智能物联网会议系统配置有声音修正策略,所述声音修正策略包括:
步骤S100,所述文件获取模块获取发言文件并发送至所述主控模块;
步骤S200,所述主控模块将接收到的所述发言文件的文字进行关键词识别处理得到若干文件关键词,对所述文件关键词按照词性进行分类得到若干文件关键词组,对各个所述文件关键词组内的文件关键词进行同义词扩展得到若干文件关键词库,每个所述文件关键词库内的文件关键词的词性相同;
步骤S300,所述拾音模块获取发言人的声音信号并发送至所述主控模块;
步骤S400,所述主控模块接收到所述声音信号后提取所述声音信号中的语义信号和特征信号,所述语义信号表征与发言内容相关的声音特征,所述特征信号表征与发言人身份相关的声音特征;
步骤S500,所述主控模块对所述语义信号进行文字转换得到若干匹配组,每个所述匹配组包括若干匹配词以及每个匹配词对应的置信度,将每个所述匹配组内置信度最高的所述匹配词作为初级转换文字,将各个所述匹配组的初级转换文字相连得到所述语义信号的初级转换语句;
步骤S600,所述主控模块内配置有若干句式结构,所述主控模块通过相似度算法对所述初级转换语句进行计算并在所有所述句式结构中匹配最相似的句式结构,将最相似的句式结构确定为当前句式结构,并根据所述句式结构确定各个所述初级转换文字的词性;
步骤S700,所述主控模块将各个所述初级转换文字的置信度与预设的临界置信阈值进行比较,当所述初级转换文字的置信度小于所述临界置信阈值时,获取所述初级转换文字对应的所述匹配组内置信度大于预设的最小置信阈值的所有匹配词,所述最小置信阈值小于所述临界置信阈值,根据所述初级转换文字的词性匹配具有对应词性的所述文件关键词库,将所述匹配词与所述文件关键词库内的文件关键词进行一一比对,若比对结果为匹配词与文件关键词相同,则将所述匹配词作为次级转换文字以替换对应的初级转换文字,并得到次级转换语句;
步骤S800,所述主控模块还配置有句式结构修正模型,所述主控模块将所述次级转换语句以及当前句式结构输入到所述句式结构修正模型,得到具有标准句式结构的三级转换语句;
步骤S900,所述主控模块将所述三级转换语句进行声音转换得到标准语义信号,并将所述标准语义信号与所述特征信号融合得到具有发言人声音特征的特征声音信号,并将所述特征声音信号发送至所述扬声模块;
步骤S1000,所述扬声模块将接收到的所述特征声音信号转换为声音进行广播。
作为本发明的进一步改进,所述步骤S700中,将所述匹配词与所述文件关键词库内的文件关键词进行一一比对,若比对结果为匹配词与文件关键词相同,则将所述匹配词作为次级转换文字以替换对应的初级转换文字,具体为将所述匹配词以置信度大小进行排序,置信度大的所述匹配词先与所述文件关键词库内的文件关键词进行一一比对,当出现比对结果为匹配词与文件关键词相同时,结束比对,并将所述匹配词作为次级转换文字以替换对应的初级转换文字。
作为本发明的进一步改进,所述步骤S200还包括所述主控模块获取每个通过关键词识别处理得到的文件关键词在所述发言文件中出现的次数,将同义词扩展得到的文件关键词的次数设置为与作为扩展基础的文件关键词的次数一致;
所述步骤S700中,将所述匹配词与所述文件关键词库内的文件关键词进行一一比对,若比对结果为匹配词与文件关键词相同,则将所述匹配词作为次级转换文字以替换对应的初级转换文字,具体为将所述匹配词与所述文件关键词库内的文件关键词进行一一比对,若匹配词与文件关键词相同的比对结果出现不止一次,则将相同的匹配词的置信度与文件关键词的次数代入预设的相关算法中,计算得到相关值,其中,相关值与置信度和次数均正相关,将相关值最大的所述匹配词作为次级转换文字以替换对应的初级转换文字。
作为本发明的进一步改进,所述相关算法配置为:
作为本发明的进一步改进,所述步骤S200还包括所述主控模块将上一段声音信号对应的三级转换语句进行关键词识别处理得到若干临时关键词,对所述临时关键词按照词性进行分类得到若干临时关键词组,对各个所述临时关键词组内的临时关键词进行同义词扩展得到若干临时关键词库,每个所述临时关键词库内的临时关键词的词性相同;
所述步骤S700还包括,若所有比对结果均为匹配词与文件关键词不相同,则根据所述初级转换文字的词性匹配具有对应词性的所述临时关键词库,将所述匹配词与所述临时关键词库内的临时关键词进行一一比对,若比对结果为匹配词与临时关键词相同,则将所述匹配词作为次级转换文字以替换对应的初级转换文字,并得到次级转换语句。
作为本发明的进一步改进,所述步骤S700还包括在得到次级转换语句后,以及在所有匹配词与所有临时关键词的比对结果均为不相同时,删除所述临时关键词库。
作为本发明的进一步改进,所述拾音模块至少设置有两个,所述声音修正策略还包括当多个所述拾音模块同时获取到声音信号,且声音信号不同时,所述主控模块对每条所述声音信号进行关联性比对处理,以判断每条所述声音信号是否与所述发言文件和上一段所述声音信号相关联,将相关联的所述声音信号对应的所述特征声音信号发送至所述扬声模块;取消将不相关联的所述声音信号对应的所述特征声音信号发送至所述扬声模块。
作为本发明的进一步改进,所述关联性比对处理包括将所述声音信号对应的所述初级转换文字和所述次级转换文字分别与所述文件关键词和所述临时关键词进行一一比对,当所述声音信号对应的关联性比对结果为存在所述初级转换文字或所述次级转换文字与所述文件关键词或所述临时关键词相同时,判断所述声音信号与所述发言文件和上一段所述声音信号相关联,并将所述声音信号对应的所述特征声音信号发送至所述扬声模块;当所述声音信号对应的关联性比对结果为不存在所述初级转换文字或所述次级转换文字与所述文件关键词或所述临时关键词相同时,判断所述声音信号与所述发言文件和上一段所述声音信号不相关联,并取消将所述声音信号对应的所述特征声音信号发送至所述扬声模块。
作为本发明的进一步改进,所述文件关键词包括中文文件关键词和外文文件关键词,所述步骤S200中对各个所述文件关键词组内的文件关键词进行同义词扩展具体为对文件关键词进行中文同义词扩展和外文同义词扩展。
作为本发明的进一步改进,所述步骤S100还包括,所述文件获取模块获取发言文件后对所述发言文件进行投屏。
本发明的有益效果:
本发明的无线智能物联网会议系统通过对发言人的话语进行文字转换得到初级转换语句,并通过从发言获取文件中获取的文件关键词对初级转换语句中的因为发言人发音不准而识别不准确的初级转换文字进行修正,从而得到文字转换更加准确的次级转换语句。修正过程中通过确定初级转换语句的句式结构来确定各个初级转换文字的词性,并只与相同词性的文件关键词进行比对,不仅能够提高修正的准确性,还能够减少数据处理量,提高处理效率。
本发明的无线智能物联网会议系统还通过句式结构修正模型对次级转换语句进行句式结构进行修正,从而得到句式结构更加符合逻辑的三级转换语句,并将三级转换语句进行声音转换后进行广播。因此本发明的系统能够对发言人的话语中的发言不准部分进行修正,并且能够将句式结构不合逻辑的话语修正为符合逻辑的句式结构的语句,从而使得参会人员能够听到更加清楚、更加符合逻辑的语句,便于参会人员快速、准确得理解发言内容,从而提高会议效果。
本发明的无线智能物联网会议系统还将声音信号中的语义信号和特征信号分别提取,对语义信号进行文字转换,转换和修正完成后再进行声音转换得到标准语义信号,最后将标准语义信号与特征信号进行融合后广播,使得最终播放的声音保留了发言人的特征,即保留了发言人的音调、响度和音色,使得参会人员能够通过广播的声音来辨别发言人的身份。在具有多发言人同时或先后发言的情况下,能够便于参会人员快速了解不同发言人的发言内容,以及在发言人改变后能够通过声音及时获知,从而提高会议效果。
附图说明
图1为本发明的系统连接示意图;
图2为本发明的连接框图;
图3为声音修正策略的流程图。
附图标记:1、主控模块;2、文件获取模块;3、拾音模块;4、扬声模块。
具体实施方式
需要指出的是,除非另有指明,本申请使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。在本申请的说明书中所使用的术语只是为了描述具体的实施方式的目的,不是旨在于限制本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
下面结合附图和实施例,对本发明进一步详细说明。其中相同的零部件用相同的附图标记表示。需要说明的是,下面描述中使用的词语“前”、“后”、“左”、“右”、“上”和“下”指的是附图中的方向,词语“底面”和“顶面”、“内”和“外”分别指的是朝向或远离特定部件几何中心的方向。
参照图1至图3所示,本实施例的无线智能物联网会议系统,包括主控模块1、文件获取模块2、拾音模块3以及扬声模块4。文件获取模块2为能够将参会人员准备的发言文件传输到主控模块1的设备,当发言文件为PPT等电子文件时,文件获取模块2具体可以是投屏设备。当发言文件为纸质文件时,文件获取模块2具体可以是扫描设备。拾音模块3为能够采集发言人员话语并转换为声音信号的设备,具体可以为话筒,拾音设备通常设置有多个,其中一个为主席单元,其他的为代表单元。扬声模块4为能够将声音信号转换为声音的设备,具体可以为音响,音响通常也设置多个。主控模块1用于数据处理,本方案中,主控模块1可吸顶安装于会议室内的顶面,文件获取模块2、扬声模块4均与主控模块1电连接,各个拾音模块3与主控模块1无线连接,拾音模块3可内置电池,以便于拾音模块3移动。
无线智能物联网会议系统配置有声音修正策略,声音修正策略包括:
步骤S100,文件获取模块2获取发言文件并发送至主控模块1。
具体的,参会人员可将预先准备好的PPT等发言文件通过文件获取模块2传输到主控模块1。当文件获取模块2为投屏设备时,文件获取模块2在获取发言文件后对发言文件进行投屏,以便参会人员能够一边看PPT等发言文件,一边听发言人发言。
步骤S200,主控模块1将接收到的发言文件的文字进行关键词识别处理得到若干文件关键词,文件关键词包括中文文件关键词和外文文件关键词,对文件关键词按照词性进行分类得到若干文件关键词组,对各个文件关键词组内的文件关键词进行同义词扩展得到若干文件关键词库,同义词扩展具体为对文件关键词进行中文同义词扩展和外文同义词扩展,每个文件关键词库内的文件关键词的词性相同。
具体的,主控模块1识别的文件关键词可以为中文关键词,例如“问题”,也可以为外文关键词,例如“problem”。词性可分为名词、动词、代词、形容词、数词、量词等,通过词性对文件关键词进行分类,“问题”这一文件关键词应分到名词这一类别的文件关键词组中。
对“问题”这一文件关键词进行同义词扩展可得到具有相似含义的中文同义词“难题”,以及外文同义词“problem”,中文同义词和外文同义词均作为文件关键词保存到名词这一类别的文件关键词组中。
步骤S300,拾音模块3获取发言人的声音信号并发送至主控模块1。
步骤S400,主控模块1接收到声音信号后提取声音信号中的语义信号和特征信号,语义信号表征与发言内容相关的声音特征,特征信号表征与发言人身份相关的声音特征。
具体的,语义信号为与发言内容相关的声音特征,用于识别发言内容。而特征信号为与发言人身份相关的声音特征,用于判断发言人身份。不同人发言时的音调、响度、音色不同,因此人们能够通过发言人发言时的音调、响度、音色来判断发言人身份。特征信号包括反映音调、响度、音色的信号。
步骤S500,主控模块1对语义信号进行文字转换得到若干匹配组,每个匹配组包括若干匹配词以及每个匹配词对应的置信度,将每个匹配组内置信度最高的匹配词作为初级转换文字,将各个匹配组的初级转换文字相连得到语义信号的初级转换语句。
具体的,主控模块1对语义信号进行文字转换,文字转换技术采用Speech-to-text方法,STT模型是进行语音识别的基本模型,将语义信号输入STT模型,获取匹配词以及每个匹配词对应的置信度,置信度表征文字转换的准确程度。例如发言人发音标准时,文字转换的准确程度会更高,此时置信度更大。
步骤S600,主控模块1内配置有若干句式结构,主控模块1通过相似度算法对初级转换语句进行计算并在所有句式结构中匹配最相似的句式结构,将最相似的句式结构确定为当前句式结构,并根据句式结构确定各个初级转换文字的词性。
具体的,相似度算法具体可配置为余弦相似度,余弦相似度为先对句子做embedding再计算句子或文本的相似度。相似度算法还可配置为编辑距离计算、杰卡德系数计算、TF计算、TFIDF计算或Word2Vec 计算。在表达同一个意思时,不同发言人说出的语句的句式结构不一定相同,有的句式结构很符合表达逻辑,从而使听者容易理解语句的意思,而有的句式结构不太符合逻辑,理解难度大。在发言人的发言中,句式结构不一定符合逻辑,因此需要先确定当前的句式结构,再对当前句式结构进行识别和修正,使得不符合逻辑的句式结构转换为更符合逻辑的标准句式结构,从而便于参会人员快速、准确得理解语句的意思。且在不同的句式结构中,不同词性的用词的排列顺序不同,在确定了当前句式结构后,即可推算出当前句式结构中各个用词的词性。通过步骤S600,能够确定当前句式结构以及推算出当前句式结构中各个用词的词性。
步骤S700,主控模块1将各个初级转换文字的置信度与预设的临界置信阈值进行比较,当初级转换文字的置信度小于临界置信阈值时,获取初级转换文字对应的匹配组内置信度大于预设的最小置信阈值的所有匹配词,最小置信阈值小于临界置信阈值,根据初级转换文字的词性匹配具有对应词性的文件关键词库,将匹配词与文件关键词库内的文件关键词进行一一比对,若比对结果为匹配词与文件关键词相同,则将匹配词作为次级转换文字以替换对应的初级转换文字,并得到次级转换语句。
具体的,若初级转换文字为“手机”对应的置信度为0.6,临界置信阈值为0.8,最小置信阈值为0.3,此时“手机”这一初级转换文字的置信度小于临界置信值,需要获取匹配组内置信度大于0.3的所有匹配词,若获取到的匹配词为两个,分别为“手机”和“瘦鸡”,对应的置信度分别为0.6和0.35,此时将“手机”和“瘦鸡”这两个匹配词与文件关键词进行比对,若文件关键词中也具有“瘦鸡”,则将“瘦鸡”这一匹配词作为次级转换文字以替换“手机”这一原次级转换文字,并得到次级转换语句。通过步骤S700,能够对因为发言人发音不准而识别不准确的初级转换文字进行修正,从而得到文字转换更加准确的次级转换语句。
步骤S800,主控模块1还配置有句式结构修正模型,主控模块1将次级转换语句以及当前句式结构输入到句式结构修正模型,得到具有标准句式结构的三级转换语句。
具体的,例如次级转换语句为“已经吃过饭了,我们”,该次级转换语句的语句结构逻辑性差,增加了参会人员的理解难度。将该次级转换语句通过句式结构修正模型修正后,得到标准句式结构的三级转换语句为“我们已经吃过放了”,该三级转换语句的语句结构逻辑性强,能够降低了参会人员的理解难度。因此通过步骤S800,主控模块1能够将句式结构不合逻辑的话语修正为符合逻辑的句式结构的语句,从而使得参会人员能够听到更加符合逻辑的语句,便于参会人员快速、准确得理解发言内容,从而提高会议效果。
步骤S900,主控模块1将三级转换语句进行声音转换得到标准语义信号,并将标准语义信号与特征信号融合得到具有发言人声音特征的特征声音信号,并将特征声音信号发送至扬声模块4。
步骤S1000,扬声模块4将接收到的特征声音信号转换为声音进行广播。
具体的,通过将标准语义信号与特征信号进行融合后再广播,使得最终播放的声音保留了发言人的特征,即保留了发言人的音调、响度和音色,便于参会人员能够通过广播的声音来辨别发言人的身份。
作为改进的一个具体实施方式,步骤S700中,将匹配词与文件关键词库内的文件关键词进行一一比对,若比对结果为匹配词与文件关键词相同,则将匹配词作为次级转换文字以替换对应的初级转换文字,具体为将匹配词以置信度大小进行排序,置信度大的匹配词先与文件关键词库内的文件关键词进行一一比对,当出现比对结果为匹配词与文件关键词相同时,结束比对,并将匹配词作为次级转换文字以替换对应的初级转换文字。
具体的,若初级转换文字为“手机”对应的置信度为0.6,临界置信阈值为0.8,最小置信阈值为0.3,此时“手机”这一初级转换文字的置信度小于临界置信值,需要获取匹配组内置信度大于0.3的所有匹配词,若获取到的匹配词为两个,分别为“手机”和“瘦鸡”,对应的置信度分别为0.6和0.35,由于“手机”的置信度高于“瘦鸡”,因此先将“手机”这一匹配词与文件关键词进行比对,若文件关键词中也具有“手机”,则将“手机”这一匹配词作为次级转换文字,并结束比对,得到次级转换语句。若文件关键词中不具有“手机”,则继续比对,将“瘦鸡”这一匹配词与文件关键词进行比对。通过这一设置,使得具有多个匹配词与文件关键词相同时,能够选择置信度最高的匹配词作为次级转换文字。并且置信度高的匹配词先进行比对,只要出现比对结果为相同,则可停止比对,有利于降低数据处理量,提高比对效率。
作为改进的一个具体实施方式,步骤S200还包括主控模块1获取每个通过关键词识别处理得到的文件关键词在发言文件中出现的次数,将同义词扩展得到的文件关键词的次数设置为与作为扩展基础的文件关键词的次数一致。
步骤S700中,将匹配词与文件关键词库内的文件关键词进行一一比对,若比对结果为匹配词与文件关键词相同,则将匹配词作为次级转换文字以替换对应的初级转换文字,具体为将匹配词与文件关键词库内的文件关键词进行一一比对,若匹配词与文件关键词相同的比对结果出现不止一次,则将相同的匹配词的置信度与文件关键词的次数代入预设的相关算法中,计算得到相关值,其中,相关值与置信度和次数均正相关,将相关值最大的匹配词作为次级转换文字以替换对应的初级转换文字。相关算法配置为:
具体的,若初级转换文字为“手机”对应的置信度为0.6,临界置信阈值为0.8,最小置信阈值为0.3,此时“手机”这一初级转换文字的置信度小于临界置信值,需要获取匹配组内置信度大于0.3的所有匹配词,若获取到的匹配词为两个,分别为“手机”和“瘦鸡”,对应的置信度分别为0.6和0.35,此时将“手机”和“瘦鸡”这两个匹配词与文件关键词进行比对,若文件关键词中也具有“手机”和“瘦鸡”,则匹配词与文件关键词相同的比对结果出现不止一次。若主控模块1获取“手机”和“瘦鸡”在发言文件中出现的次数分别为4次和1次。则对于“手机”这一匹配词,置信度为0.6,临界置信阈值/>为0.8,最小置信阈值/>为0.3,文件关键词的次数/>为4,代入相关算法后可计算得到相关值。对于“瘦鸡”这一匹配词,置信度/>为0.35,临界置信阈值/>为0.8,最小置信阈值/>为0.3,文件关键词的次数/>为1,代入相关算法后可计算得到相关值。将两个相关值进行比较,选择相关值大的匹配词作为次级转换文字以替换对应的初级转换文字。
作为改进的一个具体实施方式,步骤S200还包括主控模块1将上一段声音信号对应的三级转换语句进行关键词识别处理得到若干临时关键词,对临时关键词按照词性进行分类得到若干临时关键词组,对各个临时关键词组内的临时关键词进行同义词扩展得到若干临时关键词库,每个临时关键词库内的临时关键词的词性相同。
步骤S700还包括,若所有比对结果均为匹配词与文件关键词不相同,则根据初级转换文字的词性匹配具有对应词性的临时关键词库,将匹配词与临时关键词库内的临时关键词进行一一比对,若比对结果为匹配词与临时关键词相同,则将匹配词作为次级转换文字以替换对应的初级转换文字,并得到次级转换语句。
具体的,通过对上一段声音信号对应的三级转换语句进行关键词识别处理得到若干临时关键词,并且在文件关键词无法对初级转换语句进行修正时,通过临时关键词对初级转换语句进行修正,从而实现了通过发言人之前的发言来进一步修正初级转换语句,从前后语句的相关性角度进一步提高发言人的语句转换成文字的准确性。匹配词和临时关键词的比对过程与匹配词和文件关键词的比对过程类似,在此不做赘述。
作为改进的一个具体实施方式,步骤S700还包括在得到次级转换语句后,以及在所有匹配词与所有临时关键词的比对结果均为不相同时,删除临时关键词库。从而实现临时关键词库的不断更新。
作为改进的一个具体实施方式,拾音模块3至少设置有两个,声音修正策略还包括当多个拾音模块3同时获取到声音信号,且声音信号不同时,主控模块1对每条声音信号进行关联性比对处理,以判断每条声音信号是否与发言文件和上一段声音信号相关联,将相关联的声音信号对应的特征声音信号发送至扬声模块4;取消将不相关联的声音信号对应的特征声音信号发送至扬声模块4。
关联性比对处理包括将声音信号对应的初级转换文字和次级转换文字分别与文件关键词和临时关键词进行一一比对,当声音信号对应的关联性比对结果为存在初级转换文字或次级转换文字与文件关键词或临时关键词相同时,判断声音信号与发言文件和上一段声音信号相关联,并将声音信号对应的特征声音信号发送至扬声模块4;当声音信号对应的关联性比对结果为不存在初级转换文字或次级转换文字与文件关键词或临时关键词相同时,判断声音信号与发言文件和上一段声音信号不相关联,并取消将声音信号对应的特征声音信号发送至扬声模块4。
具体的,当有多个发言人同时对着不同的拾音模块3发言时,不同的拾音模块3同时获取到不同的声音信号,此时对不同的发言与文件获取模块2以及上一发言的关联性进行判断,判断过程为将当前发言对应的初级转换文字和次级转换文字与文件关键词和临时关键词比对,当比对结果为存在相同时,说明相关联,对对应的发言进行广播。当比对结果为全部不相同时,说明不相关联,不对对应的发言进行广播。有利于在多发言人同时发言时屏蔽无效发言。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.无线智能物联网会议系统,其特征在于:包括主控模块、文件获取模块、拾音模块以及扬声模块,所述无线智能物联网会议系统配置有声音修正策略,所述声音修正策略包括:
步骤S100,所述文件获取模块获取发言文件并发送至所述主控模块;
步骤S200,所述主控模块将接收到的所述发言文件的文字进行关键词识别处理得到若干文件关键词,对所述文件关键词按照词性进行分类得到若干文件关键词组,对各个所述文件关键词组内的文件关键词进行同义词扩展得到若干文件关键词库,每个所述文件关键词库内的文件关键词的词性相同;
步骤S300,所述拾音模块获取发言人的声音信号并发送至所述主控模块;
步骤S400,所述主控模块接收到所述声音信号后提取所述声音信号中的语义信号和特征信号,所述语义信号表征与发言内容相关的声音特征,所述特征信号表征与发言人身份相关的声音特征;
步骤S500,所述主控模块对所述语义信号进行文字转换得到若干匹配组,每个所述匹配组包括若干匹配词以及每个匹配词对应的置信度,将每个所述匹配组内置信度最高的所述匹配词作为初级转换文字,将各个所述匹配组的初级转换文字相连得到所述语义信号的初级转换语句;
步骤S600,所述主控模块内配置有若干句式结构,所述主控模块通过相似度算法对所述初级转换语句进行计算并在所有所述句式结构中匹配最相似的句式结构,将最相似的句式结构确定为当前句式结构,并根据所述句式结构确定各个所述初级转换文字的词性;
步骤S700,所述主控模块将各个所述初级转换文字的置信度与预设的临界置信阈值进行比较,当所述初级转换文字的置信度小于所述临界置信阈值时,获取所述初级转换文字对应的所述匹配组内置信度大于预设的最小置信阈值的所有匹配词,所述最小置信阈值小于所述临界置信阈值,根据所述初级转换文字的词性匹配具有对应词性的所述文件关键词库,将所述匹配词与所述文件关键词库内的文件关键词进行一一比对,若比对结果为匹配词与文件关键词相同,则将所述匹配词作为次级转换文字以替换对应的初级转换文字,并得到次级转换语句;
步骤S800,所述主控模块还配置有句式结构修正模型,所述主控模块将所述次级转换语句以及当前句式结构输入到所述句式结构修正模型,得到具有标准句式结构的三级转换语句;
步骤S900,所述主控模块将所述三级转换语句进行声音转换得到标准语义信号,并将所述标准语义信号与所述特征信号融合得到具有发言人声音特征的特征声音信号,并将所述特征声音信号发送至所述扬声模块;
步骤S1000,所述扬声模块将接收到的所述特征声音信号转换为声音进行广播。
2.根据权利要求1所述的无线智能物联网会议系统,其特征在于:所述步骤S700中,将所述匹配词与所述文件关键词库内的文件关键词进行一一比对,若比对结果为匹配词与文件关键词相同,则将所述匹配词作为次级转换文字以替换对应的初级转换文字,具体为将所述匹配词以置信度大小进行排序,置信度大的所述匹配词先与所述文件关键词库内的文件关键词进行一一比对,当出现比对结果为匹配词与文件关键词相同时,结束比对,并将所述匹配词作为次级转换文字以替换对应的初级转换文字。
3.根据权利要求1所述的无线智能物联网会议系统,其特征在于:所述步骤S200还包括所述主控模块获取每个通过关键词识别处理得到的文件关键词在所述发言文件中出现的次数,将同义词扩展得到的文件关键词的次数设置为与作为扩展基础的文件关键词的次数一致;
所述步骤S700中,将所述匹配词与所述文件关键词库内的文件关键词进行一一比对,若比对结果为匹配词与文件关键词相同,则将所述匹配词作为次级转换文字以替换对应的初级转换文字,具体为将所述匹配词与所述文件关键词库内的文件关键词进行一一比对,若匹配词与文件关键词相同的比对结果出现不止一次,则将相同的匹配词的置信度与文件关键词的次数代入预设的相关算法中,计算得到相关值,其中,相关值与置信度和次数均正相关,将相关值最大的所述匹配词作为次级转换文字以替换对应的初级转换文字。
5.根据权利要求1所述的无线智能物联网会议系统,其特征在于:所述步骤S200还包括所述主控模块将上一段声音信号对应的三级转换语句进行关键词识别处理得到若干临时关键词,对所述临时关键词按照词性进行分类得到若干临时关键词组,对各个所述临时关键词组内的临时关键词进行同义词扩展得到若干临时关键词库,每个所述临时关键词库内的临时关键词的词性相同;
所述步骤S700还包括,若所有比对结果均为匹配词与文件关键词不相同,则根据所述初级转换文字的词性匹配具有对应词性的所述临时关键词库,将所述匹配词与所述临时关键词库内的临时关键词进行一一比对,若比对结果为匹配词与临时关键词相同,则将所述匹配词作为次级转换文字以替换对应的初级转换文字,并得到次级转换语句。
6.根据权利要求5所述的无线智能物联网会议系统,其特征在于:所述步骤S700还包括在得到次级转换语句后,以及在所有匹配词与所有临时关键词的比对结果均为不相同时,删除所述临时关键词库。
7.根据权利要求6所述的无线智能物联网会议系统,其特征在于:所述拾音模块至少设置有两个,所述声音修正策略还包括当多个所述拾音模块同时获取到声音信号,且声音信号不同时,所述主控模块对每条所述声音信号进行关联性比对处理,以判断每条所述声音信号是否与所述发言文件和上一段所述声音信号相关联,将相关联的所述声音信号对应的所述特征声音信号发送至所述扬声模块;取消将不相关联的所述声音信号对应的所述特征声音信号发送至所述扬声模块。
8.根据权利要求7所述的无线智能物联网会议系统,其特征在于:所述关联性比对处理包括将所述声音信号对应的所述初级转换文字和所述次级转换文字分别与所述文件关键词和所述临时关键词进行一一比对,当所述声音信号对应的关联性比对结果为存在所述初级转换文字或所述次级转换文字与所述文件关键词或所述临时关键词相同时,判断所述声音信号与所述发言文件和上一段所述声音信号相关联,并将所述声音信号对应的所述特征声音信号发送至所述扬声模块;当所述声音信号对应的关联性比对结果为不存在所述初级转换文字或所述次级转换文字与所述文件关键词或所述临时关键词相同时,判断所述声音信号与所述发言文件和上一段所述声音信号不相关联,并取消将所述声音信号对应的所述特征声音信号发送至所述扬声模块。
9.根据权利要求1所述的无线智能物联网会议系统,其特征在于:所述文件关键词包括中文文件关键词和外文文件关键词,所述步骤S200中对各个所述文件关键词组内的文件关键词进行同义词扩展具体为对文件关键词进行中文同义词扩展和外文同义词扩展。
10.根据权利要求1所述的无线智能物联网会议系统,其特征在于:所述步骤S100还包括,所述文件获取模块获取发言文件后对所述发言文件进行投屏。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310533330.6A CN116246633B (zh) | 2023-05-12 | 2023-05-12 | 无线智能物联网会议系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310533330.6A CN116246633B (zh) | 2023-05-12 | 2023-05-12 | 无线智能物联网会议系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116246633A true CN116246633A (zh) | 2023-06-09 |
CN116246633B CN116246633B (zh) | 2023-07-21 |
Family
ID=86631708
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310533330.6A Active CN116246633B (zh) | 2023-05-12 | 2023-05-12 | 无线智能物联网会议系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116246633B (zh) |
Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110055227A1 (en) * | 2009-08-31 | 2011-03-03 | Sharp Kabushiki Kaisha | Conference relay apparatus and conference system |
US20110320197A1 (en) * | 2010-06-23 | 2011-12-29 | Telefonica S.A. | Method for indexing multimedia information |
US20170263265A1 (en) * | 2016-03-11 | 2017-09-14 | Kabushiki Kaisha Toshiba | Conference support apparatus, conference support method, and computer program product |
US20190259387A1 (en) * | 2018-02-20 | 2019-08-22 | Dropbox, Inc. | Meeting transcription using custom lexicons based on document history |
WO2020111374A1 (ko) * | 2018-11-26 | 2020-06-04 | 주식회사 산타 | 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템 |
CN111276149A (zh) * | 2020-01-19 | 2020-06-12 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及可读存储介质 |
CN111564157A (zh) * | 2020-03-18 | 2020-08-21 | 浙江省北大信息技术高等研究院 | 会议记录优化方法、装置、设备及存储介质 |
WO2020233068A1 (zh) * | 2019-05-21 | 2020-11-26 | 深圳壹账通智能科技有限公司 | 会议音频控制方法、系统、设备及计算机可读存储介质 |
CN112257437A (zh) * | 2020-10-20 | 2021-01-22 | 科大讯飞股份有限公司 | 语音识别纠错方法、装置、电子设备和存储介质 |
CN112581965A (zh) * | 2020-12-11 | 2021-03-30 | 天津讯飞极智科技有限公司 | 转写方法、装置、录音笔和存储介质 |
CN112712349A (zh) * | 2021-01-15 | 2021-04-27 | 卓喜龙 | 一种基于人工智能和大数据分析的智能无纸化会议数据信息处理方法 |
CN112767921A (zh) * | 2021-01-07 | 2021-05-07 | 国网浙江省电力有限公司 | 一种基于缓存语言模型的语音识别自适应方法和系统 |
CN113779972A (zh) * | 2021-09-10 | 2021-12-10 | 平安科技(深圳)有限公司 | 语音识别纠错方法、系统、装置及存储介质 |
CN114420123A (zh) * | 2022-03-16 | 2022-04-29 | 深存科技(无锡)有限公司 | 一种语音识别的优化方法、装置、计算机设备及存储介质 |
WO2022135414A1 (zh) * | 2020-12-24 | 2022-06-30 | 深圳Tcl新技术有限公司 | 语音识别结果的纠错方法、装置、终端设备及存储介质 |
-
2023
- 2023-05-12 CN CN202310533330.6A patent/CN116246633B/zh active Active
Patent Citations (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110055227A1 (en) * | 2009-08-31 | 2011-03-03 | Sharp Kabushiki Kaisha | Conference relay apparatus and conference system |
US20110320197A1 (en) * | 2010-06-23 | 2011-12-29 | Telefonica S.A. | Method for indexing multimedia information |
US20170263265A1 (en) * | 2016-03-11 | 2017-09-14 | Kabushiki Kaisha Toshiba | Conference support apparatus, conference support method, and computer program product |
US20190259387A1 (en) * | 2018-02-20 | 2019-08-22 | Dropbox, Inc. | Meeting transcription using custom lexicons based on document history |
WO2020111374A1 (ko) * | 2018-11-26 | 2020-06-04 | 주식회사 산타 | 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템 |
WO2020233068A1 (zh) * | 2019-05-21 | 2020-11-26 | 深圳壹账通智能科技有限公司 | 会议音频控制方法、系统、设备及计算机可读存储介质 |
CN111276149A (zh) * | 2020-01-19 | 2020-06-12 | 科大讯飞股份有限公司 | 语音识别方法、装置、设备及可读存储介质 |
CN111564157A (zh) * | 2020-03-18 | 2020-08-21 | 浙江省北大信息技术高等研究院 | 会议记录优化方法、装置、设备及存储介质 |
CN112257437A (zh) * | 2020-10-20 | 2021-01-22 | 科大讯飞股份有限公司 | 语音识别纠错方法、装置、电子设备和存储介质 |
CN112581965A (zh) * | 2020-12-11 | 2021-03-30 | 天津讯飞极智科技有限公司 | 转写方法、装置、录音笔和存储介质 |
WO2022135414A1 (zh) * | 2020-12-24 | 2022-06-30 | 深圳Tcl新技术有限公司 | 语音识别结果的纠错方法、装置、终端设备及存储介质 |
CN112767921A (zh) * | 2021-01-07 | 2021-05-07 | 国网浙江省电力有限公司 | 一种基于缓存语言模型的语音识别自适应方法和系统 |
CN112712349A (zh) * | 2021-01-15 | 2021-04-27 | 卓喜龙 | 一种基于人工智能和大数据分析的智能无纸化会议数据信息处理方法 |
CN113779972A (zh) * | 2021-09-10 | 2021-12-10 | 平安科技(深圳)有限公司 | 语音识别纠错方法、系统、装置及存储介质 |
CN114420123A (zh) * | 2022-03-16 | 2022-04-29 | 深存科技(无锡)有限公司 | 一种语音识别的优化方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116246633B (zh) | 2023-07-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110300001B (zh) | 会议音频控制方法、系统、设备及计算机可读存储介质 | |
EP3254453B1 (en) | Conference segmentation based on conversational dynamics | |
US10057707B2 (en) | Optimized virtual scene layout for spatial meeting playback | |
US10567185B2 (en) | Post-conference playback system having higher perceived quality than originally heard in the conference | |
EP3254455B1 (en) | Selective conference digest | |
WO2020117507A1 (en) | Training speech recognition systems using word sequences | |
WO2017206256A1 (zh) | 一种语速自动调节的方法及终端 | |
WO2020117504A1 (en) | Training of speech recognition systems | |
EP3754961A1 (en) | Post-teleconference playback using non-destructive audio transport | |
US20180027123A1 (en) | Conference searching and playback of search results | |
EP3254279B1 (en) | Conference word cloud | |
CN106782507A (zh) | 语音分割的方法及装置 | |
CN109785838B (zh) | 语音识别方法、装置、设备及存储介质 | |
US11810585B2 (en) | Systems and methods for filtering unwanted sounds from a conference call using voice synthesis | |
CN113192535B (zh) | 一种语音关键词检索方法、系统和电子装置 | |
CN113488026B (zh) | 基于语用信息的语音理解模型生成方法和智能语音交互方法 | |
CN114550718A (zh) | 热词语音识别方法、装置、设备与计算机可读存储介质 | |
US20240029753A1 (en) | Systems and methods for filtering unwanted sounds from a conference call | |
CN116246633B (zh) | 无线智能物联网会议系统 | |
CN107886940B (zh) | 语音翻译处理方法及装置 | |
TWI824424B (zh) | 語意評估之助聽調整裝置及其方法 | |
US11610596B2 (en) | Adjustment method of sound output and electronic device performing the same | |
JP7316971B2 (ja) | 会議支援システム、会議支援方法、およびプログラム | |
CN113409763B (zh) | 语音纠正方法、装置及电子设备 | |
TWI719699B (zh) | 人工智慧輔助說好話的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |