CN109410945A - 可信息提示的视频会议方法与系统 - Google Patents

可信息提示的视频会议方法与系统 Download PDF

Info

Publication number
CN109410945A
CN109410945A CN201811575351.XA CN201811575351A CN109410945A CN 109410945 A CN109410945 A CN 109410945A CN 201811575351 A CN201811575351 A CN 201811575351A CN 109410945 A CN109410945 A CN 109410945A
Authority
CN
China
Prior art keywords
association
vocabulary
scene
current
video conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811575351.XA
Other languages
English (en)
Inventor
陈寅伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou City View Cloud Mdt Infotech Ltd
Original Assignee
Guangzhou City View Cloud Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou City View Cloud Mdt Infotech Ltd filed Critical Guangzhou City View Cloud Mdt Infotech Ltd
Priority to CN201811575351.XA priority Critical patent/CN109410945A/zh
Publication of CN109410945A publication Critical patent/CN109410945A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本发明公开了一种可信息提示的视频会议方法与系统,预先建立由各种词汇组成的数据库,在视频会议发言人出现发言中断的情况下,根据中断前所讲的词汇检索数据库,找到匹配的词汇作为联想词汇显示在屏幕上,从而为发言人做出提示,提高了发言人的表达效果,有利于视频会议的顺利进行。

Description

可信息提示的视频会议方法与系统
技术领域
本发明涉及视频会议技术领域,特别是涉及一种可信息提示的视频会议方法与系统。
背景技术
由于人的精力和记忆力的局限,在视频会议中描述一些客观事实和观点的时候经常会出现忘记某些关键词汇的场景,也可能由于自己词汇量比较缺乏,在描述某个事物的时候想不到合适的词汇来表达,因此表达过程中可能出现短暂的中断,这个中断的时间会因为发言人应变能力不同而有差异,如果个人应变能力强,可能会在无法找到合适词汇表达时转移话题,虽然描述能继续进行下去,但是由于中断的时间,或者是转移话题而导致需要描述的内容无法顺畅完成,导致整体视频会议质量偏低。
而且,由于参与视频会议的人在视频多次出现中断之后,容易出现注意力分散的情况,在不集中注意力的情况下,会议中的内容更容易被忽视,在需要进行讨论的时候由于听到的信息不完整,无法进行较高质量的讨论,可能会使得视频会议效果不理想。
发明内容
基于上述情况,本发明提出了一种可信息提示的视频会议方法与系统,以便在视频会议的发言人出现表达障碍时给出提示,为会议顺利进行提供帮助。为此,采用的方案如下。
一种视频会议联想提示的方法,包括步骤:
获取视频会议发言人的实时录音;
当发言出现中断时,将前一时刻的录音解析为文本信息;
在联想场景数据库中检索与解析出的文本信息相匹配的词汇;
将匹配程度高于预定匹配率的词汇作为联想词汇显示出来。
一种视频会议联想提示的系统,包括:
语音接收设备,用于获取视频会议发言人的实时录音;
中断监测模块,用于在发言出现中断时,将前一时刻的录音解析为文本信息;
联想场景数据库,用于存储词汇;
词汇检索模块,用于在联想场景数据库中检索与解析出的文本信息相匹配的词汇;
词汇提示模块,用于将匹配程度高于预定匹配率的词汇作为联想词汇显示出来。
本发明可信息提示的视频会议方法与系统,预先建立由各种词汇组成的数据库,在视频会议发言人出现发言中断的情况下,根据中断前所讲的词汇检索数据库,找到匹配的词汇作为联想词汇显示在屏幕上,从而为发言人做出提示,提高了发言人的表达效果,有利于视频会议的顺利进行。
附图说明
图1为本发明视频会议联想提示的方法的流程示意图;
图2为本发明视频会议联想提示的系统的结构示意图。
具体实施方式
视频会议通常会借助各种计算机或移动设备来进行,这些设备本身可以提供一个用来强化交流信息的软件、硬件基础。因此,考虑在视频会议软件中增加一个联想辅助功能,在进行视频会议的过程中,通过分析用户的发言,在用户发言出现中断时分析出可能出现想要表达的内容,将内容的关键词汇回显到发言人的显示屏幕中,提醒用户,让用户能正确的联想到想要表达的内容。
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
本发明视频会议联想提示的方法,如图1所示,包括如下步骤:
步骤s101、获取视频会议发言人的实时录音。现有的电脑或者智能通讯终端都具有录音功能,因而本步骤可以轻松实现。
步骤s102、当发言出现中断时,将前一时刻的录音解析为文本信息。在进行联想提示前,首先应该确定何时需要进行联想提示,本方法对录音进行分析,当出现发言中断时认定为发言人面临表达障碍,此时进行联想提示正好迎合发言人的需求。而发言中断,可以根据发言人的停顿时间对比其语速来确定。由于联想提示是基于发言人已讲的内容的,因此以发言中断前发言人的最后一个词汇为基础进行联想,具体做法是利用语音识别技术从发言中断前一时刻的录音中解析出文本信息,前一时刻是发言中断之前所讲的最后一个词汇所需的时间,该文本信息即为最后一个词汇,词汇可以理解为一个词语或一个短语,该词语或短语即为联想提示的基础。
步骤s103、在联想场景数据库中检索与解析出的文本信息相匹配的词汇。联想场景数据库是联想提示的数据来源,在方法使用初期,数据库缺乏词汇数据,所以通过分析已有的视频会议音频数据为联想场景数据库填充数据,在完成足够多的联想场景的预处理之后,即可进行联想辅助提示。本方法提示的是与发言中断前最后一个词汇相似的词汇,因而,本步骤将上个步骤解析出的文本信息作为关键词,在联想场景数据库中进行检索,以便得到最相似或匹配度最高的词汇。
步骤s104、将匹配程度高于预定匹配率的词汇作为联想词汇显示出来。预设一个匹配率的门限,当匹配度高于该门限时,将相应词汇反馈到发言人的显示屏上,从而完成联想提示。
将本联想提示方法的整个实施过程介绍如下。
如图1所示,首先获取已有的视频会议的音频数据,并且将音频内容根据发音的间隔时间分割成一连串文本内容段,然后按照顺序将每一段文本内容进行分析,在分析到出现中断场景的文本内容时,将文本内容解析成中断的场景条件;在下一次进行分析时,如果重复出现了中断场景,则利用新的中断场景对已有的中断条件进行校正和确认,并进入下一次的分析;继续下次分析时,如果存在中断条件,但是当前分析的不为中断场景,就将中断条件和当前场景合并进行分析,作为一个完整的联想场景缓存到联想场景数据库中。例如:当视频会议中,发言人先说了“A什么服务器”,然后停顿了一下,后面自己补充“ABC服务器”,则本方法将“A什么服务器”作为中断条件,和ABC服务器一起合并作为联想场景缓存到联想场景数据库中。
在开始进行视频会议后,分析从语音接收设备中接收到的语音信息,为了能更及时的处理接受到的信息,在接受到语音信息时,每次都将语音信息分割成更小单位的时间片进行分析处理,当累计处理的时间片已经成为一个完整的场景时,则开始进行场景分析,如果分析结果表明当前出现一个中断场景,则开始利用联想场景数据库进行场景检索,达到一定的匹配率时则作为联想结果进行缓存,如果匹配结果较多则将匹配率最高的N个结果作为联想分析输出。
在发言人看到联想结果后,如果联想结果中确实存在发言人需要的词汇,则发言人很快就会说出联想结果中的某个相关内容,语音接收设备在接收到发言人的再次发言时,根据当前缓存的联想结果和发言内容就能确定当前联想结果是否有效,对联想场景确认并且对场景进行进一步完善,提高场景的匹配因子。
如果发言人看到联想结果后,没有找到需要的词汇,则会再次陷入中断场景或者转移话题:如果再次进入中断场景,接收设备将信息反馈给场景模块分析完成之后,则会利用新的中断场景内容对中断条件进行进一步修正,并进行下一次提示和反馈的过程,中间会重复2、3、4之间的处理过程;如果发言人已经进行新的话题,或者新的场景已经和中断场景没有关联,则可以将当前缓存的联想场景内容清除掉。
例如:当发言人想要说在描述一个Web应用服务器时,突然想到DD公司的ABC服务器,但是忘了这个单词怎么说,可能就出现“DD公司有个服务器,叫A什么C服务器”、“D什么公司有个什么C服务器”等描述中断场景,系统就会将这个场景识别成中断场景,并尝试在联想场景数据库中进行搜索,就可能会搜索出“DD公司的ABC服务器”,“DDA公司CC服务器”。当发言人看到现实屏幕上反馈的内容,可能会说出“DD公司的ABC服务器”,则可以认为联想有效,提高以上中断场景和“DD公司的ABC服务器”的匹配精确度;如果还有一个叫“DDB”的公司也卖ABC服务器,那匹配结果不正确,发言人可能会出现类似“DD什么公司的ABC服务器”等描述中断场景,这时候根据上一次中断场景和当前的中断场景进行合并分析之后可能就联想出“DDB公司的ABC服务器”的联想结果。
本发明的视频会议联想提示系统是与上述方法对应的系统,如图2所示,包括如下模块。
语音接收设备,用于获取视频会议发言人的实时录音;
中断监测模块,用于在发言出现中断时,将前一时刻的录音解析为文本信息;
联想场景数据库,用于存储词汇;
词汇检索模块,用于在联想场景数据库中检索与解析出的文本信息相匹配的词汇;
词汇提示模块,用于将匹配程度高于预定匹配率的词汇作为联想词汇显示出来。
以上,语音接收设备、中断监测模块、词汇检索模块和词汇提示模块依次相连,词汇检索模块再与联想场景数据库相连,从而构成本系统的一个实施例。
作为一个优选的实施例,本装置还包括音频解析模块,用于将所述语音接收设备CN在联想提示开始之前录制完成的视频会议录音解析为文本信息,并根据发音间隔将文本信息分割成词汇;中断查找模块,查找录制完成的视频会议录音中的每个发言中断,将发言中断前一时刻对应的词汇作为中断条件,并在同一中断条件重复出现,且当前发言出现中断时,按照当前中断场景对该中断条件进行校正和确认;联想场景确认模块,用于在同一中断条件重复出现,但当前发言并没有中断时,将该中断条件及后一时刻的词汇作为联想场景,并将各个联想场景存储到联想场景数据库。所述前一时刻为从前一个发音间隔到当前中断之间的时间,所述后一时刻为当前中断到后一个发音间隔之间的时间。作为一个优选的实施例,本系统还包括数据库学习模块,用于判断发言人在发言中断的后一时刻所讲的词汇与联想词汇是否一致,若一致则提高当前联想词汇与当前中断条件的匹配率,并更新联想场景数据库;若不一致,则降低当前联想词汇与当前中断条件的匹配率,更新联想场景数据库。
综上,本发明的可信息提示的视频会议方法与系统为视频会议提供联想辅助功能,在会议中当发言人由于遗忘部分词汇出现会议短暂的中断时,为发言人提供联想信息来帮助会议能更顺畅的进行,减少由于遗忘词汇出现会议长时间中断的情况。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (7)

1.一种视频会议联想提示的方法,其特征在于,包括步骤:获取视频会议发言人的实时录音;当发言出现中断时,将前一时刻的录音解析为文本信息;在联想场景数据库中检索与解析出的文本信息相匹配的词汇;将匹配程度高于预定匹配率的词汇作为联想词汇显示出来。
2.根据权利要求1所述的视频会议联想提示的方法,其特征在于,所述联想场景数据库是预先建立的,预先建立的方法包括如下步骤:
收集已完成的视频会议录音;将录音解析为文本信息;
根据发音间隔将文本信息分割成词汇;
查找录音中的每个发言中断,将发言中断前一时刻对应的词汇作为中断条件;
当同一中断条件重复出现,且当前发言出现中断时,按照当前中断场景对该中断条件进行校正和确认;
当同一中断条件重复出现,但当前发言并没有中断时,将该中断条件及后一时刻的词语或短语作为联想场景;
存储各个联想场景,形成联想场景数据库;将词汇显示出来之后,若发言人后一时刻所讲的词汇与显示的词汇一致,则提高当前显示词汇与当前中断条件的匹配率;若不一致,则降低当前显示词汇与当前中断条件的匹配率;所述前一时刻为从前一个发音间隔到当前中断之间的时间;所述后一时刻为当前中断到后一个发音间隔之间的时间。
3.一种视频会议联想提示的系统,其特征在于,包括:语音接收设备,用于获取视频会议发言人的实时录音;中断监测模块,用于在发言出现中断时,将前一时刻的录音解析为文本信息;联想场景数据库,用于存储词汇;词汇检索模块,用于在联想场景数据库中检索与解析出的文本信息相匹配的词汇;词汇提示模块,用于将匹配程度高于预定匹配率的词汇作为联想词汇显示出来。
4.根据权利要求3所述的视频会议联想提示的系统,其特征在于,还包括音频解析模块,用于将所述语音接收设备在联想提示开始之前录制完成的视频会议录音解析为文本信息,并根据发音间隔将文本信息分割成词汇;
中断查找模块,查找录制完成的视频会议录音中的每个发言中断,将发言中断前一时刻对应的词汇作为中断条件,并在同一中断条件重复出现,且当前发言出现中断时,按照当前中断场景对该中断条件进行校正和确认;
联想场景确认模块,用于在同一中断条件重复出现,但当前发言并没有中断时,将该中断条件及后一时刻的词汇作为联想场景,并将各个联想场景存储到联想场景数据库。
5.根据权利要求4所述的视频会议联想提示的系统,其特征在于,还包括数据库学习模块,用于判断发言人在发言中断的后一时刻所讲的词汇与联想词汇是否一致,若一致则提高当前联想词汇与当前中断条件的匹配率,并更新联想场景数据库;若不一致,则降低当前联想词汇与当前中断条件的匹配率,更新联想场景数据库。
6.根据权利要求4所述的视频会议联想提示的系统,其特征在于,所述前一时刻为从前一个发音间隔到当前中断之间的时间。
7.根据权利要求4所述的视频会议联想提示的系统,其特征在于,所述后一时刻为当前中断到后一个发音间隔之间的时间。
CN201811575351.XA 2018-12-22 2018-12-22 可信息提示的视频会议方法与系统 Pending CN109410945A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811575351.XA CN109410945A (zh) 2018-12-22 2018-12-22 可信息提示的视频会议方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811575351.XA CN109410945A (zh) 2018-12-22 2018-12-22 可信息提示的视频会议方法与系统

Publications (1)

Publication Number Publication Date
CN109410945A true CN109410945A (zh) 2019-03-01

Family

ID=65461123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811575351.XA Pending CN109410945A (zh) 2018-12-22 2018-12-22 可信息提示的视频会议方法与系统

Country Status (1)

Country Link
CN (1) CN109410945A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797632A (zh) * 2019-04-04 2020-10-20 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN115629894A (zh) * 2022-12-21 2023-01-20 深圳市人马互动科技有限公司 演讲提示方法及相关装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797632A (zh) * 2019-04-04 2020-10-20 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN111797632B (zh) * 2019-04-04 2023-10-27 北京猎户星空科技有限公司 信息处理方法、装置及电子设备
CN115629894A (zh) * 2022-12-21 2023-01-20 深圳市人马互动科技有限公司 演讲提示方法及相关装置
CN115629894B (zh) * 2022-12-21 2023-04-07 深圳市人马互动科技有限公司 演讲提示方法及相关装置

Similar Documents

Publication Publication Date Title
US11895266B2 (en) System and method for three-way call detection
CN110300001B (zh) 会议音频控制方法、系统、设备及计算机可读存储介质
US8301447B2 (en) Associating source information with phonetic indices
JP6326490B2 (ja) 録取された音声データに対する核心語の取出に基づく発話内容の把握システムと、このシステムを用いたインデクシング方法及び発話内容の把握方法
US8423363B2 (en) Identifying keyword occurrences in audio data
US7487094B1 (en) System and method of call classification with context modeling based on composite words
US20170300487A1 (en) System And Method For Enhancing Voice-Enabled Search Based On Automated Demographic Identification
US20240127798A1 (en) Training speech recognition systems using word sequences
US20080201142A1 (en) Method and apparatus for automication creation of an interactive log based on real-time content
US11562731B2 (en) Word replacement in transcriptions
US9311914B2 (en) Method and apparatus for enhanced phonetic indexing and search
US20040021765A1 (en) Speech recognition system for managing telemeetings
US11893350B2 (en) Detecting continuing conversations with computing devices
US20150154960A1 (en) System and associated methodology for selecting meeting users based on speech
US11676582B2 (en) Detecting conversations with computing devices
JP2020071675A (ja) 対話要約生成装置、対話要約生成方法およびプログラム
CN111415128A (zh) 控制会议的方法、系统、装置、设备和介质
CN114818649A (zh) 基于智能语音交互技术的业务咨询处理方法及装置
Koumpis et al. Content-based access to spoken audio
JP2020071676A (ja) 対話要約生成装置、対話要約生成方法およびプログラム
CN109410945A (zh) 可信息提示的视频会议方法与系统
JP4441782B2 (ja) 情報提示方法及び情報提示装置
CN113744742A (zh) 对话场景下的角色识别方法、装置和系统
US11488604B2 (en) Transcription of audio
CN109616116B (zh) 通话系统及其通话方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190301

WD01 Invention patent application deemed withdrawn after publication