CN113014732A - 会议记录处理方法、装置、计算机设备和存储介质 - Google Patents
会议记录处理方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113014732A CN113014732A CN202110154350.3A CN202110154350A CN113014732A CN 113014732 A CN113014732 A CN 113014732A CN 202110154350 A CN202110154350 A CN 202110154350A CN 113014732 A CN113014732 A CN 113014732A
- Authority
- CN
- China
- Prior art keywords
- conference
- text
- voice
- session
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003860 storage Methods 0.000 title claims abstract description 99
- 238000003672 processing method Methods 0.000 title abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 102
- 238000000034 method Methods 0.000 claims abstract description 92
- 230000001960 triggered effect Effects 0.000 claims description 79
- 238000004590 computer program Methods 0.000 claims description 21
- 230000004044 response Effects 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 34
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 238000010586 diagram Methods 0.000 description 40
- 238000004891 communication Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 17
- 230000008859 change Effects 0.000 description 14
- 238000007726 management method Methods 0.000 description 10
- 230000011664 signaling Effects 0.000 description 10
- 238000012544 monitoring process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000003058 natural language processing Methods 0.000 description 6
- 238000003825 pressing Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 5
- 238000012552 review Methods 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 3
- 239000003086 colorant Substances 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 239000003999 initiator Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013524 data verification Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000011144 upstream manufacturing Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/567—Multimedia conference systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Telephonic Communication Services (AREA)
Abstract
本申请涉及一种会议记录处理方法、装置、计算机设备和存储介质。所述方法涉及基于人工智能的语音识别技术,以对会议记录进行批量处理,具体包括:响应于会议会话触发操作,进入会议会话,并在会议会话处于文本记录模式时,显示会议文本记录区域;在会议文本记录区域中,按照会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志;对应于每个成员标志,显示每个成员标志所对应的参会成员发出的语音所对应的语音识别文本。采用本方法能够提高会议记录的处理效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种会议记录处理方法、装置、计算机设备和存储介质。
背景技术
随着计算机技术的发展,会议的形式越来越多样,不局限于参会人员聚集到统一的会议室中进行开会,可以通过远程音视频的网络会议,实现跨地域的会议召开,便利了人们的工作和生活。在会议过程中,往往需要参会人员对会议的内容进行文字记录,通常是以手动记笔记或录制音视频后回顾的方式记录会议。
传统的会议记录方法中,对会议进行记录依赖参会人员手动记录或回顾音视频资料,会议记录的处理效率较低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高会议记录处理效率的会议记录处理方法、装置、计算机设备和存储介质。
一种会议记录处理方法,所述方法包括:
响应于会议会话触发操作,进入会议会话,并在会议会话处于文本记录模式时,显示会议文本记录区域;
在会议文本记录区域中,按照会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志;
对应于每个成员标志,显示每个成员标志所对应的参会成员发出的语音所对应的语音识别文本。
在其中一个实施例中,所述方法还包括:
响应于对会议记录触发的编辑触发操作,显示会议记录对应的编辑操作区域;
在编辑操作区域中,显示处于编辑状态的会议记录;
响应于对处于编辑状态的会议记录触发的编辑操作,显示通过编辑操作获得的会议记录。
在其中一个实施例中,在编辑操作区域中,显示处于编辑状态的会议记录,包括:
在编辑操作区域的第一编辑操作区域,显示会议记录所对应的会议主题编辑信息;
在编辑操作区域的第二编辑操作区域,显示会议会话中发出的语音对应的语音识别文本的识别文本编辑信息。
在其中一个实施例中,所述方法还包括:
响应于对会议记录触发的转发操作,显示转发对象列表;
响应于在转发对象列表中触发的选择操作,选中目标转发对象,显示将会议记录转发至目标转发对象的转发结果。
在其中一个实施例中,在响应于会议会话触发操作,进入会议会话之后,还包括:
确定会话会议的参会成员数;
当参会成员数大于模式提示阈值时,发出模式提示信息;模式提示信息用于提示参会成员开启文本记录模式;
当接收到对模式提示信息的触发指令时,向服务器发送模式开启请求,模式开启请求用于请求服务器设定会议会话进入文本记录模式。
在其中一个实施例中,所述方法还包括:
在会议会话处于文本记录模式时,将包括会议会话的实时音频数据的上行音频流发送至服务器;
接收由服务器返回的下行音频流;下行音频流由服务器将实时音频数据对应的实时语音识别文本填充到上行音频流中得到;
当下行音频流中存在文本数据时,从下行音频流中提取实时音频数据对应的实时语音识别文本。
一种会议记录处理装置,所述装置包括:
文本记录区域显示模块,用于响应于会议会话触发操作,进入会议会话,并在会议会话处于文本记录模式时,显示会议文本记录区域;
成员标志显示模块,用于在会议文本记录区域中,按照会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志;
识别文本显示模块,用于对应于每个成员标志,显示每个成员标志所对应的参会成员发出的语音所对应的语音识别文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
响应于会议会话触发操作,进入会议会话,并在会议会话处于文本记录模式时,显示会议文本记录区域;
在会议文本记录区域中,按照会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志;
对应于每个成员标志,显示每个成员标志所对应的参会成员发出的语音所对应的语音识别文本。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
响应于会议会话触发操作,进入会议会话,并在会议会话处于文本记录模式时,显示会议文本记录区域;
在会议文本记录区域中,按照会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志;
对应于每个成员标志,显示每个成员标志所对应的参会成员发出的语音所对应的语音识别文本。
上述会议记录处理方法、装置、计算机设备和存储介质,在会议会话处于文本记录模式时,在显示的会议文本记录区域中按照会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志,并对应于每个成员标志,显示每个成员标志所对应的参会成员发出的语音所对应的语音识别文本。在会议会话处于文本记录模式时,在会议文本记录区域中按照会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志以及对应发出语音的语音识别文本,从而直观地以文本形式在会议文本记录区域展示会议会话的会话内容,不需要手动进行会议记录或录制音视频进行回溯,简化了会议记录的处理流程,提高了会议记录的处理效率。
一种会议记录处理方法,所述方法包括:
当会议会话处于文本记录模式时,获取会议会话的音频数据;
基于音频数据进行身份识别,识别出会议会话中发出语音的参会成员的成员标识,并对语音进行语音识别得到对应的语音识别文本;
获取语音文本记录,语音文本记录包括成员标识、语音识别文本和采用递增分配方式为语音识别文本分配的序列号;序列号表示参会成员发出语音的顺序;
向会议会话的参会成员对应的终端发送语音文本记录;语音文本记录,用于指示终端按照序列号排序对应显示成员标识对应的成员标志及语音识别文本。
在其中一个实施例中,在将会议记录消息发送至群组中之后,还包括:
当接收到对会议记录消息触发的文本记录编辑指令时,根据文本记录编辑指令确定待编辑的目标会议标识和目标序列号;
从目标会议标识对应的会议语音文本记录中,确定与目标序列号对应的待编辑语音识别文本;
基于文本记录编辑指令对待编辑语音识别文本进行编辑,并根据编辑后的语音识别文本更新对应的语音文本记录。
在其中一个实施例中,在将会议记录消息发送至群组中之后,还包括:
当接收到对会议记录消息触发的文本记录转发指令时,根据文本记录转发指令确定转发对象;
将会议记录消息转发至转发对象对应的终端。
在其中一个实施例中,对语音进行语音识别得到对应的语音识别文本包括:
当语音满足语音识别触发条件时,对语音进行语音识别得到对应的语音识别文本;
在获取语音文本记录之前,还包括:
确定会议会话的会议标识,并采用递增分配方式为语音识别文本分配序列号;
根据会议标识、成员标识、语音识别文本和序列号,生成会议会话对应的语音文本记录。
在其中一个实施例中,在向终端发送声纹识别信息之前,还包括:
当接收到线下会议触发指令时,创建线下会议会话群组;
将各参会成员添加至线下会议会话群组中,并基于线下会议会话群组的群组标识创建会议会话。
一种会议记录处理装置,所述装置包括:
音频数据获取模块,用于当会议会话处于文本记录模式时,获取会议会话的音频数据;
音频数据处理模块,用于基于音频数据进行身份识别,识别出会议会话中发出语音的参会成员的成员标识,并对语音进行语音识别得到对应的语音识别文本;
语音文本记录获取模块,用于获取语音文本记录,语音文本记录包括成员标识、语音识别文本和采用递增分配方式为语音识别文本分配的序列号;序列号表示参会成员发出语音的顺序;
语音文本记录下发模块,用于向会议会话的参会成员对应的终端发送语音文本记录;语音文本记录,用于指示终端按照序列号排序对应显示成员标识对应的成员标志及语音识别文本。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
当会议会话处于文本记录模式时,获取会议会话的音频数据;
基于音频数据进行身份识别,识别出会议会话中发出语音的参会成员的成员标识,并对语音进行语音识别得到对应的语音识别文本;
获取语音文本记录,语音文本记录包括成员标识、语音识别文本和采用递增分配方式为语音识别文本分配的序列号;序列号表示参会成员发出语音的顺序;
向会议会话的参会成员对应的终端发送语音文本记录;语音文本记录,用于指示终端按照序列号排序对应显示成员标识对应的成员标志及语音识别文本。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
当会议会话处于文本记录模式时,获取会议会话的音频数据;
基于音频数据进行身份识别,识别出会议会话中发出语音的参会成员的成员标识,并对语音进行语音识别得到对应的语音识别文本;
获取语音文本记录,语音文本记录包括成员标识、语音识别文本和采用递增分配方式为语音识别文本分配的序列号;序列号表示参会成员发出语音的顺序;
向会议会话的参会成员对应的终端发送语音文本记录;语音文本记录,用于指示终端按照序列号排序对应显示成员标识对应的成员标志及语音识别文本。
上述会议记录处理方法、装置、计算机设备和存储介质,当会议会话处于文本记录模式时,基于会议会话的音频数据进行身份识别,识别出会议会话中发出语音的参会成员的成员标识,并对语音进行语音识别得到对应的语音识别文本,向会议会话的参会成员对应的终端发送语音文本记录,语音文本记录包括成员标识、语音识别文本和采用递增分配方式为语音识别文本分配的、表示参会成员发出语音的顺序的序列号,语音文本记录指示终端按照序列号排序对应显示成员标识对应的成员标志及语音识别文本。在会议会话处于文本记录模式时,向终端发送包括成员标识、语音识别文本和采用递增分配方式为语音识别文本分配的序列号的语音文本记录,以指示终端按照序列号排序对应显示成员标识对应的成员标志及语音识别文本,从而直观地以文本形式在终端展示会议会话的会话内容,不需要手动进行会议记录或录制音视频进行回溯,简化了会议记录的处理流程,提高了会议记录的处理效率。
附图说明
图1为一个实施例中会议记录处理方法的应用环境图;
图2为一个实施例中会议记录处理方法的流程示意图;
图3为一个实施例中会议文本记录区域的界面示意图;
图4为一个实施例中群组中显示会议记录的界面示意图;
图5为一个实施例中触发群组中的会议记录的界面变化示意图;
图6为一个实施例中收听语音识别文本的语音的界面变化示意图;
图7为一个实施例中编辑会议记录的流程示意图;
图8为一个实施例中触发编辑会议记录的界面变化示意图;
图9为另一个实施例中触发编辑会议记录的界面变化示意图;
图10为一个实施例中触发转发会议记录的界面变化示意图;
图11为一个实施例中会议会话界面切换的界面变化示意图;
图12为一个实施例中显示实时语音识别文本的界面变化示意图;
图13为一个实施例中触发存储语音识别文本的界面变化示意图;
图14为一个实施例中线下会议开启文本记录模式的界面变化示意图;
图15为一个实施例中开启文本记录模式的界面变化示意图;
图16为另一个实施例中开启文本记录模式的界面变化示意图;
图17为另一个实施例中会议记录处理方法的流程示意图;
图18为一个实施例中发送会议记录消息的流程示意图;
图19为又一个实施例中开启文本记录模式的界面变化示意图;
图20为又一个实施例中开启文本记录模式的界面变化示意图;
图21为一个实施例中界面切换的界面变化示意图;
图22为一个实施例中存储文本的界面示意图;
图23为一个实施例中存储文本显示的界面示意图;
图24为一个实施例中群组显示会议记录的界面示意图;
图25为一个实施例中触发编辑会议记录的界面变化示意图;
图26为一个实施例中触发转发会议记录的界面变化示意图;
图27为一个实施例中触发收听语音识别文本的界面变化示意图;
图28为一个实施例中创建线下会议的界面变化示意图;
图29为一个实施例中线下会议触发开启文本记录模式的界面变化示意图;
图30为一个实施例中线下会议开启文本记录模式的界面变化示意图;
图31为一个实施例中监听会议人数进行提示的流程示意图;
图32为一个实施例中请求开启文本记录模式的流程示意图;
图33为一个实施例中获得语音识别文本的流程示意图;
图34为一个实施例中存储语音识别文本的流程示意图;
图35为一个实施例中语音识别文本下发的流程示意图;
图36为一个实施例中会议记录获取的流程示意图;
图37为一个实施例中音频数据录制的流程示意图;
图38为一个实施例中收听语音识别文本的语音的流程示意图;
图39为一个实施例中创建线下会议的流程示意图;
图40为一个实施例中线下会议进行声纹录入的流程示意图;
图41为一个实施例中会议记录处理装置的结构框图;
图42为一个实施例中会议记录处理装置的结构框图;
图43为一个实施例中计算机设备的内部结构图;
图44为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的会议记录处理方法,可以应用于如图1所示的应用环境中的终端102。其中,各终端102分别通过网络与服务器104进行通信。各用户可以通过终端102登录相应的客户端,以通过客户端实现网络会议会话。终端102响应于用户触发的会议会话触发操作,进入会议会话,在会议会话处于文本记录模式时,在终端102显示的会议文本记录区域中按照会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志,并对应于每个成员标志,显示每个成员标志所对应的参会成员发出的语音所对应的语音识别文本。
另一方面,本申请提供的会议记录处理方法,可以应用于如图1所示的应用环境中的服务器104。当会议会话处于文本记录模式时,服务器104获取会议会话的音频数据,服务器104基于会议会话的音频数据进行身份识别,识别出会议会话中发出语音的参会成员的成员标识,并对语音进行语音识别得到对应的语音识别文本,服务器104向会议会话的参会成员对应的终端102发送语音文本记录,语音文本记录包括成员标识、语音识别文本和采用递增分配方式为语音识别文本分配的、表示参会成员发出语音的顺序的序列号,语音文本记录指示终端102按照序列号排序对应显示成员标识对应的成员标志及语音识别文本。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾支撑,只能通过云计算来实现。
本申请的会议会话可以基于云技术实现。云会议是基于云计算技术的一种高效、便捷、低成本的会议形式。使用者只需要通过互联网界面,进行简单易用的操作,便可快速高效地与全球各地团队及客户同步分享语音、数据文件及视频,而会议中数据的传输、处理等复杂技术由云会议服务商帮助使用者进行操作。目前国内云会议主要集中在以SaaS(Software as a Service,软件即服务)模式为主体的服务内容,包括电话、网络、视频等服务形式,基于云计算的视频会议就叫云会议。在云会议时代,数据的传输、处理、存储全部由视频会议厂家的计算机资源处理,用户完全无需再购置昂贵的硬件和安装繁琐的软件,只需打开浏览器,登录相应界面,就能进行高效的远程会议。
云会议系统支持多服务器动态集群部署,并提供多台高性能服务器,大大提升了会议稳定性、安全性、可用性。近年来,视频会议因能大幅提高沟通效率,持续降低沟通成本,带来内部管理水平升级,而获得众多用户欢迎,已广泛应用在政府、军队、交通、运输、金融、运营商、教育、企业等各个领域。毫无疑问,视频会议运用云计算以后,在方便性、快捷性、易用性上具有更强的吸引力,必将激发视频会议应用新高潮的到来。
在具体应用中,参会成员发出的语音所对应的语音识别文本,可以基于人工智能(Artificial Intelligence,AI)中的语音识别技术,对参会成员发出的语音进行语音识别处理得到。其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR,Automatic SpeechRecognition)和语音合成技术(TTS,Text To Speech)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请提供的会议记录处理方案涉及人工智能中的语音技术和自然语言处理技术。
此外,对于会议会话的信息,如参会成员信息、语音识别文本等数据,均可以存储至区块链中,以防止会议会话的信息被篡改,确保信息数据的安全。其中,区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。平台产品服务层提供典型应用的基本能力和实现框架,开发人员可以基于这些基本能力,叠加业务的特性,完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。
在一个实施例中,如图2所示,提供了一种会议记录处理方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,响应于会议会话触发操作,进入会议会话,并在会议会话处于文本记录模式时,显示会议文本记录区域。
其中,会议会话可以包括各种形式的线上网络会议,如电话会议、视频会议等,会议会话还可以包括线下会议。在会议会话中,参与者可以进行发言交流,以实现远程沟通。会议会话触发操作为触发进入会议会话的操作,具体可以为用户通过触发终端上的会议开启控件,如用户点击会议开启控件,从而在终端触发会议会话触发操作。会议会话触发操作还可以为用户触发的会议进入操作,从而进入由会议会话触发操作指定的会议会话。文本记录模式为会议会话的一种作业模式,在会议会话处于文本记录模式时,会对会议会话中的语音数据进行语音识别,得到相应的语音识别文本,并将语音识别文本进行展示,从而以文本形式对会议会话进行会议记录处理。会议文本记录区域为显示会议会话的文本记录的区域,会议文本记录区域可以在界面切换后展示,也可以直接在进入会议会话后的界面直接或以浮窗形式进行展示。
具体地,终端监测用户触发的操作,当终端监测到用户触发的会议会话触发操作,表明用户需要进入会议会话进行会议沟通交流,终端响应于该会议会话触发操作,进入会议会话。终端确定会议会话的工作模式,具体可以由终端查询会议会话的工作模式状态,当会议会话处于文本记录模式时,表明需要以文本记录的形式对会议会话的语音数据进行记录,则终端显示会议文本记录区域。具体应用时,终端可以响应于用户在会议会话中触发的文本记录模式触发操作,从而开启会议会话进行文本记录的功能,设定会议会话进入文本记录模式,并显示会议文本记录区域。
步骤204,在会议文本记录区域中,按照会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志。
其中,参会成员指参加会议会话的成员,即会议会话的参与者。成员标志用于代指会议会话的参会成员,具体可以包括参会成员的姓名、昵称或头像等各种参会成员的标志信息。在会议会话中,各参会成员可以通过语音进行沟通交流,各参会成员在各自相应的终端发出语音,并将发出语音发送至其他参会成员的终端。
具体地,终端在显示的会议文本记录区域中,按照会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志。具体应用时,终端可以确定会议会话的参会成员发出语音的顺序,以及各参会成员的成员标志,如终端可以根据会议会话的参会成员的发言时间,确定各参会成员发出语音的顺序,并查询各参会成员相应的成员信息,从成员信息中确定参会成员对应的成员标志。依次显示的成员标志可以包括一种或多种类型标志,如可以显示的成员标志可以为发出语音的参会成员的头像,或者也可以显示发出语音的参会成员的名称和头像。
步骤206,对应于每个成员标志,显示每个成员标志所对应的参会成员发出的语音所对应的语音识别文本。
其中,语音识别文本为会议会话中的参会成员在会议会话中发出的语音的语音识别结果,语音识别文本为文本形式,通过在会议文本记录区域中显示语音识别文本,可以以文本形式展示每个成员标志所对应的参会成员发出的语音所对应的会话内容。具体地,终端在会议文本记录区域中,对应于每个成员标志,显示每个成员标志所对应的参会成员发出的语音所对应的语音识别文本,从而将各参会成员在会议会话中的发言内容,以文本形式在会议文本记录区域中按照各参会成员的发言顺序进行显示,不需要参会人员在参加会议会话过程中进行会议记录,不会干扰会议会话的正常进行,可以确保会议会话的沟通效率。同时,不需要手动进行会议记录或录制音视频进行回溯,简化了会议记录的处理流程,提高了会议记录的处理效率。
在一个具体应用中,如图3所示,在会议会话处于文本记录模式时,终端在显示的会议文本记录区域中,按照会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志以及对应发出语音的语音识别文本,具体按照发出语音的顺序显示张三和李四的名称和头像,并对应于名称和头像,分别显示张三和李四各自发出的语音所对应的语音识别文本。进一步地,由本地终端对应参会成员发出的语音对应的语音识别文本,和非本地终端对应参会成员的语音识别文本,可以在会议文本记录区域中按照不同的显示方式进行显示,如按照不同的显示方向、不同的背景底色或不同的字体颜色等各种显示方式进行显示,从而在会议文本记录区域中直观地标识出本地端和非本地端的发言内容。
上述会议记录处理方法中,在会议会话处于文本记录模式时,在显示的会议文本记录区域中按照会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志,并对应于每个成员标志,显示每个成员标志所对应的参会成员发出的语音所对应的语音识别文本。在会议会话处于文本记录模式时,在会议文本记录区域中按照会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志以及对应发出语音的语音识别文本,从而直观地以文本形式在会议文本记录区域展示会议会话的会话内容,不需要手动进行会议记录或录制音视频进行回溯,简化了会议记录的处理流程,提高了会议记录的处理效率。
在一个实施例中,会议记录处理方法还包括:当会议会话结束后,在包括参会成员的群组中,显示会议记录;会议记录包括会议会话中发出的语音对应的语音识别文本和对应参会成员的成员标志。
其中,会议会话结束表示会议会话已结束会话连接,如结束电话沟通连接或结束视频沟通连接等。群组,也称群聊或群,为建立的提供多人社交会话的平台,群组中的各成员可以通过群组实现聊天交流。包括参会成员的群组由会议会话的参会成员组成,该群组与会议会话对应,可以创建会议会话的同时建立相应的群组。具体地,可以在用户触发创建会议会话时,确定会议会话的参会成员,创建会议会话对应的群组,将会议会话的参会成员添加至该群组中,参会成员可以在该群组中通过会话消息的形式进行沟通交流。会议记录为记录会议会话中发言内容的文本记录,会议记录包括会议会话中发出的语音对应的语音识别文本,即会议记录包括会议会话的所有参会成员在会议会话中发出的语音对应的语音识别文本。会议记录还包括会议会话中发出的语音对应参会成员的成员标志,如参会成员的ID号、昵称、名称等,即会议记录中包括每条语音的语音识别文本所对应的参会成员的成员标志,以便标识各条语音识别文本的来源。会议记录记录了会议会话过程中所有语音对应的语音识别文本和对应参会成员的成员标志,以文本形式记录了会议会话的会议内容。此外,会议记录还可以包括会议会话对应的描述信息,包括会议会话的发起人、参会成员以及会议会话的召开时间等。
具体地,终端监测会议会话的会议进程,在监测到会议会话结束时,如检测到对会议会话触发的会议结束触发操作,或者监测到会议会话的参会人数为零,即所有参会成员均退出会议会话时,认为会议会话结束。终端确定包括参会成员的群组,具体可以根据会议会话查询对应的包括参会成员的群组,在该群组中显示包括会议会话中发出的语音对应的语音识别文本和对应参会成员的成员标志的会议记录,从而将会议会话的所有语音对应的内容以文本形式在群组中进行分享,实现会议会话的会议记录的分享,不需要手动进行会议记录或录制音视频进行回溯,简化了会议记录的处理流程,提高了会议记录的处理效率。
在一具体实现中,如图4所示,在会议会话结束后,在包括所述参会成员的群组中,显示会议记录,具体以富媒体消息的形式,在群组中显示发送的会议记录。其中,富媒体消息可以实现动画、声音、视频或交互性的信息传播,富媒体消息可以加强信息,丰富信息的内容,如图4中,会议记录涉及的为文本形式的会议记录,富媒体消息形式的会议记录可以为打开网页类型的一个消息,当用户点击这个富媒体消息,可以打开一个页面,在页面中展示会议记录的具体内容。会议记录的富媒体消息可以由系统直接在群组进行发送,也可以通过会议会话的主持人在群组中进行消息发送。
本实施例中,在会议会话结束后,在包括参会成员的群组中,显示包括会议会话中发出的语音对应的语音识别文本和对应参会成员的成员标志的会议记录,可以将会议会话的所有语音对应的内容以文本形式在群组中进行分享,实现会议会话的会议记录的分享,不需要手动进行会议记录或录制音视频进行回溯,简化了会议记录的处理流程,提高了会议记录的处理效率。
在一个实施例中,会议记录处理方法还包括:响应于对会议记录的会议记录触发操作,显示会议纪要区域;在会议纪要区域中的会议信息区域,显示会议会话对应的格式化描述信息;在会议纪要区域中的会议内容区域,显示会议会话中发出的语音对应的格式化语音识别文本和对应参会成员的成员标志。
其中,会议记录触发操作为用户针对群组中显示的会议记录的触发操作,如可以为用户对会议记录的点击操作。会议纪要区域为显示会议会话的会议纪要的区域,会议纪要为会议会话的描述和会议会话具体内容的记录,具体包括会议会话中的会议内容,如各参会成员的发言内容;还可以包括会议会话的描述信息,如会议会话的会话时间、主持人、参会成员以及会议会话的主题、标题和简介等。会议纪要不仅包括会议会话的会议记录,还包括会议会话的描述信息,实现了对会议会话的全面综合表达,用户查看会议纪要,可以全面得知对应会议会话的会议记录和会议描述信息。在具体应用时,会议纪要区域中显示的会议纪要,可以为格式化的会议纪要,具体可以将会议会话填充至预设的会议纪要模板中,得到格式化的会议纪要。会议纪要模板可以定义会议纪要中的纪要项目以及各纪要项目对应的格式,如字体颜色、字体大小、关键词高亮格式等。例如,会议会话的会议主题为工作总结,则可以基于工作总结类型的会议纪要模板进行填充,将会议会话的文本记录以及描述信息,按照工作总结类型的会议纪要模板指定的格式,如指定的字体颜色或字体大小等,分别填充至会议纪要模板中,得到会议会话对应的会议纪要。此外,若会议纪要模板还指定了进行突出显示的关键词,如进行加粗显示、斜体显示、下划线显示或高亮显示等,则在会议会话的语音识别文本中包括该关键词时,可以在会议模板中进行突出显示。
进一步地,会议纪要区域包括会议信息区域,会议信息区域为显示会议会话的描述信息的区域,具体可以显示会议会话的格式化描述信息,如按照预设的会议记录模板中的格式填充得到的格式化描述信息。会议纪要区域还包括会议内容区域,会议内容区域为显示会议会话的文本记录的区域,具体可以在会议内容区域中显示会议会话中发出的语音对应的格式化语音识别文本和对应参会成员的成员标志。格式化描述信息和格式化语音识别文本可以按照会议纪要模板生成得到,会议纪要模板可以根据实际需要进行设置,通过对会议纪要模板填充会议会话的描述信息和语音识别文本得到格式化的会议纪要,可以确保会议纪要的格式统一,提高会议纪要的展示效果。
具体地,在包括参会成员的群组中,显示包括会议会话中发出的语音对应的语音识别文本和对应参会成员的成员标志的会议记录后,用户可以对群组中的会议记录触发操作,终端响应于用户对会议记录的会议记录触发操作,显示会议纪要区域,一方面在会议纪要区域中的会议信息区域,显示会议会话对应的格式化描述信息,另一方面在会议纪要区域中的会议内容区域,显示会议会话中发出的语音对应的格式化语音识别文本和对应参会成员的成员标志,从而通过格式化文本的形式直观地展示会议会话的完整会议记录以及会议会话的描述信息。
在一具体实现中,如图5所示,在用户触发群组中的会议记录时,终端显示会议纪要区域,在会议纪要区域的会议信息区域中显示会议会话对应的格式化描述信息,包括会议会话的发起人、参会成员以及会议会话的召开时间等。此外,终端在会议纪要区域的会议内容区域中,显示会议会话中发出的语音对应的格式化语音识别文本和对应参会成员的成员标志,具体包括按照在会议会话中的发言顺序,显示的参会成员的名称以及对应的语音识别文本。
本实施例中,在用户对群组中的会议记录触发操作时,在显示的会议纪要区域的会议信息区域和会议内容区域中,分别显示会议会话对应的格式化描述信息以及会议会话中发出的语音对应的格式化语音识别文本和对应参会成员的成员标志,从而以格式化文本的形式直观地对会议会话的完整会议记录以及会议会话的描述信息进行展示,确保会议纪要的展示效果。
在一个实施例中,在会议文本记录区域中,按照会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志,包括:在会议文本记录区域中,按照会议会话的参会成员发出语音的顺序,依次显示包括发出语音的参会成员所对应图像标识的成员标志。
其中,图像标识为参会成员对应的图像形式的成员标志,具体可以为参会成员的头像标识,参会成员的头像可以根据各参会成员进行个性化设置。具体地,在会议文本记录区域中显示成员标志时,终端可以查询各参会成员对应的图像标识,如查询各参会成员对应的头像,从而在会议文本记录区域中,按照会议会话的参会成员发出语音的顺序,依次显示包括发出语音的参会成员所对应图像标识的成员标志,即在会议文本记录区域中显示发出语音的参会成员对应的头像。
进一步地,在会议纪要区域中的会议内容区域,显示会议会话中发出的语音对应的格式化语音识别文本和对应参会成员的成员标志,包括:在会议纪要区域中的会议内容区域,按照参与参会成员发出语音的顺序,依次显示发出语音的参会成员的文本标志;对应于每个文本标志,显示每个文本标志所对应的参会成员发出的语音所对应的格式化语音识别文本。
其中,文本标志为参会成员对应的文本形式的成员标志,具体为参会成员的名称或ID(Identity Document,身份标识)。格式化语音识别文本按照会议纪要模板进行填充得到,会议纪要模板可以定义会议纪要中的纪要项目以及各纪要项目对应的格式,如字体颜色、字体大小、关键词高亮格式等。例如,会议会话的会议主题为工作总结,则可以基于工作总结类型的会议纪要模板进行填充,将会议会话的文本记录以及描述信息,按照工作总结类型的会议纪要模板指定的格式,如指定的字体颜色或字体大小等,分别填充至会议纪要模板中,得到会议会话对应的会议纪要。此外,若会议纪要模板还指定了进行突出显示的关键词,如进行加粗显示、斜体显示、下划线显示或高亮显示等,则在会议会话的语音识别文本中包括该关键词时,可以在会议模板中进行突出显示。
具体地,用户对群组中的会议记录进行触发,显示会议纪要区域后,终端在会议纪要区域中的会议内容区域,按照参与参会成员发出语音的顺序,依次显示发出语音的参会成员的文本标志,具体可以显示参会成员的文本形式名称,对应于每个文本标志,显示每个文本标志所对应的参会成员发出的语音所对应的格式化语音识别文本。
本实施例中,在会议文本记录区域中按照参会成员发出语音的顺序依次显示发出语音的参会成员所对应图像标识的成员标志;而在会议纪要区域中的会议内容区域,显示发出语音的参会成员的文本标志,并显示每个文本标志所对应的参会成员发出的语音所对应的格式化语音识别文本。从而在会议文本记录区域中以图像形式显示包括参会成员对应图像标识的成员标志,丰富会议文本记录区域中显示的参会成员信息;而在会议纪要区域中,以文本形式显示参会成员的成员标志,且以格式化文本的形式显示各参会成员对应的语音识别文本,可以直观地对会议会话的完整会议记录以及会议会话的描述信息进行展示,确保会议纪要的展示效果。
在一个实施例中,会议记录处理方法还包括:响应于对会议内容区域中选中的目标格式化语音识别文本触发的语音播放操作,显示语音播放区域并播放目标格式化语音识别文本对应的语音;在语音播放区域中,显示目标格式化语音识别文本和目标格式化语音识别文本对应语音的播放进度。
其中,目标格式化语音识别文本为用户从会议内容区域中选中的格式化语音识别文本,以对该格式化语音识别文本触发操作。语音播放操作为用户对目标格式化语音识别文本触发的播放对应语音的操作,具体可以为用户长按目标格式化语音识别文本后触发,也可以为用户通过对目标格式化语音识别文本对应的播放控件进行触发。语音播放区域为展示目标格式化语音识别文本的播放处理的区域。播放进度表征了目标格式化语音识别文本对应的语音的播放状态,播放进度可以以声纹图形的形式进行动态展示。
具体地,终端在会议纪要区域中的会议内容区域,显示会议会话中发出的语音对应的格式化语音识别文本后,终端监测用户针对会议内容区域中格式化语音识别文本的触发操作,当检测到用对会议内容区域中选中的目标格式化语音识别文本触发语音播放操作时,表明用户需要收听该目标格式化语音识别文本对应语音,终端显示语音播放区域并播放目标格式化语音识别文本对应的语音。具体地,终端可以确定目标格式化语音识别文本的序列号,根据该序列号查询目标格式化语音识别文本对应的语音,获得目标格式化语音识别文本对应的语音后进行播放。在语音播放区域中,显示目标格式化语音识别文本和目标格式化语音识别文本对应语音的播放进度,以便用户通过收听语音对目标格式化语音识别文本进行校验,同时通过播放进度直观地展示语音的播放状态。
在一具体实现中,如图6所示,终端在会议纪要区域中分别显示格式化描述信息和格式化语音识别文本,用户可以通过长按会议内容区域中的格式化语音识别文本,终端显示语音播放区域,查询该选中的目标格式化语音识别文本对应的语音并进行播放,在语音播放区域中显示目标格式化语音识别文本和目标格式化语音识别文本对应语音的播放进度。如图6中,还显示了目标格式化语音识别文本对应语音的总时长,以及播放控件,通过播放控件可以控制语音的播放。
本实施例中,终端响应于用户对会议内容区域中选中的目标格式化语音识别文本触发的语音播放操作,在语音播放区域中,显示目标格式化语音识别文本和目标格式化语音识别文本对应语音的播放进度,并触发播放目标格式化语音识别文本对应的语音,可以支持用户对各语音识别文本进行收听回顾,以便对语音识别文本进行校正,确保会议纪要的准确性。
在一个实施例中,如图7所示,会议记录处理方法还包括对会议记录的编辑处理,具体包括:
步骤702,响应于对会议记录触发的编辑触发操作,显示会议记录对应的编辑操作区域。
其中,编辑触发操作由用户触发,用于对会议记录进行编辑,编辑操作区域为对会议记录进行编辑操作的处理区域,用户可以在编辑操作区域中实现对会议记录的编辑处理。
具体地,在群组中显示包括会议会话中发出的语音对应的语音识别文本的会议记录后,终端监测用户对会议记录的编辑触发操作,当监测到编辑触发操作时,如终端检测到用户触发会议记录的编辑控件时,终端显示会议记录对应的编辑操作区域,以便用户在编辑操作区域中实现对会议记录的编辑处理。
步骤704,在编辑操作区域中,显示处于编辑状态的会议记录。
在编辑操作区域中,显示的会议记录处于编辑状态,即用户可以对会议记录进行编辑处理,具体可以对会议记录中的各语音识别文本进行编辑,以实现对会议记录的校正处理。
步骤706,响应于对处于编辑状态的会议记录触发的编辑操作,显示通过编辑操作获得的会议记录。
其中,编辑操作可以包括用户对处于编辑状态的会议记录触发的修改、增加或删除等操作,终端显示通过编辑操作后获得的会议记录。具体地,终端可以根据用户触发的编辑操作,对会议记录进行编辑处理,得到编辑处理后的会议记录。终端通过用户触发的编辑操作,以对会议记录编辑,可以实现对会议记录的更新校正,进一步提高会议记录的准确性。
在具体实现时,终端可以响应于用户对会议记录的会议记录触发操作,显示会议纪要区域,在会议纪要区域中显示会议会话对应的格式化描述信息和会议会话中发出的语音对应的格式化语音识别文本。用户可以在会议纪要区域中触发对会议记录的编辑操作,如用户点击会议纪要区域中的编辑控件,终端显示会议记录对应的编辑操作区域,具体可以将会议纪要区域中显示的格式化描述信息和格式化语音识别文本均设置为可编辑状态,以便用户可以对格式化描述信息和格式化语音识别文本进行编辑处理。终端响应于在编辑操作区域中触发的编辑操作,根据编辑操作对格式化描述信息和格式化语音识别文本进行编辑处理,显示通过编辑操作后获得的会议记录。
在一具体实现中,如图8所示,用户可以在群组中对会议记录触发编辑操作,显示会议记录对应的编辑操作区域,在编辑操作区域中显示处于编辑状态的会议记录。具体包括会议记录的标题、昵称显示勾选项以及各语音识别文本。在另一实现中,如图9所示,用户可以在会议纪要区域中触发对会议记录的编辑操作,具体用户可以触控会议纪要区域的编辑控件,终端响应于编辑触发操作,在编辑操作区域中,显示处于编辑状态的会议记录,用户可以在编辑操作区域中对会议记录进行编辑处理。
本实施例中,用户通过在编辑操作区域对会议记录进行编辑更新,可以按照需要对会议记录进行调整,进一步提高了会议记录的准确性。
在一个实施例中,在编辑操作区域中,显示处于编辑状态的会议记录,包括:在编辑操作区域的第一编辑操作区域,显示会议记录所对应的会议主题编辑信息;在编辑操作区域的第二编辑操作区域,显示会议会话中发出的语音对应的语音识别文本的识别文本编辑信息。
其中,编辑操作区域包括第一编辑操作区域和第二编辑操作区域,第一编辑操作区域为对会议会话对应的会议主题进行编辑处理的操作区域;第二编辑操作区域为对会议会话的语音识别文本进行编辑处理的操作区域。
具体地,在触发对会议记录的编辑时,终端在编辑操作区域的第一编辑操作区域中,显示会议记录所对应的会议主题编辑信息,会议主题编辑信息包括对会议记录对应的会议会话的主题、标题和简介进行编辑的信息。终端在编辑操作区域的第二编辑操作区域中,显示会议会话中发出的语音对应的语音识别文本的识别文本编辑信息,识别文本编辑信息包括对各语音识别文本进行编辑处理的信息。
本实施例中,用户可以对会议主题编辑信息和识别文本编辑信息触发编辑操作,从而对会议会话的会议主题、标题和简介,以及会议会话的文本记录分别进行编辑更新,可以按照需要对会议记录进行调整,进一步提高了会议记录的准确性。
在一个实施例中,会议记录处理方法还包括:响应于对会议记录触发的转发操作,显示转发对象列表;响应于在转发对象列表中触发的选择操作,选中目标转发对象,显示将会议记录转发至目标转发对象的转发结果。
其中,转发操作作用于会议记录,以对会议记录进行转发处理,将会议记录进行分享。例如,用户可以对群组中的会议记录对应的转发控件进行操作,以触发转发操作。转发对象列表包括会议记录能够转发分享的对象,转发对象列表中的转发对象可以包括用户的好友、最近联系人或者群组。在具体应用中,为确保会议记录的安全性,可以预先对会议记录的转发对象进行配置,从而使得用户在转发会议记录中,只可以从配置的转发对象范围内选择转发对象。选择操作作用于转发对象列表,用于从转发对象列表中选择需要将会议记录转发的对象,即目标转发对象,目标转发对象的数目可以为一个或多个,由用户进行灵活指定。转发结果为将会议记录转发至目标转发对象的处理结果,具体可以包括转发成功、转发超时或转发失败等。
具体地,在包括参会成员的群组中显示会议记录后,用户可以对群组中的会议记录进行转发处理,终端监测用户对会议记录触发的转发操作,当监测到转发操作时,终端显示转发对象列表,转发对象列表中包括用户可以选择进行会议记录转发的分享对象。用户可以在转发对象列表选择需要转发的对象,终端响应于用户在转发对象列表中触发的选择操作,选中用户指定的目标转发对象,触发将会议记录转发至目标转发对象,并显示将会议记录转发至目标转发对象的转发结果。
在一个具体实现中,如图10所示,用户可以在会议纪要区域中触发对会议记录的转发操作,具体用户可以触控会议纪要区域的转发控件,终端响应于转发操作,显示转发对象列表,用户可以在显示的转发对象列表中选择目标转发对象,以将会议记录转发至目标转发对象。
本实施例中,用户可以对会议记录触发转发操作,从转发对象列表中选择需要转发的目标转发对象,并将会议记录转发至目标转发对象,显示转发结果,实现了对会议记录的分享。
在一个实施例中,在会议会话处于文本记录模式时,显示会议文本记录区域包括:在会议会话处于文本记录模式时,在会议会话的会话界面中,显示会议会话的参会成员对应的成员信息;响应于在会话界面中触发的界面切换操作,进入文本记录界面;在文本记录界面中,显示会议文本记录区域。
其中,会话界面可以为会议会话的默认界面,即在进入会议会话时,默认进入会话界面,会话界面中显示有会议会话的参会成员对应的成员信息。成员信息可以包括但不限于包括参会成员的名称、视频通话界面、网络信息、头像和发言状态等。会话界面可以根据实际需要进行灵活配置。界面切换操作作用于会话界面,以对会话界面触发切换,将当前界面切换至文本记录界面。界面切换操作具体可以通过会话界面中预设的界面切换控件实现,也可以通过对会话界面的界面切换手势实现,如左滑手势、右滑手势等实现界面切换,使终端从会话界面切换至文本记录界面。
具体地,在会议会话处于文本记录模式时,终端在会议会话的会话界面中,显示会议会话的参会成员对应的成员信息,具体可以显示各参会成员的视频通话界面,从而实现各参会成员的远程视频。用户可以在会话界面中触发界面切换操作,终端响应于界面切换操作,将会话界面进行切换,进入文本记录界面,在该文本记录界面中,显示会议文本记录区域,从而在会议文本记录区域中显示文本记录,包括按照参会成员的发出语音的顺序,显示的各参会成员的成员标志和发出的语音所对应的语音识别文本。
在一具体实现中,如图11所示,在会议会话的会话界面中,显示会议会话的参会成员对应的成员信息,具体显示参会成员的名称、头像或视频,还可以显示成员的网络状态、发言状态等。用户可以在会话界面中通过手势进行左滑,触发界面切换操作,进入文本记录界面,在文本记录界面中,显示会议文本记录区域,会议文本记录区域包括按照会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志以及每个成员标志所对应的参会成员发出的语音所对应的语音识别文本。
本实施例中,在会议会话的会话界面显示参会成员对应的成员信息,在界面切换为文本记录界面后,在文本记录界面中显示会议文本记录区域,从而可以实现会议会话界面的快速切换,以在不同界面展示不同的会议信息,提高会议会话的沟通效率。
在一个实施例中,会议记录处理方法还包括:在会话界面中,显示会议会话中实时语音所对应的实时语音识别文本,以及语音识别进度信息;在文本记录界面中,显示实时语音识别文本和语音识别进度信息。
其中,实时语音为会议会话过程中参会成员实时发出的语音,实时语音识别文本为对实时语音进行语音识别处理获得的语音识别文本。语音识别进度信息可以反映针对实时语音进行语音识别处理的处理状态。具体地,在实时语音未结束形成完整的一句话时,仍然可以对已发出的语音进行语音识别,得到对应的语音识别结果,并通过语音识别进度信息进行展示,以表征实时语音未结束,仍在进行语音识别处理中。此外,语音识别进度信息还可以携带由预测信息,以预测后续可能的会话文本。例如,当以获得的实时语音对应语音识别文本结果为“不知道明天天气”时,可以在语音识别进度信息中进行展示,若实时语音未结束,即用户仍在继续发语音,则语音识别进度信息中可以显示表示实时识别处理的进度字符,如可以显示“不知道明天天气…”。进一步地,语音识别进度信息可以根据已获得的实时语音进行会话预测,以预测后续可能发出的会话内容,如在根据已获得的实时语音的语气确定为疑问句时,则预测会话内容可以为询问天气,那么语音识别进度信息可以显示“不知道明天天气怎么样…”,其中,预测会话内容可以与真实已识别的会话内容进行区分,如通过不同的字体大小、字体颜色、字体类型等进行区分,以提醒用户语音识别进度信息的真实识别结果和预测会话内容。
具体地,在会议会话处于文本记录模式时,在会议会话的会话界面中除显示参会成员对应的成员信息外,还可以显示会议会话中实时语音所对应的实时语音识别文本,以及语音识别进度信息,从而在会话界面中显示实时的语音识别文本,以便用户在会议会话过程中,能够准确掌握实时语音所对应的会话内容。进一步地,在通过界面切换操作,从会话界面切换至文本记录界面后,在文本记录界面中,保持显示实时语音识别文本和语音识别进度信息,以便用户在查看会议会话对应的文本记录时,能够准确掌握实时语音所对应的会话内容。
在一具体实现中,如图12所示,在会话界面中和文本记录界面中均显示会议会话中实时语音所对应的实时语音识别文本,以及语音识别进度信息。
本实施例中,在会话界面和文本记录界面,均显示会议会话中实时语音所对应的实时语音识别文本,以及语音识别进度信息,以便用户在会议会话过程中以及在查看会议会话对应的文本记录时,能够准确掌握实时语音所对应的会话内容,提高了会议会话的沟通效率。
在一个实施例中,会议记录处理方法还包括:响应于对语音识别文本触发的文本存储操作,在语音识别文本关联的存储结果标记区域,显示语音识别文本对应的存储标记;当会议会话结束后,在单人会话窗口中,显示包括存储标记所对应的语音识别文本的存储会议记录。
其中,文本存储操作由用户触发,作用于在会议文本记录区域中显示的语音识别文本,以触发对语音识别文本进行保存。存储结果标记区域为展示存储标记的区域,存储标记表征对语音识别文本进行存储的存储结果。存储结果标记区域可以设于语音识别文本的边侧,以通过图形、图片或文字等各种形式的存储标记对存储结果进行标记。单人会话窗口为会话对象只有一个对象的会话窗口,具体地,单人会话窗口中会话消息收发对象均为同一个对象。单人会话窗口可以为用户与自身进行会话的会话窗口,也可以为群组中只包括用户一个成员的群组会话窗口。单人会话窗口的会话消息收发对象均为同一个对象,从而可以实现向自身发送会话消息。存储会议记录包括存储标记所对应的语音识别文本,即存储会议记录包括会议会话中用户通过文本存储操作所保存的语音识别文本,使得用户可以根据自身需求对会议会话的文本记录进行筛选标记,获得用户关注的会议会话内容。
具体地,终端在会议文本记录区域中按照参会成员发出语音的顺序,显示发出语音的参会成员的成员标志及发出的语音所对应的语音识别文本后,用户可以对会议文本记录区域中的语音识别文本触发文本存储操作,如用户可以对会议文本记录区域中的语音识别文本长按后,从弹出的菜单中选择存储选项,从而触发对语音识别文本的文本存储操作,用户还可以通过文本存储手势触发对语音识别文本的存储处理,如用户可以对语音识别文本进行左滑操作或右滑操作,以触发对语音识别文本的存储处理。终端响应于用户对语音识别文本触发的文本存储操作,确定语音识别文本关联的存储结果标记区域,在该存储结果标记区域中,显示语音识别文本对应的存储标记。存储标记用于表征对语音识别文本进行存储的存储结果。存储标记的具体形式可以根据实际需要进行设置,如可以包括文本、图片或图形中的至少一种。例如,在语音识别文本存储成功后,可以在语音识别文本边侧关联的存储结果标记区域中,显示文字“已保存”和图形“√”,以表征成功存储该语音识别文本。
另一方面,在监测到会议会话结束后,终端确定单人会话窗口,单人会话窗口根据当前用户确定,单人会话窗口中的会话对象为当前用户本身。终端在单人会话窗口中,显示包括存储标记所对应的语音识别文本的存储会议记录,从而将用户保存的语音识别文本发送给自身,以便用户能够快速获得存储的会议记录。
在一具体应用中,如图13所示,用户可以对语音识别文本触发的文本存储操作,具体可以对某一条语音识别文本进行左滑保存,终端在语音识别文本关联的存储结果标记区域,显示语音识别文本对应的存储标记。在会议结束后,在单人会话窗口中,显示包括存储标记所对应的语音识别文本的存储会议记录。
本实施例中,用户可以对会议文本记录区域中的语音识别文本进行存储,并在会议文本记录区域中显示对应的存储标记,以提示用户针对语音识别文本的存储结果,此外,在会议会话结束后,在单人会话窗口中显示包括存储标记所对应的语音识别文本的存储会议记录,从而实现将用户存储的语音识别文本筛选得到的存储会议记录发送至用户,以便用户能够快速获得存储的会议记录。
在一个实施例中,会议会话为线下会议会话类型;在响应于会议会话触发操作,进入会议会话之后,还包括:响应于对会议会话的线下文本记录触发操作,显示声纹录入区域;响应于对声纹录入区域触发的声纹录入操作,显示声纹录入操作的声纹录入结果;当声纹录入结果表示录入的声纹数据与参会成员匹配成功时,触发会议会话进入文本记录模式。
本实施例中,会议会话为线下会议会话类型,即会议会话是参会成员统一聚集到会议室进行开会的线下会议形式。会议会话的各参会成员不通过终端进行远程会话,如不进行电话通话或视频通话。在线下会议会话类型的会议会话进入文本记录模式之前,需要对各参会成员的声纹进行匹配,以确定各参会成员的声纹特征,如此在参会成员发言时,可以参会成员的发言语音的声纹特征确定对应发言的参会成员,进一步确定发出语音的参会成员的成员标识,并显示成员标志所对应的参会成员发出的语音所对应的语音识别文本。
其中,线下文本记录触发操作用于触发线下会议进入文本记录模式,具体可以由用户通过对线下会议触发控件进行触控从而触发。声纹录入区域为进行声纹数据录入的操作区域。声纹录入操作由用户触发,以进行声纹录入处理。声纹录入结果表示终端是否成功录入用户的声纹数据,用户的声纹数据可以为用户发出的语音数据。
具体地,在用户触发线下会议会话类型的会议会话进入文本记录模式时,终端响应于用户触发的线下文本记录触发操作,显示声纹录入区域。声纹录入区域可以包括声纹录入提示信息,如在录入声纹数据时需要用户朗读的语句。用户在声纹录入区域中触发声纹录入操作,如用户按压声纹录入区域中的录音控件,并朗读声纹录入区域中的语句,终端采集用户发出的语音,并显示声纹录入操作的声纹录入结果,如声纹录入成功或声纹录入失败等。在声纹录入结果为声纹录入成功,表示录入的声纹数据与参会成员匹配成功时,表明已经记录参会成员的声纹数据,在接收到参会成员发出的语音时,可以确定发出语音的参会成员的身份。在所有参会成员均进行声纹录入操作,得到表示录入的声纹数据与所述参会成员匹配成功的声纹录入结果时,触发会议会话进入文本记录模式,从而终端可以在线下会议会话中,根据参会成员发出的语音利用声纹匹配实现身份识别,进而可以在会议文本记录区域中按照参会成员发出语音的顺序,显示发出语音的参会成员的成员标志及发出的语音所对应的语音识别文本,从而直观地以文本形式在会议文本记录区域展示会议会话的会话内容,不需要手动进行会议记录或录制音视频进行回溯,简化了会议记录的处理流程,提高了会议记录的处理效率。
在一个具体应用中,如图14所示,用户触发线下文本记录触发操作时,显示声纹录入区域,在声纹录入区域进行声纹录入处理。在声纹录入结果表示录入的声纹数据与参会成员匹配成功时,触发会议会话进入文本记录模式。
在一个实施例中,在响应于会议会话触发操作,进入会议会话之后,还包括:当会议会话配置为开启文本记录模式时,设定会议会话进入文本记录模式。
具体地,终端可以获取会议会话的配置信息,根据配置信息确定会议会话是否配置为开启文本记录模式,若是,则表明需要开启文本记录模式,则在进入会议会话后,设定会议会话进入文本记录模式。其中,配置信息可以在创建会议会话时对应生成,以对会议会话的配置进行记录。
进一步地,在响应于会议会话触发操作,进入会议会话之后,还可以包括:响应于在会议会话的会话界面中触发的文本记录模式触发操作,设定会议会话进入文本记录模式。
其中,文本记录模式触发操作用于触发会议会话进入文本记录模式,具体可以由用户对会话界面中的文本记录模式控件进行操作,以由终端响应于文本记录模式触发操作,设定会议会话进入文本记录模式。
在一具体实现中,如图15所示,在会议会话的会话界面显示有文本记录模式控件,用户对文本记录模式控件触发操作,设定会议会话进入文本记录模式,可以显示实时语音对应的语音识别文本。
进一步地,在响应于会议会话触发操作,进入会议会话之后,还可以包括:当会议会话满足文本记录模式提示条件时,显示模式提示信息;响应于对模式提示信息的触发操作,设定会议会话进入文本记录模式。
其中,文本记录模式提示条件可以为预先设置提示触发条件,以在会议会话满足相应条件时进行提示。文本记录模式提示条件可以根据实际需要预先进行设置,如可以设置为会议会话的参会成员数达到预设成员数阈值,或者会议会话的会议时长达到预设时长阈值,或者会议会话中参会成员发出语音的频率超过预设频率阈值等。模式提示信息用于提示用户开启文本记录模式,具体可以以文字、图片或多媒体的形式,显示模式提示信息,以提示用户开启文本记录模式。用户可以对显示的模式提示信息进行触发操作,以控制会议会话进入文本记录模式。此外,用户也可以对显示的模式提示信息触发关闭操作,以关闭该模式提示信息,为避免反复显示模式提示信息对会议会话造成干扰,可以设置模式提示信息在一次会议会话中仅显示一次,在用户关闭模式提示信息后,用户也可以通过会话界面的文本记录模式控件进行操作,以开启文本记录模式。此外,还可以设置为在参会成员每次进入会议会话时,显示模式提示信息,从而在参会成员中途退后重新进入出会议会话时,可以及时进行提示,以开启文本记录模式。
具体地,终端监测会议会话是否满足预设的文本记录模式提示条件,具体可以根据文本记录模式提示条件确定监测参数,并监测会议会话对应的监测参数,基于会议会话对应的监测参数确定是否满足文本记录模式提示条件时,在满足文本记录模式提示条件时,显示模式提示信息,以提示用户开启文本记录模式。用户可以对模式提示信息进行操作,终端响应于用户对模式提示信息的触发操作,设定会议会话进入文本记录模式。
在一具体实现中,如图16所示,会议会话满足文本记录模式提示条件时,在会议会话的会话界面显示模式提示信息,用户对模式提示信息触发操作,设定会议会话进入文本记录模式,可以显示实时语音对应的语音识别文本。
本实施例中,终端在响应于会议会话触发操作,进入会议会话之后,可以通过多种方式开启文本记录模式,以设定会议会话进入文本记录模式,能够适应于各种会议会话场景,有效扩展了会议记录处理方法的应用场景。
在一个实施例中,在响应于会议会话触发操作,进入会议会话之后,还包括:确定会话会议的参会成员数;当参会成员数大于模式提示阈值时,发出模式提示信息;模式提示信息用于提示参会成员开启文本记录模式;当接收到对模式提示信息的触发指令时,向服务器发送模式开启请求,模式开启请求用于请求服务器设定会议会话进入文本记录模式。
其中,参会成员数为会话会议中参会成员的数目,具体可以对会议会话的人数状态进行监测得到。模式提示阈值为触发显示模式提示信息的成员数阈值,在会话会议的参会成员数超过模式提示阈值时,可以触发显示模式提示信息进行提示。模式开启请求用户请求服务器对会议会话的工作模式进行调整,具体请求服务器设定会议会话进入文本记录模式。
具体地,在进入会议会话后,终端可以判断是否发出过模式提示信息,若已经发出过模式提示信息,表明已经提示过用户开启文本记录模式,则不作处理。若没有发出过模式提示信息,则终端监测会议会话中的参会成员的数目,得到会话会议的参会成员数。终端将会话会议的参会成员数与预先设定的模式提示阈值进行比较,在参会成员数大于模式提示阈值时,表明会议会话满足文本记录模式提示条件,需要提示用户开启文本记录模式,则终端发出模式提示信息,模式提示信息用于提示参会成员开启文本记录模式。模式提示信息可以包括文字、图片或多媒体形式的提示内容。当终端发出模式提示信息进行提示后,若接收到对模式提示信息的触发指令,表明参会成员需要开启文本记录模式,则终端向服务器发送模式开启请求,模式开启请求用于请求服务器设定会议会话进入文本记录模式,从而实现会议会话的工作模式设定。在设定会议会话进入文本记录模式之后,可以停止对会议会话中参会成员的数目的监测。
本实施例中,在会话会议的参会成员数大于模式提示阈值时,终端发出模式提示信息以提示参会成员开启文本记录模式,在接收到对模式提示信息的触发指令时,向服务器发送模式开启请求,模式开启请求用于请求服务器设定会议会话进入文本记录模式,从而实现会议会话的工作模式设定。
在一个实施例中,会议记录处理方法还包括:在会议会话处于文本记录模式时,将包括会议会话的实时音频数据的上行音频流发送至服务器;接收由服务器返回的下行音频流;下行音频流由服务器将实时音频数据对应的实时语音识别文本填充到上行音频流中得到;当下行音频流中存在文本数据时,从下行音频流中提取实时音频数据对应的实时语音识别文本。
其中,会议会话的实时音频数据为参会成员在会议会话中实时发出的音频数据,上行音频流包括会议会话的实时音频数据。在会议会话中,终端采集参会成员的音频数据,并将其组装为信令数据,得到上行音频流,并将上行音频流发送至服务器,服务器可以将上行音频流发送至会议会话中的各参会成员,从而实现远程通话。此外,在会议会话处于文本记录模式时,服务器还对上行音频流中的实时音频数据进行语音识别得到对应的实时语音识别文本,服务器可以将实时语音识别文本填充到上行音频流中,如可以填充到上行音频流的拓展数据中,形成下行音频流。
具体地,在会议会话处于文本记录模式时,终端采集会议会话中参会成员实时发出的音频数据,根据实时音频数据得到上行音频流,并将上行音频流发送至服务器。服务器接收到终端发送的上行音频流后,对上行音频流中的实时音频数据进行语音识别,得到实时音频数据对应的实时语音识别文本,并将实时语音识别文本填充至上行音频流中,获得下行音频流。此外,服务器还可以获取实时音频数据对应的语音识别进度信息,并将实时语音识别文本以及语音识别进度信息均填充到上行音频流中,如可以填充到上行音频流中的拓展数据中,得到下行音频流并向各参会成员对应的终端下发该下行音频流。终端接收服务器下发的下行音频流,对下行音频流进行分析,在确定下行音频流中存在文本类型数据,即表明下行音频流中包括实时语音识别文本,则终端从下行音频流中提取实时音频数据对应的实时语音识别文本,提取得到的实时语音识别文本可以在会议会话的会话界面中进行显示。在下行音频流中包括语音识别进度信息时,可以在会议会话的会话界面中显示实时语音识别文本和语音识别进度信息。
本实施例中,由终端将实时采集的包括会议会话的实时音频数据的上行音频流发送至服务器,服务器将实时音频数据对应的实时语音识别文本填充到上行音频流中得到下行音频流,并向各参会成员对应的终端下发该下行音频流。终端接收到下行音频流后,从下行音频流中提取实时音频数据对应的实时语音识别文本,从而可以在会议会话的会话界面中显示实时语音识别文本和语音识别进度信息,以便用户能够准确掌握实时语音所对应的会话内容。
在一个实施例中,对应于上述应用于终端的会议记录处理方法,如图17所示,提供了一种会议记录处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤1702,当会议会话处于文本记录模式时,获取会议会话的音频数据。
其中,会议会话可以包括各种形式的线上网络会议,如电话会议、视频会议等,会议会话还可以包括线下会议。在会议会话中,参与者可以进行发言交流,以实现远程沟通。文本记录模式为会议会话的一种作业模式,在会议会话处于文本记录模式时,会对会议会话中的语音数据进行语音识别,得到相应的语音识别文本,并将语音识别文本进行展示,从而以文本形式对会议会话进行会议记录处理。音频数据包括会议会话中各参会成员发出的语音。在线上的会议会话处理中,会议会话中各参会成员可以通过不同的终端进行发言,终端采集参会成员发出的语音,并将语音上传到服务器,由服务器将各语音发送至会议会话中的其他参会成员对应的终端,从而实现线上的会议对话。
具体地,在会议会话处于文本记录模式时,服务器接收各参会人员对应终端上传的音频数据,以将音频数据转发到各参会成员,从而实现会议会话的远程对话。
步骤1704,基于音频数据进行身份识别,识别出会议会话中发出语音的参会成员的成员标识,并对语音进行语音识别得到对应的语音识别文本。
其中,身份识别可以基于声纹识别技术,根据音频数据进行声纹识别,从而基于声纹识别结果与参会成员的声纹特征进行匹配,根据匹配结果确定音频数据中各语音的来源,即确定音频数据中发出各语音的参会成员。此外,身份识别也可以根据上传音频数据中语音的终端标识进行确定,具体可以根据确定上传音频数据中各语音的终端的终端标识,确定终端标识对应的终端上客户端中登录的参会成员的账号,基于参会成员的账号确定音频数据中语音的来源。成员标识用于标识参会成员的身份,各参会成员具有唯一的成员标识,从而可以根据成员标识将所有参会成员进行区分,成员标识具体可以包括但不限于包括姓名、昵称和ID。语音识别文本为会议会话中的参会成员在会议会话中音频数据所对应的语音识别结果,语音识别文本为文本形式。
具体地,服务器对接收到的音频数据进行身份识别,以确定音频数据中各语音的来源,即确定发出音频数据中各语音的参会成员。具体应用中,服务器可以定时检测终端音频数据的上传状态,在确定无上行音频数据,即音频数据上传结束,则服务器触发对音频数据进行身份识别。例如,服务器可以每隔100毫秒检测各终端的音频数据的上传状态,当2秒内均未接收到音频数据时,基于已接收到的音频数据进行身份识别处理。服务器根据身份识别结果,确定会议会话中发出语音的参会成员的成员标识。服务器还对会议会话中发出的语音进行语音识别,得到对应的语音识别文本。
步骤1706,获取语音文本记录,语音文本记录包括成员标识、语音识别文本和采用递增分配方式为语音识别文本分配的序列号;序列号表示参会成员发出语音的顺序。
其中,成员标识用于标识各参会成员的身份,语音识别文本为语音对应的文本内容。服务器为每条语音识别文本分配序列号,序列号采用递增分配方式进行分配,从而可以通过语音识别文本分配的序列号表示参会成员发出语音的顺序。
具体地,服务器获取语音文本记录,语音文本记录包括成员标识、语音识别文本和采用递增分配方式为语音识别文本分配的、表示参会成员发出语音的顺序的序列号。例如,服务器接收到音频数据后,对音频数据中各语音进行语音识别得到对应的语音识别文本,按照递增分配方式为各语音识别文本分配序列号,以表示语音识别文本对应语音的发出顺序。
步骤1708,向会议会话的参会成员对应的终端发送语音文本记录;语音文本记录,用于指示终端按照序列号排序对应显示成员标识对应的成员标志及语音识别文本。
其中,成员标志用于代指会议会话的参会成员,具体可以包括参会成员的姓名、昵称或头像等各种参会成员的标志信息。参会成员对应的终端可以为参会成员登录的客户端所属终端,终端接收到服务器发送的语音文本记录,可以在登录的客户端中显示,如可以在客户端中包括所有参会成员的群组中进行显示,从而实现参会成员都可以在终端的客户端中查看会议会话中,各个发出语音的参会成员对应的成员标志及发出的语音对应的语音识别文本。
具体地,获得语音文本记录后,服务器将语音文本记录发送至会议会话的参会成员对应的终端,以指示终端按照序列号排序对应显示成员标识对应的成员标志及语音识别文本。从而使终端直观地以文本形式展示会议会话的会话内容,不需要手动进行会议记录或录制音视频进行回溯,简化了会议记录的处理流程,提高了会议记录的处理效率。
上述会议记录处理方法中,当会议会话处于文本记录模式时,基于会议会话的音频数据进行身份识别,识别出会议会话中发出语音的参会成员的成员标识,并对语音进行语音识别得到对应的语音识别文本,向会议会话的参会成员对应的终端发送语音文本记录,语音文本记录包括成员标识、语音识别文本和采用递增分配方式为语音识别文本分配的、表示参会成员发出语音的顺序的序列号,语音文本记录指示终端按照序列号排序对应显示成员标识对应的成员标志及语音识别文本。在会议会话处于文本记录模式时,向终端发送包括成员标识、语音识别文本和采用递增分配方式为语音识别文本分配的序列号的语音文本记录,以指示终端按照序列号排序对应显示成员标识对应的成员标志及语音识别文本,从而直观地以文本形式在终端展示会议会话的会话内容,不需要手动进行会议记录或录制音视频进行回溯,简化了会议记录的处理流程,提高了会议记录的处理效率。
在一个实施例中,如图18所示,会议记录处理方法还包括发送会议记录消息的处理步骤,具体包括:
步骤1802,当检测到会议会话结束时,获取会议会话的会议标识对应的会议语音文本记录。
其中,会议会话结束表示会议会话已结束会话连接,如结束电话沟通连接或结束视频沟通连接等。会议标识用于标识会议会话,具体可以为会议字符编码。服务器中可以存储有各不同会议会话对应的会议语音文本记录,通过会议会话的会议标识以对会议语音文本记录进行管理。会议语音文本记录包括会议会话中完整的语音文本记录,即包括会议会话中所有语音对应的成员标识、语音识别文本和采用递增分配方式为语音识别文本分配的序列号。进一步地,语音文本记录还可以包括各语音对应的端点时间信息,端点时间信息可以包括语音在会话会议的音频数据中对应的开始时间戳和结束时间戳。根据端点时间信息可以从会话会议的音频数据中确定对应的语音。
具体地,服务器监测会议会话的会议进程,在监测到会议会话结束时,如接收到终端对会议会话触发的会议结束触发指令时,或者监测到会议会话的参会人数为零,即所有参会成员均退出会议会话时,认为会议会话结束。服务器确定会议会话的会议标识,会议标识可以在创建会议会话时生成,不同的会议会话对应于不同的会议标识。服务器根据会议会话的会议标识,查询得到会议会话对应的会议语音文本记录。会议语音文本记录包括会议会话中所有语音对应的语音文本记录。
步骤1804,根据会议语音文本记录中的各语音文本记录,得到会议会话的会议记录消息。
其中,会议记录消息携带有会议会话对应的会议记录,会议记录为记录会议会话中发言内容的文本记录,会议记录包括会议会话中发出的各语音对应的语音文本记录,即会议记录包括会议会话的所有参会成员在会议会话中发出的语音对应的语音文本记录。会议记录记录了会议会话过程中所有语音对应的语音文本记录,以文本形式记录了会议会话的会议内容。此外,会议记录还可以包括会议会话对应的描述信息,包括会议会话的发起人、参会成员以及会议会话的召开时间等。
具体地,服务器获得会议会话的会议标识对应的会议语音文本记录后,从会议语音文本记录中或会议会话中所有语音对应的语音文本记录,根据各语音文本记录得到会议会话的会议记录消息。具体可以由服务器根据各语音文本记录构建会议会话对应的会议记录,并根据会议记录生成对应的会议记录消息。
步骤1806,根据会议会话的会议标识确定包括参会成员的群组,并将会议记录消息发送至群组中。
其中,群组,也称群聊或群,为建立的提供多人社交会话的平台,群组中的各成员可以通过群组实现聊天交流。包括参会成员的群组由会议会话的参会成员组成,该群组与会议会话的会议标识对应,可以创建会议会话的同时建立相应的群组。具体地,可以在用户触发创建会议会话时,确定会议会话的参会成员,创建会议会话对应的群组,将会议会话的参会成员添加至该群组中,参会成员可以在该群组中通过会话消息的形式进行沟通交流。
具体地,在获得会议会话的会议记录消息后,服务器确定包括会议会话的参会成员的群组,具体根据会议会话的会议标识查询包括参会成员的群组,并由服务器将会议记录消息发送至群组中,从而将会议会话的所有语音对应的内容以文本形式在群组中进行分享,实现会议会话的会议记录的分享,不需要手动进行会议记录或录制音视频进行回溯,简化了会议记录的处理流程,提高了会议记录的处理效率。
在一个实施例中,在将会议记录消息发送至群组中之后,还包括:当接收到对会议记录消息触发的文本记录编辑指令时,根据文本记录编辑指令确定待编辑的目标会议标识和目标序列号;从目标会议标识对应的会议语音文本记录中,确定与目标序列号对应的待编辑语音识别文本;基于文本记录编辑指令对待编辑语音识别文本进行编辑,并根据编辑后的语音识别文本更新对应的语音文本记录。
其中,会议记录消息发送至包括参会成员的群组中后,用户可以触发对会议记录消息进行编辑操作,服务器接收终端发送的根据用户触发的编辑操作生成的文本记录编辑指令,并基于文本记录编辑指令对语音识别本进行编辑更新。目标会议标识为需要进行编辑处理的语音识别文本对应所属会议会话的标识,目标序列号为需要进行编辑处理的语音识别文本对应的序列号。待编辑语音识别文本为需要进行编辑处理的语音识别文本。
具体地,服务器接收到终端发送的对会议记录消息触发的文本记录编辑指令时,表明用户需要对会议记录消息中的会议记录进行编辑处理。服务器根据文本记录编辑指令确定待编辑的目标会议标识和目标序列号,具体文本记录编辑指令可以携带有目标会议标识和目标序列号,服务器可以直接从文本记录编辑指令中提取确定待编辑的目标会议标识和目标序列号。服务器查询目标会议标识对应的会议语音文本记录,会议语音文本记录包括目标会议标识对应会议会话中的所有语音文本记录。服务器从会议语音文本记录中,查询与目标序列号对应的待编辑语音识别文本。服务器确定待编辑语音识别文本后,根据文本记录编辑指令对待编辑语音识别文本进行编辑,如对待编辑语音识别文本进行增添、删除、修改等处理,得到编辑后的语音识别文本,服务器基于编辑后的语音识别文本更新对应的语音文本记录,从而实现对会议语音文本记录的编辑处理。
本实施例中,通过终端发送的文本记录编辑指令确定待编辑的目标会议标识和目标序列号,基于目标会议标识和目标序列号查询对应待编辑语音识别文本,并通过文本记录编辑指令对待编辑语音识别文本进行编辑处理,可以基于用户需要对语音文本记录进行编辑更新,进一步提高了会议记录的准确性。
在一个实施例中,在将会议记录消息发送至群组中之后,还包括:当接收到对会议记录消息触发的文本记录转发指令时,根据文本记录转发指令确定转发对象;将会议记录消息转发至转发对象对应的终端。
其中,文本记录转发指令由终端根据用户对会议记录消息触发的转发操作生成,以将会议记录消息进行转发处理。具体地,服务器将会议记录消息发送至群组中之后,若接收到终端发送的对会议记录消息触发的文本记录转发指令时,表明用户需要将会议记录消息进行转发处理,则服务器根据文本记录转发指令确定转发对象。具体可以由服务器直接从文本记录转发指令中提取转发对象,并将会议记录消息转发至转发对象对应的终端,从而实现对会议记录消息的转发分享。
本实施例中,服务器接收到终端发送的对会议记录消息触发的文本记录转发指令时,将会议记录消息转发至文本记录转发指令所指定的转发对象对应的终端,实现了对会议记录消息的快速分享。
在一个实施例中,在获取会议会话的音频数据之后,还包括:将会议会话的音频数据进行融合,得到会议会话的会议音频流。
具体地,服务器将获取的会议会话的音频数据进行融合,从而将各参会成员分别发送的语音融合成该会议会话对应的完整会议音频流。在具体应用时,可以按照会议会话的音频数据中各语音的发出顺序进行融合,得到会议会话的会议音频流。
进一步地,语音文本记录还包括语音对应的端点时间信息;在将会议记录消息发送至群组中之后,还包括:当接收到目标参会成员对会议记录消息中的语音识别文本触发的语音播放指令时,确定语音播放指令指定的语音识别文本对应的目标序列号;从会议标识对应的会议语音文本记录中,确定目标序列号对应的目标端点时间信息;根据目标端点时间信息从会议音频流中,获取目标序列号对应的目标语音数据,并发送目标语音数据至目标参会成员对应的终端。
其中,端点时间信息可以包括音频数据中的语音在会话会议的会议音频流中对应的开始时间戳和结束时间戳,根据端点时间信息可以从会话会议的会议音频流中确定对应的语音。语音播放指令由终端根据用户触发的语音播放操作生成并上传到服务器,用于播放指定的语音识别文本对应的语音。
具体地,语音文本记录还包括语音对应的端点时间信息,在服务器融合会议会话的音频数据时,确定各语音在会议音频流中对应的端点时间信息,并将端点时间信息记录至语音对应的语音文本记录中。服务器接收到目标参会成员对会议记录消息中的语音识别文本触发的语音播放指令时,表明目标参会成员需要收听指定的语音识别文本对应的语音,服务器确定语音播放指令指定的语音识别文本对应的目标序列号,具体可以由服务器从语音播放指令中提取得到目标序列号,目标序列号为指定需要收听的语音识别文本对应的序列号。服务器根据会议会话的会议标识,查询会议会话对应的会议语音文本记录,并从会议语音文本记录中确定目标序列号对应语音识别文本的目标端点时间信息,目标端点时间信息可以包括开始时间戳和结束时间戳。服务器基于目标端点时间信息,从会议会话的会议音频流中,获取目标序列号对应语音识别文本的目标语音数据,并将目标语音数据至目标参会成员对应的终端,以由用户在终端回顾收听语音识别文本对应的语音。
本实施例中,服务器将获得的会议会话的音频数据进行融合,得到会议会话对应的会议音频流,会议音频流包括会议会话中的所有语音。在接收到目标参会成员对会议记录消息中的语音识别文本触发的语音播放指令时,服务器根据语音播放指令指定的语音识别文本对应的目标序列号,从会议会话对应的会议语音文本记录中,确定语音播放指令指定的语音识别文本的目标端点时间信息,并根据目标端点时间信息从会议音频流中获取目标语音数据后返回至目标参会成员对应的终端,可以支持用户对各语音识别文本进行收听回顾,以便对语音识别文本进行校正,确保会议纪要的准确性。
在一个实施例中,获取语音文本记录包括:确定会议会话的会议标识和客户端文本序列号;确定会议标识对应的会议语音文本记录中的最新序列号;当最新序列号大于客户端文本序列号时,从会议语音文本记录中,获取序列号大于客户端文本序列号的语音文本记录。
其中,会议标识用于标识会议会话,不同的会议会话对应于不同的会议标识。客户端文本序列号为终端已获取的语音文本记录中语音识别文本所对应的序列号,即为终端已经进行显示的语音识别文本对应的序列号。最新序列号为会议语音文本记录中序列号数值最大的序列号。语音识别文本对应的序列号按照递增分配方式进行分配,随着会议会话的进行,语音识别文本的数量不断增减,对应分配的序列号也逐渐递增。
具体地,服务器确定会议会话的会议标识和客户端文本序列号,可以由服务器主动向终端查询,也可以由终端定时进行上报,如终端可以每隔2秒向服务器上报客户端文本序列号,以便请求服务器下发语音文本记录。服务器确定客户端文本序列号,可以确定在终端的客户端中显示的语音文本记录的进度。服务器基于会议会话的会议标识,确定会议会话的会议语音文本记录中的最新序列号,具体可以由服务器基于会议会话的会议标识查询会议会话对应的会议语音文本记录,从会议语音文本记录中查询数值最大的序列号,确定为最新序列号。服务器比较最新序列号和客户端文本序列号,若最新序列号不大于客户端文本序列号,则表明在终端已经获得会议会话中的所有语音文本记录,则服务器返回继续监测最新序列号与客户端文本序列号的关系。若最新序列号大于客户端文本序列号,表明会议会话的会议语音文本记录中最新的语音文本记录未反馈至终端进行显示,则服务器从会议语音文本记录中,获取序列号大于客户端文本序列号的语音文本记录,从而可以将未在终端显示的语音文本记录发送至终端进行显示。在具体实现时,服务器可以确定最新序列号与客户端文本序列号中最大值的差值,若差值超过文本记录数量阈值时,表明未在终端显示的语音文本记录的数量较多,则可以进行分批发送。例如,在最新序列号与客户端文本序列号中最大值的差值超过50时,则服务器获取序列号与客户端文本序列号中最大值的差值在50之内的语音文本记录,并将获得的语音文本记录发送至终端。另一方面,若在最新序列号与客户端文本序列号中最大值的差值不超过50时,则可以获取所有序列号大于客户端文本序列号的语音文本记录,并将获得的语音文本记录发送至终端。
本实施例中,在会议会话的最新序列号大于客户端文本序列号,表明会议会话的会议语音文本记录中最新的语音文本记录未反馈至终端进行显示,由服务器从会议会话对应的会议语音文本记录中,获取序列号大于客户端文本序列号的语音文本记录,以便服务器及时向终端下发语音文本记录,提高语音文本记录的时效,确保会议会话的沟通效率。
在一个实施例中,对语音进行语音识别得到对应的语音识别文本包括:当语音满足语音识别触发条件时,对语音进行语音识别得到对应的语音识别文本。
其中,语音识别触发条件根据实际需要进行预先设置,以触发对语音进行语音识别处理。具体地,语音识别触发条件可以包括语音已形成一句话,语音已中段,如连续2秒未接收到新的语音时,触发服务器对语音进行语音识别处理,得到语音对应的语音识别文本。
进一步地,在获取语音文本记录之前,还包括:确定会议会话的会议标识,并采用递增分配方式为语音识别文本分配序列号;根据会议标识、成员标识、语音识别文本和序列号,生成会议会话对应的语音文本记录。
具体地,在识别出会议会话中发出语音的参会成员的成员标识,并获得对语音进行语音识别处理后的语音识别文本之后,服务器确定会议会话的会议标识,具体可以由服务器查询会议会话的配置信息,从配置信息中获取会议会话的会议标识,如获取会议会话的会议编码。服务器采用递增分配方式为语音识别文本分配序列号,具体对于每一条语音识别文本分配一个对应的序列号。服务器基于得到的会议标识、成员标识、语音识别文本和序列号,生成会议会话对应的语音文本记录。此外,语音文本记录还可以包括语音识别文本对应语音的端点时间信息,根据端点时间信息可以确定语音识别文本对应的语音。
本实施例中,服务器根据会议标识、成员标识、语音识别文本和序列号,生成会议会话对应的语音文本记录,语音文本记录携带会议会话中各语音对应语音识别文本的信息,从而可以通过语音文本记录实现以文本形式对会议会话进行记录。
在一个实施例中,会议记录处理方法还包括:当接收到目标参会成员发送的文本存储指令时,确定文本存储指令指定的存储序列号;当检测到会议会话结束时,从会议会话对应的会议语音文本记录中,获取与存储序列号对应的语音文本记录;基于与存储序列号对应的语音文本记录得到存储会议记录消息,并发送存储会议记录消息至目标参会成员对应的终端。
其中,文本存储指令根据目标参会成员在终端对语音识别文本触发的文本存储操作生成,用于对语音识别文本进行保存。具体地,服务器接收到终端上由目标参会成员发送的文本存储指令时,表明目标参会成员需要对终端上显示的语音识别文本进行保存处理,服务器确定文本存储指令指定的存储序列号,存储序列号为需要进行存储处理的语音识别文本的序列号。服务器在检测到会议会话结束时,服务器从会议会话对应的会议语音文本记录中,获取与存储序列号对应的语音文本记录,与存储序列号对应的语音文本记录中包括目标参会成员指定存储的语音识别文本。服务器基于与存储序列号对应的语音文本记录得到存储会议记录消息,并将存储会议记录消息发送至目标参会成员对应的终端,从而将目标参会成员指定保存的语音文本记录在会议会话结束后反馈至目标参会成员对应的终端。
本实施例中,服务器将目标参会成员指定保存的语音文本记录在会议会话结束后反馈至目标参会成员对应的终端,以便用户能够快速及时获得存储的语音文本记录。
在一个实施例中,在当会议会话处于文本记录模式时,获取会议会话的音频数据之前,还包括:当会议会话为线下会议会话类型、且接收到终端发送的文本记录触发指令时,向终端发送声纹识别信息;声纹识别信息用于指示终端根据声纹识别信息上传待识别的声纹数据;接收由终端上传的待识别的声纹数据,并对待识别的声纹数据分别进行语音识别,得到声纹识别文本;基于声纹数据与各参会成员进行身份匹配,得到身份匹配结果;当声纹识别文本与声纹识别信息匹配一致、且身份匹配结果为匹配成功时,设定会议会话进入文本记录模式。
其中,会议会话为线下会议会话类型,即会议会话是参会成员统一聚集到会议室进行开会的线下会议形式。文本记录触发指令根据用户在终端触发的线下文本记录触发操作生成得到,用于触发线下会议进入文本记录模式。声纹识别信息用于对各参会成员进行声纹识别,以实现各参会成员的声纹录入。声纹识别信息可以包括在录入声纹数据时需要用户朗读的语句,各参会成员分别朗读该语句进行声纹录入。在完成所有参会成员的声纹录入后,表明可以根据各参会成员的语音进行身份识别,识别出在会议会话中发出语音的参会成员所对应的成员标识。
具体地,当服务器确定会议会话为线下会议会话类型、且接收到终端发送的文本记录触发指令时,表明用户需要针对线下会议会话开启文本记录模式,服务器向终端发送声纹识别信息,声纹识别信息用于指示终端根据声纹识别信息上传待识别的声纹数据。例如,声纹识别信息可以包括指示终端的参会成员需要朗读的语句,终端采集参会成员在朗读语句时发出的声纹数据并上传至服务器。服务器接收由终端上传的待识别的声纹数据,并对待识别的声纹数据分别进行语音识别,得到声纹识别文本。服务器基于声纹数据与各参会成员进行身份匹配,得到身份匹配结果,通过身份匹配实现各参会成员的声纹录入。在服务器确定声纹识别文本与声纹识别信息匹配一致、且身份匹配结果为匹配成功时,表明可以准确对各参会成员发出语音进行语音识别获得相应的语音识别文本,且各参会成员的声纹数据已录入,各参会成员的声纹数据已与各参会成员的成员标识建立映射关系,则服务器设定会议会话进入文本记录模式。
本实施例中,在会议会话为线下会议会话类型时,服务器通过下发声纹识别信息对终端的各参会成员进行声纹录入和语音识别测试,在完成声纹录入并通过语音识别测试时,表明可以准确对各参会成员发出语音进行语音识别获得相应的语音识别文本,且能够基于各参会成员的语音进行身份识别,确定发出语音的参会成员的成员标识,设定会议会话进入文本记录模式。从而确保终端可以在线下会议会话中,根据参会成员发出的语音利用声纹匹配实现身份识别,并进行语音识别处理获得准确的语音识别文本,可以确保在会议会话处于文本记录模式时,向终端发送包括成员标识、语音识别文本和采用递增分配方式为语音识别文本分配的序列号的语音文本记录,以指示终端按照序列号排序对应显示成员标识对应的成员标志及语音识别文本,从而直观地以文本形式在终端展示会议会话的会话内容,不需要手动进行会议记录或录制音视频进行回溯,简化了会议记录的处理流程,提高了会议记录的处理效率。
在一个实施例中,在向终端发送声纹识别信息之前,还包括:当接收到线下会议触发指令时,创建线下会议会话群组;将各参会成员添加至线下会议会话群组中,并基于线下会议会话群组的群组标识创建会议会话。
其中,线下会议触发指令根据会议会话的参会成员触发的会议开启操作生成得到,线下会议会话群组可以支持参与会议会话的参会成员进行交流沟通。具体地,当服务器确定会议会话为线下会议会话类型、且服务器接收到终端发送的文本记录触发指令时,服务器接收终端发送的线下会议触发指令,创建线下会议会话群组,并将会议会话的各参会成员添加至线下会议会话群组中。服务基于线下会议会话群组的群组标识创建会议会话,从而使得会议会话与线下会议会话群组对应,可以支持服务器在会议会话结束后,将根据会议会话的会议语音文本记中的各语音文本记录生成的会议记录消息发送至线下会议会话群组中,实现会议记录的共享。
本申请还提供一种应用场景,该应用场景应用上述的会议记录处理方法。具体地,该会议记录处理方法在该应用场景的应用如下:
传统的远程会议实现方案中,用于可以录制会议过程,以便参会人员根据录制的音视频资料进行回顾,但录制的音视频资料仍然需要参会人员重新回顾查找,导致会议记录的处理效率较低。本申请提供的会议记录处理方法,用户可以在会议会话,如音视频会议中开启实时文本记录功能,开启后服务器可以将会议会话中参会成员发出的语音实时转换成对应的对话文本。用户也可以在终端将重要的对话文本进行存储,在音视频会议结束后,用户存储的重要对话文本可以汇总成会议记录发送给自己。另外,所有参会成员的对话文本也会汇总成会议记录发送至包括参会成员的群组中。用户可对群组中的会议记录进行编辑和分享,也可长按会议记录中的语句收听在会议会话中对应的语音。此外,会议记录处理方法不止可应用于线上音视频会议,还可以支持线下会议进行实时会议记录。
具体地,如图19所示,会议会话为音视频通话,用户在进行音视频通话时,可以点击右上角的记录按钮进入实时文本记录模式,此时在通话界面下部分区域显示实时语音对应的语音识别文本。如图20所示,当终端检测到有超过3人在进行音视频通话时,终端可以在会议会话中弹出提示,询问用户是否进入文本记录模式,用户可以触发提示以开启文本记录模式。如图21所示,音视频通话进入文本记录模式后,用户发出的语音会实时转化成文字在通话界面进行显示,用户也可以左滑页面可以进入文字记录页,文字记录页记录了参会者的对话文本,对话文本基于会议通话中的语音进行语音识别处理得到。在文字记录页中,按照各参会成员发出语音的顺序,依次显示发出语音的参会成员的头像和名称,对应于每个参会成员的头像和名称,显示所发出语音对应的语音识别文本。进一步地,如图22所示,用户可以左滑文字记录页中的对话文本,将此条对话文本进行存储,在文字记录页中可以显示存储标记,以提示存储结果。如图23所示,在会议结束后,用户存储过的对话文本会汇总成一份会议记录发送给用户自己,具体在单人对话窗口中显示存储的会议记录。如图24所示,会议结束后,全部参会者的对话文本也会生成一份完整版的会议记录,发送至进行音视频通话的群组中。进一步地,如图25所示,用户在群组中对会议记录触发操作后,显示会议记录中包括的音视频通话的基本信息和记录的会话内容,用户可以对会议记录的主题和内容进行编辑。如图26所示,用户也可以将会议记录转发给好友,用户在会议纪要区域中触发对会议记录的转发操作,显示转发对象列表,用户可以从转发对象列表中选择目标转发对象,以将会议记录转发至目标转发对象。如图27所示,用户可以通过长按对话文本,触发播放对话文本对应的语音。在显示的语音播放区域中,显示对话文本以及语音的播放进度信息。
如图28所示,会议记录处理方法也可以应用于线下会议。用户可点击线下会议发起线下会议,参与会议的人可以通过会议群组号加入线下会议,同时,服务器生成包含参会者的群聊,在群聊中,参会者可以进行沟通交流。如图29所示,在线下会议应用时,用户需要先进行声纹识别,确保服务器能够识别出自己的声音后,才能开始实时会议记录。具体地,在用户触发开启文本记录模式时,显示声纹录入区域,用户在声纹录入区域中触发声纹录入操作,以进行声纹录入处理。如图30所述,在线下会议场景中,会议的参与者发出的语音会被实时转文字,用户左滑页面可进入记录参会者对话的文字记录页,用户在文字记录页触发结束会议时,会议会话中所有对话文本会汇总成会议纪录发送至群聊中。
在具体实现时,在开启会议会话的文本记录模式时,在会议会话的会话界面设有一个快速入口和一个多人会议时提示用户的打开的提示tips,在会议会话的会话界面中设置一个常驻的按钮,只要用户点击该按钮即可开启文本记录模式。同时,如图31所示,进入会议会话后,确定会议会话是否弹出过提示tips,若否则监听会议会话的参会人数,当会议会话中的人数超过N个人时,终端主动弹出一个提示tips,提示用户可以开启文本记录模式,具体实现为监听会议中人数变化事件,当会议中人数超过N时,弹出提示tips,提示tips弹出在本次会议中只弹出一次,可以避免弹出的提示tips给用户造成过多干扰,影响会议沟通效率,提示tips可以直接存储在终端本地。如图32所述,开启或关闭文本记录模式,终端向服务器发送请求开启或关闭文本记录模式的请求,请求可以由终端进行信令数据组装得到,服务器接收到开启或关闭文本记录模式的请求后,进行数据校验,数据校验通过后确定是否开启文本记录模式。若开启文本记录模式,则服务器可以对终端上传的语音进行语音识别处理,如可以调用语音识别平台接口,如调用翻译君平台接口,对实时语音进行识别翻译,并将实时翻译的数据填充至音频流的拓展数据中返回给终端进行展示。
如图33所示,在会议会话开启文本记录模式后,终端采集用户在会议会话中的音频数据,并将音频数据组装成信令数据发送至服务器,服务器接收终端上传的上行音频流,对音频数据进行处理,如过滤、校验等处理,服务器从音频数据中确定语音识别处理所需的数据,并将语音识别处理所需的数据发送至语音识别平台,具体可以通过https请求方式将语音识别处理所需的数据发送至语音识别平台。语音识别平台对接收的音频数据进行处理后进行语音识别处理,得到语音识别文本并将语音识别文本返回至服务器,具体可以通过https请求回包方式将语音识别文本进行返回。服务器将得到的语音识别文本填充至音频流的拓展数据中,以将语音识别文本与音频流返回给终端,终端可以从拓展数据中提取到语音识别文本并展示。终端不直接和语音识别平台交互,由服务器与语音识别平台进行交互,如可以由qq客户端的后台服务器QQ server直接和语音识别平台交互,并将结果返回给终端。
进一步地,在会议会话的会话界面中左滑可以触发打开文字记录页,记录页为web页面,文本记录可以进行分享,具体可以通过富媒体消息进行分享。文字记录页由web实现,可以支持各种版本的客户端。服务器在检测到某一个用户在2s内都没音频流,便识别成一句话,记录下语音识别文本,而文字记录页是由web实现,文字记录页可以定时2s向服务器请求是否存在新数据,即是否存在新的文本记录,每个用户语音的语音识别文本都分配有对应的序列号seq,文字记录页web在请求时携带当前本地数据对应的序列号seq,如果服务器的序列号seq大于终端上报的序列号seq,则服务器将新数据返回给终端,即将新的语音识别文本返回至终端。在QQ客户端中,每条文本记录的信息保存信息可以如下:
unit64 meetting; //会议码,对应于群组ID
unit64 qq_code; //当前文本记录对应的成员标识
std::string qq_name; //当前文本记录对应的成员名称
std::string message; //当前文本记录中的语音识别文本
unit64 seq; //当前文本记录中的语音识别文本的序列号
unit64 start_time_stamp; //语音识别文本对应语音的开始时间戳
unit64 end_time_stamp; //语音识别文本对应语音的结束时间戳
当用户开启文本记录模式后,服务器录制当前的音频,对于用户上行的音频流最终整合成一个大的音频流,每个文字记录页对应的语音可以根据开始和结束时间戳,从最终音频流截取对应的音频得到。即语音识别文本对应语音的开始时间戳和结束时间戳,分别对应于语音识别文本对应语音在录制音频流中的时间戳。
如图34所示,服务器间隔100ms(毫秒)检测当前上行音频流状态,如果某一个用户的上行音频流在2s都没有音频数据,代表一句话完成,需要形成一条文本记录,并将对应的文本记录保存,具体可以通过统一的文本记录中心对文本记录进行管理,文本记录中心可以为服务器的数据库。其中,与会议记录相关的数据都将由文本记录中心进行管理,用户打开的web查看的文字记录列表的数据也从文本记录中心中获取。如图35所示,文字记录页也就是web,从服务器的文本记录中心获取文本记录时,每次中心返回50条数据,每次web请求的时携带序列号seq参数,用来表示已获取到文本记录的序列号seq,如果文本记录中心存在大于序列号seq的数据,则需要返回更多的数据给终端。文字记录页定时2s向服务器的文本记录中心请求文本记录数据,从而不断刷新本地的文本记录列表。具体地,终端向服务器的文本记录中心发送文本记录获取请求,文本记录中心确定请求的会议会话的会议码和客户端序列号client_seq,根据会议码确定最大服务器序列号server_seq,判断server_seq是否大于client_seq,若否,则表明文本记录已拉取完成;若是,则判断server_seq与client_seq的差值是否超过50,若是,则将序列号为client_seq+50以内的文本记录返回;若否,则将剩余所有文本记录返回,即将所有序列号大于client_seq的文本记录返回,终端接收到返回的文本记录进行刷新显示。
进一步地,会议会话的文本记录模式还支持在会议结束后,发送会议记录至对应的临时群会话中,以供用户查看会议会话整个会议文本记录,同时还支持用户自行选择的会议记录,会议结束后也可以发给用户自己,在会议记录web中用户可左滑保存该会议文字,该会议文字保存状态与用户关联,当用户左滑保存时发送请求保存信令。临时群会话可以为包括参会者的群组,群组可以基于公共的聊天窗口组件实现,公共的聊天窗口组件是AIO(All In One)模式,可以实现群组中不同会话共享,群组中用户的输入和点击等各种操作认为为一致的。例如,在QQ客户端,基于公共的聊天窗口组件,用户可以参与到好友、群组、公众账号等众多不同类型的会话,同时不同的会话也可以共享聊天窗口组件,进一步提高了用户统一的交互体验。在QQ客户端中,会议记录保存时对应保存数据结构如下:
unit64 meetting; //会议码,对应于群组ID
unit64 qq_code; //保存对话的成员标识
unit64 seq; //保存的文本记录的序列号
其中,qq_code对应保存文字的操作者的qq号。会议结束后,向会议会话对应的临时群组发送的会议记录,可以从原保存的数据中根据meeting_code过滤出所有的数据,而用户保存的会议记录可以根据meeting_code和qq_code过滤中保存文本记录的所有序列号seq,然后再根据meeting_code和seq获取对应的文本记录,从而可以获得用户所有保存的文本记录。当会议结束,服务器主动给客户端push(推送)文本消息,文本消息为以ark实现的富媒体消息,富媒体消息为打开网页类型的消息,当用户点击富媒体消息,对应打开一个web,其中,发送给会议会话的群组和发送给用户自身的富媒体消息中的打开url(UniformResource Locator,统一资源定位器)有所区分,如果push至临时群会话,其中qq_code为空,即值为0,而push给用户的特有的会议记录的qq_code是用户对应的qq号。
进一步地,会议记录中主要包括主题和参与者信息,以及对应的记录的会话内容列表。在发给临时群会话中的会议纪要是所有的会议记录的会话内容,客户端显示列表是用web实现,在web中展示会话列表,而单独给用户发的会议纪要由用户保存。如图36所示,用户可以单独编辑会议记录内容,即对文本记录中的语音识别文本进行编辑处理,由于每一条会议记录内容都是独立存在,可以根据meeting_code和seq找到对应的内容,只要对该条记录编辑即可。在web拉取会议记录内容列表,每一条内容都会有对应的seq信息,当用户编辑该内容时,终端向会议纪要管理中心请求更新,携带序列号seq用以识别更新哪一条会议记录内容。具体地,用户在终端触发编辑会议记录中的各文本记录时,将组装的信令数据发送至服务器的文本记录中心,文本记录中心获取会议码和需要编辑的文本记录的序列号seq,分别判断会议码和序列号seq对应的文本记录是否存在,若不存在则编辑更新失败。若存在,则根据会议码和序列号seq查询对应的文本记录进行编辑更新,返回编辑更新结果至终端。
进一步地,在会议结束后,会给临时群会话发一条会议记录的富媒体消息,同时如果用户保存了文本记录,也会生成根据用户保存单独对应的会议记录,在会议结束后会单独发给该用户。其中会议记录消息都是富媒体消息,在QQ客户端中可以通过qq平台中的ark消息实现,QQ对应的服务器在发消息时是组装一个ark消息发出去,该ark消息是打开内嵌网页的消息,是qq平台上已支持的消息格式,实现时主要拼装一个ark的json数据,数据内容如下:
{
“title”:“会议记录标题”,
“sub_title”:“富媒体消息副标题(参会成员信息)”,
“url”:“http://openurl?meeting_code=xxx&qq_code=xxx”,
}
其中,url表示用户点击该消息时打开内嵌网页的url,其中url打开的web的就是会议文本记录列表,会议文本记录列表中包括会议会话中的所有文本记录,逻辑统一由web实现。通过富媒体消息,可以兼容各种版本的客户端。
进一步地,如图37所示,当用户开启了会议会话的文本记录模式,服务器同时进行会议语音录制,将会议会话中的语音录制成一个大的语音文件,每一条会议记录内容信息里会有对应的音频文件的开始时间戳和结束时间戳,当用户长按内容,可以从文本记录中心请求对应的语音文件,并返回给终端,终端可以播放对应的语音文件。会议记录中包含了音视频通话的基本信息和记录的会话内容,由于语音识别有一定误差,用户可以对会议记录的主题和内容进行编辑。用户可以长按会议记录内容,如长按会议记录中的语音识别文本,收听语音识别时对应的语音片段。如图38所示,用户可以通过长按文本记录,将组装的信令数据发送至服务器的文本记录中心,文本记录中获取会议码和时间戳,根据会议码获取会议会话对应的音频文件,并根据时间戳从会议会话的音频文件中截取音频文件,将截取的音频文件返回至终端,终端可以播放截取的音频文件,从而实现在终端收听文本记录对应的语音。
进一步地,如图39所示,会议记录方法还支持线下会议,线下会议时先创建临时群会话,参数会议的人可通过临时群会话ID或者邀请进入临时会话中,同时服务器根据临时群会话的ID创建音视频通话媒体房间,即创建一个会议会话。具体地,终端触发线下会议时,将创建线下会议的线下会议信令数据上传至服务器,服务器处理线下会议信令数据,如从线下会议信令数据中确定线下会议参数,服务器创建临时群会话,并根据临时群会话创建会议会话,用户可以加入该会议会话,终端可以进入线下会议会话的界面。如图40所示,为便于识别用户的语音,在开启会议纪要,即开启文本记录模式时,需要对用户的语音做识别验证,确保语音识别处理的准确性,只有用户都匹配上对应的语音,才可以开启会议纪要成功,其作为开启会议纪要的前提条件。具体地,当用户点击开启会议时,触发文本记录模式时,终端向服务器请求声纹识别信令,服务器返回组装的声纹识别信息,具体可以包括几段声音,以进行声纹录入。其中,是否开启声纹识别,由服务器返回数据进行控制,如果需要声纹识别,会返回响应的声纹识别信息,在终端展示声纹识别的界面UI(User Interface,图形界面)。用户可以基于声纹识别界面进行语音录入,终端采集音频数据,并将采集的音频数据发送至服务器进行语音识别,得到对应的语音识别文本,在语音识别文本与声纹识别信息匹配一致时,服务器开启文本记录模式,并将开启结果反馈至终端。进一步地,若服务器未开启声纹识别,则可以直接开启文本记录模式,若服务器开启了声纹识别,那么只有识别成功,才能够触发文本记录模式的开启,以实现文本记录模式的功能。
本实施例中,用户在音视频会议中可开启实时文本记录功能,开启后音视频会议中用户的语音会被实时转换成文字。会议结束后,会议中所有的文本记录会发送到参会者所在的群组中。用户可对群组中的会议记录进行编辑和分享,也可长按会议记录中的语句收听对应的语音。如今在远程办公日益普及,传统音视频沟通中难以让用户记录其中的重要信息,本实施例在不干扰用户正常音视频会议的同时,可以协助用户方便的以文字的形式记录会议内容,提高了会议记录的处理效率,同时确保了远程会议的沟通效率。
应该理解的是,虽然图2、7、17-18及31-40的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、7、17-18及31-40中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图41所示,提供了一种会议记录处理装置4100,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:文本记录区域显示模块4102、成员标志显示模块4104和识别文本显示模块4106,其中:
文本记录区域显示模块4102,用于响应于会议会话触发操作,进入会议会话,并在会议会话处于文本记录模式时,显示会议文本记录区域;
成员标志显示模块4104,用于在会议文本记录区域中,按照会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志;
识别文本显示模块4106,用于对应于每个成员标志,显示每个成员标志所对应的参会成员发出的语音所对应的语音识别文本。
在一个实施例中,还包括会议记录显示模块,用于当会议会话结束后,在包括参会成员的群组中,显示会议记录;会议记录包括会议会话中发出的语音对应的语音识别文本和对应参会成员的成员标志。
在一个实施例中,还包括会议纪要区域显示模块、描述信息显示模块和语音识别文本显示模块;其中:会议纪要区域显示模块,用于响应于对会议记录的会议记录触发操作,显示会议纪要区域;描述信息显示模块,用于在会议纪要区域中的会议信息区域,显示会议会话对应的格式化描述信息;语音识别文本显示模块,用于在会议纪要区域中的会议内容区域,显示会议会话中发出的语音对应的格式化语音识别文本和对应参会成员的成员标志。
在一个实施例中,成员标志显示模块4104,还用于在会议文本记录区域中,按照会议会话的参会成员发出语音的顺序,依次显示包括发出语音的参会成员所对应图像标识的成员标志;
在一个实施例中,语音识别文本显示模块,还用于在会议纪要区域中的会议内容区域,按照参与参会成员发出语音的顺序,依次显示发出语音的参会成员的文本标志;对应于每个文本标志,显示每个文本标志所对应的参会成员发出的语音所对应的格式化语音识别文本。
在一个实施例中,还包括语音播放区域显示模块和播放信息显示模块;其中:语音播放区域显示模块,用于响应于对会议内容区域中选中的目标格式化语音识别文本触发的语音播放操作,显示语音播放区域并播放目标格式化语音识别文本对应的语音;播放信息显示模块,用于在语音播放区域中,显示目标格式化语音识别文本和目标格式化语音识别文本对应语音的播放进度。
在一个实施例中,还包括编辑操作区域显示模块、可编辑会议记录显示模块和编辑结果显示模块;其中:编辑操作区域显示模块,用于响应于对会议记录触发的编辑触发操作,显示会议记录对应的编辑操作区域;可编辑会议记录显示模块,用于在编辑操作区域中,显示处于编辑状态的会议记录;编辑结果显示模块,用于响应于对处于编辑状态的会议记录触发的编辑操作,显示通过编辑操作获得的会议记录。
在一个实施例中,可编辑会议记录显示模块,还用于在编辑操作区域的第一编辑操作区域,显示会议记录所对应的会议主题编辑信息;在编辑操作区域的第二编辑操作区域,显示会议会话中发出的语音对应的语音识别文本的识别文本编辑信息。
在一个实施例中,还包括转发对象显示模块和转发结果显示模块;其中:转发对象显示模块,用于响应于对会议记录触发的转发操作,显示转发对象列表;转发结果显示模块,用于响应于在转发对象列表中触发的选择操作,选中目标转发对象,显示将会议记录转发至目标转发对象的转发结果。
在一个实施例中,文本记录区域显示模块4102包括成员信息显示模块、界面切换模块和文本记录界面模块;其中:成员信息显示模块,用于在会议会话处于文本记录模式时,在会议会话的会话界面中,显示会议会话的参会成员对应的成员信息;界面切换模块,用于响应于在会话界面中触发的界面切换操作,进入文本记录界面;文本记录界面模块,用于在文本记录界面中,显示会议文本记录区域。
在一个实施例中,还包括实时文本显示模块,用于在会话界面中,显示会议会话中实时语音所对应的实时语音识别文本,以及语音识别进度信息;在文本记录界面中,显示实时语音识别文本和语音识别进度信息。
在一个实施例中,还包括存储标记显示模块和存储会议记录显示模块;其中:存储标记显示模块,用于响应于对语音识别文本触发的文本存储操作,在语音识别文本关联的存储结果标记区域,显示语音识别文本对应的存储标记;存储会议记录显示模块,用于当会议会话结束后,在单人会话窗口中,显示包括存储标记所对应的语音识别文本的存储会议记录。
在一个实施例中,还包括声纹录入区域显示模块、声纹录入结果显示模块和文本记录模式触发模块;其中:声纹录入区域显示模块,用于响应于对会议会话的线下文本记录触发操作,显示声纹录入区域;声纹录入结果显示模块,用于响应于对声纹录入区域触发的声纹录入操作,显示声纹录入操作的声纹录入结果;文本记录模式触发模块,用于当声纹录入结果表示录入的声纹数据与参会成员匹配成功时,触发会议会话进入文本记录模式。
在一个实施例中,还包括文本记录模式开启模块,用于当会议会话配置为开启文本记录模式时,设定会议会话进入文本记录模式;或响应于在会议会话的会话界面中触发的文本记录模式触发操作,设定会议会话进入文本记录模式;或当会议会话满足文本记录模式提示条件时,显示模式提示信息;响应于对模式提示信息的触发操作,设定会议会话进入文本记录模式。
在一个实施例中,还包括参会成员数确定模块、提示模块和模式开启请求模块;其中:参会成员数确定模块,用于确定会话会议的参会成员数;提示模块,用于当参会成员数大于模式提示阈值时,发出模式提示信息;模式提示信息用于提示参会成员开启文本记录模式;模式开启请求模块,用于当接收到对模式提示信息的触发指令时,向服务器发送模式开启请求,模式开启请求用于请求服务器设定会议会话进入文本记录模式。
在一个实施例中,如图42所示,提供了一种会议记录处理装置4200,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:音频数据获取模块4202、音频数据处理模块4204、语音文本记录获取模块4206和语音文本记录下发模块4208,其中:
音频数据获取模块4202,用于当会议会话处于文本记录模式时,获取会议会话的音频数据;
音频数据处理模块4204,用于基于音频数据进行身份识别,识别出会议会话中发出语音的参会成员的成员标识,并对语音进行语音识别得到对应的语音识别文本;
语音文本记录获取模块4206,用于获取语音文本记录,语音文本记录包括成员标识、语音识别文本和采用递增分配方式为语音识别文本分配的序列号;序列号表示参会成员发出语音的顺序;
语音文本记录下发模块4208,用于向会议会话的参会成员对应的终端发送语音文本记录;语音文本记录,用于指示终端按照序列号排序对应显示成员标识对应的成员标志及语音识别文本。
在一个实施例中,还包括会议语音文本记录获取模块、会议记录消息获得模块和会议记录消息发送模块;其中:会议语音文本记录获取模块,用于当检测到会议会话结束时,获取会议会话的会议标识对应的会议语音文本记录;会议记录消息获得模块,用于根据会议语音文本记录中的各语音文本记录,得到会议会话的会议记录消息;会议记录消息发送模块,用于根据会议会话的会议标识确定包括参会成员的群组,并将会议记录消息发送至群组中。
在一个实施例中,还包括编辑指令接收模块、待编辑文本确定模块和文本编辑模块;其中:编辑指令接收模块,用于当接收到对会议记录消息触发的文本记录编辑指令时,根据文本记录编辑指令确定待编辑的目标会议标识和目标序列号;待编辑文本确定模块,用于从目标会议标识对应的会议语音文本记录中,确定与目标序列号对应的待编辑语音识别文本;文本编辑模块,用于基于文本记录编辑指令对待编辑语音识别文本进行编辑,并根据编辑后的语音识别文本更新对应的语音文本记录。
在一个实施例中,还包括转发对象确定模块和消息转发模块;其中:转发对象确定模块,用于当接收到对会议记录消息触发的文本记录转发指令时,根据文本记录转发指令确定转发对象;消息转发模块,用于将会议记录消息转发至转发对象对应的终端。
在一个实施例中,语音文本记录还包括语音对应的端点时间信息;还包括音频数据融合模块、语音播放指令接收模块、端点时间信息确定模块和语音获取模块;其中:音频数据融合模块,用于将会议会话的音频数据进行融合,得到会议会话的会议音频流;语音播放指令接收模块,用于当接收到目标参会成员对会议记录消息中的语音识别文本触发的语音播放指令时,确定语音播放指令指定的语音识别文本对应的目标序列号;端点时间信息确定模块,用于从会议标识对应的会议语音文本记录中,确定目标序列号对应的目标端点时间信息;语音获取模块,用于根据目标端点时间信息从会议音频流中,获取目标序列号对应的目标语音数据,并发送目标语音数据至目标参会成员对应的终端。
在一个实施例中,语音文本记录获取模块4206包括客户端序列号确定模块、最新序列号确定模块和语音文本记录提取模块;其中:客户端序列号确定模块,用于确定会议会话的会议标识和客户端文本序列号;最新序列号确定模块,用于确定会议标识对应的会议语音文本记录中的最新序列号;语音文本记录提取模块,用于当最新序列号大于客户端文本序列号时,从会议语音文本记录中,获取序列号大于客户端文本序列号的语音文本记录。
在一个实施例中,音频数据处理模块4204,还用于当语音满足语音识别触发条件时,对语音进行语音识别得到对应的语音识别文本;还包括序列号分配模块和语音文本记录生成模块;其中:序列号分配模块,用于确定会议会话的会议标识,并采用递增分配方式为语音识别文本分配序列号;语音文本记录生成模块,用于根据会议标识、成员标识、语音识别文本和序列号,生成会议会话对应的语音文本记录。
在一个实施例中,还包括存储序列号确定模块、存储文本获取模块和存储文本消息发送模块;其中:存储序列号确定模块,用于当接收到目标参会成员发送的文本存储指令时,确定文本存储指令指定的存储序列号;存储文本获取模块,用于当检测到会议会话结束时,从会议会话对应的会议语音文本记录中,获取与存储序列号对应的语音文本记录;存储文本消息发送模块,用于基于与存储序列号对应的语音文本记录得到存储会议记录消息,并发送存储会议记录消息至目标参会成员对应的终端。
在一个实施例中,还包括声纹识别信息发送模块、声纹数据处理模块、身份匹配模块和匹配成功触发模块;其中:声纹识别信息发送模块,用于当会议会话为线下会议会话类型、且接收到终端发送的文本记录触发指令时,向终端发送声纹识别信息;声纹识别信息用于指示终端根据声纹识别信息上传待识别的声纹数据;声纹数据处理模块,用于接收由终端上传的待识别的声纹数据,并对待识别的声纹数据分别进行语音识别,得到声纹识别文本;身份匹配模块,用于基于声纹数据与各参会成员进行身份匹配,得到身份匹配结果;匹配成功触发模块,用于当声纹识别文本与声纹识别信息匹配一致、且身份匹配结果为匹配成功时,设定会议会话进入文本记录模式。
在一个实施例中,还包括群组建立模块和会议会话创建模块;其中:群组建立模块,用于当接收到线下会议触发指令时,创建线下会议会话群组;会议会话创建模块,用于将各参会成员添加至线下会议会话群组中,并基于线下会议会话群组的群组标识创建会议会话。
关于会议记录处理装置的具体限定可以参见上文中对于会议记录处理方法的限定,在此不再赘述。上述会议记录处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图43所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种会议记录处理方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图44所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种会议记录处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图43和图44中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (20)
1.一种会议记录处理方法,其特征在于,所述方法包括:
响应于会议会话触发操作,进入会议会话,并在所述会议会话处于文本记录模式时,显示会议文本记录区域;
在所述会议文本记录区域中,按照所述会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志;
对应于每个所述成员标志,显示每个所述成员标志所对应的参会成员发出的语音所对应的语音识别文本。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当所述会议会话结束后,在包括所述参会成员的群组中,显示会议记录;所述会议记录包括所述会议会话中发出的语音对应的语音识别文本和对应参会成员的成员标志。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
响应于对所述会议记录的会议记录触发操作,显示会议纪要区域;
在所述会议纪要区域中的会议信息区域,显示所述会议会话对应的格式化描述信息;
在所述会议纪要区域中的会议内容区域,显示所述会议会话中发出的语音对应的格式化语音识别文本和对应的参会成员的成员标志。
4.根据权利要求3所述的方法,其特征在于,所述在所述会议文本记录区域中,按照所述会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志,包括:
在所述会议文本记录区域中,按照所述会议会话的参会成员发出语音的顺序,依次显示包括发出语音的参会成员所对应图像标识的成员标志;
所述在所述会议纪要区域中的会议内容区域,显示所述会议会话中发出的语音对应的格式化语音识别文本和对应的参会成员的成员标志,包括:
在所述会议纪要区域中的会议内容区域,按照参与所述参会成员发出语音的顺序,依次显示发出语音的参会成员的文本标志;
对应于每个所述文本标志,显示每个所述文本标志所对应的参会成员发出的语音所对应的格式化语音识别文本。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
响应于对所述会议内容区域中选中的目标格式化语音识别文本触发的语音播放操作,显示语音播放区域并播放所述目标格式化语音识别文本对应的语音;
在所述语音播放区域中,显示所述目标格式化语音识别文本和所述目标格式化语音识别文本对应语音的播放进度。
6.根据权利要求1所述的方法,其特征在于,所述在所述会议会话处于文本记录模式时,显示会议文本记录区域包括:
在所述会议会话处于文本记录模式时,在所述会议会话的会话界面中,显示所述会议会话的参会成员对应的成员信息;
响应于在所述会话界面中触发的界面切换操作,进入文本记录界面;
在所述文本记录界面中,显示会议文本记录区域。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
在所述会话界面中,显示所述会议会话中实时语音所对应的实时语音识别文本,以及语音识别进度信息;
在所述文本记录界面中,显示所述实时语音识别文本和所述语音识别进度信息。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
响应于对所述语音识别文本触发的文本存储操作,在所述语音识别文本关联的存储结果标记区域,显示所述语音识别文本对应的存储标记;
当所述会议会话结束后,在单人会话窗口中,显示包括所述存储标记所对应的语音识别文本的存储会议记录。
9.根据权利要求1至8任意一项所述的方法,其特征在于,所述会议会话为线下会议会话类型;在所述响应于会议会话触发操作,进入会议会话之后,还包括:
响应于对所述会议会话的线下文本记录触发操作,显示声纹录入区域;
响应于对所述声纹录入区域触发的声纹录入操作,显示所述声纹录入操作的声纹录入结果;
当所述声纹录入结果表示录入的声纹数据与所述参会成员匹配成功时,触发所述会议会话进入文本记录模式。
10.根据权利要求1至9任意一项所述的方法,其特征在于,在所述响应于会议会话触发操作,进入会议会话之后,还包括:
当所述会议会话配置为开启文本记录模式时,设定所述会议会话进入文本记录模式;或
响应于在所述会议会话的会话界面中触发的文本记录模式触发操作,设定所述会议会话进入文本记录模式;或
当所述会议会话满足文本记录模式提示条件时,显示模式提示信息;响应于对所述模式提示信息的触发操作,设定所述会议会话进入文本记录模式。
11.一种会议记录处理方法,其特征在于,所述方法包括:
当会议会话处于文本记录模式时,获取所述会议会话的音频数据;
基于所述音频数据进行身份识别,识别出所述会议会话中发出语音的参会成员的成员标识,并对所述语音进行语音识别得到对应的语音识别文本;
获取语音文本记录,所述语音文本记录包括所述成员标识、所述语音识别文本和采用递增分配方式为所述语音识别文本分配的序列号;所述序列号表示所述参会成员发出语音的顺序;
向所述会议会话的参会成员对应的终端发送所述语音文本记录;所述语音文本记录,用于指示所述终端按照所述序列号排序对应显示所述成员标识对应的成员标志及所述语音识别文本。
12.根据权利要求11所述的方法,其特征在于,所述方法还包括:
当检测到所述会议会话结束时,获取所述会议会话的会议标识对应的会议语音文本记录;
根据所述会议语音文本记录中的各语音文本记录,得到所述会议会话的会议记录消息;
根据所述会议会话的会议标识确定包括所述参会成员的群组,并将所述会议记录消息发送至所述群组中。
13.根据权利要求12所述的方法,其特征在于,在所述获取所述会议会话的音频数据之后,还包括:
将所述会议会话的音频数据进行融合,得到所述会议会话的会议音频流;
所述语音文本记录还包括所述语音对应的端点时间信息;在所述将所述会议记录消息发送至所述群组中之后,还包括:
当接收到目标参会成员对所述会议记录消息中的语音识别文本触发的语音播放指令时,确定所述语音播放指令指定的语音识别文本对应的目标序列号;
从所述会议标识对应的会议语音文本记录中,确定所述目标序列号对应的目标端点时间信息;
根据所述目标端点时间信息从所述会议音频流中,获取所述目标序列号对应的目标语音数据,并发送所述目标语音数据至所述目标参会成员对应的终端。
14.根据权利要求11至13任意一项所述的方法,其特征在于,所述获取语音文本记录包括:
确定所述会议会话的会议标识和客户端文本序列号;
确定所述会议标识对应的会议语音文本记录中的最新序列号;
当所述最新序列号大于所述客户端文本序列号时,从所述会议语音文本记录中,获取序列号大于所述客户端文本序列号的语音文本记录。
15.根据权利要求11至13任意一项所述的方法,其特征在于,所述方法还包括:
当接收到目标参会成员发送的文本存储指令时,确定所述文本存储指令指定的存储序列号;
当检测到所述会议会话结束时,从所述会议会话对应的会议语音文本记录中,获取与所述存储序列号对应的语音文本记录;
基于与所述存储序列号对应的语音文本记录得到存储会议记录消息,并发送所述存储会议记录消息至所述目标参会成员对应的终端。
16.根据权利要求11至13任意一项所述的方法,其特征在于,在所述当会议会话处于文本记录模式时,获取所述会议会话的音频数据之前,还包括:
当所述会议会话为线下会议会话类型、且接收到终端发送的文本记录触发指令时,向所述终端发送声纹识别信息;所述声纹识别信息用于指示所述终端根据所述声纹识别信息上传待识别的声纹数据;
接收由所述终端上传的待识别的声纹数据,并对所述待识别的声纹数据分别进行语音识别,得到声纹识别文本;
基于所述声纹数据与各所述参会成员进行身份匹配,得到身份匹配结果;
当所述声纹识别文本与所述声纹识别信息匹配一致、且所述身份匹配结果为匹配成功时,设定所述会议会话进入文本记录模式。
17.一种会议记录处理装置,其特征在于,所述装置包括:
文本记录区域显示模块,用于响应于会议会话触发操作,进入会议会话,并在所述会议会话处于文本记录模式时,显示会议文本记录区域;
成员标志显示模块,用于在所述会议文本记录区域中,按照所述会议会话的参会成员发出语音的顺序,依次显示发出语音的参会成员的成员标志;
识别文本显示模块,用于对应于每个所述成员标志,显示每个所述成员标志所对应的参会成员发出的语音所对应的语音识别文本。
18.一种会议记录处理装置,其特征在于,所述装置包括:
音频数据获取模块,用于当会议会话处于文本记录模式时,获取所述会议会话的音频数据;
音频数据处理模块,用于基于所述音频数据进行身份识别,识别出所述会议会话中发出语音的参会成员的成员标识,并对所述语音进行语音识别得到对应的语音识别文本;
语音文本记录获取模块,用于获取语音文本记录,所述语音文本记录包括所述成员标识、所述语音识别文本和采用递增分配方式为所述语音识别文本分配的序列号;所述序列号表示所述参会成员发出语音的顺序;
语音文本记录下发模块,用于向所述会议会话的参会成员对应的终端发送所述语音文本记录;所述语音文本记录,用于指示所述终端按照所述序列号排序对应显示所述成员标识对应的成员标志及所述语音识别文本。
19.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至16中任一项所述的方法的步骤。
20.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至16中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110154350.3A CN113014732B (zh) | 2021-02-04 | 2021-02-04 | 会议记录处理方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110154350.3A CN113014732B (zh) | 2021-02-04 | 2021-02-04 | 会议记录处理方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113014732A true CN113014732A (zh) | 2021-06-22 |
CN113014732B CN113014732B (zh) | 2022-11-11 |
Family
ID=76385060
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110154350.3A Active CN113014732B (zh) | 2021-02-04 | 2021-02-04 | 会议记录处理方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113014732B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643685A (zh) * | 2021-08-18 | 2021-11-12 | 百度在线网络技术(北京)有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
CN113901011A (zh) * | 2021-10-19 | 2022-01-07 | 广东互视达电子科技有限公司 | 一种无纸化智能会议管理方法和系统 |
CN114443201A (zh) * | 2022-01-29 | 2022-05-06 | 北京字跳网络技术有限公司 | 消息展示方法、装置、设备及存储介质 |
CN114629869A (zh) * | 2022-03-18 | 2022-06-14 | 维沃移动通信有限公司 | 信息生成方法、装置、电子设备及存储介质 |
CN114970469A (zh) * | 2022-07-14 | 2022-08-30 | 北京中电慧声科技有限公司 | 基于声文同步离线编辑的会议纪要处理方法及系统 |
CN115002394A (zh) * | 2022-05-27 | 2022-09-02 | 中移互联网有限公司 | 基于5g消息的多方会议方法、装置及电子设备 |
CN115047999A (zh) * | 2022-07-27 | 2022-09-13 | 北京字跳网络技术有限公司 | 界面切换方法、装置、电子设备、存储介质及程序产品 |
CN115426434A (zh) * | 2022-08-15 | 2022-12-02 | 北京达佳互联信息技术有限公司 | 数据处理方法、设备及存储介质 |
CN116600166A (zh) * | 2023-05-26 | 2023-08-15 | 武汉星巡智能科技有限公司 | 基于音频分析的视频实时剪辑方法、装置及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388701A (zh) * | 2018-08-17 | 2019-02-26 | 深圳壹账通智能科技有限公司 | 会议记录生成方法、装置、设备和计算机存储介质 |
CN110298252A (zh) * | 2019-05-30 | 2019-10-01 | 平安科技(深圳)有限公司 | 会议纪要生成方法、装置、计算机设备及存储介质 |
CN110493019A (zh) * | 2019-07-05 | 2019-11-22 | 深圳壹账通智能科技有限公司 | 会议纪要的自动生成方法、装置、设备及存储介质 |
CN111193890A (zh) * | 2018-11-14 | 2020-05-22 | 株式会社理光 | 会议记录解析装置、方法和会议记录播放系统 |
-
2021
- 2021-02-04 CN CN202110154350.3A patent/CN113014732B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109388701A (zh) * | 2018-08-17 | 2019-02-26 | 深圳壹账通智能科技有限公司 | 会议记录生成方法、装置、设备和计算机存储介质 |
CN111193890A (zh) * | 2018-11-14 | 2020-05-22 | 株式会社理光 | 会议记录解析装置、方法和会议记录播放系统 |
CN110298252A (zh) * | 2019-05-30 | 2019-10-01 | 平安科技(深圳)有限公司 | 会议纪要生成方法、装置、计算机设备及存储介质 |
CN110493019A (zh) * | 2019-07-05 | 2019-11-22 | 深圳壹账通智能科技有限公司 | 会议纪要的自动生成方法、装置、设备及存储介质 |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113643685A (zh) * | 2021-08-18 | 2021-11-12 | 百度在线网络技术(北京)有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
CN113901011A (zh) * | 2021-10-19 | 2022-01-07 | 广东互视达电子科技有限公司 | 一种无纸化智能会议管理方法和系统 |
WO2023143299A1 (zh) * | 2022-01-29 | 2023-08-03 | 北京字跳网络技术有限公司 | 消息展示方法、装置、设备及存储介质 |
CN114443201A (zh) * | 2022-01-29 | 2022-05-06 | 北京字跳网络技术有限公司 | 消息展示方法、装置、设备及存储介质 |
CN114629869A (zh) * | 2022-03-18 | 2022-06-14 | 维沃移动通信有限公司 | 信息生成方法、装置、电子设备及存储介质 |
CN114629869B (zh) * | 2022-03-18 | 2024-04-16 | 维沃移动通信有限公司 | 信息生成方法、装置、电子设备及存储介质 |
CN115002394A (zh) * | 2022-05-27 | 2022-09-02 | 中移互联网有限公司 | 基于5g消息的多方会议方法、装置及电子设备 |
CN114970469A (zh) * | 2022-07-14 | 2022-08-30 | 北京中电慧声科技有限公司 | 基于声文同步离线编辑的会议纪要处理方法及系统 |
CN115047999A (zh) * | 2022-07-27 | 2022-09-13 | 北京字跳网络技术有限公司 | 界面切换方法、装置、电子设备、存储介质及程序产品 |
CN115426434B (zh) * | 2022-08-15 | 2023-10-31 | 北京达佳互联信息技术有限公司 | 数据处理方法、设备及存储介质 |
CN115426434A (zh) * | 2022-08-15 | 2022-12-02 | 北京达佳互联信息技术有限公司 | 数据处理方法、设备及存储介质 |
CN116600166A (zh) * | 2023-05-26 | 2023-08-15 | 武汉星巡智能科技有限公司 | 基于音频分析的视频实时剪辑方法、装置及设备 |
CN116600166B (zh) * | 2023-05-26 | 2024-03-12 | 武汉星巡智能科技有限公司 | 基于音频分析的视频实时剪辑方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113014732B (zh) | 2022-11-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113014732B (zh) | 会议记录处理方法、装置、计算机设备和存储介质 | |
CN111667811B (zh) | 语音合成方法、装置、设备和介质 | |
CA2770361C (en) | System and method for real time text streaming | |
US11527233B2 (en) | Method, apparatus, device and computer storage medium for generating speech packet | |
KR20170012333A (ko) | 통화 중 번역 | |
US20100061539A1 (en) | Conference call management system | |
CN107430858A (zh) | 传送标识当前说话者的元数据 | |
CN105554027A (zh) | 资源分享方法和装置 | |
US20140028780A1 (en) | Producing content to provide a conversational video experience | |
CN112423081B (zh) | 一种视频数据处理方法、装置、设备及可读存储介质 | |
US20140208213A1 (en) | Synchronization of contextual templates in a customized web conference presentation | |
TW201540115A (zh) | 通訊事件歷史 | |
CN115735357A (zh) | 用于电话会议讨论的投票问题 | |
CN111556279A (zh) | 即时会话的监控方法和通信方法 | |
CN111639503A (zh) | 会议数据处理方法、装置、存储介质及设备 | |
CN111294606A (zh) | 直播处理方法、装置、直播客户端及介质 | |
CN111870935A (zh) | 业务数据处理方法、装置、计算机设备以及存储介质 | |
CN111756930A (zh) | 通信控制方法、通信控制装置、电子设备和可读存储介质 | |
CN108364638A (zh) | 一种语音数据处理方法、装置、电子设备和存储介质 | |
US20140129228A1 (en) | Method, System, and Relevant Devices for Playing Sent Message | |
CN114125494A (zh) | 内容审核辅助处理方法、装置及电子设备 | |
CN110601962B (zh) | 消息提示方法、装置、终端及存储介质 | |
US11318373B2 (en) | Natural speech data generation systems and methods | |
KR20230102753A (ko) | 아바타를 통해 영상의 음성을 수어로 통역하는 방법, 컴퓨터 장치, 및 컴퓨터 프로그램 | |
KR101595856B1 (ko) | 3d 캐릭터 기반 음성 sns 시스템 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40047303 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |