CN110444197B - 基于同声传译的数据处理方法、装置、系统和存储介质 - Google Patents
基于同声传译的数据处理方法、装置、系统和存储介质 Download PDFInfo
- Publication number
- CN110444197B CN110444197B CN201910746171.1A CN201910746171A CN110444197B CN 110444197 B CN110444197 B CN 110444197B CN 201910746171 A CN201910746171 A CN 201910746171A CN 110444197 B CN110444197 B CN 110444197B
- Authority
- CN
- China
- Prior art keywords
- text
- user terminal
- simultaneous interpretation
- recognition
- translation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims description 38
- 238000013519 translation Methods 0.000 claims abstract description 149
- 238000012545 processing Methods 0.000 claims abstract description 128
- 238000000034 method Methods 0.000 claims abstract description 71
- 238000012986 modification Methods 0.000 claims description 108
- 230000004048 modification Effects 0.000 claims description 108
- 238000009825 accumulation Methods 0.000 claims description 49
- 238000004590 computer program Methods 0.000 claims description 43
- 230000001360 synchronised effect Effects 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 11
- 238000004891 communication Methods 0.000 claims description 8
- 230000000977 initiatory effect Effects 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 11
- 230000009467 reduction Effects 0.000 description 24
- 238000010586 diagram Methods 0.000 description 20
- 238000005516 engineering process Methods 0.000 description 20
- 230000008569 process Effects 0.000 description 20
- 230000001186 cumulative effect Effects 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000012163 sequencing technique Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000013507 mapping Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 3
- 238000009434 installation Methods 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/32—Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
- G10L2015/0636—Threshold criteria for the updating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Quality & Reliability (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Information Transfer Between Computers (AREA)
- Machine Translation (AREA)
- Telephonic Communication Services (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请涉及人工智能的语音处理技术领域,特别是涉及一种基于同声传译的数据处理方法、装置、系统和存储介质,所述方法包括:获取音频;通过语音模型处理所述音频得到识别文本,以及通过翻译模型处理所述识别文本得到翻译文本;将所述识别文本和所述翻译文本发送至用户终端;接收所述用户终端所反馈的、对所述识别文本和所述翻译文本进行修改后所得到的修改文本;根据所述识别文本和修改所述识别文本所得的修改文本更新所述语音模型,根据所述翻译文本和修改所述翻译文本所得的修改文本更新所述翻译模型。本申请提供的方案可以提高由处理音频所得到的文本的准确性。
Description
本申请是于2018年05月10日提交中国专利局,申请号为201810443090.X,发明名称为“基于同声传译的数据处理方法、装置和存储介质”的分案申请,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及同声传译技术领域,特别是涉及一种基于同声传译的数据处理方法、装置、系统和存储介质。
背景技术
同声传译(Simultaneous Interpretation),简称“同传”,是指在不打断演讲者演讲的情况下,不间断地将演讲内容翻译给观众的翻译方式。目前,世界上95%的国际会议都采用同声传译的方式。
传统的同声传译技术方案中,常用的同声传译方法为:同声传译客户端采集演讲者发出的音频,并对该音频进行降噪处理,将处理后的音频上传到服务器。服务器对接收的音频进行语音识别,并将语音识别的文本翻译为目标语种的文本,然后将语音识别的文本和翻译后的文本展示于同声传译系统的显示屏。
然而,在传统的同声传译技术方案中,当服务器处理语音所得的文本出错时,用户终端无法对出错的文本进行处理和反馈,服务器也无法对出错的文本进行矫正,从而影响了同声传译中文本内容的准确性。
发明内容
基于此,有必要针对同声传译中文本内容的准确性偏低的技术问题,提供一种基于同声传译的数据处理方法、装置、系统和存储介质。
一种基于同声传译的数据处理方法,包括:
获取音频;
通过语音模型处理所述音频得到识别文本,以及通过翻译模型处理所述识别文本得到翻译文本;
将所述识别文本和所述翻译文本发送至用户终端;
接收所述用户终端所反馈的、对所述识别文本和所述翻译文本进行修改后所得到的修改文本;
根据所述识别文本和修改所述识别文本所得的修改文本更新所述语音模型,根据所述翻译文本和修改所述翻译文本所得的修改文本更新所述翻译模型。
一种基于同声传译的数据处理装置,包括:
获取模块,用于获取音频;
处理模块,用于通过语音模型处理所述音频得到识别文本,以及通过翻译模型处理所述识别文本得到翻译文本;
发送模块,用于将所述识别文本和所述翻译文本发送至用户终端;
接收模块,用于接收所述用户终端所反馈的、对所述识别文本和所述翻译文本进行修改后所得到的修改文本;
更新模块,用于根据所述识别文本和修改所述识别文本所得的修改文本更新所述语音模型,根据所述翻译文本和修改所述翻译文本所得的修改文本更新所述翻译模型。
一种同声传译系统,所述系统包括:同声传译客户端、服务器和用户终端;其中:
所述同声传译客户端,用于采集音频,并将所述音频发送至服务器;
所述服务器,用于通过语音模型处理所述音频得到识别文本,以及通过翻译模型处理所述识别文本得到翻译文本,将所述识别文本和所述翻译文本发送至用户终端;
所述用户终端,用于获取与所述识别文本和所述翻译文本对应的修改文本,并将所述修改文本发送至所述服务器;
所述服务器还用于根据所述识别文本和修改所述识别文本所得的修改文本更新所述语音模型,根据所述翻译文本和修改所述翻译文本所得的修改文本更新所述翻译模型。
一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如上述基于同声传译的数据处理方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如上述基于同声传译的数据处理方法的步骤。
上述基于同声传译的数据处理方法、装置、系统和存储介质,通过接收终端反馈的对识别文本和翻译文本修改后所得到的修改文本,实现了当处理音频所得到的识别文本以及通过翻译模型处理所述识别文本得到翻译文本发生修改时,能及时地获得相应的反馈。根据识别文本和修改识别文本所得的修改文本更新语音模型;根据翻译文本和修改翻译文本所得的修改文本更新翻译模型,通过更新后的语音模型对音频进行处理,以及通过更新后的翻译模型对识别文本进行翻译,从而提高了由处理音频所得到的识别文本以及由翻译识别文本所得到的翻译文本的准确性。
附图说明
图1为一个实施例中基于同声传译的数据处理方法的应用环境图;
图2为一个实施例中基于同声传译的数据处理方法的流程示意图;
图3为一个实施例中音频处理和语音识别的步骤的流程示意图;
图4为一个实施例中合并文本与视频,并将合并的内容发送用户终端展示的步骤的流程示意图;
图5为一个实施例中将会议号同步至用户终端的步骤的流程示意图;
图6为一个实施例中更新存储的文本,并向用户终端反馈更新后的文本的步骤的流程示意图;
图7为一个实施例中调整与用户终端的标识对应的权重的步骤的流程示意图;
图8为另一个实施例中基于同声传译的数据处理方法的流程示意图;
图9为一个实施例中同声传译辅助页面的页面示意图;
图10为一个实施例中构建同声传译辅助页面的步骤的流程示意图;
图11为一个实施例中对本地存储的文本进行更新的步骤的流程示意图;
图12为另一个实施例中基于同声传译的数据处理方法的流程示意图;
图13为又一个实施例中基于同声传译的数据处理方法的流程示意图;
图14为一个实施例中传统同声传译系统的结构示意图;
图15为一个实施例中应用于基于同声传译的数据处理方法的同声传译系统的结构示意图;
图16为一个实施例中基于同声传译的数据处理方法的时序图;
图17为一个实施例中基于同声传译的数据处理装置的结构框图;
图18为另一个实施例中基于同声传译的数据处理装置的结构框图;
图19为另一个实施例中基于同声传译的数据处理装置的结构框图;
图20为另一个实施例中基于同声传译的数据处理装置的结构框图;
图21为一个实施例中计算机设备的结构框图;
图22为另一个实施例中计算机设备的结构框图。
具体实施方式
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音成为未来最被看好的人机交互方式之一。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的方案涉及人工智能的语音处理技术等技术,具体通过如下实施例进行说明:
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中基于同声传译的数据处理方法的应用环境图。参照图1,该基于同声传译的数据处理方法应用于同声传译系统。该同声传译系统包括用户终端110、服务器120和同声传译客户端130。用户终端110和同声传译客户端130与服务器120通过网络连接。用户终端110具体可以是台式终端或移动终端,该移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现,当为多个服务器时,可以包括语音服务器和翻译服务器。同声传译客户端130可以是具有音频采集功能的终端,如笔记本电脑、携带麦克风的台式电脑等。
如图2所示,在一个实施例中,提供了一种基于同声传译的数据处理方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图2,该基于同声传译的数据处理方法具体包括如下步骤:
S202,获取音频。
其中,音频指的是在同声传译过程中,演讲者在演讲过程中所发出的音频。
在一个实施例中,S202之前,该方法还包括:当接收到用户终端发送的携带用户标识的连接请求时,服务器判断该用户标识是否具有访问同声传译会议的权限。若判定该用户标识具有访问同声传译会议的权限时,服务器建立与用户终端的通信连接。若判定该用户标识不具有访问同声传译会议的权限时,服务器拒绝建立与用户终端的通信连接。其中,该通信连接可以是TCP(Transmission Control Protocol,传输控制协议)连接、UDP(UserDatagram Protocol,用户数据报协议)和websocket连接等。
在一个实施例中,获取音频的方法可以包括:同声传译客户端采集外界发出的音频,并由同声传译客户端将采集的音频发送至服务器,从而服务器获取到音频。或者,当同声传译客户端采集到外界发出的音频时,对音频进行降噪处理,对降噪的音频进行功率放大,并对放大的音频进行语音活动性检测,将非语音部分的音频进行滤除,然后将滤除非语音部分后的音频发送至服务器,从而服务器获取到音频。
S204,通过同声传译模型处理音频得到相应的文本。
其中,同声传译模型用于对所获取到的音频进行处理,如语音识别以及对识别的结果进行翻译等。同声传译模型可以包括语音模型和翻译模型。语音模型包括通用语音模型和辅助语音模型。通用语音模型用于对音频进行语音识别,获得对应的识别文本。辅助语音模型用于对识别文本进行矫正,即当识别文本出现与上次一样的错误时,对出错的地方进行矫正。翻译模型用于对识别文本进行翻译,得到翻译文本。相应的文本指的是识别文本和翻译文本。
处理音频得到相应的文本包括:识别文本和翻译文本。此外,还可以包括对识别文本进行修改后的识别更新文本。识别文本为对音频进行语音识别所得到的文本。翻译文本为对识别文本进行翻译所得到的目标语种的翻译文本,也可称为译文。
在一个实施例中,服务器通过同声传译模型,对所获取到的音频进行语音识别,获得语音识别后的识别文本。服务器通过同声传译模型,对识别文本进行翻译,获得目标语种的翻译文本,将识别文本和翻译文本确定为处理音频所得到的相应的文本。
在一个实施例中,服务器对接收的一段完整语音进行处理,得到对应的文本。其中,一段完整语音可以是预设时长的完整语音,也可以是演讲者从演讲到语句停顿之间的完整语音。例如,演讲者演讲道:“先生们,女士们,大家晚上好。……”。在该语音中,演讲者在说完“大家晚上好”后有一个停顿,那么,该完整语音可以是“先生们,女士们,大家晚上好”。
S206,将文本发送至用户终端。
具体地,服务器将文本发送至用户终端,发送的文本用于指示该用户终端将接收到的文本展示于同声传译辅助页面,以便同声传译会议中的观众可以通过用户终端观看同声传译的文本内容。
在一个实施例中,当服务器每处理完一段音频得到对应的文本之后,服务器将所得的文本发送至用户终端。其中,上述的一段音频可以是:演讲者演讲的一段话,且该段话的时长在一定时间范围内,如一分钟或半分钟等。
在一个实施例中,当服务器每处理完一段音频得到对应的文本之后,确定该对应的文本的字数达到预设字数阈值时,服务器将所得的文本发送至用户终端。
S208,接收用户终端所反馈的、对文本修改后所得到的修改文本。
其中,由于文本可以是识别文本和翻译文本,对应的,修改文本可以是基于识别文本修改所得的文本,也可以是基于翻译文本修改所得的文本。需要说明的是,对文本进行修改可以是对文本中的一个字、或一个词语、或一句话、或该文本整体进行修改。
具体地,服务器接收用户终端所反馈的、对识别文本修改后所得到的修改文本。或者,服务器接收用户终端所反馈的、对翻译文本修改后所得到的修改文本。
S210,根据文本和修改文本更新同声传译模型。
由于同声传译模型包括语音模型和翻译模型,在一个实施例中,当加权累积值达到阈值、且修改文本为基于识别文本修改所得时,服务器根据识别文本和基于对识别文本修改所得的修改文本更新语音模型。当加权累积值达到阈值、且修改文本为基于翻译文本修改所得时,服务器根据翻译文本和基于对翻译文本修改所得的修改文本更新翻译模型。
上述基于同声传译的数据处理方法,服务器通过接收终端反馈的对文本修改后所得到的修改文本,实现了当处理音频所得到的文本发生修改时,能及时地获得相应的反馈。根据文本和修改文本更新同声传译模型,通过更新后的同声传译模型对音频进行处理,从而提高了由处理音频所得到的文本的准确性。
在一个实施例中,S204具体可以包括:
S302,将音频进行降噪处理。
在一个实施例中,服务器通过降噪算法对音频进行降噪处理,其中,降噪算法可以包括维纳滤波降噪算法、基本谱减法和LMS的自适应陷波算法等。
在一个实施例中,将音频进行降噪处理之后,服务器还可以对降噪后的音频进行功率放大处理。
S304,获取降噪处理后的音频中的语音部分。
其中,音频可以包含语音部分的音频和非语音部分的音频。
在一个实施例中,服务器对降噪处理后的音频,或对降噪和功放处理后的音频进行语音活动性检测,以判断音频中是否存在非语音部分的音频。当确定音频中存在语音部分的音频时,将非语音部分进行删除,从而获取到降噪处理后的音频中的语音部分。
S306,从语音部分中获取能量值大于或等于能量阈值的音频部分。
由于演讲者在演讲的过程中,可能会有其他人讲话。那么,已删除非语音部分的音频中,除了演讲者的音频,还可能包含他人的音频。其中,他人的音频的能量相对演讲者的能量要小。因此,具体地,对所获取的语音部分的音频进行能量检测,从所获取的语音部分中获取能量值大于或等于能量阈值的音频部分。
S308,通过同声传译模型处理音频部分获得相应的文本。
在一个实施例中,服务器通过语音识别算法,对滤除后得到的音频进行语音识别,获得对应语种的文本。
上述基于同声传译的数据处理方法,服务器对所获得的音频进行降噪,有利于提高语音识别的正确率。获取降噪处理后的音频中的语音部分,有利于在语音识别的过程中,避免了服务器对整个音频进行编解码的,提高了服务器的计算效率。从所获取的语音部分的音频中获取能量大于或等于能量阈值的音频部分,避免了语音识别过程中,他人的语音对演讲者的语音产生干扰,从而避免了获得非演讲者的语音所对应的文本。
在一个实施例中,同声传译模型包括通用语音模型和辅助语音模型;文本包括识别文本和识别更新文本中的至少一种;识别文本是通过通用语音模型对音频进行语音识别得到;识别更新文本是通过辅助语音模型更新识别文本得到;S210具体可以包括:根据文本和修改文本更新辅助语音模型。
其中,通用语音模型用于对音频进行语音识别,获得对应的识别文本。辅助语音模型用于对识别文本进行更新,例如,在服务器根据文本和修改内容对辅助语音模型进行更新之后,当辅助语音模型检测到识别文本出现错误、且该错误有对应的修改文本时,服务器通过辅助语音模型将出错的识别文本进行更新,即把出错的识别文本替换为修改文本。当辅助语音模型未检测到识别文本出现错误时,服务器将不对识别文本进行更新。识别更新文本指的是对识别文本进行更新后的文本,可称为更新后的识别文本。
在一个实施例中,在根据文本和修改文本更新辅助语音模型之后,该方法还包括:服务器将获得新的音频输入通用语音模型,通过通用语音模型将输入的音频识别为对应的识别文本。服务器将识别所得的识别文本输入辅助语音模型,通过辅助语音模型检测该识别文本是否包含有与修改文本对应的内容,若包含,则将上述对应的内容更新为修改文本。
上述基于同声传译的数据处理方法,服务器根据文本和修改文本更新辅助语音模型,以通过更新的辅助语音模型对后续的文本进行更新处理,即文本包含有与修改文本对应的内容时,将对应的内容替换为修改文本,避免再次出现更新之前的错误,从而提高了同声传译中所获得的文本的准确性。
在一个实施例中,同声传译模型包括翻译模型;文本包括翻译文本;修改文本包括修改翻译文本;S210具体可以包括:根据翻译文本和修改翻译文本更新翻译模型。
其中,翻译文本指的是:对识别音频所得的文本进行翻译,翻译所得到的文本即为翻译文本。翻译语音模型用于对文本进行翻译。
在一个实施例中,在根据翻译文本和修改翻译文本更新翻译模型之后,该方法还包括:服务器将识别文本或识别更新文本输入翻译模型,当通过翻译模型检测到识别文本或识别更新文本包含有与修改翻译文本对应的内容时,将该对应的内容翻译为修改翻译文本。
在一个实施例中,翻译模型可以包括通用翻译模型和辅助翻译模型;根据翻译文本和修改翻译文本更新翻译模型的步骤,具体可以包括:根据翻译文本和修改翻译文本更新辅助翻译模型。在辅助翻译模型更新之后,服务器将识别文本或识别更新文本输入通用翻译模型,通过通用翻译模型将识别文本或识别更新文本翻译为翻译文本。服务器将翻译文本输入辅助翻译模型,通过辅助翻译模型检测翻译文本是否包含有与修改翻译文本匹配的内容,若包含,则将该匹配的内容更新为修改翻译文本,得到最终的翻译文本。
上述基于同声传译的数据处理方法,服务器根据翻译文本和修改翻译文本更新翻译模型,以通过更新的翻译模型对后续的文本进行翻译,避免出现更新之前所出现的错误,从而提高了同声传译中所获得的文本的准确性。
在一个实施例中,如图4所示,该方法还包括:
S402,接收与音频匹配的视频。
其中,该视频可以是演讲者的视频,也可以是演讲者的PPT。
在一个实施例中,同声传译客户端采集的与音频匹配的视频,并将视频发送至服务器。服务器接收同声传译客户端采集的与音频匹配的视频。
S404,将文本嵌入视频。
在一个实施例中,服务器将文本嵌入视频之后,根据文本在视频中的出现时间。其中,该出现时间指的是当用户终端在播放视频时,文本以字幕的形式出现在视频中的时间。
在一个实施例中,服务器可以将文本嵌入视频的底部、中部或顶部。服务器还可以设置文本嵌入在视频中的行数,如大于或等于两行。
S406,将已嵌入文本的视频发送至用户终端。
在一个实施例中,服务器通过与用户终端之间建立的连接通道,将已嵌入文本的视频发送至用户终端。其中,该连接通道可以是TCP连接通道或UDP连接通道。
需要说明的是,将文本嵌入至视频之后,终端展示嵌入文本的视频时,用户可以通过用户终端对所嵌入的文本进行修改。
上述基于同声传译的数据处理方法,服务器将同声传译过程中得到的文本嵌入视频中,将嵌入文本的视频发送至用户终端,一方面,文本与视频的结合,有利于提高观众对文本的理解;另一方面,观众除了可以观看到同声传译中的文本,还可以观看到视频内容,丰富了用户终端所展示的内容。
在一个实施例中,音频与会议号对应;如图5所示,S206具体可以包括:
S502,将文本发送至通过会议号接入的用户终端。
其中,会议号指的是同声传译会议中的编号。在同声传译的软件系统中,可以同时支持多个同声传译会议,不同的同声传译会议具有不同的会议号。
在一个实施例中,当用户终端扫描会议室中的二维码或条形码之后,服务器建立与用户终端的通信连接,并将同声传译列表发送至用户终端,以便持有用户终端的观众选择同声传译列表中的会议编号,进入对应的同声传译会议的软件系统。
在一个实施例中,服务器接收用户终端携带有会议号和用户标识的访问请求,根据用户标识确定用户是否具有访问与会议号对应的同声传译会议的权限。若具有访问与会议号对应的同声传译会议的权限时,服务器允许用户终端的访问。若不具有访问与会议号对应的同声传译会议的权限时,服务器则拒绝用户终端的访问。其中,用户标识可以是手机号或社交账号,社交账号如微信号或QQ号。
S504,接收用户终端所反馈的评论信息。
其中,评论信息指的是观众在观看演讲者的演讲内容过程中所发起的评论。演讲内容包括处理音频所得的文本和对应的翻译文本。
S506,在通过会议号接入的用户终端间同步评论信息。
在一个实施例中,服务器根据会议号确定所连接的用户终端,将接收到的评论信息同步至所确定的用户终端,指示用户终端将评论信息以弹幕的形式展示于同声传译辅助页面。
上述基于同声传译的数据处理方法,服务器根据会议号确定接收评论信息的用户终端,一方面,观众可以通过用户终端发起评论,提升用户与同声传译系统之间的交互性;另一方面,可以有效地避免将评论信息发送至其它同声传译会议的用户终端。
在一个实施例中,音频与会议号对应;S206具体可以包括:将文本发送至通过会议号接入的用户终端;如图6所示,该方法还包括:
S602,将文本与会议号对应存储。
在一个实施例中,当服务器开始处理某个演讲者的音频得到文本之后,创建目标格式的文档,将文本添加入文档中,并建立文档与会议号之间的映射关系,将建立映射关系的文档和会议号进行存储。当服务器处理新采集到的音频得到文本之后,将文本直接添加入所创建的文档中。
S604,当加权累积值达到阈值时,将与会议号对应存储的文本更新为修改文本。
其中,达到指的是加权累积值大于或等于阈值。
在一个实施例中,当服务器按照与用户终端的标识对应的权重,确定修改文本的加权累积值之后,服务器判断加权累积值与预设的阈值之间的大小。当加权累积值大于或等于阈值时,服务器将与会议号对应存储的文本更新为修改文本。
S606,当接收到通过会议号接入的用户终端所发送的同步请求时,向发起同步请求的终端反馈与会议号对应存储的更新后的文本。
在一个实施例中,服务器接收通过会议号接入的用户终端所发送的同步请求,根据该同步请求获取与会议号对应的更新后的文本,将获取到的文本反馈至用户终端。对于同声传译的观众而言,可以及时下载到正确版本的文本内容。
上述基于同声传译的数据处理方法,服务器根据修改文本更新存储的文本,从而保证了原先出现错误的文本能够被及时的纠正。当接收到用户终端的同步请求时,将更新后的文本发送至用户终端,保证了用户终端所获得的文本为更新后的正确文本,提高了文本的准确性。
在一个实施例中,如图7所示,该方法还包括:
S702,统计与用户终端的标识对应的文本修改次数。
其中,文本修改次数指的是携带用户终端的用户对所观看到的文本进行修改的次数。所观看到的文本可以是由处理不同的音频所得到的文本,包括识别文本、识别更新文本和翻译文本。用户终端的标识用于表示携带该携带用户终端的用户。
在一个实施例中,服务器根据接收的修改文本和对应的用户终端的标识,确定归属于同一个用户终端的标识对应有修改文本的数量,将该数量作为该同一个用户终端的标识对应的文本修改次数。
S704,检测用户终端的标识对应的文本修改正确率。
其中,文本修改正确率指的是在预设时间内,该用户终端的标识修改对应文本的修改正确率,也即预设时间内所得到的修改文本的正确率。
由于对文本进行修改所得到的修改文本,可能会出现错误。因此,在一个实施例中,服务器检测用户终端的标识对应的修改文本,判断修改文本是否正确,统计正确率,从而得到关于用户终端的标识对应的文本修改正确率。
S706,当文本修改次数达到修改次数阈值、且文本修改正确率达到文本修改正确率阈值时,调高与用户终端的标识对应的权重。
在一个实施例中,服务器根据文本修改次数和文本修改正确率,调整与用户终端的标识对应的权重。其中,调整与用户终端的标识对应的权重包括:当文本修改次数小于修改次数阈值、且文本修改正确率小于文本修改正确率阈值时,调低与用户终端的标识对应的权重。当文本修改次数达到修改次数阈值、且文本修改正确率达到文本修改正确率阈值时,调高与用户终端的标识对应的权重。
上述基于同声传译的数据处理方法,服务器判断文本修改次数和文本修改正确率达到预设的条件时,调高与用户终端的标识对应的权重,实现了对修改文本贡献度大的用户赋予更大的权重,有利于提高文本的准确性。
在一个实施例中,S210具体可以包括:按照与用户终端的标识对应的权重,确定修改文本的加权累积值;当加权累积值达到阈值时,根据文本和修改文本更新同声传译模型。
其中,权重指的是每个用户终端对接收的文本进行修改所具有的修改权重。不同级别的用户终端的标识,所对应的权重可以不同。例如,普通用户级别的用户终端的标识,所对应的权重较小。具有管理者权限用户级别的用户终端的标识,所对应的权重较大。
加权累积值指的是对权重进行累加或累积所得。其中,累加指的是将各个权重相加。累积指的是:当某个用户终端对同一个文本进行了多次修改,则将次数与对应的权重进行相乘,再与其它的权重进行相加。例如,用户终端A、用户终端B和用户终端C对某个文本进行了修改,用户终端的标识所对应的权重分别为q1、q2和q3,用户终端A修改了两次,那么,加权累积值S=2×q1+q2+q3。
在一个实施例中,服务器接收到用户终端发送的修改文本时,确定该用户终端的标识所对应的级别,根据确定的级别获得对应的权重。服务器将所获得的权重进行累加或累积计算,将计算的结果确定为修改文本的加权累积值。
在一个实施例中,当服务器接收到某个用户终端发送的多个修改文本、且该多个修改文本基于同一个文本修改所得时,服务器将最后收到的修改文本作为该某个用户终端的最终修改版本。
上述基于同声传译的数据处理方法,根据反馈的修改文本,统计终端对修改文本的加权累积值,当加权累积值达到阈值时,根据文本和修改文本更新同声传译模型,当使用更新后的同声传译模型对音频进行处理,可以提高由处理音频所得到的文本的准确性。此外,由于加权累积值达到阈值时,才对同声传译模型进行更新,可以有效地避免了因无效修改而影响同声传译模型,进一步保证了由处理音频所得到的文本的准确性。
如图8所示,在一个实施例中,提供了一种基于同声传译的数据处理方法。本实施例主要以该方法应用于上述图1中的用户终端110来举例说明。参照图8,该基于同声传译的数据处理方法具体包括如下步骤:
S802,展示同声传译辅助页面。
其中,同声传译辅助页面可用于展示文本,或者展示嵌入文本的视频。此外,还可以展示同声传译列表。
在一个实施例中,用户终端通过社交应用扫描同声传译会议中的条形码或二维码,根据条形码或二维码中的链接地址进入社交应用中的小程序。用户终端在小程序中展示同声传译辅助页面,并在该同声传译辅助页面中展示同声传译列表,该同声传译列表中包含有不同会议号的同声传译会议。根据输入的选择指令,进入同声传译列表中的对应同声传译会议。
在一个实施例中,在该同声传译辅助页面中展示同声传译列表的步骤具体可以包括:向服务器发送携带手机号或社交账号的获取请求,接收服务器发送的具有访问权限的同声传译列表。
如图9所示,图9示出了一个实施例中进入和展示同声传译辅助页面的示意图。图9中,用户终端首次进入同声传译辅助页面,首先会显示同声传译列表,根据选择指令展示对应的同声传译会议。若非首次进入同声传译辅助页面时,将直接进入同声传译会议。
S804,接收服务器发送的文本;文本是通过同声传译模型处理音频得到。
在一个实施例中,服务器通过同声传译模型处理音频得到对应的文本,将得到的文本发送至用户终端。用户终端接收服务器发送的、通过同声传译模型处理音频得到的文本。
S806,在同声传译辅助页面中展示文本。
在一个实施例中,在同声传译辅助页面中展示文本时,用户终端根据所展示的文本合成对应语种的语音,并将该语音播报出来。
如图9所示,在同声传译辅助页面中展示文本。此外,用户终端可以切换不同的语种选择性展示文本,还可以使用不同的音色对文本进行语音合成,并播报出来。
S808,当检测到修改指令时,获取与文本对应的修改文本。
在一个实施例中,用户终端实时检测输入的针对文本的修改指令,根据修改指令获得与文本对应的修改文本。
S810,将本地的标识和修改文本发送至服务器;修改文本,用于指示服务器按照与标识对应的权重确定修改文本的加权累积值;在加权累积值达到阈值时,根据文本和修改文本更新同声传译模型。
其中,加权累积值指的是对权重进行累加或累积所得。其中,累加指的是将各个权重相加。累积指的是:当某个用户终端对同一个文本进行了多次修改,则将次数与对应的权重进行相乘,再与其它的权重进行相加。例如,用户终端A、用户终端B和用户终端C对某个文本进行了修改,对应的权重分别为q1、q2和q3,用户终端A修改了两次,那么,加权累积值S=2×q1+q2+q3。
权重指的是每个用户终端对接收的文本进行修改所具有的修改权重。不同级别的用户终端的标识,所对应的权重可以不同。例如,普通用户级别的用户终端的标识,所对应的权重较小。具有管理权限用户级别的用户终端的标识,所对应的权重较大。
上述基于同声传译的数据处理方法,用户终端通过同传辅助展示页面展示由服务器处理音频所得到的文本,当检测到修改指令时,获得对应的修改文本,实现了当由服务器处理音频所得到的文本出错时,用户端可以进行相应的修改。将获得的修改文本同步至服务器,指示服务器当修改文本的加权累积值到阈值时,根据文本和修改文本更新同声传译模型,从而提高了由处理音频所得到的文本的准确性。
在一个实施例中,如图10所示,展示同声传译辅助页面包括:
S1002,通过母应用程序获取子应用程序标识。
其中,母程序是承载子应用程序的应用程序,为子应用程序的实现提供环境。母应用程序是原生应用程序,可直接运行于操作系统。该母程序可以包括社交应用程序或直播应用,社交应用程序如微信、QQ等。子应用程序则是可在母应用程序提供的环境中实现的应用程序。子应用程序具体可以是同声传译小程序。
在一个实施例中,用户终端可通过母应用程序展示子应用程序列表,接收针对子应用程序列表中选项的选择指令,根据该选择指令确定子应用程序列表中选中的选项,从而获取该选中的选项对应的子应用程序标识。
S1004,根据子应用程序标识获取相应的同声传译辅助页面配置文件。
具体地,用户终端可通过母应用程序,从本地或者服务器获取与子应用程序标识相应的同声传译辅助页面配置文件。进一步地,用户终端可根据子应用程序标识在本地或者服务器确定相应的文件夹,进而从该文件夹中获取同声传译辅助页面配置文件。或者,用户终端可根据子应用程序标识和页面标识的对应关系,获取与该子应用程序标识相应的同声传译辅助页面配置文件。页面标识用于唯一标识一个子应用程序所包括的一个同声传译辅助页面,而不同的子应用程序可以采用相同的页面标识。
其中,同声传译辅助页面配置文件是对子应用程序所呈现的页面进行配置的文件。同声传译辅助页面配置文件可以是源代码或者是将源代码编译后得到的文件。子应用程序所呈现页面称为同声传译辅助页面,子应用程序可以包括一个或多个同声传译辅助页面。
S1006,从同声传译辅助页面配置文件中获取公共组件标识。
具体地,用户终端可解析同声传译辅助页面配置文件,从而从同声传译辅助页面配置文件中获取公共组件标识。其中,公共组件标识用于唯一标识相应的公共组件。公共组件是母应用程序所提供的可供不同的子应用程序共用的组件,具有视觉形态,是同声传译辅助页面的组成单元。公共组件还可以封装有用于处理针对该公共组件所触发事件的逻辑代码。不同的子应用程序共用公共组件,具体可以是同时或者在不同时刻调用相同的公共组件。在一个实施例中,公共组件还可由母应用程序和子应用程序所共用。
S1008,在母应用程序所提供的公共组件库中,选择与公共组件标识对应的公共组件。
其中,公共组件库是母应用程序所提供的公共组件构成的集合。公共组件库中的每个公共组件具有唯一的公共组件标识。公共组件库可由母应用程序在运行时从服务器下载到本地,或者可由母应用程序在被安装时从相应的应用程序安装包中解压缩得到。
S1010,根据选择的公共组件构建同声传译辅助页面。
具体地,用户终端可获取选择的公共组件自带的默认组件样式数据,从而按照该默认组件样式数据组织选择的公共组件并渲染,形成同声传译辅助页面。默认组件样式数据是描述相应的公共组件默认的展示形式的数据。默认组件样式数据可以包括相应公共组件默认在同声传译辅助页面中的位置、尺寸、颜色、字体和字号等属性。用户终端具体可通过母应用程序集成的浏览器控件并根据选择的公共组件构建同声传译辅助页面。
上述基于同声传译的数据处理方法,用户终端运行母应用程序,母应用程序提供公共组件库,通过母应用程序可以获取到子应用程序标识,从而获取相应的同声传译辅助页面配置文件,从而依据该同声传译辅助页面配置文件从公共组件库中选择公共组件构建出同声传译辅助页面。子应用程序标识可以标识出不同的子应用程序,母应用程序可以依据不同子应用程序标识对应的同声传译辅助页面配置文件实现不同的子应用程序。当母应用程序在运行时,便可以利用母程序提供的公共组件快速构建同声传译辅助页面,缩短了应用程序安装时长,提高了应用程序使用效率。
在一个实施例中,如图11所示,该方法还包括:
S1102,接收由服务器同步的修改文本和对应的排序序号;接收的修改文本和相应的修改前的文本共用排序序号。
其中,排序序号用于表示某个文本在文档中的排列位置,或者表示某个文本在某个存储区的存储位置。文档指的是用于保存和编辑文本的一种文本文件,包括TEXT文档、WORD文档和XML文档等。
在一个实施例中,当服务器确定加权累积值达到阈值时,服务器将修改文本和对应的排序序号同步至用户终端。用户终端接收由服务器同步的修改文本和对应的排序序号,并执行S1104。
S1104,在本地查找与排序序号对应的文本。
在一个实施例中,用户终端在存储区中查找与排序序号对应的文本。或者,文本可以保存于文档中,文档与会议号具有映射关系并存储于用户终端。用户终端根据会议号查找保存文本的文档,在文档中根据排列序号查找对应的文本。
S1106,将本地查找到的文本替换为接收到的修改文本。
上述基于同声传译的数据处理方法,用户终端根据排列序号查找对应的文本,并将查找到的文本替换为接收到的修改文本,确保了当某文本出现错误时,各个用户终端均可以同步进行修改,提高了所获得的文本的准确性。
如图12所示,在一个实施例中,提供了一种具体地基于同声传译的数据处理方法。本实施例主要以该方法应用于上述图1中的服务器120来举例说明。参照图12,该基于同声传译的数据处理方法具体包括如下步骤:
S1202,获取音频。
S1204,将音频进行降噪处理。
S1206,获取降噪处理后的音频中的语音部分。
S1208,从语音部分的音频中获取能量值大于或等于能量阈值的音频部分。
S1210,通过同声传译模型处理音频部分获得相应的文本。
S1212,将文本发送至用户终端。
S1214,接收与音频匹配的视频。
S1216,将文本嵌入视频。
S1218,将已嵌入文本的视频发送至用户终端。
在一个实施例中,将文本发送至通过会议号接入的用户终端。
S1220,接收用户终端所反馈的、对文本修改后所得到的修改文本。
S1222,按照与用户终端的标识对应的权重,确定修改文本的加权累积值。
在一个实施例中,服务器统计与用户终端的标识对应的文本修改次数;检测用户终端的标识对应的文本修改正确率;当文本修改次数达到修改次数阈值、且文本修改正确率达到文本修改正确率阈值时,调高与用户终端的标识对应的权重。
S1224,当加权累积值达到阈值时,根据文本和修改文本更新同声传译模型。
在一个实施例中,同声传译模型包括通用语音模型和辅助语音模型;文本包括识别文本和识别更新文本中的至少一种;识别文本是通过通用语音模型对音频进行语音识别得到;识别更新文本是通过辅助语音模型更新识别文本得到;根据文本和修改文本更新同声传译模型,包括:根据文本和修改文本更新辅助语音模型。
在一个实施例中,同声传译模型包括翻译模型;文本包括翻译文本;修改文本包括修改翻译文本;根据文本和修改文本更新同声传译模型,包括:根据翻译文本和修改翻译文本更新翻译模型。
S1226,接收用户终端所反馈的评论信息。
S1228,在通过会议号接入的用户终端间同步评论信息。
S1230,将文本与会议号对应存储。
S1232,当加权累积值达到阈值时,将与会议号对应存储的文本更新为修改文本。
S1234,当接收到通过会议号接入的用户终端所发送的同步请求时,向发起同步请求的终端反馈与会议号对应存储的更新后的文本。
如图13所示,在一个实施例中,提供了另一种具体地基于同声传译的数据处理方法。本实施例主要以该方法应用于上述图1中的用户终端110来举例说明。参照图13,该基于同声传译的数据处理方法具体包括如下步骤:
S1302,展示同声传译辅助页面。
在一个实施例中,通过母应用程序获取子应用程序标识;根据子应用程序标识获取相应的同声传译辅助页面配置文件;从同声传译辅助页面配置文件中获取公共组件标识;在母应用程序所提供的公共组件库中,选择与公共组件标识对应的公共组件;根据选择的公共组件构建同声传译辅助页面。
S1304,接收服务器发送的文本;文本是通过同声传译模型处理音频得到。
S1306,在同声传译辅助页面中展示文本。
S1308,当检测到修改指令时,获取与文本对应的修改文本。
S1310,将本地的标识和修改文本发送至服务器;修改文本,用于指示服务器按照与标识对应的权重确定修改文本的加权累积值;在加权累积值达到阈值时,根据文本和修改文本更新同声传译模型。
S1312,接收由服务器同步的修改文本和对应的排序序号;接收的修改文本和相应的修改前的文本共用排序序号。
S1314,在本地查找与排序序号对应的文本。
S1316,将本地查找到的文本替换为接收到的修改文本。
在传统的同声传译方案中,同声传译客户端采集音频并进行相应的处理,然后将处理后的音频上传到语音服务器做语音识别,语音服务器识别完成后将识别文本发给翻译服务器,翻译服务器将识别文本翻译为目标语种的翻译文本返回给同声传译客户端,最后同声传译客户端将返回结果展示到显示屏。一个典型的大会同声传译系统如图14所示。
传统的同声传译系统中,主要采用以下两种显示文本的方式:一种是分屏展示,演讲者的图像或者PPT占屏幕的一部分,同声传译的文本占屏幕的另一部分。第二种是字幕展示,演讲者的图像或者PPT占满屏幕,同声传译的文本则在屏幕底部以字幕的方式显示出来。但上述两种展示方式均存在以下问题:1)看不清,对于参会人数较多的会议,后排及视角不佳的观众将看不清会议显示屏展示的文本。此外,对于因故无法参加会议的观众更无法获取会议内容。2)无互动,观众只能被动获取同声传译文本。3)无法优化同声传译模型,观众不能对识别文本和/或翻译文本进行即时修改,无法对同声传译中的语音模型和翻译模型进行优化。
对于上述问题,本发明实施例中提出了一种解决方案,其中,本发明实施例的同声传译系统如图15所示。如图15所示,同声传译系统包括服务器、同声传译客户端、麦克风、用户终端和显示屏。其中,上述服务器可以是由服务器集群组成,例如可以包括语音服务器和翻译服务器。
如图16所示,在一个实施例中,提供了又一种基于同声传译的数据处理方法。参照图16,该基于同声传译的数据处理方法具体包括如下步骤:
S1602,麦克风将所采集到的音频输出至同声传译客户端。
S1604,同声传译客户端对音频进行降噪、增益和语音活动性检测。
同声传译客户端通过前端处理算法,对麦克风采集好的音频进行降噪、增益和语音活动性检测。前端处理算法可采用“DNN(Deep Neural Network,深层神经网络)+能量”双重检测的方式。其中,DNN可用于抑制噪音。能量检测可用于将音频中能量小于阈值的部分语音滤除。
S1606,同声传译客户端将音频发送至语音服务器。
S1608,同声传译客户端将所接收的视频发送至语音服务器。
本发明实施例中,除了采集语音作为输入源,还会获取视频作为输入源。该视频可以是演讲者的PPT,也可以是演讲者本人的视频。
同声传译主客户端通过上传“会议号”等字段来唯一标识本次同声传译会议和相应的演讲内容(包括识别文本和翻译文本)。
S1610,语音服务器通过通用语音模型识别音频,获得识别文本;通过辅助语音模型对识别文本进行检测更新,获得更新后的识别文本。
S1612,语音服务器将识别文本发送至翻译服务器。
S1614,翻译服务器对接收的识别文本进行翻译,获得目标语种的翻译文本。
S1616,翻译服务器将翻译文本发送至语音服务器。
S1618,语音服务器将识别文本和翻译文本合并,将合并后的文本发送至同传客户端。
S1620,语音服务器将文本和视频进行合并,将合并后的文本和视频发送至用户终端。
语音服务器将合并后的文本和视频推送给所有已经激活的用户终端。
S1622,同传客户端合并后的文本和视频发送至显示屏展示。
这里,同传客户端将识别文本、翻译文本和视频发送至同声传译会议的显示屏中进行展示。
S1624,用户终端对识别文本进行修改,将得到的修改文本发送至语音服务器。
在同声传译的过程中,用户可通过社交应用扫描二维码或点击相应的链接进入网页或小程序,用户终端会通过手机号或微信号选择具有访问权限的同声传译列表,用户点击其中某个条目进入同声传译辅助页面。进入同声传译辅助页面后,该用户终端将被激活。用户终端的同声传译辅助页面默认显示当前正在演讲的文本。用户终端还可以自行切换不同的语种展示文本,根据显示的文本合成不同对应音色的语音,并播报出来。
同声传译辅助页面中设置有一键保存的功能按键,当该功能按键被触发时,将接收到的识别文本和翻译文本进行保存,形成同声传译全文。此外,用户在用户终端可以对识别文本和翻译文本做修改,修改文本可上传到服务器。
S1626,语音服务器根据识别文本和修改文本更新辅助语音模型。
S1628,用户终端对翻译文本进行修改,将得到的修改文本通过语音服务器发送至翻译服务器。
S1630,翻译服务器根据翻译文本和修改文本更新翻译模型。
服务器接收到修改文本时,通过对应的算法使用修改文本实时更新语音模型和翻译模型,更新的语音模型和翻译模型用于本次同声传译的后面演讲中。在实时更新语音模型方面,语音模型包括通用语言模型和辅助语言模型。其中通用语言模型在程序开始运行时完成一次加载。当接到用户修改的指令后,会对辅助语言模型进行更新,并重新热加载,在整个过程中实现无缝切换。需要说明的是,辅助语音模型可在程序运行过程中多次热加载,每次更新辅助语音模型后,对辅助语音模型进行一次热加载。
对音频的声学符号序列在解码过程中,服务器声将音频的学符号序列输入通用语言模型进行语音识别,获得识别文本。然后将识别文本输入辅助语言模型,通过辅助语音模型将之前出现错误的文本替换为修改文本。
服务器对修改文本做合理性检测,检测合理的修改文本用于更新语音模型和/或翻译模型。举例来说:如果发现有错误翻译、且多人对错误翻译进行修改,服务器根据携带用户终端的用户所具有的权重,确定修改文本的加权累积值。当加权累积值阈值时,服务器对翻译模型进行优化。
服务器根据文本修改次数和文本修改正确率确定用户修改的贡献度,并适应性的调整对应的权重。
观众通过用户终端对演讲者或演讲内容发表评论。用户终端将评论信息发送至服务器,通过服务器中转至会议显示屏和各已激活的用户终端,以弹幕的形式展示于显示屏和用户终端。
通过实施上述基于同声传译的数据处理方法,可以具有以下有益效果:1)可以通过用户终端观看语音识别的文本和翻译后的文本,避免了因后排及视角不佳而看不清的问题。2)具有互动效果,通过用户终端进入同声传译辅助页面,观众可对演讲者或演讲内容发表评论并提交,提交的评论将由服务器下发到主会议显示屏和各用户终端。3)可实时更新同声传译模型(包括语音模型和翻译模型),可以通过用户终端对识别文本和/或翻译文本进行修改,若大量用户同时修改或拥有管理员权限的人修改某个文本或其中某个词,服务器则会对语音模型和/或翻译模型进行更新,更新后的语音模型和翻译模型用于对后续的语音识别和翻译,避免再次出现错误。4)可随时切换目标语种,在社交应用的小程序中,用户可以设置翻译的语种和选择个性化音色合成对应的语音。5)很便捷地获取同声传译全文内容,同声传译辅助页面设置有一键保存会议演讲记录的功能。
图2和图8为一个实施例中基于同声传译的数据处理方法的流程示意图。应该理解的是,虽然图2和图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
如图17所示,在一个实施例中,提供了一种基于同声传译的数据处理装置,该基于同声传译的数据处理装置1700具体包括:获取模块1702、处理模块1704、发送模块1706、接收模块1708、确定模块1712和更新模块1710;其中:
获取模块1702,用于获取音频;
处理模块1704,用于通过同声传译模型处理音频得到相应的文本;
发送模块1706,用于将文本发送至用户终端;
接收模块1708,用于接收用户终端所反馈的、对文本修改后所得到的修改文本;
更新模块1710,根据文本和修改文本更新同声传译模型。
上述基于同声传译的数据处理装置,通过接收终端反馈的对文本修改后所得到的修改文本,实现了当处理音频所得到的文本发生修改时,能及时地获得相应的反馈。根据文本和修改文本更新同声传译模型,通过更新后的同声传译模型对音频进行处理,从而提高了由处理音频所得到的文本的准确性。
在一个实施例中,如图18所示,该装置还可以包括:确定模块1712;其中:
确定模块1712,用于按照与用户终端的标识对应的权重,确定修改文本的加权累积值;
更新模块1710还用于当加权累积值达到阈值时,根据文本和修改文本更新同声传译模型。
上述基于同声传译的数据处理装置,根据反馈的修改文本,统计终端对修改文本的加权累积值,当加权累积值达到阈值时,根据文本和修改文本更新同声传译模型,当使用更新后的同声传译模型对音频进行处理,可以提高由处理音频所得到的文本的准确性。此外,由于加权累积值达到阈值时,才对同声传译模型进行更新,可以有效地避免了因无效修改而影响同声传译模型,进一步保证了由处理音频所得到的文本的准确性。
在一个实施例中,处理模块1704还用于将音频进行降噪处理;获取降噪处理后的音频中的非语音部分;从语音部分中获取能量值大于或等于能量阈值的音频部分;通过同声传译模型处理音频部分获得相应的文本。
上述基于同声传译的数据处理装置,对所获得的音频进行降噪,有利于提高语音识别的正确率。获取降噪处理后的音频中的非语音部分,有利于在语音识别的过程中,避免了服务器对整个音频进行编解码的,提高了服务器的计算效率。从所获取的语音部分的音频中获取能量大于或等于能量阈值的音频部分,避免了语音识别过程中,他人的语音对演讲者的语音产生干扰,从而避免了获得非演讲者的语音所对应的文本。
在一个实施例中,同声传译模型包括通用语音模型和辅助语音模型;文本包括识别文本和识别更新文本中的至少一种;识别文本是通过通用语音模型对音频进行语音识别得到;识别更新文本是通过辅助语音模型更新识别文本得到;更新模块1710还用于根据文本和修改文本更新辅助语音模型。
上述基于同声传译的数据处理装置,根据文本和修改文本更新辅助语音模型,以通过更新的辅助语音模型对后续的文本进行更新处理,即文本包含有与修改文本对应的内容时,将对应的内容替换为修改文本,避免再次出现更新之前的错误,从而提高了同声传译中所获得的文本的准确性。
在一个实施例中,同声传译模型包括翻译模型;文本包括翻译文本;修改文本包括修改翻译文本;更新模块1710还用于根据翻译文本和修改翻译文本更新翻译模型。
上述基于同声传译的数据处理装置,根据翻译文本和修改翻译文本更新翻译模型,以通过更新的翻译模型对后续的文本进行翻译,避免出现更新之前所出现的错误,从而提高了同声传译中所获得的文本的准确性。
在一个实施例中,如图18所示,该装置还包括:嵌入模块1714;其中,
接收模块1708还用于接收与音频匹配的视频;
嵌入模块1714,用于将文本嵌入视频;
发送模块1706还用于将已嵌入文本的视频发送至用户终端。
上述基于同声传译的数据处理装置,将同声传译过程中得到的文本嵌入视频中,将嵌入文本的视频发送至用户终端,一方面,文本与视频的结合,有利于提高观众对文本的理解;另一方面,观众除了可以观看到同声传译中的文本,还可以观看到视频内容,丰富了用户终端所展示的内容。
在一个实施例中,该装置还包括:同步模块1716;其中,音频与会议号对应;
发送模块1706还用于将文本发送至通过会议号接入的用户终端;
接收模块1708还用于接收用户终端所反馈的评论信息;
同步模块1716,用于在通过会议号接入的用户终端间同步评论信息。
上述基于同声传译的数据处理装置,根据会议号确定接收评论信息的用户终端,一方面,观众可以通过用户终端发起评论,提升用户与同声传译系统之间的交互性;另一方面,可以有效地避免将评论信息发送至其它同声传译会议的用户终端。
在一个实施例中,如图18所示,该装置还包括:存储模块1718和反馈模块1720;其中,音频与会议号对应;
发送模块1706还用于将文本发送至通过会议号接入的用户终端;
存储模块1718,用于将文本与会议号对应存储;
更新模块1710还用于当加权累积值达到阈值时,将与会议号对应存储的文本更新为修改文本;
反馈模块1720,用于当接收到通过会议号接入的用户终端所发送的同步请求时,向发起同步请求的终端反馈与会议号对应存储的更新后的文本。
上述基于同声传译的数据处理装置,根据修改文本更新存储的文本,从而保证了原先出现错误的文本能够被及时的纠正。当接收到用户终端的同步请求时,将更新后的文本发送至用户终端,保证了用户终端所获得的文本为更新后的正确文本,提高了文本的准确性。
在一个实施例中,如图18所示,该装置还包括:统计模块1722、检测模块1724和调整模块1726;其中,
统计模块1722,用于统计与用户终端的标识对应的文本修改次数;
检测模块1724,用于检测用户终端的标识对应的文本修改正确率;
调整模块1726,用于当文本修改次数达到修改次数阈值、且文本修改正确率达到文本修改正确率阈值时,调高与用户终端的标识对应的权重。
上述基于同声传译的数据处理装置,判断文本修改次数和文本修改正确率达到预设的条件时,调高与用户终端的标识对应的权重,实现了对修改文本贡献度大的用户赋予更大的权重,有利于提高文本的准确性。
如图19所示,在一个实施例中,提供了一种基于同声传译的数据处理装置,该基于同声传译的数据处理装置1900具体包括:第一展示模块1902、接收模块1904、第二展示模块1906、获取模块1908和发送模块1910;其中:
第一展示模块1902,用于展示同声传译辅助页面;
接收模块1904,用于接收服务器发送的文本;文本是通过同声传译模型处理音频得到;
第二展示模块1906,用于在同声传译辅助页面中展示文本;
获取模块1908,用于当检测到修改指令时,获取与文本对应的修改文本;
发送模块1910,用于将本地的标识和修改文本发送至服务器;修改文本,用于指示服务器按照与标识对应的权重确定修改文本的加权累积值;在加权累积值达到阈值时,根据文本和修改文本更新同声传译模型。
上述基于同声传译的数据处理装置,通过同传辅助展示页面展示由服务器处理音频所得到的文本,当检测到修改指令时,获得对应的修改文本,实现了当由服务器处理音频所得到的文本出错时,用户端可以进行相应的修改。将获得的修改文本同步至服务器,指示服务器当修改文本的加权累积值到阈值时,根据文本和修改文本更新同声传译模型,从而提高了由处理音频所得到的文本的准确性。
在一个实施例中,展示同声传译辅助页面,第一展示模块1902还用于通过母应用程序获取子应用程序标识;根据子应用程序标识获取相应的同声传译辅助页面配置文件;从同声传译辅助页面配置文件中获取公共组件标识;在母应用程序所提供的公共组件库中,选择与公共组件标识对应的公共组件;根据选择的公共组件构建同声传译辅助页面。
上述基于同声传译的数据处理装置,通过运行母应用程序,母应用程序提供公共组件库,通过母应用程序可以获取到子应用程序标识,从而获取相应的同声传译辅助页面配置文件,从而依据该同声传译辅助页面配置文件从公共组件库中选择公共组件构建出同声传译辅助页面。子应用程序标识可以标识出不同的子应用程序,母应用程序可以依据不同子应用程序标识对应的同声传译辅助页面配置文件实现不同的子应用程序。当母应用程序在运行时,便可以利用母程序提供的公共组件快速构建同声传译辅助页面,缩短了应用程序安装时长,提高了应用程序使用效率。
在一个实施例中,如图20所示,该装置还包括:查找模块1912和替换模块1914;其中,
接收模块1904还用于接收由服务器同步的修改文本和对应的排序序号;接收的修改文本和相应的修改前的文本共用排序序号;
查找模块1912,用于在本地查找与排序序号对应的文本;
替换模块1914,用于将本地查找到的文本替换为接收到的修改文本。
上述基于同声传译的数据处理装置,根据排列序号查找对应的文本,并将查找到的文本替换为接收到的修改文本,确保了当某文本出现错误时,各个用户终端均可以同步进行修改,提高了所获得的文本的准确性。
图21示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图21所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现基于同声传译的数据处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行基于同声传译的数据处理方法。
本领域技术人员可以理解,图21中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的基于同声传译的数据处理装置可以实现为一种计算机程序的形式,计算机程序可在如图21所示的计算机设备上运行。计算机设备的存储器中可存储组成该基于同声传译的数据处理装置的各个程序模块,比如,图17所示的获取模块1702、处理模块1704、发送模块1706、接收模块1708、确定模块1712和更新模块1710。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的基于同声传译的数据处理方法中的步骤。
例如,图21所示的计算机设备可以通过如图17所示的基于同声传译的数据处理装置中的获取模块1702执行S202。计算机设备可通过处理模块1704执行S204。计算机设备可通过发送模块1706执行S206。计算机设备可通过接收模块1708执行S208。计算机设备可通过更新模块1710执行S210。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取音频;通过同声传译模型处理音频得到相应的文本;将文本发送至用户终端;接收用户终端所反馈的、对文本修改后所得到的修改文本;根据文本和修改文本更新同声传译模型。
在一个实施例中,计算机程序被处理器执行通过同声传译模型处理音频得到相应的文本的步骤时,使得处理器具体执行以下步骤:将音频进行降噪处理;获取降噪处理后的音频中的语音部分;从语音部分中获取能量值大于或等于能量阈值的音频部分;通过同声传译模型处理音频部分获得相应的文本。
在一个实施例中,同声传译模型包括通用语音模型和辅助语音模型;文本包括识别文本和识别更新文本中的至少一种;识别文本是通过通用语音模型对音频进行语音识别得到;识别更新文本是通过辅助语音模型更新识别文本得到;计算机程序被处理器执行根据文本和修改文本更新同声传译模型的步骤时,使得处理器具体执行以下步骤:根据文本和修改文本更新辅助语音模型。
在一个实施例中,同声传译模型包括翻译模型;文本包括翻译文本;修改文本包括修改翻译文本;计算机程序被处理器执行根据文本和修改文本更新同声传译模型的步骤时,使得处理器具体执行以下步骤:根据翻译文本和修改翻译文本更新翻译模型。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:接收与音频匹配的视频;将文本嵌入视频;计算机程序被处理器执行将文本发送至用户终端的步骤时,使得处理器具体执行以下步骤:将已嵌入文本的视频发送至用户终端。
在一个实施例中,音频与会议号对应;计算机程序被处理器执行将文本发送至用户终端的步骤时,使得处理器具体执行以下步骤:将文本发送至通过会议号接入的用户终端;计算机程序被处理器执行时,使得处理器还执行以下步骤:接收用户终端所反馈的评论信息;在通过会议号接入的用户终端间同步评论信息。
在一个实施例中,音频与会议号对应;计算机程序被处理器执行将文本发送至用户终端的步骤时,使得处理器具体执行以下步骤:将文本发送至通过会议号接入的用户终端;计算机程序被处理器执行时,使得处理器还执行以下步骤:将文本与会议号对应存储;当加权累积值达到阈值时,将与会议号对应存储的文本更新为修改文本;当接收到通过会议号接入的用户终端所发送的同步请求时,向发起同步请求的终端反馈与会议号对应存储的更新后的文本。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:统计与用户终端的标识对应的文本修改次数;检测用户终端的标识对应的文本修改正确率;当文本修改次数达到修改次数阈值、且文本修改正确率达到文本修改正确率阈值时,调高与用户终端的标识对应的权重。
在一个实施例中,计算机程序被处理器执行通过同声传译模型处理音频得到相应的文本的步骤时,使得处理器具体执行以下步骤:按照与用户终端的标识对应的权重,确定修改文本的加权累积值;当加权累积值达到阈值时,根据文本和修改文本更新同声传译模型。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:获取音频;通过同声传译模型处理音频得到相应的文本;将文本发送至用户终端;接收用户终端所反馈的、对文本修改后所得到的修改文本;按照与用户终端的标识对应的权重,确定修改文本的加权累积值;当加权累积值达到阈值时,根据文本和修改文本更新同声传译模型。
在一个实施例中,计算机程序被处理器执行通过同声传译模型处理音频得到相应的文本的步骤时,使得处理器具体执行以下步骤:将音频进行降噪处理;获取降噪处理后的音频中的语音部分;从语音部分中获取能量值大于或等于能量阈值的音频部分;通过同声传译模型处理音频部分获得相应的文本。
在一个实施例中,同声传译模型包括通用语音模型和辅助语音模型;文本包括识别文本和识别更新文本中的至少一种;识别文本是通过通用语音模型对音频进行语音识别得到;识别更新文本是通过辅助语音模型更新识别文本得到;计算机程序被处理器执行根据文本和修改文本更新同声传译模型的步骤时,使得处理器具体执行以下步骤:根据文本和修改文本更新辅助语音模型。
在一个实施例中,同声传译模型包括翻译模型;文本包括翻译文本;修改文本包括修改翻译文本;计算机程序被处理器执行根据文本和修改文本更新同声传译模型的步骤时,使得处理器具体执行以下步骤:根据翻译文本和修改翻译文本更新翻译模型。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:接收与音频匹配的视频;将文本嵌入视频;计算机程序被处理器执行将文本发送至用户终端的步骤时,使得处理器具体执行以下步骤:将已嵌入文本的视频发送至用户终端。
在一个实施例中,音频与会议号对应;计算机程序被处理器执行将文本发送至用户终端的步骤时,使得处理器具体执行以下步骤:将文本发送至通过会议号接入的用户终端;计算机程序被处理器执行时,使得处理器还执行以下步骤:接收用户终端所反馈的评论信息;在通过会议号接入的用户终端间同步评论信息。
在一个实施例中,音频与会议号对应;计算机程序被处理器执行将文本发送至用户终端的步骤时,使得处理器具体执行以下步骤:将文本发送至通过会议号接入的用户终端;计算机程序被处理器执行时,使得处理器还执行以下步骤:将文本与会议号对应存储;当加权累积值达到阈值时,将与会议号对应存储的文本更新为修改文本;当接收到通过会议号接入的用户终端所发送的同步请求时,向发起同步请求的终端反馈与会议号对应存储的更新后的文本。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:统计与用户终端的标识对应的文本修改次数;检测用户终端的标识对应的文本修改正确率;当文本修改次数达到修改次数阈值、且文本修改正确率达到文本修改正确率阈值时,调高与用户终端的标识对应的权重。
在一个实施例中,计算机程序被处理器执行通过同声传译模型处理音频得到相应的文本的步骤时,使得处理器具体执行以下步骤:按照与用户终端的标识对应的权重,确定修改文本的加权累积值;当加权累积值达到阈值时,根据文本和修改文本更新同声传译模型。
图22示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的用户终端110。如图22所示,该计算机设备包括该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现基于同声传译的数据处理方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行基于同声传译的数据处理方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图22中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的基于同声传译的数据处理装置可以实现为一种计算机程序的形式,计算机程序可在如图22所示的计算机设备上运行。计算机设备的存储器中可存储组成该基于同声传译的数据处理装置的各个程序模块,比如,图19所示的第一展示模块1902、接收模块1904、第二展示模块1906、获取模块1908和发送模块1910。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的基于同声传译的数据处理方法中的步骤。
例如,图22所示的计算机设备可以通过如图19所示的基于同声传译的数据处理装置中的第一展示模块1902执行S802。计算机设备可通过接收模块1904执行S804。计算机设备可通过第二展示模块1906执行S806。计算机设备可通过获取模块1908执行S808。计算机设备可通过发送模块1910执行S810。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:展示同声传译辅助页面;接收服务器发送的文本;文本是通过同声传译模型处理音频得到;在同声传译辅助页面中展示文本;当检测到修改指令时,获取与文本对应的修改文本;将本地的标识和修改文本发送至服务器;修改文本,用于指示服务器按照与标识对应的权重确定修改文本的加权累积值;在加权累积值达到阈值时,根据文本和修改文本更新同声传译模型。
在一个实施例中,计算机程序被处理器执行展示同声传译辅助页面的步骤时,使得处理器具体执行以下步骤:通过母应用程序获取子应用程序标识;根据子应用程序标识获取相应的同声传译辅助页面配置文件;从同声传译辅助页面配置文件中获取公共组件标识;在母应用程序所提供的公共组件库中,选择与公共组件标识对应的公共组件;根据选择的公共组件构建同声传译辅助页面。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:接收由服务器同步的修改文本和对应的排序序号;接收的修改文本和相应的修改前的文本共用排序序号;在本地查找与排序序号对应的文本;将本地查找到的文本替换为接收到的修改文本。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行以下步骤:展示同声传译辅助页面;接收服务器发送的文本;文本是通过同声传译模型处理音频得到;在同声传译辅助页面中展示文本;当检测到修改指令时,获取与文本对应的修改文本;将本地的标识和修改文本发送至服务器;修改文本,用于指示服务器按照与标识对应的权重确定修改文本的加权累积值;在加权累积值达到阈值时,根据文本和修改文本更新同声传译模型。
在一个实施例中,计算机程序被处理器执行展示同声传译辅助页面的步骤时,使得处理器具体执行以下步骤:通过母应用程序获取子应用程序标识;根据子应用程序标识获取相应的同声传译辅助页面配置文件;从同声传译辅助页面配置文件中获取公共组件标识;在母应用程序所提供的公共组件库中,选择与公共组件标识对应的公共组件;根据选择的公共组件构建同声传译辅助页面。
在一个实施例中,计算机程序被处理器执行时,使得处理器还执行以下步骤:接收由服务器同步的修改文本和对应的排序序号;接收的修改文本和相应的修改前的文本共用排序序号;在本地查找与排序序号对应的文本;将本地查找到的文本替换为接收到的修改文本。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (26)
1.一种基于同声传译的数据处理方法,包括:
获取音频;
通过语音模型处理所述音频得到识别文本,以及通过翻译模型处理所述识别文本得到翻译文本;
将所述识别文本和所述翻译文本发送至用户终端;
接收所述用户终端所反馈的、对所述识别文本和所述翻译文本进行修改后所得到的修改文本;
按照与所述用户终端的标识对应的权重,确定所述修改文本的加权累积值;当所述加权累积值达到阈值时,根据所述识别文本和修改所述识别文本所得的修改文本更新所述语音模型,根据所述翻译文本和修改所述翻译文本所得的修改文本更新所述翻译模型。
2.根据权利要求1所述的方法,其特征在于,所述语音模型包括通用语音模型和辅助语音模型;所述识别文本是通过所述通用语音模型对所述音频进行语音识别得到;
当所述识别文本出现错误时,通过所述辅助语音模型更新所述识别文本得到识别更新文本;
所述根据所述识别文本和修改所述识别文本所得的修改文本更新所述语音模型,包括:
根据所述识别文本和修改所述识别文本所得的修改文本更新所述辅助语音模型。
3.根据权利要求1所述的方法,其特征在于,所述语音模型包括通用语音模型和辅助语音模型;所述根据所述识别文本和修改所述识别文本所得的修改文本更新所述语音模型之后,所述方法还包括:
获取新的音频;
通过所述通用语音模型处理所述新的音频,得到相应的识别文本;
通过所述辅助语音模型,当检测所得的识别文本中包含有与所述修改文本对应的内容,将所得的识别文本中与所述修改文本对应的内容替换为修改文本。
4.根据权利要求1所述的方法,其特征在于,所述音频与会议号对应;所述将所述识别文本和所述翻译文本发送至用户终端,包括:
将所述识别文本和所述翻译文本发送至通过所述会议号接入的用户终端;
所述方法还包括:
接收所述用户终端中的任一终端所反馈的评论信息;
在通过所述会议号接入的各用户终端间同步所述评论信息。
5.根据权利要求1所述的方法,其特征在于,所述音频与会议号对应;所述将所述识别文本和所述翻译文本发送至用户终端,包括:
将所述识别文本和所述翻译文本发送至通过所述会议号接入的用户终端;
所述方法还包括:
根据所述会议号对应存储所述识别文本和所述翻译文本;
当所述加权累积值达到阈值时,根据所得到的修改文本,对与所述会议号对应存储的识别文本和翻译文本进行更新;
当接收到通过所述会议号接入的用户终端所发送的同步请求时,向发起所述同步请求的用户终端,反馈与所述会议号对应存储的更新后的识别文本和翻译文本。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述方法还包括:
统计与所述用户终端的标识对应的文本修改次数;
检测所述用户终端的标识对应的文本修改正确率;
当所述文本修改次数达到修改次数阈值、且所述文本修改正确率达到文本修改正确率阈值时,调高与所述用户终端的标识对应的权重。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
建立与用户终端的通信连接;
将同声传译列表发送至所述用户终端,以便所述用户终端根据用户指令选择所述同声传译列表中的会议号,访问与所述会议号对应的同声传译会议。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
接收用户终端携带有会议号和用户标识的访问请求;
根据所述用户标识,确定所述用户终端是否有访问与所述会议号对应的同声传译会议的权限;
若具有访问所述同声传译会议的权限,则允许所述用户终端的访问。
9.一种基于同声传译的数据处理装置,包括:
获取模块,用于获取音频;
处理模块,用于通过语音模型处理所述音频得到识别文本,以及通过翻译模型处理所述识别文本得到翻译文本;
发送模块,用于将所述识别文本和所述翻译文本发送至用户终端;
接收模块,用于接收所述用户终端所反馈的、对所述识别文本和所述翻译文本进行修改后所得到的修改文本;
更新模块,用于按照与所述用户终端的标识对应的权重,确定所述修改文本的加权累积值;当所述加权累积值达到阈值时,根据所述识别文本和修改所述识别文本所得的修改文本更新所述语音模型,根据所述翻译文本和修改所述翻译文本所得的修改文本更新所述翻译模型。
10.根据权利要求9所述的装置,其特征在于,所述语音模型包括通用语音模型和辅助语音模型;所述识别文本是通过所述通用语音模型对所述音频进行语音识别得到;
当所述识别文本出现错误时,通过所述辅助语音模型更新所述识别文本得到识别更新文本;
所述更新模块,还用于根据所述识别文本和修改所述识别文本所得的修改文本更新所述辅助语音模型。
11.根据权利要求9所述的装置,其特征在于,所述语音模型包括通用语音模型和辅助语音模型;所述装置还包括:
所述获取模块,还用于获取新的音频;
所述处理模块,还用于通过所述通用语音模型处理所述新的音频,得到相应的识别文本;
替换模块,用于通过所述辅助语音模型,当检测所得的识别文本中包含有与所述修改文本对应的内容,将所得的识别文本中与所述修改文本对应的内容替换为修改文本。
12.根据权利要求9所述的装置,其特征在于,所述音频与会议号对应;所述装置还包括:
所述发送模块,还用于将所述识别文本和所述翻译文本发送至通过所述会议号接入的用户终端;
所述接收模块,还用于接收所述用户终端中的任一终端所反馈的评论信息;
同步模块,用于在通过所述会议号接入的各用户终端间同步所述评论信息。
13.根据权利要求9所述的装置,其特征在于,所述音频与会议号对应;所述装置还包括:
所述发送模块,还用于将所述识别文本和所述翻译文本发送至通过所述会议号接入的用户终端;
存储模块,用于根据所述会议号对应存储所述识别文本和所述翻译文本;
所述更新模块,还用于当所述加权累积值达到阈值时,根据所得到的修改文本,对与所述会议号对应存储的识别文本和翻译文本进行更新;
反馈模块,用于当接收到通过所述会议号接入的用户终端所发送的同步请求时,向发起所述同步请求的用户终端,反馈与所述会议号对应存储的更新后的识别文本和翻译文本。
14.根据权利要求9至13任一项所述的装置,其特征在于,所述装置还包括:
统计模块,用于统计与所述用户终端的标识对应的文本修改次数;
检测模块,用于检测所述用户终端的标识对应的文本修改正确率;
调整模块,用于当所述文本修改次数达到修改次数阈值、且所述文本修改正确率达到文本修改正确率阈值时,调高与所述用户终端的标识对应的权重。
15.根据权利要求9所述的装置,其特征在于,所述装置还包括:
所述发送模块,还用于建立与用户终端的通信连接;将同声传译列表发送至所述用户终端,以便所述用户终端根据用户指令选择所述同声传译列表中的会议号,访问与所述会议号对应的同声传译会议。
16.根据权利要求15所述的装置,其特征在于,所述装置还包括:
所述接收模块,还用于接收用户终端携带有会议号和用户标识的访问请求;
确定模块,用于根据所述用户标识,确定所述用户终端是否有访问与所述会议号对应的同声传译会议的权限;若具有访问所述同声传译会议的权限,则允许所述用户终端的访问。
17.一种同声传译系统,其特征在于,所述系统包括:同声传译客户端、服务器和用户终端;其中:
所述同声传译客户端,用于采集音频,并将所述音频发送至服务器;
所述服务器,用于通过语音模型处理所述音频得到识别文本,以及通过翻译模型处理所述识别文本得到翻译文本,将所述识别文本和所述翻译文本发送至用户终端;
所述用户终端,用于获取与所述识别文本和所述翻译文本对应的修改文本,并将所述修改文本发送至所述服务器;
所述服务器还用于按照与所述用户终端的标识对应的权重,确定所述修改文本的加权累积值;当所述加权累积值达到阈值时,根据所述识别文本和修改所述识别文本所得的修改文本更新所述语音模型,根据所述翻译文本和修改所述翻译文本所得的修改文本更新所述翻译模型。
18.根据权利要求17所述的系统,其特征在于,所述服务器包括:语音服务器;
所述语音服务器,用于通过通用语音模型识别所述音频,获得识别文本;当所述识别文本出现错误时,通过辅助语音模型对所述识别文本进行检测更新,获得识别更新文本;
所述语音服务器,还用于根据所述识别文本和修改所述识别文本所得的修改文本更新所述辅助语音模型。
19.根据权利要求18所述的系统,其特征在于,所述服务器包括:翻译服务器;
所述翻译服务器,用于对所述识别文本进行翻译,获得目标语种的翻译文本;或者,当所述识别文本出现错误时,对所述识别更新文本进行翻译,获得目标语种的翻译文本。
20.根据权利要求17所述的系统,其特征在于,所述音频与会议号对应;
所述服务器,还用于将所述文本发送至通过所述会议号接入的用户终端;
所述用户终端,还用于获取评论信息,并向所述服务器进行反馈;
所述服务器,还用于当接收所述用户终端中的任一终端所反馈的评论信息时,在通过所述会议号接入的各用户终端间同步所述评论信息。
21.根据权利要求17所述的系统,其特征在于,所述音频与会议号对应;
所述服务器,用于将所述识别文本和所述翻译文本发送至通过所述会议号接入的用户终端;根据所述会议号对应存储所述识别文本和所述翻译文本;当所述加权累积值达到阈值时,根据所得到的修改文本,对与所述会议号对应存储的识别文本和翻译文本进行更新;当接收到通过所述会议号接入的用户终端所发送的同步请求时,向发起所述同步请求的用户终端,反馈与所述会议号对应存储的更新后的识别文本和翻译文本。
22.根据权利要求17至21任一项所述的系统,其特征在于,所述系统还包括:
所述服务器,还用于统计与所述用户终端的标识对应的文本修改次数;检测所述用户终端的标识对应的文本修改正确率;当所述文本修改次数达到修改次数阈值、且所述文本修改正确率达到文本修改正确率阈值时,调高与所述用户终端的标识对应的权重。
23.根据权利要求17所述的系统,其特征在于,所述服务器,还用于建立与用户终端的通信连接;将同声传译列表发送至所述用户终端;
所述用户终端,还用于根据用户指令选择所述同声传译列表中的会议号,访问与所述会议号对应的同声传译会议。
24.根据权利要求23所述的系统,其特征在于,所述服务器,还用于接收用户终端携带有会议号和用户标识的访问请求;根据所述用户标识,确定所述用户终端是否有访问与所述会议号对应的同声传译会议的权限;若具有访问所述同声传译会议的权限,则允许所述用户终端的访问。
25.一种存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。
26.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至8中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910746171.1A CN110444197B (zh) | 2018-05-10 | 2018-05-10 | 基于同声传译的数据处理方法、装置、系统和存储介质 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810443090.XA CN108615527B (zh) | 2018-05-10 | 2018-05-10 | 基于同声传译的数据处理方法、装置和存储介质 |
CN201910746171.1A CN110444197B (zh) | 2018-05-10 | 2018-05-10 | 基于同声传译的数据处理方法、装置、系统和存储介质 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810443090.XA Division CN108615527B (zh) | 2018-05-10 | 2018-05-10 | 基于同声传译的数据处理方法、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110444197A CN110444197A (zh) | 2019-11-12 |
CN110444197B true CN110444197B (zh) | 2023-01-03 |
Family
ID=63662720
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910746171.1A Active CN110444197B (zh) | 2018-05-10 | 2018-05-10 | 基于同声传译的数据处理方法、装置、系统和存储介质 |
CN201810443090.XA Active CN108615527B (zh) | 2018-05-10 | 2018-05-10 | 基于同声传译的数据处理方法、装置和存储介质 |
CN201910745319.XA Active CN110444196B (zh) | 2018-05-10 | 2018-05-10 | 基于同声传译的数据处理方法、装置、系统和存储介质 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810443090.XA Active CN108615527B (zh) | 2018-05-10 | 2018-05-10 | 基于同声传译的数据处理方法、装置和存储介质 |
CN201910745319.XA Active CN110444196B (zh) | 2018-05-10 | 2018-05-10 | 基于同声传译的数据处理方法、装置、系统和存储介质 |
Country Status (4)
Country | Link |
---|---|
US (1) | US12087290B2 (zh) |
EP (1) | EP3792916B1 (zh) |
CN (3) | CN110444197B (zh) |
WO (1) | WO2019214359A1 (zh) |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108196930B (zh) * | 2018-01-18 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 应用程序处理方法、装置、存储介质和计算机设备 |
CN110444197B (zh) | 2018-05-10 | 2023-01-03 | 腾讯科技(北京)有限公司 | 基于同声传译的数据处理方法、装置、系统和存储介质 |
CN111031329B (zh) * | 2018-10-10 | 2023-08-15 | 北京默契破冰科技有限公司 | 一种用于管理音频数据的方法、设备和计算机存储介质 |
CN111107380B (zh) * | 2018-10-10 | 2023-08-15 | 北京默契破冰科技有限公司 | 一种用于管理音频数据的方法、设备和计算机存储介质 |
CN111083421A (zh) * | 2018-10-19 | 2020-04-28 | 珠海金山办公软件有限公司 | 一种表格文档展示方法及装置 |
CN109561081B (zh) * | 2018-11-13 | 2023-04-07 | 平安科技(深圳)有限公司 | 移动终端视频会议方法、装置及存储介质、服务器 |
CN110381389B (zh) * | 2018-11-14 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 一种基于人工智能的字幕生成方法和装置 |
CN111506278A (zh) * | 2019-01-30 | 2020-08-07 | 阿里巴巴集团控股有限公司 | 数据同传的方法、音频翻译的方法、装置和系统 |
CN111508484B (zh) * | 2019-01-31 | 2024-04-19 | 阿里巴巴集团控股有限公司 | 语音数据的处理方法及装置 |
CN110047488B (zh) * | 2019-03-01 | 2022-04-12 | 北京彩云环太平洋科技有限公司 | 语音翻译方法、装置、设备及控制设备 |
CN110085256B (zh) * | 2019-03-21 | 2021-11-19 | 视联动力信息技术股份有限公司 | 信息处理方法和装置 |
CN110059313B (zh) * | 2019-04-03 | 2021-02-12 | 百度在线网络技术(北京)有限公司 | 翻译处理方法和装置 |
CN110401889A (zh) * | 2019-08-05 | 2019-11-01 | 深圳市小瑞科技股份有限公司 | 基于usb控制的多路蓝牙麦克风系统和使用方法 |
CN114223029A (zh) * | 2019-08-13 | 2022-03-22 | 三星电子株式会社 | 支持装置进行语音识别的服务器及服务器的操作方法 |
CN114556969A (zh) * | 2019-11-27 | 2022-05-27 | 深圳市欢太科技有限公司 | 数据处理方法、装置和存储介质 |
CN111178086B (zh) * | 2019-12-19 | 2024-05-17 | 北京搜狗科技发展有限公司 | 数据处理方法、装置和介质 |
CN111177353B (zh) * | 2019-12-27 | 2023-06-09 | 赣州得辉达科技有限公司 | 文本记录生成方法、装置、计算机设备及存储介质 |
CN111526133B (zh) * | 2020-04-10 | 2022-02-25 | 阿卡都(北京)科技有限公司 | 远程同传系统中展示译员信息的方法 |
CN113628626B (zh) * | 2020-05-09 | 2024-06-25 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置和系统以及翻译方法和系统 |
CN111639503B (zh) * | 2020-05-22 | 2021-10-26 | 腾讯科技(深圳)有限公司 | 会议数据处理方法、装置、存储介质及设备 |
US11818373B1 (en) * | 2020-09-08 | 2023-11-14 | Block, Inc. | Machine-learning based data compression for streaming media |
CN114338643A (zh) * | 2020-09-25 | 2022-04-12 | 北京有竹居网络技术有限公司 | 一种数据处理方法、装置、客户端、服务端及存储介质 |
CN112241632A (zh) * | 2020-10-14 | 2021-01-19 | 国家电网有限公司 | 一种基于语音ai智能会议系统及其实现方法 |
CN112232092A (zh) * | 2020-10-15 | 2021-01-15 | 安徽听见科技有限公司 | 具备机器与人工协同模式的同声传译方法以及系统 |
CN112164392A (zh) * | 2020-11-13 | 2021-01-01 | 北京百度网讯科技有限公司 | 确定显示的识别文本的方法、装置、设备以及存储介质 |
CN112599130B (zh) * | 2020-12-03 | 2022-08-19 | 安徽宝信信息科技有限公司 | 一种基于智慧屏的智能会议系统 |
CN112601101B (zh) * | 2020-12-11 | 2023-02-24 | 北京有竹居网络技术有限公司 | 一种字幕显示方法、装置、电子设备及存储介质 |
CN112601102A (zh) * | 2020-12-11 | 2021-04-02 | 北京有竹居网络技术有限公司 | 同声传译字幕的确定方法、装置、电子设备及存储介质 |
CN112580371A (zh) * | 2020-12-25 | 2021-03-30 | 江苏鑫盛通讯科技有限公司 | 一种基于人工智能的人机耦合客服系统及方法 |
CN113689862B (zh) * | 2021-08-23 | 2024-03-22 | 南京优飞保科信息技术有限公司 | 一种客服坐席语音数据的质检方法和系统 |
CN113891168B (zh) * | 2021-10-19 | 2023-12-19 | 北京有竹居网络技术有限公司 | 字幕处理方法、装置、电子设备和存储介质 |
CN114913857B (zh) * | 2022-06-23 | 2024-09-20 | 中译语通科技股份有限公司 | 基于多语言会议系统的实时转写方法、系统、设备及介质 |
CN116384418B (zh) * | 2023-05-24 | 2023-08-15 | 深圳市微克科技有限公司 | 一种应用智能手表进行翻译的数据处理方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007121441A2 (en) * | 2006-04-17 | 2007-10-25 | Vovision Llc | Methods and systems for correcting transcribed audio files |
CN106486125A (zh) * | 2016-09-29 | 2017-03-08 | 安徽声讯信息技术有限公司 | 一种基于语音识别技术的同声传译系统 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19910236A1 (de) * | 1999-03-09 | 2000-09-21 | Philips Corp Intellectual Pty | Verfahren zur Spracherkennung |
US6529866B1 (en) * | 1999-11-24 | 2003-03-04 | The United States Of America As Represented By The Secretary Of The Navy | Speech recognition system and associated methods |
US9818136B1 (en) * | 2003-02-05 | 2017-11-14 | Steven M. Hoffberg | System and method for determining contingent relevance |
US8204884B2 (en) * | 2004-07-14 | 2012-06-19 | Nice Systems Ltd. | Method, apparatus and system for capturing and analyzing interaction based content |
US8249854B2 (en) * | 2005-05-26 | 2012-08-21 | Microsoft Corporation | Integrated native language translation |
CN2884704Y (zh) * | 2005-11-30 | 2007-03-28 | 刘永权 | 实时通讯翻译装置 |
US8972268B2 (en) * | 2008-04-15 | 2015-03-03 | Facebook, Inc. | Enhanced speech-to-speech translation system and methods for adding a new word |
CN101458681A (zh) | 2007-12-10 | 2009-06-17 | 株式会社东芝 | 语音翻译方法和语音翻译装置 |
CN101697581B (zh) * | 2009-10-26 | 2012-11-21 | 华为终端有限公司 | 支持同声传译视讯会议的方法、装置及系统 |
CN102360347A (zh) * | 2011-09-30 | 2012-02-22 | 宇龙计算机通信科技(深圳)有限公司 | 一种语音翻译方法、系统及语音翻译服务器 |
CN103885783A (zh) * | 2014-04-03 | 2014-06-25 | 深圳市三脚蛙科技有限公司 | 一种应用程序的语音控制方法及装置 |
CN103929666B (zh) * | 2014-04-14 | 2017-11-03 | 深圳情景智能有限公司 | 一种连续语音交互方法及装置 |
US20160026730A1 (en) * | 2014-07-23 | 2016-01-28 | Russell Hasan | Html5-based document format with parts architecture |
CN104462186A (zh) * | 2014-10-17 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 一种语音搜索方法及装置 |
CN105589850A (zh) * | 2014-10-21 | 2016-05-18 | 青岛鑫益发工贸有限公司 | 阅读翻译器 |
US9697201B2 (en) * | 2014-11-24 | 2017-07-04 | Microsoft Technology Licensing, Llc | Adapting machine translation data using damaging channel model |
KR20160081244A (ko) * | 2014-12-31 | 2016-07-08 | 한국전자통신연구원 | 자동 통역 시스템 및 이의 동작 방법 |
US9953073B2 (en) * | 2015-05-18 | 2018-04-24 | Oath Inc. | System and method for editing dynamically aggregated data |
CN105159870B (zh) * | 2015-06-26 | 2018-06-29 | 徐信 | 一种精准完成连续自然语音文本化的处理系统及方法 |
US10325590B2 (en) | 2015-06-26 | 2019-06-18 | Intel Corporation | Language model modification for local speech recognition systems using remote sources |
KR102195627B1 (ko) * | 2015-11-17 | 2020-12-28 | 삼성전자주식회사 | 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법 |
CN105512113B (zh) * | 2015-12-04 | 2019-03-19 | 青岛冠义科技有限公司 | 交流式语音翻译系统及翻译方法 |
CN105551488A (zh) * | 2015-12-15 | 2016-05-04 | 深圳Tcl数字技术有限公司 | 语音控制方法及系统 |
US10418026B2 (en) * | 2016-07-15 | 2019-09-17 | Comcast Cable Communications, Llc | Dynamic language and command recognition |
RU2626657C1 (ru) * | 2016-11-01 | 2017-07-31 | Общество с ограниченной ответственностью "Аби Девелопмент" | Определение последовательности команд вывода текста в pdf документах |
CN107046523A (zh) * | 2016-11-22 | 2017-08-15 | 深圳大学 | 一种基于个人移动终端的同声传译方法及客户端 |
CN107678561A (zh) * | 2017-09-29 | 2018-02-09 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语音输入纠错方法及装置 |
US10498898B2 (en) * | 2017-12-13 | 2019-12-03 | Genesys Telecommunications Laboratories, Inc. | Systems and methods for chatbot generation |
CN110444197B (zh) * | 2018-05-10 | 2023-01-03 | 腾讯科技(北京)有限公司 | 基于同声传译的数据处理方法、装置、系统和存储介质 |
-
2018
- 2018-05-10 CN CN201910746171.1A patent/CN110444197B/zh active Active
- 2018-05-10 CN CN201810443090.XA patent/CN108615527B/zh active Active
- 2018-05-10 CN CN201910745319.XA patent/CN110444196B/zh active Active
-
2019
- 2019-03-28 WO PCT/CN2019/080027 patent/WO2019214359A1/zh active Application Filing
- 2019-03-28 EP EP19799122.7A patent/EP3792916B1/en active Active
-
2020
- 2020-07-28 US US16/941,503 patent/US12087290B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2007121441A2 (en) * | 2006-04-17 | 2007-10-25 | Vovision Llc | Methods and systems for correcting transcribed audio files |
CN106486125A (zh) * | 2016-09-29 | 2017-03-08 | 安徽声讯信息技术有限公司 | 一种基于语音识别技术的同声传译系统 |
Also Published As
Publication number | Publication date |
---|---|
EP3792916B1 (en) | 2023-07-12 |
CN108615527A (zh) | 2018-10-02 |
WO2019214359A1 (zh) | 2019-11-14 |
CN110444197A (zh) | 2019-11-12 |
US20200357389A1 (en) | 2020-11-12 |
EP3792916A4 (en) | 2021-06-30 |
US12087290B2 (en) | 2024-09-10 |
CN110444196B (zh) | 2023-04-07 |
CN110444196A (zh) | 2019-11-12 |
CN108615527B (zh) | 2021-10-15 |
EP3792916C0 (en) | 2023-07-12 |
EP3792916A1 (en) | 2021-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110444197B (zh) | 基于同声传译的数据处理方法、装置、系统和存储介质 | |
CN110517689B (zh) | 一种语音数据处理方法、装置及存储介质 | |
US20090012788A1 (en) | Sign language translation system | |
EP2770445A2 (en) | Method and system for supporting a translation-based communication service and terminal supporting the service | |
EP1486949A1 (en) | Audio video conversion apparatus and method, and audio video conversion program | |
US20230047858A1 (en) | Method, apparatus, electronic device, computer-readable storage medium, and computer program product for video communication | |
CN111639503B (zh) | 会议数据处理方法、装置、存储介质及设备 | |
CN112423081B (zh) | 一种视频数据处理方法、装置、设备及可读存储介质 | |
Lavie et al. | Architecture and design considerations in nespole!: a speech translation system for e-commerce applications | |
CN114064943A (zh) | 会议管理方法、装置、存储介质及电子设备 | |
US20230326369A1 (en) | Method and apparatus for generating sign language video, computer device, and storage medium | |
CN113763925A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
KR101351264B1 (ko) | 음성인식 기반의 메시징 통역서비스 제공 시스템 및 그 방법 | |
CN111160051A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
KR20200049404A (ko) | 장애인을 위한 동시통역 서비스 제공 시스템 및 그 방법 | |
CN112818708B (zh) | 多终端多语种视频会议的语音翻译实时处理系统与方法 | |
CN114467141A (zh) | 语音处理方法、装置、设备以及存储介质 | |
JP2016024378A (ja) | 情報処理装置、その制御方法及びプログラム | |
KR102248701B1 (ko) | 다국어 음성 자동 통역 채팅시 통역의 시점과 종점과 소정 정보 제공을 소정의 음성으로 제어하는 방법 | |
KR102546532B1 (ko) | 발화 영상 제공 방법 및 이를 수행하기 위한 컴퓨팅 장치 | |
KR102644927B1 (ko) | 수어 통역 서비스를 제공하는 온라인 다방향 소통 시스템 | |
JP7284204B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
CN112818705B (zh) | 基于组间共识的多语种语音翻译系统与方法 | |
CN117376653A (zh) | 直播互动摘要生成方法、装置、存储介质以及电子设备 | |
CN112883350A (zh) | 一种数据处理方法、装置、电子设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |