CN114239610A - 多国语言语音辨识及翻译方法与相关的系统 - Google Patents

多国语言语音辨识及翻译方法与相关的系统 Download PDF

Info

Publication number
CN114239610A
CN114239610A CN202110980746.3A CN202110980746A CN114239610A CN 114239610 A CN114239610 A CN 114239610A CN 202110980746 A CN202110980746 A CN 202110980746A CN 114239610 A CN114239610 A CN 114239610A
Authority
CN
China
Prior art keywords
participant
module
audio
result
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110980746.3A
Other languages
English (en)
Inventor
吴岳桐
李竣颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Pegatron Corp
Original Assignee
Pegatron Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pegatron Corp filed Critical Pegatron Corp
Publication of CN114239610A publication Critical patent/CN114239610A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • G06V40/171Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60TVEHICLE BRAKE CONTROL SYSTEMS OR PARTS THEREOF; BRAKE CONTROL SYSTEMS OR PARTS THEREOF, IN GENERAL; ARRANGEMENT OF BRAKING ELEMENTS ON VEHICLES IN GENERAL; PORTABLE DEVICES FOR PREVENTING UNWANTED MOVEMENT OF VEHICLES; VEHICLE MODIFICATIONS TO FACILITATE COOLING OF BRAKES
    • B60T7/00Brake-action initiating means
    • B60T7/12Brake-action initiating means for automatic initiation; for initiation not subject to will of driver or passenger
    • B60T7/22Brake-action initiating means for automatic initiation; for initiation not subject to will of driver or passenger initiated by contact of vehicle, e.g. bumper, with an external object, e.g. another vehicle, or by means of contactless obstacle detectors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/263Language identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明提供一种用于会议中的多国语言语音辨识与翻译方法与相关的系统。该会议包含至少一参与人,并且该方法包含:于一服务器端接收至少一终端装置所产生的至少一音频数据与至少一视频数据;辨识该至少一视频数据,产生关于该至少一参与人的数目、该至少一参与人的种族、至少一参与人于说话时的肢体动作及脸部动作的影像辨识结果;根据该影像辨识结果以及至少一音频数据产生至少一语系辨识结果以及据此得到对应该至少一参与人的多个音频区段;对所述音频区段进行语音辨识以及翻译;以及将该翻译结果显示于至少一终端装置上。

Description

多国语言语音辨识及翻译方法与相关的系统
技术领域
本发明涉及到语音辨识与翻译技术,尤指一种参考视频数据进行多国语言语音辨识与翻译的方法以及相关系统。
背景技术
在涉及多国语言的会议中,语音辨识与翻译系统被用来针对不同发语者的谈话内容,进行即时的语音辨识以及翻译,从而让会议更流畅地进行。这种系统同时整合了自动化的语系辨识、语音辨识以及语言翻译等技术。
现有的多国语言语音辨识与翻译技术,大多是通过语音辨识技术把语音转成文字,再针对文字进行翻译。因此,语音辨识的准确度便会影响翻译结果的正确性。
发明内容
有鉴于以上的问题,本发明提出一种创新的多国语言即时语音辨识与翻译方法及系统,可有效地解决现有技术无法妥善处理的同音词以及多语者环境等情况。其中,本发明利用会议现场的视频数据,对会议参与人进行多种状态的判断,以结合同音词以及多语者环境的辨识模型,在语音辨识的阶段中,厘清同音词以及多语者环境,提升语音辨识的准确度。
本发明的一实施例提供一种用于会议中的多国语言语音辨识与翻译方法。该会议包含至少一参与人,并且该方法包含:于一服务器端接收至少一终端装置所产生的至少一音频数据与至少一视频数据;辨识该至少一视频数据,以产生一第一影像辨识结果以及一第二影像辨识结果,该第一影像辨识结果包含该至少一参与人的数目及该至少一参与人的种族以及该第二影像辨识结果包含该至少一参与人于说话时的肢体动作及脸部动作;基于该第一影像辨识结果以及该至少一音频数据,产生至少一语系辨识结果;基于该第一影像辨识结果及该第二影像辨识结果,切割该至少一音频数据,从而产生对应该至少一参与人的多个音频区段;根据该至少一语系辨识结果,语音辨识所述音频区段,将所述音频区段转换成一文字内容;根据该至少一语系辨识结果,翻译该文字内容;以及显示该已翻译的文字内容于该至少一终端装置上。
本发明提供一种用于一会议中的服务器端。该会议包含至少一参与人。该服务器端包含:一视频预处理模块、一语音辨识模块以及一翻译模块。该视频预处理模块用于根据至少一终端装置所传送的至少一视频数据产生一第一影像辨识结果与一第二影像辨识结果。其中该第一影像辨识结果包含该至少一参与人的数目及该至少一参与人的种族,以及该第二影像辨识结果包含该至少一参与人于说话时的肢体动作及脸部动作。该语音辨识模块用以基于该第一影像辨识结果以及该至少一音频数据,产生至少一语系辨识结果;并且还用以基于该第一影像辨识结果及该第二影像辨识结果,切割该至少一音频数据,从而产生对应该至少一参与人的多个音频区段。并且,该语音辨识模块中的一发语者分群子模块,用以根据该至少一语系辨识结果,语音辨识所述音频区段,以将所述音频区段转换成一文字内容。该翻译模块包含一平行式多国语言翻译子模块,其中,该平行式多国语言翻译子模块用以根据该至少一语系辨识结果,翻译该文字内容,使已翻译的文字内容显示于该至少一终端装置。
附图说明
图1为本发明实施例的多国语言语音辨识与翻译系统的简化架构图。
图2A~图2H绘示了本发明多国语言语音辨识与翻译系统中的各个模块的详细实施架构图。
图3绘示了本发明实施例的多国语言语音辨识与翻译方法的简化流程图。
其中,附图标记说明如下:
10 多国语言语音辨识与翻译系统
20 终端装置
30 服务器端
100 前端硬件
110 前端软件管理模块
120 音频预处理模块
130 视频预处理模块
140 云端数据库服务模块
150 语音辨识模块
160 辨识校正模块
170 翻译模块
101 麦克风
102 摄影机
103 视窗屏幕
111 麦克风控制子模块
112 摄影机控制子模块
113 云端数据库连线子模块
114 操作界面管理子模块
121 原始信号处理子模块
122 语音特征撷取子模块
123 语系辨识子模块
131 人数检测子模块
132 距离检测子模块
133 活动辨识子模块
134 唇形辨识子模块
135 人种辨识子模块
136 人脸辨识子模块
137 个人词汇撷取子模块
141 个人专用字词库
142 语音辨识与翻译数据库
143 终端装置媒体缓存子模块
151 音频与视觉数据匹配子模块
152 发语者分群子模块
153 即时语音辨识子模块
161 字词辨识修正子模块
162 第一更新控制子模块
171 平行式多国语言翻译子模块
172 第二更新控制子模块
310~370 步骤
具体实施方式
针对前述所提到的同音词与多语者环境的情况,本方法的处理机制如下。针对同音词问题,本发明会在语音辨识阶段开始前,对每个字词进行语系辨识,从而缩小字词的辨识范围。如此一来,可减少不同语系之间的同音词问题,提升语音辨识的效率与精确度。再者,针对多语者环境,本发明会进行多语者语音特征自动分段标记。其中,在进行连续语音辨识的过程中,本发明会通过摄影机检测发语者的数量,藉此对音频内容进行语音特征分群,并且在分群完成之后再进行辨识,从而提高辨识结果的可读性。
请参考图1,该图为本发明实施例的多国语言语音辨识与翻译系统10的简化架构图。如图所示,本发明的多国语言语音辨识与翻译系统10包含:一终端装置20以及一服务器端30。终端装置20包含一前端硬件100与一前端软件管理模块110,而服务器端30包含一音频预处理模块120、一视频预处理模块130、一云端数据库服务模块140、一语音辨识模块150、一辨识校正模块160以及一翻译模块170。终端装置20与服务器端30可通过一个或多个有线/无线网线进行连接。
图2A~图2H则是进一步地绘示了构成前端硬件100、前端软件管理模块110、音频预处理模块120、视频预处理模块130、云端数据库服务模块140、语音辨识模块150、辨识校正模块160、翻译模块170中组成每一个模块的主要单元。
终端装置20的前端软硬件100包含:一个或多个麦克风101、一个或多个摄影机102以及一个或多个视窗屏幕103。其中,前端软硬件100可能为会议中不同参与人所使用的电子装置(,如:个人电脑、笔记本电脑、平板电脑、智能手机或嵌入式系统等)的集合。举例来说,麦克风101可以是内嵌或是外接于上述电子装置的收音装置,摄影机102可以是内嵌或是外接于上述电子装置的网络摄影机(webcam),而视窗屏幕103则是包含上述电子装置的屏幕与输入装置(如鼠标、触控板、键盘等)。在本发明部分实施例中,可能只有某些参与人的电子装置具备麦克风101与摄影机102。然而,由于语音辨识与翻译结果需要呈现给会议中的每个参与人,因此,在本发明的优选实施例中,会议的所有参与人的电子装置上都具备了视窗屏幕103,能即时看到会议画面与参与人的语音内容。
前端软件管理模块110用来管理在相同或者是不同电子装置中的前端硬件100设置。举例来说,设置在电子装置A上的前端软件管理模块110,可以通过无线或有线连线,分享麦克风101声音或摄影机102画面给电子装置B。再者,前端软件管理模块110包含:一麦克风控制子模块111、一摄影机控制子模块112、一云端数据库连线子模块113以及一操作界面管理子模块114。麦克风控制子模块111的作用在于启动前端硬件100中的一个或多个麦克风101的录音功能,并且根据当前场景(如,参与人的人数)决定最适当的录音参数(如,取样率等),从而使一个或多个麦克风101进行音频撷取,以产生音频数据。摄影机控制子模块112的作用在于启动前端硬件100中的一个或多个摄影机102的录影功能,并且根据当前场景决定最适当的录影参数,使一个或多个摄影机102进行视频撷取,进而产生视频数据。云端数据库连线子模块113的目的在于将前端硬件100中的一个或多个麦克风101所搜集到的音频数据、以及一个或多个摄影机102所搜集到的视频数据上传至云端数据库服务模块140(例如,以串流的形式)。请注意,以上说明中,并未具体指定被启动的麦克风101、摄影机102以及视窗屏幕103的数量,这是因为这与会议的形式有关。举例来说,在一个远端会议中,设置于不同地点的麦克风101、摄影机102以及视窗屏幕103可能都需要被使用,用来搜集身处于不同地点的会议参与人的音频与视频数据,并且提供翻译结果给每一个会议参与人,如此才能确保本发明的多国语言语音辨识与翻译系统能正常运作。然而,当会议仅在一个地点进行,则仅需启动较少的麦克风101、摄影机102以及视窗屏幕103,便可让本发明的多国语言语音辨识与翻译系统得以正常运作。
服务器端30的音频预处理模块120用于接收终端装置20所产生的音频数据。详细地来说,音频预处理模块120包含:一原始信号处理子模块121、一语音特征撷取子模块122以及一语系辨识子模块123。原始信号处理子模块121用于处理从一个或多个麦克风101所搜集到的原始音频信号(raw audio signal),从而输出音频信号。语音特征撷取子模块122用以从音频信号中撷取出语音特征数据。语系辨识子模块123用以将撷取出的语音特征数据与已知的一语系辨识模型进行比对,从而对语音所属的语系做出初步判断。在一实施例中,语系辨识模型可通过对不同语系的语音进行深度学习(deep learning)方式习得。
视频预处理模块130用于接收终端装置20所产生的视频数据,并具有发语者行为检测功能以及发语者身份辨识功能。发语者行为检测功能通过以下的子模块进行:一人数检测子模块131、一距离检测子模块132、一活动辨识子模块133以及一唇形辨识子模块134。人数检测子模块131用以根据一个或多个摄影机102所搜集到的视频数据,辨识出会议参与人的数目。距离检测子模块132用以根据视频数据,判断会议参与人与一个或多个麦克风101之间的距离。活动辨识子模块133用以根据一个或多个摄影机102所搜集到的视频数据,与已知的人体活动模型进行比对,从而辨识出会议参与人的活动(动作)。唇形辨识子模块134用以根据一个或多个摄影机102所搜集到的视频数据,辨识出发语者的唇部动作。
再者,发语者身份辨识功能主要通过以下的子模块进行:一人种辨识子模块135、一人脸辨识子模块136以及一个人词汇撷取子模块137。人种辨识子模块135用以根据一个或多个摄影机102所搜集到视频数据,与已知的人种模型进行比对,从而辨识出每一个会议参与人的种族,其中,人种辨识子模块135可能根据会议参与人的肤色,以及脸型轮廓来判断参与人的种族。人脸辨识子模块136根据一个或多个摄影机102所搜集到的视频数据,与已知的一人脸模型进行比对,从而辨识出会议参与人的身份,其中,若是人脸辨识子模块136辨识出会议参与人的身份(即,身份辨识成功),那么就可以直接确定该参与人所使用的语言,或者是取得该参与人最常使用的几种的语言,并且略过本发明的部份辨识流程,而直接根据该会议参与人所使用或常用的语系来进行语音辨识以及翻译。再者,个人词汇撷取子模块137根据人脸辨识子模块136辨识出的会议参与人身份,从云端数据库服务模块140撷取个人的专属字词库(若存在于云端数据库服务模块140中)。若是人脸辨识子模块136无法辨识出会议参与人的身份(即,身份辨识失败),云端数据库服务模块140则为该会议参与人建立一新的个人专属用字词库。
因此,通过人数检测子模块131所辨识出的会议参与人的数目,以及通过人种辨识子模块135所辨识出的会议参与人的种族,视频预处理模块130可以产生第一影像辨识结果。
再者,通过距离检测子模块132所辨识出的会议参与人与麦克风之间的距离、活动辨识子模块133所辨识出的会议参与人的肢体动作以及唇形辨识子模块134所辨识出的会议参与人的脸部动作,可以得到第二影像辨识结果。需注意的是,在本发明不同实施例中,第一影像辨识结果以及第二影像结果可在辨识视频数据时同时产生,或不同时产生,这些时间顺序的变化并非本发明的限制。
语音辨识模块包含150:一音频与视觉数据匹配子模块151、一发语者分群子模块152以及即时语音辨识子模块153。音频与视觉数据匹配子模块151用以将语系辨识子模块123所产生的初步语系辨识结果,与视频预处理模块130中的子模块所产生的辨识结果(例如,第一影像辨识结果)进行匹配,从而产生正确的语系辨识结果。其中,音频与视觉数据匹配子模块151根据人种辨识子模块135所辨识出的会议参与人的人种信息,与初步语系辨识结果进行匹配,从而产生正确的语系辨识结果。若该初步判断结果以及第一影像辨识结果不符时,则依据初步判断结果判断。举例来说,影像辨识结果判断其中一参与人的种族为亚洲人种,但是音频数据的初步判断结果为英语,则语系辨识结果会依初步判断结果为主。再者,发语者分群子模块152用以产生对应于音频数据的一分群结果,该分群结果将音频数据分作为多个音频区段。其中,发语者分群子模块152根据前述的第一影像辨识结果以及第二影像辨识结果,将音频数据的语音部分进行分段,得到对应于每个会议参与人的音频区段。即时语音辨识子模块153则是根据语系辨识结果将所述音频区段转换成文字内容(亦即将语音转换为具体文字)。
详细来说,本发明综合参考距离检测子模块132所辨识出的会议参与人与麦克风之间的距离、活动辨识子模块133所辨识出的会议参与人的肢体动作、以及唇形辨识子模块134所辨识出的会议参与人的脸部动作,判断会议的某个参与人是否进行发言,并且与音频数据中的语音进行匹配,以及确认每个参与人每次发言的起始点以及结束点。如此一来,便可将音频数据分割为多个音频区段。之后,根据该语系辨识结果,便可将每一个音频区段转换成对应于该语系辨识结果所指出的语言的文字内容。
在本发明实施例中,云端数据库服务模块140包含:一个人专用字词库141、一语音辨识与翻译数据库142以及一终端装置媒体缓存子模块143。个人专用字词库141用以存储各使用者的个人专属字词。需注意的是,此处的使用者不一定等同于会议的参与人。语音辨识与翻译数据库142用以保存经由深度学习所产生的翻译模型。终端装置媒体缓存子模块143用以缓存由云端数据库连线子模块113所上传的音频数据与视频数据,并且将音频数据与视频数据提供给音频预处理模块120、视频预处理模块130以及云端数据库服务模块140中的子模块进行相关处理。
在本发明实施例中,辨识校正模块160包含:一字词辨识修正子模块161以及一第一更新控制子模块162。字词辨识修正子模块161可针对即时语音辨识子模块153所得到的文字内容,根据一参考字词库(未绘示于图中)判断并且修正文字内容中的不合理字词。第一更新控制子模块162用以根据字词辨识修正子模块161的修正内容,要求个人专用字词库141更新其内容。
在本发明实施例中,翻译模块170包含:一平行式多国语言翻译子模块171以及一第二更新控制子模块172。平行式多国语言翻译子模块171根据语音辨识与翻译数据库142中所存储的翻译模型,对经过字词辨识修正子模块161所修正的文字内容,进行多国语言翻译。第二更新控制子模块172则可用以控制语音辨识与翻译数据库142,要求针对已翻译的文字内容,进行学习,并更新翻译模型,如此一来便可以通过反复的学习过程,提高翻译的准确性。另外,第二更新控制子模块172亦可基于使用者所反馈的内容,要求语音辨识与翻译数据库142修正其翻译模型。
针对上述多国语言语音辨识与翻译系统10的操作可归纳成一多国语言语音辨识与翻译方法。第3图绘示了本发明实施例的多国语言语音辨识与翻译方法的简化流程图。其中,该流程至少包含有以下步骤:
步骤310:于服务器端接收至少一终端装置所产生的至少一音频数据与至少一视频数据。
步骤320:辨识至少一视频数据,以产生第一影像辨识结果以及第二影像辨识结果,第一影像辨识结果包含至少一参与人的数目及至少一参与人的种族,第二影像辨识结果包含至少一参与人于说话时的肢体动作及脸部动作。
步骤330:基于第一影像辨识结果及音频数据,产生至少一语系辨识结果。
步骤340:基于第一影像辨识结果及第二影像辨识结果,切割至少一音频数据,从而产生对应至少一参与人的多个音频区段。
步骤350:根据至少一语系辨识结果,语音辨识多个音频区段,以将多个音频区段转换成文字内容。
步骤360:根据至少一语系辨识结果,翻译文字内容。
步骤370:传送已翻译的文字内容使其显示于至少一终端装置。
请注意,在其他实施例中,本发明的多国语言语音辨识与翻译方法的流程并不仅限定于以上所述的步骤以及顺序。根据先前段落中,针对本发明的多国语言语音辨识与翻译系统的说明内容可知,本发明的多国语言语音辨识与翻译方法可能还包含更多的步骤,用来提升语音辨识与翻译的效果。然为求说明书的简洁,此处仅列出与本案核心精神相关,且与解决先前技术所面临的技术问题有直接关联的步骤。本发明所属领域的技术人士,应可在深度理解本说明书的公开内容后,对于本发明的多国语言语音辨识与翻译方法的流程有更充分的理解与应用。
总结来说,本发明通过分析会议参与人的脸部特征,从而辨识出会议参与人的种族信息及其所用的语言,进而得到更准确的语系辨识结果,从而解决同音词的问题。另一方面,本发明也分析会议参与人的活动信息,例如与麦克风的距离,肢体活动,以及唇部动作,从而判断出发语者的数量以及每位发语者发言的时机,并且结合对声音特征的分析,进而判断出每一段语音是由哪一位会议参与人所发出,以精确地对发语者特征进行分群,从而解决多语者环境的问题。通过以上的技巧,本发明有效地提升了高语音辨识的准确度。由于改善了语音辨识的准确度,连带地提高了翻译的准确度。如此一来,本发明的多国语言语音辨识与翻译系统以及方法便可在涉及多国语言的会议中,提供高效率与高品质的语音辨识与翻译功能。
本发明的实施例可使用硬件、软件、固件以及其相关结合来完成。通过适当的一指令执行系统,可使用存储于一存储器中的软件或固件来实作本发明的实施例。就硬件而言,则是可应用下列任一技术或其相关结合来完成:具有可根据数据信号执行逻辑功能的逻辑闸的一个别运算逻辑、具有合适的组合逻辑闸的一特定应用集成电路(applicationspecific integrated circuit,ASIC)、可编程闸阵列(programmable gate array,PGA)或一现场可编程闸阵列(field programmable gate array,FPGA)等。
说明书内的流程图中的流程和方框示出了基于本发明的各种实施例的系统、方法和电脑软件产品所能实现的架构,功能和操作。在这方面,流程图或功能方框图中的每个方框可以代表程序码的模块,区段或者是部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。另外,功能方框图以及/或流程图中的每个方框,以及方框的组合,基本上可以由执行指定功能或动作的专用硬件系统来实现,或专用硬件和电脑程序指令的组合来实现。这些电脑程序指令还可以存储在电脑可读媒体中,该媒体可以使电脑或其他可编程数据处理装置以特定方式工作,使得存储在电脑可读媒体中的指令,实现流程图以及/或功能方框图中的方框所指定的功能/动作。
以上所述仅为本发明的优选实施例,凡依本发明权利要求所做的均等变化与修饰,皆应属本发明的涵盖范围。

Claims (18)

1.一种用于会议中的多国语言语音辨识与翻译的方法,该会议包含至少一参与人,其特征在于,该方法包含:
于一服务器端接收至少一终端装置于该会议中撷取的该至少一参与人的至少一音频数据与至少一视频数据;
辨识该至少一视频数据,以产生一第一影像辨识结果以及一第二影像辨识结果,该第一影像辨识结果包含该至少一参与人的数目及该至少一参与人的种族,以及该第二影像辨识结果包含该至少一参与人于说话时的肢体动作及脸部动作;
基于该第一影像辨识结果以及该至少一音频数据,产生至少一语系辨识结果;
基于该第一影像辨识结果及该第二影像辨识结果,切割该至少一音频数据,从而产生对应该至少一参与人的多个音频区段;
根据该至少一语系辨识结果,语音辨识所述音频区段,将所述音频区段转换成一文字内容;
根据该至少一语系辨识结果,翻译该文字内容;以及
传送已翻译的该文字内容使其显示于该至少一终端装置。
2.如权利要求1所述的方法,其特征在于,还包含:
从该至少一音频数据中撷取出语音特征数据;以及
根据该撷取出的语音特征数据与一语系辨识模型进行比对,产生一初步判断结果。
3.如权利要求2所述的方法,其特征在于,基于该第一影像辨识结果以及该音频数据产生该至少一语系辨识结果的步骤包含:
根据该初步判断结果以及该第一影像辨识结果,判断该至少一音频数据中包含的至少一语系,若该初步判断结果以及该第一影像辨识结果不符时,依据该初步判断结果判断。
4.如权利要求1所述的方法,其特征在于,切割该至少一音频数据,从而产生对应该至少一参与人的所述音频区段的步骤包含:
根据该第二影像辨识结果中该至少一参与人于说话时的脸部动作,决定该至少一参与人每次发言的一时间起始点以及一时间结束点,从而得到所述音频区段。
5.如权利要求1所述的方法,其特征在于,还包含:
根据该视频数据,对该至少一参与人进行身份辨识;
当身份辨识成功时,从一云端数据库服务模块中存取该至少一参与人相关的一个人专属用字词库,以及根据该个人专用字词库,提高与改善该至少一参与人的语音辨识结果与翻译结果;以及
当身份辨识失败时,为该至少一参与人建立一新个人专属用字词库。
6.如权利要求5所述的方法,另包含:
根据该至少一参与人的一使用者反馈,修改该个人专属用字词库。
7.如权利要求1所述的方法,其特征在于,还包含:
根据该至少一视频数据中该至少一参与人与一麦克风的距离,判断至少一发语者的数量以及各该发语者发言的时间,以产生该第二影像辨识结果;以及
根据该第二影像辨识结果,从而得到该多个音频区段。
8.如权利要求1所述的方法,其特征在于,还包含:
根据一参考字词库,校正该文字内容。
9.一种用于一会议中的服务器端,该会议包含至少一参与人,其特征在于,该服务器端包含:
一音频预处理模块,用于接收至少一终端装置所产生的至少一音频数据;
一视频预处理模块,用于接收该至少一终端装置所产生的至少一视频数据,根据终端装置该至少一视频数据产生一第一影像辨识结果与一第二影像辨识结果,该第一影像辨识结果包含该至少一参与人的数目及该至少一参与人的种族,以及该第二影像辨识结果包含该至少一参与人于说话时的肢体动作及脸部动作,该音频预处理模块基于该第一影像辨识结果以及该至少一音频数据,产生至少一语系辨识结果;
一语音辨识模块,用以切割该至少一音频数据,从而产生对应该至少一参与人的多个音频区段,该语音辨识模块包含一即时语音辨识子模块,其用以根据该至少一语系辨识结果,语音辨识所述音频区段,将所述音频区段转换成一文字内容;以及
一翻译模块,包含一平行式多国语言翻译子模块,该平行式多国语言翻译子模块用以根据该至少一语系辨识结果,翻译该文字内容,传送已翻译的文字内容,使其显示于该至少一终端装置。
10.如权利要求9所述的服务器端,其特征在于,该音频预处理模块还包含:
一语音特征撷取子模块,用以从该至少一音频数据中撷取出语音特征数据;以及一语系辨识子模块,用以根据该撷取出的语音特征数据与一语系辨识模型进行比对,产生一初步判断结果。
11.如权利要求10所述的服务器端,其特征在于,该视频预处理模块还包含一人数检测子模块以及一人种辨识子模块,该人数检测子模块用以根据该视频数据辨识该至少一参与人的数目,以及该人种辨识子模块用以根据该视频数据辨识该至少一参与人的种族;以及该语音辨识模块另包含一音频与视觉数据匹配子模块,用以根据该初步判断结果以及该第一影像辨识结果判断该至少一音频数据中包含的至少一语系。
12.如权利要求9所述的服务器端,其特征在于,该视频预处理模块还包含:
一人脸辨识组模块,用以根据该视频数据,对参与人进行身份辨识;
该语音辨识模块另包含一个人词汇撷取子模块,用以当身份辨识成功时存取该至少一参与人相关的一个人专属字词库,以及该平行式多国语言翻译子模块根据该个人专属字词库,产生翻译结果。
13.如权利要求12所述的服务器端,其特征在于,还包含一云端数据库服务模块,用以建立该至少一参与人相关的该个人专属字词库,当身份辨识失败时,该云端数据库服务模块为该至少一参与人建立一新个人专属用字词库。
14.如权利要求12所述的服务器端,其特征在于,该服务器端包含一更新控制子模块,用以根据该至少一参与人的使用者反馈,修改该个人专属用字词库。
15.如权利要求9所述的服务器端,其特征在于,该视频预处理模块包含:
一活动辨识子模块,用以根据该视频数据,辨识该至少一参与人的肢体动作;以及
一唇形辨识子模块,用以根据该视频数据,辨识该至少一参与人的脸部动作。
16.如权利要求15所述的服务器端,其特征在于,该视频预处理模块包含:
一距离检测子模块,用以根据该至少一视频数据中该至少一参与人与麦克风的距离,判断至少一发语者的数量以及各该发语者发言的时间,以产生该第二影像辨识结果以及该发语者分群子模块还根据该第二影像辨识结果,从而得到该多个音频区段。
17.如权利要求9所述的服务器端,其特征在于,该语音辨识模块还包含一发语者分群子模块,用以根据该至少一参与人与麦克风的距离、该第二影像辨识结果中该至少一参与人于说话时的脸部动作、该至少一音频数据,决定该至少一参与人每次发言的一时间起始点以及一时间结束点,从而得到所述音频区段。
18.如权利要求9所述的服务器端,其特征在于,还包含:
一字词辨识修正子模块,用以根据一参考字词库,校正该文字内容。
CN202110980746.3A 2020-09-07 2021-08-25 多国语言语音辨识及翻译方法与相关的系统 Pending CN114239610A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW109130562 2020-09-07
TW109130562A TWI769520B (zh) 2020-09-07 2020-09-07 多國語言語音辨識及翻譯方法與相關的系統

Publications (1)

Publication Number Publication Date
CN114239610A true CN114239610A (zh) 2022-03-25

Family

ID=80470026

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110980746.3A Pending CN114239610A (zh) 2020-09-07 2021-08-25 多国语言语音辨识及翻译方法与相关的系统

Country Status (3)

Country Link
US (1) US11881224B2 (zh)
CN (1) CN114239610A (zh)
TW (1) TWI769520B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102583764B1 (ko) * 2022-06-29 2023-09-27 (주)액션파워 외국어가 포함된 오디오의 음성 인식 방법
KR20240018229A (ko) * 2022-08-02 2024-02-13 김민구 시내퍼 모델을 이용한 자연어 처리 시스템 및 방법

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8010338B2 (en) * 2006-11-27 2011-08-30 Sony Ericsson Mobile Communications Ab Dynamic modification of a messaging language
US8515728B2 (en) * 2007-03-29 2013-08-20 Microsoft Corporation Language translation of visual and audio input
US10875525B2 (en) * 2011-12-01 2020-12-29 Microsoft Technology Licensing Llc Ability enhancement
US8874429B1 (en) * 2012-05-18 2014-10-28 Amazon Technologies, Inc. Delay in video for language translation
KR102365160B1 (ko) * 2014-07-31 2022-02-21 삼성전자주식회사 번역된 컨텐츠를 제공하기 위한 방법, 장치 및 시스템.
WO2017112813A1 (en) 2015-12-22 2017-06-29 Sri International Multi-lingual virtual personal assistant
TWM532593U (zh) * 2016-08-10 2016-11-21 Nat Taichung University Science & Technology 語音翻譯系統
TWM556360U (zh) 2017-07-31 2018-03-01 Huang Yan Ming 視訊同步翻譯系統
TWM574267U (zh) 2018-08-16 2019-02-11 張漢龍 即時語音自動同步轉譯字幕直播系統
CN110072075B (zh) * 2019-04-30 2022-05-13 平安科技(深圳)有限公司 一种基于人脸识别的会议管理方法、系统和可读存储介质
CN113923395A (zh) * 2020-07-07 2022-01-11 中兴通讯股份有限公司 一种提升会议质量的方法、设备和存储介质

Also Published As

Publication number Publication date
US11881224B2 (en) 2024-01-23
TWI769520B (zh) 2022-07-01
TW202211077A (zh) 2022-03-16
US20220076679A1 (en) 2022-03-10

Similar Documents

Publication Publication Date Title
US10878824B2 (en) Speech-to-text generation using video-speech matching from a primary speaker
EP3614377A1 (en) Object identifying method, computer device and computer readable storage medium
CN110517689B (zh) 一种语音数据处理方法、装置及存储介质
WO2016150001A1 (zh) 语音识别的方法、装置及计算机存储介质
US11315366B2 (en) Conference recording method and data processing device employing the same
US20150325240A1 (en) Method and system for speech input
CN104808794A (zh) 一种唇语输入方法和系统
Madhuri et al. Vision-based sign language translation device
CN110505504B (zh) 视频节目处理方法、装置、计算机设备及存储介质
CN110853646A (zh) 会议发言角色的区分方法、装置、设备及可读存储介质
CN114239610A (zh) 多国语言语音辨识及翻译方法与相关的系统
JP7279494B2 (ja) 会議支援装置、および会議支援システム
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
CN111402892A (zh) 一种基于语音识别的会议记录模板生成方法
KR20240053639A (ko) 제한된 스펙트럼 클러스터링을 사용한 화자-턴 기반 온라인 화자 구분
JP7400364B2 (ja) 音声認識システム及び情報処理方法
US11600279B2 (en) Transcription of communications
CN115909505A (zh) 手语识别设备的控制方法、装置、存储介质及电子设备
JP6754154B1 (ja) 翻訳プログラム、翻訳装置、翻訳方法、及びウェアラブル端末
US20220327961A1 (en) Realtime AI Sign Language Recognition
CN114373464A (zh) 文本展示方法、装置、电子设备及存储介质
CN114283493A (zh) 基于人工智能的识别系统
CN111464862A (zh) 一种基于语音识别和图像处理的视频截图方法
CN112542157A (zh) 语音处理方法、装置、电子设备及计算机可读存储介质
JP2016024378A (ja) 情報処理装置、その制御方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination