CN113505609A - 一种一键式多语言会议辅助翻译方法及具有该方法的设备 - Google Patents

一种一键式多语言会议辅助翻译方法及具有该方法的设备 Download PDF

Info

Publication number
CN113505609A
CN113505609A CN202110593517.6A CN202110593517A CN113505609A CN 113505609 A CN113505609 A CN 113505609A CN 202110593517 A CN202110593517 A CN 202110593517A CN 113505609 A CN113505609 A CN 113505609A
Authority
CN
China
Prior art keywords
language
translation
module
voice
conference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110593517.6A
Other languages
English (en)
Inventor
孟强祥
田俊麟
宋昱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Introduction Of Chinese Technology Shenzhen Co ltd
Original Assignee
Introduction Of Chinese Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Introduction Of Chinese Technology Shenzhen Co ltd filed Critical Introduction Of Chinese Technology Shenzhen Co ltd
Priority to CN202110593517.6A priority Critical patent/CN113505609A/zh
Publication of CN113505609A publication Critical patent/CN113505609A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • G06N5/041Abduction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种一键式多语言会议辅助翻译方法及具有该方法的设备,涉及语言翻译技术领域,翻译方法包括以下步骤:收录并存储多种语种信息、获取可能的语种、获取待翻译语音、获取判断语种结果、执行翻译转换源语言到目标语言、输出目标语言的语音和文字,翻译设备包括语音接收模块、语种设置模块、语种判断模块、语言翻译模块和输出模块。本发明通过建立多语种数据库和语种判断模型,在接收用户输入的语音后,判断该用户说话的语种,按照预先设置的目标语言进行翻译,将源语言翻译至目标语言,在会议过程中,可自动进行实时辅助翻译,从而实现无需用户操作可以直接翻译,极大提升用户体验。

Description

一种一键式多语言会议辅助翻译方法及具有该方法的设备
技术领域
本发明涉及语言翻译技术领域,具体涉及一种一键式多语言会议辅助翻译方法及具有该方法的设备。
背景技术
随着计算机性能的飞速提高,移动互联网的广泛应用,以及AI技术的突飞猛进,各种机器语言翻译产品被广泛的使用在旅游,会议,教育,自媒体等行业。随着国际交流的日益增强翻译产品在会议领域应用更加广泛和深入,各种移动式、桌面式的机器翻译产品翻译机、翻译耳机被广泛使用。但是这些翻译产品使用起来有局限和操作繁琐,只能给一方设置固定的一种语言,说出的语言和设置的不同会导致识别出意想不到的结果。比如翻译机有两个触发按键,一个按键A要预先设置其对应语言为中文,另一个按键B要设置为英语。要从中文翻译到英文,则要按下按键A,然后开始说话,说完后能够从中文翻译到英文,反之亦然。这样在实际使用中操作不方便,并且一旦搞错按键对应的语言,则完全翻译错误。
发明内容
本发明的目的是提供一种一键式多语言会议辅助翻译方法及具有该方法的设备,以解决现有技术中的上述不足之处。
为了实现上述目的,本发明提供如下技术方案:一种一键式多语言会议辅助翻译方法,包括以下步骤:
步骤一、收录并存储多种语种信息,包括语音和文字的同步对比数据,建立相应的多语种数据库,同时建立语种判断模型,以供语种判断使用;
步骤二、获取可能的语种,根据会议主要使用语种选择两种及以上语种信息,作为对比语种,用作语种判断模型的判断对比;
步骤三、获取待翻译语音,用户正常说话,实时检测并提取用户说出的带翻译语音,将待翻译语音信息输入到语种判断模型中;
步骤四、获取判断语种结果,通过语种判断模型,将获取的待翻译语音与预先输入的每个对比语种进行相似度对比打分,获取得分最高对比语种即为输入语言所属语种;
步骤五、执行翻译转换源语言到目标语言,当待翻译语言判断结果得出后,选择相应的翻译引擎将待翻译语种翻译为目标语言;
步骤六、输出目标语言的语音和文字,将翻译后的目标语言,提取相应语言所对应语音和文字信息,随后语音和文字同步输出。
优选的,所述步骤一种建立的语种判断模型包括n元语法(n-gram)模型,是基于(n-1)阶马尔可夫链的一种概率语言模型,通过n个语词出现的概率来推断语句的结构。语种判断模块可以将语音转化为文字,也可以不转化而直接使用语音。这取决于预先训练模型的方法。当输入源语音到判断模型中,经过打分给出结果。打分模型可采用贝叶斯推断,
Figure BDA0003090130080000021
其中:|表示某事件成立作为条件;
H表示假说;
E表示证据;
P(H)先验概率,是观察到E之前,H的概率;
P(H|E)后验概率,给定证据E,H的概率;
P(E|H)假定H成立,观察到E的改路。
P(E)边缘似然率。
优选的,会议过程中,重复步骤三至步骤六,不停地进行输入、语种判别、翻译和输出,直至会议对话结束,停止语音获取。
一种一键式多语言会议辅助翻译设备,包括语音接收模块,用于获取待翻译的源语音,所述语音接收模块连接有语种设置模块,所述语种设置模块接收和记录需要判断语种的类型,所述语种设置模块接连接有语种判断模块,所述语种判断模块主要由语种判断模型构成,用于存储和执行语种判断模型或对应的计算机程序,所述语种判断模块连接有语言翻译模块,将源语言翻译到目标语言,所述语言翻译模块连接有输出模块,所述输出模块将翻译结果通过文字和语音的方式输出翻译结果。
优选的,所述语种设置模块通过可视化的用户交互界面输入并保持。
优选的,所述源语音主要指包含说话人声的音频信号,该信号通过模数转换以数字方式传输或被处理。
优选的,语音辅助翻译设备还包括翻译结果记录模块,将语言翻译后每个语种都进行标识,按照标识对语种分类,同时将文字和语音在添加时间戳后,命名存于翻译结果记录模块中。
优选的,所述翻译结果记录模块包括语种分类模块,所述语种分类模块与语言翻译模块连接,用于将翻译的目标语言进行分类,所述语言分类模块连接有文字存储模块和语音存储模块,分别用于存储分类后的翻译语言进行文字和语音信息的单独存储。
在上述技术方案中,本发明提供的技术效果和优点:
本发明通过建立多语种数据库和语种判断模型,在会议过程中,一键开启辅助翻译设备,预先选择对比语种,通过语音接收模块获取待翻译语音,通过语种判断模块的语种判断模型对获取的待翻译语音与预先输入的每个对比语种进行相似度对比打分,获取得分最高对比语种即为输入语言所属语种,当待翻译语言判断结果得出后,选择相应的翻译引擎将待翻译语种翻译为目标语言,再将翻译后的目标语言,提取相应语言所对应语音和文字信息,随后语音和文字同步输出,整个过程反复循环进行,在会议过程中,仅一键开启并选择对比语种后无需进行操作,即可进行实时辅助翻译,从而实现无需用户操作可以直接翻译,极大提升用户体验。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明的流程图。
图2为本发明语音辅助翻译设备的系统组成图。
图3为本发明翻译结果记录模块的系统组成图。
具体实施方式
为了使本领域的技术人员更好地理解本发明的技术方案,下面将结合附图对本发明作进一步的详细介绍。
本发明提供了一种一键式多语言会议辅助翻译方法,包括以下步骤:
步骤一、收录并存储多种语种信息,包括语音和文字的同步对比数据,建立相应的多语种数据库,同时建立语种判断模型,以供语种判断使用;
步骤二、获取可能的语种,根据会议主要使用语种选择两种及以上语种信息,作为对比语种,用作语种判断模型的判断对比;
步骤三、获取待翻译语音,用户正常说话,实时检测并提取用户说出的带翻译语音,将待翻译语音信息输入到语种判断模型中;
步骤四、获取判断语种结果,通过语种判断模型,将获取的待翻译语音与预先输入的每个对比语种进行相似度对比打分,获取得分最高对比语种即为输入语言所属语种;
步骤五、执行翻译转换源语言到目标语言,当待翻译语言判断结果得出后,选择相应的翻译引擎将待翻译语种翻译为目标语言;
步骤六、输出目标语言的语音和文字,将翻译后的目标语言,提取相应语言所对应语音和文字信息,随后语音和文字同步输出。
进一步的,在上述技术方案中,所述步骤一种建立的语种判断模型包括n元语法(n-gram)模型,是基于(n-1)阶马尔可夫链的一种概率语言模型,通过n个语词出现的概率来推断语句的结构。语种判断模块可以将语音转化为文字,也可以不转化而直接使用语音。这取决于预先训练模型的方法。当输入源语音到判断模型中,经过打分给出结果。打分模型可采用贝叶斯推断,
Figure BDA0003090130080000051
其中:|表示某事件成立作为条件;
H表示假说;
E表示证据;
P(H)先验概率,是观察到E之前,H的概率;
P(H|E)后验概率,给定证据E,H的概率;
P(E|H)假定H成立,观察到E的改路。
P(E)边缘似然率。
结果可能为如下Json格式:
Figure BDA0003090130080000052
Figure BDA0003090130080000061
Confidence即为打分结果,language用ISO标准双字母表示语种类型,此时假如en表示英语,jp表示日语,那么英语得分为39.18分高于日语得分22.04。可判断输入语音为英语。同时可以确定目标语言为日语。
进一步的,在上述技术方案中,会议过程中,重复步骤三至步骤六,不停地进行输入、语种判别、翻译和输出,直至会议对话结束,停止语音获取。
一种一键式多语言会议辅助翻译设备,包括语音接收模块,用于获取待翻译的源语音,所述语音接收模块连接有语种设置模块,所述语种设置模块接收和记录需要判断语种的类型,所述语种设置模块接连接有语种判断模块,所述语种判断模块主要由语种判断模型构成,用于存储和执行语种判断模型或对应的计算机程序,所述语种判断模块连接有语言翻译模块,将源语言翻译到目标语言,所述语言翻译模块连接有输出模块,所述输出模块将翻译结果通过文字和语音的方式输出翻译结果。
进一步的,在上述技术方案中,所述语种设置模块通过可视化的用户交互界面输入并保持。
进一步的,在上述技术方案中,所述源语音主要指包含说话人声的音频信号,该信号通过模数转换以数字方式传输或被处理,当语音接收模块接收到声音,并且判断声音信号中包含语音信息,则对该信号进行预处理,包括且不限于降噪,人声增强,回声消除等方法。
进一步的,在上述技术方案中,语音辅助翻译设备还包括翻译结果记录模块,将语言翻译后每个语种都进行标识,按照标识对语种分类,同时将文字和语音在添加时间戳后,命名存于翻译结果记录模块中。
进一步的,在上述技术方案中,所述翻译结果记录模块包括语种分类模块,所述语种分类模块与语言翻译模块连接,用于将翻译的目标语言进行分类,所述语言分类模块连接有文字存储模块和语音存储模块,分别用于存储分类后的翻译语言进行文字和语音信息的单独存储;
实施方式具体为:通过建立多语种数据库和语种判断模型,在会议过程中,一键开启辅助翻译设备,预先选择对比语种,通过语音接收模块获取待翻译语音,通过语种判断模块的语种判断模型对获取的待翻译语音与预先输入的每个对比语种进行相似度对比打分,获取得分最高对比语种即为输入语言所属语种,当待翻译语言判断结果得出后,选择相应的翻译引擎将待翻译语种翻译为目标语言,再将翻译后的目标语言,提取相应语言所对应语音和文字信息,随后语音和文字同步输出,整个过程反复循环进行,在会议过程中,仅一键开启并选择对比语种后无需进行操作,即可进行实时辅助翻译,从而实现无需用户操作可以直接翻译,极大提升用户体验。
以上只通过说明的方式描述了本发明的某些示范性实施例,毋庸置疑,对于本领域的普通技术人员,在不偏离本发明的精神和范围的情况下,可以用各种不同的方式对所描述的实施例进行修正。因此,上述附图和描述在本质上是说明性的,不应理解为对本发明权利要求保护范围的限制。

Claims (8)

1.一种一键式多语言会议辅助翻译方法,其特征在于,包括以下步骤:
步骤一、收录并存储多种语种信息,包括语音和文字的同步对比数据,建立相应的多语种数据库,同时建立语种判断模型,以供语种判断使用;
步骤二、获取可能的语种,根据会议主要使用语种选择两种及以上语种信息,作为对比语种,用作语种判断模型的判断对比;
步骤三、获取待翻译语音,用户正常说话,实时检测并提取用户说出的带翻译语音,将待翻译语音信息输入到语种判断模型中;
步骤四、获取判断语种结果,通过语种判断模型,将获取的待翻译语音与预先输入的每个对比语种进行相似度对比打分,获取得分最高对比语种即为输入语言所属语种;
步骤五、执行翻译转换源语言到目标语言,当待翻译语言判断结果得出后,选择相应的翻译引擎将待翻译语种翻译为目标语言;
步骤六、输出目标语言的语音和文字,将翻译后的目标语言,提取相应语言所对应语音和文字信息,随后语音和文字同步输出。
2.根据权利要求1所述的一种一键式多语言会议辅助翻译方法,其特征在于:所述步骤一种建立的语种判断模型包括n元语法(n-gram)模型,是基于(n-1)阶马尔可夫链的一种概率语言模型,通过n个语词出现的概率来推断语句的结构。语种判断模块可以将语音转化为文字,也可以不转化而直接使用语音。这取决于预先训练模型的方法。当输入源语音到判断模型中,经过打分给出结果。打分模型可采用贝叶斯推断,
Figure FDA0003090130070000011
其中:|表示某事件成立作为条件;
H表示假说;
E表示证据;
P(H)先验概率,是观察到E之前,H的概率;
P(H|E)后验概率,给定证据E,H的概率;
P(E|H)假定H成立,观察到E的改路。
P(E)边缘似然率。
3.根据权利要求1所述的一种一键式多语言会议辅助翻译方法,其特征在于:会议过程中,重复步骤三至步骤六,不停的进行输入、语种判别、翻译和输出,直至会议对话结束,停止语音获取。
4.一种一键式多语言会议辅助翻译设备,包括语音接收模块,用于获取待翻译的源语音,其特征在于:所述语音接收模块连接有语种设置模块,所述语种设置模块接收和记录需要判断语种的类型,所述语种设置模块接连接有语种判断模块,所述语种判断模块主要由语种判断模型构成,用于存储和执行语种判断模型或对应的计算机程序,所述语种判断模块连接有语言翻译模块,将源语言翻译到目标语言,所述语言翻译模块连接有输出模块,所述输出模块将翻译结果通过文字和语音的方式输出翻译结果。
5.根据权利要求4所述的一种一键式多语言会议辅助翻译设备,其特征在于:所述语种设置模块通过可视化的用户交互界面输入并保持。
6.根据权利要求4所述的一种一键式多语言会议辅助翻译设备,其特征在于:所述源语音主要指包含说话人声的音频信号,该信号通过模数转换以数字方式传输或被处理。
7.根据权利要求4所述的一种一键式多语言会议辅助翻译设备,其特征在于:还包括翻译结果记录模块,将语言翻译后每个语种都进行标识,按照标识对语种分类,同时将文字和语音在添加时间戳后,命名存于翻译结果记录模块中。
8.根据权利要求7所述的一种一键式多语言会议辅助翻译设备,其特征在于:所述翻译结果记录模块包括语种分类模块,所述语种分类模块与语言翻译模块连接,用于将翻译的目标语言进行分类,所述语言分类模块连接有文字存储模块和语音存储模块,分别用于存储分类后的翻译语言进行文字和语音信息的单独存储。
CN202110593517.6A 2021-05-28 2021-05-28 一种一键式多语言会议辅助翻译方法及具有该方法的设备 Pending CN113505609A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110593517.6A CN113505609A (zh) 2021-05-28 2021-05-28 一种一键式多语言会议辅助翻译方法及具有该方法的设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110593517.6A CN113505609A (zh) 2021-05-28 2021-05-28 一种一键式多语言会议辅助翻译方法及具有该方法的设备

Publications (1)

Publication Number Publication Date
CN113505609A true CN113505609A (zh) 2021-10-15

Family

ID=78008858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110593517.6A Pending CN113505609A (zh) 2021-05-28 2021-05-28 一种一键式多语言会议辅助翻译方法及具有该方法的设备

Country Status (1)

Country Link
CN (1) CN113505609A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116702801A (zh) * 2023-08-07 2023-09-05 深圳市微星智造科技有限公司 翻译方法、装置、设备及存储介质
CN117316165A (zh) * 2023-11-27 2023-12-29 深圳云盈网络科技有限公司 一种基于时序的会议音频分析处理方法及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116702801A (zh) * 2023-08-07 2023-09-05 深圳市微星智造科技有限公司 翻译方法、装置、设备及存储介质
CN116702801B (zh) * 2023-08-07 2024-04-05 深圳市微星智造科技有限公司 翻译方法、装置、设备及存储介质
CN117316165A (zh) * 2023-11-27 2023-12-29 深圳云盈网络科技有限公司 一种基于时序的会议音频分析处理方法及系统
CN117316165B (zh) * 2023-11-27 2024-02-20 深圳云盈网络科技有限公司 一种基于时序的会议音频分析处理方法及系统

Similar Documents

Publication Publication Date Title
CN108766414B (zh) 用于语音翻译的方法、装置、设备和计算机可读存储介质
US20210056975A1 (en) Method and apparatus for voice identification, device and computer readable storage medium
CN111477216B (zh) 一种用于对话机器人的音意理解模型的训练方法及系统
US10672391B2 (en) Improving automatic speech recognition of multilingual named entities
US8498857B2 (en) System and method for rapid prototyping of existing speech recognition solutions in different languages
US7974843B2 (en) Operating method for an automated language recognizer intended for the speaker-independent language recognition of words in different languages and automated language recognizer
US11093110B1 (en) Messaging feedback mechanism
CN110910903B (zh) 语音情绪识别方法、装置、设备及计算机可读存储介质
US10366173B2 (en) Device and method of simultaneous interpretation based on real-time extraction of interpretation unit
CN110415680B (zh) 一种同声传译方法、同声传译装置以及一种电子设备
CN110705317B (zh) 翻译方法及相关装置
CN113505609A (zh) 一种一键式多语言会议辅助翻译方法及具有该方法的设备
CN111445898A (zh) 语种识别方法、装置、电子设备和存储介质
CN114120985A (zh) 智能语音终端的安抚交互方法、系统、设备及存储介质
CN111435595A (zh) 文本规整方法及装置
CN113744722A (zh) 一种用于有限句库的离线语音识别匹配装置与方法
US20040143436A1 (en) Apparatus and method of processing natural language speech data
KR102564008B1 (ko) 실시간 통역단위문 추출에 기반한 동시통역 장치 및 방법
CN115292349A (zh) 一种生成sql的方法、系统及装置
CN114707515A (zh) 话术判别方法、装置、电子设备及存储介质
CN114519358A (zh) 翻译质量评估方法、装置、电子设备和存储介质
CN108877781B (zh) 一种智能语音搜索影片的方法及系统
KR102107447B1 (ko) 선택적 음성 모델의 적용에 기초한 번역 기능을 제공하는 텍스트 음성 변환 장치 및 그 동작 방법
CN110858268B (zh) 一种检测语音翻译系统中不流畅现象的方法及系统
KR20110066622A (ko) 음성인식 기반 국제회의 통역 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20211015