CN107102990A - 对语音进行翻译的方法和装置 - Google Patents

对语音进行翻译的方法和装置 Download PDF

Info

Publication number
CN107102990A
CN107102990A CN201610094537.8A CN201610094537A CN107102990A CN 107102990 A CN107102990 A CN 107102990A CN 201610094537 A CN201610094537 A CN 201610094537A CN 107102990 A CN107102990 A CN 107102990A
Authority
CN
China
Prior art keywords
vocabulary
user
voice
meeting
translated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610094537.8A
Other languages
English (en)
Inventor
李海亮
李鑫
王灵珠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to CN201610094537.8A priority Critical patent/CN107102990A/zh
Priority to US15/262,493 priority patent/US20170242847A1/en
Priority to JP2016241190A priority patent/JP6462651B2/ja
Publication of CN107102990A publication Critical patent/CN107102990A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/51Translation evaluation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids

Abstract

本发明提供对语音进行翻译的方法和装置。根据一个实施方式,对语音进行翻译的装置,包括:语音识别单元;机器翻译单元;提取单元,其基于与会议相关的信息,从词汇库中提取用于该会议的词汇,将提取的词汇发送给所述语音识别单元和所述机器翻译单元;和接收单元,其接收会议中的第一语言的语音;所述语音识别单元将所述第一语言的语音识别为所述第一语言的文本,所述机器翻译单元将所述第一语言的文本翻译为第二语言的文本。

Description

对语音进行翻译的方法和装置
技术领域
本发明涉及自然语言处理的技术,具体而言,涉及对语音进行翻译的方法和装置。
背景技术
会议已经成为人们日常工作和生活进行交流的重要手段。并且,随着文化和经济的全球化,在具有不同母语的人员之间进行的会议也越来越多,尤其是在大多数跨国公司中,经常会有多语言的会议,例如参加会议的人员会使用不同的母语(例如,中文、日文、英文等)来进行交流。
为此,利用语音识别和机器翻译技术在多语言的会议中提供语音翻译的服务也应运而生。为了提高专业术语的识别及翻译精度,通常预先收集大量不同领域的词汇库,在实际会议中,利用与本次会议相关的领域的词汇库进行语言识别和机器翻译。
发明内容
本发明的发明人发现,在实际会议应用时,现有技术的上述利用领域词汇库进行翻译的方法,由于领域词汇库庞大且不易动态更新,显得成本高,效率低下,效果也不明显。另外,在实际会议中,根据会议的主题,参会者的不同,会议中会使用很多不同的专业术语或组织用语,这将导致语音识别和机器翻译的精度恶化,从而影响会议语音翻译服务的质量。
为了解决现有技术中存在的上述技术问题中的至少一个问题,本发明的实施方式提供以下技术方案。
[1]一种对语音进行翻译的方法,包括:
基于与会议相关的信息,从词汇库中提取用于该会议的词汇;
将提取的词汇发送给语音识别单元和机器翻译单元;
接收会议中的第一语言的语音;
利用所述语音识别单元将所述第一语言的语音识别为所述第一语言的文本;和
利用所述机器翻译单元将所述第一语言的文本翻译为第二语言的文本。
上述方案[1]的对语音进行翻译的方法,基于会议的基本信息,提取仅适合本次会议的自适应数据并实时登录到语音识别单元和机器翻译单元中,数据量小,成本低,效率高,能够提供高质量的语音翻译服务。
[2]根据上述方案[1]所述的对语音进行翻译的方法,其中,
所述与会议相关的信息包括会议主题和用户信息,所述词汇库包括用户词典、组词典和用户与组的关系信息,
所述从词汇库中提取用于该会议的词汇的步骤包括:
基于用户信息,从用户词典中提取与用户相关的用户词汇;
基于用户与组的关系信息,从组词典中提取用户所属的组的组词汇;和
基于会议主题,从提取的用户词汇和组词汇中提取与会议相关的词汇。
上述方案[2]的对语音进行翻译的方法,基于会议的主题和用户信息,在词汇库中提取适合本次会议的专用词汇,数据量小,成本低,效率高,能够提高会议语音翻译的质量。
[3]根据上述方案[1]或[2]所述的对语音进行翻译的方法,其中,
所述从词汇库中提取用于该会议的词汇的步骤还包括:
基于词汇的原文、原文的发音和译文之间的关系,对提取的词汇进行过滤。
[4]根据上述方案[3]所述的对语音进行翻译的方法,其中,
所述对提取的词汇进行过滤的步骤包括:
比较词汇的原文的发音是否一致;
在原文的发音一致的情况下,比较原文和译文是否一致;和
在原文和译文都一致的情况下,对原文的发音、原文和译文都一致的词汇进行过滤,在原文和译文的至少一个不一致的情况下,基于使用频率对原文的发音一致的词汇进行过滤。
[5]根据上述方案[3]或[4]所述的对语音进行翻译的方法,其中,
所述对提取的词汇进行过滤的步骤包括:
对过提取的词汇按照使用频率进行排序;和
将使用频率低于第一阈值的词汇过滤,或者,将使用频率低的预定数量或预定百分比的词汇过滤。
上述方案[3]至[5]的对语音进行翻译的方法,通过对提取的词汇进行过滤,能够进一步缩减数据量,降低成本,提高效率。
[6]根据上述方案[1]至[5]的任一方案所述的对语音进行翻译的方法,还包括:
基于用户在会议中的发言,积累新的用户词汇,向所述语音识别单元和所述机器翻译单元发送。
上述方案[6]的对语音进行翻译的方法,通过在会议过程中积累新的词汇,并自动更新语音识别单元和机器翻译单元,从而能够使语音识别单元和机器翻译单元根据会议过程中的发言内容自动调节,实现动态自适应的语音翻译效果。
[7]根据上述方案[1]至[6]的任一方案所述的对语音进行翻译的方法,还包括:
基于用户在会议中的发言,积累新的用户词汇,向所述词汇库的用户词典中添加。
[8]根据上述方案[6]或[7]所述的对语音进行翻译的方法,其中,
所述积累新的用户词汇的步骤包括以下步骤的至少一个:
手动输入所述新的用户词汇的原文、原文的发音和译文;
手动输入所述新的用户词汇的原文,利用文本语音转换模块生成原文的发音,并利用机器翻译单元生成译文;
从用户在会议中的发言中采集语音数据,利用语音识别单元生成原文和原文的发音,并利用机器翻译单元生成译文;
在会议的语音识别结果和机器翻译结果中选择所述新的用户词汇;和
在会议的语音识别结果和机器翻译结果中检测未知词汇,作为所述新的用户词汇。
[9]根据上述方案[7]或[8]所述的对语音进行翻译的方法,其中,
所述新的用户词汇包括会议主题信息和用户信息。
[10]根据上述方案[7]至[9]的任一方案所述的对语音进行翻译的方法,还包括:
更新所述用户词典中的用户词汇的使用频率。
[11]根据上述方案[7]至[10]的任一方案所述的对语音进行翻译的方法,还包括:
基于用户词汇向所述词汇库的组词典中添加新的组词汇。
[12]根据上述方案[11]所述的对语音进行翻译的方法,其中,
所述向所述词汇库的组词典中添加新的组词汇的步骤包括:
获取属于所述组的用户的用户词汇;
计算相同用户词汇的用户数和使用频率;
将所述用户数大于第二阈值和/或所述使用频率大于第三阈值的用户词汇作为组词汇添加到所述组词典中。
上述方案[7]至[12]的对语音进行翻译的方法,通过在会议过程中积累新的词汇,添加到词汇库中,并应用到以后的会议中,能够持续改善会议语音翻译的质量。
[13]一种对语音进行翻译的装置,包括:
语音识别单元;
机器翻译单元;
提取单元,其基于与会议相关的信息,从词汇库中提取用于该会议的词汇,将提取的词汇发送给所述语音识别单元和所述机器翻译单元;和
接收单元,其接收会议中的第一语言的语音;
其中,所述语音识别单元将所述第一语言的语音识别为所述第一语言的文本,所述机器翻译单元将所述第一语言的文本翻译为第二语言的文本。
上述方案[13]的对语音进行翻译的装置,基于会议的基本信息,提取仅适合本次会议的自适应数据并实时登录到语音识别单元和机器翻译单元中,数据量小,成本低,效率高,能够提供高质量的语音翻译服务。
[14]根据上述方案[13]所述的对语音进行翻译的装置,其中,
所述与会议相关的信息包括会议主题和用户信息,所述词汇库包括用户词典、组词典和用户与组的关系信息,
所述提取单元:
基于用户信息,从用户词典中提取与用户相关的用户词汇;
基于用户与组的关系信息,从组词典中提取用户所属的组的组词汇;和
基于会议主题,从提取的用户词汇和组词汇中提取与会议相关的词汇。
上述方案[14]的对语音进行翻译的装置,基于会议的主题和用户信息,在词汇库中提取适合本次会议的专用词汇,数据量小,成本低,效率高,能够提高会议语音翻译的质量。
[15]根据上述方案[13]或[14]所述的对语音进行翻译的装置,其中,
所述提取单元还包括:
过滤单元,其基于词汇的原文、原文的发音和译文之间的关系,对提取的词汇进行过滤。
[16]根据上述方案[15]所述的对语音进行翻译的装置,其中,
所述过滤单元:
比较词汇的原文的发音是否一致;
在原文的发音一致的情况下,比较原文和译文是否一致;和
在原文和译文都一致的情况下,对原文的发音、原文和译文都一致的词汇进行过滤,在原文和译文的至少一个不一致的情况下,基于使用频率对原文的发音一致的词汇进行过滤。
[17]根据上述方案[15]或[16]所述的对语音进行翻译的装置,其中,
所述过滤单元:
对过提取的词汇按照使用频率进行排序;和
将使用频率低于第一阈值的词汇过滤,或者,将使用频率低的预定数量或预定百分比的词汇过滤。
上述方案[15]至[17]的对语音进行翻译的装置,通过对提取的词汇进行过滤,能够进一步缩减数据量,降低成本,提高效率。
[18]根据上述方案[13]至[17]的任一方案所述的对语音进行翻译的装置,还包括:
积累单元,其基于用户在会议中的发言,积累新的用户词汇,向所述语音识别单元和所述机器翻译单元发送。
上述方案[18]的对语音进行翻译的装置,通过在会议过程中积累新的词汇,并自动更新语音识别单元和机器翻译单元,从而能够使语音识别单元和机器翻译单元根据会议过程中的发言内容自动调节,实现动态自适应的语音翻译效果。
[19]根据上述方案[13]至[18]的任一方案所述的对语音进行翻译的装置,还包括:
积累单元,其基于用户在会议中的发言,积累新的用户词汇,向所述词汇库的用户词典中添加。
[20]根据上述方案[18]或[19]所述的对语音进行翻译的装置,其中,
所述积累单元具有以下功能的至少一种:
手动输入所述新的用户词汇的原文、原文的发音和译文;
手动输入所述新的用户词汇的原文,利用文本语音转换模块生成原文的发音,并利用机器翻译单元生成译文;
从用户在会议中的发言中采集语音数据,利用语音识别单元生成原文和原文的发音,并利用机器翻译单元生成译文;
在会议的语音识别结果和机器翻译结果中选择所述新的用户词汇;和
在会议的语音识别结果和机器翻译结果中检测未知词汇,作为所述新的用户词汇。
[21]根据上述方案[19]或[20]所述的对语音进行翻译的装置,其中,
所述新的用户词汇包括会议主题信息和用户信息。
[22]根据上述方案[19]至[21]的任一方案所述的对语音进行翻译的装置,还包括:
更新单元,其更新所述用户词典的用户词汇的使用频率。
[23]根据上述方案[19]至[22]的任一方案所述的对语音进行翻译的装置,还包括:
组词汇添加单元,其基于用户词汇向所述词汇库的组词典中添加新的组词汇。
[24]根据上述方案[23]所述的对语音进行翻译的装置,其中,
所述组词汇添加单元:
获取属于所述组的用户的用户词汇;
计算相同用户词汇的用户数和使用频率;
将所述用户数大于第二阈值和/或所述使用频率大于第三阈值的用户词汇作为组词汇添加到所述组词典中。
上述方案[19]至[24]的对语音进行翻译的装置,通过在会议过程中积累新的词汇,添加到词汇库中,并应用到以后的会议中,能够持续改善会议语音翻译的质量。
附图说明
图1是根据本发明的一个实施方式的对语音进行翻译的方法的示意流程图。
图2是根据本发明的一个实施方式的对语音进行翻译的方法中对提取的词汇进行过滤的示意流程图。
图3是根据本发明的一个实施方式的对语音进行翻译的方法中对提取的词汇进行过滤的另一示意流程图。
图4是根据本发明的一个实施方式的对语音进行翻译的方法中对提取的词汇进行过滤的又一示意流程图。
图5是根据本发明的一个实施方式的对语音进行翻译的方法中对积累后的用户词汇的使用频率进行更新的示意流程图。
图6是根据本发明的一个实施方式的对语音进行翻译的方法中添加组词汇的示意流程图。
图7是根据本发明的另一个实施方式的对语音进行翻译的装置的框图。
具体实施方式
下面就结合附图对本发明的各个优选实施方式进行详细地说明。
<对语音进行翻译的方法>
图1是根据本发明的一个实施方式的对语音进行翻译的方法的示意流程图。
如图1所示,本实施方式提供一种对语音进行翻译的方法,包括:步骤S101,基于与会议相关的信息10,从词汇库20中提取用于该会议的词汇;步骤S105,将提取的词汇发送给语音翻译单元30中,所述语音翻译单元30包括语音识别单元301和机器翻译单元305;步骤S110,从会议中的语音40,接收会议中的第一语言的语音;步骤S115,利用所述语音识别引301将所述第一语言的语音识别为所述第一语言的文本;和步骤S120,利用所述机器翻译引305将所述第一语言的文本翻译为第二语言的文本。
在本实施方式中,会议是指广义的会议,包括通常由至少两方(或两个人)参加的会议,也包括由至少一个人对一个以上的人进行的演讲或报告,甚至包括两个以上的人之间的语音或视频聊天,即只要是两个以上的人通过语音进行沟通或交流的场合,都属于这里的会议。
在本实施方式中,会议可以是现场会议,例如在会议室中举行的会议,会议参与者直接与其它会议参与者进行交流,也可以是网络会议,即会议参与者通过网络来参加会议,在这种情况下,会议参与者的语音可以通过网络传送给其它会议参与者。
下面详细说明本实施方式的对语音进行翻译的方法的各个步骤。
在步骤S101,基于与会议相关的信息10,从词汇库20中提取用于该会议的词汇。
在本实施方式中,与会议相关的信息10优选包括会议主题和用户信息,用户信息是会议参与者的信息。
词汇库20优选包括用户词典、组词典和用户与组的关系信息。词汇库20中具有多个用户词典,每个用户词典包括与该用户相关的词汇,例如该用户在历史会议中积累的词汇,该用户的专用词汇等。词汇库20中对多个用户进行了分组,每个组具有一个组词典。词典中的每个词汇包括原文、原文的发音和译文,其中译文可以包括多个语言的译文。
在本实施方式中,优选通过以下方法从词汇库20中提取用于本次会议的词汇。
首先,基于用户信息,从词汇库20中的用户词典中提取与用户相关的用户词汇,并基于用户与组的关系信息,从组词典中提取用户所属的组的组词汇。
接着,在提取出用户词汇和组词汇后,优选,基于会议主题,从提取的用户词汇和组词汇中提取与会议相关的词汇。
另外,优选,对提取的与会议相关的词汇进行过滤,优选将相同词汇和使用频率低的词汇过滤掉。
下面,参照附图2-4对本实施方式中对提取的用户词汇和组词汇进行过滤的优选方法进行详细说明。图2是根据本发明的一个实施方式的对语音进行翻译的方法中对提取的词汇进行过滤的方法的示意流程图。图3是根据本发明的一个实施方式的对语音进行翻译的方法中对提取的词汇进行过滤的方法的另一示意流程图。图4是根据本发明的一个实施方式的对语音进行翻译的方法中对提取的词汇进行过滤的方法的又一示意流程图。
如图2所示,在步骤S201,比较提取的词汇60的原文的发音,在步骤S205,判断原文的发音是否一致。在原文的发音信息不一致的情况下,视为不同词汇。
在原文的发音一致的情况下,在步骤S215,比较原文的发音一致的词汇的原文和译文。在步骤S220,判断原文和译文是否一致,在原文发音一致,但原文或译文不一致的情况下,在步骤S225,基于使用频率进行过滤。
对于用户词汇,其使用频率例如可以是用户在历史发言中使用的次数,对于组词汇,其使用频率例如可以是属于该组的用户在历史发言中使用的次数。在步骤S225,将使用频率低于一定阈值的词汇过滤掉。另外,在步骤S225,也可以将与会议主题匹配且使用频度最高的词汇保留,将其他词汇过滤掉。
在步骤S230,在原文的发音、原文和译文都一致的情况下,视为相同词汇,仅保留一个词汇,将相同的其他词汇过滤掉。
另外,也可以基于图3或图4的方法对提取的词汇60进行过滤,还可以在基于图2的方法进行过滤后,基于图3或图4的方法进行二次过滤。也就是说,图2、图3、图4的过滤方法可以单独使用,也可以进行任意组合。
下面详细说明图3的绝对性过滤方法和图4的相对性过滤方法。
如图3所示,在步骤S301,按照使用频率由高到低的顺序对提取的词汇60进行排序。接着,在步骤S305,将使用频率低于一定阈值的词汇过滤掉。
如图4所示,在步骤S401,按照使用频率由高到低的顺序对提取的词汇60进行排序。接着,在步骤S405,将使用频率低的预定数量或预定百分比的词汇过滤,例如将使用频率低的1000个词汇过滤掉,或者将使用频率低的30%的词汇过滤掉。
返回图1,在步骤S105,将提取的词汇加入语音翻译单元30中。语音翻译单元包括语音识别单元301和机器翻译单元305。语音识别单元301和机器翻译单元305可以是本领域的技术人员公知的任何语音识别单元和机器翻译单元,本实施方式对此没有任何限制。
在步骤S110,从会议中的语音40中接收会议中的第一语言的语音。
在本实施方式中,第一语言可以是人类语言中的任何一种语言,例如,英语、汉语、日语等,第一语言的语音可以是由人来发出,也可以由机器来发出,例如会议参与者播放的录音等,本实施方式对此没有任何限制。
在步骤S115,利用语音识别单元301将第一语言的语音识别为所述第一语言的文本。在步骤S120,利用机器翻译单元305将所述第一语言的文本翻译为第二语言的文本。
在本实施方式中,第二语言可以是与第一语言不同的任何一种语言。
本实施方式的对语音进行翻译的方法,基于会议的基本信息,提取仅适合本次会议的自适应数据并实时登录到语音翻译单元中,数据量小,成本低,效率高,能够提供高质量的语音翻译服务。进而,本实施方式的对语音进行翻译的方法,基于会议的主题和用户信息,在词汇库中提取适合本次会议的专用词汇,数据量小,成本低,效率高,能够提高会议语音翻译的质量。进而,本实施方式的对语音进行翻译的方法,通过对提取的词汇进行过滤,能够进一步缩减数据量,降低成本,提高效率。
另外,优选,在本实施方式的对语音进行翻译的方法中,基于用户在会议中的发言,积累新的用户词汇,向语音翻译单元30发送。
另外,还优选,在本实施方式的对语音进行翻译的方法中,基于用户在会议中的发言,积累新的用户词汇,向词汇库20的用户词典中添加。
下面具体说明本实施方式中积累新的用户词汇的方法。
在本实施方式中,基于用户在会议中的发言积累新的用户词汇的方法可以是以下方法的任何一种方法或以下方法的任意组合。
(1)基于用户在会议中的发言,手动输入新的用户词汇的原文、原文的发音和译文。
(2)基于用户在会议中的发言,手动输入新的用户词汇的原文,利用字音转化模块(Grapheme-to-Phoneme module)和/或文本语音转化模块(Text-to-Phoneme module)生成原文的发音,并利用机器翻译单元生成译文,其中自动生成的信息可以修改。
(3)从用户在会议中的发言中采集语音数据,利用语音识别单元生成原文和原文的发音,并利用机器翻译单元生成译文,其中自动生成的信息可以修改。
(4)在会议的语音识别结果和机器翻译结果中选择要录入的用户词汇,优选进行校正后录入。
(5)在会议的语音识别结果和机器翻译结果中检测未知词汇,优选进行校正后录入。
应该理解,尽管可以基于以上优选的方法积累新的用户词汇,但是也可以使用本领域的技术人员知晓的其他方法积累新的用户词汇,本实施方式对此没有任何限制。
另外,在基于用户在会议中的发言积累新的用户词汇的过程中,同时获取与新的用户相关的会议主题信息和用户信息。
另外,在本实施例中,在将积累的新的用户词汇向词汇库20的用户词典中添加后,优选实时或事后更新用户词汇的使用频率。
下面参照图5详细说明更新用户词汇的使用频率的方法。图5是根据本发明的一个实施方式的对语音进行翻译的方法中对积累后的用户词汇的使用频率进行更新的方法的示意流程图。
如图5所示,在步骤S501,获取用户词汇。接着,在步骤S505,将用户词汇与用户的发言记录进行匹配,即针对一个用户词汇,在用户的发言记录中查找是否存在该用户词汇,如果存在,则在步骤S510,将匹配的次数,即该用户词汇在用户的发言记录中出现的次数,作为该用户词汇的使用频率更新到数据库中。接着,在步骤S515中,判断是否对所有的用户词汇进行匹配,如果匹配完,则结束,如果没有匹配完,则返回步骤S505继续进行匹配。
另外,优选,在本实施方式的对语音进行翻译的方法中,基于用户词汇向词汇库20的组词典中添加新的组词汇。
下面参照图6详细说明在组词典中添加新的组词汇的方法。图6是根据本发明的一个实施方式的对语音进行翻译的方法中添加组词汇的方法的示意流程图。
如图6所示,在步骤S601,获取属于一个组的用户的用户词汇。
在步骤S605,计算相同用户词汇的用户数和使用频率。具体地,每个用户词汇的属性信息包括用户信息和使用频率,将具有该用户词汇的用户词典的数量作为用户数,并将该用户词汇在每个用户词典中的使用频率的和作为步骤S605中所计算的使用频率。
接着,在步骤S510中比较用户数是否大于第二阈值,并在步骤S520中比较使用频率是否大于第三阈值。在用户数大于第二阈值且使用频率大于第三阈值的情况下,将该用户词汇作为组词汇添加到组词典中,在用户数不大于第二阈值或者使用频率不大于第三阈值的情况下,不将该用户词汇作为组词汇添加到组词典中。
本实施方式的对语音进行翻译的方法,通过在会议过程中积累新的词汇,并自动更新语音翻译单元,从而能够使语音翻译单元根据会议过程中的发言内容自动调节,实现动态自适应的语音翻译效果。另外,本实施方式的对语音进行翻译的方法,通过在会议过程中积累新的词汇,添加到词汇库中,并应用到以后的会议中,能够持续改善会议语音翻译的质量。
<对语音进行翻译的装置>
在同一发明构思下,图7是根据本发明的另一个实施方式的对语音进行翻译的装置的框图。下面就结合这些图,对本实施方式进行描述。对于那些与前面实施方式相同的部分,适当省略其说明。
如图7所示,本实施方式提供一种生成会议记录的装置700,包括:语音翻译单元30,其包括语音识别单元301和机器翻译单元305;提取单元701,其基于与会议相关的信息10,从词汇库20中提取用于该会议的词汇,将提取的词汇加入所述语音翻译单元30中;和接收单元710,其接收会议中的第一语言的语音;其中,所述语音识别单元301将所述第一语言的语音识别为所述第一语言的文本,所述机器翻译单元305将所述第一语言的文本翻译为第二语言的文本。另外,可选地,本实施方式的生成会议记录的装置700还可以包括积累单元720。
在本实施方式中,会议是指广义的会议,包括通常由至少两方(或两个人)参加的会议,也包括由至少一个人对一个以上的人进行的演讲或报告,甚至包括两个以上的人之间的语音或视频聊天,即只要是两个以上的人通过语音进行沟通或交流的场合,都属于这里的会议。
在本实施方式中,会议可以是现场会议,例如在会议室中举行的会议,会议参与者直接与其它会议参与者进行交流,也可以是网络会议,即会议参与者通过网络来参加会议,在这种情况下,会议参与者的语音可以通过网络传送给其它会议参与者。
下面详细说明本实施方式的对语音进行翻译的装置700的各个单元和模块。
提取单元701,基于与会议相关的信息10,从词汇库20中提取用于该会议的词汇。
在本实施方式中,与会议相关的信息10优选包括会议主题和用户信息,用户信息是会议参与者的信息。
词汇库20优选包括用户词典、组词典和用户与组的关系信息。词汇库20中具有多个用户词典,每个用户词典包括与该用户相关的词汇,例如该用户在历史会议中积累的词汇,该用户的专用词汇等。词汇库20中对多个用户进行了分组,每个组具有一个组词典。词典中的每个词汇包括原文、原文的发音和译文,其中译文可以包括多个语言的译文。
在本实施方式中,提取单元701通过以下方法从词汇库20中提取用于本次会议的词汇。
首先,提取单元701,基于用户信息,从词汇库20中的用户词典中提取与用户相关的用户词汇,并基于用户与组的关系信息,从组词典中提取用户所属的组的组词汇。
接着,提取单元701,在提取出用户词汇和组词汇后,基于会议主题,从提取的用户词汇和组词汇中提取与会议相关的词汇,
另外,优选,提取单元701包括过滤单元。过滤单元对提取的与会议相关的词汇进行过滤,优选将相同词汇和使用频率低的词汇过滤掉。
在本实施方式中,过滤单元对提取的与会议相关的词汇进行过滤的方法与上述参照附图2-4说明的方法类似,下面参照图2-4进行说明。
如图2所示,过滤单元首先比较提取的词汇60的原文的发音,判断原文的发音是否一致。在原文的发音信息不一致的情况下,视为不同词汇。
在原文的发音一致的情况下,过滤单元,比较原文的发音一致的词汇的原文和译文,判断原文和译文是否一致,在原文发音一致,但原文或译文不一致的情况下,过滤单元,基于使用频率进行过滤。
对于用户词汇,其使用频率例如可以是用户在历史发言中使用的次数,对于组词汇,其使用频率例如可以是属于该组的用户在历史发言中使用的次数。过滤单元,将使用频率低于一定阈值的词汇过滤掉。另外,过滤单元,也可以将与会议主题匹配且使用频度最高的词汇保留,将其他词汇过滤掉。
另外,过滤单元,在原文的发音、原文和译文都一致的情况下,视为相同词汇,仅保留一个词汇,将相同的其他词汇过滤掉。
另外,过滤单元也可以基于图3或图4的方法对提取的词汇60进行过滤,还可以在基于图2的方法进行过滤后,基于图3或图4的方法进行二次过滤。也就是说,图2、图3、图4的过滤方法可以单独使用,也可以进行任意组合。
下面详细说明图3的绝对性过滤方法和图4的相对性过滤方法。
如图3所示,过滤单元,按照使用频率由高到低的顺序对提取的词汇60进行排序。接着,过滤单元,将使用频率低于一定阈值的词汇过滤掉。
如图4所示,过滤单元,按照使用频率由高到低的顺序对提取的词汇60进行排序。接着,过滤单元,将使用频率低的预定数量或预定百分比的词汇过滤,例如将使用频率低的1000个词汇过滤掉,或者将使用频率低的30%的词汇过滤掉。
返回图7,提取单元701在提取与会议相关的词汇后,将提取的词汇加入语音翻译单元30中。语音翻译单元包括语音识别单元301和机器翻译单元305。语音识别单元301和机器翻译单元305可以是本领域的技术人员公知的任何语音识别单元和机器翻译单元,本实施方式对此没有任何限制。
接收单元710,从会议中的语音40中接收会议中的第一语言的语音。
在本实施方式中,第一语言可以是人类语言中的任何一种语言,例如,英语、汉语、日语等,第一语言的语音可以是由人来发出,也可以由机器来发出,例如会议参与者播放的录音等,本实施方式对此没有任何限制。
接收单元710将接收的第一语言的语音输入语音识别单元301,语音识别单元301将第一语言的语音识别为所述第一语言的文本,之后,机器翻译单元305将所述第一语言的文本翻译为第二语言的文本。
在本实施方式中,第二语言可以是与第一语言不同的任何一种语言。
本实施方式的对语音进行翻译的装置700,基于会议的基本信息,提取仅适合本次会议的自适应数据并实时登录到语音翻译单元中,数据量小,成本低,效率高,能够提供高质量的语音翻译服务。进而,本实施方式的对语音进行翻译的装置,基于会议的主题和用户信息,在词汇库中提取适合本次会议的专用词汇,数据量小,成本低,效率高,能够提高会议语音翻译的质量。进而,本实施方式的对语音进行翻译的装置,通过对提取的词汇进行过滤,能够进一步缩减数据量,降低成本,提高效率。
另外,优选,本实施方式的对语音进行翻译的装置700包括积累单元720,其基于用户在会议中的发言,积累新的用户词汇,向语音翻译单元30发送。
另外,积累单元720,优选,基于用户在会议中的发言,积累新的用户词汇,向词汇库20的用户词典中添加。
下面具体说明本实施方式中积累单元720积累新的用户词汇的功能。
在本实施方式中,积累单元720具有以下功能的至少一种。
(1)基于用户在会议中的发言,手动输入新的用户词汇的原文、原文的发音和译文。
(2)基于用户在会议中的发言,手动输入新的用户词汇的原文,利用字音转化模块(Grapheme-to-Phoneme module)和/或文本语音转化模块(Text-to-Phoneme module)生成原文的发音,并利用机器翻译单元生成译文,其中自动生成的信息可以修改。
(3)从用户在会议中的发言中采集语音数据,利用语音识别单元生成原文和原文的发音,并利用机器翻译单元生成译文,其中自动生成的信息可以修改。
(4)在会议的语音识别结果和机器翻译结果中选择要录入的用户词汇,优选进行校正后录入。
(5)在会议的语音识别结果和机器翻译结果中检测未知词汇,优选进行校正后录入。
应该理解,积累单元720除了具有以上功能,还可以具有本领域的技术人员知晓的其他积累新的用户词汇的功能,本实施方式对此没有任何限制。
另外,积累单元720,在基于用户在会议中的发言积累新的用户词汇的过程中,同时获取与新的用户相关的会议主题信息和用户信息。
另外,本实施例的对语音进行翻译的装置700还优选包括更新单元,其在积累单元720将积累的新的用户词汇向词汇库20的用户词典中添加后,实时或事后更新用户词汇的使用频率。
在本实施方式中,更新单元对用户词汇的使用频率进行更新的方法与上述参照附图5说明的方法类似,在此参照图5进行说明。
如图5所示,更新单元,获取用户词汇。接着,更新单元,将用户词汇与用户的发言记录进行匹配,即针对一个用户词汇,在用户的发言记录中查找是否存在该用户词汇,如果存在,更新单元将匹配的次数,即该用户词汇在用户的发言记录中出现的次数,作为该用户词汇的使用频率更新到数据库中。最后,更新单元判断是否对所有的用户词汇进行匹配,如果匹配完,则结束,如果没有匹配完,则继续进行匹配。
另外,本实施例的对语音进行翻译的装置700还优选包括组词汇添加单元,其基于用户词汇向词汇库20的组词典中添加新的组词汇。
在本实施方式中,组词汇添加单元在组词典中添新的加组词汇的方法与上述参照附图6说明的方法类似,在此参照图6进行说明。
如图6所示,组词汇添加单元,获取属于一个组的用户的用户词汇。
组词汇添加单元,计算相同用户词汇的用户数和使用频率。具体地,每个用户词汇的属性信息包括用户信息和使用频率,将具有该用户词汇的用户词典的数量作为用户数,并将该用户词汇在每个用户词典中的使用频率的和作为使用频率。
组词汇添加单元,比较用户数是否大于第二阈值,并比较使用频率是否大于第三阈值。在用户数大于第二阈值且使用频率大于第三阈值的情况下,将该用户词汇作为组词汇添加到组词典中,在用户数不大于第二阈值或者使用频率不大于第三阈值的情况下,不将该用户词汇作为组词汇添加到组词典中。
本实施方式的对语音进行翻译的装置700,通过在会议过程中积累新的词汇,并自动更新语音翻译单元,从而能够使语音翻译单元根据会议过程中的发言内容自动调节,实现动态自适应的语音翻译效果。另外,本实施方式的对语音进行翻译的装置,通过在会议过程中积累新的词汇,添加到词汇库中,并应用到以后的会议中,能够持续改善会议语音翻译的质量。
以上虽然通过一些示例性的实施方式详细地描述了本发明的对语音进行翻译的方法和装置,但是以上这些实施方式并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施方式,本发明的范围仅由所附权利要求书为准。

Claims (10)

1.一种对语音进行翻译的装置,包括:
语音识别单元;
机器翻译单元;
提取单元,其基于与会议相关的信息,从词汇库中提取用于该会议的词汇,将提取的词汇发送给所述语音识别单元和所述机器翻译单元;和
接收单元,其接收会议中的第一语言的语音;
所述语音识别单元将所述第一语言的语音识别为所述第一语言的文本,所述机器翻译单元将所述第一语言的文本翻译为第二语言的文本。
2.根据权利要求1所述的对语音进行翻译的装置,其中,
所述与会议相关的信息包括会议主题和用户信息,所述词汇库包括用户词典、组词典和用户与组的关系信息,
所述提取单元:
基于用户信息,从用户词典中提取与用户相关的用户词汇;
基于用户与组的关系信息,从组词典中提取用户所属的组的组词汇;和
基于会议主题,从提取的用户词汇和组词汇中提取与会议相关的词汇。
3.根据权利要求2所述的对语音进行翻译的装置,其中,
所述提取单元还包括:
过滤单元,其基于词汇的原文、原文的发音和译文之间的关系,对提取的词汇进行过滤。
4.根据权利要求3所述的对语音进行翻译的装置,其中,
所述过滤单元:
比较词汇的原文的发音是否一致;
在原文的发音一致的情况下,比较原文和译文是否一致;和
在原文和译文都一致的情况下,对原文的发音、原文和译文都一致的词汇进行过滤,在原文和译文的至少一个不一致的情况下,基于使用频率对原文的发音一致的词汇进行过滤。
5.根据权利要求3或4所述的对语音进行翻译的装置,其中,
所述过滤单元:
对过提取的词汇按照使用频率进行排序;和
将使用频率低于第一阈值的词汇过滤,或者,将使用频率低的预定数量或预定百分比的词汇过滤。
6.根据权利要求1所述的对语音进行翻译的装置,还包括:
积累单元,其基于用户在会议中的发言,积累新的用户词汇,向所述语音识别单元和所述机器翻译单元发送。
7.根据权利要求1所述的对语音进行翻译的装置,还包括:
积累单元,其基于用户在会议中的发言,积累新的用户词汇,向所述词汇库的用户词典中添加,所述新的用户词汇包括会议主题信息和用户信息。
8.根据权利要求6或7所述的对语音进行翻译的装置,其中,
所述积累单元具有以下功能的至少一种:
手动输入所述新的用户词汇的原文、原文的发音和译文;
手动输入所述新的用户词汇的原文,利用文本语音转换模块生成原文的发音,并利用机器翻译单元生成译文;
从用户在会议中的发言中采集语音数据,利用语音识别单元生成原文和原文的发音,并利用机器翻译单元生成译文;
在会议的语音识别结果和机器翻译结果中选择所述新的用户词汇;和
在会议的语音识别结果和机器翻译结果中检测未知词汇,作为所述新的用户词汇。
9.根据权利要求7所述的对语音进行翻译的装置,还包括:
组词汇添加单元,其基于用户词汇向所述词汇库的组词典中添加新的组词汇,
所述组词汇添加单元:
获取属于所述组的用户的用户词汇;
计算相同用户词汇的用户数和使用频率;
将所述用户数大于第二阈值和/或所述使用频率大于第三阈值的用户词汇作为组词汇添加到所述组词典中。
10.一种对语音进行翻译的方法,包括:
基于与会议相关的信息,从词汇库中提取用于该会议的词汇;
将提取的词汇发送给语音识别单元和机器翻译单元;
接收会议中的第一语言的语音;
利用所述语音识别单元将所述第一语言的语音识别为所述第一语言的文本;和
利用所述机器翻译单元将所述第一语言的文本翻译为第二语言的文本。
CN201610094537.8A 2016-02-19 2016-02-19 对语音进行翻译的方法和装置 Pending CN107102990A (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610094537.8A CN107102990A (zh) 2016-02-19 2016-02-19 对语音进行翻译的方法和装置
US15/262,493 US20170242847A1 (en) 2016-02-19 2016-09-12 Apparatus and method for translating a meeting speech
JP2016241190A JP6462651B2 (ja) 2016-02-19 2016-12-13 音声翻訳装置、音声翻訳方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610094537.8A CN107102990A (zh) 2016-02-19 2016-02-19 对语音进行翻译的方法和装置

Publications (1)

Publication Number Publication Date
CN107102990A true CN107102990A (zh) 2017-08-29

Family

ID=59629975

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610094537.8A Pending CN107102990A (zh) 2016-02-19 2016-02-19 对语音进行翻译的方法和装置

Country Status (3)

Country Link
US (1) US20170242847A1 (zh)
JP (1) JP6462651B2 (zh)
CN (1) CN107102990A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156012A (zh) * 2016-06-28 2016-11-23 乐视控股(北京)有限公司 一种字幕生成方法及装置
CN108712271A (zh) * 2018-04-02 2018-10-26 深圳市沃特沃德股份有限公司 翻译方法和翻译装置
CN109033423A (zh) * 2018-08-10 2018-12-18 北京搜狗科技发展有限公司 同传字幕显示方法及装置、智能会议方法、装置及系统
CN109101499A (zh) * 2018-08-02 2018-12-28 王大江 基于神经网络的人工智能语音学习方法
CN112055876A (zh) * 2018-04-27 2020-12-08 语享路有限责任公司 利用语音识别技术的多方对话记录/输出方法及用于其的装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102449875B1 (ko) 2017-10-18 2022-09-30 삼성전자주식회사 음성 신호 번역 방법 및 그에 따른 전자 장치
US11886473B2 (en) 2018-04-20 2024-01-30 Meta Platforms, Inc. Intent identification for agent matching by assistant systems
US10782986B2 (en) 2018-04-20 2020-09-22 Facebook, Inc. Assisting users with personalized and contextual communication content
JP7124442B2 (ja) * 2018-05-23 2022-08-24 富士電機株式会社 システム、方法、及びプログラム
KR20210052958A (ko) * 2019-11-01 2021-05-11 엘지전자 주식회사 인공 지능 서버
US11437026B1 (en) * 2019-11-04 2022-09-06 Amazon Technologies, Inc. Personalized alternate utterance generation
CN110728156B (zh) 2019-12-19 2020-07-10 北京百度网讯科技有限公司 翻译方法、装置、电子设备及可读存储介质
CN111447397B (zh) * 2020-03-27 2021-11-23 深圳市贸人科技有限公司 一种基于视频会议的翻译方法、视频会议系统及翻译装置
CN112511847A (zh) * 2020-11-06 2021-03-16 广东公信智能会议股份有限公司 视频图像叠加实时语音字幕的方法及装置
US20230306207A1 (en) * 2022-03-22 2023-09-28 Charles University, Faculty Of Mathematics And Physics Computer-Implemented Method Of Real Time Speech Translation And A Computer System For Carrying Out The Method

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070162281A1 (en) * 2006-01-10 2007-07-12 Nissan Motor Co., Ltd. Recognition dictionary system and recognition dictionary system updating method
US20080228480A1 (en) * 2007-03-13 2008-09-18 Shuhei Maegawa Speech recognition method, speech recognition system, and server thereof
CN102084417A (zh) * 2008-04-15 2011-06-01 移动技术有限责任公司 现场维护语音到语音翻译的系统和方法
CN104462071A (zh) * 2013-09-19 2015-03-25 株式会社东芝 语音翻译设备和语音翻译方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5175684A (en) * 1990-12-31 1992-12-29 Trans-Link International Corp. Automatic text translation and routing system
JPH07271784A (ja) * 1994-03-31 1995-10-20 Sharp Corp 文書処理装置
JP3624698B2 (ja) * 1998-07-01 2005-03-02 株式会社デンソー 音声認識装置、その装置を用いたナビゲーションシステム及び自動販売システム
JP4715704B2 (ja) * 2006-09-29 2011-07-06 富士通株式会社 音声認識装置、および音声認識プログラム
JP4466666B2 (ja) * 2007-03-14 2010-05-26 日本電気株式会社 議事録作成方法、その装置及びそのプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070162281A1 (en) * 2006-01-10 2007-07-12 Nissan Motor Co., Ltd. Recognition dictionary system and recognition dictionary system updating method
US20080228480A1 (en) * 2007-03-13 2008-09-18 Shuhei Maegawa Speech recognition method, speech recognition system, and server thereof
CN102084417A (zh) * 2008-04-15 2011-06-01 移动技术有限责任公司 现场维护语音到语音翻译的系统和方法
CN104462071A (zh) * 2013-09-19 2015-03-25 株式会社东芝 语音翻译设备和语音翻译方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156012A (zh) * 2016-06-28 2016-11-23 乐视控股(北京)有限公司 一种字幕生成方法及装置
CN108712271A (zh) * 2018-04-02 2018-10-26 深圳市沃特沃德股份有限公司 翻译方法和翻译装置
CN112055876A (zh) * 2018-04-27 2020-12-08 语享路有限责任公司 利用语音识别技术的多方对话记录/输出方法及用于其的装置
CN109101499A (zh) * 2018-08-02 2018-12-28 王大江 基于神经网络的人工智能语音学习方法
CN109101499B (zh) * 2018-08-02 2022-12-16 北京中科汇联科技股份有限公司 基于神经网络的人工智能语音学习方法
CN109033423A (zh) * 2018-08-10 2018-12-18 北京搜狗科技发展有限公司 同传字幕显示方法及装置、智能会议方法、装置及系统

Also Published As

Publication number Publication date
US20170242847A1 (en) 2017-08-24
JP6462651B2 (ja) 2019-01-30
JP2017146587A (ja) 2017-08-24

Similar Documents

Publication Publication Date Title
CN107102990A (zh) 对语音进行翻译的方法和装置
CN107305541B (zh) 语音识别文本分段方法及装置
CN106331893B (zh) 实时字幕显示方法及系统
US9031839B2 (en) Conference transcription based on conference data
US8108212B2 (en) Speech recognition method, speech recognition system, and server thereof
US9564127B2 (en) Speech recognition method and system based on user personalized information
CN107945792B (zh) 语音处理方法和装置
US20070208569A1 (en) Communicating across voice and text channels with emotion preservation
CN107945805A (zh) 一种智能化跨语言语音识别转化方法
CN110853615B (zh) 一种数据处理方法、装置及存储介质
CN109256133A (zh) 一种语音交互方法、装置、设备及存储介质
CN109522564A (zh) 语音翻译方法和装置
CN103167360A (zh) 实现多语字幕翻译的方法
CN106297764A (zh) 一种多语种混语文本处理方法及系统
CN104347071B (zh) 生成口语考试参考答案的方法及系统
CN111986656A (zh) 教学视频自动字幕处理方法与系统
CN108735200A (zh) 一种说话人自动标注方法
Kumar et al. Translations of the CALLHOME Egyptian Arabic corpus for conversational speech translation
CN109074809B (zh) 信息处理设备、信息处理方法和计算机可读存储介质
Yang et al. An automated analysis and indexing framework for lecture video portal
EP2962296A2 (de) Wortwahlbasierte sprachanalyse und sprachanalyseeinrichtung
CN111062221A (zh) 数据处理方法、装置、电子设备以及存储介质
CN107886940B (zh) 语音翻译处理方法及装置
CN113837907A (zh) 一种英语教学人机互动系统及其方法
CN109783648B (zh) 一种利用asr识别结果改进asr语言模型的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170829