CN109241539B - 机器学习人工智能翻译数据库的更新方法 - Google Patents

机器学习人工智能翻译数据库的更新方法 Download PDF

Info

Publication number
CN109241539B
CN109241539B CN201810873984.2A CN201810873984A CN109241539B CN 109241539 B CN109241539 B CN 109241539B CN 201810873984 A CN201810873984 A CN 201810873984A CN 109241539 B CN109241539 B CN 109241539B
Authority
CN
China
Prior art keywords
words
association
word
voice
foreign language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810873984.2A
Other languages
English (en)
Other versions
CN109241539A (zh
Inventor
王大江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Aiyunbao Shanghai Technology Co ltd
Original Assignee
Aiyunbao Shanghai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Aiyunbao Shanghai Technology Co ltd filed Critical Aiyunbao Shanghai Technology Co ltd
Priority to CN201810873984.2A priority Critical patent/CN109241539B/zh
Publication of CN109241539A publication Critical patent/CN109241539A/zh
Application granted granted Critical
Publication of CN109241539B publication Critical patent/CN109241539B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/005Language recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

为了进一步提高在线翻译时的效率和准确性,从而提高翻译数据库的更新效率,本发明提供了一种机器学习人工智能翻译数据库的更新方法,包括(10)以机器学习方式建立词语库;(20)建立人工智能语音预测模型;(30)将待翻译的语音转换成文字;(40)根据所述词语库和语音预测模型,确定译文文字。本发明能够通过机器学习得到的大数据外文‑中文对照词典,基于6阶深度概率分析方法进行语义和语境的匹配,从而相比现有技术的做法降低了超过40%以上的运算量,在确保翻译准确性的同时提高了翻译效率和更新效率。

Description

机器学习人工智能翻译数据库的更新方法
技术领域
本发明涉及语音控制技术领域,更具体地,涉及一种机器学习人工智能翻译数据库的更新方法。
背景技术
随着科学技术的发展和经济全球化,无论是在日常生活中还是学术领域沟通上,在线翻译交流已经存在越来越多的需求。尽管已经存在同声传译、便携式机器翻译设备等应运而生,但在涉及专业领域的会议或课堂等的使用场景里,传统机器翻译设备的准确度以及同声传译人员的效率是令人堪忧的。尤其是当某方语速较快时,机器翻译将难以胜任,而同声传译人员则需要使用重新确认的方式复述没有跟上的语言,从而给一些使用场景带来不顺畅的体验。
为了同时满足在线翻译的效率和准确性的提高需求,申请号为CN201710203439.8的中国发明专利申请公开了一种多语言智能预处理实时统计机器翻译系统,包括:接收模块、预处理模块、机器翻译模块和后处理模块。所述接收模块包括文本语言接收模块和语音识别结果接收模块;所述预处理模块包括文本预处理模块和语音识别结果预处理模块;机器翻译模块,所述机器翻译模块用于学习短语对短语的翻译,并对经过预处理模块处理的短语找出对应的翻译短语,以及把短语连接成完整的句子;后处理模块,所述后处理模块用于对翻译结果做单词标点规范化、大小写规范化和格式规范化处理,使其更加接近目标语言的表达习惯,并作为最终结果输出。然而,这种系统对于现有技术的上述弊端解决力度有限。
发明内容
为了进一步提高在线翻译时的效率和准确性,从而提高翻译数据库的更新效率,本发明提供了一种机器学习人工智能翻译数据库的更新方法,包括:
(10)以机器学习方式建立词语库;
(20)建立人工智能语音预测模型;
(30)将待翻译的语音转换成文字;
(40)根据所述词语库和语音预测模型,确定译文文字;
(50)对译文文字进行校正,并根据校正结果更新所述词语库。
进一步地,所述步骤(10)包括:利用机器学习方式,根据词典建立外文词语和与该外文词语对应的中文含义的词语之间的第一关联,其中中文词语的译文为多个时以词典中的第一顺序位置标识的中文译文词语为主要中文译文词语而之后顺序位置的中文译文词语作为次要中文译文词语。
进一步地,所述步骤(20)包括:
(201)根据外文文章进行切词得到外文词语并根据该外文文章的中文译文词语,建立外文词语和中文译文词语以及该中文译文词语之后接续的二级词语的第二关联;
(202)将第一关联和第二关联进行索引;
进一步地,所述步骤(201)包括:根据外文文章以无监督学习方式进行机器学习。
进一步地,所述步骤(201)包括:采用随机梯度下降法对外文文章及其译文进行机器学习。
进一步地,所述步骤(202)包括:
以第一关联为主键,从第二关联中出现的与第一关联相关的信息进行索引。
进一步地,所述以第一关联为主键,从第二关联中出现的与第一关联相关的信息进行索引包括:
(2021)主键信息确定:假设第一关联中,英文词语Ei对应主要中文译文词语Cj;且根据第二关联,词语Cj之后接续的二级词语构成集合{Sm,Pm},则以词语Cj为主键,其中Pm是词语Sm出现在Cj之后作为接续的二级词语的概率,i、j和m均为从1开始的自然数;
(2022)定义词语Cj出现的概率:
p(Sm|Cj)=χgh(pj),
其中
且/>为以为/>均值、ξm为方差的m阶对角阵,/>
(2023)根据概率p(Sm|Cj)确定词语Cj取当前含义时与语境的匹配度:
计算其中p’表示对p进行差分;
计算是否小于第一预设阈值:当小于时,确定Cj中j表示的位置符合Ei对应的语境,否则令j=j+1,跳转到步骤(2022),如果j经过遍历到达了其最大值,则令j=1并继续进行步骤(2024),u和v均为自然数;
(2024)校正Sm作为Cj的接续的二级词语时与语境的匹配度:
计算是否小于第二预设阈值:当小于时,确定Sm作为Cj的接续的二级词语符合语境,否则令m=m+1,跳转到步骤(2022),如果m经过遍历到达了其最大值,则令m=1。
进一步地,所述步骤(30)包括:
(301)对原始语音信号作线性分析,得到加权倒频谱系数作为语音特征参数;
(302)根据语音特征参数获得语音模型;
(303)对待识别的语音用语音模型进行匹配,利用帧同步网络搜索,对每一帧语音针对不同的模型确定一个输出概率值,在匹配过程中保留多条路径,最后回溯出匹配结果;
(304)对匹配的结果用状态持续时间分布及最佳路径概率分布进行判别拒识掉识别范围之外的语音,获得正确的识别结果。
进一步地,所述步骤(40)包括:
基于STT技术、利用中文译文词语产生语音。
本发明的有益效果包括:能够通过机器学习得到的大数据外文-中文对照词典,基于6阶深度概率分析方法进行语义和语境的匹配,从而相比现有技术的做法降低了超过40%以上的运算量,在确保翻译准确性的同时提高了翻译效率和更新效率。
附图说明
图1示出了本发明方法的流程图。
具体实施方式
如图1所示,根据本发明的优选实施例,本发明提供了一种机器学习人工智能翻译数据库的更新方法,包括:
(10)以机器学习方式建立词语库;
(20)建立人工智能语音预测模型;
(30)将待翻译的语音转换成文字;
(40)根据所述词语库和语音预测模型,确定译文文字;
(50)对译文文字进行校正,并根据校正结果更新所述词语库。
其中,该校正是通过人工干预的方式参与的人为校正。
优选地,所述步骤(10)包括:利用机器学习方式,根据词典建立外文词语和与该外文词语对应的中文含义的词语之间的第一关联,其中中文词语的译文为多个时以词典中的第一顺序位置标识的中文译文词语为主要中文译文词语而之后顺序位置的中文译文词语作为次要中文译文词语。
优选地,所述步骤(20)包括:
(201)根据外文文章进行切词得到外文词语并根据该外文文章的中文译文词语,建立外文词语和中文译文词语以及该中文译文词语之后接续的二级词语的第二关联;
(202)将第一关联和第二关联进行索引;
优选地,所述步骤(201)包括:根据外文文章以无监督学习方式进行机器学习。
优选地,所述步骤(201)包括:采用随机梯度下降法对外文文章及其译文进行机器学习。
优选地,所述步骤(202)包括:
以第一关联为主键,从第二关联中出现的与第一关联相关的信息进行索引。该主键为表示外文与中文的文字对应关系的数据库的主键。
优选地,所述以第一关联为主键,从第二关联中出现的与第一关联相关的信息进行索引包括:
(2021)主键信息确定:假设第一关联中,英文词语Ei对应主要中文译文词语Cj;且根据第二关联,词语Cj之后接续的二级词语构成集合{Sm,Pm},则以词语Cj为主键,其中Pm是词语Sm出现在Cj之后作为接续的二级词语的概率,i、j和m均为从1开始的自然数;
(2022)定义词语Cj出现的概率:
p(Sm|Cj)=χgh(pj),
其中
且/>为以为/>均值、ξm为方差的m阶对角阵,/>
(2023)根据概率p(Sm|Cj)确定词语Cj取当前含义时与语境的匹配度:
计算其中p’表示对p进行差分;
计算是否小于第一预设阈值:当小于时,确定Cj中j表示的位置符合Ei对应的语境,否则令j=j+1,跳转到步骤(2022),如果j经过遍历到达了其最大值,则令j=1并继续进行步骤(2024),u和v均为自然数;
(2024)校正Sm作为Cj的接续的二级词语时与语境的匹配度:
计算是否小于第二预设阈值:当小于时,确定Sm作为Cj的接续的二级词语符合语境,否则令m=m+1,跳转到步骤(2022),如果m经过遍历到达了其最大值,则令m=1。
优选地,所述步骤(30)包括:
(301)对原始语音信号作线性分析,得到加权倒频谱系数作为语音特征参数;
(302)根据语音特征参数获得语音模型;
(303)对待识别的语音用语音模型进行匹配,利用帧同步网络搜索,对每一帧语音针对不同的模型确定一个输出概率值,在匹配过程中保留多条路径,最后回溯出匹配结果;
(304)对匹配的结果用状态持续时间分布及最佳路径概率分布进行判别拒识掉识别范围之外的语音,获得正确的识别结果。
优选地,所述步骤(40)包括:
基于STT技术,即Speech to Text技术、利用中文译文词语产生语音。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (3)

1.一种机器学习人工智能翻译数据库的更新方法,包括:
(10)以机器学习方式建立词语库;
(20)建立人工智能语音预测模型;
(30)将待翻译的语音转换成文字;
(40)根据所述词语库和语音预测模型,确定译文文字;
(50)对译文文字进行校正,并根据校正结果更新所述词语库;
所述步骤(10)包括:利用机器学习方式,根据词典建立外文词语和与该外文词语对应的中文含义的词语之间的第一关联,其中中文词语的译文为多个时以词典中的第一顺序位置标识的中文译文词语为主要中文译文词语而之后顺序位置的中文译文词语作为次要中文译文词语;
所述步骤(20)包括:
(201)根据外文文章进行切词得到外文词语并根据该外文文章的中文译文词语,建立外文词语和中文译文词语以及该中文译文词语之后接续的二级词语的第二关联;
(202)将第一关联和第二关联进行索引;
所述步骤(201)包括:根据外文文章以无监督学习方式进行机器学习;
所述步骤(201)包括:采用随机梯度下降法对外文文章及其译文进行机器学习;
所述步骤(202)包括:
以第一关联为主键,从第二关联中出现的与第一关联相关的信息进行索引;
其特征在于,所述以第一关联为主键,从第二关联中出现的与第一关联相关的信息进行索引包括:
(2021)主键信息确定:假设第一关联中,英文词语Ei对应主要中文译文词语Cj;且根据第二关联,词语Cj之后接续的二级词语构成集合{Sm,pm},则以词语Cj为主键,其中pm是词语Sm出现在Cj之后作为接续的二级词语的概率,i、j和m均为从1开始的自然数;
(2022)定义词语Cj出现的概率:
p(Sm|Cj)=χgh(pj),
其中
且/>为以/>为均值、ξm为方差的m阶对角阵,/>
(2023)根据概率p(Sm|Cj)确定词语Cj取当前含义时与语境的匹配度:
计算其中p’表示对p进行差分;
计算是否小于第一预设阈值:当小于时,确定Cj中j表示的位置符合Ei对应的语境,否则令j=j+1,跳转到步骤(2022),如果j经过遍历到达了其最大值,则令j=1并继续进行步骤(2024),u和v均为自然数;
(2024)校正Sm作为Cj的接续的二级词语时与语境的匹配度:
计算是否小于第二预设阈值:当小于时,确定Sm作为Cj的接续的二级词语符合语境,否则令m=m+1,跳转到步骤(2022),如果m经过遍历到达了其最大值,则令m=1。
2.根据权利要求1所述的方法,其特征在于,所述步骤(30)包括:
(301)对原始语音信号作线性分析,得到加权倒频谱系数作为语音特征参数;
(302)根据语音特征参数获得语音模型;
(303)对待识别的语音用语音模型进行匹配,利用帧同步网络搜索,对每一帧语音针对不同的模型确定一个输出概率值,在匹配过程中保留多条路径,最后回溯出匹配结果;
(304)对匹配的结果用状态持续时间分布及最佳路径概率分布进行判别拒识掉识别范围之外的语音,获得正确的识别结果。
3.根据权利要求1所述的方法,其特征在于,所述步骤(40)包括:
基于STT技术利用中文译文词语产生语音。
CN201810873984.2A 2018-08-02 2018-08-02 机器学习人工智能翻译数据库的更新方法 Active CN109241539B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810873984.2A CN109241539B (zh) 2018-08-02 2018-08-02 机器学习人工智能翻译数据库的更新方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810873984.2A CN109241539B (zh) 2018-08-02 2018-08-02 机器学习人工智能翻译数据库的更新方法

Publications (2)

Publication Number Publication Date
CN109241539A CN109241539A (zh) 2019-01-18
CN109241539B true CN109241539B (zh) 2023-09-08

Family

ID=65072961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810873984.2A Active CN109241539B (zh) 2018-08-02 2018-08-02 机器学习人工智能翻译数据库的更新方法

Country Status (1)

Country Link
CN (1) CN109241539B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07244665A (ja) * 1994-03-04 1995-09-19 Nippon Telegr & Teleph Corp <Ntt> 機械翻訳システム用辞書・ルール学習方法及び機械翻訳システム用辞書・ルール学習装置
JP2004220266A (ja) * 2003-01-14 2004-08-05 Cross Language Inc 機械翻訳装置および機械翻訳方法
CN105183720A (zh) * 2015-08-05 2015-12-23 百度在线网络技术(北京)有限公司 基于rnn模型的机器翻译方法和装置
CN107315741A (zh) * 2017-05-24 2017-11-03 清华大学 双语词典构建方法和设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090192782A1 (en) * 2008-01-28 2009-07-30 William Drewes Method for increasing the accuracy of statistical machine translation (SMT)

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07244665A (ja) * 1994-03-04 1995-09-19 Nippon Telegr & Teleph Corp <Ntt> 機械翻訳システム用辞書・ルール学習方法及び機械翻訳システム用辞書・ルール学習装置
JP2004220266A (ja) * 2003-01-14 2004-08-05 Cross Language Inc 機械翻訳装置および機械翻訳方法
CN105183720A (zh) * 2015-08-05 2015-12-23 百度在线网络技术(北京)有限公司 基于rnn模型的机器翻译方法和装置
CN107315741A (zh) * 2017-05-24 2017-11-03 清华大学 双语词典构建方法和设备

Also Published As

Publication number Publication date
CN109241539A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN109146610B (zh) 一种智能保险推荐方法、装置及智能保险机器人设备
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN109145276A (zh) 一种基于拼音的语音转文字后的文本校正方法
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN114580382A (zh) 文本纠错方法以及装置
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111709242B (zh) 一种基于命名实体识别的中文标点符号添加方法
CN114722839B (zh) 人机协同对话交互系统及方法
CN112992125B (zh) 一种语音识别方法、装置、电子设备、可读存储介质
CN112883193A (zh) 一种文本分类模型的训练方法、装置、设备以及可读介质
CN114416942A (zh) 一种基于深度学习的自动化问答方法
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN116049387A (zh) 一种基于图卷积的短文本分类方法、装置、介质
CN115935959A (zh) 一种低资源黏着语序列标注的方法
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN113326367A (zh) 基于端到端文本生成的任务型对话方法和系统
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN113705207A (zh) 语法错误识别方法及装置
Chowanda et al. Generative Indonesian conversation model using recurrent neural network with attention mechanism
CN109241539B (zh) 机器学习人工智能翻译数据库的更新方法
CN112131879A (zh) 一种关系抽取系统、方法和装置
CN116483314A (zh) 一种自动化智能活动图生成方法
CN112380882B (zh) 一种具有误差修正功能的蒙汉神经机器翻译方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230809

Address after: Room 7-59, No. 500, Loushanguan Road, Changning District, Shanghai 200050

Applicant after: Aiyunbao (Shanghai) Technology Co.,Ltd.

Address before: No. 16, Elbow Group, Fruit Village, Liuxi Miao Township, Yiliang County, Zhaotong City, Yunnan Province 657600

Applicant before: Wang Dajiang

GR01 Patent grant
GR01 Patent grant