CN109062911B - 一种人工智能语音建模方法 - Google Patents

一种人工智能语音建模方法 Download PDF

Info

Publication number
CN109062911B
CN109062911B CN201810874562.7A CN201810874562A CN109062911B CN 109062911 B CN109062911 B CN 109062911B CN 201810874562 A CN201810874562 A CN 201810874562A CN 109062911 B CN109062911 B CN 109062911B
Authority
CN
China
Prior art keywords
words
voice
association
word
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810874562.7A
Other languages
English (en)
Other versions
CN109062911A (zh
Inventor
王大江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Maikeya Technology Co ltd
Original Assignee
Shenzhen Maikeya Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Maikeya Technology Co ltd filed Critical Shenzhen Maikeya Technology Co ltd
Priority to CN201810874562.7A priority Critical patent/CN109062911B/zh
Publication of CN109062911A publication Critical patent/CN109062911A/zh
Application granted granted Critical
Publication of CN109062911B publication Critical patent/CN109062911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

为了进一步提高在线翻译时的效率和准确性,本发明提供了一种人工智能语音建模方法,包括(10)建立词语库;(20)建立语音预测模型;(30)将输入的语音转换成文字;(40)根据所述词语库和语音预测模型,确定译文文字。本发明能够通过机器学习得到的大数据外文‑中文对照词典,基于6阶深度概率分析方法进行语义和语境的匹配,从而相比现有技术的做法降低了超过40%以上的运算量,在确保翻译准确性的同时提高了翻译效率。

Description

一种人工智能语音建模方法
技术领域
本发明涉及语音控制技术领域,更具体地,涉及一种人工智能语音建模方法。
背景技术
随着科学技术的发展和经济全球化,无论是在日常生活中还是学术领域沟通上,在线翻译交流已经存在越来越多的需求。尽管已经存在同声传译、便携式机器翻译设备等应运而生,但在涉及专业领域的会议或课堂等的使用场景里,传统机器翻译设备的准确度以及同声传译人员的效率是令人堪忧的。尤其是当某方语速较快时,机器翻译将难以胜任,而同声传译人员则需要使用重新确认的方式复述没有跟上的语言,从而给一些使用场景带来不顺畅的体验。
为了同时满足在线翻译的效率和准确性的提高需求,申请号为CN201710203439.8的中国发明专利申请公开了一种多语言智能预处理实时统计机器翻译系统,包括:接收模块、预处理模块、机器翻译模块和后处理模块。所述接收模块包括文本语言接收模块和语音识别结果接收模块;所述预处理模块包括文本预处理模块和语音识别结果预处理模块;机器翻译模块,所述机器翻译模块用于学习短语对短语的翻译,并对经过预处理模块处理的短语找出对应的翻译短语,以及把短语连接成完整的句子;后处理模块,所述后处理模块用于对翻译结果做单词标点规范化、大小写规范化和格式规范化处理,使其更加接近目标语言的表达习惯,并作为最终结果输出。然而,这种系统对于现有技术的上述弊端解决力度有限。
发明内容
为了进一步提高在线翻译时的效率和准确性,本发明提供了一种人工智能语音建模方法,包括:
(10)建立词语库;
(20)建立语音预测模型;
(30)将输入的语音转换成文字;
(40)根据所述词语库和语音预测模型,确定译文文字。
进一步地,所述步骤(10)包括:根据词典建立外文词语和与该外文词语对应的中文含义的词语之间的第一关联,其中中文词语的译文为多个时以词典中的第一顺序位置标识的中文译文词语为主要中文译文词语而之后顺序位置的中文译文词语作为次要中文译文词语。
进一步地,所述步骤(20)包括:
(201)根据外文文章进行切词得到外文词语并根据该外文文章的中文译文词语,建立外文词语和中文译文词语以及该中文译文词语之后接续的二级词语的第二关联;
(202)将第一关联和第二关联进行索引;
进一步地,所述步骤(201)包括:根据外文文章以无监督学习方式进行机器学习。
进一步地,所述步骤(201)包括:采用随机梯度下降法对外文文章及其译文进行机器学习。
进一步地,所述步骤(202)包括:
以第一关联为主键,从第二关联中出现的与第一关联相关的信息进行索引。
进一步地,所述以第一关联为主键,从第二关联中出现的与第一关联相关的信息进行索引包括:
(2021)主键信息确定:假设第一关联中,英文词语Ei对应主要中文译文词语Cj;且根据第二关联,词语Cj之后接续的二级词语构成集合{Sm,Pm},则以词语Cj为主键,其中Pm是词语Sm出现在Cj之后作为接续的二级词语的概率,i、j和m均为从1开始的自然数;
(2022)定义词语Cj出现的概率:
p(Sm|Cj)=χgh(pj),
其中
Figure GDA0001851288850000041
Figure GDA0001851288850000042
m=1,2,3,4,5,6;且
Figure GDA0001851288850000047
为以为
Figure GDA0001851288850000043
均值、ξm为方差的m阶对角阵,
Figure GDA0001851288850000044
(2023)根据概率p(Sm|Cj)确定词语Cj取当前含义时与语境的匹配度:
计算
Figure GDA0001851288850000045
其中p’表示对p进行差分;
计算
Figure GDA0001851288850000046
是否小于第一预设阈值:当小于时,确定Cj中j表示的位置符合Ei对应的语境,否则令j=j+1,跳转到步骤(2022),如果j经过遍历到达了其最大值,则令j=1并继续进行步骤(2024),u和v均为自然数;
(2024)校正Sm作为Cj的接续的二级词语时与语境的匹配度:
计算
Figure GDA0001851288850000051
是否小于第二预设阈值:当小于时,确定Sm作为Cj的接续的二级词语符合语境,否则令m=m+1,跳转到步骤(2022),如果m经过遍历到达了其最大值,则令m=1。
进一步地,所述步骤(30)包括:
(301)对原始语音信号作线性分析,得到加权倒频谱系数作为语音特征参数;
(302)根据语音特征参数获得语音模型;
(303)对待识别的语音用语音模型进行匹配,利用帧同步网络搜索,对每一帧语音针对不同的模型确定一个输出概率值,在匹配过程中保留多条路径,最后回溯出匹配结果;
(304)对匹配的结果用状态持续时间分布及最佳路径概率分布进行判别拒识掉识别范围之外的语音,获得正确的识别结果。
进一步地,所述步骤(40)包括:
基于STT技术、利用中文译文词语产生语音。
本发明的有益效果包括:能够通过机器学习得到的大数据外文-中文对照词典,基于6阶深度概率分析方法进行语义和语境的匹配,从而相比现有技术的做法降低了超过40%以上的运算量,在确保翻译准确性的同时提高了翻译效率。
附图说明
图1示出了本发明方法的流程图。
具体实施方式
如图1所示,根据本发明的优选实施例,本发明提供了一种人工智能语音建模方法,包括:
(10)建立词语库;
(20)建立语音预测模型;
(30)将输入的语音转换成文字;
(40)根据所述词语库和语音预测模型,确定译文文字。
优选地,所述步骤(10)包括:根据词典建立外文词语和与该外文词语对应的中文含义的词语之间的第一关联,其中中文词语的译文为多个时以词典中的第一顺序位置标识的中文译文词语为主要中文译文词语而之后顺序位置的中文译文词语作为次要中文译文词语。
优选地,所述步骤(20)包括:
(201)根据外文文章进行切词得到外文词语并根据该外文文章的中文译文词语,建立外文词语和中文译文词语以及该中文译文词语之后接续的二级词语的第二关联;
(202)将第一关联和第二关联进行索引;
优选地,所述步骤(201)包括:根据外文文章以无监督学习方式进行机器学习。
优选地,所述步骤(201)包括:采用随机梯度下降法对外文文章及其译文进行机器学习。
优选地,所述步骤(202)包括:
以第一关联为主键,从第二关联中出现的与第一关联相关的信息进行索引。该主键为表示外文与中文的文字对应关系的数据库的主键。
优选地,所述以第一关联为主键,从第二关联中出现的与第一关联相关的信息进行索引包括:
(2021)主键信息确定:假设第一关联中,英文词语Ei对应主要中文译文词语Cj;且根据第二关联,词语Cj之后接续的二级词语构成集合{Sm,Pm},则以词语Cj为主键,其中Pm是词语Sm出现在Cj之后作为接续的二级词语的概率,i、j和m均为从1开始的自然数;
(2022)定义词语Cj出现的概率:
p(Sm|Cj)=χgh(pj),
其中
Figure GDA0001851288850000071
Figure GDA0001851288850000081
m=1,2,3,4,5,6;且
Figure GDA0001851288850000087
为以为
Figure GDA0001851288850000082
均值、ξm为方差的m阶对角阵,
Figure GDA0001851288850000083
(2023)根据概率p(Sm|Cj)确定词语Cj取当前含义时与语境的匹配度:
计算
Figure GDA0001851288850000084
其中p’表示对p进行差分;
计算
Figure GDA0001851288850000085
是否小于第一预设阈值:当小于时,确定Cj中j表示的位置符合Ei对应的语境,否则令j=j+1,跳转到步骤(2022),如果j经过遍历到达了其最大值,则令j=1并继续进行步骤(2024),u和v均为自然数;
(2024)校正Sm作为Cj的接续的二级词语时与语境的匹配度:
计算
Figure GDA0001851288850000086
是否小于第二预设阈值:当小于时,确定Sm作为Cj的接续的二级词语符合语境,否则令m=m+1,跳转到步骤(2022),如果m经过遍历到达了其最大值,则令m=1。
优选地,所述步骤(30)包括:
(301)对原始语音信号作线性分析,得到加权倒频谱系数作为语音特征参数;
(302)根据语音特征参数获得语音模型;
(303)对待识别的语音用语音模型进行匹配,利用帧同步网络搜索,对每一帧语音针对不同的模型确定一个输出概率值,在匹配过程中保留多条路径,最后回溯出匹配结果;
(304)对匹配的结果用状态持续时间分布及最佳路径概率分布进行判别拒识掉识别范围之外的语音,获得正确的识别结果。
优选地,所述步骤(40)包括:
基于STT技术,即Speech to Text技术、利用中文译文词语产生语音。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (3)

1.一种人工智能语音建模方法,包括以下步骤:
(10)建立词语库;
(20)建立语音预测模型;
(30)将输入的语音转换成文字;
(40)根据所述词语库和语音预测模型,确定译文文字;
所述步骤(10)包括:根据词典建立外文词语和与该外文词语对应的中文含义的词语之间的第一关联,其中中文词语的译文为多个时,以词典中的第一顺序位置标识的中文译文词语为主要中文译文词语,而之后顺序位置的中文译文词语作为次要中文译文词语;
所述步骤(20)包括:
(201)根据外文文章进行切词得到外文词语并根据该外文文章的中文译文词语,建立外文词语和中文译文词语以及该中文译文词语之后接续的二级词语的第二关联;
(202)将第一关联和第二关联进行索引;
所述步骤(201)包括:采用随机梯度下降法对外文文章及其译文进行机器学习;
所述步骤(202)包括:
以第一关联为主键,从第二关联中出现的与第一关联相关的信息进行索引;
其特征在于,所述以第一关联为主键,从第二关联中出现的与第一关联相关的信息进行索引包括:
(2021)主键信息确定:假设第一关联中,英文词语Ei对应主要中文译文词语Cj;且根据第二关联,词语Cj之后接续的二级词语构成集合{Sm,pm},则以词语Cj为主键,其中pm是词语Sm出现在Cj之后作为接续的二级词语的概率,i、j和m均为从1开始的自然数;
(2022)定义词语Cj出现的概率:
p(Sm|Cj)=χgh(pj),
其中
Figure FDA0003834149770000021
Figure FDA0003834149770000022
Figure FDA0003834149770000023
为以
Figure FDA0003834149770000024
为均值、ξm为方差的m阶对角阵,
Figure FDA0003834149770000025
(2023)根据概率p(Sm|Cj)确定词语Cj取当前含义时与语境的匹配度:
计算
Figure FDA0003834149770000026
其中p’表示对p进行差分;
计算
Figure FDA0003834149770000031
是否小于第一预设阈值:当小于时,确定Cj中j表示的位置符合Ei对应的语境,否则令j=j+1,跳转到步骤(2022),如果j经过遍历到达了其最大值,则令j=1并继续进行步骤(2024),u和v均为自然数;
(2024)校正Sm作为Cj的接续的二级词语时与语境的匹配度:
计算
Figure FDA0003834149770000032
是否小于第二预设阈值:当小于时,确定Sm作为Cj的接续的二级词语符合语境,否则令m=m+1,跳转到步骤(2022),如果m经过遍历到达了其最大值,则令m=1。
2.根据权利要求1所述的方法,其特征在于,所述步骤(30)包括:
(301)对原始语音信号作线性分析,得到加权倒频谱系数作为语音特征参数;
(302)根据语音特征参数获得语音模型;
(303)对待识别的语音用语音模型进行匹配,利用帧同步网络搜索,对每一帧语音针对不同的模型确定一个输出概率值,在匹配过程中保留多条路径,最后回溯出匹配结果;
(304)对匹配的结果用状态持续时间分布及最佳路径概率分布进行判别拒识掉识别范围之外的语音,获得正确的识别结果。
3.根据权利要求1所述的方法,其特征在于,所述步骤(40)包括:
基于STT技术利用中文译文词语产生语音。
CN201810874562.7A 2018-08-02 2018-08-02 一种人工智能语音建模方法 Active CN109062911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810874562.7A CN109062911B (zh) 2018-08-02 2018-08-02 一种人工智能语音建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810874562.7A CN109062911B (zh) 2018-08-02 2018-08-02 一种人工智能语音建模方法

Publications (2)

Publication Number Publication Date
CN109062911A CN109062911A (zh) 2018-12-21
CN109062911B true CN109062911B (zh) 2023-01-13

Family

ID=64832971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810874562.7A Active CN109062911B (zh) 2018-08-02 2018-08-02 一种人工智能语音建模方法

Country Status (1)

Country Link
CN (1) CN109062911B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014183435A1 (en) * 2013-05-13 2014-11-20 Tencent Technology (Shenzhen) Company Limited A method, system, and mobile terminal for realizing language interpretation in a browser
CN105183720A (zh) * 2015-08-05 2015-12-23 百度在线网络技术(北京)有限公司 基于rnn模型的机器翻译方法和装置
CN107170453A (zh) * 2017-05-18 2017-09-15 百度在线网络技术(北京)有限公司 基于人工智能的跨语种语音转录方法、设备及可读介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014183435A1 (en) * 2013-05-13 2014-11-20 Tencent Technology (Shenzhen) Company Limited A method, system, and mobile terminal for realizing language interpretation in a browser
CN105183720A (zh) * 2015-08-05 2015-12-23 百度在线网络技术(北京)有限公司 基于rnn模型的机器翻译方法和装置
CN107170453A (zh) * 2017-05-18 2017-09-15 百度在线网络技术(北京)有限公司 基于人工智能的跨语种语音转录方法、设备及可读介质

Also Published As

Publication number Publication date
CN109062911A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
CN109146610B (zh) 一种智能保险推荐方法、装置及智能保险机器人设备
CN108304372B (zh) 实体提取方法和装置、计算机设备和存储介质
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN109145276A (zh) 一种基于拼音的语音转文字后的文本校正方法
CN110362819B (zh) 基于卷积神经网络的文本情感分析方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN114722839B (zh) 人机协同对话交互系统及方法
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN114580382A (zh) 文本纠错方法以及装置
CN114676255A (zh) 文本处理方法、装置、设备、存储介质及计算机程序产品
CN111984780A (zh) 多意图识别模型训练方法和多意图识别方法及相关装置
CN112016320A (zh) 基于数据增强的英文标点符号添加方法和系统及设备
CN112200664A (zh) 基于ernie模型和dcnn模型的还款预测方法
CN111489746A (zh) 一种基于bert的电网调度语音识别语言模型构建方法
CN114153971A (zh) 一种含错中文文本纠错识别分类设备
CN115935959A (zh) 一种低资源黏着语序列标注的方法
CN112447172B (zh) 一种语音识别文本的质量提升方法和装置
CN116166688A (zh) 基于自然语言交互的业务数据检索方法、系统及处理设备
CN116258147A (zh) 一种基于异构图卷积的多模态评论情感分析方法及系统
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN109033073B (zh) 基于词汇依存三元组的文本蕴含识别方法及装置
CN112949284B (zh) 一种基于Transformer模型的文本语义相似度预测方法
CN112528653A (zh) 短文本实体识别方法和系统
CN112131879A (zh) 一种关系抽取系统、方法和装置
CN110377753A (zh) 基于关系触发词与gru模型的关系抽取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20221222

Address after: 518000 M204A, Wandeli Building, No. 017, Gaoxin South 1st Road, High tech Zone Community, Yuehai Street, Nanshan District, Shenzhen, Guangdong

Applicant after: Shenzhen maikeya Technology Co.,Ltd.

Address before: No. 16, Elbow Group, Fruit Village, Liuxi Miao Township, Yiliang County, Zhaotong City, Yunnan Province 657600

Applicant before: Wang Dajiang

GR01 Patent grant
GR01 Patent grant