CN109062911A - 一种人工智能语音建模方法 - Google Patents
一种人工智能语音建模方法 Download PDFInfo
- Publication number
- CN109062911A CN109062911A CN201810874562.7A CN201810874562A CN109062911A CN 109062911 A CN109062911 A CN 109062911A CN 201810874562 A CN201810874562 A CN 201810874562A CN 109062911 A CN109062911 A CN 109062911A
- Authority
- CN
- China
- Prior art keywords
- word
- translation
- voice
- association
- foreign language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000013519 translation Methods 0.000 claims abstract description 52
- 238000010801 machine learning Methods 0.000 claims abstract description 7
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 238000012937 correction Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 2
- PMHURSZHKKJGBM-UHFFFAOYSA-N isoxaben Chemical compound O1N=C(C(C)(CC)CC)C=C1NC(=O)C1=C(OC)C=CC=C1OC PMHURSZHKKJGBM-UHFFFAOYSA-N 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Algebra (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
为了进一步提高在线翻译时的效率和准确性,本发明提供了一种人工智能语音建模方法,包括(10)建立词语库;(20)建立语音预测模型;(30)将输入的语音转换成文字;(40)根据所述词语库和语音预测模型,确定译文文字。本发明能够通过机器学习得到的大数据外文‑中文对照词典,基于6阶深度概率分析方法进行语义和语境的匹配,从而相比现有技术的做法降低了超过40%以上的运算量,在确保翻译准确性的同时提高了翻译效率。
Description
技术领域
本发明涉及语音控制技术领域,更具体地,涉及一种人工智能语 音建模方法。
背景技术
随着科学技术的发展和经济全球化,无论是在日常生活中还是学 术领域沟通上,在线翻译交流已经存在越来越多的需求。尽管已经存 在同声传译、便携式机器翻译设备等应运而生,但在涉及专业领域的 会议或课堂等的使用场景里,传统机器翻译设备的准确度以及同声传 译人员的效率是令人堪忧的。尤其是当某方语速较快时,机器翻译将 难以胜任,而同声传译人员则需要使用重新确认的方式复述没有跟上 的语言,从而给一些使用场景带来不顺畅的体验。
为了同时满足在线翻译的效率和准确性的提高需求,申请号为CN201710203439.8的中国发明专利申请公开了一种多语言智能预处 理实时统计机器翻译系统,包括:接收模块、预处理模块、机器翻译 模块和后处理模块。所述接收模块包括文本语言接收模块和语音识别 结果接收模块;所述预处理模块包括文本预处理模块和语音识别结果 预处理模块;机器翻译模块,所述机器翻译模块用于学习短语对短语 的翻译,并对经过预处理模块处理的短语找出对应的翻译短语,以及 把短语连接成完整的句子;后处理模块,所述后处理模块用于对翻译 结果做单词标点规范化、大小写规范化和格式规范化处理,使其更加 接近目标语言的表达习惯,并作为最终结果输出。然而,这种系统对 于现有技术的上述弊端解决力度有限。
发明内容
为了进一步提高在线翻译时的效率和准确性,本发明提供了一种 人工智能语音建模方法,包括:
(10)建立词语库;
(20)建立语音预测模型;
(30)将输入的语音转换成文字;
(40)根据所述词语库和语音预测模型,确定译文文字。
进一步地,所述步骤(10)包括:根据词典建立外文词语和与该 外文词语对应的中文含义的词语之间的第一关联,其中中文词语的译 文为多个时以词典中的第一顺序位置标识的中文译文词语为主要中 文译文词语而之后顺序位置的中文译文词语作为次要中文译文词语。
进一步地,所述步骤(20)包括:
(201)根据外文文章进行切词得到外文词语并根据该外文文章 的中文译文词语,建立外文词语和中文译文词语以及该中文译文词语 之后接续的二级词语的第二关联;
(202)将第一关联和第二关联进行索引;
进一步地,所述步骤(201)包括:根据外文文章以无监督学习 方式进行机器学习。
进一步地,所述步骤(201)包括:采用随机梯度下降法对外文 文章及其译文进行机器学习。
进一步地,所述步骤(202)包括:
以第一关联为主键,从第二关联中出现的与第一关联相关的信息 进行索引。
进一步地,所述以第一关联为主键,从第二关联中出现的与第一 关联相关的信息进行索引包括:
(2021)主键信息确定:假设第一关联中,英文词语Ei对应主 要中文译文词语Cj;且根据第二关联,词语Cj之后接续的二级词语 构成集合{Sm,Pm},则以词语Cj为主键,其中Pm是词语Sm出现在 Cj之后作为接续的二级词语的概率,i、j和m均为从1开始的自然 数;
(2022)定义词语Cj出现的概率:
p(Sm|Cj)=χgh(pj),
其中
m=1,2,3,4,5,6;且为以为均值、ξm为方差的m阶对角阵,
(2023)根据概率p(Sm|Cj)确定词语Cj取当前含义时与语境的 匹配度:
计算其中p’表示对p进行 差分;
计算是否小于第一预设 阈值:当小于时,确定Cj中j表示的位置符合Ei对应的语境,否则 令j=j+1,跳转到步骤(2022),如果j经过遍历到达了其最大值, 则令j=1并继续进行步骤(2024),u和v均为自然数;
(2024)校正Sm作为Cj的接续的二级词语时与语境的匹配度:
计算是否小 于第二预设阈值:当小于时,确定Sm作为Cj的接续的二级词语符合 语境,否则令m=m+1,跳转到步骤(2022),如果m经过遍历到达了 其最大值,则令m=1。
进一步地,所述步骤(30)包括:
(301)对原始语音信号作线性分析,得到加权倒频谱系数作为 语音特征参数;
(302)根据语音特征参数获得语音模型;
(303)对待识别的语音用语音模型进行匹配,利用帧同步网络 搜索,对每一帧语音针对不同的模型确定一个输出概率值,在匹配过 程中保留多条路径,最后回溯出匹配结果;
(304)对匹配的结果用状态持续时间分布及最佳路径概率分布 进行判别拒识掉识别范围之外的语音,获得正确的识别结果。
进一步地,所述步骤(40)包括:
基于STT技术、利用中文译文词语产生语音。
本发明的有益效果包括:能够通过机器学习得到的大数据外文- 中文对照词典,基于6阶深度概率分析方法进行语义和语境的匹配, 从而相比现有技术的做法降低了超过40%以上的运算量,在确保翻译 准确性的同时提高了翻译效率。
附图说明
图1示出了本发明方法的流程图。
具体实施方式
如图1所示,根据本发明的优选实施例,本发明提供了一种人工 智能语音建模方法,包括:
(10)建立词语库;
(20)建立语音预测模型;
(30)将输入的语音转换成文字;
(40)根据所述词语库和语音预测模型,确定译文文字。
优选地,所述步骤(10)包括:根据词典建立外文词语和与该外 文词语对应的中文含义的词语之间的第一关联,其中中文词语的译文 为多个时以词典中的第一顺序位置标识的中文译文词语为主要中文 译文词语而之后顺序位置的中文译文词语作为次要中文译文词语。
优选地,所述步骤(20)包括:
(201)根据外文文章进行切词得到外文词语并根据该外文文章 的中文译文词语,建立外文词语和中文译文词语以及该中文译文词语 之后接续的二级词语的第二关联;
(202)将第一关联和第二关联进行索引;
优选地,所述步骤(201)包括:根据外文文章以无监督学习方 式进行机器学习。
优选地,所述步骤(201)包括:采用随机梯度下降法对外文文 章及其译文进行机器学习。
优选地,所述步骤(202)包括:
以第一关联为主键,从第二关联中出现的与第一关联相关的信息 进行索引。该主键为表示外文与中文的文字对应关系的数据库的主 键。
优选地,所述以第一关联为主键,从第二关联中出现的与第一关 联相关的信息进行索引包括:
(2021)主键信息确定:假设第一关联中,英文词语Ei对应主 要中文译文词语Cj;且根据第二关联,词语Cj之后接续的二级词语 构成集合{Sm,Pm},则以词语Cj为主键,其中Pm是词语Sm出现在 Cj之后作为接续的二级词语的概率,i、j和m均为从1开始的自然 数;
(2022)定义词语Cj出现的概率:
p(Sm|Cj)=χgh(pj),
其中
m=1,2,3,4,5,6;且为以为均值、ξm为方差的m阶对角阵,
(2023)根据概率p(Sm|Cj)确定词语Cj取当前含义时与语境的 匹配度:
计算其中p’表示对p进行 差分;
计算是否小于第一预设 阈值:当小于时,确定Cj中j表示的位置符合Ei对应的语境,否则 令j=j+1,跳转到步骤(2022),如果j经过遍历到达了其最大值, 则令j=1并继续进行步骤(2024),u和v均为自然数;
(2024)校正Sm作为Cj的接续的二级词语时与语境的匹配度:
计算是否小 于第二预设阈值:当小于时,确定Sm作为Cj的接续的二级词语符合 语境,否则令m=m+1,跳转到步骤(2022),如果m经过遍历到达了 其最大值,则令m=1。
优选地,所述步骤(30)包括:
(301)对原始语音信号作线性分析,得到加权倒频谱系数作为 语音特征参数;
(302)根据语音特征参数获得语音模型;
(303)对待识别的语音用语音模型进行匹配,利用帧同步网络 搜索,对每一帧语音针对不同的模型确定一个输出概率值,在匹配过 程中保留多条路径,最后回溯出匹配结果;
(304)对匹配的结果用状态持续时间分布及最佳路径概率分布 进行判别拒识掉识别范围之外的语音,获得正确的识别结果。
优选地,所述步骤(40)包括:
基于STT技术,即Speech to Text技术、利用中文译文词语产 生语音。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制 本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴 下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有 通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一 切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (9)
1.一种人工智能语音建模方法,包括:
(10)建立词语库;
(20)建立语音预测模型;
(30)将输入的语音转换成文字;
(40)根据所述词语库和语音预测模型,确定译文文字。
2.根据权利要求1所述的方法,其特征在于,所述步骤(10)包括:根据词典建立外文词语和与该外文词语对应的中文含义的词语之间的第一关联,其中中文词语的译文为多个时以词典中的第一顺序位置标识的中文译文词语为主要中文译文词语而之后顺序位置的中文译文词语作为次要中文译文词语。
3.根据权利要求2所述的方法,其特征在于,所述步骤(20)包括:
(201)根据外文文章进行切词得到外文词语并根据该外文文章的中文译文词语,建立外文词语和中文译文词语以及该中文译文词语之后接续的二级词语的第二关联;
(202)将第一关联和第二关联进行索引。
4.根据权利要求3所述的方法,其特征在于,所述步骤(201)包括:根据外文文章以无监督学习方式进行机器学习。
5.根据权利要求3所述的方法,其特征在于,所述步骤(201)包括:采用随机梯度下降法对外文文章及其译文进行机器学习。
6.根据权利要求3所述的方法,其特征在于,所述步骤(202) 包括:
以第一关联为主键,从第二关联中出现的与第一关联相关的信息进行索引。
7.根据权利要求6所述的方法,其特征在于,所述以第一关联为主键,从第二关联中出现的与第一关联相关的信息进行索引包括:
(2021)主键信息确定:假设第一关联中,英文词语Ei对应主要中文译文词语Cj;且根据第二关联,词语Cj之后接续的二级词语构成集合{Sm,Pm},则以词语Cj为主键,其中Pm是词语Sm出现在Cj之后作为接续的二级词语的概率,i、j和m均为从1开始的自然数;
(2022)定义词语Cj出现的概率:
p(Sm|Cj)=χgh(pj),
其中
且为以为均值、ξm为方差的m阶对角阵,
(2023)根据概率p(Sm|Cj)确定词语Cj取当前含义时与语境的匹配度:
计算其中p’表示对p进行差分;
计算是否小于第一预设阈值:当小于时,确定Cj中j表示的位置符合Ei对应的语境,否则令j=j+1,跳转到步骤(2022),如果j经过遍历到达了其最大值,则令j=1并继续进行步骤(2024),u和v均为自然数;
(2024)校正Sm作为Cj的接续的二级词语时与语境的匹配度:
计算是否小于第二预设阈值:当小于时,确定Sm作为Cj的接续的二级词语符合语境,否则令m=m+1,跳转到步骤(2022),如果m经过遍历到达了其最大值,则令m=1。
8.根据权利要求1所述的方法,其特征在于,所述步骤(30)包括:
(301)对原始语音信号作线性分析,得到加权倒频谱系数作为语音特征参数;
(302)根据语音特征参数获得语音模型;
(303)对待识别的语音用语音模型进行匹配,利用帧同步网络搜索,对每一帧语音针对不同的模型确定一个输出概率值,在匹配过程中保留多条路径,最后回溯出匹配结果;
(304)对匹配的结果用状态持续时间分布及最佳路径概率分布进行判别拒识掉识别范围之外的语音,获得正确的识别结果。
9.根据权利要求1所述的方法,其特征在于,所述步骤(40)包括:
基于STT技术、利用中文译文词语产生语音。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810874562.7A CN109062911B (zh) | 2018-08-02 | 2018-08-02 | 一种人工智能语音建模方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810874562.7A CN109062911B (zh) | 2018-08-02 | 2018-08-02 | 一种人工智能语音建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109062911A true CN109062911A (zh) | 2018-12-21 |
CN109062911B CN109062911B (zh) | 2023-01-13 |
Family
ID=64832971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810874562.7A Active CN109062911B (zh) | 2018-08-02 | 2018-08-02 | 一种人工智能语音建模方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109062911B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014183435A1 (en) * | 2013-05-13 | 2014-11-20 | Tencent Technology (Shenzhen) Company Limited | A method, system, and mobile terminal for realizing language interpretation in a browser |
CN105183720A (zh) * | 2015-08-05 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 基于rnn模型的机器翻译方法和装置 |
CN107170453A (zh) * | 2017-05-18 | 2017-09-15 | 百度在线网络技术(北京)有限公司 | 基于人工智能的跨语种语音转录方法、设备及可读介质 |
-
2018
- 2018-08-02 CN CN201810874562.7A patent/CN109062911B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014183435A1 (en) * | 2013-05-13 | 2014-11-20 | Tencent Technology (Shenzhen) Company Limited | A method, system, and mobile terminal for realizing language interpretation in a browser |
CN105183720A (zh) * | 2015-08-05 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 基于rnn模型的机器翻译方法和装置 |
CN107170453A (zh) * | 2017-05-18 | 2017-09-15 | 百度在线网络技术(北京)有限公司 | 基于人工智能的跨语种语音转录方法、设备及可读介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109062911B (zh) | 2023-01-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109359293B (zh) | 基于神经网络的蒙古文命名实体识别方法及其识别系统 | |
CN100536532C (zh) | 自动加配字幕的方法和系统 | |
CN110717018A (zh) | 一种基于知识图谱的工业设备故障维修问答系统 | |
CN111709242B (zh) | 一种基于命名实体识别的中文标点符号添加方法 | |
CN108304372A (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN114722839B (zh) | 人机协同对话交互系统及方法 | |
CN112101010B (zh) | 一种基于bert的电信行业oa办公自动化文稿审核的方法 | |
CN109949799B (zh) | 一种语义解析方法及系统 | |
CN111489746A (zh) | 一种基于bert的电网调度语音识别语言模型构建方法 | |
US10867525B1 (en) | Systems and methods for generating recitation items | |
CN115357719A (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
Jiao et al. | A spoken English teaching system based on speech recognition and machine learning | |
CN110853669B (zh) | 音频识别方法、装置及设备 | |
CN113569553A (zh) | 基于改进Adaboost算法的句子相似性判断方法 | |
CN109376355A (zh) | 英文单词和语句筛选方法、装置、存储介质及电子设备 | |
CN113362815A (zh) | 语音交互方法、系统、电子设备及存储介质 | |
CN111090726A (zh) | 一种基于nlp的电力行业文字客服交互方法 | |
Liu et al. | AI recognition method of pronunciation errors in oral English speech with the help of big data for personalized learning | |
CN113486174B (zh) | 模型训练、阅读理解方法、装置、电子设备及存储介质 | |
Wang | [Retracted] Research on Open Oral English Scoring System Based on Neural Network | |
CN112528003B (zh) | 一种基于语义排序和知识修正的多项选择问答方法 | |
CN112131879A (zh) | 一种关系抽取系统、方法和装置 | |
CN109062911A (zh) | 一种人工智能语音建模方法 | |
CN115376547A (zh) | 发音评测方法、装置、计算机设备和存储介质 | |
CN109101499A (zh) | 基于神经网络的人工智能语音学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20221222 Address after: 518000 M204A, Wandeli Building, No. 017, Gaoxin South 1st Road, High tech Zone Community, Yuehai Street, Nanshan District, Shenzhen, Guangdong Applicant after: Shenzhen maikeya Technology Co.,Ltd. Address before: No. 16, Elbow Group, Fruit Village, Liuxi Miao Township, Yiliang County, Zhaotong City, Yunnan Province 657600 Applicant before: Wang Dajiang |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |