CN112966528B - 一种英语语音的翻译模糊匹配系统 - Google Patents

一种英语语音的翻译模糊匹配系统 Download PDF

Info

Publication number
CN112966528B
CN112966528B CN202110223101.5A CN202110223101A CN112966528B CN 112966528 B CN112966528 B CN 112966528B CN 202110223101 A CN202110223101 A CN 202110223101A CN 112966528 B CN112966528 B CN 112966528B
Authority
CN
China
Prior art keywords
voice
programmable device
fuzzy
matching
online
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110223101.5A
Other languages
English (en)
Other versions
CN112966528A (zh
Inventor
李琦
丁桂芝
牛明敏
王晓靖
张敏
余淼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Railway Vocational and Technical College
Original Assignee
Zhengzhou Railway Vocational and Technical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Railway Vocational and Technical College filed Critical Zhengzhou Railway Vocational and Technical College
Priority to CN202110223101.5A priority Critical patent/CN112966528B/zh
Publication of CN112966528A publication Critical patent/CN112966528A/zh
Application granted granted Critical
Publication of CN112966528B publication Critical patent/CN112966528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2468Fuzzy queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Fuzzy Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Automation & Control Theory (AREA)
  • Human Computer Interaction (AREA)
  • Probability & Statistics with Applications (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种英语语音的翻译模糊匹配系统,包括处理器、存储器、可编程器件、在线语音接收模块、语音获取模块以及显示播放模块,根据接收到的语音信息特点,得到匹配参数,再运用遗传算法得到最佳的匹配策略生成用于配置可编程器件的重配置数据流,进而便于匹配在线语音数据与输入的数字语音信号,最后采用模糊匹配算法直接进行语音信号的匹配,根据模糊规则得到准确的匹配数据后进行翻译的语音以及文本输出。

Description

一种英语语音的翻译模糊匹配系统
技术领域
本发明涉及英文翻译领域,具体涉及一种英语语音的翻译模糊匹配系统。
背景技术
随着互联网技术的发展,英文翻译的智能化也在不断推进,如计算机辅助翻译系统,文本翻译以及语音翻译都逐一实现,特别是掌上设备如手机APP均能实现语音在线翻译。
现有技术中一般采用将语音转换成文本,再将采用算法将文本信息与翻译库中的语句进行相似性匹配,将相似度最高的结果作为输出。如CN201710532235.9公开了一种云翻译记忆库快速增量式模糊匹配的方法,采用信息检索技术对大规模翻译记忆库构建索引,采用粗选和精选策略,即首先从索引库中根据输入的待译句子得到匹配的子集,然后利用句子语义向量相似度和编辑距离线性组合的模糊匹配方法得到最终的翻译输出,最后将人工后编辑后的译文及其源语言句段返回翻译记忆库增量式更新。
这样翻译出的效率并不高,而且文本识别率也跟英文发音是否准确有关,文本匹配后得出翻译结果还需要再次查看文本信息,根据文本信息再理解其中含义,影响交流效率。
发明内容
为背景技术中的问题,本发明提供一种英语语音的翻译模糊匹配系统,能够更为准确的翻译,其中一个技术方案为:
一种英语语音的翻译模糊匹配系统,包括处理器、存储器、可编程器件、在线语音接收模块、语音获取模块以及显示播放模块;
所述处理器和可编程器件分别与语音获取模块连接;所述处理器分别和存储器、可编程器件、在线语音接收模块、语音获取模块以及显示播放模块电性连接。
所述在线语音接收模块、存储器与可编程器件连接;
所述语音获取模块获取语音信息并转换成数字语音信号。
所述处理器接收所述数字语音信号,并将所述数字语音信号采用模糊声像规则进行语音检测,得到对应的匹配参数,根据所述匹配参数采用遗传算法运算得到可编程器件的重配置数据流,并将所述重配置数据流存储至存储器,所述处理器控制所述存储器以及可编程器件对可编程器件进行重新配置。
所述匹配参数还用于通过在线语音接收模块检索在线语音数据,所述在线语音接收模块可将匹配参数作为导引来检索在线语音数据,并将所述在线语音数据进行粗略排序;将检索到的在线语音数据输入可编程器件进行模糊匹配。
所述可编程器件被配置成实现模糊匹配算法,将若干个匹配参数作为模糊规则R,数字化语音作为输入量X,当输入量X激活若干条模糊规则R时,输出U则由若干条模糊规则的输出决定。
所述可编程器件以数字语音信号以及在线语音数据作为输入,经过模糊匹配算法的计算,最后找到最为匹配的在线语音数据输出到处理器再进行组合以及文本翻译送至显示播放模块播放与显示。
本发明还提供了如下技术方案:一种英文翻译模糊匹配方法,具体的步骤如下:
S1、获取语音信息并转换成数字语音信号;
S2、将所述数字语音信号采用模糊声像规则进行语音检测,得到对应的匹配参数,根据所述匹配参数采用遗传算法运算得到可编程器件的重配置数据流;
S3、采用所述重配置数据流重新配置可编程器件;
S4、所述在线语音接收模块可将匹配参数作为导引来检索在线语音数据,并将所述在线语音数据进行粗略排序;将检索到的在线语音数据输入可编程器件进行模糊匹配;
S5、找到最为匹配的在线语音数据输出。
所述S4中的模糊匹配算法为:将若干个匹配参数作为模糊规则R,数字化语音作为输入量X,当输入量X激活若干条模糊规则R时,输出U则由若干条模糊规则的输出决定。
所述S2中的遗传算法具体如下:
S21、随机生成染色体个体;
S22、计算所述个体的适应度值;
S23、对个体随机实施变异操作,生成子代个体;
S24、执行选择操作,若子代个体的适应度值高于个体的适应度值,则将子代个体复制到下一代,否则以一个较小的概率复制子代个体到下一代,依次类推直至满足终止条件。
所述S2中的所述模糊声像规则包括梅尔倒谱系数分析、短时能量以及短时平均过零率统计方法、基于谱分析得到的共振峰提取方法等方法共同组成的规则实现的“声音画像”特征描述,将上述规则的输出如梅尔倒谱系数、短时能量、短时平均过零率、共振峰等作为匹配参数。
把可编程器件中的可配置逻辑模块(LUT)作为染色体,通过遗传算法,找出最优的染色体,生成重配置数据流配置到可编程器件上,从而对电路重新配置,以实现根据输入语音的变化而变化自身以更有效率的匹配语音数据。
本发明根据接收到的语音信息特点,得到匹配参数,再运用遗传算法得到最佳的匹配策略生成用于配置可编程器件的重配置数据流,进而便于匹配在线语音数据与输入的数字语音信号,最后采用模糊匹配算法直接进行语音信号的匹配,根据模糊规则得到准确的匹配数据后进行翻译的语音以及文本输出。这样就能够根据语音输入特点得到最为匹配的语音翻译信息,也能够快速实现语音输出。
附图说明
图1为翻译模糊匹配系统框图。
图2为翻译模糊匹配系统电路示意图。
图3为翻译模糊匹配步骤图。
图4为遗传算法实现步骤图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供的一种具体实施方式为一种英文翻译模糊匹配系统,包括处理器1、存储器2、可编程器件3、在线语音接收模块4、语音获取模块5以及显示播放模块6。
所述处理器1和可编程器件3分别与语音获取模块5连接;所述处理器1分别和存储器2、可编程器件3、在线语音接收模块4、语音获取模块5以及显示播放模块6电性连接。
所述在线语音接收模块4、存储器2与可编程器件3连接;
所述语音获取模块5获取语音信息并转换成数字语音信号;
所述处理器1接收所述数字语音信号,并将所述数字语音信号采用模糊声像规则进行语音检测,得到对应的匹配参数,根据所述匹配参数采用遗传算法运算得到可编程器件3的重配置数据流,并将所述重配置数据流存储至存储器2,所述处理器1控制所述存储器2以及可编程器件3对可编程器件3进行重新配置。
所述匹配参数还用于通过在线语音接收模块4检索在线语音数据,所述在线语音接收模块4可将匹配参数作为导引来检索在线语音数据,并将所述在线语音数据进行粗略排序;将检索到的在线语音数据输入可编程器件3进行模糊匹配。
所述可编程器件3被配置成实现模糊匹配算法,将若干个匹配参数作为模糊规则R,数字化语音作为输入量X,当输入量X激活若干条模糊规则R时,输出U则由若干条模糊规则的输出决定。
所述可编程器件3以数字语音信号以及在线语音数据作为输入,经过模糊匹配算法的计算,最后找到最为匹配的在线语音数据输出到处理器1再进行组合以及文本翻译送至显示播放模块6播放与显示。
如图2所示,作为一种优选的实施方式,所述可编程器件3可采用FPGA 3’实现,而处理器1在启动程序时即能控制存储在存储器中的配置数据流完成对FPGA 3’芯片的上电后配置;在处理器1运行的过程中也能重新生成重配置数据流以实现对FPGA3’的重配置,以便于对不同的英文语音进行个性化翻译。
作为一种优选的实施方式,所述遗传算法可采用趋向型紧凑遗传算法;
作为一种优选的实施方式,所述模糊声像规则包括梅尔倒谱系数分析、短时能量以及短时平均过零率统计方法、基于谱分析得到的共振峰提取方法等方法共同组成的规则实现的“声音画像”特征描述,将上述规则的输出如梅尔倒谱系数、短时能量、短时平均过零率、共振峰等作为匹配参数。
作为一种优选的实施方式,所述处理器1可采用STM32系列单片机1’或者DSP实现。
作为一种优选的实施方式,所述在线语音接收模块4可远程获取服务器中的在线语音特征库,并根据匹配参数以及将数字语音信号转换文本的方式实现在线语音特征的检索;并将检索结果排序后发送至可编程器件3中进行模糊匹配;可配合处理器1搭建Websocket服务器4’。
如图3所示,还提供了另外一种具体的实施方式:一种英文翻译模糊匹配方法,具体的步骤如下:
S1、获取语音信息并转换成数字语音信号;
S2、将所述数字语音信号采用模糊声像规则进行语音检测,得到对应的匹配参数,根据所述匹配参数采用遗传算法运算得到可编程器件的重配置数据流;
S3、采用所述重配置数据流重新配置可编程器件;
S4、所述在线语音接收模块可将匹配参数作为导引来检索在线语音数据,并将所述在线语音数据进行粗略排序;将检索到的在线语音数据输入可编程器件进行模糊匹配;
S5、找到最为匹配的在线语音数据输出。
所述S4中的模糊匹配算法为:将若干个匹配参数作为模糊规则R,数字化语音作为输入量X,当输入量X激活若干条模糊规则R时,输出U则由若干条模糊规则的输出决定;
所述S2中的遗传算法具体如下:
S21、随机生成染色体个体;
S22、计算所述个体的适应度值;
S23、对个体随机实施变异操作,生成子代个体;
S24、执行选择操作,若子代个体的适应度值高于个体的适应度值,则将子代个体复制到下一代,否则以一个较小的概率复制子代个体到下一代,依次类推直至满足终止条件。
所述S2中的所述模糊声像规则包括梅尔倒谱系数分析、短时能量以及短时平均过零率统计方法、基于谱分析得到的共振峰提取方法等方法共同组成的规则实现的“声音画像”特征描述,将上述规则的输出如梅尔倒谱系数、短时能量、短时平均过零率、共振峰等作为匹配参数。
把可编程器件3中的可配置逻辑模块(LUT)作为染色体,通过遗传算法,找出最优的染色体,生成重配置数据流配置到可编程器件3上,从而对电路重新配置,以实现根据输入语音的变化而变化自身以更有效率的匹配语音数据。
上述实施方式根据接收到的语音信息特点,得到匹配参数,再运用遗传算法得到最佳的匹配策略生成用于配置可编程器件3的重配置数据流,进而便于匹配在线语音数据与输入的数字语音信号,最后采用模糊匹配算法直接进行语音信号的匹配,根据模糊规则得到准确的匹配数据后进行翻译的语音以及文本输出。这样就能够根据语音输入特点得到最为匹配的语音翻译信息,也能够快速实现语音输出。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (2)

1.一种英语语音的翻译模糊匹配系统,包括处理器、存储器、可编程器件、在线语音接收模块、语音获取模块以及显示播放模块;其特征在于:
所述处理器和可编程器件分别与语音获取模块连接;所述处理器分别和存储器、可编程器件、在线语音接收模块、语音获取模块以及显示播放模块电性连接;
所述在线语音接收模块、存储器与可编程器件连接;
所述语音获取模块获取语音信息并转换成数字语音信号;
所述处理器接收所述数字语音信号,并将所述数字语音信号采用模糊声像规则进行语音检测,得到对应的匹配参数,根据所述匹配参数采用遗传算法运算得到可编程器件的重配置数据流,并将所述重配置数据流存储至存储器,所述处理器控制所述存储器以及可编程器件对可编程器件进行重新配置;
所述在线语音接收模块可将匹配参数作为导引来检索在线语音数据,并将所述在线语音数据进行粗略排序,将检索到的在线语音数据输入可编程器件进行模糊匹配;所述可编程器件采用FPGA 实现;
在模糊匹配时采用以下步骤:
S1、所述语音获取模块获取语音信息并转换成数字语音信号;
S2、将所述数字语音信号采用模糊声像规则进行语音检测,得到对应的匹配参数,根据所述匹配参数采用遗传算法运算得到可编程器件的重配置数据流;根据所述匹配参数采用遗传算法运算得到可编程器件的重配置数据流具体为:把可编程器件中的可配置逻辑模块作为染色体,通过遗传算法,找出最优的染色体,生成重配置数据流配置到可编程器件上,从而对电路重新配置,以实现根据输入语音的变化而变化自身以更有效率的匹配语音数据;模糊声像规则包括梅尔倒谱系数分析、短时能量以及短时平均过零率统计方法、基于谱分析得到的共振峰提取方法共同组成的规则实现的“声音画像”特征描述,将上述规则的输出如梅尔倒谱系数、短时能量、短时平均过零率、共振峰作为匹配参数;
所述遗传算法具体实现步骤如下:
S21、随机生成染色体个体;
S22、计算所述个体的适应度值;
S23、对个体随机实施变异操作,生成子代个体;
S24、执行选择操作,若子代个体的适应度值高于个体的适应度值,则将子代个体复制到下一代,否则以一个较小的概率复制子代个体到下一代,依次类推直至满足终止条件;
S3、采用所述重配置数据流重新配置可编程器件,实现根据输入语音的变化而变化自身以匹配语音数据;
S4、所述在线语音接收模块将匹配参数作为导引来检索在线语音数据,并将所述在线语音数据进行粗略排序;将检索到的在线语音数据输入可编程器件进行模糊匹配;所述可编程器件被配置成实现模糊匹配算法,将若干个匹配参数作为模糊规则R,数字语音信号作为输入量X,当输入量X激活若干条模糊规则R时,输出U则由若干条模糊规则的输出决定;所述可编程器件以数字语音信号以及在线语音数据作为输入,经过模糊匹配算法的计算,最后找到最为匹配的在线语音数据,输出到处理器再进行组合以及文本翻译送至显示播放模块播放与显示;
S5、将最为匹配的在线语音数据输出。
2.根据权利要求1所述的英语语音的翻译模糊匹配系统,其特征在于:所述处理器重新生成重配置数据流以实现对FPGA的重新配置。
CN202110223101.5A 2021-03-01 2021-03-01 一种英语语音的翻译模糊匹配系统 Active CN112966528B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110223101.5A CN112966528B (zh) 2021-03-01 2021-03-01 一种英语语音的翻译模糊匹配系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110223101.5A CN112966528B (zh) 2021-03-01 2021-03-01 一种英语语音的翻译模糊匹配系统

Publications (2)

Publication Number Publication Date
CN112966528A CN112966528A (zh) 2021-06-15
CN112966528B true CN112966528B (zh) 2023-09-19

Family

ID=76275948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110223101.5A Active CN112966528B (zh) 2021-03-01 2021-03-01 一种英语语音的翻译模糊匹配系统

Country Status (1)

Country Link
CN (1) CN112966528B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102815279A (zh) * 2011-06-10 2012-12-12 沈阳君天科技股份有限公司 基于嵌入式系统的语音直接启动汽车与防盗的方法及装置
CN103943104A (zh) * 2014-04-15 2014-07-23 海信集团有限公司 一种语音信息识别的方法及终端设备
CN104050965A (zh) * 2013-09-02 2014-09-17 广东外语外贸大学 具有情感识别功能的英语语音发音质量评价系统及方法
CN104715752A (zh) * 2015-04-09 2015-06-17 刘文军 语音识别方法、装置及系统
CN106024010A (zh) * 2016-05-19 2016-10-12 渤海大学 一种基于共振峰曲线的语音信号动态特征提取方法
CN107329961A (zh) * 2017-07-03 2017-11-07 西安市邦尼翻译有限公司 一种云翻译记忆库快速增量式模糊匹配的方法
CN110136709A (zh) * 2019-04-26 2019-08-16 国网浙江省电力有限公司信息通信分公司 语音识别方法及基于语音识别的视频会议系统
CN110162802A (zh) * 2019-06-24 2019-08-23 付金龙 一种智能中英语音翻译机
KR20190099988A (ko) * 2018-02-19 2019-08-28 주식회사 셀바스에이아이 기준 화자 모델을 이용한 음성 인식 장치 및 이를 이용한 음성 인식 방법
CN110428818A (zh) * 2019-08-09 2019-11-08 中国科学院自动化研究所 低资源多语言的语音识别模型、语音识别方法
GB202015695D0 (en) * 2020-10-02 2020-11-18 Mashtraxx Ltd System and method for recommending semantically relevant content

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201104461A (en) * 2009-07-24 2011-02-01 Inventec Corp Translation system, method and interface thereof based on inputting phonetic symbols

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102815279A (zh) * 2011-06-10 2012-12-12 沈阳君天科技股份有限公司 基于嵌入式系统的语音直接启动汽车与防盗的方法及装置
CN104050965A (zh) * 2013-09-02 2014-09-17 广东外语外贸大学 具有情感识别功能的英语语音发音质量评价系统及方法
CN103943104A (zh) * 2014-04-15 2014-07-23 海信集团有限公司 一种语音信息识别的方法及终端设备
CN104715752A (zh) * 2015-04-09 2015-06-17 刘文军 语音识别方法、装置及系统
CN106024010A (zh) * 2016-05-19 2016-10-12 渤海大学 一种基于共振峰曲线的语音信号动态特征提取方法
CN107329961A (zh) * 2017-07-03 2017-11-07 西安市邦尼翻译有限公司 一种云翻译记忆库快速增量式模糊匹配的方法
KR20190099988A (ko) * 2018-02-19 2019-08-28 주식회사 셀바스에이아이 기준 화자 모델을 이용한 음성 인식 장치 및 이를 이용한 음성 인식 방법
CN110136709A (zh) * 2019-04-26 2019-08-16 国网浙江省电力有限公司信息通信分公司 语音识别方法及基于语音识别的视频会议系统
CN110162802A (zh) * 2019-06-24 2019-08-23 付金龙 一种智能中英语音翻译机
CN110428818A (zh) * 2019-08-09 2019-11-08 中国科学院自动化研究所 低资源多语言的语音识别模型、语音识别方法
GB202015695D0 (en) * 2020-10-02 2020-11-18 Mashtraxx Ltd System and method for recommending semantically relevant content

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于HMM模型改进算法的语音识别系统;吴大为;《中国优秀硕士学位论文全文数据库 信息科技辑》;I136-55 *

Also Published As

Publication number Publication date
CN112966528A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN110491382B (zh) 基于人工智能的语音识别方法、装置及语音交互设备
EP4018437B1 (en) Optimizing a keyword spotting system
CN108364632B (zh) 一种具备情感的中文文本人声合成方法
CN107369439B (zh) 一种语音唤醒方法和装置
Parlak et al. Spoken term detection for Turkish broadcast news
CN101937431A (zh) 情感语音翻译装置及处理方法
CN111105785B (zh) 一种文本韵律边界识别的方法及装置
CN110459202B (zh) 一种韵律标注方法、装置、设备、介质
CN110223673A (zh) 语音的处理方法及装置、存储介质、电子设备
CN101504643A (zh) 声音处理系统、声音处理程序以及声音处理方法
CN110782880B (zh) 一种韵律生成模型的训练方法及装置
CN110853616A (zh) 一种基于神经网络的语音合成方法、系统与存储介质
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
CN1841496A (zh) 测量语速的方法和装置以及录音设备
Narendra et al. Optimal weight tuning method for unit selection cost functions in syllable based text-to-speech synthesis
CN114783424A (zh) 文本语料筛选方法、装置、设备及存储介质
CN117789771A (zh) 一种跨语言端到端情感语音合成方法及系统
CN116092473A (zh) 韵律标注模型、韵律预测模型的训练方法及相关设备
CN111462774A (zh) 一种基于深度学习的音乐情感可信分类方法
Huang et al. On prosody modeling for ASR+ TTS based voice conversion
CN118136022A (zh) 一种智能语音识别系统及方法
CN112530402B (zh) 一种语音合成方法、语音合成装置及智能设备
Djeffal et al. Automatic speech recognition with BERT and CTC transformers: A review
Dumpala et al. Analysis of constraints on segmental DTW for the task of query-by-example spoken term detection
CN112966528B (zh) 一种英语语音的翻译模糊匹配系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant