CN111292740A - 语音辨识系统及其方法、与电脑程序产品 - Google Patents

语音辨识系统及其方法、与电脑程序产品 Download PDF

Info

Publication number
CN111292740A
CN111292740A CN201811528962.9A CN201811528962A CN111292740A CN 111292740 A CN111292740 A CN 111292740A CN 201811528962 A CN201811528962 A CN 201811528962A CN 111292740 A CN111292740 A CN 111292740A
Authority
CN
China
Prior art keywords
phonogram
word
speech recognition
recognition system
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811528962.9A
Other languages
English (en)
Other versions
CN111292740B (zh
Inventor
林奇岳
陈江村
郭志忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial Technology Research Institute ITRI
Original Assignee
Industrial Technology Research Institute ITRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial Technology Research Institute ITRI filed Critical Industrial Technology Research Institute ITRI
Publication of CN111292740A publication Critical patent/CN111292740A/zh
Application granted granted Critical
Publication of CN111292740B publication Critical patent/CN111292740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种语音辨识系统及其方法、与电脑程序产品,该系统连接外部的通用型语音辨识系统,包括储存单元以及处理单元。储存单元用以储存特定应用语音辨识模块、比对模块与增强模块。特定应用语音辨识模块将输入的语音信号转换成第一表音文字,而通用型语音辨识系统将语音信号转换成书写文字。比对模块接收来自特定应用语音辨识模块的第一表音文字及来自通用型语音辨识系统的书写文字,以将书写文字转换成第二表音文字,并依据发音的相似程度将第二表音文字及第一表音文字进行对齐,以输出表音文字对齐结果。增强模块接收来自比对模块的表音文字对齐结果,使表音文字对齐结果经路径权重分配后与书写文字及第一表音文字进行构词,以形成输出的辨识文字。

Description

语音辨识系统及其方法、与电脑程序产品
技术领域
本发明涉及语音辨识相关技术,尤其涉及一种用于特定应用情境的语音辨识系统及其方法、与电脑程序产品。
背景技术
为将语音转化为文字数据,一般会选择使用语音辨识系统作为将用户的语音信息转换成文字数据的工具,常见的语音辨识系统即通用型语音辨识系统,例如Google语音辨识系统,用户所说的语音资信只需通过通用型语音辨识系统即可转为文字,以在通信软体传送聊天信息或者编译成文章以在社群网站发布而提供公众阅览,据此,用户无须以键盘逐字输入,可见语音辨识系统的方便性。另外,随着智能手机的发展,用户还可直接通过声音控制智能手机作出对应的操作,其仍需通过语音辨识系统的帮助才能达成操作的目的,可见语音辨识在现今生活用途愈趋广泛及重要。
常见的通用型语音辨识系统在一般情境下能提供水准以上的语音辨识结果,但一般情境下所使用的词汇及句型与特定应用情境有所差异,因而,在面对特定应用情境时,例如针对专业术语、文学作品、特定族群、特定环境等,一般的通用型语音辨识系统的辨识结果将容易产生错误。举例而言,在医学用语中,“抑制血小板凝集抑制凝血酶原”的语音输入将可能被转化为“一只血小板凝集和医治你也没缘”的文字输出,其输出结果显然与原意相去甚远,甚至输出结果实不具意义。然而,一般通用型语音辨识系统往往只提供文字辨识结果,并未提供足够的操作选项和细节信息供开发者或用户进行后续的补强处理,且通用型语音辨识系统仅能输出书写文字,而其书写文字常未具有断词、词汇信心度等细节信息,又一般通用型语音辨识系统通常属于云端服务,用户能获得的额外信息通常有限。因此,在一般通用型语音辨识系统下,用户将较难改善辨识不精准的状况,特别是处于特定应用情境下。
由上可知,在现有语音辨识系统的使用下,如何解决特定应用情况所可能发生的较不精准辨识状况,此将成为目前本技术领域人员急欲解决的技术挑战。
发明内容
本发明提出一种有关语音辨识的机制,以提升语音辨识率。
本发明一实施例提出一种语音辨识系统,此系统连接外部的通用型语音辨识系统,本发明的语音辨识系统包括处理单元,用以运行多个模块,此些模块包括:特定应用语音辨识模块用以将输入的语音信号转换成第一表音文字,且通用型语音辨识系统用以将语音信号转换成书写文字;比对模块用以接收来自特定应用语音辨识模块的第一表音文字及来自通用型语音辨识系统的书写文字,并用以将书写文字转换成第二表音文字,以供比对模块依据发音的相似程度将第二表音文字及第一表音文字进行对齐,以输出表音文字对齐结果;以及增强模块用以接收来自比对模块的表音文字对齐结果,使表音文字对齐结果经路径权重分配后与书写文字及第一表音文字进行构词,以形成输出的辨识文字。
本发明另一实施例提出一种语音辨识方法,其包括:由特定应用语音辨识模块将输入的语音信号转换成第一表音文字,并由通用型语音辨识系统将语音信号转换成书写文字;由比对模块将书写文字转换成第二表音文字,并依据发音的相似程度将第二表音文字及第一表音文字进行对齐,以输出表音文字对齐结果;以及由增强模块接收来自比对模块的表音文字对齐结果,使表音文字对齐结果经路径权重分配后与书写文字及第一表音文字进行构词,以形成输出的辨识文字。
本发明再一实施例提出一种用于语音辨识的电脑程序产品,当电脑载入电脑程序并执行后,可完成如上所述的语音辨识方法。
附图说明
图1为本发明与通用型语音辨识系统的架构关系示意图;
图2为本发明的语音辨识系统的一实施例示意图;
图3为本发明一实施例的比对模块的内部结构图;
图4为本发明一实施例的比对模块运作的流程图;
图5为本发明一实施例的增强模块的内部结构图;
图6为本发明一实施例的混淆音路径扩展单元的路径展开前后示意图;
图7为本发明一实施例的增强模块运作的流程图;
图8为本发明一实施例的特定应用语音辨识模块的实施架构图;
图9为本发明一实施例的特定应用语音辨识模块的断词与构音的实施流程图;
图10为依据本发明一实施例的比对模块的第一示例的距离矩阵图;
图11为依据本发明一实施例的比对模块的第二示例的距离矩阵图;
图12A为依据本发明一实施例的比对模块第一示例的对齐结果香肠图;
图12B为依据本发明一实施例的比对模块第二示例的对齐结果香肠图;
图13A为依据本发明一实施例的增强模块第一示例的路径权重分配香肠图;
图13B为依据本发明一实施例的增强模块第二示例的路径权重分配结果的香肠图;
图14为依据本发明一实施例的增强模块第一示例的路径权重分配单元示意图;
图15为本发明一实施例的增强模块的混淆音路径扩展单元实施示意图;
图16为本发明的增强模块的构词单元实施例示意图;
图17为一比较图,其中列出人工听打方式的书写文字结果、以通用型语音辨识系统辨识的书写文字结果、该通用型语音辨识系统辨识的书写文字转拼音结果、以及以本发明的特定应用语音辨识模块辨识的表音文字结果;
图18为本发明一实施例的语音辨识的方法步骤示意图;
图19为本发明一实施例的比对模块运作流程图;以及
图20为本发明一实施例的增强模块运作流程图。
符号说明:
1 通用型语音辨识系统
2 语音辨识系统
201 处理单元
202 输入单元
203 储存单元
21 特定应用语音辨识模块
22 比对模块
221 转表音文字单元
2211 断词演算法
2212 发音字典
222 表音文字对齐单元
23 增强模块
231 路径权重分配单元
232 混淆音路径扩展单元
233 构词单元
24 分配模块
25 特定应用表音文句
26 特定应用表音-词汇对照表
27 混淆音表格
A1 信号处理
A2 声学模型
A3 搜寻网络
A4 搜寻演算法
B1 断词与构音
B2 字典
B3 特定应用书写文字数据
B4 表音文字语料
S181至S184、S191至S196、S201至S204 步骤。
具体实施方式
以下借由特定的具体实施例说明本发明的技术内容,本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的优点与功效。然本发明也可借由其他不同的具体实施例加以施行或应用。
图1说明本发明的语音辨识系统与通用型语音辨识系统的运用范围,由图可知本发明的目的在于提升特定情境的语音辨识效果。简言之,本发明非用以取代通用型语音辨识系统1,而是作为通用型语音辨识系统1在特定应用情境方面的辅助或范围延伸。因此,借由通用型语音辨识系统1配合本发明的语音辨识系统2(见图2实施例)的应用,使得通用型语音辨识系统1可额外增加许多特定领域专属词汇与专属句型的特定应用语音辨识效果。详言之,使得在针对专业术语、文学作品、特定族群、特定环境等特殊情境的使用时,由于特定应用情境和一般情境下所使用的词汇与句型有所差异,因而,本发明可辅助通用型语音辨识系统1在该特定应用情况下,减少辨识结果产生误差,也可借本发明的辅助效果,以使得仅擅长一般使用情境的通用型语音辨识系统1能获得辨识广度,并搭配擅长特定应用情境的语音辨识系统提升辨识深度。据此可知,本发明的语音辨识系统2以输出表音文字的特定应用语音辨识机制,来辅助仅能输出书写文字的通用型语音辨识系统1,进一步可以修正及扩充其在特定应用情境下的辨识偏差处,来增强辨识率,甚至提供多样性的辨识结果。
图2是依据一范例实施例所绘示的语音辨识系统的示意图。请参照图2,在本范例实施例中,语音辨识系统2包括处理单元201、输入单元202以及储存单元203。其中,输入单元202耦接至储存单元203。储存单元203耦接至处理单元201。语音辨识系统2例如是移动装置、个人数字助理(Personal Digital Assistant,PDA)、笔记本电脑、平板电脑、桌上型电脑等,或是其他的电子装置,在此并不设限。
处理单元201例如可以是一般用途处理器、特殊用途处理器、传统的处理器、数字信号处理器、多个微处理器(microprocessor)、一个或多个结合数字信号处理器核心的微处理器、控制器、微控制器、特殊应用集成电路(Application Specific IntegratedCircuit,ASIC)、现场可编程门阵列电路(Field Programmable Gate Array,FPGA)、任何其他种类的集成电路、状态机、基于进阶精简指令集机器(Advanced RISC Machine,ARM)的处理器以及类似产品。
输入单元202例如是用以接收语音信号并且提供所接收的语音信号给储存单元203的装置或元件。举例来说,输入单元202例如可以包括:用以采集语音信号的麦克风,或者,输入单元202也可以是用以从其他来源(例如,其他装置或储存媒体)接收语音信号的装置。
储存单元203例如可以是任意型式的固定式或可移动式随机存取存储器(RandomAccess Memory,RAM)、只读存储器(Read-Only Memory,ROM)、闪存(Flash memory)、硬盘或其他类似装置或这些装置的组合。
请参考图2,本发明的语音辨识系统2可连接外部的通用型语音辨识系统1,并与通用型语音辨识系统1同时接收输入的语音信号,进而接收由通用型语音辨识系统1将所接收的语音信号转换成的对应的书写文字,而所接收的语音以及书写文字经过语音辨识系统2处理将产出增强后的辨识文字。在本范例实施例中,储存单元203储存包括至少一特定应用语音辨识模块21、比对模块22、增强模块23、以及分配模块24。
特定应用语音辨识模块21用以接收输入单元202所接收的语音信号,并将语音信号转换成第一表音文字,以将第一表音文字输出至比对模块22中,其中,所述的书写文字可例如中文或其他语言的语言文字,而表音文字则为表示语言文字的发音所对应构成的文字,举例来说,书写文字“这是文字”的对应的表音文字则为“Zhe Shi Wen Zi”。
比对模块22用以接收来自特定应用语音辨识模块21的第一表音文字及来自通用型语音辨识系统1的书写文字,并用以将书写文字转换成第二表音文字,其中,比对模块22更进一步进行表音文字的对齐,其依据各表音文字的发音的相似程度将第二表音文字及第一表音文字进行对齐,以输出表音文字对齐结果。
增强模块23用以接收来自比对模块22的表音文字对齐结果,进而使表音文字对齐结果经路径权重分配后与书写文字及第一表音文字进行构词,其构词结果即形成输出的辨识文字。
进言之,请继续参考图2,语音辨识系统2的储存单元203还可储存包括特定应用表音文句25、特定应用表音-词汇对照表26以及混淆音表格27,特定应用语音辨识模块21在转换语音信号为第一表音文字时,可同时读入特定应用表音词汇对照表26以及特定应用表音文句25,以在特定情境下,例如用户发出含有特定领域词汇的输入语音,即可将含有特定领域词汇的输入语音转成特定应用表音词汇或特定应用表音文句输出。另外,特定应用语音辨识模块21可依据通用型语音辨识系统1的特性进行特别设计,以互补为优先考量,例如,可设计具有低删除错误的特定应用语音辨识模块21,低删除错误可在语音解码的过程中,降低音素、次音节或音节转移时的惩罚代价,使得表音文字不易出现发音遗漏的情形。据此,本发明的语音辨识系统2具有可供用户设计的特性,以辅助或扩展通用型语音辨识系统在不同情境下的使用。
另外,分配模块24可用以语音信号至通用型语音辨识系统1及特定应用语音辨识模块21,其中,分配模块24在接收来自输入单元202的语音信号后,将其同时分配至通用型语音辨识系统1及特定应用语音辨识模块21中。
请参考图3实施例,比对模块22可进一步包括转表音文字单元221及表音文字对齐单元222,比对模块21在接收书写文字后由转表音文字单元221转换成第二表音文字,进而以表音文字对齐单元222接收第一表音文字及第二表音文字并进行表音文字对齐,在第一表音文字及第二表音文字对齐后输出表音文字对齐结果,其中,转表音文字单元221将通用型语音辨识系统1输出的书写文字转换成第二表音文字,在转换过程中会参考一外部的发音词典对书写文字进行断词和寻找最佳发音,而将第二表音文字和第一表音文字以动态规划(Dynamic Programming)的方式找出哪些表音文字段落可以相互对应,对应段落中来自两者的字词个数可以不一样。
一实施例,如图4所示,转表音文字单元221接收由通用型语音辨识系统输出的书写文字后进行书写文字断词(见步骤S191),其中,进行书写文字断词以断词演算法2211读入发音字典2212并进行书写文字的断词演算,接着再读入发音字典2212将断词后的书写文字转换成对应的第二表音文字(见步骤S192),并输出至表音文字对齐单元222。进一步地,表音文字对齐单元222将输入的第二表音文字及第一表音文字转换成未含断词信息的表音文字表示法(见步骤S193),再经初始化距离矩阵后(见步骤S194),依据发音相似程度计算对齐路径的代价(见步骤S195),进而搜寻最佳对齐路径(见步骤S196),并输出对齐结果,其中,对齐结果可用图(Graph)来表示,例如网格图(Lattice graph)或香肠图(Sausagegraph)。
请参考图5实施例,增强模块23包括路径权重分配单元231、混淆音路径扩展单元232以及构词单元233,路径权重分配单元231读入混淆音表格27,针对相互对应的表音文字段落,依据混淆程度给予不同的权重。亦即,路径权重分配单元231接收表音文字对齐结果并读入混淆音表格27,以针对表音文字对齐结果的混淆程度进行路径权重分配,其中,可能遇到的情况如取代错误(substitution error)或插入错误(insertion error),取代错误的部分以混淆程度决定权重。也就是说,当混淆程度低时,较相信第一表音文字的发音辨识,当混淆程度高时,第二表音文字或第一表音文字的可能性差不多,而混淆程度可由先验知识(prior knowledge)或数据驱动(data-driven)获得,另外,插入错误的部分则采信第一表音文字。
混淆音路径扩展单元232接收经路径权重分配单元231进行路径权重分配的表音文字对齐结果,并读入混淆音表格27,依据辨识过程中信心值较低的发音,平行展开表音文字的相近音,这些相近音的权重会参考上述路径权重分配的结果,其中,混淆音可用先验知识或用数据驱动的方式得来,而先验知识为基于声学理论上的推演,数据驱动乃以实验得知哪些发音易混淆。详细而言,每一第二表音文字及第一表音文字具有信心值,混淆音路径扩展单元232针对信心值低于门限值的各表音文字分别平行展开相近音,其中,各相近音的权重参考路径权重分配的分配权重。
构词单元233读入特定应用表音-词汇对照表,将路径中可能构成特定应用词汇的表音文字段落转换成词汇,以对表音文字对齐结果、书写文字及第一表音文字针对特定应用表音词汇进行构词,其中,构词优先考虑特定应用的专属词汇;若有额外的通用词汇,则构词顺位较低。另外,构词单元233接收表音文字对齐结果、书写文字及第一表音文字并进行构词,以输出辨识文字,其中,表音文字对齐结果亦可先经路径权重分配单元231及混淆音路径扩展单元232针对表音文字进行路径与权重分配以及路径扩展。
增强模块23具体而言,请同时参考图6,图5的路径权重分配单元231接收表音文字对齐结果并读入混淆音表格27,以针对表音文字对齐结果的表音文字段落中的第二表音文字及第一表音文字的混淆程度的高低以分配权重。如上述,每一表音文字皆有其信心值,混淆音路径扩展单元232针对信心值低于门限值θ值的表音文字段落平行展开表音文字的相近音。例如,第二表音文字为音节Ai,其权重
Figure BDA0001904648090000091
第一表音文字为音节Bi,其权重
Figure BDA0001904648090000092
经路径扩展后,找到音节
Figure BDA0001904648090000093
权重
Figure BDA0001904648090000094
以及音节
Figure BDA0001904648090000095
权重
Figure BDA0001904648090000096
和音节
Figure BDA0001904648090000097
权重
Figure BDA0001904648090000098
其中,音节
Figure BDA0001904648090000099
为音节Ai的混淆音,混淆音权重
Figure BDA00019046480900000910
的值可等于或略小于
Figure BDA00019046480900000911
而音节
Figure BDA00019046480900000912
Figure BDA00019046480900000913
为音节Bi的混淆音,混淆音权重
Figure BDA00019046480900000914
Figure BDA00019046480900000915
的值可等于或略小于
Figure BDA00019046480900000916
据此获得路径扩展。
请参考图7实施例,在图5的增强模块23中,其由路径权重分配单元231接收对齐结果并读入混淆音表格27,以依据混淆程度分配路径权重(见步骤S201),再在混淆音路径扩展单元232中,依据表音文字的信心值平行扩展其混淆音路径(见步骤S202),再由构词单元233读入特定应用表音-词汇对照表26以将表音文字转换特定应用词汇(见步骤S203),再与通用型语音辨识系统输出的书写文字进行合并文字(见步骤S204),进而形成增强的辨识结果。
请参考图8实施例,其进一步说明特定应用语音辨识模块21的一实施例架构,其中,特定应用语音辨识模块21在接收用户的语音后,可参考信号处理A1、声学模型A2、搜寻网络A3及搜寻演算法A4以进行语音转换第一表音文字的程序,例如,用户说“汤姆克鲁斯的不可能的任务”的语音的信息后,特定应用语音辨识模块21则经由前述信号处理A1、声学模型A2、搜寻网络A3及搜寻演算法A4以将语音的信息转换成“Tang Mu Ke Lu Si De Bu KeNeng De Ren Wu”,此即为第一表音文字。前述信号处理A1可将时域信号转换成特征参数,声学模型A2为描述发音的统计模型,搜寻网络A3可描述词汇接续关系的图模型(graphmodel),搜寻演算法A4可从搜寻网络当中找出符合输入语音特性的路径。
另外,特定应用语音辨识模块21利用表音文字语料建立的表音文字辨识搜寻网络,请参考图9实施范例,特定应用语音辨识模块21还可包括断词与构音B1,并可读入一外部的字典B2,进而可将特定应用书写文字数据B3经断词与构音B1转换成含有断词信息的表音文字的表音文字语料B4或未含有断词信息的表音文字的表音文字语料B4,再利用表音文字语料B4通过N连文法或类神经网络文法以建立构词模型,更进一步地应用有限状态机或树状搜寻结构以建构搜寻网络。而建立声学模型的部分,可从语音信号萃取特征参数,例如梅尔倒频谱系数(MFCC)、感知线性预估系数(PLP)、频谱能带(Fbank);然后使用隐藏式马尔可夫模型(HMM)、高斯混合模型(GMM)、深度类神经网络(DNN)来建立声学模型。
请参考图10的范例中,以一例示说明比对模块22的运作,其中,以“硝基漆干燥快漆模较强”的特定应用情境为例,经用户以语音发出再由通用型语音辨识系统1转换成书写文字,可能输出“扫地机干燥会奇摩校长”的结果,“扫地机干燥会奇摩校长”的书写文字经比对模块22转为第二表音文字为“Sao Di Ji Gan Zao Hui Qi Mo Xiao Zhang”,而“硝基漆干燥快漆模较强”的语音的信息由特定应用语音辨识模块21直接转换成第一表音文字为“Xiao Ti Qin Gan Zao Kuai Qing Wo Jiao Qiang”的结果,由此即可明显发现本发明的语音辨识系统2及通用型语音辨识系统1在特定应用情境上的语音辨识效果的差异。进一步地,使第二表音文字及第一表音文字形成如图10的范例的距离矩阵,在距离矩阵中,采取选择路径最短的方式,其中,在路径中实线箭头符号为采用插入型编修,而虚线箭头符号为采用无编修的方式,以使发音对齐,即如图12A的范例的对齐结果。
另外,再参考图11的范例,其为另一示例,其中例句为用户发出“暗自冷笑”的语音的信息,对此,通用型语音辨识系统1可能产生仅有“笑”的书写文字结果,经比对模块转为“Xiao”的第二表音文字,另外,特定应用语音辨识模块21将语音的信息转为“An Zi LengXiao”的第一表音文字,经比对模块所建立的距离矩阵仅为如图所示的一行,其中,“An ZiLeng”采用插入型编修,而“Xiao”则采用无编修以完成如图12B的范例所示的对齐结果,其中,无编修的发音对齐在一起,插入型编修则与一个空白表示符号“-”对齐。由图12B显见,由通用型语音辨识系统1所形成的书写文字本就存在可能无法辨识的结果,此将进一步造成第二表音文字有严重的删除型错误的对齐结果,可见通用型语音辨识系统1在特定应用情境时的较不精准辨识状况。
请再参考图13A的范例并同时参考图5,其为增强模块23接收比对模块21的对齐结果。由图可见,在路径权重分配单元231的路径权重分配中,“Di和Ti”、“Xiao和Jiao”二组表音文字段落中的第二表音文字及第一表音文字的发音相似,则二条路径权重皆接近0.5,此时,其混淆度低。而如“Sao和Xiao”、“Ji和Qin”等组,其第二表音文字及第一表音文字的发音相差较大,故相信第一表音文字的结果,进而给予较高的路径权重,亦即,其混淆度较高。另外,请再参考图13B的范例,当遇到第一表音文字有段落发生删除错误,则选择相信第二表音文字的辨识结果,此时,第一表音文字的路径权重为0、第二表音文字的路径权重为1。详言之,请再参考图14的范例可知,其中路径权重的计算,先从混淆音表格中找出混淆音对应的数值,通过S函式
Figure BDA0001904648090000111
以计算权重值,此S函式的输入为混淆音表格中的数值,其中,b参数控制S函式的最小值,r参数控制S函式的范围,s参数控制S函式的变化率以及d参数控制S函式的反转点位置,根据该方式获得表音文字的路径权重。
请参考图15的范例并同时参考图5,在增强模块23中,混淆音路径扩展单元232针对信心值低于门限值θ值的表音文字,参考混淆音表格将其混淆音路径展开。如图所示,例如Ti的混淆音Ji,Qin的混淆音为Qi,Qiang的混淆音Jiang,扩展的混淆音路径权重会参考该发音已分配到的权重。
另外,请再参考图16的范例并同时参考图5,在“硝基漆干燥快漆模较强”的示例中,如图所示,构词单元233将混淆音路径扩展单元232对于混淆音路径扩展结果进行构词,在构词时同时参考特定应用表音词汇以形成辨识文字输出。一实施例,在构词时,可优先考虑特定应用的专属词汇;若有额外的通用词汇,则构词顺位较低。亦即,如图16左下方可见,构词单元233在构词时先读入特定应用表音-词汇对照表26,以针对特定应用表音-词汇对照表26中的特定应用表音-词汇依据各表音文字经路径权重分配单元231的路径权重分配及混淆音路径扩展单元232的混淆音路径扩展后所展开的路径及其权重分配,挑选词汇,可进而增强形成的辨识文字。构词的准则中分为可以构词及无法构词,可以构词为自路径权重分配单元231及混淆音路径扩展单元232所展开的路径中寻找可能出现特定应用专属词汇的片段,其路径可为展开的网格图(lattice graph)或香肠图(sausage graph),在寻找的过程中,可使用完整匹配(exact match)或小幅度的模糊比对(fuzzy match)以补救混淆音未考虑到的情形,特定应用专属词汇构词完后,检查是否有权重高的第一表音文字部分路径尚未被构词,这时可以载入通用词汇来构词,剩下的部份采用原本通用型语音辨识系统所建议的书写文字,或是保留表音文字,而无法构词为采用通用型语音辨识系统原本的书写文字或拒绝此次辨识结果,并可提醒用户“输入语音未包含特定应用的词汇”,借此构词准则产生构词结构。由图所示的构词结果显见,经本发明的语音辨识系统2所输出的结果“硝基漆干燥快漆模较强”符合原用户输入的语音的信息内容,而由通用型语音辨识系统1所输出“扫地机干燥会奇摩校长”的结果与原用户的原意相去甚远。
请参考图17的比较图,其分列一语音信号以人工听打方式的书写文字结果、以通用型语音辨识系统辨识的书写文字结果、该通用型语音辨识系统辨识的书写文字转拼音结果、以及以特定应用语音辨识模块辨识的表音文字结果。其中,显见于通用型语音辨识系统辨识的书写文字发生错误或无法辨识的结果,其将影响由书写文字而来的书写文字转拼音结果。反之,特定应用语音辨识模块辨识的表音文字则完整输出该语音信号的发音结果,其经书写文字修正结果可产生与人工听打结果相同的结果。
请参考图18实施范例并同时参考图2,其为本发明的一种语音辨识的方法,其包括下列步骤。
在步骤S181中,语音辨识系统2连接外部的通用型语音辨识系统1,进而使得语音辨识系统2可接收通用型语音辨识系统1的语音辨识结果,其中,语音辨识系统2及通用型语音辨识系统1请参考上述的详细说明,此间不作赘述。
在步骤S182中,接收语音,在用户输入语音信号时,即时接收语音的信息,具体而言,由输入单元202接收语音信号并提供给或储存在储存单元203,特定应用语音辨识模块21接收储存单元203中的语音信号,以转换成第一表音文字,此外,通用型语音辨识系统1也接收相同语音信号的信息,进而转换成书写文字,另外,接收语音还可包括以储存在储存单元203中的分配模块24接收输入单元202所接收的语音信号,并分配至通用型语音辨识系统1及特定应用语音辨识模块21。
在步骤S183中,对齐表音文字,先利用语音辨识系统2的比对模块22将来自通用型语音辨识系统1的书写文字转换成第二表音文字,比对模块22依据发音的相似程度将第二表音文字及第一表音文字进行表音文字的对齐程序,以形成表音文字对齐结果。
在步骤S184中,形成输出的辨识文字,其利用语音辨识系统2的增强模块23接收来自比对模块22的表音文字对齐结果,经路径权重分配使表音文字对齐结果包含路径权重,再将具有路径权重的表音文字对齐结果与书写文字及第一表音文字进行构词,以增强形成的辨识文字。
请再参考图19实施例并同时参考图2和图4,其为比对模块中的比对流程,比对模块22包括转表音文字单元221及表音文字对齐单元222,转表音文字单元221将书写文字转换成第二表音文字,表音文字对齐单元222依据发音的相似程度将第二表音文字及第一表音文字进行对齐,以形成表音文字对齐结果,详言之,比对模块22中的比对流程如下述。
在步骤S191中,转表音文字单元221进行书写文字断词,其中,利用断词演算法2211对书写文字执行断词演算,在断词演算法执行断词演算时,断词演算法先读入发音字典2212,以参考发音字典对书写文字进行断词,另外,转表音文字单元221也可参考外部的发音字典,以将书写文字进行断词和寻找发音。
在步骤S192中,读入发音字典以将断词后的书写文字转换成对应的表音文字,经断词后的书写文字,依其断词及对应发音字典,以形成第二表音文字。
在步骤S193中,表音文字对齐单元222执行转换未含断词信息的表音文字表示法,在接收第二表音文字及第一表音文字后,将未含断词信息的表音文字进行转换,以形成断词的第二表音文字及第一表音文字,其中,表音文字对齐单元222可将第二表音文字及第一表音文字以动态规划的方式以获得对应的表音文字段落。
在步骤S194中,初始化距离矩阵,将经断词的第二表音文字及第一表音文字形成距离矩阵。
在步骤S195中,依据发音相似程度计算对齐路径的代价,针对由第二表音文字及第一表音文字所形成距离矩阵计算对齐路径,其中,对齐路径可采取最短路径方法进行。
在步骤S196中,搜寻对齐路径,在计算对齐路径后,搜寻最佳的对齐路径以形成对齐结果,其中,对齐结果得利用图(如网格图或香肠图)表示。
请再参考图20实施例并同时参考图2和图7,其为本发明的语音辨识系统2中,增强模块的实施流程,其说明如下。
在步骤S201中,依据混淆程度分配路径权重,路径权重分配单元231接收表音文字对齐结果并读入混淆音表格,以针对表音文字对齐结果依据混淆程度分配路径权重。
在步骤S202中,依据表音文字的信心值平行扩展其混淆音路径,表音文字对齐结果经路径权重分配后还经混淆音路径扩展并可读入混淆音表格,其中,每一第二表音文字及第一表音文字具有信心值,当信心值低于门限值时,混淆音路径扩展单元针对各表音文字分别平行展开相近音,且各相近音的权重参考路径权重分配的分配权重。
在步骤S203中,表音文字转换特定应用词汇,构词单元233读入特定应用表音-词汇对照表,并对表音文字对齐结果及第一表音文字转换成特定应用表音词汇。
在步骤S204中,合并文字,将经转换表音文字对齐结果及第一表音文字的特定应用表音词汇与来自通用型语音辨识系统1输出的书写文字进行合并文字,以形成增强的辨识结果。
另外,本发明还提供一种用于语音辨识的电脑程序产品,当电脑载入电脑程序并执行后,可完成上开所述的语音辨识方法。
综上所述,本发明的语音辨识系统及方法,可辅助通用型语音辨识系统,进一步于特定应用情境时的辨识效果的提升。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下,对上述实施例进行修饰与改变。

Claims (25)

1.一种语音辨识系统,其特征在于,该语音辨识系统连接外部的通用型语音辨识系统,包括处理单元,用以运行多个模块,该多个模块包括:
特定应用语音辨识模块,用以将输入的语音信号转换成第一表音文字,且该通用型语音辨识系统将该语音信号转换成书写文字;
比对模块,用以接收来自该特定应用语音辨识模块的该第一表音文字及来自该通用型语音辨识系统的该书写文字,并用以将该书写文字转换成第二表音文字,以供该比对模块依据发音的相似程度将该第二表音文字及该第一表音文字进行对齐,以输出表音文字对齐结果;以及
增强模块,用以接收来自该比对模块的该表音文字对齐结果,使该表音文字对齐结果经路径权重分配后与该书写文字及该第一表音文字进行构词,以形成输出的辨识文字。
2.根据权利要求1所述的语音辨识系统,其特征在于,该比对模块包括转表音文字单元及表音文字对齐单元,该转表音文字单元将该书写文字转换成该第二表音文字,且陔表音文字对齐单元依据该发音的相似程度将该第二表音文字及该第一表音文字进行对齐,以形成该表音文字对齐结果。
3.根据权利要求2所述的语音辨识系统,其特征在于,该转表音文字单元使用断词演算法读入发音字典后进行书写文字的断词,再读入该发音字典以将断词后的该书写文字转换成对应的该第二表音文字。
4.根据权利要求2所述的语音辨识系统,其特征在于,该转表音文字单元参考外部的发音词典,以将该书写文字进行断词和寻找发音。
5.根据权利要求2所述的语音辨识系统,其特征在于,该表音文字对齐单元包括转换未含断词信息的表音文字表示法、初始化距离矩阵、计算对齐路径的代价及搜寻对齐路径。
6.根据权利要求2所述的语音辨识系统,其特征在于,该表音文字对齐单元将该第二表音文字及该第一表音文字以动态规划的方式获得对应的表音文字段落。
7.根据权利要求1所述的语音辨识系统,其特征在于,该表音文字对齐结果以网格图或香肠图表示。
8.根据权利要求1所述的语音辨识系统,其特征在于,该语音辨识系统还包括储存单元及输入单元,其中,该储存单元用以储存该特定应用语音辨识模块、该比对模块以及该增强模块,且该输入单元用以接收该语音信号并提供至该储存单元。
9.根据权利要求8所述的语音辨识系统,其特征在于,该储存单元还储存包括特定应用表音-词汇对照表,且该增强模块的构词单元读入该特定应用表音-词汇对照表,以针对特定应用表音-词汇对该表音文字对齐结果、该书写文字及该第一表音文字转换成特定应用表音词汇。
10.根据权利要求8所述的语音辨识系统,其特征在于,该储存单元还储存包括混淆音表格,且该增强模块包括路径权重分配单元,用以接收该表音文字对齐结果并读入该混淆音表格,以针对该表音文字对齐结果的混淆程度进行路径权重分配。
11.根据权利要求10所述的语音辨识系统,其特征在于,该增强模块还包括混淆音路径扩展单元,用以接收经该路径权重分配的该表音文字对齐结果,并读入该混淆音表格。
12.根据权利要求11所述的语音辨识系统,其特征在于,该第二表音文字及该第一表音文字具有信心值,当该信心值低于门限值时,该混淆音路径扩展单元针对该信心值低于该门限值的各表音文字分别平行展开相近音,且各该相近音的权重参考该路径权重分配的分配权重。
13.根据权利要求1所述的语音辨识系统,其特征在于,该语音辨识系统还包括分配模块,用以将该语音信号分配至该通用型语音辨识系统及该特定应用语音辨识模块。
14.根据权利要求1所述的语音辨识系统,其特征在于,该辨识文字为书写文字、表音文字或书写与表音的混合文字。
15.一种语音辨识方法,其特征在于,包括:
由特定应用语音辨识模块将输入的语音信号转换成第一表音文字,并由通用型语音辨识系统将该语音信号转换成书写文字;
由比对模块将该书写文字转换成第二表音文字,并依据发音的相似程度将该第二表音文字及该第一表音文字进行对齐,以输出表音文字对齐结果;以及
由增强模块接收来自该比对模块的该表音文字对齐结果,使该表音文字对齐结果经路径权重分配后与该书写文字及该第一表音文字进行构词,以形成输出的辨识文字。
16.根据权利要求15所述的语音辨识方法,其特征在于,该比对模块包括以转表音文字单元将该书写文字转换成该第二表音文字、以及以表音文字对齐单元依据发音的相似程度将该第二表音文字及该第一表音文字进行对齐,以形成该表音文字对齐结果。
17.根据权利要求16所述的语音辨识方法,其特征在于,该转表音文字单元使用断词演算法读入发音字典后进行书写文字的断词,再读入该发音字典以将断词后的该书写文字转换成对应的该第二表音文字。
18.根据权利要求16所述的语音辨识方法,其特征在于,该转表音文字单元参考外部的发音字典,以将该书写文字进行断词和寻找发音。
19.根据权利要求16所述的语音辨识方法,其特征在于,该表音文字对齐单元包括转换未含断词信息的表音文字表示法、初始化距离矩阵、计算对齐路径的代价及搜寻对齐路径。
20.根据权利要求16所述的语音辨识方法,其特征在于,该表音文字对齐单元将该第二表音文字及该第一表音文字以动态规划的方式获得对应的表音文字段落。
21.根据权利要求15所述的语音辨识方法,其特征在于,该增强模块的构词单元读入特定应用表音-词汇对照表,以针对特定应用表音-词汇对该表音文字对齐结果、该书写文字及该第一表音文字转换成特定应用表音词汇。
22.根据权利要求15所述的语音辨识方法,其特征在于,该增强模块的路径权重分配单元接收该表音文字对齐结果并读入混淆音表格,以针对该表音文字对齐结果的混淆程度进行路径权重分配。
23.根据权利要求15所述的语音辨识方法,其特征在于,该第二表音文字及该第一表音文字具有信心值,当该信心值低于门限值时,该混淆音路径扩展单元针对该信心值低于该门限值的各表音文字分别平行展开相近音,且各该相近音的权重参考该路径权重分配的分配权重。
24.根据权利要求15所述的语音辨识方法,其特征在于,该方法还包括以分配模块将该语音信号分配至该通用型语音辨识系统及该特定应用语音辨识模块。
25.一种用于语音辨识的电脑程序产品,当电脑载入电脑程序并执行后,可完成如权利要求15至24中任一项所述的语音辨识方法。
CN201811528962.9A 2018-11-21 2018-12-13 语音辨识系统及其方法 Active CN111292740B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
TW107141382A TWI698857B (zh) 2018-11-21 2018-11-21 語音辨識系統及其方法、與電腦程式產品
TW107141382 2018-11-21

Publications (2)

Publication Number Publication Date
CN111292740A true CN111292740A (zh) 2020-06-16
CN111292740B CN111292740B (zh) 2023-05-30

Family

ID=70726667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811528962.9A Active CN111292740B (zh) 2018-11-21 2018-12-13 语音辨识系统及其方法

Country Status (3)

Country Link
US (1) US11527240B2 (zh)
CN (1) CN111292740B (zh)
TW (1) TWI698857B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933125A (zh) * 2020-09-15 2020-11-13 深圳市友杰智新科技有限公司 联合模型的语音识别方法、装置和计算机设备
CN113707148A (zh) * 2021-08-05 2021-11-26 中移(杭州)信息技术有限公司 语音识别准确率的确定方法、装置、设备以及介质

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3989219B1 (en) * 2020-10-22 2023-11-22 Thomson Licensing Method for detecting an audio adversarial attack with respect to a voice command processed by an automatic speech recognition system, corresponding device, computer program product and computer-readable carrier medium
US11348160B1 (en) 2021-02-24 2022-05-31 Conversenowai Determining order preferences and item suggestions
US11354760B1 (en) 2021-02-24 2022-06-07 Conversenowai Order post to enable parallelized order taking using artificial intelligence engine(s)
US11514894B2 (en) 2021-02-24 2022-11-29 Conversenowai Adaptively modifying dialog output by an artificial intelligence engine during a conversation with a customer based on changing the customer's negative emotional state to a positive one
US11355122B1 (en) * 2021-02-24 2022-06-07 Conversenowai Using machine learning to correct the output of an automatic speech recognition system
US11862157B2 (en) 2021-02-24 2024-01-02 Conversenow Ai Automated ordering system
US11810550B2 (en) 2021-02-24 2023-11-07 Conversenowai Determining order preferences and item suggestions

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101436110A (zh) * 2007-11-14 2009-05-20 北京三星通信技术研究有限公司 执行表意文字和表音文字输入的方法和装置
CN101458927A (zh) * 2007-12-11 2009-06-17 财团法人资讯工业策进会 产生及侦测混淆音的方法及系统
US20100121638A1 (en) * 2008-11-12 2010-05-13 Mark Pinson System and method for automatic speech to text conversion
US20110131038A1 (en) * 2008-08-11 2011-06-02 Satoshi Oyaizu Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method
US20130346078A1 (en) * 2012-06-26 2013-12-26 Google Inc. Mixed model speech recognition
CN105719649A (zh) * 2016-01-19 2016-06-29 百度在线网络技术(北京)有限公司 语音识别方法及装置
CN106328147A (zh) * 2016-08-31 2017-01-11 中国科学技术大学 语音识别方法和装置
WO2017182850A1 (en) * 2016-04-22 2017-10-26 Sony Mobile Communications Inc. Speech to text enhanced media editing
CN108509416A (zh) * 2018-03-20 2018-09-07 京东方科技集团股份有限公司 句意识别方法及装置、设备和存储介质

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5754978A (en) 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
US6122613A (en) 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US6757652B1 (en) 1998-03-03 2004-06-29 Koninklijke Philips Electronics N.V. Multiple stage speech recognizer
US6526380B1 (en) 1999-03-26 2003-02-25 Koninklijke Philips Electronics N.V. Speech recognition system having parallel large vocabulary recognition engines
US7058573B1 (en) 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US6912498B2 (en) 2000-05-02 2005-06-28 Scansoft, Inc. Error correction in speech recognition by correcting text around selected area
US7224981B2 (en) 2002-06-20 2007-05-29 Intel Corporation Speech recognition of mobile devices
US20060149551A1 (en) * 2004-12-22 2006-07-06 Ganong William F Iii Mobile dictation correction user interface
JP4867654B2 (ja) 2006-12-28 2012-02-01 日産自動車株式会社 音声認識装置、および音声認識方法
TWI319563B (en) 2007-05-31 2010-01-11 Cyberon Corp Method and module for improving personal speech recognition capability
TWM338396U (en) 2007-11-28 2008-08-11 Inventec Besta Co Ltd Apparatus for automatically expanding inquiry of key words
TWI393018B (zh) 2009-02-06 2013-04-11 Inst Information Industry 關鍵詞彙即時擴展方法與系統以及儲存關鍵詞彙即時擴展程式的電腦可讀寫記錄媒體
WO2011082340A1 (en) 2009-12-31 2011-07-07 Volt Delta Resources, Llc Method and system for processing multiple speech recognition results from a single utterance
US10032455B2 (en) 2011-01-07 2018-07-24 Nuance Communications, Inc. Configurable speech recognition system using a pronunciation alignment between multiple recognizers
DE102012202407B4 (de) * 2012-02-16 2018-10-11 Continental Automotive Gmbh Verfahren zum Phonetisieren einer Datenliste und sprachgesteuerte Benutzerschnittstelle
US8521539B1 (en) * 2012-03-26 2013-08-27 Nuance Communications, Inc. Method for chinese point-of-interest search
EP2862164B1 (en) 2013-08-23 2017-05-31 Nuance Communications, Inc. Multiple pass automatic speech recognition
CN103474069B (zh) 2013-09-12 2016-03-30 中国科学院计算技术研究所 用于融合多个语音识别系统的识别结果的方法及系统
US10749989B2 (en) * 2014-04-01 2020-08-18 Microsoft Technology Licensing Llc Hybrid client/server architecture for parallel processing
TW201541379A (zh) 2014-04-18 2015-11-01 Qware Systems & Services Corp 用於商品及服務之語音關鍵字搜尋系統及其方法
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
CN111787012B (zh) * 2014-11-07 2022-10-14 三星电子株式会社 语音信号处理方法及实现此的终端和服务器
KR102298457B1 (ko) * 2014-11-12 2021-09-07 삼성전자주식회사 영상표시장치, 영상표시장치의 구동방법 및 컴퓨터 판독가능 기록매체
CN113140215A (zh) * 2015-01-16 2021-07-20 三星电子株式会社 用于执行话音识别的方法和设备
KR20170128540A (ko) 2015-03-27 2017-11-22 후아웨이 테크놀러지 컴퍼니 리미티드 데이터 전송 방법, 액세스 네트워크 장치, 및 통신 시스템
JP6614639B2 (ja) * 2015-05-22 2019-12-04 国立研究開発法人情報通信研究機構 音声認識装置及びコンピュータプログラム
US9997155B2 (en) * 2015-09-09 2018-06-12 GM Global Technology Operations LLC Adapting a speech system to user pronunciation
CN105653517A (zh) * 2015-11-05 2016-06-08 乐视致新电子科技(天津)有限公司 一种识别率确定方法及装置
JP6198879B1 (ja) * 2016-03-30 2017-09-20 株式会社リクルートライフスタイル 音声翻訳装置、音声翻訳方法、及び音声翻訳プログラム
CN106328148B (zh) 2016-08-19 2019-12-31 上汽通用汽车有限公司 基于本地和云端混合识别的自然语音识别方法、装置和系统
AU2017347995A1 (en) * 2016-10-24 2019-03-28 Semantic Machines, Inc. Sequence to sequence transformations for speech synthesis via recurrent neural networks
CN106782561A (zh) 2016-12-09 2017-05-31 深圳Tcl数字技术有限公司 语音识别方法和系统
US10360914B2 (en) 2017-01-26 2019-07-23 Essence, Inc Speech recognition based on context and multiple recognition engines

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101436110A (zh) * 2007-11-14 2009-05-20 北京三星通信技术研究有限公司 执行表意文字和表音文字输入的方法和装置
CN101458927A (zh) * 2007-12-11 2009-06-17 财团法人资讯工业策进会 产生及侦测混淆音的方法及系统
US20110131038A1 (en) * 2008-08-11 2011-06-02 Satoshi Oyaizu Exception dictionary creating unit, exception dictionary creating method, and program therefor, as well as speech recognition unit and speech recognition method
US20100121638A1 (en) * 2008-11-12 2010-05-13 Mark Pinson System and method for automatic speech to text conversion
US20130346078A1 (en) * 2012-06-26 2013-12-26 Google Inc. Mixed model speech recognition
CN105719649A (zh) * 2016-01-19 2016-06-29 百度在线网络技术(北京)有限公司 语音识别方法及装置
WO2017182850A1 (en) * 2016-04-22 2017-10-26 Sony Mobile Communications Inc. Speech to text enhanced media editing
CN106328147A (zh) * 2016-08-31 2017-01-11 中国科学技术大学 语音识别方法和装置
CN108509416A (zh) * 2018-03-20 2018-09-07 京东方科技集团股份有限公司 句意识别方法及装置、设备和存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHIEN-LIN HUANG,ET AL.: "Generation of Phonetic Units for Mixed-Language Speech Recognition Based on Acoustic and Contextual Analysis", 《IEEE TRANSACTIONS ON COMPUTERS》 *
李红莲等: "基于文音相似度的语音查询系统的设计与开发", 《计算机工程与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933125A (zh) * 2020-09-15 2020-11-13 深圳市友杰智新科技有限公司 联合模型的语音识别方法、装置和计算机设备
CN111933125B (zh) * 2020-09-15 2021-02-02 深圳市友杰智新科技有限公司 联合模型的语音识别方法、装置和计算机设备
CN113707148A (zh) * 2021-08-05 2021-11-26 中移(杭州)信息技术有限公司 语音识别准确率的确定方法、装置、设备以及介质
CN113707148B (zh) * 2021-08-05 2024-04-19 中移(杭州)信息技术有限公司 语音识别准确率的确定方法、装置、设备以及介质

Also Published As

Publication number Publication date
TW202020854A (zh) 2020-06-01
US20200160850A1 (en) 2020-05-21
TWI698857B (zh) 2020-07-11
US11527240B2 (en) 2022-12-13
CN111292740B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN111292740B (zh) 语音辨识系统及其方法
JP5480760B2 (ja) 端末装置、音声認識方法および音声認識プログラム
US9697201B2 (en) Adapting machine translation data using damaging channel model
AU2010346493B2 (en) Speech correction for typed input
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
US9159314B2 (en) Distributed speech unit inventory for TTS systems
JPWO2007097176A1 (ja) 音声認識辞書作成支援システム、音声認識辞書作成支援方法及び音声認識辞書作成支援用プログラム
JPWO2016067418A1 (ja) 対話制御装置および対話制御方法
WO2014183373A1 (en) Systems and methods for voice identification
JP2008243080A (ja) 音声を翻訳する装置、方法およびプログラム
Al-Anzi et al. The impact of phonological rules on Arabic speech recognition
KR100930714B1 (ko) 음성인식 장치 및 방법
Pellegrini et al. Automatic word decompounding for asr in a morphologically rich language: Application to amharic
JP6001944B2 (ja) 音声コマンド制御装置、音声コマンド制御方法及び音声コマンド制御プログラム
JP2015161927A (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
CN104756183B (zh) 在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符
JP2006343405A (ja) 音声理解装置、音声理解方法、単語・意味表現組データベースの作成方法、そのプログラムおよび記憶媒体
Dawa et al. Multilingual Text–Speech Corpus of Mongolian
CN114398876B (zh) 一种基于有限状态转换器的文本纠错方法和装置
CN113506561B (zh) 文本拼音的转换方法及装置、存储介质及电子设备
Allauzen et al. Voice query refinement
Zhou An error detection and correction framework to improve large vocabulary continuous speech recognition
Huang et al. Unsupervised pronunciation grammar growing using knowledge-based and data-driven approaches
Choi Improving Speech Recognition for Interviews with both Clean and Telephone Speech
Alkhairy et al. Heterophonic speech recognition using composite phones

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant