CN106409284A - 用于更新语言模型并执行语音识别的方法和装置 - Google Patents
用于更新语言模型并执行语音识别的方法和装置 Download PDFInfo
- Publication number
- CN106409284A CN106409284A CN201610604984.3A CN201610604984A CN106409284A CN 106409284 A CN106409284 A CN 106409284A CN 201610604984 A CN201610604984 A CN 201610604984A CN 106409284 A CN106409284 A CN 106409284A
- Authority
- CN
- China
- Prior art keywords
- word
- segment
- speech recognition
- syntactic model
- syntactic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 117
- 238000001514 detection method Methods 0.000 claims description 20
- 238000013518 transcription Methods 0.000 description 89
- 230000035897 transcription Effects 0.000 description 89
- 238000010586 diagram Methods 0.000 description 22
- 230000006870 function Effects 0.000 description 6
- 238000002372 labelling Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000712 assembly Effects 0.000 description 3
- 238000000429 assembly Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 239000002245 particle Substances 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 241001269238 Data Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/005—Language recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/027—Syllables being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0635—Training updating or merging of old and new templates; Mean values; Weighting
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
公开了一种用于更新语言模型并执行语音识别的方法和装置。所述方法包括:获得包括至少一个单词的语料库;从语料库中获得所述至少一个单词;将所述至少一个获得的单词划分为至少一个音段(segment);产生用于将所述至少一个音段重新组合为所述至少一个单词的提示;使用包括所述提示的至少一个音段更新语法模型。
Description
本申请基于并要求于2015年7月28日提交到韩国知识产权局的第10-2015-0106772号韩国专利申请的优先权,其公开内容通过引用完全合并于此。
技术领域
本公开涉及用于通过使用语言模型执行语音识别的方法和装置,例如,涉及用于使用语料库(corpus)更新语言模型的方法和装置。
背景技术
语音识别是一种将接收到的用户语音输入自动转换为文本以便识别语音的技术。近年来,语音识别正被用作用于替代智能电话和电视机中的键盘输入的接口技术。
语音识别系统可被划分为接收语音(speech sound)的客户机以及对语音执行语音识别的自动语音识别(ASR)引擎,并且可彼此独立设计所述两部分。
一般而言,语音识别系统可通过使用声学模型、语法模型及发音词典执行语音识别。在语音识别系统中为了对来自语音的指定单词执行语音识别,有必要预先建立针对所述指定单词的语法模型和发音词典。
发明内容
提供用于更新语言模型以便对集外(OOV)单词(即,新的单词)执行语音识别并通过使用语言模型执行语音识别的方法和装置。
附加的各方面将部分地在随后的描述中予以展示,部分地将从所述描述中变得清楚。
根据示例实施例的一方面,一种更新在语音识别期间所使用的语法模型的方法包括:获得包括至少一个单词的语料库;从语料库中获得所述至少一个单词;将所述至少一个获得的单词划分为至少一个音段(segment);产生用于将所述至少一个音段重新组合为所述至少一个单词的提示;使用包括所述提示的至少一个音段更新语法模型。
所述划分处理可包括:基于所述至少一个获得的单词的出现频率和长度中的一个或多个确定将被划分的单词;划分所述获得的单词。
所述划分处理可包括:确定针对所述获得的单词的至少一个候选划分点;基于以每个候选划分点为基础的音段的出现概率信息获得每个候选划分点的分数;基于所述分数从所述至少一个候选划分点之中确定划分点;基于所述划分点将所述获得的单词划分为至少一个音段。
所述划分处理可包括:基于所述至少一个音段以音段为单位划分在语料库中包括的单词。
产生所述提示的步骤可包括:基于所述至少一个音段是否位于所述单词的边界产生针对所述至少一个音段的提示。
所述语法模型的更新处理可包括:确定在语音识别期间所述至少一个音段的出现概率信息;基于所确定的出现概率信息更新语法模型。
所述划分处理可包括:将所述至少一个获得的单词划分为音素、音节或词素的音段。
所述方法可还包括:产生针对所述至少一个获得的单词的发音变体;从发音词典中包括的发音变体之中获得与所产生的发音变体相应的发音变体;确定在语音识别期间所获得的发音变体的出现概率信息;基于所确定的出现概率信息更新第二语法模型。
所述语法模型的更新处理可包括:将进入令牌(entry token)添加到所述至少一个获得的单词或检测到的音段;基于包括所述进入令牌的所述至少一个获得的单词或检测到的音段更新基于类别的语法模型。
所述语法模型的更新处理可包括:确定所述单词或音段所属的类别;确定是否将进入令牌或退出令牌(exit token)添加到所述单词或音段;基于所述确定处理的结果将进入令牌或退出令牌添加到所述单词或音段;基于所述单词或音段更新所确定的类别的语法模型。
根据另一示例实施例的一方面,一种执行语音识别的方法包括:获得用于执行语音识别的语音数据;通过基于包括至少一个音段的出现概率信息的语法模型执行语音识别来检测所述至少一个音段;基于检测到的音段的提示将检测到的音段重新组合为单词。
所述方法可还包括:执行语音识别,使得当所述单词或检测到的音段属于第一顺序的单词时可基于第二语法模型按照指定顺序检测所述单词。
所述语法模型可包括基于类别的语法模型,并且所述方法可包括:当所述单词或检测到的音段包括进入令牌时,基于进入令牌所属的类别的语法模型执行语音识别;当所述单词或音段包括退出令牌时,以基于类别的语法模型为基础执行语音识别。
根据另一示例实施例的一方面,一种用于更新语法模型的装置包括:接收器,被配置为获得包括至少一个单词的语料库;存储器,被配置为存储语法模型;控制器,被配置为从语料库中获得至少一个单词,将所述至少一个获得的单词划分为至少一个音段,产生用于将所述至少一个音段重新组合为所述至少一个单词的提示,使用包括所述提示的至少一个音段更新语法模型。
根据另一示例实施例的一方面,一种用于执行语音识别的装置包括:接收器,被配置为获得用于执行语音识别的语音数据;存储器,被配置为存储包括至少一个音段的出现概率信息的语法模型;控制器,被配置为通过基于包括至少一个音段的出现概率信息的语法模型执行语音识别来检测所述至少一个音段;基于检测到的音段的提示将所确定的音段重新组合为所述单词。
附图说明
从以下结合附图的详细描述中,这些和/或其它方面将变得清楚且更容易理解,其中,同样的附图标号指示同样的元件,其中:
图1是示出用于执行语音识别的示例装置的框图;
图2是示出更新语法模型并使用更新后的语法模型执行语音识别的示例处理的框图;
图3是示出更新语法模型的示例方法的流程图;
图4是示出根据单词出现频率和单词长度的单词的示例的曲线图;
图5是示出示例单词划分顺序的曲线图;
图6是示出单词划分的示例的示图;
图7是示出执行语音识别的示例方法的流程图;
图8是示出从语音数据中包括的单词之中检测集外(OOV)单词并基于检测到的OOV单词更新语法模型的处理的示例的示图;
图9是示出更新语法模型的示例方法的流程图;
图10是示出更新第二语法模型的示例方法的流程图;
图11是示出执行语音识别的示例处理的示图;
图12是示出执行语音识别的示例方法的流程图;
图13是示出执行语音识别的示例处理的示图;
图14是示出语音识别器的示例内部配置的框图;
图15是示出基于指定单词顺序执行语音识别的示例处理的流程图;
图16是示出基于所确定的顺序执行语音识别的示例处理的示图;
图17是示出基于单词所属的类别(class)执行语音识别的语音识别器的示例内部配置的框图;
图18是示出更新基于类别的语法模型的示例方法的流程图;
图19是示出按照类别更新语法模型的示例方法的流程图;
图20是示出使用基于类别的语法模型以及按照类别的语法模型执行语音识别的示例处理的示图;
图21是示出基于单词所属的类别执行语音识别的示例方法的流程图;
图22是示出用于更新语法模型的装置的示例内部配置的框图;
图23是示出语音识别装置的示例内部配置的框图。
具体实施方式
现在将更详细地参照在附图中示出其示例的示例实施例,其中,同样的附图标号始终指示同样的元件。就此而言,本示例实施例可具有不同形式并且不应理解为限于在此展示的描述。因此,仅通过参照附图在下文描述示例实施例以解释各方面。当诸如“…中的至少一个”的表述位于一列元件之后时,该表述修饰整列元件而非修饰所述列中的单个元件。
简要描述在本公开中使用的术语并且将更详细地描述本构思。在本公开中使用的术语是通过考虑在本公开中的功能而从当前被广泛使用的普通术语中所选择的术语。然而,所述术语可根据工程师的意图、法律先例或新技术的出现而变化。另外,针对特殊情况,可任意地选择术语,其中,将在说明书部分中详细描述所选择的术语的含义。因此,基于术语的含义和贯穿本公开所讨论的内容限定在本公开中使用的术语,不一定通过其简单含义限定所述术语。
如在本公开中所使用,术语“和/或”包括所列举的项目中的任何一个以及所述项目的至少一个组合的全部。
这里使用的术语仅仅是为了描述示例实施例的目的而非意在限制示例实施例。如这里所使用,单数形式意在也包括复数形式,除非上下文清楚地另有指示。还将理解:当在本公开中使用时,术语“包括”和/或“包括…的”指定存在所陈述的特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或增加一个或多个其它特征、整数、步骤、操作、元件、组件和/或前述项的组合。
当一个部件可“包括”特定组件时,除非另有明确说明,否则所述部件可不被理解为排除另一组件而是可被理解为还包括其它组件。在本公开中所陈述的术语(诸如“~部分”、“~单元”、“~模块”及“~块”)可表示用于处理至少一个功能或操作的单元并且所述单元可通过硬件(诸如电路、现场可编程门阵列(FPGA)或专用集成电路(ASIC))、固件、软件或硬件和软件的组合实施。然而,所述单元可被配置为位于将被寻址的存储介质中或者被配置为能够操作包括处理电路的一个或多个处理器。因此,作为示例的所述单元包括组件(诸如软件组件、面向对象的软件组件、类组件及任务组件)、处理、功能、属性、程序、子例程、程序代码段、驱动器、固件、微代码、电路、数据、数据库、数据结构、表格、阵列及变量。由所述“单元”提供的组件及功能可被组合到更少的组件和单元中或者可被进一步划分到额外的组件和单元中。因此,本公开不受硬件和软件的特定组合限制。
参照示出本公开的示例实施例的附图以便获得对本公开及其优点以及通过本公开的实施所实现的目标的充分理解。在下文中,通过参照附图解释本公开的示例实施例来更详细地描述本公开。在附图中,同样的附图标号表示同样的元件。
图1是示出用于执行语音识别的示例装置的框图。
参照图1,执行语音识别的装置100可包括(例如)特征提取器(例如,包括用于提取特征的处理电路)110、候选发音变体检测器(例如,包括处理电路)120以及语言选择器(例如,包括处理电路)140。特征提取器110提取输入的语音的特征信息。候选发音变体检测器120从提取出的特征信息中检测至少一个候选发音变体。语言选择器140基于每个候选发音变体的出现概率信息选择识别出的最终语言。此外,语言选择器140可使用发音词典150检测与各个候选发音变体相应的单词并由此可基于检测到的单词的出现概率信息选择识别出的最终语言。单词的出现概率信息表示当执行语音识别时在识别出的语言中特定单词的出现概率信息。在下文中,将更详细地描述装置100的每个组件。
在接收到语音时,特征提取器110可仅检测由说话人实际发音的语音部分,从而提取指示语音的特征的信息。指示语音的特征的信息可包括(例如)基于语音的波形指示嘴唇的形状或舌头的位置的信息。可基于由特征提取器110提取出的特征信息检测与语音相应的发音变体。
候选发音变体检测器120可使用提取出的语音的特征信息以及声学模型130检测可匹配语音的至少一个候选发音变体。可根据语音检测到多个候选发音变体。例如,由于'jyeo'和'jeo'发音彼此相似,因此针对相同语音,可检测到包括相似发音(诸如'jyeo'和'jeo')的多个候选发音变体。虽然可以以单词为单位检测候选发音变体,但是本示例实施例不限于此并且可按照各种单位(诸如,例如,音素或音节)检测候选发音变体。
声学模型130可包括用于从语音的特征信息中检测候选发音变体的信息。此外,可使用统计方法从大量语音数据中产生声学模型130。例如,可从多条未指定口语语音数据中产生声学模型130或者可从自特定说话人收集到的口语语音数据中产生声学模型130。因此,可在语音识别期间基于说话人分别应用声学模型130。
语言选择器140可使用(例如)发音词典150和语法模型160获得由候选发音变体检测器120检测到的候选发音变体中的每个的出现概率信息。语言选择器140基于候选发音变体中的每个的出现概率信息选择识别出的最终语言。
另外,语言选择器140可使用发音词典150获得与各个候选发音变体相应的单词并且可使用语法模型160获得针对与各个候选发音变体相应的每个单词的出现概率值。语言选择器140可最终选择与具有最大出现概率值的单词相应的候选发音变体。可将与最终选择的候选发音变体相应的单词输出为识别出的单词。
发音词典150可包括获得与候选发音变体检测器120检测到的候选发音变体相应的单词所需的信息。可从基于每个单词的音素变化现象获得的发音变体中建立发音词典150。
因为可基于在单词之前和之后的单词、单词在句子中的位置或说话人的特性改变单词的发音,所以单词的发音可以是不一致的。此外,出现概率值表示单词的出现概率或者所述单词与特定单词的同时出现概率。装置100可使用单词的出现概率值或在语法模型160中包括的发音变体执行考虑语境的语音识别。
装置100使用发音词典150获得候选发音变体的单词并使用语法模型160获得与发音变体相应的单词的出现概率信息,从而执行语音识别。本示例实施例不限于此并且装置100可在没有通过发音词典150获得与发音变体相应的单词的情况下从语法模型160中获得发音变体的出现概率信息。
例如,当候选发音变体检测器120检测到针对“skul”的候选发音变体时,语言选择器140可通过使用发音词典150获得针对“school”的单词作为与检测到的候选发音变体“skul”相应的单词。语言选择器140可基于单词“school”的出现概率信息最终选择与发音声音相应的单词并可输出所选择的单词。
语法模型160可包括单词的出现概率信息。出现概率信息可针对每个单词而存在。装置100可从语法模型160中获得在候选发音变体中的每个中包括的单词的出现概率信息。
例如,当单词A在现有单词B出现之前出现时,语法模型160可包括作为现有单词B的出现概率信息的P(B|A)。例如,语法模型160可包括使单词A和C(例如,多个单词)在单词B出现之前出现成为一个条件的P(B|A C)。例如,P(B|A C)可使单词A和C均在单词B出现之前出现成为一个条件。例如,语法模型160可包括针对单词B的出现概率信息P(B)并且与条件概率不相关。P(B)表示在语音识别期间单词B的出现概率。
装置100可使用语法模型160基于与语言选择器140中的各个候选发音变体相应的单词的出现概率信息最终确定识别出的单词。例如,装置100可将具有指示单词具有最高出现概率值的信息的单词最终确定为识别出的单词。语言选择器140可将识别出的单词输出为文本信息。
本示例实施例不限于以单词为单位执行语音识别并且在图1的上述描述中可使用不同语言单位执行本示例实施例。另外,可描述对包括英语的语音数据上执行语音识别,但是本示例实施例不限于此并且即使当对包括各种语言的语音数据执行语音识别时,可同样应用所述描述。
以下将参照图2至图7更详细地描述更新语法模型以便对作为无法通过语音识别检测的新单词的集外(OOV)单词执行语音识别并执行语音识别的方法。例如,当将语法模型更新以便对OOV单词执行语音识别时,在没有关于OOV单词的额外信息的情况下更新语法模型成为可能。
由于在语法模型中不包括OOV单词的出现概率信息,因此OOV单词表示无法通过语音识别检测的单词。OOV单词不限于以单词为单位的语言并且可包括使用各种单位(诸如音素或音节)的语言。
图2是示出更新语法模型并使用更新后的语法模型执行语音识别的示例处理的框图。例如,OOV单词可被划分为较小的单位,语法模型可基于进一步被划分为较小的单位的音段(segement)来更新。
参照图2,在更新语法模型的处理中,可更新语法模型240,使得可基于包括OOV单词的语料库201对OOV单词执行语音识别。另外,可基于更新后的语法模型240从到语音识别块250的语音声音中检测OOV单词。
用于更新语法模型的装置可从语料库210中获得新单词。由于在语法模型240中不包括出现概率信息,因此可在语音识别期间不检测OOV单词。所述装置可更新语法模型240,使得可对语料库210中包括的OOV单词执行语音识别。
所述装置可在块220中将OOV单词划分为具有较小单位的音段。所述装置可将一个OOV单词划分至少一次。所述装置可划分不包括空格(space)的一个OOV单词。每次所述装置将一个OOV单词划分一次时,可产生两个音段。可将OOV单词划分为具有各种单位(诸如音节、音素或单词)的音段。另外,所述装置可进一步划分通过划分处理产生的音段。
将根据示例实施例描述单词的重复划分方法。
例如,可将针对“Two Rivers Elementary School”的一个单词序列重复划分为“Two+RiversElementarySchool”和“Two+Rivers+Elementary+School”。
例如,可将针对“CouldyoupleasetellmethenumburrofaChineserestaurant?AndmayIordernow?”的一个单词序列划分为“CouldyoupleasetellmethenumburrofaChineserestaurant?AndmayI+ordernow?”、“CouldyoupleasetellmethenumburrofaChineserestaurant?+And+may+I+order+now?”、“Couldyoupleasetellme+thenumburrofaChineserestaurant?+And+may+I+ordernow?”、“Couldyouplease+tell+me+thenumburrofaChineserestaurant?+And+may+I+order+now?”、“Couldyou+please+tell+me+the+numburr+of+AChineserestaurant?+And+may+I+order+now?”。
所述装置可划分所述单词序列直到能够被添加到语法模型240的音段或单词的数量达到指定数量或更多。由于语法模型240的尺寸极度增加,因此在语音识别期间计算量过度增加。因此,所述装置可更新语法模型240,使得能够被添加到语法模型240的音段或单词的数量达到指定数量或更少。
由于划分的频率增加,因此所产生的音段和在语法模型240中包括的单词重叠的可能性变得更高。当所产生的音段与在语法模型240中包括的单词重叠时,可基于音段出现频率更新与在语法模型240中包括的单词重叠的概率值。因此,由于划分的频率增加,因此与在语法模型240中包括的单词相比能够被识别出的单词的数量增加。
然而,与长的单词序列相比,短的单词序列可具有产生语音识别错误的更高可能性。例如,当OOV单词划分为语素或音素单位时,由于在OOV单词之前和之后存在许多单词或音段,因此语音识别错误可容易发生。此外,在语料库210中包括的文本中容易包括缩写、拼错的单词、空格错误;然而,当将所述文本划分为非常小的单位(诸如语素或音素)并将所述文本添加到语法模型240时,可能难以识别所述错误。因此,在语音识别期间,错误发生的可能性可能变得更高。
同时,当将长的OOV单词添加到语法模型240时,被添加到语法模型240的单词或音段的数量可极大增加到与在语料库210中包括的OOV单词的数量一样多。
所述装置可产生针对在语料库210中包括的OOV单词的指定数量的音段。可基于语法模型240的大小确定数量,使得计算量可不过度增加。根据示例实施例,与在将太短或太长的单词添加到语法模型240时相比,由于可利用指定数量的音段更新语法模型240,因此可提高语音识别性能。
另外,所述装置可产生包括提示的音段,使得可在语音识别期间所述音段被有效地重新组合为在被划分为音段之前的单词中。执行语音识别的所述装置可基于所述音段的提示确定是否在每个音段之间添加空格。所述装置可使用包括提示的音段更新语法模型240。语法模型240可包括包含提示的音段的出现概率信息。
将在下文参照图4至图6更详细地描述由所述装置划分新单词的方法。
在图2的块230,所述装置可针对划分后的音段中的每个产生用于重新组合的提示。可基于在被划分之前的单词的类型确定所述提示。当单词被划分为多个音段时,在重新组合时没有包括空格的情况下将与每个音段的划分点相邻的部分重新组合是可取的。另外,在重新组合时包括空格的情况下将位于每个音段的划分点的对面的部分重新组合是可取的。所述装置可产生表示在音段中是否存在空格的提示,使得可将音段重新组合为在被划分之前的单词。
所述装置可使用包括所述提示的音段来更新语法模型240。
另外,在语音识别处理中,执行语音识别的所述装置可在图2的块250中针对输入的语音声音使用由所述装置更新的语法模型240执行语音识别。可在如图1所示的语音识别期间基于语音声音的特征信息检测至少一个候选发音变体。此外,可基于与检测到的候选发音变体相应的单词的出现概率信息输出识别出的语言。可从由所述装置更新的语法模型240中获得单词的出现概率信息。语法模型240可不仅包括单词,而且还包括包含提示的各种单位的音段。
语法模型240可包括相同音段或包含不同提示的不同音段。在存在之前和之后的单词的条件下,包含不同提示的音段中的每个可包括出现概率信息。根据哪个单词出现在音段之前和之后,包含不同提示的音段中的每个可包括出现概率信息。虽然包含不同提示的音段中的每个可与相同发音变体相应,但是可基于出现概率信息确定一个音段。
在图2的块260中,执行语音识别的装置可将至少一个音段重新组合为在被划分为音段之前的单词的同时基于在所述音段中包括的提示更新语法模型。所述装置可将根据所述音段的提示重新组合的单词输出为语音识别结果。
图3是示出更新语法模型的示例方法的流程图。
参照图3中的步骤S310,装置可获得包括至少一个单词的语料库。
语料库可包括在web页面中包括的内容或文本。当在图像文件中包括文本时,可通过光学字符阅读器(OCR)获得文本。语料库可包括以包括多个单词的句子或段落的形式的文本。所述装置可从语料库中获得用于更新语法模型240的单词。
在步骤S320,所述装置可从在步骤S310获得的语料库中获得至少一个单词。可在步骤S320获得的单词可包括在语法模型240中不包括的OOV单词并因此无法通过语音识别进行检测。
在步骤S330,所述装置可将在步骤S320获得的单词划分为至少一个音段。所述装置可基于所述单词或音段的出现频率或长度确定划分顺序。由于具有低出现频率的长词串(word sequence)可具有常用的多个单词更有可能被收集的形式,因此所述装置可优先划分具有低出现频率的长词串。另外,所述装置可基于音段的出现频率确定划分点。将在下文参照图4至图6更详细地描述可在步骤S330使用的单词划分方法。
所述装置可通过考虑语法模型240的大小划分单词直到能够被添加到语法模型240的音段或单词的数量达到指定数量或更多。
另外,所述装置可在完成步骤S330的划分处理之后使用在步骤S330产生的音段对在步骤S320获得的单词进行划分。所述装置可从在步骤S320获得的单词之中识别包括已产生的音段的单词并可划分所述单词。所述装置可划分所述单词,以便归因于划分处理而不产生新的音段。例如,可在没有归因于划分处理而产生新的音段的情况下产生在步骤S330已产生的音段。
在步骤S340,所述装置可在完成步骤S330的划分处理之后产生用于将音段重新组合为单词的提示。所产生的提示可被添加到具有音段的语法模型。可基于在被划分之前的单词中是否存在空格来确定用于将音段重新组合为单词的提示。当执行语音识别时,可基于音段的提示在音段之间添加空格。
例如,可基于每个音段在被划分之前的原始单词中位于所述单词的边界还是每个音段从所述单词内部被划分出在所述音段的两端呈现分别不同提示。
如果原始单词是“SunsetLaneElementarySchool”,可将呈现提示的音段产生为“_SunsetLane+Elementary+School_”。“elementaryschoolcurriculum”可具有通过划分处理被产生为“_elementary+school+curriculum_”的音段。“I went to school”可具有通过划分处理被产生为“_I_+_went_+_to_+_school_”的音段。“school”可具有通过划分处理被产生为“_school_”的音段。
如同以上示例,当音段位于原始单词的边界时,在位于原始单词的边界的音段上放置特殊符号以便呈现所述单词的边界成为可能。因此,当根据以上方法呈现提示时,可产生包括相同音段或不同提示的四个音段,诸如,“_s”、“s_”、“_s_”、“s”。每个音段可作为具有各自的出现概率信息的值而被添加到语法模型240。
在步骤S350,所述装置可使用包括提示的至少一个音段更新语法模型。可基于每个音段的出现概率信息更新语法模型。在语法模型中已包括音段的示例中,可更新音段的出现概率信息。在语法模型中不包括音段的示例中,可将音段的出现概率信息新添加到语法模型。可基于在语法模型中包括的出现概率信息和在语料库中包括的单词确定音段的出现概率信息。
图4是示出基于单词出现频率和单词长度的单词的示例的曲线图。
参照图4,可基于用于产生在语料库或语法模型240中包括的单词的单词的出现频率和长度将所述单词示为二维曲线图。所述单词可包括能够基于空格而被区分的文本。如上所述,长词串主要具有低出现频率,短词串主要具有高出现频率。
一般而言,长词串由至少两个有意义的单词(诸如“名词+名词”或“名词+后置小品词(postpositional particle)”)构成。因此,在没有通过装置优先将长词串划分而被划分的情况下,短词串可按照原样被添加到语法模型240。因此,用于更新语法模型的装置可在使语料库中包括的OOV单词最小化的同时使被添加到语法模型240的单词或音段的数量最小化。
图5是示出单词划分顺序的示例的曲线图。
参照图5,具有较低出现频率的长词串可优先被划分。可按照使单词的长度减少的方向以从1a到1e的顺序按顺序划分具有低出现频率的单词。另外,可按照使单词的长度减少的方向以从2a到2e的顺序按顺序划分具有高出现频率的单词。在没有被划分的情况下,具有较高出现频率的短词串可具有被添加到语法模型240的更高可能性。
图6是示出单词划分的示例的示图。
参照图6,针对“channelat”的词串可如图6所示划分。单词“channelat”可被划分为各种单位,不过将在下文基于被划分为音节单位进行描述。
由于不包括空格,因此单词“channelat”可被称为一个词串并且当所述单词被划分为音节单位时可包括三种划分方法。如在方框610中,用于更新语法模型的装置可根据每种划分方法获得音段出现概率。
在方框610中,f(s)表示能够出现在词头的音段s的出现概率。此外,t(s)表示能够出现在词尾的音段s的出现概率。上述单词可表示能够由执行语音识别的装置识别的单词以及在语料库中包括的单词。
在方框620,可基于针对划分方法0、1、2的每个音段的出现概率确定分数。由于划分方法1的分数最高,因此单词“channelat”可基于划分方法1而被划分为“channel”和“at”。
在基于划分点的部分中上一音段和下一音段改变得越频繁,可将相应划分方法的分数确定得越高。同时,当常常在没有基于划分点的空格的情况下连接上一音段和下一音段时,可将相应划分方法的分数确定为低。
当分数是参考值或更多时,更新语法模型的装置可基于相应划分方法划分单词。当分数是参考值或更少时,由于基于相应划分方法的音段可能不经常出现在划分状态中,因此最好不根据相应划分方法划分单词。
在方框630中,可确定划分方法1的分数。基于划分方法1,可基于每个音段“channel”和“at”的出现概率值确定分数。可在“channela”和“cha”出现在词头的条件下以及在“at”和“t”出现在词尾的条件下确定每个音段的出现概率值。
可按照各种方法获得在方框630中的分数而不限于上述方法。可根据每种划分方法基于每个音段的出现概率值确定分数。
在下文中,将根据示例实施例描述单词划分方法。
在划分针对“JohnSmith cellphone”的词串的情况下,音段可被划分为“John+Smith+cellphone”。由于在所述单词中包括空格,因此音段可基于空格而被划分。“JohnSmith”可基于以每种划分方法确定的分数而被划分为“John+Smith”。
另外,针对“SantaBarbara Pier”的词串可被划分为“Santa+Bar+ba+ra+Pier”。
另外,针对“Ellui Theatre Hollywood”的词串可被划分为“El+lui+Theatre+Hollywood”。
另外,针对“What tikitz doyouhavenow”的词串可被划分为“What+tiketz+do+you+have+now”。
另外,针对“CanIhavemyparceldiliberedonaMonday”的词串可被划分为“Can+I+have+my+parcel+dil ibered+on+a+Monday”。
另外,针对“Where canIbuy Samsungelectronics oops products”的词串可被划分为“Where+can+I+buy+Samsung electronics+oops+products”。
上述示例包括口语体的文本或经常可在web文本中看到的非典型文本。虽然常用单词(诸如“cellphone”、“Samsungelectronics”)未被划分,但是具有低出现频率的单词(诸如“Ellui+Theatre”或“Santa+Bar+ba+ra+Pier”)可被划分为具有更高出现频率的更短的音段。例如,即使当文本中包括拼错的单词(诸如,“Samsungelectronics+oops+products”、“dilibered”或“What tikitz”)时,周围的音段可被适当划分。
每个划分出的音段可被划分为本身具有含义的较小的单位(诸如前缀、后缀或小品词)。然而,由于在不同音段中可包括在划分后的音段中的一个中包含的许多较小的语言单位,因此,较小的单位可不被划分为较小的音段单位。
在示例实施例中,从单词中划分出的每个音段具有足够的出现频率;因此,当对新单词执行语音识别时,通过将音段组合以从语音声音中检测出新单词可能更有利。
在下文中,将参照图7更详细地描述根据示例实施例的执行语音识别的方法。
图7是示出执行语音识别的示例方法的流程图。
参照图7,在步骤S710,执行语音识别的装置可获得语音数据以执行语音识别。语音数据可包括包含人声的语音声音。
在步骤S720,所述装置可通过基于语法模型240执行语音识别来检测音段或单词。例如,所述装置可获得与语音数据相应的发音变体并可基于发音词典获得与发音变体相应的音段或单词。另外,所述装置可从基于发音词典获得的音段或单词之中基于语法模型240检测具有高出现概率值的音段或单词。
在步骤S730,所述装置可基于在步骤S720检测到的音段的提示将音段重新组合为原始单词。例如,在步骤S720检测到的音段可以是具有最高出现概率信息的音段。所述装置可通过使用检测到的音段的提示在音段之间添加空格。
如上所述,当将标记“_”添加到位于单词的边界的音段时,所述装置可在标记“_”连续出现两次时添加空格。
例如,在“SunsetLane_+Elementary+_School”的情况下,所述装置可将所述单词重新组合为“SunsetLaneElementarySchool”。由于针对“elementary_+school_+_curriculum”的单词在“school”与“curriculum”之间连续两次具有标记“_”,因此可将所述单词重新组合为“elementaryschool curriculum”。由于针对“_I+went_+_to+school_”的单词在“went”与“to”之间连续两次具有标记“_”,因此可将所述单词重新组合为“Iwenttoschool”。
在下文中,将参照图8至图13更详细地描述通过使用在语音数据中包括的单词检测OOV单词更新语音数据并使用更新后的语音数据执行语音识别的方法。
图8是示出从语音数据中包括的单词之中检测OOV单词并基于检测到的OOV单词更新语法模型的示例处理的示图。
参照图8,单词列表810可包括从语料库中获得的OOV单词。在块820中,更新语音数据的装置可产生在单词列表810中包括的OOV单词的发音变体。所述装置可基于(例如)N-best搜索算法产生OOV单词的发音变体。然而,所述装置不限于此并且可通过使用各种方法产生OOV单词的发音变体。也可根据示例实施例产生OOV单词的多个发音变体。
所述装置可通过将在块820中产生的OOV单词的发音变体对应到OOV单词来产生单词/发音列表830。另外,在块850,所述装置使用包括能够执行语音识别的单词的发音变体的发音词典840形成(articulate)在单词/发音列表830中包括的OOV单词的发音变体。所述装置可利用在发音词典840中包括的发音变体形成OOV单词的发音变体。发音词典840可与图1的发音词典150相应;然而,示例实施例不限于此并且发音词典840可包括包括单词的现有发音变体的各种类型的数据。
由于基于单词的现有发音变体更新第二语法模型,所以可不基于现有发音变体而是新的发音变体对OOV单词执行语音识别。因此,可在语音识别期间以更高的精确度检测OOV单词。
所述装置可产生包括在块850中形成的OOV单词的发音变体的发音单词列表(articulation word list)860。发音单词列表860可包括根据针对一个OOV单词的不同发音方法形成的多个发音变体。
可基于发音方法或在每个发音变体中包括的单词将不同的分数分配为对应于每个发音变体。例如,可将更高的分数分配为对应于基于特定单词(诸如后置小品词)形成的发音变体。另外,可将更高的分数分配未对应于包括指定单词的发音变体。可根据所分配的分数将发音变体的出现概率信息添加到第二语法模型。例如,可将发音变体的出现概率值确定为与分数成比例。
在块870,所述装置可确定与发音单词列表860的每个形成的发音变体相应的出现概率信息并且可使用包括所确定的出现概率信息的发音变体来更新第二语法模型880。第二语法模型880可还包括发音单词列表860的每个形成的发音变体的出现概率信息。
在下文中,将参照图9更详细地描述图8的更新语法模型的方法。
图9是示出更新语法模型的示例方法的流程图。
参照图9,在块910中的单词列表可包括从语料库中获得的OOV单词。如在块920中所示,所述装置可基于发音变体产生处理产生包括OOV单词的发音变体的单词/发音列表。
在块920,“KungTal iShabala”是OOV单词,“K U OO TT AA R IY S YA B A R A”是所述OOV单词的发音变体。另外,“D A D A O T O KK”是“dadao talk”的发音变体。根据示例实施例,多个发音变体也可存在。
块930示出先前建立的发音词典的示例。发音词典可包括能够通过语音识别检测到的单词的发音变体。
块940示出发音单词列表的示例。发音单词列表可包括发音单词变体,其中,所述发音单词变体可以是利用发音词典930中包括的单词对OOV单词的发音变体的重新配置。通过将发音词典930的发音变体与OOV单词的发音变体进行比较可获得发音单词变体。
由于在“KungTaliShabala”的发音变体中的“K U OO”与发音词典中的“K U OO”相同,因此“K U OO”中的“Kung”也可被包括在发音单词变体中。由于“K U OO TT AA”与在发音词典中的“KungTa”的发音变体相同,因此“KungTa”可被包括在发音单词变体中。类似地,在OOV单词的发音变体中与发音词典的发音变体相同的单词可被包括在发音单词变体中。
块950示出能够基于发音单词列表被更新的第二语法模型的示例。参照块950,第二语法模型可分别包括关于在“Kung”之后出现“Tari”的概率的信息、关于在“KungTari”之后出现“Shaba”的概率的信息、关于在“KungTariShaba”之后出现“la”的概率的信息以及关于在“Dadao”之后出现“talk”的概率的信息。可基于发音单词列表的发音单词变体更新第二语法模型。
可通过利用先前使用的第一语法模型或上述语法模型160及240获得加权和的方法来使用第二语法模型。例如,可通过从第二语法模型中获得的出现概率信息以及从第一语法模型或语法模型160及240中获得的出现概率信息的加权和确定关于一个单词的出现概率信息。然而,示例实施例不限于此并且通过上述方法产生或更新的第二语法模型可通过各种方法被用于执行语音识别。
图10是示出更新第二语法模型的示例方法的流程图。
参照图10,在步骤S1010,更新语法模型的装置可获得包括至少一个单词的语料库。在步骤S1020,所述装置可从语料库中获得至少一个单词。例如,所述装置可在语音识别期间获得作为无法从语料库中检测到的单词的OOV单词。
在步骤S1030,所述装置可产生在步骤S1020获得的单词的发音变体。可通过从文本产生发音变体的方法产生发音变体。
在步骤S1040,所述装置可基于在步骤S1030产生的发音变体和在发音词典中包括的发音变体通过将在步骤S1020获得的单词形成为在发音词典中包括的单词来产生发音单词变体。所述装置可通过将从语料库中获得的单词的发音变体与发音词典的发音变体进行比较来产生发音单词变体。可利用在发音词典中包括的单词配置发音单词变体。
在步骤S1050,所述装置可获得在语音识别期间在发音单词变体中包括的单词的出现概率信息。所述装置可从在步骤S1040产生的发音单词变体中获得每个单词的出现概率信息。
在步骤S1060,所述装置可基于在步骤S1050获得的出现概率信息更新第二语法模型。
在下文中,将参照图11至图13更详细地描述基于根据在图8至图10中描述的方法更新后的语音数据执行语音识别的方法。
图11是示出执行语音识别的示例处理的示图。
参照图11,在块1120,执行语音识别的装置可使用语法模型1110和第二语法模型1130执行语音识别。语法模型1110可包括上述语法模型160及240。第二语法模型1130可包括上述第二语法模型880。所述装置可通过执行在块1120中的语音识别来获得与输入的语音相应的单词。
在块1140,所述装置可使用发音单词列表1150恢复从第二语法模型1130中获得的单词。第二语法模型包括发音词典中包括的单词(而不是从语料库中获得的单词)的出现概率信息。因此,所述装置可通过使用包含发音单词变体的原始单词的发音单词列表1150恢复被识别为从语料库中获得的原始单词的单词。
在块1160,所述装置可输出作为重新组合恢复后的单词并执行语音识别的结果的文本。例如,当恢复后的单词包括如包括上述提示(参照S340)的音段的提示时,所述装置可基于如在上述重新组合方法中的提示重新组合恢复后的单词。
图12是示出执行语音识别的示例方法的流程图。
参照图12,在步骤S1210,装置可获得语音数据以执行语音识别。另外,所述装置可检测与语音数据相应的至少一个候选发音变体。所述装置可通过使用上述声学模型130检测候选发音变体。
在步骤S1220,所述装置可基于包括上述第二语法模型的语法模型通过执行语音识别来检测与语音数据相应的单词。由于基于第二语法模型通过语音识别检测到的单词与在发音词典中的现有单词而不是原始单词相应,可在步骤S1230将检测到的单词恢复为原始单词。
在步骤S1230,所述装置可基于发音单词列表将基于第二语法模型而检测到的单词恢复为从语料库中获得的原始单词。
图13是示出执行语音识别的示例处理的示图。
参照图13,如在块1310中所述,所述装置可基于包括第二语法模型的语法模型获得作为语音识别结果的单词。
所述装置可参照发音单词列表1320在语音识别结果1310中包括的单词之中检测与发音单词变体相同的单词并且可将检测到的单词恢复为原始单词。
例如,在语音识别结果1310中的“Kung Tari Sha bara”与发音单词列表1320中的“Kung+Tari+Sha+bara”相同。因此,在块1330中,可将“Kung Tari Sha bara”恢复到作为与“KungTaliShabala”相应的原始单词的“Kung+Tari+Sha+bara”。
在下文中,将参照图14至图16更详细地描述按照固定的单词顺序执行语音识别的方法。
图14是示出语音识别器1410的内部配置的示例的框图。
语音识别器1410可被包括在至少上述语音识别的装置中。参照图14,语音识别器1410可包括第一语法模型1420、第二语法模型1430、语音识别核1440以及基于位置的音素集1450。
第一语法模型1420可包括上述语法模型160及240;然而,示例实施例不限于此并且可包括能够在语音识别期间使用的各种语法模型。
第二语法模型1430包括被调整以便按照指定顺序对音素或单词执行语音识别的出现概率信息。
在韩国语中,第一个音素、第二个音素及最后一个音素可被确定为辅音或元音。例如,第一个音素和最后一个音素可被确定为辅音,第二个音素可被确定为元音。当将第一音素确定为辅音时由于不可能构成语言,因此最好不将第二音素确定为辅音。因此,根据示例实施例的语音识别器1400可执行语音识别,以便可参照第二语法模型1430按照指定顺序检测音素。
然而,根据示例实施例的语音识别器1400可按照指定顺序不仅对音位而且对单词和音节执行语音识别。当在语音识别期间检测到特定单词或音节时,可执行语音识别以便针对下一语音数据检测指定单词或音节。语音识别器1400可通过使用包括调整的出现概率值的第二语法模型1430执行语音识别,以便按照指定顺序对单词或音节执行语音识别。如果单词或音节的顺序重要,则语音识别器1400可通过使用第二语法模型1430(而不是第一语法模型1420)执行语音识别,以便按照指定顺序在单词或音节上执行语音识别。
语音识别核1440可使用第一语法模型1420和第二语法模型1430对输入的语音声音执行语音识别。如在上述方法中,可通过获得从第一语法模型1420和第二语法模型1430中获得的出现概率值的加权和来确定指定单词的出现概率值。根据示例实施例的语音识别核1440在普通模式下可通过使用第一语法模型1420和第二语法模型1430中的至少一个执行语音识别。
另外,语音识别核1440可在顺序模式下执行语音识别,其中,在顺序模式下,可按照指定顺序对音素或单词依次执行语音识别。当在顺序模式中操作时,语音识别核1440可通过使用包括被调整以便按顺序执行语音识别的出现概率值的第二语法模型1430执行语音识别。
基于位置的音素集1450可分别包括关于被分类为第一音素1451、中间音素1452及最后音素1453的音素的识别信息。当按照上述音素的顺序执行语音识别时可使用基于位置的音素集1450。
当语音识别核1440在普通模式下执行语音识别时,如果将被分类为第一音素1451的音素检测作为语音识别结果,则语音识别核1440可通过被转换为顺序模式来执行语音识别。语音识别核1440可在顺序模式下通过使用第二语法模型1430执行语音识别。
当在顺序模式下操作语音识别核1440时,可执行语音识别,从而可将属于中间音素1452的音素检测检测为对应于在第一音素1451之后的语音数据。在通过语音识别检测到中间音素1452之后,语音识别核1440可执行语音识别,使得可检测到属于最后音素1453的音素。当通过语音识别检测到最后音素1453时,语音识别核1440可在普通模式下再次执行语音识别。
虽然在示例实施例中描述按照音素顺序执行语音识别的示例,但是示例实施例不限于此并且可按照指定单词或音节的顺序执行语音识别。另外,在示例实施例中描述第一至第三音素顺序;然而,示例实施例不限于此并且可按照多个音素的顺序执行语音识别。
当通过语音识别检测到第一顺序的单词时,语音识别核1440可在顺序模式下操作。语音识别核1440可通过使用第二语法模型1430进行操作,使得可对下一顺序的单词执行语音识别。例如,语音识别核1440可通过使用第二语法模型1430从单词的群组中检测在第一顺序的单词之后的下一顺序的单词。语音识别核1440可按照顺序模式执行语音识别直到检测到最后顺序的单词。当检测到最后顺序的单词时,语音识别核1440可从顺序模式返回到普通模式并且可通过使用第一语法模型1420和第二语法模型1430执行语音识别。
图15是示出根据指定单词顺序执行语音识别的示例处理的流程图。
参照图15,在步骤S1510,执行语音识别的装置可获得用于执行语音识别的语音数据。
在步骤S1520,所述装置可在普通模式下基于第一语法模型和第二语法模型对在步骤S1510获得的数据执行语音识别。例如,所述装置可获得与语音数据相应的至少一个候选发音变体。所述装置可获得与每个候选发音变体相应的候选单词。所述装置可基于上述发音词典150获得与发音变体相应的单词。基于第一语法模型和第二语法模型,所述装置可基于与各个候选发音变体相应的单词的出现概率信息检测作为语音识别结果的一个单词。
能够通过语音识别被检测的语言不限于单词单位并可按照各种单位(诸如音节或音素)检测所述语言将予以描述。然而,为方便起见,所述语言将被描述为以单词为单位被检测。
第一语法模型1420可包括能够在语音识别期间被使用的各种语法模型。第二语法模型1430包括被调整以便按照指定顺序对音节或单词执行语音识别的出现概率信息。所述装置可通过获得从第一语法模型和第二语法模型中获得的出现概率值的加权和来执行语音识别。
在步骤S1530,可确定在步骤S1520识别出的单词是否属于被设置为第一顺序的单词。最后一个单词不限于如上所述的单词单位并可包括语言的各种单位(诸如音节或音素)。
在步骤S1540,当最后一个单词属于被设置为第一顺序的单词时,所述装置可按照顺序模式执行语音识别。所述装置可执行语音识别,使得可基于第二语法模型按照指定顺序检测单词。在通过语音识别检测到被设置为第一顺序的单词之后,所述装置可基于第二语法模型在能够在被设置为第一顺序的单词之后的单词之中检测单词。
在步骤S1550中,当属于最后顺序的单词被检测作为语音识别结果时,所述装置可在顺序模式下执行语音识别。当检测到属于最后顺序的单词时,所述装置可返回到普通模式并可在步骤S1520基于第一语法模型和第二语法模型执行语音识别。
图16是示出根据确定的顺序执行语音识别的示例处理的示图。
参照图16的步骤S1610,可基于各个不同的语法模型将单词检测作为语音识别结果。在普通模式下,可通过第一语法模型LM1将“What”、“I”、“NEED”、“IS”及“A”检测为语音识别结果。可基于第一语法模型LM1和第二语法模型LM2的加权和来检测单词。另外,可在顺序模式下根据第二语法模型LM2将“L_B”、“A”、“B”及“A_E”检测作为语音识别结果。“L_B”、“A”、“B”及“A_E”被写作单词、音素及音节的符号。“_B”表示被指定为第一顺序,“_E”表示被指定为最后顺序。
当在普通模式下在针对“What”的单词之后检测到被指定为第一顺序的“L_B”时,装置可在顺序模式下根据第二语法模型LM2执行语音识别。在检测到“L_B”之后,可根据所确定的顺序将“A”和“B”检测作为语音识别结果。例如,“A”和“B”可以是能够分别被检测为第二顺序和第三顺序的单词中的一个。当检测到“A_E”时,所述装置可通过从顺序模式返回到普通模式来执行语音识别。
参照图16的步骤1620,可基于各个不同的语法模型将单词检测作为语音识别结果。可在普通模式下通过第一语法模型LM1将“What”、“I”、“NEED”、“IS”及“A”检测作为语音识别结果。也可根据第一语法模型LM1和第二语法模型LM2的加权和检测单词。另外,可在顺序模式下通过第二语法模型LM2将“I_B”和“SEND/E”检测作为语音识别结果。
当在普通模式下在针对“What”的单词之后检测到被指定为第一顺序的“I_B”时,所述装置可在顺序模式下根据第二语法模型LM2执行语音识别。在检测到“I_B”之后,可根据所确定的顺序将“SEND/E”检测作为语音识别结果。例如,“SEND/E”可以是能够在“I_B”之后被检测到的单词中的一个。当检测到“SEND/E”时,所述装置可通过从顺序模式返回到普通模式来执行语音识别。
在下文中,将参照图17至图21更详细地描述基于单词所属的类别更新语法模型并执行语音识别的方法。
图17是示出根据单词所属的类别执行语音识别的语音识别器的示例内部配置的框图。
可在执行上述语音识别的装置中包括语音识别器1710。参照图17,语音识别器1710可包括基于类别的语法模型1720、按照类别的语法模型1730以及语音识别核1740。
语音识别核1740可使用基于类别的语法模型1720以及按照类别的语法模型1730执行语音识别。
基于类别的语法模型1720可包括包含进入令牌的单词的出现概率信息。当将包括进入令牌的单词检测作为语音识别结果时,将语音识别核1740从普通模式转换为类别识别模式并且语音识别核1740可执行语音识别。
基于类别的语法模型1720可包括能够在语音识别期间被使用的各种语法模型。例如,基于类别的语法模型1720可包括第一语法模型1420和第二语法模型1430、以及上述语法模型160及240。
按照类别的语法模型1730可包括分别存在于每个类别中的按照类别的语法模型。属于各个不同的类别的语法模型可包括属于相应类别的单词的出现概率信息。当由于包括进入令牌的单词被检测作为语音识别结果因此在类别识别模式中操作语音识别核1740时,语音识别核1740可通过使用按照类别的语法模型1730执行语音识别。根据由进入令牌表示的类别,语音识别核1740可使用属于相应类别的语法模型执行语音识别。当在类别识别模式中检测到包括退出令牌的单词时,可通过返回到普通识别模式来操作语音识别核1740。
属于按照类别的语法模型1730的单词可包括表示不同类别的进入令牌。当将包括表示不同类别的进入令牌的单词检测作为语音识别结果时,可基于属于由进入令牌表示的类别的语法模型执行语音识别。例如,语音识别核1740可在类别识别模式下通过使用属于第一类别的语法模型执行语音识别。当在类别识别模式下单词包括表示第二类别的进入令牌时,语音识别核1740可通过使用属于第二类别的语法模型执行语音识别。
图18是示出更新基于类别的语法模型的示例方法的流程图。
参照图18,用于在步骤S1810更新语法模型的装置可获得包括至少一个单词的语料库。在步骤S1820,所述装置可从语料库中获得至少一个单词。在步骤S1820获得的单词可包括作为无法由语音识别装置通过语音识别检测到的单词的OOV单词。
在步骤S1830,所述装置可确定是否将进入令牌添加到在步骤S1820获得的单词并且可基于所述确定的结果将进入条令添加到所述单词。例如,所述装置可通过在指定单词中包括进入令牌来更新基于类别的语法模型1720,使得可在指定单词之后对属于指定类别的单词执行语音识别。
在步骤S1840,所述装置可使用在步骤S1830包括进入令牌的单词更新基于类别的语法模型1720。所述装置可确定包括进入令牌的单词的出现概率信息并且可通过使用所确定的出现概率信息更新基于类别的语法模型1720。
图19是示出按照类别更新语法模型的示例方法的流程图。
参照图19,更新语法模型的装置可确定在步骤S1910从语料库中获得的单词所属的类别。从语料库中获得的单词可包括上述OOV单词。在步骤S1910,在其类别未被确定的单词的情况下,可基于在图18中的更新基于类别的语法模型的方法将所述装置用于更新基于类别的语法模型。
在步骤S1920,所述装置可确定是否将退出令牌添加到在步骤S1910其类别被确定的单词并且可基于所述确定结果添加退出令牌。例如,所述装置可根据单词的含义确定是否将退出令牌添加到所述单词。
在步骤S1930,所述装置可使用可包括或不包括退出令牌的单词更新单词所属的类别的语法模型。
图20是示出使用基于类别的语法模型以及按照类别的语法模型执行语音识别的示例处理的示图。
参照图20,可以以基于类别的语法模型1720为基础将“What<A>”检测作为语音识别结果。<A>2010表示代表类别A的退出令牌。由于检测到包括代表类别A的退出令牌2010的单词,因此语音识别装置可在类别识别模式2020下通过使用按照类别的语法模型执行语音识别。
基于语音识别结果,可在类别识别模式2020下基于属于类别A的语法模型1730检测到“I need</A>”2030或“you send</A>”2040。</A>2030和2040表示代表类别A的退出令牌。在类别识别模式2020中,由于检测到包括退出令牌2030和2040的单词,因此语音识别装置可通过从类别识别模式2020返回到普通模式执行语音识别。
根据示例实施例,可使用属于类别A的语法模型,使得可在针对“What</A>”的单词之后检测与程序名称相应的单词。因此,由于作为在“What</A>”之后的语音识别结果检测到不属于程序名称的单词,因此产生语音识别错误的可能性可变低。语音识别装置可通过仅使用类别A的语法模型执行语音识别以便检测在类别A的语法模型中包括的单词,或者可通过将与类别A的语法模型相应的权重设置为高来执行语音识别。另外,可在针对“is a”的单词的前面包括进入令牌,比如“<A>is a”而不是“What”。
同时,当检测到不包括进入令牌的“What”或“is a”时,语音识别装置可在普通模式下而不是在类别识别模式下执行语音识别。
语音识别装置可再次连续检测到作为在普通模式下的语音识别结果的“is a”。
图21是示出基于单词所属的类别执行语音识别的示例方法的流程图。
参照图21,执行语音识别的装置可在步骤S2110获得用于执行语音识别的语音数据。另外,在步骤S2120,执行语音识别的装置可以以基于类别的语法模型1720为基础对语音数据执行语音识别。
基于类别的语法模型1720可包括包含进入令牌的单词的出现概率信息。另外,基于类别的语法模型1720可包括能够在语音识别期间被使用的各种语法模型。例如,基于类别的语法模型1720可还包括第一语法模型1420和第二语法模型1430以及上述语法模型160及240。
当执行语音识别的装置在步骤S2130检测到包括进入令牌的单词时,可在步骤S2140在类别识别模式中基于进入令牌所属的类别的语法模型执行语音识别。在包括进入令牌的单词之后,语音识别装置可对下一语音数据基于在进入令牌所属的类别中的语法模型执行语音识别。
另外,当在类别识别模式下检测到包括代表其它类别的进入令牌的单词时,语音识别装置可基于属于相应类别的语法模型执行语音识别。
在步骤S2150,当在类别识别模式中检测到包括退出令牌的单词时,可通过返回到普通识别模式来执行语音识别。例如,由于检测到包括退出令牌的单词,因此语音识别装置可通过返回到步骤S2120来执行语音识别。
在下文中,将参照图22和图23更详细地描述用于更新语法模型的装置和执行语音识别的装置。图22和图23示出作为单独的装置的更新语法模型的装置2200和执行语音识别的装置2300,然而,图22和图23仅是示例。例如,将其描述为在执行语音识别的装置2300中包括的更新语法模型的装置2200的两个装置可被配置为一个装置。在图22、图23及下列示例实施例中,在更新语法模型的装置2200和执行语音识别的装置2300中包括的各个组件可按照物理形式或逻辑形式而被分散并排列或者可被集成。
更新语法模型的装置2200和执行语音识别的装置2300可包括能够由用户使用的各种装置。例如,装置2200和装置2300可包括个人计算机(PC)、膝上型计算机、移动电话、平板PC、导航终端、智能电话、个人数字助理(PDA)、便携式多媒体播放器(PMP)以及数字广播接收器等。然而,这些装置仅是示例,装置2200和装置2300可还包括被开发并商业化或将在未来开发出的能够通信的每个装置。
图22是示出用于更新语法模型的装置的示例内部配置的框图。
参照图22,更新语法模型的装置2200可包括接收器(例如,包括接收器电路)2210、控制器(例如,包括处理电路)2220以及存储器(例如,内存)2230。然而,图22的所有组件都不是必不可少的组件。可通过比所示出的组件更多的组件或更少的组件来实现装置2200。
在下文中,将按顺序描述所述组件。
接收器2210可获得包括至少一个单词的语料库。语料库可包括基于语法模型无法被检测作为识别出的单词的OOV单词。接收器2210可被配置为通过无线网络(诸如无线互联网、无线内联网、无线电话、无线局域网(LAN)、无线保真(Wi-Fi)、Wi-Fi直连(WFD)、三代(3G)、四代(4G)、蓝牙、红外数据协会(IrDA)、射频识别(RFID)、超宽带(UWB)、Zigbee或近场通信(NFC))或有线网络(诸如有线电话或有线互联网)等与外部装置收发数据。
控制器2220可被配置为控制装置2200的一般操作。例如,控制器2220可被配置为基于在语料库中包括的OOV单词更新语法模型。控制器2220可被配置为将OOV单词划分为更小单位的音段并且可被配置为使用添加了能够将音段重新组合为原始单词的提示的音段更新语法模型。另外,控制器2220可被配置为在发音词典中包括的单词之中形成OOV单词并且可被配置为使用所形成的OOV单词更新语法模型。另外,控制器2220可被配置为使用包括进入令牌或退出令牌的OOV单词更新基于类别的语法模型或按照类别的语法模型。
存储器2230可存储用于操作控制器2220及用于控制装置2200的程序或输入/输出数据(例如,音频数据或语法模型)。能够被存储在存储器2230中的语法模型可包括能够根据指定条件而被选择性地使用的多个语法模型。例如,存储器2230可存储上述第一语法模型、第二语法模型、基于类别的语法模型以及按照类别的语法模型。
存储器2230可包括闪存型、硬盘型、微型多媒体卡、卡片式存储器(例如,安全数字(SD)或极限数字(XD)存储器)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘以及光盘中的至少一个类型的存储介质。另外,装置2200也可操作互联网上执行存储器2230的存储功能的web存储器。
图23是示出语音识别装置的示例内部配置的框图。
参照图23,语音识别装置2300可包括接收器(例如,包括接收器电路)2310、控制器(例如,包括处理电路)2320以及存储器(例如,内存)2330。然而,图23的所有组件都不是必不可少的组件。可通过比所示出的组件更多的组件或更少的组件来实现语音识别装置2300。
在下文中,将按顺序描述所述组件。
接收器2310可获得用于执行语音识别的语音数据。例如,语音数据可包括包含人声、对话或命令的语音。语音识别装置2300可获得语音声音的特征点并且可输出语音声音及文本。接收器2310可被配置为通过无线网络(诸如无线互联网、无线内联网、无线电话、无线LAN、Wi-Fi、WFD、3G、4G、蓝牙、IrDA、RFID、UWB、Zigbee或NFC)或有线网络(诸如有线电话或有线互联网)等与外部装置收发数据。
控制器2320可被配置为控制语音识别装置2300的一般操作。例如,控制器2320可被配置为使用语法模型执行语音识别,当作为结果而被检测到的单词或音段包括用于重新组合的提示时,可将所述单词或音段重新组合为原始单词。另外,当作为语音识别结果而被检测到的单词包括在形成单词列表中时,控制器2320可被配置为基于形成单词列表恢复检测到的单词。另外,当作为语音识别结果而被检测到的单词与第一顺序的单词相应时,控制器2320可被配置为执行语音识别,使得在顺序模式下基于第二语法模型按照指定顺序检测所述单词。另外,控制器2320可被配置为基于作为语音识别结果而被检测到的单词是否包括进入令牌或退出令牌而在类别识别模式或普通识别模式下执行语音识别。当检测到包括进入令牌的单词时,控制器2320可被配置为基于属于由进入令牌代表的类别的语法模型执行语音识别。另外,当检测到包括退出令牌的单词时,控制器2320可被配置为在普通模式下以基于类别的语法模型为基础执行语音识别。
存储器2330可存储用于操作控制器2320及用于控制语音识别装置2300的程序或输入/输出数据(例如,音频数据或语法模型)。能够被存储在存储器2330中的语法模型可包括能够根据指定条件而被选择性地使用的多个语法模型。例如,存储器2330可存储上述第一语法模型、第二语法模型、基于类别的语法模型以及按照类别的语法模型。
存储器2330可包括闪存型、硬盘型、微型多媒体卡、卡片式存储器(例如,SD或XD存储器)、RAM、SRAM、ROM、EEPROM、PROM、磁性存储器、磁盘以及光盘中的至少一个类型的存储介质。另外,装置2300也可操作互联网上执行存储器2330的存储功能的web存储器。
根据示例实施例,可更新语法模型,使得可以以较低的错误识别率对OOV单词执行语音识别。
可按照能够通过各种计算机工具执行的程序命令的形式实现根据一些示例实施例的方法并且所述方法可被记录在非暂时性计算机可读记录介质上。非暂时性计算机可读记录介质可包括单独的或组合的程序命令、数据文件或数据结构。可针对本公开专门设计并配置被记录在记录介质上的程序命令,或者程序命令对于本领域普通技术人员而言是已知的并由他们予以使用。非暂时性计算机可读记录介质包括(例如)磁介质(诸如硬盘、软盘及磁带)、光学介质(诸如压缩盘只读存储器(CD-ROM)或数字多功能盘(DVD))、磁光介质(诸如软光盘)以及被专门配置为存储并执行程序命令的硬件装置(诸如ROM、RAM或闪存)。例如,所述程序命令可不仅包括由编译器形成的机器语言代码,而且包括能够由计算机使用解释器执行的高级语言代码。
应理解:在此描述的示例实施例应被视为仅仅是描述性的而并非为了限制的目的。在每个示例实施例内的特征或各方面的描述通常应被视为对于在其它示例性实施例中的其它相似特征或方面是可用的。
虽然已经参照附图描述一个或多个示例实施例,但是本领域普通技术人员将理解:在不脱离由权利要求书限定的精神和范围的情况下,可在其中做出形式和细节方面的各种改变。
Claims (15)
1.一种更新在语音识别期间所使用的语法模型的方法,所述方法包括:
获得包括至少一个单词的语料库;
从语料库中获得至少一个单词;
将获得的至少一个单词划分为至少一个音段;
产生用于将所述至少一个音段重新组合为所述至少一个单词的提示;以及
使用包括所述提示的至少一个音段更新语法模型。
2.如权利要求1所述的方法,其中,划分步骤包括:
基于获得的至少一个单词的出现频率和长度中的一个或更多个确定将被划分的单词;划分确定的单词。
3.如权利要求1所述的方法,其中,划分步骤包括:
针对获得的至少一个单词确定至少一个候选划分点;
基于以每个候选划分点为基础的音段的出现概率信息获得每个候选划分点的分数;以及
基于所述分数从所述至少一个候选划分点之中确定划分点并基于所述划分点将获得的单词划分为至少一个音段。
4.如权利要求1所述的方法,其中,划分步骤包括:
基于所述至少一个音段以音段为单位划分获得的至少一个单词。
5.如权利要求1所述的方法,其中,产生提示的步骤包括:
基于所述至少一个音段是否位于单词的边界来产生针对所述至少一个音段的提示。
6.如权利要求1所述的方法,其中,更新语法模型的步骤包括:
将进入令牌添加到获得的至少一个单词或划分的音段;
基于包括进入令牌的获得的至少一个单词或划分的音段更新基于类别的语法模型。
7.如权利要求6所述的方法,其中,更新语法模型的步骤包括:
确定单词或音段所属的类别;
确定是否将进入令牌或退出令牌添加到单词或音段并基于确定的结果将进入令牌或退出令牌添加到所述单词或音段;以及
基于单词或音段更新所确定的类别的语法模型。
8.一种执行语音识别的方法,所述方法包括:
获得用于执行语音识别的语音数据;
通过基于包括语音数据的至少一个音段的出现概率信息的语法模型执行语音识别来检测所述至少一个音段;以及
基于检测到的音段的提示将检测到的音段重新组合为单词。
9.如权利要求8所述的方法,还包括:
执行语音识别,使得当所述单词或检测到的音段属于第一顺序的单词时,所述单词可基于第二语法模型按照指定顺序来检测。
10.如权利要求8所述的方法,其中,所述语法模型包括基于类别的语法模型,并且所述方法包括:
当所述单词或检测到的音段包括进入令牌时,基于进入令牌所属的类别的语法模型执行语音识别;以及
当所述单词或检测到的音段包括退出令牌时,以基于类别的语法模型为基础执行语音识别。
11.一种用于更新语法模型的装置,所述装置包括:
接收器,被配置为获得包括至少一个单词的语料库;
存储器,被配置为存储语法模型;以及
控制器,被配置为从语料库获得至少一个单词,将获得的至少一个单词划分为至少一个音段,产生用于将所述至少一个音段重新组合为所述至少一个单词的提示,使用包括所述提示的至少一个音段更新语法模型。
12.如权利要求11所述的装置,其中,所述控制器被配置为针对获得的至少一个单词确定至少一个候选划分点,基于以每个候选划分点为基础的音段的出现概率信息获得每个候选划分点的分数,基于所述分数从所述至少一个候选划分点之中确定划分点,基于所述划分点将获得的至少一个单词划分为至少一个音段。
13.一种用于执行语音识别的装置,所述装置包括:
接收器,被配置为获得用于执行语音识别的语音数据;
存储器,被配置为存储包括至少一个音段的出现概率信息的语法模型;以及
控制器,被配置为通过基于包括语音数据的至少一个音段的出现概率信息的语法模型执行语音识别来检测所述至少一个音段并基于检测到的音段的提示将检测到的音段重新组合为单词。
14.如权利要求13所述的装置,其中,控制器被配置为执行语音识别,使得当所述单词或检测到的音段属于第一顺序的单词时,所述单词可基于第二语法模型按照指定顺序来检测。
15.如权利要求13所述的装置,其中,
所述语法模型包括基于类别的语法模型,
控制器被配置为:当所述单词或检测到的音段包括进入令牌时,基于进入令牌所属的类别的语法模型执行语音识别;当所述单词或检测到的音段包括退出令牌时,以基于类别的语法模型为基础执行语音识别。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2015-0106772 | 2015-07-28 | ||
KR1020150106772A KR102413067B1 (ko) | 2015-07-28 | 2015-07-28 | 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106409284A true CN106409284A (zh) | 2017-02-15 |
CN106409284B CN106409284B (zh) | 2019-12-10 |
Family
ID=55854730
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610604984.3A Expired - Fee Related CN106409284B (zh) | 2015-07-28 | 2016-07-28 | 用于更新语言模型并执行语音识别的方法和装置 |
Country Status (4)
Country | Link |
---|---|
US (3) | US9916827B2 (zh) |
EP (2) | EP3125236B1 (zh) |
KR (1) | KR102413067B1 (zh) |
CN (1) | CN106409284B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573697A (zh) * | 2017-03-10 | 2018-09-25 | 北京搜狗科技发展有限公司 | 一种语言模型更新方法、装置及设备 |
CN109257547A (zh) * | 2018-09-21 | 2019-01-22 | 南京邮电大学 | 中文在线音视频的字幕生成方法 |
CN110895659A (zh) * | 2018-08-22 | 2020-03-20 | 阿里巴巴集团控股有限公司 | 模型训练方法、识别方法、装置及计算设备 |
US11074909B2 (en) | 2019-06-28 | 2021-07-27 | Samsung Electronics Co., Ltd. | Device for recognizing speech input from user and operating method thereof |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107112007B (zh) * | 2014-12-24 | 2020-08-07 | 三菱电机株式会社 | 语音识别装置及语音识别方法 |
KR102325724B1 (ko) * | 2015-02-28 | 2021-11-15 | 삼성전자주식회사 | 다수의 기기에서 텍스트 데이터 동기화 |
KR102413067B1 (ko) | 2015-07-28 | 2022-06-24 | 삼성전자주식회사 | 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스 |
EP3430614A4 (en) * | 2016-03-18 | 2019-10-23 | Fluent.ai Inc. | METHOD AND DEVICE FOR AUTOMATICALLY LEARNING THE RELEVANCE OF WORDS IN A LANGUAGE RECOGNITION SYSTEM |
JP6852734B2 (ja) * | 2016-06-21 | 2021-03-31 | ソニー株式会社 | 情報処理装置及び情報処理方法 |
CN107066447B (zh) * | 2017-04-19 | 2021-03-26 | 广东惠禾科技发展有限公司 | 一种无意义句子识别的方法和设备 |
JP6711343B2 (ja) * | 2017-12-05 | 2020-06-17 | カシオ計算機株式会社 | 音声処理装置、音声処理方法及びプログラム |
CN108198552B (zh) * | 2018-01-18 | 2021-02-02 | 深圳市大疆创新科技有限公司 | 一种语音控制方法及视频眼镜 |
US10572586B2 (en) * | 2018-02-27 | 2020-02-25 | International Business Machines Corporation | Technique for automatically splitting words |
US11282512B2 (en) * | 2018-10-27 | 2022-03-22 | Qualcomm Incorporated | Automatic grammar augmentation for robust voice command recognition |
KR102182408B1 (ko) * | 2019-03-05 | 2020-11-24 | 충북대학교 산학협력단 | 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법 |
US11145296B1 (en) * | 2019-03-25 | 2021-10-12 | Amazon Technologies, Inc. | Language and grammar model adaptation |
US20220237379A1 (en) * | 2019-05-20 | 2022-07-28 | Samsung Electronics Co., Ltd. | Text reconstruction system and method thereof |
US11527234B2 (en) * | 2019-10-01 | 2022-12-13 | Rovi Guides, Inc. | Method and apparatus for generating hint words for automated speech recognition |
US11341961B2 (en) * | 2019-12-02 | 2022-05-24 | National Cheng Kung University | Multi-lingual speech recognition and theme-semanteme analysis method and device |
CN111785300B (zh) * | 2020-06-12 | 2021-05-25 | 北京快鱼电子股份公司 | 一种基于深度神经网络的哭声检测方法和系统 |
CN113129869B (zh) * | 2021-03-22 | 2022-01-28 | 北京百度网讯科技有限公司 | 语音识别模型的训练与语音识别的方法、装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5835888A (en) * | 1996-06-10 | 1998-11-10 | International Business Machines Corporation | Statistical language model for inflected languages |
CN1746973A (zh) * | 2004-09-06 | 2006-03-15 | 三星电子株式会社 | 分布式语音识别系统和方法 |
CN102236639A (zh) * | 2010-04-28 | 2011-11-09 | 三星电子株式会社 | 更新语言模型的系统和方法 |
US8214213B1 (en) * | 2006-04-27 | 2012-07-03 | At&T Intellectual Property Ii, L.P. | Speech recognition based on pronunciation modeling |
CN102937972A (zh) * | 2012-10-15 | 2013-02-20 | 上海外教社信息技术有限公司 | 一种视听字幕制作系统及方法 |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0769184B1 (en) * | 1995-05-03 | 2000-04-26 | Koninklijke Philips Electronics N.V. | Speech recognition methods and apparatus on the basis of the modelling of new words |
US6526380B1 (en) * | 1999-03-26 | 2003-02-25 | Koninklijke Philips Electronics N.V. | Speech recognition system having parallel large vocabulary recognition engines |
US7120582B1 (en) * | 1999-09-07 | 2006-10-10 | Dragon Systems, Inc. | Expanding an effective vocabulary of a speech recognition system |
US20030144846A1 (en) * | 2002-01-31 | 2003-07-31 | Denenberg Lawrence A. | Method and system for modifying the behavior of an application based upon the application's grammar |
US6999931B2 (en) * | 2002-02-01 | 2006-02-14 | Intel Corporation | Spoken dialog system using a best-fit language model and best-fit grammar |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
WO2004034378A1 (ja) * | 2002-10-08 | 2004-04-22 | Matsushita Electric Industrial Co., Ltd. | 言語モデル生成蓄積装置、音声認識装置、言語モデル生成方法および音声認識方法 |
US7519534B2 (en) * | 2002-10-31 | 2009-04-14 | Agiletv Corporation | Speech controlled access to content on a presentation medium |
US7302392B1 (en) * | 2003-10-07 | 2007-11-27 | Sprint Spectrum L.P. | Voice browser with weighting of browser-level grammar to enhance usability |
KR100612839B1 (ko) * | 2004-02-18 | 2006-08-18 | 삼성전자주식회사 | 도메인 기반 대화 음성인식방법 및 장치 |
KR100755677B1 (ko) * | 2005-11-02 | 2007-09-05 | 삼성전자주식회사 | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 |
EP2081185B1 (en) * | 2008-01-16 | 2014-11-26 | Nuance Communications, Inc. | Speech recognition on large lists using fragments |
CN103999152A (zh) * | 2011-12-29 | 2014-08-20 | 英特尔公司 | 利用动态语法元素集的语音识别 |
US9542936B2 (en) * | 2012-12-29 | 2017-01-10 | Genesys Telecommunications Laboratories, Inc. | Fast out-of-vocabulary search in automatic speech recognition systems |
EP2862164B1 (en) * | 2013-08-23 | 2017-05-31 | Nuance Communications, Inc. | Multiple pass automatic speech recognition |
CN103578464B (zh) * | 2013-10-18 | 2017-01-11 | 威盛电子股份有限公司 | 语言模型的建立方法、语音辨识方法及电子装置 |
KR102413067B1 (ko) | 2015-07-28 | 2022-06-24 | 삼성전자주식회사 | 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스 |
-
2015
- 2015-07-28 KR KR1020150106772A patent/KR102413067B1/ko active IP Right Grant
-
2016
- 2016-04-25 US US15/137,217 patent/US9916827B2/en active Active
- 2016-04-28 EP EP16167445.2A patent/EP3125236B1/en active Active
- 2016-04-28 EP EP19171870.9A patent/EP3557573A1/en not_active Withdrawn
- 2016-07-28 CN CN201610604984.3A patent/CN106409284B/zh not_active Expired - Fee Related
-
2018
- 2018-03-12 US US15/917,880 patent/US10497363B2/en active Active
-
2019
- 2019-10-25 US US16/663,399 patent/US11145292B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5835888A (en) * | 1996-06-10 | 1998-11-10 | International Business Machines Corporation | Statistical language model for inflected languages |
CN1746973A (zh) * | 2004-09-06 | 2006-03-15 | 三星电子株式会社 | 分布式语音识别系统和方法 |
US8214213B1 (en) * | 2006-04-27 | 2012-07-03 | At&T Intellectual Property Ii, L.P. | Speech recognition based on pronunciation modeling |
CN102236639A (zh) * | 2010-04-28 | 2011-11-09 | 三星电子株式会社 | 更新语言模型的系统和方法 |
CN102937972A (zh) * | 2012-10-15 | 2013-02-20 | 上海外教社信息技术有限公司 | 一种视听字幕制作系统及方法 |
Non-Patent Citations (1)
Title |
---|
KNEISSLER: ""Speech recognition for huge vocabularies by using optimized sub-word units"", 《EUROSPEECH 2001 – SCANDINAVIA》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108573697A (zh) * | 2017-03-10 | 2018-09-25 | 北京搜狗科技发展有限公司 | 一种语言模型更新方法、装置及设备 |
CN110895659A (zh) * | 2018-08-22 | 2020-03-20 | 阿里巴巴集团控股有限公司 | 模型训练方法、识别方法、装置及计算设备 |
CN110895659B (zh) * | 2018-08-22 | 2023-05-26 | 阿里巴巴集团控股有限公司 | 模型训练方法、识别方法、装置及计算设备 |
CN109257547A (zh) * | 2018-09-21 | 2019-01-22 | 南京邮电大学 | 中文在线音视频的字幕生成方法 |
CN109257547B (zh) * | 2018-09-21 | 2021-04-06 | 南京邮电大学 | 中文在线音视频的字幕生成方法 |
US11074909B2 (en) | 2019-06-28 | 2021-07-27 | Samsung Electronics Co., Ltd. | Device for recognizing speech input from user and operating method thereof |
Also Published As
Publication number | Publication date |
---|---|
US20180204564A1 (en) | 2018-07-19 |
EP3125236A1 (en) | 2017-02-01 |
US11145292B2 (en) | 2021-10-12 |
US20170032779A1 (en) | 2017-02-02 |
CN106409284B (zh) | 2019-12-10 |
US9916827B2 (en) | 2018-03-13 |
KR102413067B1 (ko) | 2022-06-24 |
US20200058294A1 (en) | 2020-02-20 |
US10497363B2 (en) | 2019-12-03 |
EP3125236B1 (en) | 2019-06-12 |
KR20170013712A (ko) | 2017-02-07 |
EP3557573A1 (en) | 2019-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106409284A (zh) | 用于更新语言模型并执行语音识别的方法和装置 | |
KR102313028B1 (ko) | 음성 인식 시스템 및 방법 | |
US10373610B2 (en) | Systems and methods for automatic unit selection and target decomposition for sequence labelling | |
US9529898B2 (en) | Clustering classes in language modeling | |
US9223779B2 (en) | Text segmentation with multiple granularity levels | |
CN110491393B (zh) | 声纹表征模型的训练方法及相关装置 | |
CN108711421A (zh) | 一种语音识别声学模型建立方法及装置和电子设备 | |
Imseng et al. | Using out-of-language data to improve an under-resourced speech recognizer | |
KR20200123544A (ko) | 동의어 추출 방법 | |
CN105229676A (zh) | 深层神经网络的学习方法及学习装置、以及范畴独立的子网络的学习装置 | |
US10224023B2 (en) | Speech recognition system and method thereof, vocabulary establishing method and computer program product | |
EP2891043A1 (en) | Personal language model for input method editor | |
CN110136689B (zh) | 基于迁移学习的歌声合成方法、装置及存储介质 | |
JP2019159654A (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
CN109033066B (zh) | 一种摘要形成方法及装置 | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
KR101905827B1 (ko) | 연속어 음성 인식 장치 및 방법 | |
Benisty et al. | Discriminative Keyword Spotting for limited-data applications | |
Fourtassi et al. | Self-consistency as an inductive bias in early language acquisition | |
CN111489742B (zh) | 声学模型训练方法、语音识别方法、装置及电子设备 | |
Manenti et al. | Unsupervised speech unit discovery using k-means and neural networks | |
KR20200141419A (ko) | 동의어 추출 방법 | |
KR101777141B1 (ko) | 한글 입력 키보드를 이용한 훈민정음 기반 중국어 및 외국어 입력 장치 및 방법 | |
Ravi et al. | Phoneme segmentation-based unsupervised pattern discovery and clustering of speech signals | |
JP7333490B1 (ja) | 音声信号に関連するコンテンツを決定する方法、コンピューター可読保存媒体に保存されたコンピュータープログラム及びコンピューティング装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191210 |