CN105632500A - 语音识别装置及其控制方法 - Google Patents
语音识别装置及其控制方法 Download PDFInfo
- Publication number
- CN105632500A CN105632500A CN201510811163.2A CN201510811163A CN105632500A CN 105632500 A CN105632500 A CN 105632500A CN 201510811163 A CN201510811163 A CN 201510811163A CN 105632500 A CN105632500 A CN 105632500A
- Authority
- CN
- China
- Prior art keywords
- token
- search
- speech recognition
- network
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 37
- 230000002093 peripheral effect Effects 0.000 claims abstract description 90
- 230000004044 response Effects 0.000 claims abstract description 70
- 230000007704 transition Effects 0.000 claims abstract description 52
- 238000003860 storage Methods 0.000 claims abstract description 13
- 238000010845 search algorithm Methods 0.000 claims description 13
- 230000014759 maintenance of location Effects 0.000 claims 1
- 238000004891 communication Methods 0.000 description 16
- 238000012546 transfer Methods 0.000 description 11
- 238000009434 installation Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 6
- 238000002372 labelling Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 206010010144 Completed suicide Diseases 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000000523 sample Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000005406 washing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/083—Recognition networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/081—Search algorithms, e.g. Baum-Welch or Viterbi
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Telephonic Communication Services (AREA)
- User Interface Of Digital Computer (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种语音识别装置,包括:语音识别器,被配置为识别用户话语;存储单元,被配置为存储多个令牌;令牌网络生成器,被配置为根据识别的用户话语来生成多个识别令牌,从存储在存储单元中的多个令牌中搜索与每个识别令牌相似的相似令牌以及具有与识别令牌一起使用的历史的外围令牌,并且使用识别令牌、相似令牌和外围令牌来生成令牌网络;以及处理器,被配置为响应于通过语音识别器识别出用户话语来控制令牌网络生成器生成令牌网络,计算构成令牌网络的令牌之间的转移概率,以及使用计算出的转移概率来生成针对已校正的用户话语的文本数据。
Description
相关申请的交叉引用
本申请要求于2014年11月21日在韩国知识产权局提交的韩国专利申请No.10-2014-0163670的优先权,并在此引入其全部公开的内容。
技术领域
下文描述涉及语音识别装置及其控制方法,更具体地,涉及通过针对用户话语来生成令牌网络来校正用户话语的识别误差的语音识别装置,及控制该语音识别装置的方法。
背景技术
由于电子技术的发展以及各种的用户需求,已经开发了各种类型的电子装置。近几年,已经出现了用于通过用户语音来控制电子装置的技术。已经开发出了各种交互接口来通过用户话语控制电子装置,并且该各种交互接口已经用于各种电子装置。
一般而言,语音识别装置可以执行通过语音识别器来识别用户话语的处理。由于在语音识别器中产生的用户话语识别中的误差,该误差会传播到随后的使用该识别器的识别结果的处理过程,并因此可能向用户提供错误服务。
为了校正语音识别装置中的语音识别误差,已经提出了通过以下方式来校正语音识别误差的方法:应用用于网页浏览等的对拼写中的打字错误进行校正的技术,或使用一种噪声信道来构成语音识别结果和原始用户话语。
然而,因为语音识别装置中的语音识别误差是响应于用户实际上说出的词被错误地识别为与该词相似的另一个词而导致的,该被错误识别的词可能未被错误拼写。因此,用于网页浏览的对拼写错误的表达进行校正的技术可能未被正确地应用。构成噪声信道的方法不能校正关于在噪声信道的训练中未被使用的表达的错误。
因此,需要一种响应于即使在语音识别装置中产生语音识别误差也校正语音识别误差的技术。
发明内容
示例实施例克服了上述缺点和上文未描述的其它缺点。此外,并不需要示例实施例来克服上述缺点,并且示例实施例可以并不克服任何上述问题。
一个或多个示例实施例涉及能够对由于识别用户话语导致的话语识别误差进行校正的语音识别装置及其控制方法。
根据示例实施例的方案,控制语音识别装置的方法包括:通过识别用户话语来生成多个识别令牌;从多个预存的令牌中搜索与识别令牌中的每一个相似的相似令牌和具有与识别令牌一起使用的历史的外围令牌;使用识别令牌、相似令牌和外围令牌来生成令牌网络;以及,计算构成令牌网络的令牌之间的转移概率并且使用计算出的转移概率来生成针对已校正的用户话语的文本数据。
可以通过按令牌的预定的单位划分内容列表、语言资料库、话语日志来生成多个预存的令牌。搜索可以包括:响应于在多个预存的令牌中存在识别令牌,使用预存的令牌之间的预存的相似度来搜索相似令牌。
搜索可以包括:响应于在多个预存的令牌中不存在识别令牌,使用字符串搜索算法来搜索相似令牌。
搜索可以包括:响应于在多个预存的令牌中不存在识别令牌,搜索外围令牌。
生成多个识别令牌可以包括:通过识别用户话语来生成针对用户话语的文本数据;以及,通过按预定的单位划分所生成的针对用户话语的文本数据来生成多个识别令牌。生成令牌网络可以包括:通过将相似令牌和外围令牌布置为与多个识别令牌中的每一个相对应来生成令牌网络。
生成针对已校正的用户话语的文本数据可以包括:使用针对预存的内容列表、语言资料库和话语日志的语言模型来计算令牌之间的转移概率。
生成针对已校正的用户话语的文本数据可以包括:通过向语言模型指派预定的权重来计算令牌之间的转移概率;以及基于计算出的令牌之间的转移概率来搜索令牌网络上的最佳路径。
搜索最佳路径可以包括:使用Viterbi和A星算法中的至少一个来搜索最佳路径。
方法还可以包括:计算出现已校正的用户话语的概率;以及响应于出现已校正的用户话语的概率小于或等于预定值,输出再次讲话请求消息。
根据示例实施例的方案,语音识别装置包括:语音识别器,被配置为识别用户话语;存储单元,被配置为存储多个令牌;令牌网络生成器,被配置为根据识别出的用户话语来生成多个识别令牌,在存储在存储单元中的多个令牌中搜索与识别令牌中的每一个相似的相似令牌和具有与识别令牌一起使用的历史的外围令牌,以及使用识别令牌、类似令牌和外围令牌来生成令牌网络;以及处理器,被配置为响应于通过语音识别器识别用户话语来控制令牌网络生成器生成令牌网络,计算构成令牌网络的令牌之间的转移概率,以及使用计算出的转移概率来生成针对已校正的用户话语的文本数据。
存储单元可以存储通过按令牌的预定的单位划分内容列表、语言资料库、话语日志来生成的多个令牌以及令牌之间的相似度,并且令牌网络生成器可以响应于在多个令牌中存在识别令牌来使用令牌之间的相似度搜索相似令牌。
令牌网络生成器可以响应于在多个令牌中不存在识别令牌来使用字符串搜索算法搜索相似令牌。
令牌网络生成器可以响应于在多个令牌中不存在识别令牌来搜索外围令牌。
处理器可以响应于通过语音识别器识别用户话语来生成针对用户话语的文本数据,并且令牌网络生成器可以通过按预定的单位划分所生成的针对用户话语的文本数据来生成多个识别令牌,并且通过将相似令牌和外围令牌布置为与多个识别令牌中的每一个相对应来生成令牌网络。
存储单元还可以存储针对内容列表、语言资料库和话语日志的语言模型,并且处理器可以使用存储的语言模型来计算令牌之间的转移概率。
处理器可以通过向语言模型指派预定的权重来计算令牌之间的转移概率,并且通过基于计算出的令牌之间的转移概率搜索令牌网络上的最佳路径来生成针对已校正的用户话语的文本数据。
处理器可以使用Viterbi和A星算法中的至少一个来搜索最佳路径。
语音识别装置还可以包括被配置为显示图像的显示器和被配置为输出声音的音频输出单元中的至少一个。处理器可以计算出现已校正的用户话语的概率,并且响应于出现已校正的用户话语的概率小于或等于预定值,控制显示器和音频输出单元中的至少一个输出再次讲话请求消息。
根据各种示例实施例,可以准确并高效地校正由于在语音识别装置中识别用户话语而导致的各种类型的话语识别误差。
在具体实施方式部分中将阐述示例实施例的附加方案和优点,并且根据具体实施方式部分,示例实施例的附加方案和优点将变得明显,或者,通过示例实施例的实践可以认识到示例实施例的附加方案和优点。
附图说明
通过参照附图描述特定示例实施例,本公开的上述和/或其它方案将会更加清楚,在附图中:
图1是示出了根据示例实施例的语音识别装置的配置的框图;
图2是示出了根据示例实施例的语音识别装置的配置的框图;
图3是示出了根据示例实施例的语音识别装置的配置的详细框图;
图4是示出了根据示例实施例的识别令牌和相似令牌的图;
图5是示出了根据示例性实施例的识别令牌、相似令牌和外围令牌的图;
图6是示出了根据示例实施例的令牌网络的图;
图7是示出了根据示例实施例的在令牌网络上的最佳搜索结果的图;
图8是示出了根据示例实施例的语音识别装置的配置的框图;
图9是示出了根据示例实施例的语音识别装置的控制方法的流程图;
图10是示出了根据示例实施例的语音识别装置的控制方法的流程图;
图11是示出了根据示例实施例的识别令牌和相似令牌的图;
图12是示出了根据示例实施例的识别令牌、相似令牌和外围令牌的图;
图13是示出了根据示例性实施例的令牌网络的图;以及
图14是示出了根据示例性实施例的在令牌网络上的最佳搜索结果的图。
具体实施方式
下面将详细参考示例实施例,示例实施例的示例在附图中示出,其中全文中相同的附图标记指代相同的元件。下文通过参照附图描述实施例以解释本公开。
本文中参照属于示例实施例(以及中间结构)的示意性说明的典型实现来描述示例性实施例。因此,示例实施例不应当被解释为对本文中示出的区域的具体形状的限制。然而,这些发明构思按不同的形式来实现,并且本领域技术人员可以认识到,在不背离发明构思的原则和精神的前提下可以实现这些示例实施例的修改本发明构思的范围由权利要求及其等同体来限定。另外,由于不必要的细节会模糊本公开,因此不对熟知的功能或结构进行详细描述。
处理器通常可以被配置为负责对装置进行控制,并且可以与中央处理单元(CPU)、微处理器、控制器等等混合使用。处理器可以被配置为控制装置的全部操作,并且可以通过单片系统(SOC)或片上系统(SoC)来实现。
图1是示出了根据示例实施例的语音识别装置的配置的框图。参照图1,语音识别装置100可以包括语音识别器110、处理器120、令牌(token)网络生成器130和存储单元140。
语音识别器110可以识别用户话语。例如,响应于输入用户话语,语音识别器110可以识别用户话语并且向处理器120提供识别结果。处理器120可以生成针对用户话语的文本数据。在该示例中,语音识别器110可以包括语音识别传感器,该语音识别传感器包括麦克风等等。通过语音识别器110来识别用户话语的详细方法可以使用现有技术。因此,将省略语音识别的详细描述。
存储单元140可以存储信息,例如语音识别装置的操作需要的各种程序或数据。例如,存储单元140可以存储作为在语音识别装置100中处理(service)的内容的列表的内容列表、作为事先收集用户很可能说出的句子的列表的语言资料库、以及针对用户之前实际说过的句子的识别结果的话语日志。例如,响应于语音识别装置100是显示装置(例如电视(TV)),各种广播节目的标题可以在存储单元140中存储为内容列表。例如“搜索XXX”、“提高音量”、“频道增加”、或“当播放《绝命毒师》时提醒我(remindmewhenbreakingbadison)”之类的句子可以在存储单元140中存储为语言资料库。用户的实际话语的识别结果可在存储单元140中存储为话语日志。
存储器120可以通过按预定的令牌单位划分存储在存储单元140中的内容列表、语言资料库和话语日志来生成多个令牌,并且可以在存储单元140中存储该多个生成的令牌。令牌可以指代包括在组单位(groupunit)中具有意义的一个或多个字符的字符串。也就是说,令牌可以指代由预定的单位(例如音节单位、词素单位或词单位)划分用户可能说出的各种词或句子。例如,在英语中,令牌可以基于空格来划分。在该示例中,一个令牌可以是一个词。
响应于通过语音识别器110识别用户话语,处理器120可以生成针对用户话语的文本数据。处理器120可以向令牌网络生成器130提供生成的文本数据。令牌网络生成器130可以通过解析文本数据来按预定的令牌单位划分针对用户话语的文本数据。
处理器120可以计算指示事先生成并存储的多个令牌之间的相似程度的相似度,并且在存储单元140中存储相似度。计算相似度的详细方法可以使用现有技术,并且因此省略其详细描述。处理器120可以存储对哪些令牌存在于来自内容列表、语言资料库和话语日志的具体令牌的外围进行指示的信息。也就是说,处理器120可以在存储单元140中存储指示与令牌一起使用的历史的信息,该信息是对在具体令牌被划分为令牌之前,哪些令牌存在于对应的令牌之前和之后进行指示的信息。
也就是说,根据内容列表、语言资料库和话语日志生成的多个令牌、多个令牌之间的相似度、以及具有与多个令牌一起使用的历史的令牌的信息可以预先存储在存储单元140中。
存储单元140可以存储针对内容、语言资料库和话语日志的语言模型。例如,处理器120可以根据存储在存储单元140中的内容列表、语言资料库和话语日志来生成针对内容列表、语言资料库和话语日志的语言模型,并且在存储单元140中存储生成的语言模型。语言模型可以是通过对人们使用的词进行建模来计算词字符串与实际使用的语言之间的匹配程度的模型。也就是说,语言模型可以是计算任意句子存在的概率的模型,并且处理器120可以使用语言模型来计算令牌网络上的每个令牌转移到下一个令牌的概率。能够计算令牌之间的转移概率的任何语言模型可被用作该语言模型,并且因此将省略其详细描述。
令牌网络生成器130可以根据处理器120的控制来生成令牌网络。例如,令牌网络生成器130可以根据通过语音识别器110识别出的用户话语来生成多个识别令牌,在存储单元140中存储的多个令牌中搜索与生成的识别令牌相似的相似令牌以及具有与生成的识别令牌一起使用的历史的外围令牌,并使用生成的识别令牌以及搜索到的相似令牌和外围令牌来生成令牌网络。
更具体地,令牌网络生成器130可以通过按预定的单位划分通过语音识别器110识别出的用户话语来生成多个识别令牌。例如,响应于通过语音识别器110识别用户话语,处理器120可以生成针对用户话语的文本数据并且向令牌网络生成器130提供生成的文本数据,并且令牌网络生成器130可以通过按预定的单位划分针对用户话语的文本数据来生成多个识别令牌。
令牌网络生成器130可以搜索生成的识别令牌的相似令牌和外围令牌。例如,响应于在存储在存储单元140中的多个令牌中出现对应的识别令牌,令牌网络生成器130可以使用存储在存储单元中的对应的识别令牌与其它令牌之间的相似度来搜索相似令牌。在该示例中,令牌网络生成器130可以搜索具有大于或等于预定值的相似度的令牌来作为识别令牌的相似令牌。令牌网络生成器130可以使用与存储在存储单元140中的多个令牌一起使用的历史来搜索对应识别令牌的外围令牌。
根据示例性实施例,响应于在存储在存储单元140中的多个令牌中不存在识别令牌,也就是说,响应于在存储在存储单元140中的多个令牌中不存在与对应的识别令牌相同的令牌并因此使用相似度没有搜索到相似令牌,令牌网络生成器130可以使用字符串搜索算法来搜索相似令牌。可以使用探测法、q-gram等作为字符串搜索算法,并且字符串搜索算法并不限于此。
响应于在存储在存储单元140中的多个令牌中不存在识别令牌,令牌网络生成器130可以搜索外围令牌。将参照图3和图5来描述搜索外围令牌的方法。
令牌网络生成器130可以使用多个识别令牌、以及上述搜索到的针对多个识别令牌的相似令牌和外围令牌来生成令牌网络。例如,令牌网络生成器130可以通过将相似令牌和外围令牌布置为与多个识别令牌中的每一个相对应来生成令牌网络。在该示例中,令牌网络可以具有例如以识别出的用户话语的顺序布置有多个识别令牌的格子,以及与识别令牌相对应的相似令牌和外围令牌被布置在识别令牌的下方以对应于识别令牌,但是令牌网络的结构并不限于此。图6示出了具有格子的令牌网络的示例。
处理器120可以控制语音识别器110和令牌网络生成器130。例如,处理器120可以计算构成令牌网络的令牌之间的转移概率,并且使用计算出的转移概率来生成针对已校正的用户话语的文本数据。令牌网络生成器130可以在处理器120中实现。
例如,处理器120可以使用针对存储在存储单元140中的内容列表、语言资料库和话语日志的语言模型来计算转移概率。例如,响应于计算在如图6所示的令牌网络中令牌“jugeulrae”转移到令牌“daewang”的概率,处理器120可以通过以下方式来计算在如图6所示的令牌网络上令牌“jugeulrae”转移到令牌“daewang”的概率:计算在内容列表语言模型中令牌“jugeulrae”转移到令牌“daewang”的概率,计算在语言资料库语言模型中令牌“jugeulrae”转移到令牌“daewang”的概率,计算在话语日志语言模型中令牌“jugeulrae”转移到令牌“daewang”的概率,并且通过向计算出的转移概率指派权重来将计算出的概率相加。通过上述方法,处理器120可以计算关于构成图6的令牌网络的所有令牌,每个令牌转移到下一个令牌的转移概率。
在示例中,响应于在如图11所示的令牌网络中令牌“remind”转移到令牌“me”的概率,处理器120可以通过以下方式来计算在如图11所示的令牌网络上令牌“remind”转移到令牌“me”的概率:计算在内容列表语言模型中令牌“remind”转移到令牌“me”的概率,计算在语言资料库语言模型中令牌“remind”转移到令牌“me”的概率,以及计算在话语日志语言模型中令牌“remind”转移到令牌“me”的概率,并且通过向计算出的转移概率指派权重来将计算出的概率相加。通过上述方法,处理器120可以计算关于构成图11的令牌网络的所有令牌,每个令牌转移到下一个令牌的转移概率。
处理器120可以通过基于计算出的转移概率搜索令牌网络上的最佳路径来生成针对已校正的用户话语的文本数据。处理器120可以通过使用Viterbi和A星算法中的至少一个搜索最佳路径以减小搜索最佳路径的计算量。
因此,响应于搜索最佳路径,处理器120可以通过将位于该路径中的用于连接最佳路径的令牌连接起来,来生成已校正的用户话语的文本数据。
图2是示出根据示例实施例的语音识别装置的配置的框图。除了图1的语音识别装置100的配置组件以外,图2中示出的语音识别装置还可以包括显示器150和音频输出单元160。图2的语音识别装置100的剩余组件与图1的语音识别装置100中的相同,并且因此省略重复配置的描述。
显示器150可以显示图像。例如,显示器150可以根据处理器120的控制来显示向用户请求再次讲话的消息。显示器150可以包括能够显示用户再次讲话请求消息的任何显示器,并且显示器150可以使用液晶显示器(LCD)、阴极射线管(CRT)、等离子显示板(PDP)、发光二极管(LED)、有机发光二极管(OLED)等等来实现。
音频输出单元160可以输出语音信号。例如,音频输出单元160可以根据处理器120的控制来以语音输出用户再次讲话请求消息。音频输出单元160可以包括能够以语音输出用户再次讲话请求消息的任何设备,并且可以使用扬声器、耳机等来实现。
处理器120可以计算出现已校正的用户话语的概率。例如,响应于生成针对已校正的用户话语的文本数据,处理器120可以计算出现该用户话语的总概率。在该示例中,处理器120可以例如使用存储在存储单元140中的各种语言模型来计算出现已校正的用户话语的概率。
响应于计算出的概率小于或等于预定值,处理器120可以控制显示器150和音频输出单元160中的任意一个生成再次讲话请求消息,并且输出生成的消息。例如,响应于已校正的用户话语出现的概率小于或等于预定值,处理器120可以控制显示器150和音频输出单元160生成例如“请再说一遍”之类的再次讲话请求消息,并输出生成的消息。
根据示例性实施例,处理器120可以控制显示器150显示针对已校正的用户话语的文本数据,并且控制音频输出单元160以语音输出针对已校正的话语的文本数据。因此,用户可以确定是否正确地识别出他/她的话语。
如上所述,响应于即使通过语音识别装置100对用户话语的识别误差进行校正也还存在识别误差,语音识别装置100可以确定剩余的识别误差,并且通过向用户请求再次讲话来校正识别误差。
图1和图2的示例性实施例描述了令牌网络生成器130和处理器120可以是分离的组件的示例,然而,配置并不限于此,并且令牌网络生成器130可以包括在处理器120中,并可以由一个组件来实现。
下文中,将会参照图3至图7详细描述语音识别装置100的配置和操作。将忽略与图1和图2中描述的部分重叠的部分的描述。
图3是示出了根据示例性实施例的响应于被包括在处理器中的令牌网络生成器的使用一个配置来实现的语音识别装置的详细框图,以及图4至图7是示出处理器的图,该处理器响应于用户说出了“Jugunuitaeyangchajajwo”但是被识别为“Jugeulraetaeyangchajajwo”,生成针对已校正的用户话语的文本。图11至图14是示出处理器的图,该处理器响应于用户说出了“Remindmewhenbreakingbadison”但是被识别为“Remindbewhenbackinbadison”,生成针对已校正的用户话语的文本。
参照图3,语音识别装置300可以包括语音识别器310、处理器320以及存储单元330。处理器320可以包括令牌划分模块321、相似令牌搜索模块322、外围令牌搜索模块323、网络生成模块324、令牌相似度计算模块325、转移概率计算模块326、以及最佳句子生成模块327。
令牌相似度计算模块325可以计算存储在存储单元330中的多个令牌之间的相似度337。例如,根据令牌内容列表331、语言资料库332和话语日志333生成的多个令牌337可以存储在存储单元330中。令牌相似度计算模块325可以计算存储在存储单元330中的多个令牌之间的相似度,并且在存储单元330中将计算出的相似度存储为令牌之间的相似度338。
令牌划分模块321可以通过按预定的单位划分通过语音识别器310识别出的用户话语来生成多个识别令牌。预定的单位可以是音节单位、词单位、词素单位等等。
图4示出了生成了多个令牌并且搜索针对每个识别令牌的相似令牌的示例。在图4的示例中,用户说出“Jugunuitaeyangchajajwo”,但是语音识别器310可能将用户话语识别成“Jugeulraetaeyangchajajwo”,并且令牌划分模块321可将通过由语音识别器301识别出的用户话语划分成5个令牌(例如“Jugeulrae”、“taeyang”、“chaj”、“a”、和“jwo”)来生成多个识别令牌。
类似地,图11示出了生成了多个令牌并且搜索针对每个识别令牌的相似令牌的示例。在图11的示例中,用户说出“Remindmewhenbreakingbadison”,但是语音识别器310可能将用户话语识别成“Remindbewhenbackinbadison”,并且令牌划分模块321可将通过由语音识别器310识别出的用户话语划分成8个令牌(例如“remind”、“be”、“when”、“back”、“in”、“bad”、“is”、和“on”)来生成多个识别令牌。
相似令牌搜索模块322可以在存储在存储单元330中的多个令牌337中搜索与识别令牌中的每一个相似的相似令牌。响应于在存储在存储单元330中的多个令牌337中存在识别令牌,相似令牌搜索模块322可以使用令牌之间的相似度338来搜索相似令牌。响应于在存储在存储单元330中的多个令牌337中不存在识别令牌,相似令牌搜索模块322可以使用字符串搜索算法来搜索相似令牌。
根据图4的示例可以看出,关于5个识别令牌(例如“Jugeulrae”、“taeyang”、“chaj”、“a”、和“jwo”)来搜索相似令牌。图4示出了,响应于5个令牌中的令牌“taeyang”、“chaj”、“a”、和“jwo”,在存储在存储单元330中的多个令牌337中可存在相同令牌,并且因此可以使用令牌之间的相似度338来搜索相似令牌。图4示出了,响应于“Jugeulrae”,在多个令牌337中可不存在相同令牌,并且因此可以使用字符串搜索算法来搜索相似令牌。
类似地,根据图11的示例可以看出,关于8个识别令牌(例如“remind”、“be”、“when”、“back”、“in”、“bad”、“is”、和“on”)来搜索相似令牌。图11示出了,响应于8个令牌中的令牌“remind”、“be”、“when”、“back”、“in”、“bad”、“is”、和“on”,在存储在存储单元330中的多个令牌337中可存在相同令牌,并且因此可以使用令牌之间的相似度338来搜索相似令牌。在该示例实施例中,可以不通过字符串搜索算法来搜索相似令牌,该字符串搜索算法是响应于在多个令牌337中不存在相同令牌(如同在字典中不存在词)来使用的。
根据示例性实施例,可以通过限制相似令牌搜索模块322的搜索范围和最大搜索数量来缓解语音识别装置300的处理速度的降低。
例如,根据示例实施例,语音识别装置的用户或制造商可以限制相似令牌搜索模块322的相似令牌搜索范围。在该示例中,相似令牌搜索模块322可以在有限的范围内搜索相似令牌。例如,响应于搜索范围设置为2,关于一个识别令牌,相似令牌搜索模块322可以搜索与该一个识别令牌相似的一个或两个范围的令牌。在该示例中,相似令牌搜索模块322可以搜索与两个识别令牌相似的一个或两个范围的令牌。
图4示出了相似令牌搜索模块322的搜索范围设置为2。参照图4,可以看出,关于一个识别令牌,例如“Jugeulrae”,“jugeorae”可以被搜索为一个范围的相似令牌,并且“jukeum”和“ui”以及“jukgi”和“jeon”可以被搜索为两个范围的相似令牌。可以看出的是,关于两个识别令牌,例如“a”和“jwo”,“ajeossi”可以被搜索为一个范围的相似令牌。
图11也示出了相似令牌搜索模块322的搜索范围设置为2。参照图11,可以看出,关于两个识别令牌,例如“back”和“in”,“breaking”和“freaking”可以被搜索为一个范围的相似令牌。可以看出,关于两个识别令牌,例如“in”和“on”,“zone”可以被搜索为一个范围的相似令牌。
根据示例性实施例,语音识别装置的用户或制造商可以对在相似令牌搜索模块322中搜索的相似令牌的最大数量进行限制。例如,响应于最大数量设置为10,相似令牌搜索模块322可以关于一个识别令牌搜索最多到10个相似令牌。可以按相似度从高到低的顺序来执行相似令牌的搜索。
外围令牌搜索模块323可以搜索具有与识别令牌一起使用的历史的外围令牌。例如,处理器320可以通过按预定的单位划分存储在存储单元330中的内容列表331、语言资料库332和话语日志333来生成多个令牌337,并且因此处理器320可以在存储单元330中存储对在将多个令牌337从内容列表331、语言资料库332和话语日志333中划分出之前在每个令牌的外围存在哪些令牌进行指示的信息,来作为在令牌的外围使用的令牌历史339。因此,外围令牌搜索模块323可以使用在存储在存储单元330中的在令牌的外围使用的令牌历史来搜索外围令牌。
根据示例性实施例,响应于在存储在存储单元330中的多个令牌337中不存在识别令牌,外围令牌搜索模块323可以搜索外围令牌。例如,响应于在存储在存储单元330中的多个令牌337中不存在对应的识别令牌,外围令牌搜索模块323可以搜索正位于对应的识别令牌之前和之后的对应识别令牌的外围令牌。仅响应于在多个令牌337中不存在识别令牌来搜索外围令牌的原因是因为:响应于关于所有识别令牌搜索外围令牌需要很多时间。因此,通过只响应于在存储在存储单元330中的多个令牌337中不存在识别令牌来搜索外围令牌,可以提高语音识别装置300的处理速率。
图5示出了如图4所示的搜索相似令牌并且还搜索外围令牌的示例。可以看出,如图5的附图标记510所示,关于识别令牌511“jugeulrae”,搜索了相似令牌512,并且还搜索了外围令牌513。
例如,可以看出,因为在多个令牌337中不存在识别令牌“jugeulrae”,如图4中描述的,相似令牌搜索模块322可以使用字符串搜索算法搜索相似令牌512,并且外围令牌搜索模块323可以搜索如附图标记513所示的令牌来作为识别令牌“taeyang”的外围令牌,该识别令牌“taeyang”正位于识别令牌“jugeulrae”之后。
也就是说,因为“jugeulrae”是在多个令牌337中不存在的识别令牌,所以外围令牌搜索模块323可以搜索具有在“taeyang”(其位于“jugeulrae”的后面)之前使用的历史的外围令牌513,作为“jugeulrae”的备选。
图12示出了如图11所示的搜索相似令牌并且还搜索外围令牌的示例。可以看出,如图12的附图标记1210所示,关于识别令牌“back”和“in”,搜索了相似令牌1220并且还搜索了外围令牌1230。
例如,可以看出,因为在多个令牌中存在识别令牌“back”和“in”,所以,如图11中的描述,相似令牌搜索模块322可以搜索与识别令牌相似的相似令牌1220,并且外围令牌搜索模块323可以搜索如附图标记1230所示的令牌“kiss”、“of”和“three”来作为识别令牌“bad”的外围令牌,该识别令牌“bad”正位于识别令牌“back”和“in”之后。
可以在具体条件下搜索外围令牌。例如,可以考虑针对识别令牌“back”、“in”和“bad”的语言模型。也就是说,响应于将令牌“back”、“in”、“bad”等的实际使用的频率或概率考虑在内的语言模型的分数较低,可以搜索外围令牌。在示例实施例中,针对“bad”的语言模型的分数较低,并且因此可以搜索可能在“bad”的外围出现的外围令牌。
根据示例性实施例,外围令牌搜索模块323可以从搜索出的外围令牌中删除与对应的识别令牌的相似度小于或等于预定值的外围令牌。
例如,在图5的示例中,可以从搜索到的外围令牌513中删除具有与识别令牌“jugeulrae”的较低相似度的令牌“naeil”和“ui”。因此,通过删除具有与识别令牌的较低相似度的外围令牌,可以缓解由大量搜索外围令牌所导致的语音识别装置300的处理速率降低。
类似地,在图13的示例实施例中,可以从搜索到的外围令牌中删除具有与识别令牌“back”和“in”的较低相似度的令牌“kiss”和“of”。因此,通过删除具有与识别令牌的较低相似度的外围令牌,可以缓解由大量搜索外围令牌所导致的语音识别装置300的处理速率降低。
类似于相似令牌搜索模块322的示例,外围令牌搜索模块323可以通过限制搜索范围和最大搜索数量来缓解语音识别装置300的处理速率的降低。
上述示例实施例描述了相似令牌搜索模块322和外围令牌搜索模块323可以响应于在多个令牌337中不存在识别令牌来搜索相似令牌和外围令牌。然而,本公开并不限于此,并且可以只操作相似令牌搜索模块322和外围令牌搜索模块323中的任意一个。
网络生成模块324可以使用在令牌划分模块321中生成的多个识别令牌、在相似令牌搜索模块322中搜索到的相似令牌、以及在外围令牌搜索模块323中搜索到的外围令牌来生成令牌网络。
例如,网络生成模块324可以生成格子类型的令牌网络。网络的各个节点可以是各个令牌。也就是说,响应于生成n个识别令牌并且识别令牌是t1、t2……tn,令牌网络可以按这样的方式来生成:与每个识别令牌相对应的相似令牌和外围令牌可以布置在与识别令牌相对应的时间线中,并且布置在相同时间线中的令牌之间不能相互连接且可以连接到与该时间线相邻的时间线的所有令牌。
也就是说,令牌网络可以具有这样的结构:布置在第i个时间线中的识别令牌、相似令牌和外围令牌可以连接到布置在第i+1个时间线中的识别令牌、相似令牌和外围令牌。识别令牌ti的相似令牌可以与识别令牌ti布置在相同的第i时间线中,识别令牌ti的外围令牌中出现在识别令牌ti的左侧的外围令牌可被布置在与识别令牌ti-1相同的i-1时间线中,并且出现在识别令牌ti的右侧的外围令牌可被布置在与识别令牌ti+1相同的时间线i+1中。图6示出了通过网络生成模块324生成的格子类型令牌网络的示例。
转移概率计算模块326可以计算在通过网络生成模块324生成的令牌网络上的令牌之间的转移概率。转移概率计算模块326可以使用与存储在存储单元330中的内容列表331、语言资料库332和话语日志333相对应的语言模型334、335和336来计算令牌之间的转移概率。
例如,以网络生成模块324的描述来举例说明,响应于令牌网络是格子类型令牌网络,转移概率计算模块326可以计算从第i个节点到第i+1个节点的转移概率为:内容列表语言模型中的概率LM_contentlist、语言资料库语言模型中的概率LM_corpus、话语日志语言模型中的概率LM_utterancelog、以及与第i+1个识别令牌的相似度Sim_ti+1的加权和。也就是说,响应于第i个时间线中的任意一个令牌是“a”并且第i+1个时间线中的任意一个令牌是“b”,转移概率T(a,b)可以按以下公式计算:
T(a,b)=α*LM_contentlist(a,b)
+β*LM_corpus(a,b)
+γ*LM_utterancelog(a,b)
+δ*Sim(ti+1,b).
这里,α是内容列表语言模型权重,β是语言资料库语言模型权重,γ是话语日志语言模型权重,并且δ是发音相似度权重。
最佳句子生成模块327可以通过基于在通过转移概率计算模块326计算出的令牌网络上的令牌之间的转移概率在令牌网络上搜索最佳路径来生成针对已校正的用户话语的文本数据。例如,最佳句子生成模块327可以基于令牌网络上的令牌之间的转移概率值,通过解码方法(例如Viterbi搜索或A星搜索)来搜索使转移概率具有最大值的最佳路径。
图7示出了在最佳句子生成模块327中针对令牌网络上的最佳路径的搜索结果。也就是说,可以看出,搜索到“jugun”、“ui”、“taeyang”、“chaj”、“a”、和“jwo”作为最佳路径。因此,最佳路径生成模块327可以生成“Jugunuitaeyangchajajwo”来作为已校正的用户话语的文本数据。
也就是说,即使响应于用户说出“Jugunuitaeyangchajajwo”,并且通过语音识别器110和310将用户话语识别为“Jugeulraetaeyangchajajwo”而产生了识别误差,根据示例性实施例的语音识别装置100和300可以将错误识别的用户话语精确地校正为“Jugunuitaeyangchajajwo”。
图14示出了在最佳句子生成模块327中针对令牌网络上的最佳路径的搜索结果。也就是说,可以看出,搜索到“remind”、“me”、“when”、“breaking”、“bad”、“is”、和“on”作为最佳路径。因此,最佳路径生成模块327可以生成“Remindmewhenbreakingbadison”来作为已校正的用户话语的文本数据。
类似地,即使响应于用户说出“Remindmewhenbreakingbadison”,并且通过语音识别器110和310将用户话语识别为“Remindbewhenbackinbadison”而产生了识别误差,根据示例性实施例的语音识别装置100和300可以将错误识别的用户话语精确地校正为“Remindmewhenbreakingbadison”。
参照图3的示例及其描述,可以看出,处理器320的配置中的令牌划分模块321、相似令牌搜索模块322、外围令牌搜索模块323和网络生成模块324可以是与图1和图2的令牌网络生成器130相对应的配置。
上述的语音识别装置100和300可以应用到可以通过用户语音控制的包括各种显示装置的任意电子装置中,例如电视(TV)、便携式电话、个人计算机(PC)或膝上型计算机、家用电器例如电冰箱或洗衣机等。通过语音识别装置100和300生成的已校正的用户话语可以用于通过各种方法(例如内容搜索、信息搜索、以及装置控制)来控制应用了语音识别装置100和300的各种电子装置。
图8是示出了根据示例实施例的语音识别装置的配置的框图。参照图8,语音识别装置800可以包括通信单元810、处理器820和存储单元830。
通信单元810可以与外部装置(未示出)执行通信。例如,通信单元810可以从外部装置接收用户话语的文本数据。在该示例中,响应于在外部装置中识别用户话语,并且从外部设备生成并发送识别出的用户话语的文本数据,通信单元810可以接收该文本数据。在实例中,通信单元810可以向外部装置发送在处理器820中生成的已校正的用户话语的文本数据。
在该示例中,通信单元810可以包括各种通信卡和模块,例如有线局域网(LAN)卡、无线LAN卡、蓝牙模块、近场通信(NFC)模块、以及无线通信模块。无线通信模块可以指代根据例如IEEE、ZigBee、第三代(3G)、第三代合作伙伴计划(3GPP)、或长期演进(LTE)的通信标准来执行通信的模块。
处理器820可以控制通信单元810接收针对通过外部装置识别的用户话语的文本数据,并且向外部装置发送已校正的用户话语的文本数据。存储单元830可以由分开的数据库构成。
上文未描述的处理器820和存储单元830的配置和操作与图3的处理器320和存储单元330的相同,并且因此将省略其描述。
在图8的示例性实施例中,语音识别装置800可以是服务器,并且外部装置可以是包括语音识别器的任意电子装置。也就是说,用户话语的识别可以通过外部装置来执行,并且针对识别出的用户话语的识别误差校正可以通过语音识别装置800来执行。
例如,响应于通过外部装置识别用户话语,并且向服务器类型的语音识别装置800发送识别出的用户话语,语音识别装置800可以接收用户话语,向图1至图3的语音识别装置一样校正用户话语,并且向外部装置发送与已校正的用户话语相对应的文本数据。
在图8的语音识别装置800中,除了外部装置的每个用户的各个话语日志以外,存储在存储单元830中的话语日志可以包括耦合到其上的外部装置的所有用户的整个话语日志。这是因为,响应于语音识别装置800是服务器,可以获得每个电子装置的话语的识别结果来作为来自耦合到服务器的多个电子装置的话语日志。
在该示例中,除了各个外部装置用户的话语日志模型以外,存储单元830还可以包括所有用户的话语日志模型,并且在转移概率的计算中,处理器830还可以使用整个话语日志模型来计算转移概率。
下文中,将会参照图9和图10描述根据示例性实施例的语音识别装置100、300和800的控制方法。将省略与图1至图8中描述的部分重复的部分的描述。
图9是示出了根据示例性实施例的语音识别装置100和300的控制方法的流程图。参照图9,语音识别装置100和300可以通过识别用户话语来生成多个识别令牌(操作S910)。例如,语音识别装置100或300可以通过识别用户话语来生成针对用户话语的文本数据,并且通过按预定的单位划分针对生成的用户话语的文本数据来生成多个识别令牌。预定的单位可以是音节单位、词素单位、词单位等等。
语音识别装置100或300可以在多个预存的令牌中搜索与每个识别令牌相似的相似令牌,以及具有与识别令牌一起使用的历史的外围令牌(操作S920)。多个预存的令牌可以通过按令牌的预定的单位划分内容列表、语言资料库和话语日志来生成。
根据示例性实施例,响应于在多个预存的令牌中存在识别令牌,语音识别装置100或300可以使用预存的令牌之间的预存的相似度来搜索相似令牌。响应于在多个预存的令牌中不存在识别令牌,语音识别装置100或300可以使用字符串搜索算法来搜索相似令牌。响应于在多个预存的令牌中不存在识别令牌,语音识别装置100或300可以搜索外围令牌。
响应于生成多个识别令牌,并且搜索到针对识别令牌的相似令牌和外围令牌,语音识别装置100或300可以使用识别令牌、相似令牌和外围令牌来生成令牌网络(操作S930)。例如,语音识别装置100或300可以通过将相似令牌和外围令牌布置为与多个识别令牌相对应来生成令牌网络。令牌网络可以是格子。
响应于生成令牌网络,语音识别装置100或300可以计算构成令牌网络的令牌之间的转移概率(操作S940)。例如,语音识别装置100或300可以使用针对预存的内容列表、语言资料库和话语日志的语言模型来计算令牌之间的转移概率。在示例中,语言识别装置100或300可以通过向语言模型指派预定的权重来计算令牌网络上的令牌之间的转移概率。可以由制造商试验确定该预定的权重。
语音识别装置100或300可以使用计算出的转移概率来生成针对已校正的用户话语的文本数据(操作S950)。例如,语音识别装置100或300可以通过基于计算出的令牌之间的转移概率在令牌网络上搜索最佳路径来生成针对已校正的用户话语的文本数据。可以使用Viterbi或A星算法中的至少一个来搜索最佳路径。
响应于生成针对已校正的用户话语的文本数据,语音识别装置100或300可以计算实际出现已校正的用户话语的概率。响应于实际出现已校正的用户话语的概率小于或等于预定值,语音识别装置100或300可以输出重新讲话请求消息。
图10是示出了根据示例性实施例的语音识别装置800的控制方法的流程图。参照图10,响应于从外部装置(未示出)接收到针对用户话语的文本数据,(操作S1010),语音识别装置800可以根据接收到的文本数据来生成多个识别令牌(操作S1020)。语音识别装置800可以在多个预存的令牌中搜索针对每个识别令牌的相似令牌和外围令牌(操作S1030),并且使用识别令牌、相似令牌和外围令牌来生成令牌网络(操作S1040)。语音识别装置800可以计算生成的令牌网络上的令牌之间的转移概率(操作S1050),并且使用计算出的转移概率来计算针对已校正的用户话语的文本数据(操作S1060)。因此,语音识别装置800可以向外部装置发送已校正的文本数据(操作S1070)。
图10中的操作S1030到S1060与图9中的操作S920到S950相同,并且因此省略其描述。
根据各种示例实施例,可以精确并高效地校正响应于在语音识别装置中识别用户话语可能导致的所有类型的话语识别误差。
根据各种示例实施例的语音识别装置中的令牌网络生成器和处理器的操作以及语音识别装置的控制方法可以使用程序代码实现,并且可以以存储在非暂时性可读介质中的形式来提供。与非暂时性可读介质一起安装的语音识别装置可以通过执行程序代码来执行根据各种示例性实施例的语音识别装置的控制方法。
例如,用于执行包括以下方法的语音识别装置的控制方法的程序代码可以存储在非暂时性计算机可读介质中并进行提供:通过识别用户话语来生成多个识别令牌,在多个预存的令牌中搜索与每个识别令牌相似的相似令牌和具有与识别令牌一起使用的历史的外围令牌,使用识别令牌、相似令牌和外围令牌来生成令牌网络,以及计算构成令牌网络的令牌之间的转移概率并使用计算出的转移概率来生成针对已校正的用户话语的文本数据。
非暂时性计算机可记录介质并不是被配置为暂时地存储数据的介质(例如寄存器、高速缓存、或存储器等等),而是半永久存储数据的装置可读介质。具体地,上述应用或程序可以在非暂时性计算机可记录介质中存储并提供,例如高密度盘(CD)、数字多功能盘(DVD)、硬盘、蓝光盘、通用串行总线(USB)、存储卡、只读存储器(ROM)。
上述示例实施例仅仅是示例性的,而并不应解释为限制性的。本教导也可以容易地应用在其他类型的装置中。此外,对示例实施例的描述预期是说明性的,而不是要限制权利要求的范围,并且多种备选、修改和变化对于本领域技术人员来说将是清楚的。
尽管已经示出和描述了一些实施例,但是本领域技术人员将清楚:在不脱离本公开的原理和精神的前提下,可以在这些实施例中进行改变,其中,本公开的范围在权利要求及其等同物中限定。
Claims (15)
1.一种控制语音识别装置的方法,所述方法包括:
基于所述语音识别装置接收到的语音信号来生成多个识别令牌;
在多个预存的令牌中搜索所述识别令牌中的每一个识别令牌的相似令牌和外围令牌,所述外围令牌曾与所述识别令牌一起使用;
使用所述识别令牌、所述相似令牌和所述外围令牌来生成令牌网络;
计算构成所述令牌网络的令牌之间的转移概率;以及
使用计算出的转移概率来生成针对所述接收到的语音信号的文本数据。
2.根据权利要求1所述的方法,其中,通过按令牌的预定单位划分内容列表、语言资料库和话语日志中的至少一个来生成所述多个预存的令牌。
3.根据权利要求1所述的方法,其中,所述搜索包括:响应于在所述多个预存的令牌中不存在所述识别令牌,使用字符串搜索算法来搜索所述相似令牌。
4.根据权利要求1所述的方法,其中,所述搜索包括:响应于在所述多个预存的令牌中不存在所述识别令牌,搜索所述外围令牌。
5.根据权利要求1所述的方法,其中,所述生成多个识别令牌包括:
通过识别所述接收到的语音信号来生成针对所述接收到的语音信号的中间文本数据;以及
通过按预定的单位划分所生成的针对所述接收到的语音信号的中间文本数据来生成所述多个识别令牌,
其中,所述生成令牌网络包括:将所述相似令牌和所述外围令牌布置为与所述多个识别令牌相对应。
6.根据权利要求2所述的方法,其中,所述生成针对所述接收到的语音信号的文本数据包括:
通过向语言模型指派预定的权重来计算令牌之间的转移概率;以及
基于计算出的令牌之间的转移概率来在所述令牌网络上搜索最佳路径。
7.根据权利要求6所述的方法,其中,所述搜索最佳路径包括使用Viterbi算法和A星算法中的至少一个。
8.根据权利要求1所述的方法,还包括:
计算出现所述文本数据的概率;以及
响应于出现所述文本数据的概率小于或等于预定值,输出重复所述语音信号的请求消息。
9.一种语音识别装置,包括:
语音识别器,被配置为接收语音信号;
存储单元,被配置为存储多个令牌;
令牌网络生成器,被配置为:基于接收到的语音信号来生成多个识别令牌,在多个存储的令牌中搜索所述识别令牌中的每一个识别令牌的相似令牌和外围令牌,所述外围令牌曾与所述识别令牌一起使用,以及使用所述识别令牌、所述相似令牌和所述外围令牌来生成令牌网络;以及
处理器,被配置为:响应于所述语音识别器接收所述语音信号,控制所述令牌网络生成器生成所述令牌网络,计算构成所述令牌网络的令牌之间的转移概率,以及使用计算出的转移概率来生成针对所述接收到的语音信号的文本数据。
10.根据权利要求9所述的语音识别装置,其中,所述存储单元存储通过按令牌的预定的单位划分内容列表、语言资料库以及话语日志中的至少一个而生成的多个令牌以及令牌之间的相似度,并且
响应于在所述多个存储的令牌中存在所述识别令牌,所述令牌网络生成器使用所述令牌之间的相似度来搜索所述相似令牌
11.根据权利要求9所述的语音识别装置,其中,响应于在所述多个存储的令牌中不存在所述识别令牌,所述令牌网络生成器使用字符串搜索算法来搜索所述相似令牌。
12.根据权利要求9所述的语音识别装置,其中,响应于在所述多个存储的令牌中不存在所述识别令牌,所述令牌网络生成器搜索所述外围令牌。
13.根据权利要求9所述的语音识别装置,其中,响应于所述语音识别器接收所述语音信号,所述处理器生成针对所述接收到的语音信号的中间文本数据,以及
所述令牌网络生成器通过按预定的单位划分所生成的针对所述接收到的语音信号的中间文本来生成所述多个识别令牌,并且通过将所述相似令牌和所述外围令牌布置为与所述多个识别令牌相对应来生成所述令牌网络。
14.根据权利要求13所述的语音识别装置,其中,所述处理器通过向语言模型指派预定的权重来计算令牌之间的转移概率,并且通过基于计算出的令牌之间的转移概率在所述令牌网络上搜索最佳路径来生成针对所述接收到的语音信号的文本数据。
15.根据权利要求14所述的语音识别装置,其中,所述处理器使用Viterbi算法和A星算法中的至少一个来搜索所述最佳路径。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020140163670A KR102267405B1 (ko) | 2014-11-21 | 2014-11-21 | 음성 인식 장치 및 음성 인식 장치의 제어 방법 |
KR10-2014-0163670 | 2014-11-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105632500A true CN105632500A (zh) | 2016-06-01 |
CN105632500B CN105632500B (zh) | 2021-06-25 |
Family
ID=54782414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510811163.2A Active CN105632500B (zh) | 2014-11-21 | 2015-11-20 | 语音识别装置及其控制方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9646608B2 (zh) |
EP (1) | EP3023981B1 (zh) |
KR (1) | KR102267405B1 (zh) |
CN (1) | CN105632500B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112334923A (zh) * | 2018-09-27 | 2021-02-05 | 松下知识产权经营株式会社 | 说明辅助装置以及说明辅助方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11217266B2 (en) * | 2016-06-21 | 2022-01-04 | Sony Corporation | Information processing device and information processing method |
WO2020235910A1 (en) * | 2019-05-20 | 2020-11-26 | Samsung Electronics Co., Ltd. | Text reconstruction system and method thereof |
KR20210029354A (ko) | 2019-09-06 | 2021-03-16 | 삼성전자주식회사 | 전자장치 및 그 제어방법 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6041300A (en) * | 1997-03-21 | 2000-03-21 | International Business Machines Corporation | System and method of using pre-enrolled speech sub-units for efficient speech synthesis |
CN1455387A (zh) * | 2002-11-15 | 2003-11-12 | 中国科学院声学研究所 | 一种语音识别系统中的快速解码方法 |
CN1503220A (zh) * | 2002-11-20 | 2004-06-09 | 中国科学院声学研究所 | 一种语音识别中的并行搜索方法 |
EP1475780A1 (en) * | 2003-05-08 | 2004-11-10 | Nissan Motor Co., Ltd. | Voice recognition system for mobile unit |
US20050149326A1 (en) * | 2004-01-05 | 2005-07-07 | Kabushiki Kaisha Toshiba | Speech recognition system and technique |
WO2005109400A1 (en) * | 2004-05-12 | 2005-11-17 | Nokia Corporation | Detection of end of utterance in speech recognition system |
CN101042867A (zh) * | 2006-03-24 | 2007-09-26 | 株式会社东芝 | 语音识别设备和方法 |
CN102543071A (zh) * | 2011-12-16 | 2012-07-04 | 安徽科大讯飞信息科技股份有限公司 | 用于移动设备的语音识别系统和方法 |
CN103544955A (zh) * | 2012-07-13 | 2014-01-29 | 三星电子株式会社 | 识别语音的方法及其电子装置 |
US20140195232A1 (en) * | 2013-01-04 | 2014-07-10 | Stmicroelectronics Asia Pacific Pte Ltd. | Methods, systems, and circuits for text independent speaker recognition with automatic learning features |
CN103971686A (zh) * | 2013-01-30 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN104157285A (zh) * | 2013-05-14 | 2014-11-19 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5983180A (en) * | 1997-10-23 | 1999-11-09 | Softsound Limited | Recognition of sequential data using finite state sequence models organized in a tree structure |
US9069755B2 (en) | 2010-03-11 | 2015-06-30 | Microsoft Technology Licensing, Llc | N-gram model smoothing with independently controllable parameters |
US8630860B1 (en) | 2011-03-03 | 2014-01-14 | Nuance Communications, Inc. | Speaker and call characteristic sensitive open voice search |
US8938391B2 (en) | 2011-06-12 | 2015-01-20 | Microsoft Corporation | Dynamically adding personalization features to language models for voice search |
-
2014
- 2014-11-21 KR KR1020140163670A patent/KR102267405B1/ko active IP Right Grant
-
2015
- 2015-11-13 US US14/940,414 patent/US9646608B2/en not_active Expired - Fee Related
- 2015-11-17 EP EP15195043.3A patent/EP3023981B1/en not_active Not-in-force
- 2015-11-20 CN CN201510811163.2A patent/CN105632500B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6041300A (en) * | 1997-03-21 | 2000-03-21 | International Business Machines Corporation | System and method of using pre-enrolled speech sub-units for efficient speech synthesis |
CN1455387A (zh) * | 2002-11-15 | 2003-11-12 | 中国科学院声学研究所 | 一种语音识别系统中的快速解码方法 |
CN1503220A (zh) * | 2002-11-20 | 2004-06-09 | 中国科学院声学研究所 | 一种语音识别中的并行搜索方法 |
EP1475780A1 (en) * | 2003-05-08 | 2004-11-10 | Nissan Motor Co., Ltd. | Voice recognition system for mobile unit |
US20050149326A1 (en) * | 2004-01-05 | 2005-07-07 | Kabushiki Kaisha Toshiba | Speech recognition system and technique |
WO2005109400A1 (en) * | 2004-05-12 | 2005-11-17 | Nokia Corporation | Detection of end of utterance in speech recognition system |
CN101042867A (zh) * | 2006-03-24 | 2007-09-26 | 株式会社东芝 | 语音识别设备和方法 |
CN102543071A (zh) * | 2011-12-16 | 2012-07-04 | 安徽科大讯飞信息科技股份有限公司 | 用于移动设备的语音识别系统和方法 |
CN103544955A (zh) * | 2012-07-13 | 2014-01-29 | 三星电子株式会社 | 识别语音的方法及其电子装置 |
US20140195232A1 (en) * | 2013-01-04 | 2014-07-10 | Stmicroelectronics Asia Pacific Pte Ltd. | Methods, systems, and circuits for text independent speaker recognition with automatic learning features |
CN103971686A (zh) * | 2013-01-30 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 自动语音识别方法和系统 |
CN104157285A (zh) * | 2013-05-14 | 2014-11-19 | 腾讯科技(深圳)有限公司 | 语音识别方法、装置及电子设备 |
Non-Patent Citations (2)
Title |
---|
DENG L 等: "Speech recognition using hidden Markov models with polynomial regression functions as nonstationary states", 《IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING》 * |
尹明明: "连续语音识别解码技术的研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112334923A (zh) * | 2018-09-27 | 2021-02-05 | 松下知识产权经营株式会社 | 说明辅助装置以及说明辅助方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3023981A1 (en) | 2016-05-25 |
EP3023981B1 (en) | 2017-06-28 |
US9646608B2 (en) | 2017-05-09 |
KR20160061135A (ko) | 2016-05-31 |
US20160148611A1 (en) | 2016-05-26 |
KR102267405B1 (ko) | 2021-06-22 |
CN105632500B (zh) | 2021-06-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11817013B2 (en) | Display apparatus and method for question and answer | |
KR102315732B1 (ko) | 음성 인식 방법, 디바이스, 장치, 및 저장 매체 | |
CN108369580B (zh) | 针对屏幕上项目选择的基于语言和域独立模型的方法 | |
US9047268B2 (en) | Character and word level language models for out-of-vocabulary text input | |
KR102046486B1 (ko) | 정보 입력 방법 | |
US10860289B2 (en) | Flexible voice-based information retrieval system for virtual assistant | |
US20170109435A1 (en) | Apparatus and method for searching for information | |
CN107430616A (zh) | 语音查询的交互式再形成 | |
JP2016500843A (ja) | 検索クエリ情報を使用する音声認識処理のための方法およびシステム | |
US12080298B2 (en) | Speech-to-text system | |
US12046230B2 (en) | Methods for natural language model training in natural language understanding (NLU) systems | |
JP2019528470A (ja) | 訂正済みタームを使用する音響モデルトレーニング | |
US11393455B2 (en) | Methods for natural language model training in natural language understanding (NLU) systems | |
US11170765B2 (en) | Contextual multi-channel speech to text | |
CN105632500A (zh) | 语音识别装置及其控制方法 | |
US11574127B2 (en) | Methods for natural language model training in natural language understanding (NLU) systems | |
US11532308B2 (en) | Speech-to-text system | |
WO2021173217A1 (en) | Methods for natural language model training in natural language understanding (nlu) systems | |
US11450325B1 (en) | Natural language processing | |
WO2023110280A1 (en) | Method and apparatus for fixing a voice query | |
CN115410558A (zh) | 集外词处理方法、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |