CN103544955B - 识别语音的方法及其电子装置 - Google Patents
识别语音的方法及其电子装置 Download PDFInfo
- Publication number
- CN103544955B CN103544955B CN201310301732.XA CN201310301732A CN103544955B CN 103544955 B CN103544955 B CN 103544955B CN 201310301732 A CN201310301732 A CN 201310301732A CN 103544955 B CN103544955 B CN 103544955B
- Authority
- CN
- China
- Prior art keywords
- phoneme
- segment
- voice signal
- recognition
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 239000000284 extract Substances 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 10
- 238000012217 deletion Methods 0.000 claims description 6
- 230000037430 deletion Effects 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000003733 optic disk Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
- G10L15/05—Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
- G10L15/142—Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供一种识别语音的方法及其电子装置。所述方法包括:以预设时间间隔将语音信号分段为多个片段;通过使用第一声学模型来执行针对语音信号的多个片段中的一个片段的音素识别;通过使用音素识别结果来提取所述语音信号的多个片段中的所述一个片段的候选词语;通过使用候选词语来执行针对所述语音信号的多个片段中的所述一个片段的语音识别。
Description
本申请要求于2012年7月13日提交到韩国知识产权局的第10-2012-0076809号韩国专利申请的优先权,其公开通过引用全部合并于此。
技术领域
与示例性实施例一致的方法和设备总体涉及识别语音,更具体地讲,涉及通过使用声学模型、语言模型和发音字典识别用户发出的语音。
背景技术
通过使用电子装置(诸如,智能电话、导航系统等)来控制语音识别。随着电子装置的硬件性能的提高以及用户对于语音识别的需求程度的增加,用户环境已经从用许多现有的命令识别用户的语音的孤立词语识别方法改变为识别多种自然语言的连续语音识别方法。
连续语音识别方法从数十万到数百万词语中识别包括至少一个词语的词语串,并针对所有可用词语形成搜索空间。连续语音识别方法通过使用包括声学模型、语言模型和发音字典的信息来计算概率,以确定相应的发音是否是句子的类型,并根据计算结果获得识别的句子。
然而,在连续语音识别方法中,搜索空间变得更大,因此,存储需求增加。由于计算次数的增加,语音识别是不可行的或者可能被极大地降低。
因此,需要快速识别多种自然语言的语音识别方法。
发明内容
示例性实施例解决至少上述问题和/或缺点以及上面未描述的其它缺点。另外,示例性实施例不需要克服上述缺点,并且示例性实施例可不克服任何上述问题。
示例性实施例提供一种进一步快速识别多种自然语言的语音识别方法及其电子装置。
根据示例性实施例的一方面,提供一种在电子装置中识别语音的方法。所述方法可包括:以预设时间间隔将语音信号分段为多个片段;基于第一声学模型来执行针对语音信号的多个片段中的一个片段的音素识别;基于音素识别的结果来提取所述语音信号的多个片段中的所述一个片段的候选词语;基于候选词语来执行针对所述多个片段中的所述一个片段的语音识别。
执行音素识别的步骤可还包括:基于分段的维特比算法来删除所述语音信号的多个片段中的所述一个片段的多个音素的至少一个最后音素。删除的至少一个音素可被用于执行针对所述多个片段中的所述一个片段之后的语音信号的下一片段的音素识别。
提取的步骤可包括:提取与识别的音素发音相似的相似音素;基于所述相似音素来产生用于提取所述多个片段中的所述一个片段的候选词语的词语图表。
执行语音识别的步骤可还包括:基于第二声学模型来计算所述多个片段中的所述一个片段的语音信号的高斯概率;基于第二声学模型和语言模型来输出在词语图表中具有最高概率的词语串。
第一声学模型和第二声学模型可彼此不同。
可通过不同的核并行执行音素识别的执行、提取和语音识别的执行。
根据另一示例性实施例的一方面,提供一种电子装置,包括:语音信号输入部件,被配置为接收语音信号;语音信号分段器,被配置为以预设时间间隔将通过语音信号输入部件输入的语音信号分段为多个片段;音素识别器,被配置为基于第一声学模型来执行针对语音信号的多个片段中的一个片段的音素识别;候选词语提取器,被配置为基于音素识别的结果来提取所述语音信号的多个片段中的所述一个片段的候选词语;语音识别器,被配置为基于候选词语来执行针对所述多个片段中的所述一个片段的语音识别。
音素识别器被配置为基于分段的维特比算法来删除所述语音信号的多个片段中的所述一个片段的多个音素中的至少一个最后音素,以执行音素识别。删除的至少一个音素可被用于执行针对所述多个片段中的所述一个片段之后的语音信号的下一片段的音素识别。
候选词语提取器被配置为提取与识别的音素发音相似的相似音素,并基于所述相似音素来产生用于提取所述多个片段中的所述一个片段的候选词语的词语图表。
语音识别器被配置为基于第二声学模型来计算所述多个片段中的所述一个片段的语音信号的高斯概率,并基于第二声学模型和语言模型来输出在词语图表中具有最高概率的词语串,以执行语音识别。
音素识别器的第一声学模型和语音识别器的第二声学模型可彼此不同。
音素识别器、候选词语提取器和语音识别器可被实现为电子装置的不同的核。
附图说明
通过参照附图对特定示例性实施例的描述,上述和/或其它方面将更加清楚,其中:
图1是示出根据示例性实施例的用于执行语音识别的电子装置的结构的示意性框图;
图2是示出根据示例性实施例的用于识别语音的图1的电子装置的详细结构的框图;
图3是示出根据示例性实施例的处理并行语音识别的方法的示图;
图4是示出根据示例性实施例的识别语音的方法的流程图。
具体实施方式
参照附图更加详细地描述示例性实施例。
在下面的描述中,即使在不同的附图中,相同的附图参考标号也被用于相同的元件。提供在描述中被限定的内容(诸如详细的结构和元件)以帮助对示例性实施例的全面理解。因此,明显的是,在没有那些专门定义的内容的情况下,示例性实施例可被执行。此外,因为公知功能或结构会用不必要的细节模糊示例性实施例,所以不对公知功能或结构进行详细描述。
图1是示出根据示例性实施例的用于执行语音识别的电子装置100的结构的示意性框图。参照图1,电子装置100包括:语音信号输入部件110、语音信号分段器120、音素识别器130、候选词语提取器140和语音识别器150。根据本示例性实施例的电子装置100可被实现为各种类型的电子装置(诸如,智能电话、智能电视(TV)、台式个人计算机(PC)、平板PC等)。因此,电子装置的上述元件可采取全硬件实施例(诸如,处理器或电路)、全软件实施例(包括固件、常驻软件、微码等)或组合软件和硬件的实施例的形式。
语音信号输入部件110接收与用户发出的语音相应的语音信号。语音信号输入部件110可包括麦克风和用于放大接收到的语音的放大器。然而,通过使用麦克风实时接收语音信号仅是示例性实施例,因此,语音信号输入部件110可通过预存文件接收语音信号。
语音信号分段器120将语音信号分段多个片段。详细地,语音信号分段器120可按照预设时间间隔(例如,0.1秒)将语音信号分段为多个片段。
音素识别器130识别由语音信号分段器120分段的多个片段中的一个片段的语音信号的音素。详细地,音素识别器130可通过使用用于音素识别的第一声学模型来计算与所述一个片段的语音信号相应的特征向量的高斯概率分布,并选择最佳音素。
音素识别器130可通过使用分段的维特比算法来删除所述一个片段的语音信号的多个音素中的至少最后一个音素。详细地,由于语音信号分段器120以时间为单位而不是以音素为单位分段语音信号,因此音素识别器130可能不能正确地识别位于所述一个片段的尾部的音素。因此,音素识别器130删除位于所述一个片段的尾部的至少一个音素,并将删除的至少一个音素输出到语音信号分段器120,以使用删除的至少一个音素用于识别下一片段的音素。
候选词语提取器140通过使用从音素识别器130输出的音素识别结果来提取识别的音素的候选词语。详细地,候选词语提取器140提取与从音素识别器130输出的音素发音相似的相似音素,并通过使用所述相似音素来产生所述一个片段的语音信号的用于提取候选词语的词语图表。然而,产生所述一个片段的语音信号的词语图表来提取候选词语仅是示例性的,因此,可产生所述一个片段的语音信号的候选词语列表。候选词语提取器140将所述一个片段的语音信号的词语图表输出到语音识别器150。
语音识别器150通过使用候选词语提取器140提取的候选词语来执行针对所述一个片段的语音信号的语音识别。详细地,语音识别器150可在从候选词语提取器140输出的词语图表中搜索从语音信号分段器120输出的所述一个片段的语音信号的最佳路径,以执行语音识别。
音素识别器130、候选词语提取器140和语音识别器150可在处理器的不同的核或不同处理器中并行操作。换句话说,如果音素识别器130执行针对第一片段的语音信号的音素识别,则语音识别器150将第一片段的识别的结果发送到候选词语提取器140,并且执行针对第二片段的语音信号的音素识别。候选词语提取器140基于第一片段的音素识别结果来提取候选词语,将提取的候选词语输出到语音识别器150,并通过使用从音素识别器130输出的第二片段的语音识别的音素识别结果来提取候选词语。语音识别器150通过使用由候选词语提取器140提取的第一片段的语音信号的候选词语来执行针对第一片段的语音信号的语音识别,并通过使用由候选词语提取器140提取的第二片段的语音信号的候选词语来执行针对第二片段的语音信号的语音识别。
上述电子装置100用相对少量的计算快速执行音素识别,基于音素识别的结果提取少量的候选词语,通过使用比识别多个连续词语的现有方法显著更小数量的候选词语来执行语音识别。另外,电子装置100并行执行音素识别、候选词语的提取和语音识别,来允许用户进一步快速执行语音识别。
图2是示出根据示例性实施例的用于识别语音的电子装置100的详细结构的框图。参照图2,电子装置100包括语音信号输入部件110、语音信号分段器120、音素识别器130、候选词语提取器140和语音识别器150。
语音信号输入部件110接收与用户的语音相应的语音信号。语音信号输入部件110可从语音输入装置(诸如,麦克风)实时接收语音信号。然而,这仅是示例,语音信号输入部件110可从存储在电子装置100的存储器(未示出)中的文件中接收语音信号。
语音信号分段器120按照预设时间间隔将语音信号分段为多个片段。这里,语音信号分段器120包括片段分段器121、预处理器122和特征向量提取器123。
片段分段器121按照预设时间间隔(例如,0.1秒)对从语音信号输入部件110输出的语音信号进行分段。
预处理器122执行针对多个片段中的一个片段的语音信号的信号处理(诸如,噪声去除)。
特征向量提取器123从预处理的所述一个片段的语音信号中提取特征向量。特征向量提取器123将所述一个片段的语音信号的特征向量输出到音素识别器130和语音识别器150。
音素识别器130通过使用由特征向量提取器123提取的特征向量来执行语音识别。这里,音素识别器130包括第一高斯概率计算器131、第一声学模型132、最佳候选搜索器133和片段分段错误校正器134。
第一高斯概率计算器131通过使用第一声学模型132来计算所述一个片段的语音信号的特征向量的高斯概率。
第一声学模型132是用于音素识别的声学模型,并且在韩语的情况下,存储关于40到50个音素的信息。第一声学模型132可以是隐型马尔可夫模型(HMM)声学模型。具体地,第一声学模型132比应用于识别多个连续词语的现有方法的声学模型更容易实现,使得能够进行快速语音识别。
最佳候选搜索器133基于第一声学模型132和第一高斯概率计算器131的计算结果来选择包括在所述一个片段的语音信号中的最佳音素。
片段分段错误校正器134删除由最佳候选搜索器133选择的多个音素中的至少最后一个音素。详细地,根据本示例性实施例的语音信号分段器120基于时间而不是基于音素对语音信号进行分段。因此,输入到音素识别器130的所述一个片段的语音信号的最后音素的所有数据可不被输入,因此,由最佳候选搜索器133选择的所述多个音素中的至少最后一个音素可能是错误选择的音素。因此,片段分段错误校正器134删除由最佳候选搜索器133选择的所述多个音素中的至少最后一个音素,并将未被删除的音素输出到候选词语提取器140。片段分段错误校正器134将删除的至少一个音素输出到片段分段器121,以在下一片段中识别删除的至少一个音素。
根据本示例性实施例的音素识别器130删除由最佳候选搜索器133选择的所述多个音素中的至少最后一个音素,以通过第二分段错误校正器134校正片段分段错误。然而,这仅是示例,音素识别器130可通过使用HMM状态位置检查或信号处理技术来搜索音素的尾部,以最小化片段分段错误。
候选词语提取器140基于由音素识别器130识别的所述一个片段的语音信号的音素来提取候选词语。候选词语提取器140包括相似度计算器141和片段词语图表产生器142。
相似度计算器141通过使用发音字典来计算所述一个片段的语音信号的音素和其它音素之间的发音相似度,以提取与所述一个片段的语音信号的音素发音相似的相似音素。
片段词语图表产生器142基于提取的相似音素产生用于产生候选词语的片段词语图表。这里,片段词语图表可以是识别的音素被连接到相似音素的网络类型图表。片段词语图表产生器142将用于提取所述一个片段的语音信号的候选词语的片段词语图表输出到最佳词语图表路径搜索器153。
在上述示例性实施例中,候选词语提取器140产生片段词语图表,但是这仅是示例。因此,候选词语提取器140可提取候选词语来产生候选词语列表。
语音识别器150通过使用从候选词语提取器140输出的候选词语来执行针对一个片段的语音识别。语音识别器150包括第二高斯概率计算器151、第二声学模型152、最佳词语图表路径搜索器153、语言模型154和语音识别输出部件155。
第二高斯概率计算器151通过使用第二声学模型152来计算所述一个片段的语音信号的高斯概率分布。
这里,第二声学模型152是在识别多个连续词语的一般方法中使用的声学模型,并可以是使用三音素的声学模型。具体地,为了执行复杂的语音识别,第二声学模型152存储比第一声学模型132更多的数据量。
通过使用第二声学模型152来计算一个片段的语音信号的的高斯概率,并且通过使用第二声学模型152和语言模型154来输出在词语图表中具有最高概率的词语串。具体地,最佳词语图表路径搜索器153基于第二高斯概率计算器151的计算结果来搜索与从片段词语图表产生器142输出的片段词语图表的语音信号相应的最佳路径,其中,所述最佳路径与在词语图表中具有最高概率的词语串相应。这里,为了进一步准确识别句子,最佳词语路径搜索器153可通过使用存储语法和句子结构的语言模型154来执行语音识别。换句话说,第一声学模型132可以是专门用于高速语音识别的声学模型,第二声学模型152可以是用于提高连续词语语音识别的性能的精细的声学模型。
语音识别输出部件155输出由最佳词语图表路径搜索器153搜索的最佳路径产生的词语串(句子)。
音素识别器130、候选词语提取器140和语音识别器150可被形成为通过不同的核并行操作的流水线形状。详细地,如图3中所示,语音信号分段器120将语音信号分段为N个片段,并将N个片段的语音信号发送到音素识别器130。音素识别器130在时间t1执行针对第一片段的音素识别。在时间t2,音素识别器130执行针对第二片段的音素识别,并且候选词语提取器140提取第一片段的候选词语。在时间t3,音素识别器130执行针对第三片段的音素识别,候选词语提取器140提取第二片的候选词语,并且语音识别器150执行针对第一片段的语音识别。根据这种方法,音素识别器130、候选词语提取器140和语音识别器150每次并行操作。语音识别器150在从用户结束发音的时间起的短时间tN+2-tN之后,执行并输出针对所有片段的语音信号的语音识别。
如上所述,电子装置100并行执行音素识别操作,使用音素识别的候选词语提取操作和使用候选词语的语音识别操作。因此,电子装置100比识别多个连续词语的现有方法更快速地执行语音识别。
现在将参照图4描述根据示例性实施例的电子装置100的语音识别方法。
参照图4,在操作S410中,电子装置100确定语音信号是否被输入。语音信号可通过语音输入装置(诸如,麦克风)或通过预存文件被实时输入。
如果在操作S410中确定语音信号被输入,则在操作S420中,电子装置100以预设时间间隔将语音信号分段为多个片段。详细地,电子装置100以预设时间间隔(例如,0.1秒)将输入语音信号分段为多个片段,并执行针对多个片段中的一个片段的语音信号的信号处理来提取特征向量。
在操作S430中,电子装置100识别所述一个片段的语音信号的音素。详细地,电子装置100通过使用第一声学模型来识别所述一个片段的语音信号的音素。为了进一步准确地识别音素,电子装置100删除多个识别的音素中的至少一个最后音素,并使用删除的至少一个音素来识别下一片段的语音信号的音素。
在操作S440中,电子装置100通过使用音素识别结果来提取所述一个片段的语音信号的候选词语。详细地,电子装置100提取多个识别的音素的相似音素,并产生用于提取候选词语的词语图表。这里,词语图表是在其上识别的音素被分别连接到相似音素的网络类型图表。
在操作S450中,电子装置100通过使用候选词语来执行针对所述一个片段的语音信号的语音识别。详细地,电子装置100通过使用第二声学模型和在操作S440中提取的候选词语(词语图表)的语言模型来执行针对所述一个片段的语音信号的语音识别。
电子装置100可针对下一片段的语音信号重复执行操作S430到S450。电子装置100可通过使用处理器的不同核重复并行执行操作S430到S450。
如上所述,根据语音识别方法,电子装置可比识别多个连续词语的现有方法更快速并且准确地执行语音识别。
如本领域技术人员将理解的,本示例性实施例的多个方面可被实现为设备、系统、方法或计算机程序产品。因此,示例性实施例的多个方面可采取在这里一般全部可被称为“电路”、“模块”或“系统”的全硬件实施例、全软件实施例(包括固件、常驻软件、微码等)、或组合软件和硬件方面的实施例的形式。此外,示例性实施例的多个方面可采用计算机程序产品的形式,并由硬件处理器来执行,其中,所述计算机程序产品实现在包含计算机可读程序代码的一个或多个计算机可读介质中。
一个或多个计算机可读介质的任意组合可被利用。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是,例如,但不限于,电子、磁、光学、电磁、红外或半导体系统、设备或装置、或者是上述的任何适当组合。计算机可读存储介质的更具体的示例(非穷举列表)将包括以下:具有一条或多条导线的电连接器、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储装置、磁存储装置或上述的任何适当组合。在本公开的上下文中,计算机可读存储介质可以是可包含或存储用于由指令执行系统、设备或装置使用的程序的任何有形介质,或是与指令执行系统、设备或装置连接的任何有形介质。
上述示例性实施例仅仅是示例性的,而不应被解释为限制。本教导可被容易地应用到其它类型的设备。此外,示例性实施例的描述意在示出,而不是限制权利要求的范围,并且很多替代物、修改和变化对于本领域的技术人员将是清楚的。
Claims (10)
1.一种在电子装置中识别语音的方法,所述方法包括:
如果语音信号被输入,则以预设时间间隔将语音信号分段为多个片段;
通过使用第一声学模型来执行针对多个片段中的一个片段的语音信号的音素识别;
通过使用音素识别结果来提取所述一个片段的语音信号的候选词语;
通过使用候选词语来执行针对所述一个片段的语音信号的语音识别,
其中,执行音素识别的步骤还包括:
通过使用分段的维特比算法来删除所述一个片段的语音信号的多个音素中的至少一个最后音素,
其中,删除的至少一个音素被用于执行针对下一片段的语音信号的音素识别。
2.如权利要求1的所述方法,其中,提取的步骤包括:
提取与识别的音素发音相似的相似音素;
通过使用所述相似音素来产生用于提取所述一个片段的候选词语的词语图表。
3.如权利要求2的所述方法,其中,执行语音识别的步骤包括:
通过使用第二声学模型来计算所述一个片段的语音信号的高斯概率;
通过使用第二声学模型和语言模型来输出在词语图表中具有最高概率的词语串。
4.如权利要求3所述的方法,其中,第一声学模型和第二声学模型彼此不同。
5.如权利要求1所述的方法,其中,通过不同的核并行执行所述执行音素识别的步骤、所述提取步骤和所述执行语音识别的步骤。
6.一种电子装置,包括:
语音信号输入部件,接收语音信号;
语音信号分段器,以预设时间间隔将通过语音信号输入部件输入的语音信号分段为多个片段;
音素识别器,通过使用第一声学模型来执行针对多个片段中的一个片段的语音信号的音素识别;
候选词语提取器,通过使用音素识别结果来提取所述一个片段的语音信号的候选词语;
语音识别器,通过使用候选词语来执行针对所述一个片段的语音信号的语音识别,
其中,音素识别器通过使用分段的维特比算法来删除所述一个片段的语音信号的多个音素中的至少一个最后音素,以执行音素识别,
其中,删除的至少一个音素被用于执行针对下一片段的语音信号的音素识别。
7.如权利要求6所述的电子装置,其中,候选词语提取器提取与识别的音素发音相似的相似音素,并通过使用所述相似音素来产生用于提取所述片段的候选词语的词语图表。
8.如权利要求7所述的电子装置,其中,语音识别器通过使用第二声学模型来计算所述一个片段的语音信号的高斯概率,并通过使用第二声学模型和语言模型来输出在词语图表中具有最高概率的词语串,以执行语音识别。
9.如权利要求8所述的电子装置,其中,音素识别器的第一声学模型和语音识别器的第二声学模型彼此不同。
10.如权利要求6所述的电子装置,其中,音素识别器、候选词语提取器和语音识别器被实现为不同的核。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR10-2012-0076809 | 2012-07-13 | ||
KR1020120076809A KR20140028174A (ko) | 2012-07-13 | 2012-07-13 | 음성 인식 방법 및 이를 적용한 전자 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103544955A CN103544955A (zh) | 2014-01-29 |
CN103544955B true CN103544955B (zh) | 2018-09-25 |
Family
ID=48700451
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310301732.XA Expired - Fee Related CN103544955B (zh) | 2012-07-13 | 2013-07-15 | 识别语音的方法及其电子装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20140019131A1 (zh) |
EP (1) | EP2685452A1 (zh) |
KR (1) | KR20140028174A (zh) |
CN (1) | CN103544955B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2014049998A1 (ja) * | 2012-09-27 | 2016-08-22 | 日本電気株式会社 | 情報検索システム、情報検索方法およびプログラム |
CN104036774B (zh) * | 2014-06-20 | 2018-03-06 | 国家计算机网络与信息安全管理中心 | 藏语方言识别方法及系统 |
US20160063990A1 (en) * | 2014-08-26 | 2016-03-03 | Honeywell International Inc. | Methods and apparatus for interpreting clipped speech using speech recognition |
KR102267405B1 (ko) * | 2014-11-21 | 2021-06-22 | 삼성전자주식회사 | 음성 인식 장치 및 음성 인식 장치의 제어 방법 |
CN104851220A (zh) * | 2014-11-22 | 2015-08-19 | 重庆市行安电子科技有限公司 | 一种自动报警系统 |
CN105700389B (zh) * | 2014-11-27 | 2020-08-11 | 青岛海尔智能技术研发有限公司 | 一种智能家庭自然语言控制方法 |
KR102396983B1 (ko) * | 2015-01-02 | 2022-05-12 | 삼성전자주식회사 | 문법 교정 방법 및 장치 |
KR102371188B1 (ko) * | 2015-06-30 | 2022-03-04 | 삼성전자주식회사 | 음성 인식 장치 및 방법과 전자 장치 |
KR102386854B1 (ko) * | 2015-08-20 | 2022-04-13 | 삼성전자주식회사 | 통합 모델 기반의 음성 인식 장치 및 방법 |
KR102423302B1 (ko) | 2015-10-06 | 2022-07-19 | 삼성전자주식회사 | 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법 |
US20170229124A1 (en) * | 2016-02-05 | 2017-08-10 | Google Inc. | Re-recognizing speech with external data sources |
CN106297784A (zh) * | 2016-08-05 | 2017-01-04 | 王 | 智能终端游戏快速响应语音识别的方法和系统 |
CN109961775A (zh) * | 2017-12-15 | 2019-07-02 | 中国移动通信集团安徽有限公司 | 基于hmm模型的方言识别方法、装置、设备及介质 |
CN109215630B (zh) * | 2018-11-14 | 2021-01-26 | 北京羽扇智信息科技有限公司 | 实时语音识别方法、装置、设备及存储介质 |
CN111816172A (zh) * | 2019-04-10 | 2020-10-23 | 阿里巴巴集团控股有限公司 | 一种语音应答方法及装置 |
CN110176237A (zh) * | 2019-07-09 | 2019-08-27 | 北京金山数字娱乐科技有限公司 | 一种语音识别方法及装置 |
CN110808032B (zh) * | 2019-09-20 | 2023-12-22 | 平安科技(深圳)有限公司 | 一种语音识别方法、装置、计算机设备及存储介质 |
CN110570842B (zh) * | 2019-10-25 | 2020-07-10 | 南京云白信息科技有限公司 | 基于音素近似度和发音标准度的语音识别方法及系统 |
KR102345754B1 (ko) * | 2019-12-31 | 2021-12-30 | 주식회사 포스코아이씨티 | 음성인식모델을 학습시킬 수 있는 음성인식모델 관리시스템 |
CN111091849B (zh) * | 2020-03-03 | 2020-12-22 | 龙马智芯(珠海横琴)科技有限公司 | 鼾声识别的方法及装置、存储介质止鼾设备和处理器 |
CN111553726B (zh) * | 2020-04-22 | 2023-04-28 | 上海海事大学 | 一种基于hmm的刷单预测系统及方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2240203A (en) * | 1990-01-18 | 1991-07-24 | Apple Computer | Automated speech recognition system |
CN1465043A (zh) * | 2001-06-08 | 2003-12-31 | 索尼公司 | 语音识别装置和语音识别方法 |
CN101120397A (zh) * | 2005-01-17 | 2008-02-06 | 日本电气株式会社 | 语音识别系统、语音识别方法以及语音识别程序 |
CN101326572A (zh) * | 2005-12-08 | 2008-12-17 | 皇家飞利浦电子股份有限公司 | 具有巨大词汇量的语音识别系统 |
US7587321B2 (en) * | 2001-05-08 | 2009-09-08 | Intel Corporation | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5699456A (en) * | 1994-01-21 | 1997-12-16 | Lucent Technologies Inc. | Large vocabulary connected speech recognition system and method of language representation using evolutional grammar to represent context free grammars |
AU1520000A (en) * | 1998-11-25 | 2000-06-13 | Sony Electronics Inc. | Method and apparatus for very large vocabulary isolated word recognition in a parameter sharing speech recognition system |
US7310600B1 (en) * | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
JP2001249684A (ja) * | 2000-03-02 | 2001-09-14 | Sony Corp | 音声認識装置および音声認識方法、並びに記録媒体 |
US6865528B1 (en) * | 2000-06-01 | 2005-03-08 | Microsoft Corporation | Use of a unified language model |
WO2002086864A1 (en) * | 2001-04-18 | 2002-10-31 | Rutgers, The State University Of New Jersey | System and method for adaptive language understanding by computers |
US6868383B1 (en) * | 2001-07-12 | 2005-03-15 | At&T Corp. | Systems and methods for extracting meaning from multimodal inputs using finite-state devices |
US7089188B2 (en) * | 2002-03-27 | 2006-08-08 | Hewlett-Packard Development Company, L.P. | Method to expand inputs for word or document searching |
US20040128132A1 (en) * | 2002-12-30 | 2004-07-01 | Meir Griniasty | Pronunciation network |
US7698136B1 (en) * | 2003-01-28 | 2010-04-13 | Voxify, Inc. | Methods and apparatus for flexible speech recognition |
US7725319B2 (en) * | 2003-07-07 | 2010-05-25 | Dialogic Corporation | Phoneme lattice construction and its application to speech recognition and keyword spotting |
WO2005010866A1 (en) * | 2003-07-23 | 2005-02-03 | Nexidia Inc. | Spoken word spotting queries |
CN100465043C (zh) * | 2004-07-27 | 2009-03-04 | 日本塑料株式会社 | 车颈顶罩 |
GB0420464D0 (en) * | 2004-09-14 | 2004-10-20 | Zentian Ltd | A speech recognition circuit and method |
WO2007134293A2 (en) * | 2006-05-12 | 2007-11-22 | Nexidia, Inc. | Wordspotting system |
US20080010067A1 (en) * | 2006-07-07 | 2008-01-10 | Chaudhari Upendra V | Target specific data filter to speed processing |
TW200926142A (en) * | 2007-12-12 | 2009-06-16 | Inst Information Industry | A construction method of English recognition variation pronunciation models |
JP2010224194A (ja) * | 2009-03-23 | 2010-10-07 | Sony Corp | 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム |
US8700399B2 (en) * | 2009-07-06 | 2014-04-15 | Sensory, Inc. | Systems and methods for hands-free voice control and voice search |
-
2012
- 2012-07-13 KR KR1020120076809A patent/KR20140028174A/ko not_active Application Discontinuation
-
2013
- 2013-07-02 EP EP13174723.0A patent/EP2685452A1/en not_active Withdrawn
- 2013-07-12 US US13/940,848 patent/US20140019131A1/en not_active Abandoned
- 2013-07-15 CN CN201310301732.XA patent/CN103544955B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2240203A (en) * | 1990-01-18 | 1991-07-24 | Apple Computer | Automated speech recognition system |
US7587321B2 (en) * | 2001-05-08 | 2009-09-08 | Intel Corporation | Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system |
CN1465043A (zh) * | 2001-06-08 | 2003-12-31 | 索尼公司 | 语音识别装置和语音识别方法 |
CN101120397A (zh) * | 2005-01-17 | 2008-02-06 | 日本电气株式会社 | 语音识别系统、语音识别方法以及语音识别程序 |
CN101326572A (zh) * | 2005-12-08 | 2008-12-17 | 皇家飞利浦电子股份有限公司 | 具有巨大词汇量的语音识别系统 |
Also Published As
Publication number | Publication date |
---|---|
US20140019131A1 (en) | 2014-01-16 |
CN103544955A (zh) | 2014-01-29 |
KR20140028174A (ko) | 2014-03-10 |
EP2685452A1 (en) | 2014-01-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103544955B (zh) | 识别语音的方法及其电子装置 | |
CN106683677B (zh) | 语音识别方法及装置 | |
KR100755677B1 (ko) | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 | |
CN104157285B (zh) | 语音识别方法、装置及电子设备 | |
CN112331229B (zh) | 语音检测方法、装置、介质和计算设备 | |
CN111369974B (zh) | 一种方言发音标注方法、语言识别方法及相关装置 | |
US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
KR20210016767A (ko) | 음성 인식 방법 및 음성 인식 장치 | |
CN108074562B (zh) | 语音识别装置、语音识别方法以及存储介质 | |
WO2012001458A1 (en) | Voice-tag method and apparatus based on confidence score | |
KR102199246B1 (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
JP6690484B2 (ja) | 音声認識用コンピュータプログラム、音声認識装置及び音声認識方法 | |
KR20100130263A (ko) | 음성 인식용 발음사전 확장 장치 및 방법 | |
CN111402865A (zh) | 语音识别训练数据的生成方法、语音识别模型的训练方法 | |
CN111462777B (zh) | 关键词检索方法、系统、移动终端及存储介质 | |
JP5688761B2 (ja) | 音響モデル学習装置、および音響モデル学習方法 | |
JP2016177045A (ja) | 音声認識装置および音声認識プログラム | |
CN112133285B (zh) | 语音识别方法、装置、存储介质和电子设备 | |
CN112151020A (zh) | 语音识别方法、装置、电子设备及存储介质 | |
CN114299930A (zh) | 端到端语音识别模型处理方法、语音识别方法及相关装置 | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
CN111640423A (zh) | 一种词边界估计方法、装置及电子设备 | |
KR102299269B1 (ko) | 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치 | |
WO2012150658A1 (ja) | 音声認識装置および音声認識方法 | |
JP2009025411A (ja) | 音声認識装置およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180925 Termination date: 20190715 |