CN106486114A - 改进语言模型的方法和装置以及语音识别方法和装置 - Google Patents
改进语言模型的方法和装置以及语音识别方法和装置 Download PDFInfo
- Publication number
- CN106486114A CN106486114A CN201510542215.0A CN201510542215A CN106486114A CN 106486114 A CN106486114 A CN 106486114A CN 201510542215 A CN201510542215 A CN 201510542215A CN 106486114 A CN106486114 A CN 106486114A
- Authority
- CN
- China
- Prior art keywords
- mentioned
- vocabulary
- user
- speech recognition
- language model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 239000000284 extract Substances 0.000 claims abstract description 4
- 206010028916 Neologism Diseases 0.000 claims description 39
- 230000006872 improvement Effects 0.000 claims description 22
- 230000002123 temporal effect Effects 0.000 claims description 20
- 239000000463 material Substances 0.000 claims description 13
- 230000004899 motility Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种改进语音识别系统的语言模型的方法和装置、以及语音识别方法和装置。改进语音识别系统的语言模型的装置包括:提取单元,其从用户提供的用户文档中提取用户词汇;分类单元,其基于上述语音识别系统的系统词典对上述用户词汇进行分类;和设定单元,其基于分类的结果对上述用户词汇的至少一个设定语言模型概率的加权因子。
Description
技术领域
本发明涉及语音识别系统,具体涉及改进语音识别系统的语言模型的方法、改进语音识别系统的语言模型的装置、语音识别方法和语音识别装置。
背景技术
语音识别系统通常包含声学模型和语言模型。声学模型是统计语音特征相对于音素单元的概率分布的模型,语言模型是统计词序列的出现概率的模型,语音识别过程实质上是根据两个模型的概率得分的加权之和来得到得分最高的结果。
发明内容
在通常的语音识别系统中,声学模型和语言模型都是固定不变的。这样的语音识别系统无法在预先获得用户提供的用户文档后对声学模型和语言模型有针对性地进行调整。然而,语音识别系统的语言模型对应用所涉及的领域、可能会使用的词汇等信息非常敏感,若能对语言模型进行相应的调整,则针对此次应用的语音识别率能可得到明显提升。
一些语音识别系统虽然能够在使用前注册用户提供的新词(系统词典以外的词)和关键词(系统词典包含的词),并通过基于类的语言模型对新词和关键词赋予较高的概率,但这仍然无法有效提升对新词和关键词的识别率。
为了解决现有技术中存在的上述问题,本发明的实施方式提供了能够有效提升对新词和关键词的识别率的改进语音识别系统的语言模型的方法和装置、以及语音识别方法和装置。具体而言,提供了以下技术方案。
[1]一种改进语音识别系统的语言模型的方法,包括:从用户提供的用户文档中提取用户词汇;基于上述语音识别系统的系统词典对上述用户词汇进行分类;和基于分类的结果对上述用户词汇的至少一个设定语言模型概率的加权因子。
上述[1]的改进语音识别系统的语言模型的方法,通过对用户词汇的至少一个设定语言模型概率的加权因子,能够有效地提升用户词汇的识别率。
[2]根据上述[1]所述的方法,其中,对上述用户词汇进行分类的步骤包括:基于上述系统词典和用户提供的用户词典将上述用户词汇和上述用户词典中的词汇分为新词、关键词和其他词汇。
[3]根据上述[2]所述的方法,其中,上述新词是上述系统词典不包含的词汇,上述关键词是上述用户词典和上述系统词典均包含的词汇,上述其他词汇是上述用户词典不包含但上述系统词典包含的词汇。
上述[2]和[3]所述的方法,通过将上述用户词汇和上述用户词典中的词汇分为上述系统词典不包含的新词、上述用户词典和上述系统词典均包含关键词、以及上述用户词典不包含但上述系统词典包含的其他词汇,能够在后述的步骤中基于类别来设定相应的加权因子,能够提升语音识别系统的灵活性。
[4]根据上述[3]所述的方法,其中,对上述新词、上述关键词和上述其他词汇分别设定大于1的加权因子。
上述[4]所述的方法,通过对上述新词、上述关键词和上述其他词汇分别设定大于1的加权因子,能够提升上述新词、上述关键词和上述其他词汇的语言模型概率得分,从而能够提升其识别率。
[5]根据上述[4]所述的方法,其中,对上述关键词设定的加权因子比对上述新词和上述其他词汇设定的加权因子大。
上述[5]所述的方法,通过将对上述关键词设定的加权因子设为比对上述新词和上述其他词汇设定的加权因子大,能够有效提升用户在本次的应用中明确使用的词汇的识别率。
[6]根据上述[1]-[5]之一所述的方法,还包括:对上述语音识别系统所累积的用户语料中的与上述用户词汇相关的相关词汇设定加权因子。
上述[6]所述的方法,通过对上述语音识别系统所累积的用户语料中的与上述用户词汇相关的相关词汇设定加权因子,能够调整相关词汇的识别率,提升语音识别系统的性能。
[7]根据上述[6]所述的方法,其中,设定上述相关词汇的加权因子的步骤包括:基于领域相关性、词相关性以及时间相关性中的至少一方设定上述相关词汇的加权因子。
[8]根据上述[7]所述的方法,其中,上述领域相关性越高,则设定越大的加权因子。
[9]根据上述[7]所述的方法,其中,上述词相关性越高,则设定越大的加权因子。
[10]根据上述[7]所述的方法,其中,上述时间相关性越高,则设定越大的加权因子。
上述[7]-[10]所述的方法,通过考虑领域相关性、词相关性以及时间相关性的至少一方来决定加权因子的大小,与用户词汇相关性高的词汇的识别被增强,与用户词汇的相关性低的词汇的识别被抑制,能够更精确地调整相关词汇的识别率,进一步提升语音识别系统的性能。
[11]一种语音识别方法,包括:输入待识别的语音;利用声学模型将上述语音识别为文本句;和利用语言模型计算上述文本句的得分;上述语言模型包括由上述[1]-[10]之一所述的方法改进后的语言模型。
上述[11]的语音识别方法,通过利用由上述[1]-[10]之一的方法改进后的语言模型,能够有效地提升用户词汇的识别率,能够提高语音识别系统针对此次应用的识别性能。
[12]一种改进语音识别系统的语言模型的装置,包括:提取单元,其从用户提供的用户文档中提取用户词汇;分类单元,其基于上述语音识别系统的系统词典对上述用户词汇进行分类;和设定单元,其基于分类的结果对上述用户词汇的至少一个设定语言模型概率的加权因子。
上述[12]的改进语音识别系统的语言模型的装置,通过对用户词汇的至少一个设定语言模型概率的加权因子,能够有效地提升用户词汇的识别率。
[13]根据上述[12]所述的装置,其中,上述分类单元基于上述系统词典和用户提供的用户词典将上述用户词汇和上述用户词典中的词汇分为新词、关键词和其他词汇。
[14]根据上述[13]所述的装置,其中,上述新词是上述系统词典不包含的词汇,上述关键词是上述用户词典和上述系统词典均包含的词汇,上述其他词汇是上述用户词典不包含但上述系统词典包含的词汇。
上述[13]和[14]所述的装置,通过将上述用户词汇和上述用户词典中的词汇分为上述系统词典不包含的新词、上述用户词典和上述系统词典均包含关键词、以及上述用户词典不包含但上述系统词典包含的其他词汇,能够在后述的步骤中基于类别来设定相应的加权因子,能够提升语音识别系统的灵活性。
[15]根据上述[14]所述的装置,其中,上述设定单元对上述新词、上述关键词和上述其他词汇分别设定大于1的加权因子。
上述[15]所述的装置,通过对上述新词、上述关键词和上述其他词汇分别设定大于1的加权因子,能够提升上述新词、上述关键词和上述其他词汇的语言模型概率得分,从而能够提升其识别率。
[16]根据上述[15]所述的装置,其中,上述设定单元对上述关键词设定的加权因子比对上述新词和上述其他词汇设定的加权因子大。
上述[16]所述的装置,通过将对上述关键词设定的加权因子设为比对上述新词和上述其他词汇设定的加权因子大,能够有效提升用户在本次的应用中明确使用的词汇的识别率。
[17]根据上述[12]-[16]之一所述的装置,上述设定单元对上述语音识别系统所累积的用户语料中的与上述用户词汇相关的相关词汇设定加权因子。
上述[17]所述的装置,通过对上述语音识别系统所累积的用户语料中的与上述用户词汇相关的相关词汇设定加权因子,能够调整相关词汇的识别率,提升语音识别系统的性能。
[18]根据上述[17]所述的装置,其中,上述设定单元基于领域相关性、词相关性以及时间相关性中的至少一方设定上述相关词汇的加权因子。
[19]根据上述[18]所述的装置,其中,上述领域相关性越高,则上述设定单元设定越大的加权因子。
[20]根据上述[18]所述的装置,其中,上述词相关性越高,则上述设定单元设定越大的加权因子。
[21]根据上述[18]所述的装置,其中,上述时间相关性越高,则上述设定单元设定越大的加权因子。
上述[18]-[21]所述的装置,通过考虑领域相关性、词相关性以及时间相关性的至少一方来决定加权因子的大小,与用户词汇相关性高的词汇的识别被增强,与用户词汇的相关性低的词汇的识别被抑制,能够更精确地调整相关词汇的识别率,进一步提升语音识别系统的性能。
[22]一种语音识别装置,包括:输入单元,其输入待识别的语音;识别单元,其利用声学模型将上述语音识别为文本句;和计算单元,其利用语言模型计算上述文本句的得分;上述语言模型包括由上述[12]-[22]之一的装置改进后的语言模型。
上述[22]的语音识别装置,通过利用由上述[12]-[21]之一的装置改进后的语言模型,能够有效地提升用户词汇的识别率,能够提高语音识别系统针对此次应用的识别性能。
附图说明
图1是根据本发明的一个实施方式的改进语音识别系统的语言模型的方法的图。
图2是根据本发明的一个实施方式的语音识别方法的图。
图3是根据本发明的一个实施方式的改进语音识别系统的语言模型的装置的图。
图4是根据本发明的一个实施方式的语音识别装置的图。
具体实施方式
下面就结合附图对本发明的各个优选实施方式进行详细的说明。
改进语音识别系统的语言模型的方法
本实施方式提供一种改进语音识别系统的语言模型的方法,包括:从用户提供的用户文档中提取用户词汇;基于上述语音识别系统的系统词典对上述用户词汇进行分类;和基于分类的结果对上述用户词汇的至少一个设定语言模型概率的加权因子。
下面参照图1进行详细说明。图1是根据本发明的一个实施方式的改进语音识别系统的语言模型的方法的流程图。
如图1所示,首先,在步骤S101中,从用户提供的用户文档10中提取用户词汇。在一些语音识别的应用之前,用户会预先提供一些文档,例如,在会议支援系统的情况下,用户会预先将一些会议文档上传到系统服务器,再例如,在演讲支援系统的情况下,用户会预先将讲稿上传到系统服务器。在此,将这样的用户预先提供的文档称作“用户文档”。本实施方式中,用户文档并不限于上述会议文档或讲稿,其可以是用户在应用语音识别系统之前提供的任何文档,本实施方式对此没有任何限制。
在从用户文档10提取用户词汇时,可应用本领域的技术人员公知的任何分词技术,本实施方式对此没有任何限制,在此不进行赘述。另外,用户一般还会提供一个用户词典,该用户词典指定了用户在本次的应用中明确使用的词汇。在提取用户词汇时,也可以基于用户词典来进行提取。这样一来,能够提升提取的精度。例如,在用户词典中指定了“光蓓净”这一从来未被使用过的词汇时,通过基于用户词典,能够精确地将“光蓓净”作为一个词汇来提取。
接着,在步骤S105中,基于语音系统的系统词典对用户词汇进行分类。作为一例,在用户词汇不包含于系统词典的情况下,将其作为“新词”。
另外,在用户提供用户词典的情况下,在步骤S105中,优选,基于系统词典和用户词典的双方,将用户词汇和用户词典中的词汇分为“新词”、“关键词”以及“其他词汇”,新词是系统词典不包含的词汇,关键词是用户词典和系统词典均包含的词汇,其他词汇是用户词典不包含但系统词典包含的词汇。这样一来,能够在后述的步骤中基于类别来设定相应的加权因子,能够提升语音识别系统的灵活性。
接着,在步骤S110中,基于分类的结果对用户词汇的至少一个设定语言模型概率P(W|*)的加权因子b(W)。具体而言,设定大于1的加权因子b(W)。通过设定大于1的加权因子b(W),能够提升该用户词汇的语言模型概率得分,从而能够提升其识别率。此外,在步骤S105中也对用户词典中的词汇进行了分类的情况下,也可以对用户词典中的词汇设定语言模型概率的加权因子。
本实施方式中,优选将对关键词设定的加权因子设为比对新词和其他词汇设定的加权因子大。关键词是用户词典包含的词汇,而用户词典指定了用户在本次的应用中明确使用的词汇,因此,通过对关键词设定比新词和其他词汇大的加权因子,能够有效提升用户在本次的应用中明确使用的词汇的识别率。
另外,由于语音识别系统在长期的应用中已经累积了大量的用户语料,所以除了上述用户词汇以外,也可以对语音识别系统所累积的用户语料中的与用户文档10相关的词汇(以下,称作“相关词汇”)设定加权因子。通过对相关词汇设定加权因子,能够调整相关词汇的识别率,提升语音识别系统的性能。
在对相关词汇设定加权因子时,可以基于领域相关性、词相关性以及时间相关性中的至少一方来进行设定,具体而言,领域相关性越高,则设定越大的加权因子;词相关性越高,则设定越大的加权因子;时间相关性越高,则设定越大的加权因子。
领域相关性是指某领域的词汇与用户文档10的领域(例如,信息科学、人事管理、医疗保健等)同时出现的概率,概率越高,则领域相关性越高。另外,词相关性是指某词汇与用户词汇一起出现在应用中的概率,概率越高,则词相关性越高。另外,时间相关性表示时间上相关的程度,若在累积的用户语料中的某个词汇最近反复出现,则该词汇在本次的应用中出现的概率较大,因而时间相关性较高;相反,若该词汇已经很久不被使用,则该词汇在本次的应用中出现的概率较小,因而时间相关性较低。
通过考虑领域相关性、词相关性以及时间相关性的至少一方来决定加权因子的大小,与用户词汇相关性高的词汇的识别被增强,与用户词汇的相关性低的词汇的识别被抑制,能够更精确地调整相关词汇的识别率,进一步提升语音识别系统的性能。在此,对相关词汇设定的加权因子既可以大于1,也可以为1以下。在加权因子大于1时,表示提升该相关词汇的识别率,另一方面,在加权因子为1以下时,表示不提升或者降低该相关词汇的识别率。
本实施方式的改进语音识别系统的语言模型的方法,通过对用户词汇的至少一个设定语言模型概率的加权因子,能够有效地提升用户词汇的识别率。进而,通过将用户词汇和用户词典中的词汇分为系统词典不包含的新词、用户词典和系统词典均包含关键词、以及用户词典不包含但系统词典包含的其他词汇,能够在后述的步骤中基于类别来设定相应的加权因子,能够提升语音识别系统的灵活性。进而,通过对新词、关键词和其他词汇分别设定大于1的加权因子,能够提升新词、关键词和其他词汇的语言模型概率得分,从而能够提升其识别率。进而,通过将对关键词设定的加权因子设为比对新词和其他词汇设定的加权因子大,能够有效提升用户在本次的应用中明确使用的词汇的识别率。进而,通过对语音识别系统所累积的用户语料中的与用户词汇相关的相关词汇设定加权因子,能够调整相关词汇的识别率,提升语音识别系统的性能。进而,通过考虑领域相关性、词相关性以及时间相关性的至少一方来决定加权因子的大小,与用户词汇相关性高的词汇的识别被增强,与用户词汇的相关性低的词汇的识别被抑制,能够更精确地调整相关词汇的识别率,进一步提升语音识别系统的性能。
语音识别方法
本实施方式提供一种语音识别方法,包括:输入待识别的语音;利用声学模型将上述语音识别为文本句;和利用语言模型计算上述文本句的得分;上述语言模型包括由上述改进语音识别系统的语言模型的方法改进后的语言模型。
下面参照图2进行详细说明。图2是根据本发明的一个实施方式的语音识别方法的流程图。
首先,在步骤S201中,输入待识别的语音。
接着,在步骤S205中,利用声学模型将上述语音识别为文本句。在本实施方式中,声学模型可以本领域的技术人员公知的任何声学模型,利用声学模型将上述语音识别为文本句的方法也可以是本领域的技术人员公知的任何识别方法,本实施方式对此没有任何限制。
接着,在步骤S210中,利用语言模型计算上述文本句的得分。在此,在步骤S210中利用的语言模型是由上述改进语音识别系统的语言模型的方法改进后的语言模型。
本实施方式的语音识别方法,通过使用由上述改进语音识别系统的语言模型的方法改进后的语言模型,能够得到与上述改进语音识别系统的语言模型的方法同样的技术效果。
改进语音识别系统的语言模型的装置
本实施方式提供一种改进语音识别系统的语言模型的装置,包括:提取单元,其从用户提供的用户文档中提取用户词汇;分类单元,其基于上述语音识别系统的系统词典对上述用户词汇进行分类;和设定单元,其基于分类的结果对上述用户词汇的至少一个设定语言模型概率的加权因子。
下面参照图3进行详细说明。图3是根据本发明的一个实施方式的改进语音识别系统的语言模型的装置的框图。
如图3所示,本实施方式的改进语音识别系统的语言模型的装置300具备提取单元301、分类单元305和设定单元310。
提取单元300从用户提供的用户文档10中提取用户词汇。在一些语音识别的应用之前,用户会预先提供一些文档,例如,在会议支援系统的情况下,用户会预先将一些会议文档上传到系统服务器,再例如,在演讲支援系统的情况下,用户会预先将讲稿上传到系统服务器。在此,将这样的用户预先提供的文档称作“用户文档”。本实施方式中,用户文档并不限于上述会议文档或讲稿,其可以是用户在应用语音识别系统之前提供的任何文档,本实施方式对此没有任何限制。
提取单元300在从用户文档10提取用户词汇时,可应用本领域的技术人员公知的任何分词技术,本实施方式对此没有任何限制,在此不进行赘述。另外,用户一般还会提供一个用户词典,该用户词典指定了用户在本次的应用中明确使用的词汇。提取单元300在提取用户词汇时,也可以基于用户词典来进行提取。这样一来,能够提升提取的精度。例如,在用户词典中指定了“光蓓净”这一从来未被使用过的词汇时,通过基于用户词典,能够精确地将“光蓓净”作为一个词汇来提取。
分类单元305基于语音系统的系统词典对由提取单元301提取的用户词汇进行分类。作为一例,在用户词汇不包含于系统词典的情况下,分类单元305将其作为“新词”。
另外,在用户提供用户词典的情况下,优选,分类单元305基于系统词典和用户词典的双方,将用户词汇和用户词典中的词汇分为“新词”、“关键词”以及“其他词汇”,新词是系统词典不包含的词汇,关键词是用户词典和系统词典均包含的词汇,其他词汇是用户词典不包含但系统词典包含的词汇。这样一来,能够由后述的设定单元310基于类别来设定相应的加权因子,能够提升语音识别系统的灵活性。
设定单元310基于分类单元305的分类的结果对用户词汇的至少一个设定语言模型概率P(W|*)的加权因子b(W)。具体而言,设定大于1的加权因子b(W)。通过设定大于1的加权因子b(W),能够提升该用户词汇的语言模型概率得分,从而能够提升其识别率。此外,在分类单元305也对用户词典中的词汇进行了分类的情况下,也可以对用户词典中的词汇设定语言模型概率的加权因子。
本实施方式中,优选将对关键词设定的加权因子设为比对新词和其他词汇设定的加权因子大。关键词是用户词典包含的词汇,而用户词典指定了用户在本次的应用中明确使用的词汇,因此,通过对关键词设定比新词和其他词汇大的加权因子,能够有效提升用户在本次的应用中明确使用的词汇的识别率。
另外,由于语音识别系统在长期的应用中已经累积了大量的用户语料,所以除了上述用户词汇以外,设定单元310也可以对语音识别系统所累积的用户语料中的与用户文档10相关的词汇(以下,称作“相关词汇”)设定加权因子。通过对相关词汇设定加权因子,能够调整相关词汇的识别率,提升语音识别系统的性能。
设定单元310在对相关词汇设定加权因子时,可以基于领域相关性、词相关性以及时间相关性中的至少一方来进行设定,具体而言,领域相关性越高,则设定越大的加权因子;词相关性越高,则设定越大的加权因子;时间相关性越高,则设定越大的加权因子。
领域相关性是指某领域的词汇与用户文档10的领域(例如,信息科学、人事管理、医疗保健等)同时出现的概率,概率越高,则领域相关性越高。另外,词相关性是指某词汇与用户词汇一起出现在应用中的概率,概率越高,则词相关性越高。另外,时间相关性表示时间上相关的程度,若在累积的用户语料中的某个词汇最近反复出现,则该词汇在本次的应用中出现的概率较大,因而时间相关性较高;相反,若该词汇已经很久不被使用,则该词汇在本次的应用中出现的概率较小,因而时间相关性较低。
通过考虑领域相关性、词相关性以及时间相关性的至少一方来决定加权因子的大小,与用户词汇相关性高的词汇的识别被增强,与用户词汇的相关性低的词汇的识别被抑制,能够更精确地调整相关词汇的识别率,进一步提升语音识别系统的性能。在此,对相关词汇设定的加权因子既可以大于1,也可以为1以下。在加权因子大于1时,表示提升该相关词汇的识别率,另一方面,在加权因子为1以下时,表示不提升或者降低该相关词汇的识别率。
本实施方式的改进语音识别系统的语言模型的装置,通过对用户词汇的至少一个设定语言模型概率的加权因子,能够有效地提升用户词汇的识别率。进而,通过将用户词汇和用户词典中的词汇分为用户词典包含但系统词典不包含的新词、用户词典和系统词典均包含关键词、以及用户词典不包含但系统词典包含的其他词汇,能够在后述的步骤中基于类别来设定相应的加权因子,能够提升语音识别系统的灵活性。进而,通过对新词、关键词和其他词汇分别设定大于1的加权因子,能够提升新词、关键词和其他词汇的语言模型概率得分,从而能够提升其识别率。进而,通过将对关键词设定的加权因子设为比对新词和其他词汇设定的加权因子大,能够有效提升用户在本次的应用中明确使用的词汇的识别率。进而,通过对语音识别系统所累积的用户语料中的与用户词汇相关的相关词汇设定加权因子,能够调整相关词汇的识别率,提升语音识别系统的性能。进而,通过考虑领域相关性、词相关性以及时间相关性的至少一方来决定加权因子的大小,与用户词汇相关性高的词汇的识别被增强,与用户词汇的相关性低的词汇的识别被抑制,能够更精确地调整相关词汇的识别率,进一步提升语音识别系统的性能。
语音识别装置
本实施方式提供一种语音识别装置,包括:输入单元,其输入待识别的语音;识别单元,其利用声学模型将上述语音识别为文本句;和计算单元,其利用语言模型计算上述文本句的得分;上述语言模型包括由上述改进语音识别系统的语言模型的装置改进后的语言模型。
下面参照图4进行详细说明。图4是根据本发明的一个实施方式的语音识别装置的框图。
本实施方式的语音识别装置400具备输入单元401、识别单元405和计算单元410。
输入单元401输入待识别的语音。
识别单元405利用声学模型将上述语音识别为文本句。在本实施方式中,声学模型可以本领域的技术人员公知的任何声学模型,利用声学模型将上述语音识别为文本句的单元也可以是本领域的技术人员公知的任何识别单元,本实施方式对此没有任何限制。
计算单元410利用语言模型计算上述文本句的得分。在此,计算单元410利用的语言模型是由上述改进语音识别系统的语言模型的装置改进后的语言模型。
本实施方式的语音识别装置,通过使用由上述改进语音识别系统的语言模型的装置改进后的语言模型,能够得到与上述改进语音识别系统的语言模型的装置同样的技术效果。
以上虽然通过一些示例性的实施例详细地描述了本发明的改进语音识别系统的语言模型的方法、改进语音识别系统的语言模型的装置、语音识别方法和语音识别装置,但是以上这些实施例并不是穷举的,本领域技术人员可以在本发明的精神和范围内实现各种变化和修改。因此,本发明并不限于这些实施例,本发明的范围仅由所附权利要求为准。
Claims (10)
1.一种改进语音识别系统的语言模型的装置,包括:
提取单元,其从用户提供的用户文档中提取用户词汇;
分类单元,其基于上述语音识别系统的系统词典对上述用户词汇进行分类;和
设定单元,其基于分类的结果对上述用户词汇的至少一个设定语言模型概率的加权因子。
2.根据权利要求1所述的装置,其中,
上述分类单元基于上述系统词典和用户提供的用户词典将上述用户词汇和上述用户词典中的词汇分为新词、关键词和其他词汇。
3.根据权利要求2所述的装置,其中,
上述新词是上述系统词典不包含的词汇,
上述关键词是上述用户词典和上述系统词典均包含的词汇,
上述其他词汇是上述用户词典不包含但上述系统词典包含的词汇。
4.根据权利要求3所述的装置,其中,
上述设定单元对上述新词、上述关键词和上述其他词汇分别设定大于1的加权因子。
5.根据权利要求1-4的任一项所述的装置,其中,
上述设定单元对上述语音识别系统所累积的用户语料中的与上述用户词汇相关的相关词汇设定加权因子。
6.根据权利要求5所述的装置,其中,
上述设定单元基于领域相关性、词相关性以及时间相关性中的至少一方设定上述相关词汇的加权因子。
7.根据权利要求6所述的装置,其中,
上述领域相关性越高,则设定越大的加权因子,
上述词相关性越高,则设定越大的加权因子,
上述时间相关性越高,则设定越大的加权因子。
8.一种语音识别装置,包括:
输入单元,其输入待识别的语音;
识别单元,其利用声学模型将上述语音识别为文本句;和
计算单元,其利用语言模型计算上述文本句的得分;
上述语言模型包括由权利要求1-7的任一项所述的装置改进后的语言模型。
9.一种改进语音识别系统的语言模型的方法,包括:
从用户提供的用户文档中提取用户词汇;
基于上述语音识别系统的系统词典对上述用户词汇进行分类;和
基于分类的结果对上述用户词汇的至少一个设定语言模型概率的加权因子。
10.一种语音识别方法,包括:
输入待识别的语音;
利用声学模型将上述语音识别为文本句;和
利用语言模型计算上述文本句的得分;
上述语言模型包括由权利要求9所述的方法改进后的语言模型。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510542215.0A CN106486114A (zh) | 2015-08-28 | 2015-08-28 | 改进语言模型的方法和装置以及语音识别方法和装置 |
JP2016161522A JP6242963B2 (ja) | 2015-08-28 | 2016-08-19 | 言語モデル改良装置及び方法、音声認識装置及び方法 |
US15/247,079 US20170061957A1 (en) | 2015-08-28 | 2016-08-25 | Method and apparatus for improving a language model, and speech recognition method and apparatus |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510542215.0A CN106486114A (zh) | 2015-08-28 | 2015-08-28 | 改进语言模型的方法和装置以及语音识别方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106486114A true CN106486114A (zh) | 2017-03-08 |
Family
ID=58104184
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510542215.0A Pending CN106486114A (zh) | 2015-08-28 | 2015-08-28 | 改进语言模型的方法和装置以及语音识别方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20170061957A1 (zh) |
JP (1) | JP6242963B2 (zh) |
CN (1) | CN106486114A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107978315A (zh) * | 2017-11-20 | 2018-05-01 | 徐榭 | 基于语音识别的对话式放射治疗计划系统及制定方法 |
US11830498B2 (en) | 2021-03-30 | 2023-11-28 | Wistron Corp. | Voice recognition system and voice recognition method |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10535342B2 (en) * | 2017-04-10 | 2020-01-14 | Microsoft Technology Licensing, Llc | Automatic learning of language models |
KR102418256B1 (ko) * | 2021-12-28 | 2022-07-08 | 아이브스 주식회사 | 언어 모델 개량을 통한 짧은 단어 인식 장치 및 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009075582A (ja) * | 2007-08-29 | 2009-04-09 | Advanced Media Inc | 端末装置、言語モデル作成装置、および分散型音声認識システム |
CN101847405B (zh) * | 2009-03-23 | 2012-10-24 | 索尼公司 | 语音识别装置和方法、语言模型产生装置和方法 |
JP2014052427A (ja) * | 2012-09-05 | 2014-03-20 | Nec Corp | 辞書更新装置、音声認識システム、辞書更新方法、音声認識方法、および、コンピュータ・プログラム |
CN103971677A (zh) * | 2013-02-01 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声学语言模型训练方法和装置 |
CN104217039A (zh) * | 2014-10-10 | 2014-12-17 | 谭希韬 | 一种将电话对话实时记录并转化陈述句的方法和系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4217495B2 (ja) * | 2003-01-29 | 2009-02-04 | キヤノン株式会社 | 音声認識辞書作成方法、音声認識辞書作成装置及びプログラム、記録媒体 |
JPWO2005064592A1 (ja) * | 2003-12-26 | 2007-12-20 | 株式会社ケンウッド | 機器制御装置、音声認識装置、エージェント装置、車載機器制御装置、ナビゲーション装置、オーディオ装置、機器制御方法、音声認識方法、エージェント処理方法、車載機器制御方法、ナビゲーション方法、オーディオ装置制御方法及びプログラム |
US8532994B2 (en) * | 2010-08-27 | 2013-09-10 | Cisco Technology, Inc. | Speech recognition using a personal vocabulary and language model |
US20140278349A1 (en) * | 2013-03-14 | 2014-09-18 | Microsoft Corporation | Language Model Dictionaries for Text Predictions |
-
2015
- 2015-08-28 CN CN201510542215.0A patent/CN106486114A/zh active Pending
-
2016
- 2016-08-19 JP JP2016161522A patent/JP6242963B2/ja not_active Expired - Fee Related
- 2016-08-25 US US15/247,079 patent/US20170061957A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009075582A (ja) * | 2007-08-29 | 2009-04-09 | Advanced Media Inc | 端末装置、言語モデル作成装置、および分散型音声認識システム |
CN101847405B (zh) * | 2009-03-23 | 2012-10-24 | 索尼公司 | 语音识别装置和方法、语言模型产生装置和方法 |
JP2014052427A (ja) * | 2012-09-05 | 2014-03-20 | Nec Corp | 辞書更新装置、音声認識システム、辞書更新方法、音声認識方法、および、コンピュータ・プログラム |
CN103971677A (zh) * | 2013-02-01 | 2014-08-06 | 腾讯科技(深圳)有限公司 | 一种声学语言模型训练方法和装置 |
CN104217039A (zh) * | 2014-10-10 | 2014-12-17 | 谭希韬 | 一种将电话对话实时记录并转化陈述句的方法和系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107978315A (zh) * | 2017-11-20 | 2018-05-01 | 徐榭 | 基于语音识别的对话式放射治疗计划系统及制定方法 |
CN107978315B (zh) * | 2017-11-20 | 2021-08-10 | 徐榭 | 基于语音识别的对话式放射治疗计划系统及制定方法 |
US11830498B2 (en) | 2021-03-30 | 2023-11-28 | Wistron Corp. | Voice recognition system and voice recognition method |
Also Published As
Publication number | Publication date |
---|---|
US20170061957A1 (en) | 2017-03-02 |
JP2017045054A (ja) | 2017-03-02 |
JP6242963B2 (ja) | 2017-12-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021208287A1 (zh) | 用于情绪识别的语音端点检测方法、装置、电子设备及存储介质 | |
US10176811B2 (en) | Neural network-based voiceprint information extraction method and apparatus | |
CN103956169B (zh) | 一种语音输入方法、装置和系统 | |
CN104732978B (zh) | 基于联合深度学习的文本相关的说话人识别方法 | |
CN110473566A (zh) | 音频分离方法、装置、电子设备及计算机可读存储介质 | |
US10468019B1 (en) | System and method for automatic speech recognition using selection of speech models based on input characteristics | |
CN105469784B (zh) | 一种基于概率线性鉴别分析模型的说话人聚类方法及系统 | |
CN109460737A (zh) | 一种基于增强式残差神经网络的多模态语音情感识别方法 | |
CN107342077A (zh) | 一种基于因子分析的说话人分段聚类方法及系统 | |
CN106782507A (zh) | 语音分割的方法及装置 | |
CN105938716A (zh) | 一种基于多精度拟合的样本复制语音自动检测方法 | |
WO2021159902A1 (zh) | 年龄识别方法、装置、设备及计算机可读存储介质 | |
CN103810994A (zh) | 基于情感上下文的语音情感推理方法及系统 | |
CN106486114A (zh) | 改进语言模型的方法和装置以及语音识别方法和装置 | |
CN105280181A (zh) | 一种语种识别模型的训练方法及语种识别方法 | |
CN109003600B (zh) | 消息处理方法及装置 | |
CN106297769B (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
CN110992988A (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
US11893813B2 (en) | Electronic device and control method therefor | |
CN104464738B (zh) | 一种面向智能移动设备的声纹识别方法 | |
CN106710588B (zh) | 语音数据句类识别方法和装置及系统 | |
Shivakumar et al. | Simplified and supervised i-vector modeling for speaker age regression | |
CN106776543A (zh) | 新词发现方法、装置、终端及服务器 | |
KR20190023722A (ko) | 소셜 빅데이터 기반 감성 분석 키워드 확장 장치 및 방법 | |
KR102196764B1 (ko) | 화자 분류 장치 및 화자 식별 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170308 |