CN109785842A - 语音识别纠错方法以及语音识别纠错系统 - Google Patents
语音识别纠错方法以及语音识别纠错系统 Download PDFInfo
- Publication number
- CN109785842A CN109785842A CN201711121071.7A CN201711121071A CN109785842A CN 109785842 A CN109785842 A CN 109785842A CN 201711121071 A CN201711121071 A CN 201711121071A CN 109785842 A CN109785842 A CN 109785842A
- Authority
- CN
- China
- Prior art keywords
- phonetic
- candidate
- speech recognition
- candidate collection
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000001914 filtration Methods 0.000 claims abstract description 25
- 150000001875 compounds Chemical class 0.000 claims description 38
- 238000004590 computer program Methods 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 241000246150 Cercis Species 0.000 description 2
- 235000006228 Cercis occidentalis Nutrition 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010009 beating Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005194 fractionation Methods 0.000 description 1
- 229940074869 marquis Drugs 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- VBUNOIXRZNJNAD-UHFFFAOYSA-N ponazuril Chemical compound CC1=CC(N2C(N(C)C(=O)NC2=O)=O)=CC=C1OC1=CC=C(S(=O)(=O)C(F)(F)F)C=C1 VBUNOIXRZNJNAD-UHFFFAOYSA-N 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/018—Input/output arrangements for oriental characters
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及语音识别纠错方法以及系统。该方法包括下述步骤:通过语音识别和语义理解提取地名并将地名转换为地名拼音;拆分所述地名拼音,得到N个拼音列表,将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集,其中,N为自然数;对所述第一拼音候选集的拼音进行过滤,过滤去除非法拼音;将所述过滤步骤输出的拼音进行第二笛卡尔乘积,得到第二拼音侯选集;基于所述第二拼音侯选集构造查询query;将查询query在倒排索引中进行查询,获得可能性有高到低的候选地名并展示给用户。根据本发明,能够提高语音识别的准确性。
Description
技术领域
本发明涉及语音识别技术,具体地涉及一种语音识别纠错方法以及语音识别纠错系统。
背景技术
语音识别是将声音识别成文字的过程,中文语音识别是根据说话人的发音将语音转换成中文文字。但是由于个人发音差异,不规范的中文拼音会造成语音识别的正确率打打降低。
当将语音识别应用在车辆导航场景的情况下下,语音对话系统会先将语音转换为文字,然后进行语义理解,识别出地名,查询地名的具体信息,并进行导航。然而,由于说话人发音区别很大,地名较多以及同音字等原因,语音识别出来的地名在某些时候会出现错误,从而导致用户无法找到正确的地点。例如在下表1中表示了3种识别错误:
同音字 | “导航到嘉亭荟”→“导航到家庭会” |
前后鼻音 | “导航到星光佳园”→“导航到新光家园” |
平卷舌 | “导航到紫荆一村”→“导航到只进一村” |
表1
发明内容
鉴于所述问题,本发明旨在提供一种能够提高语音识别正确率的语音识别地名纠错系统以及语音识别地名纠错方法。
本发明一方面的语音识别纠错方法,其特征在于,包括下述步骤:
拼音转换步骤,通过语音识别和语义理解提取将语音信息转换为拼音;
第一拼音侯选集生成步骤,拆分所述拼音,得到N个拼音列表,将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集,其中,N为自然数;
过滤步骤,对所述第一拼音候选集的拼音进行过滤,过滤去除非法拼音;
第二拼音侯选集生成步骤,将所述过滤步骤输出的拼音进行第二笛卡尔乘积,得到第二拼音侯选集;
查询query生成步骤,基于所述第二拼音侯选集构造查询query;以及
候选地名生成步骤,将查询query在倒排索引中进行查询,获得可能性有高到低的候选地名并展示给用户。
可选地,在所述第一拼音侯选集生成步骤中,拆分所述拼音为声母和韵母,根据相似字典找到相似的声母列表和韵母列表,将声母列表和韵母列表进行笛卡尔乘积生成拼音的候选集。
可选地,在第一拼音侯选集生成步骤中,声母的相似声母列表为:
韵母相似的韵母列表为:
接着,再将和进行第一笛卡尔乘积,生成拼音的相似拼音作为第一拼音候选集,即:
可选地,在所述第二拼音侯选集生成步骤中,将每个拼音的候选集进行第二笛卡尔乘积,得到正确拼音候选集:C=PC1×PC2×...×PCn。
可选地,在所述过滤步骤中,根据拼音字典对所述第一拼音候选集的拼音进行过滤。
可选地,在所述查询query生成步骤中,基于所述第二拼音侯选集,根据下式构造查询query:
其中,should表示或操作,match_phrase指文档中必须包含查询语句中的字符串,weight是查询子句的权重,权重是根据候选拼音与原始拼音的距离计算得来的。
可选地,所述权重如下式所示计算获得:
其中,pi是原始拼音第i个字的拼音,qi是候选拼音第i个字的拼音,d(pi,qi)是pi与qi的距离。d(pi,qi)的值是pi变为qi所要替换声母和韵母的次数。
本发明的一方面的音识别纠错系统,其特征在于,具备:
拼音转换模块,获取语音信息并通过语音识别和语义理解将语音信息转换为拼音;
第一拼音侯选集生成模块,拆分所述拼音,得到N个拼音列表,将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集,其中,N为自然数;
过滤模块,对所述第一拼音候选集的拼音进行过滤,过滤去除非法拼音;
第二拼音侯选集生成模块,将所述过滤模块输出的拼音进行第二笛卡尔乘积,得到第二拼音侯选集;以及
查询query生成模块,基于所述第二拼音侯选集构造查询query;以及
候选生成模块,将查询query在倒排索引中进行查询,获得可能性有高到低的候选信息并展示给用户。
可选地,所述第一拼音侯选集生成模块,拆分所述拼音为声母和韵母,根据相似字典找到相似的声母列表和韵母列表,将声母列表和韵母列表进行笛卡尔乘积生成拼音的候选集,
其中,声母的相似声母列表为:
韵母相似的韵母列表为:
进一步将和进行第一笛卡尔乘积,生成拼音的相似拼音作为第一拼音候选集,即:
可选地,所述第二拼音侯选集生成模块将每个拼音的候选集进行第二笛卡尔乘积,得到正确拼音候选集:C=PC1×PC2×...×PCn。
可选地,所述查询query生成模块基于所述第二拼音侯选集根据下式构造查询query:
其中,should表示或操作,match_phrase指文档中必须包含查询语句中的字符串,weight是查询子句的权重,权重是根据候选拼音与原始拼音的距离计算得来的,
其中,所述权重如下式所示计算获得:
其中,pi是原始拼音第i个字的拼音,qi是候选拼音第i个字的拼音,d(pi,qi)是pi与qi的距离。d(pi,qi)的值是pi变为qi所要替换声母和韵母的次数。
本发明的计算机可读介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现所述的语音识别地错方法。
本发明的计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述的语音识别纠错方法的步骤。
根据本发明的语音识别纠错方法以及语音识别纠错系统,能够对于错误拼音进行过滤,由此能够提高识别的准确性。另一方面,利用第一拼音侯选集生成模块和第二拼音侯选集生成模块能够计算出更多相似拼音,而且利用查询query生成模块和候选地名生成模块够将可能性由高到低的候选地名排列出来,由此,能够方便用户选择并同时通过提高识别的正确性。
附图说明
图1是本发明的一实施方式的语音识别纠错方法的流程图。
图2是表示相似字典的示例。
图3是表示拼音字典的示例。
图4是本发明的一实施方式的语音识别纠错系统的构造示意图。
具体实施方式
下面介绍的是本发明的多个实施例中的一些,旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。
在以下的说明中,对于本发明的语音识别纠错方法以及语音识别纠错系统,以将它们应用到地名的识别纠错的场景为例进行说明。当然,本发明的语音识别纠错方法以及语音识别纠错系统不仅可以适用于地名的语音识别纠错,还可以适用于其他场景,例如网上搜索引导、购物导向等各种各样的场景。
图1是本发明的一实施方式的语音识别纠错方法的流程图。
如图1所示,本发明的一实施方式的语音识别纠错方法包括下述步骤:
拼音转换步骤S100:通过语音识别和语义理解提取地名并将地名转换为地名拼音,具体地,例如,“上海滩”转换为拼音后得到一个拼音串:“shang hai tan”;
第一拼音侯选集生成步骤S200:拆分所述地名拼音,得到N个拼音列表,将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集,其中,N为自然数,具体地,例如,在拼音转换步骤S100中转换为“shang hai tan”的这个拼音串包含三个字的拼音,这里对这三个拼音的每一个拼音求得候选集,因为sh和s相似,ang和an相似(从相似字典中获取),因此shang对应的候选有sang,shan,san,同样还可以计算出hai没有其他候选,tan的候选有tang,这样就生成了每个拼音的候选列表;
过滤步骤S300:对所述第一拼音候选集的拼音进行过滤,过滤去除非法拼音;第二拼音侯选集生成步骤S400:将所述过滤步骤输出的拼音进行第二笛卡尔乘积,得到第二拼音侯选集,具体地,例如,“shang hai tan”这个拼音串整体的候选:sang hai tan、shanhai tan、san hai tan、shang hai tang、sang hai tang、shan hai tang、san hai tang;
查询query生成步骤S500:基于所述第二拼音侯选集构造查询query(即指“查询语句”);以及
候选地名生成步骤S600:将查询query在倒排索引中进行查询,获得可能性有高到低的候选地名并展示给用户。
接着,对于上述步骤进行具体说明。
在拼音转换步骤S100中,通过语音识别和语义理解提取地名并将地名转换为地名拼音,例如我们构造文档D=(name,pinyin),该文档有两个属性,地名以及地名对应的拼音。文档示例如下表2:
D<sub>1</sub>:(嘉亭荟,jia ting hui) |
D<sub>2</sub>:(星光佳园,xing guang jia yuan) |
D<sub>3</sub>:(紫荆一村,zi jing yi cun) |
表2
根据拼音构造倒排索引,此过程可以借助现有资源的搜索引擎来进行,如:elastic search,将所有的地名以上述方式构造文档,并进行索引。
接着,在第一拼音侯选集生成步骤S200中,从语音对话系统的语义理解结果中,提取出地名之后,将地名转换为拼音corg。然后,拆分地名拼音,得到一个拼音的列表:P=[p1,p2,...,pn]。
对于每一个拼音pk,将声母和韵母拆分开,生成声母以及韵母根据声母和韵母,在相似字典中找到声母的相似声母列表:
以及
韵母相似的韵母列表:
其中,相似字典例如可以是以文件的形式存储在磁盘或者数据库中,系统会读取文件,加载相似字典。字典的每一条记录是一个键值对,键是一个声母(或韵母),值是与其相似的声母(或韵母)。相似字典的示例请参见图2,字典中目前有常见的近似音,比如:z和zh,c和ch等。
接着,再将和进行第一笛卡尔乘积,生成拼音的相似拼音,即生成候选集:
由于生成的候选集里面的拼音并不是所有的都是合法拼音,因此需要对非法拼音进行过滤。因此,在过滤步骤S300中对生成的候选集的拼音进行过滤,过滤去除非法拼音。此过滤步骤可以通过拼音字典进行。其中,拼音字典可以例如是以文件的形式存储在磁盘或者数据库中,系统会读取文件,加载拼音字典。字典中包含了所有合法的汉语拼音,字典的每一条记录就是一个合法的汉语拼音。拼音字典的示例请参见图3。
接着,在第二拼音侯选集生成步骤S400中,将每个拼音的候选集进行第二笛卡尔乘积,得到正确地名拼音候选集:
C=PC1×PC2×...×PCn。
最后,在查询query生成步骤S500中,对于上述步骤计算出的地名拼音候选集,根据候选集构造查询query去倒排索引查询对应的文档。构造query的时候,是将每个候选拼音进行或操作,且每个候选拼音的权重也是不一样的。与原始地名拼音距离越近的候选拼音,更有可能是正确的地名拼音,因此权重越高。这里,在本实施方式中构造query示例如下:
其中,should表示或操作,match_phrase指文档中必须包含查询语句中的字符串,在这里指的是文档的拼音字段必须包含查询子句中的拼音字段。weight是查询子句的权重,权重是根据候选拼音与原始地名拼音的距离计算得来的。其中,该距离的计算采用如下公式进行:
其中,pi是原始地名拼音第i个字的拼音,qi是候选地名拼音第i个字的拼音,d(pi,qi)是pi与qi的距离。d(pi,qi)的值是pi变为qi所要替换声母和韵母的次数。
接着,对于用计算机代码实现上述的公式的过程进行举例说明。算法distance(corg,c)的具体代码实现过程如下:
最后,在候选地名生成步骤S600中,将query在倒排索引中进行查询,就可以获取到可能性由高到低的候选地名列表,可以将候选地名列表展示出来之后,用户就可以选择正确的地名,从而进行纠错。
以上对于发明的一实施方式的语音识别地名纠错方法进行了具体说明。接着,对于本发明的一实施方式的语音识别地名纠错系统进行说明。
图4是本发明的一实施方式的语音识别地名纠错系统的构造示意图。
如图4所示,本发明的一实施方式的语音识别地名纠错系统具备:
拼音转换模块100,用于获取语音信息并通过语音识别和语义理解从语音信息中提取地名并将地名转换为地名拼音,具体地,例如,“上海滩”转换为拼音后得到一个拼音串:“shang hai tan”;
第一拼音侯选集生成模块200,用于拆分所述地名拼音并得到N个拼音列表,将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集,其中,N为自然数,具体地例如,在拼音转换步骤S100中转换为“shang hai tan”的这个拼音串包含三个字的拼音,这里对这三个拼音的每一个拼音求得候选集,因为sh和s相似,ang和an相似(从相似字典中获取),因此shang对应的候选有sang,shan,san,同样还可以计算出hai没有其他候选,tan的候选有tang,这样就生成了每个拼音的候选列表;
过滤模块300,用于对所述第一拼音候选集的拼音进行过滤并去除非法拼音;
第二拼音侯选集生成模块400,用于将所述过滤模块输出的拼音进行第二笛卡尔乘积,得到第二拼音侯选集,具体地,例如,“shang hai tan”这个拼音串整体的候选:sanghai tan、shan hai tan、san hai tan、shang hai tang、sang hai tang、shan hai tang、san hai tang;以及
查询query生成模块500,用于基于所述第二拼音侯选集构造查询query;以及
候选地名生成模块600,用于将查询query在倒排索引中进行查询,获得可能性有高到低的候选地名并展示给用户。
其中,第一拼音侯选集生成模块200拆分地名拼音为声母和韵母,根据相似字典找到相似的声母列表和韵母列表,将声母列表和韵母列表进行笛卡尔乘积生成拼音的候选集,
其中,声母的相似声母列表为:
韵母相似的韵母列表为:
进一步将和进行第一笛卡尔乘积,生成拼音的相似拼音作为第一拼音候选集,即:
进一步,第二拼音侯选集生成模块400将每个拼音的候选集进行第二笛卡尔乘积,得到正确地名拼音候选集:C=PC1×PC2×...×PCn。
再者,查询query生成模块500基于第二拼音侯选集根据下式构造查询query:
其中,should表示或操作,match_phrase指文档中必须包含查询语句中的字符串,weight是查询子句的权重,权重是根据候选拼音与原始地名拼音的距离计算得来的,
其中,所述权重如下式所示计算获得:
其中,pi是原始地名拼音第i个字的拼音,qi是候选地名拼音第i个字的拼音,d(pi,qi)是pi与qi的距离。d(pi,qi)的值是pi变为qi所要替换声母和韵母的次数。
本发明的语音识别地名纠错系统利用过滤模块300能够对于错误拼音进行过滤,由此能够提高识别的准确性。另一方面,利用第一拼音侯选集生成模块200和第二拼音侯选集生成模块400能够计算出更多相似拼音,进一步,利用查询query生成模块500和候选地名生成模块600能够将可能性由高到低的候选地名排列出来,由此,能够方便用户选择并同时通过提高识别的正确性。
再者,本发明提供一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述语音识别地名纠错方法。
再者,本发明提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行上述计算机程序时实现上述语音识别地名纠错方法。
作为计算机可读介质,存在磁性记录装置、光盘、光磁记录介质、半导体存储器等。对于磁性记录装置,存在HDD、FD、磁带等。对于光盘,存在DVD(Digital Versatile Disc,数字通用光盘)、DVD-RAM、CD-ROM、CD-R(Recordable,可记录)/RW(ReWritable,可重写)等。对于光磁记录装置,存在MO(Magneto Optical disk,磁光盘)等。
以上例子主要说明了本发明的语音识别地名纠错系统以及语音识别地名纠错方法。尽管只对其中一些本发明的具体实施方式进行了描述,但是本领域普通技术人员应当了解,本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此,所展示的例子与实施方式被视为示意性的而非限制性的,在不脱离如所附各权利要求所定义的本发明精神及范围的情况下,本发明可能涵盖各种的修改与替换。
Claims (13)
1.一种语音识别纠错方法,其特征在于,包括下述步骤:
拼音转换步骤,将语音信息转换为拼音;
第一拼音侯选集生成步骤,拆分所述拼音,得到N个拼音列表,将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集,其中,N为自然数;
过滤步骤,对所述第一拼音候选集的拼音进行过滤,以去除非法拼音;
第二拼音侯选集生成步骤,将所述过滤步骤输出的拼音进行第二笛卡尔乘积,得到第二拼音侯选集;
查询query生成步骤,基于所述第二拼音侯选集构造查询query;以及
候选信息生成步骤,将查询query在倒排索引中进行查询,获得可能性有高到低的候选信息并展示给用户。
2.如权利要求1所述的语音识别纠错方法,其特征在于,
在所述第一拼音侯选集生成步骤中,拆分所述拼音为声母和韵母,根据相似字典找到相似的声母列表和韵母列表,将声母列表和韵母列表进行笛卡尔乘积生成拼音的候选集。
3.如权利要求2所述的语音识别纠错方法,其特征在于,
在第一拼音侯选集生成步骤中,声母的相似声母列表为:
韵母相似的韵母列表为:
接着,再将和进行第一笛卡尔乘积,生成拼音的相似拼音作为第一拼音候选集,即:
4.如权利要求3中所述的语音识别纠错方法,其特征在于,
在所述第二拼音侯选集生成步骤中,将每个拼音的候选集进行第二笛卡尔乘积,得到正确拼音候选集:C=PC1×PC2×...×PCn。
5.如权利要求3中所述的语音识别纠错方法,其特征在于,
在所述过滤步骤中,根据拼音字典对所述第一拼音候选集的拼音进行过滤。
6.如权利要求5中所述的语音识别纠错方法,其特征在于,
在所述查询query生成步骤中,基于所述第二拼音侯选集,根据下式构造查询query:
其中,should表示或操作,match_phrase指文档中必须包含查询语句中的字符串,weight是查询子句的权重,权重是根据候选拼音与原始拼音的距离计算得来的。
7.如权利要求6中所述的语音识别纠错方法,其特征在于,
所述权重如下式所示计算获得:
其中,pi是原始拼音第i个字的拼音,qi是候选拼音第i个字的拼音,d(pi,qi)是pi与qi的距离。d(pi,qi)的值是pi变为qi所要替换声母和韵母的次数。
8.一种语音识别纠错系统,其特征在于,具备:
拼音转换模块,获取语音信息并、解将语音信息转换为拼音;
第一拼音侯选集生成模块,拆分所述拼音,得到N个拼音列表,将N个拼音列表进行第一笛卡尔乘积生成第一拼音候选集,其中,N为自然数;
过滤模块,对所述第一拼音候选集的拼音进行过滤,过滤去除非法拼音;
第二拼音侯选集生成模块,将所述过滤模块输出的拼音进行第二笛卡尔乘积,得到第二拼音侯选集;以及
查询query生成模块,基于所述第二拼音侯选集构造查询query;以及
候选信息生成模块,将查询query在倒排索引中进行查询,获得可能性有高到低的候选信息并展示给用户。
9.如权利要求8所述的语音识别纠错系统,其特征在于,
所述第一拼音侯选集生成模块,拆分所述拼音为声母和韵母,根据相似字典找到相似的声母列表和韵母列表,将声母列表和韵母列表进行笛卡尔乘积生成拼音的候选集,
其中,声母的相似声母列表为:
韵母相似的韵母列表为:
进一步将和进行第一笛卡尔乘积,生成拼音的相似拼音作为第一拼音候选集,即:
10.如权利要求9中所述的语音识别纠错系统,其特征在于,
所述第二拼音侯选集生成模块将每个拼音的候选集进行第二笛卡尔乘积,得到正确拼音候选集:C=PC1×PC2×...×PCn。
11.如权利要求10中所述的语音识别纠错系统,其特征在于,
所述查询query生成模块基于所述第二拼音侯选集根据下式构造查询query:
其中,should表示或操作,match_phrase指文档中必须包含查询语句中的字符串,weight是查询子句的权重,权重是根据候选拼音与原始拼音的距离计算得来的,
其中,所述权重如下式所示计算获得:
其中,pi是原始拼音第i个字的拼音,qi是候选拼音第i个字的拼音,d(pi,qi)是pi与qi的距离。d(pi,qi)的值是pi变为qi所要替换声母和韵母的次数。
12.一种计算机可读介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1~7中任意一项所述的语音识别地错方法。
13.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1~7中任意一项所述的语音识别纠错方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711121071.7A CN109785842B (zh) | 2017-11-14 | 2017-11-14 | 语音识别纠错方法以及语音识别纠错系统 |
EP18879061.2A EP3779970B1 (en) | 2017-11-14 | 2018-11-09 | Voice recognition and error correction method and voice recognition and error correction system |
PCT/CN2018/114792 WO2019096068A1 (zh) | 2017-11-14 | 2018-11-09 | 语音识别纠错方法以及语音识别纠错系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711121071.7A CN109785842B (zh) | 2017-11-14 | 2017-11-14 | 语音识别纠错方法以及语音识别纠错系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109785842A true CN109785842A (zh) | 2019-05-21 |
CN109785842B CN109785842B (zh) | 2023-09-05 |
Family
ID=66493449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711121071.7A Active CN109785842B (zh) | 2017-11-14 | 2017-11-14 | 语音识别纠错方法以及语音识别纠错系统 |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP3779970B1 (zh) |
CN (1) | CN109785842B (zh) |
WO (1) | WO2019096068A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489754A (zh) * | 2019-08-20 | 2019-11-22 | 杭州数澜科技有限公司 | 快速生成标准语料的方法和系统 |
CN110534112A (zh) * | 2019-08-23 | 2019-12-03 | 王晓佳 | 基于位置与时间的分布式语音识别纠错装置及方法 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110797049B (zh) * | 2019-10-17 | 2022-06-07 | 科大讯飞股份有限公司 | 一种语音评测方法及相关装置 |
CN113539247B (zh) * | 2020-04-14 | 2024-06-18 | 京东科技控股股份有限公司 | 语音数据处理方法、装置、设备及计算机可读存储介质 |
CN111611792B (zh) * | 2020-05-21 | 2023-05-23 | 全球能源互联网研究院有限公司 | 一种语音转录文本的实体纠错方法及系统 |
CN112133295B (zh) * | 2020-11-09 | 2024-02-13 | 北京小米松果电子有限公司 | 语音识别方法、装置及存储介质 |
CN114398888B (zh) * | 2022-01-07 | 2024-06-18 | 北京明略软件系统有限公司 | 生成声母韵母向量的方法、装置、电子设备及存储介质 |
CN115019786A (zh) * | 2022-05-23 | 2022-09-06 | 支付宝(杭州)信息技术有限公司 | 模型训练方法和装置及语音含义的理解方法和装置 |
CN115579009B (zh) * | 2022-12-06 | 2023-04-07 | 广州小鹏汽车科技有限公司 | 语音交互方法、服务器及计算机可读存储介质 |
CN116227468B (zh) * | 2023-01-06 | 2023-10-31 | 杭州健海科技有限公司 | 基于拼音转写翻译的语音识别模型纠错训练方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150325240A1 (en) * | 2014-05-06 | 2015-11-12 | Alibaba Group Holding Limited | Method and system for speech input |
CN105302795A (zh) * | 2015-11-11 | 2016-02-03 | 河海大学 | 基于汉语模糊发音和语音识别的中文文本校验系统及方法 |
CN105975625A (zh) * | 2016-05-26 | 2016-09-28 | 同方知网数字出版技术股份有限公司 | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 |
CN106297799A (zh) * | 2016-08-09 | 2017-01-04 | 乐视控股(北京)有限公司 | 语音识别处理方法及装置 |
CN107305768A (zh) * | 2016-04-20 | 2017-10-31 | 上海交通大学 | 语音交互中的易错字校准方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101067780B (zh) * | 2007-06-21 | 2010-06-02 | 腾讯科技(深圳)有限公司 | 智能设备的文字输入系统及方法 |
CN101825953A (zh) * | 2010-04-06 | 2010-09-08 | 朱建政 | 一种语音输入和拼音输入相结合的中文输入法产品 |
CN105632499B (zh) * | 2014-10-31 | 2019-12-10 | 株式会社东芝 | 用于优化语音识别结果的方法和装置 |
CN107016994B (zh) * | 2016-01-27 | 2020-05-08 | 阿里巴巴集团控股有限公司 | 语音识别的方法及装置 |
-
2017
- 2017-11-14 CN CN201711121071.7A patent/CN109785842B/zh active Active
-
2018
- 2018-11-09 EP EP18879061.2A patent/EP3779970B1/en active Active
- 2018-11-09 WO PCT/CN2018/114792 patent/WO2019096068A1/zh unknown
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150325240A1 (en) * | 2014-05-06 | 2015-11-12 | Alibaba Group Holding Limited | Method and system for speech input |
CN105302795A (zh) * | 2015-11-11 | 2016-02-03 | 河海大学 | 基于汉语模糊发音和语音识别的中文文本校验系统及方法 |
CN107305768A (zh) * | 2016-04-20 | 2017-10-31 | 上海交通大学 | 语音交互中的易错字校准方法 |
CN105975625A (zh) * | 2016-05-26 | 2016-09-28 | 同方知网数字出版技术股份有限公司 | 一种面向英文搜索引擎的中式英文查询纠错方法和系统 |
CN106297799A (zh) * | 2016-08-09 | 2017-01-04 | 乐视控股(北京)有限公司 | 语音识别处理方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110489754A (zh) * | 2019-08-20 | 2019-11-22 | 杭州数澜科技有限公司 | 快速生成标准语料的方法和系统 |
CN110489754B (zh) * | 2019-08-20 | 2023-01-03 | 杭州数澜科技有限公司 | 快速生成标准语料的方法和系统 |
CN110534112A (zh) * | 2019-08-23 | 2019-12-03 | 王晓佳 | 基于位置与时间的分布式语音识别纠错装置及方法 |
Also Published As
Publication number | Publication date |
---|---|
EP3779970A1 (en) | 2021-02-17 |
EP3779970A4 (en) | 2022-03-09 |
WO2019096068A1 (zh) | 2019-05-23 |
EP3779970B1 (en) | 2023-01-25 |
CN109785842B (zh) | 2023-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109785842A (zh) | 语音识别纠错方法以及语音识别纠错系统 | |
US7979268B2 (en) | String matching method and system and computer-readable recording medium storing the string matching method | |
US8117026B2 (en) | String matching method and system using phonetic symbols and computer-readable recording medium storing computer program for executing the string matching method | |
KR101083540B1 (ko) | 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법 | |
KR101762866B1 (ko) | 구문 구조 변환 모델과 어휘 변환 모델을 결합한 기계 번역 장치 및 기계 번역 방법 | |
US8356032B2 (en) | Method, medium, and system retrieving a media file based on extracted partial keyword | |
WO2016151700A1 (ja) | 意図理解装置、方法およびプログラム | |
US20120179694A1 (en) | Method and system for enhancing a search request | |
KR101797125B1 (ko) | 다국어 사업 표시 큐레이션 및 음역 합성 | |
JP6505421B2 (ja) | 情報抽出支援装置、方法およびプログラム | |
JP6549563B2 (ja) | 内容ベースの医療マクロのソート及び検索システムのためのシステム及び方法 | |
JP2019082931A (ja) | 検索装置、類似度算出方法、およびプログラム | |
TW202121230A (zh) | 自然語言處理方法與其計算裝置 | |
JP6275569B2 (ja) | 対話装置、方法およびプログラム | |
JP5642037B2 (ja) | 検索装置、検索方法およびプログラム | |
Koprivová et al. | MAPPING DIATOPIC AND DIACHRONIC VARIATION IN SPOKEN CZECH: THE ORTOFON AND DIALEKT CORPORA. | |
WO2020012813A1 (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP2008059389A (ja) | 語彙候補出力システム、語彙候補出力方法及び語彙候補出力プログラム | |
JP5248121B2 (ja) | 愛称を推定する装置、方法およびプログラム | |
JP2007200252A (ja) | 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体 | |
JP6881077B2 (ja) | 判別プログラム、判別装置及び判別方法 | |
JP5436685B2 (ja) | パーティクルのセットを変換するための方法、およびパーティクルの出力セットを生成する方法 | |
Lindh et al. | The SweDat project and SweDia database for phonetic and acoustic research | |
JP2018055328A (ja) | 対訳文抽出装置、対訳文抽出方法およびプログラム | |
JP4941495B2 (ja) | ユーザ辞書作成システム、方法、及び、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20200810 Address after: Susong Road West and Shenzhen Road North, Hefei Economic and Technological Development Zone, Anhui Province Applicant after: Weilai (Anhui) Holding Co.,Ltd. Address before: Room 502, Minsheng Bank Building, 12 Cecil Harcourt Road, central, Hongkong, China Applicant before: NIO NEXTEV Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |