CN111898342A - 一种基于编辑距离的中文发音校验方法 - Google Patents
一种基于编辑距离的中文发音校验方法 Download PDFInfo
- Publication number
- CN111898342A CN111898342A CN202010757493.9A CN202010757493A CN111898342A CN 111898342 A CN111898342 A CN 111898342A CN 202010757493 A CN202010757493 A CN 202010757493A CN 111898342 A CN111898342 A CN 111898342A
- Authority
- CN
- China
- Prior art keywords
- chinese
- verified
- pronunciation
- word
- pinyin
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000012795 verification Methods 0.000 title claims abstract description 29
- 238000000034 method Methods 0.000 title claims abstract description 26
- 230000014509 gene expression Effects 0.000 claims abstract description 11
- 238000013461 design Methods 0.000 abstract description 10
- 230000015572 biosynthetic process Effects 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 241001672694 Citrus reticulata Species 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 101150071434 BAR1 gene Proteins 0.000 description 1
- 102100040805 CREB/ATF bZIP transcription factor Human genes 0.000 description 1
- 101100285402 Danio rerio eng1a gene Proteins 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 101000964541 Homo sapiens CREB/ATF bZIP transcription factor Proteins 0.000 description 1
- 241001122767 Theaceae Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种基于编辑距离的中文发音校验方法,采用全新策略设计,针对来自待验证中文发音词的待验证中文文本,获得预设拼音规则下所对应的待验证标准拼音格式,以及其拓展的标准拼音格式,并基于元音、辅音的二维向量表示,以及标准拼音格式的表示方法,获得待验证中文文本及其拓展标准拼音格式分别所对应的数学表示,并选取待验证中文文本及其拓展标准拼音分别和预设目标标准拼音之间的最小编辑距离,作为待验证中文发发音词和目标真实词之间的编辑距离,最后结合预设距离阈值,实现待验证中文发音词相较目标真实词相似度结果的验证,能够有效解决中文场景中信息校验的准确性,保证智能语音对话的稳定性。
Description
技术领域
本发明涉及一种基于编辑距离的中文发音校验方法,属于智能语音对话技术领域。
背景技术
智能语音对话系统,又称为智能会话Agent或者智能聊天系统。是指通过人工智能技术,以语音识别、自然语言处理和语音合成技术为基础,实现与人类进行语言交互的系统。智能语音对话系统从应用场景上主要分为任务导向型对话系统和非任务导向型对话系统,典型的任务导向型对话系统如智能语音助手、智能电话外呼系统,典型的非任务导向型系统如智能音箱、聊天机器人等。
传统智能语音对话系统的人机交互链路主要包含语音识别、语义理解和语音合成三个阶段。语音识别就是把用户说的语音转化为对应的文字;语义理解就是从用户表述的文字级对话上下文等信息中提取用户的意图,并产生应材料答的文本;语音合成是指将回应的文本转化为语音并播放给用户。语音识别和语音合成技术具备较强的通用性,即智能语音对话系统的类型和应用领域的不同、甚至交互话术模版的配置不会对其效果造成较大的影响。
在智能语音对话系统中,语义理解的一种常见应用场景是需要校验用户说的话中的某个关键信息是否符合一个预期值。例如,人物名称校验,公司名称校验,卡号校验等。但是在电话传输的语音系统中,ASR在识别用户说的话并转换为文字的过程中,是存在一定的误差的,特别是在没有特殊含义的短句中。例如用户说的话是“我的名字叫张三丰”,而经过ASR系统识别转成的文本数据可能是“我的名字叫张山分”,如果仅通过文本或者拼音是否相同来判断用户说的话是否符合预期,那么有很大的可能性导致极低的校验准确率。于是业内提出了通过文本和预期文本的发音相似度来判断。目前针对中文相似度的算法中,涉及到中文汉字的拼音,音调,偏旁结构等。但是在智能对话系统中,文本数据是通过ASR系统识别获得,文字的结构本身并不具备可参考性。而针对拼音的相似度的算法中,比较传统多见的方式是编辑距离(Edit Distance或Levenshtein Distance),它考虑了三种编辑操作——插入(Insertion),删除(Deletion)和替换(Substitution),用将一个字符串转换成另一个字符串所需要的最少编辑操作的数量作为这两个字符串的相似度,但是编辑距离只能体现出拼音文本上的差别,若是将汉字转化成拼音(数字代表的是拼音的音调),那么上述编辑距离的算法将不能很好的表现中文发音的相似度。例如:“胖”(pang4)和“棒”(bang4)和“忘”(wang4),彼此拼音的编辑距离是一样的,但是很明显,他们在发音上‘pang4’和‘bang4’的发音更为相似,但是前两者的发音和‘wang4’的发音是有较大的区别的,从而通过拼音编辑距离的相似度作为中文发音的相似度,是具有一定的局限性的。
发明内容
本发明所要解决的技术问题是提供一种基于编辑距离的中文发音校验方法,采用全新策略设计,能够有效解决中文场景中信息校验的准确性,保证智能语音对话的稳定性。
本发明为了解决上述技术问题采用以下技术方案:本发明设计了一种基于编辑距离的中文发音校验方法,用于针对待验证中文发音词,实现其相较目标真实词的相似度验证,包括如下步骤:
步骤A.获得待验证中文发音词所对应的待验证中文文本,然后进入步骤B;
步骤B.判断待验证中文文本所对应的字符串长度与待验证中文文本所对应的字符串长度是否相等,是则进入步骤C;否则判定待验证中文发音词相较目标真实词校验失败;
步骤C.按预设拼音规则,获得待验证中文文本所对应的待验证标准拼音格式,然后进入步骤D;
步骤D.基于标准拼音格式的数学表示,计算获得待验证标准拼音格式与目标真实词所对应预设目标标准拼音格式之间的编辑距离,即待验证中文发音词与目标真实词之间的编辑距离,两者之间的编辑距离越短,表示两者之间的相似度越高,然后进入步骤E;
步骤E.判断待验证中文发音词与目标真实词之间的编辑距离,是否小于预设距离阈值,是则判定待验证中文发音词相较目标真实词的相似度验证通过,否则判定待验证中文发音词相较目标真实词的相似度验证不通过。
作为本发明的一种优选技术方案:所述步骤C中,基于单个中文字符由辅音+元音+音调的组成格式,表示单个中文字符所对应的标准拼音格式,进而获得待验证中文文本所对应的待验证标准拼音格式;其中:
若中文字符的音调为轻声,则应用预设除1、2、3、4以外的数字表示该中文字符所对应的音调;
若中文字符的拼音中没有辅音,则应用空字符串替代该中文字符所对应的辅音;
若中文字符为多音字,则应用该中文字符各种发音分别所对应的标准拼音格式,共同表示该中文字符所对应的标准拼音格式。
作为本发明的一种优选技术方案:所述步骤C中,获得待验证中文文本所对应的待验证标准拼音格式后,根据预设拼音拓展表中各元音拓展形式、各辅音拓展形式、以及各完整拼音拓展形式,进一步获得该待验证标准拼音格式所对应的各种标准拼音拓展格式,进而将该各种标准拼音拓展格式、以及该待验证标准拼音格式共同作为待验证中文文本所对应的各个待验证标准拼音格式,然后进入步骤D;
所述步骤D中,计算获得各个待验证标准拼音格式分别与目标真实词所对应预设目标标准拼音格式之间的编辑距离,并选择其中最小编辑距离作为待验证中文发音词与目标真实词之间的编辑距离。
作为本发明的一种优选技术方案:所述待验证中文发音词位于待验证中文发音短句中,所述步骤A中,首先获得待验证中文发音短句所对应的中文短句文本,然后针对中文短句文本进行提槽操作,获得中文短句文本当中的中文关键词,即待验证中文发音词所对应的待验证中文文本。
作为本发明的一种优选技术方案:所述待验证中文发音词所对应待验证中文文本的获得、所述待验证中文发音短句所对应中文短句文本的获得,均应用语音识别ASR系统进行识别获得。
本发明所述一种基于编辑距离的中文发音校验方法,采用以上技术方案与现有技术相比,具有以下技术效果:
本发明所设计基于编辑距离的中文发音校验方法,采用全新策略设计,针对来自待验证中文发音词的待验证中文文本,获得预设拼音规则下所对应的待验证标准拼音格式,以及其拓展的标准拼音格式,并基于元音、辅音的二维向量表示,以及标准拼音格式的表示方法,获得待验证中文文本及其拓展标准拼音格式分别所对应的数学表示,并选取待验证中文文本及其拓展标准拼音分别和预设目标标准拼音之间的最小编辑距离,作为待验证中文发发音词和目标真实词之间的编辑距离,最后结合预设距离阈值,实现待验证中文发音词相较目标真实词相似度结果的验证,能够有效解决中文场景中信息校验的准确性,保证智能语音对话的稳定性。
附图说明
图1是本发明设计基于编辑距离的中文发音校验方法的流程示意图;
图2是本发明设计基于编辑距离的中文发音校验方法的应用模块示意图。
具体实施方式
下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。
本发明设计了一种基于编辑距离的中文发音校验方法,用于针对待验证中文发音词,实现其相较目标真实词的相似度验证,实际应用当中,待验证中文发音词来自待验证中文发音短句中,如图1所示,具体执行如下步骤A至步骤E。
步骤A.首先应用语音识别ASR系统对待验证中文发音短句进行识别,获得待验证中文发音短句所对应的中文短句文本,然后针对中文短句文本进行提槽操作,获得中文短句文本当中的中文关键词,即待验证中文发音词所对应的待验证中文文本,然后进入步骤B。
步骤B.判断待验证中文文本所对应的字符串长度与待验证中文文本所对应的字符串长度是否相等,是则进入步骤C;否则判定待验证中文发音词相较目标真实词校验失败。
步骤C.按如下预设三个拼音规则,基于单个中文字符由辅音+元音+音调的组成格式,表示单个中文字符所对应的标准拼音格式,进而获得待验证中文文本所对应的待验证标准拼音格式,然后进入步骤D,实际应用中,诸如普通中文“上”对应的拼音格式为“shang4”。
规则一.若中文字符的音调为轻声,则应用预设除1、2、3、4以外的数字表示该中文字符所对应的音调,例如中文‘东西’拼音为‘d ong 1x i 5’。
规则二.若中文字符的拼音中没有辅音,则应用空字符串替代该中文字符所对应的辅音,例如中文‘啊’其拼音可以表示为‘a 1’。
规则三.若中文字符为多音字,则应用该中文字符各种发音分别所对应的标准拼音格式,共同表示该中文字符所对应的标准拼音格式,例如‘行’,拼音记录为[‘x ing 2,’hang 2’],当这样的词参与到词组中时,例如‘银行’,那么该词组的拼音格式为[‘y in 2hang 2’,‘y in 2x ing 2’]。
基于上述步骤C的设计,获得待验证中文文本所对应的待验证标准拼音格式,例如“上升”对应的标准拼音格式为“sh ang 4sh eng 1”。
步骤D.基于中文文本的准拼音格式的数学表示,并计算获得待验证标准拼音格式、以及目标真实词所对应预设目标标准拼音格式分别所对应的数学表示,计算获得待验证标准拼音格式与目标真实词所对应预设目标标准拼音格式之间的编辑距离,即待验证中文发音词与目标真实词之间的编辑距离,两者之间的编辑距离越短,表示两者之间的相似度越高,然后进入步骤E。
关于这里标准拼音格式的数学表示,例如,“肥胖”本身的标准拼音格式的数学表示为:[[(7.0,4.0),(40,4.0),2],[(1.0,1.5),(1.0,1.5),4]]。
上述步骤C至步骤D是基于获得待验证中文文本对应一个待验证标准拼音格式的情况,所执行的应用过程,但是实际应用当中的中文场景中,存在多音字的情况,以及部分地区不区分平舌音和翘舌音,前鼻音和后鼻音,‘n’和‘l’不分等诸多不符合普通话的发音标准的情形。为了解决这个问题,本发明进一步提出了中文的拼音拓展形式,拼音的拓展形式主要是为了解决因中文地区发音和普通话发音不一致而引起的识别错误,在具体的设计执行当中,首先需要建立拼音拓展表,如下表1所示。
表1
该拼音拓展表,仅作为中文拼音中常见的易混淆音,在实际的智能对话场景中,可以根据客户所在区域的特征,调整该拓展词表。
为了更好的描述该拼音拓展表的应用,诸如中文字符“张慧”,首先将其转换为真实的中文拼音格式:“zh ang 1 h ui 4”,依据拓展词表,可以将‘zh’和‘z’拓展,‘ang’和‘an’拓展,‘hui’和‘fei’拓展,从而可以得到最终的拓展拼音如下:
拓展拼音Spy1:‘zh ang 1 h ui 4’
拓展拼音Spy2:‘z ang 1 h ui 4’
拓展拼音Spy3:‘zh ang 1 f ei 4’
拓展拼音Spy4:‘z ang 1 f ei 4’
拓展拼音Spy5:‘zh an 1 h ui 4’
拓展拼音Spy6:‘z an 1 h ui 4’
拓展拼音Spy7:‘zh an 1 f ei 4’
拓展拼音Spy8:‘z an 1 f ei 4’
基于上述关于中文拼音拓展形式的思考,针对上述步骤C的实际应用,进一步设计在获得待验证中文文本所对应的待验证标准拼音格式后,根据预设拼音拓展表中各元音拓展形式、各辅音拓展形式、以及各完整拼音拓展形式,进一步获得该待验证标准拼音格式所对应的各种标准拼音拓展格式,进而将该各种标准拼音拓展格式、以及该待验证标准拼音格式共同作为待验证中文文本所对应的各个待验证标准拼音格式,然后进入步骤D。
基于上述步骤C关于中文拼音拓展形式的延伸拓展,步骤D在实际应用当中,基于待验证标准拼音格式的数学表示,计算获得各个待验证标准拼音格式分别与目标真实词所对应预设目标标准拼音格式之间的编辑距离,并选择其中最小编辑距离作为待验证中文发音词与目标真实词之间的编辑距离,然后进入步骤E。
步骤E.判断待验证中文发音词与目标真实词之间的编辑距离,是否小于预设距离阈值,是则判定待验证中文发音词相较目标真实词的相似度验证通过,否则判定待验证中文发音词相较目标真实词的相似度验证不通过。
实际应用当中,关于步骤E中预设距离阈值的设定是基于实验数据获得。由于上述计算相似度的算法中,可以得知随着中文字符的增加,那么对最终的相似度的值大小也会相应的提升。从而本发明提出,对不同长度的待验证中文发音词采用单独的阈值进行判定。
阈值设定是基于大量的数据进行统计,并经过人工判断,从而获取符合该字符串长度的阈值。该数据主要为四部分,第一为经过提槽功能获取的中文关键词,第二为数据库中对应的目标真实词,第三为中文关键词与目标真实词的发音相似度,第四为人工判断目标真实词与目标真实词是否满足发音相似。如下表2中所示,样例数据是以真实字符长度为3作为样例解释,表中相似度是按照表1进行拼音拓展后计算所得。
提槽关键词 | 真实数据 | 发音相似度(similarity) | 发音相似人工判定结果 |
张三分 | 张三丰 | 0.07936507936507936 | True |
张慧敏 | 张费敏 | 0 | True |
王智慧 | 王志辉 | 0.0004761904761904761 | True |
玩健咖 | 王健康 | 0.6349206349206349 | False |
... | ... | ... | ... |
表2
假设上述数据有n个数据组,取所有发音相似人工判定结果为True的数据组中,取发音相似度(similarity)最大的为符合字符长度为3的相似度阈值。
将本发明所设计基于编辑距离的中文发音校验方法应用于实际当中,结合图2所示,将Ai机器人系统称为A,用户为B。
首先当智能语音对话系统进入某一轮对话,当A询问B:“为安全起见,请问您的姓名是什么”。
此时B通过语音回答A:”我的名字叫张慧”
此时ASR系统会将B的回答转换为中文文本,即“我的名字叫张慧”
因当前场景为名称校验场景,系统会调用关键词提槽功能,对转换后的文本进行关键词提槽,并获取中文关键词“张慧”,即待验证中文文本,并且从数据库中获取该用户B的目标真实词为“张惠”。
如果获取的待验证中文文本的字符串长度与目标真实词的字符串长度不一致,则直接作为校验失败,走相应的对话流程。如果待验证中文文本长度和目标真实词长度相同,则继续进行下一步的相似度的校验。
Ai系统此时会进入分析流程。该分析流程主要经过几个步骤:
生成待验证中文文本“张慧”的各种标准拼音拓展格式,进而将该各种标准拼音拓展格式、以及待验证中文文本的待验证标准拼音格式共同作为待验证中文文本所对应的各个待验证标准拼音格式;
生成目标真实词“张惠”的标准拼音格式,并将其转换为拼音编码
将待验证中文文本所对应的各个待验证标准拼音格式逐个与目标真实词的标准拼音格式计算彼此相似度。
获取上述过程中最小的相似度作为待验证中文文本和目标真实词的发音相似度。
通过判断最终的发音相似度与符合当前关键词长度阈值的大小,从而进入智能对话的相应流程。
本发明所设计基于编辑距离的中文发音校验方法技术方案,采用全新策略设计,针对来自待验证中文发音词的待验证中文文本,获得预设拼音规则下所对应的待验证标准拼音格式,以及其拓展的标准拼音格式,并基于元音、辅音的二维向量表示,以及标准拼音格式的表示方法,获得待验证中文文本及其拓展标准拼音格式分别所对应的数学表示,并选取待验证中文文本及其拓展标准拼音分别和预设目标标准拼音之间的最小编辑距离,作为待验证中文发发音词和目标真实词之间的编辑距离,最后结合预设距离阈值,实现待验证中文发音词相较目标真实词相似度结果的验证,能够有效解决中文场景中信息校验的准确性,保证智能语音对话的稳定性。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (5)
1.一种基于编辑距离的中文发音校验方法,用于针对待验证中文发音词,实现其相较目标真实词的相似度验证,其特征在于,包括如下步骤:
步骤A.获得待验证中文发音词所对应的待验证中文文本,然后进入步骤B;
步骤B.判断待验证中文文本所对应的字符串长度与待验证中文文本所对应的字符串长度是否相等,是则进入步骤C;否则判定待验证中文发音词相较目标真实词校验失败;
步骤C.按预设拼音规则,获得待验证中文文本所对应的待验证标准拼音格式,然后进入步骤D;
步骤D.基于标准拼音格式的数学表示,计算获得待验证标准拼音格式与目标真实词所对应预设目标标准拼音格式之间的编辑距离,即待验证中文发音词与目标真实词之间的编辑距离,两者之间的编辑距离越短,表示两者之间的相似度越高,然后进入步骤E;
步骤E.判断待验证中文发音词与目标真实词之间的编辑距离,是否小于预设距离阈值,是则判定待验证中文发音词相较目标真实词的相似度验证通过,否则判定待验证中文发音词相较目标真实词的相似度验证不通过。
2.根据权利要求1所述一种基于编辑距离的中文发音校验方法,其特征在于:所述步骤C中,基于单个中文字符由辅音+元音+音调的组成格式,表示单个中文字符所对应的标准拼音格式,进而获得待验证中文文本所对应的待验证标准拼音格式;其中:
若中文字符的音调为轻声,则应用预设除1、2、3、4以外的数字表示该中文字符所对应的音调;
若中文字符的拼音中没有辅音,则应用空字符串替代该中文字符所对应的辅音;
若中文字符为多音字,则应用该中文字符各种发音分别所对应的标准拼音格式,共同表示该中文字符所对应的标准拼音格式。
3.根据权利要求1或2所述一种基于编辑距离的中文发音校验方法,其特征在于:所述步骤C中,获得待验证中文文本所对应的待验证标准拼音格式后,根据预设拼音拓展表中各元音拓展形式、各辅音拓展形式、以及各完整拼音拓展形式,进一步获得该待验证标准拼音格式所对应的各种标准拼音拓展格式,进而将该各种标准拼音拓展格式、以及该待验证标准拼音格式共同作为待验证中文文本所对应的各个待验证标准拼音格式,然后进入步骤D;
所述步骤D中,计算获得各个待验证标准拼音格式分别与目标真实词所对应预设目标标准拼音格式之间的编辑距离,并选择其中最小编辑距离作为待验证中文发音词与目标真实词之间的编辑距离。
4.根据权利要求3所述一种基于编辑距离的中文发音校验方法,其特征在于:所述待验证中文发音词位于待验证中文发音短句中,所述步骤A中,首先获得待验证中文发音短句所对应的中文短句文本,然后针对中文短句文本进行提槽操作,获得中文短句文本当中的中文关键词,即待验证中文发音词所对应的待验证中文文本。
5.根据权利要求3所述一种基于编辑距离的中文发音校验方法,其特征在于:所述待验证中文发音词所对应待验证中文文本的获得、所述待验证中文发音短句所对应中文短句文本的获得,均应用语音识别ASR系统进行识别获得。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010757493.9A CN111898342A (zh) | 2020-07-31 | 2020-07-31 | 一种基于编辑距离的中文发音校验方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010757493.9A CN111898342A (zh) | 2020-07-31 | 2020-07-31 | 一种基于编辑距离的中文发音校验方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111898342A true CN111898342A (zh) | 2020-11-06 |
Family
ID=73182770
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010757493.9A Withdrawn CN111898342A (zh) | 2020-07-31 | 2020-07-31 | 一种基于编辑距离的中文发音校验方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111898342A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651854A (zh) * | 2020-12-23 | 2021-04-13 | 讯飞智元信息科技有限公司 | 语音调度方法、装置、电子设备和存储介质 |
CN113051923A (zh) * | 2021-04-22 | 2021-06-29 | 平安普惠企业管理有限公司 | 数据验证方法、装置、计算机设备和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102368271A (zh) * | 2011-11-01 | 2012-03-07 | 无敌科技(西安)有限公司 | 一种带有容错能力的中文内容拼写校正系统及方法 |
CN105302795A (zh) * | 2015-11-11 | 2016-02-03 | 河海大学 | 基于汉语模糊发音和语音识别的中文文本校验系统及方法 |
CN109710929A (zh) * | 2018-12-18 | 2019-05-03 | 金蝶软件(中国)有限公司 | 一种语音识别文本的校正方法、装置、计算机设备和存储介质 |
-
2020
- 2020-07-31 CN CN202010757493.9A patent/CN111898342A/zh not_active Withdrawn
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102368271A (zh) * | 2011-11-01 | 2012-03-07 | 无敌科技(西安)有限公司 | 一种带有容错能力的中文内容拼写校正系统及方法 |
CN105302795A (zh) * | 2015-11-11 | 2016-02-03 | 河海大学 | 基于汉语模糊发音和语音识别的中文文本校验系统及方法 |
CN109710929A (zh) * | 2018-12-18 | 2019-05-03 | 金蝶软件(中国)有限公司 | 一种语音识别文本的校正方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
JIN CHE 等: "A Chinese Text Correction and Intention Identification Method for Speech Interactive Context", 《INTERNATIONAL CONFERENCE ON EDGE COMPUTING》, 16 June 2018 (2018-06-16), pages 127 - 134, XP047475891, DOI: 10.1007/978-3-319-94340-4_10 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112651854A (zh) * | 2020-12-23 | 2021-04-13 | 讯飞智元信息科技有限公司 | 语音调度方法、装置、电子设备和存储介质 |
CN113051923A (zh) * | 2021-04-22 | 2021-06-29 | 平安普惠企业管理有限公司 | 数据验证方法、装置、计算机设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105957518B (zh) | 一种蒙古语大词汇量连续语音识别的方法 | |
US5333275A (en) | System and method for time aligning speech | |
US6910012B2 (en) | Method and system for speech recognition using phonetically similar word alternatives | |
US7668718B2 (en) | Synchronized pattern recognition source data processed by manual or automatic means for creation of shared speaker-dependent speech user profile | |
US8954333B2 (en) | Apparatus, method, and computer program product for processing input speech | |
JP3542026B2 (ja) | 音声認識システム、音声認識方法およびコンピュータ可読な記録媒体 | |
JP2005084681A (ja) | 意味的言語モデル化および信頼性測定のための方法およびシステム | |
KR101424193B1 (ko) | 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법 | |
JP7190283B2 (ja) | 音声認識結果整形モデル学習装置およびそのプログラム | |
CN110852075A (zh) | 自动添加标点符号的语音转写方法、装置及可读存储介质 | |
JP2010256498A (ja) | 変換モデル生成装置、音声認識結果変換システム、方法およびプログラム | |
CN111898342A (zh) | 一种基于编辑距离的中文发音校验方法 | |
CN112149429A (zh) | 一种基于词槽序模型的高准确度语义理解识别方法 | |
JP2020064370A (ja) | 文章記号挿入装置及びその方法 | |
US11817079B1 (en) | GAN-based speech synthesis model and training method | |
Bianne-Bernard et al. | Variable length and context-dependent HMM letter form models for Arabic handwritten word recognition | |
CN109859746B (zh) | 一种基于tts的语音识别语料库生成方法及系统 | |
Azim et al. | Large vocabulary Arabic continuous speech recognition using tied states acoustic models | |
CN115019787B (zh) | 一种交互式同音异义词消歧方法、系统、电子设备和存储介质 | |
KR100484493B1 (ko) | 다중 발음사전을 이용한 대화체 연속 음성인식 시스템 및방법 | |
JP2010277036A (ja) | 音声データ検索装置 | |
JP3378547B2 (ja) | 音声認識方法及び装置 | |
Hori et al. | Spoken interactive odqa system: Spiqa | |
CN108197122B (zh) | 基于音节嵌入的藏汉人名音译方法 | |
CN104756183B (zh) | 在智能汉语语音口述记录校正中使用字符描述器有效输入模糊字符 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201106 |