CN111898342A

CN111898342A - 一种基于编辑距离的中文发音校验方法

Info

Publication number: CN111898342A
Application number: CN202010757493.9A
Authority: CN
Inventors: 钱春霖
Original assignee: Shengzhi Information Technology Nanjing Co ltd
Current assignee: Shengzhi Information Technology Nanjing Co ltd
Priority date: 2020-07-31
Filing date: 2020-07-31
Publication date: 2020-11-06

Abstract

本发明涉及一种基于编辑距离的中文发音校验方法，采用全新策略设计，针对来自待验证中文发音词的待验证中文文本，获得预设拼音规则下所对应的待验证标准拼音格式，以及其拓展的标准拼音格式，并基于元音、辅音的二维向量表示，以及标准拼音格式的表示方法，获得待验证中文文本及其拓展标准拼音格式分别所对应的数学表示，并选取待验证中文文本及其拓展标准拼音分别和预设目标标准拼音之间的最小编辑距离，作为待验证中文发发音词和目标真实词之间的编辑距离，最后结合预设距离阈值，实现待验证中文发音词相较目标真实词相似度结果的验证，能够有效解决中文场景中信息校验的准确性，保证智能语音对话的稳定性。

Description

一种基于编辑距离的中文发音校验方法

技术领域

本发明涉及一种基于编辑距离的中文发音校验方法，属于智能语音对话技术领域。

背景技术

智能语音对话系统，又称为智能会话Agent或者智能聊天系统。是指通过人工智能技术，以语音识别、自然语言处理和语音合成技术为基础，实现与人类进行语言交互的系统。智能语音对话系统从应用场景上主要分为任务导向型对话系统和非任务导向型对话系统，典型的任务导向型对话系统如智能语音助手、智能电话外呼系统，典型的非任务导向型系统如智能音箱、聊天机器人等。

传统智能语音对话系统的人机交互链路主要包含语音识别、语义理解和语音合成三个阶段。语音识别就是把用户说的语音转化为对应的文字；语义理解就是从用户表述的文字级对话上下文等信息中提取用户的意图，并产生应材料答的文本；语音合成是指将回应的文本转化为语音并播放给用户。语音识别和语音合成技术具备较强的通用性，即智能语音对话系统的类型和应用领域的不同、甚至交互话术模版的配置不会对其效果造成较大的影响。

在智能语音对话系统中，语义理解的一种常见应用场景是需要校验用户说的话中的某个关键信息是否符合一个预期值。例如，人物名称校验，公司名称校验，卡号校验等。但是在电话传输的语音系统中，ASR在识别用户说的话并转换为文字的过程中，是存在一定的误差的，特别是在没有特殊含义的短句中。例如用户说的话是“我的名字叫张三丰”，而经过ASR系统识别转成的文本数据可能是“我的名字叫张山分”，如果仅通过文本或者拼音是否相同来判断用户说的话是否符合预期，那么有很大的可能性导致极低的校验准确率。于是业内提出了通过文本和预期文本的发音相似度来判断。目前针对中文相似度的算法中，涉及到中文汉字的拼音，音调，偏旁结构等。但是在智能对话系统中，文本数据是通过ASR系统识别获得，文字的结构本身并不具备可参考性。而针对拼音的相似度的算法中，比较传统多见的方式是编辑距离(Edit Distance或Levenshtein Distance)，它考虑了三种编辑操作——插入(Insertion)，删除(Deletion)和替换(Substitution)，用将一个字符串转换成另一个字符串所需要的最少编辑操作的数量作为这两个字符串的相似度，但是编辑距离只能体现出拼音文本上的差别，若是将汉字转化成拼音(数字代表的是拼音的音调)，那么上述编辑距离的算法将不能很好的表现中文发音的相似度。例如：“胖”(pang4)和“棒”(bang4)和“忘”(wang4)，彼此拼音的编辑距离是一样的，但是很明显，他们在发音上‘pang4’和‘bang4’的发音更为相似，但是前两者的发音和‘wang4’的发音是有较大的区别的，从而通过拼音编辑距离的相似度作为中文发音的相似度，是具有一定的局限性的。

发明内容

本发明所要解决的技术问题是提供一种基于编辑距离的中文发音校验方法，采用全新策略设计，能够有效解决中文场景中信息校验的准确性，保证智能语音对话的稳定性。

本发明为了解决上述技术问题采用以下技术方案：本发明设计了一种基于编辑距离的中文发音校验方法，用于针对待验证中文发音词，实现其相较目标真实词的相似度验证，包括如下步骤：

步骤A.获得待验证中文发音词所对应的待验证中文文本，然后进入步骤B；

步骤B.判断待验证中文文本所对应的字符串长度与待验证中文文本所对应的字符串长度是否相等，是则进入步骤C；否则判定待验证中文发音词相较目标真实词校验失败；

步骤C.按预设拼音规则，获得待验证中文文本所对应的待验证标准拼音格式，然后进入步骤D；

步骤D.基于标准拼音格式的数学表示，计算获得待验证标准拼音格式与目标真实词所对应预设目标标准拼音格式之间的编辑距离，即待验证中文发音词与目标真实词之间的编辑距离，两者之间的编辑距离越短，表示两者之间的相似度越高，然后进入步骤E；

步骤E.判断待验证中文发音词与目标真实词之间的编辑距离，是否小于预设距离阈值，是则判定待验证中文发音词相较目标真实词的相似度验证通过，否则判定待验证中文发音词相较目标真实词的相似度验证不通过。

作为本发明的一种优选技术方案：所述步骤C中，基于单个中文字符由辅音+元音+音调的组成格式，表示单个中文字符所对应的标准拼音格式，进而获得待验证中文文本所对应的待验证标准拼音格式；其中：

若中文字符的音调为轻声，则应用预设除1、2、3、4以外的数字表示该中文字符所对应的音调；

若中文字符的拼音中没有辅音，则应用空字符串替代该中文字符所对应的辅音；

若中文字符为多音字，则应用该中文字符各种发音分别所对应的标准拼音格式，共同表示该中文字符所对应的标准拼音格式。

作为本发明的一种优选技术方案：所述步骤C中，获得待验证中文文本所对应的待验证标准拼音格式后，根据预设拼音拓展表中各元音拓展形式、各辅音拓展形式、以及各完整拼音拓展形式，进一步获得该待验证标准拼音格式所对应的各种标准拼音拓展格式，进而将该各种标准拼音拓展格式、以及该待验证标准拼音格式共同作为待验证中文文本所对应的各个待验证标准拼音格式，然后进入步骤D；

所述步骤D中，计算获得各个待验证标准拼音格式分别与目标真实词所对应预设目标标准拼音格式之间的编辑距离，并选择其中最小编辑距离作为待验证中文发音词与目标真实词之间的编辑距离。

作为本发明的一种优选技术方案：所述待验证中文发音词位于待验证中文发音短句中，所述步骤A中，首先获得待验证中文发音短句所对应的中文短句文本，然后针对中文短句文本进行提槽操作，获得中文短句文本当中的中文关键词，即待验证中文发音词所对应的待验证中文文本。

作为本发明的一种优选技术方案：所述待验证中文发音词所对应待验证中文文本的获得、所述待验证中文发音短句所对应中文短句文本的获得，均应用语音识别ASR系统进行识别获得。

本发明所述一种基于编辑距离的中文发音校验方法，采用以上技术方案与现有技术相比，具有以下技术效果：

本发明所设计基于编辑距离的中文发音校验方法，采用全新策略设计，针对来自待验证中文发音词的待验证中文文本，获得预设拼音规则下所对应的待验证标准拼音格式，以及其拓展的标准拼音格式，并基于元音、辅音的二维向量表示，以及标准拼音格式的表示方法，获得待验证中文文本及其拓展标准拼音格式分别所对应的数学表示，并选取待验证中文文本及其拓展标准拼音分别和预设目标标准拼音之间的最小编辑距离，作为待验证中文发发音词和目标真实词之间的编辑距离，最后结合预设距离阈值，实现待验证中文发音词相较目标真实词相似度结果的验证，能够有效解决中文场景中信息校验的准确性，保证智能语音对话的稳定性。

附图说明

图1是本发明设计基于编辑距离的中文发音校验方法的流程示意图；

图2是本发明设计基于编辑距离的中文发音校验方法的应用模块示意图。

具体实施方式

下面结合说明书附图对本发明的具体实施方式作进一步详细的说明。

本发明设计了一种基于编辑距离的中文发音校验方法，用于针对待验证中文发音词，实现其相较目标真实词的相似度验证，实际应用当中，待验证中文发音词来自待验证中文发音短句中，如图1所示，具体执行如下步骤A至步骤E。

步骤A.首先应用语音识别ASR系统对待验证中文发音短句进行识别，获得待验证中文发音短句所对应的中文短句文本，然后针对中文短句文本进行提槽操作，获得中文短句文本当中的中文关键词，即待验证中文发音词所对应的待验证中文文本，然后进入步骤B。

步骤B.判断待验证中文文本所对应的字符串长度与待验证中文文本所对应的字符串长度是否相等，是则进入步骤C；否则判定待验证中文发音词相较目标真实词校验失败。

步骤C.按如下预设三个拼音规则，基于单个中文字符由辅音+元音+音调的组成格式，表示单个中文字符所对应的标准拼音格式，进而获得待验证中文文本所对应的待验证标准拼音格式，然后进入步骤D，实际应用中，诸如普通中文“上”对应的拼音格式为“shang4”。

规则一.若中文字符的音调为轻声，则应用预设除1、2、3、4以外的数字表示该中文字符所对应的音调，例如中文‘东西’拼音为‘d ong 1x i 5’。

规则二.若中文字符的拼音中没有辅音，则应用空字符串替代该中文字符所对应的辅音，例如中文‘啊’其拼音可以表示为‘a 1’。

规则三.若中文字符为多音字，则应用该中文字符各种发音分别所对应的标准拼音格式，共同表示该中文字符所对应的标准拼音格式，例如‘行’，拼音记录为[‘x ing 2,’hang 2’],当这样的词参与到词组中时，例如‘银行’，那么该词组的拼音格式为[‘y in 2hang 2’,‘y in 2x ing 2’]。

基于上述步骤C的设计，获得待验证中文文本所对应的待验证标准拼音格式，例如“上升”对应的标准拼音格式为“sh ang 4sh eng 1”。

步骤D.基于中文文本的准拼音格式的数学表示，并计算获得待验证标准拼音格式、以及目标真实词所对应预设目标标准拼音格式分别所对应的数学表示，计算获得待验证标准拼音格式与目标真实词所对应预设目标标准拼音格式之间的编辑距离，即待验证中文发音词与目标真实词之间的编辑距离，两者之间的编辑距离越短，表示两者之间的相似度越高，然后进入步骤E。

关于这里标准拼音格式的数学表示，例如，“肥胖”本身的标准拼音格式的数学表示为：[[(7.0,4.0),(40,4.0),2],[(1.0,1.5),(1.0,1.5),4]]。

上述步骤C至步骤D是基于获得待验证中文文本对应一个待验证标准拼音格式的情况，所执行的应用过程，但是实际应用当中的中文场景中，存在多音字的情况，以及部分地区不区分平舌音和翘舌音，前鼻音和后鼻音，‘n’和‘l’不分等诸多不符合普通话的发音标准的情形。为了解决这个问题，本发明进一步提出了中文的拼音拓展形式，拼音的拓展形式主要是为了解决因中文地区发音和普通话发音不一致而引起的识别错误，在具体的设计执行当中，首先需要建立拼音拓展表，如下表1所示。

表1

该拼音拓展表，仅作为中文拼音中常见的易混淆音，在实际的智能对话场景中，可以根据客户所在区域的特征，调整该拓展词表。

为了更好的描述该拼音拓展表的应用，诸如中文字符“张慧”，首先将其转换为真实的中文拼音格式：“zh ang 1 h ui 4”，依据拓展词表，可以将‘zh’和‘z’拓展,‘ang’和‘an’拓展，‘hui’和‘fei’拓展,从而可以得到最终的拓展拼音如下：

拓展拼音Spy1：‘zh ang 1 h ui 4’

拓展拼音Spy2：‘z ang 1 h ui 4’

拓展拼音Spy3：‘zh ang 1 f ei 4’

拓展拼音Spy4：‘z ang 1 f ei 4’

拓展拼音Spy5：‘zh an 1 h ui 4’

拓展拼音Spy6：‘z an 1 h ui 4’

拓展拼音Spy7：‘zh an 1 f ei 4’

拓展拼音Spy8：‘z an 1 f ei 4’

基于上述关于中文拼音拓展形式的思考，针对上述步骤C的实际应用，进一步设计在获得待验证中文文本所对应的待验证标准拼音格式后，根据预设拼音拓展表中各元音拓展形式、各辅音拓展形式、以及各完整拼音拓展形式，进一步获得该待验证标准拼音格式所对应的各种标准拼音拓展格式，进而将该各种标准拼音拓展格式、以及该待验证标准拼音格式共同作为待验证中文文本所对应的各个待验证标准拼音格式，然后进入步骤D。

基于上述步骤C关于中文拼音拓展形式的延伸拓展，步骤D在实际应用当中，基于待验证标准拼音格式的数学表示，计算获得各个待验证标准拼音格式分别与目标真实词所对应预设目标标准拼音格式之间的编辑距离，并选择其中最小编辑距离作为待验证中文发音词与目标真实词之间的编辑距离，然后进入步骤E。

实际应用当中，关于步骤E中预设距离阈值的设定是基于实验数据获得。由于上述计算相似度的算法中，可以得知随着中文字符的增加，那么对最终的相似度的值大小也会相应的提升。从而本发明提出，对不同长度的待验证中文发音词采用单独的阈值进行判定。

阈值设定是基于大量的数据进行统计，并经过人工判断，从而获取符合该字符串长度的阈值。该数据主要为四部分，第一为经过提槽功能获取的中文关键词，第二为数据库中对应的目标真实词，第三为中文关键词与目标真实词的发音相似度，第四为人工判断目标真实词与目标真实词是否满足发音相似。如下表2中所示,样例数据是以真实字符长度为3作为样例解释，表中相似度是按照表1进行拼音拓展后计算所得。

提槽关键词	真实数据	发音相似度(similarity)	发音相似人工判定结果
				张三分	张三丰	0.07936507936507936	True
张慧敏	张费敏	0	True
				王智慧	王志辉	0.0004761904761904761	True
玩健咖	王健康	0.6349206349206349	False
				...	...	...	...

表2

假设上述数据有n个数据组，取所有发音相似人工判定结果为True的数据组中，取发音相似度(similarity)最大的为符合字符长度为3的相似度阈值。

将本发明所设计基于编辑距离的中文发音校验方法应用于实际当中，结合图2所示，将Ai机器人系统称为A，用户为B。

首先当智能语音对话系统进入某一轮对话，当A询问B：“为安全起见，请问您的姓名是什么”。

此时B通过语音回答A:”我的名字叫张慧”

此时ASR系统会将B的回答转换为中文文本，即“我的名字叫张慧”

因当前场景为名称校验场景，系统会调用关键词提槽功能，对转换后的文本进行关键词提槽，并获取中文关键词“张慧”，即待验证中文文本，并且从数据库中获取该用户B的目标真实词为“张惠”。

如果获取的待验证中文文本的字符串长度与目标真实词的字符串长度不一致，则直接作为校验失败，走相应的对话流程。如果待验证中文文本长度和目标真实词长度相同，则继续进行下一步的相似度的校验。

Ai系统此时会进入分析流程。该分析流程主要经过几个步骤：

生成待验证中文文本“张慧”的各种标准拼音拓展格式，进而将该各种标准拼音拓展格式、以及待验证中文文本的待验证标准拼音格式共同作为待验证中文文本所对应的各个待验证标准拼音格式；

生成目标真实词“张惠”的标准拼音格式，并将其转换为拼音编码

将待验证中文文本所对应的各个待验证标准拼音格式逐个与目标真实词的标准拼音格式计算彼此相似度。

获取上述过程中最小的相似度作为待验证中文文本和目标真实词的发音相似度。

通过判断最终的发音相似度与符合当前关键词长度阈值的大小，从而进入智能对话的相应流程。

本发明所设计基于编辑距离的中文发音校验方法技术方案，采用全新策略设计，针对来自待验证中文发音词的待验证中文文本，获得预设拼音规则下所对应的待验证标准拼音格式，以及其拓展的标准拼音格式，并基于元音、辅音的二维向量表示，以及标准拼音格式的表示方法，获得待验证中文文本及其拓展标准拼音格式分别所对应的数学表示，并选取待验证中文文本及其拓展标准拼音分别和预设目标标准拼音之间的最小编辑距离，作为待验证中文发发音词和目标真实词之间的编辑距离，最后结合预设距离阈值，实现待验证中文发音词相较目标真实词相似度结果的验证，能够有效解决中文场景中信息校验的准确性，保证智能语音对话的稳定性。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于编辑距离的中文发音校验方法，用于针对待验证中文发音词，实现其相较目标真实词的相似度验证，其特征在于，包括如下步骤：

2.根据权利要求1所述一种基于编辑距离的中文发音校验方法，其特征在于：所述步骤C中，基于单个中文字符由辅音+元音+音调的组成格式，表示单个中文字符所对应的标准拼音格式，进而获得待验证中文文本所对应的待验证标准拼音格式；其中：

3.根据权利要求1或2所述一种基于编辑距离的中文发音校验方法，其特征在于：所述步骤C中，获得待验证中文文本所对应的待验证标准拼音格式后，根据预设拼音拓展表中各元音拓展形式、各辅音拓展形式、以及各完整拼音拓展形式，进一步获得该待验证标准拼音格式所对应的各种标准拼音拓展格式，进而将该各种标准拼音拓展格式、以及该待验证标准拼音格式共同作为待验证中文文本所对应的各个待验证标准拼音格式，然后进入步骤D；

4.根据权利要求3所述一种基于编辑距离的中文发音校验方法，其特征在于：所述待验证中文发音词位于待验证中文发音短句中，所述步骤A中，首先获得待验证中文发音短句所对应的中文短句文本，然后针对中文短句文本进行提槽操作，获得中文短句文本当中的中文关键词，即待验证中文发音词所对应的待验证中文文本。

5.根据权利要求3所述一种基于编辑距离的中文发音校验方法，其特征在于：所述待验证中文发音词所对应待验证中文文本的获得、所述待验证中文发音短句所对应中文短句文本的获得，均应用语音识别ASR系统进行识别获得。