CN110399608A

CN110399608A - 一种基于拼音的对话系统文本纠错系统及方法

Info

Publication number: CN110399608A
Application number: CN201910481229.4A
Authority: CN
Inventors: 杨志明
Original assignee: Reflections On Artificial Intelligence Robot Technology (beijing) Co Ltd
Current assignee: Reflections On Artificial Intelligence Robot Technology (beijing) Co Ltd
Priority date: 2019-06-04
Filing date: 2019-06-04
Publication date: 2019-11-01
Anticipated expiration: 2039-06-04
Also published as: CN110399608B

Abstract

本发明公开了一种基于拼音的对话系统文本纠错系统及方法，本发明实施例在基于拼音的对话系统文本中检测到异常信息后，采用设置的文本模糊匹配策略(TFM，Text Fuzzy Matching)将异常信息与设置的信息列表进行匹配后，得到匹配的信息，采用设置的基于拼音的文本相似度算法(PTS，Pinyin‑Based Text Similarity)将异常信息与得到的匹配信息进行相似度计算，得到相似度最高的信息，对异常信息进行纠正。本发明实施例在降低纠错成本的基础上，提高纠错准确性。

Description

一种基于拼音的对话系统文本纠错系统及方法

技术领域

本发明涉及计算机领域中的语言处理技术，特别涉及一种基于拼音的对话系统文本纠错系统及方法。

背景技术

基于语音的识别结果对语音进行纠错，是语音理解过程中的一项重要工作。由于受限于语音识别的准确性，语音识别的结果常常会出现错误，这会对语音理解的后续工作造成障碍，增加了语音理解的难度。

在对基于拼音的对话文本进行纠错时，分为两个步骤，第一个步骤为错误检测，第二个步骤为错误纠正。其中，错误检测常用的方法有最大熵、n-gram语音模型等，错误纠正则利用困惑集或语言模型对检测出来的错误进行有选择的替换。

随着语言处理技术的发展，将端到端的深度学习模型应用在基于拼音的对话文本的纠错过程中，设置深度学习模型进行对话文本的特征提取，而非人工特征提取，减少了人工工作量。深度学习模型对文本拟合能力强。深度学习模型中的seq2seq模型使用RNN将文本中的句子表示为一个向量，再使用另一个RNN解码该向量输出。为了充分获取水温表的上下文的语义信息，深度学习模型在设置的seq2seq模型基础上增加了前向后向及注意力机制。采用深度学习模型可以输入文本，如果文本中有错误的拼音句子，则直接输出纠正后的拼音句子，简单省事。

但是，采用深度学习模型对基于拼音的对话系统文本进行纠错，也存在训练需要的数据量大，训练耗时长，不容易实现，这增加了纠错成本。另外，训练好的深度学习模型在训练时针对某一领域的基于拼音的对话系统文本进行纠错，当将该深度学习模块迁移应用到另一领域的基于拼音的对话系统文本的纠错，则纠错准确性会大大降低，也就是采用深度学习模型对基于拼音的对话系统文本进行纠错的迁移性差。

发明内容

有鉴于此，本发明实施例提供一种基于拼音的对话系统文本纠错系统，该系统能够在降低纠错成本的基础上，提高纠错准确性。

本发明实施例还提供一种基于拼音的对话系统文本纠错方法，该方法能够在降低纠错成本的基础上，提高纠错准确性。

本发明实施例是这样实现的：

一种基于拼音的对话系统文本纠错系统，包括：信息列表存储单元、匹配单元及相似度计算单元，其中，

信息列表存储单元，用于存储信息列表；

匹配单元，用于接收基于拼音的对话系统文本中检测到的异常信息，采用设置的TFM将异常信息与设置的信息列表进行匹配后，得到匹配的信息；

相似度计算单元，用于采用设置的PTS将异常信息与得到的匹配信息进行相似度计算，得到相似度最高的信息，对异常信息进行纠正。

所述异常信息包括异常实体和异常词；所述信息包括实体和词。

所述TFM包括：使用设置的规则对异常信息和要匹配的信息列表中的字符拼音数组进行扩展。

所述设置的规则包括：对异常信息添加容错项、对异常信息添加多音项、对异常信息及对信息列表添加消音项、或/和对信息列表跳过独立韵母。

所述设置的PTS为：对PTS进行建模。

所述PTS的建模公式为：

其中，pa1为异常信息的拼音数组，pa2为匹配信息的拼音数组，PAS表示pa1与pa2之间的相似度值，PS为pa1(i)和pa2(i)之间的相似度，μ为累加因子基数，设置为0.05，为pa1和pa2的共同长度；pa1(i)和pa2(i)分别为pa1和pa2在索引i处的拼音；

所述拼音数组形成为：对所述信息中的可拼音化的汉字字符直接拼音，对可拼音化的非汉字字符采用设置的拼音列表进行拼音化，对不可拼音化的非汉字字符不做处理；

所述相似度采用公式计算包括

当相似度判断的两者都是声母+韵母的形式时，采用公式

计算，

其中PS(p₁,p₂)为p₁和p₂之间的拼音相似度；IS(p₁,p₂)为p₁和p₂之间的声母拼音相似度，从设置的声母列表中获得，FS(p₁,p₂)为p₁和p₂之间的韵母拼音相似度，从设置的韵母列表中获得，k为1≤k＜2，表示IS(p₁,p₂)的指数权重；

当相似度判断的一者为韵母形式，另一者为声母+韵母的形式时，采用公式计算；

当相似度判断的两者为韵母形式，采用公式PS(p₁,p₂)＝FS(p₁,p₂)计算；

当相似度判断的两者都为非拼音或有且只有一个为非拼音时，采用公式

计算。

一种基于拼音的对话系统文本纠错方法，包括：

接收基于拼音的对话系统文本中检测到的异常信息，采用设置的TFM将异常信息与设置的信息列表进行匹配后，得到匹配的信息；

采用设置的PTS将异常信息与得到的匹配信息进行相似度计算，得到相似度最高的信息，对异常信息进行纠正。

所述异常信息包括实体和词，所述信息包括实体和词。

所述TFM包括：使用设置的规则对异常信息和要匹配的信息列表中的字符拼音数组进行扩展；

所述设置的PTS为：对PTS进行建模；

所述PTS的建模公式为：

其中，pa1为异常信息的拼音数组，pa2为匹配信息的拼音数组，PAS表示pa1与pa2之间的相似度值，PS为pa1(i)和pa2(i)之间的相似度，μ为累加因子基数，设置为0.05，为pa1和pa2的共同长度；pa1(i)和pa2(i)分别为pa1和pa2在索引i处的拼音。

如上可见，本发明实施例在基于拼音的对话系统文本中检测到异常信息后，采用设置的文本模糊匹配策略(TFM，Text Fuzzy Matching)将异常信息与设置的信息列表进行匹配后，得到匹配的信息，采用设置的基于拼音的文本相似度算法(PTS，Pinyin-BasedText Similarity)将异常信息与得到的匹配信息进行相似度计算，得到相似度最高的信息，对异常信息进行纠正。由于设置的PTS充分考虑了语音识别是以声音信号为输入，因此是以拼音为基础对文本进行相似性判定，且算法实施简单，所以在降低纠错成本的基础上，提高纠错准确性。

附图说明

图1为本发明实施例提供的基于拼音的对话系统文本纠错系统结构示意图；

图2为本发明实施例提供的基于拼音的对话系统文本纠错方法流程图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本发明进一步详细说明。

本发明实施例为了在降低纠错成本的基础上，提高纠错准确性，本发明实施例在基于拼音的对话系统文本中检测到异常信息后，采用设置的文本模糊匹配策略(TFM，TextFuzzy Matching)将异常信息与设置的信息列表进行匹配后，得到匹配的信息，采用设置的基于拼音的文本相似度算法(PTS，Pinyin-Based Text Similarity)将异常信息与得到的匹配信息进行相似度计算，得到相似度最高的信息，对异常信息进行纠正。

由于设置的PTS充分考虑了语音识别是以声音信号为输入，因此是以拼音为基础对文本进行相似性判定，且算法实施简单，所以在降低纠错成本的基础上，提高纠错准确性。

更进一步地，设置的TFM实现了异常信息与信息列表中的匹配为多对多匹配，所以匹配过程简单且快速，进一步降低了纠错成本。

在本发明实施例中，所述信息包括实体和词。

图1为本发明实施例提供的基于拼音的对话系统文本纠错系统结构示意图，包括：信息列表存储单元、匹配单元及相似度计算单元，其中，

信息列表存储单元，用于存储信息列表；

在该系统中，所述异常信息包括异常实体和异常词；所述信息包括实体和词。

TFM的思想为：将目标文本和匹配文本(实体或者词)的一对一匹配转化成多对多的匹配。具体包括：使用设置的规则对异常信息和要匹配的信息列表中的字符拼音数组进行扩展。扩展之前，一段异常信息和匹配的信息分别和一个字符拼音数组相对应；扩展之后，一段异常信息和一段匹配的信息分别和一个存放字符拼音数组的列表相对应。具体设置的扩展规则有4条，分别是：

第一条规则，添加容错项

该规则的作用对象是目标文本，也就是异常信息。在异常信息中，位于异常词前后并且紧挨异常信息的合法位置(索引不能越界)被确定为“容错位”。“容错位”在异常信息字符拼音数组中的映射称为“容错索引”。所谓的“容错项”就是：删除异常信息字符拼音数组中的“容错索引”。删除的结果作为“容错项”之一被扩展到异常信息的字符拼音数组列表中。需要注意的是：每次只能删除一个“容错索引”，也就是说，一个异常信息可能有多个“容错项”。

第二条规则，添加多音项

该规则的作用对象是目标文本，也就是异常信息。异常词中的多音字在异常信息中的位置被确定为“多音位”。“多音位”在异常信息字符拼音数组中的映射称为“多音索引”。所谓的“多音项”就是：在异常信息的字符拼音数组中，对“多音索引”处的拼音用对应汉字的其它音进行替换。替换的结果作为“多音项”之一被扩展到异常信息的字符拼音数组列表中。需要注意的是：如果有多个“多音索引”，需要对多个“多音索引”排列组合的每个结果在异常信息字符拼音数组中每个位置的拼音进行替换。例如，假设现在有两个“多音索引”，分别是：1和2，对应排列组合的结果是：{1}、{2}和{1,2}。那么，此时的多音扩展项就有三个。

第三条规则，添加消音项

该规则的作用对象是目标文本和匹配文本，也就是异常信息和信息列表。作用对象中“特殊双音字符”所在的位置被确定为“消音位”，其中“特殊双音字符”包括：f、F、h、H、l、L、m、M、s和S。“消音位”在作用对象字符拼音数组中的映射称为“消音索引”。所谓的“消音项”就是：删除作用对象字符拼音数组中的“消音索引”。删除的结果作为“消音项”之一被扩展到作用对象的字符拼音数组列表中。需要注意的是：如果有多个消音索引”，需要对多个消音索引”排列组合的每个结果在作用对象字符拼音数组中每个位置的拼音进行删除。

第四条规则，跳过独立韵母

该规则的作用对象是匹配文本，也就是信息列表。信息列表中拥有独立韵母的汉字所在的位置被确定为“独立韵母位”，“独立韵母位”在信息列表字符拼音数组中的映射称为“独立韵母索引”。所谓“跳过独立韵母”，就是删除信息列表字符拼音数组中的“独立韵母索引”。需要注意的是：如果信息列表中存在多个“独立韵母位”，则每次只能删除信息列表字符拼音数组中的一个“独立韵母索引”，并将删除的结果扩展到信息列表的字符拼音数组列表中。

在该系统中，如果想准确而快速地找到信息列表中对应异常信息的正确替代信息，就必须对异常信息及匹配得到的信息之间的相似度进行有效地建模。考虑到语音识别以声音信号作为输入，因此本发明实施例以拼音为基础对异常信息及匹配得到的信息的相似度进行了建模，得到PTS，以下对如何建模PTS进行详细说明。

PTS的整个建模过程分三步，分别是：文本拼音化、拼音相似度以及PTS算法，以下详细说明。

第一个步骤：文本拼音化

在PTS中，进行相似度计算的两段文本首先需要被映射成拼音数组。具体的做法是：以文本的字符为单位将文本映射成一个拼音数组。字符到拼音的映射分两大类，分别是：汉字字符(CC,Chinese Char)到拼音的映射和非汉字字符(NC,Non-Chinese Char)到拼音的映射。CC的拼音化比较简单，采取直接映射的原则，即将字符直接映射为汉字对应的拼音。当出现多音字的情况时，直接以该多音字的第一个拼音作为该字符的拼音，实现需要借助“将汉字转化为拼音”的开源组件。

为了阐明NC的拼音化过程，本发明实施例进一步将所有的NC分为了两类：可拼音化的非汉字字符(PNC,Phonetic Non-Chinese Char)(参见表一)和不可拼音化的非汉字字符(NNC，Non-Phonetic Non-Chinese Char)。对于PNC，本发明实施例根据它们的读音分别指定了它们到汉语拼音的映射，具体情况参见表一。如表一所示，由于发音的缘故，一些字符被映射成了两个拼音(例如，'s')或三个拼音(例如，'w')。本发明实施例将发双音的字符(例如，'f'、's'和'l'等)称为可拼音化的非汉字双音字符(PNDC,Phonetic Non-ChineseDouble-Tone Char)和将发三音的字符(例如，'w')可拼音化的非汉字三音字符(PNTC,Phonetic Non-Chinese Triple-Tone Char)，PNDC和PNTC被统称为可拼音化的非汉字多音字符(PNMC,Phonetic Non-Chinese Multi-Tone Char)。除PNMC之外的PNC被称为可拼音化的非汉字单音字符(PNSC,Phonetic Non-Chinese Single-Tone Char)。显而易见，PNMC在文本拼音化的过程中会增加文本拼音数组的长度。除了PNC以外的所有NC都是NNC，例如','和'？'等。本发明实施例对于NNC的处理策略是：不做处理，也就是直接以它们本身作为其字符拼音化的结果。

表一

使用上述的操作，一段文本就可以被映射为一个拼音数组，例如：“长安CX70”可以被映射为字符串数组{"chang"，"an"，"cei"，"cha"，"qi"，"ling"}，“ESP”可以被映射为字符串数组{"yi","ai","si","pi"}，“车？船费”可以被映射为{"che","？","chuan","fei"}。

第二个步骤，拼音相似度

一个拼音可能由声母和韵母两部分组成，因此本发明实施例对两个拼音之间相似性的度量分别结合了它们之间声母的相似度(IS,Initials Similarity)和韵母的相似度(FS，Finals Similarity)。对于这种结合了IS和FS的拼音相似度(PS,PinyinSimilarity)，本发明实施例希望它能表现出以下两个性质。

性质一：PS分别正相关于IS和FS；

性质二：当IS或FS的值较小时，PS不能表现出较强的竞争力。

对于任意两个未进行合法性判断的拼音p₁和p₂，它们之间相似性的度量需要考虑以下三种情况。

第一种情况，p₁和p₂都为合法拼音

形如“声母+韵母”或者独立“韵母”结构的拼音被称为合法拼音，其中“声母”和“韵母”必须分别来“声母表(IL,Initials List,)”和“韵母表(FL,Finals List)”。

如果p₁和p₂都为“声母+韵母”结构，那么PS(p₁,p₂)由p₁和p₂之间的IS和FS共同决定，具体方案如公式(1)：

其中PS(p₁,p₂)为p₁和p₂之间的拼音相似度；IS(p₁,p₂)和FS(p₁,p₂)分别可以从IST和FST中获得，k(1≤k＜2)表示IS(p₁,p₂)的指数权重。

如果p₁和p₂一个为独立“韵母”结构，另一个为“声母+韵母”结构，那么一个声母的缺失会导致PS(p₁,p₂)不可能太大，即使在FS(p₁,p₂)很大的情况下。为了对这种情况的拼音相似度进行度量，本发明实施例将公式(1)中的声母相似度项IS(p₁,p₂)设置成了较小的固定值θ(本文中，θ的默认值0.05)，具体形式如公式(2)：

如果p₁和p₂都为独立“韵母”结构，那么PS(p₁,p₂)将完全由FS(p₁,p₂)决定，而不会受到声母缺失的影响，具体方案如公式(3)：

PS(p₁,p₂)＝FS(p₁,p₂) (3)

第二种情况，p₁和p₂都为非拼音

非拼音指除合法拼音以外的所有情况。

显而易见，p₁和p₂都是由不可拼音化的非汉字字符(NNC)映射而来，也就是说，它们与字符本身的字符串形式相同(例如','和'？'的拼音分别为","和"？")。这种情况下，PS(p₁,p₂)的建模策略比较简单，具体方案如下：

第三种情况，p₁和p₂有且只有一个为非拼音

这种情况是指p₁和p₂中有一个是NNC的映射，而另一个即可以是CC和PNSC的映射，又可以是PNMC映射结果的一个元素。这种情况下，对PS(p₁,p₂)的建模与第二种情况相同。

为了对拼音之间的相似性进行度量。本发明实施例通过对真实语音识别错误文本进行分析，结合经验构建了两张相似度表：声母相似度表(IST,Initials SimilarityTable)和韵母相似度表(FST,Finals Similarity Table)。任意两个拼音之间的PS都可以通过查表的方式获得。

第三个步骤，PTS算法

PTS的相似度判断过程为：

首先，将要计算相似度的两个文本映射成拼音数组；

接着，分别计算较短的拼音数组和较长的拼音数组中长度相等的连续子数组的相似度；

最后，以这些相似度值中最大的一个作为这两个文本的相似度。

在特殊情况下，当两个文本映射的拼音数组长度相等时，那么它们之间的相似度就是这两个文本之间的相似度。因此，PTS算法的核心就是文本拼音化和等长拼音数组的相似性度量(PAS，Pinyin Array Similarity)。本发明实施例的拼音化过程已经被介绍，因此只需完成对PTS的建模即可。

对于长度相等的两个拼音数组pa1和pa2而言，拼音数组建模的基础思路：

首先，对pa1和pa2中索引相同的每对元素进行拼音相似度计算；

接着，对所有的拼音相似度进行累加；

最后，对累加的结果求平均。对该思路具体的建模形式如下：

其中PAS_base(pa1,pa2)表示pa1和pa2之间拼音数组相似度的基础版本；l为pa1和pa2的共同长度；pa1(i)和pa2(i)分别为pa1和pa2在索引i处的拼音。

使用PAS_base进行拼音数组相似度计算会导致一个问题：拼音数组长度对相似度计算的影响没有在PAS_base中被考虑。

解决该问题的一个思路：不对累加结果进行平均，即以作为整个相似度的结果。显而易见，该思路可以使得拼音数组的长度在相似度计算中被考虑。但是这样做又会导致：数组长度对相似度计算产生决定性影响。

为了更好地在PAS_base融合数组长度对相似度计算的影响，本发明实施例在PAS_base每一次累加(PS(pa1(i),pa2(i)))的基础上添加了一个累加因子(PS(pa1(i),pa2(i))·μ·i)。添加完累加因子PAS_base作为最终PAS的建模形式，具体的形式如下：

其中μ为累加因子基数，μ可以被设定，在本发明实施例中，μ的默认值为0.05，它的大小决定了l对PAS的影响程度。μ越大，l对PAS的影响越大；反之，则越小。

这样，采用公式(6)建立了PTS后，就可以使用该PTS进行相似度判断了。

图2为本发明实施例提供的基于拼音的对话系统文本纠错方法流程图，其具体步骤为：

步骤201、接收基于拼音的对话系统文本中检测到的异常信息，采用设置的TFM将异常信息与设置的信息列表进行匹配后，得到匹配的信息；

步骤202、采用设置的PTS将异常信息与得到的匹配信息进行相似度计算，得到相似度最高的信息，对异常信息进行纠正。

在该方法中，所述异常信息包括实体和词，所述信息包括实体和词。

在该方法中，所述TFM包括：使用设置的规则对异常信息和要匹配的信息列表中的字符拼音数组进行扩展。

在该方法中，所述设置的规则包括：对异常信息添加容错项、对异常信息添加多音项、对异常信息及对信息列表添加消音项、或/和对信息列表跳过独立韵母。

在该方法中，所述设置的PTS为：对PTS进行建模。

在该方法中，所述PTS的建模公式为：

其中，pa1为异常信息的拼音数组，pa2为匹配信息的拼音数组，PAS表示pa1与pa2之间的相似度值，PS为pa1(i)和pa2(i)之间的相似度，μ为累加因子基数，设置为0.05，l为pa1和pa2的共同长度；pa1(i)和pa2(i)分别为pa1和pa2在索引i处的拼音；

所述相似度采用公式计算包括：

当相似度判断的两者都是声母+韵母的形式时，采用公式

计算，

当相似度判断的一者为韵母形式，另一者为声母+韵母的形式时，采用公式

计算；

计算得到。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种基于拼音的对话系统文本纠错系统，其特征在于，包括：信息列表存储单元、匹配单元及相似度计算单元，其中，

信息列表存储单元，用于存储信息列表；

2.如权利要求1所述的系统，其特征在于，所述异常信息包括异常实体和异常词；所述信息包括实体和词。

3.如权利要求1所述的系统，其特征在于，所述TFM包括：使用设置的规则对异常信息和要匹配的信息列表中的字符拼音数组进行扩展。

4.如权利要求3所述的系统，其特征在于，所述设置的规则包括：对异常信息添加容错项、对异常信息添加多音项、对异常信息及对信息列表添加消音项、或/和对信息列表跳过独立韵母。

5.如权利要求1所述的系统，其特征在于，所述设置的PTS为：对PTS进行建模。

6.如权利要求5所述的系统，其特征在于，所述PTS的建模公式为：

所述相似度采用公式计算包括

当相似度判断的两者都是声母+韵母的形式时，采用公式

7.一种基于拼音的对话系统文本纠错方法，其特征在于，包括：

8.如权利要求1所述的方法，其特征在于，所述异常信息包括实体和词，所述信息包括实体和词。

9.如权利要求1所述的方法，其特征在于，所述TFM包括：使用设置的规则对异常信息和要匹配的信息列表中的字符拼音数组进行扩展；

10.如权利要求1所述的方法，其特征在于，所述设置的PTS为：对PTS进行建模；

所述PTS的建模公式为：

其中，pa1为异常信息的拼音数组，pa2为匹配信息的拼音数组，PAS表示pa1与pa2之间的相似度值，PS为pa1(i)和pa2(i)之间的相似度，μ为累加因子基数，设置为0.05，l为pa1和pa2的共同长度；pa1(i)和pa2(i)分别为pa1和pa2在索引i处的拼音。