CN109712616B

CN109712616B - 基于数据处理的电话号码纠错方法、装置及计算机设备

Info

Publication number: CN109712616B
Application number: CN201811446909.4A
Authority: CN
Inventors: 吴建财; 邹芳; 邢艳
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2023-11-14
Anticipated expiration: 2038-11-29
Also published as: CN109712616A

Abstract

本发明提出的基于数据处理的电话号码纠错方法、装置、计算机设备和存储介质，其中方法包括：获取汉语语音，并通过语音识别技术将汉语语音转化为文本；在文本中查找出转错电话号码；在转错号码中获取误转为中文汉字的转错生字；依据转错生字在预设资料库中获取转错生字的汉语拼音中的声母、韵母和声调；将转错生字的声母、韵母和声调分别与对比数字的声母、韵母和声调依次进行对比，以获得转错生字与每个对比数字的相似度值；将超过预设相似度阀值的所有相似度值中数值最高的相似度值设为最佳相似度值；将转错生字替换成最佳相似度值对应的对比数字以得到纠后电话号码，本方法提高了语音转成电话号码文本的准确率，比调整语音识别模型更高效。

Description

基于数据处理的电话号码纠错方法、装置及计算机设备

技术领域

本发明涉及到数据处理的技术领域，特别是涉及到一种基于数据处理的电话号码纠错方法、装置、计算机设备和存储介质。

背景技术

由于现代通信技术的迅猛发展，产生了非常多的语音数据，在很多业务中，需要对这些语音数据进行分析，提取出其中的有用信息。由于这些语音数据的量非常巨大，人工测听的方式是行不通的，而且人力成本非常巨大。目前，通过语音识别技术将这些语音数据转换成文字，然后对这些文字进行分析，是比较普遍的做法。

在这些录音数据中，对于分析电话号码来说具有一定的难题，由于发音人的口音、发音人所在环境中存在噪声等问题往往导致这些电话号码的转写不准确，例如，将数字“5”转写成汉字“我”。现有技术中，数字转写问题可通过调整语音模型的方式来进行改进，但由于方言、环境嘈杂等问题的存在，导致调整语音模型带来的效果提升非常有限。

发明内容

本发明的主要目的为提供一种提高语音转成电话号码文本的准确率的基于数据处理的电话号码纠错方法、装置、计算机设备和存储介质。

本发明提出一种基于数据处理的电话号码纠错方法，包括：

获取汉语语音，并通过语音识别技术将所述汉语语音转化为文本；

在所述文本中查找出转错电话号码，所述转错电话号码为所述语音在转化成文本时，将正确的电话号码误转化成一串包含数字以及中文汉字的连续字；

在所述转错号码中获取误转为中文汉字的转错生字；

依据所述转错生字在预设资料库中获取所述转错生字的汉语拼音中的声母、韵母和声调；

将所述转错生字的声母、韵母和声调分别与对比数字的声母、韵母和声调依次进行对比，以获得所述转错生字与每个对比数字的相似度值，所述对比数字为阿拉伯数字的中文读音的字；

将超过预设相似度阀值的所有相似度值中数值最高的相似度值设为最佳相似度值；

将所述转错生字替换成所述最佳相似度值对应的所述对比数字以得到纠后电话号码。

进一步地，所述在所述文本中查找出转错电话号码的步骤，包括：

在所述文本中找出预设的电话号码的起始数字；

判断排序次于所述起始数字之后的连续10个字当中是否包含预设数量的数字；

若是，将所述起始数字及之后连续10个字所形成的一串连续字默认为所述转错电话号码。

进一步地，所述在所述转错号码中获取误转为中文汉字的转错生字的步骤，包括：

将所述转错电话号码中每个字与0-9中的十个阿拉伯数字依次进行对比以获得所述转错生字。

进一步地，所述将所述转错生字的声母、韵母和声调分别与对比数字的声母、韵母和声调依次进行对比，以获得所述转错生字与每个对比数字的相似度的步骤，包括：

将所述转错生字的声母、韵母和声调分别与所述对比数字的声母、韵母和声调依次进行对比；

若所述转错生字与所述对比数字的声母相同，则第一声母相似度值为a，若所述转错生字与所述对比数字的声母不相同，则所述第一声母相似度值为0；

若所述转错生字与所述对比数字的韵母相同，则第一韵母相似度值为b，若所述转错生字与所述对比数字的韵母不相同，则所述第一韵母相似度值为0；

若所述转错生字与所述对比数字的声调相同，则第一声调相似度值为c，若所述转错生字与所述对比数字的声调不相同，则所述第一声调相似度值为0；

将所述第一声母相似度值、第一韵母相似度值和第一声调相似度值相加，以得到所述转错生字与所述对比数字的相似度值；

其中，所述a、b、c均为预设的正数。

判断所述转错生字的汉语拼音中是否具有声母；

若所述转错生字的汉语拼音中未具有声母，则判断所述转错生字与所述对比数字的韵母是否一致；

若所述转错生字与所述对比数字的韵母相同，则第二韵母相似度值为d，并判断所述转错生字与所述对比数字的声调是否相同，若所述转错生字与所述对比数字的韵母不相同，则第二韵母相似度值为0，并判断所述转错生字与所述对比数字的声调是否相同；

若所述转错生字与所述对比数字的声调相同，则第二声调相似度值为e，若所述转错生字与所述对比数字的声调不相同，则第二声调相似度值为0；

将所述第二韵母相似度值以及所述第二声调相似度值相加得到所述转错生字与所述对比数字的相似度值；

其中，所述d、e均为预设的正数。

进一步地，所述将超过预设相似度阀值的所有相似度值中数值最高的相似度值设为最佳相似度值的步骤之前，包括：

将所述转错生字与每个对比数字的相似度值逐一与所述预设相似度阀值进行对比；

若所述转错生字与每个对比数字的相似度值均未超过所述预设相似度阀值，则将所述转错生字剔除。

进一步地，所述将所述转错生字替换成所述最佳相似度对应的最佳数字以得到纠后电话号码的步骤，包括：

通过正则表达式工具验证所述纠后电话号码的格式是否符合预设的正确电话号码格式；

若是，则将所述纠后电话号码判定为正确的电话号码。

本发明还提供一种基于数据处理的电话号码纠错装置，包括：

获取语音单元，用于获取汉语语音，并通过语音识别技术将所述汉语语音转化为文本；

查找号码单元，用于在所述文本中查找出转错电话号码，所述转错电话号码为所述语音在转化成文本时，将正确的电话号码误转化成一串包含数字以及中文汉字的连续字；

获取生字单元，用于在所述转错号码中获取误转为中文汉字的转错生字；

获取拼音单元，用于依据所述转错生字在预设资料库中获取所述转错生字的汉语拼音中的声母、韵母和声调；

对比拼音单元，用于将所述转错生字的声母、韵母和声调分别与对比数字的声母、韵母和声调依次进行对比，以获得所述转错生字与每个对比数字的相似度值，所述对比数字为阿拉伯数字的中文读音的字；

设置佳值单元，用于将超过预设相似度阀值的所有相似度值中数值最高的相似度值设为最佳相似度值；

替换生字单元，用于将所述转错生字替换成所述最佳相似度值对应的所述对比数字以得到纠后电话号码。

本发明还提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述方法的步骤。

本发明的有益效果为：本方法通过汉语拼音的声母、韵母及声调对比，进而纠正电话号码，在一定程度上克服了ASR引擎对电话号码识别不准确的问题，纠正不同地域不同环境造成的口音问题，提高了语音转成电话号码文本的准确率，相对于调整语音识别模型而言，该方法更高效，在电话号码提取问题上对不同口音都具有较强的鲁棒性。

附图说明

图1为本发明一实施例中基于数据处理的电话号码纠错方法的步骤示意图；

图2为本发明一实施例中基于数据处理的电话号码纠错装置的结构示意框图；

图3为本发明一实施例的计算机设备的结构示意框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，本实施例中的基于数据处理的电话号码纠错方法，包括：

步骤S1：获取汉语语音，并通过语音识别技术将所述汉语语音转化为文本；

步骤S2：在所述文本中查找出转错电话号码，所述转错电话号码为所述语音在转化成文本时，将正确的电话号码误转化成一串包含数字以及中文汉字的连续字；

步骤S3：在所述转错号码中获取误转为中文汉字的转错生字；

步骤S4：依据所述转错生字在预设资料库中获取所述转错生字的汉语拼音中的声母、韵母和声调；

步骤S5：将所述转错生字的声母、韵母和声调分别与对比数字的声母、韵母和声调依次进行对比，以获得所述转错生字与每个对比数字的相似度，所述对比数字为阿拉伯数字的中文读音的字；

步骤S6：将超过预设相似度阀值的所有相似度中数值最高的相似度设为最佳相似度；

步骤S7：将所述转错生字替换成所述最佳相似度对应的所述对比数字以得到纠后电话号码。

如上述步骤S1所述，首先获取汉语语音，然后通过语音识别技术将其转化成文本，上述语音识别技术又称为自动语音识别(Automatic Speech Recognition，ASR)，是把人类语音中的词汇内容转换为计算机可读输入的一种技术，该技术为现有技术，此处不再赘述。上述文本的内容即为上述汉语语音的计算机可读输入内容，可通过文字表达，如汉字、数字等，上述汉语即为采用汉语拼音拼读的语言，包括各种带有地方方言口音的汉语。本方法应用于语音识别领域，主要用于纠正转化时出错的电话号码，上述文本转写是由ASR转写引擎来实现，例如，由于录音人所处的环境非常嘈杂会导致将电话码“13548485759”转写成“13舞48是吧5759”，这时可采用本方法对误转号码进行纠正。

如上述步骤S2所述，通过正则表达式工具在文本中查找转错电话号码，如设置固定格式，通过对文本进行匹配对比从而找出转错电话号码，一串连续字是指字符排序连续没有间断或间隔其他字符的字(包括文字或数字)，上述一串包含有数字以及文字的连续字可为“134吴乐乐吧吧”、“我吴吴我267”等。

如上述步骤S3所述，正常电话号码为固定一串数字，而转错号码即为一串包括数字以及中文汉字的连续字，即上述转错生字为转错号码中误转的中文汉字，本实施例中，可通过数字与汉字的格式不同，直接从转错号码中获取上述转错生字。

已知的是，每个中文汉字均可由汉语拼音拼写出读音，其中每个字的汉语拼音均对应有声母、韵母以及声调，或韵母以及声调。如上述步骤S4所述，找出上述转错生字之后，依据转错生字信息在预设资料库中找出对应该转错生字的声母、韵母以及声调，上述预设资料库存储有大量的汉字以及汉字对应的拼音，包括声母、韵母以及声调。

如上述步骤S5所述，将每个转错生字的声母、韵母以及声调都和上述对比数字的声母、韵母及声调对比，由于对比数字为阿拉伯数字的中文读音的字，本实施例中，上述对比数字包括0-9，其中文读音对应包括“零一幺二两三四五六七八九”，其中，因为目前部分人在报电话号码时习惯将“1”读为“幺”，或将“2”读成“两”，故而对比数字中的读音中包括“幺”、“两”。对于每个被错转出来的汉字，依次将其与“零一幺二两三四五六七八九”的拼音进行比对，并得到每个错转字与这些对比数字之间的相似度值。

如步骤S6-S7所述，一般情况下，上述转错生字当中，只要对应的声母、韵母及声调中任意两个与对比数字的一致，那么该转错生字很有可能即为对比数字，故而上述预设相似度阀值可由上述声母相似度值、韵母相似度值以及声调相似度值中任意两者之和的最小值决定，而超过预设相似度阀值的相似度值中，相似度值最高的即可判断该转错生字与对比数字的相似度值为最佳相似度值，如“衣”与“1”的相似度为100％，“衣”与“七”的相似度为80％，两者都超过预设相似度阀值60％，那么最佳相似度值为上述100％。

本方法通过汉语拼音的声母、韵母及声调对比，进而纠正电话号码，在一定程度上克服了ASR引擎对电话号码识别不准确的问题，纠正不同地域不同环境造成的口音问题。

在一个实施例中，上述步骤S2包括：

步骤S20：在所述文本中找出预设的电话号码的起始数字；

步骤S21：判断排序次于所述起始数字之后的连续10个字当中是否包含预设数量的数字；

步骤S22：若是，将所述起始数字及之后连续10个字所形成的一串连续字默认为所述转错电话号码。

如上述步骤S20-S22所述，由于通讯号码具有固定的起始数字，如中国通信号码一般以1开头，所以可以以预设起始数字为基准，再判断这一串连续字是否为转错电话号码，在语音识别转化过程中，由于个人发音或地方方言等原因，语言识别过程中一般会将一串电话号码中个别数字转错，但并不会将电话号码中所有的数字转错，故而在起始数字之后的连续10个字当中，即一串连续字当中查看是否具有预设数量的数字，若具有，则可认为该串连续字为转错的电话号码，本实施例中，由于手机号码一般以1为起始数字，座机一般以0为起始数字，故而上述起始数字为1或0，上述预设数量为6个，如一串连续字为“1吴乐785吧吧359”，先找到其中起始数字1，在1之后的10个连续字当中判断有6个数字，那么则可以认为该串连续字“1吴乐785吧吧359”为转错电话号码。

在另一个实施例中，上述步骤S2包括：

步骤S23：在所述文本中查找出一串与预设的电话号码格式一致的第二连续字；

步骤S24：将所述第二连续字默认为所述转错电话号码。

本实施例中，可预设固定的电话号码格式，如手机号码“137xxxx”、“183xxxx”、座机号码“07xxx”等等，这些格式具有某些固定字符，可在文本中进行查找，若查找到一串与上述格式一致的第二连续字，即两者具有一致的字符，即可默认这串第二连续字为上述转错电话号码。

在一个实施例中，上述步骤S3包括：

步骤S30：将所述转错电话号码中每个字与0-9中的十个阿拉伯数字依次进行对比以获得所述转错生字。

如上述步骤S30所述，通过将转错电话号码中的每个字(可能包括数字和汉字)逐个与对比数字进行对比，从而查找出该串转错号码中的汉字，这些汉字即为上述转错生字，其中对比数字包括了从0到9十个阿拉伯数字。

在一个实施例中，上述步骤S5，包括：

步骤S51：将所述转错生字的声母、韵母和声调分别与所述对比数字的声母、韵母和声调依次进行对比；

步骤S52：若所述转错生字与所述对比数字的声母相同，则第一声母相似度值为a，若所述转错生字与所述对比数字的声母不相同，则所述第一声母相似度值为0；

步骤S53：若所述转错生字与所述对比数字的韵母相同，则第一韵母相似度值为b，若所述转错生字与所述对比数字的韵母不相同，则所述第一韵母相似度值为0；

步骤S54：若所述转错生字与所述对比数字的声调相同，则第一声调相似度值为c，若所述转错生字与所述对比数字的声调不相同，则所述第一声调相似度值为0；

步骤S55：将所述第一声母相似度值、第一韵母相似度值和第一声调相似度值相加，以得到所述转错生字与所述对比数字的相似度值；

其中，所述a、b、c均为预设的正数。

本实施例中，将转错生字的声母、韵母和声调分别与每一个对比数字的声母、韵母和声调依次进行对比。其中，可先判断转错生字的声母与对比数字的声母是否一致；若转错生字的声母与对比数字的声母相同，则对应的第一声母相似度值为a；若转错生字的声母与对比数字的声母不相同，则将对应的第一声母相似度值默认为0。接着判断转错生字的韵母与对比数字的韵母是否相同，若转错生字的韵母与对比数字的韵母相同，则将对应的第一韵母相似度值为b，若转错生字的韵母与对比数字的韵母不相同，则对应的第一韵母相似度值默认为0。然后再判断转错生字的声调与对比数字的声调是否相同，若转错生字的声调与对比数字的声调相同，则第一声调相似度值为c，若转错生字的声调与对比数字的声调不相同，则第一声调相似度值默认为0，其中上述a、b、c均为由用户根据实际情况进行预设的正数。

如上述步骤S55所述，获得上述第一声母相似度值、第一韵母相似度值以及第一声调相似度值之后，将这三者相加得到转错生字与对比数字的相似度，如此通过上述步骤，将转错生字与每一个对比数字进行对比，从而得到转错生字与所有对比数字的对应的相似度值。

在另一实施例中，当判断出转错生字与某一对比数字的第一声母相似度值和第一韵母相似度值均为0时，即可停止转错生字与当前对比数字的对比；直接进入转错生字与下一对比数字的对比，这样可以节省时间，提高效率。

在一个具体实施例中，上述转错生字的相似度值由声母、韵母以及声调的相似度相加而得，转错生字与某一对比数字的相似度值最高为100％，故a、b、c可根据实际情景进行设置，只需保证三者之和为100％即可，如a为33％、b为33％，c为34％，，对应的预设相似度阀值可设置为65％。

优选地，在实际应用场景中，将上述a为设置为20％，b设置为40％，c设置为40％，则上述预设阀相似度值为60％，这时纠正错字的效果最佳，上述设置根据转写引擎的特性来决定，该决定由多次测试经验而得，例如，转写引擎容易将”7“转换成”机“，也容易将“8“转成”吧“，其声调和韵母相同的概率要稍高一些，所以设定的权重应该更大。在一个具体实施例中，上述转错号码为“13把48是舞5759”，其中转错生字为“把”，“把”的声母为“b”，韵母为“a”，声调为三声，而数字“8”(“八”)在中文中的声母为“b”，韵母为“a”，声调为一声，根据上述设定的规则“把”字与数字“8”相似性达到60％，则可以认为该汉字应该是对数字“8”的误转，然后将“把”纠正为“8”，将上述转错生字“把”、“是”“舞”按上述步骤逐个纠正，最后得到正确的电话号码“13848455759”。

在另一个实施例中，上述步骤S5，包括：

步骤S50’：判断所述转错生字的汉语拼音中是否具有声母；

步骤S51’：若所述转错生字的汉语拼音中未具有声母，则判断所述转错生字与所述对比数字的韵母是否一致；

步骤S52’：若所述转错生字与所述对比数字的韵母相同，则第二韵母相似度值为为d，并判断所述转错生字与所述对比数字的声调是否相同，若所述转错生字与所述对比数字的韵母不相同，则第二韵母相似度值为0，并判断所述转错生字与所述对比数字的声调是否相同；

步骤S53’：若所述转错生字与所述对比数字的声调相同，则第二声调相似度值为e，若所述转错生字与所述对比数字的声调不相同，则第二声调相似度值为0；

步骤S54’：将第二韵母相似度值以及第二声调相似度值相加得到所述转错生字与所述对比数字的相似度值；

其中，所述d、e均为预设的正数。

本实施例中，由于中文汉字中的汉语拼音，可有韵母以及声调组成，故而可先判断上述转错生字的汉语拼音是否具有声母，若转错生字没有声母，只有韵母及声调，那么只需要判断韵母以及声调是否一致，根据实际情况，将第二韵母相似度值比第二声调相似度值高，即d大于e，且d、e均为预设的正数，对应的，上述预设相似度阀值设置在第二韵母相似度值与第二声调相似度值之间，如d为80％，e为20％，预设相似度阀值为60％。

在一个实施例中，上述步骤S6之前，包括：

步骤S60：将所述转错生字与每个对比数字的相似度值逐一与所述预设相似度阀值进行对比；

步骤S61：若所述转错生字与每个对比数字的相似度值均未超过所述预设阀值，则将所述转错生字剔除。

本实施例中，将上述转错生字与每个对比数字的相似度与上述预设相似度阀值进行对比，若不超过预设相似度阀值，即说明该转错生字不是对比数字中的任一个，无法将其纠正，故可将该转错生字剔除。然后可按顺序排序对这个转错生字的下一个字进行对比并纠正，直至将转错电话号码的所有的其余转错生字都纠正。

在一个实施例中，所述步骤S7之后，包括：

步骤S8：通过正则表达式工具验证所述纠后电话号码的格式是否符合预设的正确电话号码格式；

步骤S9：若是，则将所述纠后电话号码判定为正确的电话号码。

本实施例中，在将上述转错电话号码经过上述步骤纠正以后，得到纠后电话号码，为了进一步确定纠正的正确性，此时可对上述纠后电话号码进行验证，可采用正则表达式工具进行验证，一般情况下一串电话号码会有固定的格式，如中国号码会以固定模式开头，如“136”、“186”、“135”等等，且为11个数字，故而先预设确定为一串电话号码的格式，然后检验该纠后电话号码的格式是否与预设的一致，即检验将纠后的这串数字是否符合一个手机号码或电话号码的格式，若是，则表明得到的是正确的电话号码，若不是，则表明得到的单纯为一串数字，并不是一个电话号码。

综上所述，本发明提供的基于数据处理的电话号码纠错方法，通过简单的对比步骤得到纠正的号码，从而提高正确提取手机号码的几率，提高了语音转成电话号码文本的准确率，相对于调整语音识别模型而言，这种简单的步骤往往更高效，在电话号码提取问题上对不同口音都具有较强的鲁棒性。

参照图2，本实施例中基于数据处理的电话号码纠错装置，包括：

获取语音单元100，用于获取汉语语音，并通过语音识别技术将所述汉语语音转化为文本；

查找号码单元200，用于在所述文本中查找出转错电话号码，所述转错电话号码为所述语音在转化成文本时，将正确的电话号码误转化成一串包含数字以及中文汉字的连续字；

获取生字单元300，用于在所述转错号码中获取误转为中文汉字的转错生字；

获取拼音单元400，用于依据所述转错生字在预设资料库中获取所述转错生字的汉语拼音中的声母、韵母和声调；

对比拼音单元500，用于将所述转错生字的声母、韵母和声调分别与对比数字的声母、韵母和声调依次进行对比，以获得所述转错生字与每个对比数字的相似度值，所述对比数字为阿拉伯数字的中文读音的字；

设置佳值单元600，用于将超过预设相似度阀值的所有相似度值中数值最高的相似度值设为最佳相似度值；

替换生字单元700，用于将所述转错生字替换成所述最佳相似度值对应的所述对比数字以得到纠后电话号码。

如上述获取语音单元100所述，首先获取汉语语音，然后通过语音识别技术将其转化成文本，上述语音识别技术又称为自动语音识别(Automatic Speech Recognition，ASR)，是把人类语音中的词汇内容转换为计算机可读输入的一种技术，该技术为现有技术，此处不再赘述。上述文本的内容即为上述汉语语音的计算机可读输入内容，可通过文字表达，如汉字、数字等，上述汉语即为采用汉语拼音拼读的语言，包括各种带有地方方言口音的汉语。本方法应用于语音识别领域，主要用于纠正转化时出错的电话号码，上述文本转写是由ASR转写引擎来实现，例如，由于录音人所处的环境非常嘈杂会导致将电话码“13548485759”转写成“13舞48是吧5759”，这时可采用本方法对误转号码进行纠正。

如上述查找号码单元200所述，通过正则表达式工具在文本中查找转错电话号码，如设置固定格式，通过对文本进行匹配对比从而找出转错电话号码，一串连续字是指字符排序连续没有间断或间隔其他字符的字(包括文字或数字)，上述一串包含有数字以及文字的连续字可为“134吴乐乐吧吧”、“我吴吴我267”等。

如上述获取生字单元300所述，正常电话号码为固定一串数字，而转错号码即为一串包括数字以及中文汉字的连续字，即上述转错生字为转错号码中误转的中文汉字，本实施例中，可通过数字与汉字的格式不同，直接从转错号码中获取上述转错生字。

已知的是，每个中文汉字均可由汉语拼音拼写出读音，其中每个字的汉语拼音均对应有声母、韵母以及声调，或韵母以及声调。如上述获取拼音单元400所述，找出上述转错生字之后，依据转错生字信息在预设资料库中找出对应该转错生字的声母、韵母以及声调，上述预设资料库存储有大量的汉字以及汉字对应的拼音，包括声母、韵母以及声调。

如上述对比拼音单元500所述，将每个转错生字的声母、韵母以及声调都和上述对比数字的声母、韵母及声调对比，由于对比数字为阿拉伯数字的中文读音的字，本实施例中，上述对比数字包括0-9，其中文读音对应包括“零一幺二两三四五六七八九”，其中，因为目前部分人在报电话号码时习惯将“1”读为“幺”，或将“2”读成“两”，故而对比数字中的读音中包括“幺”、“两”。对于每个被错转出来的汉字，依次将其与“零一幺二两三四五六七八九”进行比对，并得到每个错转字与这些对比数字之间的相似度。

如设置佳值单元600及替换生字单元700所述，一般情况下，上述转错生字当中，只要对应的声母、韵母及声调中任意两个与对比数字的一致，那么该转错生字很有可能即为对比数字，故而上述预设相似度阀值可由上述声母相似度值、韵母相似度值以及声调相似度值中任意两者之和的最小值决定，而超过预设相似度阀值的相似度值中，相似度值最高的即可判断该转错生字与对比数字的相似度值为最佳相似度值，如“衣”与“1”的相似度为100％，“衣”与“七”的相似度为80％，两者都超过预设相似度阀值60％，那么最佳相似度值为上述100％。

本装置通过汉语拼音的声母、韵母及声调对比，进而纠正电话号码，在一定程度上克服了ASR引擎对电话号码识别不准确的问题，纠正不同地域不同环境造成的口音问题。

在一个实施例中，上述查找号码单元200包括：

找出数字子单元，用于在所述文本中找出预设的电话号码的起始数字；

判断数量子单元，用于判断排序次于所述起始数字之后的连续10个字当中是否包含预设数量的数字；

默认号码子单元，用于若所述起始数字之后的连续10个字当中包含预设数量的数字，将所述起始数字及之后连续10个字所形成的一串连续字默认为所述转错电话号码。

本实施例中，由于通讯号码具有固定的起始数字，如中国通信号码一般以1开头，所以可以以预设起始数字为基准，再判断这一串连续字是否为转错电话号码，在语音识别转化过程中，由于个人发音或地方方言等原因，语言识别过程中一般会将一串电话号码中个别数字转错，但并不会将电话号码中所有的数字转错，故而在起始数字之后的连续10个字当中，即一串连续字当中查看是否具有预设数量的数字，若具有，则可认为该串连续字为转错的电话号码，本实施例中，由于手机号码一般以1为起始数字，座机一般以0为起始数字，故而上述起始数字为1或0，上述预设数量为6个，如一串连续字为“1吴乐785吧吧359”，先找到其中起始数字1，在1之后的10个连续字当中判断有6个数字，那么则可以认为该串连续字“1吴乐785吧吧359”为转错电话号码。

在另一个实施例中，上述查找号码单元200包括：

找出格式子单元，用于在所述文本中查找出一串与预设的电话号码格式一致的第二连续字；

默认转错子单元，用于将所述第二连续字默认为所述转错电话号码。

在一个实施例中，上述获取生字单元300包括：

对比生字子单元，用于将所述转错电话号码中每个字与0-9中的十个阿拉伯数字依次进行对比以获得所述转错生字。

如上述对比生字子单元所述，通过将转错电话号码中的每个字(可能包括数字和汉字)逐个与对比数字进行对比，从而查找出该串转错号码中的汉字，这些汉字即为上述转错生字，其中对比数字包括了从0到9十个阿拉伯数字。

在一个实施例中，上述对比拼音单元500，包括：

对比拼音子单元，用于将所述转错生字的声母、韵母和声调分别与所述对比数字的声母、韵母和声调依次进行对比；

对比声母子单元，用于若所述转错生字与所述对比数字的声母相同，则第一声母相似度值为a，若所述转错生字与所述对比数字的声母不相同，则所述第一声母相似度值为0；

对比韵母子单元，用于若所述转错生字与所述对比数字的韵母相同，则第一韵母相似度值为b，若所述转错生字与所述对比数字的韵母不相同，则所述第一韵母相似度值为0；

对比声调子单元，用于若所述转错生字与所述对比数字的声调相同，则第一声调相似度值为c，若所述转错生字与所述对比数字的声调不相同，则所述第一声调相似度值为0；

第一相加子单元，用于将所述第一声母相似度值、第一韵母相似度值和第一声调相似度值相加，以得到所述转错生字与所述对比数字的相似度值；

其中，所述a、b、c均为预设的正数。

如上述第一相加子单元所述，获得上述第一声母相似度值、第一韵母相似度值以及第一声调相似度值之后，将这三者相加得到转错生字与对比数字的相似度，如此通过上述步骤，将转错生字与每一个对比数字进行对比，从而得到转错生字与所有对比数字的对应的相似度值。

在另一个实施例中，上述对比拼音单元500，包括：

判断声母子单元，用于判断所述转错生字的汉语拼音中是否具有声母；

判断韵母子单元，用于若所述转错生字的汉语拼音中未具有声母，则判断所述转错生字与所述对比数字的韵母是否一致；

判断声调子单元，用于若所述转错生字与所述对比数字的韵母相同，则第二韵母相似度值为为d，并判断所述转错生字与所述对比数字的声调是否相同，若所述转错生字与所述对比数字的韵母不相同，则第二韵母相似度值为0，并判断所述转错生字与所述对比数字的声调是否相同；

获得声调子单元，用于若所述转错生字与所述对比数字的声调相同，则第二声调相似度值为e，若所述转错生字与所述对比数字的声调不相同，则第二声调相似度值为0；

第二相加子单元，用于将第二韵母相似度值以及第二声调相似度值相加得到所述转错生字与所述对比数字的相似度值；

其中，所述d、e均为预设的正数。

在一个实施例中，上述基于数据处理的电话号码纠错装置，包括：

逐一对比单元，用于将所述转错生字与每个对比数字的相似度值逐一与所述预设相似度阀值进行对比；

剔除错字单元，用于若所述转错生字与每个对比数字的相似度值均未超过所述预设阀值，则将所述转错生字剔除。

验证号码单元，用于通过正则表达式工具验证所述纠后电话号码的格式是否符合预设的正确电话号码格式；

判定正确单元，用于若所述纠后电话号码的格式符合预设的正确电话号码格式，则将所述纠后电话号码判定为正确的电话号码。

综上所述，本发明提供的基于数据处理的电话号码纠错装置，通过简单的对比步骤得到纠正的号码，从而提高正确提取手机号码的几率，提高了语音转成电话号码文本的准确率，相对于调整语音识别模型而言，这种简单的步骤往往更高效，在电话号码提取问题上对不同口音都具有较强的鲁棒性。

参照图3，本发明实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于数据处理的电话号码纠错方法等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于数据处理的电话号码纠错方法。

上述处理器执行上述基于数据处理的电话号码纠错方法的步骤：获取汉语语音，并通过语音识别技术将所述汉语语音转化为文本；在所述文本中查找出转错电话号码，所述转错电话号码为所述语音在转化成文本时，将正确的电话号码误转化成一串包含数字以及中文汉字的连续字；在所述转错号码中获取误转为中文汉字的转错生字；依据所述转错生字在预设资料库中获取所述转错生字的汉语拼音中的声母、韵母和声调；将所述转错生字的声母、韵母和声调分别与对比数字的声母、韵母和声调依次进行对比，以获得所述转错生字与每个对比数字的相似度值，所述对比数字为阿拉伯数字的中文读音的字；将超过预设相似度阀值的所有相似度值中数值最高的相似度值设为最佳相似度值；将所述转错生字替换成所述最佳相似度值对应的所述对比数字以得到纠后电话号码。

上述计算机设备，上述在所述文本中查找出转错电话号码的步骤，包括：在所述文本中找出预设的电话号码的起始数字；判断排序次于所述起始数字之后的连续10个字当中是否包含预设数量的数字；若是，将所述起始数字及之后连续10个字所形成的一串连续字默认为所述转错电话号码。

在一个实施例中，上述将所述转错电话号码中每个字与0-9中的十个阿拉伯数字依次进行对比以获得所述转错生字。

在一个实施例中，上述将所述转错生字的声母、韵母和声调分别与对比数字的声母、韵母和声调依次进行对比，以获得所述转错生字与每个对比数字的相似度的步骤，包括：将所述转错生字的声母、韵母和声调分别与所述对比数字的声母、韵母和声调依次进行对比；若所述转错生字与所述对比数字的声母相同，则第一声母相似度值为a，若所述转错生字与所述对比数字的声母不相同，则所述第一声母相似度值为0；若所述转错生字与所述对比数字的韵母相同，则第一韵母相似度值为b，若所述转错生字与所述对比数字的韵母不相同，则所述第一韵母相似度值为0；若所述转错生字与所述对比数字的声调相同，则第一声调相似度值为c，若所述转错生字与所述对比数字的声调不相同，则所述第一声调相似度值为0；将所述第一声母相似度值、第一韵母相似度值和第一声调相似度值相加，以得到所述转错生字与所述对比数字的相似度值；其中，所述a、b、c均为预设的正数。

在一个实施例中，上述将所述转错生字的声母、韵母和声调分别与对比数字的声母、韵母和声调依次进行对比，以获得所述转错生字与每个对比数字的相似度值的步骤，包括：判断所述转错生字的汉语拼音中是否具有声母；若所述转错生字的汉语拼音中未具有声母，则判断所述转错生字与所述对比数字的韵母是否一致；若所述转错生字与所述对比数字的韵母相同，则第二韵母相似度值为d，并判断所述转错生字与所述对比数字的声调是否相同，若所述转错生字与所述对比数字的韵母不相同，则第二韵母相似度值为0，并判断所述转错生字与所述对比数字的声调是否相同；若所述转错生字与所述对比数字的声调相同，则第二声调相似度值为e，若所述转错生字与所述对比数字的声调不相同，则第二声调相似度值为0；将所述第二韵母相似度值以及所述第二声调相似度值相加得到所述转错生字与所述对比数字的相似度值，其中，所述d、e均为预设的正数。

在一个实施例中，上述将超过预设相似度阀值的所有相似度值中数值最高的相似度值设为最佳相似度值的步骤之前，包括：将所述转错生字与每个对比数字的相似度值逐一与所述预设相似度阀值进行对比；若所述转错生字与每个对比数字的相似度值均未超过所述预设相似度阀值，则将所述转错生字剔除。

在一个实施例中，上述将所述转错生字替换成所述最佳相似度值对应的最佳数字以得到纠后电话号码的步骤，包括：通过正则表达式工具验证所述纠后电话号码的格式是否符合预设的正确电话号码格式；若是，则将所述纠后电话号码判定为正确的电话号码。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本发明一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现一种基于数据处理的电话号码纠错方法，具体为：获取汉语语音，并通过语音识别技术将所述汉语语音转化为文本；在所述文本中查找出转错电话号码，所述转错电话号码为所述语音在转化成文本时，将正确的电话号码误转化成一串包含数字以及中文汉字的连续字；在所述转错号码中获取误转为中文汉字的转错生字；依据所述转错生字在预设资料库中获取所述转错生字的汉语拼音中的声母、韵母和声调；将所述转错生字的声母、韵母和声调分别与对比数字的声母、韵母和声调依次进行对比，以获得所述转错生字与每个对比数字的相似度值，所述对比数字为阿拉伯数字的中文读音的字；将超过预设相似度阀值的所有相似度值中数值最高的相似度值设为最佳相似度值；将所述转错生字替换成所述最佳相似度值对应的所述对比数字以得到纠后电话号码。

上述计算机可读存储介质，上述在所述文本中查找出转错电话号码的步骤，包括：在所述文本中找出预设的电话号码的起始数字；判断排序次于所述起始数字之后的连续10个字当中是否包含预设数量的数字；若是，将所述起始数字及之后连续10个字所形成的一串连续字默认为所述转错电话号码。

在一个实施例中，上述将所述转错生字的声母、韵母和声调分别与对比数字的声母、韵母和声调依次进行对比，以获得所述转错生字与每个对比数字的相似度值的步骤，包括：将所述转错生字的声母、韵母和声调分别与所述对比数字的声母、韵母和声调依次进行对比；若所述转错生字与所述对比数字的声母相同，则第一声母相似度值为a，若所述转错生字与所述对比数字的声母不相同，则所述第一声母相似度值为0；若所述转错生字与所述对比数字的韵母相同，则第一韵母相似度值为b，若所述转错生字与所述对比数字的韵母不相同，则所述第一韵母相似度值为0；若所述转错生字与所述对比数字的声调相同，则第一声调相似度值为c，若所述转错生字与所述对比数字的声调不相同，则所述第一声调相似度值为0；将所述第一声母相似度值、第一韵母相似度值和第一声调相似度值相加，以得到所述转错生字与所述对比数字的相似度值；其中，所述a、b、c均为预设的正数。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储与一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM一多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于数据处理的电话号码纠错方法，其特征在于，包括：

在所述转错电话号码中获取误转为中文汉字的转错生字；

2.根据权利要求1所述的基于数据处理的电话号码纠错方法，其特征在于，所述在所述文本中查找出转错电话号码的步骤，包括：

在所述文本中找出预设的电话号码的起始数字；

3.根据权利要求1所述的基于数据处理的电话号码纠错方法，其特征在于，所述在所述转错电话号码中获取误转为中文汉字的转错生字的步骤，包括：

4.根据权利要求1所述的基于数据处理的电话号码纠错方法，其特征在于，所述将所述转错生字的声母、韵母和声调分别与对比数字的声母、韵母和声调依次进行对比，以获得所述转错生字与每个对比数字的相似度值的步骤，包括：

其中，所述a、b、c均为预设的正数。

5.根据权利要求1所述的基于数据处理的电话号码纠错方法，其特征在于，所述将所述转错生字的声母、韵母和声调分别与对比数字的声母、韵母和声调依次进行对比，以获得所述转错生字与每个对比数字的相似度值的步骤，包括：

判断所述转错生字的汉语拼音中是否具有声母；

其中，所述d、e均为预设的正数。

6.根据权利要求1所述的基于数据处理的电话号码纠错方法，其特征在于，所述将超过预设相似度阀值的所有相似度值中数值最高的相似度值设为最佳相似度值的步骤之前，包括：

7.根据权利要求1所述的基于数据处理的电话号码纠错方法，其特征在于，所述将所述转错生字替换成所述最佳相似度值对应的最佳数字以得到纠后电话号码的步骤之后，包括：

若是，则将所述纠后电话号码判定为正确的电话号码。

8.一种基于数据处理的电话号码纠错装置，其特征在于，包括：

获取生字单元，用于在所述转错电话号码中获取误转为中文汉字的转错生字；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。