CN108288466A

CN108288466A - 一种提高语音识别准确率的方法及装置

Info

Publication number: CN108288466A
Application number: CN201611265513.0A
Authority: CN
Inventors: 叶勇; 申宗杰; 方国梁
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Priority date: 2016-12-30
Filing date: 2016-12-30
Publication date: 2018-07-17
Anticipated expiration: 2036-12-30
Also published as: CN108288466B

Abstract

本发明实施例公开一种提高语音识别准确率的方法及装置。所述方法包括：获取来自用户终端的语音信息，并根据所述用户终端的电话号码，获取用户的亲情网组网信息；根据所述用户的亲情网组网信息，获取满足预设条件的各亲情用户的电话号码，并获取所述各亲情用户的电话号码的归属地信息；根据所述各亲情用户的电话号码的归属地信息，获取目标归属地，并根据所述目标归属地，确定目标声学模型以及语言模型；根据所述目标声学模型以及语言模型，将所述语音信息转写成文本信息。所述装置用于实现所述方法，本发明实施例提供的提高语音识别准确率的方法，可提高声学模型和语言模型适用的准确率，进而提高语音识别的准确率。

Description

一种提高语音识别准确率的方法及装置

技术领域

本发明属于通信技术领域，具体涉及一种提高语音识别准确率的方法及装置。

背景技术

随着语音识别技术的发展，基于语音识别技术的应用层出不穷。尤其是在通信领域，各大通信运营商均推出了基于语音识别技术的应用以及业务。而对语音识别的准确率，直接关系到该应用或业务能否取得成功。

一般地，提升语音识别准确率的方式主要有以下几种：

1、优化声学模型：该方法通过计算语音到音节的概率，得到最优的语音与音节的对应关系。目前，声学模型主要基于隐马尔可夫(Hidden Markov Model，HMM)的框架进行声学建模。隐马尔可夫模型技术的成熟和不断完善使之成为主流方法，而通过寻找其他方式进一步优化声学模型是非常困难的。

2、优化语言模型：该方法主要根据规则和统计的方式建立音节与字的关系，通过用概率统计的方法来揭示语音单位内在的统计规律。当前，被广泛使用且简单有效的是N-gram模型。

3、训练通用语言和声学模型：该方法通过收集大量的语音文件，增加模型的训练数据，通过机器学习后得到一个通用的语言和声学模型。然而，我国幅员辽阔，文化和语言种类众多，即使是国家通用的普通话，也夹杂着当地的方言口音和文化表达。因此，通用模型很难保持稳定的语音识别准确率。

4、训练专项语言和声学模型：该方法根据实际的场景需要，通过训练一部分语音、语料以建立一个专用语言和声学模型。然而，此方式只能满足小部分人的需求，很难推广使用。

上述现有的通过模型算法优化，或者根据数据源大小训练得到不同模型的方式，存在以下问题：

不能针对用户的说话系统进行个性化定制优化：由于每个地区用户的语音表述都会具有不同的本地特色，因此，基于上线数据来对上线声学模型和语言模型进行自适应优化，虽然整体的优化方案通用性比较好，但是针对地域差异性明显或者发音比较独特的用户群体，其很难保持比较准确的识别效果。即便现有技术中为各地域各口音的用户群体建立了不同的声学和语言模型，但在实际应用时，并不能快速准确地确认用户所在的地域或者口音类别，使得声学和语言模型适用错误。

因此，如何提出一种方法，可提高声学模型和语言模型适用的准确率，进而提高语音识别的准确率，具有十分重要的意义。

发明内容

针对现有技术中的缺陷，本发明实施例提供一种提高语音识别准确率的方法及装置。

一方面，本发明实施例提出一种提高语音识别准确率的方法，包括：

获取来自用户终端的语音信息，并根据所述用户终端的电话号码，获取用户的亲情网组网信息；

根据所述用户的亲情网组网信息，获取满足预设条件的各亲情用户的电话号码，并获取所述各亲情用户的电话号码的归属地信息；

根据所述各亲情用户的电话号码的归属地信息，获取目标归属地，并根据所述目标归属地，确定目标声学模型以及语言模型；

根据所述目标声学模型以及语言模型，将所述语音信息转写成文本信息。

本发明实施例提供的提高语音识别准确率的方法，由于可根据用户亲情网中的亲情用户的电话号码的归属地作为目标归属地，并根据目标归属地确定对应的声学模型以及语言模型，因此可避免例如用户因为在外工作而导致的声学模型以及语言模型适用错误的情况，能显著提高声学模型和语言模型适用的准确率，进而提高语音识别的准确率。

另一方面，本发明实施例提出一种提高语音识别准确率的装置，包括：

信息获取模块，用于获取来自用户终端的语音信息，并根据所述用户终端的电话号码，获取用户的亲情网组网信息；

归属地获取模块，用于根据所述用户的亲情网组网信息，获取满足预设条件的各亲情用户的电话号码，并获取所述各亲情用户的电话号码的归属地信息；

语言模型确定模块，用于根据所述各亲情用户的电话号码的归属地信息，获取目标归属地，并根据所述目标归属地，确定目标声学模型以及语言模型；

语音转写模块，用于根据所述目标声学模型以及语言模型，将所述语音信息转写成文本信息。

本发明实施例提供的提高语音识别准确率的装置，由于可根据用户亲情网中的亲情用户的电话号码的归属地作为目标归属地，并根据目标归属地确定对应的声学模型以及语言模型，因此可避免例如用户因为在外工作而导致的声学模型以及语言模型适用错误的情况，能显著提高声学模型和语言模型适用的准确率，进而提高语音识别的准确率。

附图说明

图1为本发明提高语音识别准确率的方法实施例的流程示意图；

图2为本发明提高语音识别准确率的装置实施例的流程示意图；

图3为本发明提高语音识别准确率的装置的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明提高语音识别准确率的方法实施例的流程示意图，参看图1，本实施例公开一种提高语音识别准确率的方法，包括：

S1、获取来自用户终端的语音信息，并根据所述用户终端的电话号码，获取用户的亲情网组网信息；

S2、根据所述用户的注册信息，获取满足预设条件的各亲情用户的电话号码，并获取所述各亲情用户的电话号码的归属地信息；

S3、根据所述各亲情用户的电话号码的归属地信息，获取目标归属地，并根据所述目标归属地，确定目标声学模型以及语言模型；

S4、根据所述目标声学模型以及语言模型，将所述语音信息转写成文本信息。

需要说明的是，本方法实施例的执行主体为服务器。

具体地，在步骤S1中，当用户终端在进行语音通话时，服务器获取来自用户终端的语音信息，并可对该语音信息进行预处理，例如将该语音信息中的静音部分去除。

同时，服务器还可根据用户终端的电话号码，通过CRM(Customer RelationshipManagement，用户关系管理)系统获取用户的亲情网组网信息。所述亲情网组网信息包括组网内各亲情用户的注册信息以及归属地信息。

需要说明的是，所述亲情网指通信运营商为用户提供的一项话务服务：用户可建立亲情网组网，并将其他用户加入到组网中，在组网中的用户即为亲情用户。通常，亲情用户与建立亲情网组网的用户关系紧密，例如家庭关系等。

常见的亲情网业务有中国移动亲情网，天翼亲情网等。

在步骤S2中，所述预设条件包括：

与所述用户的年龄差达到一定阈值；和/或年龄超过预设值。

可以理解的是，与所述用户的年龄差达到一定阈值例如22的亲情用户，与所述用户的关系通常为父子关系或母子关系。

而年龄超过预设值例如65，则通常为保持鲜明口音特征的老年人。

通过设置这样的预设条件，即可筛选出与所述用户口音特征相同或至少相似的亲情用户。

可选地，服务器可获取在传统节假日期间，所述用户与各亲情用户的通话频次和通话时长，以及从BOSS(Business&Operation Support System，业务运营支撑系统)系统中获取所述用户与各亲情用户的支付关系，从而进一步确认所述用户与各亲情用户的亲密关系(父子、爷孙等)。

在步骤S2中，服务器可获取满足预设条件的各亲情用户的电话号码，并获取所述各亲情用户的电话号码的归属地信息，如归属的市、区、县等，作为所述各亲情用户的电话号码的归属地。

其中，所述归属地可以根据电话号码发行的区域确定；也可根据各亲情用户的数据所属的HLR(Home Location Register，本地位置寄存器)确定；还可根据所述各亲情用户的历史通信数据中，最常接入的基站的地理位置确定。

在步骤S3中，具体地，所述根据所述各亲情用户的电话号码的归属地信息，获取目标归属地包括：

若所述各亲情用户的电话号码的归属地一致，则将所述归属地作为目标归属地；

若所述各亲情用户的电话号码的归属地不一致，则选取所述归属地中对应所述亲情用户的电话号码的数量最多的归属地作为目标归属地。

进一步地，针对以工作为目的建立亲情网组网的现象，可将在固定时间段内如节假日、非工作日等联系频率和时间，较工作日少的亲情用户的电话号码的归属地排除，以进一步提高目标归属地的准确性。

可选地，若所述各亲情用户的电话号码的归属地不一致，还可将所述各亲情用户中，年龄最大的用户对应的归属地作为目标归属地。

可以理解的是，由于满足预设条件的亲情用户与所述用户的关系最紧密，因此，在确定目标归属地后，所述用户的口音最有可能与该确定的目标归属地的口音相同或至少相似。此外，由于年长用户的归属地通常与该年长用户的口音对应，因此，基于年龄确定的目标归属地，也具有极高的准确性。

进一步地，在确定目标归属地后，服务器则可根据所述目标归属地，确定目标声学模型以及语言模型。

具体地，服务器会判断与所述目标归属地对应的声学模型以及语言模型是否存在，若存在，则将该声学模型以及语言模型作为目标声学模型以及语言模型；

若不存在，则将通用的声学模型以及语言模型作为目标声学模型以及语言模型。

例如，若服务器获知目标归属地为广州市，而在数据库中存在广州市的声学模型以及语言模型，服务器则将广州市的声学模型以及语言模型作为目标声学模型以及语言模型；

若数据库中不存在广州市的声学模型以及语言模型，服务器则将通用的声学模型以及语言模型，例如粤语的声学模型以及语言模型，作为目标声学模型以及语言模型。

在步骤S4中，服务器确定目标声学模型以及语言模型后，则可根据该确定的目标声学模型以及语言模型，对在步骤S1中获取到的语音信息进行转写，将其转写成文本信息。

本发明实施例提供的提高语音识别准确率的方法，由于可基于用户亲情网中的亲情用户的电话号码的归属地，确定对应的声学以及语言模型，因此，可快速有效地提高语音识别的准确率，具有十分广阔的应用前景。

图1为本发明提高语音识别准确率的方法实施例的流程示意图，参看图1，本实施例公开一种提高语音识别准确率的方法，包括：信息获取模块1、归属地获取模块2、语言模型确定模块3以及语音转写模块4。

信息获取模块1用于获取来自用户终端的语音信息，并根据所述用户终端的电话号码，获取用户的亲情网组网信息；

归属地获取模块2用于根据所述用户的注册信息，获取满足预设条件的各亲情用户的电话号码，并获取所述各亲情用户的电话号码的归属地信息；

语言模型确定模块3用于根据所述各亲情用户的电话号码的归属地信息，获取目标归属地，并根据所述目标归属地，确定目标声学模型以及语言模型；

语音转写模块4用于根据所述目标声学模型以及语言模型，将所述语音信息转写成文本信息。

具体地，当用户终端在进行语音通话时，信息获取模块1会获取来自用户终端的语音信息，并对该语音信息进行预处理，例如将该语音信息中的静音部分去除。

同时，信息获取模块1还可根据用户终端的电话号码，通过CRM(CustomerRelationship Management，用户关系管理)系统获取用户的亲情网组网信息。所述亲情网组网信息包括组网内各亲情用户的注册信息以及归属地信息。

常见的亲情网业务有中国移动亲情网，天翼亲情网等。

具体地，所述预设条件包括：

与所述用户的年龄差达到一定阈值；和/或年龄超过预设值。

通过这样的预设条件，归属地获取模块2即可筛选出与所述用户口音特征相同或至少相似的亲情用户。

可选地，归属地获取模块2可获取在传统节假日期间，所述用户与各亲情用户的通话频次和通话时长，以及从BOSS(Business&Operation Support System，业务运营支撑系统)系统中获取所述用户与各亲情用户的支付关系，从而进一步确认所述用户与各亲情用户的亲密关系(父子、爷孙等)。

进一步地，归属地获取模块2可获取满足预设条件的各亲情用户的电话号码，并获取所述各亲情用户的电话号码的归属地信息，如归属的市、区、县等，作为所述各亲情用户的电话号码的归属地。

语言模型确定模块3具体用于：

进一步地，针对以工作为目的建立亲情网组网的现象，语言模型确定模块3可将在固定时间段内如节假日、非工作日等联系频率和时间，较工作日少的亲情用户的电话号码的归属地排除，以进一步提高目标归属地的准确性。

可选地，若所述各亲情用户的电话号码的归属地不一致，语言模型确定模块3还可将所述各亲情用户中，年龄最大的用户对应的归属地作为目标归属地。

进一步地，语言模型确定模块3在确定目标归属地后，则可根据所述目标归属地，确定目标声学模型以及语言模型。

例如，若语言模型确定模块3获知目标归属地为广州市，而在数据库中存在广州市的声学模型以及语言模型，语言模型确定模块3则将广州市的声学模型以及语言模型作为目标声学模型以及语言模型；

若数据库中不存在广州市的声学模型以及语言模型，语言模型确定模块3则将通用的声学模型以及语言模型，例如粤语的声学模型以及语言模型，作为目标声学模型以及语言模型。

在语言模型确定模块3确定目标声学模型以及语言模型后，语音转写模块4则可根据该确定的目标声学模型以及语言模型，对在信息获取模块1获取到的语音信息进行转写，将其转写成文本信息。

本发明实施例提供的提高语音识别准确率的装置，由于可基于用户亲情网中的亲情用户的电话号码的归属地，确定对应的声学以及语言模型，因此，可快速有效地提高语音识别的准确率，具有十分广阔的应用前景。

图3为本发明提高语音识别准确率的装置的结构框图；参看图3，所述装置包括：处理器(processor)301、存储器(memory)302、通信接口(Communications Interface)303和总线304；

其中，

所述处理器301、存储器302、通信接口303通过所述总线304完成相互间的通信；

所述通信接口303用于该装置与其他装置的通信设备之间的信息传输；

所述处理器301用于调用所述存储器302中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：获取来自用户终端的语音信息，并根据所述用户终端的电话号码，获取用户的亲情网组网信息；根据所述用户的亲情网组网信息，获取满足预设条件的各亲情用户的电话号码，并获取所述各亲情用户的电话号码的归属地信息；根据所述各亲情用户的电话号码的归属地信息，获取目标归属地，并根据所述目标归属地，确定目标声学模型以及语言模型；根据所述目标声学模型以及语言模型，将所述语音信息转写成文本信息。

本发明实施例还公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取来自用户终端的语音信息，并根据所述用户终端的电话号码，获取用户的亲情网组网信息；根据所述用户的亲情网组网信息，获取满足预设条件的各亲情用户的电话号码，并获取所述各亲情用户的电话号码的归属地信息；根据所述各亲情用户的电话号码的归属地信息，获取目标归属地，并根据所述目标归属地，确定目标声学模型以及语言模型；根据所述目标声学模型以及语言模型，将所述语音信息转写成文本信息。

本发明实施例还提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：获取来自用户终端的语音信息，并根据所述用户终端的电话号码，获取用户的亲情网组网信息；根据所述用户的亲情网组网信息，获取满足预设条件的各亲情用户的电话号码，并获取所述各亲情用户的电话号码的归属地信息；根据所述各亲情用户的电话号码的归属地信息，获取目标归属地，并根据所述目标归属地，确定目标声学模型以及语言模型；根据所述目标声学模型以及语言模型，将所述语音信息转写成文本信息。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种提高语音识别准确率的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述预设条件包括：

与所述用户的年龄差达到一定阈值；

和/或年龄超过预设值。

3.根据权利要求1所述的方法，其特征在于，所述根据所述各亲情用户的电话号码的归属地信息，获取目标归属地包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述各亲情用户的电话号码的归属地信息，获取目标归属地还包括：

若所述各亲情用户的电话号码的归属地不一致，则将所述各亲情用户中，年龄最大的用户对应的归属地作为目标归属地。

5.根据权利要求1所述的方法，其特征在于，所述根据所述目标归属地，确定目标声学模型以及语言模型包括：

判断与所述目标归属地对应的声学模型以及语言模型是否存在，若存在，则将该声学模型以及语言模型作为目标声学模型以及语言模型；

6.一种提高语音识别准确率的装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述预设条件包括：

与所述用户的年龄差达到一定阈值；

和/或年龄超过预设值。

8.根据权利要求6所述的装置，其特征在于，所述语言模型确定模块具体用于：

9.根据权利要求8所述的装置，其特征在于，所述语言模型确定模块还具体用于：

10.根据权利要求6所述的装置，其特征在于，所述语言模型确定模块具体用于：