CN111326147B

CN111326147B - 语音识别方法、装置、电子设备及存储介质

Info

Publication number: CN111326147B
Application number: CN201811519005.XA
Authority: CN
Inventors: 邓耀; 王飞
Original assignee: Beijing Didi Infinity Technology and Development Co Ltd
Current assignee: Beijing Didi Infinity Technology and Development Co Ltd
Priority date: 2018-12-12
Filing date: 2018-12-12
Publication date: 2023-11-17
Anticipated expiration: 2038-12-12
Also published as: CN111326147A

Abstract

本申请提供了一种语音识别方法、装置、电子设备及存储介质，包括：接收用户输入的语音信息；将语音信息转换成至少一个文本信息；将至少一个文本信息输入动态语言模型，获得动态语言模型输出的每个文本信息的第一命中概率；获得第一命中概率最高的文本信息。本申请实施例可以先将用户的语音信息转换成至少一个文本信息，然后将文本信息输入到动态语言模型中，由动态语言模型来获得每个文本信息的命中概率，然后选出命中概率最高的文本信息。由于动态语言模型是根据同一用户的历史数据信息作为样本训练获得的，因此，该动态语言模型输出的概率更贴近用户的使用习惯，从而有利于提高语音识别的准确率。

Description

语音识别方法、装置、电子设备及存储介质

技术领域

本申请涉及语音识别技术领域，具体而言，涉及一种语音识别方法、装置、电子设备及存储介质。

背景技术

近年来，随着移动通信技术的快速发展，大量基于智能终端的应用程序(Application，APP)涌现了出来。叫车类APP是其中很受大众欢迎的一类。乘客可通过在APP输入出发地和目的地信息，发起用车请求，司机接收到订单之后根据乘客的出发地信息前去接驾。

用户在使用网约车时，可通过语音输入或文本输入的方式输入出发地信息和目的地信息，从而发起订单请求。对于通过语音输入的方式，通常是对用户输入的语音进行识别，并根据语音识别结果进行派单。现实生活中，相同的文字由不同的人表述可能会产生不同的语音，因此现有技术中对用户的语音识别往往存在识别准确率不高的问题。

发明内容

有鉴于此，本申请实施例的目的在于提供一种语音识别方法、装置、电子设备及存储介质，能够通过每个用户不同的动态语言模型来对用户的语音信息进行识别，从而改善现有技术中对用户的语音识别存在的识别准确率不高的问题。

一方面，本申请实施例提供一种语音识别方法，包括：接收用户输入的语音信息；将所述语音信息转换成至少一个文本信息；将所述至少一个文本信息输入动态语言模型，获得所述动态语言模型输出的所述至少一个文本信息中每个文本信息的第一命中概率，所述动态语言模型以所述用户的历史数据信息作为样本训练得到；获得第一命中概率最高的文本信息。

本申请实施例可以先将用户的语音信息转换成至少一个文本信息，然后将文本信息输入到动态语言模型中，由动态语言模型来获得至少一个文本信息中每个文本信息的命中概率，然后选出命中概率最高的文本信息。由于动态语言模型是根据同一用户的历史数据信息作为样本训练获得的，因此，该动态语言模型输出的概率更贴近用户的使用习惯，从而有利于提高语音识别的准确率。

可选地，在所述接收用户输入的语音信息之后，所述方法还包括：获取所述用户的第一时间段内的历史数据信息，所述历史数据信息包括多个历史目标地点以及多个历史目标地点中每个历史目标地点所占的权重值；将所述多个历史目标地点以及所述多个历史目标地点中每个历史目标地点所占的权重值作为样本，对所述动态语言模型进行训练，获得训练后的动态语言模型，其中，所述多个历史目标地点作为输入量，所述多个历史目标地点中每个历史目标地点所占的权重值作为输出量。

在本申请实施例中，可以用同一用户第一时间段内的历史数据信息训练动态语言模型，将多个历史目标地点作为自变量，将每个历史目标地点所占的权重值作为因变量，输入到动态语言模型中，对动态语言模型进行训练。由于采用的是相同用户的历史数据信息来训练动态语言模型，使得动态语言模型可以更加贴合用户的出行需求，并且使得动态语言模型相对于通用语音模型体积小，准确率高。

可选地，在将所述语音信息转换成具有相同发音的至少一个文本信息之后，所述方法还包括：将所述至少一个文本信息输入通用语言模型，获得所述通用语言模型输出的所述至少一个文本信息中每个文本信息的第二命中概率；获得所述第二命中概率最高的文本信息；将所述第一命中概率最高的文本信息与所述第二命中概率最高的文本信息进行比较，获得两者中的命中概率高的文本信息，并将该文本信息作为目标地点。

虽然通常情况下动态语言模型获得更高的命中概率的可能性较大，但也不排除某些情况下使用通用语言模型获得的命中概率可能比使用动态语言模型获得的命中概率更高。因此，本申请实施例可以分别将至少一个文本信息输入到两个模型中，再对两个模型分别获得的结果进行比较，选出其中命中概率更高的文本信息。通过这一方式进一步提高了语音识别的准确率。

可选地，在所述将所述第一命中概率最高的文本信息与所述第二命中概率最高的文本信息进行比较，获得两者中的命中概率高的文本信息，并将该文本信息作为目标地点之后，所述方法还包括：删除所述动态语言模型。

将动态语言模型删除可以节约流量资源，并且在每次完成语音识别后，此次语音识别的结果会加入到历史数据信息中。因此，在下一次再进行语音识别时，会采集更新后的历史数据信息作为新的动态语言模型训练的样本，从而维持了动态语言模型的实时性。

可选地，所述历史目标地点包括历史起始地点以及历史目的地点中至少一项。

可选地，所述将所述语音信息转换成至少一个文本信息，包括：按照预设时间长度将所述语音信息划分为多帧音频信息；将所述多帧音频信息中第一数量的连续帧的音频信息组成第一音节；将所述多帧音频信息中第一音节后的第二数量的连续帧的音频信息组成第二音节；根据所述第一音节和第二音节确定所述语音信息的至少一个发音；将所述语音信息转换成与该语音信息具有相同发音的至少一个文本信息。

获取到用户的语音信息之后，可以先将语音信息对应的音频文件分成多段相同时长的音频信息，然后将第一数量的多段音频信息组合形成第一音节，将第二数量的多段音频信息组合形成第二音节，然后根据第一音节和第二音节确定至少一个发音。并可以循环上述的方式从而获得语音信息中的每个发音。然后根据发音，将语音信息转换成具有相同发音的至少一个文本信息，可以通过这种方式来获得语音信息对应的至少一个文本。

另一方面，本申请实施例还提供一种语音识别装置，包括：语音信息接收模块，用于接收用户输入的语音信息；文本转换模块，用于将所述语音信息转换成至少一个文本信息；第一概率获得模块，用于将所述至少一个文本信息输入动态语言模型，获得所述动态语言模型输出的所述至少一个文本信息中每个文本信息的第一命中概率，所述动态语言模型以所述用户的历史数据信息作为样本训练得到；第一文本获得模块，用于获得第一命中概率最高的文本信息。

本申请实施例可以先将用户的语音信息转换成至少一个文本信息，然后将文本信息输入到动态语言模型中，由动态语言模型来获得至少一个文本信息中命中概率最高的文本信息。由于动态语言模型是根据同一用户的历史目标地点作为样本训练获得的，因此，该动态语言模型输出的概率更贴近用户的使用习惯，从而有利于提高语音识别的准确率。

可选地，所述装置还包括：历史数据获得模块，用于获取所述用户的第一时间段内的历史数据信息，所述历史数据信息包括多个历史目标地点以及多个历史目标地点中每个历史目标地点所占的权重值；动态模型训练模块，用于将所述多个历史目标地点以及所述多个历史目标地点中每个历史目标地点所占的权重值作为样本，对所述动态语言模型进行训练，获得训练后的动态语言模型，其中，所述多个历史目标地点作为输入量，所述多个历史目标地点中每个历史目标地点所占的权重值作为输出量。

可选地，所述装置还包括：第二概率获得模块，用于将所述至少一个文本信息输入通用语言模型，获得所述通用语言模型输出的所述至少一个文本信息中每个文本信息的第二命中概率；第二文本获得模块，用于获得所述第二命中概率最高的文本信息；目标地点获得模块，用于将所述第一命中概率最高的文本信息与所述第二命中概率最高的文本信息进行比较，获得两者中的命中概率高的文本信息，并将该文本信息作为目标地点。

可选地，所述装置还包括：模型删除模块，用于删除所述动态语言模型。

可选地，所述文本转换模块包括：音频划分子模块，用于按照预设时间长度将所述语音信息划分为多帧音频信息；第一音节组成子模块，用于将所述多帧音频信息中第一数量的连续帧的音频信息组成第一音节；第二音节组成子模块，用于将所述多帧音频信息中第一音节后的第二数量的连续帧的音频信息组成第二音节发音确定子模块，用于根据所述第一音节和第二音节确定所述语音信息的至少一个发音；文本转换子模块，用于将所述语音信息转换成与该语音信息具有相同发音的至少一个文本信息。

另一方面，本申请实施例还提供一种电子设备，包括：处理器、存储介质和总线；存储介质存储有处理器可执行的机器可读指令，当电子设备运行时，处理器与存储介质之间通过总线通信，处理器执行机器可读指令，以执行时执行如上述一方面提供的语音识别方法。

另一方面，本申请实施例还提供一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述一方面提供的语音识别方法。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例提供的电子设备结构示意图；

图2示出了本申请实施例所提供的一种语音识别方法的流程示意图；

图3示出了本申请实施例所提供的一种语音识别方法的部分步骤的流程示意图；

图4示出了本申请实施例所提供的一种语音识别方法的部分步骤的流程示意图；

图5示出了图2示出的步骤S120的一种实施情况的具体步骤流程示意图；

图6示出了本申请实施例所提供的一种语音识别装置的示意性结构框图；

图7示出了本申请实施例所提供的语音识别系统的框图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，应当理解，本申请中附图仅起到说明和描述的目的，并不用于限定本申请的保护范围。本申请中使用的流程图示出了根据本申请的一些实施例实现的操作。应该理解，流程图的操作可以不按顺序实现，没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外，本领域技术人员在本申请内容的指引下，可以向流程图添加一个或多个其他操作，也可以从流程图中移除一个或多个操作。

另外，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了使得本领域技术人员能够使用本申请内容，结合语音识别方法，给出以下实施方式。对于本领域技术人员来说，在不脱离本申请的精神和范围的情况下，可以将这里定义的一般原理应用于其他实施例和应用场景。

需要说明的是，本申请实施例中将会用到术语“包括”，用于指出其后所声明的特征的存在，但并不排除增加其它的特征。此外，本申请实施例中，“多个”是指两个或两个以上。

本申请中的术语“用户”可以指代请求服务、订购服务、提供服务或促成服务的提供的个人、实体或工具。例如，用户可以是乘客、驾驶员、操作员等，或其任意组合。

图1为本申请实施例提供的电子设备结构示意图。例如，处理器可以用于电子设备100上，并且用于执行本申请中的功能。

电子设备100可以是通用计算机或特殊用途的计算机，两者都可以用于实现本申请的语音识别方法。本申请尽管仅示出了一个计算机，但是为了方便起见，可以在多个类似平台上以分布式方式实现本申请描述的功能，以均衡处理负载。

例如，电子设备100可以包括连接到网络的网络端口110、用于执行程序指令的一个或多个处理器120、通信总线130和不同形式的存储介质140，例如，磁盘、ROM、或RAM，或其任意组合。示例性地，计算机平台还可以包括存储在ROM、RAM、或其他类型的非暂时性存储介质、或其任意组合中的程序指令。根据这些程序指令可以实现本申请的方法。电子设备100还包括计算机与其他输入输出设备(例如键盘、显示屏)之间的输入/输出(Input/Output，I/O)接口150。

为了便于说明，在电子设备100中仅描述了一个处理器。然而，应当注意，本申请中的电子设备100还可以包括多个处理器，因此本申请中描述的一个处理器执行的步骤也可以由多个处理器联合执行或单独执行。例如，若电子设备100的处理器执行步骤A和步骤B，则应该理解，步骤A和步骤B也可以由两个不同的处理器共同执行或者在一个处理器中单独执行。例如，第一处理器执行步骤A，第二处理器执行步骤B，或者第一处理器和第二处理器共同执行步骤A和B。

现有技术中用户输入语音后，通常通过通用语言模型来进行语音识别，由于通用语言模型中数据量较大，同样的音可能对应有较多的音同字不同的名称，可能导致识别准确率较低。因此，本申请实施例提供了一种语音识别方法，从而改善现有技术中对用户的语音识别存在的识别准确率不高的问题。

请参见图2，图2示出了本申请实施例提供的语音识别方法，具体包括如下步骤：

步骤S110，接收用户输入的语音信息。

语音信息可以通过音频文件的形式传输，服务器可以接收音频文件形式的语音信息。语音信息中可以包含用户的某种需求，例如可以是出行需求，即语音信息中可以包括目标地点信息；也可以是购物需求，即语音信息中可以包括目标商家或目标商品，目标商家可以是线上商家也可以是线下商家。

步骤S120，将所述语音信息转换成至少一个文本信息。

可以将语音信息对应的音频文件按照预设时间长度划分为多个相同时长的音频信息，然后将第一数量的多个音频信息组合形成第一音节，将第二数量的多个音频信息组合形成第二音节，然后根据至少两个音节确定一个发音。

例如，对于用户输入的内容为“去故宫(qv gu gong)”的语音信息，可以将该段语音信息对应的音频文件以10ms为预设时间长度来划分，划分出若干个音频信息。然后将第一数量的连续音频信息组成“去(qv)”的第一个音节q，第一数量可以是5，也可以是10，第一数量的具体值不应该理解为是对本申请的限制。

第二数量的连续音频信息可以是紧跟第一个音节q之后的音频信息。将第二数量的连续音频信息组成“去(qv)”的第二个音节v，第二数量的数量可以与第一数量相同，也可以与第一数量不同，第二数量的具体值不应该理解为是对本申请的限制。将第一音节q与第二音节v组合，可以确定发音“qv”。同理，可以根据上述方式，分别获得发音“gu”和发音“gong”。

然后可以获得具有相同发音的至少一个文本信息，例如发音“qv gu gong”可以对应有如下文本：去故宫、去固公、趣顾工等等。

步骤S130，将所述至少一个文本信息输入动态语言模型，获得所述动态语言模型输出的所述至少一个文本信息中每个文本信息的第一命中概率，所述动态语言模型以所述用户的历史数据信息作为样本训练得到。

动态语言模型可以接收至少一个文本信息，并给出至少一个文本信息中每个文本信息的第一命中概率，例如，对于去故宫、去固公、趣顾工三个相同发音的文本信息，动态语言模型可以分别给出各自的第一命中概率。例如，“去故宫”的第一命中概率为0.7，“去固公”的第一命中概率为0.2，“趣顾工”的第一命中概率为0.05。

在一些具体的实施方式中，第一命中概率可以通过分值的形式呈现，分值的高低与第一命中概率的高低成正相关。分值与第一命中概率可以存在线性关系，例如，第一命中概率0.7对应的分值为7分，0.2对应的分值为2分，0.05对应的分值为0.5分。

动态语言模型可以是根据用户的历史数据信息训练获得的，根据用户的需求不同，作为训练样本的历史数据信息也会不同，例如对于出行需求的应用场景，历史数据信息可以为同一用户的多个历史目标地点以及每个历史目标地点所占的权重值；对于购买需求的应用场景，历史数据信息可以为同一用户的多个历史购买商品以及每个历史购买商品所占的权重值。动态语言模型可以是N-Gram模型(N元模型)，动态语言模型的N值可以为1。

步骤S140，获得第一命中概率最高的文本信息。

第一命中概率最高意味着最为贴合该用户的使用习惯。由于动态语言模型是根据同一用户的历史数据信息作为样本训练获得的，因此，该动态语言模型输出的概率更贴近用户的使用习惯，从而有利于提高语音识别的准确率。

接下来不妨以用户的出行需求为例进行说明：

可选地，请参见图3，在接收用户输入的语音信息之后，还可以包括如下步骤：

步骤S210，获取所述用户的第一时间段内的历史数据信息，所述历史数据信息包括多个历史目标地点以及多个历史目标地点中每个历史目标地点所占的权重值。

第一时间段可以是从用户输入语音信息的时间点往前推出的一个时间长度，例如，可以是用户输入语音信息的时间点之前一个月，也可以是用户输入语音信息的时间点之前一个星期。第一时间段的具体时间长度不应该理解为是对本申请的限制。

历史数据信息可以包括多个历史目标地点以及每个历史目标地点所占的权重值，历史目标地点包括历史起始地点以及历史目的地点中至少一项。历史起始地点为用户在第一时间段内的多个出发地点，历史目标地点为用户在第一时间段内的多个到达地点。

历史目标地点所占的权重值指的是某历史目标地点在相同发音的多个历史目标地点中所占据的权重值。例如，对于历史目标地点“颐和园”，可能不存在与之具有相同发音(yi he yuan)的其他历史目标地点，因此，“颐和园”所占据的权重值即为100％，即若用户输入的语音信息中包括发音“yihe yuan”，则可以获得与该发音对应的唯一文本信息“颐和园”。又例如，对于历史目标地点“佳合超市”，可能存在与之具有相同发音(jia he chaoshi)的其他历史目标地点“嘉禾超市”或“家和超市”，且用户在第一时间段内可能去佳合超市7次，去嘉禾超市2次，去家和超市1次。佳合超市所占据的权重值为70％，嘉禾超市所占据的权重值为20％，家和超市所占据的权重值为10％。历史数据信息还可以包括用户常用话术，例如“我在XXX”、“打车去XXX”、“去XXX”、“我想去XXX”等。

步骤S220，将所述多个历史目标地点以及所述多个历史目标地点中每个历史目标地点所占的权重值作为样本，对所述动态语言模型进行训练，获得训练后的动态语言模型，其中，所述多个历史目标地点作为输入量，所述多个历史目标地点中每个历史目标地点所占的权重值作为输出量。

可以用同一用户第一时间段内的历史数据信息训练动态语言模型，将多个历史目标地点作为自变量，将每个历史目标地点所占的权重值作为因变量，输入到动态语言模型中，对动态语言模型进行训练。由于采用的是同一用户的历史目标地点来训练动态语言模型，使得动态语言模型可以更加贴合用户的出行需求，并且使得动态语言模型相对于通用语音模型体积小，准确率高。动态语言模型可以是N-Gram模型(N元模型)，动态语言模型的N值可以为1。

可选地，请参见图4，在将语音信息转换成具有相同发音的至少一个文本信息之后，还可以包括如下步骤：

步骤S310，将所述至少一个文本信息输入通用语言模型，获得所述通用语言模型输出的所述至少一个文本信息中每个文本信息的第二命中概率。

通用语言模型可以是N-Gram模型(N元模型)，通用语言模型的N值可以为4。通用语言模型中存储的样本可以是更大更全面的样本，具体地，通用语言模型中可以存储全国地图中的地点名称。通用语言模型可以根据大量用户对目标地点的选择来作为训练样本。因此，将至少一个文本信息输入到通用语言模型中，通用语言模型对每个文本信息也会给出相应的第二命中概率，每个文本信息的第二命中概率可能与第一命中概率相同，也可能与第一命中概率不同，第二命中概率可能大于第一命中概率，也可能小于第一命中概率。例如，“去故宫”的第二命中概率为0.4，“去固公”的第二命中概率为0.5，“趣顾工”的第二命中概率为0.1。

步骤S320，获得所述第二命中概率最高的文本信息。

从至少一个文本信息中获得第二命中概率最高的文本信息。获得第二命中概率最高的“去固公”。

步骤S330，将所述第一命中概率最高的文本信息与所述第二命中概率最高的文本信息进行比较，获得两者中的命中概率高的文本信息，并将该文本信息作为目标地点。

文本信息“去故宫”的第一命中概率为0.7，“去固公”的第二命中概率为0.5，因此选择命中概率高的，即第一命中概率0.7对应的“去故宫”。

在步骤S330之后，还可以包括：删除动态语言模型。

可选地，请参见图5，图2中示出的步骤S120具体可以包括如下步骤：

步骤S121，按照预设时间长度将所述语音信息划分为多帧音频信息。

预设时间长度可以是一个固定时长的时间长度，例如可以是10ms，也可以是其他时长如20ms或5ms。以预设时间长度将语音信息所在的音频文件划分为多帧音频信息。

步骤S122，将所述多帧音频信息中第一数量的连续帧的音频信息组成第一音节。

多帧音频信息中第一数量的连续帧的音频信息为发音的某一具体音节，以用户输入的内容为“去故宫(qv gu gong)”为例，第一数量的连续音频信息组成“去(qv)”的第一个音节q。

步骤S123，将所述多帧音频信息中第一音节后的第二数量的连续帧的音频信息组成第二音节。

第二数量的连续音频信息可以是紧跟第一个音节q之后的音频信息。将第二数量的连续音频信息组成“去(qv)”的第二个音节v。

步骤S124，根据所述第一音节和第二音节确定所述语音信息的至少一个发音。

将第一音节q与第二音节v组合，可以确定发音“qv”。同理，可以根据上述方式，分别获得发音“gu”和发音“gong”。

可以理解，有些情况下可能需要三个音节共同组成一个发音。以佳合超市的“佳(jia)”为例，可能有第三数量的连续音频信息组成“佳(jia)”的第一个音节j，有第四数量的连续音频信息组成“佳(jia)”的第二个音节i，有第五数量的连续音频信息组成“佳(jia)”的第三个音节a。

步骤S125，将所述语音信息转换成与该语音信息具有相同发音的至少一个文本信息。

图6示出了语音识别装置的示意性结构框图，该语音识别装置实现的功能对应上述方法执行的步骤。该装置可以理解为执行语音识别方法的服务器，或服务器中的处理器，也可以理解为独立于上述服务器或处理器之外的在服务器控制下实现本申请功能的组件，如图所示，该语音识别装置600可以包括：

语音信息接收模块610，用于接收用户输入的语音信息。

文本转换模块620，用于将所述语音信息转换成至少一个文本信息。

第一概率获得模块630，用于将所述至少一个文本信息输入动态语言模型，获得所述动态语言模型输出的所述至少一个文本信息中每个文本信息的第一命中概率，所述动态语言模型以所述用户的历史数据信息作为样本训练得到。

第一文本获得模块640，用于获得第一命中概率最高的文本信息。

在上述实施例的基础上，所述装置还包括：

历史数据获得模块，用于获取所述用户的第一时间段内的历史数据信息，所述历史数据信息包括多个历史目标地点以及多个历史目标地点中每个历史目标地点所占的权重值。

动态模型训练模块，用于将所述多个历史目标地点以及所述多个历史目标地点中每个历史目标地点所占的权重值作为样本，对所述动态语言模型进行训练，获得训练后的动态语言模型，其中，所述多个历史目标地点作为输入量，所述多个历史目标地点中每个历史目标地点所占的权重值作为输出量。

在上述实施例的基础上，所述装置还包括：

第二概率获得模块，用于将所述至少一个文本信息输入通用语言模型，获得所述通用语言模型输出的所述至少一个文本信息中每个文本信息的第二命中概率。

第二文本获得模块，用于获得所述第二命中概率最高的文本信息。

目标地点获得模块，用于将所述第一命中概率最高的文本信息与所述第二命中概率最高的文本信息进行比较，获得两者中的命中概率高的文本信息，并将该文本信息作为目标地点。

在上述实施例的基础上，所述装置还包括：模型删除模块，用于删除所述动态语言模型。

在上述实施例的基础上，所述历史目标地点包括历史起始地点以及历史目的地点中至少一项。

在上述实施例的基础上，所述文本转换模块620具体包括：

音频划分子模块，用于按照预设时间长度将所述语音信息划分为多帧音频信息。

第一音节组成子模块，用于将所述多帧音频信息中第一数量的连续帧的音频信息组成第一音节。

第二音节组成子模块，用于将所述多帧音频信息中第一音节后的第二数量的连续帧的音频信息组成第二音节。

发音确定子模块，用于根据所述第一音节和第二音节确定所述语音信息的至少一个发音。

文本转换子模块，用于将所述语音信息转换成与该语音信息具有相同发音的至少一个文本信息。

上述模块可以经由有线连接或无线连接彼此连接或通信。有线连接可以包括金属线缆、光缆、混合线缆等，或其任意组合。无线连接可以包括通过LAN、WAN、蓝牙、ZigBee、或NFC等形式的连接，或其任意组合。两个或更多个模块可以组合为单个模块，并且任何一个模块可以分成两个或更多个单元。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置的具体工作过程，可以参考方法实施例中的对应过程，本申请中不再赘述。在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图7本发明实施例提供的语音识别系统的框图。例如，语音识别系统可以是用于诸如出租车、代驾服务、快车、拼车、公共汽车服务、驾驶员租赁、或班车服务之类的运输服务、或其任意组合的在线运输服务平台。语音识别系统可以包括服务器501、网络502、服务请求端503、服务提供端504和数据库505中的一种或多种，服务器501中可以包括执行指令操作的处理器。应当说明的是，服务器可以为本发明实施例提供的语音识别装置。

在一些实施例中，服务器501可以是单个服务器，也可以是服务器组。服务器组可以是集中式的，也可以是分布式的(例如，服务器501可以是分布式系统)。在一些实施例中，服务器501相对于终端，可以是本地的、也可以是远程的。例如，服务器501可以经由网络502访问存储在服务请求端503、服务提供端504、或数据库505、或其任意组合中的信息和/或数据。作为另一示例，服务器501可以直接连接到服务请求端503、服务提供端504和数据库505中至少一个，以访问存储的信息和/或数据。在一些实施例中，服务器501可以在云平台上实现；仅作为示例，云平台可以包括私有云、公有云、混合云、社区云(community cloud)、分布式云、跨云(inter-cloud)、多云(multi-cloud)等，或者它们的任意组合。在一些实施例中，服务器501可以在具有本申请中图1所示的一个或多个组件的电子设备100上实现。

在一些实施例中，服务器501可以包括处理器。处理器可以处理与服务请求有关的信息和/或数据，以执行本申请中描述的一个或多个功能。例如，处理器可以基于从服务请求端503获得的语音信息来进行语音识别。在一些实施例中，处理器可以包括一个或多个处理核(例如，单核处理器(S)或多核处理器(S))。仅作为举例，处理器可以包括中央处理单元(Central Processing Unit,CPU)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、专用指令集处理器(Application Specific Instruction-setProcessor,ASIP)、图形处理单元(Graphics Processing Unit,GPU)、物理处理单元(Physics Processing Unit,PPU)、数字信号处理器(Digital Signal Processor,DSP)、现场可编程门阵列(Field Programmable Gate Array,FPGA)、可编程逻辑器件(Programmable Logic Device,PLD)、控制器、微控制器单元、简化指令集计算机(ReducedInstruction Set Computing,RISC)、或微处理器等，或其任意组合。

网络502可以用于信息和/或数据的交换。在一些实施例中，语音识别系统中的一个或多个组件(例如，服务器501，服务请求端503，服务提供端504和数据库505)可以向其他组件发送信息和/或数据。例如，服务器501可以经由网络502从服务请求端503获取服务请求。在一些实施例中，网络502可以是任何类型的有线或者无线网络，或者是他们的结合。仅作为示例，网络502可以包括有线网络、无线网络、光纤网络、远程通信网络、内联网、因特网、局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)、无线局域网(Wireless Local Area Networks，WLAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、公共电话交换网(Public Switched Telephone Network，PSTN)、蓝牙网络、ZigBee网络、或近场通信(Near Field Communication,NFC)网络等，或其任意组合。在一些实施例中，网络502可以包括一个或多个网络接入点。例如，网络502可以包括有线或无线网络接入点，例如基站和/或网络交换节点，语音识别系统的一个或多个组件可以通过该接入点连接到网络502以交换数据和/或信息。

在一些实施例中，服务请求端503的用户可以是除服务实际需求者之外的其他人。例如，服务请求端503的用户A可以使用服务请求端503来为服务实际需求者B发起服务请求(比如，用户A可以为自己的朋友B叫车)，或者从服务器501接收服务信息或指令等。在一些实施例中，服务提供端504的用户可以是服务实际提供者，也可以是除服务实际提供者之外的其他人。例如，服务提供端504的用户C可以使用服务提供端504接收由服务实际提供者D提供服务的服务请求(比如用户C可以为自己雇用的司机D接单)，和/或来自服务器501的信息或指令。在一些实施例中，“服务请求方”和“服务请求端”可以互换使用，“服务提供方”和“服务提供端”可以互换使用。

在一些实施例中，服务请求端503可以包括移动设备、平板计算机、膝上型计算机、或机动车辆中的内置设备等，或其任意组合。在一些实施例中，移动设备可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、或增强现实设备等，或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器设备的控制设备、智能监控设备、智能电视、智能摄像机、或对讲机等，或其任意组合。在一些实施例中，可穿戴设备可包括智能手环、智能鞋带、智能眼镜、智能头盔、智能手表、智能服装、智能背包、智能配件等、或其任何组合。在一些实施例中，智能移动设备可以包括智能手机、个人数字助理(Personal Digital Assistant，PDA)、游戏设备、导航设备、或销售点(point of sale，POS)设备等，或其任意组合。在一些实施例中，服务请求端503可以是具有用于定位服务请求方和/或服务请求端的位置的定位技术的设备。

在一些实施例中，服务提供端504可以是与服务请求端503类似或相同的设备。在一些实施例中，服务提供端504可以是具有定位技术的设备，用于定位服务提供方和/或服务提供端的位置。在一些实施例中，服务请求端503和/或服务提供端504可以与其他定位设备通信以确定服务请求方、服务请求端503、服务提供方、或服务提供端504、或其任意组合的位置。在一些实施例中，服务请求端503和/或服务提供端504可以将定位信息发送给服务器501。

数据库505可以存储数据和/或指令。在一些实施例中，数据库505可以存储从服务请求端503和/或服务提供端504获得的数据。在一些实施例中，数据库505可以存储在本申请中描述的示例性方法的数据和/或指令。在一些实施例中，数据库505可以包括大容量存储器、可移动存储器、易失性读写存储器、或只读存储器(Read-Only Memory,ROM)等，或其任意组合。作为举例，大容量存储器可以包括磁盘、光盘、固态驱动器等；可移动存储器可包括闪存驱动器、软盘、光盘、存储卡、zip磁盘、磁带等；易失性读写存储器可以包括随机存取存储器(Random Access Memory,RAM)；RAM可以包括动态RAM(Dynamic Random AccessMemory,DRAM)，双倍数据速率同步动态RAM(Double Date-Rate Synchronous RAM,DDRSDRAM)；静态RAM(Static Random-Access Memory,SRAM)，晶闸管RAM(Thyristor-BasedRandom Access Memory,T-RAM)和零电容器RAM(Zero-RAM)等。作为举例，ROM可以包括掩模ROM(Mask Read-Only Memory,MROM)、可编程ROM(Programmable Read-Only Memory,PROM)、可擦除可编程ROM(Programmable Erasable Read-only Memory,PEROM)、电可擦除可编程ROM(Electrically Erasable Programmable read only memory,EEPROM)、光盘ROM(CD-ROM)、以及数字通用磁盘ROM等。在一些实施例中，数据库505可以在云平台上实现。仅作为示例，云平台可以包括私有云、公有云、混合云、社区云、分布式云、跨云、多云或者其它类似的等，或其任意组合。

在一些实施例中，数据库505可以连接到网络502以与语音识别系统(例如，服务器501，服务请求端503，服务提供端504等)中的一个或多个组件通信。语音识别系统中的一个或多个组件可以经由网络502访问存储在数据库505中的数据或指令。在一些实施例中，数据库505可以直接连接到语音识别系统中的一个或多个组件(例如，服务器501，服务请求端503，服务提供端504等)；或者，在一些实施例中，数据库505也可以是服务器501的一部分。

在一些实施例中，语音识别系统中的一个或多个组件(例如，服务器501，服务请求端503，服务提供端504等)可以具有访问数据库505的权限。在一些实施例中，当满足一定条件时，语音识别系统中的一个或多个组件可以读取和/或修改与服务请求方、服务提供方、或公众、或其任意组合有关的信息。例如，服务器501可以在接收服务请求之后读取和/或修改一个或多个用户的信息。作为另一示例，服务提供端504可以在从服务请求端503接收服务请求时访问与服务请求方有关的信息，但是服务提供端504可以不修改服务请求方的相关信息。

在一些实施例中，可以通过请求服务来实现语音识别系统中的一个或多个组件的信息交换。服务请求的对象可以是任何产品。在一些实施方案中，产品可以是有形产品或非物质产品。有形产品可包括食品、药品、商品、化学产品、电器、服装、汽车、房屋、或奢侈品等，或其任意组合。非物质产品可以包括服务产品、金融产品、知识产品、或互联网产品等，或其任意组合。互联网产品可以包括单独的主机产品、网络产品、移动互联网产品、商业主机产品、或嵌入式产品等，或其任意组合。互联网产品可以用在移动终端的软件、程序、或系统等，或者它们的任意组合中。移动终端可以包括平板电脑、笔记本电脑、移动电话、个人数字助理(Personal Digital Assistant,PDA)、智能手表、销售点(Point of sales,POS)设备、车载电脑、车载电视、或可穿戴设备等，或其任意组合。例如，互联网产品可以是计算机或移动电话中使用的任何软件和/或应用程序。软件和/或应用程序可以涉及社交、购物、运输、娱乐时间、学习、或投资等，或其任意组合。在一些实施例中，与运输有关的软件和/或应用程序可以包括旅行软件和/或应用程序、车辆调度软件和/或应用程序、绘图软件和/或应用程序等。在车辆调度软件和/或应用程序中，车辆可包括马、马车、人力车(例如，独轮车、自行车、三轮车等)、汽车(例如，出租车、公共汽车、私家车等)、火车、地铁、船只、飞机(例如，飞机、直升机、航天飞机、火箭、热气球等)等，或其任意组合。

另一方面，本申请实施例还提供一种存储介质，该存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述一方面提供的语音识别方法的步骤。

以上仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音识别方法，其特征在于，包括：

接收用户输入的语音信息；

将所述语音信息转换成至少一个文本信息；

将所述至少一个文本信息输入动态语言模型，获得所述动态语言模型输出的所述至少一个文本信息中每个文本信息的第一命中概率，所述动态语言模型以同一用户的历史数据信息作为样本训练得到；

获得第一命中概率最高的文本信息；

其中，在所述接收用户输入的语音信息之后，所述方法还包括：

获取所述用户的第一时间段内的历史数据信息，所述历史数据信息包括多个历史目标地点以及多个历史目标地点中每个历史目标地点所占的权重值；

将所述多个历史目标地点以及所述多个历史目标地点中每个历史目标地点所占的权重值作为样本，对所述动态语言模型进行训练，获得训练后的动态语言模型，其中，所述多个历史目标地点作为输入量，所述多个历史目标地点中每个历史目标地点所占的权重值作为输出量。

2.根据权利要求1所述的方法，其特征在于，所述将所述语音信息转换成至少一个文本信息，包括：

将所述语音信息转换成具有相同发音的至少一个文本信息；

在将所述语音信息转换成具有相同发音的至少一个文本信息之后，所述方法还包括：

将所述至少一个文本信息输入通用语言模型，获得所述通用语言模型输出的所述至少一个文本信息中每个文本信息的第二命中概率；

获得所述第二命中概率最高的文本信息；

将所述第一命中概率最高的文本信息与所述第二命中概率最高的文本信息进行比较，获得两者中的命中概率高的文本信息，并将该文本信息作为目标地点。

3.根据权利要求2所述的方法，其特征在于，在所述将所述第一命中概率最高的文本信息与所述第二命中概率最高的文本信息进行比较，获得两者中的命中概率高的文本信息，并将该文本信息作为目标地点之后，所述方法还包括：

删除所述动态语言模型。

4.根据权利要求1所述的方法，其特征在于，所述历史目标地点包括历史起始地点以及历史目的地点中至少一项。

5.根据权利要求1所述的方法，其特征在于，所述将所述语音信息转换成至少一个文本信息，包括：

按照预设时间长度将所述语音信息划分为多帧音频信息；

将所述多帧音频信息中第一数量的连续帧的音频信息组成第一音节；

将所述多帧音频信息中第一音节后的第二数量的连续帧的音频信息组成第二音节；

根据所述第一音节和第二音节确定所述语音信息的至少一个发音；

将所述语音信息转换成与该语音信息具有相同发音的至少一个文本信息。

6.一种语音识别装置，其特征在于，所述装置包括：

语音信息接收模块，用于接收用户输入的语音信息；

文本转换模块，用于将所述语音信息转换成至少一个文本信息；

第一概率获得模块，用于将所述至少一个文本信息输入动态语言模型，获得所述动态语言模型输出的所述至少一个文本信息中每个文本信息的第一命中概率，所述动态语言模型以同一用户的历史数据信息作为样本训练得到；

第一文本获得模块，用于获得第一命中概率最高的文本信息；

历史数据获得模块，用于获取所述用户的第一时间段内的历史数据信息，所述历史数据信息包括多个历史目标地点以及多个历史目标地点中每个历史目标地点所占的权重值；

7.根据权利要求6所述的装置，其特征在于，所述文本转换模块，具体用于将所述语音信息转换成具有相同发音的至少一个文本信息；

所述装置还包括：

第二概率获得模块，用于将所述至少一个文本信息输入通用语言模型，获得所述通用语言模型输出的所述至少一个文本信息中每个文本信息的第二命中概率；

第二文本获得模块，用于获得所述第二命中概率最高的文本信息；

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

模型删除模块，用于删除所述动态语言模型。

9.根据权利要求6所述的装置，其特征在于，所述历史目标地点包括历史起始地点以及历史目的地点中至少一项。

10.根据权利要求6所述的装置，其特征在于，所述文本转换模块包括：

音频划分子模块，用于按照预设时间长度将所述语音信息划分为多帧音频信息；

第一音节组成子模块，用于将所述多帧音频信息中第一数量的连续帧的音频信息组成第一音节；

第二音节组成子模块，用于将所述多帧音频信息中第一音节后的第二数量的连续帧的音频信息组成第二音节；

发音确定子模块，用于根据所述第一音节和第二音节确定所述语音信息的至少一个发音；

11.一种电子设备，其特征在于，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行时执行如权利要求1至5任一所述的语音识别方法的步骤。

12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至5任一所述的语音识别方法的步骤。