CN102347026A

CN102347026A - 基于自然语音识别的音频/视频点播方法和系统

Info

Publication number: CN102347026A
Application number: CN 201110185534
Authority: CN
Inventors: 沈嘉鑫; 王力劭; 许军; 庞泽耀; 王力勃
Original assignee: SHENZHEN CITY ZIDONG TECHNOLOGY Co Ltd
Current assignee: Chengdu Cheyin Intelligent Technology Co ltd
Priority date: 2011-07-04
Filing date: 2011-07-04
Publication date: 2012-02-08
Anticipated expiration: 2031-07-04
Also published as: CN102347026B

Abstract

本发明公开一种基于自然语音识别的音频/视频点播方法和系统，涉及通信领域。只需按动一键，便可以通过终端设备连接到网络侧的云计算平台服务器，通过云计算平台服务器进行语音音频/视频点播。其中，云计算平台服务器采用非特定人语音识别技术以及自然语音识别技术对用户输入的音频/视频点播语音信息进行语音识别，获取用户进行音频/视频点播地址，并将该音频/视频点播地址通过自动音频/视频点播控制信息发送给终端设备，以使得终端设备根据该自动音频/视频点播控制信息自动启动音频/视频播放功能，从音频/视频服务器获取音频/视频媒体流，将该音频/视频媒体流播放述用户。本发明实施例提供的技术方案可以应用在语音音频/视频点播系统中。

Description

基于自然语音识别的音频/视频点播方法和系统

技术领域

本发明涉及通信领域，尤其涉及一种基于自然语音识别的音频/视频点播方法和系统。

背景技术

随着科技的进步，车辆已经成为认为生活中不可或缺的代步工具，驾车。在行车驾驶过程中，车载娱乐设备能够播放音频/视频媒体内容，以消除驾驶人员的疲劳。

在现有技术中，用户一般采用手动点播音频/视频媒体的方法获取音频/视频服务，例如：用户手动点击车载娱乐设备的屏幕或者配套按键，通过屏幕或者案件输入想要点播的音频/视频描述信息，从音频/视频服务器获取音频/视频描述信息对应的音频/视频媒体流并进行播放。然而，在用户驾驶车辆的过程中，手动操作需要转移视线到车载娱乐设备上，会分散用户的精力，使得用户驾驶车辆的危险性大大增强。

为解决上述技术问题，现有技术公开了一些语音音频/视频点播技术，对于不同的语言，语音音频/视频点播技术所采用的语音识别方法各不相同，例如：对于英文而言，句中的单词均由26个字母表中的字母构成，在进行语音音频/视频点播服务时，语音音频/视频点播系统需要对语句中的字母以及句子的语法结构进行识别，才能识别出语音信息对应的文本信息，从而根据该识别出的文本信息进行相关的音频/视频点播操作。

中文与英文最大的区别在于，中文汉字数量较大，目前，汉字的总数已经超过了8万，其中常用汉字大约有3500字左右，面对如此庞大的中文汉字库，传统的中文语音音频/视频点播技术采用基于关键词的语音识别方法进行语音识别。语音音频/视频点播系统需要将用户发送的语音内容从头到尾按字/词的方式与词表中预先存储的文本内容进行逐一匹配，只有语音内容与词表中存储的某条文本内容完全匹配时，语音音频/视频点播系统才能识别出用户发送的语音内容的含义，成功进行语音识别，并根据识别出的内容进行相关的音频/视频点播服务，否则，语音识别失败，语音音频/视频点播系统无法为用户提供音频/视频点播服务。

然而，在实际的生活中，中文语言表述形式是多种多样的，对于同一事物每个人或者同一人在不同时期的表述各不相同，例如：点播“王菲的歌曲红豆”就有如下几种表述方式：我想听红豆；给我找一下王菲的红豆；播放歌曲红豆；播放王菲的红豆；我想听王菲那盘唱游专辑的歌曲红豆等等。为了提高语音音频/视频点播系统的语音识别成功率与准确率，语音音频/视频点播系统需要尽可能地将同一事物的所有表述形式均存储到词表中，这使得词表规模非常庞大，维护不方便，并且由于词表规模庞大，使得语音音频/视频点播系统进行语音识别的速度较慢，从而使得语音音频/视频点播服务延迟较大，用户进行语音音频/视频点播服务的服务体验较差。另外，由于人们的语言表述形式千差万别，随着时代的发展，语言表达方式也在不断更新，无法在词表中穷尽同一事物的所有表述形式，使得采用关键词方式进行语音识别的成功率较低，进而使得语音音频/视频点播系统无法为用户提供正常的音频/视频点播服务。

在申请号为CN00130067.9、CN03123123.3以及CN03138149.9等中国专利中公开了与语音识别相关的技术方案，然而上述技术方案只能进行语音合成或者将语音转换成文字，而无法实现对语音转换成文字信息的识别，使得以上技术方案无法应用在语音音频/视频点播技术中，实现语音音频/视频点播服务；并且，上述技术方案是针对英文语音识别设计的，根据以上分析可知，英文语言和中文语言从词语数量以及语法特点上大不相同，使得上述技术方案即使应用在语音音频/视频点播服务中也无法对中文进行有效的识别，语音识别的成功率较低；在申请号为CN99813093.1的中国专利中，公开了一种采用语音识别和自然语言处理的交互式用户界面，虽然能够实现对语音转换成文字信息的识别，然而该技术方案也是针对英文语言设计的，在进行语音识别的过程中需要考虑语法等因素的影响，仍然无法有效地应用在中文语音音频/视频点播服务中。

发明内容

为解决上述技术问题，本发明的实施例提供一种基于自然语音识别的音频/视频点播方法和系统，能够提高中文语音识别速度，以及语音识别的成功率，进而提高语音音频/视频点播服务的可靠性以及用户使用语音音频/视频点播服务的服务体验。

一种基于自然语音识别的音频/视频点播地址系统，包括：一键式控制装置、终端设备以及云计算平台服务器；

所述一键式控制装置，安装在车辆的固定部件上，用于在用户按下启动键以后，通过直接或短距离通信方式与所述终端设备建立连接，并通过直接或短距离通信方式驱动所述终端设备与所述云计算平台服务器建立连接；

所述终端设备，用于与所述一键式控制装置建立连接以后，通过语音电话交换网络或多种无线数据网络与所述云计算平台服务器建立连接，接收用户发送的音频/视频点播语音信息，将所述音频/视频点播语音信息发送给所述云计算平台服务器，接收所述云计算平台服务器返回的包含音频/视频点播地址的自动音频/视频播放控制信息，根据该自动音频/视频播放控制信息启动音频/视频播放功能，根据所述音频/视频点播地址与音频/视频服务器建立音频/视频媒体流传输通道连接，从所述音频/视频服务器获取音频/视频媒体流，将该音频/视频媒体流播放给所述用户；

所述云计算平台服务器，位于网络侧，包括：

非特定人语音识别模块，用于对所述终端设备发送的音频/视频点播语音信息进行识别、解析，获取该音频/视频点播语音信息对应的拼音；

自然语音识别模块，用于采用预先设置的词典对所述非特定人语音识别模块获取的拼音进行分词处理，获取分词后的词语拼音串，从所述词典中查找所述词语拼音串对应的待识别词语，根据所述待识别词语查找兴趣点音频/视频描述信息数据库，获取与所述待识别词语匹配度最高的目标音频/视频描述信息，其中，所述词典用于存储待进行语音识别的目标词语以及目标词语对应的拼音；

通信模块，用于获取自然语音识别模块获取的目标音频/视频描述信息对应的音频/视频点播地址，将所述音频/视频点播地址携带在自动音频/视频点播控制信息中发送给所述终端设备。

一种基于自然语音识别的音频/视频点播方法，包括：在用户按下一键式控制装置的启动按键以后，所述一键式控制装置通过直接或短距离通信方式与终端设备建立连接，其中，所述一键式控制装置设置在车辆的固定部位上，直接或者通过短距离通信方式驱动所述终端设备与网络侧的云计算平台服务器建立连接；所述终端设备通过语音电话交换网络或多种无线数据网络与所述云计算平台服务器建立语音会话连接；所述终端设备接收所述用户发送的音频/视频点播语音信息，将所述音频/视频点播语音信息发送给所述云计算平台服务器；所述云计算平台服务器采用非特定人语音识别技术对所述音频/视频点播语音信息进行识别、解析，获取所述音频/视频点播语音信息对应的拼音；所述云计算平台服务器采用预先设置的词典对所述拼音进行分词处理，获取分词后的词语拼音串，其中，所述词典用于存储待进行语音识别的目标词语以及目标词语对应的拼音；所述云计算平台服务器从所述词典中查找所述词语拼音串对应的待识别词语；所述云计算平台服务器根据所述待识别词语查找音频/视频描述信息数据库，从所述音频/视频描述信息数据库中获取与所述待识别词语匹配度最高的目标音频/视频描述信息；所述云计算平台服务器获取所述目标音频/视频描述信息对应的音频/视频点播地址，将该音频/视频点播地址携带在自动音频/视频点播控制信息中发送给所述终端设备；所述终端设备根据所述自动音频/视频播放控制信息启动音频/视频播放功能，根据所述音频/视频点播地址与音频/视频服务器建立音频/视频媒体流传输通道连接，从所述音频/视频服务器获取音频/视频媒体流，将该音频/视频媒体流播放给所述用户。

本发明实施例提供的基于自然语音识别的音频/视频点播方法和系统，用户按下设置在车辆方向盘上的一键式控制装置的启动键后，终端设备与云计算平台服务器建立语音会话连接，系统进行自动语音音频/视频点播状态。当用户通过终端设备向云计算平台服务器发送音频/视频点播语音信息时，云计算平台服务器可以先采用非特定人语音识别技术对音频/视频点播语音信息进行识别解析，获取对应的拼音，然后对拼音进行分词，获取分词后的词语拼音串，并从词典中获取词语拼音串对应的待识别词语，采用待识别词语进行信息匹配，将音频/视频描述信息数据库中与待识别词语匹配度最高的音频/视频描述信息作为对音频/视频点播语音信息识别得到的目标音频/视频描述信息，云计算平台服务器不需要对用户发送的音频/视频点播语音信息进行完全匹配即可获得目标音频/视频描述信息，提高了中文语音识别的成功率，进而提高了语音音频/视频点播服务的可靠性以及用户使用语音音频/视频点播服务的服务体验。解决了现有技术采用对语音信息进行完全匹配方法进行语音识别，造成由于表述方式不一致而使语音识别失败，语音识别成功率低，致使语音音频/视频点播服务的可靠性差，用户使用语音音频/视频点播服务的服务体验不好的问题，由于本发明实施例提供的技术方案中云计算平台服务器采用词语匹配的方式进行语音识别，只需要在词典中存储目标词语和目标词语对应的拼音串，并在音频/视频描述信息数据库中存储标准音频/视频描述信息即可，不需要对同一事物按照语言表述方式存储大量不同形式的文本信息，词典和音频/视频描述信息数据库的数据规模较小，便于进行查找，进而提高了语音音频/视频点播系统的语音识别速度，解决了现有技术需要在词表中对同一事物存储大量不同表述形式的文本信息，造成词表规模庞大，不便于查找，进行语音识别的速度较慢，致使语音音频/视频点播服务系统延迟较大的问题。本发明实施例提供的技术方案中云计算平台服务器采用的自然语音识别技术不同于英文语音识别技术，该自然语音识别技术针对中文语言文字量大，语句中词语连贯、无停顿的特点，采用对语句按拼音分词，并根据词语查找的方式进行语音识别，对中文语音识别的成功率以及识别速度较高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于自然语音识别的音频/视频点播系统结构示意图一；

图2为本发明实施例提供的基于自然语音识别的音频/视频点播系统结构示意图二；

图3为本发明实施例提供的基于自然语音识别的音频/视频点播方法流程图一；

图4为图3所示的本发明实施例提供的基于自然语音识别的音频/视频点播方法步骤307的流程图一；

图5为图3所示的本发明实施例提供的基于自然语音识别的音频/视频点播方法步骤307的流程图二；

图6为本发明实施例提供的基于自然语音识别的音频/视频点播方法流程图二。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决中文语音音频/视频点播服务系统语音识别成功率较低的问题，本发明实施例提供一种基于自然语音识别的音频/视频点播方法和系统。

如图1所示，本发明实施例提供的基于自然语音识别的音频/视频点播系统，包括：一键式控制装置101、终端设备102以及云计算平台服务器103；

一键式控制装置101，安装在车辆的固定部件上，用于在用户按下启动键以后，通过直接或短距离通信方式与终端设备102建立连接，并通过直接或短距离通信方式驱动终端设备102与云计算平台服务器103建立连接；

终端设备102，用于与一键式控制装置101建立连接以后，通过语音电话交换网络或多种无线数据网络与云计算平台服务器103建立连接，接收用户发送的音频/视频点播语音信息，将音频/视频点播语音信息发送给云计算平台服务器103，接收云计算平台服务器103返回的包含音频/视频点播地址的自动音频/视频点播控制信息，根据该自动音频/视频点播控制信息启动音频/视频播放功能，根据音频/视频点播地址与音频/视频服务器建立音频/视频媒体流传输通道连接，从音频/视频服务器获取音频/视频媒体流，将该音频/视频媒体流播放给用户；

云计算平台服务器103，位于网络侧，包括：

非特定人语音识别模块1031，用于对终端设备102发送的音频/视频点播语音信息进行识别、解析，获取该音频/视频点播语音信息对应的拼音；

自然语音识别模块1032，用于采用预先设置的词典对非特定人语音识别模块1031获取的拼音进行分词处理，获取分词后的词语拼音串，从词典中查找词语拼音串对应的待识别词语，根据该待识别词语查找兴趣点(音频/视频描述信息nt of Interest，音频/视频描述信息)数据库，获取与待识别词语匹配度最高的目标音频/视频描述信息，其中，词典用于存储待进行语音识别的目标词语以及目标词语对应的拼音；

在本实施例中，词典中存储的目标词语可以是广义范围的词语，具体地，可以从日常生活和工作能够接触到的信息中获取目标词语并形成词典，例如：可以从每天新闻报道的信息中提取词语，形成词典；词典中存储的目标词语也可以是狭义范围的词语，具体地，可以从音频/视频描述信息数据库中存储的音频/视频描述信息获取目标词语并形成词典。需要说明的是，不论是广义范围的词语还是狭义范围的词语，词典中的目标词语均是唯一的，各个目标词语之间不重复。

为了减小词典中目标词语的冗余量，节省词典的存储空间，提高语音识别的速度，本发明实施例优选地将词典中的目标词语设置为根据音频/视频描述信息数据库设置的狭义范围词语，但不限于上述设置方式，本领域技术人员公知的是，对于该识别技术所应用的每个行业领域，所述行业的技术人员均可根据其行业特点，进行合理设置其音频/视频描述信息数据库。

在本实施例中，自然语音识别模块1032可以根据非特定人语音识别模块1031获取的拼音查找词典，将拼音按照出现顺序与词典中包含的目标词语的拼音进行匹配，当查找到与目标词语的拼音完全匹配的词语拼音串时，将该词语拼音串从拼音中分割出来，继续循环上述查找的动作，直到结束为止，从而实现对拼音的分词处理。

需要说明的是，为了提高调用数据的速度，加快语音识别速度，优选地，在本实施例中，音频/视频描述信息数据库以及词典均存储在云计算平台服务器103中(图1未示出)。

进一步地，在本实施例中，自然语音识别模块1032可以通过两种方式从音频/视频描述信息数据库中获取与待识别词语匹配度最高的目标音频/视频描述信息，下面对这两种方式进行分别介绍：

1、权重系数判决法

自然语音识别模块1032，具体用于如果词典还用于存储目标词语对应的权重等级n以及权重等级范围N，根据词典获取待识别词语对应的权重等级，根据待识别词语查找音频/视频描述信息数据库，从音频/视频描述信息数据库中获取与待识别词语中的任意一个或多个词语匹配的音频/视频描述信息组成的音频/视频描述信息集合，根据待识别词语对应的权重等级，对音频/视频描述信息集合中的每条音频/视频描述信息分别进行处理，获取每条音频/视频描述信息的权重系数，从音频/视频描述信息集合中选取权重系数最高的音频/视频描述信息为目标音频/视频描述信息，其中，n、N均为整数，N≥2，n∈[1，N]，第n级的目标词语在待识别词语中的重要性要比第n+1级得目标词语在待识别词语中的重要性大。当然，其重要性与权重等级n的关系也可以相反，本领域技术人员可以自己根据需要定义，本实施方式按照前者进行示例。

在本实施例中，自然语音识别模块1032可以采用加权平均算法获取每条音频/视频描述信息的权重系数，当然也可以采用其他算法获取每条音频/视频描述信息的权重信息，此处不作一一赘述。

需要说明的是，为了保证自然语音识别模块1032获取的目标音频/视频描述信息的准确性，提高语音识别质量，在本实施例中，自然语音识别模块1032对拼音分词之后获得的待识别词语中应包含至少一个权重等级为1的词语，如果经分词处理以后，待识别词语中不存在权重等级为1的词语，则自然语音识别模块1032，还用于重新对拼音进行分词处理，以获取至少一个权重等级为1的词语。

进一步地，自然语音识别模块1032，还用于将上述获取的至少一个权重等级为1的词语以及该词语对应的拼音串添加到词典中。

需要说明的是，本发明实施例对权重等级高低的划分进行具体的举例，在实际的使用过程中还可以通过其他规则设置权重等级的高低属性，例如：当权重等级范围为3时，可以设置权重等级为3最高，权重等级为1最低，以上方法是本领域技术人员能够在不付出创造性劳动的前提下轻易联想到的，此处不再一一赘述。

2、嵌套查找法

自然语音识别模块1032，具体用于对待识别词语进行排序，按照排序的结果，从待识别词语中获取第一个词语，从音频/视频描述信息数据库中获取与第一个词语匹配的音频/视频描述信息，从待识别词语中获取第二个词语，从与第一个词语匹配的音频/视频描述信息组成的音频/视频描述信息集合中获取与第二个词语匹配的音频/视频描述信息，以此类推，从待识别词语中获取最后一个词语，从与最后一个词语相邻的上一个词语匹配的音频/视频描述信息组成的音频/视频描述信息集合中获取与最后一个词语匹配的目标音频/视频描述信息。

在本实施例中，自然语音识别模块1032可以将词语按照在文字信息中出现的先后顺序进行排序，优选地，为了提高查找速度，自然语音识别模块1032可以先获取待识别词语中的关键词，然后将待识别词语按照关键词、后辅助词和前辅助词的顺序进行排序。

其中，关键词是具有专有指代意义的词语，后辅助词是文字信息中位于关键词之后的词语，前辅助词是文字信息中位于关键词之前的词语。

在本实施例中，云计算平台服务器103(具体为自然语音识别模块1032)可以预先设置关键词表，该关键词表可以根据音频/视频描述信息数据库中存储的信息设置，自然语音识别模块1032在获取待识别词语后，对所包含的每个词语分别查找关键词表，获取与关键词表中存储的关键词匹配的词语为待识别词语包含的关键词。

需要说明的是，如果经查找后获知待识别词语中不存在关键词，则自然语音识别模块1032按照待识别词语出现的先后顺序进行排序；进一步地，如果经查找后获待识别词语中包含两个以上关键词，则后辅助词为待识别词语中第一个关键词以后的非关键词，自然语音识别模块1032仍然按照关键词、后辅助词以及前辅助词的顺序进行排序。

自然语音识别模块1032通过将待识别词语按照关键词、后辅助词和前辅助词的顺序进行排序，使得后续按照词语顺序进行查找匹配时，重点信息突出，能够大幅度的缩短词语查找匹配的时间，进行提高语音识别的速度。

需要说明的是，如果自然语音识别模块1032未查找到与当前词语匹配的信息，则可以将当前词语的匹配信息设置为与该当前词语相邻的上一个词语匹配的信息，如果，当前词语为第一个词语，则该第一个词语匹配的信息为整个音频/视频描述信息数据库中包含的音频/视频描述信息。

通过以上所述的权重系数判决法以及嵌套查找法，自然语音识别模块1032能够准确地查找到与待识别词语匹配度最高的目标音频/视频描述信息，实现对用户输入的音频/视频点播语音信息的识别。当然，在实际的使用过程中，自然语音识别模块1032还可以采用其他方式获取与待识别词语匹配度最高的目标音频/视频描述信息，此处不作一一赘述。

通信模块1033，用于获取自然语音识别模块1032获取的目标音频/视频描述信息对应的音频/视频点播地址，将该音频/视频点播地址携带在自动音频/视频点播控制信息中发送给终端设备102。

进一步地，如果自然语音识别模块1032选取了两条以上目标音频/视频描述信息，为了提高语音识别的准确定，如图1所示，终端设备102，还可以用于接收云计算平台服务器103发送的两条以上目标音频/视频描述信息，将该两条以上目标音频/视频描述信息显示给用户，接收用户根据所述两条以上目标音频/视频描述信息发送的音频/视频描述信息选取指示，将音频/视频描述信息选取指示发送给云计算平台服务器103；

具体地，终端设备102可以接收用户通过语音或者按键或者文字输入等方式发送的音频/视频描述信息选取指示。需要说明的是，如果用户通过语音方式发送音频/视频描述信息选取指示，则云计算平台服务器103需要采用非特定人语音识别模块1031对该音频/视频描述信息选取指示进行识别、解析，获取对应的控制指令。

云计算平台服务器103，还可以用于如果自然语音识别模块1032查找到两条以上目标音频/视频描述信息，通信模块1033将两条以上目标音频/视频描述信息发送给终端设备102，接收终端设备102返回的音频/视频描述信息选取指示，根据该音频/视频描述信息选取指示从两条以上目标音频/视频描述信息中选取优选目标音频/视频描述信息，并获取该优选目标音频/视频描述信息对应的音频/视频点播地址。

或者，如图2所示，云计算平台服务器103，还包括：

统计模块1034，用于音频/视频点播数据进行统计，保存音频/视频点播数据统计结果；

在本实施例中，统计模块1034可以对用户每次进行语音识别的音频/视频描述信息进行统计，该统计可以是针对特定用户个人的，也可以是针对特定用户群体的。进一步地，该语音识别统计数据可以是对用户的一个或者多个目标音频/视频描述信息进行语音识别的次数或者频率统计的结果，也可以是对多个用户最后一次进行语音识别的目标音频/视频描述信息的统计结果，当然还可以为其他与语音识别相关的统计结果，此处不作一一赘述。

通信模块1033，还可以用于如果自然语音识别模块1032查找到两条以上目标音频/视频描述信息，从统计模块1034获取音频/视频点播数据统计结果，根据该音频/视频点播数据统计结果从两条以上目标音频/视频描述信息中选取优选目标音频/视频描述信息，并获取该优选目标音频/视频描述信息对应的音频/视频点播地址。

可选地，为了进一步缩短语音识别的时间，提高语音识别速度，在本实施例中，自然语音识别模块1032，还可以用于根据文字信息包含的词语查找口语词库，根据查找结果，从文字信息包含的词语中删除口语词，其中，口语词库用于存储口语词，口语词中不包括涉及到用户输入的音频/视频点播语音信息中具有实质性含义的文字信息。

在本实施例中，可以采用统计的方法预先设置口语词库，该口语词库中可以包括人们日常使用的口语词，例如：“我想去”、“我想要”、“请问”、“是不是”、“对不对”、“可不可以”以及“怎么”等等，此处不对口语词库中包含的口语词进行一一赘述。

进一步地，为了使本发明实施例提供的基于自然语音识别的音频/视频点播系统能够适用于发音吐字不清楚以及发音规范不同的人群，提高语音识别的成功率与准确率，在以上图1和2所示的技术方案基础上，自然语音识别模块1032，还可以用于对非特定人语音识别模块1031获取的拼音进行模糊音匹配处理，获取模糊匹配后的拼音，采用词典对模糊匹配后的拼音进行分词处理，获取分词后的词语拼音串。

具体地，可以预先设置拼音模糊匹配表，在该拼音模糊匹配表中定义匹配规则，例如：z＝zh，c＝ch，s＝sh，l＝n，f＝h，r＝l，an＝ang，en＝eng，in＝ing，ian＝iang，uan＝uang，iong＝ing等，此处不作一一赘述，根据所述规则对非特定人语音识别模块1031获取的拼音进行模糊音匹配处理。

通过对拼音进行模糊匹配，解决了由于用户口齿不清、发音不准确造成的语音识别失败或者识别错误等问题，进而提高了本发明实施例提供基于自然语音识别的音频/视频点播系统进行语音识别的成功率与准确率。

本发明实施例提供的基于自然语音识别的音频/视频点播系统，用户按下设置在车辆方向盘上的一键式控制装置的启动键后，终端设备与云计算平台服务器建立语音会话连接，系统进行自动语音音频/视频点播状态。当用户通过终端设备向云计算平台服务器发送音频/视频点播语音信息时，云计算平台服务器可以先采用非特定人语音识别技术对音频/视频点播语音信息进行识别解析，获取对应的拼音，然后对拼音进行分词，获取分词后的词语拼音串，并从词典中获取词语拼音串对应的待识别词语，采用待识别词语进行信息匹配，将音频/视频描述信息数据库中与待识别词语匹配度最高的音频/视频描述信息作为对音频/视频点播语音信息识别得到的目标音频/视频描述信息，云计算平台服务器不需要对用户发送的音频/视频点播语音信息进行完全匹配即可获得目标音频/视频描述信息，提高了中文语音识别的成功率，进而提高了语音音频/视频点播服务的可靠性以及用户使用语音音频/视频点播服务的服务体验。解决了现有技术采用对语音信息进行完全匹配方法进行语音识别，造成由于表述方式不一致而使语音识别失败，语音识别成功率低，致使语音音频/视频点播服务的可靠性差，用户使用语音音频/视频点播服务的服务体验不好的问题，由于本发明实施例提供的技术方案中云计算平台服务器采用词语匹配的方式进行语音识别，只需要在词典中存储目标词语和目标词语对应的拼音串，并在音频/视频描述信息数据库中存储标准音频/视频描述信息即可，不需要对同一事物按照语言表述方式存储大量不同形式的文本信息，词典和音频/视频描述信息数据库的数据规模较小，便于进行查找，进而提高了语音音频/视频点播系统的语音识别速度，解决了现有技术需要在词表中对同一事物存储大量不同表述形式的文本信息，造成词表规模庞大，不便于查找，进行语音识别的速度较慢，致使语音音频/视频点播服务系统延迟较大的问题。本发明实施例提供的技术方案中云计算平台服务器采用的自然语音识别技术不同于英文语音识别技术，该自然语音识别技术针对中文语言文字量大，语句中词语连贯、无停顿的特点，采用对语句按拼音分词，并根据词语查找的方式进行语音识别，对中文语音识别的成功率以及识别速度较高。

如图3所示，本发明实施例还提供一种基于自然语音识别的音频/视频点播方法，包括：

步骤301，在用户按下一键式控制装置的启动按键以后，一键式控制装置通过直接或短距离通信方式与终端设备建立连接，其中，一键式控制装置设置在车辆的固定部位上，直接或者通过短距离通信方式驱动终端设备与网络侧的云计算平台服务器建立连接；

步骤302，终端设备通过语音电话交换网络或多种无线数据网络与云计算平台服务器建立语音会话连接；

步骤303，终端设备接收用户发送的音频/视频点播语音信息，将音频/视频点播语音信息发送给云计算平台服务器；

步骤304，云计算平台服务器采用非特定人语音识别技术对音频/视频点播语音信息进行识别、解析，获取音频/视频点播语音信息对应的拼音；

步骤305，云计算平台服务器采用预先设置的词典对拼音进行分词处理，获取分词后的词语拼音串，其中，词典用于存储待进行语音识别的目标词语以及目标词语对应的拼音；

步骤306，云计算平台服务器从词典中查找词语拼音串对应的待识别词语；

步骤307，云计算平台服务器根据待识别词语查找音频/视频描述信息数据库，从音频/视频描述信息数据库中获取与待识别词语匹配度最高的目标音频/视频描述信息；

步骤308，云计算平台服务器获取目标音频/视频描述信息对应的音频/视频点播地址，将该音频/视频点播地址携带在自动音频/视频点播控制信息中发送给终端设备；

步骤309，终端设备根据自动音频/视频点播控制信息启动音频/视频播放功能，根据音频/视频点播地址与音频/视频服务器建立音频/视频媒体流传输通道连接，从音频/视频服务器获取音频/视频媒体流，将该音频/视频媒体流播放给用户。

进一步地，本发明实施例提供的基于自然语音识别的音频/视频点播方法还可以包括：如果词典还用于存储目标词语对应的权重等级n以及权重等级范围N，云计算平台服务器根据所述词典获取所述待识别词语对应的权重等级，其中，n、N均为整数，N≥2，n∈[1，N]，第n级的目标词语在待识别词语中的重要性要比第n+1级的目标词语在待识别词语中的重要性大；

则如图4所示，步骤307可以包括：

步骤3071，云计算平台服务器根据待识别词语查找音频/视频描述信息数据库，从音频/视频描述信息数据库中获取与待识别词语包含的任意一个或多个词语匹配的音频/视频描述信息组成的音频/视频描述信息集合；

步骤3072，云计算平台服务器根据待识别词语对应的权重等级，对音频/视频描述信息集合中的每条音频/视频描述信息分别进行处理，获取每条音频/视频描述信息的权重系数；

步骤3073，云计算平台服务器从音频/视频描述信息集合中选取权重系数最高的音频/视频描述信息为目标音频/视频描述信息。

进一步地，为了提高语音识别的准确性，本发明实施例提供的基于自然语音识别的音频/视频点播方法还可以包括：如果所述待识别词语中不存在权重等级为1的词语，所述云计算平台服务器重新对所述拼音进行分词处理，以获取至少一个权重等级为1的词语。则此时，步骤307为：云计算平台服务器根据从新分词后的待识别词语查找音频/视频描述信息数据库，从音频/视频描述信息数据库中获取与待识别词语匹配度最高的目标音频/视频描述信息。

在此基础上，本发明实施例提供的基于自然语音识别的音频/视频点播方法还可以包括：云计算平台服务器将至少一个权重等级为1的词语以及该词语对应的拼音串添加到词典中。

进一步地，如图5所示，步骤307可以包括：

步骤3074，云计算平台服务器对待识别词语进行排序；

具体地，步骤3074可以包括：云计算平台服务器获取待识别词语中的关键词；云计算平台服务器将待识别词语按照关键词、后辅助词以及前辅助词的顺序进行排序；其中，后辅助词为待识别词语中位于关键词之后的词语，前辅助词为待识别词语中位于关键词之前的词语。

需要说明的是，如果待识别词语中有两个以上关键词，后辅助词为待识别词语中第一个关键词以后的非关键词。

步骤3075，云计算平台服务器按照排序的结果，从待识别词语中获取第一个词语，从音频/视频描述信息数据库中获取与第一个词语匹配的音频/视频描述信息；

步骤3076，云计算平台服务器从待识别词语中获取第二个词语，从与第一个词语匹配的音频/视频描述信息组成的音频/视频描述信息集合中获取与第二个词语匹配的音频/视频描述信息；

以此类推，步骤3077，云计算平台服务器从待识别词语中获取最后一个词语，从与最后一个词语相邻的上一个词语匹配的音频/视频描述信息组成的音频/视频描述信息集合中获取与最后一个词语匹配的目标音频/视频描述信息。

进一步地，如果在步骤307中云计算平台服务器查找到两条以上目标音频/视频描述信息，本发明实施例提供的基于自然语音识别的音频/视频点播方法还可以包括：云计算平台服务器向终端设备发送两条以上目标音频/视频描述信息；终端设备将两条以上目标音频/视频描述信息显示给用户，接收用户根据两条以上目标音频/视频描述信息发送的音频/视频描述信息选取指示；终端设备将音频/视频描述信息选取指示发送给云计算平台服务器；云计算平台服务器根据音频/视频描述信息选取指示从两条以上目标音频/视频描述信息中选取优选目标音频/视频描述信息，并获取该优选目标音频/视频描述信息对应的音频/视频点播地址。

或者，本发明实施例提供的基于自然语音识别的音频/视频点播方法还可以包括：云计算平台服务器获取音频/视频点播数据统计结果；云计算平台服务器根据音频/视频点播数据统计结果从所述两条以上目标音频/视频描述信息中选取优选目标音频/视频描述信息。

可选地，为了进一步提高云计算平台服务器进行语音识别的速度，如图6所示，在步骤306之后，步骤307之前，还可以包括：

步骤3010，云计算平台服务器根据待识别词语查找口语词库，根据查找结果，从待识别词语中删除口语词，其中，口语词库用于存储口语词，口语词中不包括涉及到用户输入的音频/视频点播语音信息中具有实质性含义的文字信息。

进一步地，为了使本发明实施例提供的基于自然语音识别的音频/视频点播方法能够适用于发音吐字不清楚以及发音规范不同的人群，提高语音识别的成功率与准确率，在以上图3-6所示的技术方案基础上，本发明实施例提供的基于自然语音识别的音频/视频点播方法还可以包括：云计算平台服务器对拼音进行模糊音匹配处理，获取模糊匹配后的拼音的步骤，则此时步骤305具体为：云计算平台服务器采用词典对模糊匹配后的拼音进行分词处理，获取分词后的词语拼音串。

具体地，可以预先设置拼音模糊匹配表，在该拼音模糊匹配表中定义匹配规则，例如：z＝zh，c＝ch，s＝sh，l＝n，f＝h，r＝l，an＝ang，en＝eng，in＝ing，ian＝iang，uan＝uang，iong＝ing等，此处不作一一赘述，根据所述规则对拼音进行模糊音匹配处理。

通过对拼音进行模糊匹配，解决了由于用户口齿不清、发音不准确造成的语音识别失败或者识别错误等问题，进而提高了本发明实施例提供基于自然语音识别的音频/视频点播方法的语音识别成功率与准确率。

本发明实施例提供的基于自然语音识别的音频/视频点播方法的具体实现过程可以参见本发明实施例提供的基于自然语音识别的音频/视频点播系统所述，此处不再赘述。

本发明实施例提供的基于自然语音识别的音频/视频点播方法，用户按下设置在车辆方向盘上的一键式控制装置的启动键后，终端设备与云计算平台服务器建立语音会话连接，系统进行自动语音音频/视频点播状态。当用户通过终端设备向云计算平台服务器发送音频/视频点播语音信息时，云计算平台服务器可以先采用非特定人语音识别技术对音频/视频点播语音信息进行识别解析，获取对应的拼音，然后对拼音进行分词，获取分词后的词语拼音串，并从词典中获取词语拼音串对应的待识别词语，采用待识别词语进行信息匹配，将音频/视频描述信息数据库中与待识别词语匹配度最高的音频/视频描述信息作为对音频/视频点播语音信息识别得到的目标音频/视频描述信息，云计算平台服务器不需要对用户发送的音频/视频点播语音信息进行完全匹配即可获得目标音频/视频描述信息，提高了中文语音识别的成功率，进而提高了语音音频/视频点播服务的可靠性以及用户使用语音音频/视频点播服务的服务体验。解决了现有技术采用对语音信息进行完全匹配方法进行语音识别，造成由于表述方式不一致而使语音识别失败，语音识别成功率低，致使语音音频/视频点播服务的可靠性差，用户使用语音音频/视频点播服务的服务体验不好的问题，由于本发明实施例提供的技术方案中云计算平台服务器采用词语匹配的方式进行语音识别，只需要在词典中存储目标词语和目标词语对应的拼音串，并在音频/视频描述信息数据库中存储标准音频/视频描述信息即可，不需要对同一事物按照语言表述方式存储大量不同形式的文本信息，词典和音频/视频描述信息数据库的数据规模较小，便于进行查找，进而提高了语音音频/视频点播系统的语音识别速度，解决了现有技术需要在词表中对同一事物存储大量不同表述形式的文本信息，造成词表规模庞大，不便于查找，进行语音识别的速度较慢，致使语音音频/视频点播服务系统延迟较大的问题。本发明实施例提供的技术方案中云计算平台服务器采用的自然语音识别技术不同于英文语音识别技术，该自然语音识别技术针对中文语言文字量大，语句中词语连贯、无停顿的特点，采用对语句按拼音分词，并根据词语查找的方式进行语音识别，对中文语音识别的成功率以及识别速度较高。

本发明实施例提供的基于自然语音识别的音频/视频点播方法和系统，可以应用在音频/视频点播领域中。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种基于自然语音识别的音频/视频点播地址系统，其特征在于，包括：一键式控制装置、终端设备以及云计算平台服务器；

所述云计算平台服务器，位于网络侧，包括：

2.根据权利要求1所述的系统，其特征在于，所述自然语音识别模块，具体用于如果所述词典还用于存储所述目标词语对应的权重等级n以及权重等级范围N，根据所述词典获取所述待识别词语对应的权重等级，根据所述待识别词语查找音频/视频描述信息数据库，从所述音频/视频描述信息数据库中获取与待识别词语中的任意一个或多个词语匹配的音频/视频描述信息组成的音频/视频描述信息集合，根据所述待识别词语对应的权重等级，对所述音频/视频描述信息集合中的每条音频/视频描述信息分别进行处理，获取每条音频/视频描述信息的权重系数，从所述音频/视频描述信息集合中选取权重系数最高的音频/视频描述信息为目标音频/视频描述信息，其中，n、N均为整数，N≥2，n∈[1，N]，第n级的目标词语在所述待识别词语中的重要性要比第n+1级得目标词语在所述待识别词语中的重要性大。

3.根据权利要求2所述的系统，其特征在于，所述自然语音识别模块，还用于如果所述待识别词语中不存在权重等级为1的词语，重新对所述拼音进行分词处理，以获取至少一个权重等级为1的词语。

4.根据权利要求3所述的系统，其特征在于，所述自然语音识别模块，还用于将所述至少一个权重等级为1的词语以及该词语对应的拼音串添加到所述词典中。

5.根据权利要求1所述的系统，其特征在于，所述自然语音识别模块，具体用于对所述待识别词语进行排序，按照所述排序的结果，从所述待识别词语中获取第一个词语，从所述音频/视频描述信息数据库中获取与所述第一个词语匹配的音频/视频描述信息，从所述待识别词语中获取第二个词语，从所述与第一个词语匹配的音频/视频描述信息组成的音频/视频描述信息集合中获取与所述第二个词语匹配的音频/视频描述信息，以此类推，从所述待识别词语中获取最后一个词语，从与所述最后一个词语相邻的上一个词语匹配的音频/视频描述信息组成的音频/视频描述信息集合中获取与所述最后一个词语匹配的目标音频/视频描述信息。

6.根据权利要求5所述的系统，其特征在于，所述自然语音识别模块，具体用于获取所述待识别词语中的关键词，将所述待识别词语按照关键词、后辅助词以及前辅助词的顺序进行排序，其中，后辅助词为所述待识别词语中位于关键词之后的词语，前辅助词为所述待识别词语中位于关键词之前的词语。

7.根据权利要求1所述的系统，其特征在于，所述自然语音识别模块，还用于根据所述待识别词语查找口语词库，根据查找结果，从所述待识别词语中删除口语词，其中，口语词库用于存储口语词，所述口语词中不包括涉及到所述用户输入的音频/视频点播语音信息中具有实质性含义的文字信息。

8.根据权利要求1所述的系统，其特征在于，

所述终端设备，还用于接收所述云计算平台服务器发送的两条以上目标音频/视频描述信息，将所述两条以上目标音频/视频描述信息显示给所述用户，接收用户根据所述两条以上目标音频/视频描述信息发送的音频/视频描述信息选取指示，将所述音频/视频描述信息选取指示发送给所述云计算平台服务器；

所述云计算平台服务器，还用于如果自然语音识别模块查找到两条以上目标音频/视频描述信息，所述通信模块将所述两条以上目标音频/视频描述信息发送给所述终端设备，接收所述终端设备返回的音频/视频描述信息选取指示，根据该音频/视频描述信息选取指示从所述两条以上目标音频/视频描述信息中选取优选目标音频/视频描述信息，并获取该优选目标音频/视频描述信息对应的音频/视频点播地址。

9.根据权利要求1所述的系统，其特征在于，所述云计算平台服务器，还包括：

统计模块，用于音频/视频点播数据进行统计，保存音频/视频点播数据统计结果；

所述通信模块，还用于如果所述自然语音识别模块查找到两条以上目标音频/视频描述信息，从所述统计模块获取音频/视频点播数据统计结果，根据该音频/视频点播数据统计结果从所述两条以上目标音频/视频描述信息中选取优选目标音频/视频描述信息，并获取该优选目标音频/视频描述信息对应的音频/视频点播地址。

10.根据权利要求1-9中任意一项所述的系统，其特征在于，所述自然语音识别模块，还用于对所述拼音进行模糊音匹配处理，获取模糊匹配后的拼音，采用所述预先设置的词典对所述模糊匹配后的拼音进行分词处理，获取分词后的词语拼音串。

11.一种基于自然语音识别的音频/视频点播方法，其特征在于，包括：

在用户按下一键式控制装置的启动按键以后，所述一键式控制装置通过直接或短距离通信方式与终端设备建立连接，其中，所述一键式控制装置设置在车辆的固定部位上，直接或者通过短距离通信方式驱动所述终端设备与网络侧的云计算平台服务器建立连接；

所述终端设备通过语音电话交换网络或多种无线数据网络与所述云计算平台服务器建立语音会话连接；

所述终端设备接收所述用户发送的音频/视频点播语音信息，将所述音频/视频点播语音信息发送给所述云计算平台服务器；

所述云计算平台服务器采用非特定人语音识别技术对所述音频/视频点播语音信息进行识别、解析，获取所述音频/视频点播语音信息对应的拼音；

所述云计算平台服务器采用预先设置的词典对所述拼音进行分词处理，获取分词后的词语拼音串，其中，所述词典用于存储待进行语音识别的目标词语以及目标词语对应的拼音；

所述云计算平台服务器从所述词典中查找所述词语拼音串对应的待识别词语；

所述云计算平台服务器根据所述待识别词语查找音频/视频描述信息数据库，从所述音频/视频描述信息数据库中获取与所述待识别词语匹配度最高的目标音频/视频描述信息；

所述云计算平台服务器获取所述目标音频/视频描述信息对应的音频/视频点播地址，将该音频/视频点播地址携带在自动音频/视频点播控制信息中发送给所述终端设备；

所述终端设备根据所述自动音频/视频播放控制信息启动音频/视频播放功能，根据所述音频/视频点播地址与音频/视频服务器建立音频/视频媒体流传输通道连接，从所述音频/视频服务器获取音频/视频媒体流，将该音频/视频媒体流播放给所述用户。

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

如果所述词典还用于存储所述目标词语对应的权重等级n以及权重等级范围N，所述云计算平台服务器根据所述词典获取所述待识别词语对应的权重等级，其中，n、N均为整数，N≥2，n∈[1，N]，第n级的目标词语在所述待识别词语中的重要性要比第n+1级的目标词语在所述待识别词语中的重要性大；

则所述云计算平台服务器根据所述待识别词语查找音频/视频描述信息数据库，从所述音频/视频描述信息数据库中获取与所述待识别词语匹配度最高的目标音频/视频描述信息包括：

所述云计算平台服务器根据所述待识别词语查找音频/视频描述信息数据库，从所述音频/视频描述信息数据库中获取与所述待识别词语包含的任意一个或多个词语匹配的音频/视频描述信息组成的音频/视频描述信息集合；

所述云计算平台服务器根据所述待识别词语对应的权重等级，对所述音频/视频描述信息集合中的每条音频/视频描述信息分别进行处理，获取每条音频/视频描述信息的权重系数；

所述云计算平台服务器从所述音频/视频描述信息集合中选取权重系数最高的音频/视频描述信息为目标音频/视频描述信息。

13.根据权利要求12所述的方法，其特征在，所述方法还包括：

如果所述待识别词语中不存在权重等级为1的词语，所述云计算平台服务器重新对所述拼音进行分词处理，以获取至少一个权重等级为1的词语；

则所述云计算平台服务器根据所述待识别词语查找音频/视频描述信息数据库，从所述音频/视频描述信息数据库中获取与所述待识别词语匹配度最高的目标音频/视频描述信息为：

所述云计算平台服务器根据从新分词后的待识别词语查找音频/视频描述信息数据库，从所述音频/视频描述信息数据库中获取与所述待识别词语匹配度最高的目标音频/视频描述信息。

14.根据权利要求13所述的方法，其特征在于，所述方法还包括：

所述云计算平台服务器将所述至少一个权重等级为1的词语以及该词语对应的拼音串添加到所述词典中。

15.根据权利要求11所述的方法，其特征在于，所述云计算平台服务器根据所述待识别词语查找音频/视频描述信息数据库，从所述音频/视频描述信息数据库中获取与所述待识别词语匹配度最高的目标音频/视频描述信息包括：

所述云计算平台服务器对所述待识别词语进行排序；

所述云计算平台服务器按照所述排序的结果，从所述待识别词语中获取第一个词语，从所述音频/视频描述信息数据库中获取与所述第一个词语匹配的音频/视频描述信息；

所述云计算平台服务器从所述待识别词语中获取第二个词语，从所述与第一个词语匹配的音频/视频描述信息组成的音频/视频描述信息集合中获取与所述第二个词语匹配的音频/视频描述信息；

以此类推，所述云计算平台服务器从所述待识别词语中获取最后一个词语，从与所述最后一个词语相邻的上一个词语匹配的音频/视频描述信息组成的音频/视频描述信息集合中获取与所述最后一个词语匹配的目标音频/视频描述信息。

16.根据权利要求15所述的方法，其特征在于，所述云计算平台服务器对所述待识别词语进行排序包括：

所述云计算平台服务器获取所述待识别词语中的关键词；

所述云计算平台服务器将所述待识别词语按照关键词、后辅助词以及前辅助词的顺序进行排序；

其中，后辅助词为所述待识别词语中位于关键词之后的词语，前辅助词为所述待识别词语中位于关键词之前的词语。

17.根据权利要求16所述的方法，其特征在于，如果所述待识别词语中有两个以上关键词，所述后辅助词为所述待识别词语中第一个关键词以后的非关键词。

18.根据权利要求11所述的方法，其特征在于，所述方法还包括：

所述云计算平台服务器根据所述待识别词语查找口语词库，根据查找结果，从所述待识别词语中删除口语词，其中，口语词库用于存储口语词，所述口语词中不包括涉及到所述用户输入的音频/视频点播语音信息中具有实质性含义的文字信息。

19.根据权利要求11所述的方法，其特征在于，所述方法还包括：

如果所述云计算平台服务器查找到两条以上目标音频/视频描述信息，所述云计算平台服务器向所述终端设备发送所述两条以上目标音频/视频描述信息；

所述终端设备将所述两条以上目标音频/视频描述信息显示给所述用户，接收所述用户根据所述两条以上目标音频/视频描述信息发送的音频/视频描述信息选取指示；

所述终端设备将所述音频/视频描述信息选取指示发送给所述云计算平台服务器；

所述云计算平台服务器根据所述音频/视频描述信息选取指示从所述两条以上目标音频/视频描述信息中选取优选目标音频/视频描述信息，并获取该优选目标音频/视频描述信息对应的音频/视频点播地址。

20.根据权利要求11所述的方法，其特征在于，所述方法还包括：

如果所述云计算平台服务器查找到两条以上目标音频/视频描述信息，所述云计算平台服务器获取音频/视频点播数据统计结果；

所述云计算平台服务器根据所述音频/视频点播数据统计结果从所述两条以上目标音频/视频描述信息中选取优选目标音频/视频描述信息。

21.根据权利要求11-20中任意一项所述的方法，其特征在于，所述方法还包括：

所述云计算平台服务器对所述拼音进行模糊音匹配处理，获取模糊匹配后的拼音；

则所述云计算平台服务器采用预先设置的词典对所述拼音进行分词处理，获取分词后的词语拼音串为：

所述云计算平台服务器采用所述预先设置的词典对所述模糊匹配后的拼音进行分词处理，获取分词后的词语拼音串。