CN104575501A

CN104575501A - 一种收音机语音操控指令解析方法及系统

Info

Publication number: CN104575501A
Application number: CN201510026115.2A
Authority: CN
Inventors: 赵奇猛; 刘升平
Original assignee: Beijing Yunzhisheng Information Technology Co Ltd
Current assignee: Unisound Intelligent Technology Co Ltd
Priority date: 2015-01-19
Filing date: 2015-01-19
Publication date: 2015-04-29
Anticipated expiration: 2035-01-19
Also published as: CN104575501B

Abstract

本发明涉及语音操控技术领域，尤其涉及收音机语音操控指令解析方法及系统。收音机语音操控指令解析方法，包括：将用户发送的用于操控收音机动作的语音数据转换为文本数据；对文本数据进行实体识别；对实体识别后的文本数据进行语义解析，得到结构化字段；根据结构化字段及用户数据，从数据库中获取相应的动作数据进行收音机动作响应。本发明的收音机语音操控指令解析方法及系统，基于语音方式实现对收音机的操控，从而进一步满足用户对收音机的实际操控使用需求。

Description

一种收音机语音操控指令解析方法及系统

技术领域

本发明涉及语音操控技术领域，具体而言，涉及一种收音机语音操控指令解析方法及系统。

背景技术

随着科学技术的发展，收音机的使用深入到人们生活的各个方面，例如在车载终端及移动终端中一般均设置有收音机。

当前，操控收音机的方式均为手动方式，在设置有收音机的终端设备上至少包括开启/关闭收音机的开关、搜索电台/频道的部件，其中所述开关及部件可以选择以旋钮、按键或触摸等方式实现。用户在使用收音机时，手动开启开关，并手动搜索电台。

上述手动操控收音机的方式，搜索频道效率比较低，且在车载环境中还会造成一定的安全隐患，由此看出相关技术中手动操控收音机的方式不满足用户的实际使用需求。

发明内容

本发明的目的在于提供收音机语音操控指令解析方法及系统，以基于语音方式实现对收音机的操控，从而进一步满足用户对收音机的实际操控使用需求。

本发明实施例提供了一种收音机语音操控指令解析方法，包括：将用户发送的用于操控收音机动作的语音数据转换为文本数据；对所述文本数据进行实体识别；对所述实体识别后的文本数据进行语义解析，得到结构化字段；根据所述结构化字段及用户数据，从数据库中获取相应的动作数据进行收音机动作响应。

优选地，所述将用户发送的用于操控收音机动作的语音数据转换为文本数据，包括：调用语音云开放平台，利用所述语音云开放平台将所述语音数据转换为文本数据。

优选地，所述对所述文本数据进行实体识别，包括：利用预先训练好的条件随机场模型对所述文本数据进行分词及标注。

优选地，该方法中对所述训练得到所述条件随机场模型，包括：对待训练的文本数据按照电台、频道和/或频率进行分词及标注，得到标注语料；利用条件随机场对所述标注语料进行训练，得到所述条件随机场模型。

优选地，所述对所述实体识别后的文本数据进行语义解析，得到结构化字段，包括：将所述实体识别后的文本数据与预设的规则模板进行匹配，得到所述结构化字段；其中所述规则模板包括：完全字面模板、包含变量模板及包含通配符模板；所述结构化字段包括：电台、频道、频道类别、单位和/或频率。

优选地，所述将所述实体识别后的文本数据与预设的规则模板进行匹配之前，还包括：对所述文本数据进行标准化和冗余消除，其中包括对所述文本数据中的局部文字进行置信度高的局部替换以及去除所述文本数据中的噪音字符。

优选地，所述根据所述结构化字段及用户数据，从数据库中获取相应的动作数据进行收音机动作响应，包括：

当所述文本数据中包含频率字段时，通过索引从数据库中获取所有满足所述频率字段的第一候选数据；根据用户的位置信息对所述第一候选数据进行排序；依据所述排序的结果选取相应的广播数据进行播放；

当所述文本数据中仅包含电台和/或频道字段时，通过索引从数据库中获取所有满足所述电台或频道字段的第二候选数据；根据用户的位置信息对所述第二候选数据进行排序，依据所述排序的结果选取相应的广播数据进行播放。

优选地，当所述用户数据中仅包含所述位置信息时，所述数据库为通用数据库；当所述用户数据包含所述位置信息及电台数据时，所述数据库为包含所述电台数据的用户数据库。

本发明实施例还提供了一种收音机语音操控指令解析系统，包括：语音识别模块，用于将用户发送的用于操控收音机动作的语音数据转换为文本数据；实体识别模块，用于对所述文本数据进行实体识别；语义解析模块，用于对所述实体识别后的文本数据进行语义解析，得到结构化字段；数据获取模块，用于根据所述结构化字段，从数据库中获取相应的动作数据进行收音机动作响应。

优选地，该系统还包括：冗余消除模块，用于将所述实体识别后的文本数据与预设的规则模板进行匹配之前，对所述文本数据进行标准化和冗余消除，其中包括对所述文本数据中的局部文字进行置信度高的局部替换以及去除所述文本数据中的噪音字符。

基于本发明实施例的收音机语音操控指令解析方法及系统能够实现对收音机的语音操控，相对于手动操控，此种操控方式更加便携，更能满足用户对收音机的实际操控使用需求。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本发明实施例中收音机语音操控指令解析方法的流程图；

图2示出了本发明实施例中收音机语音操控指令解析系统的一种结构示意图；

图3示出了本发明实施例中收音机语音操控指令解析系统的另一种结构示意图；

图4示出了本发明实施例中语义解析过程的一种流程图；

图5示出了本发明实施例中语义解析过程的另一种流程图。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

鉴于相关技术中，以手动方式对收音机进行操控会带来诸多不便，如搜索电台频道时，搜索效率比较低；又例如，在车载环境中手动操控收音机可能会带来一定的安全隐患。

为了使收音机的操控简单便捷，本发明中提出了一种基于语音操控收音机的方式，并具体提供了收音机语音操控指令解析方法，如图1所示，该方法的主要处理步骤包括：

步骤S11：将用户发送的用于操控收音机动作的语音数据转换为文本数据；

步骤S12：对文本数据进行实体识别；

步骤S13：对实体识别后的文本数据进行语义解析，得到结构化字段；

步骤S14：根据结构化字段，从数据库中获取相应的动作数据进行收音机动作响应。

利用该方法能够实现对收音机的语音操控，在搜索频道时用户说出电台/频道名称，或者频道类型，即能返回相应的广播数据，提高了电台/频道搜索的效率，且在车载环境中，用户通过语音操控收音机，存在的安全隐患大大降低。

本发明实施例的收音机语音操控指令解析方法中，将用户发送的用于操控收音机动作的语音数据转换为文本数据，包括：调用语音云开放平台，利用语音云开放平台将语音数据转换为文本数据。在利用语音云开发平台将语音数据转换为文本数据的过程中，可以借助深度神经网络、自适应训练以及大规模网络动态解码等技术和大规模语料支持，将用户发出的语音数据准确转换为文本数据，通过选择合适的语音云开发平台能够使中文连续语音识别的准确率达到96％以上，实时率达到0.15倍实时。

该方法中在对文本数据进行实体识别时，优选可以采用预先训练好的条件随机场模型对文本数据进行分词及标注。

其中，实体是命名实体的简称，命名实体识别的任务被定义为识别出文本数据中出现的专有名称和有意义的数量短语并对其进行归类。

得到上述条件随机场模型的方法为：对待训练的文本数据按照电台、频道和/或频率进行分词及标注，得到标注语料；利用条件随机场对标注语料进行训练，得到条件随机场模型，需要强调的是标注语料中包含噪音和asr识别错误的句子，如“收听普通广播频道”，正确的是“浦东广播频道”，因为噪音或者说话者不标准导致的语音识别错误。也即，该模型抗噪、兼容语音识别错误。

例如，待训练的文本数据为“我想听中央人民广播电台”，首先对该文本数据进行分词及标注为“我想听中央人民广播电台/org”，利用条件随机场对该标注语料进行训练，得到条件随机场模型。当接收到与用户操控对应的文本数据后，如“我想听中央人民广播电台第三套节目音乐之声”，利用条件随机场模型对新接收到的文本进行分词标注为“我想听中央人民广播电台/station第三套节目音乐之声/channel。

在语音解析过程中，对实体进行识别有利于规则的抽象，缩小了匹配的规则空间，提高了匹配的效率。

对文本数据进行实体识别后，对文本数据进行语义解析，得到结构化字段，其中需要解析出来的结构化字段包括：station(电台)、channel(频道)、frequency(频率)、type(AM或FM)及unit(单位，如兆赫兹、赫兹)。

对文本数据进行语义解析的方法包括：将实体识别后的文本数据与预设的规则模板进行匹配，得到结构化字段；其中规则模板包括：完全字面模板、包含变量模板及包含通配符模板。

如：“收听中华之声”，解析结果为：

{"rc":0,"service":"cn.yunzhisheng.broadcast","semantic":{"intent":{"station":"中央人民广播电台","channelList":[{"channel":"中央人民广播电台第五套节目中华之声","frequencyList":[{"frequency":"765","type":"AM","unit":"KHz"},{"frequency":"837","type":"AM","unit":"KHz"}]}]}}}。

本方法中语义解析的结果是通过匹配规则来获取。依据实体识别来索引候选待匹配的规则，规则分三类：完全字面模版(如，“^【打开】【收音机】$”)、包含变量模版(如，“^【打开】？【一下】？％station％【电台】？$”)、包含通配符模版(如，“【打开】(.*？)【数字】【FM】”)，不同类型的模版匹配优先级是：字面模版>变量模版>通配符模版；每个模版都有对应的语义解析结构。如果规则精确匹配不上，触发规则相似度计算进行匹配。最终解析出如station(电台)、channel(频道)、category(频道类别)等字段。其中带有标记的【打开】是同义词、近义词变量。

在将实体识别后的文本数据与预设的规则模板进行匹配之前，需要对文本数据进行标准化和冗余消除，其中包括对文本数据中的局部文字进行置信度高的局部替换以及去除文本数据中的噪音字符。

本方法中，根据结构化字段及用户数据，从数据库中获取相应的动作数据进行收音机动作响应，包括：当文本数据中包含频率字段时，通过索引从数据库中获取所有满足频率字段的第一候选数据；根据用户的位置信息对第一候选数据进行排序；依据排序的结果选取相应的广播数据进行播放；

当文本数据中仅包含电台和/或频道字段时，通过索引从数据库中获取所有满足电台或频道字段的第二候选数据；根据用户的位置信息对第二候选数据进行排序，依据排序的结果选取相应的广播数据进行播放。

其中上述的用户的位置信息为包含于用户数据中的信息，当所述用户数据中仅包含所述位置信息时，所述数据库为通用数据库；当所述用户数据包含所述位置信息及电台数据时，所述数据库为包含所述电台数据的用户数据库。

本发明实施例还提供了一种收音机语音操控指令解析系统，如图2所示，包括：

语音识别模块21，用于将用户发送的用于操控收音机动作的语音数据转换为文本数据；

实体识别模块22，用于对文本数据进行实体识别；

语义解析模块23，用于对实体识别后的文本数据进行语义解析，得到结构化字段；

数据获取模块24，用于根据结构化字段，从数据库中获取相应的动作数据进行收音机动作响应。

该系统还包括：冗余消除模块，用于将实体识别后的文本数据与预设的规则模板进行匹配之前，对文本数据进行标准化和冗余消除，其中包括对文本数据中的局部文字进行置信度高的局部替换以及去除文本数据中的噪音字符。

本发明还提供了一种收音机语音操控指令解析方法及系统的优选实施方式，以下将结合图3-图5进行详细说明。

如图3所示，收音机语音操控指令解析系统中包括语音识别模块21、实体识别模块22、语义解析模块23及数据获取模块24，语音识别模块21将用户发送的用于操控收音机动作的语音数据转换为文本数据；实体识别模块22从模型库中调取条件随机场模型对文本数据进行实体识别；语义解析模块23从规则库中调取预先设定的规则模板对实体识别后的文本数据进行语义解析，得到结构化字段；数据获取模块24根据结构化字段及用户数据从数据库中获取输出相应的广播数据。

其中在用户数据可以仅包含用户的位置信息，也可以同时包含用户的位置信息及电台数据，以下将对该两种情况进行分别说明。

1、用户数据仅有位置信息(用户GPS数据)的情况，如图4所示：

a)解析出来的结构化字段中包含频率字段：频率字段如果没有单位和类型，根据其所属范围来确定它的单位和类型。接着通过索引从设备可接收频道数据中获取所有满足频率的候选数据，依据用户GPS和可能包含的电台或频道字段对候选数据进行排序。具体排序原则是，如果有电台或频道字段，则用其对候选数据进行过滤，在过滤结果中城市距离较近的优先选取。其中首都、直辖市、省会、重要城市与其他城市计算距离是相应减去一段距离。如果最后结果获取的城市与用户GPS数据不一致，则提示用户选取的是其他城市的频道。

b)解析出来的结构化字段中没有频率字段，但包含电台或频道字段；首先根据编辑距离判断该字段是属于电台还是频道，编辑距离不仅是字面的，还包括拼音的，该步骤是针对实体可能识别错误和语音识别错误情况进行的处理，当电台station或频道channel能够完全匹配时，则无需进一步区分电台station或频道channel。

确定了字段，用相应字段索引选出候选数据，通过类型字段过滤不符合条件的。再根据用户GPS数据定位所在城市，依据距离对候选结果进行排序，如果是属于电台，则只能用第一个电台名对之后的数据进行过滤。如果包含类别，则按照类别的编辑距离进行排序，获取广播数据。

2、用户数据包含电台数据的情况，如图5所示：

a)解析出来的结构化字段中包含频率字段：如果没有单位和类型，根据其所属范围来确定它的单位和类型。以用户数据库作为基础索引库，索引到所有满足频率的候选数据，依据用户GPS数据和可能包含的电台或频道字段对候选数据进行排序。具体排序原则是，如果有电台或频道字段，则用其对候选进行过滤，在过滤结果中城市距离较近的优先选取。其中首都、直辖市、省会、重要城市与其他城市计算距离是相应减去一段距离。如果最后结果获取的城市与用户GPS数据不一致，则提示用户选取的是其他城市的频道。

b)解析出来的结构化字段中没有频率字段，但包含电台或频道字段；首先根据编辑距离在通用数据库中判断该字段是属于电台还是频道，编辑距离不仅是字面的，还包括拼音的，该步骤是针对实体可能识别错误和语音识别错误情况进行的处理，当电台station或频道channel能够完全匹配时，则无需进一步区分电台station或频道channel。

确定了字段，以用户数据库作为基础索引库，用相应字段索引选出候选数据，通过类型字段过滤不符合条件的。再根据用户GPS数据定位所在城市，依据距离对候选结果进行排序，如果是属于电台，则只能用第一个电台名对之后的数据进行过滤。如果包含类别，则按照类别的编辑距离进行排序，获取广播数据。

本发明中，电台和频道是一对多的关系，如，“中央人民广播电台”下面有“音乐之声频道、都市之声频道、神州之声频道等”，每一个频道又有多个频率。频率又分AM和FM以及cable fm(有线调频)。

用第一个电台名对之后的数据进行过滤包括：电台排序之后有多个电台，取第一个电台，按照约束条件对所有该电台下的频道、频率进行过滤，如“北京电台FM”就会过滤掉不是FM的频率。

基于本发明的所述方法能够实现对收音机的语音操控，提高电台/频道搜索的效率，且在车载环境中，用户通过语音操控收音机，存在的安全隐患大大降低。

进一步，本发明在语义解析前进行了噪音和冗余的处理，有效地减少了规则编写的工作量；对规则进一步抽象，抽象出命名实体，匹配之前先进行命名实体识别。结合广播数据，考虑了距离因素，使返回结果更符合用户的期望，一定程度上支持用户随意请求，精确的或模糊的请求。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.收音机语音操控指令解析方法，其特征在于，包括：

将用户发送的用于操控收音机动作的语音数据转换为文本数据；

对所述文本数据进行实体识别；

对所述实体识别后的文本数据进行语义解析，得到结构化字段；

根据所述结构化字段及用户数据，从数据库中获取相应的动作数据进行收音机动作响应。

2.根据权利要求1所述的方法，其特征在于，所述将用户发送的用于操控收音机动作的语音数据转换为文本数据，包括：

调用语音云开放平台，利用所述语音云开放平台将所述语音数据转换为文本数据。

3.根据权利要求1所述的方法，其特征在于，所述对所述文本数据进行实体识别，包括：

利用预先训练好的条件随机场模型对所述文本数据进行分词及标注。

4.根据权利要求3所述的方法，其特征在于，该方法中对所述训练得到所述条件随机场模型，包括：

对待训练的文本数据按照电台、频道和/或频率进行分词及标注，得到标注语料；

利用条件随机场对所述标注语料进行训练，得到所述条件随机场模型。

5.根据权利要求1所述的方法，其特征在于，所述对所述实体识别后的文本数据进行语义解析，得到结构化字段，包括：

将所述实体识别后的文本数据与预设的规则模板进行匹配，得到所述结构化字段；

其中所述规则模板包括：完全字面模板、包含变量模板及包含通配符模板；

所述结构化字段包括：电台、频道、频道类别、单位和/或频率。

6.根据权利要求5所述的方法，其特征在于，所述将所述实体识别后的文本数据与预设的规则模板进行匹配之前，还包括：

对所述文本数据进行标准化和冗余消除，其中包括对所述文本数据中的局部文字进行置信度高的局部替换以及去除所述文本数据中的噪音字符。

7.根据权利要求1所述的方法，其特征在于，所述根据所述结构化字段及用户数据，从数据库中获取相应的动作数据进行收音机动作响应，包括：

8.根据权利要求7所述的方法，其特征在于，当所述用户数据中仅包含所述位置信息时，所述数据库为通用数据库；

当所述用户数据包含所述位置信息及电台数据时，所述数据库为包含所述电台数据的用户数据库。

9.收音机语音操控指令解析系统，其特征在于，包括：

语音识别模块，用于将用户发送的用于操控收音机动作的语音数据转换为文本数据；

实体识别模块，用于对所述文本数据进行实体识别；

语义解析模块，用于对所述实体识别后的文本数据进行语义解析，得到结构化字段；

数据获取模块，用于根据所述结构化字段及用户数据，从数据库中获取相应的动作数据进行收音机动作响应。

10.根据权利要求9所述的系统，其特征在于，该系统还包括：冗余消除模块，用于将所述实体识别后的文本数据与预设的规则模板进行匹配之前，对所述文本数据进行标准化和冗余消除，其中包括对所述文本数据中的局部文字进行置信度高的局部替换以及去除所述文本数据中的噪音字符。