CN107527619A

CN107527619A - 语音控制业务的定位方法及装置

Info

Publication number: CN107527619A
Application number: CN201710757060.1A
Authority: CN
Inventors: 胡伟凤; 高雪松
Original assignee: Hisense Group Co Ltd
Current assignee: Hisense Group Co Ltd
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2017-12-29
Anticipated expiration: 2037-08-29
Also published as: CN107527619B

Abstract

本发明公开了一种语音控制业务的定位方法及装置，属于智能电视技术领域。所述方法包括：对语音控制文本进行分词处理，得到分词结果；对分词结果进行资源标注，得到资源标注结果；基于分词结果和资源标注结果，从预置的业务分类模板中查找与语音控制文本匹配的业务分类模板；当未查找到时，基于分词结果和资源标注结果，按照自定义语义依存关系进行句法结构的分析，以确定语音控制文本对应的语音控制业务。本发明通过对语音控制文本进行句法结构分析，保留了句法结构信息，避免了出现语音控制文本理解错误的情况，提高了定位语音控制业务的准确性。

Description

语音控制业务的定位方法及装置

技术领域

本发明涉及智能电视技术领域，特别涉及一种语音控制业务的定位方法及装置。

背景技术

随着智能电视技术的快速发展，通过语音控制智能电视越来越受到人们的青睐。其中，用户可以输入语音控制指令，以对智能电视中的影视、音乐等内容进行检索或者控制智能电视执行相应地控制操作。而通过语音控制智能电视进行检索或执行相应地控制操作之前，智能电视需要将用户输入的语音转换为语音控制文本，并且需要将语音控制文本定位到具体的语音控制业务，然后进行检索或控制操作。例如，通过用户输入的语音转换得到的语音控制文本为“刘德华的剧情电影赌神”，该语音控制文本可以定位到影视业务，然后智能电视会检索“电影赌神”。

相关技术中，当对语音控制业务进行定位时，可以将语音控制文本中的关键词和预置的多个业务的关键词进行匹配，如果该多个业务中存在与语音控制文本的关键词匹配的业务，则将该业务确定为该语音控制文本对应的语音控制业务。然而，通过关键词匹配的方法定位语音控制业务时，往往会丢失语音控制文本中的语法结构信息，也可能会出现语音控制文本理解错误的情况，示例的，由于语音控制文本“刘德华的电影赌神的主题曲”中含有关键词“电影”和“赌神”，通过关键词匹配的方法很容易定位到影视业务，而用户的真实意图是歌曲搜索，因此通过关键词匹配的方法定位语音控制业务的准确性不高。

发明内容

为了解决相关技术中定位语音控制业务的准确性不高的问题，本发明实施例提供了一种语音控制业务的定位方法及装置。

根据本发明实施例的第一方面，提供一种语音控制业务的定位方法，所述方法包括：

对语音控制文本进行分词处理，得到分词结果；

对所述分词结果进行资源归一和资源标注，得到资源标注结果；

基于所述分词结果和所述资源标注结果，从预置的业务分类模板中查找与所述语音控制文本匹配的业务分类模板；

当未查找到时，基于所述分词结果和所述资源标注结果，按照自定义语义依存关系进行句法结构的分析，以确定所述语音控制文本对应的语音控制业务。

可选地，所述基于所述分词结果和所述资源标注结果，按照自定义语义依存关系进行句法结构的分析，以确定所述语音控制文本对应的语音控制业务，包括：

基于所述资源标注结果中的词语对应的标注，确定所述语音控制文本对应的候选业务；

按照所述自定义语义依存关系，对所述分词结果进行句法结构的分析，得到所述分词结果中的核心词以及所述分词结果中词语之间的依存关系；

基于所述核心词和所述分词结果中词语之间的依存关系，按照预设的依存分值确定所述候选业务对应的分值；

基于所述候选业务对应的分值确定所述语音控制文本对应的语音控制业务。

可选地，所述基于所述核心词和所述分词结果中词语之间的依存关系，按照预设的依存分值确定所述候选业务对应的分值，包括：

从所述核心词开始，从所述分词结果中词语之间的依存关系中选择属于所述候选业务的依存关系；

从所述预设的依存分值中获取与选择的依存关系对应的依存分值；

将同一条修饰链上的依存分值相乘，并将不同修饰链及并列修饰链上的依存分值相加，得到所述候选业务对应的分值。

可选地，所述基于所述候选业务对应的分值确定所述语音控制文本对应的语音控制业务，包括：

从所述语音控制文本对应的候选业务中选择对应的分值大于预设分值的候选业务；

当选择出一个候选业务时，将选择的候选业务确定为所述语音控制文本对应的语音控制业务；

当选择出至少两个候选业务时，将所述至少两个候选业务中优先级最高的候选业务确定为所述语音控制文本对应的语音控制业务。

可选地，所述对所述分词结果进行资源标注，得到资源标注结果，包括：

从预先存储的资源库中查找所述分词结果中的词语对应的业务代表词；

当查找到时，将所述分词结果中的词语替换为对应的业务代表词，以实现所述分词结果的资源归一；

基于预先存储的标注库、资源归一前的分词结果和资源归一后的分词结果，确定所述资源标注结果。

根据本发明实施例的第二方面，提供一种语音控制业务的定位装置，所述装置包括：

第一处理模块，用于对语音控制文本进行分词处理，得到分词结果；

第二处理模块，用于对所述分词结果进行资源标注，得到资源标注结果；

查找模块，用于基于所述分词结果和所述资源标注结果，从预置的业务分类模板中查找与所述语音控制文本匹配的业务分类模板；

确定模块，用于当未查找到时，基于所述分词结果和所述资源标注结果，按照自定义语义依存关系进行句法结构的分析，以确定所述语音控制文本对应的语音控制业务。

可选地，所述确定模块，包括：

第一确定子模块，用于基于所述资源标注结果中的词语对应的标注，确定所述语音控制文本对应的候选业务；

分析子模块，用于按照所述自定义语义依存关系，对所述分词结果进行句法结构的分析，得到所述分词结果中的核心词以及所述分词结果中词语之间的依存关系；

第二确定子模块，用于基于所述核心词和所述分词结果中词语之间的依存关系，按照预设的依存分值确定所述候选业务对应的分值；

第三确定子模块，用于基于所述候选业务对应的分值确定所述语音控制文本对应的语音控制业务。

可选地，所述第二确定子模块，具体用于：

可选地，所述第三确定子模块，具体用于：

可选地，所述第二处理模块，包括：

获取子模块，用于从预先存储的资源库中查找所述分词结果中的词语对应的业务代表词；

替换子模块，用于当查找到时，将所述分词结果中的词语替换为对应的业务代表词，以实现所述分词结果的资源归一；

确定子模块，用于基于预先存储的标注库、资源归一前的分词结果和资源归一后的分词结果，确定所述资源标注结果

根据本发明实施例的第三方面，提供了一种装置，所述装置包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序代码，所述处理器执行所述程序代码时实现上述第一方面所述的方法。

根据本发明实施例的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，所述指令被处理器执行时实现上述第一方面所述方法的步骤。

本发明实施例提供的技术方案带来的有益效果是：

在本发明实施例中，先对语音控制文本进行分词处理，得到分词结果，也即是，将完整的语音控制文本切分成单个的词语。然后对分词结果进行资源标注，得到资源标注结果，基于分词结果和资源标注结果，从预置的业务分类模板中查找与语音控制文本匹配的业务分类模板。当没有查找到相对应的业务分类模板时，基于分词结果和资源标注结果，按照自定义语义依存关系进行句法结构分析，以确定语音控制文本对应的语音控制业务。也即是，采用了逐层递进的形式，既利用了模板分类的准确性，又引入了语义依存关系，保留了语音控制文本中的语法结构信息，避免了出现语音控制文本理解错误的情况，提高了定位语音控制业务的准确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种语音控制业务的定位方法流程图；

图2A是本发明实施例提供的另一种语音控制业务的定位方法流程图；

图2B是本发明实施例提供的一种确定语音控制文本对应的语义依存关系的示意图；

图2C是本发明实施例提供的另一种确定语音控制文本对应的语义依存关系的示意图；

图3A是本发明实施例提供的一种语音控制业务的定位装置的结构示意图；

图3B是本发明实施例提供的一种确定模块304的结构示意图；

图3C是本发明实施例提供的一种第二处理模块302的结构示意图；

图4是本发明实施例提供的一种用于语音控制业务的定位装置400的框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

为了便于理解，在对本发明实施例进行详细的解释说明之前，先对本发明实施例涉及的应用场景进行介绍。

在本发明实施例中，用户可以输入语音，以对智能电视中的影视、音乐等内容进行检索或者控制智能电视执行相应地控制操作，而通过语音控制智能电视进行检索或执行相应地控制操作之前，智能电视需要将用户输入的语音转换为语音控制文本，并且需要将语音控制文本定位到具体的语音控制业务，然后进行检索或相应的控制操作。也即是，本发明实施例提供的方法可以应用于检索场景和智能电视的控制场景中。

对于检索场景，例如，用户输入语音“我想听张碧晨的一半一半”，智能电视将用户输入的语音转换为语音控制文本“我想听张碧晨的一半一半”，并将该语音控制文本定位到音乐业务，此时，智能电视将会在音乐业务中检索歌曲“张碧晨的一半一半”。

对于智能电视的控制场景，例如，用户输入语音“帮我打开音乐播放器”，智能电视将用户输入的语音转换为语音控制文本“帮我打开音乐播放器”，并将该语音控制文本定位到应用业务，此时，智能电视将会控制打开音乐播放器。

接下来将结合附图对本发明实施例提供的语音控制业务的定位方法进行详细介绍。

图1是本发明实施例提供的一种语音控制业务的定位方法的流程图。参见图1，该方法包括以下步骤：

步骤101：对语音控制文本进行分词处理，得到分词结果。

步骤102：对分词结果进行资源标注，得到资源标注结果。

步骤103：基于分词结果和资源标注结果，从预置的业务分类模板中查找与语音控制文本匹配的业务分类模板。

步骤104：当未查找到时，基于分词结果和资源标注结果，按照自定义语义依存关系进行句法结构的分析，以确定语音控制文本对应的语音控制业务。

图2A是本发明实施例提供的一种语音控制业务的定位方法的流程图。本发明实施例将结合图2A对图1所示的实施例进行展开论述。参见图2A，该方法包括以下步骤：

步骤201：对语音控制文本进行分词处理，得到分词结果。

其中，语音控制文本可以是用户提前存储在智能电视中的，也可以实时地将用户输入的语音，通过智能电视中的语音识别模块转换为语音控制文本。当然，在实际实现的过程中，可能还存在其他获取语音控制文本的方式，例如，还可以由智能电视提供至少一个语音控制文本，然后用户确定其中一个作为语音控制文本。

为了提高定位语音控制业务的准确性，需要获取语音控制文本中的语法结构信息，由于语法结构信息需要对每两个词语之间的依存关系进行分析，因此可以先对语音控制文本进行分词处理，得到分词结果。具体地，依据提前存储的分词词典，将语音控制文本切分成单个的词语，得到分词结果。例如，语音控制文本为“我想听张碧晨的一半一半”，对该语音控制文本进行分词处理，得到的分词结果为：“我”、“想”、“听”、“张碧晨”、“的”、“一半一半”。

需要说明的是，对于本发明实施例的具体分词过程，在此不再累述，本领域技术人员可参考已有技术。

步骤202：对分词结果进行资源标注，得到资源标注结果。

其中，资源标注是指对分词结果中包括的所有词语添加标注的过程，该标注可以为词语的属性或该词语所属语音控制业务的类型等信息。

具体地，可以通过如下步骤(1)-(3)对分词结果进行资源标注，得到资源标注结果。

(1)从预先存储的资源库中查找分词结果中的词语对应的业务代表词；当未查找到时，可以基于预先存储的标注库直接对分词结果中的词语添加对应的标注，得到资源标注结果。

其中，资源库中可以存储业务代表词语对应的词语之间的映射关系，因此，当从资源库中查找到分词结果中的词语对应的业务代表词时，可以说明该分词结果中存在需要进行资源归一的词语，当从资源库中未查找到分词结果中的词语对应的业务代表词时，可以说明该分词结果中不存在需要进行资源归一的词语。

另外，标注库中可以存储业务类型与词语之间的映射关系，以及词语与词语属性之间的映射关系，比如，影视业务对应的词语可以为动画片、赌神等等，音乐业务对应的词语可以为歌曲名、歌手名等等，影视动作词对应的词语可以为看、观看等。因此，当基于预先存储的标注库对分词结果中的词语添加对应的标注时，可以直接从标注库中查找分词结果中的每个词语对应的业务类型或者词语属性，然后，将查找到的业务类型或者词语属性标注在对应的词语之后，从而得到资源标注结果。

例如，分词结果为：“我”、“想”、“听”、“张碧晨”、“的”、“一半一半”，当从资源库中未查找到词语对应的业务代表词时，确定该分词结果不存在对应的业务代表词，此时，可以直接从标注库中查找每个词语对应的业务类型或者词语属性，从而对该分词结果中的词语进行资源标注，得到的资源标注结果为“我”：一般词，“想”：一般词，“听”：一般词、音乐动作词，“张碧晨”：歌手，“的”：一般词，“一半一半”：歌曲名。

(2)当查找到时，将分词结果中的词语替换为对应的业务代表词，以实现分词结果的资源归一。

其中，资源归一是指将用户不同的说法归一到同一个业务代表词，如“动画片”、“少儿”等可以归一到业务代表词“动漫”，“打开”可以归一到业务代表词“观看”等。

例如，分词结果为“我”、“想”、“看”、“动画片”、“叮当猫”，其中“动画片”的业务代表词为“动漫”，也即是，可以将“动画片”归一到“动漫”，这样，资源归一处理后的分词结果为“我”、“想”、“看”、“动漫”、“叮当猫”。

又例如，分词结果为“帮”、“我”、“打开”、“中国好声音”，其中，“打开”的业务代表词为“观看”，也即是，可以将“打开”归一到“观看”，这样，资源归一处理后的分词结果为“帮”、“我”、“观看”、“中国好声音”。

(3)基于预先存储的标注库、资源归一前的分词结果和资源归一后的分词结果，确定资源标注结果。

具体地，基于预先存储的标注库，对资源归一前的分词结果和资源归一后的分词结果中的词语分别添加标注，得到第一标注结果和第二标注结果。当第一标注结果中可以进行资源归一的词语的标注不为语音控制业务或与语音控制业务相关的属性时，将第二标注结果确定为资源标注结果。当第一标注结果中可以进行资源归一的词语的标注为语音控制业务或与语音控制业务相关的属性时，将第一标注结果和第二标注结果共同确定为资源标注结果。

例如，分词结果为“帮”、“我”、“启动”、“中国好声音”，对资源归一前的分词结果中的词语添加标注得到第一标注结果为“帮”：一般词，“我”：一般词，“启动”：一般词，“中国好声音”：影视业务、音乐业务。其中，“开启”的业务代表词为“观看”，也即是，可以将“开启”归一到“观看”。资源归一后的分词结果为“帮”、“我”、“观看”、“中国好声音”，对该分词结果中的词语添加标注得到第二标注结果为“帮”：一般词，“我”：一般词，“观看”：影视动作词，“中国好声音”：影视业务、音乐业务。由于第一标注结果中可以进行资源归一的词语的标注为一般词，不是语音控制业务或与语音控制业务相关的属性，因此将第二标注结果确定为资源标注结果。也即是，资源标注结果为“帮”：一般词，“我”：一般词，“观看”：影视动作词，“中国好声音”：影视业务、音乐业务。

又例如，分词结果为“我”、“想”、“看”、“动画片”、“叮当猫”，对资源归一前的分词结果中的词语添加标注得到第一标注结果为“我”：一般词，“想”：一般词，“看”：一般词、影视动作词，“动画片”：影视子分类，“叮当猫”：电影名、歌曲名。其中“动画片”的业务代表词为“动漫”，也即是，可以将“动画片”归一到“动漫”。资源归一后的分词结果为“我”、“想”、“看”、“动漫”、“叮当猫”，对该分词结果中的词语添加标注得到第二标注结果为“我”：一般词，“想”：一般词，“看”：一般词、影视动作词，“动漫”：影视子分类，“叮当猫”：电影名、歌曲名。由于第一标注结果中可以进行资源归一的词语的标注为影视子分类，该标注是与语音控制业务相关的属性，因此将第一标注结果和第二标注结果同时确定为资源标注结果。也即是，资源标注结果为“我”：一般词，“想”：一般词，“看”：一般词、影视动作词，“动画片”：影视子分类，“叮当猫”：电影名、歌曲名，和“我”：一般词，“想”：一般词，“看”：一般词、影视动作词，“动漫”：影视子分类，“叮当猫”：电影名、歌曲名。

值得说明的是，在实际实现过程中，除了可以将用户不同的说法归一到同一个业务代表词上，还可以将同一个业务代表词扩展为多个检索代表词，在语音控制文本与检索资源之间做了有效的连接。例如，业务代表词“动漫”可以扩展为检索代表词“动画”、“幼儿”等，当智能电视在对应的语音控制业务为检索时，可以将涉及业务代表词扩展出来的检索代表词的检索资源全部提供给用户，也即是，当用户在影视业务里检索“动漫”时，将涉及“动画”、“幼儿”等检索词的检索资源全部提供给用户。

需要说明的是，在执行上述步骤202之后，也即是，得到了语音控制文本的资源标注结果之后，还可以判断当前语音控制文本与前一个语音控制文本是否存在关联关系，如果当前语音控制文本与前一个语音控制文本存在关联关系时，可以直接将当前语音控制文本定位到前一个语音控制文本所属的语音控制业务。如果当前语音控制文本与前一个语音控制文本不存在关联关系时，可以执行下述步骤203-207定位语音控制业务。

例如，前一个语音控制文本为“我想看电视剧”，当前语音控制文本为“刘德华主演的”，由于当前语音控制文本“刘德华主演的”是对前一个语音控制文本“我想看电视剧”的进一步说明，因此当前语音控制文本与前一个语音控制文本存在关联关系，可以将当前语音控制文本定位到前一个语音控制文本所属的语音控制业务，也即是，影视业务。

步骤203：基于分词结果和资源标注结果，从预置的业务分类模板中查找与语音控制文本匹配的业务分类模板。

具体地，从预置的业务分类模板中查找与语音控制文本匹配的业务分类模板，当查找到与语音控制文本匹配的业务分类模板时，可以基于分词结果和标注结果，对语音控制文本中与业务分类模板相匹配的词语之外的剩余部分进行判断，当该剩余部分的词语属性符合该业务分类模板中要求的词语属性时，将语音控制文本定位到该业务分类模板所属的语音控制业务，当该剩余部分的词语属性不符合该业务分类模板中要求的词语属性时，不能将语音控制文本定位到该业务分类模板所属的语音控制业务。

例如，语音控制文本为：“我想听一半一半”，资源标注结果为“我”：一般词，“想”：一般词，“听”：一般词、音乐动作词，“一半一半”：歌曲名。语音控制文本“我想听一半一半”与音乐业务分类模板我想听(歌曲名)相匹配，语音控制文本中与音乐业务分类模板相匹配的部分为“我想听”，语音控制文本中剩余的部分为词语“一半一半”，基于资源标注结果可知词语“一半一半”的标注为歌曲名，也即是，词语“一半一半”的词语属性为歌曲名，符合该音乐业务分类模板中要求的词语属性，因此将该语音控制文本定位到该音乐业务分类模板所属的音乐业务，且获取的歌曲名为“一半一半”。

又例如，语音控制文本为“帮我打开中国好声音”，资源标注结果为“帮”：一般词，“我”：一般词，“打开”：应用动作词，“中国好声音”：影视业务、音乐业务。语音控制文本“帮我打开中国好声音”与应用业务分类模板(帮我|可以|我要)(打开|安装|卸载)(应用名称)相匹配，语音控制文本中与应用业务分类模板相匹配的部分为词语“帮我”“打开”，语音控制文本中剩余的部分为词语“中国好声音”，基于资源标注结果可知词语“中国好声音”的标注为影视业务、音乐业务，也即是，词语“中国好声音”的词语属性为影视业务、音乐业务，而该应用业务分类模板中要求的词语属性为应用名称，因此语音控制文本中剩余部分的词语属性不符合该应用业务分类模板中要求的词语属性，不能将该语音控制文本定位到该应用业务分类模板所属的应用业务。

另外，需要说明的是，预置的业务分类模板并不是固定不变的，也即智能电视可以根据历史采集到的语音控制文本定期更新预置的业务分类模板。具体地，智能电视可以统计当前时间之前该智能电视采集到的语音控制文本，并确定各个语音控制文本的出现频率，按照各个语音控制文本的出现频率对该各个语音控制文本进行排序，获取该排序结果中顺序靠前的N个语音控制文本，并对该N个语音控制文本进行分词处理，得到N个分词结果，然后对该N个分词结果中的词语进行标注，得到资源标注结果。对该N个资源标注结果中的具有相同属性的词语进行归类，得到该N个语音控制文本对应的业务分类模板，再对归类得到的N个业务分类模板中相似或相同的模板进行归类处理，得到至少一个业务分类模板。如果该至少一个业务分类模板中存在不属于上述预置的业务分类模板中的业务分类模板，则将该至少一个业务分类模板中不属于上述预置的业务分类模板中的业务分类模板添加至上述预置的业务分类模板，也即智能电视对预置的业务分类模板进行更新。

当然，在实际实现过程中，更新预置的业务分类模板可能还存在其他的实现方式，例如，智能电视可以从自身连接的网络的数据库中获取业务分类模板，并将预置的业务分类模板替换为从网络的数据库中获取的业务分类模板，也即是，从网络的数据库中获取的业务分类模板为更新后的预置的业务分类模板。

例如，N为3，智能电视对历史采集到的语音控制文本进行排序之后，确定该3个语音控制文本分别为“80年代的武侠片”、“我想看70年代的战争片”和“80年代的爱情片”。对该3个语音控制文本分别进行分词处理和资源标注，得到语音控制文本“80年代的武侠片”对应的资源标注结果为“80”：数字、“年代”：一般词、“的”：一般词、“武侠”：影视类型、“片”：一般词，语音控制文本“我想看70年代的战争片”对应的资源标注结果为“我想看”：一般词、“70”：数字、“年代”：一般词、“的”：一般词、“战争”：影视类型、“片”：一般词，语音控制文本“80年代的爱情片”对应的资源标注结果为“80”：数字、“年代”：一般词、“的”：一般词、“爱情”影视类型、“片”：一般词。该3个资源标注结果中，词语“80”和“70”属于数字，词语“武侠”、“战争”和“爱情”属于影视类型，因此，智能电视确定该语音控制文本“80年代的武侠片”的业务分类模板为“(数字)+年代+的+(影视类型)+片”，语音控文本“我想看70年代的战争片”的业务分类模板为“我想看+(数字)+年代+的+(影视类型)+片”，语音控制本“80年代的爱情片”的业务分类模板为“(数字)+年代+的+(影视类型)+片”。由于这3个业务分类模板中，语音控制文本“80年代的武侠片”的业务分类模板和语音控制本“80年代的爱情片”的业务分类模板为相同的业务分类模板，且该2个业务分类模板和语音控文本“我想看70年代的战争片”的业务分类模板为相似的业务分类模板，因此智能电视对这三个业务分类模板进行归一化处理，得到一个业务分类模板为“|我想看+(数字)+年代+|的+(影视类型)+|片”。如果上述预置的业务分类模板中不存在该业务分类模板，则智能电视将该业务分类模板添加至预置的业务分类模板中。其中，“|”代表可选的意思，也即“|”后面的内容可有可无，“()”代表一类数据，该类数据在数据库中代表一个字段，其中的值可以枚举。

需要说明的是，通过上述步骤203从预置的业务分类模板中查找与语音控制文本匹配的业务分类模板之后，当未查找到时，说明没有与语音控制文本相匹配的业务分类模板，可以按照如下步骤204-207基于分词结果和资源标注结果，按照自定义语义依存关系进行句法结构的分析，以确定语音控制文本对应的语音控制业务。

步骤204：当未查找到时，基于资源标注结果中的词语对应的标注，确定语音控制文本对应的候选业务。

需要说明的是，资源标注结果中每个词语都有对应的标注，所有标注中涉及的语音控制业务即为语音控制文本对应的候选业务。

由于需要基于资源标注结果来确定语音控制文本对应的候选业务，而步骤202中确定的资源标注结果可以是直接对分词结果进行资源标注后得到，也可以是对资源归一后的分词结果进行资源标注后得到的第二标注结果，还可以是对资源归一前的分词结果和资源归一后的分词结果分别进行资源标注后得到的第一标注结果和第二标注结果，接下来将针对这三种情况，分别对确定语音控制文本对应的候选业务进行说明。

第一种可能的情况，当资源标注结果是直接对分词结果进行资源标注后得到时，将资源标注结果中的所有词语涉及的语音控制业务确定为语音控制文本对应的候选业务。

例如，语音控制文本为：“刘德华的剧情电影赌神”，资源标注结果为“刘德华”：演员名、歌手名，“的”：一般词，“剧情”：影视子分类，“电影”：影视类型，“赌神”：电影名、歌曲名。所有资源标注涉及两个语音控制业务，分别为：影视业务：演员名、影视子分类、影视类型、电影名，音乐业务：歌手名、歌曲名，因此将影视业务、音乐业务确定为语音控制文本对应的候选业务。

又例如，语音控制文本为：“来个好看的电视剧”，资源标注结果为：“来”：一般词，“个”：一般词，“好看”：一般词，“的”：一般词，“电视剧”：影视类型。所有资源标注涉及一个语音控制业务，为影视业务：影视类型，因此将影视业务确定为语音控制文本对应的候选业务。

第二种可能的情况，当资源标注结果为第二标注结果时，将资源标注结果中的所有词语涉及的语音控制业务确定为语音控制文本对应的候选业务。

例如，资源归一处理后的分词结果为“我”、“想”、“看”、“动漫”、“叮当猫”，对该分词结果中的词语添加资源标注，得到的资源标注结果为“我”：一般词，“想”：一般词，“看”：一般词、影视动作词，“动漫”：影视子分类，“叮当猫”：电影名、歌曲名。所有资源标注涉及2个语音控制业务，为影视业务：影视动作词、影视子分类、电影名，音乐业务：歌曲名。因此将影视业务和音乐业务确定为语音控制文本对应的候选业务。

第三种可能的情况，当资源标注结果为第一标注结果和第二标注结果时，

将第一标注结果和第二标注结果中的所有词语涉及的语音控制业务确定为语音控制文本对应的候选业务。

例如，第一标注结果为“帮”：一般词，“我”：一般词，“打开”：应用动作词，“中国好声音”：影视业务、音乐业务。第二标注结果为“帮”：一般词，“我”：一般词，“观看”：影视动作词，“中国好声音”：影视业务、音乐业务。第一标注结果中所有的标注涉及3个语音控制业务，分别为应用业务、影视业务、音乐业务。第二标注结果中所有的标注涉及2个语音控制业务，分别为影视业务、音乐业务。因此将应用业务、影视业务、音乐业务确定为语音控制文本对应的候选业务。

步骤205：按照自定义语义依存关系，对分词结果进行句法结构的分析，得到分词结果中的核心词以及分词结果中词语之间的依存关系。

其中，自定义语义依存关系是指提前定义两个词语之间的修饰关系并存储在智能电视中，如两个词语之间的自定义语义依存关系可以为定语修饰、向右扩展修饰、宾语、句子的核心等。

需要说明的是，两个词语之间的自定义语义依存关系是针对智能电视业务定义的适合该应用场景下的修饰关系。具体地，可以通过采集大量不同的语音控制业务范围内的语音控制文本，并分析这些语音控制文本中的前后两个词语之间的修饰关系，确定一个统一的规律，依据得到的规律针对智能电视业务定义语义依存关系，即为该自定义语义依存关系。如，通过大量的语音控制文本分析得出当标注为影视子分类的词语用来修饰标注为影视类型的词语时，该两个词语之间的语义依存关系为定语修饰，当“的”用来修饰标注为演员名的词语时，“的”与该词语之间的语义依存关系为向右扩展修饰。

当然，在实际实现的过程中，获取自定义语义依存关系可能还存在其他实现方式，例如，智能电视可以直接从自身连接的网络的数据库中获取自定义语义依存关系。

在本发明实施例中，基于自定义语义依存关系，对分词结果进行句法结构的分析，可以得到分词结果中的核心词以及分词结果中词语之间的依存关系，该依存关系是针对智能电视业务定义的，可以与智能电视业务涉及的场景深度结合，保证了智能电视业务的分类准确性。

例如，语音控制文本为：“刘德华的剧情电影赌神”，分词结果为：“刘德华”、“的”、“剧情”、“电影”、“赌神”，按照自定义语义依存关系分析句法结构，如图2B所示，分析得到核心词为：“赌神”，词语之间的依存关系为“刘德华”与“的”是向右扩展修饰，“刘德华”与“电影”是定语修饰，“的”与其他词语之间没有修饰关系，“剧情”与“电影”是定语修饰，“电影”与“赌神”是定语修饰。

又例如，语音控制文本为：“来个好看的电视剧”，分词结果为：“来”、“个”、“好看”、“的”、“电视剧”，按照自定义语义依存关系分析句法结构，如图2C所示，分析得到核心词为：“来”，词语之间的依存关系为“电视剧”是“来”的宾语，“来”与其他词语之间没有修饰关系，“个”与“电视剧”是定语修饰，“好看”与“电视剧”是定语修饰，“好看”与“的”是向右扩展修饰。

步骤206：基于核心词和分词结果中词语之间的依存关系，按照预设的依存分值确定候选业务对应的分值。

需要说明的是，每种语音控制业务中的不同词语之间的修饰关系有预设的依存分值。如，演员名修饰影视名预设的依存分值为分值1，影视子分类修饰影视类型预设的依存分值为分值2，歌手名修饰歌曲名预设的依存分值为分值3，影视类型修饰影视名称预设的依存分值为分值4，演员名修饰影视类型预设的依存分值为分值5，影视名称预设的依存分值为分值6，歌手名称预设的依存分值为分值7，音乐名称预设的依存分值为分值8。

其中，按照预设的依存分值确定候选业务对应的分值的实现过程可以为：从核心词开始，从分词结果中词语之间的依存关系中选择属于候选业务的依存关系；从预设的依存分值中获取与选择的依存关系对应的依存分值；将同一条修饰链上的依存分值相乘，并将不同修饰链及并列修饰链上的依存分值相加，得到候选业务对应的分值。

需要说明的是，同一条修饰链是指第一个词语修饰第二个词语，而第二个词语又修饰第三个词语，不同修饰链是指第一个词语修饰第二个词语，而第三个词语修饰第四个词语，并列修饰链是指第一个词语修饰第二个词语，而同时第一个词语又修饰第三个词语。

例如，如图2B所示，语音控制文本为“刘德华的剧情电影赌神”，分词结果为：“刘德华”、“的”、“剧情”、“电影”、“赌神”，按照自定义语义依存关系分析句法结构分析得到核心词为：“赌神”，词语之间的依存关系为“刘德华”与“的”是向右扩展修饰，“刘德华”与“电影”是定语修饰，“的”与其他词语之间没有修饰关系，“剧情”与“电影”是定语修饰，“电影”与“赌神”是定语修饰。其中，“剧情”与“电影”和“电影”与“赌神”是同一条修饰链，“剧情”与“电影”和“刘德华”与“电影”是并列修饰链，“刘德华”与“的”和“剧情”与“电影”是不同修饰链。

又例如，语音控制文本中的核心词为“赌神”，有两个候选业务分别为：影视业务和音乐业务。如图2B所示，基于分词结果和资源标注结果，可以得到对于影视业务：“赌神”的修饰词为“电影”，属于影视类型修饰影视名称，获取到的预设的依存分值为分值4，“电影”有两个修饰词“剧情”和“刘德华”，“剧情”修饰“电影”属于影视子分类修饰影视类型，“刘德华”修饰“电影”属于演员名修饰影视类型，获取到的预设的依存分值分别为分值2和分值5。按照将同一条修饰链上的依存分值相乘，并将不同修饰链及并列修饰链上的依存分值相加的计算规则，得到影视业务对应的分值为：第一分值＝α×分值4×(β×分值2+γ×分值5)+分值6×ω，其中α、β、γ、ω分别为此修饰关系在该业务中的权重值，默认为1。对于音乐业务：“赌神”为核心词，没有属于音乐业务的依存关系，也即是，“赌神”相关的修饰词均不属于音乐业务，从核心词开始沿着修饰关系查找属于音乐业务的依存关系，直到所有的词都被查找过，依次经过了“电影”、“剧情”、刘德华”，只有“刘德华”作为音乐业务的歌手名单独出现，没有相关的修饰词。因此音乐业务对应的分值为：第二分值＝ε×分值7+θ×分值8，其中，ε、θ为权重参数，默认为1。

步骤207：基于候选业务对应的分值确定语音控制文本对应的语音控制业务。

其中，基于候选业务对应的分值确定语音控制文本对应的语音控制业务的实现过程可以为：从语音控制文本对应的候选业务中选择对应的分值大于预设分值的候选业务；当选择出一个候选业务时，将选择的候选业务确定为语音控制文本对应的语音控制业务；当选择出至少两个候选业务时，将至少两个候选业务中优先级最高的候选业务确定为语音控制文本对应的语音控制业务。

需要说明的是，预设分值是指可以跳转到语音控制业务的分值，可以预先进行设置，如预设分值可以是0.7，0.8，0.9等。

还需要说明的是，假设选择出两个候选业务，分别为候选业务1和候选业务2，如果候选业务1对应的分值大于候选业务2对应的分值，且候选业务2对应的分值小于预设分值时，将候选业务1确定为语音控制文本对应的语音控制业务。如果候选业务1对应的分值大于候选业务2对应的分值，且候选业务2对应的分值大于预设分值时，将候选业务1确定为语音控制文本对应的语音控制业务，并且将候选业务2确定为语音控制文本对应的备选的语音控制业务。如果候选业务1对应的分值等于候选业务2对应的分值，且该分值都大于预设分值，则将候选业务1与候选业务2中优先级最高的候选业务确定为语音控制文本对应的语音控制业务。

例如，预设分值为0.7，有2个候选业务，分别为影视业务、音乐业务，其中，影视业务对应的分值为0.9大于预设分值0.7，音乐业务对应的分值为0.6小于预设分值0.7，因此选择影视业务为语音控制文本对应的语音控制业务。

又例如，预设分值为0.7，有2个候选业务，分别为影视业务、音乐业务，其中，影视业务对应的分值为0.9大于预设分值0.7，音乐业务对应的分值为0.8大于预设分值0.7，由于影视业务对应的分值0.9大于音乐业务对应的分值0.8且均大于预设分值为0.7，因此将影视业务和音乐业务均选择为候选业务，选择分值高的影视业务为语音控制文本对应的语音控制业务，分值低的音乐业务为语音控制文本对应的备选的语音控制业务。

再例如，预设分值为0.7，有2个候选业务，分别为影视业务、音乐业务，其中，影视业务对应的分值为0.9大于预设分值0.7，音乐业务对应的分值为0.9大于预设分值0.7，由于影视业务对应的分值等于音乐业务对应的分值且均大于预设分值为0.7，因此将影视业务和音乐业务均选择为候选业务，假设影视业务的优先级高于音乐业务，则选择优先级高的影视业务为语音控制文本对应的语音控制业务。

需要说明的是，在实际实现过程中，当基于候选业务对应的分值无法确定语音控制文本对应的语音控制业务时，说明语音控制文本中有可能存在错误，因此在执行步骤204后，如果没有确定语音控制文本对应的语音控制业务，可以进一步对语音控制文本进行纠正。

具体地，可以从预置的关键词中查找与语音控制文本中的关键词相关的关键词，当查找到相关的关键词时，将语音控制文本中的关键词替换为该相关的关键词，然后基于替换后的关键词涉及的语音控制业务，选择至少一个候选业务。当选择出一个候选业务时，直接将语音控制文本定位到该候选业务。当选择出至少两个候选业务时，将该至少两个候选业务提供给用户，由用户确定一个候选业务，将语音控制文本定位到该候选业务。

例如，语音控制文本为：“帮我打开中国星声音”，对语音控制文本进行分析可以得到关键词为“中国星声音”，从预置的关键词中查找到与语音控制文本中的关键词相关的关键词为“中国好声音”，将语音控制文本中的关键词“中国星声音”替换为“中国好声音”，得到纠正后的语音控制文本为：“帮我打开中国好声音”，资源标注结果为“帮”：一般词，“我”：一般词，“打开”：应用动作词，“中国好声音”：影视业务、音乐业务，由于资源标注结果中的关键词“中国好声音”涉及影视业务和音乐业务，因此将两个候选业务影视业务和音乐业务提供给用户，由用户选择一个候选业务，假设用户选择影视业务，则将语音控制文本定位到影视业务。

需要说明的是，在实际实现的过程中，对语音控制文本进行纠正可能还存在其他实现方式，本发明对此不做限制。

通过上述图1和图2A所示的实施例对本发明实施例提供的方法进行详细解释说明之后，接下来对本发明实施例提供的装置进行介绍。

图3A是本发明实施例提供的一种语音控制业务的定位装置的结构示意图。参见图3A，该装置包括第一处理模块301、第二处理模块302、查找模块303和确定模块304。

第一处理模块301，用于对语音控制文本进行分词处理，得到分词结果。

第二处理模块302，用于对分词结果进行资源标注，得到资源标注结果。

查找模块303，用于基于分词结果和资源标注结果，从预置的业务分类模板中查找与语音控制文本匹配的业务分类模板。

确定模块304，用于当未查找到时，基于分词结果和资源标注结果，按照自定义语义依存关系进行句法结构的分析，以确定语音控制文本对应的语音控制业务。

可选地，参见图3B，确定模块304，包括：

第一确定子模块3041，用于基于资源标注结果中的词语对应的标注，确定语音控制文本对应的候选业务。

分析子模块3042，用于按照自定义语义依存关系，对分词结果进行句法结构的分析，得到分词结果中的核心词以及分词结果中词语之间的依存关系。

第二确定子模块3043，用于基于核心词和分词结果中词语之间的依存关系，按照预设的依存分值确定候选业务对应的分值。

第三确定子模块3044，用于基于候选业务对应的分值确定语音控制文本对应的语音控制业务。

可选地，第二确定子模块3043，具体用于：

从核心词开始，从分词结果中词语之间的依存关系中选择属于候选业务的依存关系；

从预设的依存分值中获取与选择的依存关系对应的依存分值；

将同一条修饰链上的依存分值相乘，并将不同修饰链及并列修饰链上的依存分值相加，得到候选业务对应的分值。

可选地，第三确定子模块3044，具体用于：

从语音控制文本对应的候选业务中选择对应的分值大于预设分值的候选业务；

当选择出一个候选业务时，将选择的候选业务确定为语音控制文本对应的语音控制业务；

当选择出至少两个候选业务时，将至少两个候选业务中优先级最高的候选业务确定为语音控制文本对应的语音控制业务。

可选地，参见3C，第二处理模块302，包括：

获取子模块3021，用于从预先存储的资源库中查找分词结果中的词语对应的业务代表词。

替换子模块3022，用于当查找到时，将分词结果中的词语替换为对应的业务代表词，以实现分词结果的资源归一。

确定子模块3023，用于基于预先存储的标注库、资源归一前的分词结果和资源归一后的分词结果，确定所述资源标注结果。

需要说明的是：上述实施例提供的语音控制业务的定位装置在定位语音控制业务时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音控制业务的定位装置与语音控制业务的定位方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本发明实施例提供的一种用于语音控制业务的定位装置400的框图。例如，装置400可以是智能电视，移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图4，装置400可以包括以下一个或多个组件：处理组件402，存储器404，电源组件406，多媒体组件408，音频组件410，输入/输出(I/O)的接口412，传感器组件414，以及通信组件416。

处理组件402通常控制装置400的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件402可以包括一个或多个处理器420来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件402可以包括一个或多个模块，便于处理组件402和其他组件之间的交互。例如，处理组件402可以包括多媒体模块，以方便多媒体组件408和处理组件402之间的交互。

存储器404被配置为存储各种类型的数据以支持在装置400的操作。这些数据的示例包括用于在装置400上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器404可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件406为装置400的各种组件提供电源。电源组件406可以包括电源管理系统，一个或多个电源，及其他与为装置400生成、管理和分配电源相关联的组件。

多媒体组件408包括在所述装置400和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件408包括一个前置摄像头和/或后置摄像头。当装置400处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件410被配置为输出和/或输入音频信号。例如，音频组件410包括一个麦克风(MIC)，当装置400处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器404或经由通信组件416发送。在一些实施例中，音频组件410还包括一个扬声器，用于输出音频信号。

I/O接口412为处理组件402和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件414包括一个或多个传感器，用于为装置400提供各个方面的状态评估。例如，传感器组件414可以检测到装置400的打开/关闭状态，组件的相对定位，例如所述组件为装置400的显示器和小键盘，传感器组件414还可以检测装置400或装置400一个组件的位置改变，用户与装置400接触的存在或不存在，装置400方位或加速/减速和装置400的温度变化。传感器组件414可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件414还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件414还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件416被配置为便于装置400和其他设备之间有线或无线方式的通信。装置400可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信组件416经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件416还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，装置400可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述图1或图2A所示实施例提供的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如：同轴电缆、光纤、数据用户线(Digital Subscriber Line，DSL))或无线(例如：红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如：软盘、硬盘、磁带)、光介质(例如：数字通用光盘(Digital Versatile Disc，DVD))、或者半导体介质(例如：固态硬盘(Solid State Disk，SSD))等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音控制业务的定位方法，其特征在于，所述方法包括：

对语音控制文本进行分词处理，得到分词结果；

对所述分词结果进行资源标注，得到资源标注结果；

2.如权利要求1所述的方法，其特征在于，所述基于所述分词结果和所述资源标注结果，按照自定义语义依存关系进行句法结构的分析，以确定所述语音控制文本对应的语音控制业务，包括：

3.如权利要求2所述的方法，其特征在于，所述基于所述核心词和所述分词结果中词语之间的依存关系，按照预设的依存分值确定所述候选业务对应的分值，包括：

4.如权利要求2或3所述的方法，其特征在于，所述基于所述候选业务对应的分值确定所述语音控制文本对应的语音控制业务，包括：

5.如权利要求1所述的方法，其特征在于，所述对所述分词结果进行资源标注，得到资源标注结果，包括：

6.一种语音控制业务的定位装置，其特征在于，所述装置包括：

7.如权利要求6所述的装置，其特征在于，所述确定模块，包括：

8.如权利要求7所述的装置，其特征在于，所述第二确定子模块，具体用于：

9.如权利要求7或8所述的装置，其特征在于，所述第三确定子模块，具体用于：

10.如权利要求6所述的装置，其特征在于，所述第二处理模块，包括：

确定子模块，用于基于预先存储的标注库、资源归一前的分词结果和资源归一后的分词结果，确定所述资源标注结果。