CN110569376B

CN110569376B - 一种信息处理方法及装置、电子设备、存储介质

Info

Publication number: CN110569376B
Application number: CN201910884595.4A
Authority: CN
Inventors: 王涛; 翟周伟
Original assignee: Baidu Online Network Technology Beijing Co Ltd; Shanghai Xiaodu Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2022-05-31
Anticipated expiration: 2039-09-18
Also published as: CN110569376A

Abstract

本申请公开了一种信息处理方法及装置、电子设备、存储介质，涉及语义分析领域。具体实现方案为：获取到文本数据，所述文本数据表征有用于控制输出设备的控制信息；获取基于所述文本数据中所述控制信息所得到输出结果；提取所述文本数据的语义特征；将所述语义特征输入预设模型，得到所述语义特征在预设语义维度上的参数值，所述预设模型至少设置有表征预设语义维度的参数；基于所述语义特征在预设语义维度上的参数值，确定对所述输出结果的输出策略。这样，利用输出策略来规范输出结果，以确保输出结果合规。

Description

一种信息处理方法及装置、电子设备、存储介质

技术领域

本申请涉及一种数据处理领域，尤其涉及一种语义分析领域。

背景技术

随着人工智能技术的发展和人工智能理念的普及，越来越多的人工智能产品开始被大众所接受，如智能音箱产品，但随着智能音箱的普及，越来越多的问题暴露出来，比如，输出结果不合规，降低了用户体验。

发明内容

本申请实施例提供一种信息处理方法及装置、电子设备、存储介质，利用输出策略来规范输出结果，以确保输出结果合规。

第一方面，本申请实施例提供了一种信息处理方法，包括：

获取到文本数据，文本数据表征有用于控制输出设备的控制信息；

获取基于文本数据中控制信息所得到输出结果；

提取文本数据的语义特征；

将语义特征输入预设模型，得到语义特征在预设语义维度上的参数值，预设模型至少设置有表征预设语义维度的参数；

基于语义特征在预设语义维度上的参数值，确定对输出结果的输出策略。

这里，利用预设模型中设置的参数，如表征预设语义维度的参数，来确定文本数据的语义特征在预设语义维度的参数值，如此，利用参数值来选取输出结果的输出策略，以便利用输出策略来规范输出结果，进而确保输出结果合规，为提升用户体验奠定了基础。

而且，由于本申请实施例是基于参数值来确定输出结果的输出策略，而且该参数值是基于文本数据的语义特征确定出的，而非文本数据与词典的匹配结果，因此，即使利用千差万别的文本数据来表征同一语义，也能够基于该文本数据的语义特征在预设语义维度上的参数值，来判断该文本数据是否合规，进而为输出结果选取匹配的输出策略，如此，能够实现泛华应用，有效提升了输出结果的合规率，进而为提升用户体验奠定了基础。

在一种实施方式中，基于语义特征在预设语义维度上的参数值，确定对输出结果的输出策略，包括：

基于语义特征在预设语义维度上参数值的数值大小，确定参数值所处等级；

选取出与参数值所处等级相匹配的输出策略。

这里，该实施方式中对参数值大小进行分级，如可划分为不同等级，如此，对处于不同等级的参数值选取不同的输出策略，实现了分级输出策略，丰富了应用场景，提升可用户体验；且该方式简单易实现，为工程化应用奠定了基础。

将语义特征在预设语义维度上的参数值与预设阈值进行比较，确定大于等于预设阈值后，基于语义特征在预设语义维度上参数值的数值大小，确定参数值所处等级；

选取出与参数值所处等级相匹配的输出策略。

这里，该实施方式中设置最大阈值，即预设阈值，如此，只有当大于或等于该预设阈值后，才认定文本数据存在不合规的情况，进而再利用分级输出策略对输出结果进行分级处理，这样，提供完整了解决方案，且简单易实现，为工程化应用奠定了基础。

在一种实施方式中，确定小于预设阈值后，将输出结果输出至输出设备。

这里，该实施方式中，认为大于或等于预设阈值的文本数据不合规，而小于预设阈值的文本数据合规，可直接将输出结果输出至输出设备，如此，提供完整了解决方案，且简单易实现，为工程化应用奠定了基础。

在一种实施方式中，方法还包括：

基于输出策略将输出结果输出至输出设备；或者，

基于输出策略对输出结果所对应的多媒体数据进行处理，得到符合预设规则的多媒体数据，将输出结果输出至输出设备，使输出设备播放符合预设规则的多媒体数据；或者，

基于输出策略拦截输出结果，并输出预设多媒体数据。

这里，设置多种输出策略，来对应不同的输出结果，丰富了应用场景，在确保输出结果合规的前提下，为提升用户体验奠定了基础。

在一种实施方式中，将语义特征输入预设模型，包括：

将语义特征与预设语义模板中的关键词进行匹配；

确定不匹配后，将语义特征输入预设模型。

这里，在进行预设模型处理前，可以先对文本数据的语义特征进行初步筛选，如利用预设模板来进行初步筛选，通过与预设语义模板中的关键词进行匹配的方式来进行初步筛选，并筛选出可能不合规的文本数据，如不匹配时，认为不能确定该语义特征对应的文本数据是否存在不合规的情况，此时，再进行后续预设模型的处理流程，如此，一方面提高了处理效率，另一方面也避免了无效处理流程占用资源，为满足工程化要求，实现工程化奠定了基础。

在一种实施方式中，将语义特征与预设语义模板中的关键词进行匹配，确定不匹配后，将语义特征输入预设模型，包括：

将语义特征分别与预设语义模板所包含正向规则和负向规则中的关键词进行匹配，其中，正向规则设置有与预设语义维度的语义相同的关键词；负向规则设置有与预设语义维度的语义相反的关键词；

确定语义特征与正向规则中的关键词不匹配，与负向规则中的关键词不匹配后，将语义特征输入预设模型。

这里，该实施方式中，在预设语义模板中设置两类规则，一类正向规则，包含与预设语义维度语义相同的关键词，另一类为负向规则，包含与预设语义维度语义相反的关键词，如此，利用两类规则来快速筛选出明显不合规的文本数据(如与正向规则中的关键词匹配则认为明显不合规)，以及明显合规的文本数据(如与负向规则中的关键词匹配则认为明显合规)，进而再将与上述两个匹配方式均不匹配(也即利用该两类规则无法明确出文本数据是否明显不合规，或是否明显合规)的语义特征输入预设模型，这样，利用正向规则和负向规则的设置，一方面提高了初步筛选的效率，为整个处理方案的效率提升奠定了基础，另一方面也避免了无效处理流程占用资源，为满足工程化要求，实现工程化奠定了基础。

在一种实施方式中，将语义特征输入预设模型，包括：

确定输出结果为播放类指令后，将语义特征输入预设模型。

这里，由于实际使用中，输出结果可以包含有多种类型，比如，输出结果可以是基于用户意图(文本数据表征的控制信息即可表征用户意图) 而确定出的针对智能音响的播放类指令，以控制智能音响进行多媒体播放，也可以为家居控制类指令，以利用智能音响来对智能家居，比如电灯等进行控制；而又由于控制类指令无需进行多媒体播放，所以，不存在播放内容不合规的情况，因此，基于实际场景，可以仅对播放类指令进行后续流程，进而避免播放类指令对应的输出结果中包含有不合规的播放内容，进一步为提高处理效率奠定了基础，使得本申请实施例方法更加智能。

在一种实施方式中，方法还包括：

获取输出设备的工作模式；

基于工作模式，以及语义特征在预设语义维度上的参数值，确定对输出结果的输出策略。

这里，实际应用中，输出设备可以有多种工作模式，比如，输出设备为智能音响，此时，输出设备可以有儿童模式和成人模式，显然，两种模式下，对输出结果的合规性要求不同，基于此，为满足个性化，以及多样化需求，提升用户体验，在确定输出结果的输出策略时，可以同时将工作模式作为一个参考因素，如此，来满足不同用户群体的不同需求，进一步为提升用户体验奠定了基础。

在一种实施方式中，获取基于文本数据中控制信息所得到输出结果，包括：

获取基于语义特征在预设语义维度上的参数值对控制信息进行处理后得到的输出结果。

这里，实际应用中，输出结果的确定流程可以与本申请实施例流程中的处理结果不相关，即输出结果仅是基于文本数据中的控制信息而得到的；当然，也可以与本申请实施例流程中的处理结果相关，即输出结果为基于本申请实施例方法确定出的语义特征在预设语义维度上的参数值进行处理后的结果，也就是说，可以在选择输出策略之前，直接利用语义特征在预设语义维度上的参数值来确定是否需要对控制信息进行合规处理，进而再基于合规的控制信息生成合规的输出结果，比如，语义特征在预设语义维度上的参数值大于等于预设阈值，则认为文本数据不合规，可直接对控制信息进行合规化处理，进而使得本申请实施例能够获取到合规的输出结果，如此，提供了多样化的解决方案，扩展了本申请实施例方案。

确定输出结果为基于语义特征在预设语义维度上的参数值对控制信息进行处理后所得到的结果后，将输出结果输出至输出设备。

这里，基于上述分析，当输出结果直接为基于语义特征在预设语义维度上的参数值处理后的结果时，可认为该处理后的输出结果合规，可直接将输出结果输出至输出设备，以控制输出设备执行输出结果的指令。如此，提出了多样的解决方案，为工程化提供了多种可选模式。

在一种实施方式中，获取文本数据，包括：

获取音频数据，音频数据表征有用于控制输出设备的控制信息；

对音频数进行语义解析，得到语义文本，将语义文本作为文本数据。

这里，本申请实施例的文本数据可以是音频数据解析后得到的，如此，使本申请实施例可以具体应用到智能音响的输出结果合规化的方案中，丰富了应用场景，同时也拓展了应用场景，提高了本申请实施例的实用价值。

在一种实施方式中，提取文本数据的语义特征，包括：

对文本数据进行分词处理，得到至少两个分词；

提取分词的分词语义特征，以及分词之间的关系特征；

至少将分词语义特征及分词之间的关系特征作为文本数据的语义特征。

这里，利用多类特征来表征语义特征，如此，来提高语义特征的精确度，为后续输出结果的有效拦截奠定了基础，进而也为提升用户体验奠定了基础。

第二方面，本申请实施例提供了一种信息处理装置，包括：

获取单元，用于获取到文本数据，文本数据表征有用于控制输出设备的控制信息；获取基于文本数据中控制信息所得到输出结果；

语义提取单元，用于提取文本数据的语义特征；

参数处理单元，用于将语义特征输入预设模型，得到语义特征在预设语义维度上的参数值，预设模型至少设置有表征预设语义维度的参数；

策略处理单元，用于基于语义特征在预设语义维度上的参数值，确定对输出结果的输出策略。

在一种实施方式中，策略处理单元，还用于：

基于语义特征在预设语义维度上参数值的数值大小，确定参数值所处等级；选取出与参数值所处等级相匹配的输出策略。

在一种实施方式中，策略处理单元，还用于：

选取出与参数值所处等级相匹配的输出策略。

在一种实施方式中，策略处理单元，还用于：

确定小于预设阈值后，将输出结果输出至输出设备。

在一种实施方式中，策略处理单元，还用于：

基于输出策略将输出结果输出至输出设备；或者，

基于输出策略拦截输出结果，并输出预设多媒体数据。

在一种实施方式中，参数处理单元，还用于：

将语义特征与预设语义模板中的关键词进行匹配；确定不匹配后，将语义特征输入预设模型。

在一种实施方式中，参数处理单元，还用于：

确定输出结果为播放类指令后，将语义特征输入预设模型。

在一种实施方式中，获取单元，还用于获取输出设备的工作模式；

策略处理单元，还用于基于工作模式，以及语义特征在预设语义维度上的参数值，确定对输出结果的输出策略。

在一种实施方式中，获取单元，还用于获取基于语义特征在预设语义维度上的参数值对控制信息进行处理后得到的输出结果。

在一种实施方式中，策略处理单元，用于确定输出结果为基于语义特征在预设语义维度上的参数值对控制信息进行处理后所得到的结果后，将输出结果输出至输出设备。

在一种实施方式中，获取单元，还用于获取音频数据，音频数据表征有用于控制输出设备的控制信息；

语义提取单元，还用于对音频数进行语义解析，得到语义文本，将语义文本作为文本数据。

在一种实施方式中，语义提取单元，还用于对文本数据进行分词处理，得到至少两个分词；

提取分词的分词语义特征，以及分词之间的关系特征；

第三方面，本申请实施例提供了一种电子设备，包括：

至少一个处理器：以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行以上方法。

第四方面，本申请实施例提供了存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行以上方法。

上述申请中的一个实施例具有如下优点或有益效果：

利用预设模型中设置的参数，如表征预设语义维度的参数，来确定文本数据的语义特征在预设语义维度的参数值，如此，利用参数值来选取输出结果的输出策略，以便利用输出策略来规范输出结果，进而确保输出结果合规，为提升用户体验奠定了基础。

上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是根据本申请实施例的方法流程示意图；

图2是根据本申请实施例一具体应用中逻辑单元结构示意图；

图3是根据本申请实施例一具体应用中方法流程示意图；

图4是用来实现本申请实施例的信息处理方法的电子设备的框图；

图5是可以实现本申请实施例的信息处理场景图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

为了确保输出结果的合规性，比如确保输出结果不具有黄反意图，通常采用启发式规则来进行黄反判断，即：通过人工的方式富集黄反意图的词典，当用户语音输入的query命中该词典时，则识别为该query具有黄反意图，进行拦截处理。该方法虽然精度高，对于包含强特征词的query 可以准确拦截，但是，缺点也非常明显，如泛化不足，用户的表述千差万别，稍增加些口语词，变换些表述形式就导致无法命中，无法拦截，因此，无法有效确保输出结果合规，降低了用户体验，尤其是当输出结果包含有儿童不宜，成人不宜的色情类、暴力类或者恐怖类时，会严重影响用户体验。

基于此，本申请实施例提供一种信息处理方法，以有效确保输出结果的合规性，提升用户体验。这里，实际应用中，本申请实施例方法应用于信息处理装置，在一具体示例中，该装置可以具体集成到与智能音响进行交互的服务器或集群上(为方便起见，以下仅以服务器为例进行说明)，换言之，本申请实施例方法可以具体应用于与智能音响进行交互的服务器上；当然，信息处理装置还可以具体集成到与智能音响进行交互的服务器之外的其他服务器上，此时，只需该信息处理装置所对应的服务器，能够和与智能音响对应的服务器进行信息交互以实现本申请实施例方法即可。

本申请实施例的输出设备可以具体为智能音响，当然，输出设备还可以具体为其他具有播放和/或控制功能的任何电子设备。

具体地，如图1所示，信息处理方法包括：

步骤S101：获取到文本数据，文本数据表征有用于控制输出设备的控制信息。

这里，本申请实施例的文本数据可以具体为获取到的直接文本数据，如用户直接输入的文本数据；也可以为转换后的文本数据，如用户通过智能音响输入音频数据，服务器获取音频数据并对音频数据进行解析后得到文本数据，而本申请实施例方法获取的文本数据即为服务器对音频数据解析后得到的文本数据。当然，实际应用中，文本数据还可以有其他来源，本申请实施例对文本数据的具体来源不作限定。

在一具体示例中，文本数据是对音频数据处理后得到的，此时，步骤 S101之前，该方法还包括：获取音频数据，音频数据表征有用于控制输出设备的控制信息；对音频数进行语义解析，得到语义文本，将语义文本作为文本数据。比如，在一具体场景中，用户向智能音响输入音频数据，服务器获取到音频数据后，对该对音频数进行语义解析，得到语义文本，该语义文本中表征有用户用于控制输出设备的控制信息，此时，本申请实施例获取到的文本数据即为该语义文本。

步骤S102：获取基于文本数据中控制信息所得到输出结果。

这里，实际应用中，输出结果中包含有对输出设备进行控制的指令，比如，利用输出结果即可控制输出设备执行播放指令，或控制指令等。

这里，值得注意的是，步骤S102的执行顺序并非限制于此，实际应用中，只需在步骤S104之前获取到输出结果即可，换言之，只需在基于输出结果选取输出策略之前，获取到输出结果即可。

在一具体示例中，输出结果为bot服务器确定出的，比如，用户向智能音响输入音频数据，bot服务器获取到音频数据，并基于音频数据所表征的用户对智能音响的控制信息而确定出输出结果，此时，本申请实施例可直接获取bot服务器确定出的输出结果。

这里，实际应用中，bot服务器可以与本申请实施例信息处理装置所集成的服务器为同一服务器，此时，bot结果的处理流程和本申请实施例流程只需在同一服务器的不同进程中执行即可，或者，两者为不同的服务器，但两者可进行交互完成本申请实施例方法。当然，本申请实施例对此不作限制。

这里，实际应用中，输出结果的确定流程可以与本申请实施例流程中的处理结果不相关，即输出结果仅是基于文本数据中的控制信息而得到的；当然，也可以与本申请实施例流程中的处理结果相关，即输出结果为基于本申请实施例方法确定出的语义特征在预设语义维度上的参数值进行处理后的结果，此时，步骤S102可以为：获取基于语义特征在预设语义维度上的参数值对控制信息进行处理后得到的输出结果。

也就是说，可以在选择输出策略之前，直接利用语义特征在预设语义维度上的参数值来确定控制信息是否合规，进而再确保控制信息合规后，基于合规的控制信息得到输出结果，此时，得到的输出结果即为合规的输出结果；具体地，bot服务器可执行下述步骤：

获取到确定出的语义特征在预设语义维度上的参数值大于等于预设阈值，即认为文本数据不合规；对控制信息进行处理，以使控制信息所对应的多媒体数据满足预设规则；基于满足预设规则的多媒体数据生成合规的输出结果。

此时，本申请实施例获取到的输出结果即为合规的输出结果，可直接将输出结果输出至输出设备。具体步骤为：确定输出结果为基于语义特征在预设语义维度上的参数值对控制信息进行处理后所得到的结果后，将输出结果输出至输出设备。

这里，需要说明的是，对输出结果的处理过程可以在bot服务器中执行，当然，也可以在本申请实施例的信息处理装置中执行，本申请对此不作限制；当输出结果的生成过程和/或处理过程在本申请实施例的信息处理装置中执行时，执行步骤可参见bot服务器中的执行步骤，这里不再赘述。

步骤S103：提取文本数据的语义特征。

在一具体示例中，可以采用如下方式提取语义特征，具体步骤包括：对文本数据进行分词处理，得到至少两个分词；提取分词的分词语义特征，以及分词之间的关系特征；至少将分词语义特征及分词之间的关系特征作为文本数据的语义特征。如此，利用多类特征来表征语义特征，提高了语义特征的精确度，为后续输出结果的有效拦截奠定了基础，进而也为提升用户体验奠定了基础。

步骤S104：将语义特征输入预设模型，得到语义特征在预设语义维度上的参数值，预设模型至少设置有表征预设语义维度的参数。

在一具体示例中，在将语义特征输入预设模型前，可以先对文本数据的语义特征进行初步筛选，初筛步骤包括：

这样，通过与预设语义模板中的关键词进行匹配的方式来进行初步筛选，并筛选出可能不合规的文本数据，如不匹配时，认为不能确定语义特征对应的文本数据是否存在不合规的情况，此时，进入后续预设模型的处理流程，如此，一方面提高了处理效率，另一方面也避免了无效处理流程占用资源，为满足工程化要求，实现工程化奠定了基础。

在另一具体示例中，在预设语义模板中设置两类规则，一类正向规则，包含与预设语义维度语义相同的关键词，另一类为负向规则，包含与预设语义维度语义相反的关键词，如此，利用两类规则来快速筛选出明显不合规的文本数据(如与正向规则中的关键词匹配则认为明显不合规)，以及明显合规的文本数据(如与负向规则中的关键词匹配则认为明显合规)，进而再将与上述两个匹配方式均不匹配(也即利用该两类规则无法明确出文本数据是否明显不合规，或是否明显合规)的语义特征输入预设模型，这样，利用正向规则和负向规则的设置，一方面提高了初步筛选的效率，为整个处理方案的效率提升奠定了基础，另一方面也避免了无效处理流程占用资源，为满足工程化要求，实现工程化奠定了基础。

具体步骤包括：将语义特征分别与预设语义模板所包含正向规则和负向规则中的关键词进行匹配，其中，正向规则设置有与预设语义维度的语义相同的关键词；负向规则设置有与预设语义维度的语义相反的关键词；确定语义特征与正向规则中的关键词不匹配，与负向规则中的关键词不匹配后，将语义特征输入预设模型。

这里，由于实际使用中，输出结果可以包含有多种类型，比如，输出结果可以是基于用户意图(文本数据表征的控制信息即可表征用户意图) 而确定出的针对智能音响的播放类指令，以控制智能音响进行多媒体播放，也可以为家居控制类指令，以利用智能音响来对智能家居，比如电灯等进行控制；而又由于控制类指令无需进行多媒体播放，所以，不存在播放内容不合规的情况，因此，基于实际场景，可以仅对播放类指令进行后续流程，进而避免播放类指令对应的输出结果中包含有不合规的播放内容，具体步骤包括：确定输出结果为播放类指令后，将语义特征输入预设模型。

步骤S105：基于语义特征在预设语义维度上的参数值，确定对输出结果的输出策略。

在一具体示例中，输出设备可以有多种工作模式，比如，输出设备为智能音响，此时，输出设备可以有儿童模式和成人模式，显然，两种模式下，对输出结果的合规性要求不同，基于此，为满足个性化，以及多样化需求，提升用户体验，在确定输出结果的输出策略时，可以同时将工作模式作为一个参考因素。具体步骤包括：获取输出设备的工作模式，进而步骤S105具体包括：基于工作模式，以及语义特征在预设语义维度上的参数值，确定对输出结果的输出策略。

本申请实施例中，为对应不同的实际场景，输出策略可以具体包括如下几种：

第一：直接将输出结果输出至输出设备；该策略中，认为输出结果无需处理，比如，输出结果为指令控制类，此时，输出结果可直接输出；或者，认为输出结果为合规结果，此时，可以直接将输出结果输出至输出设备，以控制输出设备执行输出结果中的指令。

举例来说，得到的语义特征在预设语义维度上的参数值小于预设阈值，此时该输出结果合规，可直接将输出结果输出至输出设备。或者，得到的输出结果是基于参数值对控制信息进行处理后的合规结果，此时，可直接将输出结果输出至输出设备。

或者，第二，对输出结果所对应的多媒体数据进行处理，得到符合预设规则的多媒体数据，将输出结果输出至输出设备，使输出设备播放符合预设规则的多媒体数据；该策略中，认为输出结果不合规，比如得到的语义特征在预设语义维度上的参数值大于等于预设阈值，此时，对输出结果所对应的多媒体数据进行合规处理，以得到符合预设规则的多媒体数据，并基于符合预设规则的多媒体数据更新输出结果，将更新后的输出结果输出至输出设备，以使输出设备基于输出结果的指令播放符合预设规则的多媒体数据。这里，多媒体数据可以具体为以下数据类型中的至少一种：文本，图片，动图，音频。

或者，第三，拦截输出结果，并输出预设多媒体数据，比如，拦截输出结果后，将预设多媒体数据输出至输出设备，以使输出设备播放预设多媒体数据，以提示用户。该策略中，认为输出结果不合规，直接拦截该输出结果，并输出预设多媒体数据，该输出的预设多媒体数据可以为具体指定的多媒体数据，比如为指定的文字或音频提示等。换言之，该输出结果由于不合规而直接被忽略，不再进行后续传输，而直接将合规的预设多媒体数据传输至输出设备进行播放，以提示用户，比如，利用音频和/或文本来提示用户输入的控制信息不合规。

当然，实际应用中，还可以根据不同的输出结果，以及实际场景需求，设置其他的输出策略，本申请实施例对此不作限制。

在一具体示例中，可以采用如下方式来基于语义特征在预设语义维度上的参数值确定对输出结果的输出策略，分别为：

方式一：基于语义特征在预设语义维度上参数值的数值大小，确定参数值所处等级；选取出与参数值所处等级相匹配的输出策略。这里，该方式中对参数值大小进行分级，如可划分为不同等级，如此，对处于不同等级的参数值选取不同的输出策略，实现了分级输出策略，丰富了应用场景，提升可用户体验；且该方式简单易实现，为工程化应用奠定了基础。

方式二：将语义特征在预设语义维度上的参数值与预设阈值进行比较，确定大于等于预设阈值后，基于语义特征在预设语义维度上参数值的数值大小，确定参数值所处等级；选取出与参数值所处等级相匹配的输出策略。

这里，该方式中设置最大阈值，即预设阈值，如此，只有当大于或等于该预设阈值后，才认定文本数据存在不合规的情况，进而再利用分级输出策略对输出结果进行分级处理，这样，提供完整了解决方案，且简单易实现，为工程化应用奠定了基础。

实际应用中，上述两种方式可以择一而执行，本申请实施例对此不作限制。

在另一种实施方式中，确定小于预设阈值后，将输出结果输出至输出设备。也就是说，认为大于或等于预设阈值的文本数据不合规，而小于预设阈值的文本数据合规，所以，在确定小于预设阈值后，直接将输出结果输出至输出设备，如此，提供完整了解决方案，且简单易实现，为工程化应用奠定了基础。

这里，需要注意的是，本申请实施例合规可基于不同场景，不同应用需求而设置，比如，合规指不存在黄反信息等，此时，预设语义维度可以指在黄反维度等，本申请实施例对此不作限制。

本申请实施例利用预设模型中设置的参数，如表征预设语义维度的参数，来确定文本数据的语义特征在预设语义维度的参数值，如此，利用参数值来选取输出结果的输出策略，以便利用输出策略来规范输出结果，进而确保输出结果合规，为提升用户体验奠定了基础。

以下，结合具体示例，对本申请实施例的方法进行详细说明，具体地，为实现本申请实施例的方法，设置四个模块，如图2所示，分别为输入模块，黄反因子识别模块，黄反action生成模块，输出模块。图3是根据本申请实施例一具体应用中方法流程示意图，如图2和图3所示，包括：

第一，输入模块，该模块的主要功能是获取用户的语音输入query，将语音输入query转换为文本数据，如tts文本形成的query，将tts文本形成的query传输至黄反因子识别模块。以下处理流程中的query均是在tts 文本形成的query基础上进行的，为方便起见，简称为query。

第二，黄反因子识别模块，该模块负责对输入模块传输的query进行黄反因子识别。进一步地，该模块包含预处理层，文法层、模型层和后处理层四部分，该四个部分可分别通过如下处理器实现，即预处理器、文法处理器、深度学习处理器、后处理器。具体地，

(1)预处理层，可通过预处理器实现，该层主要负责进行特征构建，输入格式处理和去除语音对话场景口语词；比如，对query的输入格式进行预处理，以及去噪处理，并提取query的语义特征。

(2)文法层，可通过文法处理器实现，该层包含正向规则和负向规则；正向规则用于判断query的语义特征是否包含高置信黄反关键词，如明显包含暴力或色情的关键词，若包含则直接跳转到黄反action生成模块，直接拦截；负向规则用于判断query的语义特征是否包含高置信非黄反关键词，如人民的名义，如果包含则直接跳转到黄反action生成，直接对该 query的bot结果进行输出。

这里，文法层的匹配也可以为多层级匹配，如单片段匹配、实例级匹配，多片段匹配，且三个匹配规则融合完成文法层处理。

这里，当文法层明确出query的语义特征不满足正向规则，也不满足负向规则后，则将query的语义特征输入模型层。

(3)模型层，可通过深度学习处理器实现，如使用神经网络模型，对千万级别的数据做训练得到通用黄反模型，保证了泛化能力。该层主要负责计算query的语义特征的黄反因子，并基于通用黄反模型得到query 的语义特征在色情，反动，暴力三个因子(也即维度)上的得分。

(4)后处理层，可通过后处理器实现，该层接收模型层的输入，获取到query的语义特征在对应黄反因子(如色情，反动，暴力三个因)上的得分，并根据得分进行阈值判断。具体地，

判断黄反因子中的最大得分是否大于阈值，如果大于，将得分输出至黄反action生成模块；而当小于阈值时，对针对query的输出结果不作处理，正常输出至输出模块。

第三，黄反action生成模块，根据黄反因子识别模块的输入，确定不同的输出策略，并生成黄反action。比如，根据后处理层的得分进行分级处理，生成不同的黄反action，该action包括但不限于音频，视频等展现形式，用于截断或引导用户的需求。

举例来说，将得分(也即强度)划分出0-16的级别，0级最弱，16 级最强，如此，根据强度值的不同，产生不同的输出策略。比如：query＝我想看比基尼美女，该query色情因子的得分是0.6，反动的得分是0，暴力的得分是0；取色情因子0.6作为主需求，又比如，0.6的得分属于预设 10级，该级别表示可以正常输出，比如正常输出query的输出结果。

这里，实际应用中，不同的得分在不同的工作模式下，可以有不同的输出策略，比如，属于预设10级0.6在成人模式可以直接输出，但在在儿童模式下不可直接输出。

第三，输出模块，输出黄反action生成模块生成的黄反action，或者，输出后处理层的输出结果。

这样，可以有效的提升人工智能产品中黄反query的识别能力，提升用户体验。

本申请实施例还提供了一种信息处理装置400，如图4所示，包括：

获取单元401，用于获取到文本数据，文本数据表征有用于控制输出设备的控制信息；获取基于文本数据中控制信息所得到输出结果；

语义提取单元402，用于提取文本数据的语义特征；

参数处理单元403，用于将语义特征输入预设模型，得到语义特征在预设语义维度上的参数值，预设模型至少设置有表征预设语义维度的参数；

策略处理单元404，用于基于语义特征在预设语义维度上的参数值，确定对输出结果的输出策略。

在一种实施方式中，策略处理单元404，还用于：

选取出与参数值所处等级相匹配的输出策略。

在一种实施方式中，策略处理单元404，还用于：

确定小于预设阈值后，将输出结果输出至输出设备。

在一种实施方式中，策略处理单元404，还用于：

基于输出策略将输出结果输出至输出设备；或者，

基于输出策略拦截输出结果，并输出预设多媒体数据。

在一种实施方式中，参数处理单元403，还用于：

确定输出结果为播放类指令后，将语义特征输入预设模型。

在一种实施方式中，获取单元401，还用于获取输出设备的工作模式；

在一种实施方式中，获取单元401，还用于获取基于语义特征在预设语义维度上的参数值对控制信息进行处理后得到的输出结果。

在一种实施方式中，策略处理单元404，用于确定输出结果为基于语义特征在预设语义维度上的参数值对控制信息进行处理后所得到的结果后，将输出结果输出至输出设备。

在一种实施方式中，获取单元401，还用于获取音频数据，音频数据表征有用于控制输出设备的控制信息；

语义提取单元，402还用于对音频数进行语义解析，得到语义文本，将语义文本作为文本数据。

在一种实施方式中，语义提取单元402，还用于：

对文本数据进行分词处理，得到至少两个分词；

提取分词的分词语义特征，以及分词之间的关系特征；

这里需要指出的是：以上装置实施例项的描述，与上述方法描述是类似的，具有同方法实施例相同的有益效果，因此不做赘述。对于本申请装置实施例中未披露的技术细节，本领域的技术人员请参照本申请方法实施例的描述而理解，为节约篇幅，这里不再赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图5所示，是根据本申请实施例的信息处理方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示，该电子设备包括：一个或多个处理器501、存储器502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示图形用户界面(Graphical User Interface，GUI)的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中，所述存储器存储有可由至少一个处理器执行的指令，以使所述至少一个处理器执行本申请所提供的信息处理方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的信息处理方法。

存储器502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的信息处理方法对应的程序指令/模块(例如，附图4所示的获取单元401、语义提取单元402、参数处理单元403及策略处理单元404)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的信息处理方法。

存储器502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据信息处理方法的电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器502可选包括相对于处理器501远程设置的存储器，这些远程存储器可以通过网络连接至信息处理方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

信息处理方法的电子设备还可以包括：输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接，图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息，以及产生与信息处理方法的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置 (例如，LED)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(Liquid Crystal Display，LCD)、发光二极管 (LightEmitting Diode，LED)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路(Application Specific Integrated Circuits，ASIC)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(programmable logic device，PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(Cathode Ray Tube，阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，利用预设模型中设置的参数，如表征预设语义维度的参数，来确定文本数据的语义特征在预设语义维度的参数值，如此，利用参数值来选取输出结果的输出策略，以便利用输出策略来规范输出结果，进而确保输出结果合规，为提升用户体验奠定了基础。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

Claims

1.一种信息处理方法，其特征在于，包括：

获取到文本数据，所述文本数据表征有用于控制输出设备的控制信息；

获取基于所述文本数据中所述控制信息所得到输出结果；

提取所述文本数据的语义特征；

将所述语义特征输入预设模型，得到所述语义特征在预设语义维度上的参数值，所述预设模型至少设置有表征预设语义维度的参数；

基于所述语义特征在预设语义维度上的参数值，确定对所述输出结果的输出策略；

其中，所述将所述语义特征输入预设模型，包括：

将所述语义特征与预设语义模板中的关键词进行匹配；

确定不匹配后，将所述语义特征输入预设模型；

所述将所述语义特征与预设语义模板中的关键词进行匹配，确定不匹配后，将所述语义特征输入预设模型，包括：

将所述语义特征分别与预设语义模板所包含正向规则和负向规则中的关键词进行匹配，其中，所述正向规则设置有与预设语义维度的语义相同的关键词；所述负向规则设置有与预设语义维度的语义相反的关键词；

确定所述语义特征与所述正向规则中的关键词不匹配，与负向规则中的关键词不匹配后，将所述语义特征输入预设模型。

2.根据权利要求1所述的方法，其特征在于，所述基于所述语义特征在预设语义维度上的参数值，确定对所述输出结果的输出策略，包括：

基于所述语义特征在预设语义维度上参数值的数值大小，确定参数值所处等级；

选取出与参数值所处等级相匹配的输出策略。

3.根据权利要求1所述的方法，其特征在于，所述基于所述语义特征在预设语义维度上的参数值，确定对所述输出结果的输出策略，包括：

将所述语义特征在预设语义维度上的参数值与预设阈值进行比较，确定大于等于所述预设阈值后，基于所述语义特征在预设语义维度上参数值的数值大小，确定参数值所处等级；

选取出与参数值所处等级相匹配的输出策略。

4.根据权利要求3所述的方法，其特征在于，

确定小于所述预设阈值后，将所述输出结果输出至所述输出设备。

5.根据权利要求1或2或3所述的方法，其特征在于，所述方法还包括：

基于输出策略将所述输出结果输出至所述输出设备；或者，

基于输出策略对所述输出结果所对应的多媒体数据进行处理，得到符合预设规则的多媒体数据，将输出结果输出至所述输出设备，使所述输出设备播放符合预设规则的多媒体数据；或者，

基于输出策略拦截所述输出结果，并输出预设多媒体数据。

6.根据权利要求1所述的方法，其特征在于，所述将所述语义特征输入预设模型，包括：

确定所述输出结果为播放类指令后，将所述语义特征输入预设模型。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述输出设备的工作模式；

基于所述工作模式，以及所述语义特征在预设语义维度上的参数值，确定对所述输出结果的输出策略。

8.根据权利要求1所述的方法，其特征在于，所述获取基于所述文本数据中所述控制信息所得到输出结果，包括：

获取基于所述语义特征在预设语义维度上的参数值对所述控制信息进行处理后得到的输出结果。

9.根据权利要求8所述的方法，其特征在于，所述基于所述语义特征在预设语义维度上的参数值，确定对所述输出结果的输出策略，包括：

确定所述输出结果为基于所述语义特征在预设语义维度上的参数值对所述控制信息进行处理后所得到的结果后，将所述输出结果输出至所述输出设备。

10.根据权利要求1所述的方法，其特征在于，所述获取到文本数据，包括：

获取音频数据，所述音频数据表征有用于控制输出设备的控制信息；

对所述音频数据进行语义解析，得到语义文本，将所述语义文本作为所述文本数据。

11.根据权利要求1或10所述的方法，其特征在于，所述提取所述文本数据的语义特征，包括：

对所述文本数据进行分词处理，得到至少两个分词；

提取分词的分词语义特征，以及分词之间的关系特征；

至少将分词语义特征及分词之间的关系特征作为所述文本数据的语义特征。

12.一种信息处理装置，其特征在于，包括：

获取单元，用于获取到文本数据，所述文本数据表征有用于控制输出设备的控制信息；获取基于所述文本数据中所述控制信息所得到输出结果；

语义提取单元，用于提取所述文本数据的语义特征；

参数处理单元，用于将所述语义特征输入预设模型，得到所述语义特征在预设语义维度上的参数值，所述预设模型至少设置有表征预设语义维度的参数；

策略处理单元，用于基于所述语义特征在预设语义维度上的参数值，确定对所述输出结果的输出策略；

其中，所述参数处理单元，还用于：

将所述语义特征与预设语义模板中的关键词进行匹配；确定不匹配后，将所述语义特征输入预设模型；

所述参数处理单元，还用于：

13.根据权利要求12所述的装置，其特征在于，所述策略处理单元，还用于：

基于所述语义特征在预设语义维度上参数值的数值大小，确定参数值所处等级；选取出与参数值所处等级相匹配的输出策略。

14.根据权利要求12所述的装置，其特征在于，所述策略处理单元，还用于：

选取出与参数值所处等级相匹配的输出策略。

15.根据权利要求12所述的装置，其特征在于，所述获取单元，还用于获取基于所述语义特征在预设语义维度上的参数值对所述控制信息进行处理后得到的输出结果。

16.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。

17.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的方法。