CN112735465B

CN112735465B - 无效信息确定方法、装置、计算机设备及存储介质

Info

Publication number: CN112735465B
Application number: CN202011573253.XA
Authority: CN
Inventors: 陈俊宇
Original assignee: Guangzhou Cubesili Information Technology Co Ltd
Current assignee: Guangzhou Cubesili Information Technology Co Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2023-02-24
Anticipated expiration: 2040-12-24
Also published as: CN112735465A

Abstract

本申请公开了一种无效信息确定方法、装置、计算机设备及存储介质，属于互联网技术领域。所述方法包括：提取目标反馈文本的语境特征，该语境特征用于表征该目标反馈文本的语言表达环境；提取该目标反馈文本的语法特征，该语法特征用于表征该目标反馈文本的语法属性；提取该目标反馈文本的语义特征，该语义特征用于表征该目标反馈文本的语义属性；根据该语境特征、该语法特征以及该语义特征确定该目标反馈文本是否为无效信息。本申请实施例提供的技术方案能够降低人力成本，提高对用户反馈信息的分析效率。

Description

无效信息确定方法、装置、计算机设备及存储介质

技术领域

本申请涉及互联网技术领域，特别是涉及一种无效信息确定方法、装置、计算机设备及存储介质。

背景技术

当前，许多应用程序都设置有反馈机制，通过反馈机制可以收集用户对应用程序本身或者应用程序所提供的各种服务的反馈。例如，通过直播应用程序的反馈机制可以收集用户对主播、直播间或者直播应用程序本身的反馈。然而，实际应用中，收集到的用户反馈中往往存在着大量的无效信息，这些无效信息并不能反映用户对应用程序本身或者应用程序所提供的各种服务的评价，因此，其参考价值较低。

相关技术中，在对用户反馈信息进行分析的过程中，可以由人员来具体判断用户的反馈信息是否为无效信息，在确定用户的反馈信息为无效信息的情况下，可以不对该无效信息进行分析。

然而，由人员来具体判断用户的反馈信息是否为无效信息的方式会增加人力成本，影响对用户反馈信息的分析效率。

发明内容

基于此，本申请实施例提供了一种无效信息确定方法、装置、计算机设备及存储介质，可以降低人力成本，提高对用户反馈信息的分析效率。

第一方面，提供了一种无效信息确定方法，该方法包括：

提取目标反馈文本的语境特征，该语境特征用于表征该目标反馈文本的语言表达环境；提取该目标反馈文本的语法特征，该语法特征用于表征该目标反馈文本的语法属性；提取该目标反馈文本的语义特征，该语义特征用于表征该目标反馈文本的语义属性；根据该语境特征、该语法特征以及该语义特征确定该目标反馈文本是否为无效信息。

在其中一个实施例中，该提取目标反馈文本的语境特征，包括：

对该目标反馈文本进行逐字切分处理，得到该目标反馈文本包括的每一字符；根据该目标反馈文本包括的各字符的属性信息获取该语境特征。

在其中一个实施例中，该属性信息用于指示字符类型，该字符类型包括字母字符类型、符号字符类型、数字字符类型以及中文字符类型，该根据该目标反馈文本包括的各字符的属性信息获取该语境特征，包括：

根据该目标反馈文本包括的各字符的属性信息，确定字母字符以及符号字符占该目标反馈文本包含的所有字符的第一比例；根据该目标反馈文本包括的各字符的属性信息，确定数字字符占该目标反馈文本包含的所有字符的第二比例；将该第一比例和该第二比例作为该语境特征。

在其中一个实施例中，该提取目标反馈文本的语法特征，包括：

对该目标反馈文本进行分词处理，得到该目标反馈文本包括的多个词语；根据该目标反馈文本包括的多个词语，获取该语法特征。

在其中一个实施例中，该根据该目标反馈文本包括的多个词语，获取该语法特征，包括：

根据该目标反馈文本包括的多个词语，确定各种不同词性的词语分别占该目标反馈文本包括的所有词语的第三比例；根据该目标反馈文本包括的多个词语构建依存语法图，确定该依存语法图的边与该目标反馈文本包括的所有词语之间的第四比例；将该第三比例和该第四比例作为该语法特征。

在其中一个实施例中，该提取该目标反馈文本的语义特征，包括：

对该目标反馈文本进行关键词提取处理；根据关键词提取处理的结果确定该目标反馈文本的语义特征，该语义特征用于指示该目标反馈文本是否具有语义。

在其中一个实施例中，根据该语境特征、该语法特征以及该语义特征确定该目标反馈文本是否为无效信息，包括：

将该语境特征、该语法特征以及该语义特征输入至无效信息识别模型，根据该无效信息识别模型的输出结果确定该目标反馈文本是否为无效信息；

其中，该无效信息识别模型为SVM模型，该无效信息识别模型的训练过程包括：

获取训练样本，该训练样本包括训练输入和训练标签，其中，该训练输入包括训练文本的训练语境特征、训练语法特征以及训练语义特征，该训练标签用于指示该训练文本是否为无效信息；将该训练语境特征、该训练语法特征以及该训练语义特征输入至未经训练的SVM模型中，得到该未经训练的SVM模型输出的候选输出结果；基于惩罚函数计算该候选输出结果与该训练标签之间的差异，并基于该差异调整该未经训练的SVM模型的参数；其中，在该候选输出结果指示该训练文本为无效信息，该训练标签指示该训练文本为有效信息的情况下，该惩罚函数的惩罚系数为第一值，在该候选输出结果指示该训练文本为有效信息，该训练标签指示该训练文本为无效信息的情况下，该惩罚函数的惩罚系数为第二值，该第一值大于该第二值。

第二方面，提供了一种无效信息确定装置，该装置包括：

第一提取模块，用于提取目标反馈文本的语境特征，该语境特征用于表征该目标反馈文本的语言表达环境；

第二提取模块，用于提取该目标反馈文本的语法特征，该语法特征用于表征该目标反馈文本的语法属性；

第三提取模块，用于提取该目标反馈文本的语义特征，该语义特征用于表征该目标反馈文本的语义属性；

确定模块，用于根据该语境特征、该语法特征以及该语义特征确定该目标反馈文本是否为无效信息。

在其中一个实施例中，该第一提取模块，具体用于：对该目标反馈文本进行逐字切分处理，得到该目标反馈文本包括的每一字符；根据该目标反馈文本包括的各字符的属性信息获取该语境特征。

在其中一个实施例中，该属性信息用于指示字符类型，该字符类型包括字母字符类型、符号字符类型、数字字符类型以及中文字符类型，该第一提取模块，具体用于：根据该目标反馈文本包括的各字符的属性信息，确定字母字符以及符号字符占该目标反馈文本包含的所有字符的第一比例；根据该目标反馈文本包括的各字符的属性信息，确定数字字符占该目标反馈文本包含的所有字符的第二比例；将该第一比例和该第二比例作为该语境特征。

在其中一个实施例中，该第二提取模块，具体用于：对该目标反馈文本进行分词处理，得到该目标反馈文本包括的多个词语；根据该目标反馈文本包括的多个词语，获取该语法特征。

在其中一个实施例中，该第二提取模块，具体用于：根据该目标反馈文本包括的多个词语，确定各种不同词性的词语分别占该目标反馈文本包括的所有词语的第三比例；根据该目标反馈文本包括的多个词语构建依存语法图，确定该依存语法图的边与该目标反馈文本包括的所有词语之间的第四比例；将该第三比例和该第四比例作为该语法特征。

在其中一个实施例中，该第三提取模块，具体用于：对该目标反馈文本进行关键词提取处理；根据关键词提取处理的结果确定该目标反馈文本的语义特征，该语义特征用于指示该目标反馈文本是否具有语义。

在其中一个实施例中，该确定模块，具体用于：将该语境特征、该语法特征以及该语义特征输入至无效信息识别模型，根据该无效信息识别模型的输出结果确定该目标反馈文本是否为无效信息；其中，该无效信息识别模型为SVM模型，该无效信息识别模型的训练过程包括：获取训练样本，该训练样本包括训练输入和训练标签，其中，该训练输入包括训练文本的训练语境特征、训练语法特征以及训练语义特征，该训练标签用于指示该训练文本是否为无效信息；将该训练语境特征、该训练语法特征以及该训练语义特征输入至未经训练的SVM模型中，得到该未经训练的SVM模型输出的候选输出结果；基于惩罚函数计算该候选输出结果与该训练标签之间的差异，并基于该差异调整该未经训练的SVM模型的参数；其中，在该候选输出结果指示该训练文本为无效信息，该训练标签指示该训练文本为有效信息的情况下，该惩罚函数的惩罚系数为第一值，在该候选输出结果指示该训练文本为有效信息，该训练标签指示该训练文本为无效信息的情况下，该惩罚函数的惩罚系数为第二值，该第一值大于该第二值。

第三方面，提供了一种计算机设备，包括处理器和存储器，该存储器中存储有计算机程序，该处理器执行该计算机程序时实现如上述第一方面所述的无效信息确定方法。

第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一方面所述的无效信息确定方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

通过提取目标反馈文本的语境特征、语法特征以及语义特征，并根据提取到的该语境特征、语法特征以及语义特征确定目标反馈文本是否为无效信息，其中，该语境特征用于表征目标反馈文本的语言表达环境，该语法特征用于表征目标反馈文本的语法属性，该语义特征用于表征目标反馈文本的语义属性，这样，就可以基于语境特征、语法特征以及语义特征自动地检测目标反馈文本是否为无效信息，相较于由人员来具体判断用户的反馈是否为无效信息的方式而言，可以降低人力成本，并提供对用户反馈的分析效率。

附图说明

图1为本申请实施例提供的一种无效信息确定方法的流程图；

图2为本申请实施例提供的一种示例性地提取目标反馈文本的语境特征的技术过程的流程图；

图3为本申请实施例提供的一种示例性地提取目标反馈文本的语法特征的技术过程的流程图；

图4为本申请实施例提供的一种示例性地依存语法图；

图5为本申请实施例提供的一种示例性地提取目标反馈文本的语义特征的技术过程的流程图；

图6为本申请实施例提供的一种无效信息确定装置的框图；

图7为本申请实施例提供的一种计算机设备的框图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在实际应用中，许多应用程序都设置有反馈机制，通过反馈机制可以收集用户对应用程序本身或者应用程序所提供的各种服务的反馈，在收集到用户的反馈之后，可以对用户的反馈进行分析，从而确定用户对应用程序本身或者应用程序所提供的各种服务的评价，而后，基于用户的评价对应用程序本身或者应用程序所提供的各种服务进行优化。

例如，直播应用程序中通常可以设置有反馈机制，通过该反馈机制可以收集用户对直播应用程序本身、主播或者直播间的反馈，在对用户的反馈进行分析之后，可以获取用户对直播应用程序本身、主播或者直播间的评价，而后，可以基于用户的评价对主播的播演、直播间的呈现方式或者直播应用程序本身进行优化。

然而，实际应用中，收集到的用户反馈中往往存在着大量的无效信息，这些无效信息可能包括因为用户误触屏幕而输入的信息、用户为了赢取反馈奖励而随意输入的信息等，通常情况下，无效信息并不能反映用户对应用程序本身或者应用程序所提供的各种服务的评价，因此，其参考价值较低。

相关技术中，在对用户反馈进行分析的过程中，可以由人员来具体判断用户的反馈是否为无效信息，在确定用户的反馈为无效信息的情况下，可以不对该无效信息进行分析。然而，由人员来具体判断用户的反馈是否为无效信息的方式会增加人力成本，影响对用户反馈的分析效率。

有鉴于此，本申请实施例提供可一种无效信息确定方法，在该无效信息确定方法中，计算机设备可以提取目标反馈文本的语境特征、语法特征以及语义特征，并根据提取到的该语境特征、语法特征以及语义特征确定目标反馈文本是否为无效信息，其中，该语境特征用于表征目标反馈文本的语言表达环境，该语法特征用于表征目标反馈文本的语法属性，该语义特征用于表征目标反馈文本的语义属性，这样，就可以基于语境特征、语法特征以及语义特征自动地检测目标反馈文本是否为无效信息，相较于由人员来具体判断用户的反馈是否为无效信息的方式而言，可以降低人力成本，并提供对用户反馈的分析效率。

需要说明的是，本申请实施例提供的无效信息确定方法，其执行主体可以是无效信息确定装置，该无效信息确定装置可以通过软件、硬件或者软硬件结合的方式实现成为计算机设备的部分或者全部。下述方法实施例中，均以执行主体是计算机设备为例来进行说明，其中，本申请实施例中的计算机设备可以为服务器，也可以为客户端，本申请实施例中的服务器可以为一台服务器，也可以为由多台服务器组成的服务器集群，本申请实施例中的客户端可以为安装有具有反馈机制的应用程序的终端。

请参考图1，其示出了本申请实施例提供的一种无效信息确定方法的流程图，该无效信息确定方法可以应用于计算机设备中。如图1所示，该无效信息确定方法可以包括以下步骤：

步骤101、计算机设备提取目标反馈文本的语境特征。

其中，目标反馈文本也即是用户基于应用程序的反馈机制而发送的对应用程序本身或者应用程序所提供的各种服务进行反馈的文本，通俗地来讲，目标反馈文本可以为评论文本等。

如上文所述，本申请实施例中的执行主体计算机设备可以为服务器，也可以为客户端。其中，在计算机设备为服务器的情况下，服务器可以接收客户端发送的该目标反馈文本，或者，服务器可以在本地数据库中获取该目标反馈文本。在计算机设备为客户端的情况下，客户端可以接收用户输入的该目标反馈文本。本申请实施例不对计算机设备获取目标反馈文本的具体过程进行限定。

在获取到目标反馈文本之后，计算机设备可以提取目标反馈文本的语境特征，其中，该语境特征用于表征目标反馈文本的语言表达环境。

实际应用中，在自然语言处理技术中，确定文本的语境是一个非常重要的环节，其中，语境包括语言因素和非语言因素，语言因素指的是文本的上下文，也即是通俗所讲的前言后语，非语言因素包括语言表达环境，也即是通俗所讲的语言表达的场合。

在语境中，语言表达环境是一个非常重要的因素，一般而言，不同的语言表达环境下的文本往往有所差异。例如，在航空公司线上客服系统回复用户提问的语言表达环境中，文本往往包括较多的数字内容(托运行李的重量、飞机票价格等)，在教师与学生互动的语言表达环境中，文本往往包括较多的学术名词。

考虑到这一点，在本申请实施例中，可以提取能够表征目标反馈文本的语言表达环境的语境特征，以在后续步骤中根据该语境特征确定目标反馈文本是不是在对应用程序本身或者应用程序所提供的各种服务进行反馈的这一语言表达环境中的有效信息。

步骤102、计算机设备提取目标反馈文本的语法特征。

其中，该语法特征用于表征目标反馈文本的语法属性，在本申请实施例中，目标反馈文本的语法属性可以包括目标反馈文本包括的词语的词性属性以及目标反馈文本包括的词语的语法依赖关系。

步骤103、计算机设备提取目标反馈文本的语义特征。

其中，该语义特征用于表征目标反馈文本的语义属性，在本申请实施例中，目标反馈文本的语义属性可以包括目标反馈文本所蕴含的含义。

步骤104、计算机设备根据目标反馈文本的语境特征、目标反馈文本的语法特征以及目标反馈文本的语义特征确定该目标反馈文本是否为无效信息。

在本申请的一种可选的实现方式中，计算机设备可以预先设置有判定策略，计算机设备可以基于该判定策略，对目标反馈文本的语境特征、目标反馈文本的语法特征以及目标反馈文本的语义特征进行判定，从而确定该目标反馈文本是否为无效信息。

可选的，该判定策略可以包括无效信息的语境特征、语义特征以及语法特征的所满足的条件。

在本申请的另一种可选的实现方式中，计算机设备可以将目标反馈文本的语境特征、目标反馈文本的语法特征以及目标反馈文本的语义特征输入至无效信息识别模型，并根据该无效信息识别模型的输出结果确定目标反馈文本是否为无效信息。

在本申请的可选实施例中，目标反馈文本的语境特征、语法特征以及语义特征均可以采用数值进行表征。在步骤104中，计算机设备可以将表征语境特征的数值、表征语法特征的数值以及表征语义特征的数值进行拼接处理，得到目标向量，而后，计算机设备可以将该目标向量输入至无效信息识别模型中，得到该无效信息识别模型的输出结果，其中，该输出结果可以指示目标反馈文本是否为无效信息。

在本申请的一个可选实施例中，该无效信息识别模型可以为SVM(英文：supportvector machine，中文：支持向量机)模型，SVM模型是一种线性二分类模型。

在本申请实施例中，该SVM模型的训练过程可以包括以下三个步骤。

A1、获取训练样本。

其中，训练样本包括训练输入和训练标签，该训练输入包括训练文本的训练语境特征、训练语法特征以及训练语义特征，训练标签用于指示训练文本是否为无效信息。

需要指出的是，这里的训练语境特征、训练语法特征以及训练语义特征与上文所述的目标反馈文本的语境特征、目标反馈文本的语法特征以及目标反馈文本的语义特征的含义同理，本申请实施例对此不再赘述。

还需要指出的是，在下文中，本申请实施例对目标反馈文本的语境特征、目标反馈文本的语法特征以及目标反馈文本的语义特征的提取过程分别进行了说明，其中，训练语境特征、训练语法特征以及训练语义特征的提取过程与之同理，本申请实施例在此也不再赘述。

还需要指出的是，上文所述的训练文本可以是历史上用户基于应用程序的反馈机制而发送的对应用程序本身或者应用程序所提供的各种服务进行反馈的文本。

A2、将训练文本的训练语境特征、训练语法特征以及训练语义特征输入至未经训练的SVM模型中，得到未经训练的SVM模型输出的候选输出结果。

其中，该候选输出结果用于指示训练文本是否为无效信息。

A3、基于惩罚函数计算候选输出结果与训练标签之间的差异，并基于差异调整未经训练的SVM模型的参数。

在本申请实施例中，该惩罚函数包括惩罚系数，对于相同的候选输出结果和训练标签而言，若该惩罚系数的取值较大，则基于惩罚函数计算得到的差异也较大，反之，若该惩罚系数的取值较小，则基于惩罚函数计算得到的差异也较小。换句话说，该惩罚系数与基于惩罚函数计算得到的差异正相关。

在本申请的可选实施例中，在候选输出结果指示训练文本为无效信息，训练标签指示训练文本为有效信息的情况下，惩罚函数的惩罚系数为第一值，在候选输出结果指示训练文本为有效信息，训练标签指示训练文本为无效信息的情况下，惩罚函数的惩罚系数为第二值，其中，第一值大于第二值。

由于第一值大于第二值，因此，在候选输出结果指示训练文本为无效信息，训练标签指示训练文本为有效信息的情况下，基于惩罚函数计算得到的差异较大，而在候选输出结果指示训练文本为有效信息，训练标签指示训练文本为无效信息的情况下，基于惩罚函数计算得到的差异较小。这样，就可以使训练得到的SVM模型更加不容易将有效信息误识别为无效信息，从而保证在对用户的反馈进行分析的过程中，不会遗漏用户反馈中的有效信息，因此，可以保证对用户反馈的分析的准确性。

在本申请的一个可选实施例中，提供了一种示例性地提取目标反馈文本的语境特征的技术过程，请参考图2，其示出了该技术过程的流程图，如图2所示，该技术过程包括以下步骤：

步骤201、计算机设备对目标反馈文本进行逐字切分处理，得到目标反馈文本包括的每一字符。

例如，若目标反馈文本为“666，主播唱歌非常好听A”，则对该目标反馈文本进行逐字切分处理，可以得到该目标反馈文本包括的每一字符，其中，目标反馈文本包括的每一字符可以为6、6、6、主、播、唱、歌、非、常、好、听、A。

步骤202、计算机设备根据目标反馈文本包括的各字符的属性信息获取目标反馈文本的语境特征。

其中，字符的属性信息用于指示字符类型，字符类型包括字母字符类型、符号字符类型、数字字符类型以及中文字符类型，在本申请实施例中，字母字符可以包括英文字符、西班牙语字符等等字母文字语言中的字符，符号字符可以为非语言字符。

在本申请的可选实施例中，计算机设备可以根据目标反馈文本包括的各字符的属性信息，确定字母字符以及符号字符占目标反馈文本包含的所有字符的第一比例，此外，计算机设备还可以根据目标反馈文本包括的各字符的属性信息，确定数字字符占目标反馈文本包含的所有字符的第二比例，计算机设备可以将将第一比例和第二比例作为目标反馈文本的语境特征。

在本申请的一个可选实施例中，提供了一种示例性地提取目标反馈文本的语法特征的技术过程，请参考图3，其示出了该技术过程的流程图，如图3所示，该技术过程包括以下步骤：

步骤301、计算机设备对目标反馈文本进行分词处理，得到目标反馈文本包括的多个词语。

例如，若目标反馈文本为“666，主播唱歌非常好听A”，则对该目标反馈文本进行分词处理，可以得到该目标反馈文本包括的多个词语，其中，目标反馈文本包括的多个词语可以为：主播、唱歌、非常、好听。

步骤302、计算机设备根据目标反馈文本包括的多个词语，获取目标反馈文本的语法特征。

在本申请的可选实施例中，计算机设备可以根据目标反馈文本包括的多个词语，确定各种不同词性的词语分别占目标反馈文本包括的所有词语的第三比例，例如，计算机设备可以确定名词占目标反馈文本包括的所有词语的第三比例、动词占目标反馈文本包括的所有词语的第三比例以及形容词占目标反馈文本包括的所有词语的第三比例等等，本申请实施例对此不作具体限定。

除此以外，计算机设备还可以根据目标反馈文本包括的多个词语构建依存语法图，而后确定依存语法图的边与目标反馈文本包括的所有词语之间的第四比例。

现代汉语理论认为组成一个句子的成分(词语)之间的地位并不是平等的，而是有依存关系的，也即是，句子中的一些成分从属于另一些成分，其中，这种依存关系是根据语法规则来定义的，例如，主语和宾语从属于谓语等。

在实际应用中，用于反映句子中的成分(词语)之间的依存关系(或言从属关系)的图示可以被称为依存语法图，以“北京是中国的首都”为例，其依存语法图可以如图4所示。

由图4可知，依存语法图可以包括至少一个边(也即是图4中的线段)，其中，依存语法图中的边用于表征该边所连接的两个词语的依存关系。

在获取到上文所述的第三比例和第四比例之后，计算机设备可以将该第三比例和该第四比例作为目标反馈文本的语法特征。

在本申请的一个可选实施例中，提供了一种示例性地提取目标反馈文本的语义特征的技术过程，请参考图5，其示出了该技术过程的流程图，如图5所示，该技术过程包括以下步骤：

步骤501、计算机设备对目标反馈文本进行关键词提取处理。

在本申请的可选实施例中，计算机设备可以基于tf-idf关键词提取算法对目标反馈文本进行关键词提取处理，得到该关键词提取处理的结果，也即是，目标反馈文本包括的多个关键词。

步骤502、计算机根据关键词提取处理的结果确定目标反馈文本的语义特征，该语义特征用于指示目标反馈文本是否具有语义。

在本申请的可选实施例中，计算机设备可以根据目标反馈文本包括的多个关键词之间是否具有关联关系来判断目标反馈文本是否具有语义。

请参考图6，其示出了本申请实施例提供的一种无效信息确定装置600的框图，该无效信息确定装置600可以配置于计算机设备中。如图6所示，该无效信息确定装置600可以包括：第一提取模块601、第二提取模块602、第三提取模块603以及确定模块604。

其中，该第一提取模块601，用于提取目标反馈文本的语境特征，该语境特征用于表征该目标反馈文本的语言表达环境。

该第二提取模块602，用于提取该目标反馈文本的语法特征，该语法特征用于表征该目标反馈文本的语法属性。

该第三提取模块603，用于提取该目标反馈文本的语义特征，该语义特征用于表征该目标反馈文本的语义属性。

该确定模块604，用于根据该语境特征、该语法特征以及该语义特征确定该目标反馈文本是否为无效信息。

在本申请的一个可选实施例中，该第一提取模块601，具体用于：对该目标反馈文本进行逐字切分处理，得到该目标反馈文本包括的每一字符；根据该目标反馈文本包括的各字符的属性信息获取该语境特征。

在本申请的一个可选实施例中，该属性信息用于指示字符类型，该字符类型包括字母字符类型、符号字符类型、数字字符类型以及中文字符类型，该第一提取模块601，具体用于：根据该目标反馈文本包括的各字符的属性信息，确定字母字符以及符号字符占该目标反馈文本包含的所有字符的第一比例；根据该目标反馈文本包括的各字符的属性信息，确定数字字符占该目标反馈文本包含的所有字符的第二比例；将该第一比例和该第二比例作为该语境特征。

在本申请的一个可选实施例中，该第二提取模块602，具体用于：对该目标反馈文本进行分词处理，得到该目标反馈文本包括的多个词语；根据该目标反馈文本包括的多个词语，获取该语法特征。

在本申请的一个可选实施例中，该第二提取模块602，具体用于：根据该目标反馈文本包括的多个词语，确定各种不同词性的词语分别占该目标反馈文本包括的所有词语的第三比例；根据该目标反馈文本包括的多个词语构建依存语法图，确定该依存语法图的边与该目标反馈文本包括的所有词语之间的第四比例；将该第三比例和该第四比例作为该语法特征。

在本申请的一个可选实施例中，该第三提取模块603，具体用于：对该目标反馈文本进行关键词提取处理；根据关键词提取处理的结果确定该目标反馈文本的语义特征，该语义特征用于指示该目标反馈文本是否具有语义。

在其中一个实施例中，该确定模块604，具体用于：将该语境特征、该语法特征以及该语义特征输入至无效信息识别模型，根据该无效信息识别模型的输出结果确定该目标反馈文本是否为无效信息；其中，该无效信息识别模型为SVM模型，该无效信息识别模型的训练过程包括：

本申请实施例提供的无效信息确定装置，可以实现上述方法实施例，其实现原理和技术效果类似，在此不再赘述。

关于无效信息确定装置的具体限定可以参见上文中对于无效信息确定方法的限定，在此不再赘述。上述无效信息确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图7为一个实施例中计算机设备的内部结构示意图，该计算机设备可以为服务器或者客户端。如图7所示，该计算机设备包括通过系统总线连接的处理器以及存储器。其中，该处理器用于提供计算和控制能力，支撑整个计算机设备的运行。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以上各个实施例所提供的一种无效信息确定方法。内存储器为非易失性存储介质中的操作系统以及计算机程序提供高速缓存的运行环境。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本申请的一个实施例中，提供了一种计算机设备，该计算机设备可以为服务，该计算机设备包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：对该目标反馈文本进行逐字切分处理，得到该目标反馈文本包括的每一字符；根据该目标反馈文本包括的各字符的属性信息获取该语境特征。

在本申请的一个实施例中，该属性信息用于指示字符类型，该字符类型包括字母字符类型、符号字符类型、数字字符类型以及中文字符类型，处理器执行计算机程序时还实现以下步骤：根据该目标反馈文本包括的各字符的属性信息，确定字母字符以及符号字符占该目标反馈文本包含的所有字符的第一比例；根据该目标反馈文本包括的各字符的属性信息，确定数字字符占该目标反馈文本包含的所有字符的第二比例；将该第一比例和该第二比例作为该语境特征。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：对该目标反馈文本进行分词处理，得到该目标反馈文本包括的多个词语；根据该目标反馈文本包括的多个词语，获取该语法特征。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：根据该目标反馈文本包括的多个词语，确定各种不同词性的词语分别占该目标反馈文本包括的所有词语的第三比例；根据该目标反馈文本包括的多个词语构建依存语法图，确定该依存语法图的边与该目标反馈文本包括的所有词语之间的第四比例；将该第三比例和该第四比例作为该语法特征。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：对该目标反馈文本进行关键词提取处理；根据关键词提取处理的结果确定该目标反馈文本的语义特征，该语义特征用于指示该目标反馈文本是否具有语义。

在本申请的一个实施例中，处理器执行计算机程序时还实现以下步骤：将该语境特征、该语法特征以及该语义特征输入至无效信息识别模型，根据该无效信息识别模型的输出结果确定该目标反馈文本是否为无效信息，其中，该无效信息识别模型为SVM模型，该无效信息识别模型的训练过程包括：获取训练样本，该训练样本包括训练输入和训练标签，其中，该训练输入包括训练文本的训练语境特征、训练语法特征以及训练语义特征，该训练标签用于指示该训练文本是否为无效信息；将该训练语境特征、该训练语法特征以及该训练语义特征输入至未经训练的SVM模型中，得到该未经训练的SVM模型输出的候选输出结果；基于惩罚函数计算该候选输出结果与该训练标签之间的差异，并基于该差异调整该未经训练的SVM模型的参数；其中，在该候选输出结果指示该训练文本为无效信息，该训练标签指示该训练文本为有效信息的情况下，该惩罚函数的惩罚系数为第一值，在该候选输出结果指示该训练文本为有效信息，该训练标签指示该训练文本为无效信息的情况下，该惩罚函数的惩罚系数为第二值，该第一值大于该第二值。

本申请实施例提供的计算机设备，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

在本申请的一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：对该目标反馈文本进行逐字切分处理，得到该目标反馈文本包括的每一字符；根据该目标反馈文本包括的各字符的属性信息获取该语境特征。

在本申请的一个实施例中，该属性信息用于指示字符类型，该字符类型包括字母字符类型、符号字符类型、数字字符类型以及中文字符类型，计算机程序被处理器执行时还实现以下步骤：根据该目标反馈文本包括的各字符的属性信息，确定字母字符以及符号字符占该目标反馈文本包含的所有字符的第一比例；根据该目标反馈文本包括的各字符的属性信息，确定数字字符占该目标反馈文本包含的所有字符的第二比例；将该第一比例和该第二比例作为该语境特征。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：对该目标反馈文本进行分词处理，得到该目标反馈文本包括的多个词语；根据该目标反馈文本包括的多个词语，获取该语法特征。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据该目标反馈文本包括的多个词语，确定各种不同词性的词语分别占该目标反馈文本包括的所有词语的第三比例；根据该目标反馈文本包括的多个词语构建依存语法图，确定该依存语法图的边与该目标反馈文本包括的所有词语之间的第四比例；将该第三比例和该第四比例作为该语法特征。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：对该目标反馈文本进行关键词提取处理；根据关键词提取处理的结果确定该目标反馈文本的语义特征，该语义特征用于指示该目标反馈文本是否具有语义。

在本申请的一个实施例中，计算机程序被处理器执行时还实现以下步骤：将该语境特征、该语法特征以及该语义特征输入至无效信息识别模型，根据该无效信息识别模型的输出结果确定该目标反馈文本是否为无效信息，其中，该无效信息识别模型为SVM模型，该无效信息识别模型的训练过程包括：获取训练样本，该训练样本包括训练输入和训练标签，其中，该训练输入包括训练文本的训练语境特征、训练语法特征以及训练语义特征，该训练标签用于指示该训练文本是否为无效信息；将该训练语境特征、该训练语法特征以及该训练语义特征输入至未经训练的SVM模型中，得到该未经训练的SVM模型输出的候选输出结果；基于惩罚函数计算该候选输出结果与该训练标签之间的差异，并基于该差异调整该未经训练的SVM模型的参数；其中，在该候选输出结果指示该训练文本为无效信息，该训练标签指示该训练文本为有效信息的情况下，该惩罚函数的惩罚系数为第一值，在该候选输出结果指示该训练文本为有效信息，该训练标签指示该训练文本为无效信息的情况下，该惩罚函数的惩罚系数为第二值，该第一值大于该第二值。

本实施例提供的计算机可读存储介质，其实现原理和技术效果与上述方法实施例类似，在此不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以M种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(SyMchliMk)DRAM(SLDRAM)、存储器总线(RaMbus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种无效信息确定方法，其特征在于，所述方法包括：

提取目标反馈文本的语境特征，所述语境特征用于表征所述目标反馈文本的语言表达环境；

提取所述目标反馈文本的语法特征，所述语法特征用于表征所述目标反馈文本的语法属性；

提取所述目标反馈文本的语义特征，所述语义特征用于表征所述目标反馈文本的语义属性；

根据所述语境特征、所述语法特征以及所述语义特征确定所述目标反馈文本是否为无效信息；

所述提取目标反馈文本的语境特征，包括：

对所述目标反馈文本进行逐字切分处理，得到所述目标反馈文本包括的每一字符；

根据所述目标反馈文本包括的各字符的属性信息获取所述语境特征；

所述属性信息用于指示字符类型，所述字符类型包括字母字符类型、符号字符类型、数字字符类型以及中文字符类型，所述根据所述目标反馈文本包括的各字符的属性信息获取所述语境特征，包括：

根据所述目标反馈文本包括的各字符的属性信息，确定字母字符以及符号字符占所述目标反馈文本包含的所有字符的第一比例；

根据所述目标反馈文本包括的各字符的属性信息，确定数字字符占所述目标反馈文本包含的所有字符的第二比例；

将所述第一比例和所述第二比例作为所述语境特征。

2.根据权利要求1所述的方法，其特征在于，所述提取目标反馈文本的语法特征，包括：

对所述目标反馈文本进行分词处理，得到所述目标反馈文本包括的多个词语；

根据所述目标反馈文本包括的多个词语，获取所述语法特征；

所述根据所述目标反馈文本包括的多个词语，获取所述语法特征，包括：

根据所述目标反馈文本包括的多个词语，确定各种不同词性的词语分别占所述目标反馈文本包括的所有词语的第三比例；

根据所述目标反馈文本包括的多个词语构建依存语法图，确定所述依存语法图的边与所述目标反馈文本包括的所有词语之间的第四比例；

将所述第三比例和所述第四比例作为所述语法特征。

3.根据权利要求1所述的方法，其特征在于，所述提取所述目标反馈文本的语义特征，包括：

对所述目标反馈文本进行关键词提取处理；

根据关键词提取处理的结果确定所述目标反馈文本的语义特征，所述语义特征用于指示所述目标反馈文本是否具有语义。

4.根据权利要求3所述的方法，其特征在于，所述根据关键词提取处理的结果确定所述目标反馈文本的语义特征，包括：

根据目标反馈文本包括的多个所述关键词之间是否具有关联关系确定目标反馈文本的语义特征。

5.根据权利要求1所述的方法，其特征在于，所述根据所述语境特征、所述语法特征以及所述语义特征确定所述目标反馈文本是否为无效信息，包括：

将所述语境特征、所述语法特征以及所述语义特征输入至无效信息识别模型，根据所述无效信息识别模型的输出结果确定所述目标反馈文本是否为无效信息；

其中，所述无效信息识别模型为SVM模型，所述无效信息识别模型的训练过程包括：

获取训练样本，所述训练样本包括训练输入和训练标签，其中，所述训练输入包括训练文本的训练语境特征、训练语法特征以及训练语义特征，所述训练标签用于指示所述训练文本是否为无效信息；

将所述训练语境特征、所述训练语法特征以及所述训练语义特征输入至未经训练的SVM模型中，得到所述未经训练的SVM模型输出的候选输出结果；

基于惩罚函数计算所述候选输出结果与所述训练标签之间的差异，并基于所述差异调整所述未经训练的SVM模型的参数；

其中，在所述候选输出结果指示所述训练文本为无效信息，所述训练标签指示所述训练文本为有效信息的情况下，所述惩罚函数的惩罚系数为第一值，在所述候选输出结果指示所述训练文本为有效信息，所述训练标签指示所述训练文本为无效信息的情况下，所述惩罚函数的惩罚系数为第二值，所述第一值大于所述第二值。

6.一种无效信息确定装置，其特征在于，所述装置包括：

第一提取模块，用于提取目标反馈文本的语境特征，所述语境特征用于表征所述目标反馈文本的语言表达环境；

第二提取模块，用于提取所述目标反馈文本的语法特征，所述语法特征用于表征所述目标反馈文本的语法属性；

第三提取模块，用于提取所述目标反馈文本的语义特征，所述语义特征用于表征所述目标反馈文本的语义属性；

确定模块，用于根据所述语境特征、所述语法特征以及所述语义特征确定所述目标反馈文本是否为无效信息；

所述第一提取模块，具体用于对所述目标反馈文本进行逐字切分处理，得到所述目标反馈文本包括的每一字符；根据所述目标反馈文本包括的各字符的属性信息获取所述语境特征；

所述属性信息用于指示字符类型，所述字符类型包括字母字符类型、符号字符类型、数字字符类型以及中文字符类型，所述第一提取模块，具体用于根据所述目标反馈文本包括的各字符的属性信息，确定字母字符以及符号字符占所述目标反馈文本包含的所有字符的第一比例；根据所述目标反馈文本包括的各字符的属性信息，确定数字字符占所述目标反馈文本包含的所有字符的第二比例；将所述第一比例和所述第二比例作为所述语境特征。

7.根据权利要求6所述的装置，其特征在于，所述装置包括：

所述第二提取模块，具体用于对所述目标反馈文本进行分词处理，得到所述目标反馈文本包括的多个词语；根据所述目标反馈文本包括的多个词语，获取所述语法特征；根据所述目标反馈文本包括的多个词语，确定各种不同词性的词语分别占所述目标反馈文本包括的所有词语的第三比例；根据所述目标反馈文本包括的多个词语构建依存语法图，确定所述依存语法图的边与所述目标反馈文本包括的所有词语之间的第四比例；将所述第三比例和所述第四比例作为所述语法特征。

8.根据权利要求6所述的装置，其特征在于，所述装置包括：

所述第三提取模块，具体用于对所述目标反馈文本进行关键词提取处理；根据关键词提取处理的结果确定所述目标反馈文本的语义特征，所述语义特征用于指示所述目标反馈文本是否具有语义。

9.一种计算机设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至5任一所述的无效信息确定方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至5任一所述的无效信息确定方法。