CN111553167A

CN111553167A - 文本类型识别方法和装置及存储介质

Info

Publication number: CN111553167A
Application number: CN202010352200.9A
Authority: CN
Inventors: 康战辉
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2020-08-18

Abstract

本发明公开了一种文本类型识别方法和装置及存储介质。其中，该方法包括：获取第一文本识别请求，其中，第一文本识别请求用于请求识别在目标应用平台中发布的待识别的目标文本是否属于目标类型，目标类型为目标应用平台中被禁止发布的文本的类型；响应第一文本识别请求，获取与目标文本对应的目标文本特征向量和目标非文本特征向量；将目标文本特征向量和目标非文本特征向量输入第一识别模型，得到第一识别结果；在第一识别结果指示目标文本为目标类型的情况下，从目标应用平台中已发布的文本中删除目标文本，涉及人工智能中的自然语言处理技术以及机械学习。本发明解决了文本类型识别的准确性较低的技术问题。

Description

文本类型识别方法和装置及存储介质

技术领域

本发明涉及人工智能领域，具体而言，涉及一种文本类型识别方法和装置及存储介质。

背景技术

随着自媒体时代的到来，各种新闻平台上每天会产生并传播大量的、类型参差不齐的文本内容，其中，自然也包括不实的、故意吸引眼球的、谣言类别的文本内容。

由于谣言类别种类繁多，且部分谣言在文本内容方面没有明显的一些谣言特征，进而针对谣言类别的识别，存在识别准确性较低的问题。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种文本类型识别方法和装置及存储介质，以至少解决文本类型识别的准确性较低的技术问题。

根据本发明实施例的一个方面，提供了一种文本类型识别方法，包括：获取第一文本识别请求，其中，上述第一文本识别请求用于请求识别在目标应用平台中发布的待识别的目标文本是否属于目标类型，上述目标类型为上述目标应用平台中被禁止发布的文本的类型；响应上述第一文本识别请求，获取与上述目标文本对应的目标文本特征向量和目标非文本特征向量，其中，上述目标文本特征向量用于表示上述目标文本中包含的内容文本的文本信息，上述目标非文本特征向量用于表示上述目标文本在上述目标应用平台中被发布后的发布数据；将上述目标文本特征向量和上述目标非文本特征向量输入第一识别模型，得到第一识别结果，其中，上述第一识别模型为利用样本数据训练后得到的分类模型；在上述第一识别结果指示上述目标文本为上述目标类型的情况下，从上述目标应用平台中已发布的文本中删除上述目标文本。

根据本发明实施例的另一方面，还提供了一种文本类型识别装置，包括：获取单元，用于获取第一文本识别请求，其中，上述第一文本识别请求用于请求识别在目标应用平台中发布的待识别的目标文本是否属于目标类型，上述目标类型为上述目标应用平台中被禁止发布的文本的类型；响应单元，用于响应上述第一文本识别请求，获取与上述目标文本对应的目标文本特征向量和目标非文本特征向量，其中，上述目标文本特征向量用于表示上述目标文本中包含的内容文本的文本信息，上述目标非文本特征向量用于表示上述目标文本在上述目标应用平台中被发布后的发布数据；输入单元，用于将上述目标文本特征向量和上述目标非文本特征向量输入第一识别模型，得到第一识别结果，其中，上述第一识别模型为利用样本数据训练后得到的分类模型；删除单元，用于在上述第一识别结果指示上述目标文本为上述目标类型的情况下，从上述目标应用平台中已发布的文本中删除上述目标文本。

根据本发明实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述文本类型识别方法。

根据本发明实施例的又一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，上述处理器通过计算机程序执行上述的文本类型识别方法。

在本发明实施例中，获取第一文本识别请求，其中，上述第一文本识别请求用于请求识别在目标应用平台中发布的待识别的目标文本是否属于目标类型，上述目标类型为上述目标应用平台中被禁止发布的文本的类型；响应上述第一文本识别请求，获取与上述目标文本对应的目标文本特征向量和目标非文本特征向量，其中，上述目标文本特征向量用于表示上述目标文本中包含的内容文本的文本信息，上述目标非文本特征向量用于表示上述目标文本在上述目标应用平台中被发布后的发布数据；将上述目标文本特征向量和上述目标非文本特征向量输入第一识别模型，得到第一识别结果，其中，上述第一识别模型为利用样本数据训练后得到的分类模型；在上述第一识别结果指示上述目标文本为上述目标类型的情况下，从上述目标应用平台中已发布的文本中删除上述目标文本，通过将待识别文本的文本特征以及非文本特征的结合，进而达到了提高用于判断文本类型是否为谣言的参考信息的全面性的技术目的，从而实现了提高文本类型的识别准确性的技术效果，并解决了文本类型识别的准确性较低的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种可选的文本类型识别方法的应用环境的示意图；

图2是根据本发明实施例的一种可选的文本类型识别方法的流程图的示意图；

图3是根据本发明实施例的一种可选的文本类型识别方法的示意图；

图4是根据本发明实施例的另一种可选的文本类型识别方法的示意图；

图5是根据本发明实施例的另一种可选的文本类型识别方法的示意图；

图6是根据本发明实施例的另一种可选的文本类型识别方法的示意图；

图7是根据本发明实施例的另一种可选的文本类型识别方法的示意图；

图8是根据本发明实施例的一种可选的文本类型识别装置的示意图；

图9是根据本发明实施例的另一种可选的文本类型识别装置的示意图；

图10是根据本发明实施例的一种可选的电子装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

人工智能(Artificial Intelligence，简称AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(Nature Language processing，简称NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，简称ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请实施例提供的方案涉及人工智能的自然语言处理、机器学习等技术，具体通过如下实施例进行说明：

根据本发明实施例的一个方面，提供了一种文本类型识别方法，可选地，作为一种可选的实施方式，上述文本类型识别方法可以但不限于应用于如图1所示的环境中。其中，可以但不限于包括用户设备102、网络110及服务器112，其中，该用户设备102上可以但不限于包括显示器108、处理器106及存储器104。

具体过程可如下步骤：

步骤S102，用户设备102通获取第一文本识别请求，其中，第一文本识别请求用于请求识别在目标应用平台1022中发布的待识别的目标文本(包括图1中目标应用平台1022上所示的标题、作者、正文等相关文本内容)是否属于目标类型；

步骤S104-S106，用户设备102通过网络110将第一文本识别请求发送给服务器112；

步骤S108-S110，服务器112响应第一文本识别请求，获取与目标文本对应的目标文本特征向量和目标非文本特征向量，并将目标文本特征向量和目标非文本特征向量输入第一识别模型，得到第一识别结果；

步骤S112-S114，服务器112通过网络110将第一识别结果发送给用户设备102；

步骤S116，用户设备102中的处理器106在确定第一识别结果指示目标文本为目标类型的情况下，从目标应用平台1022中已发布的文本中删除目标文本(如阴影所示)。

可选地，作为一种可选的实施方式，如图2所示，文本类型识别方法包括：

S202，获取第一文本识别请求，其中，第一文本识别请求用于请求识别在目标应用平台中发布的待识别的目标文本是否属于目标类型，目标类型为目标应用平台中被禁止发布的文本的类型；

S204，响应第一文本识别请求，获取与目标文本对应的目标文本特征向量和目标非文本特征向量，其中，目标文本特征向量用于表示目标文本中包含的内容文本的文本信息，目标非文本特征向量用于表示目标文本在目标应用平台中被发布后的发布数据；

S206，将目标文本特征向量和目标非文本特征向量输入第一识别模型，得到第一识别结果，其中，第一识别模型为利用样本数据训练后得到的分类模型；

S208，在第一识别结果指示目标文本为目标类型的情况下，从目标应用平台中已发布的文本中删除目标文本。

可选的，在本实施例中，文本类型识别方法可以但不限于应用在谣言类型的识别场景下。目标应用平台可以但不限于为一种可发布文本内容的应用平台，例如微信公众号、微博、QQ空间等。待识别的目标文本可以但不限于包括与目标文本相关的数据内容，例如文本标题、发表作者的相关信息、目标文本的后续传播情况、目标文本中包含的图文信息等。禁止发布可以但不限于包括禁止目标文本的发布、禁止目标文本的作者继续发布包括目标文本在内的全部文本内容等，其中，禁止发布可以但不限于在预设时间和/或范围内。分类模型可以但不限于为一种输入样本特征值，并输出对应类别，将每个样本映射到定义好的类别中的模型，可以但不限于包括基于规则的分类模型、基于概率统计的分类模型、基于几何的分类模型、基于统计的分类模型等，例如可以但不限于包括逻辑回归、决策树、随机森林、梯度提升数、多层感知机、线性支持向量机(Support Vector Machine，简称SVM)、朴素贝叶斯等。

需要说明的是，获取第一文本识别请求，其中，第一文本识别请求用于请求识别在目标应用平台中发布的待识别的目标文本是否属于目标类型，目标类型为目标应用平台中被禁止发布的文本的类型；响应第一文本识别请求，获取与目标文本对应的目标文本特征向量和目标非文本特征向量，其中，目标文本特征向量用于表示目标文本中包含的内容文本的文本信息，目标非文本特征向量用于表示目标文本在目标应用平台中被发布后的发布数据；将目标文本特征向量和目标非文本特征向量输入第一识别模型，得到第一识别结果，其中，第一识别模型为利用样本数据训练后得到的分类模型；在第一识别结果指示目标文本为目标类型的情况下，从目标应用平台中已发布的文本中删除目标文本。可选的，目标非文本特征向量可以但不限于还用于表示在目标应用平台中发布目标文本的目标账号的账号数据，其中，账号数据包括了可影响目标文本在目标应用平台中发布后的传播数据的相关数据，例如账号粉丝量、账号年/月/日均阅读量等。

进一步举例说明，可选的例如图3所示，包括目标应用平台302，以及目标账号306在目标应用平台302上发布的目标文本304，具体步骤可选的如下：获取第一文本识别请求，其中，第一文本识别请求用于请求识别在目标应用平台302中由目标账号306发布的待识别的目标文本306是否属于谣言类型(目标类型)，并在目标文本306属于谣言类型的情况下，从目标应用平台302中已发布的文本中删除目标文本304，并对目标账号306做出对应的处理，如在预定时间内禁止发布新的文本内容等。

进一步举例说明，可选的例如图4所示，包括目标应用平台402，以及由目标账号406在目标应用平台402上发布的目标文本404，其中，目标文本404包括了文本标题408、文本正文410，以及文本相关内容412；具体步骤可选的如下：获取第一文本识别请求，其中，第一文本识别请求用于请求识别在目标应用平台402中由目标账号406发布的待识别的目标文本406是否属于谣言类型(目标类型)，响应第一文本识别请求，获取与目标文本404对应的目标文本特征向量(例如文本标题408、文本正文410的特征向量等)和目标非文本特征向量(例如文本相关内容412的特征向量等)；将目标文本特征向量和目标非文本特征向量输入第一识别模型，得到第一识别结果；在第一识别结果指示目标文本为目标类型的情况下，从目标应用平台402中已发布的文本中删除目标文本404，并对目标账号406做出对应的处理，如发送警告信息等。

通过本申请提供的实施例，获取第一文本识别请求，其中，第一文本识别请求用于请求识别在目标应用平台中发布的待识别的目标文本是否属于目标类型，目标类型为目标应用平台中被禁止发布的文本的类型；响应第一文本识别请求，获取与目标文本对应的目标文本特征向量和目标非文本特征向量，其中，目标文本特征向量用于表示目标文本中包含的内容文本的文本信息，目标非文本特征向量用于表示目标文本在目标应用平台中被发布后的发布数据；将目标文本特征向量和目标非文本特征向量输入第一识别模型，得到第一识别结果，其中，第一识别模型为利用样本数据训练后得到的分类模型；在第一识别结果指示目标文本为目标类型的情况下，从目标应用平台中已发布的文本中删除目标文本，通过将待识别文本的文本特征以及非文本特征的结合，进而达到了提高用于判断文本类型是否为谣言的参考信息的全面性的技术目的，从而实现了提高文本类型的识别准确性的技术效果。

作为一种可选的方案，将目标文本特征向量和目标非文本特征向量输入第一识别模型，得到第一识别结果包括：

S1，在第一识别模型中对目标文本特征向量和目标非文本特征向量进行整合，得到目标特征向量；

S2，将目标特征向量输入第一识别模型中的分类函数，得到与目标文本匹配的分类结果；

S3，将分类结果作为第一识别结果。

需要说明的是，在第一识别模型中对目标文本特征向量和目标非文本特征向量进行整合，得到目标特征向量；将目标特征向量输入第一识别模型中的分类函数，得到与目标文本匹配的分类结果；将分类结果作为第一识别结果。

进一步举例说明，可选的例如图5所示，假设目标文本特征向量包括文本标题408对应的文本标题关键字502的特征向量、文本正文410对应的文本正文关键字504的特征向量，目标非文本特征向量包括文本相关内容412中与阅读量对应的第一传播特征506的特征向量、与评论数对应的第二传播特征508的特征向量；进一步，在第一识别模型(图中未示出)中对文本标题关键字502的特征向量、文本正文关键字504的特征向量、第一传播特征506的特征向量、第二传播特征508的特征向量进行整合，得到目标特征向量(图中未示出)。

通过本申请提供的实施例，在第一识别模型中对目标文本特征向量和目标非文本特征向量进行整合，得到目标特征向量；将目标特征向量输入第一识别模型中的分类函数，得到与目标文本匹配的分类结果；将分类结果作为第一识别结果，进而达到了提高向模型输入的特征向量全面性技术目的，从而实现了提高分类结果的准确性的技术效果。

作为一种可选的方案，获取与目标文本对应的目标文本特征向量包括：

S1，获取目标文本中包含的内容文本；

S2，对内容文本进行分词处理，得到多个语义特征词；

S3，获取与多个语义特征词中的每个语义特征词匹配的互信息，其中，互信息用于指示语义特征词与目标类型的相关程度；

S4，根据互信息从多个语义特征词中提取关键词，并对关键词进行转化得到目标文本向量。

需要说明的是，获取目标文本中包含的内容文本；对内容文本进行分词处理，得到多个语义特征词；获取与多个语义特征词中的每个语义特征词匹配的互信息，其中，互信息用于指示语义特征词与目标类型的相关程度；根据互信息从多个语义特征词中提取关键词，并对关键词进行转化得到目标文本向量。可选的，互信息(mutual information)可以但不限于用来评价一个事件的出现对于另一个事件的出现所贡献的信息量。

进一步举例说明，可选的例如对目标文本的文本标题和/文本正文进行一元模型(unigram)分词，同时进行二元模型(bigram)和三元模型(trigram)文本切分，以取得更多文本的粗粒度语义特征词，并对这些特征词做基于互信息的特征词选择算法，其中，互信息的计算公式如下述公式(1)：

在对特征词进行特征选择的时候，X表示某个词，Y表示类别，xi表示这个词的取值，在这里只有两种情况，出现和不出现，yi表示某一类，可能两类可能多类。

x_i和y_i同时出现在整个数据集中的联合概率如公式(2)所示：

P(X＝x_i，Y＝y_i)公式(2)；

x_i在整个数据集中出现的词概率如公式(3)所示：

P(X＝x_i)公式(3)；

y_i在整个数据集中出现的类概率如公式(4)所示：

P(Y＝y_i)公式(4)；

其中，对文本特征提取x_i的取值只能是出现和不出现两种情况

可选的，使用互信息理论进行特征抽取是基于如下假设:在某个特定类别出现频率高，但在其他类别出现频率比较低的词条与该类的互信息比较大。通常用互信息作为特征词和类别之问的测度，如果特征词属于该类的话，它们的互信息量最大。由于该方法不需要对特征词和类别之问关系的性质作任何假设，因此非常适合于文本分类的特征和类别的配准工作。

以及特征项和类别的互信息体现了特征项与类别的相关程度，是一种广泛用于建立词关联统计模型的标准。互信息与期望交叉熵的不同在于没有考虑特征出现的频率，这样导致互信息评估函数不选择高频的有用词而有可能选择稀有词作为文本的最佳特征。因为对于每一主题来讲，特征的互信息越大，说明该特征与该主题的共现概率越大，因此，以互信息作为提取特征的评价时应选互信息最大的若干个特征。

此外，还可以但不限于通过卡方检验和相关系数的方式从多个语义特征词中提取关键词。

通过本申请提供的实施例，获取目标文本中包含的内容文本；对内容文本进行分词处理，得到多个语义特征词；获取与多个语义特征词中的每个语义特征词匹配的互信息，其中，互信息用于指示语义特征词与目标类型的相关程度；根据互信息从多个语义特征词中提取关键词，并对关键词进行转化得到目标文本向量，通过互信息选取关键词，进而达到了提高转化得到的目标文本向量的有效性的技术目的，从而实现了提高文本类别识别的整体准确性的技术效果。

作为一种可选的方案，获取与目标文本对应的目标非文本特征向量包括：

S1，获取目标文本被发布后的发布数据，其中，发布数据包括以下之一：目标文本的阅读量、目标文本的评论量、目标文本的转发量及与用于发布目标文本的目标账号关联的账号数量；

S2，根据发布数据提取非文本特征；

S3，对非文本特征进行转化得到目标非文本特征向量。

需要说明的是，获取目标文本被发布后的发布数据，其中，发布数据包括以下之一：目标文本的阅读量、目标文本的评论量、目标文本的转发量及与用于发布目标文本的目标账号关联的账号数量；根据发布数据提取非文本特征；对非文本特征进行转化得到目标非文本特征向量。

进一步举例说明，可选的例如图6所示，包括由目标账号406在目标应用平台402中发布的目标文本404的发布时间602；进一步，获取目标账号406在发布时间602关联的账号数量(例如粉丝量、关注量等)，以及获取在发布时间602后的预设时长内，目标文本404的阅读量、评论数、转发量(图中未示出)等；

以及，在上述发布数据中选择一个或多个，以组合特征的方式获取新的发布数据，例如阅读数/粉丝、评论数/阅读数、转发数/粉丝数等，可选的，组合特征的获取方式可以但不限于为通过XGboost等具有自动特征交叉能力的分类算法模型输出获取，其中，XGboost可以但不限于为一个优化的分布式梯度增强库，旨在实现高效、灵活和便携。

通过本申请提供的实施例，获取目标文本被发布后的发布数据，其中，发布数据包括以下之一：目标文本的阅读量、目标文本的评论量、目标文本的转发量及与用于发布目标文本的目标账号关联的账号数量；根据发布数据提取非文本特征；对非文本特征进行转化得到目标非文本特征向量，通过在发布数据中提取非文本特征，进而达到了提高文本类别识别的全面性的技术目的，从而实现了提高文本类型的识别准确性的技术效果。

作为一种可选的方案，在获取第一文本识别请求之前包括：

S1，获取样本数据，其中，样本数据包括多个样本文本，多个样本文本中包括属于目标类型的正样本文本和并非目标类型的负样本文本；

S2，从样本数据中提取出与每个样本文本分别对应的样本文本特征向量和样本非文本特征向量；

S3，将与每个样本文本分别对应的样本文本特征向量和样本非文本特征向量，输入初始化的第一识别模型进行训练，以得到第一识别模型。

需要说明的是，获取样本数据，其中，样本数据包括多个样本文本，多个样本文本中包括属于目标类型的正样本文本和并非目标类型的负样本文本；从样本数据中提取出与每个样本文本分别对应的样本文本特征向量和样本非文本特征向量；将与每个样本文本分别对应的样本文本特征向量和样本非文本特征向量，输入初始化的第一识别模型进行训练，以得到第一识别模型。可选的，第一识别模型可以但不限于为SVM分类模型。

进一步举例说明，可选的预先获取用户在公众号平台举报样本收集的部分谣言样本作为正样本，负样本则选取主流媒体的新闻资讯；由于用户举报的谣言样本只能覆盖一般典型，明显的谣言样本且有一定的滞后性，还不足以覆盖更复杂多变且更新的谣言类型，进而采用主动学习(active learning)思想通过已有少量样本数据训练一个只是用关键词特征的谣言分类器，然后对随机采集的资讯用该分类器做谣言识别分类，对于那些高置信度的资讯直接作为谣言样本；而低置信度的资讯则请编辑进行人工标注后，再加入相应的训练样本集；

可选的，active learning算法过程如下：

输入：未标记样本U，标记样本集L，学习引擎LE，采样引擎SE；

输出：学习引擎SE；

开始(BeginFor)：i＝1，2，…，N；

Train(LE，L)；//通过标记样本集L训练分类器f；

T＝Test(LE，U)；

S＝Select(SE，U)；

Label(S)；//对集合S中的样本进行标记；

L<—L+S；

U<—U–S；

Until迭代次数达到某阈值，或达到其他终止条件；

通过预先训练获取的谣言分类器，获取大量的样本数据。

进一步举例说明，可选的根据从样本数据中提取出与每个样本文本分别对应的样本文本特征向量和样本非文本特征向量，输入初始化的第一识别模型进行训练，其中，例如第一识别模型为经典的SVM分类模型，可选的，SVM分类模型可以但不限于是一种二类分类模型，其基本模型定义为特征空间上的间隔最大的线性分类器，其学习策略便是间隔最大化，最终可转化为一个凸二次规划问题的求解；

可选的例如图7所示，在二维平面702中，用一条直线将上面的点分成两类，显然H1无法将点区分开，而H2和H3都可以，但作为分界线，H3是更合适的，因为分界线其两边有尽可能大的间隙，这样的好处之一就是能在使用中有利于预测；

同理进一步，在三维平面中，寻找区分两类点的超平面(hyper plane)，使边界(margin)最大，进而在一个n维空间中，超平面的方程可以但不限于参考下述公式(5):

a₁x₁+a₂x₂+…...+a_nx_n＝b公式(5)；

进一步，可选的根据超平面到边界一测最近点的距离等于到另一侧最近点的距离在n个超平面中确定目标超平面，进而以点到线的距离为例：

在二维平面中，计算点(x0，y0)；

到线(ax+by+c＝0)的距离参考下述公式(6)；

在n维空间中，点到超平面的距离参考下述公式(7)；

可选的，将点的坐标和系数都向量化表示，距离公式可以但不限于参考下述公式(8)；

其中，w＝{w0，w1，w2，...wn}；

先寻找各分类到超平面的距离最小，在寻找距离之和最大的超平面，在n个训练点，点的坐标记为xi，结果分类为yi，构成点(xi，yi)。即目标函数可以但不限于参考下述公式(9)；

通过本申请提供的实施例，获取样本数据，其中，样本数据包括多个样本文本，多个样本文本中包括属于目标类型的正样本文本和并非目标类型的负样本文本；从样本数据中提取出与每个样本文本分别对应的样本文本特征向量和样本非文本特征向量；将与每个样本文本分别对应的样本文本特征向量和样本非文本特征向量，输入初始化的第一识别模型进行训练，以得到第一识别模型，进而达到了提高第一识别模型的训练效率的技术目的，从而实现了提高了第一识别模型的完整性的技术效果。

作为一种可选的方案，将与每个样本文本分别对应的样本文本特征向量和样本非文本特征向量，输入初始化的第一识别模型进行训练，以得到第一识别模型包括：

S1，重复执行以下步骤，直至第一识别模型达到收敛条件：

S2，获取当前样本文本；

S3，将与当前样本文本对应的当前样本文本特征向量和当前样本非文本特征向量，输入当前训练中的第一识别模型；

S4，获取当前输出结果，其中，当前输出结果中包括第一识别模型中的当前目标函数输出的识别结果；

S5，在当前目标函数输出的识别结果指示达到最大值的情况下，确定第一识别模型达到收敛条件；

S6，在当前目标函数输出的识别结果指示尚未达到最大值的情况下，获取下一个样本文本作为当前样本文本。

需要说明的是，重复执行以下步骤，直至第一识别模型达到收敛条件：获取当前样本文本；将与当前样本文本对应的当前样本文本特征向量和当前样本非文本特征向量，输入当前训练中的第一识别模型；获取当前输出结果，其中，当前输出结果中包括第一识别模型中的当前目标函数输出的识别结果；在当前目标函数输出的识别结果指示达到最大值的情况下，确定第一识别模型达到收敛条件；在当前目标函数输出的识别结果指示尚未达到最大值的情况下，获取下一个样本文本作为当前样本文本。

进一步举例说明，可选的根据公式(9)获取距离之和最大的超平面，换言之，距离之和可以但不限于为是否达到收敛条件的判断标准；

可选的，yi可以但不限于为有两种取值，进而定义为1和-1，从而简化求解过程。

通过本申请提供的实施例，重复执行以下步骤，直至第一识别模型达到收敛条件：获取当前样本文本；将与当前样本文本对应的当前样本文本特征向量和当前样本非文本特征向量，输入当前训练中的第一识别模型；获取当前输出结果，其中，当前输出结果中包括第一识别模型中的当前目标函数输出的识别结果；在当前目标函数输出的识别结果指示达到最大值的情况下，确定第一识别模型达到收敛条件；在当前目标函数输出的识别结果指示尚未达到最大值的情况下，获取下一个样本文本作为当前样本文本，进而达到了简化第一识别模型的训练过程的技术目的，从而实现了提高第一识别模型的训练效率的技术效果。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

根据本发明实施例的另一个方面，还提供了一种用于实施上述文本类型识别方法的文本类型识别装置。如图8所示，该装置包括：

获取单元802，用于获取第一文本识别请求，其中，第一文本识别请求用于请求识别在目标应用平台中发布的待识别的目标文本是否属于目标类型，目标类型为目标应用平台中被禁止发布的文本的类型；

响应单元804，用于响应第一文本识别请求，获取与目标文本对应的目标文本特征向量和目标非文本特征向量，其中，目标文本特征向量用于表示目标文本中包含的内容文本的文本信息，目标非文本特征向量用于表示目标文本在目标应用平台中被发布后的发布数据；

输入单元806，用于将目标文本特征向量和目标非文本特征向量输入第一识别模型，得到第一识别结果，其中，第一识别模型为利用样本数据训练后得到的分类模型；

删除单元808，用于在第一识别结果指示目标文本为目标类型的情况下，从目标应用平台中已发布的文本中删除目标文本。

可选的，在本实施例中，文本类型识别装置可以但不限于应用在谣言类型的识别场景下。目标应用平台可以但不限于为一种可发布文本内容的应用平台，例如微信公众号、微博、QQ空间等。待识别的目标文本可以但不限于包括与目标文本相关的数据内容，例如文本标题、发表作者的相关信息、目标文本的后续传播情况、目标文本中包含的图文信息等。禁止发布可以但不限于包括禁止目标文本的发布、禁止目标文本的作者继续发布包括目标文本在内的全部文本内容等，其中，禁止发布可以但不限于在预设时间和/或范围内。分类模型可以但不限于为一种输入样本特征值，并输出对应类别，将每个样本映射到定义好的类别中的模型，可以但不限于包括基于规则的分类模型、基于概率统计的分类模型、基于几何的分类模型、基于统计的分类模型等，例如可以但不限于包括逻辑回归、决策树、随机森林、梯度提升数、多层感知机、线性支持向量机(Support Vector Machine，简称SVM)、朴素贝叶斯等。

需要说明的是，获取第一文本识别请求，其中，第一文本识别请求用于请求识别在目标应用平台中发布的待识别的目标文本是否属于目标类型，目标类型为目标应用平台中被禁止发布的文本的类型；响应第一文本识别请求，获取与目标文本对应的目标文本特征向量和目标非文本特征向量，其中，目标文本特征向量用于表示目标文本中包含的内容文本的文本信息，目标非文本特征向量用于表示目标文本在目标应用平台中被发布后的发布数据；将目标文本特征向量和目标非文本特征向量输入第一识别模型，得到第一识别结果，其中，第一识别模型为利用样本数据训练后得到的分类模型；在第一识别结果指示目标文本为目标类型的情况下，从目标应用平台中已发布的文本中删除目标文本。可选的，目标非文本特征向量可以但不限于还用于表示在目标应用平台中发布目标文本的目标账号的账号数据，其中，账号数据包括了可影响目标文本在目标应用平台中发布后的传播数据的相关数据，例如账号粉丝量、账号月/日均阅读量等。

具体实施例可以参考上述文本类型识别方法中所示示例，本示例中在此不再赘述。

作为一种可选的方案，如图9所示，输入单元806包括：

整合模块902，用于在第一识别模型中对目标文本特征向量和目标非文本特征向量进行整合，得到目标特征向量；

第一输入模块904，用于将目标特征向量输入第一识别模型中的分类函数，得到与目标文本匹配的分类结果；

结果模块906，用于将分类结果作为第一识别结果。

作为一种可选的方案，响应单元804包括：

第一获取模块，用于获取目标文本中包含的内容文本；

处理模块，用于对内容文本进行分词处理，得到多个语义特征词；

第二获取模块，用于获取与多个语义特征词中的每个语义特征词匹配的互信息，其中，互信息用于指示语义特征词与目标类型的相关程度；

第一提取模块，用于根据互信息从多个语义特征词中提取关键词，并对关键词进行转化得到目标文本向量。

作为一种可选的方案，响应单元804包括：

第三获取模块，用于获取目标文本被发布后的发布数据，其中，发布数据包括以下之一：目标文本的阅读量、目标文本的评论量、目标文本的转发量及与用于发布目标文本的目标账号关联的账号数量；

第二提取模块，用于根据发布数据提取非文本特征；

转化模块，用于对非文本特征进行转化得到目标非文本特征向量。

作为一种可选的方案，包括：

第二获取单元，用于在获取第一文本识别请求之前，获取样本数据，其中，样本数据包括多个样本文本，多个样本文本中包括属于目标类型的正样本文本和并非目标类型的负样本文本；

提取单元，用于在获取第一文本识别请求之前，从样本数据中提取出与每个样本文本分别对应的样本文本特征向量和样本非文本特征向量；

第二输入单元，用于在获取第一文本识别请求之前，将与每个样本文本分别对应的样本文本特征向量和样本非文本特征向量，输入初始化的第一识别模型进行训练，以得到第一识别模型。

作为一种可选的方案，第二输入单元包括：

重复模块，用于重复执行以下步骤，直至第一识别模型达到收敛条件：

第四获取模块，用于获取当前样本文本；

第二输入模块，用于将与当前样本文本对应的当前样本文本特征向量和当前样本非文本特征向量，输入当前训练中的第一识别模型；

第五获取模块，用于获取当前输出结果，其中，当前输出结果中包括第一识别模型中的当前目标函数输出的识别结果；

确定模块，用于在当前目标函数输出的识别结果指示达到最大值的情况下，确定第一识别模型达到收敛条件；

第六获取模块，用于在当前目标函数输出的识别结果指示尚未达到最大值的情况下，获取下一个样本文本作为当前样本文本。

根据本发明实施例的又一个方面，还提供了一种用于实施上述文本类型识别方法的电子装置，如图10所示，该电子装置包括存储器1002和处理器1004，该存储器1002中存储有计算机程序，该处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述电子装置可以位于计算机网络的多个网络设备中的至少一个网络设备。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

S1，获取第一文本识别请求，其中，第一文本识别请求用于请求识别在目标应用平台中发布的待识别的目标文本是否属于目标类型，目标类型为目标应用平台中被禁止发布的文本的类型；

S2，响应第一文本识别请求，获取与目标文本对应的目标文本特征向量和目标非文本特征向量，其中，目标文本特征向量用于表示目标文本中包含的内容文本的文本信息，目标非文本特征向量用于表示目标文本在目标应用平台中被发布后的发布数据；

S3，将目标文本特征向量和目标非文本特征向量输入第一识别模型，得到第一识别结果，其中，第一识别模型为利用样本数据训练后得到的分类模型；

S4，在第一识别结果指示目标文本为目标类型的情况下，从目标应用平台中已发布的文本中删除目标文本。

可选地，本领域普通技术人员可以理解，图10所示的结构仅为示意，电子装置也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices，MID)、PAD等终端设备。图10其并不对上述电子装置的结构造成限定。例如，电子装置还可包括比图10中所示更多或者更少的组件(如网络接口等)，或者具有与图10所示不同的配置。

其中，存储器1002可用于存储软件程序以及模块，如本发明实施例中的文本类型识别方法和装置对应的程序指令/模块，处理器1004通过运行存储在存储器1002内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的文本类型识别方法。存储器1002可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1002可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中，存储器1002具体可以但不限于用于存储第一文本识别请求、目标文本、目标类型、目标文本特征向量、目标非文本特征向量以及第一识别结果等信息。作为一种示例，如图10所示，上述存储器1002中可以但不限于包括上述文本类型识别装置中的获取单元802、响应单元804、输入单元806及删除单元808。此外，还可以包括但不限于上述文本类型识别装置中的其他模块单元，本示例中不再赘述。

可选地，上述的传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1006包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1006为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

此外，上述电子装置还包括：显示器1008，用于显示上述第一文本识别请求、目标文本、目标类型、目标文本特征向量、目标非文本特征向量以及第一识别结果等信息；和连接总线1010，用于连接上述电子装置中的各个模块部件。

根据本发明的实施例的又一方面，还提供了一种计算机可读的存储介质，该计算机可读的存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

可选地，在本实施例中，上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序：

可选地，在本实施例中，本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(Random Access Memory，RAM)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本类型识别方法，其特征在于，包括：

获取第一文本识别请求，其中，所述第一文本识别请求用于请求识别在目标应用平台中发布的待识别的目标文本是否属于目标类型，所述目标类型为所述目标应用平台中被禁止发布的文本的类型；

响应所述第一文本识别请求，获取与所述目标文本对应的目标文本特征向量和目标非文本特征向量，其中，所述目标文本特征向量用于表示所述目标文本中包含的内容文本的文本信息，所述目标非文本特征向量用于表示所述目标文本在所述目标应用平台中被发布后的发布数据；

将所述目标文本特征向量和所述目标非文本特征向量输入第一识别模型，得到第一识别结果，其中，所述第一识别模型为利用样本数据训练后得到的分类模型；

在所述第一识别结果指示所述目标文本为所述目标类型的情况下，从所述目标应用平台中已发布的文本中删除所述目标文本。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标文本特征向量和所述目标非文本特征向量输入第一识别模型，得到第一识别结果包括：

在所述第一识别模型中对所述目标文本特征向量和所述目标非文本特征向量进行整合，得到目标特征向量；

将所述目标特征向量输入所述第一识别模型中的分类函数，得到与所述目标文本匹配的分类结果；

将所述分类结果作为所述第一识别结果。

3.根据权利要求1所述的方法，其特征在于，所述获取与所述目标文本对应的所述目标文本特征向量包括：

获取所述目标文本中包含的所述内容文本；

对所述内容文本进行分词处理，得到多个语义特征词；

获取与所述多个语义特征词中的每个语义特征词匹配的互信息，其中，所述互信息用于指示所述语义特征词与所述目标类型的相关程度；

根据所述互信息从所述多个语义特征词中提取关键词，并对所述关键词进行转化得到所述目标文本向量。

4.根据权利要求1所述的方法，其特征在于，所述获取与所述目标文本对应的所述目标非文本特征向量包括：

获取所述目标文本被发布后的所述发布数据，其中，所述发布数据包括以下之一：所述目标文本的阅读量、所述目标文本的评论量、所述目标文本的转发量及与用于发布所述目标文本的目标账号关联的账号数量；

根据所述发布数据提取非文本特征；

对所述非文本特征进行转化得到所述目标非文本特征向量。

5.根据权利要求1所述的方法，其特征在于，所述在所述获取第一文本识别请求之前包括：

获取所述样本数据，其中，所述样本数据包括多个样本文本，所述多个样本文本中包括属于所述目标类型的正样本文本和并非所述目标类型的负样本文本；

从所述样本数据中提取出与每个样本文本分别对应的样本文本特征向量和样本非文本特征向量；

将与每个所述样本文本分别对应的所述样本文本特征向量和所述样本非文本特征向量，输入初始化的所述第一识别模型进行训练，以得到所述第一识别模型。

6.根据权利要求5所述的方法，其特征在于，所述将与每个所述样本文本分别对应的所述样本文本特征向量和所述样本非文本特征向量，输入初始化的所述第一识别模型进行训练，以得到所述第一识别模型包括：重复执行以下步骤，直至所述第一识别模型达到收敛条件：

获取当前样本文本；

将与所述当前样本文本对应的当前样本文本特征向量和当前样本非文本特征向量，输入当前训练中的所述第一识别模型；

获取当前输出结果，其中，所述当前输出结果中包括所述第一识别模型中的当前目标函数输出的识别结果；

在所述当前目标函数输出的识别结果指示达到最大值的情况下，确定所述第一识别模型达到所述收敛条件；

在所述当前目标函数输出的识别结果指示尚未达到最大值的情况下，获取下一个样本文本作为所述当前样本文本。

7.一种文本类型识别装置，其特征在于，包括：

第一获取单元，用于获取第一文本识别请求，其中，所述第一文本识别请求用于请求识别在目标应用平台中发布的待识别的目标文本是否属于目标类型，所述目标类型为所述目标应用平台中被禁止发布的文本的类型；

响应单元，用于响应所述第一文本识别请求，获取与所述目标文本对应的目标文本特征向量和目标非文本特征向量，其中，所述目标文本特征向量用于表示所述目标文本中包含的内容文本的文本信息，所述目标非文本特征向量用于表示所述目标文本在所述目标应用平台中被发布后的发布数据；

第一输入单元，用于将所述目标文本特征向量和所述目标非文本特征向量输入第一识别模型，得到第一识别结果，其中，所述第一识别模型为利用样本数据训练后得到的分类模型；

删除单元，用于在所述第一识别结果指示所述目标文本为所述目标类型的情况下，从所述目标应用平台中已发布的文本中删除所述目标文本。

8.根据权利要求7所述的装置，其特征在于，所述输入单元包括：

整合模块，用于在所述第一识别模型中对所述目标文本特征向量和所述目标非文本特征向量进行整合，得到目标特征向量；

输入模块，用于将所述目标特征向量输入所述第一识别模型中的分类函数，得到与所述目标文本匹配的分类结果；

结果模块，用于将所述分类结果作为所述第一识别结果。

9.一种计算机可读的存储介质，所述计算机可读的存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至6任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。