CN111159409B - 基于人工智能的文本分类方法、装置、设备、介质 - Google Patents

基于人工智能的文本分类方法、装置、设备、介质 Download PDF

Info

Publication number
CN111159409B
CN111159409B CN201911407045.XA CN201911407045A CN111159409B CN 111159409 B CN111159409 B CN 111159409B CN 201911407045 A CN201911407045 A CN 201911407045A CN 111159409 B CN111159409 B CN 111159409B
Authority
CN
China
Prior art keywords
text
word
sequence
classification
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911407045.XA
Other languages
English (en)
Other versions
CN111159409A (zh
Inventor
刘志煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201911407045.XA priority Critical patent/CN111159409B/zh
Publication of CN111159409A publication Critical patent/CN111159409A/zh
Application granted granted Critical
Publication of CN111159409B publication Critical patent/CN111159409B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Abstract

公开了一种基于人工智能的文本分类方法、装置、设备、介质。所述文本包括至少一个词,以及所述至少一个词中的至少一部分形成规则序列,所述方法包括:确定所述文本中每个词的词性,以确定所述文本的词性序列,其中所述词性序列指示所述规则序列在所述文本中的位置;基于所述至少一个词的词向量确定所述文本的文本序列;基于所述文本序列和所述词性序列确定待分类序列;对所述待分类序列进行分类,以确定所述文本所属的分类类别。利用本申请提供的文本分类方法、装置、设备、介质,能够使模型在提取文本特征时更关注这部分序列中的信息,从而提高后续基于文本特征进行分类的效果。

Description

基于人工智能的文本分类方法、装置、设备、介质
技术领域
本申请涉及文本处理领域,更具体地涉及一种文本分类方法、装置、设备、介质。
背景技术
文本处理技术具有广泛的商业应用场景。在电子商务、新闻资讯、社交论坛等各种平台上,通过文本处理技术能够挖掘出文本中的更多信息。例如,在金融相关的资讯新闻场景中,通过对相关的新闻文本进行分析能够更好地分析个股涨跌的原因。又例如,在电子商务的推荐场景中,通过对特定商品的评论文本进行分析能够挖掘评论文本的情感属性,可以更好地指导购物者根据自身需求进行筛选,提高购物体验和效率。
发明内容
根据本申请的一方面,提出了一种基于人工智能的文本分类方法,所述文本包括至少一个词,以及所述至少一个词中的至少一部分形成规则序列,所述方法包括:确定所述文本中每个词的词性,以确定所述文本的词性序列,其中所述词性序列指示所述规则序列在所述文本中的位置;基于所述至少一个词的词向量确定所述文本的文本序列;基于所述文本序列和所述词性序列确定待分类序列;对所述待分类序列进行分类,以确定所述文本所属的分类类别。
在一些实施例中,所述规则序列是由至少一个属于预设词类别的词形成的序列,所述方法还包括:对输入文本进行分词,以确定所述输入文本中的至少一个词;针对所述输入文本中每个词,根据该词和所述至少一个预设词类别之间的映射关系确定用于该词的词类别;基于所述输入文本中的至少一个词的词类别对所述输入文本进行划分,以确定包含所述规则序列的至少一个用于分类的文本。
在一些实施例中,所述至少一个预设词类别包括:指示评价对象的属性词;指示所述评价对象的情感极性的情感词;指示所述评价对象的情感程度的程度副词;以及否定词。
在一些实施例中,确定所述文本的词性序列包括:针对所述文本中的每个词,确定该词的词性对应的词性向量;确定该词所属的词类别的类别标签向量;以及拼接该词对应的词性向量和该词所属的词类别的类别标签向量,以得到该词对应的拼接后的词性向量;组合每个词对应的拼接后的词性向量以得到所述文本的词性序列。
在一些实施例中,确定所述文本的文本序列包括:针对所述文本中的每个词,确定该词的词向量;组合所述文本中每个词的词向量以确定所述文本序列。
在一些实施例中,基于所述文本序列和所述词性序列确定待分类序列包括:针对所述文本中的每个词,拼接该词的词向量和所述文本中至少一个构成规则序列的词的词向量,以得到拼接后的文本序列;对所述拼接后的文本序列和所述词性序列进行叠加,以得到所述待分类序列。
在一些实施例中,所述映射关系是通过以下步骤确定的:确定词类别样本集,其中所述词类别样本集中包括至少两个样本文本;对所述至少两个样本文本进行分词和词性标注,以确定所述至少两个样本文本对应的至少两个样本词性序列;对所述至少两个样本词性序列进行统计,以确定所述至少两个样本词性序列中存在的频繁序列,其中所述频繁序列在所述至少两个样本词性序列中出现的次数大于预设的最小支持阈值;当所述频繁序列符合预设的置信度时,将所述频繁序列确定为规则序列;确定所述频繁序列中的词和所述至少一个预设词类别之间的映射关系。
在一些实施例中,对所述待分类特征进行分类,以确定所述文本所属的分类类别包括:利用分类网络对所述待分类序列进行处理,所述文本的文本特征;对所述文本特征进行分类以确定用于所述文本所属的分类类别。
在一些实施例中,对所述文本特征进行分类以确定用于所述文本所属的分类类别包括:利用分类器对所述文本特征进行处理并输出用于所述文本的分类结果,其中所述分类结果指示所述文本属于预设的至少两个分类类别的概率。
在一些实施例中,所述分类器是softmax分类器或xgboost分类器。
根据本申请的另一方面,还提供了一种基于人工智能的文本分类装置,,所述文本包括至少一个词,以及所述至少一个词中的至少一部分形成规则序列,所述装置包括:词性序列确定单元,配置成确定所述文本中每个词的词性,以确定所述文本的词性序列,其中所述词性序列指示所述规则序列在所述文本中的位置;文本序列确定单元,配置成基于所述至少一个词确定所述文本的文本序列;待分类序列确定单元,配置成基于所述文本序列和所述词性序列确定待分类序列;分类单元,配置成对所述待分类序列进行分类,以确定所述文本所属的分类类别。
在一些实施例中,所述规则序列是由至少一个属于预设词类别的词形成的序列,所述装置还包括预处理单元,其中所述预处理单元配置成:对输入文本进行分词,以确定所述输入文本中的至少一个词;针对所述输入文本中每个词,根据该词和所述至少一个预设词类别之间的映射关系确定用于该词的词类别;基于所述输入文本中的至少一个词的词类别对所述输入文本进行划分,以确定包含所述规则序列的至少一个用于分类的文本。
在一些实施例中,所述至少一个预设词类别包括:指示评价对象的属性词;指示所述评价对象的情感极性的情感词;指示所述评价对象的情感程度的程度副词;以及否定词。
在一些实施例中,所述词性序列确定单元配置成:针对所述文本中的每个词,确定该词的词性对应的词性向量;确定该词所属的词类别的类别标签向量;以及拼接该词对应的词性向量和该词所属的词类别的类别标签向量,以得到该词对应的拼接后的词性向量;组合每个词对应的拼接后的词性向量以得到所述文本的词性序列。
在一些实施例中,所述文本序列确定单元配置成针对所述文本中的每个词,确定该词的词向量;组合所述文本中每个词的词向量以确定所述文本序列。
在一些实施例中,所述待分类序列确定单元配置成针对所述文本中的每个词,拼接该词的词向量和所述文本中至少一个构成规则序列的词的词向量,以得到拼接后的文本序列;对所述拼接后的文本序列和所述词性序列进行叠加,以得到所述待分类序列。
在一些实施例中,所述映射关系是通过以下步骤确定的:确定词类别样本集,其中所述词类别样本集中包括至少两个样本文本;对所述至少两个样本文本进行分词和词性标注,以确定所述至少两个样本文本对应的至少两个样本词性序列;对所述至少两个样本词性序列进行统计,以确定所述至少两个样本词性序列中存在的频繁序列,其中所述频繁序列在所述至少两个样本词性序列中出现的次数大于预设的最小支持阈值;当所述频繁序列符合预设的置信度时,将所述频繁序列确定为规则序列;确定所述频繁序列中的词和所述至少一个预设词类别之间的映射关系。
在一些实施例中,所述分类单元配置成:利用分类网络对所述待分类序列进行处理,所述文本的文本特征;对所述文本特征进行分类以确定用于所述文本所属的分类类别。
在一些实施例中,所述分类单元配置成利用分类器对所述文本特征进行处理并输出用于所述文本的分类结果,其中所述分类结果指示所述文本属于预设的至少两个分类类别的概率。
在一些实施例中,所述分类器是softmax分类器或xgboost分类器。
根据本申请的又一方面,还提供了一种文本处理设备,包括:一个或多个处理器;和一个或多个存储器,其中,所述存储器中存储有计算机可读代码,所述计算机可读代码当由所述一个或多个处理器运行时,执行如前所述的文本分类方法。
根据本申请的又一方面,还提供了一种计算机可读存储介质,其上存储有指令,所述指令在被处理器执行时,使得所述处理器执行如前所述的文本分类方法。
利用本申请提供的文本分类方法、装置、设备、介质,可以在特定应用场景的样本集中挖掘更多的特征词,从而使得特定场景下的文本分析能够得到更有效的结果。此外,在利用例如Transformer机制的神经网络对文本进行特征提取时,通过同时考虑反映类别序列规则的词性序列的位置信息,能够使模型在提取文本特征时更关注这部分序列中的信息,从而提高后续基于文本特征进行分类的效果。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员而言,在没有做出创造性劳动的前提下,还可以根据这些附图获得其他的附图。以下附图并未刻意按实际尺寸等比例缩放绘制,重点在于示出本申请的主旨。
图1示出了根据本申请的文本处理系统的示例性的场景图;
图2示出了根据本申请的实施例的基于人工智能的文本分类方法的示意性的流程图;
图3示出了基于Transformer机制的分类神经网络的示意图;
图4示出了根据本申请实施例的基于规则序列建立词和词类别之间的映射关系的过程;
图5示出了根据图4中示出的方法流程的示意性的过程;
图6示出了根据本申请的实施例的文本处理装置的示意性的框图;
图7示出了根据本申请的文本分类过程的一种示例;以及
图8示出了根据本申请的实施例的计算设备的架构。
具体实施方式
下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述,显而易见地,所描述的实施例仅仅是本申请的部分实施例,而不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,也属于本申请保护的范围。
如本申请和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其他的步骤或元素。
虽然本申请对根据本申请的实施例的系统中的某些模块做出了各种引用,然而,任何数量的不同模块可以被使用并运行在用户终端和/或服务器上。所述模块仅是说明性的,并且所述系统和方法的不同方面可以使用不同模块。
本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是,前面或下面操作不一定按照顺序来精确地执行。相反,根据需要,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
针对文本进行细粒度情感分析自然语言处理技术在各种场景中非常常见的应用。例如在电子商务、新闻资讯、社交论坛等这样的应用场景中,可以在文本中抽取评价对象,并对所抽取的评价对象进行情感分析。
利用现有的自然语言处理技术,对评价对象进行情感分析首先需要从文本中挖掘包括评价对象和评价词的评价要素。例如,针对“服务很好,设施蛮不错,但是房间隔音实在太差”这段文本,可以提取出三组评价要素:<服务-好>、<设施-不错>、<隔音-差>。可以利用基于词典、模板以及语言专家制定的规则从文本中提取评价要素。也可以利用基于条件随机场、隐马尔可夫模型等序列标注方法提取评价要素。然而,依赖于词典、模板以及人工制定的规则的评价要素提取方法严重依赖于规则本身的制定方法,因此可扩展性和泛化能力较差,对于新领域和新出现的词汇无法识别,可能导致抽取的评价要素信息不完整。而基于条件随机场、隐马尔可夫模型等序列标注方法无法解决评价要素中的评价对象和评价词之间长距离依赖的问题。
为了解决上述问题,本申请提出来一种融合类别序列规则和文本分类机制的对文本中的评价对象进行细粒度情感分析的方法。
图1示出了根据本申请的文本处理系统的示例性的场景图。如图1所示,该文本处理系统100可以包括用户终端110、网络120、服务器130以及数据库140。
用户终端110可以是例如图1中示出的电脑110-1、手机110-2。可以理解的是,事实上,用户终端可以是能够执行数据处理的任何其他类型的电子设备,其可以包括但不限于台式电脑、笔记本电脑、平板电脑、智能手机、智能家居设备、可穿戴设备等。
根据本申请提供的用户终端可以用于接收待处理的文本,并利用本申请提供的方法实现文本处理。例如,用户终端可以通过用户终端上输入设备(如键盘、鼠标、手写板、触摸屏等)接收待处理的文本。又例如,用户终端也可以经由网络从服务器接收待处理的文本。再例如,用户终端也可以接收对应于待处理的文本的音频数据,并对音频数据进行语音识别以得到待处理的文本。用户终端可以利用麦克风这样的输入设备接收对应的音频数据,或经由网络从服务器接收对应的音频数据。
在一些实施例中,可以利用用户终端的处理单元执行本申请提供的文本处理方法。在一些实现方式中,用户终端可以利用用户终端内置的应用程序执行文本处理方法。在另一些实现方式中,用户终端可以通过调用用户终端外部存储的应用程序执行本申请提供的文本处理方法。
在另一些实施例中,用户终端将接收的待处理的文本经由网络120发送至服务器130,并由服务器130执行文本处理方法。在一些实现方式中,服务器130可以利用服务器内置的应用程序执行文本处理方法。在另一些实现方式中,服务器130可以通过调用服务器外部存储的应用程序执行文本处理方法。
网络120可以是单个网络,或至少两个不同网络的组合。例如,网络120可以包括但不限于局域网、广域网、公用网络、专用网络等中的一种或几种的组合。
服务器130可以是一个单独的服务器,或一个服务器群组,群组内的各个服务器通过有线的或无线的网络进行连接。一个服务器群组可以是集中式的,例如数据中心,也可以是分布式的。服务器130可以是本地的或远程的。
数据库140可以泛指具有存储功能的设备。数据库130主要用于存储从用户终端110和服务器130工作中所利用、产生和输出的各种数据。数据库140可以是本地的,或远程的。数据库140可以包括各种存储器、例如随机存取存储器(Random Access Memory(RAM))、只读存储器(Read Only Memory(ROM))等。以上提及的存储设备只是列举了一些例子,该系统可以使用的存储设备并不局限于此。
数据库140可以经由网络120与服务器130或其一部分相互连接或通信,或直接与服务器130相互连接或通信,或是上述两种方式的结合。
在一些实施例中,数据库150可以是独立的设备。在另一些实施例中,数据库150也可以集成在用户终端110和服务器140中的至少一个中。例如,数据库150可以设置在用户终端110上,也可以设置在服务器140上。又例如,数据库150也可以是分布式的,其一部分设置在用户终端110上,另一部分设置在服务器140上。
下文中将详细阐述本申请提供的文本处理方法的流程。
图2示出了根据本申请的实施例的基于人工智能的文本分类方法的示意性的流程图。其中用于分类的文本包括至少一个词,以及文本中的所述至少一个词中的至少一部分形成规则序列。
所述规则序列是由至少一个属于预设的词类别的词形成的序列。在一些实施例中,所述规则序列对应于符合预设规则的评价要素。例如,所述规则序列中至少可以包括指示评价对象的属性词以及指示评价的情感极性的情感词。又例如,所述规则序列还可以包括指示评价的情感程度的程度副词以及否定词。
规则序列可以表示为标记有类别信息的序列,例如,一般地,可以将规则序列表示为<S1C1S2C2S2C3>的形式,其中S表示序列数据库,Si表示序列数据库中的第i个序列,C表示词类别的集合,Cr表示第r个词类别的类别标签。
预设的词类别可以是指示评价要素的词的类别。例如,预设的词类别可以包括上述的属性词、情感词、程度副词以及否定词中的一种或多种。词与词类别之间存在预设的映射关系。利用这样的映射关系可以确定文本中的词属于预设的词类别中的哪一个。在一些实施例中,预设的词类别也可以包括“空”类别。可以将不属于上述指示评价要素的词类别都划分为“空”类别。
针对任一应用场景,可以基于词类别样本集挖掘词和词类别之间的映射关系。利用本申请提供的方法,可以基于少量的、预定义的词与词类别之间的映射关系,在样本集中挖掘更多的词与词类别之间的映射关系。利用这种方法,即使将该方法应用于新的应用场景的情况下,或者应用场景中不断出现新的词的情况下,也能够有效识别出文本中的评价要素。下文中将结合图4描述本申请提供的建立词和词类别之间的映射关系的过程,在此不再加以赘述。
在步骤S202中,可以对输入文本进行预处理,以确定用于分类的文本。
在一些实施例中,所述预处理可以包括对输入文本进行分词,以确定所述输入文本中的包括的至少一个词。例如,针对拉丁语系的文本,可以利用空格作为词语的天然分隔符。又例如,针对中文文本,可以基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法对文本进行分词。在一个示例中,针对文本“房间很舒服”,可以利用分词将输入文本划分成“房间”、“很”、“舒服”这三个词。当输入文本中包括断句标点符号时,可以以断句标点符号为间隔对输入文本进行分句,并对每个分句进行分词。
在一些实施例中,所述预处理还可以包括对输入文本中的词进行词性标注。利用分词结果可以确定输入文本中存在的词以及每个词对应的词性。可以利用任何方式进行词性标注。例如,可以将名词标记为n、形容词标记为a、副词标记为d。可以利用现有的语料库的标记方式对输入文本中的词进行词性标注。在此本申请不限制词性标注的具体形式。
进一步地,所述预处理可以包括针对所述输入文本中每个词,根据该词和所述至少一个预设词类别之间的映射关系确定用于该词的词类别。
利用本身请在下文中将要描述的挖掘方法,可以确定词典中的词和预设的词类别(如属性词、情感词、程度副词、否定词)之间的映射关系,并可以根据这样的映射关系确定词的词类别。此外,输入文本中可能存在不属于任何预设的词类别的词。在这种情况下,可以认为这样的不属于任何预设的词类别的词属于“空”类别。
利用上述方式可以确定输入文本中所有词所属的类别。
下文中将以规则序列是{#/n&/d*/a}为例描述本申请的原理。其中{#/n&/d*/a}是代表规则序列的标记集。其中/n表示名词词性,/d表示副词词性,以及/a表示形容词词性。“#”是属性词对应的类别标记,“&”是程度副词对应的类别标记,以及“*”是情感词对应的类别标记。
在一个示例中,对于文本“房间很舒服,服务很好”,首先,将文本进行分句、分词和词性标注,输出结果为:“房间/n,很/d,舒服/a,|,服务/n,很/d,好/a”。然后,基于文本中的词和预设的词类别之间的映射关系,可以进一步将输入文本标注为“#/n,&/d,*/a,|,#/n,&/d,*/a”。
然后,所述预处理可以进一步包括基于所述输入文本中的至少一个词的词类别对所述输入文本进行划分,以确定包含所述规则序列的至少一个用于分类的文本。
在一些实施例中,可以基于输入文本中的词的类别标记对所述输入文本进行划分。在规则序列是{#/n&/d*/a}的情况下,可以根据该规则序列和输入文本中标记的类别对输入文本进行重新分句。在这种情况下,重新分句得到的文本可以包括一个或多个根据断句标点分割得到的分句。
例如,针对文本“今天入住的房间,很舒服”,如果按照断句标点进行自然分句,那么得到的两个分句“今天入住的房间”和“很舒服”分别都不具有完整的、包括评价对象和评价词的评价要素。因此,在评价对象和评价词在文本中的位置距离较远的情况下,如果将按照断句标点进行自然分句得到的结果分别进行文本分类,由于每个自然分句可能无法得到准确的分类结果。
针对这样的情况,如果按照本申请提供的上述方法基于规则序列和输入文本中的词所述的词类别对输入文本进行分句,那么上述两个分句“今天入住的房间,很舒服”将被划分为一个整体作为用于分类的文本,这个要分类的文本中包括完整的评价对象“房间”和评价词“舒服”。
利用上述方法对输入文本进行预处理,能够得到包含完整评价要素的用于分类的文本,从而使得能够在对文本进行文本分类的后续处理时得到更准确的结果。
在利用计算机执行文本处理方法时,由于计算机往往无法直接处理文本数据,因此在对文本进行处理时,需要先将文本转换为数值型数据。
在一些实施例中,待处理的文本被实现为自然语言的形式。在这种情况下,步骤S202还可以包括将用于分类的文本转换为数值型数据。例如,可以通过例如词嵌入(wordembedding)的方式将分词处理得到的多个单词分别转换为特定维度的词向量。类似地,也可以通过词嵌入的方式将词性信息也转换成与词向量相同维度的词性向量。
在一些实施例中,可以基于word2vec的方法确定本申请中涉及的词向量和词性向量。可以理解的是,本领域技术人员也可以利用其它方式实现上述将文本转换为数值型数据的方法。在此本申请不限制确定词向量和词性向量的具体形式。
在一些实施例中,如果可以直接获取用于分类的文本和适于计算机处理的文本数据,那么步骤202可以被省略。
在步骤S204中,可以确定所述用于分类的文本中每个词的词性,以确定所述文本的词性序列,其中所述词性序列指示所述规则序列在所述文本中的位置。
上文中已经介绍了如何对自然语言的文本进行词性标注,在此不再赘述。
基于每个词的词性对应的词性向量,可以确定所述文本的词性序列。
在一些实施例中,可以将每个词对应的词性向量按照每个词在句子中的顺序进行排列,所述词性序列可以表示为由每个词的词性向量排列而形成的矩阵。例如,针对文本“房间很舒服”,可以确定词语“房间”对应的词性“名词”的词性向量n、词语“很”对应的词性“副词”的词性向量d、词语“舒服”对应的词性“形容词”的词性向量a。上述文本的词性序列可以表示为矩阵[n d a]。
在一些实施例中,所述词性序列还可以包括表示用于分类的文本中每个词语所述的词类别的类别标签。在一种实现方式中,可以利用预设的类别标签向量表示每个预设的词类别的类别。在一些示例中,所述类别标签向量中的每个元素可以是随机的初始化值。在另一些示例中,所述类别标签向量也可以是任何用户预先指定的数值。只要针对每个预设的词类别的类别标签相互是不同的即可。对于属于“空”类别的词,其类别标签可以是全零向量,或者任何与前述越舍得词类别的类别标签不相同的向量。
可以拼接该词对应的词性向量和该词所属的词类别的类别标签向量,以得到该词对应的拼接后的词性向量。
在一些示例中,以词性向量是维度为200的向量、表示类别的类别标签向量的维度为200为例,拼接任一词对应的词性向量和该词所属的词类别的类别标签向量可以得到一个维度为400的向量。可以以词性向量在前、类别标签向量在后的方式进行拼接,也可以以类别标签向量在前、词性向量在后的方式进行拼接。
可以理解的是,尽管在上文中以词性信息表示为词性向量、类别信息表示为类别标签向量为例描述了本申请的原理,然而本领域技术人员事实上可以采用任何数学表达方式表示词的词性信息和类别信息。在采用其他数学表达方式(包括但不限于实数、虚数、向量、矩阵、张量等)表示词的词性信息和类别信息,本领域技术人员可以在不脱离本申请原理的情况下,采用适合的任何其它数学手段拼接词的词性信息和类别信息。
对于包括多个词的用于分类的文本,通过组合每个词对应的拼接后的词性向量,可以得到所述文本的词性序列。例如,可以将组合每个词对应的拼接后的词性向量组合成矩阵,来表示所述文本的词性序列。
在步骤S206中,可以确定所述文本的文本序列。在一些实施例中,可以针对所述文本中的每个词,确定该词的词向量,通过组合所述文本中每个词的词向量可以确定所述文本序列。可以采用与上文中确定词性序列相同的方式,将每个词的词向量组合成矩阵,来表示所述文本的文本序列。
例如,针对文本“这个房间很舒服”,可以利用前文中提到的分词方法将文本划分为以下四个词语:“这个”、“房间”、“很”、“舒服”。并可以确定每个词语的词性。可以确定用于分别表示这四个词语的词向量v1、v2、v3和v4。以v1、v2、v3和v4都是200维的向量为例,可以将v1、v2、v3和v4组合成表示文本的文本序列的矩阵V=[v1 v2 v3 v4]。
在步骤S208中,可以基于所述文本序列和所述词性序列确定待分类序列。
在一些实施例中,在所述文本序列和所述词性序列具有相同维度的情况下,可以叠加所述文本序列和所述词性序列以得到待分类序列。例如,可以将文本序列和词性序列中对应位置的元素的值进行求和,以得到待分类序列中对应位置的元素的值。
在一些实施例中,在确定待分类序列时,还可以考虑所述文本中包含的评价要素的信息。
在一种实现方式中,步骤S208可以包括针对所述文本中的每个词,拼接该词的词向量和所述文本中至少一个构成规则序列的词的词向量,以得到拼接后的文本序列。然后,步骤S208可以包括对所述拼接后的文本序列和所述词性序列进行叠加,以得到所述待分类序列。例如,可以将拼接后的文本序列和词性序列中对应位置的元素的值进行求和,以得到待分类序列中对应位置的元素的值。
在一些实施例中,拼接该词的词向量和所述文本中至少一个构成规则序列的词的词向量可以包括拼接文本中每个词的词向量和文本中包括的属性词的词向量。
结合本申请在步骤S202中描述的预处理步骤,在确定用于分类的文本时,通过根据规则序列对输入文本进行划分,所得到的用于分类的文本中可以包括并且仅包括一个属性词,该属性词指示该文本中的评价对象。因此,在确定待分类序列时,可以将所述文本中的每个词和该文本中包括的属性词对应的词向量进行拼接,以得到拼接后的文本序列。其中,所述拼接后的文本序列包括待分类的文本中的词的位置信息以及待分类文本中的评价对象的信息。
以词向量是维度为200维的向量为例,针对用于分类的文本“房间很舒服”确定的文本序列可以表示为[x y z],其中x表示词语“房间”的词向量,y表示词语“很”的词向量,z表示词语“舒服”的词向量。如前所述,在该文本中,评价对象可以是词语“房间”。因此,可以在文本序列[x y z]中每个词向量后面拼接词语“房间”对应的词向量x。在这种情况下,拼接后的文本序列可以表示为:
Figure BDA0002348932620000131
在词性向量是200维、类别标签向量也是200维的情况下,可以看出,文本的词性序列的尺寸和上述拼接后的文本序列的尺寸是相同的。因此,可以通过将词性序列中的元素和拼接后的文本序列中对应位置的元素的值相加,以实现对文本的词性序列和拼接后的文本序列的叠加,从而得到用于所述文本的待分类序列。
在另一些实施例中,也可以对文本的词性序列和拼接后的文本序列进行任何形式的数学处理,以融合文本的词性序列和拼接后的文本序列中的信息,以实现对文本的词性序列和拼接后的文本序列的叠加。
在步骤S210中,可以对所述待分类序列进行分类,以确定所述文本所属的分类类别。在本申请提供的细粒度情感分析的应用中,所述分类类别可以是依据文本的情感极性形成的类别。例如,所述分类类别可以包括褒义、中性、贬义。又例如,所述分类类别也可以仅包括褒义、贬义两类。以上示例并不构成对于本申请的限制。不脱离本申请提供的原理的情况下,也可以将本申请提供的方法用于其他的分类应用。本领域技术人员可以根据实际情况确定分类类别的种类。
在一些实施例中,可以利用用于分类的神经网络模型对所述待分类序列进行处理,以提取所述待分类序列中的文本特征。可以基于所提取的文本特征对所述待分类序列进行分类。
在一种实现方式中,可以利用基于转换(Transformer)机制的神经网络对步骤S208生成的待分类序列进行处理。
图3示出了基于Transformer机制的本申请使用的分类神经网络的示意图。
如图3所示,可以通过叠加结合图2描述的基于用于分类的文本生成的文本序列和词性序列确定待分类序列。
然后,可以利用基于Transformer机制的编码器310提取待分类序列中的文本特征。
注意力模块311可以用于将文本序列中其他相关单词的“理解”转换成我们正在处理的单词。针对待分类序列中的每个向量,注意力模块311可以将该向量与分别与三个矩阵Wq、Wk、Wv相乘,以得到三个新的向量Query、Key以及Value。其中Wq、Wk、Wv是训练参数。针对上述三个新的向量,可以将Query和Key做点乘,以得到对应的待分类序列中的当前词向量相对于序列中其他词向量的分数值,然后可以将点乘的结果除以一个常数,并将得到的结果进行softmax计算,以得到待分类序列中每个词对于当前位置的词的相关性大小。接下来,可以将Value向量和Softmax得到的值进行相乘,并相加,以得到当前的注意力值。利用上述方式能够使得编码器在对待分类序列中的每个词向量进行特征提取时,还能够查看输入的待分类序列中的其他单词。
在一些实现方式中,注意力模块311可以是多头注意力层(Multi-
attention)。多头注意力层可以采用多组矩阵Wq、Wk、Wv并分别得到对应的注意力值的结果,通过结合多组结果确定最终的注意力值。
归一化层312可以用于对处理中的每一小批数据进行归一化,从而使得背后处理的数据不会落在激活函数的饱和区,从而更好地优化深度网络。
前馈模块313可以用于将神经网络中处理的数据送入下一模块。线性层314可以用于对被处理的数据进行线性变换。
利用前述的基于Transformer机制的编码器310,能够对待分类序列进行数据处理,并提取处待分类序列中的文本特征。
分类器320可以用于对编码器310输出的文本特征进行分类。在一些实施例中,分类器320可以实现为softmax分类器或xgboost分类器。上述示例并不构成对本申请的限制,在实际应用中,本领域技术人员可以选择任何可用的分类器实现分类操作。
以softmax分类器为例,分类器320可以对编码器输出的文本特征进行处理,并输出指示所述文本属于预设的分类类别的结果。以预设的分类类别包括褒义、中性和贬义三种类别为例,分类器320可以输出所述文本分别属于上述三种类别的概率。例如,分类器320可以输出结果[0.8 0.1 0.1],表示用于分类的文本属于褒义类别的概率为0.8,属于中性类别的概率为0.1,属于贬义类别的概率为0.1。由此,可以确定用于分类的文本所述的类别。
尽管在上述示例中以三种分类类别为例描述了本申请的原理,然而上述示例并不构成对本申请的限制。本领域技术人员可以根据实际的应用场景设置预设的分类类别的数量,并相应地配置分类器,使得分类器输出所述文本分别属于每个类别的概率。
可以利用反向投影的方式对图3中示出的模型进行训练。在训练过程中,可以将包含上述规则序列的分句构成的样本集作为样本,将词典(例如知网词典)中已有情感词的情感极性的词汇样本作为训练数据。样本集中的每个训练样本都有对应的情感标签。如“这个酒店的房间很大”对应的属性词是“房间”,情感标签可以是1(褒义)。利用上述方法能够无需对训练标签进行人工标注,使得标签建立过程自动化,极大地提高了情感判别的效率。
利用本申请提供的上述文本处理方法,能够结合规则序列和用于实现分类的神经网络对输入文本进行分句和分类,使得能够在分类过程中提高评价要素的抽取效果,从而使得文本分类的结果更加准确。在上述方法中,由于规则序列的引入,能够解决文本中评价对象和评价词之间长距离依赖所带来的不利影响,使得在分类过程中模型更关注规则序列中包含的信息,提高了分类效果。
图4示出了根据本申请实施例的基于规则序列建立词和词类别之间的映射关系的过程。
如前所述,预设词类别可以包括属性词、情感词、程度副词和否定词。
在步骤S402中,可以确定词类别样本集,所述词类别样本集可以包括至少两个样本文本。
其中词类别样本集中包含根据应用场景标注的少数属性词(即评价对象)。
在步骤S404中,可以对词类别样本集中的样本文本进行分词和词性标注。在一些实现方式中,预设的属性词词类别中包含的事先标注的属性词数量可以是10。此外,可以根据知网情感词典、程度副词词典、否定词词典对样本文本中的情感词、程度副词和否定词进行标注。属性词、情感词、程度副词可以根据上文所描述的内容被标注为#、*和&。此外,否定词可以被标注为!。
利用步骤S404可以确定所述至少两个样本文本对应的至少两个样本词性序列。
在步骤S406中,可以对所述至少两个样本词性序列进行统计,以确定所述至少两个样本词性序列中存在的频繁序列。其中所述频繁序列在所述至少两个样本词性序列中出现的次数大于预设的最小支持阈值。
在一些实施例中,可以通过基于频繁模式挖掘的prefixspan算法或GSP算法对所述至少两个样本词性序列进行统计。
下面将以样本文本为“这个酒店的房间很大”以及“性价比非常高”为例描述基于prefixspan算法的频繁序列的挖掘过程。
如前所述,可以对上述两个样本文本进行词性标注,以得到下面两个词性标注结果:
这个/r酒店/n的/u房间/n很/d大/a,
性价比/n非常/a高/a,
其中/r表示代词词性,/n表示名词词性,/u表示助词词性,/d表示副词词性以及/a表示形容词词性。
此外,在情感词典中存在“大”作为情感词,因此,可以将第一句的词性进一步标注为:
这个/r酒店/n的/u房间/n很/d大*/a,
其中*表示情感词的标签。
利用prefixspan算法,首先统计样本文本中出现的所有词性以及词性出现的次数,结果如表1所示:
表1
/r /n /u /d /a
1 3 1 2 2
可以通过比较词性出现的次数和预设的最小支持度来判断频繁序列中所包括的词性。由于各个序列之间的长度差别可能很大,因此使用但以固定的最小支持度来进行频繁序列的判断并不合适。本申请提供的方法中采用了多最小支持度的策略。在一些实施例中,最小支持度可以通过将最小支持率a与序列长度n相乘来得到。也就是说,最小支持度min_sup=a×n。
在上述示例中,可以将最小支持率a设置为0.5,序列长度是2(因为样本数量为2),因此,可以将表1中出现次数大于2×0.5=1次(即至少2次)的词性元素作为频繁序列中的词性元素的候选。
可以看出,在表1中至少出现2次的词性元素包括/n(出现3次)、/d(出现2次)以及/a(出现2次)。
可以通过迭代的方式在上述样本中确定频繁序列。
满足该最小支持度阈值的频繁一项前缀以及其对应的后缀见表2所示。
表2
Figure BDA0002348932620000171
Figure BDA0002348932620000181
接下来找后缀中同样满足该最小支持度阈值的元素添加到前缀模式中,结果如表3所示。
表3
Figure BDA0002348932620000182
利用类似的方法,可以得到频繁三项前缀,如表4所示。
表4
频繁三项前缀 对应后缀(即在所有样本中出现在这个词性后面的元素)
/n/d/a (无)
直到对应后缀没有满足该支持度的元素,算法迭代完成,得到的最长频繁前缀(这里即频繁三项前缀)即为我们挖掘的频繁词性序列模式,这里即为:/n/d/a。
在步骤S408中,可以基于预定的最小置信度将步骤S406中确定的频繁词性序列确定为规则序列。当所述频繁序列符合预设的置信度时,可以将所述频繁序列确定为规则序列。
如前所述,在存在四种预设的词类别(属性词、情感词、否定词、程度副词)的情况下,当频繁序列中出现一种已经被确定为预设的词类别的词时,可以认为其置信度的贡献为1/4=0.25。
在一些示例中,最小置信度可以被设置为0.1,因此,当利用步骤S406确定的频繁词性序列中包含一种或更多的类别标签时,就可以认为该频繁词性序列符合置信度要求。如果最小置信度被设置为0.3,那么只有当频繁词性序列中包含两种或更多的类别标签时才被认为符合置信度要求。下面将以最小置信度为0.1为例描述本申请的原理。
如前所述,上述两个样本的词性标注结果分别为:
这个/r酒店/n的/u房间/n很/d大*/a,以及
性价比/n非常/a高/a。
可以看出,在第一个样本“这个酒店的房间很大”的词性序列中包含的频繁词性序列/n/d/a中由于存在标注有类别标签*的形容词,因此,第一个样本中出现的频繁词性序列符合置信度要求。也就是说,第一个样本中出现的频繁词性序列/n/d*/a是规则序列。在确定了序列“房间/n很/d大*/a”是规则序列的情况下,可以将该频繁序列中当前没有标注类别标签的词性打上类别标签,也就是#/n&/d*/a。因此,#所标注的名词“房间”可以被标注为属于属性词,&所标注的副词“很”可以被标注为属于程度副词。
由此,在步骤S410中,可以建立词语“房间”和属性词词类别之间的映射关系,以及词语“很”和程度副词类别之间的映射关系。
相反,在第二个样本中出现的词性序列/n/d/a中不存在类别标签,因此不满足最小置信度的要求,因此第二个样本中出现的词性序列不属于规则序列。
利用上述方法对应用场景的样本集进行挖掘,可以针对每个应用场景挖掘其中的属性词(如评价对象)、情感词、程度副词以及否定词类别的词语。利用上述方法可以免去人工对样本中的词语进行标注的过程。即使最初标注的词语类别不够全面,也可以基于上述挖掘方法使得样本中相应类别的词语和词类别之间能够建立起映射关系。
可以基于利用上述方法建立的映射关系扩充属于预设的词类别的词语。在上文中的示例中,事先设置的属性词词类别中不包括名词“房间”,由于可以利用上述方法将“房间”标注为属于属性词。因此预设的属性词词类别被扩充为还包含词语“房间”。
可以利用多轮迭代挖掘的方式对样本进行挖掘。例如,在第一轮挖掘确定了新的映射关系后,可以对样本中的重新进行标记,然后重复方法400,以实现迭代挖掘。可以在每一轮挖掘过程中使用上一轮挖掘后被扩充了的词类别包含的词语对样本进行再次挖掘。利用扩充后的属于预设的词类别的词语可以在样本中挖掘出更多的词语和词类别之间的映射关系。每一轮挖掘可以设置较高的支持度以保证挖掘规则的准确性。通过多轮的重新标注和迭代挖掘,能够确定最终的词语和词类别之间的映射关系。由于词性规则本身具有通用性,因此在不同的应用场景之间上述方法也具有较高的泛化性能。
图5示出了根据图4中示出的方法流程的示意性的过程。如图5所示,在步骤510处,可以确定此次频繁序列挖掘中所使用的预设的词类别的类别。然后,在步骤520处,可以设置此次频繁序列挖掘所使用的支持度。在步骤530处,可以利用如prefixspan算法或GSP算法挖掘样本中的频繁序列模式。在步骤540处,可以根据步骤510处确定的类别信息确定此次挖掘所遵循的规则。在步骤550处,可以设定此次挖掘使用的置信度,并判断在步骤530处挖掘的频繁序列模式是否满足置信度要求。在步骤560处,可以将符合置信度的频繁序列模式确定为规则序列,并将该序列添加到规则库。在步骤570处,可以根据在步骤560处挖掘的规则确定词语和预设的词类别之间的映射关系。
图6示出了根据本申请的实施例的文本处理装置的示意性的框图。如图6所示,文本处理装置600可以包括预处理单元610、词性序列确定单元620、文本序列确定单元630、待分类序列确定单元640以及分类单元650。
预处理单元610可以配置成对输入文本进行预处理,以确定用于分类的文本。
在一些实施例中,所述预处理可以包括对输入文本进行分词,以确定所述输入文本中的包括的至少一个词。例如,针对拉丁语系的文本,可以利用空格作为词语的天然分隔符。又例如,针对中文文本,可以基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法对文本进行分词。在一个示例中,针对文本“房间很舒服”,可以利用分词将输入文本划分成“房间”、“很”、“舒服”这三个词。当输入文本中包括断句标点符号时,可以以断句标点符号为间隔对输入文本进行分句,并对每个分句进行分词。
在一些实施例中,所述预处理还可以包括对输入文本中的词进行词性标注。利用分词结果可以确定输入文本中存在的词以及每个词对应的词性。可以利用任何方式进行词性标注。例如,可以将名词标记为n、形容词标记为a、副词标记为d。可以利用现有的语料库的标记方式对输入文本中的词进行词性标注。在此本申请不限制词性标注的具体形式。
进一步地,所述预处理可以包括针对所述输入文本中每个词,根据该词和所述至少一个预设词类别之间的映射关系确定用于该词的词类别。
利用本身请在下文中将要描述的挖掘方法,可以确定词典中的词和预设的词类别(如属性词、情感词、程度副词、否定词)之间的映射关系,并可以根据这样的映射关系确定词的词类别。此外,输入文本中可能存在不属于任何预设的词类别的词。在这种情况下,可以认为这样的不属于任何预设的词类别的词属于“空”类别。
利用上述方式可以确定输入文本中所有词所属的类别。
所述预处理可以进一步包括基于所述输入文本中的至少一个词的词类别对所述输入文本进行划分,以确定包含所述规则序列的至少一个用于分类的文本。
在一些实施例中,可以基于输入文本中的词的类别标记对所述输入文本进行划分。在规则序列是{#/n&/d*/a}的情况下,可以根据该规则序列和输入文本中标记的类别对输入文本进行重新分句。在这种情况下,重新分句得到的文本可以包括一个或多个根据断句标点分割得到的分句。
按照本申请提供的上述方法基于规则序列和输入文本中的词所述的词类别对输入文本进行分句,那么上述两个分句“今天入住的房间,很舒服”将被划分为一个整体作为用于分类的文本,这个要分类的文本中包括完整的评价对象“房间”和评价词“舒服”。
利用上述方法对输入文本进行预处理,能够得到包含完整评价要素的用于分类的文本,从而使得能够在对文本进行文本分类的后续处理时得到更准确的结果。
词性序列确定单元620可以配置成确定所述用于分类的文本中每个词的词性,以确定所述文本的词性序列,其中所述词性序列指示所述规则序列在所述文本中的位置。
上文中已经介绍了如何对自然语言的文本进行词性标注,在此不再赘述。
在利用计算机执行文本处理方法时,由于计算机往往无法直接处理文本数据,因此在对文本进行处理时,需要先将文本转换为数值型数据。
在一些实施例中,待处理的文本被实现为自然语言的形式。在这种情况下,预处理单元610还可以配置成将用于分类的文本转换为数值型数据。例如,可以通过例如词嵌入(word embedding)的方式将分词处理得到的多个单词分别转换为特定维度的词向量。类似地,也可以通过词嵌入的方式将词性信息也转换成与词向量相同维度的词性向量。
在一些实施例中,可以基于word2vec的方法确定本申请中涉及的词向量和词性向量。可以理解的是,本领域技术人员也可以利用其它方式实现上述将文本转换为数值型数据的方法。在此本申请不限制确定词向量和词性向量的具体形式。
基于每个词的词性对应的词性向量,可以确定所述文本的词性序列。
在一些实施例中,可以将每个词对应的词性向量按照每个词在句子中的顺序进行排列,所述词性序列可以表示为由每个词的词性向量排列而形成的矩阵。例如,针对文本“房间很舒服”,可以确定词语“房间”对应的词性“名词”的词性向量n、词语“很”对应的词性“副词”的词性向量d、词语“舒服”对应的词性“形容词”的词性向量a。上述文本的词性序列可以表示为矩阵[n d a]。
在一些实施例中,所述词性序列还可以包括表示用于分类的文本中每个词语所述的词类别的类别标签。在一种实现方式中,可以利用预设的类别标签向量表示每个预设的词类别的类别。在一些示例中,所述类别标签向量中的每个元素可以是随机的初始化值。在另一些示例中,所述类别标签向量也可以是任何用户预先指定的数值。只要针对每个预设的词类别的类别标签相互是不同的即可。对于属于“空”类别的词,其类别标签可以是全零向量,或者任何与前述越舍得词类别的类别标签不相同的向量。
词性序列确定单元610可以配置成可以拼接该词对应的词性向量和该词所属的词类别的类别标签向量,以得到该词对应的拼接后的词性向量。
在一些示例中,以词性向量是维度为200的向量、表示类别的类别标签向量的维度为200为例,拼接任一词对应的词性向量和该词所属的词类别的类别标签向量可以得到一个维度为400的向量。可以以词性向量在前、类别标签向量在后的方式进行拼接,也可以以类别标签向量在前、词性向量在后的方式进行拼接。
可以理解的是,尽管在上文中以词性信息表示为词性向量、类别信息表示为类别标签向量为例描述了本申请的原理,然而本领域技术人员事实上可以采用任何数学表达方式表示词的词性信息和类别信息。在采用其他数学表达方式(包括但不限于实数、虚数、向量、矩阵、张量等)表示词的词性信息和类别信息,本领域技术人员可以在不脱离本申请原理的情况下,采用适合的任何其它数学手段拼接词的词性信息和类别信息。
对于包括多个词的用于分类的文本,通过组合每个词对应的拼接后的词性向量,可以得到所述文本的词性序列。例如,可以将组合每个词对应的拼接后的词性向量组合成矩阵,来表示所述文本的词性序列。
文本词性序列确定单元630可以配置成确定所述文本的文本序列。在一些实施例中,可以针对所述文本中的每个词,确定该词的词向量,通过组合所述文本中每个词的词向量可以确定所述文本序列。可以采用与上文中确定词性序列相同的方式,将每个词的词向量组合成矩阵,来表示所述文本的文本序列。
待分类序列确定单元640可以配置成基于所述文本序列和所述词性序列确定待分类序列。
在一些实施例中,在所述文本序列和所述词性序列具有相同维度的情况下,可以叠加所述文本序列和所述词性序列以得到待分类序列。例如,可以将文本序列和词性序列中对应位置的元素的值进行求和,以得到待分类序列中对应位置的元素的值。
在一些实施例中,在确定待分类序列时,还可以考虑所述文本中包含的评价要素的信息。
在一种实现方式中,待分类序列确定单元630可以配置成针对所述文本中的每个词,拼接该词的词向量和所述文本中至少一个构成规则序列的词的词向量,以得到拼接后的文本序列。然后,待分类序列确定单元630可以配置成对所述拼接后的文本序列和所述词性序列进行叠加,以得到所述待分类序列。
在一些实施例中,拼接该词的词向量和所述文本中至少一个构成规则序列的词的词向量可以包括拼接文本中每个词的词向量和文本中包括的属性词的词向量。
在确定用于分类的文本时,通过根据规则序列对输入文本进行划分,所得到的用于分类的文本中可以包括并且仅包括一个属性词,该属性词指示该文本中的评价对象。因此,在确定待分类序列时,可以将所述文本中的每个词和该文本中包括的属性词对应的词向量进行拼接,以得到拼接后的文本序列。其中,所述拼接后的文本序列包括待分类的文本中的词的位置信息以及待分类文本中的评价对象的信息。
以词向量是维度为200维的向量为例,针对用于分类的文本“房间很舒服”确定的文本序列可以表示为[x y z],其中x表示词语“房间”的词向量,y表示词语“很”的词向量,z表示词语“舒服”的词向量。如前所述,在该文本中,评价对象可以是词语“房间”。因此,可以在文本序列[x y z]中每个词向量后面拼接词语“房间”对应的词向量x。在这种情况下,拼接后的文本序列可以表示为:
Figure BDA0002348932620000241
在词性向量是200维、类别标签向量也是200维的情况下,可以看出,文本的词性序列的尺寸和上述拼接后的文本序列的尺寸是相同的。因此,可以通过将词性序列中的元素和拼接后的文本序列中对应位置的元素的值相加,以实现对文本的词性序列和拼接后的文本序列的叠加,从而得到用于所述文本的待分类序列。
分类单元650可以配置成对所述待分类序列进行分类,以确定所述文本所属的分类类别。在本申请提供的细粒度情感分析的应用中,所述分类类别可以是依据文本的情感极性形成的类别。例如,所述分类类别可以包括褒义、中性、贬义。又例如,所述分类类别也可以仅包括褒义、贬义两类。以上示例并不构成对于本申请的限制。不脱离本申请提供的原理的情况下,也可以将本申请提供的方法用于其他的分类应用。本领域技术人员可以根据实际情况确定分类类别的种类。
在一些实施例中,可以利用用于分类的神经网络模型对所述待分类序列进行处理,以提取所述待分类序列中的文本特征。可以基于所提取的文本特征对所述待分类序列进行分类。
在一种实现方式中,可以利用基于转换(Transformer)机制的神经网络对待分类序列确定单元生成的待分类序列进行处理。上文中已经结合了图3描述了利用基于转换(Transformer)机制的神经网络对待分类序列进行处理的过程,在此不再加以赘述。
可以理解的是,在图6中示出的装置600可以具有其他的变型形式。例如,在装置600中可以省略预处理单元610。可以直接将能够用于生成词性序列和文本序列的文本输入装置600以进行分类。预处理单元610可以被单独设置在任何其他电子装置中。在一些实施例中,装置600中示出的词性序列确定单元、文本序列确定单元、待分类序列确定单元以及分类单元可以被集成在同一个电子装置中。在另一些实施例中,词性序列确定单元、文本序列确定单元、待分类序列确定单元以及分类单元也可以分别被设置在不同的电子装置中。
利用本申请提供的上述文本处理装置,能够结合规则序列和用于实现分类的神经网络对输入文本进行分句和分类,使得能够在分类过程中提高评价要素的抽取效果,从而使得文本分类的结果更加准确。在上述方法中,由于规则序列的引入,能够解决文本中评价对象和评价词之间长距离依赖所带来的不利影响,使得在分类过程中模型更关注规则序列中包含的信息,提高了分类效果。
图7示出了根据本申请的文本分类过程的一种示例。
在步骤710中,可以对输入文本进行预处理和序列标注,以确定对应于输入文本的词性所形成的序列。在步骤720中,可以基于规则序列对标注后的文本进行挖掘,以确定输入文本中符合规则序列的规则的词性序列。在步骤730中,可以对输入文本进行迭代挖掘,以确定输入文本中的词和预设的词类别之间的映射关系。在步骤740中,可以基于词典自动构建并标注样本中的情感词的情感极性。在步骤750中,可以结合Transformer机制和规则序列中的位置信息提取文本中的分类特征。在步骤760中,可以配置分类器对酚类特征进行分类,以确定输入文本所属的分类类别。
此外,根据本申请实施例的方法或装置也可以借助于图8所示的计算设备的架构来实现。图8示出了该计算设备的架构。如图8所示,计算设备800可以包括总线810、一个或至少两个CPU 820、只读存储器(ROM)
830、随机存取存储器(RAM)840、连接到网络的通信端口850、输入/输出组件860、硬盘870等。计算设备800中的存储设备,例如ROM 830或硬盘870可以存储本申请提供的目标检测方法的处理和/或通信使用的各种数据或文件以及CPU所执行的程序指令。计算设备800还可以包括用户界面880。当然,图8所示的架构只是示例性的,在实现不同的设备时,根据实际需要,可以省略图8示出的计算设备中的一个或至少两个组件。
根据本申请的另一方面,还提供了一种非易失性的计算机可读存储介质,其上存储有计算机可读的指令,当利用计算机执行所述指令时可以执行如前所述的方法。
技术中的程序部分可以被认为是以可执行的代码和/或相关数据的形式而存在的“产品”或“制品”,通过计算机可读的介质所参与或实现的。有形的、永久的储存介质可以包括任何计算机、处理器、或类似设备或相关的模块所用到的内存或存储器。例如,各种半导体存储器、磁带驱动器、磁盘驱动器或者类似任何能够为软件提供存储功能的设备。
所有软件或其中的一部分有时可能会通过网络进行通信,如互联网或其他通信网络。此类通信可以将软件从一个计算机设备或处理器加载到另一个。例如:从视频目标检测设备的一个服务器或主机计算机加载至一个计算机环境的硬件平台,或其他实现系统的计算机环境,或与提供目标检测所需要的信息相关的类似功能的系统。因此,另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接,例如光波、电波、电磁波等,通过电缆、光缆或者空气等实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备,也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质,其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。
本申请使用了特定词语来描述本申请的实施例。如“第一/第二实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本发明所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
上面是对本发明的说明,而不应被认为是对其的限制。尽管描述了本发明的若干示例性实施例,但本领域技术人员将容易地理解,在不背离本发明的新颖教学和优点的前提下可以对示例性实施例进行许多修改。因此,所有这些修改都意图包含在权利要求书所限定的本发明范围内。应当理解,上面是对本发明的说明,而不应被认为是限于所公开的特定实施例,并且对所公开的实施例以及其他实施例的修改意图包含在所附权利要求书的范围内。本发明由权利要求书及其等效物限定。

Claims (13)

1.一种基于人工智能的文本分类方法,其中,用于分类的文本包括至少一个词,以及所述至少一个词中的至少一部分形成规则序列,所述规则序列是由至少一个属于预设词类别的词形成的序列,所述方法包括:
对输入文本进行分词,以确定所述输入文本中的至少一个词;
针对所述输入文本中每个词,根据该词和至少一个预设词类别之间的映射关系确定用于该词的词类别;
基于所述输入文本中的至少一个词的词类别对所述输入文本进行划分,以确定包含所述规则序列的至少一个所述用于分类的文本;
确定所述用于分类的文本中每个词的词性,以确定所述用于分类的文本的词性序列,其中所述词性序列指示所述规则序列在所述用于分类的文本中的位置;
基于所述至少一个词的词向量确定所述用于分类的文本的文本序列;
基于所述文本序列和所述词性序列确定待分类序列;
对所述待分类序列进行分类,以确定所述用于分类的文本所属的分类类别。
2.如权利要求1所述的文本分类方法,其特征在于,所述至少一个预设词类别包括:
指示评价对象的属性词;
指示所述评价对象的情感极性的情感词;
指示所述评价对象的情感程度的程度副词;以及
否定词。
3.如权利要求1所述的文本分类方法,其特征在于,确定所述用于分类的文本的词性序列包括:
针对所述用于分类的文本中的每个词,
确定该词的词性对应的词性向量;
确定该词所属的词类别的类别标签向量;以及
拼接该词对应的词性向量和该词所属的词类别的类别标签向量,以得到该词对应的拼接后的词性向量;
组合每个词对应的拼接后的词性向量以得到所述用于分类的文本的词性序列。
4.如权利要求1所述的文本分类方法,其特征在于,确定所述用于分类的文本的文本序列包括:
针对所述用于分类的文本中的每个词,确定该词的词向量;
组合所述用于分类的文本中每个词的词向量以确定所述文本序列。
5.如权利要求4所述的文本分类方法,其特征在于,基于所述文本序列和所述词性序列确定待分类序列包括:
针对所述用于分类的文本中的每个词,拼接该词的词向量和所述文本中至少一个构成规则序列的词的词向量,以得到拼接后的文本序列;
对所述拼接后的文本序列和所述词性序列进行叠加,以得到所述待分类序列。
6.如权利要求1所述的文本分类方法,其特征在于,所述映射关系是通过以下步骤确定的:
确定词类别样本集,其中所述词类别样本集中包括至少两个样本文本;
对所述至少两个样本文本进行分词和词性标注,以确定所述至少两个样本文本对应的至少两个样本词性序列;
对所述至少两个样本词性序列进行统计,以确定所述至少两个样本词性序列中存在的频繁序列,其中所述频繁序列在所述至少两个样本词性序列中出现的次数大于预设的最小支持阈值;
当所述频繁序列符合预设的置信度时,将所述频繁序列确定为规则序列;
确定所述频繁序列中的词和所述至少一个预设词类别之间的映射关系。
7.如权利要求1所述的文本分类方法,其特征在于,对所述待分类序列进行分类,以确定所述用于分类的文本所属的分类类别包括:
利用分类网络对所述待分类序列进行处理以提取所述用于分类的文本的文本特征;
对所述文本特征进行分类以确定所述用于分类的文本所属的分类类别。
8.如权利要求7所述的文本分类方法,其特征在于,对所述文本特征进行分类以确定所述用于分类的文本所属的分类类别包括:
利用分类器对所述文本特征进行处理并输出所述用于分类的文本的分类结果,
其中所述分类结果指示所述用于分类的文本属于预设的至少两个分类类别的概率。
9.如权利要求8所述的文本分类方法,其特征在于,所述分类器是softmax分类器或xgboost分类器。
10.一种基于人工智能的文本分类装置,其中,用于分类的文本包括至少一个词,以及所述至少一个词中的至少一部分形成规则序列,所述规则序列是由至少一个属于预设词类别的词形成的序列,所述装置包括:
预处理单元,其中所述预处理单元配置成:
对输入文本进行分词,以确定所述输入文本中的至少一个词;
针对所述输入文本中每个词,根据该词和所述至少一个预设词类别之间的映射关系确定用于该词的词类别;
基于所述输入文本中的至少一个词的词类别对所述输入文本进行划分,以确定包含所述规则序列的至少一个所述用于分类的文本;
词性序列确定单元,配置成确定所述用于分类的文本中每个词的词性,以确定所述用于分类的文本的词性序列,其中所述词性序列指示所述规则序列在所述用于分类的文本中的位置;
文本序列确定单元,配置成基于所述至少一个词确定所述用于分类的文本的文本序列;
待分类序列确定单元,配置成基于所述文本序列和所述词性序列确定待分类序列;
分类单元,配置成对所述待分类序列进行分类,以确定所述用于分类的文本所属的分类类别。
11.如权利要求10所述的文本分类装置,其特征在于,所述至少一个预设词类别包括:
指示评价对象的属性词;
指示所述评价对象的情感极性的情感词;
指示所述评价对象的情感程度的程度副词;以及
否定词。
12.一种基于人工智能的文本处理设备,包括:
处理器;以及
存储器,其中存储计算机可读程序指令,
其中,在所述计算机可读程序指令被所述处理器运行时执行如权利要求1-9任一项所述的文本分类方法。
13.一种计算机可读存储介质,其上存储计算机可读指令,当所述计算机可读指令由计算机执行时,所述计算机执行如权利要求1-9任一项所述的文本分类方法。
CN201911407045.XA 2019-12-31 2019-12-31 基于人工智能的文本分类方法、装置、设备、介质 Active CN111159409B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911407045.XA CN111159409B (zh) 2019-12-31 2019-12-31 基于人工智能的文本分类方法、装置、设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911407045.XA CN111159409B (zh) 2019-12-31 2019-12-31 基于人工智能的文本分类方法、装置、设备、介质

Publications (2)

Publication Number Publication Date
CN111159409A CN111159409A (zh) 2020-05-15
CN111159409B true CN111159409B (zh) 2023-06-02

Family

ID=70559820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911407045.XA Active CN111159409B (zh) 2019-12-31 2019-12-31 基于人工智能的文本分类方法、装置、设备、介质

Country Status (1)

Country Link
CN (1) CN111159409B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112182230B (zh) * 2020-11-27 2021-03-16 北京健康有益科技有限公司 一种基于深度学习的文本数据分类方法和装置
CN112528001B (zh) * 2020-12-23 2023-07-25 北京百度网讯科技有限公司 一种信息查询方法、装置及电子设备
CN112668315A (zh) * 2020-12-23 2021-04-16 平安科技(深圳)有限公司 一种文本自动生成方法、系统、终端及存储介质
CN113656587B (zh) * 2021-08-25 2023-08-04 北京百度网讯科技有限公司 文本分类方法、装置、电子设备及存储介质
CN114064906A (zh) * 2022-01-17 2022-02-18 深圳佑驾创新科技有限公司 情感分类网络训练方法以及情感分类方法
CN116049347B (zh) * 2022-06-24 2023-10-31 荣耀终端有限公司 一种基于词融合的序列标注方法及相关设备

Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097286A (ja) * 1996-08-02 1998-04-14 Fujitsu Ltd 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体
WO1998047067A1 (en) * 1997-04-15 1998-10-22 Northern Telecom Limited A method and apparatus for interpreting information
US6178396B1 (en) * 1996-08-02 2001-01-23 Fujitsu Limited Word/phrase classification processing method and apparatus
EP1199704A2 (de) * 2000-10-17 2002-04-24 Philips Corporate Intellectual Property GmbH Auswahl der alternativen Wortfolgen für diskriminative Anpassung
CA2397466A1 (en) * 2001-08-15 2003-02-15 At&T Corp. Systems and methods for aggregating related inputs using finite-state devices and extracting meaning from multimodal inputs using aggregation
WO2005076005A2 (en) * 2004-01-30 2005-08-18 Medizinische Universität Wien A method for classifying a tumor cell sample based upon differential expression of at least two genes
CN104657749A (zh) * 2015-03-05 2015-05-27 苏州大学 一种时间序列的分类方法及装置
CN104820716A (zh) * 2015-05-21 2015-08-05 中国人民解放军海军工程大学 基于数据挖掘的装备可靠性评估方法
CN106844738A (zh) * 2017-02-14 2017-06-13 华南理工大学 基于神经网络的食材之间容克关系的分类方法
CN107102984A (zh) * 2017-04-21 2017-08-29 中央民族大学 一种藏语微博情感倾向性分析方法和系统
CN108170681A (zh) * 2018-01-15 2018-06-15 中南大学 文本情感分析方法、系统及计算机可读存储介质
CN108874937A (zh) * 2018-05-31 2018-11-23 南通大学 一种基于词性结合和特征选择的情感分类方法
CN109325114A (zh) * 2018-07-24 2019-02-12 武汉理工大学 一种融合统计特征与Attention机制的文本分类算法
CN109829166A (zh) * 2019-02-15 2019-05-31 重庆师范大学 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN110162600A (zh) * 2019-05-20 2019-08-23 腾讯科技(深圳)有限公司 一种信息处理的方法、会话响应的方法及装置
CN110362684A (zh) * 2019-06-27 2019-10-22 腾讯科技(深圳)有限公司 一种文本分类方法、装置及计算机设备
CN110489559A (zh) * 2019-08-28 2019-11-22 北京达佳互联信息技术有限公司 一种文本分类方法、装置及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7376635B1 (en) * 2000-07-21 2008-05-20 Ford Global Technologies, Llc Theme-based system and method for classifying documents
US6778979B2 (en) * 2001-08-13 2004-08-17 Xerox Corporation System for automatically generating queries
US7509313B2 (en) * 2003-08-21 2009-03-24 Idilia Inc. System and method for processing a query
US7574409B2 (en) * 2004-11-04 2009-08-11 Vericept Corporation Method, apparatus, and system for clustering and classification
US8214346B2 (en) * 2008-06-27 2012-07-03 Cbs Interactive Inc. Personalization engine for classifying unstructured documents
US8316030B2 (en) * 2010-11-05 2012-11-20 Nextgen Datacom, Inc. Method and system for document classification or search using discrete words
CN103473262B (zh) * 2013-07-17 2016-12-28 北京航空航天大学 一种基于关联规则的Web评论观点自动分类系统及分类方法
CN103699663B (zh) * 2013-12-27 2017-02-08 中国科学院自动化研究所 一种基于大规模知识库的热点事件挖掘方法
US20170169008A1 (en) * 2015-12-15 2017-06-15 Le Holdings (Beijing) Co., Ltd. Method and electronic device for sentiment classification
CN105893444A (zh) * 2015-12-15 2016-08-24 乐视网信息技术(北京)股份有限公司 情感分类方法及装置
CN107491531B (zh) * 2017-08-18 2019-05-17 华南师范大学 基于集成学习框架的中文网络评论情感分类方法

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1097286A (ja) * 1996-08-02 1998-04-14 Fujitsu Ltd 単語・連語分類処理方法、連語抽出方法、単語・連語分類処理装置、音声認識装置、機械翻訳装置、連語抽出装置及び単語・連語記憶媒体
US6178396B1 (en) * 1996-08-02 2001-01-23 Fujitsu Limited Word/phrase classification processing method and apparatus
WO1998047067A1 (en) * 1997-04-15 1998-10-22 Northern Telecom Limited A method and apparatus for interpreting information
EP1199704A2 (de) * 2000-10-17 2002-04-24 Philips Corporate Intellectual Property GmbH Auswahl der alternativen Wortfolgen für diskriminative Anpassung
CA2397466A1 (en) * 2001-08-15 2003-02-15 At&T Corp. Systems and methods for aggregating related inputs using finite-state devices and extracting meaning from multimodal inputs using aggregation
WO2005076005A2 (en) * 2004-01-30 2005-08-18 Medizinische Universität Wien A method for classifying a tumor cell sample based upon differential expression of at least two genes
CN104657749A (zh) * 2015-03-05 2015-05-27 苏州大学 一种时间序列的分类方法及装置
CN104820716A (zh) * 2015-05-21 2015-08-05 中国人民解放军海军工程大学 基于数据挖掘的装备可靠性评估方法
CN106844738A (zh) * 2017-02-14 2017-06-13 华南理工大学 基于神经网络的食材之间容克关系的分类方法
CN107102984A (zh) * 2017-04-21 2017-08-29 中央民族大学 一种藏语微博情感倾向性分析方法和系统
CN108170681A (zh) * 2018-01-15 2018-06-15 中南大学 文本情感分析方法、系统及计算机可读存储介质
CN108874937A (zh) * 2018-05-31 2018-11-23 南通大学 一种基于词性结合和特征选择的情感分类方法
CN109325114A (zh) * 2018-07-24 2019-02-12 武汉理工大学 一种融合统计特征与Attention机制的文本分类算法
CN109829166A (zh) * 2019-02-15 2019-05-31 重庆师范大学 基于字符级卷积神经网络的民宿顾客意见挖掘方法
CN110162600A (zh) * 2019-05-20 2019-08-23 腾讯科技(深圳)有限公司 一种信息处理的方法、会话响应的方法及装置
CN110362684A (zh) * 2019-06-27 2019-10-22 腾讯科技(深圳)有限公司 一种文本分类方法、装置及计算机设备
CN110489559A (zh) * 2019-08-28 2019-11-22 北京达佳互联信息技术有限公司 一种文本分类方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Suhad A. Yousif.Enhancement of Arabic Text Classification Using Semantic Relations with Part of Speech Tagger.《Conference: 14th International Conference on Artificial Intelligence, Knowledge Engineering and Data Bases (AIKED '15)》.2015,195-201. *
基于文本分析的推荐系统研究与实现;张婷;《中国优秀硕士学位论文全文数据库 信息科技》;I138-2944 *

Also Published As

Publication number Publication date
CN111159409A (zh) 2020-05-15

Similar Documents

Publication Publication Date Title
CN111159409B (zh) 基于人工智能的文本分类方法、装置、设备、介质
AU2016256764A1 (en) Semantic natural language vector space for image captioning
US20230077849A1 (en) Content recognition method and apparatus, computer device, and storage medium
CN113627447B (zh) 标签识别方法、装置、计算机设备、存储介质及程序产品
CN110705301A (zh) 实体关系抽取方法及装置、存储介质、电子设备
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN113095080B (zh) 基于主题的语义识别方法、装置、电子设备和存储介质
CN114519356B (zh) 目标词语的检测方法、装置、电子设备及存储介质
CN113392179A (zh) 文本标注方法及装置、电子设备、存储介质
Alexandridis et al. A knowledge-based deep learning architecture for aspect-based sentiment analysis
CN111767714B (zh) 一种文本通顺度确定方法、装置、设备及介质
US20230008897A1 (en) Information search method and device, electronic device, and storage medium
CN115730597A (zh) 多级语义意图识别方法及其相关设备
CN115269828A (zh) 用于生成评论回复的方法、设备和介质
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN111538817A (zh) 人机交互方法和装置
CN112632258A (zh) 文本数据处理方法、装置、计算机设备和存储介质
CN114398903B (zh) 意图识别方法、装置、电子设备及存储介质
CN114492437B (zh) 关键词识别方法、装置、电子设备及存储介质
CN114218431A (zh) 视频搜索方法、装置、电子设备以及存储介质
CN113688938A (zh) 确定对象情感的方法、训练情感分类模型的方法及装置
CN112765357A (zh) 文本分类方法、装置和电子设备
CN111666452A (zh) 用于对视频进行聚类的方法和装置
CN112686035A (zh) 一种未登录词进行向量化的方法和装置
CN115062229B (zh) 基于新闻评论的过滤以及情感分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant