CN110399494A - 用于生成信息的方法和装置 - Google Patents
用于生成信息的方法和装置 Download PDFInfo
- Publication number
- CN110399494A CN110399494A CN201810335835.0A CN201810335835A CN110399494A CN 110399494 A CN110399494 A CN 110399494A CN 201810335835 A CN201810335835 A CN 201810335835A CN 110399494 A CN110399494 A CN 110399494A
- Authority
- CN
- China
- Prior art keywords
- target
- word
- speech
- phrase
- sentiment orientation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000008451 emotion Effects 0.000 claims description 71
- 230000004044 response Effects 0.000 claims description 30
- 238000012549 training Methods 0.000 claims description 28
- 238000013145 classification model Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012216 screening Methods 0.000 abstract description 5
- 230000011218 segmentation Effects 0.000 description 14
- 230000006870 function Effects 0.000 description 13
- 238000013507 mapping Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 8
- 238000013528 artificial neural network Methods 0.000 description 6
- 230000006854 communication Effects 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 230000002996 emotional effect Effects 0.000 description 5
- 230000007935 neutral effect Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000005291 magnetic effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 210000003127 knee Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本申请实施例公开了用于生成信息的方法和装置。该方法的一具体实施方式包括:对待处理文本进行分词,生成至少一个词;从至少一个词中选取词性在预设词性组中的词作为目标词,得到目标词集合;对于目标词集合中的目标词,将目标词与目标词邻近的预设数目的词,生成目标词组;基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,其中,词性信息是目标词组中的目标词的词性的顺序组合。该实施方式实现了对至少一个词进行筛选,并且利用筛选后的词与其邻近词所生成的目标词组的词性信息,确定目标词组的情感倾向信息。
Description
技术领域
本申请实施例涉及计算机技术领域,具体涉及用于生成信息的方法和装置。
背景技术
目前通常利用情感词典或者利用机器学习的方法来进行文本情感倾向性分类。这些文本情感倾向性分类方法都是先对文本进行分词处理。而在分词之后,如何进一步抽取文本的情感倾向信息是文本情感倾向性分类问题中不断研究的一个方向。
发明内容
本申请实施例提出了用于生成信息的方法和装置。
第一方面,本申请实施例提供了一种用于生成信息的方法,该方法包括:获取至少一个词;从至少一个词中选取词性在预设词性组中的词作为目标词,得到目标词集合;对于目标词集合中的目标词,将目标词与目标词邻近的预设数目的词,生成目标词组;基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,其中,词性信息是目标词组中的目标词的词性的顺序组合。
在一些实施例中,基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,包括:响应于目标词组所对应的词性信息包括以下之一:形容词名词、名词形容词、形容词副词、副词形容词,确定目标词组中的词性为形容词的目标词的情感倾向信息;将目标词组中的词性为形容词的目标词的情感倾向信息作为目标词组的情感倾向信息。
在一些实施例中,基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,包括:响应于目标词组所对应的词性信息包括以下之一:否定词动词、副词否定词动词、否定词副词动词,确定目标词组中的词性为动词的目标词的情感倾向信息;将目标词组中的词性为动词的目标词的情感倾向信息的反向情感倾向信息作为目标词组的情感倾向信息。
在一些实施例中,基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,包括:响应于目标词组所对应的词性信息包括以下之一:形容词动词、动词形容词,确定目标词组中的词性为动词的目标词是否是情感类动词,其中,情感类动词是指用于表征情感的动词;响应于确定目标词组中的词性为动词的目标词是情感类动词,确定目标词组中的词性为动词的目标词的情感倾向信息;将目标词组中的词性为动词的目标词的情感倾向信息作为目标词组的情感倾向信息。
在一些实施例中,基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,还包括:响应于确定目标词组中的词性为动词的目标词不是情感类动词,确定目标词组中的词性为形容词的目标词的情感倾向信息;将目标词组中的词性为形容词的目标词的情感倾向信息作为目标词组的情感倾向信息。
在一些实施例中,基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,包括:响应于目标词组所对应的词性信息包括否定词形容词,确定目标词组中的词性为形容词的目标词的情感倾向信息;将目标词组中的词性为形容词的目标词的情感倾向信息的反向情感倾向信息作为目标词组的情感倾向信息。
第二方面,本申请实施例提供了一种用于生成信息的装置,该装置包括:获取单元,被配置成获取至少一个词;目标词选取单元,被配置成从至少一个词中选取词性在预设词性组中的词作为目标词,得到目标词集合;目标词组生成单元,被配置成对于目标词集合中的目标词,将目标词与目标词邻近的预设数目的词,生成目标词组;情感倾向信息生成单元,被配置成基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,其中,词性信息是目标词组中的目标词的词性的顺序组合。
在一些实施例中,情感倾向信息生成单元,进一步被配置成响应于目标词组所对应的词性信息包括以下之一:形容词名词、名词形容词、形容词副词、副词形容词,确定目标词组中的词性为形容词的目标词的情感倾向信息;将目标词组中的词性为形容词的目标词的情感倾向信息作为目标词组的情感倾向信息。
在一些实施例中,情感倾向信息生成单元,进一步被配置成响应于目标词组所对应的词性信息包括以下之一:否定词动词、副词否定词动词、否定词副词动词,确定目标词组中的词性为动词的目标词的情感倾向信息;将目标词组中的词性为动词的目标词的情感倾向信息作的反向情感倾向信息为目标词组的情感倾向信息。
在一些实施例中,情感倾向信息生成单元,进一步被配置成响应于目标词组所对应的词性信息包括以下之一:形容词动词、动词形容词,确定目标词组中的词性为动词的目标词是否是情感类动词,其中,情感类动词是指用于表征情感的动词;响应于确定目标词组中的词性为动词的目标词是情感类动词,确定目标词组中的词性为动词的目标词的情感倾向信息;将目标词组中的词性为动词的目标词的情感倾向信息作为目标词组的情感倾向信息。
在一些实施例中,情感倾向信息生成单元,进一步被配置成响应于确定目标词组中的词性为动词的目标词不是情感类动词,确定目标词组中的词性为形容词的目标词的情感倾向信息;将目标词组中的词性为形容词的目标词的情感倾向信息作为目标词组的情感倾向信息。
在一些实施例中,情感倾向信息生成单元,进一步被配置成响应于目标词组所对应的词性信息包括否定词形容词,确定目标词组中的词性为形容词的目标词的情感倾向信息;将目标词组中的词性为形容词的目标词的情感倾向信息的反向情感倾向信息作为目标词组的情感倾向信息。
第三方面,本申请实施例提供了一种用于处理文本的方法,该方法包括:获取待处理文本;对待处理文本进行分词,生成至少一个词;对至少一个词执行如第一方面中任一实现方式描述的方法,生成待处理文本对应的目标词组的情感倾向信息。
在一些实施例中,该方法还包括:将待处理文本对应的目标词组的情感倾向信息和目标词组输入至预先训练的情感分类模型,得到待处理文本的情感倾向信息,其中,情感分类模型用于表征文本对应的词组的情感倾向信息和词组与文本的情感倾向信息之间的对应关系。在一些实施例中,情感分类模型通过如下步骤训练得到:获取训练样本集合,训练样本包括待处理文本的情感倾向信息、待处理文本对应的目标词组的情感倾向信息以及目标词组,其中,待处理文本对应的目标词组的情感倾向信息通过执行如第一方面中任一实现方式描述的方法生成;将训练样本集合中的训练样本的待处理文本对应的目标词组的情感倾向信息和所述目标词组作为输入,将输入的待处理文本的情感倾向信息作为输出,训练得到情感分类模型。
第四方面,本申请实施例提供了一种电子设备,该电子设备包括:一个或多个处理器;存储装置,其上存储有一个或多个程序;当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。
第五方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。
本申请实施例提供的用于生成信息的方法和装置,通过获取至少一个词,然后先利用预设词性组选取出目标词,然后每个目标词与其邻近的词生成目标词组,并根据目标词组的词性信息,得到目标词组的情感倾向信息,从而实现了对至少一个词进行筛选,并且利用筛选后的词与其邻近词所生成的目标词组的词性信息,确定目标词组的情感倾向信息。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的用于生成信息的方法的一个实施例的流程图;
图3是根据本申请的用于生成信息的方法的一个应用场景的示意图;
图4是根据本申请的用于生成信息的装置的一个实施例的结构示意图;
图5是本申请的用于生成信息的方法的又一个实施例的流程图;
图6是适于用来实现本申请实施例的服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于生成信息的方法或用于生成信息的装置的示例性架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如文本编辑类应用、浏览器类应用、阅读类应用、社交类应用等。
终端设备101、102、103可以包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如为终端设备101、102、103上所存储的至少一个词提供各种处理服务的处理服务器。处理服务器可以对至少一个词进行分析、组合等处理,并生成处理结果。
需要说明的是,上述至少一个词也可以直接存储在服务器105的本地,服务器105可以直接提取本地所存储的至少一个词并进行处理,此时,可以不存在终端设备101、102、103和网络104。
需要说明的是,本申请实施例所提供的用于生成信息的方法一般由服务器105执行,相应地,用于生成信息的装置一般设置于服务器105中。用于生成信息的方法也可以由终端设备101、102、103执行,相应地,用于生成信息的装置一般设置于终端设备101、102、103中。
需要指出的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于生成信息的方法的一个实施例的流程200。该用于生成信息的方法包括以下步骤:
步骤201,获取至少一个词。
在本实施例中,用于生成信息的方法运行于其上的执行主体(例如图1所示的服务器105)可以首先获取至少一个词。其中,上述至少一个词可以是预先存储在上述执行主体中的,由技术人员所预先指定的至少一个词,从而上述执行主体可以直接提取本地所预先存储的上述至少一个词。另外,上述至少一个词也可以是上述执行主体通过有线连接方式或者无线连接方式从客户端(例如图1所示的终端设备101、102、103)所接收的至少一个词。
实践中,上述客户端可以向上述执行主体发送包含上述至少一个词的解析请求,上述执行主体接收到该解析请求后,可以提取该解析请求中所包含的至少一个词。需要说明的是,上述至少一个词可以是各种文字信息,例如从一个或多个词库中选取的一个或多个词,或者从一些句子、段落或者篇章中摘选的一个或多个词等。
需要说明的是,在本申请中,词可以是由一个或多个单字组成的。例如,“今天”、“天气”、“很”、“不错”分别各是一个词。
步骤202,从至少一个词中选取词性在预设词性组中的词作为目标词,得到目标词集合。
在本实施例中,基于步骤201中得到的至少一个词,上述执行主体可以先获取各个词的词性。词性是指以词的特点作为划分词类的根据。现代汉语中的词性包括:名词、动词、形容词、区别词、代词、数词、量词、副词、介词、连词、助词、语气词、拟声词以及叹词等。词性还可以进一步的划分。例如,名词还可以包括专有名词和普通名词。名词还可以包括可数名词和不可数名词。其中,普通名词还可以进一步地包括个体名词、集体名词、复合名词、物质名词以及抽象名词等。动词可以包括实意动词、系动词、助动词以及情态动词等。副词可以包括时间副词、频率副词、地点副词、方式副词、程度副词、疑问副词、连接副词、关系副词、顺序副词以及否定副词等。需要说明的是,词性的类别多种多样,是目前广泛研究和应用的公知常识,本申请对此不作限定。
举例来说,“这个”的词性为代词。“电影”的词性为名词。“很”的词性为副词。“好看”的词性为形容词。
在本实施例中,上述执行主体可以选取词性在预设词性组中的词作为目标词。其中,预设词性组可以是由技术人员预先指定的一些可能对文本情感倾向分析有较大作用的词的词性。在这里,文本情感倾向可以指文本所表达的观点、喜好、感受及态度等相关信息。一般地,文本情感倾向可以包括正向、负向、中性,或者可以包括褒义、贬义、中性。例如,文本“这里的空气真好”的情感倾向为正向。文本“这辆火车开的太慢了”的情感倾向为负向。文本“做工还凑合”的情感倾向为中性。
在本实施例中,通常名词、动词、形容词以及副词对文本情感倾向分析有较大作用,而其它的,如区别词、代词、介词和量词等在文本情感倾向分析过程中比较没有作用。例如,对于文本“这个袋子很漂亮,而且非常结实,我超级喜欢呀”,其中的名词包括:“袋子”。动词包括:“喜欢”。形容词包括:“漂亮”和“结实”。副词包括:“很”、“非常”和“超级”。可以通过上述这些名词、动词、形容词和副词来分析该文本的情感倾向。而上述句子中的其它词性的词,如代词“这个”、连词“而且”以及语气助词“呀”等对分析该文本的情感倾向没有太大的作用。因此,预设词性组可以包括:名词、动词、形容词、副词。考虑到否定词(例如不、非、没、没有、无、否等)对文本的情感倾向也有较大的影响,预设词性组还可以包括:名词、动词、形容词、副词、否定词。实际中,可以由技术人员通过分析或根据应用需求设置预设词性组的内容。
在本实施例中,上述执行主体可以基于上述步骤201的分词结果,选取词性在预设词性组中的词作为目标词,生成目标词集合。例如,对于包括“这个”、“电影”、“很”、“好看”四个词的分词结果。预设词性组包括:名词、动词、形容词、副词、否定词。那么,选取上述分词结果中的“电影”、“很”以及“好看”分别作为目标词,生成目标词集合。
步骤203,对于目标词集合中的目标词,将目标词与目标词邻近的预设数目的词,生成目标词组。
在本实施例中,上述执行主体可以将上述步骤202中选出的目标词与该目标词邻近的预设数目的词构成目标词组。其中,预设数目可以是技术人员预先经过统计分析或者预定规则设置的数目。邻近的词可以指文本中以目标词为起点,该目标词左右两边任意一边的预设数目的词。一般地,可以按照获取的至少一个词的排列顺序,按照从左到右的书写和阅读习惯,邻近的词可以表示为以目标词为起点,该目标词的右边的预设数目的词。
举例来说,预设数目为一个。获取的四个词为“今天天气很不错”。分词结果包括“今天”、“天气”、“很”和“不错”四个词。目标词集合包括“天气”、“很”和“不错”三个目标词。那么对于目标词“天气”,其左边的一个词为“今天”,所以向左构成的目标词组为“今天天气”。其右边的一个词为“很”,所以向右构成的目标词组为“天气很”。预设数目为两个,那么对于目标词“天气”与其右边的两个词所构成的目标词组为“天气很不错”。
步骤204,基于目标词组所对应的词性信息,生成目标词组的情感倾向信息。
在本实施例中,词性信息是指目标词组中的目标词的词性的顺序组合。例如,对于目标词组“漂亮的外观”,其包括两个目标词“漂亮”和“外观”,且两个目标词的词性分别为形容词和名词,那么上述目标词组的词性信息包括形容词名词。对于目标词组“很好看”,其包括两个目标词,且两个目标词的词性分别为副词和形容词,那么上述目标词组的词性信息包括副词形容词。
在本实施例中,上述执行主体可以根据目标词组所对应的词性信息,生成目标词组的情感倾向信息。其中,情感倾向信息可以描述目标词组的情感倾向,例如可以为正向、负向和中性,也可以为基于预定的算法确定出的具体的数值。不同的词性信息的目标词组可能具有不同的确定目标词组的情感倾向信息的方法。
在本实施例的一些可选的实现方式中,目标词组的词性信息可以包括以下任意一种:形容词名词、名词形容词、形容词副词、副词形容词。针对包括上述任意一种词性信息的目标词组,首先确定目标词组中的词性为形容词的目标词的情感倾向信息,然后将目标词组中的词性为形容词的目标词的情感倾向信息作为目标词组的情感倾向信息。例如,对于词性信息包括形容词名词的目标词组“漂亮的外观”,可以首先确定该目标词组中的词性为形容词的“漂亮”的情感倾向信息。然后将“漂亮”的情感倾向信息作为该目标词组的情感倾向信息。例如,对于词性信息包括名词形容词的目标词组“茶碗精致”,可以首先确定该目标词组中的词性为形容词的“精致”的情感倾向信息。然后将“精致”的情感倾向信息作为该目标词组的情感倾向信息。例如,对于词性信息包括形容词副词的目标词组“好极了”,可以首先确定该目标词组中的词性为形容词的“好”的情感倾向信息。然后将“好”的情感倾向信息作为该目标词组的情感倾向信息。例如,对于词性信息包括副词形容词的目标词组“非常地烦人”,可以首先确定该目标词组中的词性为形容词的“烦”的情感倾向信息。然后将“烦”的情感倾向信息作为该目标词组的情感倾向信息。
在本实施例的一些可选的实现方式中,词性信息可以包括以下任意一种:否定词动词、副词否定词动词、否定词副词动词。针对包括上述任意一种词性信息的目标词组,可以首先确定目标词组中的词性为动词的目标词的情感倾向信息。然后,将目标词组中的词性为动词的目标词的情感倾向信息的反向情感倾向信息作为目标词组的情感倾向信息。其中,反向情感倾向信息可以表示和情感倾向信息相反的情感倾向信息。举例来说,若目标词的情感倾向信息为正向,那么反向情感倾向信息为负向。若目标词的情感倾向信息为负向,那么反向情感倾向信息为正向。若目标词的情感倾向信息为中性,那么反向情感倾向信息仍为中性。例如,对于词性信息包括否定词动词的目标词组“不满意”,可以先确定其中词性为动词的“满意”的情感倾向信息,然后将“满意”的反向情感倾向信息作为该目标词组的情感倾向信息。例如,对于词性信息包括副词否定词动词的目标词组“很不喜欢”,可以先确定其中词性为动词的“喜欢”的情感倾向信息,然后将“喜欢”的反向情感倾向信息作为该目标词组的情感倾向信息。例如,对于词性信息包括否定词副词动词的目标词组“不很讨厌”,可以先确定其中词性为动词的“讨厌”的情感倾向信息,然后将“讨厌”的反向情感倾向信息作为该目标词组的情感倾向信息。
在本实施例的一些可选的实现方式中,目标词组的词性信息可以包括以下之一:形容词动词、动词形容词。针对包括上述词性信息的目标词组,首先判断目标词组中的词性为动词的目标词是否是情感类动词。其中,按照词是否能够用于表征情感将动词划分为:情感类动词和非情感类动词。例如,动词“喜欢”、“讨厌”等就是情感类动词。动词“跑”、“吃”等就是非情感类动词。若目标词组中的词性为动词的目标词是情感类动词,那么先确定上述词性为动词的目标词的情感倾向信息,然后将得到的上述词性为动词的目标词的情感倾向信息作为目标词组的情感倾向信息。若目标词组中的词性为动词的目标词不是情感类动词,那么先确定上述目标词组中的词性为形容词的目标词的情感倾向信息,然后将目标词组中的词性为形容词的目标词的情感倾向信息作为目标词组的情感倾向信息。例如,对于词性信息包括形容词动词的目标词组“流畅地运行”,其中词性为动词的目标词包括“运行”,由于“运行”不是情感类动词,所以将其中的词性为形容词的目标词“流畅”的情感倾向信息作为该目标词组的情感倾向信息。例如,对于词性信息包括形容词动词的目标词组“认真的喜欢”,其中词性为动词的目标词包括“喜欢”,由于“喜欢”是情感类动词,所以将其中的词性为动词的“喜欢”的情感倾向信息作为该目标词组的情感倾向信息。例如,对于词性信息包括动词形容词的目标词组“消耗得快”,其中,词性为动词的目标词包括“消耗”,由于“消耗”不是情感类动词,所以将其中的词性为形容词的“快”的情感倾向信息作为该目标词组的情感倾向信息。例如,对于词性信息包括动词形容词的目标词组“讨厌得很”,其中,词性为动词的目标词包括“讨厌”,由于“讨厌”是情感类动词,所以将其中的词性为动词的“讨厌”的情感倾向信息作为该目标词组的情感倾向信息。
需要说明的是,不同的分词方法,会使得步骤中201中的分词结果可能不同,进而使得之后的步骤202-204也会有所不同。例如,对于文本“这台机器可以流畅地运行”,其中对于“流畅地运行”这一部分可能有多种分词结果。例如,可能的一种分词结果为:“流畅”、“地”和“运行”。该种分词结果包括形容词、助词和动词三种词性。因此,可能使得之后生成的目标词组“流畅地运行”的词性信息包括形容词动词。那么就基于词性信息包括形容词动词,进一步确定该词组的情感倾向信息。另一种可能的分词结果为:“流畅地”和“运行”。该种分词结果包括副词和动词两种词性。因此,可能使得之后生成的目标词组“流畅地运行”的词性信息包括副词动词。那么就基于词性信息包括副词动词,进一步确定该词组的情感倾向信息。
在本实施例的一些可选的实现方式中,目标词组的词性信息可以包括以下之一:副词动词。针对包括上述词性信息的目标词组,可以首先确定目标词组中的词性为动词的目标词的情感倾向信息。然后,将目标词组中的词性为动词的目标词的情感倾向信息作为目标词组的情感倾向信息。例如,对于词性信息包括副词动词的目标词组“非常喜欢”,可以先确定其中词性为动词的“喜欢”的情感倾向信息,然后将“喜欢”的情感倾向信息作为该目标词组的情感倾向信息。
在本实施例的一些可选的实现方式中,可以利用各种方法来判断词性为动词的目标词是否是情感类动词。例如,可以由技术人员基于对大量的词性为动词的情感类动词和非情感类动词进行统计而生成存储有词和词的情感类别的对应关系表。从而,上述执行主体可以通过查找上述对应关系表来确定目标词组中的词性为动词的目标词是否是情感类动词。若查找到上述目标词的情感类别是情感类,则确定该目标词是情感类动词。若查找到上述目标词的情感类别是情感类,则确定该目标词是非情感类动词。例如,还可以利用机器学习的方法来判断目标词组中的词性为动词的目标词是否是情感类动词。例如,可以由技术人员预先基于大量的词性为动词的情感类动词和非情感类动词,对未经训练的初始深度神经网络进行训练,得到可以表征词与词的情感类别的神经网络模型。从而,上述执行主体可以将目标词组中的词性为动词的目标词输入上述神经网络模型中,然后得到输入的目标词对应的情感类别。从而可以进一步确定上述目标词是否是情感类动词。
在本实施例的一些可选的实现方式中,词性信息可以包括:否定词形容词,针对包括上述词性信息的目标词组,可以先确定目标词组中的词性为形容词的目标词的情感倾向信息,然后将目标词组中的词性为形容词的目标词的情感倾向信息的反向情感倾向信息作为目标词组的情感倾向信息。例如,对于词性信息包括否定词形容词的目标词组“不好看”,可以先确定其中词性为形容词的“好看”的情感倾向信息,然后将“好看”的情感倾向信息的反向情感倾向信息作为该目标词组的情感倾向信息。
在本实施例的一些可选的实现方式中,可以利用各种方法确定目标词组中的各种词性(如词性为形容词和动词)的目标词的情感倾向信息。
在本实施例的一些可选的实现方式中,上述执行主体可以首先通过查找预设的基准情感词典来确定目标词组中的各种词性的目标词的情感倾向信息。具体地,可以先判断目标词组中的目标词是否在上述基准情感词典中。其中,基准情感词典用于表征词与词的情感倾向信息之间的对应关系。技术人员可以基于对大量的词和词的情感倾向信息进行统计而生成存储有词和词的情感倾向信息的对应关系表,并将该对应关系表作为基准情感词典。技术人员还可以直接使用已有的情感词典或情感词库(例如汉语情感词极值表等)作为基准情感词典。具体地,例如,上述执行主体可以将目标词组中的目标词与上述对应关系表进行比较,若在该关系表中查找到该目标词,然后将该关系表中与该目标词对应的情感倾向信息作为该目标词的情感倾向信息。
在本实施例的一些可选的实现方式中,上述执行主体还可以基于上述对应关系表或者已有的情感词典或情感词库,确定目标词组中的各种词性的目标词的情感倾向信息。举例来说,首先,根据上述对应关系表中的各个词的情感倾向信息将词划分为正向、负向、中性三种类别的词。然后,确定上述目标词与每个正向类别的词的相似度,以及所有上述确定出的相似度的平均值,可以称为第一平均值。然后,确定上述目标词与每个负向类别的词的相似度,以及所有上述确定出的相似度的平均值,可以称为第二平均值。然后,确定上述目标词与每个中性类别的词的相似度,以及所有上述确定出的相似度的平均值,可以称为第三平均值。然后,选出第一平均值、第二平均值以及第三平均值中最大的一个,进一步将选出的最大的一个平均值所对应的词的类别作为目标词的情感倾向信息。例如,最大的一个是第一平均值,那么确定目标词的情感倾向信息就是正向。最大的一个是第二平均值,那么确定目标词的情感倾向信息就是负向。最大的一个是第三平均值,那么确定目标词的情感倾向信息就是中性。上述执行主体还可以直接通过确定目标词与对应关系表或已有的情感词典或情感词库中的每个词的相似度,并基于与每个词的相似度,确定出平均相似度。之后,可以将确定出的平均相似度作为该目标词的情感倾向信息,此时,由于平均相似度可以为具体的数值,那么该情况下目标词对应的情感倾向信息也可以为具体的数值。
需要说明的是,本申请实施例中为了便于描述不同类别的三个平均值,将其分别命名为第一平均值、第二平均值和第三平均值,本领域技术人员应当理解,其中的第一、第二和第三并不构成对上述平均值的特殊限定。
在本实施例的一些可选的实现方式中,可以利用各种已公开的相似度确定方法来确定目标词与其它词的相似度。例如,可以使用基于LDA(Latent Dirichlet Allocation,文档主题生成模型)的词汇相似度确定方法、基于检索页面数量的词汇相似度确定方法等来确定目标词与其它词的相似度。
继续参见图3,图3是根据本实施例的用于生成信息的方法的应用场景的一个示意图。在图3的应用场景中,302为“这个台灯好看”。服务器301首先获取三个词302,分别为:“这个”、“台灯”、“好看”。然后,服务器301从上述三个词中选取词性在预设词性组中的词作为目标词,生成目标词集合303。这里假设预设词性组为{名词、形容词、动词、副词}。那么,选取名词“台灯”和形容词“好看”作为目标词,生成目标词集合。然后,对于目标集合中的目标词,服务器301将目标词与该目标词邻近的预设数目的词,生成目标词组304。这里假设以目标词为起始,向右取词,且预设数目为一。那么,对于目标词“台灯”,向右取一个词“好看”,生成目标词组“台灯好看”。然后,服务器301基于目标词组的词性信息,生成目标词组的情感倾向信息305。目标词组“台灯好看”的词性信息包括“名词形容词”,然后确定该目标词组中的形容词“好看”的情感倾向信息。这里假设情感倾向信息包括正向、中性和反向。可以通过查询情感词典确定形容词“好看”的情感倾向信息为正向,进而确定该目标词组的情感倾向信息为正向。
本申请的上述实施例提供的方法获取至少一个词,然后先利用预设词性组选取出其中的目标词,然后每个目标词与其邻近的词生成目标词组,并根据目标词组的词性信息,得到目标词组的情感倾向信息,从而实现了基于预设的词性组对至少一个词进行筛选,并且利用筛选后的词与其邻近词所生成的目标词组的词性信息,确定目标词组的情感倾向信息。
进一步参考图4,作为对上述各图所示方法的实现,本申请提供了用于生成信息的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种执行主体中。
如图4所示,本实施例的用于生成信息的装置400包括获取单元401、目标词选取单元402、目标词组生成单元403和情感倾向信息生成单元404。其中,获取单元401,被配置成获取至少一个词;目标词选取单元402,被配置成从至少一个词中选取词性在预设词性组中的词作为目标词,得到目标词集合;目标词组生成单元403,被配置成对于目标词集合中的目标词,将目标词与目标词邻近的预设数目的词,生成目标词组;情感倾向信息生成单元404,被配置成基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,其中,词性信息是目标词组中的目标词的词性的顺序组合。
在本实施例中,用于生成信息的装置400中:获取单元401、目标词选取单元402、目标词组生成单元403和情感倾向信息生成单元404的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201、步骤202、步骤203和步骤204的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,情感倾向信息生成单元404,进一步被配置成响应于目标词组所对应的词性信息包括以下之一:形容词名词、名词形容词、形容词副词、副词形容词,确定目标词组中的词性为形容词的目标词的情感倾向信息;将目标词组中的词性为形容词的目标词的情感倾向信息作为目标词组的情感倾向信息。
在本实施例的一些可选的实现方式中,情感倾向信息生成单元404,进一步被配置成响应于目标词组所对应的词性信息包括以下之一:否定词动词、副词否定词动词、否定词副词动词,确定目标词组中的词性为动词的目标词的情感倾向信息;将目标词组中的词性为动词的目标词的情感倾向信息的反向情感倾向信息作为目标词组的情感倾向信息。
在本实施例的一些可选的实现方式中,情感倾向信息生成单元404,进一步被配置成响应于目标词组所对应的词性信息包括以下之一:形容词动词、动词形容词,确定目标词组中的词性为动词的目标词是否是情感类动词,其中,情感类动词是指用于表征情感的动词;响应于确定目标词组中的词性为动词的目标词是情感类动词,确定目标词组中的词性为动词的目标词的情感倾向信息;将目标词组中的词性为动词的目标词的情感倾向信息作为目标词组的情感倾向信息。
在本实施例的一些可选的实现方式中,情感倾向信息生成单元404,进一步被配置成响应于确定目标词组中的词性为动词的目标词不是情感类动词,确定目标词组中的词性为形容词的目标词的情感倾向信息;将目标词组中的词性为形容词的目标词的情感倾向信息作为目标词组的情感倾向信息。
在本实施例的一些可选的实现方式中,情感倾向信息生成单元404,进一步被配置成响应于目标词组所对应的词性信息包括否定词形容词,确定目标词组中的词性为形容词的目标词的情感倾向信息;将目标词组中的词性为形容词的目标词的情感倾向信息的反向情感倾向信息作为目标词组的情感倾向信息。
本申请的上述实施例提供的装置,通过获取单元401获取至少一个词,然后由目标词选取单元402利用预设词性组选出目标词,由目标词组生成单元403将选出的目标词与该目标词邻近的词组成目标词组,并由情感倾向信息生成单元404根据目标词组的词性信息,得到目标词组的情感倾向信息,从而实现了基于预设的词性组对至少一个词进行筛选,并且利用筛选后的词与其邻近词所生成的目标词组的词性信息,确定目标词组的情感倾向信息。
继续参考图5,其示出了根据本申请的用于处理文本的方法的一个实施例的流程500。该用于处理文本的方法包括以下步骤:
步骤501,获取待处理文本。
在本实施例中,用于生成信息的方法运行于其上的执行主体(例如图1所示的服务器105)可以首先获取待处理文本。其中,待处理文本可以是预先存储在上述执行主体中的、由技术人员所预先指定的文本,从而上述执行主体可以直接提取本地所预先存储的待处理文本。另外,上述待处理文本也可以是上述执行主体通过有线连接方式或者无线连接方式从客户端(例如图1所示的终端设备101、102、103)所接收的文本。实践中,上述客户端可以向上述执行主体发送包含上述待处理文本的解析请求,上述执行主体接收到该解析请求后,可以提取该解析请求中所包含的待处理文本。需要说明的是,上述待处理文本可以是各种文字信息,例如句子、段落或者篇章等。
步骤502,对待处理文本进行分词,生成至少一个词。
在本实施例中,上述执行主体可以利用各种开源的分词工具(例如HanLP、IKAnalyzer、Ansj等)对上述待处理文本进行分词,生成至少一个词。其中,HanLP是一个支持中文分词的开发包。IKAnalyzer是一个开源的、轻量级的中文分词工具包。Ansj是一个开源版的分词工具。需要说明的是,上述中文分词工具有很多种,是目前广泛研究和应用的公知技术,在此不再赘述。
作为示例,上述待处理文本的内容为“这个电影很好看”。上述执行主体可以利用开源的分词工具对上述待处理文本进行分词,生成以下各个词:“这个”、“电影”、“很”、“好看”。
需要说明的是,不同的分词方法,对同一个待处理文本的分词结果可能在粒度上有所差异。例如,上述待处理文本经过分词后,还可能为:“这个”、“电影”、“很”、“好”、“看”。本申请对具体采用的分词工具和分词方法不作限制。
步骤503,从至少一个词中选取词性在预设词性组中的词作为目标词,得到目标词集合。
步骤504,对于目标词集合中的目标词,将目标词与目标词邻近的预设数目的词,生成目标词组。
步骤505,基于目标词组所对应的词性信息,生成目标词组的情感倾向信息。
在本实施例中,上述执行主体可以对上述步骤502得到的至少一个词执行如图2对应实施例中步骤202-204所示的方法,从而得到目标词组的情感倾向信息,并作为待处理文本对应的目标词组的情感倾向信息。具体的执行过程可参考图2对应实施例中的步骤202-204的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,在得到待处理文本对应的目标词组的情感倾向信息之后,还可以基于目标词组的情感倾向信息,来确定待处理文本的情感倾向信息。作为示例,可以基于待处理文本对应的各个目标词组的情感倾向信息的分布情况,以分布较集中的情感倾向信息确定为待处理文本对应的情感倾向信息。例如,待处理文本对应十个目标词组,其中,三个目标词组的情感倾向信息为正向,二个目标词组的情感倾向信息为中性,五个目标词组的情感倾向信息为负向,那么可以确定待处理文本的情感倾向信息为负向。也可以在实际应用中,对各个目标词组或者各类情感倾向信息设置一定的权重。例如,将正向对应的权重设置为3,将负向对应的权重设置为1.5,将中性对应的权重设置为1,那么按照上述举例的对应十个目标词组的待处理文本,则可以确定待处理文本的情感倾向信息为正向。实践中,若情感倾向信息为具体的数值,那么可以将待处理文本对应的各个目标词组的情感倾向信息的平均值作为待处理文本的情感倾向信息。
在本实施例的一些可选的实现方式中,上述执行主体还可以将待处理文本对应的目标词组的情感倾向信息和目标词组输入至预先训练的情感分类模型,从而得到待处理文本的情感倾向信息。其中,情感分类模型用于表征文本对应的词组的情感倾向信息和词组与文本的情感倾向信息之间的对应关系。上述执行主体可以通过多种方式训练出可以表征图像和光照强度值之间的对应关系的光照强度估计模型。
作为示例,上述执行主体可以首先获取训练样本集合,其中,每个训练样本包括待处理文本的情感倾向信息、待处理文本对应的目标词组的情感倾向信息以及目标词组。上述待处理文本的情感倾向信息可以利用现有的各种文本情感倾向确定方法来获取(例如基于语义的文本情感倾向分析方法)。上述情感分类模型可以是预先利用机器学习方法,基于训练样本对初始化情感分类模型进行训练后所得到的模型。其中,初始化情感分类模型可以是未经训练的深度学习模型(Deep Neural Network,DNN)或未训练完成的深度学习模型。初始化情感分类模型的各层可以设置有初始参数,参数在训练过程中可以被不断地调整。初始化情感分类模型可以是各种类型的未经训练或未训练完成的人工神经网络或者对多种未经训练或未训练完成的人工神经网络进行组合所得到的模型,例如,初始化情感分类模型可以是未经训练的卷积神经网络,也可以是未经训练的循环神经网络,还可以是对未经训练的卷积神经网络、未经训练的循环神经网络和未经训练的全连接层进行组合所得到的模型。也可以选取的分类模型(例如支持向量机、朴素贝叶斯或最大熵等)作为初始化情感分类模型。
可选地,上述执行主体可以基于对大量的文本和各个文本对应的目标词组、对应的目标词组的情感倾向信息以及文本本身的情感倾向信息进行统计而生成存储有大量文本的情感倾向信息与文本对应的目标词组及目标词组的情感倾向信息的对应关系表,并将该对应关系表作为情感分类模型。然后,上述执行主体可以首先按照如上述图2对应实施例中所示的方法得到待处理文本对应的目标词组的倾向信息和目标词组。然后将目标词组与对应关系表中的各条记录中的目标词组依次进行比较,若该对应关系表中的一条记录中的目标词组与待处理文本对应的目标词组相同或相似度大于一定阈值,则将该对应关系表中的该条记录中的目标词组对应的文本的情感倾向信息作为待处理文本的情感倾向信息。
在本实施例的一些可选的实现方式中,上述执行主体还可以首先获取多个可以首先获取多个训练样本组成训练样本集合,其中,每个训练样本包括样本文本和样本文本对应的目标词组、对应的目标词组的情感倾向信息以及样本文本本身的情感倾向信息。然后,获取初始化情感分类模型(例如支持向量机),将上述获取的训练样本中的样本文本对应的目标词组和目标词组对应的情感倾向信息作为输入,然后可以统计模型输出的样本文本的情感倾向信息的正确率,在确定正确率大于一定阈值时,训练完成,将训练完成后的初始化情感分类模型作为情感分类模型。
实践中,若情感倾向信息为具体的数值,可以将上述获取的训练样本中的样本文本对应的目标词组和目标词组对应的情感倾向信息作为输入,基于模型的输出和预设的损失函数来对初始化情感分类模型进行训练,得到上述情感分类模型。其中,上述损失函数的值可以用来表征模型输出的样本文本的情感倾向信息与输入的样本文本对应的情感倾向信息的差异程度。损失函数越小,表示差异越小。具体地,可以使用模型输出的样本文本的情感倾向信息与输入的样本文本对应的情感倾向信息的差的绝对值作为损失函数。然后,可以在确定前后两次或多次的损失函数的值均小于一定阈值时,训练完成。将训练完成后的初始化情感分类模型作为情感分类模型。
本申请的上述实施例提供的处理文本的方法通过先获取待处理文本,然后对待处理文本进行分词,得到至少一个词。之后,可以利用预设词性组从至少一个词中选出目标词,并将每个目标词与其邻近的词生成目标词组。之后,可以利用目标词组的词性信息来确定目标词组的情感倾向信息。另外,还实现了对待处理文本分词后得到的至少一个词进行了筛选,避免了过多选取与目标词无关的词组。实践中,还可以利用上述处理文本的方法得到的待处理文本对应的目标词组和目标词组的情感倾向信息作为训练样本来训练与文本有关的情感分类模型,还可以将得到的待处理文本对应的目标词组和目标词组的情感倾向信息输入现有的与文本情感分类相关的模型中以得到待处理文本的情感倾向信息,由于输入的只是待处理文本的部分词所生成的词组及这些词组的情感倾向信息,因此降低了后续与文本情感分类相关的模型的计算量和计算复杂度。
下面参考图6,其示出了适于用来实现本申请实施例的服务器的计算机系统600的结构示意图。图6示出的服务器仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括获取单元、目标词选取单元、目标词组生成单元和情感倾向信息生成单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,获取单元还可以被描述为“获取至少一个词的单元”。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取至少一个词;从至少一个词中选取词性在预设词性组中的词作为目标词,得到目标词集合;对于目标词集合中的目标词,将目标词与该目标词邻近的预设数目的词,生成目标词组;基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,其中,词性信息是目标词组中的目标词的词性的顺序组合。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (17)
1.一种用于生成信息的方法,包括:
获取至少一个词;
从所述至少一个词中选取词性在预设词性组中的词作为目标词,得到目标词集合;
对于目标词集合中的目标词,将目标词与目标词邻近的预设数目的词,生成目标词组;
基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,其中,词性信息是目标词组中的目标词的词性的顺序组合。
2.根据权利要求1所述的方法,其中,所述基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,包括:
响应于目标词组所对应的词性信息包括以下之一:形容词名词、名词形容词、形容词副词、副词形容词,确定目标词组中的词性为形容词的目标词的情感倾向信息;
将目标词组中的词性为形容词的目标词的情感倾向信息作为目标词组的情感倾向信息。
3.根据权利要求1所述的方法,其中,所述基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,包括:
响应于目标词组所对应的词性信息包括以下之一:否定词动词、副词否定词动词、否定词副词动词,确定目标词组中的词性为动词的目标词的情感倾向信息;
将目标词组中的词性为动词的目标词的情感倾向信息的反向情感倾向信息作为目标词组的情感倾向信息。
4.根据权利要求1所述的方法,其中,所述基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,包括:
响应于目标词组所对应的词性信息包括以下之一:形容词动词、动词形容词,确定目标词组中的词性为动词的目标词是否是情感类动词,其中,所述情感类动词是指用于表征情感的动词;
响应于确定目标词组中的词性为动词的目标词是情感类动词,确定目标词组中的词性为动词的目标词的情感倾向信息;将目标词组中的词性为动词的目标词的情感倾向信息作为目标词组的情感倾向信息。
5.根据权利要求4所述的方法,其中,所述基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,还包括:
响应于确定目标词组中的词性为动词的目标词不是情感类动词,确定目标词组中的词性为形容词的目标词的情感倾向信息;将目标词组中的词性为形容词的目标词的情感倾向信息作为目标词组的情感倾向信息。
6.根据权利要求1-5之一所述的方法,其中,所述基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,包括:
响应于目标词组所对应的词性信息包括否定词形容词,确定目标词组中的词性为形容词的目标词的情感倾向信息;
将目标词组中的词性为形容词的目标词的情感倾向信息的反向情感倾向信息作为目标词组的情感倾向信息。
7.一种用于生成信息的装置,其中,所述装置包括:
获取单元,被配置成获取至少一个词;
目标词选取单元,被配置成从所述至少一个词中选取词性在预设词性组中的词作为目标词,得到目标词集合;
目标词组生成单元,被配置成对于目标词集合中的目标词,将目标词与目标词邻近的预设数目的词,生成目标词组;
情感倾向信息生成单元,被配置成基于目标词组所对应的词性信息,生成目标词组的情感倾向信息,其中,词性信息是目标词组中的目标词的词性的顺序组合。
8.根据权利要求7所述的装置,其中,所述情感倾向信息生成单元,进一步被配置成:
响应于目标词组所对应的词性信息包括以下之一:形容词名词、名词形容词、形容词副词、副词形容词,确定目标词组中的词性为形容词的目标词的情感倾向信息;
将目标词组中的词性为形容词的目标词的情感倾向信息作为目标词组的情感倾向信息。
9.根据权利要求7所述的装置,其中,所述情感倾向信息生成单元,进一步被配置成:
响应于目标词组所对应的词性信息包括以下之一:否定词动词、副词否定词动词、否定词副词动词,确定目标词组中的词性为动词的目标词的情感倾向信息;
将目标词组中的词性为动词的目标词的情感倾向信息的反向情感倾向信息作为目标词组的情感倾向信息。
10.根据权利要求7所述的装置,其中,所述情感倾向信息生成单元,进一步被配置成:
响应于目标词组所对应的词性信息包括以下之一:形容词动词、动词形容词,确定目标词组中的词性为动词的目标词是否是情感类动词,其中,所述情感类动词是指用于表征情感的动词;
响应于确定目标词组中的词性为动词的目标词是情感类动词,确定目标词组中的词性为动词的目标词的情感倾向信息;将目标词组中的词性为动词的目标词的情感倾向信息作为目标词组的情感倾向信息。
11.根据权利要求10所述的装置,其中,所述情感倾向信息生成单元,进一步被配置成:
响应于确定目标词组中的词性为动词的目标词不是情感类动词,确定目标词组中的词性为形容词的目标词的情感倾向信息;
将目标词组中的词性为形容词的目标词的情感倾向信息作为目标词组的情感倾向信息。
12.根据权利要求7-11之一所述的装置,其中,所述情感倾向信息生成单元,进一步被配置成:
响应于目标词组所对应的词性信息包括否定词形容词,确定目标词组中的词性为形容词的目标词的情感倾向信息;
将目标词组中的词性为形容词的目标词的情感倾向信息的反向情感倾向信息作为目标词组的情感倾向信息。
13.一种用于处理文本的方法,包括:
获取待处理文本;
对所述待处理文本进行分词,生成至少一个词;
对所述至少一个词执行如权利要求1-6之一所述的方法,生成所述待处理文本对应的目标词组的情感倾向信息。
14.根据权利要求13所述的方法,其中,所述方法还包括:
将所述待处理文本对应的目标词组的情感倾向信息和目标词组输入至预先训练的情感分类模型,得到所述待处理文本的情感倾向信息,其中,所述情感分类模型用于表征文本对应的词组的情感倾向信息和词组与文本的情感倾向信息之间的对应关系。
15.根据权利要求14所述的方法,其中,所述情感分类模型通过如下步骤训练得到:
获取训练样本集合,训练样本包括待处理文本的情感倾向信息、待处理文本对应的目标词组的情感倾向信息以及目标词组,其中,所述待处理文本对应的目标词组的情感倾向信息通过执行如权利要求1-6之一所述的方法生成;
将所述训练样本集合中的训练样本的待处理文本对应的目标词组的情感倾向信息和所述目标词组作为输入,将输入的待处理文本的情感倾向信息作为输出,训练得到所述情感分类模型。
16.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
17.一种计算机可读介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810335835.0A CN110399494A (zh) | 2018-04-16 | 2018-04-16 | 用于生成信息的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810335835.0A CN110399494A (zh) | 2018-04-16 | 2018-04-16 | 用于生成信息的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110399494A true CN110399494A (zh) | 2019-11-01 |
Family
ID=68319534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810335835.0A Pending CN110399494A (zh) | 2018-04-16 | 2018-04-16 | 用于生成信息的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110399494A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580349A (zh) * | 2020-12-24 | 2021-03-30 | 竹间智能科技(上海)有限公司 | 短语提取方法及装置、电子设备 |
WO2021134177A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 说话内容的情感标注方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101540683B1 (ko) * | 2014-10-20 | 2015-07-31 | 숭실대학교산학협력단 | 감정어의 극성을 분류하는 방법 및 서버 |
CN105005553A (zh) * | 2015-06-19 | 2015-10-28 | 四川大学 | 基于情感词典的短文本情感倾向分析方法 |
CN106649603A (zh) * | 2016-11-25 | 2017-05-10 | 北京资采信息技术有限公司 | 一种基于网页文本数据情感分类的指定信息推送方法 |
CN106776574A (zh) * | 2016-12-28 | 2017-05-31 | Tcl集团股份有限公司 | 用户评论文本挖掘方法及装置 |
CN107066449A (zh) * | 2017-05-09 | 2017-08-18 | 北京京东尚科信息技术有限公司 | 信息推送方法和装置 |
-
2018
- 2018-04-16 CN CN201810335835.0A patent/CN110399494A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101540683B1 (ko) * | 2014-10-20 | 2015-07-31 | 숭실대학교산학협력단 | 감정어의 극성을 분류하는 방법 및 서버 |
CN105005553A (zh) * | 2015-06-19 | 2015-10-28 | 四川大学 | 基于情感词典的短文本情感倾向分析方法 |
CN106649603A (zh) * | 2016-11-25 | 2017-05-10 | 北京资采信息技术有限公司 | 一种基于网页文本数据情感分类的指定信息推送方法 |
CN106776574A (zh) * | 2016-12-28 | 2017-05-31 | Tcl集团股份有限公司 | 用户评论文本挖掘方法及装置 |
CN107066449A (zh) * | 2017-05-09 | 2017-08-18 | 北京京东尚科信息技术有限公司 | 信息推送方法和装置 |
Non-Patent Citations (3)
Title |
---|
WEIYUAN LI等: "Text-based emotion classification using emotion cause extraction", EXPERT SYSTEMS WITH APPLICATIONS, pages 1742 - 1749 * |
夏东杰;刘少霞;: "基于语义的互联网医院评论文本情感分析及应用", 电脑知识与技术, no. 03, pages 180 - 183 * |
李婷婷;姬东鸿;: "基于SVM和CRF多特征组合的微博情感分析", 计算机应用研究, no. 04, pages 978 - 981 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021134177A1 (zh) * | 2019-12-30 | 2021-07-08 | 深圳市优必选科技股份有限公司 | 说话内容的情感标注方法、装置、设备及存储介质 |
CN112580349A (zh) * | 2020-12-24 | 2021-03-30 | 竹间智能科技(上海)有限公司 | 短语提取方法及装置、电子设备 |
CN112580349B (zh) * | 2020-12-24 | 2023-09-29 | 竹间智能科技(上海)有限公司 | 短语提取方法及装置、电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105654950B (zh) | 自适应语音反馈方法和装置 | |
CN108962219B (zh) | 用于处理文本的方法和装置 | |
Creutz et al. | Unsupervised morpheme segmentation and morphology induction from text corpora using Morfessor 1.0 | |
CN111712834B (zh) | 用于推断现实意图的人工智能系统 | |
US20190057145A1 (en) | Interactive information retrieval using knowledge graphs | |
CN109190124B (zh) | 用于分词的方法和装置 | |
US9633008B1 (en) | Cognitive presentation advisor | |
CN110309114B (zh) | 媒体信息的处理方法、装置、存储介质和电子装置 | |
US10922492B2 (en) | Content optimization for audiences | |
CN109408824A (zh) | 用于生成信息的方法和装置 | |
CN109599187A (zh) | 一种在线问诊的分诊方法、服务器、终端、设备及介质 | |
CN109992781B (zh) | 文本特征的处理方法、装置和存储介质 | |
CN111506794A (zh) | 一种基于机器学习的谣言管理方法和装置 | |
CN110851650B (zh) | 一种评论输出方法、装置、以及计算机存储介质 | |
CN111930792A (zh) | 数据资源的标注方法、装置、存储介质及电子设备 | |
US20190122667A1 (en) | Question Urgency in QA System with Visual Representation in Three Dimensional Space | |
CN110852047A (zh) | 一种文本配乐方法、装置、以及计算机存储介质 | |
CN112188312A (zh) | 用于确定新闻的视频素材的方法和装置 | |
US11868714B2 (en) | Facilitating generation of fillable document templates | |
CN110399494A (zh) | 用于生成信息的方法和装置 | |
CN113934835A (zh) | 结合关键词和语义理解表征的检索式回复对话方法及系统 | |
Alías et al. | Towards high-quality next-generation text-to-speech synthesis: A multidomain approach by automatic domain classification | |
CN108733672B (zh) | 实现网络信息质量评估的方法和系统 | |
CN110807097A (zh) | 分析数据的方法和装置 | |
CN110472140B (zh) | 对象词推荐方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |