CN104572616A - 文本倾向性的确定方法和装置 - Google Patents

文本倾向性的确定方法和装置 Download PDF

Info

Publication number
CN104572616A
CN104572616A CN201410809796.5A CN201410809796A CN104572616A CN 104572616 A CN104572616 A CN 104572616A CN 201410809796 A CN201410809796 A CN 201410809796A CN 104572616 A CN104572616 A CN 104572616A
Authority
CN
China
Prior art keywords
sentence
text
tendentiousness
characteristic word
industrial characteristic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410809796.5A
Other languages
English (en)
Other versions
CN104572616B (zh
Inventor
鲁平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN201410809796.5A priority Critical patent/CN104572616B/zh
Publication of CN104572616A publication Critical patent/CN104572616A/zh
Application granted granted Critical
Publication of CN104572616B publication Critical patent/CN104572616B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明实施例提供一种文本倾向性的确定方法和装置。该方法包括:基于预先建立的行业特征词词典,以句子为单位,查找得到待分析的文本中包含有至少一个行业特征词的句子;根据预先训练得到的文本分类模型,确定所述包含有至少一个行业特征词的句子对应的倾向性;基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向性。通过行业特征词词典中的行业特征词,可以筛选得到对评价对象进行描述和/或情感评价的文本,由于去除了对评价对象无关的对象进行描述和/或情感评价的文本的干扰,因此提高了对待分析的文本所评价的对象的倾向性分析的准确性。

Description

文本倾向性的确定方法和装置
技术领域
本发明实施例涉及数据分析技术领域,尤其涉及一种文本倾向性的确定方法和装置。
背景技术
对于文本的倾向性分析,目前主要有两种方法,一种基于语义分析文本的倾向性,另一种基于机器学习模型分析文本倾向性。
其中,基于语义的文本倾向性分析方法,一般是基于预先建立一个倾向性语义模式库或情感词典,对待分析文本中的形容词或能够体现主观色彩的短语进行抽取,即抽取情感词,然后对抽取的情感词逐一进行倾向性判断并赋予一个倾向值,最后将上述所有倾向值累加起来得到待分析的文本的倾向性。
上述基于语义的文本倾向性分析方法存在以下缺陷:情感词的提取受限于情感词典的准确度和完整度。
基于机器学习模型分析文本倾向性的方法,一般是先通过人工标注一些文本的倾向性,并将这些文档作为训练样本,再通过机器学习的方法构造一个文本分类模型,最后使用构造好的文本分类模型对待分析的文本进行分类,即识别出待分析的文本的倾向性,常用SVM(Support Vector Machine,支持向量机)构造文本分类模型。
上述基于机器学习模型分析文本倾向性的方法在用于分析特定领域的文本的倾向性时,由于不同领域的文本具有不同的特点,相应的倾向性的体现方式不同,因此会导致对不同领域的文本的倾向性的确定结果不准确。
发明内容
本发明实施例提供一种文本倾向性的确定方法和装置,以提高确定的特定领域的文本的倾向性的准确性。
第一方面,本发明实施例提供了一种文本倾向性的确定方法,包括:
基于预先建立的行业特征词词典,以句子为单位,查找得到待分析的文本中包含有至少一个行业特征词的句子;
根据预先训练得到的文本分类模型,确定所述包含有至少一个行业特征词的句子对应的倾向性,所述文本分类模型是通过对已标注倾向性、且包含至少一个行业特征词的样本语句进行学习训练得到的;
基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向性。
第二方面,本发明实施例提供了一种文本倾向性的确定装置,包括:
特征语句查询模块,用于基于预先建立的行业特征词词典,以句子为单位,查找得到待分析的文本中包含有至少一个行业特征词的句子;
特征语句倾向性确定模块,用于根据预先训练得到的文本分类模型,确定所述包含有至少一个行业特征词的句子对应的倾向性,所述文本分类模型是通过对已标注倾向性、且包含至少一个行业特征词的样本语句进行学习训练得到的;
文本倾向性确定模块,用于基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向性。
本发明实施例提供的文本倾向性的确定方法和装置,由于对待分析的文本所评价的对象进行描述和/或情感评价的文本包含有至少一个行业特征词,而对评价对象无关的对象进行描述和/或情感评价的文本与行业特征词无关,因此,通过行业特征词词典中的行业特征词,可以从待分析的文本中筛选得到包含有至少一个行业特征词的句子,从而实现对评价对象进行描述和/或情感评价的文本与对评价对象无关的其他对象进行描述和/或情感评价的文本的分离,通过对与评价对象有关的句子进行倾向性确定,并进一步进行文本倾向性确定,由于去除了对评价对象无关的对象进行描述和/或情感评价的文本的干扰,因此提高了对待分析的文本所评价的对象的倾向性分析的准确性。
附图说明
为了更清楚地说明本发明,下面将对本发明中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种文本倾向性的确定方法的流程图;
图2为本发明实施例三提供的一种文本倾向性的确定方法的流程图;
图3a为本发明实施例三提供的另一种文本倾向性的确定方法的流程图;
图3b为本发明实施例三提供的另一种文本倾向性的确定方法中利用训练得到的文本分类模型以及CRF模型对经预处理后的待分析的文本进行倾向性确定,得到待分析的文本的倾向性以及得到待分析的文本的情感词集合的流程图;
图4为本发明实施例四提供的一种文本倾向性的确定装置的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案作进一步详细描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定,基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
实施例一
请参阅图1,为本发明实施例一提供的一种文本倾向性的确定方法的流程图。本发明实施例的方法可以由配置以硬件和/或软件实现的文本倾向性的确定装置来执行,该实现装置典型的是配置于能够提供倾向性确定服务的服务器中。
该方法包括:步骤110~步骤130。
步骤110、基于预先建立的行业特征词词典,以句子为单位,查找得到待分析的文本中包含有至少一个行业特征词的句子。
行业可以是现有的各种行业,例如,汽车、体育、财经和娱乐等。由于在不同的时间段内,行业发展趋势的不同,导致反映行业发展趋势的行业特征词随时间动态变化,行业特征词有利于动态确定行业热点。设定时间段内,获取到的某个行业领域的行业特征词的集合,即为该行业的行业特征词词典。
本步骤具体是利用行业特征词词典中的行业特征词,从待分析的文本中筛选得到包含有至少一个行业特征词的句子,从而实现包含有至少一个行业特征词的句子与不包含行业特征词的句子的分离。其中,待分析的文本为某一行业领域的行业文本。
某一行业领域的行业文本中的信息体现在两个方面:一方面是对行业文本所评价的对象进行描述和/或情感评价的文本,另一方面是对行业文本所评价的对象关联的其他对象进行描述和/或情感评价的文本,与评价对象关联的其他对象即为与评价对象无关的对象。在对待分析的行业文本进行情感分析,也即倾向性确定时,由于对行业文本所评价的对象进行描述和/或情感评价的文本与对行业文本所评价的对象关联的其他对象进行描述和/或情感评价的文本夹杂在一起,而影响了对待分析的文本所评价的对象的倾向性分析的准确性,因此将上述两种文本进行分离,能够识别得到与评价对象有关的句子,对于与评价对象有关的句子继续进行下述倾向性确定操作,而对于与评价对象无关的句子则不参与倾向性的确定。
其中,对行业文本所评价的对象进行描述和/或情感评价的文本的特征在于,包含有至少一个行业特征词,对行业文本所评价的对象关联的其他对象进行描述和/或情感评价的文本的特征在于,与行业特征词无关,因此,利用行业特征词词典中的行业特征词,可以从待分析的文本中筛选得到包含有至少一个行业特征词的句子,从而实现包含有至少一个行业特征词的句子与不包含行业特征词的句子的分离,也即实现对行业文本所评价的对象进行描述和/或情感评价的文本与对行业文本所评价的对象关联的其他对象进行描述和/或情感评价的文本的分离。
步骤120、根据预先训练得到的文本分类模型,确定所述包含有至少一个行业特征词的句子对应的倾向性,所述文本分类模型是通过对已标注倾向性、且包含至少一个行业特征词的样本语句进行学习训练得到的。
步骤130、基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向性。
确定所述包含有至少一个行业特征词的句子对应的倾向性,可以包括:确定所述包含有至少一个行业特征词的句子为正面、中性或负面;具体可以采用n-gram算法,得到包含有至少一个行业特征词的句子为正面、中性或负面。
相应地,基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向性,可以包括:
如果倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值小于或等于第一设定阈值(例如10%),则确定所述待分析的文本的倾向性为中性;
如果倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值大于第一设定阈值(例如10%),且倾向性为正面、且包含有至少一个行业特征词的句子的数量,与倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有至少一个行业特征词的句子的数量之和的比值大于第二设定阈值(例如70%),则确定所述待分析的文本的倾向性为正面;
如果倾向性为正面、且包含有至少一个行业特征词的句子的数量与倾向性为负面、且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值大于第一设定阈值,且倾向性为正面、且包含有至少一个行业特征词的句子的数量,与倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有至少一个行业特征词的句子的数量之和的比值小于或者等于第二设定阈值,则确定所述待分析的文本的倾向性为负面。
本实施例的技术方案,由于对待分析的文本所评价的对象进行描述和/或情感评价的文本包含有至少一个行业特征词,而对评价对象无关的对象进行描述和/或情感评价的文本与行业特征词无关,因此,通过行业特征词词典中的行业特征词,可以从待分析的文本中筛选得到包含有至少一个行业特征词的句子,从而实现对评价对象进行描述和/或情感评价的文本与对评价对象无关的其他对象进行描述和/或情感评价的文本的分离,通过对与评价对象有关的句子进行倾向性确定,并进一步进行文本倾向性确定,由于去除了对评价对象无关的对象进行描述和/或情感评价的文本的干扰,因此提高了对待分析的文本所评价的对象的倾向性分析的准确性。
本发明实施例采用汽车领域新闻、论坛的28万个已标注倾向性的、且包含有至少一个行业特征词的句子作为样本语句,训练得到文本分类模型,将从设定网站采集的汽车领域新闻、论坛、博客、微博等1000篇文章作为待分析的文本,对利用行业特征词进行所述分离操作后筛选得到与评价对象有关的句子,以及不进行分离对待分析的文本的原始句子分别进行文本倾向性确定操作得到的对比结果,如表1所示。可见基于特定领域的特征,对文本进行倾向性分析能大幅提高准确率和召回率。
表1
实施例二
本实施例在上述实施例的基础上,提供了基于预先建立的行业特征词词典,以句子为单位,查找得到待分析的文本中包含有至少一个行业特征词的句子这一操作的优选方案。具体包括:
对待分析的文本进行句子切分处理以及分词处理;
对于各分句,在预先建立的行业特征词词典中匹配该分句包含的分词,查找得到待分析的文本中包含有至少一个行业特征词的句子。
其中,对待分析的文本进行句子切分处理,能够得到待分析的文本包含的各分句,对各分句,进行分词处理,能够得到每个分句包含的分词;对于各分句,利用预先建立的行业特征词词典中行业特征词与该分句包含的分词的匹配结果,从而可以筛选得到待分析的文本中包含有至少一个行业特征词的句子。
优选是,在对待分析的文本进行句子切分处理以及分词处理之后,还包括:
利用停用词表,对各分词进行过滤。
通过对各分词进行停用词过滤操作,对于各分句,利用预先建立的行业特征词词典中行业特征词与该分句过滤后的分词的匹配结果,从而可以提高包含有至少一个行业特征词的句子的筛选效率。
本实施例中,行业特征词词典的建立,可以包括:
接收人工配置的行业特征词词典中的行业特征词;
优选是,通过下述操作建立行业特征词词典:
获取行业文本组;
基于预设行业种子字确定策略,从所述行业文本组包含的文本中确定该文本对应的行业种子字;
基于预设行业特征词提取策略,利用所述行业种子字,在对应的文本中提取该文本包含的行业特征词,并添加在行业特征词词典中。
行业文本组由多篇行业文本组成,行业可以是现有的各种行业,例如,汽车、体育、财经和娱乐等。具体可以人工收集行业文本组,例如,人工收集1000篇汽车行业的典型文章,组成行业为汽车的文本组;也可以从行业网站中抓取多篇行业文本,组成行业文本组。
优选是按设定的时间间隔(例如,3个月)动态获取行业文本组,由于在不同的时间段内,行业发展趋势的不同,导致不同时段对应的行业文本组不同,因此,有利于动态跟踪行业种子字,相应得到随时间动态变化的行业特征词,也即,有利于动态确定行业热点。
需要说明的是,行业种子字随行业发展而动态变化。以汽车行业为例进行说明,随着《爸爸去哪儿》综艺节目的热播,相应的行业文本组中与汽车赞助商“英菲尼迪”相关的文本增多,导致从这一时间段的行业文本中得到的行业种子字包含“英”、“菲”、“尼”和“迪”;又如,随着《爸爸去哪儿》综艺节目收官,以及《奔跑吧,兄弟》综艺节目的热播,相应的行业文本组中与汽车赞助商“凌渡”相关的文本增多,导致从这一时间段的行业文本中得到的行业种子字包含“凌”和“渡”;再如,随着混合动力系统的逐步发展,相应的行业文本组中与“混合动力”相关的文本增多,导致从这一时间段的行业文本中得到的行业种子字包含“混”、“合”、“动”和“力”。
如前所述,不同时段的行业文本组动态变化,导致相应的行业种子字和行业特征词亦动态变化。
本实施方式,在获取到行业文本组之后,通过从行业文本组中确定行业种子字,由于行业种子字是根据行业文本组中每个字的参数以及对应字的参考参数确定的,保证了确定的行业种子字的可信度,同时避免了行业种子字的遗漏;再通过行业种子字从行业文本组中提取行业特征词,保证了提取的行业特征词的可信度,提高了行业特征词词典的准确度。
相对于人工配置方式,本实施方式可以实现行业特征词的自动提取,节省了人力成本,提高了行业特征词词典的建立效率,同时避免了人工配置方式中由于人的认知滞后于行业发展所导致的配置的行业特征词的准确度较低的问题,保证了提取的行业特征词的可信度,提高了行业特征词词典的准确度。
实施例三
请参阅图2,为本发明实施例三提供的一种文本倾向性的确定方法的流程图。具体包括:步骤210~步骤260。
步骤210、基于预先建立的行业特征词词典,以句子为单位,查找得到待分析的文本中包含有至少一个行业特征词的句子。
本步骤同样适用于上述实施例二中的句子切分处理、分词处理以及在预先建立的行业特征词词典中匹配各分句包含的分词的操作,不再赘述。
本步骤中的行业特征词词典的建立,同样适用于实施例二中的行业特征词词典的建立操作,不再赘述。
步骤220、根据预先训练得到的文本分类模型,确定所述包含有至少一个行业特征词的句子对应的倾向性,所述文本分类模型是通过对已标注倾向性、且包含至少一个行业特征词的样本语句进行学习训练得到的。
步骤230、基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向性。
本步骤同样适用于实施例一中的文本倾向性确定策略,不再赘述。
步骤240、利用情感词典,从所述包含有至少一个行业特征词的句子中提取情感词。
请感词典中,将情感词以及对应的倾向性(例如,正面、中性和负面)对应存储。
步骤250、根据预先训练得到的条件随机场(Conditional Random Filed,CRF)模型,从所述包含有至少一个行业特征词的句子中提取情感词,所述CRF模型是通过对已标注情感词和情感词位置的包含有至少一个行业特征词的样本语句进行学习训练获得的。
条件随机场(CRF)模型是由Lafferty在2001年提出的一种典型的判别式模型。CRF模型最早是针对序列数据分析提出的,它在观测序列的基础上对目标序列进行建模,重点解决序列化标注的问题。可以把条件随机场看成是一个无向图模型或马尔可夫随机场,它是一种用来标记和切分序列化数据的统计模型。CRF模型主要用于词性标注、分词以及命名实体识别。例如,通过标准的已标注语料库进行词性标注/分词模型的训练,对待分析的文本进行情感词提取;又如,通过自定义语料标注,进行某一范围内的标注,并且可以验证这种标注的准确性。
步骤260、将利用情感词典提取到的情感词与利用CRF模型提取到的情感词进行合并,得到所述待分析的文本的情感词集合。
本实施例的技术方案,通过行业特征词词典,对评价对象进行描述和/或情感评价的文本与对评价对象无关的其他对象进行描述和/或情感评价的文本的分离,之后对与评价对象有关的句子进行倾向性确定,并进一步进行文本倾向性确定,由于去除了对评价对象无关的对象进行描述和/或情感评价的文本的干扰,因此提高了对待分析的文本所评价的对象的倾向性分析的准确性;在确定文本倾向性之后,以情感词典为主,以条件随机场模型为辅,实现了双层次的情感词的全面抽取,能够得到待分析的文本的情感词集合。
需要说明的是,在本实施例中,步骤240和步骤250是相互独立的,可以单独执行,也可以组合采用,其执行顺序不限。
还需要说明的是,步骤220~步骤230以及步骤240~步骤260的执行顺序不限,可以采用与本实施例不同的执行顺序,也可以并行执行,只要能够确定待分析的文本的倾向性以及得到待分析的文本的情感词集合即可。
请参阅图3a和图3b,图3a提供的另一种文本倾向性的确定方法,具体包括:步骤310~步骤350。
步骤310、对获取到的样本数据进行预处理,所述预处理可以包括分词处理去停用词处理、对包含至少一个行业特征词的样本语句进行倾向性标注处理,以及对包含至少一个行业特征词的样本语句进行情感词标注以及情感词位置识别处理。
步骤320、通过对已标注倾向性、且包含至少一个行业特征词的样本语句进行学习训练,得到文本分类模型。
步骤330、通过对已标注情感词和情感词位置的包含有至少一个行业特征词的样本语句进行学习训练,得到条件随机场(CRF)模型。
步骤340、对待分析的文本进行预处理,所述预处理可以包括:句子切分处理、分词处理以及利用停用词表,对各分词进行过滤。
步骤350、利用训练得到的文本分类模型以及CRF模型对经预处理后的待分析的文本进行倾向性确定,得到待分析的文本的倾向性以及得到待分析的文本的情感词集合。
在本步骤中,请参阅图3b,具体可以包括:步骤351~步骤355。
步骤351、对于经预处理后的待分析的文本中的各分句,抽取该分句包含的特征词,基于预先建立的行业特征词词典,判断该分句是否包含有至少一个行业特征词,若是,则执行步骤352,若否,则对该分句的下一个分句执行所述特征词抽取以及判断操作。
步骤352、根据预先训练得到的文本分类模型,确定所述包含有至少一个行业特征词的句子对应的倾向性。
步骤353、利用情感词典,从所述包含有至少一个行业特征词的句子中提取情感词。
步骤354、根据预先训练得到的CRF模型,从所述包含有至少一个行业特征词的句子中提取情感词。
步骤355、基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向性;以及
将利用情感词典提取到的情感词与利用CRF模型提取到的情感词进行合并,得到所述待分析的文本的情感词集合。
本实施例的技术方案,通过行业特征词词典,对评价对象进行描述和/或情感评价的文本与对评价对象无关的其他对象进行描述和/或情感评价的文本的分离,之后对与评价对象有关的句子进行倾向性确定,以情感词典为主,以条件随机场模型为辅,实现了在与评价对象有关的句子中双层次的情感词的全面抽取,在对对分析的文本的所有分句进行倾向性确定以情感词抽取之后,进一步进行文本倾向性确定,以及情感词合并,得到了待分析的文本的情感词集合,由于去除了对评价对象无关的对象进行描述和/或情感评价的文本的干扰,因此提高了对待分析的文本所评价的对象的倾向性分析的准确性。
实施例四
请参阅图4,为本发明实施例四提供的一种文本倾向性的确定装置的结构示意图。该装置包括:特征语句查询模块410、特征语句倾向性确定模块420和文本倾向性确定模块430。
其中,特征语句查询模块410用于基于预先建立的行业特征词词典,以句子为单位,查找得到待分析的文本中包含有至少一个行业特征词的句子;特征语句倾向性确定模块420用于根据预先训练得到的文本分类模型,确定所述包含有至少一个行业特征词的句子对应的倾向性,所述文本分类模型是通过对已标注倾向性、且包含至少一个行业特征词的样本语句进行学习训练得到的;文本倾向性确定模块430用于基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向性。
本实施例的技术方案,由于对待分析的文本所评价的对象进行描述和/或情感评价的文本包含有至少一个行业特征词,而对评价对象无关的对象进行描述和/或情感评价的文本与行业特征词无关,因此,通过行业特征词词典中的行业特征词,可以从待分析的文本中筛选得到包含有至少一个行业特征词的句子,从而实现对评价对象进行描述和/或情感评价的文本与对评价对象无关的其他对象进行描述和/或情感评价的文本的分离,通过对与评价对象有关的句子进行倾向性确定,并进一步进行文本倾向性确定,由于去除了对评价对象无关的对象进行描述和/或情感评价的文本的干扰,因此提高了对待分析的文本所评价的对象的倾向性分析的准确性。
在上述方案中,特征语句倾向性确定模块420具体可以用于根据预先训练得到的文本分类模型,确定所述包含有至少一个行业特征词的句子为正面、中性或负面;相应地,文本倾向性确定模块430具体可以用于:
如果倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值小于或等于第一设定阈值,则确定所述待分析的文本的倾向性为中性;
如果倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值大于第一设定阈值,且倾向性为正面、且包含有至少一个行业特征词的句子的数量,与倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有至少一个行业特征词的句子的数量之和的比值大于第二设定阈值,则确定所述待分析的文本的倾向性为正面;
如果倾向性为正面、且包含有至少一个行业特征词的句子的数量与倾向性为负面、且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值大于第一设定阈值,且倾向性为正面、且包含有至少一个行业特征词的句子的数量,与倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有至少一个行业特征词的句子的数量之和的比值小于或者等于第二设定阈值,则确定所述待分析的文本的倾向性为负面。
在上述方案中,特征语句查询模块410可以包括:预处理子模块和特征语句查询子模块。
其中,预处理子模块用于对待分析的文本进行句子切分处理以及分词处理;特征语句查询子模块用于对于各分句,在预先建立的行业特征词词典中匹配该分句包含的分词,查找得到待分析的文本中包含有至少一个行业特征词的句子。
进一步地,所述特征语句查询模块410还可以包括:分词过滤子模块,用于在对待分析的文本进行句子切分处理以及分词处理之后,利用停用词表,对各分词进行过滤。
在上述方案中,所述装置还可以包括:行业特征词词典建立模块,可以用于接收人工配置的行业特征词词典中的行业特征词;或者用于:获取行业文本组;基于预设行业种子字确定策略,从所述行业文本组包含的文本中确定该文本对应的行业种子字;基于预设行业特征词提取策略,利用所述行业种子字,在对应的文本中提取该文本包含的行业特征词,并添加在行业特征词词典中。
在上述方案中,所述装置还可以包括:第一情感词提取模块、第二情感词提取模块和情感词合并模块。
其中,第一情感词提取模块用于在基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向性之后,利用情感词典,从所述包含有至少一个行业特征词的句子中提取情感词;第二情感词提取模块用于根据预先训练得到的条件随机场(CRF)模型,从所述包含有至少一个行业特征词的句子中提取情感词,所述CRF模型是通过对已标注情感词和情感词位置的包含有至少一个行业特征词的样本语句进行学习训练获得的;情感词合并模块用于将利用情感词典提取到的情感词与利用CRF模型提取到的情感词进行合并,得到所述待分析的文本的情感词集合。
本发明实施例提供的文本倾向性的确定装置可执行本发明任意实施例所提供的文本倾向性的确定方法,具备执行方法相应的功能模块和有益效果。
最后应说明的是:以上各实施例仅用于说明本发明的技术方案,而非对其进行限制;实施例中优选的实施方式,并非对其进行限制,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文本倾向性的确定方法,其特征在于,包括:
基于预先建立的行业特征词词典,以句子为单位,查找得到待分析的文本中包含有至少一个行业特征词的句子;
根据预先训练得到的文本分类模型,确定所述包含有至少一个行业特征词的句子对应的倾向性,所述文本分类模型是通过对已标注倾向性、且包含至少一个行业特征词的样本语句进行学习训练得到的;
基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向性。
2.根据权利要求1所述的方法,其特征在于,确定所述包含有至少一个行业特征词的句子对应的倾向性,包括:
确定所述包含有至少一个行业特征词的句子为正面、中性或负面;
基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向性,包括:
如果倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值小于或等于第一设定阈值,则确定所述待分析的文本的倾向性为中性;
如果倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值大于第一设定阈值,且倾向性为正面、且包含有至少一个行业特征词的句子的数量,与倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有至少一个行业特征词的句子的数量之和的比值大于第二设定阈值,则确定所述待分析的文本的倾向性为正面;
如果倾向性为正面、且包含有至少一个行业特征词的句子的数量与倾向性为负面、且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值大于第一设定阈值,且倾向性为正面、且包含有至少一个行业特征词的句子的数量,与倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有至少一个行业特征词的句子的数量之和的比值小于或者等于第二设定阈值,则确定所述待分析的文本的倾向性为负面。
3.根据权利要求1所述的方法,其特征在于,基于预先建立的行业特征词词典,以句子为单位,查找得到待分析的文本中包含有至少一个行业特征词的句子,包括:
对待分析的文本进行句子切分处理以及分词处理;
对于各分句,在预先建立的行业特征词词典中匹配该分句包含的分词,查找得到待分析的文本中包含有至少一个行业特征词的句子。
4.根据权利要求3所述的方法,其特征在于,在对待分析的文本进行句子切分处理以及分词处理之后,所述方法还包括:
利用停用词表,对各分词进行过滤。
5.根据权利要求1所述的方法,其特征在于,行业特征词词典的建立,包括:
接收人工配置的行业特征词词典中的行业特征词;
或者包括:
获取行业文本组;
基于预设行业种子字确定策略,从所述行业文本组包含的文本中确定该文本对应的行业种子字;
基于预设行业特征词提取策略,利用所述行业种子字,在对应的文本中提取该文本包含的行业特征词,并添加在行业特征词词典中。
6.根据权利要求1-5任一所述的方法,其特征在于,在基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向性之后,所述方法还包括:
利用情感词典,从所述包含有至少一个行业特征词的句子中提取情感词;
根据预先训练得到的条件随机场CRF模型,从所述包含有至少一个行业特征词的句子中提取情感词,所述CRF模型是通过对已标注情感词和情感词位置的包含有至少一个行业特征词的样本语句进行学习训练获得的;
将利用情感词典提取到的情感词与利用CRF模型提取到的情感词进行合并,得到所述待分析的文本的情感词集合。
7.一种文本倾向性的确定装置,其特征在于,包括:
特征语句查询模块,用于基于预先建立的行业特征词词典,以句子为单位,查找得到待分析的文本中包含有至少一个行业特征词的句子;
特征语句倾向性确定模块,用于根据预先训练得到的文本分类模型,确定所述包含有至少一个行业特征词的句子对应的倾向性,所述文本分类模型是通过对已标注倾向性、且包含至少一个行业特征词的样本语句进行学习训练得到的;
文本倾向性确定模块,用于基于预设文本倾向性确定策略,根据所述包含有至少一个行业特征词的句子对应的倾向性,确定所述待分析的文本的倾向性。
8.根据权利要求7所述的装置,其特征在于,特征语句倾向性确定模块,具体用于根据预先训练得到的文本分类模型,确定所述包含有至少一个行业特征词的句子为正面、中性或负面;
文本倾向性确定模块,具体用于:
如果倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值小于或等于第一设定阈值,则确定所述待分析的文本的倾向性为中性;
如果倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值大于第一设定阈值,且倾向性为正面、且包含有至少一个行业特征词的句子的数量,与倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有至少一个行业特征词的句子的数量之和的比值大于第二设定阈值,则确定所述待分析的文本的倾向性为正面;
如果倾向性为正面、且包含有至少一个行业特征词的句子的数量与倾向性为负面、且包含有至少一个行业特征词的句子的数量之和,与所述待分析的文本的句子总数的比值大于第一设定阈值,且倾向性为正面、且包含有至少一个行业特征词的句子的数量,与倾向性为正面、且包含有至少一个行业特征词的句子的数量以及倾向性为负面、且包含有至少一个行业特征词的句子的数量之和的比值小于或者等于第二设定阈值,则确定所述待分析的文本的倾向性为负面。
9.根据权利要求7所述的装置,其特征在于,特征语句查询模块包括:
预处理子模块,用于对待分析的文本进行句子切分处理以及分词处理;
特征语句查询子模块,用于对于各分句,在预先建立的行业特征词词典中匹配该分句包含的分词,查找得到待分析的文本中包含有至少一个行业特征词的句子。
10.根据权利要求9所述的装置,其特征在于,所述特征语句查询模块还包括:
分词过滤子模块,用于在对待分析的文本进行句子切分处理以及分词处理之后,利用停用词表,对各分词进行过滤。
CN201410809796.5A 2014-12-23 2014-12-23 文本倾向性的确定方法和装置 Active CN104572616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410809796.5A CN104572616B (zh) 2014-12-23 2014-12-23 文本倾向性的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410809796.5A CN104572616B (zh) 2014-12-23 2014-12-23 文本倾向性的确定方法和装置

Publications (2)

Publication Number Publication Date
CN104572616A true CN104572616A (zh) 2015-04-29
CN104572616B CN104572616B (zh) 2018-04-24

Family

ID=53088720

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410809796.5A Active CN104572616B (zh) 2014-12-23 2014-12-23 文本倾向性的确定方法和装置

Country Status (1)

Country Link
CN (1) CN104572616B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719217A (zh) * 2016-01-25 2016-06-29 山东海博科技信息系统有限公司 法医伤情鉴定管理方法和系统
CN108205524A (zh) * 2016-12-20 2018-06-26 北京京东尚科信息技术有限公司 文本数据处理方法和装置
CN108255803A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 文档情感的判断方法和装置
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN109189914A (zh) * 2018-08-27 2019-01-11 黑龙江八农垦大学 一种计算机人工智能信息过滤系统
CN109271623A (zh) * 2018-08-16 2019-01-25 龙马智芯(珠海横琴)科技有限公司 文本情感去噪方法及系统
CN110175246A (zh) * 2019-04-09 2019-08-27 山东科技大学 一种从视频字幕中提取概念词的方法
CN110263344A (zh) * 2019-06-25 2019-09-20 名创优品(横琴)企业管理有限公司 一种基于混合模型的文本情感分析方法、装置和设备
CN110289066A (zh) * 2019-07-29 2019-09-27 河南开合软件技术有限公司 一种法医鉴定报告的审查方法及系统
CN110750978A (zh) * 2019-09-25 2020-02-04 深圳市金证优智科技有限公司 情感倾向分析方法、装置、电子设备及存储介质
CN110929026A (zh) * 2018-09-19 2020-03-27 阿里巴巴集团控股有限公司 一种异常文本识别方法、装置、计算设备及介质
CN111078883A (zh) * 2019-12-13 2020-04-28 北京明略软件系统有限公司 危险指数分析方法、装置、电子设备和存储介质
CN112015857A (zh) * 2019-05-13 2020-12-01 中国移动通信集团湖北有限公司 用户感知评价方法、装置、电子设备及计算机存储介质
CN112364170A (zh) * 2021-01-13 2021-02-12 北京智慧星光信息技术有限公司 数据情感分析方法、装置、电子设备及介质
CN112445897A (zh) * 2021-01-28 2021-03-05 京华信息科技股份有限公司 文本类数据大规模分类标注方法、系统、装置及存储介质
CN112818681A (zh) * 2020-12-31 2021-05-18 北京知因智慧科技有限公司 文本情感分析方法、系统及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069589A1 (en) * 2004-09-30 2006-03-30 Nigam Kamal P Topical sentiments in electronically stored communications
CN102663139A (zh) * 2012-05-07 2012-09-12 苏州大学 一种情感词典构建方法及系统
CN102682130A (zh) * 2012-05-17 2012-09-19 苏州大学 一种文本情感分类方法及系统
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN103699626A (zh) * 2013-12-20 2014-04-02 华南理工大学 一种微博用户个性化情感倾向分析方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060069589A1 (en) * 2004-09-30 2006-03-30 Nigam Kamal P Topical sentiments in electronically stored communications
CN102663139A (zh) * 2012-05-07 2012-09-12 苏州大学 一种情感词典构建方法及系统
CN102682130A (zh) * 2012-05-17 2012-09-19 苏州大学 一种文本情感分类方法及系统
CN102708096A (zh) * 2012-05-29 2012-10-03 代松 一种基于语义的网络智能舆情监测系统及其工作方法
CN103699626A (zh) * 2013-12-20 2014-04-02 华南理工大学 一种微博用户个性化情感倾向分析方法及系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719217A (zh) * 2016-01-25 2016-06-29 山东海博科技信息系统有限公司 法医伤情鉴定管理方法和系统
CN108205524A (zh) * 2016-12-20 2018-06-26 北京京东尚科信息技术有限公司 文本数据处理方法和装置
CN108255803A (zh) * 2016-12-29 2018-07-06 北京国双科技有限公司 文档情感的判断方法和装置
CN108255803B (zh) * 2016-12-29 2022-03-01 北京国双科技有限公司 文档情感的判断方法和装置
CN109145097A (zh) * 2018-06-11 2019-01-04 人民法院信息技术服务中心 一种基于信息提取的裁判文书分类方法
CN109271623A (zh) * 2018-08-16 2019-01-25 龙马智芯(珠海横琴)科技有限公司 文本情感去噪方法及系统
CN109189914A (zh) * 2018-08-27 2019-01-11 黑龙江八农垦大学 一种计算机人工智能信息过滤系统
CN110929026A (zh) * 2018-09-19 2020-03-27 阿里巴巴集团控股有限公司 一种异常文本识别方法、装置、计算设备及介质
CN110929026B (zh) * 2018-09-19 2023-04-25 阿里巴巴集团控股有限公司 一种异常文本识别方法、装置、计算设备及介质
CN110175246A (zh) * 2019-04-09 2019-08-27 山东科技大学 一种从视频字幕中提取概念词的方法
CN112015857A (zh) * 2019-05-13 2020-12-01 中国移动通信集团湖北有限公司 用户感知评价方法、装置、电子设备及计算机存储介质
CN110263344A (zh) * 2019-06-25 2019-09-20 名创优品(横琴)企业管理有限公司 一种基于混合模型的文本情感分析方法、装置和设备
CN110263344B (zh) * 2019-06-25 2022-04-19 创优数字科技(广东)有限公司 一种基于混合模型的文本情感分析方法、装置和设备
CN110289066A (zh) * 2019-07-29 2019-09-27 河南开合软件技术有限公司 一种法医鉴定报告的审查方法及系统
CN110750978A (zh) * 2019-09-25 2020-02-04 深圳市金证优智科技有限公司 情感倾向分析方法、装置、电子设备及存储介质
CN111078883A (zh) * 2019-12-13 2020-04-28 北京明略软件系统有限公司 危险指数分析方法、装置、电子设备和存储介质
CN112818681A (zh) * 2020-12-31 2021-05-18 北京知因智慧科技有限公司 文本情感分析方法、系统及电子设备
CN112818681B (zh) * 2020-12-31 2023-11-10 北京知因智慧科技有限公司 文本情感分析方法、系统及电子设备
CN112364170A (zh) * 2021-01-13 2021-02-12 北京智慧星光信息技术有限公司 数据情感分析方法、装置、电子设备及介质
CN112445897A (zh) * 2021-01-28 2021-03-05 京华信息科技股份有限公司 文本类数据大规模分类标注方法、系统、装置及存储介质

Also Published As

Publication number Publication date
CN104572616B (zh) 2018-04-24

Similar Documents

Publication Publication Date Title
CN104572616A (zh) 文本倾向性的确定方法和装置
CN104679728B (zh) 一种文本相似度检测方法
US8239189B2 (en) Method and system for estimating a sentiment for an entity
Al Khatib et al. Patterns of argumentation strategies across topics
CN103077164A (zh) 文本分析方法及文本分析器
CN107832229A (zh) 一种基于nlp的系统测试用例自动生成方法
CN106919673A (zh) 基于深度学习的文本情绪分析系统
CN103853834B (zh) 基于文本结构分析的Web文档摘要的生成方法
CN107704556B (zh) 一种汽车行业细分领域的情感分析方法及系统
CN102096680A (zh) 信息有效性分析的方法和装置
CN103324609A (zh) 文本校对装置和文本校对方法
CN101404035A (zh) 一种基于文本或语音的信息搜索方法
KR20100031800A (ko) 병렬 코퍼스를 이용한 기계번역 오류 탐지 방법 및 장치
CN102541838B (zh) 用于优化情感分类器的方法和设备
CN108228758A (zh) 一种文本分类方法及装置
CN101609459A (zh) 一种情感特征词提取系统
CN105630768A (zh) 一种基于层叠条件随机场的产品名识别方法及装置
CN104317965A (zh) 基于语料的情感词典构建方法
CN104346326A (zh) 一种情绪文本的情绪特征确定方法及装置
CN106445906A (zh) 领域词典中中长词词组的生成方法及装置
CN104035918A (zh) 一种采用上下文特征匹配的中文机构名简称识别系统
CN109213998A (zh) 中文错字检测方法及系统
Meng et al. Mining user reviews: from specification to summarization
CN105389303B (zh) 一种异源语料自动融合方法
GB2572320A (en) Hate speech detection system for online media content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20150429

Assignee: Beijing Yuanjian Information Technology Co.,Ltd.

Assignor: RUN TECHNOLOGIES Co.,Ltd. BEIJING

Contract record no.: X2022990000530

Denomination of invention: Method and Device for Determining Text Tendency

Granted publication date: 20180424

License type: Common License

Record date: 20220819