CN109117470B - 一种评价文本信息的评价关系提取方法及装置 - Google Patents
一种评价文本信息的评价关系提取方法及装置 Download PDFInfo
- Publication number
- CN109117470B CN109117470B CN201710481661.4A CN201710481661A CN109117470B CN 109117470 B CN109117470 B CN 109117470B CN 201710481661 A CN201710481661 A CN 201710481661A CN 109117470 B CN109117470 B CN 109117470B
- Authority
- CN
- China
- Prior art keywords
- evaluation
- information
- combination
- words
- text information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种评价文本信息的评价关系提取方法及装置,涉及自然语言处理技术领域,提高了提取评价文本信息中评价关系的准确率和工作效率,本发明的主要技术方案为:获取评价文本信息,所述评价文本信息中含有多个用于搭配组合的评价信息;利用评价关系标注模型处理所述评价文本信息,得到所述评价信息的搭配组合,所述评价关系标注模型为具有多层级联序列标注的信息标注模型;根据预置的匹配规则选择所述评价信息的搭配组合,构建所述评价文本信息的评价关系。本发明主要用于提取评价文本信息的评价关系。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种评价文本信息的评价关系提取方法及装置。
背景技术
随着计算机和互联网技术的广泛应用,电子商务经营企业提供了丰富的人与人、人与计算机可以进行交互的网络平台。在这些网络平台,人们可以进行咨询、留言、分享、评价等互动活动,从而生成了庞大的人与计算机交互的语料库。对于电子商务经营企业而言,在这庞大的语料库中抽取评价关系,对于商品评论情感分析的研究具有重要的作用。
目前,评价关系的抽取工作采用的方法包括:将语料进行分词和词性标注,将语料中的名词或者名词短语作为评价对象候选,将形容词作为评价词语候选,利用词频统计语料中的词语出现频率信息,再通过人工制定语法规则建立评价对象和评价词语之间的搭配关系,进而抽取语料中的评价关系。然而,在评价关系的抽取工作过程中,人工制定的语法规则往往受限于工作人员的知识储备能力,若工作人员自身具备的知识容量不足,则人工制定的语法规则中词语组合匹配的逻辑关系是不够全面的,并且若需要对人工制定的语法规则进行修改,则需要人工执行修改操作,那么采用人工制定语法规则的工作方式是不够灵活的,进而最终导致抽取语料中的评价关系不仅不准确、全面,同时还需要大量的人工作业,降低了工作效率。
发明内容
有鉴于此,本发明提供一种评价文本信息的评价关系提取方法及装置,主要目的在于克服在评价文本信息的评价关系提取的过程中由于人工制定语法规则导致抽取的评价关系不准确、不全面问题,提高提取评价文本信息中评价关系的准确率以及提取效率。
为了解决上述问题,本发明主要提供如下技术方案:
一方面,本发明实施例提供了一种评价文本信息的评价关系提取方法,该方法包括:
获取评价文本信息,所述评价文本信息中含有多个用于搭配组合的评价信息;
利用评价关系标注模型处理所述评价文本信息,得到所述评价信息的搭配组合,所述评价关系标注模型为具有多层级联序列标注的信息标注模型;
根据预置的匹配规则选择所述评价信息的搭配组合,构建所述评价文本信息的评价关系。
优选的,所述评价关系标注模型至少包括信息标注层和范围标注层,其中,所述范围标注层是基于信息标注层所标注的评价信息,标注可用于搭配组合的所述评价信息在所述评价文本信息中的范围。
优选的,所述评价信息包括:评价对象、评价属性、评价词语、修饰词语。
优选的,所述评价关系标注模型为三层级联序列标注的信息标注模型,所述利用评价关系标注模型处理所述评价文本信息,得到所述评价信息的搭配组合包括:
利用所述评价关系标注模型的第一层标注所述评价文本信息的基础信息,其中,所述基础信息包括分词标注、词性标注、依存句法的成分标注;
根据所述基础信息,利用所述评价关系标注模型的第二层标注所述评价文本信息中的评价信息;
根据所标注的评价信息,利用所述评价关系标注模型的第三层标注可用于搭配组合的评价信息在所述评价文本信息中的范围;
提取在同一范围内的评价信息进行搭配,得到所述评价信息的搭配组合。
优选的,所述提取在同一范围内的评价信息进行搭配包括:
将同一范围内的所述评价属性与所述评价词语进行搭配;
和/或,将同一范围内的所述评价词语与所述修饰词语进行搭配。
优选的,根据预置的匹配规则选择所述评价信息的搭配组合包括:
利用概率统计和预置词典选择所述评价属性与评价词语进行搭配的组合;
和/或,根据评价信息的位置关系选择所述评价词语与修饰词语进行搭配的组合。
优选的,所述利用概率统计和预置词典选择所述评价属性与评价词语进行搭配的组合包括:
计算所述组合中搭配的词语在所述评价文本中的共现概率;
分别计算所述组合中的词语与预置词典中词语的相似度;
根据所述组合中搭配的词语确定评价属性与评价词语的搭配关系;
利用所述共现概率、所述相似度以及所述搭配关系计算所述组合的匹配度;
选择所述匹配度大于设定阈值的组合。
优选的,所述根据评价信息的位置关系选择所述评价词语与修饰词语进行搭配的组合包括:
根据所述评价文本信息中标点符号的位置,选择所述组合中的词语在同一句中的组合;和/或
当在同一句中一个评价词语具有与多个修饰词语搭配组合时,选择所述评价词语与修饰词语最近的组合;和/或
选择所述修饰词语位于评价词语与评价属性之间,且所述评价词语与评价属性具有搭配关系的组合。
优选的,所述构建所述评价文本信息的评价关系包括:
获取评价对象;
利用所选择的评价属性与评价词语的组合以及评价词语与修饰词语的组合,与所述评价对象构建包含有评价对象、评价属性、评价词语和修饰词语的组合,得到所述评价文本信息的评价关系。
优选的,所述获取评价对象包括:
当所述评价对象为多个时,根据所述评价属性与评价词语的组合在评价文本信息中的位置,将位于所述组合所在位置之前且与所述组合距离最近的一个评价对象作为构建所述评价文本信息的评价关系的评价对象。
为了实现上述目的,根据本发明的另一方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的评价文本信息的评价关系提取方法。
为了实现上述目的,根据本发明的另一方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的评价文本信息的评价关系提取方法。
另一方面,本发明实施例还提供了一种评价文本信息的评价关系提取装置,该装置包括:
获取单元,用于获取评价文本信息,所述评价文本信息中含有多个用于搭配组合的评价信息;
处理单元,用于利用评价关系标注模型处理所述获取单元获取的评价文本信息,得到所述评价信息的搭配组合,所述评价关系标注模型为具有多层级联序列标注的信息标注模型;
选择单元,用于根据预置的匹配规则选择所述处理单元得到的评价信息的搭配组合;
构建单元,用于根据所述选择单元选出的搭配组合构建所述评价文本信息的评价关系。
优选的,所述处理单元使用的评价关系标注模型至少包括信息标注层和范围标注层,其中,所述范围标注层是基于信息标注层所标注的评价信息,标注可用于搭配组合的所述评价信息在所述评价文本信息中的范围。
优选的,所述获取单元获取的评价信息包括:评价对象、评价属性、评价词语、修饰词语。
优选的,所述处理单元使用的评价关系标注模型为三层级联序列标注的信息标注模型,所述处理单元包括:
第一标注模块,用于利用所述评价关系标注模型的第一层标注所述评价文本信息的基础信息,其中,所述基础信息包括分词标注、词性标注、依存句法的成分标注;
第二标注模块,用于根据所述第一标注模块标注的基础信息利用所述评价关系标注模型的第二层标注所述评价文本信息中的评价信息;
第三标注模块,用于根据所述第二标注模块标注的评价信息利用所述评价关系标注模型的第三层标注可用于搭配组合的评价信息在所述评价文本信息中的范围;
搭配模块,用于提取在所述第三标注模块标注的同一范围内的评价信息进行搭配,得到所述评价信息的搭配组合。
优选的,所述搭配模块包括:
第一搭配子模块,用于将同一范围内的所述评价属性与所述评价词语进行搭配;
第二搭配子模块,用于将同一范围内的所述评价词语与所述修饰词语进行搭配。
优选的,所述选择单元包括:
第一选择模块,用于利用概率统计和预置词典选择所述评价属性与评价词语进行搭配的组合;
第二选择模块,用于根据评价信息的位置关系选择所述评价词语与修饰词语进行搭配的组合。
优选的,所述第一选择模块包括:
第一计算子模块,用于计算所述组合中搭配的词语在所述评价文本中的共现概率;
第二计算子模块,用于分别计算所述组合中的词语与预置词典中词语的相似度;
确定子模块,用于根据所述组合中搭配的词语确定评价属性与评价词语的搭配关系;
第三计算子模块,用于利用所述第一计算子模块得到的共现概率、所述第二计算子模块得到的相似度以及所述确定子模块确定的搭配关系计算所述组合的匹配度;
选择子模块,用于选择所述第三计算子模块计算得到的匹配度大于设定阈值的组合。
优选的,所述第二选择模块包括:
第一选择子模块,用于根据所述评价文本信息中标点符号的位置,选择所述组合中的词语在同一句中的组合;
第二选择子模块,用于当在同一句中一个评价词语具有与多个修饰词语搭配组合时,选择所述评价词语与修饰词语最近的组合;
第三选择子模块,用于选择所述修饰词语位于评价词语与评价属性之间,且所述评价词语与评价属性具有搭配关系的组合。
优选的,所述构建单元包括:
获取模块,用于获取评价对象;
确定模块,利用所选择的评价属性与评价词语的组合以及评价词语与修饰词语的组合,与所述获取模块获取的评价对象构建包含有评价对象、评价属性、评价词语和修饰词语的组合,得到所述评价文本信息的评价关系。
优选的,所述获取模块还用于,
当所述评价对象为多个时,根据所述评价属性与评价词语的组合在评价文本信息中的位置,将位于所述组合所在位置之前且与所述组合距离最近的一个评价对象作为构建所述评价文本信息的评价关系的评价对象。
借由上述技术方案,本发明实施例提供的技术方案至少具有下列优点:
本发明实施例提供的一种评价文本信息的评价关系的提取方法及装置,通过采用具有多层级联序列标注的评价关系标注模型,能够高效、自动的识别出评价文本信息中所包含的评价信息,并且能够通过多层级的标注将评价信息进一步的分类、组合,使得评价信息之间的搭配组合更为合理、准确,从而过滤掉一部分不符合评价关系的搭配组合,减少了后续评价关系提取的工作量。对于评价关系标注模型处理后的评价文本信息,更进一步地利用预置的匹配规则筛选更准确的评价信息之间的组合搭配,并综合构建属于该评价文本信息的评价关系。相对于现有采用人工制定语法规则提取评价文本信息的评价关系的方法,本发明实施例所采用的评价关系标注模型无需人工制定语法规则,而是基于对该模型的针对性训练提高其标注的准确性,再配合后续的匹配规则对模型的输出结果加以筛选,将优化后的评价信息搭配组合构建为该评价文本的评价关系,不仅提高了评价关系提取的准确性,更简化了人工操作,提高了评价关系提取的工作效率。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种评价文本信息的评价关系提取方法流程图;
图2为本发明实施例提供的利用评价关系标注模型处理标注评价文本信息并获取评价信息的搭配组合的方法流程图;
图3为本发明实施例提供的根据预置匹配规则选择评价信息的搭配组合并构建评价文本信息的评价关系的方法流程图;
图4为本发明实施例提供的一种评价文本信息的评价关系提取装置的组成框图;
图5为本发明实施例提供的另一种评价文本信息的评价关系提取装置的组成框图;
图6为本发明实施例提供的再一种评价文本信息的评价关系提取装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种评价文本信息的评价关系提取方法,如图1所示,该方法是将评价关系标注模型应用于提取评价文本信息的评价关系的过程中,提高了评价文本信息中评价关系的提取准确率以及提取的工作效率,对此本发明实施例提供以下具体步骤:
101、获取评价文本信息。
对于本发明实施例,首先需要获取评价文本信息,组成语料库,为后续本发明实施例可以成功实现提取评价文本信息的评价关系的方法提供语言文本材料基础。
例如,电子商务经营企业提供了丰富的人与人、人与计算机可以进行交互的网络平台,比如:淘宝、58同城、乐视网、新浪网、微信公众平台等等网络平台。在这些网络平台,人们可以进行咨询、留言、分享、评价等互动活动,从而生成了庞大的人与计算机交互的语料库,这些语料库包含了大规模且丰富的语言实例材料,对于本发明实施例可以从这些语料库中获取评价文本信息,作为语言本文材料基础。
其中,评价文本信息中包含有多个用于搭配组合的评价信息,该评价信息包括:评价对象(是指评价文本信息中的所评价的客体)、评价属性(是指对评价对象所要评价的具体内容)、评价词语以及修饰词语。该搭配组合是可以将评价信息中评价对象、评价属性、评价词语以及修饰词语进行搭配组合,并且可以构成具有搭配关系的四元组<评价对象,评价属性,评价词语,修饰词语>,组成属于该评价文本信息的评价关系。
102、利用评价关系标注模型处理获取的评价文本信息,得到评价信息的搭配组合。
在执行步骤102之前,需要构建评价关系标注模型,该评价关系标注模型中至少包括信息标注层和范围标注层,其中,信息标注层标注文本信息中的评价信息(评价信息包括:评价对象、评价属性、评价词语、以及修饰词语),基于标注的评价信息,范围标注层标注可用于搭配组合的所述评价信息在文本信息中的范围(根据评价信息中的可用于搭配组合的词语在文本信息中的位置,标注包含其位置的范围),表明评价关系标注模型中至少包括两个具有级联关系的标注层,以实现对文本信息的级联序列标注。具体的,还可以根据信息标注层对应的功能用途,将其划分为基础信息标注层和评价信息标注层,其中,基础信息标注层可以用于对文本信息进行分词标注、词性标注、以及依存句法的成分标注,根据基础信息层标注的上述基础信息,评价信息标注层可以标注文本信息中的评价信息,并且基础信息标注层和评价信息标注层是具有级联关系的,据此,可以将信息标注层划分成多个具有级联关系的标注层,最终实现评价关系标注模型是具有范围标注层的多层级联序列标注的信息标注模型。
在本发明实施例中,在构建评价关系标注模型时,可以选择进行级联序列标注的模型,如条件随机场模型(ConditionalRandom Field,CRF)、隐马尔科夫模型(HiddenMarkovModel,HMM)、递归神经网络模型(RecurrentNeuralNetwork,RNN)等等,这些模型都可以作为本发明实施例中所构建的基础模式使用,在这些模型的基础上增加多层的级联序列标注功能,得到该评价关系标注模型。
对于本发明实施例,利用评价关系标注模型处理获取的评价文本信息,可以得到评价信息的搭配组合,是指将评价文本信息输入评价关系标注模型,由于评价文本信息中包含多个评价信息,其中包括如评价对象、评价属性、评价词语以及修饰词语的信息,同时,对于同一类的评价信息中也可能存在有多个词语,比如,在“途观的外观很大气、油耗也很低”中,评价属性就包括“外观”与“油耗”。
对于所得到的评价信息的搭配组合,是指对于不同类型的评价信息词语之间的搭配组合,例如,将评价属性和评价词语搭配组合成二元组<评价属性,评价词语>,将评价词语和修饰词语搭配组合成二元组<评价词语,修饰词语>,当然,本发明实施例并不限定所得到的搭配组合之间的词语个数,可以是上述的二元组,也可以是三元组或四元组等。
103、根据预置的匹配规则选择评价信息的搭配组合,构建该评价文本信息的评价关系。
通过步骤102得到评价信息的搭配组合,例如,上述的评价属性和评价词语搭配组合二元组<评价属性,评价词语>和评价词语和修饰词语搭配组合二元组<评价词语,修饰词语>。根据预置的匹配规则,选择评价信息的搭配组合,是指可以采用多种匹配规则的方法,再次进行筛选,选择出具有搭配关系的搭配组合二元组<评价属性,评价词语>和具有搭配关系的搭配组合二元组<评价词语,修饰词语>,其中,所采用的匹配规则是可以根据所提取的文本内容进行自定义设置的,对此,本发明实施例不做具体限定。
最终,将优化后的评价信息的搭配组合进行整合,构建成包含有评价对象、评价属性、评价词语、修饰词语的评价关系,并将该评价关系作为从该评价文本信息中所提取的评价关系。例如,将评价信息中的评价对象与所选择出的<评价属性,评价词语>和所选择出的<评价词语,修饰词语>进行搭配组合,构成具有搭配关系的四元组<评价对象,评价属性,评价词语,修饰词语>。由于评价文本信息中所含有的评价内容可能存在多个,因此,所提取的评价关系的词语组合在本发明实施例中并不唯一,也就是说,对于同一篇评价文本,所提取得到的评价关系也可以是多个。
针对本发明的实施例提供了一种评价文本信息的评价关系提取方法,通过采用具有多层级联序列标注的评价关系标注模型,能够高效、自动的识别出评价文本信息中所包含的评价信息,并且能够通过多层级的标注将评价信息进一步的分类、组合,使得评价信息之间的搭配组合更为合理、准确,从而过滤掉一部分不符合评价关系的搭配组合,减少了后续评价关系提取的工作量。对于评价关系标注模型处理后的评价文本信息,更进一步地利用预置的匹配规则筛选更准确的评价信息之间的组合搭配,并综合构建属于该评价文本信息的评价关系。相对于现有采用人工制定语法规则提取评价文本信息的评价关系的方法,本发明实施例所采用的评价关系标注模型无需人工制定语法规则,而是基于对该模型的针对性训练提高其标注的准确性,再配合后续的匹配规则对模型的输出结果加以筛选,将优化后的评价信息搭配组合构建为该评价文本的评价关系,不仅提高了评价关系提取的准确性,更简化了人工操作,提高了评价关系提取的工作效率。
基于上述实施例中所述的利用评价关系标注模型处理获取的评价文本信息,得到评价信息的搭配组合的步骤,本发明实施例还提供一种评价文本信息的评价关系提取方法,其中,该方法主要是针对上述实施例中的步骤102进行细化的描述,即使用评价关系标注模型标注评价文本信息并获取评价信息的搭配组合的具体实现方式,在本发明实施例中,例举的评价关系标注模型为具有三层级联序列标注的信息标注模型,其中,该评价关系标注模型的第一层用于标注基础信息,第二层用于标注评价信息,第三层用于标注可用于搭配组合的评价信息在该评价文本信息中的范围。此外,在评价关系标注模型构建完成后,需要采用通过标注训练语料的方法对评价关系标注模型的第二层和第三层进行训练,使评价关系标注模型的第二层具备标注评价信息的能力,使评价关系标注模型的第三层具备标注可用于搭配组合的评价信息在该评价文本信息中的范围的能力,如图2所示,具体的步骤包括:
201、利用评价关系标注模型的第一层标注评价文本信息的基础信息。
评价关系标注模型的第一层是评价关系标注模型的输入层,输入评价文本信息,利用评价关系标注模型的第一层标注评价文本信息的基础信息,该基础信息包括分词标注、词性标注、依存句法的成分标注,用于为后续评价关系标注模型的第二层标注评价信息和第三层标注可用于搭配组合的评价信息在该评价文本信息中的范围提供数据支持。
例如:一条评价文本信息“途观的外观很大气。”当将该条评价文本信息输入评价关系标注模型时,评价关系标注模型的第一层将标注该条评价文本信息的基础信息,采用的步骤包括:首先,对该条评价文本信息进行分词标注,分词结果为:“途观”“的”“外观”“很”“大气”“。”;然后,对该条评价文本信息对应的分词标注结果进行词性标注,其中,“途观”、“外观”是名词,“的”是助词,“很”是副词,“大气”是形容词,“。”是标点符号,那么该条评价文本信息相应的词性标注为“n u n d a wp”,其中n是“名词”的英文缩写,u是“助词”的英文缩写,d是“副词”的英文缩写,a是“形容词”的英文缩写,wp是“标点符号”的英文缩写;最后,根据分词标注结果和词性标注结果对该条评价文本信息进行依存句法的成分标注,“途观”对应“ATT”,“的”对应“RAD”,“外观”对应“SBV”,“很”对应“ADV”,“大气”对应“HED”,“。”对应“WP”,那么该条评价文本信息相应的依存句法成分标注为“ATT RAD SBVADVHED WP”,其中在依存句法分析标注关系中ATT对应“定中关系”,RAD对应“右附加关系”,SBV对应“主谓关系”,ADV对应“状中结构”,HED对应“核心关系”,WP对应“标点符号”。
202、根据第一层标注的基础信息,利用评价关系标注模型的第二层标注评价文本信息中的评价信息。
根据步骤201,获得第一层标注评价文本信息的基础信息后,根据该基础信息,利用评价关系标注模型的第二层标注评价文本信息中的评价信息,其中,该评价信息在本发明实施例中主要分为评价对象、评价属性、评价词语以及修饰词语四类,基于该分类标注在利用评价关系模型的第三层标注可用于搭配组合的评价信息在该评价文本信息中的范围。对于评价信息的具体标注结果可参考一下实例:
例如,根据步骤201的举例,一条评价文本信息“途观的外观很大气。”通过步骤201,评价关系标注模型的第一层标注该条评价文本信息的基础信息包括:分词标注是“途观”“的”“外观”“很”“大气”“。”;词性标注是“n u n d a wp”;依存句法成分标注是“ATTRAD SBVADV HED WP”。基于该评价文本信息的基础信息,进一步的,利用该模型的第二层标注评价信息,所标注的内容包括:“评价对象”对应“Target”,“评价属性”对应“Attribute”,“评价词语”对应“Opinion”,“修饰词语”对应“Modify”,“其他”对应“Other”。将该条评价文本信息“途观的外观很大气。”输入评价关系标注模型,在第二层所标注的评价信息的结果输出为“TargetOtherAttributeModify Opinion Other”,那么分析该条评价文本信息包括:“途观”是评价对象对应“Target”,“外观”是评价属性对应“Attribute”,“大气”是评价词语对应“Opinion”,“很”是修饰词语对应“Modify”,“的”和“。”不是评价信息的词语对应“Other”。
203、根据第二层标注的评价信息,利用评价关系标注模型的第三层标注可用于搭配组合的评价信息在该评价文本信息中的范围。
通过步骤202标注评价文本信息的评价信息,根据该评价信息,利用评价关系标注模型的第三层标注可用于搭配组合的评价信息在该评价文本信息中的范围,也就是,在第二层标注的评价信息中确定可用于搭配组合的评价信息,并比较评价文本信息,确定在这整条评价文本信息中,该可用于搭配组合的评价信息占据的范围,并且标注出该范围,具体包括:标注开始位置对应“S”,标注结束位置对应“E”,标注范围内位置对应“M”,标注范围外的位置对应“N”。通过这样的模型标注方法,该模型的第三层可以标注评价文本信息中最有可能存在评价搭配组合的词语所在的区间范围,即“S M E”范围。
例如:一条评价文本信息“这辆桑塔纳开了9年了,没出过什么问题,质量绝对杠杠的。”将该条评价文本信息输入评价关系标注模型,根据步骤201标注该条评价文本信息的基础信息,具体的方法可以参考步骤201,此处不再赘述。其中,得到该条评价文本信息对应的分词标注为:“这辆”“桑塔纳”“开了”“9年”“了”“,”“没”“出过”“什么”“问题”“,”“质量”“绝对”“杠杆的”“。”根据步骤202标注该条评价文本信息的评价信息,具体的方法可以参考步骤202,此处不再赘述,其中,所标注的评价信息包括:“桑塔纳”是评价对象,“质量”是评价属性,“杠杠的”是评价词语,“绝对”是修饰词语。那么,该模型的第三层标注该条评价文本信息的输出结果为“N N N N N N N N N N N S M E N”。其中,将该条评价文本信息的分词结构与对应的该标注位置的对应关系为:标注“这辆”“桑塔纳”“开了”“9年”“了”“,”“没”“出过”“什么”“问题”“,”是范围外位置,对应“N”;标注“质量”是开始位置,对应“S”;标注“绝对”是范围内位置,对应“M”;标注“杠杠的”是结束位置,对应“E”;标注“。”对应范围外的位置“N”。那么标注的“S M E”对应的范围为该条评价文本信息中最可能存在评价搭配组合的区间。
204、提取在同一范围内的评价信息进行搭配,得到该评价信息的搭配组合。
由于评价文本信息中含有多个用于搭配组合的评价信息,当评价关系标注模型处理该评价文本信息时,评价关系标注模型的第三层可以标注多个可用于搭配组合的评价信息在该评价文本信息中的范围。通过在同一范围内进行评价信息的搭配组合,可以有效利用评价文本信息中前后文的信息,避免将评价文本信息中位置距离远且不具备搭配关系的词语搭配组合,从而提高词语搭配组合的准确率。
其中,本发明实施例中所提取的评价信息的搭配组合包括:评价属性与评价词语进行搭配,组成二元组<评价属性,评价词语>,和/或评价词语与修饰词语进行搭配,组成二元组<评价词语,修饰词语>。并且,上述的二元组搭配均为同一标注范围内的词语组合。
需要说明的是,在提取同一范围内的评价信息进行搭配的过程中,提取的评价信息不包括评价对象,而是将评价信息中的评价属性与评价词语进行搭配以及将评价词语与修饰词语进行搭配,这是因为一个评价文本信息所包含的评价信息中很大概率会出现一个评价对象,而评价属性、评价词语及修饰词语的搭配组合会出现很多可能,所以若在提取评价属性、评价词语及修饰词语并进行搭配组合的过程中,加入了评价对象进行搭配组合,会影响评价信息的搭配组合的准确率。
例如,一条评价文本信息“清晨列队整齐的雪人守护着长白山大地,萌萌的雪人奇兵两辆T60整齐排放,霸气的前脸,很强壮威猛,前卫时尚侧面来一张。”通过评价关系标注模型处理该条评价文本信息,标注的评价信息包括:“T60”是评价对象;“前脸”、“侧面”是评价属性;“霸气”、“强壮威猛”、“前卫”、“时尚”是评价词语;“很”是修饰词语。通过第三层标注的可用于搭配组合的评价信息在该评价文本信息中的范围,可以得到“霸气的前脸,很强壮威猛”范围和“前卫时尚侧面来一张”范围。对于“霸气的前脸,很强壮威猛”,提取“霸气”、“前脸”“很”“强壮威武”,搭配组成<评价属性,评价词语>包括:<前脸,霸气>、<前脸,强壮威猛>;搭配组成<评价词语,修饰词语>包括:<强壮威猛,很>。对于“前卫时尚侧面来一张”,提取“侧面”与“前卫”、“时尚”分别进行搭配,搭配组成<评价属性,评价词语>包括:<侧面,前卫>和<侧面,时尚>。而不会得到的搭配组合比如,<评价属性,评价词语>为<前脸,前卫>、<侧面,霸气>等组合,可见,通过所确定的范围,可以大幅减少不符合评价文本信息所表达意思的搭配组合。
针对本发明的实施例提供了一种评价文本信息的评价关系提取方法,对于评价关系标注模型标注评价文本信息而获取的评价信息的搭配组合作了进一步过滤筛选的处理,通过提取同一范围的评价信息的评价属性和评价词、评价词语和修饰词语进行搭配组合,能够防止评价文本信息中不同范围的评价信息的评价属性和评价词语、评价词语和修饰词语进行搭配,能够高效地过滤掉一分部不具备搭配关系的搭配组合,同时也为后续提取评价关系工作减少工作量,提高了提取评价关系的准确率和工作效率。
此外,基于上述实施例中步骤103所述的根据预置的匹配规则选择评价信息的搭配组合,构建该评价文本信息的评价关系,本发明实施例还提供一种评价文本信息的评价关系提取方法,其中,该方法主要是针对步骤103进行细化的描述,具体的步骤如图3所示,包括:
301a、利用概率统计和预置词典选择同一范围中评价属性与评价词语进行搭配的组合。
在执行步骤301a之前,通过评价关系标注模型处理评价文本信息,根据步骤204提取在同一范围内的评价信息进行搭配,可以将同一范围内的评价属性和评价词语进行搭配,在这些评价属性与评价词语的搭配组合中,可以利用概率统计和预置词典对该搭配组合进行剪枝操作处理,从而过滤掉错误的评价属性和评价词语的搭配组合,进一步提高了评价信息中评价属性和评价词语的搭配组合的准确性。
对于本发明实施例,步骤301a采用的方法包括:
第一步,计算该评价属性和评价词语组合中搭配的词语在该评价文本中的共现概率。
根据第一层标注评价文本信息的基础信息,其中,将该评价文本信息进行分词标注,可以得到评价文本信息的分词标注结果,具体的方法可以参考步骤201,此处不再赘述。根据上述步骤204,获得该评价文本信息中评价信息的搭配组合,其中,可以得到评价属性和评价词语的搭配组合,提取其中一组评价属性和评价词语的搭配组合,针对该组合中评价属性的词语和评价词语的词语进行分析,通过比较整条评价文本信息的分词标注的结果,计算该组合中评价属性的词语和评价词语的词语在该评价文本的词语搭配中共同出现的概率,计算公式如下:
Cooccur(x,y)=p(x,y)/(p(x)+p(y)-p(x,y))
其中,p(x,y)表示词语x和词语y共同出现的概率,p(x)和p(y)分别表示出现词语x的概率和出现词语y的概率。
第二步,分别计算该评价属性和评价词语组合中的词语与预置词典中词语的相似度。
计算已提取的评价属性的词语和评价词语的词语同现有预置词典中的词语的相似度,该相似度计算可以通过文本深度表示模型word2vec进行计算,或者通过其他词语相似度计算方法均可,这里不进行详细阐述。
第三步,根据该评价属性和评价词语组合中搭配的词语确定该词语的搭配关系。
将已提取的评价属性的词语相似度标记为SimA,评价词语的词语相似度标记为SimO。根据计算出的相似度,确定预置词典中相似的评价属性和评价词语之间是否存在匹配关系,其中,预置词典中评价属性的词语标记为Attribute_Dic,评价词语的词语标记为Opinnion_Dic,那么确定是否存在搭配关系则表示为:
第四步,利用共现概率、相似度以及搭配关系计算该评价属性和评价词语组合的匹配度。
对于提取的每一组评价属性和评价词语的搭配组合,计算其匹配度,如下公式:
其中att和op分别表示提取的搭配组合中的评价属性的词语和评价词语的词语,attd和opd分别表示预置词典中的评价属性的词语和评价词语的词语。
第五步,选择匹配度大于设定阈值的组合。
预先设定词语匹配度的判断阈值,当该计算出的匹配度低于预先设定词语匹配度的判断阈值时,将对应的评价属性的词语和评价词语的词语搭配组合删除,即对已提取的评价属性的词语和评价词语的词语搭配组合进行剪枝操作处理,保留剩余评价属性的词语和评价词语的词语搭配组合作为搭配结果。其中,该阈值的设定可根据不同场景的需求进行人为设置,比如,对于内容较多的文本,其词语组合也较多,此时就可以适当提高该阈值,以过滤出较少的词语组合。
例如,对于上述步骤204提到的评价文本信息的举例,作进一步的剪枝操作处理,对于评价文本信息中的“霸气的前脸,很强壮威猛”,得到评价属性和评价词语的搭配组合,组成二元组<前脸,霸气>、<前脸,强壮威猛>通过上述公式进行计算,会得到<前脸,强壮威猛>的匹配度小于预先设定词语匹配度的判断阈值,故进行删除操作,而<前脸,霸气>的匹配度大于预先设定词语匹配度的判断阈值,所以进行保留。
需要说明的是,上述剪枝操作处理还能有效避免一些因评价信息的词语提取错误导致的词语搭配错误的问题,例如一条评价文本信息“内饰豪华,动力强劲”中,通过第二层标注的评价信息包括:“内饰”“动力”是评价属性;“豪华”“强劲”是评价词语。若评价属性的词语“动力”未被提取出,对于组成的评价属性和评价词语的搭配组合二元组<内饰,强劲>,可以通过采用上述进行剪枝操作处理过滤此类错误搭配。
301b、根据评价信息的位置关系选择同一范围的评价信息的评价词语与修饰词语进行搭配的组合。
在执行步骤301b之前,通过评价关系标注模型处理评价文本信息,根据步骤204提取在同一范围内的评价信息进行搭配,可以将同一范围内的评价词语和修饰词语进行搭配,在这些评价词语与修饰词语的搭配组合中,可以根据评价信息的位置关系对该搭配组合进行优化选择操作,以过滤掉错误的评价词语和修饰词语的搭配组合,进一步提高评价信息的评价词语和修饰词语的搭配组合的准确性。
对于本发明实施例,步骤301b采用的方法包括:
根据该评价文本信息中标点符号的位置,选择该评价词语和修饰词语的组合中词语在同一句中的组合。在评价文本信息中的两个标点符号之间,若出现评价词语和修饰词语,那么该评价词语和修饰词语的搭配组合具有搭配关系的可能性会很大,可以将该评价词语和修饰词语进行搭配组合,该标点符号可以是逗号、句号、感叹号、问号等,但是顿号除外。
进一步的,当在同一句中一个评价词语具有与多个修饰词语搭配组合时,选择该评价词语与修饰词语最近的组合。一般的,由于准确的修饰词语同评价词语之间的位置距离相对较短,那么在两个标点符号之间找出与评价词语的位置距离最近的修饰词语,将该评价词语和该修饰词语进行搭配组合,得到适合的词语组合搭配。
此外,还可以选择修饰词语位于评价词语与评价属性之间,且该评价词语与评价属性具有搭配关系的组合。在评价文本信息中,若修饰词语的位置在具有搭配关系的评价属性和评价词语之间,则该修饰词语和评价词语搭配组合具有搭配关系的可能性会大于该修饰词语和其他评价词语的搭配组合。
针对本发明实施例步骤301b采用的方法做具体的举例描述:
例如,一条评价文本信息,“奥迪A4的外观非常炫目,动力很强劲。”,通过评价关系标注模型对该条评价文本信息处理,可以输出评价信息包括:“奥迪A4”是评价对象;“外观”和“动力”是评价属性;“炫目”和“强劲”是评价词语;“非常”和“很”是修饰词语。根据该条评价文本信息中标点符号的位置,选择“炫目”和“非常”搭配组合,选择“强劲”和“很”搭配组合。进一步的,由于评价文本信息的随意性,有时候相关的标点符号不一定很规范,假如该评价文本信息中没有逗号,例如,“奥迪A4的外观非常炫目动力很强劲。”那么,当在同一句中一个评价词语具有与多个修饰词语搭配组合时,依次将“炫目”和“非常”、“炫目”和“很”、“强劲”和“非常”及“强劲”和“很”搭配组合,那么选择该评价词语与修饰词语位置最近的组合,也就是,选择“炫目”和“非常”、“强劲”和“很”搭配组合。进一步的,在该评价文本信息中,在存在具有搭配关系的评价属性和评价词语的前提下,比如具有搭配关系的“外观”和“炫目”搭配组合、具有搭配关系的“动力”和“强劲”搭配组合,相应地,在位于具有搭配关系的评价词语与评价属性之间,选择修饰词语,比如“非常”在“外观”和“炫目”之间、“很”在“动力”和“强劲”之间,那么优化选择“炫目”和“非常”搭配组合以及“强劲”和“很”搭配组合。
302、获取评价对象。
一般的,在一个评价文本信息中存在有一个评价对象。而当评价文本信息中包含的评价对象为多个时,则根据评价属性与评价词语的组合在评价文本信息中的位置获取在该组合位置之前且距离最近的一个评价对象。
例如,一条评价文本信息“到后来科鲁兹开了三年半的样子,1.6升那可怜的动力让我实在是无语,换车也提上了日程,选车也经历了很多,当时心心念念就想换个suv,汉兰达、翼虎、新胜达、长城H9、丰田奔跑者、起亚索兰托、日产奇骏等等看了一个遍,都是好车哈,最终却又转回来提了台日产天籁,天籁是台好车,动力不错,舒适性超级棒,没什么小毛病,开了快4年,省油舒适,确实省心。”通过评价关系标注模型标注该条评价文本信息,得到其可用于搭配组合的评价信息在该评价文本信息中的范围是“动力不错,舒适性超级棒,没什么小毛病,开了快4年,省油舒适,确实省心”,相应的方法可以参考步骤203,此处不再赘述。提取在同一范围内的评价信息进行搭配,得到该评价信息的搭配组合,相应的方法可以参考步骤204,此处不再赘述。其中,提取评价属性和评价词语的搭配组合为:“动力”和“不错”搭配组合、“舒适性”和“棒”搭配组合。对应其在评价文本信息中的位置,获取在该组合位置之前且距离最近的一个评价对象“天籁”。由于该条评价文本信息中还包含有多个评价对象:“科鲁兹”、“suv”、“汉兰达”、“翼虎”、“新胜达”等。通过步骤302采用的方法,可以快速、准确的确定该条评价文本信息的评价信息中所对应的评价对象。
303、利用选择的评价属性与评价词语的组合以及评价词语与修饰词语的组合,与评价对象构建包含有评价对象、评价属性、评价词语和修饰词语的组合,得到评价文本信息的评价关系。
根据步骤301a选择出的二元组<评价属性,评价词语>,根据步骤301b选择出的二元组<评价词语,修饰词语>,以及根据步骤302获取的评价对象进行搭配组合,建立四元组<评价对象,评价属性,评价词语,修饰词语>的搭配组合,构成搭配关系,将这种词语之间的搭配关系作为该评价文本信息的评价关系。
需要说明的是,对于同一评价文本信息中,由于四元组的搭配结果可以为多个,因此,本发明实施例中对于评价文本信息中的评价关系数量没有具体限定。
针对本发明实施例提供了一种评价文本信息的评价关系提取方法,对于评价文本信息中同一范围的评价信息,通过概率计算和词典相似度的方法过滤掉一部分评价属性和评价词语的搭配组合的方法,以及通过评价信息的位置关系过滤掉一部分评价词语和修饰词语的搭配组合的方法,可以高效地过滤掉一部分不具有搭配关系的搭配组合,从而减少了后续提取评价关系的工作量,并且提高了提取评价关系的准确率和工作效率。
将评价关系标注模型应用于处理评价文本信息,对提取同一范围内的评价属性和评价词语的搭配组合,采用概率统计和词典相似度的方法进行剪枝操作方法,进一步地过滤掉错误的评价属性和评价词语的搭配组合;对提取的同一范围内的评价词语和修饰词语的搭配组合,采用位置关系优化选择的方法,进一步地过滤掉错误的评价词语和修饰词语的搭配组合。然后通过该评价属性和评价词语的搭配组合进一步地确定评价对象,从而确定评价信息的搭配关系,来构建评价信息的评价关系。通过以上方法提取的评价关系更加全面、准确,并且工作效率更高。
为了实现上述目的,根据本发明的另一方面,本发明实施例还提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的评价文本信息的评价关系提取方法。
为了实现上述目的,根据本发明的另一方面,本发明实施例还提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的评价文本信息的评价关系提取方法。
进一步的,作为对上述图1、图2及图3所示方法的实现,本发明另一实施例还提供了一种评价文本信息的评价关系提取装置。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置应用于提高提取评价文本信息的评价关系的准确率和工作效率,具体如图4所示,该装置包括:
获取单元41,用于获取评价文本信息,所述评价文本信息中含有多个用于搭配组合的评价信息;
处理单元42,用于利用评价关系标注模型处理所述获取单元41获取的评价文本信息,得到所述评价信息的搭配组合,所述评价关系标注模型为具有多层级联序列标注的信息标注模型;
选择单元43,用于根据预置的匹配规则选择所述处理单元42得到的评价信息的搭配组合;
构建单元44,用于根据所述选择单元43选出的搭配组合构建所述评价文本信息的评价关系。
进一步的,所述处理单元42使用的评价关系标注模型至少包括信息标注层和范围标注层,其中,所述范围标注层是基于信息标注层所标注的评价信息,标注可用于搭配组合的所述评价信息在所述评价文本信息中的范围。
进一步的,所述获取单元41获取的评价信息包括:评价对象、评价属性、评价词语、修饰词语。
进一步的,如图5所示,当处理单元42使用的评价关系标注模型为三层级联序列标注的信息标注模型时,所述处理单元42包括:
第一标注模块421,用于利用所述评价关系标注模型的第一层标注所述评价文本信息的基础信息,其中,所述基础信息包括分词标注、词性标注、依存句法的成分标注;
第二标注模块422,用于根据所述第一标注模块421标注的基础信息利用所述评价关系标注模型的第二层标注所述评价文本信息中的评价信息;
第三标注模块423,用于根据所述第二标注模块421标注的评价信息,利用所述评价关系标注模型的第三层标注可用于搭配组合的评价信息在所述评价文本信息中的范围;
搭配模块424,用于提取在所述第三标注模块423标注的同一范围内的评价信息进行搭配,得到所述评价信息的搭配组合。
进一步的,如图5所示,所述搭配模块424包括:
第一搭配子模块4241,用于将同一范围内的所述评价属性与所述评价词语进行搭配;
第二搭配子模块4242,用于将同一范围内的所述评价词语与所述修饰词语进行搭配。
进一步的,如图6所示,所述选择单元43包括:
第一选择模块431,用于利用概率统计和预置词典选择所述评价属性与评价词语进行搭配的组合;
第二选择模块432,用于根据评价信息的位置关系选择所述评价词语与修饰词语进行搭配的组合。
进一步的,如图6所示,所述第一选择模块431包括:
第一计算子模块4311,用于计算所述组合中搭配的词语在所述评价文本中的共现概率;
第二计算子模块4312,用于分别计算所述组合中的词语与预置词典中词语的相似度;
确定子模块4313,用于根据所述组合中搭配的词语确定评价属性与评价词语的搭配关系;
第三计算子模块4314,用于利用所述第一计算子模4311得到的共现概率、所述第二计算子模块4312得到的相似度以及所述确定子模块4313确定的搭配关系计算所述组合的匹配度;
选择子模块4315,用于选择所述第三计算子模块4314计算得到的匹配度大于设定阈值的组合。
进一步的,如图6所示,所述第二选择模块432包括:
第一选择子模块4321,用于根据所述评价文本信息中标点符号的位置,选择所述组合中的词语在同一句中的组合;
第二选择子模块4322,用于当在同一句中一个评价词语具有与多个修饰词语搭配组合时,选择所述评价词语与修饰词语最近的组合;
第三选择子模块4323,用于选择所述修饰词语位于评价词语与评价属性之间,且所述评价词语与评价属性具有搭配关系的组合。
进一步的,如图6所示,所述构建单元44包括:
获取模块441,用于获取评价对象;
确定模块442,利用所选择的评价属性与评价词语的组合以及评价词语与修饰词语的组合,与所述获取模块441获取的评价对象构建包含有评价对象、评价属性、评价词语和修饰词语的组合,得到所述评价文本信息的评价关系。
进一步的,所述获取模块441,还用于当所述评价对象为多个时,根据所述评价属性与评价词语的组合在评价文本信息中的位置,将位于所述组合所在位置之前且与所述组合距离最近的一个评价对象作为构建所述评价文本信息的评价关系的评价对象。
综上所述,本发明实施例所采用的一种评价文本信息的评价关系的提取方法及装置,通过采用具有多层级联序列标注的评价关系标注模型,能够高效、自动的识别出评价文本信息中所包含的评价信息,并且对于上述评价信息的搭配组合进一步过滤筛选处理,通过提取同一范围的评价信息的评价属性和评价词、评价词语和修饰词语进行搭配组合,能够防止评价文本信息中不同范围的评价信息的评价属性和评价词语、评价词语和修饰词语进行搭配,可以过滤掉一部分错误的评价信息的搭配组合,除此之外,通过概率计算和词典相似度的方法过滤掉一部分评价属性和评价词语的搭配组合的方法,以及通过评价信息的位置关系过滤掉一部分评价词语和修饰词语的搭配组合的方法,能够高效地过滤掉一分部不具备搭配关系的搭配组合,同时为后续提取评价关系减少了工作量。相对于现有采用人工制定语法规则提取评价文本信息的评价关系的方法,本发明实施例所采用的评价关系标注模型无需人工制定语法规则,而是基于对该模型的针对性训练提高其标注的准确性,再配合后续的匹配规则对模型的输出结果加以筛选,将优化后的评价信息搭配组合构建为该评价文本的评价关系,不仅提高了评价关系提取的准确性,更简化了人工操作,提高了评价关系提取的工作效率。
所述评价文本信息的评价关系提取装置包括处理器和存储器,上述获取单元、处理单元、选择单元和构建单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高了提取评价文本信息的评价关系的准确率和工作效率。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述评价文本信息的评价关系提取方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述评价文本信息的评价关系提取方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
一种评价文本信息的评价关系提取方法,所述方法包括:获取评价文本信息,所述评价文本信息中含有多个用于搭配组合的评价信息;利用评价关系标注模型处理所述评价文本信息,得到所述评价信息的搭配组合,所述评价关系标注模型为具有多层级联序列标注的信息标注模型;根据预置的匹配规则选择所述评价信息的搭配组合,构建所述评价文本信息的评价关系。
进一步的,所述评价关系标注模型至少包括信息标注层和范围标注层,其中,所述范围标注层是基于信息标注层所标注的评价信息,标注可用于搭配组合的所述评价信息在所述评价文本信息中的范围。
进一步的,所述评价信息包括:评价对象、评价属性、评价词语、修饰词语。
进一步的,所述评价关系标注模型为三层级联序列标注的信息标注模型,所述利用评价关系标注模型处理所述评价文本信息,得到所述评价信息的搭配组合包括:利用所述评价关系标注模型的第一层标注所述评价文本信息的基础信息,其中,所述基础信息包括分词标注、词性标注、依存句法的成分标注;根据所述基础信息,利用所述评价关系标注模型的第二层标注所述评价文本信息中的评价信息;根据所标注的评价信息,利用所述评价关系标注模型的第三层标注可用于搭配组合的评价信息在所述评价文本信息中的范围;提取在同一范围内的评价信息进行搭配,得到所述评价信息的搭配组合。
进一步的,所述提取在同一范围内的评价信息进行搭配包括:将同一范围内的所述评价属性与所述评价词语进行搭配;和/或,将同一范围内的所述评价词语与所述修饰词语进行搭配。
进一步的,根据预置的匹配规则选择所述评价信息的搭配组合包括:利用概率统计和预置词典选择所述评价属性与评价词语进行搭配的组合;和/或,根据评价信息的位置关系选择所述评价词语与修饰词语进行搭配的组合。
进一步的,所述利用概率统计和预置词典选择所述评价属性与评价词语进行搭配的组合包括:计算所述组合中搭配的词语在所述评价文本中的共现概率;分别计算所述组合中的词语与预置词典中词语的相似度;根据所述组合中搭配的词语确定评价属性与评价词语的搭配关系;利用所述共现概率、所述相似度以及所述搭配关系计算所述组合的匹配度;选择所述匹配度大于设定阈值的组合。
进一步的,所述根据评价信息的位置关系选择所述评价词语与修饰词语进行搭配的组合包括:根据所述评价文本信息中标点符号的位置,选择所述组合中的词语在同一句中的组合;和/或当在同一句中一个评价词语具有与多个修饰词语搭配组合时,选择所述评价词语与修饰词语最近的组合;和/或选择所述修饰词语位于评价词语与评价属性之间,且所述评价词语与评价属性具有搭配关系的组合。
进一步的,所述构建所述评价文本信息的评价关系包括:获取评价对象;利用所选择的评价属性与评价词语的组合以及评价词语与修饰词语的组合,与所述评价对象构建包含有评价对象、评价属性、评价词语和修饰词语的组合,得到所述评价文本信息的评价关系。
进一步的,所述获取评价对象包括:当所述评价对象为多个时,根据所述评价属性与评价词语的组合在评价文本信息中的位置,将位于所述组合所在位置之前且与所述组合距离最近的一个评价对象作为构建所述评价文本信息的评价关系的评价对象。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取评价文本信息,所述评价文本信息中含有多个用于搭配组合的评价信息;利用评价关系标注模型处理所述评价文本信息,得到所述评价信息的搭配组合,所述评价关系标注模型为具有多层级联序列标注的信息标注模型;根据预置的匹配规则选择所述评价信息的搭配组合,构建所述评价文本信息的评价关系。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种评价文本信息的评价关系提取方法,其特征在于,所述方法包括:
获取评价文本信息,所述评价文本信息中含有多个用于搭配组合的评价信息;
利用评价关系标注模型处理所述评价文本信息,得到所述评价信息的搭配组合,所述评价关系标注模型为具有多层级联序列标注的信息标注模型;
根据预置的匹配规则选择所述评价信息的搭配组合,构建所述评价文本信息的评价关系所述评价信息包括:评价对象、评价属性、评价词语、修饰词语;
根据预置的匹配规则选择所述评价信息的搭配组合包括:
利用概率统计和预置词典选择所述评价属性与评价词语进行搭配的组合;
和/或,根据评价信息的位置关系选择所述评价词语与修饰词语进行搭配的组合;
所述利用概率统计和预置词典选择所述评价属性与评价词语进行搭配的组合包括:
计算所述组合中搭配的词语在所述评价文本中的共现概率;
分别计算所述组合中的词语与预置词典中词语的相似度;
根据所述组合中搭配的词语确定评价属性与评价词语的搭配关系;
利用所述共现概率、所述相似度以及所述搭配关系计算所述组合的匹配度;
选择所述匹配度大于设定阈值的组合。
2.根据权利要求1所述的方法,其特征在于,所述评价关系标注模型至少包括信息标注层和范围标注层,其中,所述范围标注层是基于信息标注层所标注的评价信息,标注可用于搭配组合的所述评价信息在所述评价文本信息中的范围。
3.根据权利要求1所述的方法,其特征在于,所述评价关系标注模型为三层级联序列标注的信息标注模型,所述利用评价关系标注模型处理所述评价文本信息,得到所述评价信息的搭配组合包括:
利用所述评价关系标注模型的第一层标注所述评价文本信息的基础信息,其中,所述基础信息包括分词标注、词性标注、依存句法的成分标注;
根据所述基础信息,利用所述评价关系标注模型的第二层标注所述评价文本信息中的评价信息;
根据所标注的评价信息,利用所述评价关系标注模型的第三层标注可用于搭配组合的评价信息在所述评价文本信息中的范围;
提取在同一范围内的评价信息进行搭配,得到所述评价信息的搭配组合。
4.根据权利要求3所述的方法,其特征在于,所述提取在同一范围内的评价信息进行搭配包括:
将同一范围内的所述评价属性与所述评价词语进行搭配;
和/或,将同一范围内的所述评价词语与所述修饰词语进行搭配。
5.根据权利要求1所述的方法,其特征在于,所述根据评价信息的位置关系选择所述评价词语与修饰词语进行搭配的组合包括:
根据所述评价文本信息中标点符号的位置,选择所述组合中的词语在同一句中的组合;和/或
当在同一句中一个评价词语具有与多个修饰词语搭配组合时,选择所述评价词语与修饰词语最近的组合;和/或
选择所述修饰词语位于评价词语与评价属性之间,且所述评价词语与评价属性具有搭配关系的组合。
6.根据权利要求1或4或5中任一项所述的方法,其特征在于,所述构建所述评价文本信息的评价关系包括:
获取评价对象;
利用所选择的评价属性与评价词语的组合以及评价词语与修饰词语的组合,与所述评价对象构建包含有评价对象、评价属性、评价词语和修饰词语的组合,得到所述评价文本信息的评价关系。
7.根据权利要求6所述的方法,其特征在于,所述获取评价对象包括:
当所述评价对象为多个时,根据所述评价属性与评价词语的组合在评价文本信息中的位置,将位于所述组合所在位置之前且与所述组合距离最近的一个评价对象作为构建所述评价文本信息的评价关系的评价对象。
8.一种评价文本信息的评价关系提取装置,其特征在于,所述装置包括:
获取单元,用于获取评价文本信息,所述评价文本信息中含有多个用于搭配组合的评价信息;
处理单元,用于利用评价关系标注模型处理所述获取单元获取的评价文本信息,得到所述评价信息的搭配组合,所述评价关系标注模型为具有多层级联序列标注的信息标注模型;
选择单元,用于根据预置的匹配规则选择所述处理单元得到的评价信息的搭配组合;
构建单元,用于根据所述选择单元选出的搭配组合构建所述评价文本信息的评价关系所述评价信息包括:评价对象、评价属性、评价词语、修饰词语;
所述选择单元包括:
第一选择模块,用于利用概率统计和预置词典选择所述评价属性与评价词语进行搭配的组合;
第二选择模块,用于根据评价信息的位置关系选择所述评价词语与修饰词语进行搭配的组合;
所述第一选择模块包括:
第一计算子模块,用于计算所述组合中搭配的词语在所述评价文本中的共现概率;
第二计算子模块,用于分别计算所述组合中的词语与预置词典中词语的相似度;
确定子模块,用于根据所述组合中搭配的词语确定评价属性与评价词语的搭配关系;
第三计算子模块,用于利用所述第一计算子模块得到的共现概率、所述第二计算子模块得到的相似度以及所述确定子模块确定的搭配关系计算所述组合的匹配度;
选择子模块,用于选择所述第三计算子模块计算得到的匹配度大于设定阈值的组合。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-7中任一项所述的评价文本信息的评价关系提取方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1-7中任一项所述的评价文本信息的评价关系提取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710481661.4A CN109117470B (zh) | 2017-06-22 | 2017-06-22 | 一种评价文本信息的评价关系提取方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710481661.4A CN109117470B (zh) | 2017-06-22 | 2017-06-22 | 一种评价文本信息的评价关系提取方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109117470A CN109117470A (zh) | 2019-01-01 |
CN109117470B true CN109117470B (zh) | 2022-11-04 |
Family
ID=64732803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710481661.4A Active CN109117470B (zh) | 2017-06-22 | 2017-06-22 | 一种评价文本信息的评价关系提取方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109117470B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020729B (zh) * | 2019-03-05 | 2021-03-16 | 中国联合网络通信集团有限公司 | 基于人工智能的文章评审方法及装置 |
CN110543634B (zh) * | 2019-09-02 | 2021-03-02 | 北京邮电大学 | 语料数据集的处理方法、装置、电子设备及存储介质 |
CN111126035A (zh) * | 2019-12-24 | 2020-05-08 | 深圳视界信息技术有限公司 | 一种电商评论分析场景下细粒度属性分析方法 |
CN111914566A (zh) * | 2020-07-30 | 2020-11-10 | 混沌时代(北京)教育科技有限公司 | 一种评论自动生成方法 |
CN112749530B (zh) * | 2021-01-11 | 2023-12-19 | 北京光速斑马数据科技有限公司 | 文本编码方法、装置、设备及计算机可读存储介质 |
CN112732894A (zh) * | 2021-01-15 | 2021-04-30 | 深圳市欢太科技有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015125570A (ja) * | 2013-12-26 | 2015-07-06 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、及びプログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102609424B (zh) * | 2011-01-21 | 2014-10-08 | 日电(中国)有限公司 | 评价信息抽取方法和设备 |
CN102866989B (zh) * | 2012-08-30 | 2016-09-07 | 北京航空航天大学 | 基于词语依存关系的观点抽取方法 |
CN103455562A (zh) * | 2013-08-13 | 2013-12-18 | 西安建筑科技大学 | 一种文本倾向性分析方法及基于该方法的商品评论倾向判别器 |
CN104268160B (zh) * | 2014-09-05 | 2017-06-06 | 北京理工大学 | 一种基于领域词典和语义角色的评价对象抽取方法 |
CN105975453A (zh) * | 2015-12-01 | 2016-09-28 | 乐视网信息技术(北京)股份有限公司 | 评论标签提取方法和装置 |
CN106021433B (zh) * | 2016-05-16 | 2019-05-10 | 北京百分点信息科技有限公司 | 一种商品评论数据的口碑分析方法和装置 |
-
2017
- 2017-06-22 CN CN201710481661.4A patent/CN109117470B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015125570A (ja) * | 2013-12-26 | 2015-07-06 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
CN109117470A (zh) | 2019-01-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102577514B1 (ko) | 텍스트 창작 방법, 텍스트 창작 장치, 전자 기기 및 저장 매체 | |
CN109117470B (zh) | 一种评价文本信息的评价关系提取方法及装置 | |
CN110717339B (zh) | 语义表示模型的处理方法、装置、电子设备及存储介质 | |
CN108986186B (zh) | 文字转化视频的方法和系统 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
Xu et al. | Exploiting shared information for multi-intent natural language sentence classification. | |
CN108363725B (zh) | 一种用户评论观点提取和观点标签生成的方法 | |
CN112836487B (zh) | 一种自动评论方法、装置、计算机设备及存储介质 | |
CN111738016A (zh) | 多意图识别方法及相关设备 | |
CN110222184A (zh) | 一种文本的情感信息识别方法及相关装置 | |
US11176332B2 (en) | Linking contextual information to text in time dependent media | |
CN111739520A (zh) | 一种语音识别模型训练方法、语音识别方法、装置 | |
CN111985243A (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
CN112185361B (zh) | 一种语音识别模型训练方法、装置、电子设备及存储介质 | |
CN109508448A (zh) | 基于长篇文章生成短资讯方法、介质、装置和计算设备 | |
CN111078881A (zh) | 细粒度情感分析方法、系统、电子设备和存储介质 | |
Chen et al. | Chinese Weibo sentiment analysis based on character embedding with dual-channel convolutional neural network | |
CN116320607A (zh) | 智能视频生成方法、装置、设备及介质 | |
CN111061876A (zh) | 事件舆情数据分析方法及装置 | |
CN114722832A (zh) | 一种摘要提取方法、装置、设备以及存储介质 | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN113240485B (zh) | 文本生成模型的训练方法、文本生成方法和装置 | |
CN112527963B (zh) | 基于词典的多标签情感分类方法及装置、设备、存储介质 | |
CN117131155A (zh) | 多类目识别方法、装置、电子设备及储存介质 | |
CN111680146A (zh) | 确定新词的方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |