CN107423278A - 评价要素的识别方法、装置及系统 - Google Patents
评价要素的识别方法、装置及系统 Download PDFInfo
- Publication number
- CN107423278A CN107423278A CN201610346263.7A CN201610346263A CN107423278A CN 107423278 A CN107423278 A CN 107423278A CN 201610346263 A CN201610346263 A CN 201610346263A CN 107423278 A CN107423278 A CN 107423278A
- Authority
- CN
- China
- Prior art keywords
- evaluation
- essential elements
- random field
- field models
- condition random
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供了一种评价要素的识别方法、装置及系统,属于自然语言处理领域。评价要素的识别方法包括:接收输入文本;利用第一条件随机场模型对输入文本进行识别,得到第一识别结果,所述第一识别结果包括所述第一条件随机场模型识别出的待判定评价要素;利用第二条件随机场模型对输入文本进行识别,得到第二识别结果,所述第二识别结果包括所述第二条件随机场模型识别出的假阳性评价要素,其中,假阳性评价要素是误判为评价要素的要素;根据所述第一识别结果和所述第二识别结果识别出所述输入文本中的评价要素。本发明的技术方案能够准确识别出文本中的评价要素。
Description
技术领域
本发明涉及自然语言处理领域,特别是指一种评价要素的识别方法、装置及系统。
背景技术
目前用户对产品的评价通常是通过文本来进行表达,为了更好地理解和分析评价文本中的观点,评价要素的观点挖掘成为评价分析领域的主要课题。评价要素的观点挖掘主要包含两个步骤,评价要素的抽取和其对应的情感倾向的判别。评价要素可以是被评价的对象或对象的特征。例如,在手机产品领域,“手机”和“屏幕”可以是评价要素。
在评价分析领域,评价要素抽取通常被当作一个命名实体识别任务,并采用判别式模型的条件随机场模型。与其他信息抽取任务相同,评价要素抽取的评价标准是准确率和召回率。准确率是条件随机场模型正确判断为该类的样本数与条件随机场模型判断属于该类的样本总数之比率,体现了条件随机场模型识别结果的准确程度;召回率是条件随机场模型正确判断为该类的样本数与属于该类的样本总数之比率,体现了条件随机场模型识别结果的完备性。
其中,提高准确率意味着减少假阳性结果,在条件随机场模型的应用中,现有技术往往通过特征调优来提高准确率。
然而单纯地对条件随机场模型进行特征调优的效果并不好。这是由于,要素词并不一定总是评价要素。例如,某用户评论写道“某手机的XX屏,很好很强大~”,其中“XX屏”是一个评价要素;但在另一条广告软文中出现“某手机采用强大的高清XX屏,…”。其中“XX屏”并不是评价要素,因为这个句子中并不存在观点。对于上述情况,很难找到一个方案来提高条件随机场模型识别结果的准确率。
发明内容
本发明要解决的技术问题是提供一种评价要素的识别方法、装置及系统,能够准确识别出文本中的评价要素。
为解决上述技术问题,本发明的实施例提供技术方案如下:
一方面,提供一种评价要素的识别方法,包括:
接收输入文本;
利用第一条件随机场模型对输入文本进行识别,得到第一识别结果,所述第一识别结果包括所述第一条件随机场模型识别出的待判定评价要素;
利用第二条件随机场模型对输入文本进行识别,得到第二识别结果,所述第二识别结果包括所述第二条件随机场模型识别出的假阳性评价要素,其中,假阳性评价要素是误判为评价要素的要素;
根据所述第一识别结果和所述第二识别结果识别出所述输入文本中的评价要素。
进一步地,所述利用第一条件随机场模型对输入文本进行识别之前,所述方法还包括:
获取多组第一训练数据,每组第一训练数据中包括有文本以及文本中标注的评价要素;
生成所述第一条件随机场模型的特征;
利用所述多组第一训练数据对所述第一条件随机场模型的特征的权重进行估计,并根据估计的权重生成所述第一条件随机场模型。
进一步地,所述第一条件随机场模型的特征为词级别的特征。
进一步地,所述利用第二条件随机场模型对输入文本进行识别之前,所述方法还包括:
获取多组第二训练数据,每组第二训练数据中包括有文本以及文本中标注的假阳性评价要素;
生成所述第二条件随机场模型的特征;
利用所述多组第二训练数据对所述第二条件随机场模型的特征的权重进行估计,并根据估计的权重生成所述第二条件随机场模型。
进一步地,所述第二条件随机场模型的特征为句级别的特征。
进一步地,所述根据所述第一识别结果和所述第二识别结果识别出所述输入文本中的评价要素包括:
在所述待判定评价要素不是假阳性评价要素时,判断所述待判定评价要素为评价要素。
进一步地,所述第一识别结果还包括第一条件随机场模型识别出的待判定评价要素的边缘概率p1,所述第二识别结果还包括第二条件随机场模型识别出的假阳性评价要素的边缘概率p2,所述根据所述第一识别结果和所述第二识别结果识别出所述输入文本中的评价要素还包括:
在p1与p2的比值大于预设阈值时,判断所述待判定评价要素为评价要素,在p1与p2的比值不大于预设阈值时,判断所述待判定评价要素不是评价要素。
本发明实施例还提供了一种评价要素的识别装置,包括:
接收模块,用于接收输入文本;
第一识别模块,用于利用第一条件随机场模型对输入文本进行识别,得到第一识别结果,所述第一识别结果包括所述第一条件随机场模型识别出的待判定评价要素;
第二识别模块,用于利用第二条件随机场模型对输入文本进行识别,得到第二识别结果,所述第二识别结果包括所述第二条件随机场模型识别出的假阳性评价要素,其中,假阳性评价要素是误判为评价要素的要素;
处理模块,用于根据所述第一识别结果和所述第二识别结果识别出所述输入文本中的评价要素。
进一步地,所述装置还包括:
第一获取模块,用于获取多组第一训练数据,每组第一训练数据中包括有文本以及文本中标注的评价要素;
第一生成模块,用于生成所述第一条件随机场模型的特征,利用所述多组第一训练数据对所述第一条件随机场模型的特征的权重进行估计,并根据估计的权重生成所述第一条件随机场模型。
进一步地,所述装置还包括:
第二获取模块,用于获取多组第二训练数据,每组第二训练数据中包括有文本以及文本中标注的假阳性评价要素;
第二生成模块,用于生成所述第二条件随机场模型的特征,利用所述多组第二训练数据对所述第二条件随机场模型的特征的权重进行估计,并根据估计的权重生成所述第二条件随机场模型。
本发明实施例还提供了一种评价要素的识别系统,包括:
输入设备,用于接收输入文本;
分析设备,用于利用第一条件随机场模型对输入文本进行识别,得到第一识别结果,所述第一识别结果包括所述第一条件随机场模型识别出的待判定评价要素;利用第二条件随机场模型对输入文本进行识别,得到第二识别结果,所述第二识别结果包括所述第二条件随机场模型识别出的假阳性评价要素,其中,假阳性评价要素是误判为评价要素的要素;根据所述第一识别结果和所述第二识别结果识别出所述输入文本中的评价要素;
输出设备,用于输出所述分析设备的识别结果。
本发明的实施例具有以下有益效果:
上述方案中,先利用第一条件随机场模型对输入文本进行识别,识别出输入文本中的待判定评价要素;再利用第二条件随机场模型对输入文本进行识别,识别出输入文本中的假阳性评价要素,结合两次得到的识别结果判断待判定评价要素是否为评价要素,进而识别出输入文本中的评价要素。通过本发明的技术方案能够对用户评论文本进行分析,准确识别出文本中的评价要素。
附图说明
图1为本发明实施例一评价要素的识别方法的流程示意图;
图2为本发明实施例二评价要素的识别装置的结构框图;
图3为本发明实施例三评价要素的识别系统的结构框图;
图4为本发明实施例四评价要素的识别方法的流程示意图;
图5为本发明实施例四生成第一条件随机场模型的流程示意图;
图6为本发明实施例四生成第二条件随机场模型的流程示意图;
图7为本发明实施例四识别输入文本中的评价要素的流程示意图。
具体实施方式
为使本发明的实施例要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
本发明的实施例针对现有技术中评价要素识别准确率较低的问题,提供一种评价要素的识别方法、装置及系统,能够准确识别出文本中的评价要素。
实施例一
本实施例提供一种评价要素的识别方法,如图1所示,本实施例包括:
步骤101:接收输入文本;
步骤102:利用第一条件随机场模型对输入文本进行识别,得到第一识别结果,第一识别结果包括第一条件随机场模型识别出的待判定评价要素;
步骤103:利用第二条件随机场模型对输入文本进行识别,得到第二识别结果,第二识别结果包括第二条件随机场模型识别出的假阳性评价要素,其中,假阳性评价要素是误判为评价要素的要素;
步骤104:根据第一识别结果和第二识别结果识别出输入文本中的评价要素。
本实施例中,先利用第一条件随机场模型对输入文本进行识别,识别出输入文本中的待判定评价要素;再利用第二条件随机场模型对输入文本进行识别,识别出输入文本中的假阳性评价要素,结合两次得到的识别结果判断待判定评价要素是否为评价要素,进而识别出输入文本中的评价要素。通过本发明的技术方案能够对用户评论文本进行分析,准确识别出文本中的评价要素。
进一步地,利用第一条件随机场模型对输入文本进行识别之前,方法还包括:
获取多组第一训练数据,每组第一训练数据中包括有文本以及文本中标注的评价要素;
生成第一条件随机场模型的特征;
利用多组第一训练数据对第一条件随机场模型的特征的权重进行估计,并根据估计的权重生成第一条件随机场模型。
具体地,第一训练数据可以是已经标注了评价要素的用户评论文本,第一训练数据的数量越多越好,这样可以通过大量的第一训练数据训练得到识别准确率较高的第一条件随机场模型。其中,对第一条件随机场模型的特征的权重进行估计的方法包括但不仅限于最大似然法,BFGS法,随机梯度下降法和贝叶斯法。
优选地,第一条件随机场模型的特征选择准则为采用词级别的特征,因为词级别的特征对主观性有更好的指示作用。
进一步地,利用第二条件随机场模型对输入文本进行识别之前,方法还包括:
获取多组第二训练数据,每组第二训练数据中包括有文本以及文本中标注的假阳性评价要素;
生成第二条件随机场模型的特征;
利用多组第二训练数据对第二条件随机场模型的特征的权重进行估计,并根据估计的权重生成第二条件随机场模型。
具体地,第二训练数据可以是用户评论文本,在用户评论文本中标注了哪些词是假阳性评价要素,第二训练数据的数量越多越好,这样可以通过大量的第二训练数据训练得到识别准确率较高的第二条件随机场模型。其中,对第二条件随机场模型的特征的权重进行估计的方法包括但不仅限于最大似然法,BFGS法,随机梯度下降法和贝叶斯法。
优选地,第二条件随机场模型的特征选择准则为采用句级别的特征,因为句级别的特征对客观性有更好的指示作用。
进一步地,根据第一识别结果和第二识别结果识别出输入文本中的评价要素包括:
在待判定评价要素不是假阳性评价要素时,判断待判定评价要素为评价要素。
进一步地,如果输入文本中的某个词被第一条件随机场模型认定为非评价要素,被第二条件随机场模型认定为非假阳性评价要素,则可以判断该词不是评价要素;如果输入文本中的某个词被第一条件随机场模型认定为非评价要素,被第二条件随机场模型认定为假阳性评价要素,则可以判断该词不是评价要素。
进一步地,在输入文本中的某个词被第一条件随机场模型认定为待判定评价要素,被第二条件随机场模型认定为假阳性评价要素时,第一识别结果还包括第一条件随机场模型识别出的待判定评价要素的边缘概率p1,第二识别结果还包括第二条件随机场模型识别出的假阳性评价要素的边缘概率p2,根据第一识别结果和第二识别结果识别出输入文本中的评价要素具体为:
在p1与p2的比值大于预设阈值时,判断所述待判定评价要素为评价要素,在p1与p2的比值不大于预设阈值时,判断所述待判定评价要素不是评价要素。
具体地,可以通过logap1-logap2来计算p1与p2的比值,其中,a的取值范围可以为2-10,当然a的取值还可以为其他大于1的自然数,还可以根据实际情况来对预设阈值的取值进行设置。
实施例二
本实施例还提供了一种评价要素的识别装置,如图2所示,本实施例包括:
接收模块21,用于接收输入文本;
第一识别模块22,用于利用第一条件随机场模型对输入文本进行识别,得到第一识别结果,第一识别结果包括第一条件随机场模型识别出的待判定评价要素;
第二识别模块23,用于利用第二条件随机场模型对输入文本进行识别,得到第二识别结果,第二识别结果包括第二条件随机场模型识别出的假阳性评价要素,其中,假阳性评价要素是误判为评价要素的要素;
处理模块24,用于根据第一识别结果和第二识别结果识别出输入文本中的评价要素。
本实施例中,先利用第一条件随机场模型对输入文本进行识别,识别出输入文本中的待判定评价要素;再利用第二条件随机场模型对输入文本进行识别,识别出输入文本中的假阳性评价要素,结合两次得到的识别结果判断待判定评价要素是否为评价要素,进而识别出输入文本中的评价要素。通过本发明的技术方案能够对用户评论文本进行分析,准确识别出文本中的评价要素。
进一步地,评价要素的识别装置还包括:
第一获取模块,用于获取多组第一训练数据,每组第一训练数据中包括有文本以及文本中标注的评价要素;
第一生成模块,用于生成第一条件随机场模型的特征,利用多组第一训练数据对第一条件随机场模型的特征的权重进行估计,并根据估计的权重生成第一条件随机场模型。
具体地,第一训练数据可以是已经标注了评价要素的用户评论文本,第一训练数据的数量越多越好,这样可以通过大量的第一训练数据训练得到识别准确率较高的第一条件随机场模型。其中,对第一条件随机场模型的特征的权重进行估计的方法包括但不仅限于最大似然法,BFGS法,随机梯度下降法和贝叶斯法。
优选地,第一条件随机场模型的特征选择准则为采用词级别的特征,因为词级别的特征对主观性有更好的指示作用。
进一步地,评价要素的识别装置还包括:
第二获取模块,用于获取多组第二训练数据,每组第二训练数据中包括有文本以及文本中标注的假阳性评价要素;
第二生成模块,用于生成第二条件随机场模型的特征,利用多组第二训练数据对第二条件随机场模型的特征的权重进行估计,并根据估计的权重生成第二条件随机场模型。
具体地,第二训练数据可以是用户评论文本,在用户评论文本中标注了哪些词是假阳性评价要素,第二训练数据的数量越多越好,这样可以通过大量的第二训练数据训练得到识别准确率较高的第二条件随机场模型。其中,对第二条件随机场模型的特征的权重进行估计的方法包括但不仅限于最大似然法,BFGS法,随机梯度下降法和贝叶斯法。
优选地,第二条件随机场模型的特征选择准则为采用句级别的特征,因为句级别的特征对客观性有更好的指示作用。
进一步地,处理模块具体用于在待判定评价要素不是假阳性评价要素时,判断待判定评价要素为评价要素。
进一步地,如果输入文本中的某个词被第一条件随机场模型认定为非评价要素,被第二条件随机场模型认定为非假阳性评价要素,则可以判断该词不是评价要素;如果输入文本中的某个词被第一条件随机场模型认定为非评价要素,被第二条件随机场模型认定为假阳性评价要素,则可以判断该词不是评价要素。
进一步地,在输入文本中的某个词被第一条件随机场模型认定为待判定评价要素,被第二条件随机场模型认定为假阳性评价要素时,第一识别结果还包括第一条件随机场模型识别出的待判定评价要素的边缘概率p1,第二识别结果还包括第二条件随机场模型识别出的假阳性评价要素的边缘概率p2,
处理模块具体用于在p1与p2的比值大于预设阈值时,判断所述待判定评价要素为评价要素,在p1与p2的比值不大于预设阈值时,判断所述待判定评价要素不是评价要素。
具体地,可以通过logap1-logap2来计算p1与p2的比值,其中,a的取值范围可以为2-10,当然a的取值还可以为其他大于1的自然数,还可以根据实际情况来对预设阈值的取值进行设置。
实施例三
本实施例还提供了一种评价要素的识别系统,如图3所示,本实施例包括:
输入设备14,用于接收输入文本;
分析设备,用于利用第一条件随机场模型对输入文本进行识别,得到第一识别结果,第一识别结果包括第一条件随机场模型识别出的待判定评价要素;利用第二条件随机场模型对输入文本进行识别,得到第二识别结果,第二识别结果包括第二条件随机场模型识别出的假阳性评价要素,其中,假阳性评价要素是误判为评价要素的要素;根据第一识别结果和第二识别结果识别出输入文本中的评价要素;
输出设备15,用于输出分析设备的判断结果。
本实施例的评价要素的识别系统可以利用计算机系统来实现,如图3所示,在评价要素的识别系统利用计算机系统实现时,分析设备包括CPU10、随机存取存储器11、只读内存12和硬盘13。其中,CPU10利用第一条件随机场模型对输入文本进行识别,得到第一识别结果,利用第二条件随机场模型对输入文本进行识别,得到第二识别结果,根据第一识别结果和第二识别结果识别出输入文本中的评价要素。计算过程中的中间结果可以存储在随机存取存储器11和只读内存12上,最终得到的识别结果可以存储在硬盘13上。
本实施例中,先利用第一条件随机场模型对输入文本进行识别,识别出输入文本中的待判定评价要素;再利用第二条件随机场模型对输入文本进行识别,识别出输入文本中的假阳性评价要素,结合两次得到的识别结果判断待判定评价要素是否为评价要素,进而识别出输入文本中的评价要素。通过本发明的技术方案能够对用户评论文本进行分析,准确识别出文本中的评价要素。
实施例四
下面以输入文本为用户评论为例,对本发明的评价要素的识别方法进行详细介绍。本实施例是通过第一条件随机场模型和第二条件随机场模型来实现评价要素识别的,其中,第一条件随机场模型可以初步识别出文本中的评价要素,比如输入第一条件随机场模型的文本为“这个电影的背景音乐棒极了”,则第一条件随机场模型识别出的评价要素为“电影”和“背景音乐”,再比如输入第一条件随机场模型的文本为“X手机的XX屏幕很好很强大”,则第一条件随机场模型识别出的评价要素为“手机”和“XX屏幕”,但是本实施例并不是将第一条件随机场模型输出的初步识别结果来作为最终的识别结果,因此,本实施例将第一条件随机场模型识别出的评价要素称之为待判定评价要素。第二条件随机场模型可以识别出文本中的假阳性评价要素,假阳性评价要素即被误认为评价要素的要素,比如输入第二条件随机场模型的文本为“X手机采用高清XX屏幕”,则第二条件随机场模型识别出的假阳性评价要素为“XX屏幕”,其中“XX屏幕”并不是评价要素因为这个句子并不存在用户观点。
如图4所示,本实施例的评价要素的识别方法具体包括以下步骤:
步骤S1:生成第一条件随机场模型;
具体地,如图5所示,生成第一条件随机场模型具体包括以下步骤:
步骤S11、获取标注了评价要素的用户评论集;
构建要素词字典,对用户评论集中要素的每一次出现,都要标注其是否为评价要素。用户评论集中用户评论的数量越多越好,这样可以通过大量的数据训练得到识别准确率较高的第一条件随机场模型。
步骤S12、生成第一条件随机场模型的特征;
第一条件随机场模型的特征选择准则为多采用词级别的特征,因为词级别的特征对主观性有更好的指示作用。
步骤S13、利用用户评论集训练得到第一条件随机场模型。
利用用户评论集对第一条件随机场模型的特征的权重进行估计,并根据估计的权重生成第一条件随机场模型。其中,对第一条件随机场模型的特征的权重进行估计的方法包括但不仅限于最大似然法,BFGS法,随机梯度下降法和贝叶斯法。
经过上述步骤得到的第一条件随机场模型能够识别出用户评论中的评价要素。比如输入第一条件随机场模型的用户评论为“真心不喜欢某品牌”,则第一条件随机场模型输出的识别结果为“某品牌”;输入第一条件随机场模型的用户评论为“实在的价格”,则第一条件随机场模型输出的识别结果为“价格”;输入第一条件随机场模型的用户评论为“我就喜欢用某品牌”,则第一条件随机场模型输出的识别结果为“某品牌”;输入第一条件随机场模型的用户评论为“外形很可爱”,则第一条件随机场模型输出的识别结果为“外形”。
步骤S2:生成第二条件随机场模型;
具体地,如图6所示,生成第二条件随机场模型具体包括以下步骤:
步骤S21、获取标注了假阳性评价要素的用户评论集;
构建要素词字典,对用户评论集中要素的每一次出现,都要标注其是否为评价要素,如果一要素不是评价要素,则将其标注为假阳性评论要素。用户评论集中用户评论的数量越多越好,这样可以通过大量的数据训练得到识别准确率较高的第二条件随机场模型。
步骤S22、生成第二条件随机场模型的特征;
第二条件随机场模型的特征选择准则为多采用句级别的特征,因为句级别的特征对客观性有更好的指示作用。
步骤S23、利用用户评论集训练得到第二条件随机场模型。
利用用户评论集对第二条件随机场模型的特征的权重进行估计,并根据估计的权重生成第二条件随机场模型。其中,对第二条件随机场模型的特征的权重进行估计的方法包括但不仅限于最大似然法,BFGS法,随机梯度下降法和贝叶斯法。
经过上述步骤得到的第二条件随机场模型能够识别出用户评论中的假阳性评价要素。比如输入第二条件随机场模型的用户评论为“X手机采用高清XX屏幕”,则第二条件随机场模型输出的识别结果为“XX屏幕”。
步骤3、根据第一条件随机场模型和第二条件随机场模型识别出输入文本中的评价要素。
如图7所示,识别输入文本中的评价要素具体包括以下步骤:
步骤S31、为输入文本生成第一条件随机场模型的特征;
步骤S32、使用第一条件随机场模型标注出输入文本中的评价要素;
解码过程可以采用任意现有技术,例如类维特比的动态规划方法。
步骤S33、为输入文本生成第二条件随机场模型的特征;
步骤S34、使用第二条件随机场模型标注出输入文本中的假阳性评价要素;
解码过程可以采用任意现有技术,例如类维特比的动态规划方法。
步骤S35、根据第一条件随机场模型标注出的评价要素和第二条件随机场模型标注出的假阳性评价要素识别输入文本中的评价要素。
具体地,在第一条件随机场模型标注出的评价要素不是假阳性评价要素时,判断第一条件随机场模型标注出的评价要素为评价要素;
进一步地,如果输入文本中的某个词被第一条件随机场模型认定为非评价要素,被第二条件随机场模型认定为非假阳性评价要素,则可以判断该词不是评价要素;如果输入文本中的某个词被第一条件随机场模型认定为非评价要素,被第二条件随机场模型认定为假阳性评价要素,则可以判断该词不是评价要素。
进一步地,在输入文本中的某个词被第一条件随机场模型标注为评价要素的边缘概率为p1,被第二条件随机场模型标注为假阳性评价要素的边缘概率为p2,在p1与p2的比值大于预设阈值时,判断第一条件随机场模型标注出的评价要素为评价要素,在p1与p2的比值不大于预设阈值时,判断第一条件随机场模型标注出的评价要素不是评价要素。
比如对于用户评论“某手机采用强大的高清XX屏”,可以将该用户评论划分为“某手机”、“采用”、“强大的”、“高清”“XX屏”等词,采用第一条件随机场模型对这些词进行标注,标注这些词是否为评价要素;采用第二条件随机场模型对这些词进行标注,标注这些词是否为假阳性评价要素。第一条件随机场模型标注“某手机”不是评价要素,第二条件随机场模型标注“某手机”不是假阳性评价要素,则最终可以判断“某手机”不是评价要素;第一条件随机场模型标注“采用”不是评价要素,第二条件随机场模型标注“采用”不是假阳性评价要素,则最终可以判断“采用”不是评价要素;第一条件随机场模型标注“强大的”不是评价要素,第二条件随机场模型标注“强大的”不是假阳性评价要素,则最终可以判断“强大的”不是评价要素;第一条件随机场模型标注“高清”不是评价要素,第二条件随机场模型标注“高清”不是假阳性评价要素,则最终可以判断“高清”不是评价要素;第一条件随机场模型标注“XX屏”是评价要素,且边缘概率为p1,第二条件随机场模型标注“XX屏”是假阳性评价要素,且边缘概率为p2,则在p1与p2的比值大于预设阈值时,最终可以判断“XX屏”是评价要素,在p1与p2的比值不大于预设阈值时,最终可以判断“XX屏”不是评价要素。
本实施例中,先利用第一条件随机场模型对输入文本进行识别,识别出输入文本中的待判定评价要素;再利用第二条件随机场模型对输入文本进行识别,识别出输入文本中的假阳性评价要素,结合两次得到的识别结果判断待判定评价要素是否为评价要素,进而识别出输入文本中的评价要素。通过本发明的技术方案能够对用户评论文本进行分析,准确识别出文本中的评价要素。
此说明书中所描述的许多功能部件都被称为模块,以便更加特别地强调其实现方式的独立性。
本发明实施例中,模块可以用软件实现,以便由各种类型的处理器执行。举例来说,一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块,举例来说,其可以被构建为对象、过程或函数。尽管如此,所标识模块的可执行代码无需物理地位于一起,而是可以包括存储在不同物理上的不同的指令,当这些指令逻辑上结合在一起时,其构成模块并且实现该模块的规定目的。
实际上,可执行代码模块可以是单条指令或者是许多条指令,并且甚至可以分布在多个不同的代码段上,分布在不同程序当中,以及跨越多个存储器设备分布。同样地,操作数据可以在模块内被识别,并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集,或者可以分布在不同位置上(包括在不同存储设备上),并且至少部分地可以仅作为电子信号存在于系统或网络上。
在模块可以利用软件实现时,考虑到现有硬件工艺的水平,所以可以以软件实现的模块,在不考虑成本的情况下,本领域技术人员都可以搭建对应的硬件电路来实现对应的功能,所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。
在本发明各方法实施例中,所述各步骤的序号并不能用于限定各步骤的先后顺序,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,对各步骤的先后变化也在本发明的保护范围之内。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (11)
1.一种评价要素的识别方法,其特征在于,包括:
接收输入文本;
利用第一条件随机场模型对输入文本进行识别,得到第一识别结果,所述第一识别结果包括所述第一条件随机场模型识别出的待判定评价要素;
利用第二条件随机场模型对输入文本进行识别,得到第二识别结果,所述第二识别结果包括所述第二条件随机场模型识别出的假阳性评价要素,其中,假阳性评价要素是误判为评价要素的要素;
根据所述第一识别结果和所述第二识别结果识别出所述输入文本中的评价要素。
2.根据权利要求1所述的评价要素的识别方法,其特征在于,所述利用第一条件随机场模型对输入文本进行识别之前,所述方法还包括:
获取多组第一训练数据,每组第一训练数据中包括有文本以及文本中标注的评价要素;
生成所述第一条件随机场模型的特征;
利用所述多组第一训练数据对所述第一条件随机场模型的特征的权重进行估计,并根据估计的权重生成所述第一条件随机场模型。
3.根据权利要求2所述的评价要素的识别方法,其特征在于,所述第一条件随机场模型的特征为词级别的特征。
4.根据权利要求1所述的评价要素的识别方法,其特征在于,所述利用第二条件随机场模型对输入文本进行识别之前,所述方法还包括:
获取多组第二训练数据,每组第二训练数据中包括有文本以及文本中标注的假阳性评价要素;
生成所述第二条件随机场模型的特征;
利用所述多组第二训练数据对所述第二条件随机场模型的特征的权重进行估计,并根据估计的权重生成所述第二条件随机场模型。
5.根据权利要求4所述的评价要素的识别方法,其特征在于,所述第二条件随机场模型的特征为句级别的特征。
6.根据权利要求1所述的评价要素的识别方法,其特征在于,所述根据所述第一识别结果和所述第二识别结果识别出所述输入文本中的评价要素包括:
在所述待判定评价要素不是假阳性评价要素时,判断所述待判定评价要素为评价要素。
7.根据权利要求1所述的评价要素的识别方法,其特征在于,所述第一识别结果还包括第一条件随机场模型识别出的待判定评价要素的边缘概率p1,所述第二识别结果还包括第二条件随机场模型识别出的假阳性评价要素的边缘概率p2,所述根据所述第一识别结果和所述第二识别结果识别出所述输入文本中的评价要素还包括:
在p1与p2的比值大于预设阈值时,判断所述待判定评价要素为评价要素,在p1与p2的比值不大于预设阈值时,判断所述待判定评价要素不是评价要素。
8.一种评价要素的识别装置,其特征在于,包括:
接收模块,用于接收输入文本;
第一识别模块,用于利用第一条件随机场模型对输入文本进行识别,得到第一识别结果,所述第一识别结果包括所述第一条件随机场模型识别出的待判定评价要素;
第二识别模块,用于利用第二条件随机场模型对输入文本进行识别,得到第二识别结果,所述第二识别结果包括所述第二条件随机场模型识别出的假阳性评价要素,其中,假阳性评价要素是误判为评价要素的要素;
处理模块,用于根据所述第一识别结果和所述第二识别结果识别出所述输入文本中的评价要素。
9.根据权利要求8所述的评价要素的识别装置,其特征在于,所述装置还包括:
第一获取模块,用于获取多组第一训练数据,每组第一训练数据中包括有文本以及文本中标注的评价要素;
第一生成模块,用于生成所述第一条件随机场模型的特征,利用所述多组第一训练数据对所述第一条件随机场模型的特征的权重进行估计,并根据估计的权重生成所述第一条件随机场模型。
10.根据权利要求8所述的评价要素的识别装置,其特征在于,所述装置还包括:
第二获取模块,用于获取多组第二训练数据,每组第二训练数据中包括有文本以及文本中标注的假阳性评价要素;
第二生成模块,用于生成所述第二条件随机场模型的特征,利用所述多组第二训练数据对所述第二条件随机场模型的特征的权重进行估计,并根据估计的权重生成所述第二条件随机场模型。
11.一种评价要素的识别系统,其特征在于,包括:
输入设备,用于接收输入文本;
分析设备,用于利用第一条件随机场模型对输入文本进行识别,得到第一识别结果,所述第一识别结果包括所述第一条件随机场模型识别出的待判定评价要素,利用第二条件随机场模型对输入文本进行识别,得到第二识别结果,所述第二识别结果包括所述第二条件随机场模型识别出的假阳性评价要素,其中,假阳性评价要素是误判为评价要素的要素,根据所述第一识别结果和所述第二识别结果识别出所述输入文本中的评价要素;
输出设备,用于输出所述分析设备的识别结果。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610346263.7A CN107423278B (zh) | 2016-05-23 | 2016-05-23 | 评价要素的识别方法、装置及系统 |
US15/597,501 US10282420B2 (en) | 2016-05-23 | 2017-05-17 | Evaluation element recognition method, evaluation element recognition apparatus, and evaluation element recognition system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610346263.7A CN107423278B (zh) | 2016-05-23 | 2016-05-23 | 评价要素的识别方法、装置及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107423278A true CN107423278A (zh) | 2017-12-01 |
CN107423278B CN107423278B (zh) | 2020-07-14 |
Family
ID=60330793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610346263.7A Active CN107423278B (zh) | 2016-05-23 | 2016-05-23 | 评价要素的识别方法、装置及系统 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10282420B2 (zh) |
CN (1) | CN107423278B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934147A (zh) * | 2019-03-05 | 2019-06-25 | 北京联合大学 | 基于深度神经网络的目标检测方法、系统及装置 |
CN109978170A (zh) * | 2019-03-05 | 2019-07-05 | 浙江邦盛科技有限公司 | 一种基于多要素的移动设备识别方法 |
CN111078823A (zh) * | 2019-12-13 | 2020-04-28 | 北京明略软件系统有限公司 | 文本要素提取方法、装置及电子设备 |
CN113761968A (zh) * | 2020-06-01 | 2021-12-07 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108959328B (zh) | 2017-05-27 | 2021-12-21 | 株式会社理光 | 知识图谱的处理方法、装置及电子设备 |
CN111563209B (zh) | 2019-01-29 | 2023-06-30 | 株式会社理光 | 一种意图识别的方法、装置及计算机可读存储介质 |
CN111563208B (zh) | 2019-01-29 | 2023-06-30 | 株式会社理光 | 一种意图识别的方法、装置及计算机可读存储介质 |
CN111738021B (zh) | 2019-03-25 | 2023-10-31 | 株式会社理光 | 神经机器翻译模型的词向量处理方法、装置及存储介质 |
CN110263344B (zh) * | 2019-06-25 | 2022-04-19 | 创优数字科技(广东)有限公司 | 一种基于混合模型的文本情感分析方法、装置和设备 |
US11048887B1 (en) * | 2019-07-24 | 2021-06-29 | Intuit Inc. | Cross-language models based on transfer learning |
CN110610004A (zh) * | 2019-09-03 | 2019-12-24 | 深圳追一科技有限公司 | 标注质量的检测方法、装置、计算机设备和存储介质 |
CN111340329B (zh) * | 2020-02-05 | 2024-02-20 | 科大讯飞股份有限公司 | 演员评估方法、装置及电子设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661462A (zh) * | 2009-07-17 | 2010-03-03 | 北京邮电大学 | 四层结构的中文文本正则化体系及实现 |
CN103049501A (zh) * | 2012-12-11 | 2013-04-17 | 上海大学 | 基于互信息和条件随机场模型的中文领域术语识别方法 |
CN103164426A (zh) * | 2011-12-13 | 2013-06-19 | 北大方正集团有限公司 | 一种命名实体识别的方法及装置 |
US20130259374A1 (en) * | 2012-03-29 | 2013-10-03 | Lulu He | Image segmentation |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110314003A1 (en) | 2010-06-17 | 2011-12-22 | Microsoft Corporation | Template concatenation for capturing multiple concepts in a voice query |
-
2016
- 2016-05-23 CN CN201610346263.7A patent/CN107423278B/zh active Active
-
2017
- 2017-05-17 US US15/597,501 patent/US10282420B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101661462A (zh) * | 2009-07-17 | 2010-03-03 | 北京邮电大学 | 四层结构的中文文本正则化体系及实现 |
CN103164426A (zh) * | 2011-12-13 | 2013-06-19 | 北大方正集团有限公司 | 一种命名实体识别的方法及装置 |
US20130259374A1 (en) * | 2012-03-29 | 2013-10-03 | Lulu He | Image segmentation |
CN103049501A (zh) * | 2012-12-11 | 2013-04-17 | 上海大学 | 基于互信息和条件随机场模型的中文领域术语识别方法 |
Non-Patent Citations (1)
Title |
---|
FEI ZHU等: "Combined SVM-CRFs for Biological Named Entity Recognition with Maximal Bidirectional Squeezing", 《HTTP://WWW.OALIB.COM/PAPER/128974#.XMM76G5UJCK》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109934147A (zh) * | 2019-03-05 | 2019-06-25 | 北京联合大学 | 基于深度神经网络的目标检测方法、系统及装置 |
CN109978170A (zh) * | 2019-03-05 | 2019-07-05 | 浙江邦盛科技有限公司 | 一种基于多要素的移动设备识别方法 |
CN109978170B (zh) * | 2019-03-05 | 2020-04-28 | 浙江邦盛科技有限公司 | 一种基于多要素的移动设备识别方法 |
CN111078823A (zh) * | 2019-12-13 | 2020-04-28 | 北京明略软件系统有限公司 | 文本要素提取方法、装置及电子设备 |
CN113761968A (zh) * | 2020-06-01 | 2021-12-07 | 阿里巴巴集团控股有限公司 | 数据处理方法、装置、电子设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US20170337182A1 (en) | 2017-11-23 |
US10282420B2 (en) | 2019-05-07 |
CN107423278B (zh) | 2020-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107423278A (zh) | 评价要素的识别方法、装置及系统 | |
WO2019218514A1 (zh) | 网页目标信息的提取方法、装置及存储介质 | |
CN110008956A (zh) | 发票关键信息定位方法、装置、计算机设备及存储介质 | |
Harouni et al. | Online Persian/Arabic script classification without contextual information | |
CN106294344B (zh) | 视频检索方法和装置 | |
US9104709B2 (en) | Cleansing a database system to improve data quality | |
US20120290293A1 (en) | Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding | |
CN111309910A (zh) | 文本信息挖掘方法及装置 | |
CN107391675A (zh) | 用于生成结构化信息的方法和装置 | |
Yan et al. | Multiscale convolutional neural networks for hand detection | |
CN109101476A (zh) | 一种词向量生成、数据处理方法和装置 | |
CN108205685A (zh) | 视频分类方法、视频分类装置及电子设备 | |
CN112364133A (zh) | 岗位画像生成方法、装置、设备及存储介质 | |
CN105869016A (zh) | 一种基于卷积神经网络的点击通过率预估方法 | |
CN104346408B (zh) | 一种对网络用户进行标注的方法与设备 | |
CN110457677A (zh) | 实体关系识别方法及装置、存储介质、计算机设备 | |
CN114240672B (zh) | 绿色资产的占比的识别方法及相关产品 | |
CN110276382A (zh) | 基于谱聚类的人群分类方法、装置及介质 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN105609116A (zh) | 一种语音情感维度区域的自动识别方法 | |
CN115510188A (zh) | 文本关键词关联方法、装置、设备及存储介质 | |
CN111475661A (zh) | 一种基于有限标签构造场景图的方法、装置及计算机设备 | |
CN109344255B (zh) | 标签的填充方法及终端设备 | |
CN114492408A (zh) | 信用证审核方法、装置、电子设备及存储介质 | |
CN114092948A (zh) | 一种票据识别方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |