CN109582948B - 评价观点抽取的方法及装置 - Google Patents

评价观点抽取的方法及装置 Download PDF

Info

Publication number
CN109582948B
CN109582948B CN201710908163.3A CN201710908163A CN109582948B CN 109582948 B CN109582948 B CN 109582948B CN 201710908163 A CN201710908163 A CN 201710908163A CN 109582948 B CN109582948 B CN 109582948B
Authority
CN
China
Prior art keywords
word
words
vector
sequence
evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710908163.3A
Other languages
English (en)
Other versions
CN109582948A (zh
Inventor
王天祎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710908163.3A priority Critical patent/CN109582948B/zh
Publication of CN109582948A publication Critical patent/CN109582948A/zh
Application granted granted Critical
Publication of CN109582948B publication Critical patent/CN109582948B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种评价观点抽取的方法及装置,涉及数据处理技术领域,为解决现有评价观点抽取方法鲁棒性差的问题而发明。本发明的方法包括:对待抽取文本进行切词处理,得到多个切词序列;根据语义特征信息对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量;将每个切词序列特征向量输入到评价观点抽取模型进行评价观点的抽取,评价观点抽取模型是通过训练文本集对应的训练切词序列特征向量以及训练切词序列中评价观点词的标注对深度神经网络模型进行训练得到的;根据评价观点抽取模型的输出结果确定待抽取文本中的评价观点词,评价观点词包括属性词以及评价词。本发明适合应用在产品属性倾向性分析的过程中。

Description

评价观点抽取的方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种评价观点抽取的方法及装置。
背景技术
在产品属性倾向性分析任务中,需要从分析文本中抽取用户关于某些产品属性的评价观点,一般而言,这种评价观点由<属性,评价语>组成。例如某一文本“汽车前脸霸气侧漏”,其描述的是汽车产品的“前脸”属性,关于该属性的评价语为“霸气侧漏”,那么需要抽取的评价观点为<前脸,霸气侧漏>。
关于上述抽取评价观点现有的抽取方式一般是基于词库和规则来进行抽取的。例如,关于上述示例“汽车前脸霸气侧漏”,需要事先在词库里积累属性词=“前脸”以及评价语=“霸气侧漏”,根据词库抽取属性词和评价语,然后再结合一定的个性化规则(属性词和评价语之间的距离等),来最终判断根据词库抽取出的属性词和评价语是否是属于评价观点。
对于上述现有抽取评价观点的方式,可以看出其严重依赖于词库的积累,若词库中没有积累的属性词和评价语,便不能提取出评价观点;并且词库中所积累的内容,也仅仅能应用到词库所对应的领域,不能总结出评价观点抽取的规律,将具有相同评价观点的结构推广到其他领域中。综上,可以看出现有抽取评价观点的方式的鲁棒性差。
发明内容
鉴于上述问题,本发明提供一种评价观点抽取的方法及装置,为了提高现有评价观点抽取方式的鲁棒性。
为解决上述技术问题,第一方面,本发明提供了一种评价观点抽取的方法,该方法包括:
对待抽取文本进行切词处理,得到多个切词序列,一个语句对应一个切词序列;
根据语义特征信息对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量;
将每个切词序列特征向量输入到评价观点抽取模型进行评价观点的抽取,所述评价观点抽取模型是通过训练文本集对应的训练切词序列特征向量以及训练切词序列中评价观点词的标注对深度神经网络模型进行训练得到的;
根据所述评价观点抽取模型的输出结果确定待抽取文本中的评价观点词,所述评价观点词包括属性词以及评价词。
可选的,所述语义特征信息包括词向量、词性以及句法依存关系,所述根据语义特征信息对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量包括:
根据预设词向量模型获取每个切词序列中包含的词的词向量;
获取每个切词序列中每个词的词性以及句法依存关系;
根据词向量、词性以及句法依存关系对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量。
可选的,所述根据预设词向量模型获取每个切词序列中包含的词的词向量包括:
选取预设语料库,所述预设语料库中包含待抽取文本中包含的词;
对预设语料库进行切词处理,得到切词结果;
根据词向量模型对切词结果进行词向量训练,得到预设词向量模型;
将每个切词序列中的包含的词输入到预设词向量模型中,得到所述词向量。
可选的,所述根据词向量、词性以及句法依存关系对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量包括:
根据切词序列中每个词的词性,获取每个词对应的词性向量,不同的词性对应不同的词性向量;
根据切词序列中每个词的句法依存关系,获取每个词对应的句法依存关系向量,不同的句法依存关系对应不同的句法依存关系向量;
将切词序列中每个词的词向量、词性向量以及句法依存关系向量进行拼接得到每个词的特征向量;
将每个切词序列中每个词的特征向量组合得到对应每个切词序列的切词序列特征向量。
可选的,在根据词向量、词性以及句法依存关系对每个切词序列进行特征化处理之前,所述方法还包括:
根据随机向量生成法生成每种词性对应的词性向量以及每种句法依存关系对应的句法依存关系向量;或,
将每种词性以及每种句法依存关系输入到预设词向量模型中,得到每种词性对应的词性向量以及每种句法依存关系对应的句法依存关系向量。
可选的,所述方法还包括:
对所述训练文本集进行切词处理,得到多个训练切词序列;
根据语义特征信息对每个训练切词序列进行特征化处理,得到每个训练切词序列对应的训练切词序列特征向量;
对每个训练切词序列按照IOB标注法进行评价观点词的标注,以将训练切词序列中的属性词、评价词以及其他词进行区别标注;
根据每个训练切词特征向量以及对应的评价观点词的标注对深度神经网络模型进行训练得到所述评价观点抽取模型。
可选的,在根据所述评价观点抽取模型的输出结果确定待抽取文本中的评价观点词之后,所述方法还包括:
根据待抽取文本中包含的属性词以及评价词之间的距离关系,对属性词与评价词进行拼接,得到属性评价对,每个属性评价对中包含一个属性词和与之对应的一个评价词。
可选的,所述深度神经网络模型为LSTM-CRF模型或BILSTM-CRF模型。
第二方面,本发明还提供了一种评价观点抽取的装置,该装置包括:
第一处理单元,用于对待抽取文本进行切词处理,得到多个切词序列,一个语句对应一个切词序列;
第一特征化单元,用于根据语义特征信息对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量;
抽取单元,用于将每个切词序列特征向量输入到评价观点抽取模型进行评价观点的抽取,所述评价观点抽取模型是通过训练文本集对应的训练切词序列特征向量以及训练切词序列中评价观点词的标注对深度神经网络模型进行训练得到的;
确定单元,用于根据所述评价观点抽取模型的输出结果确定待抽取文本中的评价观点词,所述评价观点词包括属性词以及评价词。
可选的,所述语义特征信息包括词向量、词性以及句法依存关系,所述第一特征化单元包括:
第一获取模块,用于根据预设词向量模型获取每个切词序列中包含的词的词向量;
第二获取模块,用于获取每个切词序列中每个词的词性以及句法依存关系;
特征化模块,用于根据词向量、词性以及句法依存关系对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量。
可选的,所述第一获取模块还用于:
选取预设语料库,所述预设语料库中包含待抽取文本中包含的词;
对预设语料库进行切词处理,得到切词结果;
根据词向量模型对切词结果进行词向量训练,得到预设词向量模型;
将每个切词序列中的包含的词输入到预设词向量模型中,得到所述词向量。
可选的,所述特征化模块还用于:
根据切词序列中每个词的词性,获取每个词对应的词性向量,不同的词性对应不同的词性向量;
根据切词序列中每个词的句法依存关系,获取每个词对应的句法依存关系向量,不同的句法依存关系对应不同的句法依存关系向量;
将切词序列中每个词的词向量、词性向量以及句法依存关系向量进行拼接得到每个词的特征向量;
将每个切词序列中每个词的特征向量组合得到对应每个切词序列的切词序列特征向量。
可选的,所述装置还包括:
生成单元,用于在根据词向量、词性以及句法依存关系对每个切词序列进行特征化处理之前,根据随机向量生成法生成每种词性对应的词性向量以及每种句法依存关系对应的句法依存关系向量;
所述生成单元,还用于将每种词性以及每种句法依存关系输入到预设词向量模型中,得到每种词性对应的词性向量以及每种句法依存关系对应的句法依存关系向量。
可选的,所述装置还包括:
第二处理单元,用于对所述训练文本集进行切词处理,得到多个训练切词序列;
第二特征化单元,用于根据语义特征信息对每个训练切词序列进行特征化处理,得到每个训练切词序列对应的训练切词序列特征向量;
标注单元,用于对每个训练切词序列按照IOB标注法进行评价观点词的标注,以将训练切词序列中的属性词、评价词以及其他词进行区别标注;
训练单元,用于根据每个训练切词特征向量以及对应的评价观点词的标注对深度神经网络模型进行训练得到所述评价观点抽取模型。
可选的,所述装置还包括:
拼接单元,用于在根据所述评价观点抽取模型的输出结果确定待抽取文本中的评价观点词之后,根据待抽取文本中包含的属性词以及评价词之间的距离关系,对属性词与评价词进行拼接,得到属性评价对,每个属性评价对中包含一个属性词和与之对应的一个评价词。
可选的,所述抽取单元中的深度神经网络模型为LSTM-CRF模型或BILSTM-CRF模型。
为了实现上述目的,根据本发明的第三方面,提供了一种存储介质,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行上述所述的评价观点抽取的方法。
为了实现上述目的,根据本发明的第四方面,提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行上述所述的评价观点抽取的方法。
借由上述技术方案,本发明提供的评价观点抽取的方法及装置,使用了评价观点抽取模型进行评价观点的抽取,并且评价观点抽取模型是由训练文本集对应的训练切词序列特征向量以及训练切词序列中评价观点词的标注对深度神经网络模型进行训练得到的。而其中的训练切词序列特征向量与待抽取文本对应的切词特征向量一样包含了更多的语义特征信息,相比于现有技术增强语义信息表达,因此评价观点抽取模型可以总结出更加准确的评价观点抽取的规律,使其在其他领域中进行评价观点抽取时也可以进行,不依赖词库,提高了鲁棒性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种评价观点抽取的方法流程图;
图2示出了本发明实施例提供的另一种评价观点抽取的方法流程图;
图3示出了本发明实施例提供的词性以及句法依存关系的说明示例;
图4示出了本发明实施例提供的一种评价观点抽取的装置的组成框图;
图5示出了本发明实施例提供的另一种评价观点抽取的装置的组成框图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了提高现有的评价观点抽取的方法的鲁棒性,本发明实施例提供了一种评价观点抽取的方法,如图1所示,该方法包括:
101、对待抽取文本进行切词处理,得到多个切词序列。
其中,待抽取文本是用于抽取关于某些产品属性的评价观点并依此进行产品属性倾向性的分析文本。对待抽取文本经过切词处理后,其中每个语句分割成了多个词,一个语句的切词结果对应一个切词序列。另外,在实际应用中,由于语句中通常会包含一些语气助词等没有意义的停用词,因此在切词处理后可以进行去除停用词的操作,这样最终得到每个切词序列中不包含停用词。具体的切词方式本实施例中不做限制,可以采用现有的任意一种切词方式。
102、根据语义特征信息对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量。
其中,语义特征信息是能够表达词本身的语义以及在语句中语义的多种特征。对每个切词序列进行特征化处理,即对切词序列中的每个切词都通过语义特征信息进行表达(具体的是通过语义特征信息对应的向量形式表达),然后将每个切词序列中所有切词的语义特征信息表达形式进行组合得到每个切词序列对应的切词序列特征向量。需要说明的是,得到切词序列特征向量依据的语义特征信息越多,在进行后续的评价观点抽取时,得到的抽取结果就更准确。
103、将每个切词序列特征向量输入到评价观点抽取模型进行评价观点的抽取。
其中,评价观点抽取模型是通过训练文本集对应的训练切词序列特征向量以及训练切词序列中评价观点词的标注对深度神经网络模型进行训练得到的。评价观点抽取模型的输入为切词序列特征向量,输出为对切词序列特征向量对应的切词序列进行属性词、评价词、其他词进行标注的结果。因此将每个切词序列特征向量输入到评价观点抽取模型中,能够进行评价观点的抽取。
另外需要说明的是,训练文本集是用于深度神经网络模型训练的文本。训练切词序列以及训练切词序列特征向量都是通过对训练文本集进行处理得到的。对训练文本集处理得到对应的训练切词序列以及训练切词序列特征向量的方式与前述对待抽取文本处理得到对应的切词序列以及切词序列特征向量的方式是相同的。训练切词序列中评价观点词的标注包含对属性词以及评价词的标注,除此之外还包括除属性词以及评价词之外的其他词的标注。本实施例中为了保证标注的准确性通过人工进行标注,具体是将切词序列中的属性词、评价词、其他词分别使用不同的标识进行区别标注。
104、根据评价观点抽取模型的输出结果确定待抽取文本中的评价观点词。
由步骤103可知,评价观点抽取模型的输出为切词序列特征向量对应的切词序列进行属性词、评价词、其他词进行标注的结果,因此可以根据该输出结果确定与切词序列对应的待抽取文本中的属性词、评价词以及其他词。其中将确定的属性词、评价词作为所要抽取的评价观点词。
本发明实施例提供的评价观点抽取的方法,使用了评价观点抽取模型进行评价观点的抽取,并且评价观点抽取模型是由训练文本集对应的训练切词序列特征向量以及训练切词序列中评价观点词的标注对深度神经网络模型进行训练得到的。而其中的训练切词序列特征向量与待抽取文本对应的切词特征向量一样包含了更多的语义特征信息,相比于现有技术增强语义信息表达,因此评价观点抽取模型可以总结出更加准确的评价观点抽取的规律,使其在其他领域中进行评价观点抽取时也可以进行,不依赖词库,提高了鲁棒性。
进一步的,作为对图1所示实施例的细化及扩展,本发明实施例还提供了另一种评价观点抽取的方法,如图2所示。
201、对待抽取文本进行切词处理,得到多个切词序列。
本步骤的实现方式与图1步骤101的实现方式相同,此处不再赘述。
202、根据预设词向量模型获取每个切词序列中包含的词的词向量。
首先需要说明的的,后续所提到的词向量、词性以及句法依存关系都是图1步骤102中的语义特征信息。
在得到切词序列后,针对每个切词序列分别获取其中包含的每个词的词向量,具体的词向量是根据预设词向量模型得到的,预设词向量模型是将词映射到更多维的空间内,将词转换为对应的词向量的模型。本实施例中的预设词向量模型可以是通过现有的任意一种可以将词转换为与词对应的词向量的词向量模型训练得到的。比如Word2vec、Glove等。本实施例中获取词对应的词向量能够更多的考虑词的语义特征,尤其对于语言环境较为复杂的情况,得到的词向量更能全面准确的表达词的语义。
给出具体的根据预设词向量模型获取每个切词序列中包含的词的词向量的过程:
首先,选取预设语料库,根据预设语料库得到预设词向量模型;
选取预设语料库是为了获取预设词向量模型,并依此预设词向量模型将词进行词向量的转换,得到待抽取文本中包含的词对应的词向量。其中,预设语料库中包含待抽取文本中包含的词,通常预设语料库为行业语料库或者通用语料库,这里行业语料库指某一特定行业或领域内的文本库。
具体的根据预设语料库得到预设词向量模型的过程为:将预设语料库中的每个文本语句进行切词处理,将得到的切词处理结果使用词向量模型Word2vec或者Glove等其他的词向量模型进行词向量训练,得到预设词向量模型。该预设词向量模型的输入为词,输出为词对应的词向量。使用预设语料库进行词向量模型训练能够使得到的词向量表达更加全面准确。需要说明的是,在进行词向量模型训练的过程中,会定义低频词、长尾词,最后得到的预设词向量模型中,对于属于低频词以及长尾词的词会统一用一个词向量来表达。
其次,将每个切词序列中的包含的词输入到预设词向量模型中,得到词向量。
203、获取每个切词序列中每个词的词性以及句法依存关系。
词性是划分词类的一种依据,本步骤的词性包括动词、名词、形容词等所有的词性种类。句法依存关系是句子中的“主谓宾”、“定状补”这些语法成分之间的关系,即切词序列中每个词在切词序列中所表示的语法成分以及与其他语法成分之间的关系。
句法依存关系的获取必然需要对切词序列进行句法依存关系的分析,本实施例中使用的是开源的句法分析软件,比如哈工大社会计算与信息检索研究中心研发的语言技术平台(Language Technology Platform,LTP),使用LTP可以对切词序列进行语法依存分析,获取到切词序列中每个词对应的句法依存关系,另外通过LTP也可以获取到切词序列中每个词的词性。给出具体的示例进行词性以及句法依存关系的说明,如图3所示:
其中,切词序列为汽车、前脸、设计、威武、霸气,根据LTP工具,得到的词性分别为名词(n)、名词(n)、动词(v)、形容词(a)、名词(n),得到的对应的句法依存关系序列为[ATT,SBV,HED,ATT,VOB],其中,ATT,SBV,HED,ATT,VOB分别代表不同的句法依存关系,比如ATT表示定中关系,SBV表示主谓关系,其他的句法依存关系的意义可以参见LTP中规定14种句法依存关系。另外,得到的句法依存关系序列中每种句法依存关系分别与切词序列中每个词对应。
204、根据词向量、词性以及句法依存关系对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量。
具体的,根据词向量、词性以及句法依存关系对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量的过程包括以下步骤:
第一,获取切词序列中每个词对应的词性向量以及每个词对应的句法依存关系向量;
其中,词性向量以及句法依存关系向量是用来表示词性以及句法依存关系的向量,每种词性以及每种句法依存关系都分别对应不同的词性向量以及句法依存关系向量。本实施例给出两种生成词性向量以及句法依存关系向量的方式,如下:
第一种,根据随机向量生成法生成每种词性对应的词性向量以及每种句法依存关系对应的句法依存关系向量;
具体的是,每种词性以及每种句法依存关系分别用一个随机向量表示,向量的维数可以任意指定,具体的每一维中具体数值的生成方法是随机生成接近0的小数。
第二种,使用预训练方式得到每种词性对应的词性向量以及每种句法依存关系对应的句法依存关系向量。
将每种词性以及每种句法依存关系输入到预设词向量模型中,得到与每种词性以及每种句法依存关系对应的句法依存关系向量。
得到每种词性以及每种句法依存关系分别对应的词性向量以及句法依存关系向量后,根据切词序列中每个词的词性,可以获取每个词对应的词性向量;同样的,根据切词序列中每个词的句法依存关系,可以获取每个词对应的句法依存关系向量,不同的句法依存关系对应不同的句法依存关系向量。
第二,根据切词序列中每个词的词向量、词性向量以及句法依存关系向量得到对应每个切词序列的切词序列特征向量;
具体的实现方式包括:
首先,将切词序列中每个词的词向量、词性向量以及句法依存关系向量进行拼接得到每个词的特征向量;具体的拼接方式为将每个词的词向量、词性向量以及句法依存关系向量按照一定顺序进行拼接得到每个词的特征向量,其中顺序可以自由设定。给出具体的示例进行说明,假设某一词对应的词向量为Va,对应的词性向量为Vb,对应的句法依存关系向量为Vc,若拼接顺序为词向量、词性向量、句法依存关系向量,则拼接得到的该词的特征向量为(Va,Vb,Vc)若Va、Vb、Vc三个向量的维数分别为100,15,15,则得到的该词的特征向量的维数为100+15+15=130。
其次,将每个切词序列中每个词的特征向量组合得到对应每个切词序列的切词序列特征向量。按照切词序列中词的顺序将每个词的特征向量组合得到对应每个切词序列对应的切词序列特征向量。给出具体的示例进行说明,若切词序列中包含的词为20个,则对应上述示例中130维的词的特征向量,则得到的切词序列特征向量为130*20的矩阵块。
205、根据每个训练切词特征向量以及对应的评价观点词的标注对深度神经网络模型进行训练得到评价观点抽取模型。
其中,训练切词特征向量是对训练文本集对应的训练切词序列经过特征化处理得到的。具体的得到评价观点抽取模型包括以下步骤:
第一,对训练文本集进行切词处理,得到多个训练切词序列;
具体的对训练文本集进行切词处理的方式与对待抽取文本进行切词处理的方式是相同的。
第二,根据语义特征信息对每个训练切词序列进行特征化处理,得到每个训练切词序列对应的训练切词序列特征向量;
对每个训练切词序列进行特征化处理,得到每个训练切词序列对应的训练切词序列特征向量的过程与前述对待抽取文本对应的每个切词序列进行特征化处理得到每个切词序列对应的切词序列特征向量的方式是相同的,此处不再赘述。
第三,对每个训练切词序列按照IOB标注法进行评价观点词的标注;
为了保证标注的准确性本实施例通过人工进行标注,对每个训练切词序列按照IOB标注法进行评价观点词的标注是将训练切词序列中的属性词、评价词以及其他词进行区别标注。另外,由于在实际的应用中表示评价观点的属性词或者评价词在切词时可能会被切为两个或者多个词,则在标注时将属性词的第一个词用BT标注,其他的词用IT标注;将评价词的第一个词用BO标注,其他的词用IO标注;除属性词以及评价词之外的其他词用OFF标注。给出具体的示例进行说明,假设某一切词序列为汽车、前脸、设计、威武、霸气,则得到的标注结果为[OFF,BT,IT,BO,IO]。
第四,根据每个训练切词特征向量以及对应的评价观点词的标注对深度神经网络模型进行训练得到评价观点抽取模型。
在进行训练时,将文本训练集中包含的训练切词序列对应的训练切词序列特征向量作为深度神经网络模型的输入,然后进行训练,在训练过程中将每次输出的对训练切词序列进行标注的结果与实际的人工标注的训练切词序列中的结果进行比较,再根据两者之间的差距反复进行训练,直到输出的结果几乎与实际的结果相同时结束,最终得到评价观点抽取模型,该模型使用时输入为切词序列特征向量,输出为对切词序列特征向量对应的切词序列进行属性词、评价词、其他词进行标注的结果。
具体的本实施例中的深度神经网络模型为LSTM-CRF模型或BILSTM-CRF模型。LSTM-CRF模型或BILSTM-CRF模型都包含两层神经网络模型,并且都结合了CRF的效果,使得最终得到的评价观点模型达到全局标注最优的效果,能够使模型更精准。另外,在训练的过程中通常基于开源框架系统进行训练,比如TensorFlow等。
206、将每个切词序列特征向量输入到评价观点抽取模型进行评价观点的抽取。
在得到评价观点抽取模型后,就可以将每个切词序列特征向量输入到评价观点抽取模型进行评价观点的抽取。
207、根据评价观点抽取模型的输出结果确定待抽取文本中的评价观点词。
本步骤的实现方式与图1步骤104的实现方式是相同的,此处不再赘述。另外,需要补充说明的是,对于上述IOB标注法,在得到待抽取文本中的属性词以及评价词之后,还需要根据待抽取文本中包含的属性词以及评价词之间的距离关系,对属性词与评价词进行拼接,得到属性评价对,每个属性评价对中包含一个属性词和与之对应的一个评价词。具体的:对于一个切词序列得到的抽取结果,将其中得到的相邻的BT、IT标注拼接成一个属性词,将相邻的BO、IO标注拼接成一个评价词。若一个切词序列的抽取结果拼接后包含多个评价词或者多个属性词,则针对每个评价词或者每个评价词,选择距离它最近的属性词或者评价词组成一个<属性词,评价词>对。
另外,在实际的应用中,在使用上述评价观点抽取的方法时,如果用户已经有了行业领域词库的累积,也可以将其进行利用来增加评价观点抽取的准确性。具体的,在利用时只需要在得到词的特征向量时增加两个向量,一个向量用来表示词是否在行业领域词库的属性词里,另一个向量用来表示词是否在行业领域词库的评价词中。这两个向量的生成与词性向量以及句法依存关系向量的生成方式相同,此处不再赘述。
进一步的,作为对上述图1以及图2所示方法的实现,本发明实施例另一实施例还提供了一种评价观点抽取的装置,用于对上述图1以及图2所示的方法进行实现。该装置实施例与前述方法实施例对应,为便于阅读,本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述,但应当明确,本实施例中的装置能够对应实现前述方法实施例中的全部内容。如图4所示,该装置包括:第一处理单元31、第一特征化单元32、抽取单元33以及确定单元34。
第一处理单元31,用于对待抽取文本进行切词处理,得到多个切词序列,一个语句对应一个切词序列;
其中,待抽取文本是用于抽取关于某些产品属性的评价观点并依此进行产品属性倾向性的分析文本。对待抽取文本经过切词处理后,其中每个语句分割成了多个词,一个语句的切词结果对应一个切词序列。另外,在实际应用中,由于语句中通常会包含一些语气助词等没有意义的停用词,因此在切词处理后可以进行去除停用词的操作,这样最终得到每个切词序列中不包含停用词。具体的切词方式本实施例中不做限制,可以采用现有的任意一种切词方式。
第一特征化单元32,用于根据语义特征信息对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量;
其中,语义特征信息是能够表达词本身的语义以及在语句中语义的多种特征。对每个切词序列进行特征化处理,即对切词序列中的每个切词都通过语义特征信息进行表达(具体的是通过语义特征信息对应的向量形式表达),然后将每个切词序列中所有切词的语义特征信息表达形式进行组合得到每个切词序列对应的切词序列特征向量。需要说明的是,得到切词序列特征向量依据的语义特征信息越多,在进行后续的评价观点抽取时,得到的抽取结果就更准确。
抽取单元33,用于将每个切词序列特征向量输入到评价观点抽取模型进行评价观点的抽取,所述评价观点抽取模型是通过训练文本集对应的训练切词序列特征向量以及训练切词序列中评价观点词的标注对深度神经网络模型进行训练得到的;
其中,评价观点抽取模型是通过训练文本集对应的训练切词序列特征向量以及训练切词序列中评价观点词的标注对深度神经网络模型进行训练得到的。评价观点抽取模型的输入为切词序列特征向量,输出为对切词序列特征向量对应的切词序列进行属性词、评价词、其他词进行标注的结果。因此将每个切词序列特征向量输入到评价观点抽取模型中,能够进行评价观点的抽取。
另外需要说明的是,训练文本集是用于深度神经网络模型训练的文本。训练切词序列以及训练切词序列特征向量都是通过对训练文本集进行处理得到的。对训练文本集处理得到对应的训练切词序列以及训练切词序列特征向量的方式与前述对待抽取文本处理得到对应的切词序列以及切词序列特征向量的方式是相同的。训练切词序列中评价观点词的标注包含对属性词以及评价词的标注,除此之外还包括除属性词以及评价词之外的其他词的标注。本实施例中为了保证标注的准确性通过人工进行标注,具体是将切词序列中的属性词、评价词、其他词分别使用不同的标识进行区别标注。
确定单元34,用于根据所述评价观点抽取模型的输出结果确定待抽取文本中的评价观点词,所述评价观点词包括属性词以及评价词。
由抽取单元33可知,评价观点抽取模型的输出为切词序列特征向量对应的切词序列进行属性词、评价词、其他词进行标注的结果,因此可以根据该输出结果确定与切词序列对应的待抽取文本中的属性词、评价词以及其他词。其中将确定的属性词、评价词作为所要抽取的评价观点词。
所述语义特征信息包括词向量、词性以及句法依存关系,如图5所示,所述第一特征化单元32包括:
第一获取模块321,用于根据预设词向量模型获取每个切词序列中包含的词的词向量;
在得到切词序列后,针对每个切词序列分别获取其中包含的每个词的词向量,具体的词向量是根据预设词向量模型得到的,预设词向量模型是将词映射到更多维的空间内,将词转换为对应的词向量的模型。本实施例中的预设词向量模型可以是通过现有的任意一种可以将词转换为与词对应的词向量的词向量模型训练得到的。比如Word2vec、Glove等。本实施例中获取词对应的词向量能够更多的考虑词的语义特征,尤其对于语言环境较为复杂的情况,得到的词向量更能全面准确的表达词的语义。
第二获取模块322,用于获取每个切词序列中每个词的词性以及句法依存关系;
词性是划分词类的一种依据,本步骤的词性包括动词、名词、形容词等所有的词性种类。句法依存关系是句子中的“主谓宾”、“定状补”这些语法成分之间的关系,即切词序列中每个词在切词序列中所表示的语法成分以及与其他语法成分之间的关系。
句法依存关系的获取必然需要对切词序列进行句法依存关系的分析,本实施例中使用的是开源的句法分析软件,比如哈工大社会计算与信息检索研究中心研发的语言技术平台(Language Technology Platform,LTP),使用LTP可以对切词序列进行语法依存分析,获取到切词序列中每个词对应的句法依存关系,另外通过LTP也可以获取到切词序列中每个词的词性。
特征化模块323,用于根据词向量、词性以及句法依存关系对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量。
所述第一获取模块321还用于:
选取预设语料库,所述预设语料库中包含待抽取文本中包含的词;
对预设语料库进行切词处理,得到切词结果;
根据词向量模型对切词结果进行词向量训练,得到预设词向量模型;
选取预设语料库是为了获取预设词向量模型,并依此预设词向量模型将词进行词向量的转换,得到待抽取文本中包含的词对应的词向量。其中,预设语料库中包含待抽取文本中包含的词,通常预设语料库为行业语料库或者通用语料库,这里行业语料库指某一特定行业或领域内的文本库。
具体的根据预设语料库得到预设词向量模型的过程为:将预设语料库中的每个文本语句进行切词处理,将得到的切词处理结果使用词向量模型Word2vec或者Glove等其他的词向量模型进行词向量训练,得到预设词向量模型。该预设词向量模型的输入为词,输出为词对应的词向量。使用预设语料库进行词向量模型训练能够使得到的词向量表达更加全面准确。需要说明的是,在进行词向量模型训练的过程中,会定义低频词、长尾词,最后得到的预设词向量模型中,对于属于低频词以及长尾词的词会统一用一个词向量来表达。
将每个切词序列中的包含的词输入到预设词向量模型中,得到所述词向量。
所述特征化模块323还用于:
根据切词序列中每个词的词性,获取每个词对应的词性向量,不同的词性对应不同的词性向量;
根据切词序列中每个词的句法依存关系,获取每个词对应的句法依存关系向量,不同的句法依存关系对应不同的句法依存关系向量;
其中,词性向量以及句法依存关系向量是用来表示词性以及句法依存关系的向量,每种词性以及每种句法依存关系都分别对应不同的词性向量以及句法依存关系向量。得到每种词性以及每种句法依存关系分别对应的词性向量以及句法依存关系向量后,根据切词序列中每个词的词性,可以获取每个词对应的词性向量;同样的,根据切词序列中每个词的句法依存关系,可以获取每个词对应的句法依存关系向量,不同的句法依存关系对应不同的句法依存关系向量。
将切词序列中每个词的词向量、词性向量以及句法依存关系向量进行拼接得到每个词的特征向量;
具体的拼接方式为将每个词的词向量、词性向量以及句法依存关系向量按照一定顺序进行拼接得到每个词的特征向量,其中顺序可以自由设定。
将每个切词序列中每个词的特征向量组合得到对应每个切词序列的切词序列特征向量。
按照切词序列中词的顺序将每个词的特征向量组合得到对应每个切词序列对应的切词序列特征向量。
如图5所示,所述装置还包括:
生成单元35,用于在根据词向量、词性以及句法依存关系对每个切词序列进行特征化处理之前,根据随机向量生成法生成每种词性对应的词性向量以及每种句法依存关系对应的句法依存关系向量;
具体的是,每种词性以及每种句法依存关系分别用一个随机向量表示,向量的维数可以任意指定,具体的每一维中具体数值的生成方法是随机生成接近0的小数。
所述生成单元35,还用于将每种词性以及每种句法依存关系输入到预设词向量模型中,得到每种词性对应的词性向量以及每种句法依存关系对应的句法依存关系向量。
如图5所示,所述装置还包括:
第二处理单元36,用于对所述训练文本集进行切词处理,得到多个训练切词序列;
具体的对训练文本集进行切词处理的方式与对待抽取文本进行切词处理的方式是相同的。
第二特征化单元37,用于根据语义特征信息对每个训练切词序列进行特征化处理,得到每个训练切词序列对应的训练切词序列特征向量;
对每个训练切词序列进行特征化处理,得到每个训练切词序列对应的训练切词序列特征向量的过程与前述对待抽取文本对应的每个切词序列进行特征化处理得到每个切词序列对应的切词序列特征向量的方式是相同的。
标注单元38,用于对每个训练切词序列按照IOB标注法进行评价观点词的标注,以将训练切词序列中的属性词、评价词以及其他词进行区别标注;
由于在实际的应用中表示评价观点的属性词或者评价词在切词时可能会被切为两个或者多个词,则在标注时将属性词的第一个词用BT标注,其他的词用IT标注;将评价词的第一个词用BO标注,其他的词用IO标注;除属性词以及评价词之外的其他词用OFF标注。
训练单元39,用于根据每个训练切词特征向量以及对应的评价观点词的标注对深度神经网络模型进行训练得到所述评价观点抽取模型。
在进行训练时,将文本训练集中包含的训练切词序列对应的训练切词序列特征向量作为深度神经网络模型的输入,然后进行训练,在训练过程中将每次输出的对训练切词序列进行标注的结果与实际的人工标注的训练切词序列中的结果进行比较,再根据两者之间的差距反复进行训练,直到输出的结果几乎与实际的结果相同时结束,最终得到评价观点抽取模型,该模型使用时输入为切词序列特征向量,输出为对切词序列特征向量对应的切词序列进行属性词、评价词、其他词进行标注的结果。
如图5所示,所述装置还包括:
拼接单元310,用于在根据所述评价观点抽取模型的输出结果确定待抽取文本中的评价观点词之后,根据待抽取文本中包含的属性词以及评价词之间的距离关系,对属性词与评价词进行拼接,得到属性评价对,每个属性评价对中包含一个属性词和与之对应的一个评价词。
对于上述IOB标注法,在得到待抽取文本中的属性词以及评价词之后,还需要根据待抽取文本中包含的属性词以及评价词之间的距离关系,对属性词与评价词进行拼接,得到属性评价对,每个属性评价对中包含一个属性词和与之对应的一个评价词。具体的:对于一个切词序列得到的抽取结果,将其中得到的相邻的BT、IT标注拼接成一个属性词,将相邻的BO、IO标注拼接成一个评价词。若一个切词序列的抽取结果拼接后包含多个评价词或者多个属性词,则针对每个评价词或者每个评价词,选择距离它最近的属性词或者评价词组成一个<属性词,评价词>对。
所述抽取单元33中的深度神经网络模型为LSTM-CRF模型或BILSTM-CRF模型。
LSTM-CRF模型或BILSTM-CRF模型都包含两层神经网络模型,并且都结合了CRF的效果,使得最终得到的评价观点模型达到全局标注最优的效果,能够使模型更精准。另外,在训练的过程中通常基于开源框架系统进行训练,比如TensorFlow等。
本发明实施例提供的评价观点抽取的装置,使用了评价观点抽取模型进行评价观点的抽取,并且评价观点抽取模型是由训练文本集对应的训练切词序列特征向量以及训练切词序列中评价观点词的标注对深度神经网络模型进行训练得到的。而其中的训练切词序列特征向量与待抽取文本对应的切词特征向量一样包含了更多的语义特征信息,相比于现有技术增强语义信息表达,因此评价观点抽取模型可以总结出更加准确的评价观点抽取的规律,使其在其他领域中进行评价观点抽取时也可以进行,不依赖词库,提高了鲁棒性。
所述评价观点抽取的装置包括处理器和存储器,上述第一处理单元31、第一特征化单元32、抽取单元33以及确定单元34等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高用户需求分析结果的准确性。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述评价观点抽取的方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述评价观点抽取的方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:对待抽取文本进行切词处理,得到多个切词序列,一个语句对应一个切词序列;根据语义特征信息对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量;将每个切词序列特征向量输入到评价观点抽取模型进行评价观点的抽取,所述评价观点抽取模型是通过训练文本集对应的训练切词序列特征向量以及训练切词序列中评价观点词的标注对深度神经网络模型进行训练得到的;根据所述评价观点抽取模型的输出结果确定待抽取文本中的评价观点词,所述评价观点词包括属性词以及评价词。
进一步的,所述语义特征信息包括词向量、词性以及句法依存关系,所述根据语义特征信息对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量包括:
根据预设词向量模型获取每个切词序列中包含的词的词向量;
获取每个切词序列中每个词的词性以及句法依存关系;
根据词向量、词性以及句法依存关系对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量。
进一步的,所述根据预设词向量模型获取每个切词序列中包含的词的词向量包括:
选取预设语料库,所述预设语料库中包含待抽取文本中包含的词;
对预设语料库进行切词处理,得到切词结果;
根据词向量模型对切词结果进行词向量训练,得到预设词向量模型;
将每个切词序列中的包含的词输入到预设词向量模型中,得到所述词向量。
进一步的,所述根据词向量、词性以及句法依存关系对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量包括:
根据切词序列中每个词的词性,获取每个词对应的词性向量,不同的词性对应不同的词性向量;
根据切词序列中每个词的句法依存关系,获取每个词对应的句法依存关系向量,不同的句法依存关系对应不同的句法依存关系向量;
将切词序列中每个词的词向量、词性向量以及句法依存关系向量进行拼接得到每个词的特征向量;
将每个切词序列中每个词的特征向量组合得到对应每个切词序列的切词序列特征向量。
进一步的,在根据词向量、词性以及句法依存关系对每个切词序列进行特征化处理之前,所述方法还包括:
根据随机向量生成法生成每种词性对应的词性向量以及每种句法依存关系对应的句法依存关系向量;或,
将每种词性以及每种句法依存关系输入到预设词向量模型中,得到每种词性对应的词性向量以及每种句法依存关系对应的句法依存关系向量。
进一步的,所述方法还包括:
对所述训练文本集进行切词处理,得到多个训练切词序列;
根据语义特征信息对每个训练切词序列进行特征化处理,得到每个训练切词序列对应的训练切词序列特征向量;
对每个训练切词序列按照IOB标注法进行评价观点词的标注,以将训练切词序列中的属性词、评价词以及其他词进行区别标注;
根据每个训练切词特征向量以及对应的评价观点词的标注对深度神经网络模型进行训练得到所述评价观点抽取模型。
进一步的,在根据所述评价观点抽取模型的输出结果确定待抽取文本中的评价观点词之后,所述方法还包括:
根据待抽取文本中包含的属性词以及评价词之间的距离关系,对属性词与评价词进行拼接,得到属性评价对,每个属性评价对中包含一个属性词和与之对应的一个评价词。
进一步的,所述深度神经网络模型为LSTM-CRF模型或BILSTM-CRF模型。
本发明实施例中的设备可以是服务器、PC、PAD、手机等。
本发明实施例还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:对待抽取文本进行切词处理,得到多个切词序列,一个语句对应一个切词序列;根据语义特征信息对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量;将每个切词序列特征向量输入到评价观点抽取模型进行评价观点的抽取,所述评价观点抽取模型是通过训练文本集对应的训练切词序列特征向量以及训练切词序列中评价观点词的标注对深度神经网络模型进行训练得到的;根据所述评价观点抽取模型的输出结果确定待抽取文本中的评价观点词,所述评价观点词包括属性词以及评价词。
进一步的,所述语义特征信息包括词向量、词性以及句法依存关系,所述根据语义特征信息对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量包括:
根据预设词向量模型获取每个切词序列中包含的词的词向量;
获取每个切词序列中每个词的词性以及句法依存关系;
根据词向量、词性以及句法依存关系对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量。
进一步的,所述根据预设词向量模型获取每个切词序列中包含的词的词向量包括:
选取预设语料库,所述预设语料库中包含待抽取文本中包含的词;
对预设语料库进行切词处理,得到切词结果;
根据词向量模型对切词结果进行词向量训练,得到预设词向量模型;
将每个切词序列中的包含的词输入到预设词向量模型中,得到所述词向量。
进一步的,所述根据词向量、词性以及句法依存关系对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量包括:
根据切词序列中每个词的词性,获取每个词对应的词性向量,不同的词性对应不同的词性向量;
根据切词序列中每个词的句法依存关系,获取每个词对应的句法依存关系向量,不同的句法依存关系对应不同的句法依存关系向量;
将切词序列中每个词的词向量、词性向量以及句法依存关系向量进行拼接得到每个词的特征向量;
将每个切词序列中每个词的特征向量组合得到对应每个切词序列的切词序列特征向量。
进一步的,在根据词向量、词性以及句法依存关系对每个切词序列进行特征化处理之前,所述方法还包括:
根据随机向量生成法生成每种词性对应的词性向量以及每种句法依存关系对应的句法依存关系向量;或,
将每种词性以及每种句法依存关系输入到预设词向量模型中,得到每种词性对应的词性向量以及每种句法依存关系对应的句法依存关系向量。
进一步的,所述方法还包括:
对所述训练文本集进行切词处理,得到多个训练切词序列;
根据语义特征信息对每个训练切词序列进行特征化处理,得到每个训练切词序列对应的训练切词序列特征向量;
对每个训练切词序列按照IOB标注法进行评价观点词的标注,以将训练切词序列中的属性词、评价词以及其他词进行区别标注;
根据每个训练切词特征向量以及对应的评价观点词的标注对深度神经网络模型进行训练得到所述评价观点抽取模型。
进一步的,在根据所述评价观点抽取模型的输出结果确定待抽取文本中的评价观点词之后,所述方法还包括:
根据待抽取文本中包含的属性词以及评价词之间的距离关系,对属性词与评价词进行拼接,得到属性评价对,每个属性评价对中包含一个属性词和与之对应的一个评价词。
进一步的,所述深度神经网络模型为LSTM-CRF模型或BILSTM-CRF模型。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (8)

1.一种评价观点抽取的方法,其特征在于,所述方法包括:
对待抽取文本进行切词处理,得到多个切词序列,一个语句对应一个切词序列;
根据语义特征信息对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量;
将每个切词序列特征向量输入到评价观点抽取模型进行评价观点的抽取,所述评价观点抽取模型是通过训练文本集对应的训练切词序列特征向量以及训练切词序列中评价观点词的标注对深度神经网络模型进行训练得到的;
根据所述评价观点抽取模型的输出结果确定待抽取文本中的评价观点词,所述评价观点词包括属性词以及评价词;
所述语义特征信息包括词向量、词性以及句法依存关系,所述根据语义特征信息对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量包括:
根据预设词向量模型获取每个切词序列中包含的词的词向量;
获取每个切词序列中每个词的词性以及句法依存关系;
根据切词序列中每个词的词性,获取每个词对应的词性向量,不同的词性对应不同的词性向量;
根据切词序列中每个词的句法依存关系,获取每个词对应的句法依存关系向量,不同的句法依存关系对应不同的句法依存关系向量;
将切词序列中每个词的词向量、词性向量以及句法依存关系向量进行拼接得到每个词的特征向量;
将每个切词序列中每个词的特征向量组合得到对应每个切词序列的切词序列特征向量。
2.根据权利要求1所述的方法,其特征在于,所述根据预设词向量模型获取每个切词序列中包含的词的词向量包括:
选取预设语料库,所述预设语料库中包含待抽取文本中包含的词;
对预设语料库进行切词处理,得到切词结果;
根据词向量模型对切词结果进行词向量训练,得到预设词向量模型;
将每个切词序列中的包含的词输入到预设词向量模型中,得到所述词向量。
3.根据权利要求1所述的方法,其特征在于,在根据词向量、词性以及句法依存关系对每个切词序列进行特征化处理之前,所述方法还包括:
根据随机向量生成法生成每种词性对应的词性向量以及每种句法依存关系对应的句法依存关系向量;或,
将每种词性以及每种句法依存关系输入到预设词向量模型中,得到每种词性对应的词性向量以及每种句法依存关系对应的句法依存关系向量。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述训练文本集进行切词处理,得到多个训练切词序列;
根据语义特征信息对每个训练切词序列进行特征化处理,得到每个训练切词序列对应的训练切词序列特征向量;
对每个训练切词序列按照IOB标注法进行评价观点词的标注,以将训练切词序列中的属性词、评价词以及其他词进行区别标注;
根据每个训练切词特征向量以及对应的评价观点词的标注对深度神经网络模型进行训练得到所述评价观点抽取模型。
5.根据权利要求1-4中任一所述的方法,其特征在于,在根据所述评价观点抽取模型的输出结果确定待抽取文本中的评价观点词之后,所述方法还包括:
根据待抽取文本中包含的属性词以及评价词之间的距离关系,对属性词与评价词进行拼接,得到属性评价对,每个属性评价对中包含一个属性词和与之对应的一个评价词。
6.一种评价观点抽取的装置,其特征在于,所述装置包括:
第一处理单元,用于对待抽取文本进行切词处理,得到多个切词序列,一个语句对应一个切词序列;
第一特征化单元,用于根据语义特征信息对每个切词序列进行特征化处理,得到每个切词序列对应的切词序列特征向量,包括:当所述语义特征信息包括词向量、词性以及句法依存关系时,根据预设词向量模型获取每个切词序列中包含的词的词向量;获取每个切词序列中每个词的词性以及句法依存关系;根据切词序列中每个词的词性,获取每个词对应的词性向量,不同的词性对应不同的词性向量;根据切词序列中每个词的句法依存关系,获取每个词对应的句法依存关系向量,不同的句法依存关系对应不同的句法依存关系向量;将切词序列中每个词的词向量、词性向量以及句法依存关系向量进行拼接得到每个词的特征向量;将每个切词序列中每个词的特征向量组合得到对应每个切词序列的切词序列特征向量;
抽取单元,用于将每个切词序列特征向量输入到评价观点抽取模型进行评价观点的抽取,所述评价观点抽取模型是通过训练文本集对应的训练切词序列特征向量以及训练切词序列中评价观点词的标注对深度神经网络模型进行训练得到的;
确定单元,用于根据所述评价观点抽取模型的输出结果确定待抽取文本中的评价观点词,所述评价观点词包括属性词以及评价词。
7.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行权利要求1至权利要求5中任意一项所述的评价观点抽取的方法。
8.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至权利要求5中任意一项所述的评价观点抽取的方法。
CN201710908163.3A 2017-09-29 2017-09-29 评价观点抽取的方法及装置 Active CN109582948B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710908163.3A CN109582948B (zh) 2017-09-29 2017-09-29 评价观点抽取的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710908163.3A CN109582948B (zh) 2017-09-29 2017-09-29 评价观点抽取的方法及装置

Publications (2)

Publication Number Publication Date
CN109582948A CN109582948A (zh) 2019-04-05
CN109582948B true CN109582948B (zh) 2022-11-22

Family

ID=65914260

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710908163.3A Active CN109582948B (zh) 2017-09-29 2017-09-29 评价观点抽取的方法及装置

Country Status (1)

Country Link
CN (1) CN109582948B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110188203B (zh) * 2019-06-10 2022-08-26 北京百度网讯科技有限公司 文本聚合方法、装置、设备及存储介质
CN111797622B (zh) * 2019-06-20 2024-04-09 北京沃东天骏信息技术有限公司 用于生成属性信息的方法和装置
CN110472040B (zh) * 2019-06-26 2024-08-20 平安科技(深圳)有限公司 评价信息的提取方法及装置、存储介质、计算机设备
CN110807318A (zh) * 2019-11-01 2020-02-18 深圳前海微众银行股份有限公司 数据监控方法、装置、设备及计算机可读存储介质
CN110969014B (zh) * 2019-11-18 2023-04-07 南开大学 一种基于同步神经网络的意见二元组抽取方法
CN111324698B (zh) * 2020-02-20 2022-11-18 苏宁云计算有限公司 深度学习方法、评价观点提取方法、装置和系统
CN112905766A (zh) * 2021-02-09 2021-06-04 长沙冉星信息科技有限公司 一种在主观答题文本中抽取核心观点的方法
CN113343694B (zh) * 2021-04-29 2023-04-07 山东师范大学 一种医疗命名实体识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004151882A (ja) * 2002-10-29 2004-05-27 Fuji Xerox Co Ltd 情報出力制御方法、情報出力処理システム、プログラム
CN103207914A (zh) * 2013-04-16 2013-07-17 武汉理工大学 基于用户反馈评价的偏好向量生成方法和系统
CN106802887A (zh) * 2016-12-30 2017-06-06 北京三快在线科技有限公司 分词处理方法及装置、电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004151882A (ja) * 2002-10-29 2004-05-27 Fuji Xerox Co Ltd 情報出力制御方法、情報出力処理システム、プログラム
CN103207914A (zh) * 2013-04-16 2013-07-17 武汉理工大学 基于用户反馈评价的偏好向量生成方法和系统
CN106802887A (zh) * 2016-12-30 2017-06-06 北京三快在线科技有限公司 分词处理方法及装置、电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
汉语句子语义极性分析和观点抽取方法的研究;娄德成等;《计算机应用》;20061110(第11期);全文 *

Also Published As

Publication number Publication date
CN109582948A (zh) 2019-04-05

Similar Documents

Publication Publication Date Title
CN109582948B (zh) 评价观点抽取的方法及装置
CN111291570B (zh) 一种实现司法文书中要素识别的方法及装置
US9542477B2 (en) Method of automated discovery of topics relatedness
CN110991161B (zh) 相似文本确定方法、神经网络模型获得方法及相关装置
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN110969018A (zh) 案情描述要素提取方法、机器学习模型获得方法及装置
CN115017916B (zh) 方面级情感分析方法、装置、电子设备及存储介质
CN111143551A (zh) 文本预处理方法、分类方法、装置及设备
CN107402945A (zh) 词库生成方法及装置、短文本检测方法及装置
CN106021234A (zh) 标签提取方法及系统
CN108875743A (zh) 一种文本识别方法及装置
US11734602B2 (en) Methods and systems for automated feature generation utilizing formula semantification
CN109766527B (zh) 一种文本相似度的计算方法以及相关设备
US11275796B2 (en) Dynamic faceted search on a document corpus
CN115168575B (zh) 应用于审计领域的主语补全方法及相关设备
CN105786929B (zh) 一种信息监测方法及装置
CN109558580B (zh) 一种文本分析方法及装置
CN110019831B (zh) 一种产品属性的分析方法和装置
US20210073335A1 (en) Methods and systems for semantic analysis of table content
CN111126066B (zh) 基于神经网络的中文修辞手法的确定方法和装置
CN108255802B (zh) 通用文本解析架构及基于所述架构解析文本的方法和装置
CN112580358A (zh) 文本信息提取方法、装置、存储介质及设备
CN112579768A (zh) 一种情感分类模型训练方法、文本情感分类方法及装置
CN117909505B (zh) 事件论元的抽取方法及相关设备
CN110969011B (zh) 文本情感分析方法、装置、存储介质及处理器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant