CN109558580B - 一种文本分析方法及装置 - Google Patents

一种文本分析方法及装置 Download PDF

Info

Publication number
CN109558580B
CN109558580B CN201710880789.8A CN201710880789A CN109558580B CN 109558580 B CN109558580 B CN 109558580B CN 201710880789 A CN201710880789 A CN 201710880789A CN 109558580 B CN109558580 B CN 109558580B
Authority
CN
China
Prior art keywords
word
word segmentation
words
sequence
segmentation sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710880789.8A
Other languages
English (en)
Other versions
CN109558580A (zh
Inventor
王天祎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710880789.8A priority Critical patent/CN109558580B/zh
Publication of CN109558580A publication Critical patent/CN109558580A/zh
Application granted granted Critical
Publication of CN109558580B publication Critical patent/CN109558580B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本分析方法,其特征在于,包括:获取待分析的用户评价文本;对所述用户评价文本进行切词处理,得到切词序列;将所述切词序列输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理;对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见。本发明提供的文本分析方法能够在不依赖词库的前提下,实现对任意领域的用户评价文本的自动化分析,鲁棒性更强。

Description

一种文本分析方法及装置
技术领域
本发明涉及数据挖掘技术领域,尤其涉及一种文本分析方法及装置。
背景技术
基于文本的产品属性倾向性分析,是指在文本分析任务中,挖掘用户关于某些产品属性的观点意见。一般而言,挖掘到的观点意见是由属性词和评价语组成的<属性,评价语>对。例如,对于用户关于汽车产品的评论文本“汽车前脸霸气侧漏”,用户描述的是汽车产品的“前脸”属性,关于该属性的评价语为“霸气侧漏”,那么需要提取的倾向性分析内容为<前脸,霸气侧漏>。
常用的基于文本的产品属性倾向性分析的实现方法是,建立包含大量词汇的词库,并且设置个性化规则,来实现对属性词和评价语的识别,从而得到<属性,评价语>对。例如,关于“汽车前脸霸气侧漏”这句评价文本,需要事先在词库里积累属性词“前脸”,以及评价语“霸气侧漏”,结合一定的个性化规则,如属性词和评价语之间的距离等,来判别两个词是否是属于评价观点。
上述分析方法严重依赖词库的积累,一旦词库中没有积累需要提取的属性词或评论语,则不能识别或提取得到需要的评价观点。并且,由于不同领域的用户评价内容不同,针对不同领域需要分别建立词库,且不同领域的词库之间不具有通用性。综上可见,上述基于文本的产品属性倾向性分析方法的鲁棒性较低。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本分析方法,该方法能够在不依赖词库的前提下,实现对各领域用户评论文本的分析。
本发明第一方面提出一种文本分析方法,包括:获取待分析的用户评价文本;对所述用户评价文本进行切词处理,得到切词序列;将所述切词序列输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理;对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见。借由上述技术方案,本发明提供的文本分析方法能够在不依赖词库的前提下,实现对任意领域的用户评价文本的自动化分析,鲁棒性更强。
本发明第二方面提出一种文本分析装置,包括:文本获取单元,用于获取待分析的用户评价文本;切词处理单元,用于对所述用户评价文本进行切词处理,得到切词序列;标注处理单元,用于将所述切词序列输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理;拼接处理单元,用于对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见。采用该装置实施上述方法的技术方案,实现了对任意领域的用户评价文本的分析,摆脱了对词库的依赖,鲁棒性更强。
在一种实现方式中,所述将所述切词序列输入经过训练的标注模型,包括:将所述切词序列输入经过训练的条件随机场模型。
在一种实现方式中,对所述用户评论文本进行切词处理时,还得到依存句法序列;在得到所述依存句法序列后,该方法还包括:根据所述依存句法序列,对所述切词序列中的词分别进行特征化处理,得到所述切词序列的特征集合;将所述切词序列的特征集合输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理。
在一种实现方式中,所述对所述切词序列中的各个词进行标注处理,包括:将所述切词序列中的第一个属性词标注为第一类型词,将除第一个属性词之外的属性词标注为第二类型词;将所述切词序列中的第一个评价语标注为第三类型词,将除第一个评价语之外的评价语标注为第四类型词;将除属性词和评价语之外的所有词,标注为第五类型词。
在一种实现方式中,所述对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见,包括:将所述切词序列中的相邻的第一类型词和第二类型词拼接成一个属性词;将所述切词序列中的相邻的第三类型词和第四类型词拼接成一个评价语;将相邻的属性词和评价语,组成一个<属性,评价语>对,作为用户观点意见。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种文本分析方法的流程示意图;
图2示出了本发明实施例提供的另一种文本分析方法的流程示意图;
图3示出了本发明实施例提供的一种切词示意图;
图4示出了本发明实施例提供的一种文本分析装置的结构示意图;
图5示出了本发明实施例提供的另一种文本分析装置的结构示意图。
具体实施方式
本发明实施例技术方案适用于通过对用户评价文本进行分析,获取产品属性倾向性观点意见的应用场景。
采用本发明实施例技术方案,能够摆脱对词库的依赖,实现对任意领域的用户评价文本的分析,从中挖掘用户关于产品属性的观点意见。
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例公开了一种文本分析方法,参见图1所示,该方法包括:
S101、获取待分析的用户评价文本;
具体的,上述用户评价文本,是用户关于某产品或某服务所做出的文本形式的评价。可以通过网页爬取,或数据库查询的方式获取。
S102、对所述用户评价文本进行切词处理,得到切词序列;
具体的,利用语言技术平台(Language Technology Platform,LTP)执行对用户评论文本的切词处理,得到切词序列。根据LTP性能设置,在得到切词序列的同时,还可以得到依存句法序列。
S103、将所述切词序列输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理;
具体的,上述标注模型,是指经过训练的,专门用户标注切词序列中的各个词的属性的模型。该模型对切词序列中的各个词进行标注的具体方式为:属性词的第一个词标注为BT,其余部分标注为IT;评价语的起始词标注为BO,其余部分标注为IO;除了属性词和评价语的部分同意标注为OFF。例如,对于切词序列[汽车,前脸,设计,威武,霸气]中的各个词,按照上述方法标注的结果为[OFF,BT,IT,BO,IO]。
S104、对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见。
具体的,将切词序列中相邻的BT、IT拼接成一个属性词,将相邻的BO、IO拼接成一个评价词;若切词序列中包含两个以上属性词,则针对每个评价词,选择距离它最近的属性词组成一个<属性,评价语>对,即得到用户观点意见,完成了产品属性倾向性分析。
上述技术方案摆脱了对词库的依赖,实现了在不查询词库的前提下,识别及提取用户对于产品属性的观点意见。由于上述技术方案不需要依赖于词库,因此也摆脱了不同领域的限制,可以适用于任意领域的用户意见识别及提取,鲁棒性更强。
图2示出了上述文本分析方法的更具体的实现过程。参见图2所示,上述文本分析方法,具体包括:
S201、获取待分析的用户评价文本;
具体的,用户评价文本,是指用户关于某产品或某服务所做出的文本形式的评价。
本发明实施例可以通过网页爬取、数据库搜索等任意可以得到用户评价文本的形式,获取针对某一特定产品,或某一特定服务的用户评价文本。
S202、对获取的用户评价文本进行切词处理,得到切词序列和依存句法序列;
具体的,上述切词,又称分词,是指将一个汉字序列(语句)切分成一个一个单独的词。切词序列,是指将一段中文文本进行切词处理后得到的各个单独的词组成的序列。依存句法序列,是指切词序列中,各个词之间的句法关系。
切词是文本挖掘的基础,对于输入的一段中文,成功地进行切词处理,可以达到电脑自动识别语句含义的效果。常用的切词方法包括基于字符串匹配的切词方法、基于理解的切词方法和基于统计的切词方法。
基于上述常用的切词方法,本领域研究人员已开发出相应软件,用于实现自动化的切词处理。例如,基于词频词典的机械中文分词引擎SCWS、基于HTTP协议的开源中文分词系统HTTPCWS、语言技术平台(Language Technology Platform,LTP)等。
LTP能够实现在对文本进行切词处理的基础上,同时标注切词序列的每个词的词性,以及分析切词序列中各个词之间的句法关系,得到依存句法序列。
例如,利用LTP对用户评价文本“汽车前脸设计威武霸气”进行切词处理,可以得到切词序列为[汽车,前脸,设计,威武,霸气]。同时,如图3所示,LTP分析切词序列中各个词的词性分别为[n,n,v,a,n],依存句法序列为[ATT,SBV,HED,ATT,VOB]。其中,n表示名词;v表示动词;a表示形容词;ATT表示定中关系;SBV表示主谓关系;HED表示核心关系;VOB表示动宾关系。
本发明实施例利用LTP实现对获取的用户评价文本的切词处理,得到切词序列和依存句法序列。
S203、对得到的切词序列中的各个词进行标注处理;
具体的,对切词序列中的各个词进行标注,是指标注切词序列中的词是属性词,还是评价语,从而将切词序列中的属性词和评价语用不同标注加以区分。
由于本发明实施例的目的是从用户评价文本中提取得到<属性,评价语>对,因此,切词序列中表示属性的词,和表示评价语的词,是本发明实施例的感兴趣词。基于此,本发明实施例设定具体的标注方式为:属性词的第一个词标注为第一类型词BT,其余部分标注为第二类型词IT;评价语的起始词标注为第三类型词BO,其余部分标注为第四类型词IO;除了属性词和评价语的部分同意标注为第五类型词OFF。例如,对于切词序列[汽车,前脸,设计,威武,霸气]中的各个词,按照上述方法标注的结果为[OFF,BT,IT,BO,IO]。
本发明实施例以人工标注的形式,实现对切词序列中各个词的标注处理。
S204、重复执行步骤S201~S203设定次数,得到标注数据集合;
具体的,标注数据集合,是指对多个切词序列中的词分别进行标注处理后,所得到的词的集合。
本发明实施例通过设定次数地重复执行步骤S201~S203,获取设定数量的用户评论文本,并且获取到对应这些用户评论文本的,经过标注处理的切词序列,构成标注数据集合。
S205、对标注数据集合中的词分别进行特征化处理,得到标注数据集合中的每个词的特征集合;
具体的,词的特征集合,是指包含一个词的所有设定类型特征的集合。
本发明实施例中,对于标注数据集合中的属于任意一个切词序列的词,将该词本身、该词的词性、该词的依存句法关系、该词左右相邻词的词本身、词性、依存句法关系,作为该词的特征集合。
例如,对于“汽车前脸设计威武霸气”这一用户评论文本,其第一个词为“汽车”,那么它的特征为{词:汽车,词性:n,依存句法:ATT;右侧词:前脸,右侧词词性:n,右侧词依存句法:SBV;左侧词:NULL,左侧词词性:NULL,左侧词依存句法:NULL},因为“汽车”的左侧词不存在,所以所有符号都为NULL,表示空。
需要说明的是,上述该词的依存句法关系,为步骤S202中切词得到的词的依存句法关系。上述“该词左右相邻词”还可以扩展为该词左边,或右边的设定数量的词。
更进一步的,在具体实施本发明实施例技术方案时,为了简化执行过程,还可以跳过步骤S205,不对标注数据集合中的词进行特征化,而直接以标注数据集合为基础,执行后续处理步骤。
S206、将标注数据集合的每个词的特征集合,输入条件随机场模型,训练条件随机场模型作为标注处理模型;
具体的,条件随机场模型,是一种判别式概率模型,属于随机场的一种,常用于标注或分析序列资料,如自然语言文字或生物序列,条件随机场也经常用于中文分词和词性标注等词法分析工作。
条件随机场模型具有学习能力,能够通过训练,调整自身参数,获得完善的标注或分析能力,用于执行对切词序列中的词的标注处理。
本发明实施例将已经经过人工标注的,标注数据集合中的所有词的特征集合,作为训练条件随机场模型的训练样本,输入条件随机场模型,对条件随机场进行训练,使条件随机场具备和人工标注一样的标注处理能力,从而能够利用经过训练的条件随机场模型,实现对切词序列中的词的自动化的标注处理。
需要说明的是,当执行本发明实施例技术方案跳过步骤S205时,直接将步骤S204中得到的标注数据集合,作为训练条件随机场模型的训练样本。
步骤S201~S206是对条件随机场模型的训练过程。在首次采用本发明实施例技术方案时,或者在对待分析文本进行分析之前,需要对条件随机场模型进行训练,使条件随机场模型具备对切词序列中的词进行标注处理的能力。
对条件随机场模型进行训练之后,采用以下步骤,即可实现对任意文本的分析:
对待分析的用户评论文本执行步骤S202;
S207、对得到的切词序列中的词,分别进行特征化处理,得到切词序列的特征集合;
具体的,步骤S207的具体处理过程,与步骤S205的具体处理过程基本相同,只是处理的切词序列数量相对单一。步骤S207对于单个切词序列的特征化处理,与步骤S205中对于单个切词序列的特征化处理过程完全相同。
需要说明的是,出于简化执行步骤的目的,也可以不执行步骤S207。直接对步骤S202得到的切词序列执行后续处理。
S208、将切词序列的特征集合输入训练后的条件随机场模型,对切词序列中的各个词进行标注处理;
具体的,当执行本发明实施例时跳过步骤S207,或对条件随机场模型进行训练时,跳过步骤S205时,只能将切词序列输入训练后的条件随机场模型,使条件随机场模型完成对切词序列中各个词的标注处理。
需要说明的是,步骤S208对切词序列中的各个词的标注方式,与步骤S203中通过人工对切词序列中的词进行标注的标注方式相同。
S209、对标注处理后的切词序列中的词进行拼接处理,得到用户观点意见。
具体的,用户观点意见,是指从用户评论文本中挖掘得到的,用户关于某产品属性的观点意见,一般为由属性词和评论语组成的<属性,评价语>对。
本发明实施例所采用的拼接方法为,根据切词序列中各个词的BT、IT,BO、IO标注,对切词序列中的词进行拼接。具体的,将切词序列中相邻的BT、IT拼接成一个属性词,将相邻的BO、IO拼接成一个评价词;若切词序列中包含两个以上属性词,则针对每个评价词,选择距离它最近的属性词组成一个<属性,评价语>对。
通过上述介绍可见,在本发明实施例所公开的文本分析方法中,首先对待分析的用户评论文本进行切词处理得到切词序列,然后利用经过训练的条件随机场模型对切词序列中的词进行标注处理,最后根据对切词序列中的词的标注,对切词序列中的词进行拼接处理,得到<属性,评价语>对,即得到了用户关于某产品属性的观点意见,完成了产品属性倾向性分析。上述技术方案,摆脱了对词库的依赖,实现了在不查询词库的前提下,识别及提取用户对于产品属性的观点意见。由于上述技术方案不需要依赖于词库,因此也摆脱了不同领域的限制,可以适用于任意领域的用户意见识别及提取,鲁棒性更强。
图4是本发明实施例公开的一种文本分析装置的结构示意图,该装置包括:文本获取单元401,用于获取待分析的用户评价文本;切词处理单元402,用于对所述用户评价文本进行切词处理,得到切词序列;标注处理单元403,用于将所述切词序列输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理;拼接处理单元404,用于对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见。
具体的,本实施例中各个单元的具体工作内容,请参见上述方法实施例的内容,此处不再赘述。
图5是本发明实施例公开的另一种文本分析装置的结构示意图,该装置的切词处理单元402对所述述用户评论文本进行切词处理时,还得到依存句法序列;该装置还包括:特征化处理单元405,用于根据所述依存句法序列,对所述切词序列中的词分别进行特征化处理,得到所述切词序列的特征集合;相应的,该装置的标注处理单元403还用于将所述切词序列的特征集合输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理。
具体的,本实施例中各个单元的具体工作内容,请参见上述方法实施例的内容,此处不再赘述。
所述文本分析装置包括处理器和存储器,上述文本获取单元、切词处理单元、标注处理单元和拼接处理单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现在不依赖词库的前提下,对各领域用户评论文本进行自动化的分析。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述文本分析方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述文本分析方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获取待分析的用户评价文本;对所述用户评价文本进行切词处理,得到切词序列;将所述切词序列输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理;对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见。借由上述技术方案,本发明提供的文本分析方法能够在不依赖词库的前提下,实现对任意领域的用户评价文本的自动化分析,鲁棒性更强。
在一种实现方式中,所述将所述切词序列输入经过训练的标注模型,包括:将所述切词序列输入经过训练的条件随机场模型。
在一种实现方式中,对所述用户评论文本进行切词处理时,还得到依存句法序列;在得到所述依存句法序列后,该方法还包括:根据所述依存句法序列,对所述切词序列中的词分别进行特征化处理,得到所述切词序列的特征集合;将所述切词序列的特征集合输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理。
在一种实现方式中,所述对所述切词序列中的各个词进行标注处理,包括:将所述切词序列中的第一个属性词标注为第一类型词,将除第一个属性词之外的属性词标注为第二类型词;将所述切词序列中的第一个评价语标注为第三类型词,将除第一个评价语之外的评价语标注为第四类型词;将除属性词和评价语之外的所有词,标注为第五类型词。
在一种实现方式中,所述对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见,包括:将所述切词序列中的相邻的第一类型词和第二类型词拼接成一个属性词;将所述切词序列中的相邻的第三类型词和第四类型词拼接成一个评价语;将相邻的属性词和评价语,组成一个<属性,评价语>对,作为用户观点意见。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获取待分析的用户评价文本;对所述用户评价文本进行切词处理,得到切词序列;将所述切词序列输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理;对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见。借由上述技术方案,本发明提供的文本分析方法能够在不依赖词库的前提下,实现对任意领域的用户评价文本的自动化分析,鲁棒性更强。
在一种实现方式中,所述将所述切词序列输入经过训练的标注模型,包括:将所述切词序列输入经过训练的条件随机场模型。
在一种实现方式中,对所述用户评论文本进行切词处理时,还得到依存句法序列;在得到所述依存句法序列后,该方法还包括:根据所述依存句法序列,对所述切词序列中的词分别进行特征化处理,得到所述切词序列的特征集合;将所述切词序列的特征集合输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理。
在一种实现方式中,所述对所述切词序列中的各个词进行标注处理,包括:将所述切词序列中的第一个属性词标注为第一类型词,将除第一个属性词之外的属性词标注为第二类型词;将所述切词序列中的第一个评价语标注为第三类型词,将除第一个评价语之外的评价语标注为第四类型词;将除属性词和评价语之外的所有词,标注为第五类型词。
在一种实现方式中,所述对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见,包括:将所述切词序列中的相邻的第一类型词和第二类型词拼接成一个属性词;将所述切词序列中的相邻的第三类型词和第四类型词拼接成一个评价语;将相邻的属性词和评价语,组成一个<属性,评价语>对,作为用户观点意见。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (7)

1.一种文本分析方法,其特征在于,包括:
获取待分析的用户评价文本;
对所述用户评价文本进行切词处理,得到切词序列;
将所述切词序列输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理;
对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见;
其中,所述对所述切词序列中的各个词进行标注处理,包括:
将所述切词序列中的第一个属性词标注为第一类型词,将除第一个属性词之外的属性词标注为第二类型词;
将所述切词序列中的第一个评价语标注为第三类型词,将除第一个评价语之外的评价语标注为第四类型词;
将除属性词和评价语之外的所有词,标注为第五类型词;
其中,所述对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见,包括:
将所述切词序列中的相邻的第一类型词和第二类型词拼接成一个属性词;
将所述切词序列中的相邻的第三类型词和第四类型词拼接成一个评价语;
将相邻的属性词和评价语,组成一个<属性,评价语>对,作为用户观点意见。
2.根据权利要求1所述的方法,其特征在于,所述将所述切词序列输入经过训练的标注模型,包括:
将所述切词序列输入经过训练的条件随机场模型。
3.根据权利要求1所述的方法,其特征在于,对所述用户评价 文本进行切词处理时,还得到依存句法序列;
在得到所述依存句法序列后,该方法还包括:
根据所述依存句法序列,对所述切词序列中的词分别进行特征化处理,得到所述切词序列的特征集合;
将所述切词序列的特征集合输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理。
4.一种文本分析装置,其特征在于,包括:
文本获取单元,用于获取待分析的用户评价文本;
切词处理单元,用于对所述用户评价文本进行切词处理,得到切词序列;
标注处理单元,用于将所述切词序列输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理;
拼接处理单元,用于对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见;
其中,所述标注模型对所述切词序列中的各个词进行标注处理时,具体用于:
将所述切词序列中的第一个属性词标注为第一类型词,将除第一个属性词之外的属性词标注为第二类型词;将所述切词序列中的第一个评价语标注为第三类型词,将除第一个评价语之外的评价语标注为第四类型词;将除属性词和评价语之外的所有词,标注为第五类型词;
其中,所述对标注处理后的所述切词序列中的词进行拼接处理,得到用户观点意见,具体用于:
将所述切词序列中的相邻的第一类型词和第二类型词拼接成一个属性词;将所述切词序列中的相邻的第三类型词和第四类型词拼接成一个评价语;将相邻的属性词和评价语,组成一个<属性,评价语>对,作为用户观点意见。
5.根据权利要求4所述的装置,其特征在于,所述切词处理单元对所述用户评价 文本进行切词处理时,还得到依存句法序列;
该装置还包括:
特征化处理单元,用于根据所述依存句法序列,对所述切词序列中的词分别进行特征化处理,得到所述切词序列的特征集合;
相应的,所述标注处理单元还用于将所述切词序列的特征集合输入经过训练的标注模型,对所述切词序列中的各个词进行标注处理。
6.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备执行如权利要求1-3中任一项所述的文本分析方法。
7.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行如权利要求1-3中任一项所述的文本分析方法。
CN201710880789.8A 2017-09-26 2017-09-26 一种文本分析方法及装置 Active CN109558580B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710880789.8A CN109558580B (zh) 2017-09-26 2017-09-26 一种文本分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710880789.8A CN109558580B (zh) 2017-09-26 2017-09-26 一种文本分析方法及装置

Publications (2)

Publication Number Publication Date
CN109558580A CN109558580A (zh) 2019-04-02
CN109558580B true CN109558580B (zh) 2023-01-17

Family

ID=65862054

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710880789.8A Active CN109558580B (zh) 2017-09-26 2017-09-26 一种文本分析方法及装置

Country Status (1)

Country Link
CN (1) CN109558580B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110532391B (zh) * 2019-08-30 2022-07-05 网宿科技股份有限公司 一种文本词性标注的方法及装置
CN110750975B (zh) * 2019-10-21 2023-03-21 北京明略软件系统有限公司 介绍文本生成方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207914A (zh) * 2013-04-16 2013-07-17 武汉理工大学 基于用户反馈评价的偏好向量生成方法和系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160189194A1 (en) * 2014-12-31 2016-06-30 Alex Minicucci Computer implemented system and method for creation of a digital,collaborative review platform, network and publication

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103207914A (zh) * 2013-04-16 2013-07-17 武汉理工大学 基于用户反馈评价的偏好向量生成方法和系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
基于商品评论信息的情感倾向性分析模型;黄秋义等;《电子制作》;20160415(第08期);全文 *
基于微博的情感倾向性分析方法研究;高凯等;《中文信息学报》;20150715(第04期);全文 *
评价对象抽取研究;张彩琴;《太原师范学院学报(自然科学版)》;20161225(第04期);全文 *

Also Published As

Publication number Publication date
CN109558580A (zh) 2019-04-02

Similar Documents

Publication Publication Date Title
CN109726293B (zh) 一种因果事件图谱构建方法、系统、装置及存储介质
CN105718586B (zh) 分词的方法及装置
CN110781276A (zh) 文本抽取方法、装置、设备及存储介质
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN109582948B (zh) 评价观点抽取的方法及装置
CN109145110B (zh) 标签查询方法和装置
CN111339751A (zh) 一种文本关键词处理方法、装置及设备
US20210263974A1 (en) Category tag mining method, electronic device and non-transitory computer-readable storage medium
CN111176650B (zh) 解析器生成方法、检索方法、服务器及存储介质
CN111079408B (zh) 一种语种识别方法、装置、设备及存储介质
CN113221555A (zh) 一种基于多任务模型的关键词识别方法、装置及设备
CN112287071A (zh) 一种文本关系提取方法、装置及电子设备
CN109558580B (zh) 一种文本分析方法及装置
CN108875743B (zh) 一种文本识别方法及装置
CN102063460A (zh) 信息处理方法和装置
CN111783425B (zh) 基于句法分析模型的意图识别方法及相关装置
CN108255891B (zh) 一种判别网页类型的方法及装置
CN117216214A (zh) 一种问答抽取的生成方法、装置、设备及介质
CN113761137A (zh) 一种提取地址信息的方法及装置
CN110851597A (zh) 一种基于同类实体替换的语句标注的方法及装置
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN115759048A (zh) 一种剧本文本处理方法及装置
CN110019831B (zh) 一种产品属性的分析方法和装置
CN110618809B (zh) 一种前端网页输入约束提取方法和装置
CN112749186B (zh) 数据处理方法、装置、电子设备和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: BEIJING GRIDSUM TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant