CN110222341A - 文本分析方法及装置 - Google Patents

文本分析方法及装置 Download PDF

Info

Publication number
CN110222341A
CN110222341A CN201910499903.1A CN201910499903A CN110222341A CN 110222341 A CN110222341 A CN 110222341A CN 201910499903 A CN201910499903 A CN 201910499903A CN 110222341 A CN110222341 A CN 110222341A
Authority
CN
China
Prior art keywords
clause
focus
text
candidate
sentiment orientation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910499903.1A
Other languages
English (en)
Inventor
刘昊
何伯磊
肖欣延
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910499903.1A priority Critical patent/CN110222341A/zh
Publication of CN110222341A publication Critical patent/CN110222341A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提出一种文本分析方法及装置。所述方法包括:获取文本的关注点;根据所述关注点,获取所述文本中关于所述关注点的子句集合;根据所述子句集合,获得关于所述关注点的子句情感倾向分类;根据所述情感倾向分类,获得关于所述关注点的情感倾向。本发明实施例能够对文本中的关注点进行情感倾向分析,方便读者对文本产生更加全面深刻的认识和了解。同时,本发明实施例采用神经网络建立分析模型,能够不断学习和优化,具有较高的分析性能。

Description

文本分析方法及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种文本分析方法及装置。
背景技术
现阶段,随着网络的发展,网络文章也越来越多。每个文章都有一定的关注点,并在文章中表达对该关注点的情感倾向。文本情感倾向,表示一段文本的情感倾向和感情色彩。情感倾向可以是积极的、消极的、中性的,也可以是具体的情感,例如喜悦、愤怒、痛苦等。文本情感倾向分析是情感分析研究的重要组成部分,其在话题监控、产品口碑分析、舆情分析等领域具有十分重要的研究和应用价值。
新闻文本是当前网络上最为常见的一种特殊的文本形式,其情感分析也具备很多特殊性。新闻文本通常由多个新闻关注点以及对该关注点的描述构成。不同的新闻作者对于关注点的情感倾向也存在差异。
发明内容
本发明实施例提供一种文本分析方法及装置,以解决现有技术中的一个或多个技术问题。
第一方面,本发明实施例提供了一种文本分析方法,包括:
获取文本的关注点;
根据所述关注点,获取所述文本中关于所述关注点的子句集合;
根据所述子句集合,获得关于所述关注点的子句情感倾向分类;
根据所述情感倾向分类,获得关于所述关注点的情感倾向。
在一种实施方式中,根据所述关注点,获取文本中关于所述关注点的子句集合,包括:
提取文本中关于所述关注点的候选子句;
若所述候选子句包含所述关注点,则将所述候选子句加入所述关注点的子句集合;
若所述候选子句包含指示代词,则对所述候选子句进行指代消解,获得修正后的候选子句;
若所述修正后的候选子句包含所述关注点,则将所述修正后的候选子句加入所述关注点的子句集合。
在一种实施方式中,对所述候选子句进行指代消解包括:
采用监督分类模型或者依据预设规则,对所述候选子句进行指代消解。
在一种实施方式中,获取文本的关注点,包括:
获取所述文本的关注点集合;
对所述关注点集合中的元素进行归一化,获得所述文本的关注点。
在一种实施方式中,获取所述文本的关注点集合,包括:
对所述文本进行搜索查询,获得关注点集合的元素;或,
抽取所述文本子句中的实体,得到候选项,对所述候选项进行计算,获得关注点集合包括的各元素。
在一种实施方式中,根据所述子句集合,获得关于所述关注点的子句情感倾向分类,包括:
利用情感倾向分析模型,学习所述子句的分词嵌入到向量空间中的向量表示;
将所述子句的所有分词的向量表示拼接,获得所述子句的拼接向量表示;
根据所述拼接向量表示,获得所述子句的情感倾向分类。
在一种实施方式中,所述情感倾向分析模型基于长短期记忆LSTM(Long Short-Term Memory)模型或者卷积神经网络CNN(Convolutional Neural Networks)构建。
第二方面,本发明实施例提供了一种文本分析装置,包括:
关注点获取模块:用于获取文本的关注点;
子句集合获取模块:用于根据所述关注点,获取所述文本中关于所述关注点的子句集合;
情感倾向分类获取模块:用于根据所述子句集合,获得关于所述关注点的子句情感倾向分类;
情感倾向获取模块:用于根据所述情感倾向分类,获得关于所述关注点的情感倾向。
在一种实施方式中,所述子句集合获取模块包括:
候选子句提取单元:用于提取文本中关于所述关注点的候选子句;
第一判定单元:用于若所述候选子句包含所述关注点,则将所述候选子句加入所述关注点的子句集合;
第二判定单元:用于若所述候选子句包含指示代词,则对所述候选子句进行指代消解,获得修正后的候选子句;
第三判定单元:用于若所述修正后的候选子句包含所述关注点,则将所述修正后的候选子句加入所述关注点的子句集合。
在一种实施方式中,所述第二判定单元还用于:
采用监督分类模型或者依据预设规则,对所述候选子句进行指代消解。
在一种实施方式中,所述关注点获取模块包括:
关注点集合获取单元:用于获取所述文本的关注点集合;
关注点集合归一化单元:用于对所述关注点集合中的元素进行归一化,获得所述文本的关注点。
在一种实施方式中,所述关注点集合获取单元包括:
搜索查询子单元:用于对所述文本进行搜索查询,获得关注点集合的元素;和/或,
抽实体子单元:用于抽取所述文本子句中的实体,得到候选项,对所述候选项进行计算,获得关注点集合包括的各元素。
在一种实施方式中,所述情感倾向分类获取模块包括:
子句学习单元:用于利用情感倾向分析模型,学习所述子句的分词嵌入到向量空间中的向量表示;
拼接单元:用于将所述子句的所有分词的向量表示拼接,获得所述子句的拼接向量表示;
拼接向量分析单元:用于根据所述拼接向量表示,获得所述子句的情感倾向分类。
在一种实施方式中,所述情感倾向分析模型基于长短期记忆LSTM模型或者卷积神经网络CNN构建。
第三方面,本发明实施例提供了一种文本分析设备,所述设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
在一个可能的设计中,所述设备的结构中包括处理器和存储器,所述存储器用于存储支持所述设备执行上述文本分析方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口,用于与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,用于存储文本分析装置所用的计算机软件指令,其包括用于执行上述文本分析方法所涉及的程序。
上述技术方案中的一个技术方案具有如下优点或有益效果:本发明实施例提供的文本分析方法,能够基于关注点获得文本中的情感倾向,方便读者对文本产生更加全面深刻的认识和了解。同时,本发明实施例的情感倾向分析模型可基于LSTM或者CNN构建,从而能够通过深度学习的方式进行优化,有效融合关注点和文本描述的语义关系、关注点和篇章的关系,从而在情感倾向分析时具有更好的性能。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1示出根据本发明实施例的文本分析方法的流程图。
图2示出根据本发明实施例的文本分析方法的流程图。
图3示出根据本发明实施例的文本分析方法的步骤细节流程图。
图4示出根据本发明实施例的文本模型数据分析示意图。
图5示出根据本发明实施例的文本分析装置的结构框图。
图6示出根据本发明实施例的文本分析装置的结构框图。
图7示出根据本发明实施例的文本分析设备的结构框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
图1示出根据本发明实施例的文本分析方法的流程图。如图1所示,该文本分析方法包括:
步骤S11:获取文本的关注点。
步骤S12:根据所述关注点,获取所述文本中关于所述关注点的子句集合。
步骤S13:根据所述子句集合,获得关于所述关注点的子句情感倾向分类。
步骤S14:根据所述情感倾向分类,获得关于所述关注点的情感倾向。
在本发明实施例中,文本可以包括新闻文本、小说文本、广告文本等。文本可以以句子为粒度,也可以以篇章或其它单位为粒度。文本中可以包括一个或多个关注点。获取文本的关注点的方式可以有多种。例如,通过文本作者提供的关键词获取文本的关注点。再如,通过对文本进行抽实体的方式获取文本的关注点。再如,通过对文本进行热度词汇搜索的方式获取文本的关注点。
在本发明实施例中,若存在一个以上关注点,相应需要获得一个以上关于关注点的子句集合,不同的关注点的子句集合可能存在交集。例如,文本中存在A人物、B城市两个关注点,一个子句为“A迁居到B城市”,则该子句可以同时属于关于A人物的子句集合和关于B城市的子句集合。
在本发明具体实施例中,情感倾向分类可以为积极、消极或一般。情感倾向根据关于关注点的所有子句的情感倾向分类获得,可以为积极、消极或一般等。例如,文本关于人物A的情感倾向为积极,关于人物E的情感倾向为消极,关于人物C的情感倾向为一般。
根据所述情感倾向分类获得关于所述关注点的情感倾向的方式可以为:根据关于关注点的所有子句的情感倾向分类获得关于关注点的情感倾向。获得文本中所有关于关注点的子句的情感倾向分类,将多个情感倾向分类整合为关于关注点的情感倾向。例如,可以设置一定的阈值,当文本中关于关注点的子句的某种情感倾向分类大于设定阈值时,根据该种情感倾向分类确定关于关注点的情感倾向。
在本发明一种示例中,可以设定阈值为50%。如果文本中关于关注点的子句中,有超过50%的子句的情感倾向分类为积极,则根据情感倾向分类,文本关于关注点的情感倾向为积极。如果文本中关于关注点的子句中,有超过50%的子句的情感倾向分类为消极,则根据情感倾向分类,文本关于关注点的情感倾向为消极。如果文本中关于关注点的子句中,各有50%的子句的情感倾向分类为积极和消极,则根据情感倾向分类,文本关于关注点的情感倾向为一般。
在一种实施方式中,如图2所示,根据所述关注点,获取文本中关于所述关注点的子句集合,包括:
步骤S21:提取文本中关于所述关注点的候选子句;
步骤S22:若所述候选子句包含所述关注点,则将所述候选子句加入所述关注点的子句集合;
步骤S23:若所述候选子句包含指示代词,则对所述候选子句进行指代消解,获得修正后的候选子句;
步骤S24:若所述修正后的候选子句包含所述关注点,则将所述修正后的候选子句加入所述关注点的子句集合。
在本发明实施例中,指示代词可以是“我”、“你”、“他”、“她”之类的人称代词,也可以是“它”等指物代词。指代消解,在本发明实施例中,可以是指将候选子句中的指示代词替换成关注点。例如,将“他没有忘本”中的“他”替换成“A”,得到修正后的候选子句“A没有忘本”。
在本发明一种示例中,如图3所示,根据所述关注点,获取文本中关于所述关注点的子句集合,包括:
步骤S31:提取文本中关于所述关注点的候选子句。
步骤S32:判断候选子句是否包含所述关注点,若是,则进入步骤S23。若否,则进入步骤S24。候选子句包括修正后的候选子句。
步骤S33:将所述候选子句加入所述关注点的子句集合。
步骤S34:若所述候选子句包含指示代词,则对所述候选子句进行指代消解,获得修正后的候选子句,返回步骤S32。
在本发明实施例中,提取文本中关于所述关注点的候选子句,具体可以根据关注点的属性进行提取。例如,关注点为人物,则提取文本中有关人物的子句为候选子句。如果关注点为动物,则提取文本中有关动物的子句为候选子句。
在本发明实施例中,获得候选子句之后,首先对候选子句与所述关注点进行显式匹配,即判断候选子句中是否包含关注点。例如,关注点为人物A,A为该人物名字,若子句中存在A,则认为子句与关注点匹配。
在本发明实施例中,如果候选子句中存在指示代词,例如“他”、“她”,则对候选子句进行指代消解,然后将指代消解后的子句与关注点进行显式匹配。例如,文本中包含人物A和人物E两个关注点,人物A为男性,人物E为女性。在子句“她拦着他,不让他回老家”中,通过指代消解,可以判断句中“她”指代人物E,句中“他”指代人物“A”。通过指代消解,获得修正后的候选子句“E拦着A,不让A回老家”。
在本发明实施方式中,对所述候选子句进行隐式匹配包括:
采用监督分类模型或者依据预设规则,对所述候选子句进行指代消解。
在本发明实施例中,监督分类模型可以根据一些预设数据训练获得,经过一定的训练,监督分类模型能够分析指示代词在一定的情况下所指代的内容。例如,对于候选子句“成名以后也没有忘记自己的身份”,通过监督分类模型,可以推断出这里的“自己”指的是“A”,则修正后的候选子句为“成名后也没有忘记A的身份”,将该候选子句加入A的子句集合。
在本发明实施例中,预设规则可以是指代消解的规则。例如,预设规则可以是,若子句中存在指示代词,则选择距离最近的关注点消解该指示代词。再如,预设规则还可以是,若子句中存在指示代词,则选择该指示代词之前距离最近的关注点消解该指示代词。
在一种实施方式中,获取文本的关注点,包括:
获取所述文本的关注点集合;
对所述关注点集合中的元素进行归一化,获得所述文本的关注点。
在本发明示例中,获取文本的关注点集合时,首先抽取文本的候选关注点,然后将候选关注点进行归一化。很多人物或地点都有昵称或者别称,例如,“魔都”等。再如,人物A的昵称为C、D等,将C、D归一化为A。
在一种实施方式中,获取所述文本的关注点集合,包括:
对所述文本进行搜索查询,获得关注点集合的元素;或,
抽取所述文本子句中的实体,得到候选项,对所述候选项进行计算,获得关注点集合包括的各元素。
在本发明实施例中,搜索查询的依据,可以是作者自设的文本关键词,还可以是当前新闻的热点关键词集合。
在本发明实施例中,可以通过预训练的模型抽取文本子句中的实体。
在一种实施方式中,获得关于所述关注点的子句情感倾向分类,包括:
利用情感倾向分析模型,学习所述子句的分词嵌入到向量空间中的向量表示;
将所述子句的所有分词的向量表示拼接,获得所述子句的拼接向量表示;
根据所述拼接向量表示,获得所述子句的情感倾向分类。
在本发明一种示例中,获得关于所述关注点的子句情感倾向分类的过程如图4所示,将文本中关于关注点A的子句输入情感倾向分析模型41。或者将文本中关于关注点A的子句进行分割,得到多个分词,这些分词构成子句分词列表后将分词列表输入情感倾向分析模型。如图3所示,对于关注点A的子句1:“人最重要的是不能忘本”,采用双向LSTM子模型,学习子句的分词的Embedding(嵌入)表示,即获得子句1的分词,包括:“人”、“重要”、“不能”、“忘本”,将子句1的这些分词嵌入到向量空间中的向量表示。对于一个子句,采用双向LSTM子模型分别按照从左到右和从右到左的顺序,学习子句的分词的Embedding表示。然后将子句中所有分词的向量表示进行拼接,得到该子句的拼接的向量表示。采用分类子模型获得拼接的向量表示的情感倾向分类,即子句的情感倾向分类。
将文本中关注点A的所有子句依次输入情感倾向分析模型41,直到子句n:“不仅没有不孝”。将子句n的分词:“不仅”、“没有”、“不孝”,输入情感倾向分析模型。经过从左到右和从右到左的学习,获得“不仅”、“没有”和“不孝”的拼接向量表示以及“不孝”、“没有”和“不仅”的拼接向量表示,输入分类子模型,获得该子句对关注点A的情感倾向分类为积极。
仍然参照图4,将所有关于关注点A的子句输入情感分析模型后,获得每个子句的情感倾向分类。采用Softmax归一化函数,将子句的情感倾向分类进行归一化计算,获得所有关于关注点A的子句中,情感倾向分类为积极的子句所占比例为0.9,情感倾向分类为消极的子句所占比例为0.1。根据这一情感倾向分类结果,可知关于关注点A的情感倾向为积极。
在本发明其它示例中,双向LSTM模型也可采用CNN模型、单向LSTM模型替代。
在一种实施方式中,所述情感倾向分析模型基于长短期记忆LSTM模型或者卷积神经网络CNN构建。
本发明还提供一种文本分析装置。该文本分析装置的主要组成部分如图5所示,包括:
关注点获取模块51:用于获取文本的关注点;
子句集合获取模块52:用于根据所述关注点,获取所述文本中关于所述关注点的子句集合;
情感倾向分类获取模块53:用于根据所述子句集合,获得关于所述关注点的子句情感倾向分类;
情感倾向获取模块54:用于根据所述情感倾向分类,获得关于所述关注点的情感倾向。
在一种实施方式中,如图6所示,所述子句集合获取模块包括:
候选子句提取单元61:用于提取文本中关于所述关注点的候选子句;
第一判定单元62:用于若所述候选子句包含所述关注点,则将所述候选子句加入所述关注点的子句集合;
第二判定单元63:用于若所述候选子句包含指示代词,则对所述候选子句进行指代消解,获得修正后的候选子句;
第三判定单元64:用于若所述修正后的候选子句包含所述关注点,则将所述修正后的候选子句加入所述关注点的子句集合。
在一种实施方式中,所述第二判定单元还用于:
采用监督分类模型或者依据预设规则,对所述候选子句进行指代消解。
在一种实施方式中,所述关注点获取模块包括:
关注点集合获取单元:用于获取所述文本的关注点集合;
关注点集合归一化单元:用于对所述关注点集合中的元素进行归一化,获得所述文本的关注点。
在一种实施方式中,所述关注点集合获取单元包括:
搜索查询子单元:用于对所述文本进行搜索查询,获得关注点集合的元素;和/或,
抽实体子单元:用于抽取所述文本子句中的实体,得到候选项,对所述候选项进行计算,获得关注点集合包括的各元素。
在一种实施方式中,所述情感倾向分类获取模块包括:
子句学习单元:用于利用情感倾向分析模型,学习所述子句的分词嵌入到向量空间中的向量表示;
拼接单元:用于将所述子句的所有分词的向量表示拼接,获得所述子句的拼接向量表示;
拼接向量分析单元:用于根据所述拼接向量表示,获得所述子句的情感倾向分类。
在一种实施方式中,所述情感倾向分析模型基于长短期记忆LSTM模型或者卷积神经网络CNN构建。
本发明实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
图7示出根据本发明实施例的文本分析设备的结构框图。如图7所示,该设备包括:存储器910和处理器920,存储器910内存储有可在处理器920上运行的计算机程序。所述处理器920执行所述计算机程序时实现上述实施例中的文本分析方法。所述存储器910和处理器920的数量可以为一个或多个。
该设备还包括:
通信接口930,用于与外界设备进行通信,进行数据交互传输。
存储器910可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
如果存储器910、处理器920和通信接口930独立实现,则存储器910、处理器920和通信接口930可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent Interconnect)总线或扩展工业标准体系结构(EISA,Extended IndustryStandard Architecture)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器910、处理器920及通信接口930集成在一块芯片上,则存储器910、处理器920及通信接口930可以通过内部接口完成相互间的通信。
本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现上述实施例中任一所述的方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (16)

1.一种文本分析方法,其特征在于,包括:
获取文本的关注点;
根据所述关注点,获取所述文本中关于所述关注点的子句集合;
根据所述子句集合,获得关于所述关注点的子句情感倾向分类;
根据所述情感倾向分类,获得关于所述关注点的情感倾向。
2.根据权利要求1所述的方法,其特征在于,根据所述关注点,获取文本中关于所述关注点的子句集合,包括:
提取文本中关于所述关注点的候选子句;
若所述候选子句包含所述关注点,则将所述候选子句加入所述关注点的子句集合;
若所述候选子句包含指示代词,则对所述候选子句进行指代消解,获得修正后的候选子句;
若所述修正后的候选子句包含所述关注点,则将所述修正后的候选子句加入所述关注点的子句集合。
3.根据权利要求2所述的方法,其特征在于,对所述候选子句进行指代消解包括:
采用监督分类模型或者依据预设规则,对所述候选子句进行指代消解。
4.根据权利要求1所述的方法,其特征在于,获取文本的关注点,包括:
获取所述文本的关注点集合;
对所述关注点集合中的元素进行归一化,获得所述文本的关注点。
5.根据权利要求4所述的方法,其特征在于,获取所述文本的关注点集合,包括:
对所述文本进行搜索查询,获得关注点集合的元素;或,
抽取所述文本子句中的实体,得到候选项,对所述候选项进行计算,获得关注点集合包括的各元素。
6.根据权利要求1所述的方法,其特征在于,根据所述子句集合,获得关于所述关注点的子句情感倾向分类,包括:
利用情感倾向分析模型,学习所述子句的分词嵌入到向量空间中的向量表示;
将所述子句的所有分词的向量表示拼接,获得所述子句的拼接向量表示;
根据所述拼接向量表示,获得所述子句的情感倾向分类。
7.根据权利要求6所述的方法,其特征在于,所述情感倾向分析模型基于长短期记忆LSTM模型或者卷积神经网络CNN构建。
8.一种文本分析装置,其特征在于,包括:
关注点获取模块:用于获取文本的关注点;
子句集合获取模块:用于根据所述关注点,获取所述文本中关于所述关注点的子句集合;
情感倾向分类获取模块:用于根据所述子句集合,获得关于所述关注点的子句情感倾向分类;
情感倾向获取模块:用于根据所述情感倾向分类,获得关于所述关注点的情感倾向。
9.根据权利要求8所述的装置,其特征在于,所述子句集合获取模块包括:
候选子句提取单元:用于提取文本中关于所述关注点的候选子句;
第一判定单元:用于若所述候选子句包含所述关注点,则将所述候选子句加入所述关注点的子句集合;
第二判定单元:用于若所述候选子句包含指示代词,则对所述候选子句进行指代消解,获得修正后的候选子句;
第三判定单元:用于若所述修正后的候选子句包含所述关注点,则将所述修正后的候选子句加入所述关注点的子句集合。
10.根据权利要求9所述的装置,其特征在于,所述第二判定单元还用于:
采用监督分类模型或者依据预设规则,对所述候选子句进行指代消解。
11.根据权利要求8所述的装置,其特征在于,所述关注点获取模块包括:
关注点集合获取单元:用于获取所述文本的关注点集合;
关注点集合归一化单元:用于对所述关注点集合中的元素进行归一化,获得所述文本的关注点。
12.根据权利要求11所述的装置,其特征在于,所述关注点集合获取单元包括:
搜索查询子单元:用于对所述文本进行搜索查询,获得关注点集合的元素;和/或,
抽实体子单元:用于抽取所述文本子句中的实体,得到候选项,对所述候选项进行计算,获得关注点集合包括的各元素。
13.根据权利要求8所述的装置,其特征在于,所述情感倾向分类获取模块包括:
子句学习单元:用于利用情感倾向分析模型,学习所述子句的分词嵌入到向量空间中的向量表示;
拼接单元:用于将所述子句的所有分词的向量表示拼接,获得所述子句的拼接向量表示;
拼接向量分析单元:用于根据所述拼接向量表示,获得所述子句的情感倾向分类。
14.根据权利要求13所述的装置,其特征在于,所述情感倾向分析模型基于长短期记忆LSTM模型或者卷积神经网络CNN构建。
15.一种情感分析设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至7中任一项所述的方法。
16.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN201910499903.1A 2019-06-10 2019-06-10 文本分析方法及装置 Pending CN110222341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910499903.1A CN110222341A (zh) 2019-06-10 2019-06-10 文本分析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910499903.1A CN110222341A (zh) 2019-06-10 2019-06-10 文本分析方法及装置

Publications (1)

Publication Number Publication Date
CN110222341A true CN110222341A (zh) 2019-09-10

Family

ID=67816325

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910499903.1A Pending CN110222341A (zh) 2019-06-10 2019-06-10 文本分析方法及装置

Country Status (1)

Country Link
CN (1) CN110222341A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
US20150199333A1 (en) * 2014-01-15 2015-07-16 Abbyy Infopoisk Llc Automatic extraction of named entities from texts
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统
CN107818084A (zh) * 2017-10-11 2018-03-20 北京众荟信息技术股份有限公司 一种融合点评配图的情感分析方法
CN108959550A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 用户关注点挖掘方法、装置、设备及计算机可读介质
CN109543035A (zh) * 2018-11-09 2019-03-29 中译语通科技股份有限公司 一种针对商品评价进行聚类分析的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101894102A (zh) * 2010-07-16 2010-11-24 浙江工商大学 一种主观性文本情感倾向性分析方法和装置
US20150199333A1 (en) * 2014-01-15 2015-07-16 Abbyy Infopoisk Llc Automatic extraction of named entities from texts
CN105550269A (zh) * 2015-12-10 2016-05-04 复旦大学 一种有监督学习的产品评论分析方法及系统
CN107818084A (zh) * 2017-10-11 2018-03-20 北京众荟信息技术股份有限公司 一种融合点评配图的情感分析方法
CN108959550A (zh) * 2018-06-29 2018-12-07 北京百度网讯科技有限公司 用户关注点挖掘方法、装置、设备及计算机可读介质
CN109543035A (zh) * 2018-11-09 2019-03-29 中译语通科技股份有限公司 一种针对商品评价进行聚类分析的方法

Similar Documents

Publication Publication Date Title
Jiang et al. Sentiment computing for the news event based on the social media big data
Baroni Grounding distributional semantics in the visual world
Li et al. Topical co-attention networks for hashtag recommendation on microblogs
Zhang et al. Encoding conversation context for neural keyphrase extraction from microblog posts
Fromm et al. TACAM: topic and context aware argument mining
CN109992784B (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN110990670B (zh) 一种成长激励型图书推荐方法及推荐系统
Nandi et al. Bangla news recommendation using doc2vec
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
Devi et al. Author profiling in code-mixed WhatsApp messages using stacked convolution networks and contextualized embedding based text augmentation
Luong et al. Intent extraction from social media texts using sequential segmentation and deep learning models
Phu et al. A valences-totaling model for English sentiment classification
CN115329085A (zh) 一种社交机器人分类方法及系统
Hashemzadeh et al. Improving keyword extraction in multilingual texts.
Vo et al. An integrated framework of learning and evidential reasoning for user profiling using short texts
Idrees et al. A proposed model for detecting facebook news’ credibility
Milani et al. Sentiment extraction and classification for the analysis of users’ interest in tweets
Sheeba et al. A fuzzy logic based on sentiment classification
CN109657043A (zh) 自动生成文章的方法、装置、设备及存储介质
Alvi et al. Sentiment analysis of bengali text using countvectorizer with logistic regression
Yuan et al. Task-specific word identification from short texts using a convolutional neural network
Xu et al. Product features mining based on Conditional Random Fields model
Korovesis et al. Leveraging aspect-based sentiment prediction with textual features and document metadata
CN110222341A (zh) 文本分析方法及装置
Kadam et al. Sentiment analysis, an overview

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination