CN108984532A - 基于层次嵌入的方面抽取方法 - Google Patents

基于层次嵌入的方面抽取方法 Download PDF

Info

Publication number
CN108984532A
CN108984532A CN201810840667.0A CN201810840667A CN108984532A CN 108984532 A CN108984532 A CN 108984532A CN 201810840667 A CN201810840667 A CN 201810840667A CN 108984532 A CN108984532 A CN 108984532A
Authority
CN
China
Prior art keywords
word
vector
character
level
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810840667.0A
Other languages
English (en)
Inventor
刘漳辉
肖顺鑫
郭昆
陈羽中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fuzhou University
Original Assignee
Fuzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuzhou University filed Critical Fuzhou University
Priority to CN201810840667.0A priority Critical patent/CN108984532A/zh
Publication of CN108984532A publication Critical patent/CN108984532A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于层次嵌入的方面抽取方法,对原始语料执行多阶段的预处理操作,使用字符层次的嵌入和双向循环神经网络获得词的高层次特征,通过级联词嵌入与字符嵌入特征以作为词层次双向循环神经网络的输入,获得最终标注结果。本发明提出的一种基于层次嵌入的方面抽取方法,有效地提高方面抽取模型自动化的程度。

Description

基于层次嵌入的方面抽取方法
技术领域
本发明涉及自然语言处理中的细粒度情感分析领域,特别是一种基于层次嵌入的方面抽取方法。
背景技术
随着信息时代的到来,网络观点调查已经逐步取代了传统纸质问卷调查,不仅包括商品评论领域,还涉及社会公众事件、外交以及国家政策等领域。但是随着互联网便利性的增强,网络上涌现出大量的用户生成内容,除了新闻报道等客观信息外,带有主观色彩的评论数据也占据了很大一部分,且呈现出大数据化的发展趋势。对这些海量的数据进行细粒度的情感分析(又称观点挖掘),不仅有利于发现、分析及控制舆论,还可以帮助生产者改进产品、服务质量,以及帮助消费者做出购买决策。
对评论文本进行细粒度情感分析,即挖掘出文本中的评价对象(又称方面)、观点词及观点持有者。如在笔记本电脑评论“Thebattery life is long”中,观点持有者即发布这条评论的消费者,用观点词“long”对方面短语“battery life”进行描述。现如今,观点挖掘技术被广泛应用于自然语言处理、人工智能等领域。
现有的方面抽取研究大多集中于基于规则或基于传统机器学习模型的方法。基于规则的方法简单易行、执行效率高,但性能严重依赖于专家制定的规则质量和语料中语法的正确性;基于传统机器学习模型的方法,大多采用HMM模型和CRF模型,本质上是将方面抽取看成是一个序列标注任务,获得比基于规则更高的性能,但是该类方法需要大量的特征工程,性能也严重依赖于所选特征的质量。
发明内容
本发明的目的在于提供一种基于层次嵌入的方面抽取方法,以克服现有技术中存在的缺陷。
为实现上述目的,本发明的技术方案是:一种基于层次嵌入的方面抽取方法,按照如下步骤实现:
步骤S1:对在线评论文本进行预处理;
步骤S2:对低频词进行过滤,过滤掉文本中出现频次小于预设阈值的单词;
步骤S3:进行字符嵌入和单词嵌入初始化;
步骤S4:通过采用字符嵌入和字符层次双向循环神经网络获得字符层次的词特征;
步骤S5:将词嵌入特征和字符层次的词特征进行级联,通过采用词层次的双向循环神经网络获得最终的标注结果。
在本发明一实施例中,在所述步骤S1中,所述预处理还包括如下步骤:
步骤S11:进行分词处理;采用NLTK工具提供的正则分词器,并设置正则匹配规则;
步骤S12:进行特殊符号处理;移除文本中出现的各种标点符号;
步骤S13:进行数字处理;将语料中的所有数字都用单词“DIGIT”进行替换;
步骤S14:进行转小写处理;将同一个单词的不同大小写形式都转换成统一的小写形式;
步骤S15:进行词形还原处理;采用NLTK工具提供的词形还原功能将一个词的各种形式还原到一般形式;
步骤S16:进行词干提取处理;采用NLTK工具提供的词干提取功能提取一个单词的词干或词根形式。
在本发明一实施例中,在所述步骤S2中,还包括如下步骤:
步骤S21:选定低频词过滤阈值;根据如下公式过滤掉出现频次小于过滤阈值的单词;
Lw={wi|fi<F}
其中,fi为单词wi在所有语料中出现过的次数,F为相应的低频词过滤阈值,且F∈{1,2,3,4,5,6,7,8,9,10};
步骤S22:进行低频词过滤;根据所选定的低频词过滤阈值,过滤掉所用到的语料中,出现次数少于该阈值的所有低频词。
在本发明一实施例中,在所述步骤S3中,还包括如下步骤:
步骤S31:采用Google Embeddings初始化词嵌入;该Google Embeddings在谷歌新闻语料上通过采用基于词袋的模型进行训练建立,其中,每个单词都被表示成一个固定维度为300维的向量;将经预处理和低频词过滤后的所有单词使用Google Embeddings进行向量化,如果该单词不存在于Google Embedding,则将该单词标记为“UNKONWN”并进行相应的向量化;
步骤S32:采用Amazon Embeddings初始化词嵌入;该Amazon Embeddings在Amazon商品评论语料上采用基于词袋的模型进行训练建立,其中,每个单词都被表示成一个固定维度为300维的向量;将经预处理和低频词过滤后的所有单词使用Amazon Embeddings进行向量化,如果该单词不存在于Amazon Embeddings,则将该单词标记为“UNKONWN”并进行相应的向量化;
步骤S33:随机初始化词嵌入;将每个单词随机初始化为预设固定维数的向量,向量中的每一维的数值都介于0到1之间,其维数dw={50,100,150,200,250,300};
步骤S34:随机初始化字符嵌入;将单词中的每个字符都随机初始化为预设固定维数的向量,向量中的每一维的数值都介于0到1之间,其维数dc=150。
在本发明一实施例中,在所述步骤S4中,还包括如下步骤:
步骤S41:将每个单词Wi都表示成相应的字符序列,wi={ci1,ci2,...,cij};
步骤S42:将每个单词对应字符序列中的每个字符,使用字符嵌入进行向量化处理;
步骤S43:将字符序列按序输入到一个字符层次的双向长短期记忆网络中,其中,正向长短期记忆网络的输入序列为{ci1,ci2,...,cij},反向长短期记忆网络的输入序列为{cij,cij-1,...,ci1},一个长短期记忆网络的隐藏层单元计算公式如下:
it=σ(Xixt+Hiht-1+Mimt-1+bi),
ft=σ(Xfxt+Hfht-1+Mfmt-1+bf),
mt=ft⊙mt-1+it⊙τ(Xmxt+Hmht-1+bm)
ot=σ(Xoxt+Hoht-1+Momt+bo),
ht=ot⊙τ(mt),
其中,xt为当前时刻的输入,ht-1、mt-1分别为上一时刻隐藏层的输出和记忆细胞的输出,it、ft、mt和ot分别为当前时刻输入门、遗忘门、记忆细胞和输出门的状态,ht为该循环神经网络在t时刻的输出,门函数σ为sigmoid激活函数,τ为双曲正切函数,符号⊙代表两个向量对应元素的乘积,Xi、Hi、Mi、bi、Xf、Hf、Mf、bf、Xm、Hm、bm、Xo、Ho、Mo和bo为网络中的不同层之间的连接边的权重;
步骤S44:将正向隐藏层输出向量与反向隐藏层输出向量进行级联,获得单词的字符层次的词特征,计算公式如下:
其中,为正向隐藏层输出向量,为反向隐藏层输出向量,ht为级联后的向量。
在本发明一实施例中,在所述步骤S5中,还包括如下步骤:
步骤S51:将每条句子s表示为相应的单词序列,s=(w1,w2,...,wT);
步骤S52:对每条句子中的单词,使用词嵌入进行向量化处理;
步骤S53:将每个单词的词嵌入向量与其字符层次的词特征向量进行级联,作为一个词层次的双向长短期记忆网络的输入;
步骤S54:将词层次双向长短期记忆网络的正向和反向隐藏层输出进行级联;
步骤S55:将级联后的向量输入到网络输出层以进行分类,得到每个单词是否为方面词;使用softmax作为输出层的映射器,它会获得当前单词属于各个类别的概率分布,其计算公式如下:
P(yt|ht)=softmax(Wht+b)
其中,为word-biLSTM隐藏层与网络输出层之间的权重矩阵,|ht|为的隐藏层的维度,b为偏差向量,N=3为所有的类别数,即“B”、“I”、“O”三种。
相较于现有技术,本发明具有以下有益效果:
第一,设计一个包含多阶段的预处理流程,为后续步骤提供一个可靠的输入。
第二,利用提出的网络训练随机初始化的词嵌入和字符嵌入,可用于某些不具有预训练嵌入空间的领域。
第三,使用一个字符层次的嵌入和双向长短期记忆网络,可以有效捕获单词内部的语义信息。本发明提出的一种基于层次嵌入的方面抽取方法,比基于规则、基于传统机器学习和基于基本深度学习方法在方面词识别上具有更高的性能和更好的自动化能力。
附图说明
图1为本发明实施例中基于层次嵌入的方面抽取方法的网络结构图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
本发明提出一种基于层次嵌入的方面抽取方法,如图1所示,按照如下步骤实现:
步骤S1:对在线评论文本进行预处理,包括词干提取、词形还原等预处理操作;
步骤S2:对低频词进行过滤,过滤掉文本中出现频次小于预设阈值的单词;
步骤S3:进行字符嵌入和单词嵌入初始化,包括使用多种预训练模型初始化方式和随机初始化方式;
步骤S4:通过采用字符嵌入和字符层次双向循环神经网络获得字符层次的词特征;
步骤S5:将词嵌入特征和字符层次的词特征进行级联,通过采用词层次的双向循环神经网络获得最终的标注结果。
进一步的,在本实施例中,在步骤S1中,预处理还包括如下步骤:
步骤S11:对输入样本数据进行分词处理;采用NLTK工具提供的正则分词器,并自定义设置正则匹配规则;
步骤S12:进行特殊符号处理;移除文本中出现的对方面抽取没有帮助的特殊符号,包括分号、句号、感叹号等各种标点符号;
步骤S13:进行数字处理;由于不同数字在语料抽取中都起到相同的作用,将语料中的所有数字都用单词“DIGIT”进行替换;
步骤S14:进行转小写处理;将同一个单词的不同大小写形式都转换成统一的小写形式;
步骤S15:进行词形还原处理;即将一个词的各种形式还原到一般形式,如将过去时态的“drove”还原到一般形式“drive”,采用NLTK工具提供的词形还原功能;
步骤S16:进行词干提取处理;即提取一个单词的词干或词根形式,如将“effective”处理成“effect”,采用NLTK工具提供的词干提取功能。
进一步的,在本实施例中,在步骤S2中,还包括如下步骤:
步骤S21:选定低频词过滤阈值;根据如下公式过滤掉出现频次小于过滤阈值的单词;
Lw={wi|fi<F}
其中,fi为单词wi在所有语料中出现过的次数,F为相应的低频词过滤阈值,且F∈{1,2,3,4,5,6,7,8,9,10};
步骤S22:进行低频词过滤;根据所选定的低频词过滤阈值,过滤掉所用到的语料中,出现次数少于该阈值的所有低频词。
进一步的,在本实施例中,在步骤S3中,还包括如下步骤:
步骤S31:采用Google Embeddings初始化词嵌入;该Google Embeddings在谷歌新闻语料上通过采用基于词袋的模型(CBOW)进行训练建立,其中,每个单词都被表示成一个固定维度为300维的向量;将经预处理和低频词过滤后的所有单词使用Google Embeddings进行向量化,如果该单词不存在于Google Embedding,则将该单词标记为“UNKONWN”并进行相应的向量化;
步骤S32:采用Amazon Embeddings初始化词嵌入;该Amazon Embeddings在Amazon商品评论语料上采用基于词袋的模型(CBOW)进行训练建立,其中,每个单词都被表示成一个固定维度为300维的向量;将经预处理和低频词过滤后的所有单词使用AmazonEmbeddings进行向量化,如果该单词不存在于Amazon Embeddings,则将该单词标记为“UNKONWN”并进行相应的向量化;
步骤S33:随机初始化词嵌入;除了采用以上两种预训练初始化方式外,还可以采用随机初始化的方式,将每个单词随机初始化为预设固定维数的向量,向量中的每一维的数值都介于0到1之间,其维数dw={50,100,150,200,250,300};
步骤S34:随机初始化字符嵌入;将单词中的每个字符都随机初始化为预设固定维数的向量,向量中的每一维的数值都介于0到1之间,其维数dc=150。
进一步的,在本实施例中,在步骤S4中,还包括如下步骤:
步骤S41:将每个单词Wi都表示成相应的字符序列,wi={ci1,ci2,...,cij};
步骤S42:将每个单词对应字符序列中的每个字符,使用字符嵌入进行向量化处理;
步骤S43:将字符序列按序输入到一个字符层次的双向长短期记忆网络中,其中,正向长短期记忆网络的输入序列为{ci1,ci2,...,cij},反向长短期记忆网络的输入序列为{cij,cij-1,...,ci1},一个长短期记忆网络的隐藏层单元计算公式如下:
it=σ(Xixt+Hiht-1+Mimt-1+bi),
ft=σ(Xfxt+Hfht-1+Mfmt-1+bf),
mt=ft⊙mt-1+it⊙τ(Xmxt+Hmht-1+bm)
ot=σ(Xoxt+Hoht-1+Momt+bo),
ht=ot⊙τ(mt),
其中,xt为当前时刻的输入,ht-1、mt-1分别为上一时刻隐藏层的输出和记忆细胞的输出,it、ft、mt和ot分别为当前时刻输入门、遗忘门、记忆细胞和输出门的状态,ht为该循环神经网络在t时刻的输出,门函数σ为sigmoid激活函数,τ为双曲正切函数,符号⊙代表两个向量对应元素的乘积,Xi、Hi、Mi、bi、Xf、Hf、Mf、bf、Xm、Hm、bm、Xo、Ho、Mo和bo为网络中的不同层之间的连接边的权重,均为网络需要学习的参数。
步骤S44:将正向隐藏层输出向量与反向隐藏层输出向量进行级联,获得单词的字符层次的词特征,计算公式如下:
其中,为正向隐藏层输出向量,为反向隐藏层输出向量,ht为级联后的向量。
进一步的,在本实施例中,在步骤S5中,还包括如下步骤:
步骤S51:将每条句子s表示为相应的单词序列,s=(w1,w2,...,wT);
步骤S52:对每条句子中的单词,使用词嵌入进行向量化处理;
步骤S53:将每个单词的词嵌入向量与其字符层次的词特征向量进行级联,作为一个词层次的双向长短期记忆网络的输入;
步骤S54:将词层次双向长短期记忆网络的正向和反向隐藏层输出进行级联;
步骤S55:将级联后的向量输入到网络输出层以进行分类,得到每个单词是否为方面词;使用softmax作为输出层的映射器,它会获得当前单词属于各个类别的概率分布,其计算公式如下:
P(yt|ht)=softmax(Wht+b)
其中,为word-biLSTM隐藏层与网络输出层之间的权重矩阵,|ht|为的隐藏层的维度,b为偏差向量,N=3为所有的类别数,即“B”、“I”、“O”三种。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (6)

1.一种基于层次嵌入的方面抽取方法,其特征在于,按照如下步骤实现:
步骤S1:对在线评论文本进行预处理;
步骤S2:对低频词进行过滤,过滤掉文本中出现频次小于预设阈值的单词;
步骤S3:进行字符嵌入和单词嵌入初始化;
步骤S4:通过采用字符嵌入和字符层次双向循环神经网络获得字符层次的词特征;
步骤S5:将词嵌入特征和字符层次的词特征进行级联,通过采用词层次的双向循环神经网络获得最终的标注结果。
2.根据权利要求1所述的基于层次嵌入的方面抽取方法,其特征在于,在所述步骤S1中,所述预处理还包括如下步骤:
步骤S11:进行分词处理;采用NLTK工具提供的正则分词器,并设置正则匹配规则;
步骤S12:进行特殊符号处理;移除文本中出现的各种标点符号;
步骤S13:进行数字处理;将语料中的所有数字都用单词“DIGIT”进行替换;
步骤S14:进行转小写处理;将同一个单词的不同大小写形式都转换成统一的小写形式;
步骤S15:进行词形还原处理;采用NLTK工具提供的词形还原功能将一个词的各种形式还原到一般形式;
步骤S16:进行词干提取处理;采用NLTK工具提供的词干提取功能提取一个单词的词干或词根形式。
3.根据权利要求1所述的基于层次嵌入的方面抽取方法,其特征在于,在所述步骤S2中,还包括如下步骤:
步骤S21:选定低频词过滤阈值;根据如下公式过滤掉出现频次小于过滤阈值的单词;
Lw={wi|fi<F}
其中,fi为单词wi在所有语料中出现过的次数,F为相应的低频词过滤阈值,且F∈{1,2,3,4,5,6,7,8,9,10};
步骤S22:进行低频词过滤;根据所选定的低频词过滤阈值,过滤掉所用到的语料中,出现次数少于该阈值的所有低频词。
4.根据权利要求1所述的基于层次嵌入的方面抽取方法,其特征在于,在所述步骤S3中,还包括如下步骤:
步骤S31:采用Google Embeddings初始化词嵌入;该Google Embeddings在谷歌新闻语料上通过采用基于词袋的模型进行训练建立,其中,每个单词都被表示成一个固定维度为300维的向量;将经预处理和低频词过滤后的所有单词使用Google Embeddings进行向量化,如果该单词不存在于Google Embedding,则将该单词标记为“UNKONWN”并进行相应的向量化;
步骤S32:采用Amazon Embeddings初始化词嵌入;该Amazon Embeddings在Amazon商品评论语料上采用基于词袋的模型进行训练建立,其中,每个单词都被表示成一个固定维度为300维的向量;将经预处理和低频词过滤后的所有单词使用Amazon Embeddings进行向量化,如果该单词不存在于Amazon Embeddings,则将该单词标记为“UNKONWN”并进行相应的向量化;
步骤S33:随机初始化词嵌入;将每个单词随机初始化为预设固定维数的向量,向量中的每一维的数值都介于0到1之间,其维数dw={50,100,150,200,250,300};
步骤S34:随机初始化字符嵌入;将单词中的每个字符都随机初始化为预设固定维数的向量,向量中的每一维的数值都介于0到1之间,其维数dc=150。
5.根据权利要求1所述的基于层次嵌入的方面抽取方法,其特征在于,在所述步骤S4中,还包括如下步骤:
步骤S41:将每个单词Wi都表示成相应的字符序列,wi={ci1,ci2,...,cij};
步骤S42:将每个单词对应字符序列中的每个字符,使用字符嵌入进行向量化处理;
步骤S43:将字符序列按序输入到一个字符层次的双向长短期记忆网络中,其中,正向长短期记忆网络的输入序列为{ci1,ci2,...,cij},反向长短期记忆网络的输入序列为{cij,cij-1,...,ci1},一个长短期记忆网络的隐藏层单元计算公式如下:
it=σ(Xixt+Hiht-1+Mimt-1+bi),
ft=σ(Xfxt+Hfht-1+Mfmt-1+bf),
mt=ft⊙mt-1+it⊙τ(Xmxt+Hmht-1+bm)
ot=σ(Xoxt+Hoht-1+Momt+bo),
ht=ot⊙τ(mt),
其中,xt为当前时刻的输入,ht-1、mt-1分别为上一时刻隐藏层的输出和记忆细胞的输出,it、ft、mt和ot分别为当前时刻输入门、遗忘门、记忆细胞和输出门的状态,ht为该循环神经网络在t时刻的输出,门函数σ为sigmoid激活函数,τ为双曲正切函数,符号⊙代表两个向量对应元素的乘积,Xi、Hi、Mi、bi、Xf、Hf、Mf、bf、Xm、Hm、bm、Xo、Ho、Mo和bo为网络中的不同层之间的连接边的权重;
步骤S44:将正向隐藏层输出向量与反向隐藏层输出向量进行级联,获得单词的字符层次的词特征,计算公式如下:
其中,为正向隐藏层输出向量,为反向隐藏层输出向量,ht为级联后的向量。
6.根据权利要求5所述的基于层次嵌入的方面抽取方法,其特征在于,在所述步骤S5中,还包括如下步骤:
步骤S51:将每条句子s表示为相应的单词序列,s=(w1,w2,...,wT);
步骤S52:对每条句子中的单词,使用词嵌入进行向量化处理;
步骤S53:将每个单词的词嵌入向量与其字符层次的词特征向量进行级联,作为一个词层次的双向长短期记忆网络的输入;
步骤S54:将词层次双向长短期记忆网络的正向和反向隐藏层输出进行级联;
步骤S55:将级联后的向量输入到网络输出层以进行分类,得到每个单词是否为方面词;使用softmax作为输出层的映射器,它会获得当前单词属于各个类别的概率分布,其计算公式如下:
P(yt|ht)=softmax(Wht+b)
其中,为word-biLSTM隐藏层与网络输出层之间的权重矩阵,|ht|为的隐藏层的维度,b为偏差向量,N=3为所有的类别数,即“B”、“I”、“O”三种。
CN201810840667.0A 2018-07-27 2018-07-27 基于层次嵌入的方面抽取方法 Pending CN108984532A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810840667.0A CN108984532A (zh) 2018-07-27 2018-07-27 基于层次嵌入的方面抽取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810840667.0A CN108984532A (zh) 2018-07-27 2018-07-27 基于层次嵌入的方面抽取方法

Publications (1)

Publication Number Publication Date
CN108984532A true CN108984532A (zh) 2018-12-11

Family

ID=64551861

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810840667.0A Pending CN108984532A (zh) 2018-07-27 2018-07-27 基于层次嵌入的方面抽取方法

Country Status (1)

Country Link
CN (1) CN108984532A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800504A (zh) * 2019-01-21 2019-05-24 北京邮电大学 一种异质信息网络的嵌入方法和装置
CN111639483A (zh) * 2019-02-14 2020-09-08 顺丰科技有限公司 一种评价方面确定方法和装置
CN113139116A (zh) * 2020-01-19 2021-07-20 北京中科闻歌科技股份有限公司 基于bert的媒体信息观点抽取方法、装置、设备和存储介质
WO2021164199A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903164A (zh) * 2014-03-25 2014-07-02 华南理工大学 基于领域信息的半监督方面自动提取方法及其系统
CN108038492A (zh) * 2017-11-23 2018-05-15 西安理工大学 一种基于深度学习的感性词向量及情感分类方法
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103903164A (zh) * 2014-03-25 2014-07-02 华南理工大学 基于领域信息的半监督方面自动提取方法及其系统
CN108038492A (zh) * 2017-11-23 2018-05-15 西安理工大学 一种基于深度学习的感性词向量及情感分类方法
CN108197109A (zh) * 2017-12-29 2018-06-22 北京百分点信息科技有限公司 一种基于自然语言处理的多语言分析方法和装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SEBASTIAN RUDER等: ""A Hierarchical Model of Reviews for Aspect-based Sentiment Analysis"", 《EMNLP2016》 *
SOUFIAN JEBBARA等: ""Improving Opinion-Target Extraction with Character-Level Word Embeddings"", 《HTTPS://ARXIV.ORG/ABS/1709.06317#》 *
韩忠明等: ""网络评论方面级观点挖掘方法研究综述"", 《软件学报》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800504A (zh) * 2019-01-21 2019-05-24 北京邮电大学 一种异质信息网络的嵌入方法和装置
CN111639483A (zh) * 2019-02-14 2020-09-08 顺丰科技有限公司 一种评价方面确定方法和装置
CN111639483B (zh) * 2019-02-14 2023-06-23 顺丰科技有限公司 一种评价方面确定方法和装置
CN113139116A (zh) * 2020-01-19 2021-07-20 北京中科闻歌科技股份有限公司 基于bert的媒体信息观点抽取方法、装置、设备和存储介质
CN113139116B (zh) * 2020-01-19 2024-03-01 北京中科闻歌科技股份有限公司 基于bert的媒体信息观点抽取方法、装置、设备和存储介质
WO2021164199A1 (zh) * 2020-02-20 2021-08-26 齐鲁工业大学 基于多粒度融合模型的中文句子语义智能匹配方法及装置

Similar Documents

Publication Publication Date Title
Zhang et al. Dependency sensitive convolutional neural networks for modeling sentences and documents
CN112699247B (zh) 一种基于多类交叉熵对比补全编码的知识表示学习方法
CN112015863B (zh) 一种基于图神经网络的多元特征融合中文文本分类方法
CN108984532A (zh) 基于层次嵌入的方面抽取方法
Fu et al. Listening to the investors: A novel framework for online lending default prediction using deep learning neural networks
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN113742733B (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN110188195A (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN112465226B (zh) 一种基于特征交互和图神经网络的用户行为预测方法
Chen et al. Deep neural networks for multi-class sentiment classification
CN110765285A (zh) 基于视觉特征的多媒体信息内容管控方法及系统
CN111709225B (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
Lai et al. Transconv: Relationship embedding in social networks
CN113434688A (zh) 用于舆情分类模型训练的数据处理方法和装置
CN108536838A (zh) 基于Spark的极大无关多元逻辑回归模型对文本情感分类方法
US20230016729A1 (en) Transfer learning and prediction consistency for detecting offensive spans of text
CN109543038A (zh) 一种应用于文本数据的情感分析方法
Lundeqvist et al. Author profiling: A machinelearning approach towards detectinggender, age and native languageof users in social media
CN116108836A (zh) 文本情感识别方法、装置、计算机设备及可读存储介质
CN117216617A (zh) 文本分类模型训练方法、装置、计算机设备和存储介质
Sudha Semi supervised multi text classifications for telugu documents
CN113590819B (zh) 一种大规模类别层级文本分类方法
CN113051607B (zh) 一种隐私政策信息提取方法
Verwimp et al. Reverse transfer learning: Can word embeddings trained for different nlp tasks improve neural language models?
CN113204975A (zh) 一种基于远程监督的敏感文风识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211

RJ01 Rejection of invention patent application after publication