CN106446264A - 文本表示方法及系统 - Google Patents

文本表示方法及系统 Download PDF

Info

Publication number
CN106446264A
CN106446264A CN201610907526.7A CN201610907526A CN106446264A CN 106446264 A CN106446264 A CN 106446264A CN 201610907526 A CN201610907526 A CN 201610907526A CN 106446264 A CN106446264 A CN 106446264A
Authority
CN
China
Prior art keywords
word
text
low
dimensional vector
publisher
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610907526.7A
Other languages
English (en)
Other versions
CN106446264B (zh
Inventor
徐睿峰
桂林
杜嘉晨
陆勤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Graduate School Harbin Institute of Technology
Original Assignee
Shenzhen Graduate School Harbin Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Graduate School Harbin Institute of Technology filed Critical Shenzhen Graduate School Harbin Institute of Technology
Priority to CN201610907526.7A priority Critical patent/CN106446264B/zh
Publication of CN106446264A publication Critical patent/CN106446264A/zh
Application granted granted Critical
Publication of CN106446264B publication Critical patent/CN106446264B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种文本表示方法及系统,所述文本表示方法包括:获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语评论对象低维连续向量表示;将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的文本分类模型。本发明综合考虑词语的社交属性以及词语的评论习惯属性,给予了词向量更丰富的语义信息,提高了词向量表示学习的精准性,获得更加准确的文本分类结果。

Description

文本表示方法及系统
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种文本表示方法及系统。
背景技术
随着基于深度神经网络的表示学习技术的发展,自然语言处理领域很多问题都归结于文本的表示学习,即:如何通过表示学习的相关方法,将文本片段,如词语、短语、句子、篇章等表示为一个连续的低维向量。而在上述问题之中,词语作为语言最基本的片段,如何对其进行连续的低维向量表示则成为了自然语言处理中最基本的问题之一。
目前,关于词语的连续低维向量表示(简称为词向量)在自然语言处理领域有着广泛的应用,如:利用词向量以及词的序列关系,对一个句子进行基于词向量的建模,即学习获得句子的连续低维表示;利用词向量形成的序列,建模多个句子,甚至是不同语言的句子之间词语的对应关系,服务于问答系统、机器翻译系统等自然语言处理领域的应用系统;利用组成短语的词语的词向量,进行短语级别的语义推断,自动化判别短语所表达的语义等等。
传统的词向量表示方法很多,例如:用上下文词语预测当前词语进行词向量建模的连续词袋模型(Continues Bag Of Words,CBOW),以及利用当前词语对上下文进行预测的跳跃多元文法(Skip n-gram)等等。但是,上述方法大多数利用结构语言学中的上下文相关假设,即词语的含义由其上下文决定,来进行词语的词向量学习。在这个过程中,其忽视了语言的主体,即人在语言中所起的作用,具体而言,其缺点在于:
1、在对词语进行连续低维表示的过程中,忽视了社交因素,没有表现出词语的社交属性;
2、在对词语进行连续低维表示的过程中,忽视了其评论对象的因素,没有表现出词语的评论习惯属性。
发明内容
本发明的主要目的在于提出一种文本表示方法及系统,旨在提高文本表示学习的精准性。
为实现上述目的,本发明提供的一种文本表示方法,包括:
步骤S10,获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;其中,所述词语发布者低维连续向量表示的维度不高于300维度,所述词语评论对象低维连续向量表示的维度不高于300维度;
步骤S20,使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维空间表示,得到词语发布者低维连续向量表示及词语的评论对象的低维连续向量表示;
步骤S30,将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的文本分类模型。
可选地,所述步骤S10包括:
步骤S101,统计所述文本中每个词语对应的发布者信息,得到每个词语发布者使用频数,并且将所述发布者使用频数作为发布者-词语边的权重;
步骤S102,统计所述文本中每个词语对应的评论对象,得到每个词语的评论对象使用频数,并且将所述评论对象使用频数作为评论对象-词语边的权重;
步骤S103,统计所述文本中每个词语出现在哪些词语的上下文中,得到每个词语的上下文出现频数,并且将所述上下文出现频数作为词语-词语边的权重;
步骤S104,基于得到的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,构建基于主体间性的异质网络。
可选地,所述步骤S20包括:
步骤S201,基于所述主体间性的异质网络中的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,优化预设的损失函数,所述损失函数为:
其中,wij表示节点i和节点j之间的边的权重,logp(vj|vi)为两个节点之间的条件概率,定义如下:
其中,ui表示节点i的低维连续向量表示,表示节点j的相邻节点的低维连续向量表示。
可选地,所述步骤S30包括:
采用旁路链接的方法,将所述发布者低维连续向量表示和所述评论对象低维连续向量表示链接到学习获得的文本表示结果中。
可选地,所述步骤S30包括:
步骤S301,采用文本建模方式学习文本的低维连续向量表示;
步骤S302,对学习获得的文本低维连续向量表示,顺序的接入所述发布者低维连续向量表示和所述评论对象低维连续向量表示,得到对应的表示特征;
步骤S303,将得到的对应的表示特征输入分类模型中,最终得到相应的文本分类模型。
本发明实施例还提出一种文本表示系统,包括:
构建模块,用于获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;
表示学习模块,用于使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语的评论对象的低维连续向量表示;其中,所述词语发布者低维连续向量表示的维度不高于300维度,所述词语评论对象低维连续向量表示的维度不高于300维度;
文本分类模块,用于将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的词向量分类模型。
可选地,所述构建模块,还用于统计所述文本中每个词语对应的发布者信息,得到每个词语发布者使用频数,并且将所述发布者使用频数作为发布者-词语边的权重;统计所述文本中每个词语对应的评论对象,得到每个词语的评论对象使用频数,并且将所述评论对象使用频数作为评论对象-词语边的权重;统计所述文本中每个词语出现在哪些词语的上下文中,得到每个词语的上下文出现频数,并且将所述上下文出现频数作为词语-词语边的权重;基于得到的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,,构建基于主体间性的异质网络。
可选地,所述表示学习模块,还用于基于所述主体间性的异质网络中的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,优化预设的损失函数,所述损失函数为:
其中,wij表示节点i和节点j之间的边的权重,logp(vj|vi)为两个节点之间的条件概率,定义如下:
其中,ui表示节点i的低维连续向量表示,表示节点j的相邻节点的低维连续向量表示。
可选地,所述文本分类模块,还用于采用旁路链接的方法,将所述发布者低维连续向量表示和所述评论对象低维连续向量表示链接到学习获得的文本表示结果中。
可选地,所述文本分类模块,还用于采用文本建模方式学习文本的低维连续向量表示;对学习获得的文本低维连续向量表示,顺序的接入所述发布者低维连续向量表示和所述评论对象低维连续向量表示,得到对应的表示特征;将得到的对应的表示特征输入分类模型中,最终得到相应的文本分类模型。
本发明提出的一种文本表示方法及系统,获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语的评论对象的低维连续向量表示;将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的文本分类模型,该方案在对词语进行连续低维表示的过程中,综合考虑词语的社交属性以及词语的评论习惯属性,即考虑人在语言中所起的作用,利用了发布者信息和评论对象信息,给予了词向量更丰富的语义信息,从而提高了词向量表示学习的精准性,获得更加准确的文本分类结果。
附图说明
图1是本发明文本表示方法实施例的流程示意图;
图2是本发明实施例中基于主体间性的异质网络构建示意图;
图3是本发明实施例中结合表示学习的文本分类示意图;
图4是本发明文本表示系统实施例的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
由于现有技术中,在对词语进行连续低维表示的过程中,大多数利用结构语言学中的上下文相关假设,即词语的含义由其上下文决定,来进行词语的词向量学习。在这个过程中,其忽视了语言的主体,即人在语言中所起的作用,从而降低了词向量表示学习的精准性。
为此,本发明提出一种解决方案,综合考虑词语的社交属性以及词语的评论习惯属性,即考虑人在语言中所起的作用,利用了发布者信息和评论对象信息,给予了词向量更丰富的语义信息,从而提高词向量表示学习的精准性。
具体地,如图1所示,本发明实施例提出一种文本表示方法,包括:
步骤S10,获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;
本实施例中,主要利用文本中的发布者信息、评论对象信息等建立基于主体间性的异质网络,在对词语进行连续低维向量表示的过程中,体现出语言主体—人的作用,结合词语的社交属性和评论习惯属性,以提高词向量表示学习的精准性。
具体地,结合图2所示,在建立基于主体间性的异质网络时,需要汇总文本中词语-词语关系、词语-标签关系、词语-发布者关系、词语-评论对象关系,具体构件过程包括如下步骤:
步骤S101,统计所述文本中每个词语对应的发布者信息,得到每个词语发布者使用频数,并且将所述发布者使用频数作为发布者-词语边的权重;
其中,所述文本中每个词语对应的发布者信息,指所述文本中的每个词语被哪些发布者使用过。
步骤S102,统计所述文本中每个词语对应的评论对象,得到每个词语的评论对象使用频数,并且将所述评论对象使用频数作为评论对象-词语边的权重;
其中,所述文本中每个词语对应的评论对象,指所述文本中的每个词语被用于评论哪些对象。
步骤S103,统计所述文本中每个词语出现在哪些词语的上下文中,得到每个词语的上下文出现频数,并且将所述上下文出现频数作为词语-词语边的权重;
步骤S104,基于得到的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,构建基于主体间性的异质网络。
步骤S20,使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语的评论对象的低维连续向量表示;其中,所述词语发布者低维连续向量表示的维度不高于300维度,所述词语评论对象低维连续向量表示的维度不高于300维度;
具体地,包括步骤S201,基于所述主体间性的异质网络中的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,优化预设的损失函数,所述损失函数可以表示如下:
其中,wij表示节点i和节点j之间的边的权重,logp(vj|vi)为两个节点之间的条件概率,定义如下:
其中,ui表示节点i的低维连续向量表示,表示节点j的相邻节点的低维连续向量表示。
由此,通过对上述损失函数的优化,可以得到发布者低维连续向量表示、评论对象的低维连续向量表示等。
步骤S30,将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的词向量分类模型。
本实施例中,采用旁路链接的方法,将所述发布者低维连续向量表示和所述评论对象低维连续向量表示链接到学习获得的文本表示结果中。
具体地,如图3所示,其处理方法包括如下步骤:
步骤S301,采用文本建模方式学习文本的低维连续向量表示;
步骤S302,对学习获得的文本低维连续向量表示,顺序的接入所述发布者低维连续向量表示和所述评论对象的低维连续向量表示,得到对应的表示特征;
步骤S303,将得到的对应的表示特征输入分类模型中,最终得到相应的词向量分类模型。由于利用了发布者信息和评论对象信息,给予了词向量更丰富的语义信息,使得基于此表示学习的结果,可以获得更加准确的文本分类结果。
本实施例通过上述方案,获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语的评论对象的低维连续向量表示;将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的词向量分类模型,该方案在对词语进行连续低维表示的过程中,综合考虑词语的社交属性以及词语的评论习惯属性,即考虑人在语言中所起的作用,利用了发布者信息和评论对象信息,给予了词向量更丰富的语义信息,从而提高了词向量表示学习的精准性,获得更加准确的文本分类结果。
如图4所示,本发明实施例还提出一种文本表示系统,包括:构建模块201、表示学习模块202及文本分类模块203,其中:
构建模块201,用于获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;
表示学习模块202,用于使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语的评论对象的低维连续向量表示;其中,所述词语发布者低维连续向量表示的维度不高于300维度,所述词语评论对象低维连续向量表示的维度不高于300维度;
文本分类模块203,用于将所述发布者低维连续向量表示及评论对象低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的词向量分类模型。
进一步地,所述构建模块201,还用于统计所述文本中每个词语对应的发布者信息,得到每个词语发布者使用频数,并且将所述发布者使用频数作为发布者-词语边的权重;统计所述文本中每个词语对应的评论对象,得到每个词语的评论对象使用频数,并且将所述评论对象使用频数作为评论对象-词语边的权重;统计所述文本中每个词语出现在哪些词语的上下文中,得到每个词语的上下文出现频数,并且将所述上下文出现频数作为词语-词语边的权重;基于得到的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,构建基于主体间性的异质网络
所述表示学习模块202,还用于基于所述主体间性的异质网络中的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,优化预设的损失函数。
所述文本分类模块203,还用于采用旁路链接的方法,将所述发布者低维连续向量表示和所述评论对象低维连续向量表示链接到学习获得的文本表示结果中。
具体地,本实施例中,主要利用文本中的发布者信息、评论对象信息等建立基于主体间性的异质网络,在对词语进行连续低维向量表示的过程中,体现出语言主体—人的作用,结合词语的社交属性和评论习惯属性,以提高词向量表示学习的精准性。
具体地,结合图2所示,在建立基于主体间性的异质网络时,需要汇总文本中词语-词语关系、词语-标签关系、词语-发布者关系、词语-评论对象关系,具体构件过程如下:
首先统计文本中每个词语对应的发布者信息,即统计每个词语被哪些发布者使用过,得到每个词语发布者使用频数,并且将所述发布者使用频数作为发布者-词语边的权重;
统计所述文本中每个词语对应的评论对象,即统计每个词语被用于评论哪些对象,得到每个词语的评论对象使用频数,并且将所述评论对象使用频数作为评论对象-词语边的权重;
统计所述文本中每个词语出现在哪些词语的上下文中,得到每个词语的上下文出现频数,并且将所述上下文出现频数作为词语-词语边的权重;
最后,基于得到的各权重,构建基于主体间性的异质网络。
在构建基于主体间性的异质网络后,使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示。
具体地,基于所述主体间性的异质网络中的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,优化预设的损失函数,所述损失函数可以表示如下:
其中,wij表示节点i和节点j之间的边的权重,logp(vj|vi)为两个节点之间的条件概率,定义如下:
其中,ui表示节点i的低维连续向量表示,表示节点j的相邻节点的低维连续向量表示。
由此,通过对上述损失函数的优化,可以得到发布者低维连续向量表示和评论对象的低维连续向量表示。
最后,将学习获得的发布者低维连续向量表示和评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总。
本实施例中,采用旁路链接的方法,将所述发布者低维连续向量表示和所述评论对象连续向量表示链接到学习获得的文本表示结果中。
具体地,如图3所示,其处理方法如下:
首先,采用文本建模方式学习文本的低维连续向量表示;
然后,对学习获得的文本低维连续向量表示,顺序的接入发布者低维连续向量表示、评论对象的低维连续向量表示,得到对应的表示特征;
最后,将得到的对应的表示特征输入分类模型中,最终得到相应的词向量分类模型,由于利用了发布者信息和评论对象信息,给予了词向量更丰富的语义信息,使得基于此表示学习的结果,可以获得更加准确的文本分类结果。
本实施例通过上述方案,获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语的评论对象的低维连续向量表示;将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的词向量分类模型,该方案在对词语进行连续低维表示的过程中,综合考虑词语的社交属性以及词语的评论习惯属性,即考虑人在语言中所起的作用,利用了发布者信息和评论对象信息,给予了词向量更丰富的语义信息,从而提高了词向量表示学习的精准性,获得更加准确的文本分类结果。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种文本表示方法,其特征在于,包括:
步骤S10,获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;
步骤S20,使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语评论对象低维连续向量表示;其中,所述词语发布者低维连续向量表示的维度不高于300维度,所述词语评论对象低维连续向量表示的维度不高于300维度;
步骤S30,将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的文本分类模型。
2.根据权利要求1所述的文本表示方法,其特征在于,所述步骤S10包括:
步骤S101,统计所述文本中每个词语对应的发布者信息,得到每个词语发布者使用频数,并且将所述发布者使用频数作为发布者-词语边的权重;
步骤S102,统计所述文本中每个词语对应的评论对象,得到每个词语的评论对象使用频数,并且将所述评论对象使用频数作为评论对象-词语边的权重;
步骤S103,统计所述文本中每个词语出现在哪些词语的上下文中,得到每个词语的上下文出现频数,并且将所述上下文出现频数作为词语-词语边的权重;
步骤S104,基于得到的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,构建基于主体间性的异质网络。
3.根据权利要求1所述的文本表示方法,其特征在于,所述步骤S20包括:
步骤S201,基于所述主体间性的异质网络中的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,优化预设的损失函数,所述损失函数为:
O - - Σ ( i , j ) ∈ E w i j · log p ( v j | v i ) ;
其中,wij表示节点i和节点j之间的边的权重,logp(vj|vi)为两个节点之间的条件概率,定义如下:
p ( v j | v i ) = exp ( u j ′ T · u i ) Σ k = 1 | V | exp ( u k ′ T · u i ) ;
其中,ui表示节点i的低维连续向量表示,表示节点j的相邻节点的低维连续向量表示。
4.根据权利要求1-3中任一项所述的文本表示方法,其特征在于,所述步骤S30包括:
采用旁路链接的方法,将所述发布者低维连续向量表示和所述评论对象低维连续向量表示链接到学习获得的文本表示结果中。
5.根据权利要求4所述的文本表示方法,其特征在于,所述步骤S30包括:
步骤S301,采用文本建模方式学习文本的低维连续向量表示;
步骤S302,对学习获得的文本低维连续向量表示,顺序的接入所述发布者低维连续向量表示和所述评论对象低维连续向量表示,得到对应的表示特征;
步骤S303,将得到的对应的表示特征输入分类模型中,最终得到相应的文本分类模型。
6.一种文本表示系统,其特征在于,包括:
构建模块,用于获取文本中词语的相关属性,利用所述文本中词语的相关属性构建基于主体间性的异质网络,所述相关属性至少包括所述词语的社交属性和评论习惯属性;
表示学习模块,用于使用网络节点嵌入的学习算法对所述异质网络中不同属性的节点进行连续低维向量表示,得到词语发布者低维连续向量表示及词语的评论对象的低维连续向量表示;其中,所述词语发布者低维连续向量表示的维度不高于300维度,所述词语评论对象低维连续向量表示的维度不高于300维度;
文本分类模块,用于将所述发布者低维连续向量表示及评论对象的低维连续向量表示,应用于文本分类的具体任务并汇总,得到相应的文本分类模型。
7.根据权利要求6所述的文本表示系统,其特征在于,
所述构建模块,还用于统计所述文本中每个词语对应的发布者信息,得到每个词语发布者使用频数,并且将所述发布者使用频数作为发布者-词语边的权重;统计所述文本中每个词语对应的评论对象,得到每个词语的评论对象使用频数,并且将所述评论对象使用频数作为评论对象-词语边的权重;统计所述文本中每个词语出现在哪些词语的上下文中,得到每个词语的上下文出现频数,并且将所述上下文出现频数作为词语-词语边的权重;基于得到的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,构建基于主体间性的异质网络。
8.根据权利要求6所述的文本表示系统,其特征在于,
所述表示学习模块,还用于基于所述主体间性的异质网络中的发布者-词语边的权重、评论对象-词语边的权重及词语-词语边的权重,优化预设的损失函数,所述损失函数为:
O = - Σ ( i , j ) ∈ E w i j · log p ( v j | v i ) ;
其中,wij表示节点i和节点j之间的边的权重,logp(vj|vi)为两个节点之间的条件概率,定义如下:
p ( v j | v i ) = exp ( u j ′ T · u i ) Σ k = 1 | V | exp ( u k ′ T · u i ) ;
其中,ui表示节点i的低维连续向量表示,表示节点j的相邻节点的低维连续向量表示。
9.根据权利要求6-8任意一项所述的文本表示系统,其特征在于,
所述文本分类模块,还用于采用旁路链接的方法,将所述发布者低维连续向量表示和所述评论对象低维连续向量表示链接到学习获得的文本表示结果中。
10.根据权利要求9所述的文本表示系统,其特征在于,
所述文本分类模块,还用于采用文本建模方式学习文本的低维连续向量表示;对学习获得的文本低维连续向量表示,顺序的接入所述发布者低维连续向量表示和所述评论对象低维连续向量表示,得到对应的表示特征;将得到的对应的表示特征输入分类模型中,最终得到相应的文本分类模型。
CN201610907526.7A 2016-10-18 2016-10-18 文本表示方法及系统 Active CN106446264B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610907526.7A CN106446264B (zh) 2016-10-18 2016-10-18 文本表示方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610907526.7A CN106446264B (zh) 2016-10-18 2016-10-18 文本表示方法及系统

Publications (2)

Publication Number Publication Date
CN106446264A true CN106446264A (zh) 2017-02-22
CN106446264B CN106446264B (zh) 2019-08-27

Family

ID=58177124

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610907526.7A Active CN106446264B (zh) 2016-10-18 2016-10-18 文本表示方法及系统

Country Status (1)

Country Link
CN (1) CN106446264B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019043540A1 (en) * 2017-08-29 2019-03-07 International Business Machines Corporation LEARNING REPRESENTATION OF TEXT DATA BY INCORPORATION OF RANDOM DOCUMENTS
CN110796269A (zh) * 2019-09-30 2020-02-14 北京明略软件系统有限公司 一种生成模型的方法、装置、信息处理的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120072937A1 (en) * 2010-09-21 2012-03-22 Kddi Corporation Context-based automatic selection of factor for use in estimating characteristics of viewers viewing same content
CN103793489A (zh) * 2014-01-16 2014-05-14 西北工业大学 一种在线社交网络中社群话题的发现方法
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104462480A (zh) * 2014-12-18 2015-03-25 刘耀强 基于典型性的评论大数据挖掘方法
CN104778158A (zh) * 2015-03-04 2015-07-15 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN104951542A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 识别社交短文本类别的方法、分类模型训练方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120072937A1 (en) * 2010-09-21 2012-03-22 Kddi Corporation Context-based automatic selection of factor for use in estimating characteristics of viewers viewing same content
CN103793489A (zh) * 2014-01-16 2014-05-14 西北工业大学 一种在线社交网络中社群话题的发现方法
CN104239436A (zh) * 2014-08-27 2014-12-24 南京邮电大学 一种基于文本分类和聚类分析的网络热点事件发现方法
CN104462480A (zh) * 2014-12-18 2015-03-25 刘耀强 基于典型性的评论大数据挖掘方法
CN104778158A (zh) * 2015-03-04 2015-07-15 新浪网技术(中国)有限公司 一种文本表示方法及装置
CN104951542A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 识别社交短文本类别的方法、分类模型训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHENG-YING LIU 等: "IncreSTS: Towards Real-Time Incremental Short Text Summarization on Comment Streams from Social Network Services", 《IEEE》 *
焦刚 等: "一种基于文本分类的智能微博推荐方法", 《新聚焦》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019043540A1 (en) * 2017-08-29 2019-03-07 International Business Machines Corporation LEARNING REPRESENTATION OF TEXT DATA BY INCORPORATION OF RANDOM DOCUMENTS
GB2578711A (en) * 2017-08-29 2020-05-20 Ibm Text data representation learning using random document embedding
US11823013B2 (en) 2017-08-29 2023-11-21 International Business Machines Corporation Text data representation learning using random document embedding
CN110796269A (zh) * 2019-09-30 2020-02-14 北京明略软件系统有限公司 一种生成模型的方法、装置、信息处理的方法及装置
CN110796269B (zh) * 2019-09-30 2023-04-18 北京明略软件系统有限公司 一种生成模型的方法、装置、信息处理的方法及装置

Also Published As

Publication number Publication date
CN106446264B (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
CN109902171B (zh) 基于分层知识图谱注意力模型的文本关系抽取方法及系统
JP2021096812A (ja) セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体
CN103699525B (zh) 一种基于文本多维度特征自动生成摘要的方法和装置
Brewster et al. User-centred ontology learning for knowledge management
CN112417880A (zh) 一种面向法院电子卷宗的案情信息自动抽取方法
CN106294322A (zh) 一种基于lstm的汉语零指代消解方法
CN105955956A (zh) 一种汉语隐式篇章关系识别方法
CN104933027A (zh) 一种利用依存分析的开放式中文实体关系抽取方法
CN102955772B (zh) 一种基于语义的相似度计算方法和装置
CN109710769A (zh) 一种基于胶囊网络的水军评论检测系统及方法
Cho et al. Building information modeling (BIM)-Based design of energy efficient buildings
CN102915122B (zh) 基于语言模型的智能移动平台拼音输入法
CN103914445A (zh) 数据语义处理方法
CN104484380A (zh) 个性化搜索方法及装置
CN104850650A (zh) 基于类标关系的短文本扩充方法
CN106844348A (zh) 一种汉语句子功能成分分析方法
CN103020295A (zh) 一种问题标签标注方法及装置
CN105740310A (zh) 一种用于问答系统中的自动答案摘要方法及系统
CN110196963A (zh) 模型生成、语义识别的方法、系统、设备及存储介质
CN102682074A (zh) 一种基于流形学习的产品隐式属性识别方法
CN112364132A (zh) 基于依存句法的相似度计算模型和系统及搭建系统的方法
CN104933032A (zh) 一种基于复杂网络的博客关键词提取方法
CN106446264A (zh) 文本表示方法及系统
Zhao Research and design of automatic scoring algorithm for English composition based on machine learning
CN106250367B (zh) 基于改进的Nivre算法构建越南语依存树库的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant