CN109299272B - 一种用于神经网络输入的大信息量文本表示方法 - Google Patents

一种用于神经网络输入的大信息量文本表示方法 Download PDF

Info

Publication number
CN109299272B
CN109299272B CN201811283253.9A CN201811283253A CN109299272B CN 109299272 B CN109299272 B CN 109299272B CN 201811283253 A CN201811283253 A CN 201811283253A CN 109299272 B CN109299272 B CN 109299272B
Authority
CN
China
Prior art keywords
vector
keywords
sentence
text
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811283253.9A
Other languages
English (en)
Other versions
CN109299272A (zh
Inventor
兰云飞
陈钟
李青山
吴振豪
杨可静
高健博
王晓青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Guoxin Cloud Service Co ltd
Peking University
Original Assignee
Beijing Guoxin Cloud Service Co ltd
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Guoxin Cloud Service Co ltd, Peking University filed Critical Beijing Guoxin Cloud Service Co ltd
Priority to CN201811283253.9A priority Critical patent/CN109299272B/zh
Publication of CN109299272A publication Critical patent/CN109299272A/zh
Application granted granted Critical
Publication of CN109299272B publication Critical patent/CN109299272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种用于神经网络输入的大信息量文本表示方法,涉及信息技术领域。该方法首先确定文本所在分类体系下的分类标准,并获得该标准下的关键词;然后通过语义向量模型将每个关键词转化为语义向量,根据该分类体系的关键词字典,获取每个关键词的类别向量,并将二者合并,得到一个词向量;根据不同关键词对同一实体的重要程度,选择前k个重要的关键词,并将其对应的词向量合并,得到每句话对应的句子向量;将句子向量输入到训练好的神经网络模型中,输出模型对该文本的分类结果。本发明提供的大信息量文本表示方法,增加了神经网络输入信息的信息表示能力的同时,能够减少神经网络的复杂性,增加神经网络的可表示性,还可以增加训练速度。

Description

一种用于神经网络输入的大信息量文本表示方法
技术领域
本发明涉及信息技术领域,尤其涉及一种用于神经网络输入的大信息量文本表示方法。
背景技术
随着互联网的飞速发展,网络越来越成为人们生活中不可缺少的一部分,据第41次《中国互联网发展状况统计报告》显示,截至2017年12月,我国网民规模达7.72亿,互联网普及率为55.8%,手机网民规模达7.53亿。与此同时,各种门户网站和媒体平台的大量涌现,民众参与网络互动的积极性和参与性空前高涨,民众在网络上发表意见已成为一种日常习惯,由此产生了大量的信息。随着文本数据的快速迅猛增加,传统的信息检索技术已无法满足实际需要,如何在纷繁芜杂的信息海洋中找到有用的信息,充分发挥数据的价值,文本分类在数据挖掘中扮演着重要的角色。
传统的文本分类研究主要围绕人工分类和机器学习算法展开,人工分类太耗费人力,物力和时间,无法有效处理大量的文本数据,同时难以形成一个统一的标准。而基于机器学习的分类方法通常依靠人工抽取文本特征,人工选择特征耗时耗力并且难以保证质量,同时机器学习文本分类模型基于分类服从某种概率分布的假设,但如果假设不成立则会影响分类的准确性。
随着深度学习的流行,用深度学习的方法处理文本问题已在国内外广泛展开,并取得了一些突破性成果,同时对于传统文本分类所存在的问题,在一定程度上可以利用深度学习得到解决。然而深度学习也面临着一些挑战,最有难度的障碍之一就是训练模型所需的时间仍然太长,大量数据的处理需求对深度学习模型训练提出了更高的要求,过长的训练时间会严重降低深度学习部署的速度。因而降低模型训练的时间依旧是一个重大的挑战。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种用于神经网络输入的文本富信息表示方法,加速神经网络模型收敛速度,降低训练时间。
为解决上述技术问题,本发明所采取的技术方案是:一种用于神经网络输入的大信息量文本表示方法,包括以下步骤:
步骤1、根据文本的分类任务,确定分类标准,针对特定主体,获取文本中关于特定主体在该分类任务下的的关键词,同时将获取的关键词及其重要程度记录到数据库中;
步骤2、使用Word2Vec和大量的语料库,构建能够将文本转换为向量且能表示语义信息的语义向量模型;并将步骤1获取的每个关键词通过语义向量模型转换为一个多维的语义向量,其包含关键词的语义信息;
步骤3、根据该分类任务的关键词数据库,获取每个关键词的类别极性,并将其映射为向量形式,即对应一个类别向量;
步骤4、每个关键词对应一个语义向量和一个类别向量,将二者合并,得到一个词向量,该词向量内部的元素为语义向量和类别向量两类向量元素集合的并集;
步骤5、根据不同关键词对同一实体的重要程度不同进行排序,选择重要程度靠前的k个关键词,将这k个关键词对应的词向量合并,得到每句话对应的句子向量;
为了使模型拥有统一的结构,每个句子抽取的关键词数量相同,即每个句子抽取k个关键词;当句子中关键词的个数大于k时,按照重要性,选择最关键的前k个词语;当句子中关键词的个数小于k时,则增加一定数量的空词语,使得关键词的个数为k;每个空词语对应的词向量为零向量,其维度与其他关键词的词向量维度一致;
步骤6、将利用步骤1-5处理后得到的句子向量输入到训练好的神经网络模型中,输出模型对该文本的分类结果;
为了记住文本中每个句子的内容,所述神经网络模型采用LSTM模型对文本数据进行情感。
采用上述技术方案所产生的有益效果在于:本发明提供的一种用于神经网络输入的大信息量文本表示方法,在语义向量的基础上,增加了词语的类别向量维度,结合已有的知识库内容,具有更好的说服力;所增加词语的类别向量维度,能够促使模型训练时更快地收敛,缩短模型的训练时间;同时,每个句子的句子向量由其所包含的关键词对应的词向量合并而来,去除了其他噪声信息,仅包含所需要的信息;输入为句子层级的向量,通过对每句话中内容进行分析,最后得到整个文本的分类类别,这增加了神经网络输入信息的信息表示能力的同时,能够减少神经网络的复杂性,增加神经网络的可表示性,还可以增加训练速度。
附图说明
图1为本发明实施例提供的一种用于神经网络输入的大信息量文本表示方法的流程图;
图2为本发明实施例提供的深度学习模型输入方式的结构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
一种用于神经网络输入的大信息量文本表示方法,如图1所示,包括以下步骤:
步骤1、根据文本的分类任务,确定分类标准,针对特定主体,获取文本中关于特定主体在该分类任务下的的关键词,同时将获取的关键词及其重要程度记录到数据库中;
对于需要进行分类的分类任务,确定分类的标准,并抽取能在该分类任务中起关键作用的关键词。
不同的分类任务有各自有不同的分类标准,对于任何一个分类任务,首先需要确定分类的标准,同时,需要有一个与此分类任务密切相关的外部数据库,数据库里面记录了适用于此分类任务的关键词和每个关键词的重要程度;文本中的关键词应该是能够明显反映文本句子所属类别信息的词语。
同时,关键词在文本中不仅仅局限于简单的名词,它还可以是动词、形容词等。例如在判断文本是音乐或体育信息时,“吉他”、“足球”、“钢琴”等名词可以很容易帮助文本进行分类,而“唱歌”、“踢球”等动词也是辅助文本分类的关键信息。
步骤2、使用Word2Vec和大量的语料库,构建能够将文本转换为向量且能表示语义信息的语义向量模型;并将步骤1获取的每个关键词通过语义向量模型转换为一个多维的语义向量,其包含关键词的语义信息;
计算机无法直接对词语进行分析,需要将文本的关键词转换为向量形式,以便计算机进行计算,同时将词语之间的语义相似映射为向量在空间中的相似,由此,对文本的分析可以看作对向量在空间中的运算。语义向量模型不仅可以把文本转换为向量,而且向量之间有紧密的联系,相似含义的文本在向量空间中的夹角也很小,以此表示文本的语义信息;利用Wrod2Vec模型,输入大量的语料库,经由不断训练,得到语义向量模型。自此,可以通过该模型得到词语对应的语义向量。
步骤3、根据该分类任务的关键词数据库,获取每个关键词的类别极性,并将其映射为向量形式,即对应一个类别向量;
使用步骤1中记录的数据库与该分类任务的关键词数据库进行匹配,可以得到每个词语的类别极性;每个关键词对应一个类别向量,该向量是一个多维向量,采用one-hot表示方式,向量每个分量对应分类类别的每一项。
步骤4、每个关键词对应一个语义向量和一个类别向量,将二者合并,得到一个词向量,该词向量内部的元素为语义向量和类别向量两类向量元素集合的并集;
对于一个关键词w,在步骤2中可以得到一个语义向量a,在步骤3中可以得到一个类别向量b,其中,a向量是一个多维向量,b向量在步骤3中得到,同样是一个多维向量,其维数与分类类别数一致,这样将向量a与向量b合并后,可以得到关键词w对应的词向量c。例如当向量a为一个200维向量时,向量b是一个3维向量时,向量c的维度为203。
步骤5、根据不同关键词对同一实体的重要程度不同进行排序,选择重要程度靠前的k个关键词,将这k个关键词对应的词向量合并,得到每句话对应的句子向量;
对于一个特定主体,每个句子对于该主体拥有多个关键词,每个关键词对应一个词向量,将这些关键词对应的词向量合并后,得到句子对应的向量s;为了使模型拥有统一的结构,每个句子抽取的关键词数量相同,即每个句子抽取k个关键词;当句子中关键词的个数大于k时,应当按照重要性,选择最关键的前k个词语;当句子中关键词的个数小于k时,则应该增加一定数量的空词语,使得关键词的个数为k;每个空词语对应的词向量为零向量,其维度与其他关键词的词向量维度一致。
步骤6、将如图2所示的利用步骤1-5处理后得到的句子向量输入到训练好的神经网络模型中,输出模型对该文本的分类结果。
为了记住文本中每个句子的内容,可以采用LSTM模型对文本数据进行情感分析,它能很好地实现信息的持久化,在情感分析领域有着大量的应用。但LSTM模型运行慢,计算维度高,训练模型耗时长,采用本发明的类别维度向量可以加速模型收敛,缩短训练深度学习模型所需的时间。LSTM模型的每一个记忆时序步长都可以接收一个句子向量,并在最后输出模型判断结果。
本实施例以以下一段话为待分类文本,来说明一个未分类的文本得到分类结果的具体方法:
待分类文本:“近日,歌手张三演唱的歌曲《XX》正式发行上线,化身深情王子,该专辑一经发布便赢得无数粉丝的赞赏和好评。歌手张三他有独特的嗓音,清脆的声音获大批粉丝青睐。”
分类任务:音乐、体育
首先,对待分类文本进行步骤1的操作,提取文本中关于分类任务“音乐、体育”的关键词,这里每个句子提取三个关键词,第一句话的关键词为“演唱、专辑、发布”,第二个句子的关键词为“嗓音、清脆、声音”。自此,得到待分类文本实例的关键词。
对于每个关键词,根据预先构建的语义向量模型,得到每个关键词的语义向量,例如第一个关键词“演唱”输入到语义向量模型中,得到一个200维的语义向量。
在步骤3中,对于每个关键词,对应一个类别向量,对于第一个关键词“演唱”,其在关键词典中的类别极性偏向于音乐,则其对应的类别向量为[1,0]。
在步骤4中,需要将每个关键词对应的语义向量和类别向量合并,得到词向量,对于关键词“演唱”,其对应的语义向量维数为200,类别向量是一个2维向量,合并之后的词向量维数为202。
在步骤5中,每个句子对应的句子向量由其包括的关键词的词向量合并得到,对于本实施例中待分类的文本,第一个句子包括三个关键词,每个关键词对应的词向量维度为202,则第一个句子对应的句子向量的维度为606。
最后,得到文本中每个句子的句子向量后,输入到训练得到的LSTM模型中,得到分类结果为“音乐”。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (3)

1.一种用于神经网络输入的大信息量文本表示方法,其特征在于:包括以下步骤:
步骤1、根据文本的分类任务,确定分类标准,针对特定主体,获取文本中关于特定主体在该分类任务下的关键词,同时将获取的关键词及其重要程度记录到数据库中;
步骤2、使用Word2Vec和大量的语料库,构建能够将文本转换为向量且能表示语义信息的语义向量模型;并将步骤1获取的每个关键词通过语义向量模型转换为一个多维的语义向量,其包含关键词的语义信息;
步骤3、根据该分类任务的关键词数据库,获取每个关键词的类别极性,并将其映射为向量形式,即对应一个类别向量;
步骤4、每个关键词对应一个语义向量和一个类别向量,将二者合并,得到一个词向量,该词向量内部的元素为语义向量和类别向量两类向量元素集合的并集;
步骤5、根据不同关键词对同一实体的重要程度不同进行排序,选择重要程度靠前的k个关键词,将这k个关键词对应的词向量合并,得到每句话对应的句子向量;
步骤6、将利用步骤1-5处理后得到的句子向量输入到训练好的神经网络模型中,输出模型对该文本的分类结果。
2.根据权利要求1所述的一种用于神经网络输入的大信息量文本表示方法,其特征在于:所述步骤5还包括:为了使模型拥有统一的结构,每个句子抽取的关键词数量相同,即每个句子抽取k个关键词;当句子中关键词的个数大于k时,按照重要性,选择最关键的前k个词语;当句子中关键词的个数小于k时,则增加一定数量的空词语,使得关键词的个数为k;每个空词语对应的词向量为零向量,其维度与其他关键词的词向量维度一致。
3.根据权利要求1所述的一种用于神经网络输入的大信息量文本表示方法,其特征在于:步骤6所述神经网络模型采用LSTM模型。
CN201811283253.9A 2018-10-31 2018-10-31 一种用于神经网络输入的大信息量文本表示方法 Active CN109299272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811283253.9A CN109299272B (zh) 2018-10-31 2018-10-31 一种用于神经网络输入的大信息量文本表示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811283253.9A CN109299272B (zh) 2018-10-31 2018-10-31 一种用于神经网络输入的大信息量文本表示方法

Publications (2)

Publication Number Publication Date
CN109299272A CN109299272A (zh) 2019-02-01
CN109299272B true CN109299272B (zh) 2021-07-30

Family

ID=65145285

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811283253.9A Active CN109299272B (zh) 2018-10-31 2018-10-31 一种用于神经网络输入的大信息量文本表示方法

Country Status (1)

Country Link
CN (1) CN109299272B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110008342A (zh) * 2019-04-12 2019-07-12 智慧芽信息科技(苏州)有限公司 文献分类方法、装置、设备及存储介质
CN111694961A (zh) * 2020-06-23 2020-09-22 上海观安信息技术股份有限公司 一种用于敏感数据泄露检测的关键词语义分类方法与系统
CN112560499B (zh) * 2020-12-11 2024-01-09 北京百度网讯科技有限公司 语义表示模型的预训练方法、装置、电子设备及存储介质
CN114218393A (zh) * 2022-02-22 2022-03-22 北京新唐思创教育科技有限公司 数据分类方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN106844301A (zh) * 2017-02-22 2017-06-13 山西大学 一种基于二元和三元共词潜在语义信息的文献表示方法
CN107491554A (zh) * 2017-09-01 2017-12-19 北京神州泰岳软件股份有限公司 文本分类器的构建方法、构建装置及文本分类方法
CN108255805A (zh) * 2017-12-13 2018-07-06 讯飞智元信息科技有限公司 舆情分析方法及装置、存储介质、电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120253792A1 (en) * 2011-03-30 2012-10-04 Nec Laboratories America, Inc. Sentiment Classification Based on Supervised Latent N-Gram Analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834747A (zh) * 2015-05-25 2015-08-12 中国科学院自动化研究所 基于卷积神经网络的短文本分类方法
CN106844301A (zh) * 2017-02-22 2017-06-13 山西大学 一种基于二元和三元共词潜在语义信息的文献表示方法
CN107491554A (zh) * 2017-09-01 2017-12-19 北京神州泰岳软件股份有限公司 文本分类器的构建方法、构建装置及文本分类方法
CN108255805A (zh) * 2017-12-13 2018-07-06 讯飞智元信息科技有限公司 舆情分析方法及装置、存储介质、电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于关键词的文本向量化与分类算法研究";苏玉龙等;《贵州大学学报(自然科学版)》;20180630;全文 *

Also Published As

Publication number Publication date
CN109299272A (zh) 2019-02-01

Similar Documents

Publication Publication Date Title
CN109299272B (zh) 一种用于神经网络输入的大信息量文本表示方法
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
CN111460213B (zh) 一种基于多模态学习的音乐情感分类方法
CN107193801A (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN103268339A (zh) 微博消息中命名实体识别方法及系统
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN101599071A (zh) 对话文本主题的自动提取方法
JP2003036093A (ja) 音声入力検索システム
JP2012027845A (ja) 情報処理装置、関連文提供方法、及びプログラム
CN112989802B (zh) 一种弹幕关键词提取方法、装置、设备及介质
CN109508441B (zh) 通过自然语言实现数据统计分析的方法、装置及电子设备
Kaushik et al. Automatic sentiment detection in naturalistic audio
KR101410601B1 (ko) 유머 발화를 이용하는 음성 대화 시스템 및 그 방법
Hyung et al. Utilizing context-relevant keywords extracted from a large collection of user-generated documents for music discovery
Pérez-Rosas et al. Sentiment analysis of online spoken reviews.
CN115422947A (zh) 一种基于深度学习的古诗词配乐方法及系统
Aksan et al. Linguistic corpora: A view from Turkish
CN103336803B (zh) 一种嵌名春联的计算机生成方法
Dumitrescu et al. Crowd-sourced, automatic speech-corpora collection–Building the Romanian Anonymous Speech Corpus
Gao et al. Chinese micro-blog sentiment analysis based on semantic features and PAD model
CN110069632B (zh) 一种集成浅层语义表示向量的深度学习文本分类方法
Swamy et al. Nit-agartala-nlp-team at semeval-2020 task 8: Building multimodal classifiers to tackle internet humor
Kong et al. Construction of microblog-specific chinese sentiment lexicon based on representation learning
CN109298796B (zh) 一种词联想方法及装置
Wu et al. Research on song sentiment binary classification based on Chinese lyrics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant