CN110019787A - 神经网络模型生成方法、文本情感分析方法、及相关装置 - Google Patents

神经网络模型生成方法、文本情感分析方法、及相关装置 Download PDF

Info

Publication number
CN110019787A
CN110019787A CN201710917060.3A CN201710917060A CN110019787A CN 110019787 A CN110019787 A CN 110019787A CN 201710917060 A CN201710917060 A CN 201710917060A CN 110019787 A CN110019787 A CN 110019787A
Authority
CN
China
Prior art keywords
word cutting
term vector
corpus
word
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710917060.3A
Other languages
English (en)
Inventor
王天祎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201710917060.3A priority Critical patent/CN110019787A/zh
Publication of CN110019787A publication Critical patent/CN110019787A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/358Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种神经网络模型生成方法、文本情感分析方法、及相关装置。方法包括:利用至少两种词向量训练模型,获得针对同一切词的至少两种词向量表达;获取用于训练的文本语料,对文本语料中的每一个句子进行切词,获得针对每一个句子的切词序列,所述文本语料中的每一个句子带有情感类别的标签;对于任意的一个切词序列,获取切词序列中各个切词的至少两种词向量表达;获取所有切词序列中各个切词的至少两种词向量表达后,将所有的切词序列作为待训练样本集;对待训练样本集采用CNN算法进行训练,得到神经网络模型。本发明实现了将不同的词向量表达方式进行融合,同时采用CNN算法进行训练,使得情感分类的准确度更高。

Description

神经网络模型生成方法、文本情感分析方法、及相关装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于深度神经网络的神经网络模型生成方法、文本情感分析方法、及相关装置。
背景技术
文本情感分析是对带有感情色彩的主观性文本进行分析、处理、归纳和推理的过程,也是企业信息挖掘领域的常见任务之一。文本情感分析的结果表示着文本的倾向性,例如,如果文本情感分析的结果为正面,则表示文本为正面倾向的文本;如果文本情感分析的结果为中性,则表示文本为中性倾向的文本;如果文本情感分析的结果为负面,则表示文本为负面倾向的文本。
深度神经网络是用于实现文本情感分析的有效方法之一,其得益于底层的词向量表达,如Word2Vec或Glove。其中,每一种词向量表达方式都具有其各自的优势,如Word2vec能够更好地表达局部的序列信息,Glove则能够更好地表达语料全局的统计信息。
然而传统的神经网络模型在进行文本情感分析时,只能使用Word2vec或Glove中的一种作为神经网络模型底层的词向量表达。因此,如何将不同的词向量表达方式进行融合,以实现不同词向量表达方式的优势互补,从而达到更高的识别准确性,成为当前亟需解决的技术问题。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的神经网络模型生成方法、文本情感分析方法、及相关装置,技术方案如下:
一种神经网络模型生成方法,所述方法包括:
利用至少两种词向量训练模型,获得针对同一切词的至少两种词向量表达;
获取用于训练的文本语料,对所述文本语料中的每一个句子进行切词,获得针对每一个句子的切词序列,所述文本语料中的每一个句子带有情感类别的标签;
对于任意的一个切词序列,获取所述切词序列中各个切词的至少两种词向量表达;
获取所有切词序列中各个切词的至少两种词向量表达后,将所有的切词序列作为待训练样本集;
对所述待训练样本集采用卷积神经网络CNN算法进行训练,得到神经网络模型。
可选地,所述至少两种词向量训练模型包括Word2vec词向量训练模型和Glove词向量训练模型;所述利用至少两种词向量训练模型,获得针对同一切词的至少两种词向量表达包括:
对语料库进行预处理;
对于预处理后的语料库,利用所述Word2vec词向量训练模型进行训练,得到针对所述语料库中每一个切词的第一词向量表达;
对于预处理后的语料库,利用所述Glove词向量训练模型进行训练,得到针对所述语料库中每一个切词的第二词向量表达。
可选地,所述方法还包括:
对于所述语料库中的低频长尾词,利用所述Word2vec词向量训练模型训练时,将所述低频长尾词统一表示为第一预设词向量表达,利用所述Glove词向量训练模型训练时,将所述低频长尾词统一表示为第二预设词向量表达。
一种文本情感分析方法,所述方法包括:
确定待处理文本,对所述待处理文本中的每一个句子进行切词,获得针对每一个句子的切词序列;
获取每一个切词序列中各个切词的至少两种词向量表达,得到待测样本;
将所述待测样本作为神经网络模型的输入,依据所述神经网络模型的输出结果,确定所述待测样本的情感类别;其中所述神经网络模型为采用前文所述的神经网络模型生成方法得到。
一种神经网络模型生成装置,所述装置包括:
第一获取单元,用于利用至少两种词向量训练模型,获得针对同一切词的至少两种词向量表达;
文本语料获取单元,用于获取用于训练的文本语料;
文本语料处理单元,用于对所述文本语料中的每一个句子进行切词,获得针对每一个句子的切词序列,所述文本语料中的每一个句子带有情感类别的标签;
第二获取单元,用于对于任意的一个切词序列,获取所述切词序列中各个切词的至少两种词向量表达;
样本集确定单元,用于在所述第二获取单元获取所有切词序列中各个切词的至少两种词向量表达后,将所有的切词序列作为待训练样本集;
训练单元,用于对所述待训练样本集采用卷积神经网络CNN算法进行训练,得到神经网络模型。
可选地,所述至少两种词向量训练模型包括Word2vec词向量训练模型和Glove词向量训练模型;所述第一获取单元包括:
预处理子单元,用于对语料库进行预处理;
第一训练子单元,用于对于预处理后的语料库,利用所述Word2vec词向量训练模型进行训练,得到针对所述语料库中每一个切词的第一词向量表达;
第二训练子单元,用于对于预处理后的语料库,利用所述Glove词向量训练模型进行训练,得到针对所述语料库中每一个切词的第二词向量表达。
可选地,所述装置还包括:
低频长尾词处理单元,用于对于所述语料库中的低频长尾词,利用所述Word2vec词向量训练模型训练时,将所述低频长尾词统一表示为第一预设词向量表达,利用所述Glove词向量训练模型训练时,将所述低频长尾词统一表示为第二预设词向量表达。
一种文本情感分析装置,所述装置包括:
文本处理单元,用于确定待处理文本,对所述待处理文本中的每一个句子进行切词,获得针对每一个句子的切词序列;
待测样本确定单元,用于获取每一个切词序列中各个切词的至少两种词向量表达,得到待测样本;
模型训练单元,用于将所述待测样本作为神经网络模型的输入,依据所述神经网络模型的输出结果,确定所述待测样本的情感类别;其中所述神经网络模型为采用前文所述的神经网络模型生成方法得到。
一种存储介质,所述存储介质包括存储的程序,其中,所述程序执行前文所述的神经网络模型生成方法,和/或,所述程序执行前文所述的文本情感分析方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行前文所述的神经网络模型生成方法,和/或,所述程序执行前文所述的文本情感分析方法。
本发明提供的神经网络模型生成方法、文本情感分析方法、及相关装置中,待训练样本集中所有切词序列中各个切词都对应有至少两种词向量表达,对待训练样本集采用CNN算法进行训练得到的神经网络模型的底层包括有至少两种词向量表达,即本发明实现了将不同的词向量表达方式进行融合,能够兼顾不同词向量训练模型的优点,实现不同词向量表达方式的优势互补,同时采用CNN算法进行训练,使得情感分类的准确度更高,从而达到更高的识别准确性。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种神经网络模型生成方法的流程图;
图2示出了本发明实施例提供的一种文本情感分析方法的流程图;
图3示出了本发明实施例提供的一种神经网络模型生成装置的结构示意图;
图4示出了本发明实施例中第一获取单元的结构示意图;
图5示出了本发明实施例提供的一种文本情感分析装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供的一种神经网络模型生成方法,方法包括:
步骤101,利用至少两种词向量训练模型,获得针对同一切词的至少两种词向量表达。
为了便于说明,本发明以至少两种词向量训练模型包括Word2vec词向量训练模型和Glove词向量训练模型为例进行描述。可以理解的,Word2vec词向量训练模型和Glove词向量训练模型只是作为示例说明,而不作为对本发明实现方案的限制。
可选地,本发明实施例中步骤101可以采用如下步骤1011-步骤1013所示的方法实现。
步骤1011,对语料库进行预处理。
本发明实施例中的语料库包括行业语料库和通用语料库。其中,行业语料库指的是某一特定行业或领域内的文本库,例如汽车门户网站上的评论等;通用语料库指的是脱离行业个性化的文本库,如百度百科等。
对语料库进行预处理可以包括:繁体转换为简体、切词以及去停用词处理等。其中切词处理可以具体使用开源工具软件,如哈工大LTP对语料库中的每个句子进行切词。
步骤1012,对于预处理后的语料库,利用所述Word2vec词向量训练模型进行训练,得到针对所述语料库中每一个切词的第一词向量表达。
对于预处理后的语料库,利用Word2vec词向量训练模型进行训练,得到针对每一个切词的第一词向量表达。可选的,本发明可以将得到的每一个切词的第一词向量表达集合一起得到一针对Word2vec词向量训练模型的词向量集合WM1。
步骤1013,对于预处理后的语料库,利用所述Glove词向量训练模型进行训练,得到针对所述语料库中每一个切词的第二词向量表达。
对于预处理后的语料库,利用Glove词向量训练模型进行训练,得到针对每一个切词的第二词向量表达。可选的,本发明可以将得到的每一个切词的第二词向量表达集合一起得到一针对Glove词向量训练模型的词向量集合WM2。
在本发明实施例中,经过步骤1012和步骤1013的处理后,词向量集合WM1和词向量集合WM2中存储的词向量表达为将切词映射到一定维度空间内的词向量。假设词向量为100维,那么词向量集合WM1和词向量集合WM2中存储的针对每一个切词的词向量表达都是100维。
经过上述步骤1011-步骤1013的处理,针对每个切词,都对应有一个100维的第一词向量表达和一个100维的第二词向量表达。
在实际应用过程中,有些切词使用频率较低,例如对于一个100万字的语料库,切词A的使用次数仅仅不足10次,本申请将该类切词定义为低频长尾词。由于低频长尾词的不常用性,本发明可以将语料库中的低频长尾词,统一处理为用同一种词向量表达。具体的,利用Word2vec词向量训练模型训练时,将低频长尾词统一表示为第一预设词向量表达,利用Glove词向量训练模型训练时,将低频长尾词统一表示为第二预设词向量表达。
步骤102,获取用于训练的文本语料,对所述文本语料中的每一个句子进行切词,获得针对每一个句子的切词序列,所述文本语料中的每一个句子带有情感类别的标签。
具体地,本发明可以运用数据采集工具抓取用于训练的文本语料,并对文本语料进行情感类别标记,使得文本语料中的每一个句子带有情感类别的标签。
获得用于训练的带有情感类别的标签的文本语料后,可以使用开源工具软件,如哈工大LTP对文本语料中的每个句子进行切词,获得针对每个句子的切词序列。
步骤103,对于任意的一个切词序列,获取所述切词序列中各个切词的至少两种词向量表达。
对于任意一个切词序列,例如某个切词序列包括有20个切词,从词向量集合WM1和词向量集合WM2中,分别获得该20个切词分别对应在词向量集合WM1和词向量集合WM2中的词向量表达,即每一个切词都对应有两种词向量表达,包括两个100维的词向量。由此,针对每一个切词序列,其切词序列中每个切词的位置上都包括两个100维的词向量。
特别的,如果其中某个切词,如切词X,在词向量集合WM1和词向量集合WM2中都不存在,那么本申请对于该切词X使用预设的UNK(unknown keyword)词向量表达。具体地,针对Word2vec词向量训练模型,切词X表示为第一UNK词向量表达,针对Glove词向量训练模型,切词X表示为第二UNK词向量表达。
步骤104,获取所有切词序列中各个切词的至少两种词向量表达后,将所有的切词序列作为待训练样本集。
步骤105,对所述待训练样本集采用CNN(Convolutional Neural Network,卷积神经网络)算法进行训练,得到神经网络模型。
采用本发明实施例上述步骤101-步骤105所示方法得到的神经网络模型,包含了大量的外部词向量的序列信息和统计信息,其底层包括有多种词向量表达,使得神经网络模型表达了更丰富的语义。
因此,应用本发明提供的神经网络模型生成方法,因为待训练样本集中所有切词序列中各个切词都对应有至少两种词向量表达,对待训练样本集采用CNN算法进行训练得到的神经网络模型的底层包括有至少两种词向量表达,即本发明实现了将不同的词向量表达方式进行融合,能够兼顾不同词向量训练模型的优点,实现不同词向量表达方式的优势互补,同时采用CNN算法进行训练,使得情感分类的准确度更高,从而达到更高的识别准确性。
基于本发明前文实施例提供的一种神经网络模型生成方法,本发明还提供一种文本情感分析方法,该文本情感分析方法利用前文实施例生成的神经网络模型。如图2所示,本发明实施例提供的神经网络模型生成方法包括:
步骤201,确定待处理文本,对所述待处理文本中的每一个句子进行切词,获得针对每一个句子的切词序列。
可选的,本发明可以使用开源工具软件,如哈工大LTP对待处理文本中的每一个句子进行切词,获得针对每一个句子的切词序列。
步骤202,获取每一个切词序列中各个切词的至少两种词向量表达,得到待测样本。
仍以前述Word2vec词向量训练模型和Glove词向量训练模型为例,针对切词序列中的每个切词,本发明分别从词向量集合WM1中获取该切词的第一词向量表达,以及从词向量集合WM2中获取该切词的第二词向量表达,因此,切词序列中每个切词的位置上都包括两种词向量表达。
步骤203,将所述待测样本作为神经网络模型的输入,依据所述神经网络模型的输出结果,确定所述待测样本的情感类别。
在获取得到待测样本中,所有切词序列中各个切词的两种词向量表达后,得到待测样本,将该待测样本作为神经网络模型的输入,利用神经网络模型进行处理,并依据神经网络模型的输出结果,确定待测样本的情感类别。
因为本发明实施例中的神经网络模型为采用前述实施例提供的神经网络模型生成方法得到的,该神经网络模型的底层包括有至少两种词向量表达,包含了大量的外部词向量的序列信息和统计信息,保证了模型本身的识别准确性。同时,本发明在对待处理文本进行情感类别的判断过程中,其待处理文本的切词序列中,各个切词也都对应有至少两种词向量表达,进而在利用神经网络模型进行处理,更加保证了情感分类的准确度。
本发明还提供一种神经网络模型生成装置,如图3所示,包括:
第一获取单元10,用于利用至少两种词向量训练模型,获得针对同一切词的至少两种词向量表达;
文本语料获取单元20,用于获取用于训练的文本语料;
文本语料处理单元30,用于对所述文本语料中的每一个句子进行切词,获得针对每一个句子的切词序列,所述文本语料中的每一个句子带有情感类别的标签;
第二获取单元40,用于对于任意的一个切词序列,获取所述切词序列中各个切词的至少两种词向量表达;
样本集确定单元50,用于在所述第二获取单元40获取所有切词序列中各个切词的至少两种词向量表达后,将所有的切词序列作为待训练样本集;
训练单元60,用于对所述待训练样本集采用卷积神经网络CNN算法进行训练,得到神经网络模型。
可选的,所述至少两种词向量训练模型包括Word2vec词向量训练模型和Glove词向量训练模型;所述第一获取单元10可以包括,如图4所示:
预处理子单元11,用于对语料库进行预处理;
第一训练子单元12,用于对于预处理后的语料库,利用所述Word2vec词向量训练模型进行训练,得到针对所述语料库中每一个切词的第一词向量表达;
第二训练子单元13,用于对于预处理后的语料库,利用所述Glove词向量训练模型进行训练,得到针对所述语料库中每一个切词的第二词向量表达。
可选的,所述装置还可以包括:
低频长尾词处理单元,用于对于所述语料库中的低频长尾词,利用所述Word2vec词向量训练模型训练时,将所述低频长尾词统一表示为第一预设词向量表达,利用所述Glove词向量训练模型训练时,将所述低频长尾词统一表示为第二预设词向量表达。
本发明还提供一种文本情感分析装置,如图5所示,包括:
文本处理单元100,用于确定待处理文本,对所述待处理文本中的每一个句子进行切词,获得针对每一个句子的切词序列;
待测样本确定单元200,用于获取每一个切词序列中各个切词的至少两种词向量表达,得到待测样本;
模型训练单元300,用于将所述待测样本作为神经网络模型的输入,依据所述神经网络模型的输出结果,确定所述待测样本的情感类别;其中所述神经网络模型为采用前文实施例提供的神经网络模型生成方法得到。
所述神经网络模型生成装置包括第一处理器和第一存储器,上述第一获取单元、文本语料获取单元、文本语料处理单元、第二获取单元、样本集确定单元、训练单元、以及预处理子单元、第一训练子单元和第二训练子单元等均作为第一程序单元存储在第一存储器中,由第一处理器执行存储在第一存储器中的上述第一程序单元来实现相应的功能。
所述文本情感分析装置包括第二处理器和第二存储器,上述文本处理单元、待测样本确定单元和模型训练单元等均作为第二程序单元存储在第二存储器中,由第二处理器执行存储在第二存储器中的上述第二程序单元来实现相应的功能。
第一处理器和第二处理器中都包含内核,由内核去相应的第一存储器或第二存储器中调取相应的第一程序单元或第二程序单元。内核可以设置一个或以上,通过调整内核参数来实现将不同的词向量表达方式进行融合,实现不同词向量表达方式的优势互补,同时采用CNN算法进行训练,使得情感分类的准确度更高,从而达到更高的识别准确性。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述神经网络模型生成方法,和/或,文本情感分析方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述神经网络模型生成方法,和/或,文本情感分析方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
利用至少两种词向量训练模型,获得针对同一切词的至少两种词向量表达;
获取用于训练的文本语料,对所述文本语料中的每一个句子进行切词,获得针对每一个句子的切词序列,所述文本语料中的每一个句子带有情感类别的标签;
对于任意的一个切词序列,获取所述切词序列中各个切词的至少两种词向量表达;
获取所有切词序列中各个切词的至少两种词向量表达后,将所有的切词序列作为待训练样本集;
对所述待训练样本集采用卷积神经网络CNN算法进行训练,得到神经网络模型。
可选地,所述至少两种词向量训练模型包括Word2vec词向量训练模型和Glove词向量训练模型;所述利用至少两种词向量训练模型,获得针对同一切词的至少两种词向量表达包括:
对语料库进行预处理;
对于预处理后的语料库,利用所述Word2vec词向量训练模型进行训练,得到针对所述语料库中每一个切词的第一词向量表达;
对于预处理后的语料库,利用所述Glove词向量训练模型进行训练,得到针对所述语料库中每一个切词的第二词向量表达。
可选地,所述方法还包括:
对于所述语料库中的低频长尾词,利用所述Word2vec词向量训练模型训练时,将所述低频长尾词统一表示为第一预设词向量表达,利用所述Glove词向量训练模型训练时,将所述低频长尾词统一表示为第二预设词向量表达。
和/或,处理器执行程序时实现以下步骤:
确定待处理文本,对所述待处理文本中的每一个句子进行切词,获得针对每一个句子的切词序列;
获取每一个切词序列中各个切词的至少两种词向量表达,得到待测样本;
将所述待测样本作为神经网络模型的输入,依据所述神经网络模型的输出结果,确定所述待测样本的情感类别;其中所述神经网络模型为采用前文所述的神经网络模型生成方法得到。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
利用至少两种词向量训练模型,获得针对同一切词的至少两种词向量表达;
获取用于训练的文本语料,对所述文本语料中的每一个句子进行切词,获得针对每一个句子的切词序列,所述文本语料中的每一个句子带有情感类别的标签;
对于任意的一个切词序列,获取所述切词序列中各个切词的至少两种词向量表达;
获取所有切词序列中各个切词的至少两种词向量表达后,将所有的切词序列作为待训练样本集;
对所述待训练样本集采用卷积神经网络CNN算法进行训练,得到神经网络模型。
可选地,所述至少两种词向量训练模型包括Word2vec词向量训练模型和Glove词向量训练模型;所述利用至少两种词向量训练模型,获得针对同一切词的至少两种词向量表达包括:
对语料库进行预处理;
对于预处理后的语料库,利用所述Word2vec词向量训练模型进行训练,得到针对所述语料库中每一个切词的第一词向量表达;
对于预处理后的语料库,利用所述Glove词向量训练模型进行训练,得到针对所述语料库中每一个切词的第二词向量表达。
可选地,所述方法还包括:
对于所述语料库中的低频长尾词,利用所述Word2vec词向量训练模型训练时,将所述低频长尾词统一表示为第一预设词向量表达,利用所述Glove词向量训练模型训练时,将所述低频长尾词统一表示为第二预设词向量表达。
和/或,适于执行初始化有如下方法步骤的程序:
确定待处理文本,对所述待处理文本中的每一个句子进行切词,获得针对每一个句子的切词序列;
获取每一个切词序列中各个切词的至少两种词向量表达,得到待测样本;
将所述待测样本作为神经网络模型的输入,依据所述神经网络模型的输出结果,确定所述待测样本的情感类别;其中所述神经网络模型为采用前文所述的神经网络模型生成方法得到。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种神经网络模型生成方法,其特征在于,所述方法包括:
利用至少两种词向量训练模型,获得针对同一切词的至少两种词向量表达;
获取用于训练的文本语料,对所述文本语料中的每一个句子进行切词,获得针对每一个句子的切词序列,所述文本语料中的每一个句子带有情感类别的标签;
对于任意的一个切词序列,获取所述切词序列中各个切词的至少两种词向量表达;
获取所有切词序列中各个切词的至少两种词向量表达后,将所有的切词序列作为待训练样本集;
对所述待训练样本集采用卷积神经网络CNN算法进行训练,得到神经网络模型。
2.根据权利要求1所述的方法,其特征在于,所述至少两种词向量训练模型包括Word2vec词向量训练模型和Glove词向量训练模型;所述利用至少两种词向量训练模型,获得针对同一切词的至少两种词向量表达包括:
对语料库进行预处理;
对于预处理后的语料库,利用所述Word2vec词向量训练模型进行训练,得到针对所述语料库中每一个切词的第一词向量表达;
对于预处理后的语料库,利用所述Glove词向量训练模型进行训练,得到针对所述语料库中每一个切词的第二词向量表达。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对于所述语料库中的低频长尾词,利用所述Word2vec词向量训练模型训练时,将所述低频长尾词统一表示为第一预设词向量表达,利用所述Glove词向量训练模型训练时,将所述低频长尾词统一表示为第二预设词向量表达。
4.一种文本情感分析方法,其特征在于,所述方法包括:
确定待处理文本,对所述待处理文本中的每一个句子进行切词,获得针对每一个句子的切词序列;
获取每一个切词序列中各个切词的至少两种词向量表达,得到待测样本;
将所述待测样本作为神经网络模型的输入,依据所述神经网络模型的输出结果,确定所述待测样本的情感类别;其中所述神经网络模型为采用如上权利要求1-3任一项所述的神经网络模型生成方法得到。
5.一种神经网络模型生成装置,其特征在于,所述装置包括:
第一获取单元,用于利用至少两种词向量训练模型,获得针对同一切词的至少两种词向量表达;
文本语料获取单元,用于获取用于训练的文本语料;
文本语料处理单元,用于对所述文本语料中的每一个句子进行切词,获得针对每一个句子的切词序列,所述文本语料中的每一个句子带有情感类别的标签;
第二获取单元,用于对于任意的一个切词序列,获取所述切词序列中各个切词的至少两种词向量表达;
样本集确定单元,用于在所述第二获取单元获取所有切词序列中各个切词的至少两种词向量表达后,将所有的切词序列作为待训练样本集;
训练单元,用于对所述待训练样本集采用卷积神经网络CNN算法进行训练,得到神经网络模型。
6.根据权利要求5所述的装置,其特征在于,所述至少两种词向量训练模型包括Word2vec词向量训练模型和Glove词向量训练模型;所述第一获取单元包括:
预处理子单元,用于对语料库进行预处理;
第一训练子单元,用于对于预处理后的语料库,利用所述Word2vec词向量训练模型进行训练,得到针对所述语料库中每一个切词的第一词向量表达;
第二训练子单元,用于对于预处理后的语料库,利用所述Glove词向量训练模型进行训练,得到针对所述语料库中每一个切词的第二词向量表达。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
低频长尾词处理单元,用于对于所述语料库中的低频长尾词,利用所述Word2vec词向量训练模型训练时,将所述低频长尾词统一表示为第一预设词向量表达,利用所述Glove词向量训练模型训练时,将所述低频长尾词统一表示为第二预设词向量表达。
8.一种文本情感分析装置,其特征在于,所述装置包括:
文本处理单元,用于确定待处理文本,对所述待处理文本中的每一个句子进行切词,获得针对每一个句子的切词序列;
待测样本确定单元,用于获取每一个切词序列中各个切词的至少两种词向量表达,得到待测样本;
模型训练单元,用于将所述待测样本作为神经网络模型的输入,依据所述神经网络模型的输出结果,确定所述待测样本的情感类别;其中所述神经网络模型为采用如上权利要求1-3任一项所述的神经网络模型生成方法得到。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至3中任意一项所述的神经网络模型生成方法,和/或,所述程序执行权利要求4所述的文本情感分析方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至3中任意一项所述的神经网络模型生成方法,和/或,所述程序执行权利要求4所述的文本情感分析方法。
CN201710917060.3A 2017-09-30 2017-09-30 神经网络模型生成方法、文本情感分析方法、及相关装置 Pending CN110019787A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710917060.3A CN110019787A (zh) 2017-09-30 2017-09-30 神经网络模型生成方法、文本情感分析方法、及相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710917060.3A CN110019787A (zh) 2017-09-30 2017-09-30 神经网络模型生成方法、文本情感分析方法、及相关装置

Publications (1)

Publication Number Publication Date
CN110019787A true CN110019787A (zh) 2019-07-16

Family

ID=67186393

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710917060.3A Pending CN110019787A (zh) 2017-09-30 2017-09-30 神经网络模型生成方法、文本情感分析方法、及相关装置

Country Status (1)

Country Link
CN (1) CN110019787A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259674A (zh) * 2020-01-13 2020-06-09 济南浪潮高新科技投资发展有限公司 基于gan网络的文字校对和情感分析方法、设备及介质
CN111310464A (zh) * 2020-02-17 2020-06-19 北京明略软件系统有限公司 词向量获取模型生成方法、装置及词向量获取方法、装置
CN112507117A (zh) * 2020-12-16 2021-03-16 中国南方电网有限责任公司 一种基于深度学习的检修意见自动分类方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120023127A1 (en) * 2010-07-23 2012-01-26 Kirshenbaum Evan R Method and system for processing a uniform resource locator
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120023127A1 (en) * 2010-07-23 2012-01-26 Kirshenbaum Evan R Method and system for processing a uniform resource locator
CN107066553A (zh) * 2017-03-24 2017-08-18 北京工业大学 一种基于卷积神经网络与随机森林的短文本分类方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259674A (zh) * 2020-01-13 2020-06-09 济南浪潮高新科技投资发展有限公司 基于gan网络的文字校对和情感分析方法、设备及介质
CN111259674B (zh) * 2020-01-13 2023-07-25 山东浪潮科学研究院有限公司 基于gan网络的文字校对和情感分析方法、设备及介质
CN111310464A (zh) * 2020-02-17 2020-06-19 北京明略软件系统有限公司 词向量获取模型生成方法、装置及词向量获取方法、装置
CN111310464B (zh) * 2020-02-17 2024-02-02 北京明略软件系统有限公司 词向量获取模型生成方法、装置及词向量获取方法、装置
CN112507117A (zh) * 2020-12-16 2021-03-16 中国南方电网有限责任公司 一种基于深度学习的检修意见自动分类方法及系统
CN112507117B (zh) * 2020-12-16 2024-02-13 中国南方电网有限责任公司 一种基于深度学习的检修意见自动分类方法及系统

Similar Documents

Publication Publication Date Title
US11899800B2 (en) Open source vulnerability prediction with machine learning ensemble
US10032114B2 (en) Predicting application performance on hardware accelerators
CN110019668A (zh) 一种文本检索方法及装置
EP3726442A1 (en) Semantic modeling and machine learning-based generation of conceptual plans for manufacturing assemblies
CN109918296B (zh) 软件自动化测试方法及装置
CN110019787A (zh) 神经网络模型生成方法、文本情感分析方法、及相关装置
CN109582948A (zh) 评价观点抽取的方法及装置
CN107942956A (zh) 信息处理装置、信息处理方法、信息处理程序及记录介质
CN108717547A (zh) 样本数据生成方法及装置、训练模型的方法及装置
CN110019784B (zh) 一种文本分类方法及装置
CN109597982A (zh) 摘要文本识别方法及装置
Narteni et al. From explainable to reliable artificial intelligence
Bernedixen Automated bottleneck analysis of production systems: increasing the applicability of simulation-based multi-objective optimization for bottleneck analysis within industry
Lewowski et al. Creating evolving project data sets in software engineering
CN108255891B (zh) 一种判别网页类型的方法及装置
Alizadehsani et al. Modern integrated development environment (ides)
CN104331507A (zh) 机器数据类别自动发现和分类的方法及装置
CN110019665A (zh) 文本检索方法及装置
CN110019831B (zh) 一种产品属性的分析方法和装置
Azevedo et al. The digital twin as a knowledge-based engineering enabler for product development
Anupama Kumar et al. Computational intelligence for data analytics
CN111078574A (zh) 生成影响分析报告的方法及装置
CN104462360A (zh) 一种为文本集合生成语义标识的方法和装置
CN118260596A (zh) 一种基于奖励模型的预训练方法及设备
Vorkel et al. GPU-accelerating ImageJ Macro image processing workflows using CLIJ

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716

RJ01 Rejection of invention patent application after publication