CN108197109B - 一种基于自然语言处理的多语言分析方法和装置 - Google Patents
一种基于自然语言处理的多语言分析方法和装置 Download PDFInfo
- Publication number
- CN108197109B CN108197109B CN201711488119.8A CN201711488119A CN108197109B CN 108197109 B CN108197109 B CN 108197109B CN 201711488119 A CN201711488119 A CN 201711488119A CN 108197109 B CN108197109 B CN 108197109B
- Authority
- CN
- China
- Prior art keywords
- word
- natural sentence
- text information
- sentence text
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Probability & Statistics with Applications (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
一种基于自然语言处理的多语言分析方法和装置,包括:通过语种检测训练模型选择输入自然语句文本信息语言种类;通过训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息,并对得到的词嵌入表达信息通过TF‑IDF方式提取得到关键词;根据关键词和关键词权重计算得到文章向量和每个预设类目的类目向量,计算自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果;将自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型,并通过计算得到最终的情感倾向值。本发明解决了传统多语言分析方法需要了解相关语言学的领域知识且需要大量人工操作的问题。
Description
技术领域
本申请涉及数据挖掘、机器学习、人工智能及面向多语言文本分析技术应用技术领域,特别涉及一种基于自然语言处理的多语言分析方法和装置。
背景技术
随着互联网信息的蓬勃发展,需要对互联网信息中各种语言进行处理。自然语言处理(NLP)是计算机科学、人工智能、语言学所关注的计算机和人类(自然)语言之间相互作用的领域,是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理研究范畴涵盖能够实现人与计算机之间用自然语言进行有效通信的各种理论和方法,涉及到的领域包括自然语义理解、检索、信息抽取、机器翻译和自动问答系统等。
传统的多语言分析方法主要基于语言学相关知识来完成对应的语言领域的文本分析任务,需要了解相关语言学的领域知识,而且需要大量人工操作,存在领域单一、难以对多语言场景进行快速适应等问题。
由此可见,当前需要一种基于自然语言处理的多语言分析的技术方案,解决传统的多语言分析方法需要了解相关语言学的领域知识,而且需要大量人工操作,存在领域单一、难以对多语言场景进行快速适应的问题。
发明内容
本申请实施例提供一种基于自然语言处理的多语言分析方法及装置,以解决传统的多语言分析方法需要了解相关语言学的领域知识,而且需要大量人工操作,存在领域单一、难以对多语言场景进行快速适应的技术问题。
本发明提供了一种基于自然语言处理的多语言分析方法,包括:
通过基于多项式的朴素贝叶斯分类器方式,对收集不同语言的多种类型的训练数据生成语种检测训练模型后,通过生成的语种检测训练模型计算输入的一自然语句文本信息在每个语言分类的后验概率值,并选择后验概率值最大的语言分类作为输入的该自然语句文本信息的语言种类;
对所述自然语句文本信息通过词向量方式训练得到词向量模型后,将所述自然语句文本信息通过分词和预处理操作得当的结果,输入训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息,并对得到的词嵌入表达信息通过词频-逆文档频率TF-IDF方式提取得到所述自然语句文本信息的词嵌入表达信息中关键词;
根据提取得到的所述自然语句文本信息的词嵌入表达信息中关键词,和通过TF-IDF方式计算得到每个关键词的权重,计算得到所述自然语句文本信息的文章向量后,根据得到的所述自然语句文本信息的文章向量和每个预设类目的类目向量,计算所述自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果;
将所述自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型,并通过计算得到最终的情感倾向值。
进一步地,上述方法还可包括:
所述通过基于多项式的朴素贝叶斯分类器方式,对收集不同语言的多种类型的训练数据生成语种检测训练模型后,通过生成的语种检测训练模型计算输入的一自然语句文本信息在每个语言分类的后验概率值,并选择后验概率值最大的语言分类作为输入的该自然语句文本信息的语言种类的步骤,包括:
通过基于多项式的朴素贝叶斯分类器方式,收集不同语言的多种类型的数据作为训练数据,对训练数据做语种的标注,开始准备训练模型;
对于一个包含n个特征的文档D,计算该文档D属于闭集C中的某一个分类Ci的概率,i指的是语言分类数且i>0,
根据下述公式计算,得到文档D对于每个分类的后验概率,选择概率最大的那个作为目标文档D的语言种类;
进一步地,上述方法还可包括:
所述对所述自然语句文本信息通过词向量方式训练得到词向量模型后,将所述自然语句文本信息通过分词和预处理操作得当的结果,输入训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息的步骤,包括:
通过所述自然语句文本信息中核心词语预测该核心词语周围的词的方式,训练得到词向量模型后,将所述自然语句文本信息通过分词和预处理操作得到的结果,输入训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息。
进一步地,上述方法还可包括:对得到所述自然语句文本信息的词嵌入表达信息中关键词通过计算共现指数方式进行关键词语合并,生成关键短语。
进一步地,上述方法还可包括:所述对得到所述自然语句文本信息的词嵌入表达信息中关键词通过计算共现指数方式进行关键词语合并,生成关键短语的步骤,包括:
根据以下公式,进行关键词语合并;
(cnt(a,b)-min_count)*N/(cnt(a)*cnt(b))>threshold;
判断若公式左边的计算结果score大于预设阈值threshold,则将词语a和词语b合并,
或者判断若公式左边的计算结果score小于预设阈值threshold,则词语a与词语b不会合并成短语;
其中,a代表词语a;b代表词语b;cnt(a,b)为词语a,b共现的频率;min_count为最小共现频率,即当cnt(a,b)大于min_count值才有合并几率;N:为辞典总词数;cnt(a)为词语a出现频数;cnt(b)为词语b出现的频数;threshold为预设阈值。
进一步地,上述方法还可包括:所述对得到的词嵌入表达信息通过TF-IDF方式提取得到所述自然语句文本信息的词嵌入表达信息中关键词的步骤,包括:
通过以下计算公式得到IDF值,
其中IDF值表示逆文档频率,TF值表示词频,W表示一个词语;
将计算得到的词嵌入表达信息的TF-IDF值与词性权重的乘积后排序,取前面N个词作为关键词,N>0。
进一步地,上述方法还可包括:所述计算所述自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果的步骤,包括:
计算所述自然语句文本信息的文章与每个预设类目的相似度后,将计算得到的文章和每个预设类目的相似度,按降序排列选取相应预设类目作为所述自然语句文本信息的文本分类结果。
进一步地,上述方法还可包括:所述根据提取得到的所述自然语句文本信息的词嵌入表达信息中关键词,和通过TF-IDF方式计算得到每个关键词的权重,计算得到所述自然语句文本信息的文章向量后,根据得到的所述自然语句文本信息的文章向量和每个预设类目的类目向量,计算所述自然语句文本信息的文章与每个预设类目的相似度的步骤,包括:
设定文章T的关键词列表是word1,word2,...,wordN,对应权重分别为w1,w2,...,wN,对应词向量分别为vec(word1),vec(word2),...,vec(wordN),那么文章向量计算公式如下所示:
根据预设类目的内容,对于其中每个预设类目,根据指定描述词得到每个预设类目的类目向量;
根据得到的文章向量和类目向量后,通过以下计算公式计算文章和每个类目的相似度:
设定文章为T,类目C有两个描述词w1,w2,判断若关系是“与”,表示为
C=w1&w2,则相似度为:
Sim(T,C)=min(|cos(vec(T),vec(w1))|,|cos(vec(T),vec(w2))|);
设定文章为T,类目C有两个描述词w1,w2,判断若关系是“或”,表示为
C=w1|w2,则相似度为:
Sim(T,C)=max(|cos(vec(T),vec(w1))|,|cos(vec(T),vec(w2))|)。
进一步地,上述方法还可包括:所述将所述自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型,并通过计算得到最终的情感倾向值的步骤,包括:
将所述自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型;
将通过卷积神经网络提取的特征向量和通过双向门循环单元提取的特征向量进行拼接,得到新的向量,并对得到的新的向量通过一次线性变换方式得到的结果进行S型生长曲线函数方式的非线性变换,得到最终的情感倾向值。
本发明还提供了一种基于自然语言处理的多语言分析装置,包括:
判断语言种类模块,用于通过基于多项式的朴素贝叶斯分类器方式,对收集不同语言的多种类型的训练数据生成语种检测训练模型后,通过生成的语种检测训练模型计算输入的一自然语句文本信息在每个语言分类的后验概率值,并选择后验概率值最大的语言分类作为输入的该自然语句文本信息的语言种类;
词嵌入表达信息获取模块,用于对所述自然语句文本信息通过词向量方式训练得到词向量模型后,将所述自然语句文本信息通过分词和预处理操作得当的结果,输入训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息,
词嵌入表达信息中关键词提取模块,用于对得到的词嵌入表达信息通过词频-逆文档频率TF-IDF方式提取得到所述自然语句文本信息的词嵌入表达信息中关键词;
文本分类模块,用于根据提取得到的所述自然语句文本信息的词嵌入表达信息中关键词,和通过TF-IDF方式计算得到每个关键词的权重,计算得到所述自然语句文本信息的文章向量后,根据得到的所述自然语句文本信息的文章向量和每个预设类目的类目向量,计算所述自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果;及
文本情感分析模块,用于将所述自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型,并通过计算得到最终的情感倾向值。
与现有技术相比,应用本发明,通过词嵌入(word embedding)方式、卷积神经网络(Convolutional Neural Network)、TF-IDF(Term Frequency–Inverse DocumentFrequence,词频-逆文档频率)等,来实现多语言分析。通过以上方式,使用者只需要提供各领域的标注训练数据,无需关注具体的特征提取工作,无需了解相关领域知识,即可训练出高质量的模型;可以针对任何一种自然语言文本,进行自然语言理解;可以达到不需要语言学的领域知识,对不同语种进行自然语言分析和理解的目的。
附图说明
此处所说明的附图用于提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种基于自然语言处理的多语言分析方法的一种具体实施方式的流程示意图;
图2是本申请实例中词向量训练的流程示意图;
图3是本申请实例中关键词提取算法流程的示意图;
图4是本申请实例中获取文本分类结果的流程图;
图5是本申请实例中文本情感分析模型的示意图;
图6是本申请实例中卷积层的示意图;
图7是本申请实例中池化层的示意图;
图8为本申请实施例提供的一种基于自然语言处理的多语言分析装置的具体实施方式的结构示意图。
图9是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中自然语言处理采用的是语言学无关的多语言分析技术,是指针对多种自然语言,比如西班牙语、法语、德语等语种的文本内容,使用统计自然语言处理的方法,进行基于文本语义的分析与理解。
本申请提供了一种基于自然语言处理的多语言分析方法及装置,通过词嵌入(word embedding)方式、卷积神经网络(Convolutional Neural Network)、TF-IDF(TermFrequency–Inverse Document Frequence,词频-逆文档频率)等,来实现多语言分析。通过以上方式,使用者只需要提供各领域的标注训练数据,无需关注具体的特征提取工作,无需了解相关领域知识,即可训练出高质量的模型。
本申请提供了一种基于自然语言处理的多语言分析方法,可以针对任何一种自然语言文本,进行自然语言理解;可以达到不需要语言学的领域知识,对不同语种进行自然语言分析和理解的目的。
本申请涉及一些专业术语和解释如下表所示:
为了解决传统的多语言分析方法存在领域单一、难以对多语言场景进行快速适应的的问题,本申请提供一种基于自然语言处理的多语言分析方法,该方法的执行主体,可以但不限于个人计算机(personal computer,PC)、手机、IPAD、平板电脑等能够被配置为执行本发明实施例提供的方法的终端的至少一种,或者,该方法的执行主体,还可以是能够执行该方法的客户端本身,当然,该方法的执行主体,还可以是服务器。
为了方便描述,在本申请实施例中,主要通过计算机的服务端操作为例进行介绍。可以理解,该方法的执行主体为计算机的服务端只是一种示例性的说明,并不应理解为对该方法的限定。
请参考图1,如图1所示,本申请实施例提供的一种基于自然语言处理的多语言分析方法,包括如下步骤:
步骤110、通过基于多项式的朴素贝叶斯分类器方式,对收集不同语言的多种类型的训练数据生成语种检测训练模型后,通过生成的语种检测训练模型计算输入的一自然语句文本信息在每个语言分类的后验概率值,并选择后验概率值最大的语言分类作为输入的该自然语句文本信息的语言种类;
语种检测是指,输入是一段自然语句文本,输出结果是判定为这个自然语句所属的语言种类。具体如下:
通过基于多项式(multinomialevent model)的朴素贝叶斯分类器方式,收集不同语言的多种类型的数据作为训练数据,对训练数据做语种的标注,开始准备训练模型;
对于一个包含n个特征的文档D(即输入的一自然语句文本信息),计算该文档D属于闭集C中的某一个分类Ci的概率,(i指的是语言分类数且i>0,例如:C1是中文,C2是英文,C3是法文等,其中i=1、2或3),并将其分配给最可能的分类。
根据贝叶斯定理:
通过计算,训练得到了语言检测模型,即给定了上述模型的参数值,便可以计算目标文档D对于每个分类的后验概率,并选择概率最大的那个作为目标文档D的语言种类。
步骤120、对所述自然语句文本信息通过词向量方式训练得到词向量模型后,将所述自然语句文本信息通过分词和预处理操作得当的结果,输入训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息;
本步骤中,对所述自然语句文本信息通过字/词嵌入操作,得到计算机可识别的对应词语的词嵌入表达信息,包括:通过所述自然语句文本信息中核心词语预测该核心词语周围的词的方式,训练得到词向量模型后,将所述自然语句文本信息通过分词和预处理操作得到的结果,输入训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息。
其中,Word2vec(词向量)是google开发的算法,能够将每个词语变成一个低维空间中的向量,通常几百维。这样词语之间的语义相关性可以用向量的距离来近似描述。Word2vec是无监督学习方法,即不需要人工标注语料就可以训练模型,其中,在大数据量条件下,适合采用Skip-gram训练模型(Skip-gram训练模型使用w(t)去预测周围的词w(t-2),w(t-1),w(t+1),w(t+2),将这些词的向量做连接,建立词向量模型)。
在训练词向量时,(1)首先收集所述自然语句文本信息相关的均衡语句文本信息(因为要做无监督学习,数据量越大越好),所述均衡语句文本信息主要针对相应的应用场景,并且尽量涵盖该场景的大部分数据类型(2)接着针对所述均衡语句文本信息做预处理,包括过滤掉垃圾数据;文章分词、过滤停用词、低频词和词根归一化等;整理成训练数据的格式,即表示输入和输出,为建立训练目标做准备(3)将训练数据送给Skip-gram模型,训练得到词向量模型,保存备用。
对于原始的输入文本,经过分词和预处理之后,可以直接使用训练好的词向量模型,得到对应词语的词嵌入表达,从而得到计算机可以识别的自然语言文本的计算机表示。
图2是本申请实例中词向量训练的流程示意图。
步骤130、对所述自然语句文本信息的词嵌入表达信息通过TF-IDF方式提取得到所述自然语句文本信息的词嵌入表达信息中关键词,并将提取的关键词通过计算共现指数方式进行关键词语合并,生成关键短语;
其中,关键短语提取是数据挖掘领域一个很关键的任务,主要完成从一篇较长的文本内容中提取出包含关键信息的关键短语,可以让用户在无须浏览全文就可以一窥文章的核心内容。关键短语提取在业务上也有广泛的应用场景。例如某些电商和媒体网站,会希望分析近期的热点事件;就可以使用关键短语技术配合无监督聚类等方法来实现。
其中,生成关键短语的步骤,包括:关键词提取后,将提取的关键词通过计算共现指数方式进行关键词语合并,生成关键短语。(通过上述两个步骤的结合,不仅可以提取关键词,对于有意义的短语和短句都有很好的识别的提取能力)
其中,关键词提取,即通过TF-IDF方式对所述自然语句文本信息的词嵌入表达信息通提取所述自然语句文本信息的词嵌入表达信息中关键词,具体如下:
其中TF-IDF是计算文章中关键词权重的算法(TF-IDF是一种用于信息检索与数据挖掘的加权算法)。该算法主要通过计算TF-IDF值来评价词语对文章的重要性,TF值表示词频,IDF值表示逆文档频率,计算公式为:
IDF值计算需要在一个大的语料集上进行,W表示一个词语。实践中,每个词的文档频率可以近似等于搜索引擎的搜索结果数(网页数),这样可以直接得到词语的IDF值。
其中,对所述自然语句文本信息的词嵌入表达信息通过TF-IDF方式提取所述自然语句文本信息的词嵌入表达信息中关键词的步骤,包括:通过计算词嵌入表达信息的TF-IDF值(TF-IDF值是TF值与IDF值相乘得到的数值)与词性权重的乘积后排序,取前面N个词(N>0)。
图3是本申请实例中关键词提取算法流程的示意图。
其中,在提取关键词后,将提取的关键词通过计算共现指数方式进行关键词语合并,生成关键短语(生成关键短语,即根据统计共现指数来进行关键词语合并),包括:
(cnt(a,b)-min_count)*N/(cnt(a)*cnt(b))>threshold
根据如上公式,进行关键词语合并;判断若公式左边的计算结果score大于预设阈值threshold,则将词语a和词语b合并,
或者判断若公式左边的计算结果score小于预设阈值threshold,则词语a与词语b不会合并成短语。
其中,a:词语a;
b:词语b;
cnt(a,b):词语a,b共现的频率;
min_count:最小共现频率,人为设定。即只有当cnt(a,b)大于min_count值才有合并几率;
N:辞典总词数;
cnt(a):词语a出现频数;
cnt(b):词语b出现的频数;
threshold:预设阈值。
步骤140、根据提取得到的所述自然语句文本信息的词嵌入表达信息中关键词,和通过TF-IDF方式计算得到每个关键词的权重,计算得到所述自然语句文本信息的文章向量后,根据得到的所述自然语句文本信息的文章向量和每个预设类目的类目向量,计算所述自然语句文本信息的文章与每个预设类目的相似度后,将计算得到的文章和每个预设类目的相似度,按降序排列选取相应预设类目作为所述自然语句文本信息的文本分类结果;
其中,文本分类是数据挖掘中最重要的一环,它将无序的数据重新组织起来。例如:门户网站有自己的分类体系,网站首页上会有大的分类:军事、体育、科技、教育、美食、财经、房产、汽车、游戏等,进入体育频道,又会划分篮球、足球、羽毛球等,进入篮球频道,又分为NBA、CBA等。
本申请提供的方法设计了一套无监督的训练方法,能够通过学习捕捉文本语义信息,将文本分类全自动化,无需人工标注大量数据。而且类目体系调整后,无需重新训练模型,只需要调整配置文件即能正常工作。
本步骤中,提供了一种文本自定义分类方法,能够将输入的每篇文本分类到预设类目上,包括:
直接使用在“字/词嵌入”操作过程训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息;
通过TF-IDF方式得到所述自然语句文本信息的词嵌入表达信息中关键词和计算得到每个关键词的权重(即通过TF-IDF方式进行关键词提取,输入是一篇文章,输出是提取出的关键词和每个关键词的权重);
所述自然语句文本信息的文章提取关键词后,每个关键词都对应一个权重标识其重要性(在分类问题上,文章可以近似于这个关键词列表),假设文章T的关键词列表是word1,word2,...,wordN,对应权重分别为w1,w2,...,wN,对应词向量分别为vec(word1),vec(word2),...,vec(wordN),那么文章向量可以表示为:
根据预设类目的内容(一般数量大的也就上千个),对于其中每个预设类目,可以根据指定几个描述词得到每个预设类目的类目向量(这些词可以是“与”、“或”关系,类目向量是同时保留所有这些描述词的向量);
根据得到的文章向量和类目向量后,通过以下公式计算文章和每个类目的相似度。以下分别针对类目两种关系,给出相似度计算公式:
(1)设定文章为T,类目C有两个描述词w1,w2,并且关系是“与”,表示为C=w1&w2,那么相似度为:
Sim(T,C)=min(|cos(vec(T),vec(w1))|,|cos(vec(T),vec(w2))|);
(2)设定文章为T,类目C有两个描述词w1,w2,并且关系是“或”,表示为C=w1|w2,那么相似度为:
Sim(T,C)=max(|cos(vec(T),vec(w1))|,|cos(vec(T),vec(w2))|);
根据计算得到的文章和每个预设类目的相似度,按降序排列选取相应预设类目作为所述自然语句文本信息的文本分类结果。(其中,通过设定选取预设类目的阈值或者指定预设类目的个数,选取相应类目作为结果,预设类目的阈值或者预设类目的个数为大于1的整数)
图4是本申请实例中获取文本分类结果的流程图。
步骤150、将所述自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型,得到通过卷积神经网络提取的特征向量和通过双向门循环单元提取的特征向量并进行拼接后得到新的向量,并对得到的新的向量通过一次线性变换方式得到的结果进行sigmoid函数(S型生长曲线函数)方式的非线性变换,得到最终的情感倾向值。
其中,文本情感分析是指,根据文本所表达的含义和情感信息将文本分为褒扬或贬义的两种或多种类型。文本情感分析的应用非常广泛,可以应用到许多行业,其中最重要的几个应用包括:实现情感机器人,自动提供抉择支持,网络舆情风险分析,信息预测等。本申请通过卷积神经网络(CNN)和双向GRU(Gated recurrent units,即:门循环单元)来实现文本情感分析,其主要优势包括:两种模型的并行连接的结构式创新,使得模型的准确率优于普通的深度学习模型;可以准确识别短句和长句的情感特征,避免了单一模型只能在短句或者长句取得较好效果的弊端;对于反问句、转折句有很好的情感识别能力;自动抽取训练数据特征,极大降低了人工介入成本;无需领域知识即可训练出高质量的模型。
本步骤,包括以下几个步骤:
步骤1501、提供训练模型的标注语料(准备对应语言环境的情感正向和负向的标注语料,为第二步训练模型提供训练语料);
步骤1502、建立卷积神经网络和双向门循环单元的并行架构的文本情感分析模型,并将标注语料输入建立的文本情感分析模型进行训练;
具体的,本申请基于tensorflow的卷积神经网络(CNN)和双向GRU并行的架构进行模型构建,图5是本申请实例中文本情感分析模型的示意图。
嵌入层:使用embedding技术,把输入的句子转换成稠密的空间向量。相关技术和word2vec部分介绍的类似,此处不再赘述。
卷积层:卷积神经网络的第一步,用于特征提取。卷积层中,一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中,通常包含若干个特征平面(featureMap),每个特征平面由一些矩形排列的的神经元组成,同一特征平面的神经元共享权值,这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化,在网络的训练过程中卷积核将学习得到合理的权值。共享权值(卷积核)带来的直接好处是减少网络各层之间的连接,同时又降低了过拟合的风险。图6是本申请实例中卷积层的示意图。
池化层:卷积神经网络的第二步,用于特征抽取。池化,也称作子采样,通常有均值子采样(mean pooling)和最大值子采样(max pooling)两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度,减少了模型的参数。图7是本申请实例中池化层的示意图。
双向GRU:GRU(Gated recurrent units,即:门循环单元),是一个基于“门”机制的递归神经网络。双向是指,正向和反向神经网络一起使用,一般指输入序列的两个不同的序列方向。(人的思考方式并不是每时每刻都从一片空白的大脑开始他们的思考,例如:在阅读文章时,都是基于自己已经拥有的对先前所见词的理解来推断当前词的真实含义,不会将所有的东西都全部丢弃,然后用空白的大脑进行思考。传统的神经网络并不能实现,这是传统的神经网络的缺陷,例如:假设你希望对电影中的每个时间点的时间类型进行分类。传统的神经网络应该很难来处理这个问题——使用电影中先前的事件推断后续的事件;RNN(循环神经网络)解决了这个问题,RNN是包含循环的网络,允许信息的持久化,RNN的关键点之一就是他们可以用来连接先前的信息到当前的任务上,例如使用过去的视频段来推测对当前段的理解,例如,有一个语言模型用来基于先前的词来预测下一个词,如果试着预测“the clouds are in the sky”最后的词,并不需要任何其他的上下文——因此下一个词很显然就应该是sky;在这样的场景中,相关的信息和预测的词位置之间的间隔是非常小的,RNN可以学会使用先前的信息。但是在相关的信息和预测的词位置之间的间隔不断增大时,RNN会丧失学习到连接如此远的信息的能力,这也是RNN的缺陷)本申请中采用双向GRU,进行对句子特征进行提取,可以实现在相关的信息和预测的词位置之间的间隔不断增大时,也可以学习到连接如此远的信息的能力。
全连接层:将卷积神经网络提取的特征向量和双向GRU提取的特征向量进行拼接,得到新的向量,并对得到的新的向量通过一次线性变换方式得到的结果进行sigmoid函数(S型生长曲线函数)方式的非线性变换,得到最终的情感倾向值。
如图8所示,本申请还提供了一种基于自然语言处理的多语言分析装置,包括:
判断语言种类模块,用于通过基于多项式的朴素贝叶斯分类器方式,对收集不同语言的多种类型的训练数据生成语种检测训练模型后,通过生成的语种检测训练模型计算输入的一自然语句文本信息在每个语言分类的后验概率值,并选择后验概率值最大的语言分类作为输入的该自然语句文本信息的语言种类;
词嵌入表达信息获取模块,用于对所述自然语句文本信息通过词向量方式训练得到词向量模型后,将所述自然语句文本信息通过分词和预处理操作得当的结果,输入训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息,
词嵌入表达信息中关键词提取模块,用于对得到的词嵌入表达信息通过词频-逆文档频率TF-IDF方式提取得到所述自然语句文本信息的词嵌入表达信息中关键词;
文本分类模块,用于根据提取得到的所述自然语句文本信息的词嵌入表达信息中关键词,和通过TF-IDF方式计算得到每个关键词的权重,计算得到所述自然语句文本信息的文章向量后,根据得到的所述自然语句文本信息的文章向量和每个预设类目的类目向量,计算所述自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果;及
文本情感分析模块,用于将所述自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型,并通过计算得到最终的情感倾向值。
图9示出了是本申请实施例提供的一种电子设备的结构示意图。请参考图9,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成网络覆盖性能表征装置。处理器,执行存储器所存放的程序,并具体执行控制操作。
如图9所示的一种电子设备,上述如本申请图1所示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的电子设备执行时,能够使该电子设备执行图1所示实施例中的方法,并具体用于执行。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
需要说明的是,本申请中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (9)
1.一种基于自然语言处理的多语言分析方法,其特征在于,包括:
通过基于多项式的朴素贝叶斯分类器方式,对收集不同语言的多种类型的训练数据生成语种检测训练模型后,通过生成的语种检测训练模型计算输入的一自然语句文本信息在每个语言分类的后验概率值,并选择后验概率值最大的语言分类作为输入的该自然语句文本信息的语言种类;
对所述自然语句文本信息通过词向量方式训练得到词向量模型后,将所述自然语句文本信息通过分词和预处理操作得当的结果,输入训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息,并对得到的词嵌入表达信息通过词频-逆文档频率TF-IDF方式提取得到所述自然语句文本信息的词嵌入表达信息中关键词;
根据提取得到的所述自然语句文本信息的词嵌入表达信息中关键词,和通过TF-IDF方式计算得到每个关键词的权重,计算得到所述自然语句文本信息的文章向量后,根据得到的所述自然语句文本信息的文章向量和每个预设类目的类目向量,计算所述自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果;
将所述自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型,并通过计算得到最终的情感倾向值;
其中,所述将所述自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型,并通过计算得到最终的情感倾向值的步骤,包括:
将所述自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型;
将通过卷积神经网络提取的特征向量和通过双向门循环单元提取的特征向量进行拼接,得到新的向量,并对得到的新的向量通过一次线性变换方式得到的结果进行S型生长曲线函数方式的非线性变换,得到最终的情感倾向值。
2.根据权利要求1所述的方法,其特征在于,
所述通过基于多项式的朴素贝叶斯分类器方式,对收集不同语言的多种类型的训练数据生成语种检测训练模型后,通过生成的语种检测训练模型计算输入的一自然语句文本信息在每个语言分类的后验概率值,并选择后验概率值最大的语言分类作为输入的该自然语句文本信息的语言种类的步骤,包括:
通过基于多项式的朴素贝叶斯分类器方式,收集不同语言的多种类型的数据作为训练数据,对训练数据做语种的标注,开始准备训练模型;
对于一个包含n个特征的文档D,计算该文档D属于闭集C中的某一个分类Ci的概率,i指的是语言分类数且i>0,
根据下述公式计算,得到文档D对于每个分类的后验概率,选择概率最大的那个作为目标文档D的语言种类;
3.根据权利要求2所述的方法,其特征在于,
所述对所述自然语句文本信息通过词向量方式训练得到词向量模型后,将所述自然语句文本信息通过分词和预处理操作得当的结果,输入训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息的步骤,包括:
通过所述自然语句文本信息中核心词语预测该核心词语周围的词的方式,训练得到词向量模型后,将所述自然语句文本信息通过分词和预处理操作得到的结果,输入训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息。
4.根据权利要求2所述的方法,其特征在于,
还包括:对得到所述自然语句文本信息的词嵌入表达信息中关键词通过计算共现指数方式进行关键词语合并,生成关键短语。
5.根据权利要求4所述的方法,其特征在于,
所述对得到所述自然语句文本信息的词嵌入表达信息中关键词通过计算共现指数方式进行关键词语合并,生成关键短语的步骤,包括:
根据以下公式,进行关键词语合并;
(cnt(a,b)-min_count)*N/(cnt(a)*cnt(b))>threshold;
判断若公式左边的计算结果score大于预设阈值threshold,则将词语a和词语b合并,
或者判断若公式左边的计算结果score小于预设阈值threshold,则词语a与词语b不会合并成短语;
其中,a代表词语a;b代表词语b;cnt(a,b)为词语a,b共现的频率;min_count为最小共现频率,即当cnt(a,b)大于min_count值才有合并几率;N:为辞典总词数;cnt(a)为词语a出现频数;cnt(b)为词语b出现的频数;threshold为预设阈值。
7.根据权利要求6所述的方法,其特征在于,
所述计算所述自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果的步骤,包括:
计算所述自然语句文本信息的文章与每个预设类目的相似度后,将计算得到的文章和每个预设类目的相似度,按降序排列选取相应预设类目作为所述自然语句文本信息的文本分类结果。
8.根据权利要求7所述的方法,其特征在于,
所述根据提取得到的所述自然语句文本信息的词嵌入表达信息中关键词,和通过TF-IDF方式计算得到每个关键词的权重,计算得到所述自然语句文本信息的文章向量后,根据得到的所述自然语句文本信息的文章向量和每个预设类目的类目向量,计算所述自然语句文本信息的文章与每个预设类目的相似度的步骤,包括:
设定文章T的关键词列表是word1,word2,...,wordN,对应权重分别为w1,w2,...,wN,对应词向量分别为vec(word1),vec(word2),...,vec(wordN),那么文章向量计算公式如下所示:
根据预设类目的内容,对于其中每个预设类目,根据指定描述词得到每个预设类目的类目向量;
根据得到的文章向量和类目向量后,通过以下计算公式计算文章和每个类目的相似度:
设定文章为T,类目C有两个描述词w1,w2,判断若关系是“与”,表示为C=w1&w2,则相似度为:
Sim(T,C)=min(|cos(vec(T),vec(w1))|,|cos(vec(T),vec(w2))|);
设定文章为T,类目C有两个描述词w1,w2,判断若关系是“或”,表示为C=w1|w2,则相似度为:
Sim(T,C)=max(|cos(vec(T),vec(w1))|,|cos(vec(T),vec(w2))|)。
9.一种基于自然语言处理的多语言分析装置,其特征在于,包括:
判断语言种类模块,用于通过基于多项式的朴素贝叶斯分类器方式,对收集不同语言的多种类型的训练数据生成语种检测训练模型后,通过生成的语种检测训练模型计算输入的一自然语句文本信息在每个语言分类的后验概率值,并选择后验概率值最大的语言分类作为输入的该自然语句文本信息的语言种类;
词嵌入表达信息获取模块,用于对所述自然语句文本信息通过词向量方式训练得到词向量模型后,将所述自然语句文本信息通过分词和预处理操作得当的结果,输入训练得到的词向量模型,得到计算机可识别的对应词语的词嵌入表达信息,
词嵌入表达信息中关键词提取模块,用于对得到的词嵌入表达信息通过词频-逆文档频率TF-IDF方式提取得到所述自然语句文本信息的词嵌入表达信息中关键词;
文本分类模块,用于根据提取得到的所述自然语句文本信息的词嵌入表达信息中关键词,和通过TF-IDF方式计算得到每个关键词的权重,计算得到所述自然语句文本信息的文章向量后,根据得到的所述自然语句文本信息的文章向量和每个预设类目的类目向量,计算所述自然语句文本信息的文章与每个预设类目的相似度来确定所述自然语句文本信息的文本分类结果;及
文本情感分析模块,用于将所述自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型,并通过计算得到最终的情感倾向值;
其中,所述文本情感分析模块具体用于:
将所述自然语句文本信息的词嵌入表达信息,输入训练后的卷积神经网络和双向门循环单元的并行架构的文本情感分析模型;
将通过卷积神经网络提取的特征向量和通过双向门循环单元提取的特征向量进行拼接,得到新的向量,并对得到的新的向量通过一次线性变换方式得到的结果进行S型生长曲线函数方式的非线性变换,得到最终的情感倾向值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711488119.8A CN108197109B (zh) | 2017-12-29 | 2017-12-29 | 一种基于自然语言处理的多语言分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711488119.8A CN108197109B (zh) | 2017-12-29 | 2017-12-29 | 一种基于自然语言处理的多语言分析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108197109A CN108197109A (zh) | 2018-06-22 |
CN108197109B true CN108197109B (zh) | 2021-04-23 |
Family
ID=62587297
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711488119.8A Active CN108197109B (zh) | 2017-12-29 | 2017-12-29 | 一种基于自然语言处理的多语言分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108197109B (zh) |
Families Citing this family (71)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108960317B (zh) * | 2018-06-27 | 2021-09-28 | 哈尔滨工业大学 | 基于词向量表示和分类器联合训练的跨语言文本分类方法 |
CN109213843A (zh) * | 2018-07-23 | 2019-01-15 | 北京密境和风科技有限公司 | 一种垃圾文本信息的检测方法及装置 |
CN108984532A (zh) * | 2018-07-27 | 2018-12-11 | 福州大学 | 基于层次嵌入的方面抽取方法 |
CN109189883B (zh) * | 2018-08-09 | 2022-01-28 | 中国银行股份有限公司 | 一种电子文件的智能派发方法及装置 |
CN109241526B (zh) * | 2018-08-22 | 2022-11-15 | 北京慕华信息科技有限公司 | 一种段落分割方法和装置 |
GB201815664D0 (en) * | 2018-09-26 | 2018-11-07 | Benevolentai Tech Limited | Hierarchical relationship extraction |
CN109284396A (zh) * | 2018-09-27 | 2019-01-29 | 北京大学深圳研究生院 | 医学知识图谱构建方法、装置、服务器及存储介质 |
CN109657227A (zh) * | 2018-10-08 | 2019-04-19 | 平安科技(深圳)有限公司 | 合同可行性判定方法、设备、存储介质及装置 |
EP3637428A1 (en) * | 2018-10-12 | 2020-04-15 | Siemens Healthcare GmbH | Natural language sentence generation for radiology reports |
CN109388675B (zh) * | 2018-10-12 | 2024-06-28 | 平安科技(深圳)有限公司 | 数据分析方法、装置、计算机设备及存储介质 |
CN109325103B (zh) * | 2018-10-19 | 2020-12-04 | 北京大学 | 一种序列学习的动态标识符表示方法、装置及系统 |
CN109508456B (zh) * | 2018-10-22 | 2023-04-18 | 网易(杭州)网络有限公司 | 一种文本处理方法和装置 |
CN109522548A (zh) * | 2018-10-26 | 2019-03-26 | 天津大学 | 一种基于双向交互神经网络的文本情感分析方法 |
CN109325126B (zh) * | 2018-10-31 | 2022-04-22 | 中国电子科技集团公司电子科学研究院 | 语言文本的对象化处理方法、装置及计算机存储介质 |
CN109408639B (zh) * | 2018-10-31 | 2022-05-31 | 广州虎牙科技有限公司 | 一种弹幕分类方法、装置、设备和存储介质 |
CN111259656A (zh) * | 2018-11-15 | 2020-06-09 | 武汉斗鱼网络科技有限公司 | 短语相似度计算方法、存储介质、电子设备及系统 |
CN109522556B (zh) * | 2018-11-16 | 2024-03-12 | 北京九狐时代智能科技有限公司 | 一种意图识别方法及装置 |
CN110147444B (zh) * | 2018-11-28 | 2022-11-04 | 腾讯科技(深圳)有限公司 | 基于神经网络语言模型的文本预测方法、装置及存储介质 |
CN109582967B (zh) * | 2018-12-03 | 2023-08-18 | 深圳前海微众银行股份有限公司 | 舆情摘要提取方法、装置、设备及计算机可读存储介质 |
CN109657710B (zh) * | 2018-12-06 | 2022-01-21 | 北京达佳互联信息技术有限公司 | 数据筛选方法、装置、服务器及存储介质 |
CN109739978A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 一种文本聚类方法、文本聚类装置及终端设备 |
CN109739960A (zh) * | 2018-12-11 | 2019-05-10 | 中科恒运股份有限公司 | 文本的情感分析方法、情感分析装置及终端 |
CN111312340A (zh) * | 2018-12-12 | 2020-06-19 | 深圳市云网拜特科技有限公司 | 一种基于smiles的定量构效方法和装置 |
CN109685055B (zh) * | 2018-12-26 | 2021-11-12 | 北京金山数字娱乐科技有限公司 | 一种图像中文本区域的检测方法及装置 |
CN109740126B (zh) * | 2019-01-04 | 2023-11-21 | 平安科技(深圳)有限公司 | 文本匹配方法、装置及存储介质、计算机设备 |
CN109918641A (zh) * | 2019-01-17 | 2019-06-21 | 平安城市建设科技(深圳)有限公司 | 文章主题成分分解方法、装置、设备和存储介质 |
CN110008466A (zh) * | 2019-01-30 | 2019-07-12 | 阿里巴巴集团控股有限公司 | 一种数据的处理方法、装置及设备 |
CN111651996B (zh) * | 2019-03-04 | 2023-12-08 | 北京嘀嘀无限科技发展有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
CN109992779B (zh) * | 2019-03-29 | 2023-04-28 | 长沙理工大学 | 一种基于cnn的情感分析方法、装置、设备及存储介质 |
US11328221B2 (en) | 2019-04-09 | 2022-05-10 | International Business Machines Corporation | Hybrid model for short text classification with imbalanced data |
CN110442855B (zh) * | 2019-04-10 | 2023-11-07 | 北京捷通华声科技股份有限公司 | 一种语音分析方法和系统 |
CN111818001A (zh) * | 2019-04-12 | 2020-10-23 | 长鑫存储技术有限公司 | 异常访问检测方法及装置、电子设备和计算机可读介质 |
CN110147548B (zh) * | 2019-04-15 | 2023-01-31 | 浙江工业大学 | 基于双向门控循环单元网络和新型网络初始化的情感识别方法 |
CN110263158B (zh) * | 2019-05-24 | 2023-08-01 | 创新先进技术有限公司 | 一种数据的处理方法、装置及设备 |
CN110297764B (zh) * | 2019-05-30 | 2023-04-07 | 北京百度网讯科技有限公司 | 漏洞测试模型训练方法和装置 |
CN112052331A (zh) * | 2019-06-06 | 2020-12-08 | 武汉Tcl集团工业研究院有限公司 | 一种处理文本信息的方法及终端 |
CN110287418B (zh) * | 2019-06-26 | 2021-10-19 | 拉扎斯网络科技(上海)有限公司 | 数据处理及倾向特征值识别方法、装置、电子设备 |
CN110457424A (zh) * | 2019-06-28 | 2019-11-15 | 谭浩 | 生成访谈报告的方法、计算机可读存储介质和终端设备 |
CN110569830B (zh) * | 2019-08-01 | 2023-08-22 | 平安科技(深圳)有限公司 | 多语言文本识别方法、装置、计算机设备及存储介质 |
CN112445898B (zh) * | 2019-08-16 | 2024-06-14 | 阿里巴巴集团控股有限公司 | 对话情感分析方法及装置、存储介质及处理器 |
CN110674244B (zh) * | 2019-08-20 | 2023-02-03 | 南京医渡云医学技术有限公司 | 一种医疗文本的结构化处理方法及装置 |
CN110597988B (zh) * | 2019-08-28 | 2024-03-19 | 腾讯科技(深圳)有限公司 | 一种文本分类方法、装置、设备及存储介质 |
CN110516249A (zh) * | 2019-08-29 | 2019-11-29 | 新华三信息安全技术有限公司 | 一种情感倾向信息获得方法及装置 |
CN112667826B (zh) * | 2019-09-30 | 2024-08-02 | 北京国双科技有限公司 | 一种篇章去噪方法、装置、系统及存储介质 |
CN111090719B (zh) * | 2019-10-11 | 2024-05-03 | 平安科技(上海)有限公司 | 文本分类方法、装置、计算机设备及存储介质 |
CN112989839A (zh) * | 2019-12-18 | 2021-06-18 | 中国科学院声学研究所 | 一种基于关键词特征嵌入语言模型的意图识别方法及系统 |
CN110968684B (zh) * | 2019-12-18 | 2024-06-11 | 腾讯科技(深圳)有限公司 | 一种信息处理方法、装置、设备及存储介质 |
CN111178009B (zh) * | 2019-12-20 | 2023-05-09 | 沈阳雅译网络技术有限公司 | 一种基于特征词加权的文本多语种识别方法 |
CN111126038B (zh) * | 2019-12-24 | 2023-05-23 | 北京明略软件系统有限公司 | 信息获取模型生成方法、装置及信息获取方法、装置 |
CN113076756A (zh) * | 2020-01-06 | 2021-07-06 | 北京沃东天骏信息技术有限公司 | 一种文本生成方法和装置 |
CN111259649A (zh) * | 2020-01-19 | 2020-06-09 | 深圳壹账通智能科技有限公司 | 信息交互平台的交互数据分类方法、装置及存储介质 |
CN111415331B (zh) * | 2020-03-03 | 2023-05-23 | 北京深睿博联科技有限责任公司 | 一种正位胸片中基于类别关系的异常检测方法及系统 |
CN111324721A (zh) * | 2020-03-16 | 2020-06-23 | 云南电网有限责任公司信息中心 | 一种智能问答知识库的构建方法 |
CN111428037B (zh) * | 2020-03-24 | 2022-09-20 | 合肥科捷通科技信息服务有限公司 | 一种分析行为政策匹配性的方法 |
CN111506702A (zh) * | 2020-03-25 | 2020-08-07 | 北京万里红科技股份有限公司 | 基于知识蒸馏的语言模型训练方法、文本分类方法及装置 |
CN111309920B (zh) * | 2020-03-26 | 2023-03-24 | 清华大学深圳国际研究生院 | 一种文本分类方法、终端设备及计算机可读存储介质 |
CN111538828B (zh) * | 2020-04-21 | 2023-04-25 | 招商局金融科技有限公司 | 文本情感分析方法、装置、计算机装置及可读存储介质 |
CN111723191B (zh) * | 2020-05-19 | 2023-10-27 | 天闻数媒科技(北京)有限公司 | 一种基于全信息自然语言的文本过滤和提取方法及其系统 |
CN111680490B (zh) * | 2020-06-10 | 2022-10-28 | 东南大学 | 一种跨模态的文档处理方法、装置及电子设备 |
CN111737978A (zh) * | 2020-07-02 | 2020-10-02 | 武汉卓尔数字传媒科技有限公司 | 一种购物评价情感分析的方法、装置及电子设备 |
CN112464654B (zh) * | 2020-11-27 | 2022-06-17 | 科技日报社 | 关键词生成方法、装置、电子设备和计算机可读介质 |
CN112612889B (zh) * | 2020-12-28 | 2021-10-29 | 中科院计算技术研究所大数据研究院 | 一种多语种文献分类方法、装置及存储介质 |
CN112765348B (zh) * | 2021-01-08 | 2023-04-07 | 重庆创通联智物联网有限公司 | 一种短文本分类模型训练方法、装置 |
CN113593523B (zh) * | 2021-01-20 | 2024-06-21 | 腾讯科技(深圳)有限公司 | 基于人工智能的语音检测方法、装置及电子设备 |
CN112836039B (zh) * | 2021-01-27 | 2023-04-21 | 成都网安科技发展有限公司 | 基于深度学习的语音数据处理方法和装置 |
CN112966507A (zh) * | 2021-03-29 | 2021-06-15 | 北京金山云网络技术有限公司 | 构建识别模型及攻击识别方法、装置、设备及存储介质 |
CN113743090B (zh) * | 2021-09-08 | 2024-04-12 | 度小满科技(北京)有限公司 | 一种关键词提取方法及装置 |
CN114491034B (zh) * | 2022-01-24 | 2024-05-28 | 聚好看科技股份有限公司 | 一种文本分类方法及智能设备 |
CN114579746B (zh) * | 2022-03-07 | 2024-08-13 | 安徽农业大学 | 一种优化的高精度文本分类方法及装置 |
CN116542380B (zh) * | 2023-05-09 | 2023-11-14 | 武汉智网兴电科技开发有限公司 | 基于自然语言的电厂供应链碳足迹优化方法及装置 |
CN118428920A (zh) * | 2024-06-28 | 2024-08-02 | 烟台云朵软件有限公司 | 一种基于大语言模型的行程规划方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944099A (zh) * | 2010-06-24 | 2011-01-12 | 西北工业大学 | 一种使用本体进行文本文档自动分类的方法 |
US9767182B1 (en) * | 2016-10-28 | 2017-09-19 | Searchmetrics Gmbh | Classification of search queries |
CN107315777A (zh) * | 2017-05-31 | 2017-11-03 | 国家电网公司 | 一种基于k最近邻算法的电网监控信号的分类压缩方法 |
-
2017
- 2017-12-29 CN CN201711488119.8A patent/CN108197109B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101944099A (zh) * | 2010-06-24 | 2011-01-12 | 西北工业大学 | 一种使用本体进行文本文档自动分类的方法 |
US9767182B1 (en) * | 2016-10-28 | 2017-09-19 | Searchmetrics Gmbh | Classification of search queries |
CN107315777A (zh) * | 2017-05-31 | 2017-11-03 | 国家电网公司 | 一种基于k最近邻算法的电网监控信号的分类压缩方法 |
Non-Patent Citations (3)
Title |
---|
"基于Word2vec的微博短文本分类研究;张谦;《信息网络安全》;20170131;第57-62页 * |
CNN、RNN在自动特征提取中的应用;搜狐;《https://www.sohu.com/a/162300065_739762》;20170804;第1-6页 * |
朴素贝叶斯之语种检测;无关风月;《https://blog.csdn.net/zxm1306192988/article/details/78510825》;20171112;第1-4页 * |
Also Published As
Publication number | Publication date |
---|---|
CN108197109A (zh) | 2018-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108197109B (zh) | 一种基于自然语言处理的多语言分析方法和装置 | |
Wang et al. | Suppressing uncertainties for large-scale facial expression recognition | |
CN109753566B (zh) | 基于卷积神经网络的跨领域情感分析的模型训练方法 | |
CN110119786B (zh) | 文本话题分类方法及装置 | |
Xu et al. | Investigation on the Chinese text sentiment analysis based on convolutional neural networks in deep learning. | |
Zhang et al. | Sentiment Classification Based on Piecewise Pooling Convolutional Neural Network. | |
Karayiğit et al. | Detecting abusive Instagram comments in Turkish using convolutional Neural network and machine learning methods | |
CN111522908A (zh) | 一种基于BiGRU和注意力机制的多标签文本分类方法 | |
Mehta et al. | Sentiment analysis of tweets using supervised learning algorithms | |
CN113254655B (zh) | 文本分类方法、电子设备及计算机存储介质 | |
Wu et al. | A visual attention-based keyword extraction for document classification | |
CN110297986A (zh) | 一种微博热点话题的情感倾向分析方法 | |
Anitha Kumari et al. | Automated image captioning for flickr8k dataset | |
Zhang et al. | Attention pooling-based bidirectional gated recurrent units model for sentimental classification | |
Kastner et al. | Estimating the imageability of words by mining visual characteristics from crawled image data | |
Shahbazi et al. | Toward representing automatic knowledge discovery from social media contents based on document classification | |
Hoque et al. | Detecting cyberbullying text using the approaches with machine learning models for the low-resource bengali language | |
CN116263786A (zh) | 舆情文本情感分析方法、装置、计算机设备及介质 | |
Mahmoud et al. | Arabic semantic textual similarity identification based on convolutional gated recurrent units | |
Ruan et al. | Chinese news text classification method based on attention mechanism | |
Vaishnavi et al. | Video captioning–a survey | |
CN114693949A (zh) | 一种基于区域感知对齐网络的多模态评价对象抽取方法 | |
Tiwari et al. | Automatic caption generation via attention based deep neural network model | |
Sindu et al. | Recurrent neural network for content based image retrieval using image captioning model | |
Mahendru et al. | Portable learning approach towards capturing social intimidating activities using big data and Deep Learning Technologies |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 100081 No.101, 1st floor, building 14, 27 Jiancai Chengzhong Road, Haidian District, Beijing Applicant after: Beijing PERCENT Technology Group Co.,Ltd. Address before: 100081 16 / F, block a, Beichen Century Center, building 2, courtyard 8, Beichen West Road, Chaoyang District, Beijing Applicant before: BEIJING BAIFENDIAN INFORMATION SCIENCE & TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |