CN111104513B - 一种游戏平台用户问答业务的短文本分类方法 - Google Patents

一种游戏平台用户问答业务的短文本分类方法 Download PDF

Info

Publication number
CN111104513B
CN111104513B CN201911282726.8A CN201911282726A CN111104513B CN 111104513 B CN111104513 B CN 111104513B CN 201911282726 A CN201911282726 A CN 201911282726A CN 111104513 B CN111104513 B CN 111104513B
Authority
CN
China
Prior art keywords
word
word segmentation
segmentation
word vector
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911282726.8A
Other languages
English (en)
Other versions
CN111104513A (zh
Inventor
陶涛
刘冶
桂进军
陈宇恒
潘炎
印鉴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Heyan Big Data Technology Co ltd
Sun Yat Sen University
Original Assignee
Guangzhou Heyan Big Data Technology Co ltd
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Heyan Big Data Technology Co ltd, Sun Yat Sen University filed Critical Guangzhou Heyan Big Data Technology Co ltd
Priority to CN201911282726.8A priority Critical patent/CN111104513B/zh
Publication of CN111104513A publication Critical patent/CN111104513A/zh
Application granted granted Critical
Publication of CN111104513B publication Critical patent/CN111104513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及一种游戏平台用户问答业务的短文本分类方法,对分字与分词的词向量矩阵分别通过两个卷积神经网络模型进行语义提取,拼接两个输出结果,通过算法得到该输入文本属于各类别的概率,并选择概率最大的一个类别作为最后输出;本申请能够充分挖掘出中文短文本所包含的语义信息,有效地处理游戏平台用户问答业务中特征较少的短文本类型的数据,在短文本分类任务识别效果更好,效率也有很大的提升。

Description

一种游戏平台用户问答业务的短文本分类方法
技术领域
本发明涉及智能客服领域,特别是涉及一种游戏平台用户问答业务的短文本分类方法。
背景技术
在智能客服领域中大量涉及自然语言理解的应用,会对用户提出的问题进行分类,根据问题的分类结果向客户提供相应的信息。目前,自然语言理解常用的模型是基于循环神经网络(Recurrent Neural Network,RNN)的各种变体网络。RNN的特点是可以处理时序数据,其神经元更新依赖上一次的输入以捕捉时序数据,而文本也可以看作一种时序数据,因为文本中的一个词语的出现会受前面词语的影响,因此RNN常用于自然语言理解问题。对于长文本类型的数据,改进的RNN模型如长短期记忆网络(Long Short-Term Memory,LSTM)和注意力机制(Attention Mechanism)都有不错的效果,可以在较长的文本距离上能捕捉到上下文联系。
不过在游戏平台用户问答业务场景之下,用户或玩家在提问过程中的表达更接近短文本类型的数据,极其容易出现语法的不完整而导致上下文内容缺失,现有技术常常难以应对。
发明内容
本发明的目的在于现有技术的局限,提供一种游戏平台用户问答业务的短文本分类方法,由以下技术方案实现:
获取用户的输入文本,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语;
运用基于分词的词向量模型获得所述分词词语的词向量,对所述分词词语的词向量进行拼接得到第一词向量矩阵,运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取;其中,所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本;
运用基于分字的词向量模型获得所述分字词语的词向量,对所述分字词语的词向量进行拼接得到第二词向量矩阵,运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取;其中,所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本;
对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别。
相较于现有技术,本申请对分字与分词的词向量矩阵分别通过两个卷积神经网络模型进行语义提取,拼接两个输出结果,通过算法得到该输入文本属于各类别的概率,并选择概率最大的一个类别作为最后输出;本申请能够充分挖掘出中文短文本所包含的语义信息,有效地处理游戏平台用户问答业务中特征较少的短文本类型的数据,在短文本分类任务识别效果更好,同时在效率上也有很大的提升。
进一步的,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语,可包括以下步骤:
对所述输入文本进行文本清洗及格式规范化;
运用分词工具对文本清洗及格式规范化后的输入文本进行分词处理得到分词词语;其中,所述分词工具的词库预设有所述语料文本的游戏类用词;
对文本清洗及格式规范化后的输入文本进行分字处理得到分字词语。
由于用户的输入文本噪声数据较多,存在拼写错误或不完整的问题,因而可通过文本清洗去掉不包含语义信息的词语,并对文本的表达和格式进行纠正和规范化;同时,由于用户的输入文本中夹杂着游戏中一些专有的、非正式的用词用语,运用分词工具并在其词库预设所述语料文本的游戏类用词,能更加准确地对输入文本进行分词。
在一种可选的实施例中,所述基于分词的词向量模型及基于分字的词向量模型为采用Skip-gram并加入负采样进行模型训练的Word2Vec模型;所述第一词向量矩阵及第二词向量矩阵为M×N的矩阵,M为所述分词词语或分字词语的个数,N为词向量维度。
相比CBOW采用输入为上下文,输出为当前词语的方式,Skip-gram采用输入为当前词语,输出为上下文的方式;针对游戏平台用户问答业务的内容,由于本申请涉及的语料库存在较多的低频词语,Skip-gram因上述特点能比CBOW更好处理含低频词较多的语料库;而在Skip-gram中加入负采样还能减少出现频率较多的词语的影响;相比现有技术中通过加权平均把多个句子中的词向量压缩成一个相同维度句子向量,本申请将输入文本所包含的所有词向量拼接为M×N的矩阵,M为所述分词词语或分字词语的个数,N为词向量维度,能有效避免语义信息的丢失。
在一种可选的实施例中,所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型中的每个卷积层都包括一组尺寸为h×n的卷积核;其中,卷积核高度h可变,1≤h≤m,m为词向量矩阵高度,n为词向量维度。
与现有卷积神经网络中的卷积层不同的是,本申请使用的卷积层中的卷积核高度是可变的,其高度h会由1变化增加到m,每个卷积核高度的卷积计算结果对应输出矩阵的一行向量,因此输出矩阵可以捕捉到每一个词语的所有N-gram集合的语义。
进一步的,根据每一个卷积核kernel,输入词向量矩阵W,卷积层一行输出yi,按以下方式运算得到点积的值yij
yij=f(kernel·[vj,vj+h-1]+b);
其中,b是偏置项,v是词向量,[vj,vj+h-1]表示词向量矩阵W中尺寸为h×n的子矩阵,由词向量矩阵W中j行到j+h-1行的词向量v构成,1≤j≤m;卷积核kernel从上至下与尺寸为h×n的子矩阵做点积,拼接所有点积的值yij得到一行的输出yi
进一步的,所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型的激活函数表达式如下:
Figure BDA0002317201750000031
该激活函数的特点是在x>0时其导数恒为1,在x≤0时其导数恒为0,因此在更新卷积核权重时可以避免出现梯度消失或梯度弥散问题。
进一步的,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别,包括按以下方式运算得到各个分类类别的结果pi
Figure BDA0002317201750000032
其中,i为一个分类类别,pi为分类类别i的概率,z为全连接层的输出向量,其下标为向量对应位置的数值,k为所有分类类别的总数,各个分类类别的概率pi相加和为1。
一种游戏平台用户问答业务的短文本分类系统,包括:
输入文本处理模块,用于获取用户的输入文本,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语;
分词语义提取模块,用于运用基于分词的词向量模型获得所述分词词语的词向量,对所述分词词语的词向量进行拼接得到第一词向量矩阵,运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取;其中,所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本;
分字语义提取模块,用于运用基于分字的词向量模型获得所述分字词语的词向量,对所述分字词语的词向量进行拼接得到第二词向量矩阵,运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取;其中,所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本;
概率最大的分类类别获取模块,用于对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别。
本发明还提供一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现前述游戏平台用户问答业务的短文本分类方法的步骤。
本发明还提供一种计算机设备,包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述游戏平台用户问答业务的短文本分类方法的步骤。
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
图1为本发明实施例游戏平台用户问答业务的短文本分类方法的流程图;
图2为本发明实施例步骤S01的流程图;
图3为Word2Vec模型结构示意图;
图4为本发明实施例卷积神经网络卷积计算与词向量矩阵对应关系图;
图5为本发明实施例的游戏平台用户问答业务的短文本分类系统示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
在本申请实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请实施例。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
本实施例提供一种游戏平台用户问答业务的短文本分类方法,请参阅图1,由以下技术方案实现:
S01,获取用户的输入文本,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语;
S02,运用基于分词的词向量模型获得所述分词词语的词向量,对所述分词词语的词向量进行拼接得到第一词向量矩阵,运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取;其中,所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本;
S03,运用基于分字的词向量模型获得所述分字词语的词向量,对所述分字词语的词向量进行拼接得到第二词向量矩阵,运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取;其中,所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本;
S04,对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别。
相较于现有技术,本申请对分字与分词的词向量矩阵分别通过两个卷积神经网络模型进行语义提取,拼接两个输出结果,通过算法得到该输入文本属于各类别的概率,并选择概率最大的一个类别作为最后输出;本申请能够充分挖掘出中文短文本所包含的语义信息,有效地处理游戏平台用户问答业务中特征较少的短文本类型的数据,在短文本分类任务识别效果更好,效率也有很大的提升。
具体的,所述分字处理即将文本中每个中文单字视作一个词语进行划分,可结合以下例子进行理解:
原句:我爱自然语言理解。
分词:我,爱,自然,语言,理解。
分字:我,爱,自,然,语,言,理,解。
具体的,词向量模型及卷积神经网络模型均须对语料库中的语料文本进行训练学习;其中,卷积神经网络模型包括卷积层、激活函数、池化层及全连接层,原理在于,卷积层通过变动卷积核的高度计算卷积值并输出到池化层;激活函数能够给神经网络加入一些非线性因素,使得神经网络可以更好地解决较为复杂的问题;池化层可使用Max PoolingOver Time方法,以滑动窗口中的最大值作为输出,抽取卷积层输出的重要特征,然后输出到全连接层,在本实施例中,池化层输出的是1维的1×N向量,用作全连接层的输入;全连接层连接所有的特征后输出。
在本实施例中,所述基于分字的卷积神经网络模型相比于基于分词的卷积神经网络模型,因各自的训练样本不同,故两者卷积核权重也不同;另外,由于分字会导致整体语义联系的缺失,可对所述基于分字的卷积神经网络模型设置相比于基于分词的卷积神经网络模型更多的卷积层和池化层以捕捉到所述第二词向量矩阵更高维的语义联系。
作为一种可选的实施例,还可在所述基于分词的卷积神经网络模型和/或基于分字卷积神经网络模型中加入批量归一化层以规范卷积神经网络模型输入输出数据的分布。
作为一种可选的实施例,对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接,拼接方法可选用add或concate方法,归一化算法可选用Softmax方法。
进一步的,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语,请参阅图2,可包括以下步骤:
S012,对所述输入文本进行文本清洗及格式规范化;
S013,运用分词工具对文本清洗及格式规范化后的输入文本进行分词处理得到分词词语;其中,所述分词工具的词库预设有所述语料文本的游戏类用词;
S014,对文本清洗及格式规范化后的输入文本进行分字处理得到分字词语。
由于用户的输入文本噪声数据较多,存在拼写错误或不完整的问题,因而可通过文本清洗去掉不包含语义信息的词语,并对文本的表达和格式进行纠正和规范化;同时,由于用户的输入文本中夹杂着游戏中一些专有的、非正式的用词用语,运用分词工具并在其词库预设所述语料文本的游戏类用词,能更加准确地对输入文本进行分词。
具体的,文本清洗包括去除标点符号、表情符号和停用词以及如“的”、“啊”、“哦”等等不包含语义信息的词语;格式规范化包括纠正错词,补全简称词,繁体转化为简体;由于输入文本完全由用户决定,所以没有一个固定规范的格式,用户的输入可能会包含错误的拼写和简称,或者使用繁体输入,因此可对此进行纠正和规范。
在一种可选的实施例中,所述分词工具为Jieba,其为一种Python中文分词组件。
在一种可选的实施例中,所述基于分词的词向量模型及基于分字的词向量模型为采用Skip-gram并加入负采样进行模型训练的Word2Vec模型;所述第一词向量矩阵及第二词向量矩阵为M×N的矩阵,M为所述分词词语或分字词语的个数,N为词向量维度。
Word2Vec模型结构请参阅图3,具体在于把使用独热编码表示的词向量降维,变成较低维度的词向量,其网络只有一层隐藏层,该层神经元即是Word2Vec词向量表达;该神经网络的实际输出结果是隐藏层神经元的权重,输入和输出均为独热编码的词向量,神经元不使用非线性激活函数,构成类似Auto Encoder结构。用户输入的问题文本中的词语经过Word2Vec模型后,会从文本类型的数据转换为一组向量,原来问题中的每个词语都会变成一个词向量,即对于一个词语wi,经过Word2Vec模型后输出为[vi1,vi2,...,vin],其中n为设定的词向量维度,也是Word2Vec模型中间隐藏神经元的个数。
相比CBOW采用输入为上下文,输出为当前词语的方式,Skip-gram采用输入为当前词语,输出为上下文的方式;针对游戏平台用户问答业务的内容,由于本申请涉及的语料库存在较多的低频词语,Skip-gram因上述特点能比CBOW更好处理含低频词较多的语料库;而在Skip-gram中加入负采样还能减少出现频率较多的词语的影响;相比现有技术中通过加权平均把多个句子中的词向量压缩成一个相同维度句子向量,本申请将输入文本所包含的所有词向量拼接为M×N的矩阵,M为所述分词词语或分字词语的个数,N为词向量维度,能有效避免语义信息的丢失。
具体的,以一个句子作为例子,Skip-gram需要先定义一个窗口尺寸k,对于处于位置i的词语wi,其上下文最大距离即为k,因此上下文词语包含:wi,...,wi-1,wi+1,...,wi+k。训练时,如果中心词为wi,对于所有邻近中心词的上下文词语wj,其中j满足i-k≤j≤i+k且j≠i,构造输入输出对(wi,wj)作为神经网络模型的输入输出,重复一定次数,得到中间隐藏层神经元权重向量作为中心词wi的词向量进行输出。
在一种可选的实施例中,所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型中的每个卷积层都包括一组尺寸为h×n的卷积核;其中,卷积核高度h可变,1≤h≤m,m为词向量矩阵高度,n为词向量维度。
与现有卷积神经网络中的卷积层不同的是,本申请使用的卷积层中的卷积核高度是可变的,其高度h会由1变化增加到m,请参阅图4,每个卷积核高度的卷积计算结果对应输出矩阵的一行向量,因此输出矩阵可以捕捉到每一个词语的所有N-gram集合的语义。
进一步的,根据每一个卷积核kernel,输入词向量矩阵W,卷积层一行输出yi,按以下方式运算得到点积的值yij
yij=f(kernel·[vj,vj+h-1]+b);
其中,b是偏置项,v是词向量,[vj,vj+h-1]表示词向量矩阵W中尺寸为h×n的子矩阵,由词向量矩阵W中j行到j+h-1行的词向量v构成,1≤j≤m;卷积核kernel从上至下与尺寸为h×n的子矩阵做点积,拼接所有点积的值yij得到一行的输出yi
进一步的,所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型的激活函数表达式如下:
Figure BDA0002317201750000081
该激活函数的特点是在x>0时其导数恒为1,在x≤0时其导数恒为0,因此在更新卷积核权重时可以避免出现梯度消失或梯度弥散问题。
进一步的,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别,包括按以下方式运算得到各个分类类别的结果pi
Figure BDA0002317201750000082
其中,i为一个分类类别,pi为分类类别i的概率,z为全连接层的输出向量,其下标为向量对应位置的数值,k为所有分类类别的总数,各个分类类别的概率pi相加和为1。
一种游戏平台用户问答业务的短文本分类系统,请参阅图5,包括:
输入文本处理模块1,用于获取用户的输入文本,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语;
分词语义提取模块2,用于运用基于分词的词向量模型获得所述分词词语的词向量,对所述分词词语的词向量进行拼接得到第一词向量矩阵,运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取;其中,所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本;
分字语义提取模块3,用于运用基于分字的词向量模型获得所述分字词语的词向量,对所述分字词语的词向量进行拼接得到第二词向量矩阵,运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取;其中,所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本;
概率最大的分类类别获取模块4,用于对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别。
本实施例还提供一种储存介质,其上储存有计算机程序,所述计算机程序被处理器执行时实现前述游戏平台用户问答业务的短文本分类方法的步骤。
本实施例还提供一种计算机设备,包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现前述游戏平台用户问答业务的短文本分类方法的步骤。
本实施例所提供的实施方式,在根据具体的应用业务进行适应性调整之后,同样可适用于其他短文本分类任务场景。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (7)

1.一种游戏平台用户问答业务的短文本分类方法,其特征在于,包括以下步骤:
获取用户的输入文本,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语;
运用基于分词的词向量模型获得所述分词词语的词向量,对所述分词词语的词向量进行拼接得到第一词向量矩阵,运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取;其中,所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本;
运用基于分字的词向量模型获得所述分字词语的词向量,对所述分字词语的词向量进行拼接得到第二词向量矩阵,运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取;其中,所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本;
对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别;
所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型中的每个卷积层都包括一组尺寸为h×n的卷积核;其中,卷积核高度h可变,1≤h≤m,m为词向量矩阵高度,n为词向量维度;
根据每一个卷积核kernel,输入词向量矩阵W,卷积层一行输出yi,按以下方式运算得到点积的值yij
yij=f(kernel·[vj,vj+h-1]+b);
其中,b是偏置项,v是词向量,[vj,vj+h-1]表示词向量矩阵W中尺寸为h×n的子矩阵,由词向量矩阵W中j行到j+h-1行的词向量v构成,1≤j≤m;卷积核kernel从上至下与尺寸为h×n的子矩阵做点积,拼接所有点积的值yij得到一行的输出yi
所述对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别,包括按以下方式运算得到各个分类类别的结果pi
Figure FDA0004092742560000011
其中,i为一个分类类别,pi为分类类别i的概率,z为全连接层的输出向量,其下标为向量对应位置的数值,k为所有分类类别的总数,各个分类类别的概率pi相加和为1。
2.根据权利要求1所述的游戏平台用户问答业务的短文本分类方法,其特征在于,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语,包括以下步骤:
对所述输入文本进行文本清洗及格式规范化;
运用分词工具对文本清洗及格式规范化后的输入文本进行分词处理得到分词词语;其中,所述分词工具的词库预设有所述语料文本的游戏类用词;
对文本清洗及格式规范化后的输入文本进行分字处理得到分字词语。
3.根据权利要求1所述的游戏平台用户问答业务的短文本分类方法,其特征在于,所述基于分词的词向量模型及基于分字的词向量模型为采用Skip-gram并加入负采样进行模型训练的Word2Vec模型;所述第一词向量矩阵及第二词向量矩阵为M×N的矩阵,M为所述分词词语或分字词语的个数,N为词向量维度。
4.根据权利要求1所述的游戏平台用户问答业务的短文本分类方法,其特征在于,所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型的激活函数表达式如下:
Figure FDA0004092742560000021
5.一种游戏平台用户问答业务的短文本分类系统,其特征在于,包括:
输入文本处理模块,用于获取用户的输入文本,对所述输入文本分别进行分词和分字处理,得到分词词语和分字词语;
分词语义提取模块,用于运用基于分词的词向量模型获得所述分词词语的词向量,对所述分词词语的词向量进行拼接得到第一词向量矩阵,运用基于分词的卷积神经网络模型对所述第一词向量矩阵进行语义提取;其中,所述基于分词的词向量模型及卷积神经网络模型的训练样本源于经过分词处理的语料文本;
分字语义提取模块,用于运用基于分字的词向量模型获得所述分字词语的词向量,对所述分字词语的词向量进行拼接得到第二词向量矩阵,运用基于分字的卷积神经网络模型对所述第二词向量矩阵进行语义提取;其中,所述基于分字的词向量模型及卷积神经网络模型的训练样本源于经过分字处理的语料文本;所述基于分词的卷积神经网络模型及基于分字的卷积神经网络模型中的每个卷积层都包括一组尺寸为h×n的卷积核;其中,卷积核高度h可变,1≤h≤m,m为词向量矩阵高度,n为词向量维度;根据每一个卷积核kernel,输入词向量矩阵W,卷积层一行输出yi,按以下方式运算得到点积的值yij
yij=f(kernel·[vj,vj+h-1]+b);
其中,b是偏置项,v是词向量,[vj,vj+h-1]表示词向量矩阵W中尺寸为h×n的子矩阵,由词向量矩阵W中j行到j+h-1行的词向量v构成,1≤j≤m;卷积核kernel从上至下与尺寸为h×n的子矩阵做点积,拼接所有点积的值yij得到一行的输出yi
概率最大的分类类别获取模块,用于对所述第一词向量矩阵及第二词向量矩阵的语义提取结果进行拼接,对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别;所述对拼接后的语义提取结果进行归一化处理以获取概率最大的分类类别,包括按以下方式运算得到各个分类类别的结果pi
Figure FDA0004092742560000031
其中,i为一个分类类别,pi为分类类别i的概率,z为全连接层的输出向量,其下标为向量对应位置的数值,k为所有分类类别的总数,各个分类类别的概率pi相加和为1。
6.一种储存介质,其上储存有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的游戏平台用户问答业务的短文本分类方法的步骤。
7.一种计算机,其特征在于:包括储存介质、处理器以及储存在所述储存介质中并可被所述处理器执行的计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的游戏平台用户问答业务的短文本分类方法的步骤。
CN201911282726.8A 2019-12-13 2019-12-13 一种游戏平台用户问答业务的短文本分类方法 Active CN111104513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911282726.8A CN111104513B (zh) 2019-12-13 2019-12-13 一种游戏平台用户问答业务的短文本分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911282726.8A CN111104513B (zh) 2019-12-13 2019-12-13 一种游戏平台用户问答业务的短文本分类方法

Publications (2)

Publication Number Publication Date
CN111104513A CN111104513A (zh) 2020-05-05
CN111104513B true CN111104513B (zh) 2023-05-02

Family

ID=70421764

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911282726.8A Active CN111104513B (zh) 2019-12-13 2019-12-13 一种游戏平台用户问答业务的短文本分类方法

Country Status (1)

Country Link
CN (1) CN111104513B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113378567B (zh) * 2021-07-05 2022-05-10 广东工业大学 一种针对低频词进行改善的中文短文本分类方法
CN113724037A (zh) * 2021-08-02 2021-11-30 深圳依时货拉拉科技有限公司 非正常订单处理方法、装置、存储介质和计算机设备
CN114492420B (zh) * 2022-04-02 2022-07-29 北京中科闻歌科技股份有限公司 文本分类方法、装置、设备及计算机可读存储介质
CN115186679A (zh) * 2022-07-15 2022-10-14 广东广信通信服务有限公司 智能应答方法、装置、计算机设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301453A (zh) * 2016-04-15 2017-10-27 北京中科寒武纪科技有限公司 支持离散数据表示的人工神经网络正向运算装置和方法
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN107992329A (zh) * 2017-07-20 2018-05-04 上海寒武纪信息科技有限公司 一种计算方法及相关产品
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301453A (zh) * 2016-04-15 2017-10-27 北京中科寒武纪科技有限公司 支持离散数据表示的人工神经网络正向运算装置和方法
CN107992329A (zh) * 2017-07-20 2018-05-04 上海寒武纪信息科技有限公司 一种计算方法及相关产品
CN107656990A (zh) * 2017-09-14 2018-02-02 中山大学 一种基于字和词两个层面特征信息的文本分类方法
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法

Also Published As

Publication number Publication date
CN111104513A (zh) 2020-05-05

Similar Documents

Publication Publication Date Title
CN111104513B (zh) 一种游戏平台用户问答业务的短文本分类方法
CN109284506B (zh) 一种基于注意力卷积神经网络的用户评论情感分析系统及方法
CN109271522B (zh) 基于深度混合模型迁移学习的评论情感分类方法及系统
CN107291693B (zh) 一种改进词向量模型的语义计算方法
CN107025284B (zh) 网络评论文本情感倾向的识别方法及卷积神经网络模型
CN107526785B (zh) 文本分类方法及装置
CN108549658B (zh) 一种基于语法分析树上注意力机制的深度学习视频问答方法及系统
CN108170848B (zh) 一种面向中国移动智能客服的对话场景分类方法
CN106569998A (zh) 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107608953B (zh) 一种基于不定长上下文的词向量生成方法
CN112749274B (zh) 基于注意力机制和干扰词删除的中文文本分类方法
CN111552803A (zh) 一种基于图小波网络模型的文本分类方法
CN110866113B (zh) 基于稀疏自注意力机制微调伯特模型的文本分类方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN112784532A (zh) 用于短文本情感分类的多头注意力记忆网络
CN108647206B (zh) 基于混沌粒子群优化cnn网络的中文垃圾邮件识别方法
CN108985442B (zh) 手写模型训练方法、手写字识别方法、装置、设备及介质
CN111507093A (zh) 一种基于相似字典的文本攻击方法、装置及存储介质
CN114048729A (zh) 医学文献评价方法、电子设备、存储介质和程序产品
CN116468938A (zh) 一种在标签带噪数据上鲁棒的图像分类方法
CN115130538A (zh) 文本分类模型的训练方法、文本处理的方法、设备及介质
CN113157919A (zh) 语句文本方面级情感分类方法及系统
CN112528168B (zh) 基于可形变自注意力机制的社交网络文本情感分析方法
CN117033961A (zh) 一种上下文语境感知的多模态图文分类方法
CN112434686A (zh) 针对ocr图片的端到端含错文本分类识别仪

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant