CN110472041A - 一种面向客服在线质检的文本分类方法 - Google Patents
一种面向客服在线质检的文本分类方法 Download PDFInfo
- Publication number
- CN110472041A CN110472041A CN201910583894.4A CN201910583894A CN110472041A CN 110472041 A CN110472041 A CN 110472041A CN 201910583894 A CN201910583894 A CN 201910583894A CN 110472041 A CN110472041 A CN 110472041A
- Authority
- CN
- China
- Prior art keywords
- vector
- text
- word
- layer
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Marketing (AREA)
- Human Computer Interaction (AREA)
- Finance (AREA)
- Economics (AREA)
- Development Economics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Strategic Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种面向客服在线质检的文本分类方法,包括以下步骤:步骤1.语音转文本;步骤2.数据标注;步骤3.数据预处理;步骤4.选择特征编码方式(包括one‑hot(word2vec)+位置编码、n‑gram);步骤5.分类模型选择(starspace、CNN)。本发明处理的问题是针对当下采用分类方法进行在线客服质检时如何考虑实体顺序关系,希望能够在有限的数据量情况下,充分考虑顺序关系,从而改善效果。本发明的优点是:引入词序特征,不增加数据量需求,简单易实现。
Description
技术领域
本发明属于自然语言处理领域,提出了有效识别实体顺序的客服在线质检分 类技术,通过对现有的部分特征构建方式与分类模型的分析,总结其各自值得借 鉴的优点,并且结合企业实际语料的特点,构建出简单而有效,能够在小样本量 情况下适用的考虑实体顺序的分类方法。
技术背景
如今大多数企业为了提供更好的服务给客户,都会提供电话咨询。在这个客 服与客户在线交流的过程中,判断客服是否按公司要求提供服务称为在线质检。 目前常用做法是针对特定服务场景将客服与客户的对话内容转成文本,再对客服 所说话语进行文本分析,判断客服的服务内容是否满足事先规定的业务规程,进 而判断客服是否合格。在文本分析过程中会涉及大量业务场景,需要不同的技术 予以解决,其中一些场景需要对实体顺序关系进行考虑。例如在电信行业,客服 在同一句话中推送了A和B,但是公司要求先推送A再推送B,则此时分类模 型还需要能够识别这样的顺序关系。在绝大多数情况下,这样的推送顺序关系体 现在词序上。目前分类中考虑词序主要从两个角度:
第一个角度是特征表示,将文本表示成合适的特征向量放入分类模型中训练, 常见的特征表示有:one-hot、n-gram、word2vec等,其中one-hot使用简便,较 为常用,在one-hot方法下构建得到的特征向量每一维对应一个词(或者字符), 向量维度对应语料中的总词(字符)数,因此其得到的特征向量往往十分稀疏, 而且词与词之间没有关联,相互不影响,导致one-hot构建的特征也没有考虑词 序。n-gram特征构建与one-hot类似,n-gram方法得到的特征向量每一维对应n 个词(或者字符)。当n=1时one-hot等同于n-gram。N取值2或3较为常用。 N-gram特征构建因为考虑的是连续的词组,所以包含词与词之间顺序关系,但 是其能够考虑的顺序关系距离受n限制,当两个词之间的距离超过n则两者之间 顺序关系考虑不到。word2vec作为一种词向量模型往往可以得到很好的词向量 表示,但是在很多时候公司无法提供以供模型训练的大量语料,若强行使用word2vec,效果相较one-hot没有多大提升,甚至不如。
第二个角度是分类模型。考虑到词序的文本分类也是一个序列问题,一旦涉 及序列问题很容易想到使用循环神经网络(RNN)。在RNN中,独特的隐藏层 处理方式使得它在处理序列问题具有天然的优势,但是RNN训练无法并行,因 此训练速度也受到限制。卷积神经网络(CNN)也是文本分类常用的模型,相 较RNN而言CNN模型的训练过程可以并行,训练速度快。CNN在卷积的过程 中考虑了词序。但是单层卷积的CNN捕获特征的距离十分有限,而多层卷积对数 据量的要求会提高。
发明内容
为了克服现有服务行业客服在线质检的分类模型和特征提取的特点以及不 足之处,本发明提供一种面向客服在线质检的文本分类方法,引入词序特征,不 增加数据量需求,简单易实现,该方法基于客服人员与客户之间的语音通话数据, 在语音转文本之后,针对客服所说的内容文本,结合数据预处理、人工特征构建 与分类模型调整,最后判断客服是否质检合格。
为了解决上述技术问题本发明提供如下的技术方案:
一种面向客服在线质检的文本分类方法包括以下步骤:
步骤1.数据准备及预处理,过程如下:
1.1语音转文本
需要分类的数据来自在线客服与客户的交流,将语音数据转译成文本数据。
1.2数据标注
1.3数据预处理
采用基于tf-idf特征的无用词过滤,步骤如下:
S1)计算tf,统计每条文本中出现的词以及对应的词频;
S2)计算idf,统计所有语料中出现的词,对于每一个词,计算其出现过的文 本数;
S3)对于每条文本,计算改文本中出现词的tf-idf=tf*idf;
S4)对于每条文本,去除掉tf-idf低于阈值k的词,k作为超参数其值的选取 可根据具体任务调节;
步骤2.特征表示,过程如下:
2.1one-hot(word2vec)+位置编码
得到词对应的one-hot特征向量wi之后,将wi加上对应位置的位置编码向量pi得到新的词向量w′i,位置编码向量的计算采用正余弦位置编码公式计算:
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
为了使得位置编码向量与one-hot编码的词向量相加,两者的维度必须相同,并且不能直接将w′i相加得到对应的文本向量,若这样做,位置编码将没有效果; 本方案使用嵌入的方式得到对应的句向量,只需要在对应的分类模型中的输入层 加上一层嵌入层即可。
若应用场景下的数据量足够多,使用word2vec训练得到词向量来取代简单 的one-hot表示;
2.2n-gram
采用累加的方式得到对应的文本向量,不需要训练额外的嵌入层,能够考虑 的顺序关系距离受n限制,而且n的取值越大会使得到的特征向量越稀疏;
步骤3.分类模型,结合选用的特征表示方法构建不同的分类模型,过程如 下:
3.1one-hot(word2vec)+位置编码+starspace;
S1)输入层:输入层有两个通道,分别对应文本实体的嵌入和类别实体的嵌 入,结合特征表示阶段构建的结合了位置编码的词向量,在经过一层嵌入层之后, 得到对应文本的特征向量作为文本实体通道的输入,将所有的类别实体用 one-hot表示,每一维对应一个类别,从而得到相应的实体向量表示作为实体嵌 入通道的输入;
S2)隐藏层:两层简单的神经网络层,参数根据具体应用调节;
S3)输出层:输出文本实体的嵌入向量和类别实体的嵌入向量;
3.2n-gram+CNN;
步骤如下:
S1)构建n-gram特征向量,向量的每一维对应一个n元词组;
S2)对每一条文本,即n元词组序列,其文本的特征矩阵作为CNN模型的输 入,每一个n元词组对应一个向量;
S3)设置响应的卷积核大小和数量,每个卷积核在文本特征矩阵上单方向移 动,每次移动都通过矩阵计算得到对应位置的特征,直至提取完整条文本的特征, 最后得到对应的特征向量;
S4)抛弃池化过程,因为在池化过程中会丢失一些位置信息。直接经过 softmax层输出分类结果;
本发明拟解决的问题是针对当下采用分类方法进行在线客服质检时如何考 虑实体顺序关系,希望能够在有限的数据量情况下,充分考虑实体顺序,从而改 善效果。
本发明的有益效果是:引入词序特征,不增加数据量需求,简单易实现。
附图说明
图1是本发明方案的总流程图。
图2是starspace模型架构图。
图3是CNN卷积过程示意图。
具体实施方式
下面结合附图对本发明做进一步说明。
参照图1~图3,一种面向客服在线质检的文本分类方法,包括以下步骤:
步骤1.数据准备及预处理
该步骤的目的是为了了解实际应用场景中的数据并进行相应的数据标注,了 解数据特点会对之后的数据特征表示和分类模型的选择上有所帮助。该阶段主要 包涵下列步骤:
1.1语音转文本
需要分类的数据来自在线客服与客户的交流,主要是语音数据,因此第一步 需要将语音数据转译成文本数据。
1.2数据标注
实际场景下,客户与客服在一次咨询中的交流内容很多而实际需要标注的话 语往往只有几句,但为了标注这几句话,标注人员不得不看完一整段对话,这大 大影响了标注的速度和质量,因此在有限的人力下标注出来的数据量不多。
1.3数据预处理
在服务行业下客户与客服的交流过程中,很多口语表述的习惯以及口音导致 语音到文本的转译会出现很多错误,这就导致了实际产生的文本会有很多噪音, 此时适当的文本预处理就十分重要。
本方法采用基于tf-idf特征的无用词过滤,步骤如下:
S1)计算tf,统计每条文本中出现的词以及对应的词频。
S2)计算idf,统计所有语料中出现的词,对于每一个词,计算其出现过的文 本数。
S3)对于每条文本,计算改文本中出现词的tf-idf=tf*idf。
S4)对于每条文本,去除掉tf-idf低于阈值k的词,k作为超参数其值的选取 可根据具体任务调节。
步骤2.特征表示;
是本方案采用两种可选择的特征表示方案。
2.1one-hot(word2vec)+位置编码
由于onehot特征的构建十分简便,在实际中十分容易操作,所以本方法也 决定采用。与传统使用方案不同,得到词对应的one-hot特征向量w_i之后,不 在进行相加得到对应文本的特征向量t_i,传统方法将w_i累加之后得到的文本 特征向量t_i没有考虑词序特征。本方案中将w_i加上对应位置的位置编码向量 p_i得到新的词向量w_i^'。位置编码向量的计算采用正余弦位置编码公式计算:
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
需要注意的是,为了使得位置编码向量与one-hot编码的词向量相加,两者 的维度必须相同。并且不能直接将w_i^'相加得到对应的文本向量,若这样做, 位置编码将没有效果。本方案使用嵌入的方式得到对应的句向量,只需要在对应 的分类模型中的输入层加上一层嵌入层即可。
若应用场景下的数据量足够多,可以考虑使用word2vec训练得到词向量来 取代简单的one-hot表示。其他步骤相同。
2.2n-gram
相较第一种方式更加简便,对数据量的需求弱于第一种方式,因为第一种方 式中需要使用嵌入的方式由词向量得到对应的文本特征向量,即需要训练的参数 增加了(多了嵌入层),相应的对数据量的要求也增多了,而n-gram的方法可以 采用累加的方式得到对应的文本向量,不需要训练额外的嵌入层。但是其能够考 虑的顺序关系距离受n限制,而且n的取值越大会使得到的特征向量越稀疏,不 利于分类模型的训练,通常n取2或者3。
步骤3.分类模型;
结合选用的特征表示方法构建不同的分类模型。
3.1one-hot(word2vec)+位置编码+starspace;
StarSpace是一种简单的神经网络嵌入模型,对数据量的需求不大。可以应 用在文本分类中。主要思想是将文本与对应的标签都看作实体,文本实体及其对 应的标签实体为正相关,与其他标签(不包含正相关标签实体)实体为负相关,将 所有实体放入同一个神经网络中训练得到对应的嵌入向量。最后得到的正相关实 体向量之间的相似度高,而负相关实体向量之间的相似度低。
S1)输入层:输入层有两个通道,分别对应文本实体的嵌入和类别实体的嵌 入。结合特征表示阶段构建的结合了位置编码的词向量,在经过一层嵌入层之后, 得到对应文本的特征向量作为文本实体通道的输入。将所有的类别实体用 one-hot表示,每一维对应一个类别,从而得到相应的实体向量表示作为实体嵌 入通道的输入。
S2)隐藏层:两层简单的神经网络层,参数根据具体应用调节。
S3)输出层:输出文本实体的嵌入向量和类别实体的嵌入向量。。
3.2n-gram+CNN;
CNN模型在文本分类中使用时,其卷积核就相当于特征抽取器,例如一个 KxN(N表示词向量维度,K表示词数)的卷积核会抽取相应的K-gram特征,所以 想要考虑词序是可以使用CNN模型的。但是单层卷积(即一个卷积层)的CNN 捕获特征的距离十分有限。上述大小的卷积核只能考虑到距离为K的词之间的 关系,为了让CNN能够捕捉距离更远的词之间的关系可以采用多层卷积的方式, 但是这样的做法对数据量的要求也提高了。
为了让能够不增加数据量需求,同时使用CNN模型能够捕获更远距离特征, 本方案提出使用n-gram+CNN的方式。n-gram特征可以人为构建,不需要经过训 练。步骤如下:
S1)构建n-gram特征向量,向量的每一维对应一个n元词组。
S2)对每一条文本(n元词组序列),其文本的特征矩阵(每一个n元词组对 应一个向量)作为CNN模型的输入。
S3)设置响应的卷积核大小和数量,每个卷积核在文本特征矩阵上单方向移 动,每次移动都通过矩阵计算得到对应位置的特征,直至提取完整条文本的特征, 最后得到对应的特征向量。
S4)抛弃池化过程,因为在池化过程中会丢失一些位置信息。直接经过 softmax层输出分类结果。
本实施例中,假设某一条已经标注了的对话文本:“这种是100块的包月套 餐,那您是要这种包年的套餐吗?”分词之后的结果为“这种是包月套餐您是 要这种包年的套餐吗”;
特征表示阶段
采用one-hot+位置编码的方式过程如下:
表1为计算one-hot编码向量
这种 | 是 | 包月 | 套餐 | 您 | 要 | 包年 | 的 | 吗 | |
2 | 2 | 1 | 2 | 1 | 1 | 1 | 1 | 1 |
表1
表2为计算位置编码向量;
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
i=1 | i=2 | i=3 | i=4 | i=5 | i=6 | i=7 | i=8 | i=9 |
pos=1 | pos=1 | pos=1 | pos=1 | pos=1 | pos=1 | pos=1 | pos=1 | pos=1 |
PE(1,1) | PE(1,2) | PE(1,3) | PE(1,4) | PE(1,5) | PE(1,6) | PE(1,7) | PE(1,8) | PE(1,9) |
表2
n-gram特征编码的方式如下:
CNN模型的输入为17x17的矩阵。
Claims (2)
1.一种面向客服在线质检的文本分类方法,其特征在于,所述方法包括下列步骤
步骤1.数据准备及预处理,过程如下:
1.1语音转文本
需要分类的数据来自在线客服与客户的交流,将语音数据转译成文本数据;
1.2数据标注
1.3数据预处理
步骤2.特征表示,采用两种可选择的特征表示方案,如下:
2.1 one-hot(word2vec)+位置编码
得到词对应的one-hot特征向量wi之后,将wi加上对应位置的位置编码向量pi得到新的词向量w′i,位置编码向量的计算采用正余弦位置编码公式计算:
PE(pos,2i)=sin(pos/100002i/d)
PE(pos,2i+1)=cos(pos/100002i/d)
为了使得位置编码向量与one-hot编码的词向量相加,两者的维度必须相同,并且不能直接将w′i相加得到对应的文本向量,使用嵌入的方式得到对应的句向量,只需要在对应的分类模型中的输入层加上一层嵌入层即可;
若应用场景下的数据量足够多,使用word2vec训练得到词向量来取代简单的one-hot表示;
2.2 n-gram
采用累加的方式得到对应的文本向量,不需要训练额外的嵌入层,但是其能够考虑的顺序关系距离受n限制,而且n的取值越大会使得到的特征向量越稀疏;
步骤3.分类模型,结合选用的特征表示方法构建不同的分类模型,过程如下:
3.1 one-hot(word2vec)+位置编码+starspace;
S1)输入层:输入层有两个通道,分别对应文本实体的嵌入和类别实体的嵌入,结合特征表示阶段构建的结合了位置编码的词向量,在经过一层嵌入层之后,得到对应文本的特征向量作为文本实体通道的输入,将所有的类别实体用one-hot表示,每一维对应一个类别,从而得到相应的实体向量表示作为实体嵌入通道的输入;
S2)隐藏层:两层简单的神经网络层,参数根据具体应用调节;
S3)输出层:输出文本实体的嵌入向量和类别实体的嵌入向量;
3.2 n-gram+CNN,构建步骤如下:
S1)构建n-gram特征向量,向量的每一维对应一个n元词组,
S2)对每一条文本,即n元词组序列,其文本的特征矩阵作为CNN模型的输入,每一个n元词组对应一个向量;
S3)设置响应的卷积核大小和数量,每个卷积核在文本特征矩阵上单方向移动,每次移动都通过矩阵计算得到对应位置的特征,直至提取完整条文本的特征,最后得到对应的特征向量;
S4)抛弃池化过程,因为在池化过程中会丢失一些位置信息,直接经过softmax层输出分类结果。
2.如权利要求1所述的一种面向客服在线质检的文本分类方法,其特征在于,所述1.3中,数据预处理的步骤如下:
S1)计算tf,统计每条文本中出现的词以及对应的词频;
S2)计算idf,统计所有语料中出现的词,对于每一个词,计算其出现过的文本数;
S3)对于每条文本,计算改文本中出现词的tf-idf=tf*idf;
S4)对于每条文本,去除掉tf-idf低于阈值k的词,k作为超参数其值的选取可根据具体任务调节。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910583894.4A CN110472041B (zh) | 2019-07-01 | 2019-07-01 | 一种面向客服在线质检的文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910583894.4A CN110472041B (zh) | 2019-07-01 | 2019-07-01 | 一种面向客服在线质检的文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110472041A true CN110472041A (zh) | 2019-11-19 |
CN110472041B CN110472041B (zh) | 2021-08-03 |
Family
ID=68507426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910583894.4A Active CN110472041B (zh) | 2019-07-01 | 2019-07-01 | 一种面向客服在线质检的文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110472041B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126071A (zh) * | 2019-12-02 | 2020-05-08 | 支付宝(杭州)信息技术有限公司 | 提问文本数据的确定方法、装置和客服群的数据处理方法 |
CN111221974A (zh) * | 2020-04-22 | 2020-06-02 | 成都索贝数码科技股份有限公司 | 基于层级结构多标签体系的新闻文本分类模型的构建方法 |
CN111522916A (zh) * | 2020-04-20 | 2020-08-11 | 马上消费金融股份有限公司 | 一种语音服务质量检测方法、模型训练方法及装置 |
CN111538809A (zh) * | 2020-04-20 | 2020-08-14 | 马上消费金融股份有限公司 | 一种语音服务质量检测方法、模型训练方法及装置 |
CN111597818A (zh) * | 2020-04-09 | 2020-08-28 | 深圳追一科技有限公司 | 呼叫质检方法、装置、计算机设备和计算机可读存储介质 |
CN111815425A (zh) * | 2020-07-27 | 2020-10-23 | 上海观安信息技术股份有限公司 | 一种基于实体嵌入的用户信用风险等级判定方法及系统 |
CN112861782A (zh) * | 2021-03-07 | 2021-05-28 | 上海大学 | 票据照片关键信息提取系统及方法 |
CN113723975A (zh) * | 2021-09-13 | 2021-11-30 | 国泰君安证券股份有限公司 | 智能回访业务中实现智能质检处理的系统、方法、装置、处理器及其计算机可读存储介质 |
CN113837517A (zh) * | 2020-12-01 | 2021-12-24 | 北京沃东天骏信息技术有限公司 | 事件的触发方法及装置、介质及电子设备 |
CN114511058A (zh) * | 2022-01-27 | 2022-05-17 | 国网江苏省电力有限公司泰州供电分公司 | 一种用于电力用户画像的负荷元件构建方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105808721A (zh) * | 2016-03-07 | 2016-07-27 | 中国科学院声学研究所 | 一种基于数据挖掘的客服内容分析方法及其系统 |
WO2016170561A1 (en) * | 2015-04-24 | 2016-10-27 | Nec Corporation | An information processing system and an information processing method for semantic enrichment of text |
CN107247702A (zh) * | 2017-05-05 | 2017-10-13 | 桂林电子科技大学 | 一种文本情感分析处理方法和系统 |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN109726285A (zh) * | 2018-12-18 | 2019-05-07 | 广州多益网络股份有限公司 | 一种文本分类方法、装置、存储介质及终端设备 |
-
2019
- 2019-07-01 CN CN201910583894.4A patent/CN110472041B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016170561A1 (en) * | 2015-04-24 | 2016-10-27 | Nec Corporation | An information processing system and an information processing method for semantic enrichment of text |
CN105808721A (zh) * | 2016-03-07 | 2016-07-27 | 中国科学院声学研究所 | 一种基于数据挖掘的客服内容分析方法及其系统 |
CN107247702A (zh) * | 2017-05-05 | 2017-10-13 | 桂林电子科技大学 | 一种文本情感分析处理方法和系统 |
CN107301246A (zh) * | 2017-07-14 | 2017-10-27 | 河北工业大学 | 基于超深卷积神经网络结构模型的中文文本分类方法 |
CN109726285A (zh) * | 2018-12-18 | 2019-05-07 | 广州多益网络股份有限公司 | 一种文本分类方法、装置、存储介质及终端设备 |
Non-Patent Citations (1)
Title |
---|
王根生: "基于Word2vec和改进型TF-IDF的卷积神经网络文本分类模型", 《小型微型计算机系统》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126071B (zh) * | 2019-12-02 | 2023-05-12 | 支付宝(杭州)信息技术有限公司 | 提问文本数据的确定方法、装置和客服群的数据处理方法 |
CN111126071A (zh) * | 2019-12-02 | 2020-05-08 | 支付宝(杭州)信息技术有限公司 | 提问文本数据的确定方法、装置和客服群的数据处理方法 |
CN111597818A (zh) * | 2020-04-09 | 2020-08-28 | 深圳追一科技有限公司 | 呼叫质检方法、装置、计算机设备和计算机可读存储介质 |
CN111597818B (zh) * | 2020-04-09 | 2023-10-24 | 深圳追一科技有限公司 | 呼叫质检方法、装置、计算机设备和计算机可读存储介质 |
CN111522916B (zh) * | 2020-04-20 | 2021-03-09 | 马上消费金融股份有限公司 | 一种语音服务质量检测方法、模型训练方法及装置 |
CN111538809A (zh) * | 2020-04-20 | 2020-08-14 | 马上消费金融股份有限公司 | 一种语音服务质量检测方法、模型训练方法及装置 |
CN111538809B (zh) * | 2020-04-20 | 2021-03-16 | 马上消费金融股份有限公司 | 一种语音服务质量检测方法、模型训练方法及装置 |
CN111522916A (zh) * | 2020-04-20 | 2020-08-11 | 马上消费金融股份有限公司 | 一种语音服务质量检测方法、模型训练方法及装置 |
CN111221974A (zh) * | 2020-04-22 | 2020-06-02 | 成都索贝数码科技股份有限公司 | 基于层级结构多标签体系的新闻文本分类模型的构建方法 |
CN111815425A (zh) * | 2020-07-27 | 2020-10-23 | 上海观安信息技术股份有限公司 | 一种基于实体嵌入的用户信用风险等级判定方法及系统 |
CN113837517A (zh) * | 2020-12-01 | 2021-12-24 | 北京沃东天骏信息技术有限公司 | 事件的触发方法及装置、介质及电子设备 |
CN112861782A (zh) * | 2021-03-07 | 2021-05-28 | 上海大学 | 票据照片关键信息提取系统及方法 |
CN113723975A (zh) * | 2021-09-13 | 2021-11-30 | 国泰君安证券股份有限公司 | 智能回访业务中实现智能质检处理的系统、方法、装置、处理器及其计算机可读存储介质 |
CN114511058A (zh) * | 2022-01-27 | 2022-05-17 | 国网江苏省电力有限公司泰州供电分公司 | 一种用于电力用户画像的负荷元件构建方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110472041B (zh) | 2021-08-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110472041A (zh) | 一种面向客服在线质检的文本分类方法 | |
JP6182272B2 (ja) | 自然表現の処理方法、処理及び応答方法、装置、及びシステム | |
US8756064B2 (en) | Method and system for creating frugal speech corpus using internet resources and conventional speech corpus | |
CN103458056A (zh) | 自动外呼系统基于自动分类技术的语音意图判定方法 | |
CN112231472B (zh) | 融入领域术语词典的司法舆情敏感信息识别方法 | |
US20140330566A1 (en) | Providing social-graph content based on a voice print | |
CN105844424A (zh) | 基于网络评论的产品质量问题发现及风险评估方法 | |
CN109002473A (zh) | 一种基于词向量与词性的情感分析方法 | |
CN107967250B (zh) | 一种信息处理方法及装置 | |
CN105912579A (zh) | 一种人物关系图谱的生成方法及装置 | |
CN102855317A (zh) | 一种基于演示视频的多模式索引方法及系统 | |
CN110309400A (zh) | 一种智能理解用户查询意图的方法及系统 | |
CN104899335A (zh) | 一种对网络舆情信息进行情感分类的方法 | |
CN110287341A (zh) | 一种数据处理方法、装置以及可读存储介质 | |
CN109408806A (zh) | 一种基于英文语法规则的事件提取方法 | |
DE102012022733A1 (de) | Mit einem Suchmaschinendienst kombiniertes Werbesystem und Verfahren zu dessen Durchführung | |
Li et al. | Development of an intelligent NLP-based audit plan knowledge discovery system | |
CN106446051A (zh) | Eagle媒资深度搜索方法 | |
CN111199208A (zh) | 一种基于深度学习框架的头像性别识别方法及系统 | |
Higashinaka et al. | Learning to model domain-specific utterance sequences for extractive summarization of contact center dialogues | |
CN109618067A (zh) | 外呼对话处理方法和系统 | |
CN106486114A (zh) | 改进语言模型的方法和装置以及语音识别方法和装置 | |
CN109783648B (zh) | 一种利用asr识别结果改进asr语言模型的方法 | |
CN111061886A (zh) | 一种基于nlp的多媒体作业在线管理系统及方法 | |
CN111651660A (zh) | 一种跨媒体检索困难样本的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |