CN108597519B - 一种话单分类方法、装置、服务器和存储介质 - Google Patents
一种话单分类方法、装置、服务器和存储介质 Download PDFInfo
- Publication number
- CN108597519B CN108597519B CN201810300350.8A CN201810300350A CN108597519B CN 108597519 B CN108597519 B CN 108597519B CN 201810300350 A CN201810300350 A CN 201810300350A CN 108597519 B CN108597519 B CN 108597519B
- Authority
- CN
- China
- Prior art keywords
- consultation
- classification
- text information
- target
- word vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 175
- 238000013145 classification model Methods 0.000 claims abstract description 61
- 238000012549 training Methods 0.000 claims description 75
- 238000011176 pooling Methods 0.000 claims description 13
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 14
- 230000003287 optical effect Effects 0.000 description 6
- 208000002193 Pain Diseases 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 5
- 230000036407 pain Effects 0.000 description 5
- 208000001840 Dandruff Diseases 0.000 description 4
- 210000001015 abdomen Anatomy 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000004927 fusion Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000008961 swelling Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 206010015150 Erythema Diseases 0.000 description 1
- 206010042674 Swelling Diseases 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000009223 counseling Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 208000019622 heart disease Diseases 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种话单分类方法、装置、服务器和存储介质。所述方法包括:对目标咨询电话的语音信息进行识别得到目标咨询文本信息;采用预先确定的语料库中各文字的词向量生成所述目标咨询文本信息的向量表示,其中所述语料库中各文字的词向量是采用标定有业务分类标签的历史咨询文本信息训练得到的;将所述目标咨询文本信息的向量表示作为咨询分类模型的输入,得到所述咨询分类模型检测的目标咨询业务类型。本发明实施例可以自动实现文本分类,并且提高了效率和复用性,节省了人力。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种话单分类方法、装置、服务器和存储介质。
背景技术
随着互联网的发展,客户与企业之间的沟通可以通过越来越多的渠道来实现。其中,客户来电分析工具是一种可以为客户提供电话沟通平台提高广告效果的营销应用平台,通过电话,在企业(客户)和用户之间架起沟通的桥梁,企业端可以提高广告转换率,网民端电话咨询免费,为企业和用户带来双赢。
一般的,用户通过IP电话与企业(客服)第一次沟通(咨询)后,企业后续会根据电话里用户阐述的信息进行业务细化,有针对性的回访,进而达到真正有效的商业业务提升。例如:某家医院,用户通过客户来电分析工具与医院客服进行咨询,客服会提示用户描述具体的病情或者病理特征,但是客服非专业医生,一般来说不能正确的推送给相关科室和医生(业务细化),让相关医生对用户进行回访。如果相关医生能及时有效的回访客户,则该客户选择该医院进行就诊的概率就会非常大,从而真正实现客户来电分析工具给企业带来的商业转换率的有效提高。
目前,绝大多数企业的业务细化还是通过人工完成的,例如医院,是由医院各个科室的医生去收听客户来电分析工具的录音来确定回访的用户。这种方法费事费力,人工运作成本很高,效率有限。另外,即使通过文本分类模型,当前文本分类大多采用人工总结分类规则(Hand-coded rules)或文档主题生成模型(Latent Dirichlet Allocation,LDA)对主题词(topic-word)和主题文档(topic-doc)进行建模,但是这两种方式也有需要人工干预的缺点,即需要知道文本分布的先验知识。对于很多业务,所面对的行业(主题)很多,并且随着业务的扩展会随时增加新的主题(分类类别),因此,这种需要先验知识的方法在每次有新的主题(类别)加入的时候都需要重新训练,显然是十分耗时耗力的。
发明内容
本发明实施例提供了一种话单分类方法、装置、服务器和存储介质,可以自动实现文本分类,并且提高了效率和复用性,节省了人力。
第一方面,本发明实施例提供了一种话单分类方法,包括:
对目标咨询电话的语音信息进行识别得到目标咨询文本信息;
采用预先确定的语料库中各文字的词向量生成所述目标咨询文本信息的向量表示,其中所述语料库中各文字的词向量是采用标定有业务分类标签的历史咨询文本信息训练得到的;
将所述目标咨询文本信息的向量表示作为咨询分类模型的输入,得到所述咨询分类模型检测的目标咨询业务类型。
第二方面,本发明实施例还提供了一种话单分类装置,该装置包括:
识别模块,用于对目标咨询电话的语音信息进行识别得到目标咨询文本信息;
向量表示模块,用于采用预先确定的语料库中各文字的词向量生成所述目标咨询文本信息的向量表示,其中所述语料库中各文字的词向量是采用标定有业务分类标签的历史咨询文本信息训练得到的;
目标资讯业务类型模块,用于将所述目标咨询文本信息的向量表示作为咨询分类模型的输入,得到所述咨询分类模型检测的目标咨询业务类型。
第三方面,本发明实施例还提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的话单分类方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述的话单分类方法。
本发明实施例通过预先采用标定有业务分类标签的历史咨询文本信息训练得到语料库中各文字的词向量,对目标咨询电话的语音信息进行识别得到目标咨询文本信息,并采用语料库中各文字的词向量生成所述目标咨询文本信息的向量表示,将所述目标咨询文本信息的向量表示作为咨询分类模型的输入,得到所述咨询分类模型检测的目标咨询业务类型。本发明实施例提供的技术方案中所有的模型都是端到端的模型,可以自动实现文本分类,并且提高了效率和复用性,节省了人力。
附图说明
图1为本发明实施例一中的话单分类方法的流程图;
图2为本发明实施例一中的词向量训练模型的示意图;
图3为本发明实施例一中的词向量训练模型训练得到的词向量分布示意图;
图4为本发明实施例一中的其他模型训练得到的词向量分布示意图;
图5为本发明实施例二中的话单分类方法的流程图;
图6为本发明实施例二中的咨询分类模型的示意图;
图7为本发明实施例二中的一话单分类具体方法的流程图;
图8为本发明实施例三中的话单分类装置的结构示意图;
图9为本发明实施例四中的服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一中的话单分类方法的流程图,本实施例可适用于话单分类的情况,该方法可以由话单分类装置来执行,该装置可以采用软件和/或硬件的方式实现,例如,该装置可配置于服务器中。该方法具体可以包括:
S110、对目标咨询电话的语音信息进行识别得到目标咨询文本信息。
其中,所述目标咨询电话可以为用户通过IP电话(又称宽带电话或网络电话)与目标企业之间进行沟通或咨询的电话。在本实施例中,可以通过语音识别技术将所述语音信息转换为对应的文本信息,所述语音识别技术,又称自动语音识别(Automatic SpeechRecognition,ASR),可以利用计算机将语音信息自动转换为文本或计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别技术主要包括语音特征提取、声学模型与模式匹配和语义理解三个部分。
具体的,目标咨询电话可以在用户咨询过程中进行电话录音,并对存储的语音信息进行语音识别得到对应的文本信息,并将所述对应的文本信息作为目标咨询文本信息。
S120、采用预先确定的语料库中各文字的词向量生成所述目标咨询文本信息的向量表示,其中所述语料库中各文字的词向量是采用标定有业务分类标签的历史咨询文本信息训练得到的。
其中,所述语料库中各文字的词向量是采用标定有业务分类标签的历史咨询文本信息训练得到的,可以包括:将标定有业务分类标签的历史咨询文本信息作为词向量训练模型的样本;将每一词向量训练样本中历史咨询文本信息中各文字的初始词向量作为所述词向量训练模型的输入,该词向量训练样本中业务分类标签作为所述词向量训练模型的分类输出,训练得到所述语料库中各文字的词向量。所述标定有业务分类标签的历史咨询文本信息可以为已经人工进行过业务分类标签标定的历史咨询文本信息,即文本句子和对应的业务分类标签,例如:文本句子可以为“咨询某医院的皮肤科”,对应的业务分类标签可以为“医疗、医院名、皮肤科”。所述业务分类标签可以根据需要进行设置。
所述词向量训练模型依次可以包括词向量输入层、双向长短期记忆网络层、池化层和分类输出层。图2为本发明实施例一中的词向量训练模型的示意图,如图所示,在词向量输入层中将所述标定有业务分类标签的历史文本信息中各文字的初始词向量输入模型中,X1,X2,X3,…Xt,Xt+1为各文字的初始词向量;图中的A代表双向长短期记忆网络(Bi-directional Long-Short Memory Network,BLSTM),双向LSTM可以有一个正向LSTM和一个反向LSTM,正向LSTM可以得到上文的特征信息,反向LSTM可以得到下文的特征信息,相对单向LSTM可以得到更多的特征信息,在模型中优选采用双层双向长短期记忆网络层,能更好的提取到更高层的特征但又不会难以收敛;池化层可以融合BLSTM各个节点(如图h1,h2,h3,…ht,ht+1)的结果信息,池化层可以为平均池化层(mean pooling layer)或者最大池化层(max pooling layer)等;分类输出层可以采用softmax/SVM函数的分类器进行分类,分类器也可以采用其他支持多分类的分类器;输出即为输入样本的分类标签。
将每一词向量训练样本中历史咨询文本信息中各文字的初始词向量作为所述词向量训练模型的输入,该词向量训练样本中业务分类标签作为所述词向量训练模型的分类输出,进行训练,具体的训练过程可以为:对于输入的历史咨询文本信息,将每个文字的初始词向量作为双层BLSTM网络的第一层的输入,初始的词向量可以为全置零的高维度(例如128维)的float数组;将第一层BLSTM的输出作为第二层BLSTM的输入,第二层BLSTM的输出作为池化层的输入;池化层的输出作为分类器的输入,分类器的输出就是输入样本的分类标签。
通过将样本输入所述词向量训练模型进行训练,将每一个词映射成一个固定长度的向量,将所有这些向量放在一起形成一个词向量空间,而每一向量则为该空间中的一个点,在这个空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性;所述词向量空间可以根据业务标签进行划分,同义词或者相关词在空间中容易聚类,例如,医生、护士、患者和疼痛等关键字都可以输出“医院”这样的标签。通过大量标定有业务分类标签的历史咨询文本信息的样本的训练可以得到语料库中每个文字(常用的文字3500个)的高纬度(例如128维)词向量,示例性的,文字“我”,输入的初始词向量为[0,0,0,……,0,0,0](128维度全零向量),训练结束得到的词向量可以为[0.11,0.187,0.877,……,0.09,0,0.344](128维度非全零向量)。
采用所述词向量训练模型进行训练,只通过一次训练即可得到常用文字的词向量空间,避免了多次训练带来的人力和时间的浪费。更重要的是,使用标定有业务分类标签的历史咨询文本信息作为样本进行训练,得到的词向量空间是具有语义信息的,即使得标签对应的相关词在空间中距离非常近,而非相关词距离较远。
示例性的,若输入的样本为:1、“疼痛,红肿,皮屑,腹部,医院”,标定的标签为“医院,皮肤科”;2、“托福,出国,考试,听力,阅读”,标定的标签为“教育,英语”,“疼痛,红肿,皮屑,腹部,医院,托福,出国,考试,听力,阅读”对应的初始词向量都为128维度的全零向量[0,0,0,0,……,0],经过所述词向量训练模型的训练,得到的词向量为:疼痛[0,0.1,0,0,……,0,0]、红肿[0,0.12,0,0,……,0,0]、皮屑[0,0.18,0,0,……,0,0]、腹部[0,0.05,0,0,……,0,0]、医院[0,0.08,0,0,……,0,0]、托福[0,0,0,0,……,0.2,0]、出国[0,0,0,0,……,0.3,0]、考试[0,0,0,0,……,0.7,0]、听力[0,0,0,0,……,0.8,0]、阅读[0,0,0,0,……,0.82,0],上述词语在词向量空间中的分布可以如图3所示。
图3为本发明实施例一中的词向量训练模型训练得到的词向量分布示意图,图中圆形代表“疼痛,红肿,皮屑,腹部,医院”,方形代表“托福,出国,考试,听力,阅读”,可以看出圆形代表的词之间的距离都非常近,圆形代表的词与方形代表的词的距离较远,即可以实现同一标签的相关词距离非常近(在词向量空间中聚类),不同标签相关的词距离很远(在词向量空间中分类)。图4用于与图3做对比,图4为本发明实施例一中的其他模型训练得到的词向量分布示意图,可以看出,采用其他模型,如独热表示(one-hotrepresentation),进行训练得到的词向量分布不具有图3中的特点。
具体的,预先采用标定有业务分类标签的历史咨询文本信息通过在词向量训练模型中的训练可以得到语料库中各文字的词向量,采用所述语料库中各文字的词向量可以生成所述目标咨询文本信息的向量表示。
S130、将所述目标咨询文本信息的向量表示作为咨询分类模型的输入,得到所述咨询分类模型检测的目标咨询业务类型。
其中,所述咨询分类模型可以为预先建立的,并采用历史咨询文本信息进行训练。所述目标咨询业务的类型可以根据不同行业或不同企业的需要进行设置。
具体的,可以将所述目标咨询文本信息的向量表示作为预先训练好的咨询分类模型的输入,输出得到相应的目标咨询业务类型。
在本实施例中,得到所述目标咨询业务类型之后,还可以包括:采用与所述目标咨询业务类型匹配的业务模块对所述目标咨询电话进行回访。例如:若得到的目标咨询业务类型为“皮肤科”,则皮肤科的医生可以对所述目标咨询电话进行回访。
本实施例的技术方案,通过预先采用标定有业务分类标签的历史咨询文本信息训练得到语料库中各文字的词向量,对目标咨询电话的语音信息进行识别得到目标咨询文本信息,并采用语料库中各文字的词向量生成所述目标咨询文本信息的向量表示,将所述目标咨询文本信息的向量表示作为咨询分类模型的输入,得到所述咨询分类模型检测的目标咨询业务类型。本发明实施例提供的技术方案中所有的模型都是端到端的模型,可以自动实现文本分类,并且提高了效率和复用性,节省了人力。
可选的,构建所述咨询分类模型,可以包括:依据所述语料库中各文字的词向量得到历史咨询文本信息中各文字的词向量;将所述历史咨询文本信息中各文字的词向量作为咨询分类模型的输入,所述历史咨询文本信息的业务分类标签作为咨询分类模型的输出,对所述咨询分类模型进行训练。
实施例二
图5为本发明实施例二中的话单分类方法的流程图。本实施例在上述实施例的基础上,进一步优化了上述话单分类方法。相应的,本实施例的方法具体可以包括:
S210、对目标咨询电话的语音信息进行识别得到目标咨询文本信息。
S220、采用预先确定的语料库中各文字的词向量生成所述目标咨询文本信息的向量表示,其中所述语料库中各文字的词向量是采用标定有业务分类标签的历史咨询文本信息训练得到的。
具体的,预先采用标定有业务分类标签的历史咨询文本信息通过在词向量训练模型中的训练可以得到语料库中各文字的词向量,采用所述语料库中各文字的词向量可以生成所述目标咨询文本信息的向量表示。
S231、依据所述语料库中各文字的词向量得到历史咨询文本信息中各文字的词向量。
具体的,依据训练好的语料库中各文字的词向量可以得到历史咨询文本信息中各文字的词向量。
S232、将所述历史咨询文本信息中各文字的词向量作为咨询分类模型的输入,所述历史咨询文本信息的业务分类标签作为咨询分类模型的输出,对所述咨询分类模型进行训练。
其中,所述咨询分类模型为预先建立的,如图6所示。图6为本发明实施例二中的咨询分类模型的示意图,输入为句子中每个文字的词向量,中间的隐藏层为项目层(projectlayer),可以把词向量投影到分类标签空间,项目层可以是循环神经网络或者长短期记忆网络,例如项目层可以为平均池化层(mean pooling layer)。
具体的,将所述历史咨询文本信息中各文字的词向量作为咨询分类模型的输入,所述历史咨询文本信息的业务分类标签作为咨询分类模型的输出,可以对所述咨询分类模型进行训练。
S240、将所述目标咨询文本信息的向量表示作为咨询分类模型的输入,得到所述咨询分类模型检测的目标咨询业务类型。
具体的,将所述目标咨询文本信息的向量表示作为咨询分类模型的输入,可以得到所述咨询分类模型检测的目标咨询业务类型。所述咨询分类模型检测得到的目标咨询业务类型可以为多个,可以通过概率融合将概率大于预设阈值的目标咨询业务类型作为最终的目标咨询业务类型。具体过程可以为:输入目标咨询的一段对话,可以将每个句子输出多个类别(标签)和属于该类别的概率,一段对话中可以包括多个句子,可以将输出做概率融合:P(label_i,dialogue)=∑p(label_i,sentence)/n,其中label_i为第i个标签(如医疗或心脏病等),n为一段对话中句子个数,p(label_i,sentence)表示label_i属于这个句子的概率,P(label_i,dialogue)表示第i个标签属于这段对话的概率,一段对话的得到的分类标签为:label_i=label_i where P(label_i,dialogue)>Thr,其中Thr为预设阈值,比如0.7,即将概率大于预设阈值的标签作为最终的分类标签,所述预设阈值可以根据需要进行设置。
S250、采用与所述目标咨询业务类型匹配的业务模块对所述目标咨询电话进行回访。
本实施例的技术方案,通过预先采用标定有业务分类标签的历史咨询文本信息训练得到语料库中各文字的词向量,对目标咨询电话的语音信息进行识别得到目标咨询文本信息,并采用语料库中各文字的词向量生成所述目标咨询文本信息的向量表示,将所述目标咨询文本信息的向量表示作为咨询分类模型的输入,得到所述咨询分类模型检测的目标咨询业务类型,并采用与所述目标咨询业务类型匹配的业务模块对所述目标咨询电话进行回访。本发明实施例提供的技术方案中所有的模型都是端到端的模型,可以自动实现文本分类,并且提高了效率和复用性,节省了人力,且可以有针对性的直接对客户进行回访,吸引客户,增加商业机会,提高客户来电分析工具的商业转化率。
此外,图7为本发明实施例二中的一话单分类具体方法的流程图,对话单分类的整体流程进行说明,相应的,该方法具体可以包括:电话录音,目标咨询电话可以在用户咨询过程中进行电话录音,并将所述电话录音对应的语音信息存储在目标咨询电话中;语音识别,对存储的语音信息进行语音识别得到对应的文本信息,并将所述对应的文本信息作为目标咨询文本信息;词向量空间,将标定有业务分类标签的历史咨询文本信息作为词向量训练模型的样本,得到语料库中各文字的词向量,采用所述语料库中各文字的词向量生成所述目标咨询文本信息的向量表示;基于词向量的分类模型,可以将所述目标咨询文本信息的向量表示作为预先训练好的咨询分类模型的输入,输出得到相应的目标咨询业务类型;分类标签,通过概率融合将概率大于预设阈值的目标咨询业务类型作为最终的目标咨询业务类型,即确定了最终的分类标签;回访,有针对性的对所述业务模块相关的内容进行回访。
实施例三
图8为本发明实施例三中的话单分类装置的结构示意图。所述装置可以包括:
识别模块310,用于对目标咨询电话的语音信息进行识别得到目标咨询文本信息;
向量表示模块320,用于采用预先确定的语料库中各文字的词向量生成所述目标咨询文本信息的向量表示,其中所述语料库中各文字的词向量是采用标定有业务分类标签的历史咨询文本信息训练得到的;
目标资讯业务类型模块330,用于将所述目标咨询文本信息的向量表示作为咨询分类模型的输入,得到所述咨询分类模型检测的目标咨询业务类型。
进一步的,所述向量表示模块320可以包括:
样本单元,用于将标定有业务分类标签的历史咨询文本信息作为词向量训练模型的样本;
词向量单元,用于将每一词向量训练样本中历史咨询文本信息中各文字的初始词向量作为所述词向量训练模型的输入,该词向量训练样本中业务分类标签作为所述词向量训练模型的分类输出,训练得到所述语料库中各文字的词向量。
进一步的,所述词向量训练模型依次包括词向量输入层、双向长短期记忆网络层、池化层和分类输出层。
进一步的,该装置还可以包括咨询分类模型模块,所述咨询分类模型模块具体可以用于:
依据所述语料库中各文字的词向量得到历史咨询文本信息中各文字的词向量;
将所述历史咨询文本信息中各文字的词向量作为咨询分类模型的输入,所述历史咨询文本信息的业务分类标签作为咨询分类模型的输出,对所述咨询分类模型进行训练。
进一步的,该装置还可以包括回访模块,所述回访模块具体可以用于:
采用与所述目标咨询业务类型匹配的业务模块对所述目标咨询电话进行回访。
本发明实施例所提供的话单分类装置可执行本发明任意实施例所提供的话单分类方法,具备执行方法相应的功能模块和有益效果。
实施例四
图9为本发明实施例四中的服务器的结构示意图。图9示出了适于用来实现本发明实施方式的示例性服务器412的框图。图9显示的服务器412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,服务器412以通用计算设备的形式表现。服务器412的组件可以包括但不限于:一个或者多个处理器416,系统存储器428,连接不同系统组件(包括系统存储器428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器416或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)430和/或高速缓存存储器432。服务器412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储器428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块442的程序/实用工具440,可以存储在例如存储器428中,这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。
服务器412也可以与一个或多个外部设备414(例如键盘、指向设备、显示器424等)通信,还可与一个或者多个使得用户能与该服务器412交互的设备通信,和/或与使得该服务器412能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且,服务器412还可以通过网络适配器420与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器420通过总线418与服务器412的其它模块通信。应当明白,尽管图中未示出,可以结合服务器412使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器416通过运行存储在系统存储器428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的话单分类方法,该方法包括:
对目标咨询电话的语音信息进行识别得到目标咨询文本信息;
采用预先确定的语料库中各文字的词向量生成所述目标咨询文本信息的向量表示,其中所述语料库中各文字的词向量是采用标定有业务分类标签的历史咨询文本信息训练得到的;
将所述目标咨询文本信息的向量表示作为咨询分类模型的输入,得到所述咨询分类模型检测的目标咨询业务类型。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的话单分类方法,该方法包括:
对目标咨询电话的语音信息进行识别得到目标咨询文本信息;
采用预先确定的语料库中各文字的词向量生成所述目标咨询文本信息的向量表示,其中所述语料库中各文字的词向量是采用标定有业务分类标签的历史咨询文本信息训练得到的;
将所述目标咨询文本信息的向量表示作为咨询分类模型的输入,得到所述咨询分类模型检测的目标咨询业务类型。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (8)
1.一种话单分类方法,其特征在于,包括:
对目标咨询电话的语音信息进行识别得到目标咨询文本信息;
采用预先确定的语料库中各文字的词向量生成所述目标咨询文本信息的向量表示,其中所述语料库中各文字的词向量是采用标定有业务分类标签的历史咨询文本信息训练得到的;确定所述语料库中各文字的词向量,包括:将标定有业务分类标签的历史咨询文本信息作为词向量训练模型的样本;将每一词向量训练样本中历史咨询文本信息中各文字的初始词向量作为所述词向量训练模型的输入,该词向量训练样本中业务分类标签作为所述词向量训练模型的分类输出,训练得到所述语料库中各文字的词向量;
将所述目标咨询文本信息的向量表示作为咨询分类模型的输入,得到所述咨询分类模型检测的目标咨询业务类型;
采用与所述目标咨询业务类型匹配的业务模块对所述目标咨询电话进行回访。
2.根据权利要求1所述的方法,其特征在于,所述词向量训练模型依次包括词向量输入层、双向长短期记忆网络层、池化层和分类输出层。
3.根据权利要求1所述的方法,其特征在于,构建所述咨询分类模型,包括:
依据所述语料库中各文字的词向量得到历史咨询文本信息中各文字的词向量;
将所述历史咨询文本信息中各文字的词向量作为咨询分类模型的输入,所述历史咨询文本信息的业务分类标签作为咨询分类模型的输出,对所述咨询分类模型进行训练。
4.一种话单分类装置,其特征在于,包括:
识别模块,用于对目标咨询电话的语音信息进行识别得到目标咨询文本信息;
向量表示模块,用于采用预先确定的语料库中各文字的词向量生成所述目标咨询文本信息的向量表示,其中所述语料库中各文字的词向量是采用标定有业务分类标签的历史咨询文本信息训练得到的;所述向量表示模块包括:样本单元,用于将标定有业务分类标签的历史咨询文本信息作为词向量训练模型的样本;词向量单元,用于将每一词向量训练样本中历史咨询文本信息中各文字的初始词向量作为所述词向量训练模型的输入,该词向量训练样本中业务分类标签作为所述词向量训练模型的分类输出,训练得到所述语料库中各文字的词向量;
目标资讯业务类型模块,用于将所述目标咨询文本信息的向量表示作为咨询分类模型的输入,得到所述咨询分类模型检测的目标咨询业务类型;
回访模块,用于采用与所述目标咨询业务类型匹配的业务模块对所述目标咨询电话进行回访。
5.根据权利要求4所述的装置,其特征在于,所述词向量训练模型依次包括词向量输入层、双向长短期记忆网络层、池化层和分类输出层。
6.根据权利要求4所述的装置,其特征在于,还包括咨询分类模型模块,所述咨询分类模型模块具体用于:
依据所述语料库中各文字的词向量得到历史咨询文本信息中各文字的词向量;
将所述历史咨询文本信息中各文字的词向量作为咨询分类模型的输入,所述历史咨询文本信息的业务分类标签作为咨询分类模型的输出,对所述咨询分类模型进行训练。
7.一种服务器,其特征在于,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3中任一所述的话单分类方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一所述的话单分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810300350.8A CN108597519B (zh) | 2018-04-04 | 2018-04-04 | 一种话单分类方法、装置、服务器和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810300350.8A CN108597519B (zh) | 2018-04-04 | 2018-04-04 | 一种话单分类方法、装置、服务器和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108597519A CN108597519A (zh) | 2018-09-28 |
CN108597519B true CN108597519B (zh) | 2020-12-29 |
Family
ID=63624538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810300350.8A Active CN108597519B (zh) | 2018-04-04 | 2018-04-04 | 一种话单分类方法、装置、服务器和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108597519B (zh) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299179A (zh) * | 2018-10-15 | 2019-02-01 | 西门子医疗系统有限公司 | 结构化数据提取装置、方法及存储介质 |
CN109615458A (zh) * | 2018-11-02 | 2019-04-12 | 深圳壹账通智能科技有限公司 | 客户管理方法、装置、终端设备及计算机可读存储介质 |
CN110364162B (zh) * | 2018-11-15 | 2022-03-15 | 腾讯科技(深圳)有限公司 | 一种人工智能的重置方法及装置、存储介质 |
CN111274382A (zh) * | 2018-11-20 | 2020-06-12 | 北京京东尚科信息技术有限公司 | 文本分类方法、装置、设备及存储介质 |
CN110020426B (zh) * | 2019-01-21 | 2023-09-26 | 创新先进技术有限公司 | 将用户咨询分配到客服业务组的方法及装置 |
CN109800309A (zh) * | 2019-01-24 | 2019-05-24 | 华中师范大学 | 课堂话语类型分类方法及装置 |
CN109902170B (zh) * | 2019-01-30 | 2023-08-22 | 创新先进技术有限公司 | 一种文本的分类方法、装置及电子设备 |
CN110046648B (zh) * | 2019-03-13 | 2023-04-21 | 创新先进技术有限公司 | 基于至少一个业务分类模型进行业务分类的方法及装置 |
CN111985945A (zh) * | 2019-05-21 | 2020-11-24 | 阿里巴巴集团控股有限公司 | 一种订单确定方法及其装置 |
CN110347909A (zh) * | 2019-05-23 | 2019-10-18 | 深圳壹账通智能科技有限公司 | 产品推荐方法、装置、存储介质及电子设备 |
CN110322899B (zh) * | 2019-06-18 | 2023-09-22 | 平安银行股份有限公司 | 用户智能分类方法、服务器及存储介质 |
CN112397062A (zh) * | 2019-08-15 | 2021-02-23 | 华为技术有限公司 | 语音交互方法、装置、终端及存储介质 |
CN110428835B (zh) * | 2019-08-22 | 2022-09-23 | 深圳市优必选科技股份有限公司 | 一种语音设备的调节方法、装置、存储介质及语音设备 |
CN112699233A (zh) * | 2019-10-17 | 2021-04-23 | 中国移动通信集团浙江有限公司 | 业务处理方法、装置及电子设备 |
CN110737773B (zh) * | 2019-10-17 | 2022-06-10 | 中国联合网络通信集团有限公司 | 一种基于神经网络的信息分类方法和系统 |
CN110765270B (zh) * | 2019-11-04 | 2022-07-01 | 思必驰科技股份有限公司 | 用于口语交互的文本分类模型的训练方法及系统 |
CN111124925B (zh) * | 2019-12-25 | 2024-04-05 | 斑马网络技术有限公司 | 基于大数据的场景提取方法、装置、设备和存储介质 |
CN111708868A (zh) * | 2020-01-15 | 2020-09-25 | 国网浙江省电力有限公司杭州供电公司 | 电力运检事件的文本分类方法及装置、设备 |
CN111309903B (zh) * | 2020-01-20 | 2023-06-16 | 北京大米未来科技有限公司 | 一种数据处理方法、装置、存储介质和电子设备 |
CN111625649A (zh) * | 2020-05-28 | 2020-09-04 | 北京字节跳动网络技术有限公司 | 文本处理方法、装置、电子设备及介质 |
CN111739537B (zh) * | 2020-06-08 | 2023-01-24 | 北京灵蚌科技有限公司 | 语义识别方法、装置、存储介质及处理器 |
CN111862977B (zh) | 2020-07-27 | 2021-08-10 | 北京嘀嘀无限科技发展有限公司 | 一种语音对话处理方法和系统 |
CN112884009A (zh) * | 2021-01-25 | 2021-06-01 | 北京紫光展锐通信技术有限公司 | 一种分类模型训练方法及系统 |
CN113779189A (zh) * | 2021-04-09 | 2021-12-10 | 北京沃东天骏信息技术有限公司 | 一种通讯请求流量预测方法和装置 |
CN113343711B (zh) * | 2021-06-29 | 2024-05-10 | 南方电网数字电网研究院有限公司 | 工单生成方法、装置、设备及存储介质 |
TWI841866B (zh) * | 2021-09-14 | 2024-05-11 | 中國信託商業銀行股份有限公司 | 業務辦理意願判定方法及其運算裝置 |
CN117041633A (zh) * | 2022-02-14 | 2023-11-10 | 杭州脸脸会网络技术有限公司 | 虚拟智能客服方法、装置、电子装置和存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009294938A (ja) * | 2008-06-05 | 2009-12-17 | Toshiba Corp | 文書分類装置 |
CN106503255A (zh) * | 2016-11-15 | 2017-03-15 | 科大讯飞股份有限公司 | 基于描述文本自动生成文章的方法及系统 |
CN106503236A (zh) * | 2016-10-28 | 2017-03-15 | 北京百度网讯科技有限公司 | 基于人工智能的问题分类方法以及装置 |
CN106649742A (zh) * | 2016-12-26 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 数据库维护方法和装置 |
CN106844346A (zh) * | 2017-02-09 | 2017-06-13 | 北京红马传媒文化发展有限公司 | 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统 |
CN107316643A (zh) * | 2017-07-04 | 2017-11-03 | 科大讯飞股份有限公司 | 语音交互方法及装置 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104573046B (zh) * | 2015-01-20 | 2018-07-31 | 成都品果科技有限公司 | 一种基于词向量的评论分析方法及系统 |
CN106095834A (zh) * | 2016-06-01 | 2016-11-09 | 竹间智能科技(上海)有限公司 | 基于话题的智能对话方法及系统 |
CN106202177B (zh) * | 2016-06-27 | 2017-12-15 | 腾讯科技(深圳)有限公司 | 一种文本分类方法及装置 |
CN106528642B (zh) * | 2016-10-13 | 2018-05-25 | 广东广业开元科技有限公司 | 一种基于tf-idf特征提取的短文本分类方法 |
CN107220232B (zh) * | 2017-04-06 | 2021-06-11 | 北京百度网讯科技有限公司 | 基于人工智能的关键词提取方法及装置、设备与可读介质 |
CN107391545B (zh) * | 2017-05-25 | 2020-09-18 | 阿里巴巴集团控股有限公司 | 一种对用户进行分类的方法、输入方法及装置 |
CN107609121B (zh) * | 2017-09-14 | 2021-03-30 | 暨南大学 | 基于LDA和word2vec算法的新闻文本分类方法 |
-
2018
- 2018-04-04 CN CN201810300350.8A patent/CN108597519B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009294938A (ja) * | 2008-06-05 | 2009-12-17 | Toshiba Corp | 文書分類装置 |
CN106503236A (zh) * | 2016-10-28 | 2017-03-15 | 北京百度网讯科技有限公司 | 基于人工智能的问题分类方法以及装置 |
CN106503255A (zh) * | 2016-11-15 | 2017-03-15 | 科大讯飞股份有限公司 | 基于描述文本自动生成文章的方法及系统 |
CN106649742A (zh) * | 2016-12-26 | 2017-05-10 | 上海智臻智能网络科技股份有限公司 | 数据库维护方法和装置 |
CN106844346A (zh) * | 2017-02-09 | 2017-06-13 | 北京红马传媒文化发展有限公司 | 基于深度学习模型Word2Vec的短文本语义相似性判别方法和系统 |
CN107316643A (zh) * | 2017-07-04 | 2017-11-03 | 科大讯飞股份有限公司 | 语音交互方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108597519A (zh) | 2018-09-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108597519B (zh) | 一种话单分类方法、装置、服务器和存储介质 | |
CN111191030B (zh) | 基于分类的单句意图识别方法、装置和系统 | |
CN112015859B (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
CN107679234A (zh) | 客服信息提供方法、装置、电子设备、存储介质 | |
CN111191000B (zh) | 一种智能语音机器人的对话管理方法、装置和系统 | |
US11551437B2 (en) | Collaborative information extraction | |
CN111177186B (zh) | 基于问题检索的单句意图识别方法、装置和系统 | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
CN110162786B (zh) | 构建配置文件以及抽取结构化信息的方法、装置 | |
CN112559865B (zh) | 信息处理系统、计算机可读存储介质及电子设备 | |
CN108268450B (zh) | 用于生成信息的方法和装置 | |
CN112256863B (zh) | 一种确定语料意图的方法、装置及电子设备 | |
CN110223134B (zh) | 基于语音识别的产品推荐方法及相关设备 | |
CN111177351A (zh) | 基于规则的自然语言表达意图获取方法、装置和系统 | |
CN112579733A (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN111353026A (zh) | 一种智能法务律师助手客服系统 | |
CN111241397A (zh) | 一种内容推荐方法、装置和计算设备 | |
CN112100360B (zh) | 一种基于向量检索的对话应答方法、装置和系统 | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
US11922515B1 (en) | Methods and apparatuses for AI digital assistants | |
CN108920715B (zh) | 客服的智能化辅助方法、装置、服务器和存储介质 | |
CN115358817A (zh) | 基于社交数据的智能产品推荐方法、装置、设备及介质 | |
CN110647914A (zh) | 智能服务水平训练方法、装置及计算机可读存储介质 | |
EP3876228A1 (en) | Automated assessment of the quality of a dialogue system in real time | |
WO2022048535A1 (en) | Reasoning based natural language interpretation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |