CN111739537A - 语义识别方法、装置、存储介质及处理器 - Google Patents
语义识别方法、装置、存储介质及处理器 Download PDFInfo
- Publication number
- CN111739537A CN111739537A CN202010514884.8A CN202010514884A CN111739537A CN 111739537 A CN111739537 A CN 111739537A CN 202010514884 A CN202010514884 A CN 202010514884A CN 111739537 A CN111739537 A CN 111739537A
- Authority
- CN
- China
- Prior art keywords
- target
- model
- character string
- label
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000003860 storage Methods 0.000 title claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 58
- 230000000977 initiatory effect Effects 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 117
- 238000011176 pooling Methods 0.000 claims description 75
- 239000011159 matrix material Substances 0.000 claims description 46
- 238000012549 training Methods 0.000 claims description 39
- 238000012545 processing Methods 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 10
- 238000001914 filtration Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 8
- 230000007306 turnover Effects 0.000 claims description 7
- 238000003825 pressing Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000015654 memory Effects 0.000 description 27
- 230000006870 function Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 125000004122 cyclic group Chemical group 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000006854 communication Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
- G10L2015/0633—Creating reference templates; Clustering using lexical or orthographic knowledge sources
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种语义识别方法、装置、存储介质及处理器。该方法包括:将待识别的目标音频数据转化为目标字符串,其中,目标音频数据为通话发起对象和通话接收对象之间的通话音频数据;将目标字符串输入语义分析模型,得到多个标签,其中,语义分析模型包括多个子模型,每个子模型用于预测目标字符串是否归属于子模型描述的标签,每个标签用于表征一种类型的目标语义信息;根据多个标签识别目标音频数据中包含的目标语义信息。通过本申请,解决了相关技术中对语音通话进行语义识别的准确率较低的问题。
Description
技术领域
本申请涉及债务催收语音识别技术领域,具体而言,涉及一种语义识别方法、装置、存储介质及处理器。
背景技术
随着互联网金融的高速发展,消费金融类业务大量涌现,业务监管也越来越重要,例如,在贷款类业务中,贷后监管必不可少。在贷后监管过程中,催收行业是关键,在催收流程中,电话催收任务往往占据较大的比重,具体地,根据催收员的电话录音,对债务人和催收员的话术进行语义识别,从而进一步分析债务人还款意愿、分析催收员行为画像等。
相关技术中对债务人和催收员的话术进行语义识别时存在一些缺陷:第一,在对催收文本进行分析之前,通常是要将音频进行语音转写,并基于转写后的文字进行分析,由于催收员或欠款人的通话中可能存在方言、咬字不清、背景嘈杂等情况,转写后的文字表述不准确。第二,相关技术中在进行语义识别时,大多利用关键词、依存句法分析,或LSTM(Long Short-Term Memery,长短期记忆网络)等循环神经网络进行识别。利用关键词进行语义识别的方式,识别准确率较低,且没有真正意义上理解语句;依存句法分析进行语义识别的方式,由于催收对话文本与书面语言不同,较为口语化,难以达到准确识别的效果;根据循环神经网络进行识别的方式,虽然在长文本分析方面效果显著,但在催收场景下,催收员与债务人之前的对话经常是问答式,且每句长度一般不超过100字,甚至只有几个字,该方式在对短文本识别的效果不佳。此外,循环神经网络模型训练的时间较为漫长,在庞大的数据样本下,模型迭代时间较长。
针对相关技术中对语音通话进行语义识别的准确率较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供一种语义识别方法、装置、存储介质及处理器,以解决相关技术中对语音通话进行语义识别的准确率较低的问题。
根据本申请的一个方面,提供了一种语义识别方法。该方法包括:将待识别的目标音频数据转化为目标字符串,其中,目标音频数据为通话发起对象和通话接收对象之间的通话音频数据;将目标字符串输入语义分析模型,得到多个标签,其中,语义分析模型包括多个子模型,每个子模型用于预测目标字符串是否归属于子模型描述的标签,每个标签用于表征一种类型的目标语义信息;根据多个标签识别目标音频数据中包含的目标语义信息。
可选地,将待识别的目标音频数据转化为目标字符串包括:将待识别的目标音频数据转化为目标文字字符串;将目标文字字符串转化为目标拼音字符串,并将目标拼音字符串作为目标字符串。
可选地,在将目标字符串输入语义分析模型,得到多个标签之前,该方法还包括:判断目标字符串是否为脏数据;在目标字符串不属于脏数据的情况下,执行将目标字符串输入语义分析模型,得到多个标签的步骤。
可选地,通话接收对象为第一类对象或第二类对象,语义分析模型包括第一子模型、第二子模型和第三子模型,其中,第一子模型用于描述第一类对象和第二类对象均适用的标签,第二子模型用于描述仅适用于第一类对象的标签,第三子模型用于描述仅适用于第二类对象的标签,将目标字符串输入语义分析模型,得到多个标签包括:将目标字符串输入第一子模型,得到第一标签;基于目标音频数据判断通话接收对象是第一类对象还是第二类对象;在通话接收对象是第一类对象的情况下,将目标字符串输入第二子模型,得到第二标签;在通话接收对象是第二类对象的情况下,将目标字符串输入第三子模型,得到第三标签。
可选地,根据多个标签识别目标音频数据中包含的目标语义信息包括:在通话接收对象是第一类对象的情况下,根据第一标签和第二标签识别目标音频数据中包含的目标语义信息;在通话接收对象是第二类对象的情况下,根据第一标签和第三标签识别目标音频数据中包含的目标语义信息。
可选地,在与通话发起对象通话的是第二类对象的情况下,根据第一标签和第三标签识别目标音频数据中包含的目标语义信息之前,该方法还包括:判断目标字符串是否归属于第三子模型描述的任意之一标签;在目标字符串归属于第三子模型描述的任意之一标签的情况下,执行将目标字符串输入第三子模型,得到第三标签的步骤。
可选地,第一类对象为事务联系对象,第二类对象为事务执行对象,第一子模型至少包括以下之一模型:描述的标签为通话发起对象自我介绍信息的模型,描述的标签为确认事务执行对象的模型,描述的标签为确认待执行事务的模型以及描述的标签为协商事务执行时间的模型;第二子模型至少包括以下之一模型:描述的标签为询问事务执行对象的身份信息的模型,描述的标签为要求转告待执行事务的模型,描述的标签为说明通话原因的模型;第三子模型至少描述以下之一标签:关系施压信息、强调已催办待执行事务的信息、强调此前承诺处理待执行事务的信息、拒绝拖延信息、减免待执行事务的信息、延期信息、要求周转信息、询问执行意愿信息、询问执行现状信息、费用施压信息、执行能力核实信息以及执行难度低信息。
可选地,在将目标字符串输入语义分析模型,得到多个标签之前,该方法还包括:分别基于对应的训练集数据训练多个子模型,其中,每个子模型对应的训练集数据包含该子模型的标签表征的目标语义信息数据。
可选地,分别基于对应的训练集数据训练多个子模型包括:将目标标签表征的目标语义信息资料转化为多个拼音字符;基于预设词典确定多个拼音字符对应的词向量,并由多个拼音字符以及多个拼音字符对应的词向量构成第一二维矩阵,其中,预设词典中存储有拼音字符以及拼音字符对应的词向量;将第一二维矩阵输入输入层;通过卷积层对第一二维矩阵进行特征提取,得到预设特征向量,并通过池化层对预设特征向量进行过滤,得到目标特征向量;通过全连接层对目标特征向量进行组合;通过输出层对全连接层的组合结果进行输出,其中,输出层包含目标损失函数,目标损失函数与目标标签对应。
可选地,通过卷积层对第一二维矩阵进行特征提取,得到预设特征向量,并通过池化层对预设特征向量进行过滤,得到目标特征向量包括:采用多个第一卷积核将第一二维矩阵转化为第二二维矩阵;采用多个第二卷积核对第二二维矩阵执行卷积块操作,得到第一特征向量,对第一特征向量进行池化,得到第一池化结果;采用多个第三卷积核对池化结果进行卷积块操作,得到第二特征向量,对第二特征向量进行池化,得到第二池化结果;采用多个第四卷积核对第二池化结果进行卷积块操作,得到第三特征向量,对第三特征向量进行池化,得到第三池化结果;采用多个第五卷积核对第三池化结果进行卷积块操作,得到第四特征向量,对第四特征向量进行池化,得到目标特征向量。
可选地,该方法还包括:在每次进行卷积块操作后,对得到的特征向量进行批归一化处理。
根据本申请的另一方面,提供了一种语义识别装置。该装置包括:转化单元,用于将待识别的目标音频数据转化为目标字符串,其中,目标音频数据为通话发起对象和通话接收对象之间的通话音频数据;处理单元,用于将目标字符串输入语义分析模型,得到多个标签,其中,语义分析模型包括多个子模型,每个子模型用于预测目标字符串是否归属于子模型描述的标签,每个标签用于表征一种类型的目标语义信息;识别单元,用于根据多个标签识别目标音频数据中包含的目标语义信息。
为了实现上述目的,根据本申请的另一方面,提供了一种存储介质,存储介质包括存储的程序,其中,程序执行上述任意一种语义识别方法。
为了实现上述目的,根据本申请的另一方面,提供了一种处理器,处理器用于运行程序,其中,程序运行时执行上述任意一种语义识别方法。
通过本申请,采用以下步骤:将待识别的目标音频数据转化为目标字符串,其中,目标音频数据为通话发起对象和通话接收对象之间的通话音频数据;将目标字符串输入语义分析模型,得到多个标签,其中,语义分析模型包括多个子模型,每个子模型用于预测目标字符串是否归属于子模型描述的标签,每个标签用于表征一种类型的目标语义信息;根据多个标签识别目标音频数据中包含的目标语义信息,解决了相关技术中对语音通话进行语义识别的准确率较低的问题。通过包括多个子模型的语义识别模型对目标音频数据对应的目标字符串进行标签的确定,进而达到了提高对语音通话进行语义识别的准确率的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的语义识别方法的流程图;
图2是根据本申请实施例提供的语义识别方法中神经网络模型训练的流程图;
图3是根据本申请实施例提供的语义识别方法的示意图;以及
图4是根据本申请实施例提供的语义识别装置的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请的实施例,提供了一种语义识别方法。
图1是根据本申请实施例的语义识别方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101,将待识别的目标音频数据转化为目标字符串,其中,目标音频数据为通话发起对象和通话接收对象之间的通话音频数据。
需要说明的是,可以通过呼叫中心系统平台采集通话音频数据,具体地,通话发起对象可通过平台一键外呼通话接收对象,通话过程通过耳机以音频的形式上传至系统服务器中;通话发起对象还可以通过的定制手机进行通话,通话结束后通过手机将录制的通话音频数据上传至服务器,进而从采集到的音频数据中确定待识别的目标音频数据。
为了提高语义识别的准确度,可选地,在本申请实施例提供的语义识别方法中,将待识别的目标音频数据转化为目标字符串包括:将待识别的目标音频数据转化为目标文字字符串;将目标文字字符串转化为目标拼音字符串,并将目标拼音字符串作为目标字符串。
具体地,将采集到的通话音频实时转写成文字,并将待识别的目标音频数据对应的文字转换成拼音字符串,从而避免了由于方言、咬字不清、语音转写错误等造成的语音识别不准确的问题。
步骤S102,将目标字符串输入语义分析模型,得到多个标签,其中,语义分析模型包括多个子模型,每个子模型用于预测目标字符串是否归属于子模型描述的标签,每个标签用于表征一种类型的目标语义信息。
需要说明的是,本申请实施例中的语义识别模型即为分类模型,语义识别模型中的每个子模型描述至少一个标签,将目标字符串输入语义分析模型,可以得到待识别音频信息对应的标签,从而根据标签分析待识别音频信息中包括哪些类型的语义信息。
存在通话接收对象包含多种类型的情况,可选地,在本申请实施例提供的语义识别方法中,通话接收对象为第一类对象或第二类对象,语义分析模型包括第一子模型、第二子模型和第三子模型,其中,第一子模型用于描述第一类对象和第二类对象均适用的标签,第二子模型用于描述仅适用于第一类对象的标签,第三子模型用于描述仅适用于第二类对象的标签,将目标字符串输入语义分析模型,得到多个标签包括:将目标字符串输入第一子模型,得到第一标签;基于目标音频数据判断通话接收对象是第一类对象还是第二类对象;在通话接收对象是第一类对象的情况下,将目标字符串输入第二子模型,得到第二标签;在通话接收对象是第二类对象的情况下,将目标字符串输入第三子模型,得到第三标签。
需要说明的是,每段待识别的目标音频数据可以包含不同种类的语义信息,因而,将目标音频数据对应的目标字符串输入不同的子模型,可以训练输出不同的标签。
通话的场景可以为协商待执行事务场景,可选地,在本申请实施例提供的语义识别方法中,第一类对象为事务联系对象,第二类对象为事务执行对象,第一子模型至少包括以下之一模型:描述的标签为通话发起对象自我介绍信息的模型,描述的标签为确认事务执行对象的模型,描述的标签为确认待执行事务的模型以及描述的标签为协商事务执行时间的模型;第二子模型至少包括以下之一模型:描述的标签为询问事务执行对象的身份信息的模型,描述的标签为要求转告待执行事务的模型,描述的标签为说明通话原因的模型;第三子模型至少描述以下之一标签:关系施压信息、强调已催办待执行事务的信息、强调此前承诺处理待执行事务的信息、拒绝拖延信息、减免待执行事务的信息、延期信息、要求周转信息、询问执行意愿信息、询问执行现状信息、费用施压信息、执行能力核实信息以及执行难度低信息。
需要说明的是,在协商待执行事务时,无论通话接收者为事务联系对象还是事务执行对象,通常均需要通话发起对象自我介绍,确认事务执行对象,并确认待执行事务的模型以及协商事务执行时间等,因而第一子模型是事务联系对象和事务执行对象均适用的模型。而询问事务执行对象的身份信息、要求转告待执行事务、说明通话原因等通常是通话接收者为事务联系对象时的通话内容,因而第二子模型是事务联系对象适用的模型。而针对待执行事务的详细情况的询问、协商以及催办等通常是通话接收者为事务执行对象时的通话内容,因而第三子模型是事务联系对象适用的模型。
因而,由于目标字符串不止包含一种语义信息,将目标字符串输入不同的子模型,可以得到不同子模型描述的标签。
可选地,在本申请实施例提供的语义识别方法中,根据多个标签识别目标音频数据中包含的目标语义信息包括:在通话接收对象是第一类对象的情况下,根据第一标签和第二标签识别目标音频数据中包含的目标语义信息;在通话接收对象是第二类对象的情况下,根据第一标签和第三标签识别目标音频数据中包含的目标语义信息。
具体地,根据通话接收对象的种类选择不同的子模型进行训练,可以准确训练出目标字符串对应的标签,从而准确识别出目标音频数据包含哪些类型的语义信息。
可选地,在本申请实施例提供的语义识别方法中,在与通话发起对象通话的是第二类对象的情况下,根据第一标签和第三标签识别目标音频数据中包含的目标语义信息之前,该方法还包括:判断目标字符串是否归属于第三子模型描述的任意之一标签;在目标字符串归属于第三子模型描述的任意之一标签的情况下,执行将目标字符串输入第三子模型,得到第三标签的步骤。
需要说明的是,第三子模型与第一子模型、第二子模型不同,第三子模型为多标签模型,第三子模型是针对于通话内容繁杂,通话内容可以包含的语义种类较多,不适用于对各个种类的语义分别训练模型的情况而产生的,一个第三子模型用于描述多个标签,在目标字符串归属于多标签中的任意一个标签的情况下,即可将目标字符串输入第三子模型进行训练,从而提高了语义识别效率。
为了提高语义识别效率,可选地,在本申请实施例提供的语义识别方法中,在将目标字符串输入语义分析模型,得到多个标签之前,该方法还包括:判断目标字符串是否为脏数据;在目标字符串不属于脏数据的情况下,执行将目标字符串输入语义分析模型,得到多个标签的步骤。
具体地,在将待识别的目标音频数据输入语义模型前,先判断是否为无效数据,如没有通话内容的杂音等,从而减少无效识别过程,提高语义识别效率。
步骤S103,根据多个标签识别目标音频数据中包含的目标语义信息。
具体地,由于每个标签用于表征一种类型的目标语义信息,将目标音频数据对应的字符串输入语义识别模型的多个子模型中,得到表征分类结果对应的多个标签,从而可以得知目标音频数据中包含的目标语义信息。
本申请实施例提供的语义识别方法,通过将待识别的目标音频数据转化为目标字符串,其中,目标音频数据为通话发起对象和通话接收对象之间的通话音频数据;将目标字符串输入语义分析模型,得到多个标签,其中,语义分析模型包括多个子模型,每个子模型用于预测目标字符串是否归属于子模型描述的标签,每个标签用于表征一种类型的目标语义信息;根据多个标签识别目标音频数据中包含的目标语义信息,解决了相关技术中对语音通话进行语义识别的准确率较低的问题。通过包括多个子模型的语义识别模型对目标音频数据对应的目标字符串进行标签的确定,进而达到了提高对语音通话进行语义识别的准确率的效果。
需要说明的是,在进行语义识别之前,需要利用大量的数据样本对搭建的网络模型进行训练,从而得到准确率较高的语义识别模型。
可选地,在本申请实施例提供的语义识别方法中,在将目标字符串输入语义分析模型,得到多个标签之前,该方法还包括:分别基于对应的训练集数据训练多个子模型,其中,每个子模型对应的训练集数据包含该子模型的标签表征的目标语义信息数据。
具体地,先对参与训练的基础数据进行分类,根据分类得到的训练集数据分别训练用于相应标签对应的子模型。
可选地,在本申请实施例提供的语义识别方法中,分别基于对应的训练集数据训练多个子模型包括:将目标标签表征的目标语义信息资料转化为多个拼音字符;基于预设词典确定多个拼音字符对应的词向量,并由多个拼音字符以及多个拼音字符对应的词向量构成第一二维矩阵,其中,预设词典中存储有拼音字符以及拼音字符对应的词向量;将第一二维矩阵输入输入层;通过卷积层对第一二维矩阵进行特征提取,得到预设特征向量,并通过池化层对预设特征向量进行过滤,得到目标特征向量;通过全连接层对目标特征向量进行组合;通过输出层对全连接层的组合结果进行输出,其中,输出层包含目标损失函数,目标损失函数与目标标签对应。
需要说明的是,为了提高模型识别的准确度,将音频数据转化为文本,并将文本对应的拼音字符串作为输入进行模型的训练。
具体地,首先构建由拼音、数字、特殊字符组成预设词典,再基于拼音字符串从预设词典查找词向量,并将查找到的词向量嵌入拼音字符串,形成关于文本的二维矩阵,通过处理好的二维数据训练卷积神经网络。
具体地,通过卷积层和池化层进行特征的提取和过滤,并通过全连接层对特征进行组合连接,最终通过包含特定损失函数的输出层进行输出,其中,在选取损失函数时,针对任务类型的不同,选取不同的损失函数,最终可以输出不同类别的可能性或最终文本分类的结果。
需要说明的是,本申请中的预设词典与LSTM中的词典不同,本申请的预设词典中的字符数量较少且固定,且在模型训练上,与循环神经网络相比,卷积神经网络在GPU上运算速度更快,且更适用于短文本的分类任务。
可选地,在本申请实施例提供的语义识别方法中,通过卷积层对第一二维矩阵进行特征提取,得到预设特征向量,并通过池化层对预设特征向量进行过滤,得到目标特征向量包括:采用多个第一卷积核将第一二维矩阵转化为第二二维矩阵;采用多个第二卷积核对第二二维矩阵执行卷积块操作,得到第一特征向量,对第一特征向量进行池化,得到第一池化结果;采用多个第三卷积核对池化结果进行卷积块操作,得到第二特征向量,对第二特征向量进行池化,得到第二池化结果;采用多个第四卷积核对第二池化结果进行卷积块操作,得到第三特征向量,对第三特征向量进行池化,得到第三池化结果;采用多个第五卷积核对第三池化结果进行卷积块操作,得到第四特征向量,对第四特征向量进行池化,得到目标特征向量。
需要说明的是,为了得到可靠的特征向量,可以利用卷积神经网络中的多个卷积层和池化层,对特征不断进行提取和压缩。
具体地,本申请实施例中采用了4次循环训练,如图2所示,由拼音字符串及其词向量构成N*L的第一二维矩阵,由于每个字符对应的词向量长度可以为128或256,进行卷积神经网络的计算,在原始的输入上进行特征的提取时,可以采用128个卷积核,尺寸为3*128,将第一二维矩阵转化为第二二维矩阵。在得到第二二维矩阵后,执行卷积块操作,也即,采用卷积核抽取特征向量的操作,卷积核的数量可以为128,长度为3,执行卷积块操作得到卷积块,也即,抽取得到的特征向量,并对卷积块执行最大池化,池化尺寸为2*1,步长为2,如此重复四次,其中执行卷积块操作时,卷积核数量比上一次增加一倍,其他参数不变,从而不断提取出“低层次”、“中层次”、“高层次”的文本特征,最终得到可靠的目标向量特征。
可选地,在本申请实施例提供的语义识别方法中,该方法还包括:在每次进行卷积块操作后,对得到的特征向量进行批归一化处理。
需要说明的是,由于本申请是采用深层卷积神经网络针对于短文本进行识别,为避免梯度消失等问题发生,在神经网络结构中加入批归一化处理,通过激活函数ReLU,使网络性能不会因之下降,此外,也可以引入残差网络进行短路连接,使网络性能不会因之下降。
图3是根据本申请实施例的另一种语义识别方法的示意图。如图3所示,该方法的应用场景为催收员呼叫债务人联系人或债务人本人,从而进行催收账款的场景。
具体地,催收员可通过呼叫中心系统平台一键外呼债务人,电话催收的过程通过坐席耳机以音频的形式上传至系统服务器中,也可以通过定制手机进行电催,催收结束后通过手机将录音上传至服务器,上传音频准实时转写成文字,以json格式存入数据库中,从而在数据库中选取待识别的音频资料对应的文字,进行语义识别。
需要说明的是,在进行语义识别之前,提前利用大量的数据样本对搭建的网络模型进行训练后,得到准确率较高的语义识别模型,在输入音频资料对应的文字转化成的拼音字符串后,模型可输出分类的结果或各分类的可能性。本申请实施例建立催收员行为画像产品,将催收员的催收文本分成30个标签,从而构建相应的识别模型,具体地,包括第一拒识模型、第二拒识模型以及“本人&三方”模块与“三方/本人”模块、其中,每个模块中包括多个子模型。
在通话文本对应的拼音字符串进入模型系统中,首先通过第一拒识模型判断是否属于脏数据,若为脏数据,则直接返回空值,不进入模型系统中,若文本属于非脏数据,进入系统一下流程。
需要说明的是,催收员通话文本根据呼叫对象的不同,可分为债务人本人以及债务人联系人(三方),模型描述的标签中部分标签仅适用于债务人本人,如“关系施压”,“强调已催收动作”,“强调此前承诺”,“拒绝拖延、减免、延期”,“要求周转”,“询问意愿”,“询问现状”,“费用施压”,“还款能力核实”,“还款难度低”等;部分标签仅适用于债务人联系人,如“询问三方身份”,“说明通话原因”,“要求转告”等;还有一部分标签适用于双方,如“催收员自我介绍”,“确认债务人身份”,“确认债务人欠款信息”,“协商还款时间”等。
具体地,非脏数据文本并行进入“本人&三方”模块与“三方/本人”模块,任意呼叫对象都需进入“本人&三方”模块;若呼叫对象为债务人联系人,则进入“三方/本人”模块下的三方模型;若呼叫对象为债务人本人,进入本人的“拒识模型”,也即第二拒识模型,该拒识模型针对于多标签模型所对应的10个标签,若文本不归为这10个标签,则返回空值;反之,进入多标签分类模型。
通过本申请实施例,通过语义识别模型描述催收员画像,不但可以通过识别结果可以对催收员的基本催收能力进行数字化评估,还可以针对不同的催收员挖掘沟通特点,结合债务人画像,对催收案件和催收员进行智能匹配分案策略,而且可以挖掘每个催收员沟通过程中的利弊优劣,针对性地提升业务能力。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种语义识别装置,需要说明的是,本申请实施例的语义识别装置可以用于执行本申请实施例所提供的用于语义识别方法。以下对本申请实施例提供的语义识别装置进行介绍。
图4是根据本申请实施例的语义识别装置的示意图。如图4所示,该装置包括:转化单元10、处理单元20和识别单元30。
具体地,转化单元10,用于将待识别的目标音频数据转化为目标字符串,其中,目标音频数据为通话发起对象和通话接收对象之间的通话音频数据。
处理单元20,用于将目标字符串输入语义分析模型,得到多个标签,其中,语义分析模型包括多个子模型,每个子模型用于预测目标字符串是否归属于子模型描述的标签,每个标签用于表征一种类型的目标语义信息。
识别单元30,用于根据多个标签识别目标音频数据中包含的目标语义信息。
本申请实施例提供的语义识别装置,通过转化单元10将待识别的目标音频数据转化为目标字符串,其中,目标音频数据为通话发起对象和通话接收对象之间的通话音频数据;处理单元20将目标字符串输入语义分析模型,得到多个标签,其中,语义分析模型包括多个子模型,每个子模型用于预测目标字符串是否归属于子模型描述的标签,每个标签用于表征一种类型的目标语义信息;识别单元30根据多个标签识别目标音频数据中包含的目标语义信息,解决了相关技术中对语音通话进行语义识别的准确率较低的问题,通过包括多个子模型的语义识别模型对目标音频数据对应的目标字符串进行标签的确定,进而达到了提高对语音通话进行语义识别的准确率的效果。
可选地,在本申请实施例提供的语义识别装置中,转化单元10包括:第一转化模块,用于将待识别的目标音频数据转化为目标文字字符串;第二转化模块,用于将目标文字字符串转化为目标拼音字符串,并将目标拼音字符串作为目标字符串。
可选地,在本申请实施例提供的语义识别装置中,该装置还包括:判断单元,用于在将目标字符串输入语义分析模型,得到多个标签之前,判断目标字符串是否为脏数据;执行单元,用于在目标字符串不属于脏数据的情况下,执行将目标字符串输入语义分析模型,得到多个标签的步骤。
可选地,在本申请实施例提供的语义识别装置中,通话接收对象为第一类对象或第二类对象,语义分析模型包括第一子模型、第二子模型和第三子模型,其中,第一子模型用于描述第一类对象和第二类对象均适用的标签,第二子模型用于描述仅适用于第一类对象的标签,第三子模型用于描述仅适用于第二类对象的标签,处理单元20包括:第一处理模块,用于将目标字符串输入第一子模型,得到第一标签;第一判断模块,用于基于目标音频数据判断通话接收对象是第一类对象还是第二类对象;第二处理模块,用于在通话接收对象是第一类对象的情况下,将目标字符串输入第二子模型,得到第二标签;第三处理模块,用于在通话接收对象是第二类对象的情况下,将目标字符串输入第三子模型,得到第三标签。
可选地,在本申请实施例提供的语义识别装置中,识别单元30包括:第一识别模块,用于在通话接收对象是第一类对象的情况下,根据第一标签和第二标签识别目标音频数据中包含的目标语义信息;第二识别模块,用于在通话接收对象是第二类对象的情况下,根据第一标签和第三标签识别目标音频数据中包含的目标语义信息。
可选地,在本申请实施例提供的语义识别装置中,该装置还包括:第二判断模块,用于在与通话发起对象通话的是第二类对象的情况下,根据第一标签和第三标签识别目标音频数据中包含的目标语义信息之前,判断目标字符串是否归属于第三子模型描述的任意之一标签;执行模块,用于在目标字符串归属于第三子模型描述的任意之一标签的情况下,执行将目标字符串输入第三子模型,得到第三标签的步骤。
可选地,在本申请实施例提供的语义识别装置中,第一类对象为事务联系对象,第二类对象为事务执行对象,第一子模型至少包括以下之一模型:描述的标签为通话发起对象自我介绍信息的模型,描述的标签为确认事务执行对象的模型,描述的标签为确认待执行事务的模型以及描述的标签为协商事务执行时间的模型;第二子模型至少包括以下之一模型:描述的标签为询问事务执行对象的身份信息的模型,描述的标签为要求转告待执行事务的模型,描述的标签为说明通话原因的模型;第三子模型至少描述以下之一标签:关系施压信息、强调已催办待执行事务的信息、强调此前承诺处理待执行事务的信息、拒绝拖延信息、减免待执行事务的信息、延期信息、要求周转信息、询问执行意愿信息、询问执行现状信息、费用施压信息、执行能力核实信息以及执行难度低信息。
可选地,在本申请实施例提供的语义识别装置中,该装置还包括:训练单元,用于在将目标字符串输入语义分析模型,得到多个标签之前,分别基于对应的训练集数据训练多个子模型,其中,每个子模型对应的训练集数据包含该子模型的标签表征的目标语义信息数据。
可选地,在本申请实施例提供的语义识别装置中,训练单元包括:第三转化模块,用于将目标标签表征的目标语义信息资料转化为多个拼音字符;确定模块,用于基于预设词典确定多个拼音字符对应的词向量,并由多个拼音字符以及多个拼音字符对应的词向量构成第一二维矩阵,其中,预设词典中存储有拼音字符以及拼音字符对应的词向量;输入模块,用于将第一二维矩阵输入输入层;特征提取模块,用于通过卷积层对第一二维矩阵进行特征提取,得到预设特征向量,并通过池化层对预设特征向量进行过滤,得到目标特征向量;组合模块,用于通过全连接层对目标特征向量进行组合;输出模块,用于通过输出层对全连接层的组合结果进行输出,其中,输出层包含目标损失函数,目标损失函数与目标标签对应。
可选地,在本申请实施例提供的语义识别装置中,特征提取模块包括:第一转化子模块,用于采用多个第一卷积核将第一二维矩阵转化为第二二维矩阵;第一卷积子模块,用于采用多个第二卷积核对第二二维矩阵执行卷积块操作,得到第一特征向量,对第一特征向量进行池化,得到第一池化结果;第二卷积子模块,用于采用多个第三卷积核对池化结果进行卷积块操作,得到第二特征向量,对第二特征向量进行池化,得到第二池化结果;第三卷积子模块,用于采用多个第四卷积核对第二池化结果进行卷积块操作,得到第三特征向量,对第三特征向量进行池化,得到第三池化结果;采用多个第五卷积核对第三池化结果进行卷积块操作,得到第四特征向量,对第四特征向量进行池化,得到目标特征向量。
可选地,在本申请实施例提供的语义识别装置中,该装置还包括:归一化单元,用于在每次进行卷积块操作后,对得到的特征向量进行批归一化处理。
所述语义识别装置包括处理器和存储器,上述转化单元10、处理单元20和识别单元30等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来解决相关技术中对语音通话进行语义识别的准确率较低的问题。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述语义识别方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述语义识别方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:将待识别的目标音频数据转化为目标字符串,其中,目标音频数据为通话发起对象和通话接收对象之间的通话音频数据;将目标字符串输入语义分析模型,得到多个标签,其中,语义分析模型包括多个子模型,每个子模型用于预测目标字符串是否归属于子模型描述的标签,每个标签用于表征一种类型的目标语义信息;根据多个标签识别目标音频数据中包含的目标语义信息。
将待识别的目标音频数据转化为目标字符串包括:将待识别的目标音频数据转化为目标文字字符串;将目标文字字符串转化为目标拼音字符串,并将目标拼音字符串作为目标字符串。
在将目标字符串输入语义分析模型,得到多个标签之前,该方法还包括:判断目标字符串是否为脏数据;在目标字符串不属于脏数据的情况下,执行将目标字符串输入语义分析模型,得到多个标签的步骤。
通话接收对象为第一类对象或第二类对象,语义分析模型包括第一子模型、第二子模型和第三子模型,其中,第一子模型用于描述第一类对象和第二类对象均适用的标签,第二子模型用于描述仅适用于第一类对象的标签,第三子模型用于描述仅适用于第二类对象的标签,将目标字符串输入语义分析模型,得到多个标签包括:将目标字符串输入第一子模型,得到第一标签;基于目标音频数据判断通话接收对象是第一类对象还是第二类对象;在通话接收对象是第一类对象的情况下,将目标字符串输入第二子模型,得到第二标签;在通话接收对象是第二类对象的情况下,将目标字符串输入第三子模型,得到第三标签。
根据多个标签识别目标音频数据中包含的目标语义信息包括:在通话接收对象是第一类对象的情况下,根据第一标签和第二标签识别目标音频数据中包含的目标语义信息;在通话接收对象是第二类对象的情况下,根据第一标签和第三标签识别目标音频数据中包含的目标语义信息。
在与通话发起对象通话的是第二类对象的情况下,根据第一标签和第三标签识别目标音频数据中包含的目标语义信息之前,该方法还包括:判断目标字符串是否归属于第三子模型描述的任意之一标签;在目标字符串归属于第三子模型描述的任意之一标签的情况下,执行将目标字符串输入第三子模型,得到第三标签的步骤。
第一类对象为事务联系对象,第二类对象为事务执行对象,第一子模型至少包括以下之一模型:描述的标签为通话发起对象自我介绍信息的模型,描述的标签为确认事务执行对象的模型,描述的标签为确认待执行事务的模型以及描述的标签为协商事务执行时间的模型;第二子模型至少包括以下之一模型:描述的标签为询问事务执行对象的身份信息的模型,描述的标签为要求转告待执行事务的模型,描述的标签为说明通话原因的模型;第三子模型至少描述以下之一标签:关系施压信息、强调已催办待执行事务的信息、强调此前承诺处理待执行事务的信息、拒绝拖延信息、减免待执行事务的信息、延期信息、要求周转信息、询问执行意愿信息、询问执行现状信息、费用施压信息、执行能力核实信息以及执行难度低信息。
在将目标字符串输入语义分析模型,得到多个标签之前,该方法还包括:分别基于对应的训练集数据训练多个子模型,其中,每个子模型对应的训练集数据包含该子模型的标签表征的目标语义信息数据。
分别基于对应的训练集数据训练多个子模型包括:将目标标签表征的目标语义信息资料转化为多个拼音字符;基于预设词典确定多个拼音字符对应的词向量,并由多个拼音字符以及多个拼音字符对应的词向量构成第一二维矩阵,其中,预设词典中存储有拼音字符以及拼音字符对应的词向量;将第一二维矩阵输入输入层;通过卷积层对第一二维矩阵进行特征提取,得到预设特征向量,并通过池化层对预设特征向量进行过滤,得到目标特征向量;通过全连接层对目标特征向量进行组合;通过输出层对全连接层的组合结果进行输出,其中,输出层包含目标损失函数,目标损失函数与目标标签对应。
通过卷积层对第一二维矩阵进行特征提取,得到预设特征向量,并通过池化层对预设特征向量进行过滤,得到目标特征向量包括:采用多个第一卷积核将第一二维矩阵转化为第二二维矩阵;采用多个第二卷积核对第二二维矩阵执行卷积块操作,得到第一特征向量,对第一特征向量进行池化,得到第一池化结果;采用多个第三卷积核对池化结果进行卷积块操作,得到第二特征向量,对第二特征向量进行池化,得到第二池化结果;采用多个第四卷积核对第二池化结果进行卷积块操作,得到第三特征向量,得到第三池化结果;采用多个第五卷积核对第三池化结果进行卷积块操作,得到第四特征向量,对第四特征向量进行池化,对第三特征向量进行池化,得到目标特征向量。
该方法还包括:在每次进行卷积块操作后,对得到的特征向量进行批归一化处理。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:将待识别的目标音频数据转化为目标字符串,其中,目标音频数据为通话发起对象和通话接收对象之间的通话音频数据;将目标字符串输入语义分析模型,得到多个标签,其中,语义分析模型包括多个子模型,每个子模型用于预测目标字符串是否归属于子模型描述的标签,每个标签用于表征一种类型的目标语义信息;根据多个标签识别目标音频数据中包含的目标语义信息。
将待识别的目标音频数据转化为目标字符串包括:将待识别的目标音频数据转化为目标文字字符串;将目标文字字符串转化为目标拼音字符串,并将目标拼音字符串作为目标字符串。
在将目标字符串输入语义分析模型,得到多个标签之前,该方法还包括:判断目标字符串是否为脏数据;在目标字符串不属于脏数据的情况下,执行将目标字符串输入语义分析模型,得到多个标签的步骤。
通话接收对象为第一类对象或第二类对象,语义分析模型包括第一子模型、第二子模型和第三子模型,其中,第一子模型用于描述第一类对象和第二类对象均适用的标签,第二子模型用于描述仅适用于第一类对象的标签,第三子模型用于描述仅适用于第二类对象的标签,将目标字符串输入语义分析模型,得到多个标签包括:将目标字符串输入第一子模型,得到第一标签;基于目标音频数据判断通话接收对象是第一类对象还是第二类对象;在通话接收对象是第一类对象的情况下,将目标字符串输入第二子模型,得到第二标签;在通话接收对象是第二类对象的情况下,将目标字符串输入第三子模型,得到第三标签。
根据多个标签识别目标音频数据中包含的目标语义信息包括:在通话接收对象是第一类对象的情况下,根据第一标签和第二标签识别目标音频数据中包含的目标语义信息;在通话接收对象是第二类对象的情况下,根据第一标签和第三标签识别目标音频数据中包含的目标语义信息。
在与通话发起对象通话的是第二类对象的情况下,根据第一标签和第三标签识别目标音频数据中包含的目标语义信息之前,该方法还包括:判断目标字符串是否归属于第三子模型描述的任意之一标签;在目标字符串归属于第三子模型描述的任意之一标签的情况下,执行将目标字符串输入第三子模型,得到第三标签的步骤。
第一类对象为事务联系对象,第二类对象为事务执行对象,第一子模型至少包括以下之一模型:描述的标签为通话发起对象自我介绍信息的模型,描述的标签为确认事务执行对象的模型,描述的标签为确认待执行事务的模型以及描述的标签为协商事务执行时间的模型;第二子模型至少包括以下之一模型:描述的标签为询问事务执行对象的身份信息的模型,描述的标签为要求转告待执行事务的模型,描述的标签为说明通话原因的模型;第三子模型至少描述以下之一标签:关系施压信息、强调已催办待执行事务的信息、强调此前承诺处理待执行事务的信息、拒绝拖延信息、减免待执行事务的信息、延期信息、要求周转信息、询问执行意愿信息、询问执行现状信息、费用施压信息、执行能力核实信息以及执行难度低信息。
在将目标字符串输入语义分析模型,得到多个标签之前,该方法还包括:分别基于对应的训练集数据训练多个子模型,其中,每个子模型对应的训练集数据包含该子模型的标签表征的目标语义信息数据。
分别基于对应的训练集数据训练多个子模型包括:将目标标签表征的目标语义信息资料转化为多个拼音字符;基于预设词典确定多个拼音字符对应的词向量,并由多个拼音字符以及多个拼音字符对应的词向量构成第一二维矩阵,其中,预设词典中存储有拼音字符以及拼音字符对应的词向量;将第一二维矩阵输入输入层;通过卷积层对第一二维矩阵进行特征提取,得到预设特征向量,并通过池化层对预设特征向量进行过滤,得到目标特征向量;通过全连接层对目标特征向量进行组合;通过输出层对全连接层的组合结果进行输出,其中,输出层包含目标损失函数,目标损失函数与目标标签对应。
通过卷积层对第一二维矩阵进行特征提取,得到预设特征向量,并通过池化层对预设特征向量进行过滤,得到目标特征向量包括:采用多个第一卷积核将第一二维矩阵转化为第二二维矩阵;采用多个第二卷积核对第二二维矩阵执行卷积块操作,得到第一特征向量,对第一特征向量进行池化,得到第一池化结果;采用多个第三卷积核对池化结果进行卷积块操作,得到第二特征向量,对第二特征向量进行池化,得到第二池化结果;采用多个第四卷积核对第二池化结果进行卷积块操作,得到第三特征向量,对第三特征向量进行池化,得到第三池化结果;采用多个第五卷积核对第三池化结果进行卷积块操作,得到第四特征向量,对第四特征向量进行池化,得到目标特征向量。
该方法还包括:在每次进行卷积块操作后,对得到的特征向量进行批归一化处理。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (14)
1.一种语义识别方法,其特征在于,包括:
将待识别的目标音频数据转化为目标字符串,其中,所述目标音频数据为通话发起对象和通话接收对象之间的通话音频数据;
将所述目标字符串输入语义分析模型,得到多个标签,其中,所述语义分析模型包括多个子模型,每个子模型用于预测所述目标字符串是否归属于所述子模型描述的标签,每个所述标签用于表征一种类型的目标语义信息;
根据所述多个标签识别所述目标音频数据中包含的目标语义信息。
2.根据权利要求1所述的方法,其特征在于,将待识别的目标音频数据转化为目标字符串包括:
将所述待识别的目标音频数据转化为目标文字字符串;
将所述目标文字字符串转化为目标拼音字符串,并将所述目标拼音字符串作为所述目标字符串。
3.根据权利要求1所述的方法,其特征在于,在将所述目标字符串输入语义分析模型,得到多个标签之前,所述方法还包括:
判断所述述目标字符串是否为脏数据;
在所述述目标字符串不属于脏数据的情况下,执行将所述目标字符串输入语义分析模型,得到多个标签的步骤。
4.根据权利要求1所述的方法,其特征在于,所述通话接收对象为第一类对象或第二类对象,所述语义分析模型包括第一子模型、第二子模型和第三子模型,其中,所述第一子模型用于描述所述第一类对象和所述第二类对象均适用的标签,所述第二子模型用于描述仅适用于所述第一类对象的标签,所述第三子模型用于描述仅适用于所述第二类对象的标签,将所述目标字符串输入语义分析模型,得到多个标签包括:
将所述目标字符串输入所述第一子模型,得到第一标签;
基于所述目标音频数据判断所述通话接收对象是所述第一类对象还是所述第二类对象;
在所述通话接收对象是所述第一类对象的情况下,将所述目标字符串输入所述第二子模型,得到第二标签;
在所述通话接收对象是所述第二类对象的情况下,将所述目标字符串输入所述第三子模型,得到第三标签。
5.根据权利要求4所述的方法,其特征在于,根据所述多个标签识别所述目标音频数据中包含的目标语义信息包括:
在所述通话接收对象是所述第一类对象的情况下,根据所述第一标签和所述第二标签识别所述目标音频数据中包含的目标语义信息;
在所述通话接收对象是所述第二类对象的情况下,根据所述第一标签和所述第三标签识别所述目标音频数据中包含的目标语义信息。
6.根据权利要求4所述的方法,其特征在于,在与所述通话发起对象通话的是所述第二类对象的情况下,根据所述第一标签和所述第三标签识别所述目标音频数据中包含的目标语义信息之前,所述方法还包括:
判断所述目标字符串是否归属于所述第三子模型描述的任意之一标签;
在所述目标字符串归属于所述第三子模型描述的任意之一标签的情况下,执行将所述目标字符串输入所述第三子模型,得到第三标签的步骤。
7.根据权利要求4所述的方法,其特征在于,所述第一类对象为事务联系对象,所述第二类对象为事务执行对象,所述第一子模型至少包括以下之一模型:描述的标签为所述通话发起对象自我介绍信息的模型,描述的标签为确认所述事务执行对象的模型,描述的标签为确认待执行事务的模型以及描述的标签为协商事务执行时间的模型;所述第二子模型至少包括以下之一模型:描述的标签为询问所述事务执行对象的身份信息的模型,描述的标签为要求转告待执行事务的模型,描述的标签为说明通话原因的模型;所述第三子模型至少描述以下之一标签:关系施压信息、强调已催办待执行事务的信息、强调此前承诺处理待执行事务的信息、拒绝拖延信息、减免待执行事务的信息、延期信息、要求周转信息、询问执行意愿信息、询问执行现状信息、费用施压信息、执行能力核实信息以及执行难度低信息。
8.根据权利要求1所述的方法,其特征在于,在将所述目标字符串输入语义分析模型,得到多个标签之前,所述方法还包括:
分别基于对应的训练集数据训练所述多个子模型,其中,每个所述子模型对应的训练集数据包含该子模型的标签表征的目标语义信息数据。
9.根据权利要求8所述的方法,其特征在于,分别基于对应的训练集数据训练所述多个子模型包括:
将目标标签表征的目标语义信息资料转化为多个拼音字符;
基于预设词典确定所述多个拼音字符对应的词向量,并由所述多个拼音字符以及所述多个拼音字符对应的词向量构成第一二维矩阵,其中,所述预设词典中存储有拼音字符以及所述拼音字符对应的词向量;
将所述第一二维矩阵输入输入层;
通过卷积层对所述第一二维矩阵进行特征提取,得到预设特征向量,并通过池化层对所述预设特征向量进行过滤,得到目标特征向量;
通过全连接层对所述目标特征向量进行组合;
通过输出层对所述全连接层的组合结果进行输出,其中,所述输出层包含目标损失函数,所述目标损失函数与所述目标标签对应。
10.根据权利要求9所述的方法,其特征在于,通过卷积层对所述第一二维矩阵进行特征提取,得到预设特征向量,并通过池化层对所述预设特征向量进行过滤,得到目标特征向量包括:
采用多个第一卷积核将所述第一二维矩阵转化为第二二维矩阵;
采用多个第二卷积核对所述第二二维矩阵执行卷积块操作,得到第一特征向量,对所述第一特征向量进行池化,得到第一池化结果;
采用多个第三卷积核对所述池化结果进行卷积块操作,得到第二特征向量,对所述第二特征向量进行池化,得到第二池化结果;
采用多个第四卷积核对所述第二池化结果进行卷积块操作,得到第三特征向量,对所述第三特征向量进行池化,得到第三池化结果;
采用多个第五卷积核对所述第三池化结果进行卷积块操作,得到第四特征向量,对所述第四特征向量进行池化,得到所述目标特征向量。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
在每次进行卷积块操作后,对得到的特征向量进行批归一化处理。
12.一种语义识别装置,其特征在于,包括:
转化单元,用于将待识别的目标音频数据转化为目标字符串,其中,所述目标音频数据为通话发起对象和通话接收对象之间的通话音频数据;
处理单元,用于将所述目标字符串输入语义分析模型,得到多个标签,其中,所述语义分析模型包括多个子模型,每个子模型用于预测所述目标字符串是否归属于所述子模型描述的标签,每个所述标签用于表征一种类型的目标语义信息;
识别单元,用于根据所述多个标签识别所述目标音频数据中包含的目标语义信息。
13.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序执行权利要求1至11中任意一项所述的语义识别方法。
14.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至11中任意一项所述的语义识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010514884.8A CN111739537B (zh) | 2020-06-08 | 2020-06-08 | 语义识别方法、装置、存储介质及处理器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010514884.8A CN111739537B (zh) | 2020-06-08 | 2020-06-08 | 语义识别方法、装置、存储介质及处理器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111739537A true CN111739537A (zh) | 2020-10-02 |
CN111739537B CN111739537B (zh) | 2023-01-24 |
Family
ID=72648547
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010514884.8A Active CN111739537B (zh) | 2020-06-08 | 2020-06-08 | 语义识别方法、装置、存储介质及处理器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111739537B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221721A (zh) * | 2021-05-08 | 2021-08-06 | 广州虎牙科技有限公司 | 图像识别方法、装置、设备及介质 |
CN113344145A (zh) * | 2021-08-02 | 2021-09-03 | 智道网联科技(北京)有限公司 | 字符识别方法、装置、电子设备和存储介质 |
CN113380257A (zh) * | 2021-06-08 | 2021-09-10 | 深圳市同行者科技有限公司 | 多端智能家居的响应方法、装置、设备及存储介质 |
CN113903349A (zh) * | 2021-09-26 | 2022-01-07 | 西安讯飞超脑信息科技有限公司 | 一种降噪模型的训练方法、降噪方法、装置和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107871497A (zh) * | 2016-09-23 | 2018-04-03 | 北京眼神科技有限公司 | 语音识别方法和装置 |
CN108597519A (zh) * | 2018-04-04 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 一种话单分类方法、装置、服务器和存储介质 |
CN109815489A (zh) * | 2019-01-02 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 催收信息生成方法、装置、计算机设备和存储介质 |
US20200058291A1 (en) * | 2018-08-20 | 2020-02-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for identifying key phrase in audio, device and medium |
-
2020
- 2020-06-08 CN CN202010514884.8A patent/CN111739537B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107871497A (zh) * | 2016-09-23 | 2018-04-03 | 北京眼神科技有限公司 | 语音识别方法和装置 |
CN108597519A (zh) * | 2018-04-04 | 2018-09-28 | 百度在线网络技术(北京)有限公司 | 一种话单分类方法、装置、服务器和存储介质 |
US20200058291A1 (en) * | 2018-08-20 | 2020-02-20 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for identifying key phrase in audio, device and medium |
CN109815489A (zh) * | 2019-01-02 | 2019-05-28 | 深圳壹账通智能科技有限公司 | 催收信息生成方法、装置、计算机设备和存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113221721A (zh) * | 2021-05-08 | 2021-08-06 | 广州虎牙科技有限公司 | 图像识别方法、装置、设备及介质 |
CN113380257A (zh) * | 2021-06-08 | 2021-09-10 | 深圳市同行者科技有限公司 | 多端智能家居的响应方法、装置、设备及存储介质 |
CN113344145A (zh) * | 2021-08-02 | 2021-09-03 | 智道网联科技(北京)有限公司 | 字符识别方法、装置、电子设备和存储介质 |
CN113903349A (zh) * | 2021-09-26 | 2022-01-07 | 西安讯飞超脑信息科技有限公司 | 一种降噪模型的训练方法、降噪方法、装置和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111739537B (zh) | 2023-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111739537B (zh) | 语义识别方法、装置、存储介质及处理器 | |
CN110020009B (zh) | 在线问答方法、装置及系统 | |
CN111081279A (zh) | 语音情绪波动分析方法及装置 | |
CN106997342B (zh) | 基于多轮交互的意图识别方法和装置 | |
CN111159375A (zh) | 一种文本处理方法及装置 | |
CN116304748B (zh) | 一种文本相似度计算方法、系统、设备及介质 | |
CN114627868A (zh) | 意图识别方法、装置、模型及电子设备 | |
CN114416989A (zh) | 一种文本分类模型优化方法和装置 | |
CN111274390B (zh) | 一种基于对话数据的情感原因确定方法及装置 | |
CN114022192A (zh) | 一种基于智能营销场景的数据建模方法及系统 | |
CN113327584A (zh) | 语种识别方法、装置、设备及存储介质 | |
CN112908315A (zh) | 一种基于声音特征和语音识别的问答意图判断方法 | |
CN116882514A (zh) | 一种基于混合模型的多任务处理方法和装置 | |
CN116844573A (zh) | 基于人工智能的语音情感识别方法、装置、设备及介质 | |
CN114726635B (zh) | 权限验证方法、装置、电子设备及介质 | |
CN116976341A (zh) | 实体识别方法、装置、电子设备、存储介质及程序产品 | |
CN111666755B (zh) | 一种复述句识别的方法及装置 | |
CN115129865A (zh) | 一种工单分类方法、装置、电子设备和存储介质 | |
CN114048714A (zh) | 逆文本标准化方法和装置 | |
CN113963440A (zh) | 一种客户购买意愿分析方法及装置 | |
CN114764437A (zh) | 用户意图识别方法、装置以及电子设备 | |
CN118278971B (zh) | 一种基于通话大数据分析的客户群体筛选系统及方法 | |
CN111681670A (zh) | 信息识别方法、装置、电子设备及存储介质 | |
CN112270179B (zh) | 一种实体识别方法、装置及电子设备 | |
CN112613295B (zh) | 语料识别方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |