CN110728145B - 一种基于录音对话的自然语言理解模型的建立方法 - Google Patents

一种基于录音对话的自然语言理解模型的建立方法 Download PDF

Info

Publication number
CN110728145B
CN110728145B CN201910960980.2A CN201910960980A CN110728145B CN 110728145 B CN110728145 B CN 110728145B CN 201910960980 A CN201910960980 A CN 201910960980A CN 110728145 B CN110728145 B CN 110728145B
Authority
CN
China
Prior art keywords
training
data
model
dialogue
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910960980.2A
Other languages
English (en)
Other versions
CN110728145A (zh
Inventor
崔晶晶
左琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jeo Polymerization Beijing Artificial Intelligence Technology Co ltd
Original Assignee
Jeo Polymerization Beijing Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jeo Polymerization Beijing Artificial Intelligence Technology Co ltd filed Critical Jeo Polymerization Beijing Artificial Intelligence Technology Co ltd
Priority to CN201910960980.2A priority Critical patent/CN110728145B/zh
Publication of CN110728145A publication Critical patent/CN110728145A/zh
Application granted granted Critical
Publication of CN110728145B publication Critical patent/CN110728145B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于录音对话的自然语言理解模型的建立方法,包括:获取针对一个拨叫方的多组对话录音的音频数据,将所述对话录音的音频数据转换为文字数据;向所述拨叫方和多个接听方分配对应的ID,将每组对话的文字数据根据ID进行划分;然后根据文字内容设置标签;将设置标签后的文字数据进行数据清洗,划分数据集为训练集和测试集;将训练集放入预设训练模型中进行训练,输出模型。本发明通过调节隐层和神经元的参数提高了预测的准确性。本发明可以适用于贷款逾期以后的场景下的自然语言理解模型。

Description

一种基于录音对话的自然语言理解模型的建立方法
技术领域
本发明涉及自然语音处理技术领域,特别涉及一种基于录音对话的自然语言理解模型的建立方法。
背景技术
当前,虽然许多公司都有设计了的自然语言理解模型,但都是通用场景下的技术方案,针对特定场景下的自然语言理解模型目前还没有,尤其是针对贷款逾期以后的场景下的自然语言理解模型。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种基于录音对话的自然语言理解模型的建立方法。
为了实现上述目的,本发明的实施例提供一种基于录音对话的自然语言理解模型的建立方法,包括如下步骤:
步骤S1,获取针对一个拨叫方的多组对话录音的音频数据,将所述对话录音的音频数据转换为文字数据;
步骤S2,向所述拨叫方和多个接听方分配对应的ID,将每组对话的文字数据根据ID进行划分;
步骤S3,然后根据文字内容设置标签;
步骤S4,将设置标签后的文字数据进行数据清洗,划分数据集为训练集和测试集;
步骤S5,将训练集放入预设训练模型中进行训练,输出模型。
进一步,在所述步骤S2中,将每组对话的文字数据根据ID进行划分后,对对话文字中连续出现的ID的对话内容进行合并。
进一步,在所述步骤S3中,所述标签内容包括:品质违规、业务违规、负面风险、话术流程、施压话术。
进一步,在所述步骤S4中,将清洗后的数据中80%的数据划分为训练集,20%的数据划分为测试集。
进一步,划分为训练集和测试集后,将中文进行分词,然后对词做编码。
进一步,在所述步骤S5中,所述预设训练模型为TextCNN模型。
进一步,预先设定默认值,向预设训练模型中输入训练集数据进行训练,训练出来的模型经过测试集进行验证,然后修改参数并同时检测准确率,选取准确率最高的参数为最终的参数。
进一步,所述参数包括:词向量的维度、词汇表的大小、句子的长度、CNN过滤器的大小、CNN过滤器的个数、dropout的阈值、学习率、卷积核大小、学习率下降的梯度、梯度下降的阈值、l2正则化项值、训练批次、每批次样本个数。
进一步,采用TextCNN模型进行训练,包括如下步骤:
首先,对输入矩阵进行卷积操作,经过卷积操作后得到k个向量,采用不同大小的卷积核,从输入文本中提取特征;
然后,对卷积操作的输出进行max-pooling操作;将k个标量数字拼接起来,组成一个向量表示最后提取的特征;
最后,在接一个全联接层作为输出层,得到模型的输出。
根据本发明实施例的基于录音对话的自然语言理解模型的建立方法,将获取的对话录音的音频数据转换为文字数据;将每组对话的文字数据根据拨叫方和接听方ID进行划分;然后根据文字内容设置标签;将设置标签后的文字数据进行数据清洗,划分数据集为训练集和测试集;将训练集放入预设训练模型中进行训练,输出模型。本发明通过调节隐层和神经元的参数提高了预测的准确性。本发明可以适用于贷款逾期以后的场景下的自然语言理解模型。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于录音对话的自然语言理解模型的建立方法的流程图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
如图1所示,本发明实施例的基于录音对话的自然语言理解模型的建立方法,包括如下步骤:
步骤S1,获取针对一个拨叫方的多组对话录音的音频数据,将对话录音的音频数据转换为文字数据。
步骤S2,向拨叫方和多个接听方分配对应的ID,将每组对话的文字数据根据ID进行划分。
以贷后场景为例,催收员为拨叫方,客户为接听方。由于是基于贷后场景下的录音对话,每一条数据表示一个催收员所拨打的所有催收电话。这种数据关系为一对多关系,因为催收员的电话号码是唯一的,但催收员所拨打的电话可以是多个。所以,将每一通电话的通话id分开,这样数据就变成一对一的关系。
将每一通电话id分开后,此时的数据由于是录音转换为文字所以对话有两个角色,一个是电催员(拨叫方)用大写字母S来指代,一个是客户(接听方)用大写字母C来指代。而录音转换为文字会根据间断点去分隔。
此外,将每组对话的文字数据根据ID进行划分后,对对话文字中连续出现的ID的对话内容进行合并。即,将所有连续的S、C作为ID的数据分别合并。
步骤S3,然后根据文字内容设置标签。
然后将这些数据进行人工打标签。打标签就是根据录音对话来从以下标签中选择适合的标签标注其中。
在本发明的实施例中,标签按维度分为:品质违规、业务违规、负面风险、话术流程、施压话术等。
其中,品质违规维度有“侮辱辱骂”标签、“威胁恐吓”标签;业务违规维度有“承诺消除不良”标签、“承诺减免”标签、“承诺可继续使用信用卡”标签、“承诺可继续借款”标签、“承诺可以分期”标签、“法律应用错误”标签、“无效通时”标签、“私收现金风险”标签、“催收名义违规”标签、“冒充公检法”标签、“告知第三方债务人欠款金额”标签、“告知第三方债务人身份证号”标签、“告知第三方债务人其他信息”标签、“催收第三方”标签;负面风险维度有“挑衅公务人员”标签、“引导债务人或第三方投诉”标签、“引导客户实施违规行为”标签、“信息来源说明不当”标签、“对债权方负面评价”标签;话术流程维度有“核实对方身份”标签、“描述借款信息”标签、“表明自己身份”标签、“询问欠款原因”标签、“约定下次沟通时间”标签、“询问筹款状态”标签、“约定还款时间”标签、“要求限时还款”标签、“核实预留信息”标签、“询问最新信息”标签、“询问工作单位”标签、“确认朋友电话”标签、“询问紧急联系人信息”标签;施压话术维度有“个人信息”标签、“诉讼处置”标签、“仲裁处置”标签、“社交影响”标签、“生活影响”标签、“工作影响”标签。
步骤S4,将设置标签后的文字数据进行数据清洗,划分数据集为训练集和测试集。
具体来说,原始提取的数据为脏数据,即源系统中的数据不在给定的范围内或对于实际业务毫无意义,或是数据格式非法,以及在源系统中存在不规范的编码和含糊的业务逻辑。因此,需要对这些数据进行数据清洗。数据清洗是指对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
在本步骤中,将清洗后的数据中80%的数据划分为训练集,20%的数据划分为测试集。其中,训练集是指学习样本数据集,通过匹配一些参数来建立一个分类器。建立一种分类的方式,主要是用来训练模型的。测试集是测试训练好的模型的分辨能力(识别率等),看预测结果与真实结果的误差。
然后划分为训练集和测试集后,将中文进行分词,然后对词做编码。
在本发明的实施例汇总,通过word2vec将中文进行分词,然后对词做编码,也就是通过使用word2vec。
步骤S5,将训练集放入预设训练模型中进行训练,输出模型。
由于自然语言理解模型的输入一般为表示为矩阵的句子或文档,所以本发明将输入数据转换成表示为矩阵的文档,矩阵的每一行对应一个标记,每行是表示单词的向量,向量维度设为100。然后,本专利使用10*100矩阵作为输入。接下来使用模型来对训练集样本进行训练,本专利使用的自然语言理解模型为TextCNN,通过训练数据的效果不断调参来提高预测的准确率。
在本步骤中,预先设定默认值,向预设训练模型中输入训练集数据进行训练,训练出来的模型经过测试集进行验证,然后不断修改参数看准确率是否提高,选取准确率最高的参数为最终的参数。。
在本发明的实施例中,参数包括:词向量的维度(embedding_size)、词汇表的大小(vocab_size)、句子的长度(seq_length)、CNN过滤器的大小(num_classes)、CNN过滤器的个数(num_filters)、dropout的阈值(keep_prob)、学习率(lr)、卷积核大小(filter_sizes)、学习率下降的梯度(lr_decay)、梯度下降的阈值(clip)、l2正则化项值(l2_reg_lambda)、训练批次(num_epochs)、每批次样本个数(batch_size)。
需要说明的是,上述采用的参数仅是出于示例的目的,而不是为了限制本发明。本发明还可以采用其他类型的参数。
在本步骤中,预设训练模型为TextCNN模型。TextCNN模型主要用于文本分类。需要说明的是,上述采用的训练模型仅是出于示例的目的,而不是为了限制本发明。本发明还可以采用其他类型的训练模型。
采用TextCNN模型进行训练,包括如下步骤:
首先,对输入矩阵进行卷积操作,使用不同大小的卷积核,每种类型的卷积核可以有多个。假设卷积核的大小是(f,d),f的取值为f=[2,3,4],而d是固定的,是词向量的维度,并且假设总共使用了k个卷积核,步长为1。经过卷积操作后会得到k个向量,每个向量的长度是n-f+1.使用不同大小的卷积核,从输入文本中提取丰富的特征,这和n-gram特征有点相似(f=2,3,4分别对应于2-gram,3-gram-4-gram)。
然后,对卷积操作的输出进行max-pooling操作。作用于k个长度为n-f+1的向量上,最每个向量整体取最大值,得到k个标量数字。将k个标量数字拼接起来,组成一个向量表示最后提取的特征,其长度是固定的,取决于所使用的不同大小的卷积核的总数。
最后,在接一个全联接层作为输出层,如果是2分类的话使用sigmoid激活函数,多分类则使用softmax激活函数,得到模型的输出。
根据本发明实施例的基于录音对话的自然语言理解模型的建立方法,将获取的对话录音的音频数据转换为文字数据;将每组对话的文字数据根据拨叫方和接听方ID进行划分;然后根据文字内容设置标签;将设置标签后的文字数据进行数据清洗,划分数据集为训练集和测试集;将训练集放入预设训练模型中进行训练,输出模型。本发明通过调节隐层和神经元的参数提高了预测的准确性。本发明可以适用于贷款逾期以后的场景下的自然语言理解模型。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求极其等同限定。

Claims (5)

1.一种基于录音对话的自然语言理解模型的建立方法,其特征在于,包括如下步骤:
步骤S1,获取针对一个拨叫方的多组对话录音的音频数据,将所述对话录音的音频数据转换为文字数据;
步骤S2,向所述拨叫方和多个接听方分配对应的ID,将每组对话的文字数据根据ID进行划分;其中,将每组对话的文字数据根据ID进行划分后,对对话文字中连续出现的ID的对话内容进行合并;
步骤S3,然后根据文字内容设置标签;
步骤S4,将设置标签后的文字数据进行数据清洗,划分数据集为训练集和测试集;训练集是指学习样本数据集,通过匹配一些参数来建立一个分类器;建立一种分类的方式,用来训练模型;测试集是测试训练好的模型的分辨能力,判断预测结果与真实结果的误差;
步骤S5,将训练集放入预设训练模型中进行训练,输出模型;其中,所述预设训练模型为TextCNN模型;预先设定默认值,向预设训练模型中输入训练集数据进行训练,训练出来的模型经过测试集进行验证,然后修改参数并同时检测准确率,选取准确率最高的参数为最终的参数;所述参数包括:词向量的维度、词汇表的大小、句子的长度、CNN过滤器的大小、CNN过滤器的个数、dropout的阈值、学习率、卷积核大小、学习率下降的梯度、梯度下降的阈值、l2正则化项值、训练批次、每批次样本个数。
2.如权利要求1所述的基于录音对话的自然语言理解模型的建立方法,其特征在于,在所述步骤S3中,所述标签内容包括:品质违规、业务违规、负面风险、话术流程、施压话术。
3.如权利要求1所述的基于录音对话的自然语言理解模型的建立方法,其特征在于,在所述步骤S4中,将清洗后的数据中80%的数据划分为训练集,20%的数据划分为测试集。
4.如权利要求3所述的基于录音对话的自然语言理解模型的建立方法,其特征在于,划分为训练集和测试集后,将中文进行分词,然后对词做编码。
5.如权利要求1所述的基于录音对话的自然语言理解模型的建立方法,其特征在于,采用TextCNN模型进行训练,包括如下步骤:
首先,对输入矩阵进行卷积操作,经过卷积操作后得到k个向量,采用不同大小的卷积核,从输入文本中提取特征;
然后,对卷积操作的输出进行max-pooling操作;将k个标量数字拼接起来,组成一个向量表示最后提取的特征;
最后,在接一个全联接层作为输出层,得到模型的输出。
CN201910960980.2A 2019-10-11 2019-10-11 一种基于录音对话的自然语言理解模型的建立方法 Active CN110728145B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910960980.2A CN110728145B (zh) 2019-10-11 2019-10-11 一种基于录音对话的自然语言理解模型的建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910960980.2A CN110728145B (zh) 2019-10-11 2019-10-11 一种基于录音对话的自然语言理解模型的建立方法

Publications (2)

Publication Number Publication Date
CN110728145A CN110728145A (zh) 2020-01-24
CN110728145B true CN110728145B (zh) 2023-08-29

Family

ID=69219948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910960980.2A Active CN110728145B (zh) 2019-10-11 2019-10-11 一种基于录音对话的自然语言理解模型的建立方法

Country Status (1)

Country Link
CN (1) CN110728145B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507751A (zh) * 2020-03-26 2020-08-07 北京睿科伦智能科技有限公司 一种基于沟通数据的线索打分方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447863A (zh) * 2018-10-23 2019-03-08 广州努比互联网科技有限公司 一种4mat实时分析方法及系统
CN109697232A (zh) * 2018-12-28 2019-04-30 四川新网银行股份有限公司 一种基于深度学习的中文文本情感分析方法
CN109859760A (zh) * 2019-02-19 2019-06-07 成都富王科技有限公司 基于深度学习的电话机器人语音识别结果校正方法
CN110309216A (zh) * 2019-05-10 2019-10-08 焦点科技股份有限公司 一种基于文本分类的客服语音质检方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109447863A (zh) * 2018-10-23 2019-03-08 广州努比互联网科技有限公司 一种4mat实时分析方法及系统
CN109697232A (zh) * 2018-12-28 2019-04-30 四川新网银行股份有限公司 一种基于深度学习的中文文本情感分析方法
CN109859760A (zh) * 2019-02-19 2019-06-07 成都富王科技有限公司 基于深度学习的电话机器人语音识别结果校正方法
CN110309216A (zh) * 2019-05-10 2019-10-08 焦点科技股份有限公司 一种基于文本分类的客服语音质检方法

Also Published As

Publication number Publication date
CN110728145A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN112804400B (zh) 客服呼叫语音质检方法、装置、电子设备及存储介质
CN111026843B (zh) 一种人工智能语音外呼方法、系统及存储介质
CN112988991A (zh) 一种通过人机对话进行反欺诈干预的方法和系统
CN111696558A (zh) 智能外呼方法、装置、计算机设备及存储介质
CN111883115A (zh) 语音流程质检的方法及装置
CN113239147A (zh) 基于图神经网络的智能会话方法、系统及介质
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN113240510A (zh) 异常用户预测方法、装置、设备及存储介质
CN112053681B (zh) Asr和nlu联合训练的电话客服质量评分方法及系统
CN115269836A (zh) 意图识别方法及装置
CN110728145B (zh) 一种基于录音对话的自然语言理解模型的建立方法
CN110795531B (zh) 一种意图识别方法、装置及存储介质
CN111159378B (zh) 对问题描述信息进行分类的方法及装置
CN116610772A (zh) 一种数据处理方法、装置及服务器
CN112002306B (zh) 语音类别的识别方法、装置、电子设备及可读存储介质
CN114356982A (zh) 营销合规性检查方法、装置、计算机设备及存储介质
CN111782775B (zh) 对话方法、装置、设备和介质
CN113905135A (zh) 一种智能外呼机器人的用户意向识别方法和装置
CN114064873A (zh) 保险领域faq知识库构建方法、装置及电子设备
CN112053052A (zh) 客服业务风险识别方法、装置、设备及存储介质
Lee et al. A study on natural language call routing
JP2017211586A (ja) 心理分析装置、心理分析方法、およびプログラム
US11947872B1 (en) Natural language processing platform for automated event analysis, translation, and transcription verification
Pranto et al. Aims talk: Intelligent call center support in bangla language with speaker authentication
CN116089906B (zh) 基于动态上下文表示和模态融合的多模态分类方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant