CN115310429B - 一种多轮倾听对话模型中的数据压缩与高性能计算方法 - Google Patents

一种多轮倾听对话模型中的数据压缩与高性能计算方法 Download PDF

Info

Publication number
CN115310429B
CN115310429B CN202210936269.5A CN202210936269A CN115310429B CN 115310429 B CN115310429 B CN 115310429B CN 202210936269 A CN202210936269 A CN 202210936269A CN 115310429 B CN115310429 B CN 115310429B
Authority
CN
China
Prior art keywords
data
listening
stage
vector
complaint
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210936269.5A
Other languages
English (en)
Other versions
CN115310429A (zh
Inventor
郑义恒
肖永强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujian Reliable Cloud Computing Technology Co.,Ltd.
Original Assignee
Xiamen Biebeyun Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Biebeyun Co ltd filed Critical Xiamen Biebeyun Co ltd
Priority to CN202210936269.5A priority Critical patent/CN115310429B/zh
Publication of CN115310429A publication Critical patent/CN115310429A/zh
Application granted granted Critical
Publication of CN115310429B publication Critical patent/CN115310429B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Public Health (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种多轮倾听对话模型中的数据压缩与高性能计算方法。该方法实现阶段包括:数据预处理阶段、数据向量化阶段、向量聚合阶段、模型拟合阶段、并行计算阶段。本发明涉及的技术包括:预训练语言模型、深度循环神经网络、注意力机制、并行计算。本发明中所提出的技术方案在有限的计算性能与开发周期内,使得语言模型同时具备强对话策略约束与足够的知识广度。

Description

一种多轮倾听对话模型中的数据压缩与高性能计算方法
技术领域
本发明涉及计算机软件技术领域,特别涉及一种多轮倾听对话模型中的数据压缩与高性能计算方法。
背景技术
人机对话技术作为自然语言处理的核心研究内容,对该技术的研究与应用是学界与业界的关注重点。在近十年的井喷式发展后,涌现出诸如注意力机制、预训练模型、端到端方法以及迁移学习等领域热点,推动了人机对话技术的发展。
在实际应用中,人机对话系统被分为任务型与非任务型对话系统。任务型对话系统面向垂直领域,目的是在有限的对话次数中满足用户的要求,常见的应用场景例如在线客服、机票预订助手等。非任务型对话系统面向的领域更为开放,对话的话题更为自由,对话内容涉及的领域更为广泛,构建系统需要的数据更为多样性。
随着人机对话技术的演进,催生了存在横跨任务型与非任务型对话系统的应用场景,例如心理健康领域的倾听对话系统。此类对话系统的目的是模拟真人咨询师的谈话策略,主要以倾听的方式引导来访者倾诉自身的遭遇与困惑,并由对话系统根据来访者所述给出对应的安慰与调解语句,以达到为来访者排解忧虑的作用。
对于对话倾听系统,目前常见的实现方式是基于大规模预训练模型,对现有的特定领域预料进行进一步拟合,但由于模型复杂度高、数据集庞大等因素,在常见的计算设备上拟合模型所消耗的时间往往是数周乃至数月。在追求敏捷开发快速迭代的当下,这样的时间成本是十分昂贵的。并且现有方案对于对话双方的文本数据采用均等的拟合权重,对于对话策略的拟合缺少数据与理论支持。
发明内容
本发明的目的在于提供一种多轮倾听对话模型中的数据压缩与高性能计算方法,在有限的计算资源下,使得语言模型同时具备强对话策略约束与足够的知识广度。
为实现上述目的,本发明的技术方案是:一种多轮倾听对话模型中的数据压缩与高性能计算方法,包括:
数据预处理阶段,使用人工少量数据标记的方式对倾诉数据进行标记;
数据向量化阶段,采用语义嵌入与向量化聚合的方式将标记后的倾诉数据中的文本转换为对应的向量表示;
向量聚合阶段,采用高频词排序与重点词检测的方式对倾诉数据进行压缩与提取;
模型拟合阶段,对预训练语言模型的训练流程进行重构,在损失函数计算中对部分语义数据进行遮罩处理;
并行计算阶段,采用并行计算并行聚合的计算方式。
在本发明一实施例中,所述数据预处理阶段,通过人工少量数据标记的方式对倾诉数据中的倾诉文本及倾诉文本所属的倾听策略进行标注。
在本发明一实施例中,所述倾诉数据的数据格式为对话文本序列。
在本发明一实施例中,所述数据向量化阶段,根据倾诉数据中出现的中文字符,构建中文语料字典,使用每个中文字符在中文语料字典中的索引值将数据集映射为字符索引数据集。
在本发明一实施例中,所述向量聚合阶段,对倾诉数据中的高频词进行统计分析,去除其中的无意义词与停止词后,将前n个高频词加入所述中文语料字典,将每一段咨询中的所有倾诉数据映射为维度为n的高频词向量。
在本发明一实施例中,对自杀相关词汇进行进一步统计,并构建自杀劝阻策略以及其触发规则,以达到对自杀倾向的发现和及时安抚。
在本发明一实施例中,中文语料字典与高频词参数需要根据对话系统的应用场景与生成文本侧重进行调整。
在本发明一实施例中,所述模型拟合阶段,将所述向量聚合阶段输出的数据进行填充与截断操作后得到的向量序列H分批次输入预训练语言模型进行前向计算,其中,
Figure BDA0003783345360000021
在前向计算的过程中,向量序列H会先输入自注意力模型进行编码,即
Figure BDA0003783345360000022
其中,查询向量Q=WqH,键向量K=WkH,值向量V=WvH;Dk是Q和K中列向量的维度,
Figure BDA0003783345360000023
为三个投影矩阵;
经过自注意力模型编码后,将向量序列H输入后续的前向计算流程;在数据完成前向计算之后,遍历本批次内的样本计算损失函数,选择CrossEntropy作为损失函数:
Figure BDA0003783345360000024
其中,Y标签∈{0,1}C为标签对应的one-hot向量表示;
给定数据集为
Figure BDA0003783345360000025
将每个样本x(n)输入前向计算流程,输出为Y预测值;基于数据预处理阶段中对倾诉数据的倾诉文本标记,在遍历到倾诉文本时不计算损失函数。
在本发明一实施例中,所述并行计算阶段,在前向计算与反向传播时,将计算任务分为n份,在计算周期内每个计算节点独立不重复的计算一部分任务,并在计算周期结束时将计算结果传递给相邻下一个计算节点,并同时从相邻的上一节点获取一份计算结果;在所有计算周期结束时,启动同步阶段,存有完整计算数据的节点将相应的数据块传递给相邻节点,并接力传递至所有节点。
相较于现有技术,本发明具有以下有益效果:本发明方法在大数据大规模计算的场景下显著提升集群计算资源的利用率。并且在任务型对话场景中,能够在控制谈话边界与策略的情况下同时保证机器生成文本的多样性以及谈话体验的真实性。
用户在使用本发明所提出的模型拟合与构建方案时,可以降低计算与时间成本,并且通过直接的数据标记,就可以将对话策略信息转化为模型可理解的数学表示,通过构建词表这一直观的方式,可以对心理健康对话等特殊场景下的对于自杀等特定倾向文本做到及时高效的检测。并且由于本发明在损失函数计算中设计的遮罩优化操作,使得在强策略强边界场景下的谈话内容的个性化可定制成为了现实的可能。
附图说明
图1为本发明方法流程示意图。
图2为本发明数据预处理阶段示意图。
图3为本发明数据向量化阶段示意图。
图4为本发明模型拟合阶段示意图。
图5为本发明并行计算阶段示意图。
具体实施方式
下面结合附图,对本发明的技术方案进行具体说明。
如图1所示,本发明一种多轮倾听对话模型中的数据压缩与高性能计算方法,包括:
数据预处理阶段,使用人工少量数据标记的方式对倾诉数据进行标记;
数据向量化阶段,采用语义嵌入与向量化聚合的方式将标记后的倾诉数据中的文本转换为对应的向量表示;
向量聚合阶段,采用高频词排序与重点词检测的方式对倾诉数据进行压缩与提取;
模型拟合阶段,对预训练语言模型的训练流程进行重构,在损失函数计算中对部分语义数据进行遮罩处理;
并行计算阶段,采用并行计算并行聚合的计算方式。
以下为本发明具体实现过程。
本发明一种多轮倾听对话模型中的数据压缩与高性能计算方法,步骤如下:
步骤1:数据预处理阶段
如图2所示,原始数据格式为对话文本序列,为了让模型按照特定的谈话策略对来访者的倾诉作出回应,需要人工对文本所属的倾听策略进行标注,将策略标签与倾诉文本标记在数据中。
步骤2:数据向量化阶段
如图3所示,在本阶段中将标记后的中文文本转换为对应的向量表示。根据对话数据中出现的中文字符,构建中文语料字典,使用每个字符在字典中的索引值将数据集映射为字符索引数据集。
步骤3:向量聚合阶段
为让模型在有限的时间与计算资源之下专注于学习数据中的倾听语句与谈话策略,本方案创新性的对来访者一方的倾诉数据进行进一步提纯与压缩。对倾诉数据中的高频词进行统计分析,去除其中的无意义词与停止词后,将前n个高频词加入步骤2中构建的语料字典,将每一段咨询中的所有倾诉数据映射为维度为n的高频词向量。并且,由于心理健康领域的特殊性,本方案中对自杀相关词汇进行了进一步统计,并构建了自杀劝阻策略以及其触发规则,以达到对自杀倾向的发现和及时安抚。
为了在不同的应用场景中发挥本专利的优势,数据的向量化词典与高频词参数需要根据对话系统系统的应用场景与生成文本侧重进行调整。
步骤4:模型拟合阶段
如图4所示,将步骤3中输出的向量化数据样本,进行填充与截断操作后,将向量序列H数据分批次输入预训练语言模型进行前向计算操作,其中,
Figure BDA0003783345360000041
在前向计算的过程中,向量数据会输入自注意力模型进行编码,即
Figure BDA0003783345360000042
其中,查询向量Q=WqH,键向量K=WkH,值向量V=WvH;Dk是输入矩阵Q和K中列向量的维度,
Figure BDA0003783345360000043
为三个投影矩阵。
经过注意力编码操作后,将向量输入后续的前向计算流程。在数据完成前向计算之后,遍历本批次内的样本计算损失函数,选择CrossEntropy作为损失函数
Figure BDA0003783345360000051
其中Y标签∈{0,1}C为标签对应的one-hot向量表示。
给定数据集为
Figure BDA0003783345360000052
将每个样本x(n)输入前向计算流程,输出为Y预测值。基于步骤1中的倾诉文本标记,在遍历到倾诉文本数据时不计算损失函数值。
步骤5:并行计算阶段
如图5所示,在前向计算与反向传播时,将计算任务分为n份,在计算周期内每个计算节点独立不重复的计算一部分任务,并在计算周期结束时将计算结果传递给相邻下一个计算节点,并同时从相邻的上一节点获取一份计算结果。在所有计算周期结束时,启动同步阶段,存有完整计算数据的节点将相应的数据块传递给相邻节点,并接力传递至所有节点。
以上是本发明的较佳实施例,凡依本发明技术方案所作的改变,所产生的功能作用未超出本发明技术方案的范围时,均属于本发明的保护范围。

Claims (6)

1.一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,包括:
数据预处理阶段,使用人工少量数据标记的方式对倾诉数据进行标记;
数据向量化阶段,采用语义嵌入与向量化聚合的方式将标记后的倾诉数据中的文本转换为对应的向量表示;所述数据向量化阶段,根据倾诉数据中出现的中文字符,构建中文语料字典,使用每个中文字符在中文语料字典中的索引值将数据集映射为字符索引数据集;所述中文语料字典包括策略词典、常规词典、高频词典、重点触发词词典;
数据向量化阶段还包括将倾听数据中的中文文本转换为对应的向量表示;将标记后的倾诉数据中的中文文本转换为对应的向量表示的方式为:将“倾诉开始+倾诉语句+倾诉结束”转换为“0+倾诉语句对应向量+1”,其中0、1分别为倾诉开始、倾诉结束对应的向量,倾诉语句对应向量由常规词典、高频词典、重点触发词词典获取;将倾听数据中的中文文本转换为对应的向量表示的方式为:将“倾听开始+倾听策略+倾听语句+倾听结束”转换为“2+倾听策略对应向量+倾听语句对应向量+3”,其中2、3分别为倾听开始、倾听结束对应的向量,倾听策略对应向量由策略词典获取,倾听语句对应向量由常规词典获取;
向量聚合阶段,采用高频词排序与重点词检测的方式对倾诉数据进行压缩与提取;
模型拟合阶段,对预训练语言模型的训练流程进行重构,在损失函数计算中对部分语义数据进行遮罩处理;
所述模型拟合阶段,将所述向量聚合阶段输出的数据进行填充与截断操作后得到的向量序列H分批次输入预训练语言模型进行前向计算,其中,
在前向计算的过程中,向量序列H会先输入自注意力模型进行编码,即
其中,查询向量Q=WqH,键向量K=WkH,值向量V=WvH;Dk是Q和K中列向量的维度,为三个投影矩阵;
经过自注意力模型编码后,将向量序列H输入后续的前向计算流程;在数据完成前向计算之后,遍历本批次内的样本计算损失函数,选择CrossEntropy作为损失函数:
其中,Y标签∈{0,1}C为标签对应的one-hot向量表示;
给定数据集为将每个样本x(n)输入前向计算流程,输出为Y预测值;基于数据预处理阶段中对倾诉数据的倾诉文本标记,在遍历到倾诉文本时不计算损失函数;
并行计算阶段,采用并行计算并行聚合的计算方式;具体的,所述并行计算阶段,在前向计算与反向传播时,将计算任务分为n份,在计算周期内每个计算节点独立不重复的计算一部分任务,并在计算周期结束时将计算结果传递给相邻下一个计算节点,并同时从相邻的上一节点获取一份计算结果;在所有计算周期结束时,启动同步阶段,存有完整计算数据的节点将相应的数据块传递给相邻节点,并接力传递至所有节点。
2.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,所述数据预处理阶段,通过人工少量数据标记的方式对倾诉数据中的倾诉文本及倾诉文本所属的倾听策略进行标注。
3.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,所述倾诉数据的数据格式为对话文本序列。
4.根据权利要求1所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,所述向量聚合阶段,对倾诉数据中的高频词进行统计分析,去除其中的无意义词与停止词后,将前n个高频词加入所述中文语料字典,将每一段咨询中的所有倾诉数据映射为维度为n的高频词向量。
5.根据权利要求4所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,对自杀相关词汇进行进一步统计,并构建自杀劝阻策略以及其触发规则,以达到对自杀倾向的发现和及时安抚。
6.根据权利要求4所述的一种多轮倾听对话模型中的数据压缩与高性能计算方法,其特征在于,中文语料字典与高频词参数需要根据对话系统的应用场景与生成文本侧重进行调整。
CN202210936269.5A 2022-08-05 2022-08-05 一种多轮倾听对话模型中的数据压缩与高性能计算方法 Active CN115310429B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210936269.5A CN115310429B (zh) 2022-08-05 2022-08-05 一种多轮倾听对话模型中的数据压缩与高性能计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210936269.5A CN115310429B (zh) 2022-08-05 2022-08-05 一种多轮倾听对话模型中的数据压缩与高性能计算方法

Publications (2)

Publication Number Publication Date
CN115310429A CN115310429A (zh) 2022-11-08
CN115310429B true CN115310429B (zh) 2023-04-28

Family

ID=83861001

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210936269.5A Active CN115310429B (zh) 2022-08-05 2022-08-05 一种多轮倾听对话模型中的数据压缩与高性能计算方法

Country Status (1)

Country Link
CN (1) CN115310429B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117056496B (zh) * 2023-10-12 2024-01-26 青岛海尔乐信云科技有限公司 一种基于大数据的智能客服交互数据管理方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413752A (zh) * 2019-07-22 2019-11-05 中国科学院自动化研究所 基于对话逻辑的多轮口语理解方法、系统、装置
CN111414466A (zh) * 2020-03-17 2020-07-14 杭州博拉哲科技有限公司 一种基于深度模型融合的多轮对话建模方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106383877B (zh) * 2016-09-12 2020-10-27 电子科技大学 一种社交媒体在线短文本聚类和话题检测方法
CN113360618B (zh) * 2021-06-07 2022-03-11 暨南大学 一种基于离线强化学习的智能机器人对话方法及系统
CN114443827A (zh) * 2022-01-28 2022-05-06 福州大学 基于预训练语言模型的局部信息感知对话方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110413752A (zh) * 2019-07-22 2019-11-05 中国科学院自动化研究所 基于对话逻辑的多轮口语理解方法、系统、装置
CN111414466A (zh) * 2020-03-17 2020-07-14 杭州博拉哲科技有限公司 一种基于深度模型融合的多轮对话建模方法

Also Published As

Publication number Publication date
CN115310429A (zh) 2022-11-08

Similar Documents

Publication Publication Date Title
WO2021217935A1 (zh) 问题生成模型的训练方法、问题生成方法及其相关设备
CN111090736B (zh) 问答模型的训练方法、问答方法、装置及计算机存储介质
CN110134946B (zh) 一种针对复杂数据的机器阅读理解方法
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN106484664A (zh) 一种短文本间相似度计算方法
CN111858932A (zh) 基于Transformer的多重特征中英文情感分类方法及系统
CN114116994A (zh) 一种迎宾机器人对话方法
CN111209363B (zh) 语料数据处理方法、装置、服务器和存储介质
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN115858758A (zh) 一种多非结构化数据识别的智慧客服知识图谱系统
CN112860896A (zh) 语料泛化方法及用于工业领域的人机对话情感分析方法
CN111523328B (zh) 一种智能客服语义处理方法
CN115310429B (zh) 一种多轮倾听对话模型中的数据压缩与高性能计算方法
CN116010581A (zh) 一种基于电网隐患排查场景的知识图谱问答方法及系统
CN115759119A (zh) 一种金融文本情感分析方法、系统、介质和设备
CN116932736A (zh) 一种基于用户需求结合倒排表的专利推荐方法
CN116483314A (zh) 一种自动化智能活动图生成方法
CN114707491A (zh) 基于自然语言处理的数量提取方法和系统
CN114722817A (zh) 事件处理方法及装置
CN110347824A (zh) 一种基于词汇相似性的lda主题模型最优主题数确定方法
CN110569510A (zh) 一种对用户请求数据的命名实体识别的方法
CN116150379B (zh) 短信文本分类方法、装置、电子设备及存储介质
CN114818644B (zh) 文本模板生成方法、装置、设备及存储介质
CN116913278B (zh) 语音处理方法、装置、设备和存储介质
CN116720502B (zh) 基于机器阅读理解与模板规则的航空文档信息抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 361000 3F-A317, Zone C, Innovation Building, Software Park, Torch High tech Zone, Xiamen City, Fujian Province

Patentee after: Fujian Reliable Cloud Computing Technology Co.,Ltd.

Country or region after: China

Address before: 361000 3f-a317, Zone C, innovation building, software park, torch hi tech Zone, Huli District, Xiamen City, Fujian Province

Patentee before: Xiamen Biebeyun Co.,Ltd.

Country or region before: China