CN113377939A - 文本增强方法、装置、计算机设备及存储介质 - Google Patents

文本增强方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113377939A
CN113377939A CN202110721315.5A CN202110721315A CN113377939A CN 113377939 A CN113377939 A CN 113377939A CN 202110721315 A CN202110721315 A CN 202110721315A CN 113377939 A CN113377939 A CN 113377939A
Authority
CN
China
Prior art keywords
dialogue
node
round
conversation
original
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110721315.5A
Other languages
English (en)
Other versions
CN113377939B (zh
Inventor
黄海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN202110721315.5A priority Critical patent/CN113377939B/zh
Publication of CN113377939A publication Critical patent/CN113377939A/zh
Application granted granted Critical
Publication of CN113377939B publication Critical patent/CN113377939B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种文本增强方法和装置,该方法包括:接收多条原始对话数据,将每条原始对话数据中的每一轮对话解析为相应的单轮对话模板,单轮对话模板中包括单轮对话函数;将多条原始对话数据生成的具有相同单轮对话模板的单轮对话作为同一级节点,组成对话模板树,遍历对话模板树的每个节点,如果第一节点的当前对话槽和前一轮信念状态与上一级中的第二节点的相同,则将第一节点和第二节点相连接;遍历对话模板树,生成多条完整路径,每条完整路径由多个不同等级的节点组成,将完整路径上的多个节点对应的原始对话语句还原为自然语言,组成多个完整对话,作为增强后的任务型对话数据。本申请减少了很多的计算量,通用性强。

Description

文本增强方法、装置、计算机设备及存储介质
技术领域
本申请涉及数据处理技术领域,特别是涉及针对任务型对话数据的文本增强方法、装置、计算机设备和存储介质。
背景技术
寿险很多业务场景需要用户按照预设的业务流程进行办理,比如保单贷款、保险方案咨询、外呼保费续收、增员面试考察等,这些场景可统称之为任务型场景。任务型机器人能够模拟业务员,以对话的方式引导和帮助用户完成这些业务。任务型机器人模拟业务员的能力是通过模型学习任务型对话数据获得的。而整段任务型对话数据的标注是非常耗时耗力的,为此人们已经想到一些针对句子级别的文本增强的方法,但是并不能解决任务型机器人对话学习的所有任务。
例如,中国发明专利CN112488164A公开的任务型对话文本增强系统,涉及文本处理技术领域,包括同义词替换模块、近义词替换模块、实体替换模块、噪声注入模块、文本混合模块,其中,同义词替换模块用于用文本中各个词的同义词替换对应的词,生成第一训练数据;近义词替换模块用于用文本中各个词的近义词替换对应的词,生成第二训练数据;实体替换模块用于用文本中与各个实体类型相同的实体替换对应的实体,生成第三训练数据;噪声注入模块用于置空、交换、增加、删除文本的词,生成第四训练数据;文本混合模块用于混合第一训练数据、第二训练数据、第三训练数据、第四训练数据,得到第五训练数据,缓解了训练数据不足的问题,实现了进一步优化任务型对话系统的性能。
如上技术中,针对句子的文本增强技术有明显的缺陷是:这些文本增强方法都只针对句子级别进行增强,主要是用于加强辅助文本分类,在任务型机器人中用于用户意图理解。但是对于任务型机器人文本分类只是其中一部分任务,任务型机器人还需要槽值填充、对话状态管理等技术。针对句子级的文本增强技术并不能对槽值填充和对话状态管理等提供数据支持。
发明内容
基于此,本申请提供一种针对任务型对话数据的文本增强方法、装置、计算机设备和存储介质。
第一方面提供了一种文本增强方法,包括:
接收多条原始对话数据,将每条所述原始对话数据中的每一轮对话解析为相应的单轮对话模板,所述单轮对话模板中包括单轮对话函数,所述单轮对话函数包括如下元素:当前信念状态、前一轮信念状态、当前对话槽、下一轮对话槽;
将多条所述原始对话数据中的具有相同单轮对话模板的单轮对话作为同一级节点,组成对话模板树,遍历所述对话模板树的每个节点,如果第一节点的当前对话槽与上一级中的第二节点的下一轮对话槽相同,并且所述第一节点的前一轮信念状态与所述上一级的第二节点的当前信念状态相同,则将所述第一节点和第二节点相连接;
遍历所述对话模板树,按照等级由高到低的顺序沿着节点连线生成多条完整路径,每条所述完整路径由多个不同等级的节点组成,将所述完整路径上的多个节点对应的原始对话语句按照由高到低的等级进行顺序组合,组成多个完整对话,作为增强后的任务型对话数据。
进一步地,所述信念状态包含所述原始对话数据中的所有语义关键信息。
进一步地,所述对话槽包含所述原始对话数据中单轮对话的唯一语义关键信息。
进一步地,所述对话模板树由多个等级的节点分级连线而组成,每个等级内部的节点的单轮对话模板所包含的单轮对话函数相同。
进一步地,在所述对话模板树中,每个节点代表所述原始对话数据中的一轮对话,等级高一级的节点作为下一个等级的父节点,并且当前节点的对话槽与父节点的下一轮对话槽相同,而当前节点的前一轮信念状态与父节点的当前信念状态相同。
进一步地,在每一条完整路径中,所述语义关键信息通过人工标注或机器自动标注而获得。
进一步地,所述将所述完整路径上的多个节点对应的原始对话语句还原为自然语言,组成多个完整对话,包括:
所述完整路径上的每个节点对应的原始对话语句为多条;
从多条原始对话语句中随机抽取一条还原为自然语言;
整合每个节点对应的自然语言,组成一个完整对话;
重复以上过程,组成多个完整对话。
第二方面提供了一种文本增强装置,包括:
单论对话模板生成模块,用于接收多条原始对话数据,将每条所述原始对话数据中的每一轮对话解析为相应的单轮对话模板,所述单轮对话模板中包括单轮对话函数,所述单轮对话函数包括如下元素:当前信念状态、前一轮信念状态、当前对话槽、下一轮对话槽;
对话模板树生成模块,用于将多条所述原始对话数据中的具有相同单轮对话模板的单轮对话作为同一级节点,组成对话模板树,遍历所述对话模板树的每个节点,如果第一节点的当前对话槽与上一级中的第二节点的下一轮对话槽相同,并且所述第一节点的前一轮信念状态与所述上一级的第二节点的当前信念状态相同,则将所述第一节点和第二节点相连接;
新对话合成模块,用于遍历所述对话模板树,按照等级由高到低的顺序沿着节点连线生成多条完整路径,每条所述完整路径由多个不同等级的节点组成,将所述完整路径上的多个节点对应的原始对话语句按照由高到低的等级进行顺序组合,组成多个完整对话,作为增强后的任务型对话数据。
第三方面提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述针对任务型对话数据的文本增强方法的步骤。
第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令被一个或多个处理器执行时,实现如第一方面所述文本增强方法的步骤。
上述针对任务型对话数据的文本增强方法、装置、计算机设备和存储介质,相对于现有技术具有如下优势:
1、针对任务型对话的文本增强技术比原来针对句子的文本增强的方法简单,不用使用大规模的预训练模型,只需在现有任务型对话数据基础上形成模板,启发式的进行文本增强,减少了很多的计算量。
2、针对任务型对话的文本增强技术比原来针对句子的文本增强的更具有通用性,原来针对句子的文本增强只能对意图理解的下游任务有帮助作用。针对任务型对话文本增强技术最终增强的是一整段完成对话,可用于任何对话任务,如意图理解、槽值填充、对话状态管理等多个模型的训练。
附图说明
图1为一个实施例中计算机设备的内部结构框图;
图2为本申请的任务型对话数据文本增强关键原理示意图;
图3为一个实施例中针对任务型对话数据的文本增强方法的第一个实施方式的流程图;
图4为一条原始对话数据的模板解析过程示意图;
图5为对话模板树生成示意图;
图6为合成新对话过程示意图;
图7为一个实施例中针对任务型对话数据的文本增强装置的结构框图;
图8示出了本申请一实施例所提供的一种电子设备的结构示意图;
图9示出了本申请一实施例所提供的一种存储介质的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一针对任务型对话数据的文本增强脚本称为第二针对任务型对话数据的文本增强脚本,且类似地,可将第二针对任务型对话数据的文本增强脚本称为第二针对任务型对话数据的文本增强脚本。
实施例1
图1为一个实施例中计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种针对任务型对话数据的文本增强方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种针对任务型对话数据的文本增强方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图1中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
下面结合附图来描述根据本申请实施例提出的一种针对任务型对话数据的文本增强方法、装置、电子设备及存储介质。
本申请的任务型对话数据文本增强关键原理示意图如图2所示,图2Dialogue A和Dialogue B分别是一段完整的对话,每段对话中U表示用户说话,A表示系统回复。通常一段对话由多轮对话组成,一对AU交互表示一轮对话,判断一轮对话可以由人工标注进行区分,也可以根据文字识别一次“A”“U”对的出现确定是一轮对话。图中SA和SB均表示一轮对话。图2右侧表示SA和SB
信念状态(Belief State)包含原始对话数据中的所有语义关键信息。因此,当前信念状态的含义是指当前单轮对话的语义关键信息,前一轮信念状态的含义是指前一轮对话的语义关键信息。语义关键信息通过可以通过人工标注也可以是机器自动标注而获得。
信念状态用于记录用户要完成任务的关键信息。在任务型对话数据中,原来的方案是所有的对话数据都必须要进行人工标注,来确定每个对话的信念状态。图2中可看到SA和SB对话发生前后的信念状态完全一致,则可认为SA和SB具有表达了相同的语义。在新生成的对话中,在Dialogue A中将SA可替换为SB,形成新的对话New Dialogue。
例如,在对话A和对话B中,对话之前的信念状态(Past Turn Pair Belief State)的关键信息都是:火车终点站(train-destination)和火车到达时间(train-arrive_time)。对话之后的信念状态(Next Turn Pair Belief State)的关键信息都是:火车终点站(train-destination)、出发地点(train-source)、火车到达时间(train-arrive_time)和出发日期(train-day)。因此,由于SA和SB的上下文关键信息完全一样,则可以认定SA和SB表达了相同的语义,那么两者是可以互相替换的,因此,对话A可以增强生成为对话A自身(包含的SA原始对话)和对话A`(包含SB的对话)两个对话,而对话B也可以增强生成为对话B自身(包含的SB原始对话)和对话B`(包含SA的对话)两个对话,由此,原本的两个对话A和B自动增强为了四个对话,自动增加了文本的数量,新生成的对话A`和B`是自动生成的,不再需要进行人工的标注,由此减少了人工标注的工作量。依次类推,当需要100条对话数据用于意图理解等后续模型训练的任务时,本申请只需人工标注约25条左右,即可自动生成100条所需的对话数据,至少减少了75%的人工时间和人力成本。
一种针对任务型对话数据的文本增强集成方法及系统、计算机可读存储介质,所述针对任务型对话数据的文本增强集成方法可包括但不限于如下的步骤,如图3所示。
S1、接收多条原始对话数据,将每条所述原始对话数据中的每一轮对话解析为相应的单轮对话模板,所述单轮对话模板中包括单轮对话函数,所述单轮对话函数包括如下元素:当前信念状态(BS)、前一轮信念状态(Past BS)、当前对话槽(Slots)、下一轮对话槽(Next slots)。
在本申请中,对话槽的定义是原始对话数据中单轮对话的唯一语义关键信息,可以通过人工标注也可以是机器自动标注而获得。因此,对话槽属于信念状态的其中一个语义关键信息,对话槽的确认可以通过人工经验判断,也可以通过自然语义模型进行机器的自动判断而确认。
第一步是将原始的对话中每一轮对话解析成对话模板,如图4中的单轮对话函数(Turn-pair Funciton),单论对话函数是指原始对话数据经过语义抽取后确定的语义函数。上述解析的过程可以通过人工解析也可以是机器自动解析而获得。该模板记录当前的信念状态(Belief State)和前一轮的信念状态(Belief State),写作前一轮信念状态(Past Belief State),当前的对话槽(Slots)和下一轮对话的Slots,记做Next Slots。当前对话槽的定义是当前单轮对话的唯一语义关键信息,下一轮对话槽的定义是下一轮对话的唯一语义关键信息。
例如,在如图4所示的原始对话,经过标注(可以是人工标注也可以是机器自动标注)后,将原来自然语言表达的原始对话数据中的第三行和第四行的一轮对话解析为相应的单轮对话模板,单轮对话模板中包括单轮对话函数,单轮对话函数包括如下元素:
当前信念状态(BS):火车终点站(train-destination)、火车到达时间(train-arrive_time)和出发地点(train-departure)
前一轮信念状态(Past BS):火车终点站(train-destination)、火车到达时间(train-arrive_time)
当前对话槽(Slots):出发地点(train-departure)
下一轮对话槽(Next slots):出发日期(train-day)
图4仅展示了一条原始对话数据的模板解析过程,类似的,其他的原始对话数据也进行相同的模板解析。
S2、将多条所述原始对话数据中的具有相同单轮对话模板的单轮对话作为同一级节点,组成对话模板树,遍历所述对话模板树的每个节点,如果第一节点的当前对话槽与上一级中的第二节点的下一轮对话槽相同,并且所述第一节点的前一轮信念状态与所述上一级的第二节点的当前信念状态相同,则将所述第一节点和第二节点相连接。
由此,所述对话模板树由多个等级的节点分级连线而组成,每个等级内部的节点的单轮对话模板所包含的单轮对话函数相同。
其中每个节点代表所述原始对话数据中的一轮对话,等级高一级的节点才能够作为下一个等级的父节点,并且当前节点的对话槽要与父节点的下一轮对话槽相同,而当前节点的前一轮信念状态与父节点的当前信念状态相同。
第二步将第一步中生成的模板组成树形结构,如图5两个节点的链接,当前节点Slots要与父节点的下一轮Slots相同,当前节点Past Belief State要与父节点的BeliefState相同。
例如,图4中的某原始对话数据中第一轮AU对话为:
A:There are many trains like that.Where will you be departing from?
U:I am departing from Birmingham New Street.
第二轮AU对话为:
A:Can you confirm your desired travel day?
U:I would like to leave on Wednesday.
第一轮AU对话是父节点,而第二轮AU对话就是第一轮AU对话的子节点。
类似的,对于另一条原始对话数据,将其单轮对话模板中的每轮对话形成的节点放入对话模板树的对应等级中,如此,多条原始对话数据生成的多个单轮对话模板经过合成解析和转换,就变成了对话模板树。通过对话模板树可以清楚的看出每一轮对话之间的逻辑关系,即信念状态。
S3、遍历所述模板树,按照等级由高到低的顺序沿着节点连线生成多条完整路径,所述完整路径由多个不同等级的节点组成,将所述完整路径上的多个节点对应的原始对话语句按照由高到低的等级进行顺序组合,组成多个完整对话,作为增强后的任务型对话数据。
在每一条完整路径中,每个节点的等级都不同于其他节点。
第三步将图5中的模板树每条路径即是一轮完整对话,将模板对应的原始对话语句取出即可合成对话。每个模板对应的原始对话轮语句可能存在很多条,每次随机取即可。模板对应的slots中取值也可能有很多,相应替换也可有多重形式替换。最终增强为更多的对话数据,用于最终的任务型对话的多种任务的训练。
图6展示了本申请最终合成的新对话。可见,原本标注过的两条原始对话数据可以增强为16个新对话。实际的任务型对话数据中,由于场景差异较大,两条对话数据中完全相同的单论对话函数的情况可能只有很小的概率,因此,经过实际测试,对于实际使用中的多条对话数据,增强后的数据量大约为增强前的数据量的3-4倍。
由上面的实施例可以看出,本申请具有如下优势:
1、针对任务型对话的文本增强技术比原来针对句子的文本增强的方法简单,不用使用大规模的预训练模型,只需在现有任务型对话数据基础上形成模板,启发式的进行文本增强,减少了很多的计算量。
2、针对任务型对话的文本增强技术比原来针对句子的文本增强的更具有通用性,原来针对句子的文本增强只能对意图理解的下游任务有帮助作用。针对任务型对话文本增强技术最终增强的是一整段完成对话,可用于任何对话任务,如意图理解、槽值填充、对话状态管理等多个模型的训练。
如图7所示,在一个实施例中,提供了一种针对任务型对话数据的文本增强装置,该针对任务型对话数据的文本增强装置可以包括:
单论对话模板生成模块411,用于接收多条原始对话数据,将每条所述原始对话数据中的每一轮对话解析为相应的单轮对话模板,所述单轮对话模板中包括单轮对话函数,所述单轮对话函数包括如下元素:当前信念状态、前一轮信念状态、当前对话槽、下一轮对话槽;
对话模板树生成模块412,用于将多条所述原始对话数据中的具有相同单轮对话模板的单轮对话作为同一级节点,组成对话模板树,遍历所述对话模板树的每个节点,如果第一节点的当前对话槽与上一级中的第二节点的下一轮对话槽相同,并且所述第一节点的前一轮信念状态与所述上一级的第二节点的当前信念状态相同,则将所述第一节点和第二节点相连接;
新对话合成模块413,用于遍历所述对话模板树,按照等级由高到低的顺序沿着节点连线生成多条完整路径,每条所述完整路径由多个不同等级的节点组成,将所述完整路径上的多个节点对应的原始对话语句按照由高到低的等级进行顺序组合,组成多个完整对话,作为增强后的任务型对话数据。
本申请实施方式还提供一种与前述实施方式所提供的针对任务型对话数据的文本增强方法对应的电子设备,以执行上针对任务型对话数据的文本增强方法。本申请实施例不做限定。
请参考图8,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图8所示,所述电子设备2包括:处理器200,存储器201,总线202和通信接口203,所述处理器200、通信接口203和存储器201通过总线202连接;所述存储器201中存储有可在所述处理器200上运行的计算机程序,所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的针对任务型对话数据的文本增强方法。
其中,存储器201可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器201用于存储程序,所述处理器200在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述针对任务型对话数据的文本增强方法可以应用于处理器200中,或者由处理器200实现。
处理器200可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201,处理器200读取存储器201中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的针对任务型对话数据的文本增强方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
本申请实施方式还提供一种与前述实施方式所提供的针对任务型对话数据的文本增强方法对应的计算机可读存储介质,请参考图9,其示出的计算机可读存储介质为光盘30,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会执行前述任意实施方式所提供的文本增强方法。
如图9所示,存储器中可以存储有针对任务型对话数据的文本增强程序;处理器执行存储器中存储的文本增强程序时实现的步骤。
可选地,在其他的实施例中,针对任务型对话数据的文本增强程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器中,并由一个或多个处理器(本实施例为处理器)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述针对任务型对话数据的文本增强程序在电子装置中的执行过程。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的文本增强方法出于相同的发明构思,具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备有固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本申请也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本申请的内容,并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本申请并帮助理解各个发明方面中的一个或多个,在上面对本申请的示例性实施例的描述中,本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本申请的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本申请的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种文本增强方法,其特征在于,包括:
接收多条原始对话数据,将每条所述原始对话数据中的每一轮对话解析为相应的单轮对话模板,所述单轮对话模板中包括单轮对话函数,所述单轮对话函数包括如下元素:当前信念状态、前一轮信念状态、当前对话槽、下一轮对话槽;
将多条所述原始对话数据中的具有相同单轮对话模板的单轮对话作为同一级节点,组成对话模板树,遍历所述对话模板树的每个节点,如果第一节点的当前对话槽与上一级中的第二节点的下一轮对话槽相同,并且所述第一节点的前一轮信念状态与所述上一级的第二节点的当前信念状态相同,则将所述第一节点和第二节点相连接;
遍历所述对话模板树,按照等级由高到低的顺序沿着节点连线生成多条完整路径,每条所述完整路径由多个不同等级的节点组成,将所述完整路径上的多个节点对应的原始对话语句按照由高到低的等级进行顺序组合,组成多个完整对话,作为增强后的任务型对话数据。
2.如权利要求1所述的文本增强方法,其特征在于,
所述信念状态包含所述原始对话数据中的所有语义关键信息。
3.如权利要求1所述的文本增强方法,其特征在于,
所述对话槽包含所述原始对话数据中单轮对话的唯一语义关键信息。
4.如权利要求1所述的文本增强方法,其特征在于,
所述对话模板树由多个等级的节点分级连线而组成,每个等级内部的节点的单轮对话模板所包含的单轮对话函数相同。
5.如权利要求4所述的文本增强方法,其特征在于,
在所述对话模板树中,每个节点代表所述原始对话数据中的一轮对话,等级高一级的节点作为下一个等级的父节点,并且当前节点的对话槽与父节点的下一轮对话槽相同,而当前节点的前一轮信念状态与父节点的当前信念状态相同。
6.如权利要求2或3所述的文本增强方法,其特征在于,
所述语义关键信息通过人工标注或机器自动标注而获得。
7.如权利要求1所述的文本增强方法,其特征在于,
所述将所述完整路径上的多个节点对应的原始对话语句还原为自然语言,组成多个完整对话,包括:
所述完整路径上的每个节点对应的原始对话语句为多条;
从多条原始对话语句中随机抽取一条还原为自然语言;
整合每个节点对应的自然语言,组成一个完整对话;
重复以上过程,组成多个完整对话。
8.一种文本增强装置,其特征在于,包括:
单论对话模板生成模块,用于接收多条原始对话数据,将每条所述原始对话数据中的每一轮对话解析为相应的单轮对话模板,所述单轮对话模板中包括单轮对话函数,所述单轮对话函数包括如下元素:当前信念状态、前一轮信念状态、当前对话槽、下一轮对话槽;
对话模板树生成模块,用于将多条所述原始对话数据中的具有相同单轮对话模板的单轮对话作为同一级节点,组成对话模板树,遍历所述对话模板树的每个节点,如果第一节点的当前对话槽与上一级中的第二节点的下一轮对话槽相同,并且所述第一节点的前一轮信念状态与所述上一级的第二节点的当前信念状态相同,则将所述第一节点和第二节点相连接;
新对话合成模块,用于遍历所述对话模板树,按照等级由高到低的顺序沿着节点连线生成多条完整路径,每条所述完整路径由多个不同等级的节点组成,将所述完整路径上的多个节点对应的原始对话语句按照由高到低的等级进行顺序组合,组成多个完整对话,作为增强后的任务型对话数据。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项权利要求所述文本增强方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被一个或多个处理器执行时,实现如权利要求1至6中任一项权利要求所述文本增强方法的步骤。
CN202110721315.5A 2021-06-28 2021-06-28 文本增强方法、装置、计算机设备及存储介质 Active CN113377939B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110721315.5A CN113377939B (zh) 2021-06-28 2021-06-28 文本增强方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110721315.5A CN113377939B (zh) 2021-06-28 2021-06-28 文本增强方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113377939A true CN113377939A (zh) 2021-09-10
CN113377939B CN113377939B (zh) 2023-07-18

Family

ID=77579586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110721315.5A Active CN113377939B (zh) 2021-06-28 2021-06-28 文本增强方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113377939B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156268A1 (en) * 2012-11-30 2014-06-05 At&T Intellectual Property I, L.P. Incremental speech recognition for dialog systems
CN111462750A (zh) * 2020-03-20 2020-07-28 北京邮电大学 语义与知识增强的端到端任务型对话系统及方法
CN111522921A (zh) * 2020-03-06 2020-08-11 国网浙江省电力有限公司电力科学研究院 一种基于语句改写的面向端到端对话的数据增强方法
US20210020172A1 (en) * 2019-07-19 2021-01-21 International Business Machines Corporation Enhancing test coverage of dialogue models

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140156268A1 (en) * 2012-11-30 2014-06-05 At&T Intellectual Property I, L.P. Incremental speech recognition for dialog systems
US20210020172A1 (en) * 2019-07-19 2021-01-21 International Business Machines Corporation Enhancing test coverage of dialogue models
CN111522921A (zh) * 2020-03-06 2020-08-11 国网浙江省电力有限公司电力科学研究院 一种基于语句改写的面向端到端对话的数据增强方法
CN111462750A (zh) * 2020-03-20 2020-07-28 北京邮电大学 语义与知识增强的端到端任务型对话系统及方法

Also Published As

Publication number Publication date
CN113377939B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
Shen et al. Hugginggpt: Solving ai tasks with chatgpt and its friends in hugging face
CN108121795B (zh) 用户行为预测方法及装置
CN108920135B (zh) 一种自定义业务生成方法、装置、计算机设备及存储介质
JP2019159309A (ja) 音声対話の満足度の確定方法及び装置
CN108806671A (zh) 语义分析方法、装置及电子设备
CN111221842A (zh) 大数据处理系统及方法
CN113159901B (zh) 融资租赁业务会话的实现方法和装置
CN116860949B (zh) 问答处理方法、装置、系统、计算设备及计算机存储介质
CN110995945B (zh) 一种生成外呼流程的数据处理方法、装置、设备及系统
EP3270374A1 (en) Systems and methods for automatic repair of speech recognition engine output
CN109859747A (zh) 语音交互方法、设备以及存储介质
CN110738055A (zh) 文本的实体识别方法、设备及存储介质
Sabharwal et al. Developing Cognitive Bots Using the IBM Watson Engine: Practical, Hands-on Guide to Developing Complex Cognitive Bots Using the IBM Watson Platform
CN110969276B (zh) 判决预测方法、判决预测模型获得方法及装置
CN112860264B (zh) 一种抽象语法树重构方法及装置
CN110377891B (zh) 事件分析文章的生成方法、装置、设备及计算机可读存储介质
CN113377939B (zh) 文本增强方法、装置、计算机设备及存储介质
CN105786929B (zh) 一种信息监测方法及装置
CN109522541B (zh) 服务外句子生成方法和设备
Boonstra Introduction to conversational AI
CN116431127A (zh) 一种低代码开发方法、系统、设备和可读存储介质
CN109902309A (zh) 翻译方法、装置、设备和存储介质
CN114239602A (zh) 会话方法、装置和计算机程序产品
CN114282586A (zh) 一种数据标注方法、系统和电子设备
Essenfelder et al. Automated News in Brazilian television: a case study on the AIDA system (Globo-Brazil).

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant