CN113377915B - 对话篇章解析方法 - Google Patents

对话篇章解析方法 Download PDF

Info

Publication number
CN113377915B
CN113377915B CN202110692574.XA CN202110692574A CN113377915B CN 113377915 B CN113377915 B CN 113377915B CN 202110692574 A CN202110692574 A CN 202110692574A CN 113377915 B CN113377915 B CN 113377915B
Authority
CN
China
Prior art keywords
dialogue
model
conversation
perception
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110692574.XA
Other languages
English (en)
Other versions
CN113377915A (zh
Inventor
苏劲松
王安特
曾华琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen University
Original Assignee
Xiamen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen University filed Critical Xiamen University
Priority to CN202110692574.XA priority Critical patent/CN113377915B/zh
Publication of CN113377915A publication Critical patent/CN113377915A/zh
Application granted granted Critical
Publication of CN113377915B publication Critical patent/CN113377915B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种对话篇章解析方法、介质和设备,其中方法包括:获取历史对话信息,并对历史对话信息进行预处理,以生成初始训练样本;根据初始训练样本生成第一训练样本和第二训练样本;根据第一训练样本进行模型训练,以得到结构自感知教师模型;根据第二训练样本进行模型训练,以得到结构自感知学生模型,并拉近结构自感知教师模型的结构关系和结构自感知学生模型的结构关系,以得到最终结构自感知学生模型;获取待解析对话信息,并将待解析对话信息输入到最终结构自感知学生模型,以生成对应待解析对话信息的对话轮次间篇章关系;能够自动对对话信息进行解析,避免因引入显式预测结果而导致的错误传播;同时,提高篇章解析效果。

Description

对话篇章解析方法
技术领域
本发明涉及自然语言处理技术领域,特别涉及一种对话篇章解析方法、一种计算机可读存储介质和一种计算机设备。
背景技术
相关技术中,在对对话篇章进行解析时;多采用编码器学习每轮对话表示,再通过拼接或者相加等方法,以预测两轮对话之间的篇章关系,并没有对篇章结构关系在模型中进行直接的建模;此外,相关技术引入显式历史轮次预测结果辅助当前轮次篇章关系预测的方式,存在错误传播问题,最终篇章解析效果不佳。
发明内容
本发明旨在至少在一定程度上解决上述技术中的技术问题之一。为此,本发明的一个目的在于提出一种对话篇章解析方法,能够自动对对话信息进行解析,直接在模型中对篇章结构关系进行建模并避免因引入显式预测结果而导致的错误传播;同时,提高篇章解析效果。
本发明的第二个目的在于提出一种计算机可读存储介质。
本发明的第三个目的在于提出一种计算机设备。
为达到上述目的,本发明第一方面实施例提出了一种对话篇章解析方法,包括以下步骤:获取历史对话信息,并对所述历史对话信息进行预处理,以生成初始训练样本,其中,所述初始训练样本包括每轮对话文本信息、每轮对话对话者身份信息和对话篇章结构标签;根据所述初始训练样本生成第一训练样本和第二训练样本,其中,所述第一训练样本包括每轮对话文本信息、每轮对话对话者身份信息和除当前待预测结构关系的其他结构关系,所述第二训练样本包括每轮对话文本信息和每轮对话对话者身份信息;根据所述第一训练样本进行模型训练,以得到结构自感知教师模型,其中,所述结构自感知教师模型的损失函数包括第一对话篇章解析损失函数;根据所述第二训练样本进行模型训练,以得到结构自感知学生模型,并通过所述结构自感知学生模型中的结构蒸馏损失函数拉近所述结构自感知教师模型的结构关系和所述结构自感知学生模型的结构关系,以得到最终结构自感知学生模型,其中,所述结构自感知学生模型的损失函数包括第二对话篇章解析损失函数、关系标签识别损失函数和结构蒸馏损失函数;获取待解析对话信息,并将所述待解析对话信息输入到所述最终结构自感知学生模型,以通过所述结构自感知学生模型对所述待解析对话信息进行自动解析,生成对应所述待解析对话信息的对话轮次间篇章关系。
根据本发明实施例的对话篇章解析方法,首先,获取历史对话信息,并对所述历史对话信息进行预处理,以生成初始训练样本,其中,所述初始训练样本包括每轮对话文本信息、每轮对话对话者身份信息和对话篇章结构标签;接着,根据所述初始训练样本生成第一训练样本和第二训练样本,其中,所述第一训练样本包括每轮对话文本信息、每轮对话对话者身份信息和除当前待预测结构关系的其他结构关系,所述第二训练样本包括每轮对话文本信息和每轮对话对话者身份信息;然后,根据所述第一训练样本进行模型训练,以得到结构自感知教师模型,其中,所述结构自感知教师模型的损失函数包括第一对话篇章解析损失函数;接着,根据所述第二训练样本进行模型训练,以得到结构自感知学生模型,并通过所述结构自感知学生模型中的结构蒸馏损失函数拉近所述结构自感知教师模型的结构关系和所述结构自感知学生模型的结构关系,以得到最终结构自感知学生模型,其中,所述结构自感知学生模型的损失函数包括第二对话篇章解析损失函数、关系标签识别损失函数和结构蒸馏损失函数;然后,获取待解析对话信息,并将所述待解析对话信息输入到所述最终结构自感知学生模型,以通过所述结构自感知学生模型对所述待解析对话信息进行自动解析,生成对应所述待解析对话信息的对话轮次间篇章关系;从而实现自动对对话信息进行解析,避免因引入显式预测结果而导致的错误传播;同时,提高篇章解析效果。
另外,根据本发明上述实施例提出的对话篇章解析方法还可以具有如下附加的技术特征:
可选地,所述历史对话信息包括每轮对话内容和相关对话者身份信息,其中,对所述历史对话信息进行预处理,包括:对所述每轮对话内容进行分词,并对所述每轮对话内容进行大小写统一,以及根据所述相关对话者身份信息生成对话者身份矩阵,以完成对所述历史对话信息的预处理。
可选地,所述结构自感知教师模型和所述结构自感知学生模型均包括对话层次编码模型、结构自感知图网络模型和篇章关系分类器;其中,所述对话层次编码模型包括子词级别的序列处理模型和对话级别的序列处理模型,所述子词级别的序列处理模型和所述对话级别的序列处理模型采用双向GRU模型;所述子词级别的序列处理模型和所述对话级别的序列处理模型以所述每轮对话文本信息作为输入,并根据所述每轮对话文本信息输出每轮对话隐状态表示;所述结构自感知图网络模型根据所述对话者身份矩阵及每轮对话隐状态表示生成篇章关系隐状态表示,并根据所述篇章关系隐状态表示输出最终对话篇章结构隐状态表示。
可选地,所述每轮对话隐状态表示、所述篇章关系隐状态表示和所述最终对话篇章结构隐状态表示通过以下公式表述:
U(t)=SASA(U(t-1),R(t-1))
Rt=GRU(U(t),R(t-1))
Figure BDA0003126702660000031
1≤t≤T
其中,U(t)表示第t层的每轮对话隐状态表示,SASA表示结构感知自监督注意力机制,GRU(*)表示门控循环神经网络,Rt表示第t层的篇章关系隐状态表示,
Figure BDA0003126702660000032
表示最终对话篇章结构隐状态表示,T为模型总层数,
Figure BDA0003126702660000033
表示拼接操作,
Figure BDA00031267026600000317
表示转置操作。
可选地,所述第一对话篇章解析损失函数通过以下公式表述:
Figure BDA0003126702660000034
Figure BDA0003126702660000035
其中,d表示对话实例,θ表示模型参数,|d|表示对话轮次数,P(*)表示预测概率,
Figure BDA0003126702660000036
表示结构关系关联预测,
Figure BDA0003126702660000037
表示篇章解析树中第i个节点的父节点,
Figure BDA0003126702660000038
表示最终对话篇章结构隐状态表示,
Figure BDA0003126702660000039
表示结构关系标签分类,
Figure BDA00031267026600000310
表示(i,j)对话对的结构关系标签。
可选地,所述关系标签识别损失函数和所述结构蒸馏损失函数通过以下公式表述:
Figure BDA00031267026600000311
Figure BDA00031267026600000312
其中,
Figure BDA00031267026600000313
表示关系标签识别损失,
Figure BDA00031267026600000314
表示结构蒸馏损失,d表示对话实例,|d|表示对话轮次数,lij表示第i轮与第j轮对话的篇章关系标签,
Figure BDA00031267026600000315
表示结构自感知学生模型中第t层对应的第i轮与第j轮对话的篇章关系隐状态表示,
Figure BDA00031267026600000316
表示所述结构自感知教师模型中第t层对应的第i轮与第j轮对话的篇章关系隐状态表示,Wt表示可学习的参数,MSE(*)表示均方误差损失函数。
为达到上述目的,本发明第二方面实施例提出了一种计算机可读存储介质,其上存储有对话篇章解析程序,该对话篇章解析程序被处理器执行时实现如上述的对话篇章解析方法。
根据本发明实施例的计算机可读存储介质,通过存储对话篇章解析程序,以使得处理器在执行该对话篇章解析程序时,实现如上述的对话篇章解析方法,从而实现自动对对话信息进行解析,避免因引入显式预测结果而导致的错误传播;同时,提高篇章解析效果。
为达到上述目的,本发明第三方面实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述的对话篇章解析方法。
根据本发明实施例的计算机设备,通过存储器对对话篇章解析程序进行存储,以使得处理器在执行该对话篇章解析程序时,实现如上述的对话篇章解析方法,从而实现自动对对话信息进行解析,避免因引入显式预测结果而导致的错误传播;同时,提高篇章解析效果。
附图说明
图1为根据本发明实施例的对话篇章解析方法的流程示意图;
图2为根据本发明实施例的结构自感知教师模型和结构自感知学生模型的模型结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
相关技术中,并没有对篇章结构关系在模型中进行直接的建模;进而容易因为引入显式预测结果而导致错误传播问题,最终篇章解析效果不佳。根据本发明实施例的对话篇章解析方法,首先,获取历史对话信息,并对所述历史对话信息进行预处理,以生成初始训练样本,其中,所述初始训练样本包括每轮对话文本信息、每轮对话对话者身份信息和对话篇章结构标签;接着,根据所述初始训练样本生成第一训练样本和第二训练样本,其中,所述第一训练样本包括每轮对话文本信息、每轮对话对话者身份信息和除当前待预测结构关系的其他结构关系,所述第二训练样本包括每轮对话文本信息和每轮对话对话者身份信息;然后,根据所述第一训练样本进行模型训练,以得到结构自感知教师模型,其中,所述结构自感知教师模型的损失函数包括第一对话篇章解析损失函数;接着,根据所述第二训练样本进行模型训练,以得到结构自感知学生模型,并通过所述结构自感知学生模型中的结构蒸馏损失函数拉近所述结构自感知教师模型的结构关系和所述结构自感知学生模型的结构关系,以得到最终结构自感知学生模型,其中,所述结构自感知学生模型的损失函数包括第二对话篇章解析损失函数、关系标签识别损失函数和结构蒸馏损失函数;然后,获取待解析对话信息,并将所述待解析对话信息输入到所述最终结构自感知学生模型,以通过所述结构自感知学生模型对所述待解析对话信息进行自动解析,生成对应所述待解析对话信息的对话轮次间篇章关系;从而实现自动对对话信息进行解析,避免因引入显式预测结果而导致的错误传播;同时,提高篇章解析效果。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
图1为根据本发明实施例的对话篇章解析方法的流程示意图,如图1所示,该对话篇章解析方法包括以下步骤:
S101,获取历史对话信息,并对历史对话信息进行预处理,以生成初始训练样本,其中,初始训练样本包括每轮对话文本信息、每轮对话对话者身份信息和对话篇章结构标签。
需要说明的是,历史对话信息可以是有标注篇章结构的对话样本。
作为一种示例,历史对话信息包括每轮对话内容、相关对话者发言信息和篇章结构信息。
其中,对历史对话信息进行预处理的方式可以有多种。
作为一种示例,历史对话信息包括每轮对话内容和相关对话者身份信息,其中,对历史对话信息进行预处理,包括:对每轮对话内容进行分词,并对每轮对话内容进行大小写统一,以及根据相关对话者身份信息生成对话者身份矩阵,以完成对历史对话信息的预处理。
作为另一种示例,将获取的每轮对话进行分词和大小写统一等预处理,接着,使用每轮对话的对话者信息生成一个N*N的对话者身份矩阵;其中,N为对话轮数,在该矩阵中,如果第i轮和第j轮对话对话者身份相同,则对话者身份矩阵中(i,j)置为1,否则为0。
S102,根据初始训练样本生成第一训练样本和第二训练样本,其中,第一训练样本包括每轮对话文本信息、每轮对话对话者身份信息和除当前待预测结构关系的其他结构关系,第二训练样本包括每轮对话文本信息和每轮对话对话者身份信息。
也就是说,将初始训练样本划分为第一训练样本和第二训练样本,以便后续根据第一训练样本进行结构自感知教师模型的训练,并根据第二训练样本进行结构自感知学生模型的训练;可知,在结构自感知教师模型的训练样本中,包括了待解析对话信息中不包含的结构关系,通过这些结构关系,结构自感知教师模型可以学习到更丰富的篇章结构表示;而结构自感知学生模型的训练样本中包含的内容,待解析对话信息也包含。
S103,根据第一训练样本进行模型训练,以得到结构自感知教师模型,其中,结构自感知教师模型的损失函数包括第一对话篇章解析损失函数。
S104,根据第二训练样本进行模型训练,以得到结构自感知学生模型,并通过结构自感知学生模型中的结构蒸馏损失函数拉进结构自感知教师模型的结构关系和结构自感知学生模型的结构关系,以得到最终结构自感知学生模型,其中,结构自感知学生模型的损失函数包括第二对话篇章解析损失函数、关系标签识别损失函数和结构蒸馏损失函数。
即言,通过第一训练样本进行训练得到结构自感知教师模型,通过第二训练样本进行训练得到结构自感知学生模型;进而,通过第一训练样本训练得到的结构自感知教师模型能够学习到更丰富的篇章结构表示,而通过结构蒸馏损失函数,结构自感知教师模型可以将其丰富的篇章结构表示教授给结构自感知学生模型,以提高最终结构自感知学生模型对于对话篇章解析的效果。
在一些实施例中,如图2所示,结构自感知教师模型和结构自感知学生模型均包括对话层次编码模型、结构自感知图网络模型和篇章关系分类器;其中,对话层次编码模型包括子词级别的序列处理模型和对话级别的序列处理模型,子词级别的序列处理模型和对话级别的序列处理模型采用双向GRU模型(Gated Recurrent Unit);子词级别的序列处理模型和对话级别的序列处理模型以每轮对话文本信息作为输入,并根据每轮对话文本信息输出融入上下文信息的每轮对话隐状态表示;结构自感知图网络模型根据对话者身份矩阵及每轮对话隐状态表示生成篇章关系隐状态表示,并根据篇章关系隐状态表示输出最终对话篇章结构隐状态表示。
在一些实施例中,每轮对话隐状态表示、篇章关系隐状态表示和最终对话篇章结构隐状态表示通过以下公式表述:
U(t)=SASA(U(t-1),R(t-1))
Rt=GRU(U(t),R(t-1))
Figure BDA0003126702660000061
1≤t≤T
其中,U(t)表示第t层的每轮对话隐状态表示,SASA表示结构感知自监督注意力机制,GRU(*)表示门控循环神经网络,Rt表示第t层的篇章关系隐状态表示,
Figure BDA0003126702660000062
表示最终对话篇章结构隐状态表示,T为模型总层数,
Figure BDA0003126702660000071
表示拼接操作,
Figure BDA00031267026600000715
表示转置操作。
在一些实施例中,第一对话篇章解析损失函数通过以下公式表述:
Figure BDA0003126702660000072
Figure BDA0003126702660000073
其中,d表示对话实例,θ表示模型参数,|d|表示对话轮次数,P(*)表示预测概率,
Figure BDA0003126702660000074
表示结构关系关联预测,
Figure BDA0003126702660000075
表示篇章解析树中第i个节点的父节点,
Figure BDA0003126702660000076
表示最终对话篇章结构隐状态表示,
Figure BDA0003126702660000077
表示结构关系标签分类,
Figure BDA0003126702660000078
表示(i,j)对话对的结构关系标签。
在一些实施例中,关系标签识别损失函数和所述结构蒸馏损失函数通过以下公式表述:
Figure BDA0003126702660000079
Figure BDA00031267026600000710
其中,
Figure BDA00031267026600000711
表示关系标签识别损失,
Figure BDA00031267026600000712
表示结构蒸馏损失,d表示对话实例,|d|表示对话轮次数,lij表示第i轮与第j轮对话的篇章关系标签,
Figure BDA00031267026600000713
表示结构自感知学生模型中第t层对应的第i轮与第j轮对话的篇章关系隐状态表示,
Figure BDA00031267026600000714
表示所述结构自感知教师模型中第t层对应的第i轮与第j轮对话的篇章关系隐状态表示,Wt表示可学习的参数,MSE(*)表示均方误差损失函数。
S105,获取待解析对话信息,并将待解析对话信息输入到最终结构自感知学生模型,以通过结构自感知学生模型对待解析对话信息进行自动解析,生成对应待解析对话信息的对话轮次间篇章关系。
也就是说,在得到最终结构自感知学生模型之后,将获取到的待解析对话信息输入到最终结构自感知学生模型中,以便结构自感知学生模型根据输入进行自动解析,以生成对应的对话轮次间篇章关系。
综上所述,根据本发明实施例的对话篇章解析方法,首先,获取历史对话信息,并对所述历史对话信息进行预处理,以生成初始训练样本,其中,所述初始训练样本包括每轮对话文本信息、每轮对话对话者身份信息和对话篇章结构标签;接着,根据所述初始训练样本生成第一训练样本和第二训练样本,其中,所述第一训练样本包括每轮对话文本信息、每轮对话对话者身份信息和除当前待预测结构关系的其他结构关系,所述第二训练样本包括每轮对话文本信息和每轮对话对话者身份信息;然后,根据所述第一训练样本进行模型训练,以得到结构自感知教师模型,其中,所述结构自感知教师模型的损失函数包括第一对话篇章解析损失函数;接着,根据所述第二训练样本进行模型训练,以得到结构自感知学生模型,并通过所述结构自感知学生模型中的结构蒸馏损失函数拉进所述结构自感知教师模型的结构关系和所述结构自感知学生模型的结构关系,以得到最终结构自感知学生模型,其中,所述结构自感知学生模型的损失函数包括第二对话篇章解析损失函数、关系标签识别损失函数和结构蒸馏损失函数;然后,获取待解析对话信息,并将所述待解析对话信息输入到所述最终结构自感知学生模型,以通过所述结构自感知学生模型对所述待解析对话信息进行自动解析,生成对应所述待解析对话信息的对话轮次间篇章关系;从而实现自动对对话信息进行解析,避免因引入显式预测结果而导致的错误传播;同时,提高篇章解析效果。
为了实现上述实施例,本发明实施例提出了一种计算机可读存储介质,其上存储有对话篇章解析程序,该对话篇章解析程序被处理器执行时实现如上述的对话篇章解析方法。
根据本发明实施例的计算机可读存储介质,通过存储对话篇章解析程序,以使得处理器在执行该对话篇章解析程序时,实现如上述的对话篇章解析方法,从而实现自动对对话信息进行解析,避免因引入显式预测结果而导致的错误传播;同时,提高篇章解析效果。
为了实现上述实施例,本发明实施例提出了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现如上述的对话篇章解析方法。
根据本发明实施例的计算机设备,通过存储器对对话篇章解析程序进行存储,以使得处理器在执行该对话篇章解析程序时,实现如上述的对话篇章解析方法,从而实现自动对对话信息进行解析,避免因引入显式预测结果而导致的错误传播;同时,提高篇章解析效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
应当注意的是,在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的单词“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
在本发明的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不应理解为必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种对话篇章解析方法,其特征在于,包括以下步骤:
获取历史对话信息,并对所述历史对话信息进行预处理,以生成初始训练样本,其中,所述初始训练样本包括每轮对话文本信息、每轮对话对话者身份信息和对话篇章结构标签;
根据所述初始训练样本生成第一训练样本和第二训练样本,其中,所述第一训练样本包括每轮对话文本信息、每轮对话对话者身份信息和除当前待预测结构关系的其他结构关系,所述第二训练样本包括每轮对话文本信息和每轮对话对话者身份信息;
根据所述第一训练样本进行模型训练,以得到结构自感知教师模型,其中,所述结构自感知教师模型的损失函数包括第一对话篇章解析损失函数;
根据所述第二训练样本进行模型训练,以得到结构自感知学生模型,并通过所述结构自感知学生模型中的结构蒸馏损失函数拉近所述结构自感知教师模型的结构关系和所述结构自感知学生模型的结构关系,以得到最终结构自感知学生模型,其中,所述结构自感知学生模型的损失函数包括第二对话篇章解析损失函数、关系标签识别损失函数和结构蒸馏损失函数;
获取待解析对话信息,并将所述待解析对话信息输入到所述最终结构自感知学生模型,以通过所述结构自感知学生模型对所述待解析对话信息进行自动解析,生成对应所述待解析对话信息的对话轮次间篇章关系;
其中,所述第一对话篇章解析损失函数通过以下公式表述:
Figure FDA0003590056300000011
Figure FDA0003590056300000012
其中,d表示对话实例,θ表示模型参数,|d|表示对话轮次数,P(*)表示预测概率,
Figure FDA0003590056300000013
表示结构关系关联预测损失,
Figure FDA0003590056300000014
表示篇章解析树中第i个节点的父节点,
Figure FDA0003590056300000015
表示最终对话篇章结构隐状态表示,
Figure FDA0003590056300000016
表示结构关系标签分类损失,
Figure FDA0003590056300000017
表示(i,j)对话对的结构关系标签;
其中,所述关系标签识别损失函数和所述结构蒸馏损失函数通过以下公式表述:
Figure FDA0003590056300000018
Figure FDA0003590056300000019
其中,
Figure FDA0003590056300000021
表示关系标签识别损失,
Figure FDA0003590056300000022
表示结构蒸馏损失,d表示对话实例,|d|表示对话轮次数,lij表示第i轮与第j轮对话的篇章关系标签,
Figure FDA0003590056300000023
表示结构自感知学生模型中第t层对应的第i轮与第j轮对话的篇章关系隐状态表示,
Figure FDA0003590056300000024
表示所述结构自感知教师模型中第t层对应的第i轮与第j轮对话的篇章关系隐状态表示,Wt表示可学习的参数,MSE(*)表示均方误差损失函数。
2.如权利要求1所述的对话篇章解析方法,其特征在于,所述历史对话信息包括每轮对话内容和相关对话者身份信息,其中,对所述历史对话信息进行预处理,包括:
对所述每轮对话内容进行分词,并对所述每轮对话内容进行大小写统一,以及根据所述相关对话者身份信息生成对话者身份矩阵,以完成对所述历史对话信息的预处理。
3.如权利要求2所述的对话篇章解析方法,其特征在于,所述结构自感知教师模型和所述结构自感知学生模型均包括对话层次编码模型、结构自感知图网络模型和篇章关系分类器;
其中,所述对话层次编码模型包括子词级别的序列处理模型和对话级别的序列处理模型,所述子词级别的序列处理模型和所述对话级别的序列处理模型采用双向GRU模型;
所述子词级别的序列处理模型和所述对话级别的序列处理模型以所述每轮对话文本信息作为输入,并根据所述每轮对话文本信息输出每轮对话隐状态表示;
所述结构自感知图网络模型根据所述对话者身份矩阵及每轮对话隐状态表示生成篇章关系隐状态表示,并根据所述篇章关系隐状态表示输出最终对话篇章结构隐状态表示。
4.如权利要求3所述的对话篇章解析方法,其特征在于,所述每轮对话隐状态表示、所述篇章关系隐状态表示和所述最终对话篇章结构隐状态表示通过以下公式表述:
U(t)=SASA(U(t-1),R(t-1))
Rt=GRU(U(t),R(t-1))
Figure FDA0003590056300000025
1≤t≤T
其中,U(t)表示第t层的每轮对话隐状态表示,SASA表示结构感知自监督注意力机制,GRU(*)表示门控循环神经网络,Rt表示第t层的篇章关系隐状态表示,
Figure FDA0003590056300000026
表示最终对话篇章结构隐状态表示,T为模型总层数,
Figure FDA0003590056300000027
表示拼接操作,T表示转置操作。
5.一种计算机可读存储介质,其特征在于,其上存储有对话篇章解析程序,该对话篇章解析程序被处理器执行时实现如权利要求1-4中任一项所述的对话篇章解析方法。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时,实现如权利要求1-4中任一项所述的对话篇章解析方法。
CN202110692574.XA 2021-06-22 2021-06-22 对话篇章解析方法 Active CN113377915B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110692574.XA CN113377915B (zh) 2021-06-22 2021-06-22 对话篇章解析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110692574.XA CN113377915B (zh) 2021-06-22 2021-06-22 对话篇章解析方法

Publications (2)

Publication Number Publication Date
CN113377915A CN113377915A (zh) 2021-09-10
CN113377915B true CN113377915B (zh) 2022-07-19

Family

ID=77578329

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110692574.XA Active CN113377915B (zh) 2021-06-22 2021-06-22 对话篇章解析方法

Country Status (1)

Country Link
CN (1) CN113377915B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015003143A2 (en) * 2013-07-03 2015-01-08 Thomson Reuters Global Resources Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus
CN110826344A (zh) * 2019-10-24 2020-02-21 北京小米智能科技有限公司 神经网络模型压缩方法、语料翻译方法及其装置
CN111428525A (zh) * 2020-06-15 2020-07-17 华东交通大学 隐式篇章关系识别方法、系统及可读存储介质
CN112380874A (zh) * 2020-10-10 2021-02-19 华南理工大学 一种基于图卷积网络的多人对话语篇分析方法
CN112395876A (zh) * 2021-01-21 2021-02-23 华东交通大学 基于知识蒸馏和多任务学习的篇章关系识别方法与装置
CN112528034A (zh) * 2020-11-16 2021-03-19 中国科学院深圳先进技术研究院 一种基于知识蒸馏的实体关系抽取方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11636337B2 (en) * 2019-03-22 2023-04-25 Royal Bank Of Canada System and method for knowledge distillation between neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015003143A2 (en) * 2013-07-03 2015-01-08 Thomson Reuters Global Resources Method and system for simplifying implicit rhetorical relation prediction in large scale annotated corpus
CN110826344A (zh) * 2019-10-24 2020-02-21 北京小米智能科技有限公司 神经网络模型压缩方法、语料翻译方法及其装置
CN111428525A (zh) * 2020-06-15 2020-07-17 华东交通大学 隐式篇章关系识别方法、系统及可读存储介质
CN112380874A (zh) * 2020-10-10 2021-02-19 华南理工大学 一种基于图卷积网络的多人对话语篇分析方法
CN112528034A (zh) * 2020-11-16 2021-03-19 中国科学院深圳先进技术研究院 一种基于知识蒸馏的实体关系抽取方法
CN112395876A (zh) * 2021-01-21 2021-02-23 华东交通大学 基于知识蒸馏和多任务学习的篇章关系识别方法与装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
A Deep Sequential Model for Discourse Parsing on Multi-Party Dialogues;Shi, ZX 等;《THIRTY-THIRD AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE / THIRTY-FIRST INNOVATIVE APPLICATIONS OF ARTIFICIAL INTELLIGENCE CONFERENCE / NINTH AAAI SYMPOSIUM ON EDUCATIONAL ADVANCES IN ARTIFICIAL INTELLIGENCE》;20191009;7007-7014 *
科学论文篇章结构建模与解析研究进展;薛家秀 等;《图书与情报》;20190625;120-132 *

Also Published As

Publication number Publication date
CN113377915A (zh) 2021-09-10

Similar Documents

Publication Publication Date Title
CN110689879B (zh) 端到端语音转写模型的训练方法、系统、装置
CN110298043B (zh) 一种车辆命名实体识别方法及系统
CN109785833A (zh) 用于智能设备的人机交互语音识别方法及系统
CN111625634B (zh) 词槽识别方法及装置、计算机可读存储介质、电子设备
CN111783474A (zh) 一种评论文本观点信息处理方法、装置及存储介质
CN112037773B (zh) 一种n最优口语语义识别方法、装置及电子设备
CN111339302A (zh) 训练要素分类模型的方法和装置
CN113962219A (zh) 面向电力变压器知识检索和问答的语义匹配方法及系统
CN112766990B (zh) 基于多轮对话改进的智能客服辅助系统和方法
CN112163596A (zh) 复杂场景文本识别方法、系统、计算机设备及存储介质
CN116612541A (zh) 一种多模态情感识别方法、装置及存储介质
CN113408287B (zh) 实体识别方法、装置、电子设备及存储介质
CN114020897A (zh) 一种对话情感识别方法及相关装置
CN116450848B (zh) 一种基于事理图谱的计算思维水平评估方法、装置及介质
CN111062203B (zh) 基于语音的数据标注方法、装置、介质以及电子设备
CN113377915B (zh) 对话篇章解析方法
CN115689603A (zh) 用户反馈信息收集方法、装置及用户反馈系统
CN115563253A (zh) 基于问答的多任务事件抽取方法及装置
CN111310847B (zh) 训练要素分类模型的方法和装置
CN115687910A (zh) 一种数据处理方法、装置、计算机设备以及可读存储介质
CN115066690A (zh) 搜索归一化-激活层架构
CN116775848B (zh) 生成对话信息的控制方法、装置、计算设备及存储介质
CN117076638A (zh) 对话篇章解析方法
CN117648429B (zh) 基于多模态自适应检索式增强大模型的问答方法及系统
CN117635381A (zh) 一种基于人机对话的计算思维品质评估方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant