CN115827842A - 对话文本摘要生成方法、装置、存储介质及电子设备 - Google Patents

对话文本摘要生成方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN115827842A
CN115827842A CN202211529903.XA CN202211529903A CN115827842A CN 115827842 A CN115827842 A CN 115827842A CN 202211529903 A CN202211529903 A CN 202211529903A CN 115827842 A CN115827842 A CN 115827842A
Authority
CN
China
Prior art keywords
target
sentence
vocabulary
topic
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211529903.XA
Other languages
English (en)
Inventor
张闯
刘成健
余文慧
胡文星
潘路
曾轲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN202211529903.XA priority Critical patent/CN115827842A/zh
Publication of CN115827842A publication Critical patent/CN115827842A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本公开涉及一种语言处理技术领域,提供一种对话文本摘要生成方法、装置、存储介质及电子设备,该方法包括:基于用户选定操作,从多个预定义的主题词组中确定目标主题词组以及目标主题词组对应的抽取模型,其中,目标主题词组包括多个目标主题词汇;将对话文本输入抽取模型,得到每个目标主题词汇对应的关键句;根据每个目标主题词汇对应的关键句,生成对话文本摘要。通过将对话文本输入用户选定操作选定的目标主题词组对应的抽取模型,自动得到每个目标主题词汇对应的关键句,并根据目标主题词汇对应的关键句生成对话文本摘要,提高了对话文本摘要生成的准确性和效率。

Description

对话文本摘要生成方法、装置、存储介质及电子设备
技术领域
本公开涉及语言处理技术领域,具体地,涉及一种对话文本摘要生成方法、装置、5存储介质及电子设备。
背景技术
对话场景是我们生活中时刻会发生的,例如,会议开展、客服沟通、社交聊天、医0患问诊、师生互动等等都是对话场景。想要根据对话场景的内容提炼出关键信息,生成
对应的会议纪要,客服工单,在相关技术中,往往都是安排专人进行关键信息提炼,得到对话文本摘要。但是,由于对话文本中数据量多且杂,人们很难高效且精准地获得一段对话文本的关键信息,以致对话文本摘要生成效率低。
发明内容
本公开的目的是提供一种对话文本摘要生成方法、装置、存储介质及电子设备,以解决相关技术中的问题。
为了实现上述目的,根据本公开实施例的第一方面,提供一种对话文本摘要生成方0法,所述方法包括:
基于用户选定操作,从多个预定义的主题词组中确定目标主题词组以及所述目标主题词组对应的抽取模型,其中,所述目标主题词组包括多个目标主题词汇;
将对话文本输入所述抽取模型,得到每个所述目标主题词汇对应的关键句;
根据每个所述目标主题词汇对应的关键句,生成对话文本摘要。
5可选地,所述抽取模型被配置为:
对对话文本进行向量化,得到每个句子的语句向量;
将每个句子的语句向量进行分类,识别出每个句子对应的目标主题词汇,其中,所述目标主题词汇对应的所有句子均作为所述目标主题词汇对应的关键句。
可选地,所述根据每个所述目标主题词汇对应的关键句,生成对话文本摘要,包括:
根据每个所述目标主题词汇对应的关键句,生成每个所述目标主题词汇对应的主题摘要;
将所有的主题摘要进行拼接,得到对话文本摘要。
可选地,所述根据每个所述目标主题词汇对应的关键句,生成每个所述目标主题词汇对应的主题摘要,包括:
将每个所述目标主题词汇对应的所有关键句进行拼接,得到每个所述目标主题词汇对应的关键句组合;
在每个所述目标主题词汇对应的关键句组合中添加每个所述目标主题词汇对应的提示词,得到每个所述目标主题词汇对应的主题语句;
将每个所述目标主题词汇对应的主题语句输入生成模型,得到每个所述目标主题词汇对应的主题摘要。
可选地,所述在每个所述目标主题词汇对应的关键句组合中添加每个所述目标主题词汇对应的提示词,得到每个所述目标主题词汇对应的主题语句,包括:
在每个所述目标主题词汇对应的关键句组合之前/后添加每个所述目标主题词汇对应的提示词,得到每个所述目标主题词汇对应的主题语句。
可选地,所述根据每个所述目标主题词汇对应的关键句,生成对话文本摘要,包括:
将所有所述目标主题词汇对应的关键句进行拼接,得到总主题句;
将所述总主题句输入生成模型,得到对话文本摘要。
可选地,所述将所有所述目标主题词汇对应的关键句进行拼接,得到总主题句,包括:
将每个所述目标主题词汇对应的所有关键句进行拼接,得到每个所述目标主题词汇对应的关键句组合;
在每个所述目标主题词汇对应的关键句组合中添加每个所述目标主题词汇对应的提示词,得到每个所述目标主题词汇对应的主题语句;
将所有所述目标主题词汇对应的主题语句进行拼接,得到总主题句。
根据本公开实施例的第二方面,提供一种对话文本摘要生成装置,所述装置包括:
主题选定模块,用于基于用户选定操作,从多个预定义的主题词组中确定目标主题词组以及所述目标主题词组对应的抽取模型,其中,所述目标主题词组包括多个目标主题词汇;
抽取关键句模块,用于将对话文本输入所述抽取模型,得到每个所述目标主题词汇对应的关键句;
摘要生成模块,用于根据每个所述目标主题词汇对应的关键句,生成对话文本摘要。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本公开第一方面所提供的对话文本摘要生成方法的步骤。
根据本公开实施例的第四方面,提供一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现本公开第一方面所提供的对话文本摘要生成方法的步骤。
通过上述技术方案,首先,基于用户选定操作,从多个预定义的主题词组中确定目标主题词组以及目标主题词组对应的抽取模型,其中,目标主题词组包括多个目标主题词汇;其次,将对话文本输入抽取模型,得到每个目标主题词汇对应的关键句;最后,根据每个目标主题词汇对应的关键句,生成对话文本摘要。将对话文本输入用户选定操作选定的目标主题词组对应的抽取模型,自动得到每个目标主题词汇对应的关键句,并根据目标主题词汇对应的关键句生成对话文本摘要,提高了对话文本摘要的生成效率;且由于是基于用户选定的目标主题词汇得到的关键句,并根据目标主题词汇对应的关键句生成的对话文本摘要,对话文本摘要必然包含有每个目标主题词汇对应的内容,从而保证了生成的对话文本摘要的不遗漏对话文本中的内容,进而保证了对话文本摘要的准确性。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本公开的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本公开,但并不构成对本公开的限制。在附图中:
图1是根据一示例性实施例示出的一种对话文本摘要生成方法的流程图;
图2是根据一示例性实施例示出的抽取模型的工作原理;
图3是根据一示例性实施例示出的图1中步骤S3的一种子步骤的流程图;
图4是根据一示例性实施例示出的图3中步骤S31的子步骤的流程图;
图5是根据一示例性实施例示出的对话文本摘要生成过程的示意图;
图6是根据一示例性实施例示出的图1中步骤S3的另一种子步骤的流程图;
图7是根据一示例性实施例示出的图6中步骤S33的子步骤的流程图;
图8是根据一示例性实施例示出的一种对话文本摘要生成装置的框图;
图9是根据一示例性实施例示出的一种电子设备的框图。
附图标记说明
400-对话文本摘要生成装置;401-主题选定模块;402-抽取关键句模块;403-摘要生成模块;700-电子设备;701-处理器;702-存储器;703-多媒体组件;704-I/O接口;705-通信组件。
具体实施方式
以下结合附图对本公开的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本公开,并不用于限制本公开。
在下文的描述中,“第一”、“第二”等词汇,仅用于区分描述的目的,而不能理解为指示或者暗示相对重要性,也不能理解为指示或暗示顺序。
本公开实施例提供一种对话文本摘要生成方法,请参阅图1,图1是根据一示例性实施例示出的一种对话文本摘要生成方法的流程图,对话文本摘要生成方法可以包括:
步骤S1,基于用户选定操作,从多个预定义的主题词组中确定目标主题词组以及目标主题词组对应的抽取模型,其中,目标主题词组包括多个目标主题词汇。
步骤S2,将对话文本输入抽取模型,得到每个目标主题词汇对应的关键句。
目标主题词组可以是在特定的对话场景下,预定义的主题词组。
在不同的对话场景中,其对应的预定义主题词组也不相同。例如,在会议开展场景中,预定义的主题词组可以包括议题、结论、计划等主题词汇;在客服沟通场景中,预定义的主题词组可以包括背景、诉求、方案等主题词汇。用户可以根据实际的对话场景,选定预定义的主题词组作为目标主题词组。目标主题词汇为目标主题词组中的主题词汇。
每个预定义的主题词组均对应一个抽取模型,该抽取模型可以识别出对话文本中与该预定义主题词组中的主题词汇相关的句子。目标主题词组对应的抽取模型,即可识别对话文本中与目标关键词汇相关的句子,即目标主题词汇对应的关键句。
步骤S3,根据每个目标主题词汇对应的关键句,生成对话文本摘要。
根据每个目标主题词汇对应的关键句,生成对话文本摘要,可以理解为,将每个目标主题词汇对应的所有关键句输入到生成模型中,得到每个目标主题词汇对应的摘要,并将每个目标主题词汇对应的摘要进行拼接汇总,得到对话文本摘要。还可以理解为,将所有目标主题词汇对应的关键句进行拼接后输入到生成模型,生成对话文本摘要。
通过将对话文本输入用户选定操作选定的目标主题词组对应的抽取模型,自动得到每个目标主题词汇对应的关键句,并根据目标主题词汇对应的关键句生成对话文本摘要,提高了对话文本摘要的生成效率;且由于是基于用户选定的目标主题词汇得到的关键句,并根据目标主题词汇对应的关键句生成的对话文本摘要,对话文本摘要必然包含有每个目标主题词汇对应的内容,从而保证了生成的对话文本摘要的不遗漏对话文本中的内容,进而保证了对话文本摘要的准确性。
在一种可能的实施方式中,抽取模型被配置为:
对对话文本进行向量化,得到每个句子的语句向量;
将每个句子的语句向量进行分类,识别出每个句子对应的目标主题词汇,其中,目标主题词汇对应的所有句子均作为目标主题词汇对应的关键句。
请参阅图2,可以每条对话语句前面添加一个特殊的标志,例如CLS,将多轮对话语句拼接后输入到向量化模块,也可以每条语句单独输入向量化模块,向量化模块可以采用例如来自变换器的双向编码器表征量(Bidirectional Encoder Representation fromTransformers,BERT)、AlBert等模型,向量化模块输出每条对话语句的向量,即每个句子的语句向量。每个语句向量既可以是该条对话所有标志的向量的平均,也可以只取该条语句的CLS所对应的向量。然后,将每个句子的语句向量输入到分类模块,判别出该语句向量所属的目标主题词汇,通过语句向量和分类模块将目标主题词汇与句子对应上,目标主题词汇对应的所有句子均为该目标主题词汇对应的关键句。
抽取模型可以分为两种,一种是关键句不重叠识别的抽取模型,另一种是关键句重叠识别的抽取模型。抽取模型可以是,但不限于来自变换器的双向编码器表征量(Bidirectional Encoder Representation from Transformers,BERT)、PreSumm、文本卷积神经网络(Text Convolutional Neural Networks,TextCNN)等。
关键句不重叠识别的抽取模型,即每个句子只能属于某一个主题类别,对应一个主题词汇,模型采用多分类方法识别不同主题的关键句。具体地,不同的主题词汇为不同的类别,将对话经过自动语音识别技术(Automatic Speech Recognition,ASR)转录的对话文本加上或者不加上对话角色人身份输入到抽取模型,对话角色人身份包括但不限于例如客服、客户、团长、用户等,抽取模型为对话文本的每一个句子进行分类,判断该句子所属的某一个主题类别,例如背景、诉求、方案等。
关键句不重叠识别的抽取模型的训练集构建及模型训练:在获得了句子和每个主题词汇对应的摘要时,通过计算每个主题词汇的摘要与每个句子的rouge值,选择rouge值大于一定阈值并且所有主题类别中rouge值最大的来作为该句子的主题词汇标签,如果没有满足的主题标签则不标注,以此来构建训练数据集。模型训练采用梯度下降方法,损失函数采用交叉熵。
关键句重叠识别的抽取模型,即同一个句子有可以属于多个不同的主题类别,对应多个主题词汇,模型采用多标签分类方法识别不同主题的关键句。具体地,不同的主题词汇为不同的类别,将对话经过ASR转录的文本加上或者不加上对话角色人身份输入到抽取模型,对话角色人身份包括但不限于例如客服、客户、团长、用户等,抽取模型为对话文本的每一个句子进行分类,判断该句子所属的某个或某几个主题类别,例如背景、诉求、方案等。
关键句重叠识别的抽取模型的训练集构建及模型训练:在获得了句子和每个主题词汇对应的摘要时,通过计算每个主题词汇的摘要与每个句子的rouge值,如果rouge值大于一定阈值,则为该句子打上该主题词汇的标签,一条语句允许打上多个主题词汇的标签,以此来构建训练数据集。模型训练采用梯度下降方法,损失函数采用交叉熵。
关键句重叠识别的抽取模型允许一个句子属于多个不同的主题词汇,与实际的对话情况更接近,可以处理更复杂的对话情况。
通过设置抽取模型,采用抽取的方式,可以更准确地定位关键句,去掉对话的冗余信息。
在一种可能的实施方式中,请参阅图3,步骤S3可以包括步骤S31和步骤S32:
步骤S31,根据每个目标主题词汇对应的关键句,生成每个目标主题词汇对应的主题摘要。
根据一个目标主题词汇对应的所有关键句,生成该目标主题词汇对应的主题摘要。以此类推,根据每个目标主题词汇对应的关键句,生成每个目标主题词汇对应的主题摘要。
步骤S32,将所有的主题摘要进行拼接,得到对话文本摘要。
将每个目标主题词汇对应的主题摘要进行拼接汇总,得到对话文本摘要。拼接汇总的顺序可以按照目标主题词汇在目标主题词组中的先后顺序来。例如,当在客服沟通场景中,目标主题词组中的目标主题词汇为:“背景”、“诉求”、“方案”。则可以依次按照背景主题对应的主题摘要、诉求主题对应的主题摘要、方案主题对应的主题摘要进行汇总拼接,得到对话文本摘要。
在一种可能的实施方式中,请参阅图4和图5,步骤S31可以包括步骤S311~步骤S313:
步骤S311,将每个目标主题词汇对应的所有关键句进行拼接,得到每个目标主题词汇对应的关键句组合。
关键句组合可以是同一个目标主题词汇对应的所有关键句的组合拼接。
步骤S312,在每个目标主题词汇对应的关键句组合中添加每个目标主题词汇对应的提示词,得到每个目标主题词汇对应的主题语句。
提示词可以是表征或者区分目标主题词汇的标识。提示词也可以就是目标主题词汇。主题语句可以是在关键句组合中添加提示词后得到的语句。
可选地,可以在每个目标主题词汇对应的关键句组合之前/后添加每个目标主题词汇对应的提示词,得到每个目标主题词汇对应的主题语句。例如,当在客服沟通场景中,目标主题词组中的目标主题词汇为:“背景”、“诉求”、“方案”,分别对应的提示词为“背景”、“诉求”、“方案”。那么可以在目标主题词汇“背景”对应的关键句组合之前添加提示词“背景”,在目标主题词汇“诉求”对应的关键句组合之前添加提示词“诉求”,在目标主题词汇“方案”对应的关键句之前添加提示词“方案”。
步骤S313,将每个目标主题词汇对应的主题语句输入生成模型,得到每个目标主题词汇对应的主题摘要。
生成模型可以包括但不限于统一预训练语言模型(UNIfied pre-trainedLanguage Model,UniLM)、文本到文本转换变压器(Text-to-Text Transfer Transformer,T5)、mT5、指针生成网络(Pointer-Generator Networks,PGN)等。
通过在关键句组合中添加主题对应的提示词,摘要生成可以更准确,而且保证主题不被丢失,提高了主题摘要的准确性。
在一种可能的实施方式中,请参阅图6,步骤S3可以包括步骤S33和步骤S34:
步骤S33,将所有目标主题词汇对应的关键句进行拼接,得到总主题句。
总主题句可以是目标主题词组中所有的目标主题词汇对应的所有的关键句的总和。
步骤S34,将总主题句输入生成模型,得到对话文本摘要。
生成模型可以包括但不限于统一预训练语言模型(UNIfied pre-trainedLanguage Model,UniLM)、文本到文本转换变压器(Text-to-Text Transfer Transformer,T5)、mT5、指针生成网络(Pointer-Generator Networks,PGN)等。
在一种可能的实施方式中,请参阅图7,步骤S33可以包括步骤S331~步骤S333:
步骤S331,将每个目标主题词汇对应的所有关键句进行拼接,得到每个目标主题词汇对应的关键句组合。
步骤S332,在每个目标主题词汇对应的关键句组合中添加每个目标主题词汇对应的提示词,得到每个目标主题词汇对应的主题语句。
步骤S333,将所有目标主题词汇对应的主题语句进行拼接,得到总主题句。
本实施例中,步骤S331的具体描述可以参考上述实施例中步骤S311,步骤S332的具体描述可以参考上述实施例中步骤S312,在此不再赘述。
根据不同主题的摘要是分别生成还是一块生成,分两类来处理:
1)不同主题的摘要分别生成:将加入提示词的关键句作为生成模型的输入,不同主题添加提示词的关键句分别输入到生成模型,生成该主题的摘要,然后拼接到一起作为对话的完整摘要;
训练数据集构建及模型训练:每个主题添加提示词的关键句及该主题对应的摘要作为一个训练样例,不同主题的训练样例数量尽量保证均衡,以此来构建训练数据集。模型训练采用梯度下降方法,损失函数采用交叉熵。
2)不同主题的摘要一块生成:将所有主题添加提示词后的关键句拼接后一起输入到生成模型,利用生成模型一块生成该对话的完整摘要。
训练数据集构建及模型训练:所有主题添加提示词的关键句拼接及所有主题对应的摘要作为一个训练样例,以此来构建训练数据集。模型训练采用梯度下降方法,损失函数采用交叉熵。
采用以上结构的好处是对不同主题的摘要可以复用同一套抽取模型和生成模型,从而可以降低模型的数量,在模型部署时也可以降低对机器资源的依赖。
通过定义不同的主题,并利用同一抽取模型抽取出不同主题所对应的关键句,为这些关键句添加主题对应的提示词,利用一个生成模型生成每个主题对应的摘要。分主题来生成摘要,摘要的字数可以更短,生成可以更准确,而且保证主题不被丢失;同时利用一套抽取模型和生成模型搭配,成本也会更低。
为实现上述方法类实施例,本实施例提供一种对话文本摘要生成装置400,如图8所示,图8是一示例性实施例示出的对话文本摘要生成装置400的框图。对话文本摘要生成装置400可以包括:主题选定模块401、抽取关键句模块402和摘要生成模块403。
主题选定模块401,用于基于用户选定操作,从多个预定义的主题词组中确定目标主题词组以及目标主题词组对应的抽取模型,其中,目标主题词组包括多个目标主题词汇;
抽取关键句模块402,用于将对话文本输入抽取模型,得到每个目标主题词汇对应的关键句;
摘要生成模块403,用于根据每个目标主题词汇对应的关键句,生成对话文本摘要。
可选地,抽取模型被配置为:
对对话文本进行向量化,得到每个句子的语句向量;
将每个句子的语句向量进行分类,识别出每个句子对应的目标主题词汇,其中,目标主题词汇对应的所有句子均作为目标主题词汇对应的关键句。
可选地,摘要生成模块403包括子摘要生成模块和第一拼接模块。
子摘要生成模块,用于根据每个目标主题词汇对应的关键句,生成每个目标主题词汇对应的主题摘要;
第一拼接模块,用于将所有的主题摘要进行拼接,得到对话文本摘要。
可选地,子摘要生成模块具体用于:
将每个目标主题词汇对应的所有关键句进行拼接,得到每个目标主题词汇对应的关键句组合;
在每个目标主题词汇对应的关键句组合中添加每个目标主题词汇对应的提示词,得到每个目标主题词汇对应的主题语句;
将每个目标主题词汇对应的主题语句输入生成模型,得到每个目标主题词汇对应的主题摘要。
可选地,子摘要生成模块执行在每个目标主题词汇对应的关键句组合中添加每个目标主题词汇对应的提示词,得到每个目标主题词汇对应的主题语句的步骤,具体用于:
在每个目标主题词汇对应的关键句组合之前/后添加每个目标主题词汇对应的提示词,得到每个目标主题词汇对应的主题语句。
可选地,摘要生成模块403包括第二拼接模块和摘要生成子模块。
第二拼接模块,用于将所有目标主题词汇对应的关键句进行拼接,得到总主题句;
摘要生成子模块,用于将总主题句输入生成模型,得到对话文本摘要。
可选地,第二拼接模块具体用于:
将每个目标主题词汇对应的所有关键句进行拼接,得到每个目标主题词汇对应的关键句组合;
在每个目标主题词汇对应的关键句组合中添加每个目标主题词汇对应的提示词,得到每个目标主题词汇对应的主题语句;
将所有目标主题词汇对应的主题语句进行拼接,得到总主题句。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图9是根据一示例性实施例示出的一种电子设备的框图。如图9所示,该电子设备700可以包括:处理器701,存储器702。该电子设备700还可以包括多媒体组件703,输入/输出(I/O)接口704,以及通信组件705中的一者或多者。
其中,处理器701用于控制该电子设备700的整体操作,以完成上述的对话文本摘要生成方法中的全部或部分步骤。存储器702用于存储各种类型的数据以支持在该电子设备700的操作,这些数据例如可以包括用于在该电子设备700上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器702可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件703可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器702或通过通信组件705发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口704为处理器701和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件705用于该电子设备700与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near FieldCommunication,简称NFC),2G、3G、4G、NB-IOT、eMTC、或其他5G等等,或它们中的一种或几种的组合,在此不做限定。因此相应的该通信组件705可以包括:Wi-Fi模块,蓝牙模块,NFC模块等等。
在一示例性实施例中,电子设备700可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(DigitalSignal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的对话文本摘要生成方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的对话文本摘要生成方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器702,上述程序指令可由电子设备700的处理器701执行以完成上述的对话文本摘要生成方法。
在另一示例性实施例中,还提供一种计算机程序产品,该计算机程序产品包含能够由可编程的装置执行的计算机程序,该计算机程序具有当由该可编程的装置执行时用于执行上述的对话文本摘要生成方法的代码部分。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (10)

1.一种对话文本摘要生成方法,其特征在于,所述方法包括:
基于用户选定操作,从多个预定义的主题词组中确定目标主题词组以及所述目标主题词组对应的抽取模型,其中,所述目标主题词组包括多个目标主题词汇;
将对话文本输入所述抽取模型,得到每个所述目标主题词汇对应的关键句;
根据每个所述目标主题词汇对应的关键句,生成对话文本摘要。
2.根据权利要求1所述的方法,其特征在于,所述抽取模型被配置为:
对对话文本进行向量化,得到每个句子的语句向量;
将每个句子的语句向量进行分类,识别出每个句子对应的目标主题词汇,其中,所述目标主题词汇对应的所有句子均作为所述目标主题词汇对应的关键句。
3.根据权利要求1所述的方法,其特征在于,所述根据每个所述目标主题词汇对应的关键句,生成对话文本摘要,包括:
根据每个所述目标主题词汇对应的关键句,生成每个所述目标主题词汇对应的主题摘要;
将所有的主题摘要进行拼接,得到对话文本摘要。
4.根据权利要求3所述的方法,其特征在于,所述根据每个所述目标主题词汇对应的关键句,生成每个所述目标主题词汇对应的主题摘要,包括:
将每个所述目标主题词汇对应的所有关键句进行拼接,得到每个所述目标主题词汇对应的关键句组合;
在每个所述目标主题词汇对应的关键句组合中添加每个所述目标主题词汇对应的提示词,得到每个所述目标主题词汇对应的主题语句;
将每个所述目标主题词汇对应的主题语句输入生成模型,得到每个所述目标主题词汇对应的主题摘要。
5.根据权利要求4所述的方法,其特征在于,所述在每个所述目标主题词汇对应的关键句组合中添加每个所述目标主题词汇对应的提示词,得到每个所述目标主题词汇对应的主题语句,包括:
在每个所述目标主题词汇对应的关键句组合之前/后添加每个所述目标主题词汇对应的提示词,得到每个所述目标主题词汇对应的主题语句。
6.根据权利要求1所述的方法,其特征在于,所述根据每个所述目标主题词汇对应的关键句,生成对话文本摘要,包括:
将所有所述目标主题词汇对应的关键句进行拼接,得到总主题句;
将所述总主题句输入生成模型,得到对话文本摘要。
7.根据权利要求6所述的方法,其特征在于,所述将所有所述目标主题词汇对应的关键句进行拼接,得到总主题句,包括:
将每个所述目标主题词汇对应的所有关键句进行拼接,得到每个所述目标主题词汇对应的关键句组合;
在每个所述目标主题词汇对应的关键句组合中添加每个所述目标主题词汇对应的提示词,得到每个所述目标主题词汇对应的主题语句;
将所有所述目标主题词汇对应的主题语句进行拼接,得到总主题句。
8.一种对话文本摘要生成装置,其特征在于,所述装置包括:
主题选定模块,用于基于用户选定操作,从多个预定义的主题词组中确定目标主题词组以及所述目标主题词组对应的抽取模型,其中,所述目标主题词组包括多个目标主题词汇;
抽取关键句模块,用于将对话文本输入所述抽取模型,得到每个所述目标主题词汇对应的关键句;
摘要生成模块,用于根据每个所述目标主题词汇对应的关键句,生成对话文本摘要。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。
10.一种电子设备,其特征在于,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-8中任一项所述方法的步骤。
CN202211529903.XA 2022-11-30 2022-11-30 对话文本摘要生成方法、装置、存储介质及电子设备 Pending CN115827842A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211529903.XA CN115827842A (zh) 2022-11-30 2022-11-30 对话文本摘要生成方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211529903.XA CN115827842A (zh) 2022-11-30 2022-11-30 对话文本摘要生成方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN115827842A true CN115827842A (zh) 2023-03-21

Family

ID=85533504

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211529903.XA Pending CN115827842A (zh) 2022-11-30 2022-11-30 对话文本摘要生成方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN115827842A (zh)

Similar Documents

Publication Publication Date Title
US10991366B2 (en) Method of processing dialogue query priority based on dialog act information dependent on number of empty slots of the query
CN108564941B (zh) 语音识别方法、装置、设备及存储介质
CN107622054B (zh) 文本数据的纠错方法及装置
US11797772B2 (en) Word lattice augmentation for automatic speech recognition
CN110379445A (zh) 基于情绪分析的业务处理方法、装置、设备及存储介质
CN111177324B (zh) 基于语音识别结果进行意图分类的方法和装置
JP2017058673A (ja) 対話処理装置及び方法と知能型対話処理システム
CN108536654A (zh) 识别文本展示方法及装置
WO2021103712A1 (zh) 一种基于神经网络的语音关键词检测方法、装置及系统
CN111428025B (zh) 文本摘要方法、装置、电子设备和存储介质
CN110517668B (zh) 一种中英文混合语音识别系统及方法
CN112632242A (zh) 智能对话方法及装置、电子设备
CN112668333A (zh) 命名实体的识别方法和设备、以及计算机可读存储介质
CN111522937B (zh) 话术推荐方法、装置和电子设备
CN113051895A (zh) 语音识别的方法、装置、电子设备、介质和程序产品
CN116522905A (zh) 文本纠错方法、装置、设备、可读存储介质及程序产品
CN117725163A (zh) 智能问答方法、装置、设备及存储介质
CN114783405B (zh) 一种语音合成方法、装置、电子设备及存储介质
CN115827842A (zh) 对话文本摘要生成方法、装置、存储介质及电子设备
CN114528851A (zh) 回复语句确定方法、装置、电子设备和存储介质
CN111414468A (zh) 话术选择方法、装置和电子设备
CN111625636A (zh) 一种人机对话的拒绝识别方法、装置、设备、介质
CN111400443A (zh) 信息处理方法、装置及存储介质
KR20210074833A (ko) 구문 분석 장치 및 방법
KR20200072005A (ko) 음성 인식된 문장의 보정 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination