CN112699231A - 基于滑窗相关性计算和Copy机制的工单摘要总结方法 - Google Patents
基于滑窗相关性计算和Copy机制的工单摘要总结方法 Download PDFInfo
- Publication number
- CN112699231A CN112699231A CN202011567912.9A CN202011567912A CN112699231A CN 112699231 A CN112699231 A CN 112699231A CN 202011567912 A CN202011567912 A CN 202011567912A CN 112699231 A CN112699231 A CN 112699231A
- Authority
- CN
- China
- Prior art keywords
- sliding window
- information
- work order
- method based
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 19
- 238000004364 calculation method Methods 0.000 title claims abstract description 9
- 239000011159 matrix material Substances 0.000 claims abstract description 17
- 239000012634 fragment Substances 0.000 claims description 17
- 239000013598 vector Substances 0.000 claims description 16
- 238000003058 natural language processing Methods 0.000 claims description 7
- 238000013135 deep learning Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 3
- 230000011218 segmentation Effects 0.000 abstract 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Abstract
本发明涉及客服工单总结方法,具体涉及基于滑窗相关性计算和Copy机制的工单摘要总结方法,利用滑窗对文本进行分片处理,并对文本中的关键信息进行抽取并保存,计算每个滑窗分片信息之间的相关性,并对滑窗的特征向量进行拼接,将生成的拼接矩阵转换为文字信息,生成初步摘要内容,将抽取的关键信息嵌入文字信息中,生成完备摘要内容;本发明提供的技术方案能够有效克服现有技术所存在的无法生成语序连贯通顺、信息完整的摘要总结的缺陷。
Description
技术领域
本发明涉及客服工单总结方法,具体涉及基于滑窗相关性计算和Copy机制的工单摘要总结方法。
背景技术
在当前的人工智能领域,自然语言处理的预训练模型已经被广泛使用,比如当前热门的Transfromer模型。Transfromer模型采用了Attention机制,即在处理一个词的时候,能考虑到该词前、后单词的信息,获取上下文的语义,从而建立起文本的长距离依赖关系。
在实际业务场景中,尤其是基于人人对话的客服领域,经过语音转写后的文本信息基本上都属于长文本甚至是篇章级别的。而当前的Transformer模型在实际业务中主要作为文本特征的抽取器,受限于输入字长的限制和当前计算机的硬件条件,无法一次性处理长度超过512字长的文本信息。而如果仅仅对文本信息做简单地截取,只处理前512字长的信息,可能会造成关键信息的丢失,无法生成语序连贯通顺,且信息完整的摘要总结。
发明内容
(一)解决的技术问题
针对现有技术所存在的上述缺点,本发明提供了基于滑窗相关性计算和Copy机制的工单摘要总结方法,能够有效克服现有技术所存在的无法生成语序连贯通顺、信息完整的摘要总结的缺陷。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
基于滑窗相关性计算和Copy机制的工单摘要总结方法,包括以下步骤:
S1、利用滑窗对文本进行分片处理,并对文本中的关键信息进行抽取并保存;
S2、计算每个滑窗分片信息之间的相关性,并对滑窗的特征向量进行拼接;
S3、将生成的拼接矩阵转换为文字信息,生成初步摘要内容;
S4、将抽取的关键信息嵌入文字信息中,生成完备摘要内容。
优选地,S2中将各滑窗分片信息输入Transformer模型中的encoder层,并采用下式计算所述每个滑窗分片信息之间的相关性:
优选地,所述对滑窗的特征向量进行拼接,包括:
优选地,所述拼接矩阵输入Transformer模型中的decoder层中转换成文字信息。
优选地,S1中所述滑窗设置为512字长。
优选地,S1中所述文本中的关键信息根据业务场景确定,文本中的关键信息根据业务场景利用自然语言处理工具进行抽取并保存。
优选地,S4中所述生成完备摘要内容之后,利用自然语言处理工具进行语义混淆度评分,并将语义混淆度最低的完备摘要内容作为摘要的最终生成结果。
(三)有益效果
与现有技术相比,本发明所提供的基于滑窗相关性计算和Copy机制的工单摘要总结方法,利用滑动窗口的输入机制,即对长文本信息进行拆分并分批量进行数据输入,能够不再受限于待处理文本的大小,并且通过Copy机制针对客服业务中关键信息进行抽取,使得最终生成的摘要不会丢失关键信息,从而能够生成语序连贯通顺、信息完整的摘要总结。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明生成客服工单摘要的流程示意图;
图2为本发明生成客服工单摘要的另一流程示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
基于滑窗相关性计算和Copy机制的工单摘要总结方法,如图1和图2所示,利用滑窗对文本进行分片处理,并对文本中的关键信息进行抽取并保存。
其中,滑窗设置为512字长,即Tranformer模型所能接受的最大字长,实现对整个文本进行拆分并分批量输入数据。
文本中的关键信息根据业务场景确定,例如网商购物场景中,商品名和价格为关键信息;快递场景中,发货地、收货地、收获人姓名、联系方式为关键信息。文本中的关键信息根据业务场景利用自然语言处理工具,例如NLTK工具包,进行抽取并保存。
计算每个滑窗分片信息之间的相关性,并对滑窗的特征向量进行拼接。
将各滑窗分片信息输入Transformer模型中的encoder层,并采用下式计算每个滑窗分片信息之间的相关性:
对滑窗的特征向量进行拼接,包括:
将生成的拼接矩阵转换为文字信息,生成初步摘要内容。将拼接矩阵输入Transformer模型中的decoder层中转换成文字信息。
利用Copy机制将抽取的关键信息嵌入文字信息中,生成完备摘要内容。生成完备摘要内容之后,利用自然语言处理工具,例如HanNLP和NLTK等,进行语义混淆度评分,并将语义混淆度最低的完备摘要内容作为摘要的最终生成结果,使得生成的摘要更加通顺、更符合人类的表达。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.基于滑窗相关性计算和Copy机制的工单摘要总结方法,其特征在于:包括以下步骤:
S1、利用滑窗对文本进行分片处理,并对文本中的关键信息进行抽取并保存;
S2、计算每个滑窗分片信息之间的相关性,并对滑窗的特征向量进行拼接;
S3、将生成的拼接矩阵转换为文字信息,生成初步摘要内容;
S4、将抽取的关键信息嵌入文字信息中,生成完备摘要内容。
4.根据权利要求3所述的基于滑窗相关性计算和Copy机制的工单摘要总结方法,其特征在于:所述拼接矩阵输入Transformer模型中的decoder层中转换成文字信息。
5.根据权利要求1所述的基于滑窗相关性计算和Copy机制的工单摘要总结方法,其特征在于:S1中所述滑窗设置为512字长。
6.根据权利要求1所述的基于滑窗相关性计算和Copy机制的工单摘要总结方法,其特征在于:S1中所述文本中的关键信息根据业务场景确定,文本中的关键信息根据业务场景利用自然语言处理工具进行抽取并保存。
7.根据权利要求1所述的基于滑窗相关性计算和Copy机制的工单摘要总结方法,其特征在于:S4中所述生成完备摘要内容之后,利用自然语言处理工具进行语义混淆度评分,并将语义混淆度最低的完备摘要内容作为摘要的最终生成结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011567912.9A CN112699231A (zh) | 2020-12-25 | 2020-12-25 | 基于滑窗相关性计算和Copy机制的工单摘要总结方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011567912.9A CN112699231A (zh) | 2020-12-25 | 2020-12-25 | 基于滑窗相关性计算和Copy机制的工单摘要总结方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112699231A true CN112699231A (zh) | 2021-04-23 |
Family
ID=75510925
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011567912.9A Pending CN112699231A (zh) | 2020-12-25 | 2020-12-25 | 基于滑窗相关性计算和Copy机制的工单摘要总结方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112699231A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806505A (zh) * | 2021-09-09 | 2021-12-17 | 科大讯飞股份有限公司 | 要素比对方法、装置、电子设备和存储介质 |
CN114691858A (zh) * | 2022-03-15 | 2022-07-01 | 电子科技大学 | 一种基于改进的unilm摘要生成方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670035A (zh) * | 2018-12-03 | 2019-04-23 | 科大讯飞股份有限公司 | 一种文本摘要生成方法 |
CN110852086A (zh) * | 2019-09-18 | 2020-02-28 | 平安科技(深圳)有限公司 | 基于人工智能的古诗词生成方法、装置、设备及存储介质 |
KR102173382B1 (ko) * | 2020-02-25 | 2020-11-03 | 휴멜로 주식회사 | 텍스트 생성 장치 및 방법 |
CN111930952A (zh) * | 2020-09-21 | 2020-11-13 | 杭州识度科技有限公司 | 一种长文本级联分类方法、系统、设备及存储介质 |
-
2020
- 2020-12-25 CN CN202011567912.9A patent/CN112699231A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109670035A (zh) * | 2018-12-03 | 2019-04-23 | 科大讯飞股份有限公司 | 一种文本摘要生成方法 |
CN110852086A (zh) * | 2019-09-18 | 2020-02-28 | 平安科技(深圳)有限公司 | 基于人工智能的古诗词生成方法、装置、设备及存储介质 |
KR102173382B1 (ko) * | 2020-02-25 | 2020-11-03 | 휴멜로 주식회사 | 텍스트 생성 장치 및 방법 |
CN111930952A (zh) * | 2020-09-21 | 2020-11-13 | 杭州识度科技有限公司 | 一种长文本级联分类方法、系统、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
YANG LIU等: ""Hierarchical Transformers for Multi-Document Summarization"", 《ARXIV》, pages 1 - 12 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113806505A (zh) * | 2021-09-09 | 2021-12-17 | 科大讯飞股份有限公司 | 要素比对方法、装置、电子设备和存储介质 |
CN113806505B (zh) * | 2021-09-09 | 2024-04-16 | 科大讯飞股份有限公司 | 要素比对方法、装置、电子设备和存储介质 |
CN114691858A (zh) * | 2022-03-15 | 2022-07-01 | 电子科技大学 | 一种基于改进的unilm摘要生成方法 |
CN114691858B (zh) * | 2022-03-15 | 2023-10-03 | 电子科技大学 | 一种基于改进的unilm摘要生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020107878A1 (zh) | 文本摘要生成方法、装置、计算机设备及存储介质 | |
CN111159368B (zh) | 一种个性化对话的回复生成方法 | |
CN111914551B (zh) | 自然语言处理方法、装置、电子设备及存储介质 | |
CN110162767A (zh) | 文本纠错的方法和装置 | |
CN110428820B (zh) | 一种中英文混合语音识别方法及装置 | |
CN108984529A (zh) | 实时庭审语音识别自动纠错方法、存储介质及计算装置 | |
CN110163181B (zh) | 手语识别方法及装置 | |
CN109192225B (zh) | 语音情感识别和标注的方法及装置 | |
CN112699231A (zh) | 基于滑窗相关性计算和Copy机制的工单摘要总结方法 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN112992125B (zh) | 一种语音识别方法、装置、电子设备、可读存储介质 | |
US20230178067A1 (en) | Method of training speech synthesis model and method of synthesizing speech | |
CN109979461B (zh) | 一种语音翻译方法及装置 | |
CN111832302A (zh) | 一种命名实体识别方法和装置 | |
CN114171002A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
CN111368066A (zh) | 获取对话摘要的方法、装置和计算机可读存储介质 | |
CN116721176B (zh) | 一种基于clip监督的文本到人脸图像生成方法及装置 | |
CN113128176A (zh) | 总结模型的训练方法和工单生成方法及相关设备、装置 | |
CN112364636A (zh) | 一种基于双重目标编码的用户意图识别系统 | |
WO2023087935A1 (zh) | 指代消解方法、指代消解模型的训练方法及装置 | |
CN111177381A (zh) | 基于语境向量反馈的槽填充和意图检测联合建模方法 | |
KR20210057996A (ko) | 멀티 태스크 러닝 분류기 학습장치 및 방법 | |
CN109344388A (zh) | 一种垃圾评论识别方法、装置及计算机可读存储介质 | |
CN111241826B (zh) | 实体名称识别方法、装置、设备及存储介质 | |
CN115359323A (zh) | 图像的文本信息生成方法和深度学习模型的训练方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |