CN117151122A

CN117151122A - 一种基于自然语言处理的银行客服会话问答处理方法及系统

Info

Publication number: CN117151122A
Application number: CN202311419309.XA
Authority: CN
Inventors: 张德文; 邓日晓; 聂璇; 阳城; 田芬
Original assignee: Hunan Sanxiang Bank Co Ltd
Current assignee: Hunan Sanxiang Bank Co Ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2023-12-01
Anticipated expiration: 2043-10-30
Also published as: CN117151122B

Abstract

本发明涉及人工智能技术领域，尤其是涉及一种基于自然语言处理的银行客服会话问答处理方法及系统。所述方法包括以下步骤：获取权限数据，基于权限数据获取产品手册数据以及业务流程手册数据；基于产品手册数据以及业务流程手册数据利用自然语言处理技术进行问答回复数据提取处理，生成问答回复数据；基于问答回复数据进行关系图谱建立，生成标准词语关系图谱；获取业务流程单位时间段数据，基于业务流程单位时间段数据以及标准词语关系图谱实现可视化文本示例数据推送，进而实现银行客服会话处理；本发明通过利用权限数据获取业务会话数据包括产品手册数据以及业务流程手册数据并进行数据处理，以提高银行客服会话问答处理的及时性和准确性。

Description

一种基于自然语言处理的银行客服会话问答处理方法及系统

技术领域

本发明涉及人工智能技术领域，尤其是涉及一种基于自然语言处理的银行客服会话问答处理方法及系统。

背景技术

目前，银行的电话客服在为客户服务过程中，一般都是人工去解答客户问题，通过由各事业部提供的非结构化的产品信息及业务办理流程文档给予客服人员，再由客服人员根据各业务部门提供的这些产品相关文档整理出相关客户可能提出的问题与答案，效率低下、准确率低，因此，如何开发一种高效率、高准确性的银行客服会话问答处理方法及系统称为亟待解决的问题。

发明内容

有鉴于此，有必要提供一种基于自然语言处理的银行客服会话问答处理方法及系统，以解决至少一个上述技术问题。

为实现上述目的，本发明提供一种基于自然语言处理的银行客服会话问答处理方法，所述方法包括以下步骤：

步骤S1：获取权限数据，其中权限数据包括银行业务部门API访问权限、数据库访问权限以及语音通话音频实时访问权限，基于银行业务部门API访问权限进行业务会话数据获取处理，生成业务会话数据，其中业务会话数据包括产品手册数据以及业务流程手册数据；

步骤S2：基于产品手册数据以及业务流程手册数据利用自然语言处理技术进行问答回复数据提取处理，生成问答回复数据；

步骤S3：基于问答回复数据进行关系图谱建立，生成标准词语关系图谱；

步骤S4：获取业务流程单位时间段数据，基于数据库访问权限、业务流程单位时间段数据、标准词语关系图谱进行完整概念词数据构建，生成完整概念词数据，其中完整概念词数据包括银行领域专家知识对应的银行业务数据以及银行产品数据；

步骤S5：基于语音通话音频实时访问权限进行客户语音通话音频数据获取，生成实时通话音频数据，基于实时通话音频数据利用语音识别技术进行音频数据识别，生成实时语音识别数据；

步骤S6：基于实时语音识别数据以及完整概念词数据进行实时回复数据构建，生成可视化文本示例，基于可视化文本示例进行数据推送，实现银行客服会话处理。

本发明提供了一种基于自然语言处理的银行客服会话问答处理方法，该方法提供了一套自动化的流程，从获取权限数据到最终的客服端数据推送，减少了人工干预和手动操作的需求，这样可以提高效率并降低错误的发生，对获取的数据进行清洗和预处理，可以消除噪声和无效信息，提高后续步骤的准确性和可靠性，对问答回复数据进行词频分析、共现频率统计和关键字提取，生成问答共现权重数据和标准词语关系图谱，这些分析结果有助于理解和提取关键信息，为后续的问答处理和推送提供基础，对产品手册数据和实时语音识别数据进行分词、词性标注、实体识别、关键字匹配等处理，生成多文本示例和打包文本示例。这些处理过程可以帮助识别用户问题、生成回复文本，并根据优先级别数进行排序和过滤，提供个性化的回答，对排序打包文本示例进行可视化展示，并将结果推送给银行客服端。这样可以为客服人员提供直观的信息呈现和参考，提高客服的工作效率和服务质量，通过数据处理、分析和文本生成等步骤，实现了从原始数据到最终回答推送的自动化处理过程，它可以减少人工操作和人为错误，提高回答准确性和效率。

优选地，步骤S1包括以下步骤：

步骤S11：获取权限数据，其中权限数据包括银行业务部门API访问权限、数据库访问权限以及语音通话音频实时访问权限；

步骤S12：基于银行业务部门API访问权限进行业务API访问，生成业务部门数据；

步骤S13：基于业务部门数据进行数据清洗，生成预处理业务部门数据；

步骤S14：基于预处理业务部门数据进行数据类别识别，生成业务会话数据，其中业务会话数据包括产品手册数据以及业务流程手册数据。

本发明通过访问银行业务部门的API，本方法能够获取与业务相关的数据，对获取的业务部门数据进行清洗和预处理，去除无效或冗余的数据，并对数据进行格式化和标准化，以便后续的数据分析和挖掘，对获取的业务部门数据进行清洗和处理，去除数据中的噪声、冗余信息和错误数据，同时进行数据格式化和标准化，以便后续的数据分析和挖掘，通过数据清洗，提高数据质量，减少对后续步骤的干扰，从而确保数据处理的准确性和可靠性，通过对预处理的业务部门数据进行类别识别，本方法能够将数据按照不同的业务类别进行分类和归类，例如产品手册、业务流程手册等，这样，可以根据客户的需求和查询，提供相关的业务会话数据，为客户提供准确和及时的信息和指导，通过优化数据处理流程和提高数据质量，本方法为银行业务处理提供了更好的效率和精度，进而提升了客户满意度和业务竞争力。

优选地，步骤S2包括以下步骤：

步骤S21：基于产品手册数据利用分词工具进行数据分词，生成产品分词序列；

步骤S22：基于产品分词序列以及预设的产品停用词词典进行序列停用词去除处理，生成典型产品分词序列；

步骤S23：基于典型产品分词序列利用词性标注工具进行词性标注，生成词性标注分词序列；

步骤S24：基于词性标注分词序列利用实体识别工具进行序列实体识别，生成实体识别分词序列；

步骤S25：获取产品手册文档提取格式，基于产品手册文档提取格式利用预设的代码指令集进行产品问答回复数据提取，生成产品问答回复键值对；

步骤S26：基于业务流程数据利用语法分析工具进行流程文本语法分析，生成流程语法结构；

步骤S27：基于流程语法结构利用关键字提取算法进行流程关键字提取，生成流程关键字数据；

步骤S28：基于业务流程数据利用文本分类算法进行文本分类，生成分类流程文本；

步骤S29：将分类流程文本以及产品问答回复键值对进行数据库存储，生成问答回复数据。

本发明通过将产品手册文本进行分词，将文本拆分成独立的词语单元，形成一个产品分词序列，对产品手册的内容进行细粒度的处理和分析，为后续的操作提供了更具体和可操作的数据基础，通过对产品分词序列进行停用词去除处理，去除那些在文本分析中不具有实际含义或无关紧要的常用词汇，从而得到更具代表性和有效性的典型产品分词序列，通过对典型产品分词序列进行词性标注，将每个词语与其对应的词性进行关联，从而获得更多关于词语语义和用法的信息，为后续的语义分析和处理提供更准确的基础，通过利用实体识别工具对词性标注分词序列进行处理，识别出文本中的实体信息，例如人名、地名、日期等。这样可以将产品手册中的重要实体信息提取出来，用于后续的问题回答和信息提供，通过获取产品手册文档的提取格式，并根据预设的代码指令集进行相应的数据提取操作，从产品手册中提取出与问答相关的数据，并将其整理成键值对的形式，以便于后续的问答处理和数据存储，通过获取产品手册文档的提取格式，并根据预设的代码指令集进行相应的数据提取操作，从产品手册中提取出与问答相关的数据，并将其整理成键值对的形式，以便于后续的问答处理和数据存储，通过利用语法分析工具对业务流程数据进行处理，识别出文本中的语法结构和关联关系，形成一个流程语法结构，这样可以更好地理解和分析业务流程，为后续的流程关键字提取和文本分类提供更准确的基础，通过运用关键字提取算法，从流程语法结构中提取出与业务流程相关的关键字，这样可以识别出业务流程中的重要步骤、关键词汇，为后续的流程分析和文本分类提供更有价值的信息，通过应用文本分类算法，对业务流程数据进行分类，将其归类到不同的流程类别中，这样可以根据业务流程的性质和特点，将文本进行整理和归纳，方便用户查询和理解，通过将分类流程文本和产品问答回复键值对存储到数据库中，形成问答回复数据的存储结构，这样可以快速检索和获取与用户问题相匹配的问答内容，提供准确和实用的产品问答服务。

优选地，步骤S3包括以下步骤：

步骤S31：基于问答回复数据进行词频分析，生成问答词频数据以及流程术语词频数据；

步骤S32：基于回复词频数据进行问答共现频率统计，生成问答共现频率数据；

步骤S33：基于问答共现频率数据进行权重数据分配，生成问答共现权重数据；

步骤S34：获取银行语义关联数据，基于问答共现频率数据、流程术语词频数据以及银行语义关联数据利用银行语义相似度计算公式进行银行语义关联度计算，生成银行语义关联度；

步骤S35：获取银行词语关系图谱，基于银行词语关系图谱、银行语义关联度、问答共现权重数据、问答词频数据以及流程术语词频数据进行图谱构建，生成标准词语关系图谱。

本发明通过对问答回复数据进行词频分析，统计每个词语在问答数据中的出现频率，得到问答词频数据，同时，针对流程术语，统计其在数据中的出现频率，生成流程术语词频数据，了解问答回复数据和流程术语的重要程度和使用频率，为后续的分析和构建提供依据，通过对回复词频数据进行分析，统计同一问答对中不同词语之间的共现频率，即它们在问答对中同时出现的次数，可以确定不同词语之间的相关性和关联程度，为后续的权重分配和图谱构建提供基础数据，通过对问答共现频率数据进行分析，为每对相关词语分配一个权重值，反映它们之间的关联程度和重要性，在后续的图谱构建过程中，根据问答共现权重数据来决定边的权重，以准确反映词语之间的语义关联程度，通过结合问答共现频率数据、流程术语词频数据和预先获取的银行语义关联数据，采用银行语义相似度计算公式计算不同词语之间的语义关联度，这样可以量化银行领域词语之间的关联程度，为后续的图谱构建提供准确的语义关联信息，通过整合银行词语关系图谱、银行语义关联度、问答共现权重数据、问答词频数据以及流程术语词频数据，构建一张全面而准确的标准词语关系图谱，该图谱能够展示词语之间的语义关联、权重关系和频率信息，为银行业务相关的文本分析、搜索和语义理解提供强有力的支持。

优选地，步骤S34中的银行语义相似度计算公式具体为：

；

其中，为银行语义关联度，/>为问题数据，/>为答复数据，/>为问题中的词列表数量，/>为回答中的词列表数量，/>为问题词频数据中第/>个词语的词频对应的银行语义关联数据，/>为问题词频数据中第/>个词语的词频，/>表示回答词频数据中第/>个词语的词频，/>为问答共现频率数据中问题和回答的共现频率，为流程术语词频数据中第/>个词语的词频，/>为回答流程术语词语数据中第/>个词语的词频，/>为语义协调参数。

本发明利用一种银行语义相似度计算公式，该公式综合考虑了问题和答复中的词频信息、问答共现频率、流程术语词频以及银行语义关联数据，通过综合考虑这些因素，可以更全面地评估问题和答复之间的语义关联度，从而量化它们之间的相似程度，公式中使用词频信息、问答共现频率、流程术语词频等因素进行加权计算，这样的加权计算可以对不同因素的贡献进行量化，使得重要因素能够更有力地影响最终的语义关联度计算结果，引入了语义协调参数，用于调整语义关联度的计算结果，用于平衡不同因素之间的权重，其中，问题词频数据中第/>个词语的词频/>，通过使用词频函数，将每个词语在问题中的重要性纳入考量。词频较高的词语可能在问题中具有更高的重要性，因此通过该函数进行加权，增加重要词语的影响力，回答词频数据中第/>个词语的词频/>类似于问题词频，回答中的词频信息也被考虑，回答中的高频词语可能对回答的相关性有更大的贡献，并通过利用问答共现频率数据中问题和回答的共现频率/>、流程术语词频数据中第/>个词语的词频/>、回答流程术语词语数据中第/>个词语的词频/>利用求和符号构建函数关系；从而实现对银行语义关联度/>的计算，通过计算银行语义关联度，可以量化问题和答复之间的语义相似程度，有助于准确评估问题和答复的相关性，从而提供更符合用户需求的答案，提高生成后续标准词语关系图谱的准确性和全面性。

优选地，步骤S4包括以下步骤：

步骤S41：基于数据库访问权限进行API访问时间段数据获取处理，生成API访问时间段数据；

步骤S42：获取业务流程单位时间段数据，基于业务流程单位时间段数据以及预设的代码指令集利用图数据库进行时间段概念词数据库建立，生成时间段概念词数据库；

步骤S43：基于API访问时间段数据、标准词语关系图谱利用时间段概念词数据库进行完整概念词数据存储，生成完整概念词数据。

本发明根据具体的数据库访问权限，获取API访问的时间段数据，即记录API访问发生的时间段信息，获得API访问的时间分布情况，为后续的时间段概念词数据库建立提供数据基础，根据业务流程的时间段数据，将其与预设的代码指令集结合，利用图数据库技术建立时间段概念词数据库，该数据库记录了不同时间段的概念词信息，用于描述业务流程在不同时间段内的特征和状态，这样可以实现对时间段概念的抽象和存储，为后续的完整概念词数据存储提供基础，将API访问时间段数据与标准词语关系图谱相结合，利用时间段概念词数据库进行完整概念词数据的存储，这样可以将API访问时间段与标准词语关系进行关联，获得完整的概念词数据，包括时间段相关的词语和它们之间的关系。这为后续的数据分析、搜索和应用提供了更准确、丰富的概念词信息。

优选地，步骤S5包括以下步骤：

步骤S51：基于语音通话音频实时访问权限进行客户语音通话音频数据获取，生成实时通话音频数据；

步骤S52：基于实时通话音频数据进行格式转换，生成标准格式音频数据；

步骤S53：基于标准格式音频数据进行数据清洗，生成清洗音频数据；

步骤S54：基于清洗音频数据利用语音识别技术进行实时语音识别，生成实时语音识别数据。

本发明通过获得语音通话音频的实时访问权限，可以直接获取客户的语音通话音频数据。实时捕获和记录客户的语音交流内容，为后续的语音识别和分析提供数据基础，通过统一的音频格式，确保音频数据的可处理性和兼容性，为后续的数据清洗和语音识别提供标准化的数据输入，对转换后的标准格式音频数据进行数据清洗操作，去除噪音、杂音以及其他不必要的干扰因素，提高音频数据的质量和可识别性，清洗后的音频数据更具可靠性和准确性，为后续的语音识别过程提供高质量的输入，通过识别算法和模型，将语音转换为可理解的文字信息，生成实时语音识别数据，实时地将客户的语音交流内容转化为文字形式，方便后续的文本分析、自动化处理和记录。

在本说明书的一个实施例中，提供了一种基于自然语言处理的银行客服会话问答处理系统，包括：

业务数据采集模块，用于对业务部门数据进行实时采集，得到业务数据，其中业务数据包括产品手册数据以及业务流程手册数据；

业务数据处理模块，用于对产品手册数据以及业务流程手册数据利用自然语言处理技术进行数据处理，生成问答回复数据；

关系图谱构建模块，用于利用对问答回复数据进行图谱数据采集处理，生成图谱数据，基于图谱数据进行标准词语关系图谱构建，生成标准词语关系图谱；

时间段分配模块，用于通过获取业务流程单位时间段数据，利用业务流程单位时间段数据进行时间段概念词数据库建立，生成时间段概念词数据库，并利用时间段概念词数据库以及标准词语关系图谱进行完整概念词数据存储，实现生成完整概念词数据；

实时语音识别模块，用于通过获取语音通话音频实时访问权限并利用语音通话音频实时访问权限进行实时语音识别，生成实时语音识别数据；

数据推送模块，用于通过实时语音识别数据以及完整概念词数据进行可视化文本示例构建，生成可视化文本示例，并基于可视化文本示例进行数据推送，实现银行客服会话问答处理。

本发明提供一种基于自然语言处理的银行客服会话问答处理系统，该系统能够实现本发明所述任意一种基于自然语言处理的银行客服会话问答处理方法，实现数据的获取、运算、生成，通过权限数据进行数据获取及处理，生成业务会话数据以及实时语音识别数据，并对其中的图文信息按照已设计的指令顺序进行操作，生成预处理图文信息，再通过预处理图文信息进行完整概念词数据构建，生成完整概念词数据，根据完整概念词数据以及实时语音识别数据进行数据推送，实现银行客服会话处理，系统内部遵循设定的指令集完成方法运行步骤，推动完成基于自然语言处理的银行客服会话问答处理方法。

本发明提出了一种基于自然语言处理的银行客服会话问答处理方法，通过综合应用多学科多类型模型，解决了传统银行客服会话问答处理中问答处理效率低下、准确率低的问题，实现了高效率、高准确性的基于自然语言处理的银行客服会话问答处理方法。

附图说明

图1为本发明一种基于自然语言处理的银行客服会话问答处理方法的步骤流程示意图；

图2为步骤S1的详细实施步骤流程示意图；

图3为步骤S2的详细实施步骤流程示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本申请实施例提供一种基于自然语言处理的银行客服会话问答处理方法及系统。所述基于自然语言处理的银行客服会话问答处理方法及系统的执行主体包括但不限于搭载该系统的：机械设备、数据处理平台、云服务器节点、网络传输设备等可看作本申请的通用计算节点。所述数据处理平台包括但不限于：音频管理系统、图像管理系统、信息管理系统至少一种。

请参阅图1至图3，本发明提供了一种基于自然语言处理的银行客服会话问答处理方法，所述方法包括以下步骤：

具体地，例如基于数据库访问权限、业务流程单位时间段数据、标准词语关系图谱进行专家知识完整概念词数据构建，生成完整概念词数据。

具体地，例如数据整合与标注：将业务流程单位时间段数据与标准词语关系图谱进行整合。对于每个数据记录，将其中包含的词语与标准图谱进行匹配，可通过文本匹配算法、词汇表查询或其他自然语言处理技术来完成。专家知识关联：特别关注银行领域的专家知识。如果在业务流程数据中包含了专家知识相关的信息，例如专业术语、规则、流程步骤，将这些数据与标准图谱进行关联。银行产品数据：从数据库中提取银行产品数据，包括各种银行账户类型、贷款产品、投资产品，将这些数据与标准图谱关联，以构建银行产品的概念词汇。构建完整概念词数据：将整合、标注和关联的数据汇总生成完整的概念词数据集，这个数据集应该包括银行领域专家知识对应的银行业务数据和银行产品数据。

本发明实施例中，请参考图1，所述基于自然语言处理的银行客服会话问答处理方法包括以下步骤：

在本发明实施例中，例如例如通过银行业务部门授权机制，获取权限数据，权限数据包括银行业务部门API访问权限、数据库访问权限以及语音通话音频实时访问权限，基于获得的银行业务部门API访问权限，系统通过使用适当的技术手段（例如API调用、网络请求等）访问银行业务部门的API接口，以获取业务数据，系统对数据进行分析和处理，以确定其所属的类别，特别是，系统识别并区分产品手册数据和业务流程手册数据，产品手册数据包含有关银行产品的说明、特性和规范，而业务流程手册数据包含银行业务流程的描述、操作指南和流程图。

本发明实施例中，例如利用分词工具对文本进行分词处理，生成产品分词序列，将产品手册文本按照词语的边界进行切分，形成一个个独立的词语序列，基于产品分词序列和预设的产品停用词词典，进行序列停用词去除处理，通过将这些停用词从产品分词序列中移除，可以提高后续处理的效果，生成典型产品分词序列，系统利用词性标注工具对典型产品分词序列进行词性标注，词性标注是指给分词序列中的每个词语标注其所属的词性，如名词、动词、形容词等，通过词性标注，可以提取出每个词语的语法属性，为后续的处理和分析提供更多的语义信息，生成词性标注分词序列，系统利用实体识别工具对词性标注分词序列进行实体识别，通过实体识别，系统能够识别和提取出产品手册中涉及的具体实体信息，生成实体识别分词序列，系统获取产品手册文档的提取格式，并利用预设的代码指令集对文档进行处理，提取产品问答回复数据，系统能够将产品手册中的问题和答案对应起来，生成产品问答回复键值对，利用语法分析工具对业务流程数据进行语法分析，生成流程语法结构，其中，语法分析是指对文本进行分析，识别其中的语法结构和语法关系，通过语法分析，系统能够理解和提取出业务流程中的关键语法成分，形成流程语法结构，系统基于流程语法结构利用关键字提取算法进行流程关键字提取，利用文本分类算法对业务流程数据进行文本分类，将业务流程归入相应的类别，系统将分类流程文本和相应的问答回复数据存储到数据库中。

本发明实施例中，例如基于问答回复数据进行词频分析，系统统计问答回复数据中每个词语出现的频率，生成问答词频数据和流程术语词频数据，词频是指某个词语在给定文本中出现的次数，通过词频分析，系统可以了解问答数据和流程术语的常用词语，系统基于回复词频数据进行问答共现频率统计，同问答共现频率是指在问答回复数据中，两个词语同时出现的频率，基于问答共现频率数据进行权重数据分配，根据问答共现频率，系统为每个词语分配一个权重值，用于表示该词语在问答数据中的重要程度，通过权重数据的分配，系统可以将重要的词语突出显示，为后续的处理和分析提供参考，系统获取银行语义关联数据，并利用问答共现频率数据、流程术语词频数据以及银行语义关联数据，使用银行语义相似度计算公式进行银行语义关联度的计算，银行语义关联度是衡量词语之间语义相似性的指标，通过计算银行语义关联度，系统能够衡量问答回复数据和流程术语之间的语义关联程度，生成银行语义关联度，系统获取银行词语关系图谱，并基于银行词语关系图谱、银行语义关联度、问答共现权重数据、问答词频数据以及流程术语词频数据进行图谱构建。系统利用这些数据，构建银行词语之间的关系图谱，其中包含词语之间的关联关系、权重和频率等信息，通过图谱的构建。

步骤S4：获取业务流程单位时间段数据，基于数据库访问权限、业务流程单位时间段数据、标准词语关系图谱进行完整概念词数据构建，生成完整概念词数据；

本发明实施例中，例如基于数据库访问权限进行API访问时间段数据获取处理，系统通过获取数据库访问权限，可以获得API的访问时间段信息，这些时间段数据记录了API在何时可用或不可用的信息，系统将这些时间段数据进行处理，生成API访问时间段数据，系统获取业务流程单位时间段数据，并基于业务流程单位时间段数据和预设的代码指令集，利用图数据库进行时间段概念词数据库的建立，业务流程单位时间段数据指的是业务流程中的时间段，例如工作时间、非工作时间等，系统将这些时间段数据与预设的代码指令集结合，使用图数据库技术构建时间段概念词数据库，时间段概念词数据库记录了不同时间段的概念词及其相关信息，如时间段的名称、开始时间、结束时间等，基于API访问时间段数据、标准词语关系图谱，利用时间段概念词数据库进行完整概念词数据存储，系统根据API访问时间段数据确定当前时间段，然后查询时间段概念词数据库，获取与该时间段相关的完整概念词数据，完整概念词数据包括在当前时间段内与业务流程和API相关的词语和关系信息。

本发明实施例中，例如基于语音通话音频实时访问权限进行客户语音通话音频数据获取，生成实时通话音频数据，通过获取语音通话音频实时访问权限，可以实时访问客户的语音通话数据，系统将这些语音通话音频数据获取并保存，生成实时通话音频数据，基于实时通话音频数据进行格式转换，生成标准格式音频数据，实时通话音频数据可能采用不同的音频格式，为了方便后续处理和分析，系统需要将其转换为标准格式的音频数据，通过音频格式转换技术，系统将实时通话音频数据转换为标准格式，以确保数据的一致性和可处理性，基于标准格式音频数据进行数据清洗，生成清洗音频数据，数据清洗是为了去除噪音、干扰和不必要的信息，以提高后续处理的准确性和效果，系统使用适当的数据清洗技术，对标准格式音频数据进行去噪、降噪、消除回声等处理，生成清洗音频数据，基于清洗音频数据利用语音识别技术进行实时语音识别，生成实时语音识别数据，语音识别技术可以将音频数据转换为文本数据，实时识别客户与银行客服之间的对话内容，利用先进的语音识别算法和模型，对清洗音频数据进行处理，将其转换为对应的文本数据，生成实时语音识别数据。

本发明实施例中，例如基于实时语音识别数据与完整概念词数据进行归一化处理，生成归一化实时识别数据以及归一化概念词数据，将实时语音识别数据与完整概念词数据进行归一化处理，使它们具有统一的格式和标准，便于后续的处理和分析，通过适当的归一化算法和技术，系统可以将实时语音识别数据和概念词数据转换为统一的数据格式，生成归一化实时识别数据和归一化概念词数据，基于归一化实时识别数据以及归一化概念词数据进行关键词匹配，生成匹配关键字数据，系统使用关键词匹配算法和技术，对归一化实时识别数据和归一化概念词数据进行匹配，识别出与关键词相关的信息，通过匹配关键字数据的生成，系统可以确定用户对话中的关键内容和重点信息，基于匹配关键字数据利用预设的文本生成模型进行关键字文本生成，生成多文本示例，系统将相应的文本示例进行打包处理，生成打包文本示例，用于后续的排序和展示，如果匹配级别数不小于阈值，将相应的文本示例进行过滤标记处理，生成过滤文本示例，这些示例可能需要进一步处理或排除，基于打包文本示例和多个匹配级别数据，进行打包文本示例的排序处理，可以采用排序算法，如按优先级别数、时间戳等进行排序，利用可视化工具，如数据可视化库或图表工具，将排序后的打包文本示例进行可视化展示，基于可视化文本示例，将其推送给银行客服端，采用客服系统或应用程序接口（API）进行数据推送，客服端接收可视化文本示例，进行会话问答处理。

本发明实施例中，请参阅图2，所述步骤S1的详细实施步骤包括：

本发明实施例中，例如通过银行业务部门授权机制，获取权限数据，权限数据包括银行业务部门API访问权限、数据库访问权限以及语音通话音频实时访问权限，基于获得的银行业务部门API访问权限，系统通过使用适当的技术手段（例如API调用、网络请求等）访问银行业务部门的API接口，以获取业务数据，这些数据可以包括客户信息、交易记录、产品信息，识别和处理数据中的噪声、错误、重复项以及缺失值等问题，通过数据清洗，系统能够提高数据的准确性和一致性，并为后续的数据处理和分析提供高质量的数据基础，系统对数据进行分析和处理，以确定其所属的类别，特别是，系统识别并区分产品手册数据和业务流程手册数据，产品手册数据包含有关银行产品的说明、特性和规范，而业务流程手册数据包含银行业务流程的描述、操作指南和流程图。

本发明实施例中，请参阅图3，所述步骤S2的详细实施步骤包括：

本发明实施例中，例如利用分词工具对文本进行分词处理，生成产品分词序列，分词工具可以使用常见的中文分词算法，如jieba、Ha自然语言处理等，将产品手册文本按照词语的边界进行切分，形成一个个独立的词语序列，基于产品分词序列和预设的产品停用词词典，进行序列停用词去除处理，停用词是指在文本分析中没有实际含义或对文本分析没有帮助的常见词语，如“的”、“是”、“在”等。通过将这些停用词从产品分词序列中移除，可以提高后续处理的效果，生成典型产品分词序列，系统利用词性标注工具对典型产品分词序列进行词性标注，词性标注是指给分词序列中的每个词语标注其所属的词性，如名词、动词、形容词等。通过词性标注，可以提取出每个词语的语法属性，为后续的处理和分析提供更多的语义信息，生成词性标注分词序列，系统利用实体识别工具对词性标注分词序列进行实体识别，实体识别是指识别文本中具有特定意义的实体，如人名、地名、机构名等，通过实体识别，系统能够识别和提取出产品手册中涉及的具体实体信息，生成实体识别分词序列，系统获取产品手册文档的提取格式，并利用预设的代码指令集对文档进行处理，提取产品问答回复数据。提取格式可以是预先定义的文本结构、标记或其他模式，通过提取产品问答回复数据，系统能够将产品手册中的问题和答案对应起来，生成产品问答回复键值对，利用语法分析工具对业务流程数据进行语法分析，生成流程语法结构，其中，语法分析是指对文本进行分析，识别其中的语法结构和语法关系。通过语法分析，系统能够理解和提取出业务流程中的关键语法成分，形成流程语法结构，系统基于流程语法结构利用关键字提取算法进行流程关键字提取。关键字提取是指从文本中提取出具有重要意义的关键词语，通过关键字提取算法，系统能够识别和提取出业务流程中的关键字信息，生成流程关键字数据，利用文本分类算法对业务流程数据进行文本分类，将业务流程归入相应的类别。文本分类是指将文本根据其内容或特征分为不同的类别或标签，通过文本分类，系统能够对业务流程进行自动分类和归类，生成分类流程文本，将分类流程文本以及产品问答回复键值对进行数据库存储，系统将分类流程文本和相应的问答回复数据存储到数据库中，以便后续的查询和检索，这样可以方便地获取和管理与业务流程相关的问答数据，提供高效的问答处理功能。

本发明实施例中，步骤S3的具体步骤为：

具体地，例如问答共现频率统计为在问答回复数据中，两个词语同时出现的频率。通过统计问答回复数据中词语之间的共现情况，系统可以了解词语之间的关联程度，生成问答共现频率数据。

具体地，例如问答共现频率统计的步骤具体为：构建共现矩阵：创建一个二维矩阵，其中行代表问题，列代表答案，矩阵中的每个元素表示对应的问题和答案在文本数据中共现的次数。初始化所有元素为零。遍历数据：遍历准备好的文本数据，针对每个问答对，将共现矩阵中对应的元素加一。每次遇到问题和答案在文本中共现，就会增加共现矩阵中的值。计算频率：最后，可以将共现矩阵中的每个元素除以总共现的次数，以得到问答对的共现频率。这可以通过以下公式计算：共现频率(Question, Answer) = 共现次数(Question,Answer) / 总共现次数(所有问题和答案对)

本发明实施例中，例如基于问答回复数据进行词频分析，系统统计问答回复数据中每个词语出现的频率，生成问答词频数据和流程术语词频数据，词频是指某个词语在给定文本中出现的次数，通过词频分析，系统可以了解问答数据和流程术语的常用词语，为后续的处理和分析提供基础，系统基于回复词频数据进行问答共现频率统计，同问答共现频率是指在问答回复数据中，两个词语同时出现的频率。通过统计问答回复数据中词语之间的共现情况，系统可以了解词语之间的关联程度，生成问答共现频率数据，基于问答共现频率数据进行权重数据分配，根据问答共现频率，系统为每个词语分配一个权重值，用于表示该词语在问答数据中的重要程度。通过权重数据的分配，系统可以将重要的词语突出显示，为后续的处理和分析提供参考，系统获取银行语义关联数据，并利用问答共现频率数据、流程术语词频数据以及银行语义关联数据，使用银行语义相似度计算公式进行银行语义关联度的计算，银行语义关联度是衡量词语之间语义相似性的指标，通过计算银行语义关联度，系统能够衡量问答回复数据和流程术语之间的语义关联程度，生成银行语义关联度，系统获取银行词语关系图谱，并基于银行词语关系图谱、银行语义关联度、问答共现权重数据、问答词频数据以及流程术语词频数据进行图谱构建。系统利用这些数据，构建银行词语之间的关系图谱，其中包含词语之间的关联关系、权重和频率等信息，通过图谱的构建，系统可以更好地理解和组织银行领域的知识，为银行客服会话问答处理提供标准的词语关系图谱。

本发明实施例中，步骤S34中的银行语义相似度计算公式具体为：

；

本发明实施例中，步骤S4的具体步骤为：

本发明实施例中，例如基于数据库访问权限进行API访问时间段数据获取处理，系统通过获取数据库访问权限，可以获得API的访问时间段信息，这些时间段数据记录了API在何时可用或不可用的信息，系统将这些时间段数据进行处理，生成API访问时间段数据，系统获取业务流程单位时间段数据，并基于业务流程单位时间段数据和预设的代码指令集，利用图数据库进行时间段概念词数据库的建立，业务流程单位时间段数据指的是业务流程中的时间段，例如工作时间、非工作时间等，系统将这些时间段数据与预设的代码指令集结合，使用图数据库技术构建时间段概念词数据库。时间段概念词数据库记录了不同时间段的概念词及其相关信息，如时间段的名称、开始时间、结束时间等，基于API访问时间段数据、标准词语关系图谱，利用时间段概念词数据库进行完整概念词数据存储，系统根据API访问时间段数据确定当前时间段，然后查询时间段概念词数据库，获取与该时间段相关的完整概念词数据，完整概念词数据包括在当前时间段内与业务流程和API相关的词语和关系信息。系统将这些完整概念词数据进行存储，为后续的处理和分析提供支持。

本发明实施例中，步骤S5的具体步骤为：

本发明实施例中，例如基于语音通话音频实时访问权限进行客户语音通话音频数据获取，生成实时通话音频数据，通过获取语音通话音频实时访问权限，可以实时访问客户的语音通话数据，语音通话数据包含了客户与银行客服之间的实时对话内容，系统将这些语音通话音频数据获取并保存，生成实时通话音频数据，基于实时通话音频数据进行格式转换，生成标准格式音频数据，实时通话音频数据可能采用不同的音频格式，为了方便后续处理和分析，系统需要将其转换为标准格式的音频数据，通过音频格式转换技术，系统将实时通话音频数据转换为标准格式，以确保数据的一致性和可处理性，基于标准格式音频数据进行数据清洗，生成清洗音频数据，数据清洗是为了去除噪音、干扰和不必要的信息，以提高后续处理的准确性和效果，系统使用适当的数据清洗技术，对标准格式音频数据进行去噪、降噪、消除回声等处理，生成清洗音频数据，基于清洗音频数据利用语音识别技术进行实时语音识别，生成实时语音识别数据，语音识别技术可以将音频数据转换为文本数据，实时识别客户与银行客服之间的对话内容，利用先进的语音识别算法和模型，对清洗音频数据进行处理，将其转换为对应的文本数据，生成实时语音识别数据。

本发明实施例中，步骤S6的具体步骤为：

步骤S61：基于实时语音识别数据与完整概念词数据进行归一化处理，生成归一化实时识别数据以及归一化概念词数据；

步骤S62：基于归一化实时识别数据以及归一化概念词数据进行关键词匹配，生成匹配关键字数据；

步骤S63：基于匹配关键字数据利用预设的文本生成模型进行关键字文本生成，生成多文本示例；

步骤S64：基于多文本示例以及匹配关键字数据利用优先级别数计算公式进行优先级别数计算，生成多匹配级别数；

步骤S65：基于多匹配级别数与预设的推送级别阈值进行比对处理，当多匹配级别数小于预设的推送级别阈值时，基于多匹配级别数进行对应文本示例打包处理，生成打包文本示例，当多匹配级别数不小于预设的推送级别阈值时，基于多匹配级别数进行对应文本示例过滤标记处理，生成过滤文本示例；

步骤S65：基于打包文本示例以及多匹配级别数据进行打包文本示例排序处理，生成排序打包文本示例；

步骤S66：基于排序打包文本示例利用可视化工具进行示例可视化展示，生成可视化文本示例；

步骤S67：基于可视化文本示例进行客服端数据推送，实现银行客服会话问答处理。

本发明通过对实时语音识别数据和完整概念词数据进行归一化处理，将它们转化为统一的数据格式和单位，确保数据的一致性和可比性，方便后续的数据处理和分析，利用归一化的实时语音识别数据与归一化的概念词数据进行关键词匹配，找出与关键词相关的数据项。这样可以提取出与语音内容相关的关键信息，为后续的文本生成和处理提供基础，利用预设的文本生成模型，根据匹配关键字数据生成多个文本示例，根据关键字的语义和上下文生成多个合适的文本示例，丰富了银行客服的回答和应答能力，根据多文本示例和匹配关键字数据，利用预设的优先级别数计算公式计算出多个匹配级别数，评估每个文本示例与关键字的匹配程度和重要性，为后续的文本处理和推送提供依据，根据匹配级别数与设定的阈值进行筛选和处理，将符合要求的文本示例进行打包或过滤，准备后续的处理和推送，根据打包文本示例和多匹配级别数据，对打包文本示例进行排序处理，按照匹配级别数的优先级进行排列，可以确保打包文本示例按照重要性和匹配程度的高低进行有序排列，提高客服回答的质量和效率，利用可视化工具，对排序打包文本示例进行可视化展示，以图形化的方式呈现文本示例的内容和排序情况，方便客服人员直观地浏览和选择适当的回答示例，提高客服的工作效率和准确性，根据可视化文本示例，将文本示例推送到客服端，供客服人员参考和使用，这样可以提供实时的、准确的、多样化的问答示例，帮助客服人员进行银行客服会话问答处理，提供高效和个性化的服务。

本发明实施例中，例如基于实时语音识别数据与完整概念词数据进行归一化处理，生成归一化实时识别数据以及归一化概念词数据，将实时语音识别数据与完整概念词数据进行归一化处理，使它们具有统一的格式和标准，便于后续的处理和分析，通过适当的归一化算法和技术，系统可以将实时语音识别数据和概念词数据转换为统一的数据格式，生成归一化实时识别数据和归一化概念词数据，基于归一化实时识别数据以及归一化概念词数据进行关键词匹配，生成匹配关键字数据，系统使用关键词匹配算法和技术，对归一化实时识别数据和归一化概念词数据进行匹配，识别出与关键词相关的信息，通过匹配关键字数据的生成，系统可以确定用户对话中的关键内容和重点信息，基于匹配关键字数据利用预设的文本生成模型进行关键字文本生成，生成多文本示例。系统利用预设的文本生成模型，根据匹配关键字数据生成多个文本示例，文本生成模型可以根据匹配关键字数据生成与之相关的文本内容，为后续的处理和展示提供多样化的文本示例，其中文本生成模型是一种机器学习模型，它可以根据给定的输入数据生成相应的文本内容，该模型基于大规模文本数据集进行训练，学习数据中的语言模式、上下文关系和文本结构，并用这些学习到的知识来生成新的文本，文本生成模型被用于根据匹配关键字数据生成多个文本示例，具体来说，模型接收匹配关键字数据作为输入，并通过学习到的语言模式和上下文关系生成与关键字相关的文本内容，模型可以考虑词汇的选择、句法结构和语义连贯性，以生成自然流畅的文本，文本生成模型可以采用不同的架构和算法，如循环神经网络（RNN）、长短时记忆网络（LSTM）或变换器模型（Transformer），这些模型在训练过程中学习到了文本数据的统计特征和概率分布，从而能够生成与输入数据相似的新文本，通过使用文本生成模型，系统可以根据匹配关键字数据生成多个文本示例，为后续的处理、展示和推送提供更多样化的文本内容，这样的模型能够增加系统的灵活性和适应性，使得生成的文本更贴近用户的需求和上下文环境，通过使用文本生成模型，系统可以根据匹配关键字数据生成多个文本示例，为后续的处理、展示和推送提供更多样化的文本内容，这样的模型能够增加系统的灵活性和适应性，使得生成的文本更贴近用户的需求和上下文环境，基于多个文本示例和匹配关键字数据，使用预设的优先级别数计算公式进行优先级别数计算，生成多匹配级别数，其中多匹配级别数表示多个匹配级别数，将多个匹配级别数与预设的推送级别阈值进行比对，如果匹配级别数小于阈值，将相应的文本示例进行打包处理，生成打包文本示例，用于后续的排序和展示，如果匹配级别数不小于阈值，将相应的文本示例进行过滤标记处理，生成过滤文本示例，这些示例可能需要进一步处理或排除，基于打包文本示例和多个匹配级别数据，进行打包文本示例的排序处理，可以采用排序算法，如按优先级别数、时间戳等进行排序，利用可视化工具，如数据可视化库或图表工具，将排序后的打包文本示例进行可视化展示，基于可视化文本示例，将其推送给银行客服端，采用客服系统或应用程序接口（API）进行数据推送，客服端接收可视化文本示例，进行会话问答处理。

本发明实施例中，步骤S6的具体步骤为：

在本说明书的一个实施例中，步骤S64中的优先级别数计算公式具体为：

；

其中，为多匹配级别数，/>为匹配关键字数据的数据数量，/>为第/>个关键字数据的关键字权重数据，/>为关键字在原文本中的结束位置，/>为关键字在原文本中的开始位置，为关键字位置重要程度衰减函数，/>为关键字所在位置区域函数，/>为关键字业务匹配级别，/>为关键字字体个数，/>为关键字二阶偏导数，/>为第/>个关键字字体的初级优先级函数，L为文本在关系图谱中对不同文本的权重距离数量，/>为文本在关系图谱中对第/>个文本的权重距离，/>为优先级调整参数。

本发明利用一种优先级别数计算公式，该公式中考虑了关键字的位置信息、权重数据、业务匹配级别、字体个数等多个因素，实现更全面地评估关键字的重要性，使得生成的文本示例更符合实际需求，公式中的衰减函数和位置区域函数/>可以对关键字的位置进行计算，较早出现的关键字和关键字出现在重要位置的权重可能会更高，而关键字出现在次要位置的权重可能会较低，这样的考虑可以更好地反映关键字在文本中的重要性，公式中的关键字字体的初级优先级函数/>和二阶偏导数(/>)可以衡量关键字字体的优先级，不同字体对应的关键字可能具有不同的重要性，公式中的这部分考虑可以进一步提升生成文本示例的质量，该计算公式充分考虑了匹配关键字数据的数据数量/>、第/>个关键字数据的关键字权重数据/>、关键字在原文本中的结束位置/>、关键字在原文本中的开始位置/>、关键字业务匹配级别/>、关键字字体个数/>、第/>个关键字字体的初级优先级函数/>、文本在关系图谱中对不同文本的权重距离数量L、文本在关系图谱中对第/>个文本的权重距离/>利用关键字位置重要程度衰减函数/>以及关键字所在位置区域函数/>与以上各参数之间的相互关系形成函数关系/>；该公式可以对多个匹配关键字生成不同的优先级别数/>，从而实现在生成文本示例时的排序和筛选，实现根据优先级别数/>，可以将最相关和最重要的文本示例优先推送给客服端，从而提供更准确和有效的答案，生成的文本示例经过优先级排序和筛选，可以更好地满足用户的需求，提供更加个性化和有针对性的回答，从而提升客户的满意度。

因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所发明的原理和新颖特点相一致的最宽的范围。

Claims

1.一种基于自然语言处理的银行客服会话问答处理方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤S1的具体步骤为：

3.根据权利要求1所述的方法，其特征在于，步骤S2的具体步骤为：

4.根据权利要求1所述的方法，其特征在于，步骤S3的具体步骤为：

5.根据权利要求4所述的方法，其特征在于，步骤S34中的银行语义相似度计算公式具体为：

；

6.根据权利要求1所述的方法，其特征在于，步骤S4的具体步骤为：

7.根据权利要求1所述的方法，其特征在于，步骤S5的具体步骤为：

8.根据权利要求1所述的方法，其特征在于，步骤S6的具体步骤为：

9.根据权利要求8所述的方法，其特征在于，步骤S64中的优先级别数计算公式具体为：

；

其中，为多匹配级别数，/>为匹配关键字数据的数据数量，/>为第/>个关键字数据的关键字权重数据，/>为关键字在原文本中的结束位置，/>为关键字在原文本中的开始位置，/>为关键字位置重要程度衰减函数，/>为关键字所在位置区域函数，/>为关键字业务匹配级别，/>为关键字字体个数，/>为关键字二阶偏导数，/>为第/>个关键字字体的初级优先级函数，L为文本在关系图谱中对不同文本的权重距离数量，/>为文本在关系图谱中对第/>个文本的权重距离，/>为优先级调整参数。

10.一种基于自然语言处理的银行客服会话问答处理系统，其特征在于，包括：