CN116628173B

CN116628173B - 一种基于关键字提取的智能客服信息生成系统及生成方法

Info

Publication number: CN116628173B
Application number: CN202310924320.5A
Authority: CN
Inventors: 崔晓乾; 高健豪
Original assignee: Chengdu Ict Information Technology Co ltd
Current assignee: Chengdu Ict Information Technology Co ltd
Priority date: 2023-07-26
Filing date: 2023-07-26
Publication date: 2023-10-31
Anticipated expiration: 2043-07-26
Also published as: CN116628173A

Abstract

本发明提供一种基于关键字提取的智能客服信息生成系统及生成方法，该系统包括信息生成模块、评估和优化模块、响应输出模块、信息处理模块、数据库管理模块及关键字提取模块等模块，并可以实现对客户输入的语音信息进行识别，并文字信息并对文字信息进行逻辑分析后将其中逻辑错误处进行模糊化处理，以得到标准化文字信息之后对标准化文字信息进行语句拆分，以得到短语句并在对短语句中各文字信息进行权重的情况下调取应答数据库中对应信息，并共同组成长语句；最后得出回答信息，进而实现对客户输入语句拆分、将其中较为模糊的信息进行剔除，并根据拆分后的短语信息的权重比对数据库中对应的应答模板来得出更为完善的客服答复信息。

Description

一种基于关键字提取的智能客服信息生成系统及生成方法

技术领域

本发明具体涉及一种基于关键字提取的智能客服信息生成系统及生成方法。

背景技术

客服工作主要包括对客户提出的针对于其服务及产品的解答，随着智能化信息处理及人工智能的普及越来越多的领域开始选择利用人工智能客服代替传统的人工客服，这种客服模式节约人力成本且可以实现对客户需求的标准化应答，因此人工智能客服必然成为客服工作未来的发展趋势。

近年来，人工智能客服发展较为快速，但基本停留在对特定语句的识别后调取数据库中预先设置的标准答复语句进行应答，这种智能客服方式存在大量的答不对题或因无法完成整段语句的全方位识别而无法进行后续的数据库筛选及应答输出的环节，因此这种模式会在具体使用中表现得并不智能甚至十分不方便使用。即，现有技术存在由于部分客户输入语句不清或不标准而导致客服信息生成不准确的问题。

发明内容

本发明的目的在于针对现有技术的不足，提供一种基于关键字提取的智能客服信息生成系统，该基于关键字提取的智能客服信息生成系统提取客户输入语句中的关键字，并重新进行整段语句的解析，可以很好地解决上述问题。

为达到上述要求，本发明采取的技术方案是：一种基于关键字提取的智能客服信息生成系统，包括如下模块：

用户输入解析模块：用于实现对客户输入的语音信息进行识别，利用NLP技术对自然语言进行处理，实施语句分割、词性标注、实体识别、句法分析，以提取关键信息和语义，得到文字信息并对文字信息进行逻辑分析后将其中逻辑错误处进行模糊化处理，以得到标准化文字信息之后对标准化文字信息进行语句拆分，以得到短语句，并从用户输入中提取关键字或关键短语，通过匹配预定义的关键词列表或使用机器学习算法来识别关键字；

问题匹配模块，使用文本相似度算法比较用户提问与数据库中问题的相似度，采用Word2Vec词嵌入模型或GloVe词嵌入模型并结合Siamese网络或BERT深度学习模型计算语义相似度，并在对短语句中各文字信息进行权重的情况下调取数据库中对应信息；

数据库管理模块：该模块用于管理系统的数据库，包括常见问题、答案并提供添加、修改、删除和查询数据库内容的功能，该数据库为结构化的数据库或文档集合；

回答生成模块：根据生成的信息和回答模板生成最终的回答，使用自然语言生成技术，生成符合语法和语义规范的回答，并组成长语句，最后将全部长语句整合成为文字回答信息，回答生成考虑上下文信息和需求；

响应输出模块：该模块将生成的回答输出给用户，根据用户的渠道将回答进行输出，响应输出为文本形式的回答或包含多媒体内容；

数据存储模块，使用关系型数据库或者NoSQL数据库进行问题和答案的存储和管理。

该方法包括如下步骤：

S1：对客户输入的语音信息进行识别，并将所述语音信息转化为文字信息；

S2：对转化后的文字信息进行逻辑分析；

S3：对转化后的文字信息中逻辑错误处进行模糊化处理，以得到标准化文字信息；

S4：对所述标准化文字信息进行语句拆分，以得到短语句；

S5：对短语句中各文字信息进行权重设置；

S6：根据短语句中各文字信息及对应权重调取应答数据库中对应信息，并共同组成长语句；

S7：将全部短语句所对应的长语句根据短语句的前后顺序一次排列组合成为文字回答信息。

该基于关键字提取的智能客服信息生成系统及方法可以对客户输入的整体语句进行段落拆分，并进行模糊化处理，将其中较为模糊的信息进行剔除，并根据拆分后的短语信息的权重比对数据库中对应的应答模板来得出更为完善的客服答复信息。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，在这些附图中使用相同的参考标号来表示相同或相似的部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示意性地示出了根据本申请一个实施例的基于关键字提取的智能客服信息生成方法的流程示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，以下结合附图及具体实施例，对本申请作进一步地详细说明。

在以下描述中，对“一个实施例”、“实施例”、“一个示例”、“示例”等等的引用表明如此描述的实施例或示例可以包括特定特征、结构、特性、性质、元素或限度，但并非每个实施例或示例都必然包括特定特征、结构、特性、性质、元素或限度。另外，重复使用短语“根据本申请的一个实施例”虽然有可能是指代相同实施例，但并非必然指代相同的实施例。

为简单起见，以下描述中省略了本领域技术人员公知的某些技术特征。

实施例1：一种基于关键字提取的智能客服信息生成系统，包括如下模块：

数据存储模块，使用关系型数据库或者NoSQL数据库进行问题和答案的存储和管理；

评估和优化模块，用于评估系统的性能和优化算法，根据用户的反馈和评价，对系统的回答进行评估和分析，以便不断优化关键字提取、信息生成和回答生成的算法和模型。

实施例2：如图1所示，一种基于关键字提取的智能客服信息生成方法，包括如下步骤：

S2：对转化后的文字信息进行逻辑分析；

S4：对所述标准化文字信息进行语句拆分，以得到短语句；

S5：对短语句中各文字信息进行权重设置；

S6：根据短语句中各文字信息及对应权重调取数据库中对应信息，并共同组成长语句；

S7：将全部短语句所对应的长语句根据短语句的前后顺序依次排列组合成为文字回答信息。

其中，步骤S3中进行模糊化处理可以采用如下三种处理方式（处理方式1-处理方式3）中的任意一种处理：

处理方式1:利用如下公式计算每一个文字信息的模糊程度，并将其中模糊度最高的数据利用空白数据进行替换：

公式中：

X为文字信息中的总字符数；

G为文字信息采样频率；

A为当前数据与其后数据的间隔时长；

B为文字信息的复数数据；

M为数据模糊化程度；

T为当前数据的位数。

处理方式2:利用如下公式计算每一个文字信息的模糊程度，并将其中模糊度最高的数据利用空白数据进行替换：

Fuzziness= ∫[a,b] p(x)log(p(x))；

公式中：

Fuzziness为模糊度，表示信息的模糊程度或不确定性的度量；

p(x)为概率密度函数；

[a, b]为数据积分的区间。

处理方式3:利用如下公式计算每一个文字信息的模糊程度，并将其中模糊度F大于0.8的数据利用空白数据进行替换：

F= log*g(a) (H_max - H_actual) π / H_max

公式中：F为模糊度，表示信息的模糊程度或不确定性的度量；F为一个介于0和1之间的值，越接近1表示信息越模糊，越接近0表示信息越清晰；

H_max：表示信息的最大熵，是在给定的上下文或领域中，信息的最大可能不确定性；

H_actual：表示实际信息的熵，是在给定的上下文或领域中，实际信息所具有的不确定性；

g(a)为概率密度函数。

其中，步骤S4中对所述标准化文字信息进行语句拆分的具体步骤如下：

S41，文本分割，将原始文字信息按照标点符号进行分割，将整段文字拆分成多个候选句子，通过标点符号进行处理；

S42，清理和预处理，对每个候选句子进行清理和预处理操作，以去除多余的空格、特殊字符或标记，并进行文本规范化，该步骤包括去除多余的空白字符、修复缩写词、转换大小写；

S43，句子切分，对每个候选句子进行进一步的切分，将其拆分成更小的句子或短语，该步骤通过语法解析来实现；

S44，语义解析，对拆分后的每个句子进行语义解析，该步骤使用自然语言处理技术来实现，语义解析用于理解句子的上下文关系和语法结构；

S45，过滤和排序，根据语句解析标准和规则，对拆分后的句子进行过滤和排序，过滤掉无关或重复的句子，并对句子进行排序，以便后续的处理和分析；

S46，结果输出，将最终的拆分结果输出为独立的句子或短语，以供后续的处理、分析或应用使用，输出结果为一个文本文件、数据集。

在部分实施例中，步骤S1之前还包括数据库的构建步骤，具体如下：

S11：收集数据，确定构建数据库的领域和主题，并对相关的语句信息进行收集，所述语句信息包括常见问题、对应的答案、相关知识和上下文信息；

S12：数据清理和预处理，在收集到的数据上进行清理和预处理操作，以确保数据的一致性和准确性，具体包括去除重复项、处理缺失数据、规范化文本格式的步骤，并使用自然语言处理技术对数据进行标记、分词和词性标注操作；

S13：构建数据库结构，确定数据库的结构和组织方式，选择使用关系型数据库或非关系型数据库作为存储引擎，根据语句数据的需求，进行表格、字段和索引结构的设计；

S14：数据存储和索引，将清理和预处理后的数据存储到数据库中，并创建适当的索引以加快数据的检索速度，选择建立全文索引、倒排索引；

S15：语义建模，根据数据和问题类型，进行语义建模以理解和解析用户提问，使用自然语言处理技术来提取问题的语义信息，并将其与数据库中的答案进行匹配；

S16：构建查询接口，提供一个查询接口，使其能够向数据库发送问题并获取相应的答案，基于用户界面或API来构建此接口，确保接口能够接收用户输入并进行预处理和语义解析，并从数据库中检索相应的答案并返回给用户；

S17：迭代和优化，根据反馈和需求，优化数据库的内容和查询接口。

实施例3：本实施例对一种基于关键字提取的智能客服信息生成系统及生成方法详细说明如下：

根据本申请的一个实施例，提供一种基于关键字提取的智能客服信息生成系统，包含以下功能模块：

用户输入解析模块：用于实现对客户输入的语音信息进行识别，利用NLP技术对自然语言进行处理，实施语句分割、词性标注、实体识别、句法分析，以提取关键信息和语义，得到文字信息并对文字信息进行逻辑分析后将其中逻辑错误处进行模糊化处理，以得到标准化文字信息之后对标准化文字信息进行语句拆分，以得到短语句并在对短语句中各文字信息进行权重的情况下调取数据库中对应信息，并共同组成长语句；最后将全部长语句整合成为文字回答信息；

关键字提取模块：用于从用户输入中提取关键字或关键短语，通过匹配预定义的关键词列表或使用机器学习算法来识别关键字；

问题匹配模块，使用文本相似度算法比较用户提问与数据库中问题的相似度，采用Word2Vec词嵌入模型或GloVe词嵌入模型并结合Siamese网络或BERT深度学习模型计算语义相似度；

回答生成模块：根据生成的信息和回答模板生成最终的回答，使用自然语言生成技术，结合生成的信息和系统预定义的回答模板，生成符合语法和语义规范的回答，回答生成考虑上下文信息和需求，并提供回答；

响应输出模块：该模块将生成的回答输出给用户。它可以根据用户的渠道（如网页、移动应用、聊天窗口）将回答以适当的格式和方式进行输出。响应输出可以是文本形式的回答，也可以包括其他多媒体内容，如图片、链接或视频等。

评估和优化模块：该模块用于评估系统的性能和优化算法。它可以根据用户的反馈和评价，对系统的回答进行评估和分析，以便不断优化关键字提取、信息生成和回答生成的算法和模型。

这些功能模块可以根据具体需求和系统架构进行扩展和定制。通过整合这些模块，系统可以自动解析用户输入、提取关键字、生成相关信息并生成适当的回答，提供高效、个性化和智能化的客服服务。

根据本申请的一个实施例，该基于关键字提取的智能客服信息生成方法包括如下步骤：

S2：对转化后的文字信息进行逻辑分析；

S4：对所述标准化文字信息进行语句拆分，以得到短语句；

S5：对短语句中各文字信息进行权重设置；

其中，步骤S3中进行模糊化处理采用如下三种处理方式（处理方式1-处理方式3）中的任意一种实现均可：

处理方式1：

利用如下公式计算每一个文字信息的模糊程度，并将其中模糊度最高的数据利用空白数据进行替换：

；

其中，

X为文字信息中的总字符数；

G为文字信息采样频率；

A为当前数据与其后数据的间隔时长；

B为文字信息的复数数据；

M为数据模糊化程度；

T为当前数据的位数。

处理方式2：

模糊度（Fuzziness）= ∫[a,b] p(x)log(p(x))

在这个公式中，每个符号代表以下含义：

模糊度（Fuzziness）：表示信息的模糊程度或不确定性的度量。

p(x)：表示概率密度函数（probability density function），它描述了随机变量x 的分布情况。在信息理论中，p(x) 可以表示某一事件或信息的概率分布。

[a, b]：表示积分的区间，可以根据具体的问题和数据范围进行选择。

∫：表示积分操作，将概率密度函数 p(x) log(p(x)) 进行积分。

公式中的计算过程如下：

确定概率密度函数：根据具体的问题和数据，确定事件或信息的概率密度函数 p(x)。这可以通过数据的统计分布或者其他概率模型进行估计。

确定积分区间：根据具体的问题和数据范围，确定积分的区间 [a, b]。这取决于事件或信息的取值范围。

进行积分计算：使用微积分的相关技术，对概率密度函数 p(x) log(p(x)) 进行积分计算。这可以利用积分的规则和方法，例如定积分、数值积分等。

得到模糊度：根据积分计算的结果，得到模糊度的值。模糊度的值越大，表示信息越模糊或不确定性越高。

处理方式3：

F= log*g(a) (H_max - H_actual) π / H_max

其中：

在这个公式中，每个符号代表以下含义：

模糊度F：表示信息的模糊程度或不确定性的度量。它是一个介于0和1之间的值，越接近1表示信息越模糊，越接近0表示信息越清晰。

H_max：表示信息的最大熵。熵是信息理论中的概念，用于衡量随机变量的不确定性。H_max是在给定的上下文或领域中，信息的最大可能不确定性。

H_actual：表示实际信息的熵。它是在给定的上下文或领域中，实际信息所具有的不确定性。

g(a)为概率密度函数。

公式中的计算过程如下：

计算最大熵（H_max）：根据给定的上下文或领域，计算信息的最大可能不确定性。这可以根据数据的分布和特征进行估计，常用的方法包括频率统计和概率模型。

计算实际信息的熵（H_actual）：根据给定的信息内容和上下文，计算实际信息的不确定性。这可以通过统计信息的分布和特征进行估计，例如计算信息的频率、概率或其他相关度量。

计算模糊度：使用上述计算得到的最大熵（H_max）和实际信息的熵（H_actual），计算模糊度。通过将实际信息的熵与最大熵进行比较，并计算它们之间的差异，可以得到信息的模糊度。

根据本申请的一个实施例，该基于关键字提取的智能客服信息生成方法中步骤S4的具体步骤如下：

文字信息语句拆分的具体步骤：

文本分割：将原始文字信息按照标点符号（如句号、问号、感叹号）进行分割，将整段文字拆分成多个候选句子。这可以通过常见的句子分割规则和标点符号进行处理。例如，将整段文字按照句号进行分割。

清理和预处理：对每个候选句子进行清理和预处理操作，以去除多余的空格、特殊字符或标记，并进行文本规范化。这可能包括去除多余的空白字符、修复缩写词、转换大小写等。预处理操作可以提高后续处理步骤的准确性和效率。

句子切分：对每个候选句子进行进一步的切分，将其拆分成更小的句子或短语。这可以通过适当的切分规则和语法解析来实现。例如，可以将一个较长的句子按照逗号或连接词进行进一步切分。

语义解析：对拆分后的每个句子进行语义解析，以理解其结构和意义。这可以使用自然语言处理技术（如依存关系分析、句法分析）来实现。语义解析可以帮助理解句子的上下文关系和语法结构，为后续处理步骤提供更准确的信息。

过滤和排序：根据特定的标准和规则，对拆分后的句子进行过滤和排序。根据需求，可以过滤掉一些无关或重复的句子，或者根据一定的准则对句子进行排序，以便后续的处理和分析。

结果输出：将最终的拆分结果输出为独立的句子或短语，以供后续的处理、分析或应用使用。这可以是一个文本文件、数据集或者其他形式的数据结构，根据具体需求进行定义和输出。

根据本申请的一个实施例，该基于关键字提取的智能客服信息生成方法中进行应答数据库构建的具体方法如下：

应答数据库可以通过以下步骤进行：

收集数据：确定想要构建数据库的领域和主题，并开始收集相关的数据。数据可以包括常见问题、对应的答案、相关知识和上下文信息。可以通过各种渠道获取数据，例如文档、网站、论坛、客户支持聊天记录等。确保数据的质量和准确性是非常重要的。

数据清理和预处理：在收集到的数据上进行清理和预处理操作，以确保数据的一致性和准确性。这包括去除重复项、处理缺失数据、规范化文本格式等。还可以使用自然语言处理（NLP）技术对数据进行标记、分词和词性标注等操作，以便更好地理解和处理数据。

构建数据库结构：确定数据库的结构和组织方式。可以选择使用关系型数据库（如MySQL、PostgreSQL）或非关系型数据库（如MongoDB、Elasticsearch）等作为存储引擎。根据数据的特点和需求，设计合适的表格、字段和索引结构，以便有效地存储和检索数据。

数据存储和索引：将清理和预处理后的数据存储到数据库中，并创建适当的索引以加快数据的检索速度。根据应用的需求，可以选择建立全文索引、倒排索引或其他类型的索引来优化搜索性能。

语义建模：根据数据的特点和问题类型，进行语义建模以理解和解析用户提问。可以使用自然语言处理技术（如词向量、词义消歧、句法分析等）来提取问题的语义信息，并将其与数据库中的答案进行匹配。

构建查询接口：为用户提供一个查询接口，使其能够向数据库发送问题并获取相应的答案。可以基于用户界面（如网页、移动应用）或API（应用程序接口）来构建这样的接口。确保接口能够接收用户输入并进行预处理和语义解析，然后从数据库中检索相应的答案并返回给用户。

迭代和优化：数据库的构建是一个迭代的过程。根据用户的反馈和需求，不断优化数据库的内容和查询接口。通过持续的改进和更新，提高数据库的准确性、响应速度和用户体验。

以上所述实施例仅表示本发明的几种实施方式，其描述较为具体和详细，但并不能理解为对本发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明保护范围。因此本发明的保护范围应该以所述权利要求为准。

Claims

1.一种基于关键字提取的智能客服信息生成系统，其特征在于，包括：

2.根据权利要求1所述的基于关键字提取的智能客服信息生成系统，其特征在于，还包括：评估和优化模块用于评估系统的性能和优化算法，根据用户的反馈和评价，对系统的回答进行评估和分析，以便不断优化关键字提取、信息生成和回答生成的算法和模型。

3.一种基于关键字提取的智能客服信息生成方法，其特征在于，包括如下步骤：

S2：对转化后的文字信息进行逻辑分析；

S4：对所述标准化文字信息进行语句拆分，以得到短语句；

S5：对短语句中各文字信息进行权重设置；

4.根据权利要求3所述的基于关键字提取的智能客服信息生成方法，其特征在于：步骤S3中进行模糊化处理的步骤具体如下：利用如下公式计算每一个文字信息的模糊程度，并将其中模糊度最高的数据利用空白数据进行替换：

，

其中，

X为文字信息中的总字符数；

G为文字信息采样频率；

A为当前数据与其后数据的间隔时长；

B为文字信息的复数数据；

M为数据模糊化程度；

T为当前数据的位数。

5.根据权利要求3所述的基于关键字提取的智能客服信息生成方法，其特征在于：步骤S3中进行模糊化处理的步骤具体如下：利用如下公式计算每一个文字信息的模糊程度，并将其中模糊度最高的数据利用空白数据进行替换：

Fuzziness= ∫[a,b] p(x)log(p(x))；

其中：Fuzziness为模糊度，表示信息的模糊程度或不确定性的度量；

p(x)为概率密度函数；

[a, b]为数据积分的区间。

6.根据权利要求3所述的基于关键字提取的智能客服信息生成方法，其特征在于：步骤S3中进行模糊化处理的步骤具体如下：利用如下公式计算每一个文字信息的模糊程度，并将其中模糊度F大于0.8的数据利用空白数据进行替换：

F= log*g(a) (H_max - H_actual) π / H_max

其中：

F为模糊度，表示信息的模糊程度或不确定性的度量；F为一个介于0和1之间的值，越接近1表示信息越模糊，越接近0表示信息越清晰；

g(a)为概率密度函数。

7.根据权利要求4至6中任一项所述的基于关键字提取的智能客服信息生成方法，其特征在于：步骤S4中对所述标准化文字信息进行语句拆分的具体步骤如下：

8.根据权利要求4至6中任一项所述的基于关键字提取的智能客服信息生成方法，其特征在于：还包括在步骤S1之前的数据库构建步骤，该数据库构建步骤具体如下：