CN117591657A - 一种基于ai的智能对话管理系统及方法 - Google Patents

一种基于ai的智能对话管理系统及方法 Download PDF

Info

Publication number
CN117591657A
CN117591657A CN202311778623.7A CN202311778623A CN117591657A CN 117591657 A CN117591657 A CN 117591657A CN 202311778623 A CN202311778623 A CN 202311778623A CN 117591657 A CN117591657 A CN 117591657A
Authority
CN
China
Prior art keywords
entity
data
graph
knowledge graph
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311778623.7A
Other languages
English (en)
Other versions
CN117591657B (zh
Inventor
章飞
朱丹丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suqian Lexiangzhitu Network Technology Co ltd
Original Assignee
Suqian Lexiangzhitu Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suqian Lexiangzhitu Network Technology Co ltd filed Critical Suqian Lexiangzhitu Network Technology Co ltd
Priority to CN202311778623.7A priority Critical patent/CN117591657B/zh
Publication of CN117591657A publication Critical patent/CN117591657A/zh
Application granted granted Critical
Publication of CN117591657B publication Critical patent/CN117591657B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及智能客服技术领域,公开了一种基于AI的智能对话管理系统,包括:数据收集模块,收集智能客服的历史对话数据;数据处理模块,对历史对话数据进行数据处理获得备用数据;知识图谱构建模块,基于备用数据构建第一知识图谱;异常检测模块,将第一知识图谱输入异常检测模型,输出第一邻接矩阵;异常处理模块,根据第一邻接矩阵和第一知识图谱进行异常处理获得第二知识图谱;智能问答模块,将第二知识图谱存储在图数据库中,根据当前用户输入的问题文本通过图数据库提供的查询工具检索获得对应的实体返回给用户;本发明通过神经网络模型综合考虑了知识图谱的实体的关联关系,通过对知识图谱的信息融合来提高异常情况的检测精度。

Description

一种基于AI的智能对话管理系统及方法
技术领域
本发明涉及智能客服技术领域,更具体地说,它涉及一种基于AI的智能对话管理系统及方法。
背景技术
现有的智能客服通常是通过人工配置应答模板或者自动化构建知识图谱的方式来回答用户问题。
人工配置应答模板的方式是通过提取用户问题的关键词与应答模板的索引关键词进行相似度计算,将相似度最大的应答模板返回给用户;自动化构建知识图谱的方式是通过提取智能客服的历史对话数据,以历史的用户问题和客服回答作为知识图谱的实体或者通过提取用户问题和客服回答中的关键词作为知识图谱的实体,存在于同一会话或者同一对话轮次的实体之间存在连接关系,最后将当前的用户问题与知识图谱的用户问题进行相似度匹配作为客服回答。
然而无论是人工配置应答模板还是自动化构建知识图谱的过程中可能都存在异常情况,例如:人工配置应答模板时恶意填写不合法或者敏感词汇;自动化构建知识图谱时可能存在错误或者歧义的问答组合或者用户问题不存在对应的客服回答等异常情况。
现有的智能客服通过人工校验和设置校验规则可以快速检测应答模板是否存在异常,然而知识图谱数据量庞大、复杂度较高,单一的人工校验耗时耗力,单一的设置校验规则缺乏语义理解,导致对知识图谱的异常情况的检测精度较低,从而导致智能客服回答不准确,用户满意度下降。
发明内容
本发明提供一种基于AI的智能对话管理系统,解决相关技术中通过人工校验知识图谱耗时耗力和通过设置校验规则校验知识图谱缺乏语义理解,导致对知识图谱的异常情况的检测精度较低,智能客服回答不准确的技术问题。
本发明提供了一种基于AI的智能对话管理系统,包括:
数据收集模块,其用于收集智能客服的历史对话数据;
历史对话数据包括:用户问题数据和客服应答数据;
数据处理模块,其用于对历史对话数据进行数据处理获得备用数据;
知识图谱构建模块,其用于基于备用数据构建第一知识图谱;
第一知识图谱包括:实体、实体的属性值和实体的连接关系;
每个实体都分配有一个唯一的标识符;
实体的类型包括:文本类型、数值类型和布尔类型;
实体和实体的属性值通过提取备用数据生成;
实体的连接关系表示实体之间存在边;
异常检测模块,其用于将第一知识图谱输入异常检测模型,输出第一邻接矩阵;异常检测模型包括:第一隐藏层和第二隐藏层;
第一隐藏层输入第一知识图谱,输出第一矩阵;第一矩阵的行向量表示一个实体的更新属性值;
第二隐藏层输入第一矩阵,输出第一邻接矩阵;第一邻接矩阵的第i行的第j列的元素值表示第一知识图谱的第i个实体和第j个实体之间是否存在边,如果存在边则第一邻接矩阵的第i行的第j列的元素值赋值为1,否则赋值为0;
异常处理模块,其用于根据第一邻接矩阵和第一知识图谱进行异常处理获得第二知识图谱;第二知识图谱和第一知识图谱的表示相同;
智能问答模块,其用于将第二知识图谱存储在图数据库中,根据当前用户输入的问题文本通过图数据库提供的查询工具检索获得对应的实体返回给用户。
进一步地,对历史对话数据进行数据处理获得备用数据包括以下步骤:
步骤S301,文本预处理;通过自然语言处理工具去除历史对话数据中的特殊字符、标点符号和停用词;
步骤S302,敏感词处理;通过构建敏感词库识别历史对话数据中的敏感词,并将该敏感词直接删除作为脱敏处理,敏感词库中的敏感词汇通过人工添加设置;
步骤S303,去除存在缺失值的数据;当历史对话数据中的一条数据存在缺失值则直接去除该条数据;
步骤S304,文本纠错处理;通过文本纠错工具对历史对话数据进行文本纠错获得备用数据。
进一步地,实体的类型为文本类型的属性值通过词向量模型编码生成;实体的类型为数值类型的属性值通过实数编码表示;实体的类型为布尔类型的属性值通过整数编码表示。
进一步地,实体和实体的属性值根据智能客服的业务决定。
进一步地,知识图谱的构建包括以下步骤:
步骤S401,分词处理;通过中文分词工具将备用数据进行分词;
步骤S402,词性标注处理;通过词性标注工具对分词后的备用数据进行词性标注;
步骤S403,实体识别;通过实体识别工具对词性标注后的备用数据进行实体识别获得命名实体;
步骤S404,实体链接;将备用数据中的命名实体与知识图谱中的实体建立链接;
步骤S405,抽取实体的连接关系;通过抽取实体连接关系工具构建实体之间的边。
进一步地,第一隐藏层的计算公式包括:
第一矩阵P的计算公式如下:其中/>表示第u个实体的更新属性值,PileM表示将M个实体的更新属性值进行堆叠操作,M表示第一知识图谱的实体的总数量的值;
第u个实体的更新属性值的计算公式如下:
其中Nu表示第u个实体的邻居实体的集合,第u个实体的邻居实体表示与第u个实体存在边的实体,hv表示第v个邻居实体的属性值,αuv表示第u个实体与第v个邻居实体之间的归一化注意力系数,W表示权重参数,sigmoid表示sigmoid激活函数;
第u个实体与第v个邻居实体之间的归一化注意力分数αuv的计算公式如下:
其中Nu表示第u个实体的邻居实体的集合,hu、hv和hx分别表示第u个实体的属性值、第v个邻居实体的属性值和第x个邻居实体的属性值,β表示注意力权重参数,W表示权重参数,||表示拼接操作,T表示转置操作,exp表示取自然指数函数的幂运算,LeakyReLU表示LeakyReLU激活函数。
进一步地,第二隐藏层的计算公式如下:
Q=sigmoid(P*PT),其中Q表示第一邻接矩阵,P表示第一矩阵,T表示转置操作,sigmoid表示sigmoid激活函数,第一矩阵的元素值大于等于0.5则赋值为1,否则赋值为0。
进一步地,用于训练异常检测模型的训练数据集中的训练样本对应的样本知识图谱和第二知识图谱的表示相同,即样本知识图谱不存在异常情况,异常检测模型在训练的过程中,通过学习实体之间的关联信息,并更新第一知识图谱以逼近样本知识图谱,第一知识图谱对应的第一邻接矩阵和样本知识图谱对应的样本邻接矩阵之间的差作为损失函数,用于反向传播更新异常检测模型的权重参数。
进一步地,提取第一邻接矩阵中元素值为0的实体,并将对应的第一知识图谱的实体删除获得第二知识图谱。
一种基于AI的智能对话管理方法,用于执行上述的一种实时客服云端数据管理系统,包括以下步骤:
步骤S501,收集智能客服的历史对话数据;
步骤S502,对历史对话数据进行数据处理获得备用数据;
步骤S503,基于备用数据构建第一知识图谱;
步骤S504,将第一知识图谱输入异常检测模型,输出第一邻接矩阵;
步骤S505,根据第一邻接矩阵和第一知识图谱进行异常处理获得第二知识图谱;
步骤S506,将第二知识图谱存储在图数据库中,根据当前用户输入的问题文本通过图数据库提供的查询工具检索获得对应的实体返回给用户。
本发明的有益效果在于:本发明通过神经网络模型综合考虑了知识图谱的实体的关联关系,实体的连接关系的关联程度通过归一化注意力系数表示,通过对知识图谱的信息融合来提高知识图谱的异常情况的检测精度。
附图说明
图1是本发明的一种基于AI的智能对话管理系统的模块图;
图2是本发明的异常检测模型的示意图;
图3是本发明的数据处理获得备用数据的流程图;
图4是本发明的知识图谱的构建的流程图;
图5是本发明的一种基于AI的智能对话管理方法的流程图。
图中:数据收集模块101、数据处理模块102、知识图谱构建模块103、异常检测模块104、异常处理模块105、智能问答模块106、异常检测模型200、第一隐藏层201、第二隐藏层202。
具体实施方式
现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其他例子中也可以进行组合。
如图1-图5所示,一种基于AI的智能对话管理系统,包括:
数据收集模块101,其用于收集智能客服的历史对话数据;
历史对话数据包括:用户问题数据和客服应答数据;
数据处理模块102,其用于对历史对话数据进行数据处理获得备用数据;
知识图谱构建模块103,其用于基于备用数据构建第一知识图谱;
第一知识图谱包括:实体、实体的属性值和实体的连接关系;
每个实体都分配有一个唯一的标识符;
实体的类型包括:文本类型、数值类型和布尔类型;
实体和实体的属性值通过提取备用数据生成;
实体的连接关系表示实体之间存在边;
异常检测模块104,其用于将第一知识图谱输入异常检测模型,输出第一邻接矩阵;
如图2所示,异常检测模型200包括:第一隐藏层201和第二隐藏层202;
第一隐藏层输入第一知识图谱,输出第一矩阵;第一矩阵的行向量表示一个实体的更新属性值;
第二隐藏层输入第一矩阵,输出第一邻接矩阵;第一邻接矩阵的第i行的第j列的元素值表示第一知识图谱的第i个实体和第j个实体之间是否存在边,如果存在边则第一邻接矩阵的第i行的第j列的元素值赋值为1,否则赋值为0;
异常处理模块105,其用于根据第一邻接矩阵和第一知识图谱进行异常处理获得第二知识图谱;
第二知识图谱和第一知识图谱的表示相同;
智能问答模块106,其用于将第二知识图谱存储在图数据库中,根据当前用户输入的问题文本通过图数据库提供的查询工具检索获得对应的实体返回给用户。
在本发明的一个实施例中,历史对话数据通过收集智能客服的日志文件和数据库文件获得;历史对话数据还可以包括相关业务领域的数据,例如:相关业务领域的文献、期刊等,可以通过爬虫工具来获得相关业务领域的数据,例如:Scrapy、Selenium、Jsoup等。
在本发明的一个实施例中,如图3所示,对历史对话数据进行数据处理获得备用数据包括以下步骤:
步骤S301,文本预处理;通过自然语言处理工具去除历史对话数据中的特殊字符、标点符号和停用词等;自然语言处理工具可以是NLTK、spaCy、OpenNLP等;
步骤S302,敏感词处理;通过构建敏感词库识别历史对话数据中的敏感词,并将该敏感词直接删除作为脱敏处理,敏感词库中的敏感词汇通过人工添加设置;
步骤S303,去除存在缺失值的数据;当历史对话数据中的一条数据存在缺失值则直接去除该条数据;例如:同一轮次的历史对话数据中,用户问题数据为:“请问A商品的价格是多少?”,客服应答数据为:“A商品的价格是”,很明显客服应答数据中缺失A商品的价格,那么直接去除该轮次的历史对话数据;
步骤S304,文本纠错处理;通过文本纠错工具对历史对话数据进行文本纠错获得备用数据;文本纠错工具可以是LanguageTool、Grammarly、HanLP等。
在本发明的一个实施例中,实体的类型为文本类型的属性值通过词向量模型编码生成,词向量模型可以是Word2Vec、GloVe、FastText等;实体的类型为数值类型的属性值通过实数编码表示;实体的类型为布尔类型的属性值通过整数编码表示。
在本发明的一个实施例中,实体和实体的属性值根据智能客服的业务决定。
例如:智能客服的业务为医疗行业,实体可以包括:疾病名称实体、症状实体、药物名称实体、价格实体等,那么对应的实体的属性值可以包括:疾病名称的词向量表示、症状的词向量表示、药物名称的词向量表示、价格的实数表示等。
例如:智能客服的业务为电商行业,实体可以包括:商品名称实体、订单实体、促销活动实体、支付类型实体等,那么对应的实体的属性值可以包括:商品名称的词向量表示、订单编号的实数表示、促销活动内容的词向量表示、支付类型的整数表示等。
在本发明的一个实施例中,实体的连接关系表示实体的从属关系;例如:智能客服的业务为医疗行业,B实体和C实体存在从属关系可以表示B实体对应的疾病名称包括C实体对应的症状;智能客服的业务为电商行业,D实体和E实体存在从属关系可以表示D实体对应的E商品包括C实体对应的商品标签。
在本发明的一个实施例中,如图4所示,知识图谱的构建包括以下步骤:
步骤S401,分词处理;通过中文分词工具将备用数据进行分词;中文分词工具可以是jieba、HanLP等;
步骤S402,词性标注处理;通过词性标注工具对分词后的备用数据进行词性标注;词性标注工具可以是HMM(隐马尔可夫模型)、CRF(条件随机场)、BiLSTM(双向长短时记忆网络模型)等;
步骤S403,实体识别;通过实体识别工具对词性标注后的备用数据进行实体识别获得命名实体;实体识别工具可以是NER(命名实体识别)、CRF(条件随机场)、RNN(循环神经网络模型)、Transformer模型等;
步骤S404,实体链接;将备用数据中的命名实体与知识图谱中的实体建立链接;
步骤S405,抽取实体的连接关系;通过抽取实体连接关系工具构建实体之间的边;抽取实体连接关系工具可以是OpenIE、spaCy等。
在本发明的一个实施例中,第一隐藏层的计算公式包括:
第一矩阵P的计算公式如下:
其中表示第u个实体的更新属性值,PileM表示将M个实体的更新属性值进行堆叠操作,M表示第一知识图谱的实体的总数量的值;
第u个实体的更新属性值的计算公式如下:
其中Nu表示第u个实体的邻居实体的集合,第u个实体的邻居实体表示与第u个实体存在边的实体,hv表示第v个邻居实体的属性值,αuv表示第u个实体与第v个邻居实体之间的归一化注意力系数,W表示权重参数,sigmoid表示sigmoid激活函数;
第u个实体与第v个邻居实体之间的归一化注意力分数αuv的计算公式如下:
其中Nu表示第u个实体的邻居实体的集合,hu、hv和hx分别表示第u个实体的属性值、第v个邻居实体的属性值和第x个邻居实体的属性值,β表示注意力权重参数,W表示权重参数,||表示拼接操作,T表示转置操作,exp表示取自然指数函数的幂运算,LeakyReLU表示LeakyReLU激活函数。
在本发明的一个实施例中,第二隐藏层的计算公式如下:
Q=sigmoid(P*PT)
其中Q表示第一邻接矩阵,P表示第一矩阵,T表示转置操作,sigmoid表示sigmoid激活函数,第一矩阵的元素值大于等于0.5则赋值为1,否则赋值为0。
在本发明的一个实施例中,用于训练异常检测模型的训练数据集中的训练样本对应的样本知识图谱和第二知识图谱的表示相同,即样本知识图谱不存在异常情况,异常检测模型在训练的过程中,通过学习实体之间的关联信息,并更新第一知识图谱以逼近样本知识图谱,第一知识图谱对应的第一邻接矩阵和样本知识图谱对应的样本邻接矩阵之间的差作为损失函数,用于反向传播更新异常检测模型的权重参数。
在本发明的一个实施例中,通过大量的训练数据集训练异常检测模型可以提高模型异常检测的精确度,但是由于对应的样本知识图谱复杂度较高,训练数据集难以构建,为了加快异常检测模型的收敛,可以通过迁移学习,即先通过与智能客服的业务相同或者类似的公开数据集上进行预训练,在此基础上进行参数微调;此外还可以通过图采样的方式(Mini-batch)进行训练,即将样本知识图谱划分为多个完整且不存在异常情况的子知识图谱,分开训练,逐步合并,减少单次训练的规模,从而加快异常检测模型的收敛。
在本发明的一个实施例中,提取第一邻接矩阵中元素值为0的实体,并将对应的第一知识图谱的实体删除获得第二知识图谱。
在本发明的一个实施例中,图数据库可以是Neo4j、Amazon Neptune、TigerGraph等,并通过图数据库提供的可视化界面或者命令行工具根据当前用户输入的问题文本检索获得对应的实体。
如图5所示,提供一种基于AI的智能对话管理方法,包括以下步骤:
步骤S501,收集智能客服的历史对话数据;
步骤S502,对历史对话数据进行数据处理获得备用数据;
步骤S503,基于备用数据构建第一知识图谱;
步骤S504,将第一知识图谱输入异常检测模型,输出第一邻接矩阵;
步骤S505,根据第一邻接矩阵和第一知识图谱进行异常处理获得第二知识图谱;
步骤S506,将第二知识图谱存储在图数据库中,根据当前用户输入的问题文本通过图数据库提供的查询工具检索获得对应的实体返回给用户。
需要说明的是,本发明的智能客服的历史对话数据不限于只有文本格式,还可以包括音频格式和图片格式;通过语音转换文字工具将音频格式的历史对话数据转换为文本格式,语音转换文字工具可以是谷歌语音识别工具或者百度语音识别工具等;通过图片转换文字工具将图片格式的历史对话数据转换为文本格式,图片转换文字工具可以是百度OCR识别工具或者腾讯OCR识别工具等。
需要说明的是,本发明不排除人工客服的接入,并且用户呼叫人工客服的优先级最高,当用户输入的问题文本中包括人工客服时,则直接将该用户转接到人工客服,当没有空闲的人工客服,则提示该用户当前人工客服繁忙,并将该用户加入等待队列,等待队列按照先进先出(FIFO)的原则,即先进入等待队列的用户先被安排到空闲的人工客服。
上面对本实施例的实施例进行了描述,但是本实施例并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本实施例的启示下,还可做出很多形式,均属于本实施例的保护之内。

Claims (10)

1.一种基于AI的智能对话管理系统,其特征在于,包括:
数据收集模块,其用于收集智能客服的历史对话数据;
历史对话数据包括:用户问题数据和客服应答数据;
数据处理模块,其用于对历史对话数据进行数据处理获得备用数据;
知识图谱构建模块,其用于基于备用数据构建第一知识图谱;
第一知识图谱包括:实体、实体的属性值和实体的连接关系;
每个实体都分配有一个唯一的标识符;
实体的类型包括:文本类型、数值类型和布尔类型;
实体和实体的属性值通过提取备用数据生成;
实体的连接关系表示实体之间存在边;
异常检测模块,其用于将第一知识图谱输入异常检测模型,输出第一邻接矩阵;异常检测模型包括:第一隐藏层和第二隐藏层;
第一隐藏层输入第一知识图谱,输出第一矩阵;第一矩阵的行向量表示一个实体的更新属性值;
第二隐藏层输入第一矩阵,输出第一邻接矩阵;第一邻接矩阵的第i行的第j列的元素值表示第一知识图谱的第i个实体和第j个实体之间是否存在边,如果存在边则第一邻接矩阵的第i行的第j列的元素值赋值为1,否则赋值为0;
异常处理模块,其用于根据第一邻接矩阵和第一知识图谱进行异常处理获得第二知识图谱;第二知识图谱和第一知识图谱的表示相同;
智能问答模块,其用于将第二知识图谱存储在图数据库中,根据当前用户输入的问题文本通过图数据库提供的查询工具检索获得对应的实体返回给用户。
2.根据权利要求1所述的一种基于AI的智能对话管理系统,其特征在于,对历史对话数据进行数据处理获得备用数据包括以下步骤:
步骤S301,文本预处理;通过自然语言处理工具去除历史对话数据中的特殊字符、标点符号和停用词;
步骤S302,敏感词处理;通过构建敏感词库识别历史对话数据中的敏感词,并将该敏感词直接删除作为脱敏处理,敏感词库中的敏感词汇通过人工添加设置;
步骤S303,去除存在缺失值的数据;当历史对话数据中的一条数据存在缺失值则直接去除该条数据;
步骤S304,文本纠错处理;通过文本纠错工具对历史对话数据进行文本纠错获得备用数据。
3.根据权利要求1所述的一种基于AI的智能对话管理系统,其特征在于,实体的类型为文本类型的属性值通过词向量模型编码生成;实体的类型为数值类型的属性值通过实数编码表示;实体的类型为布尔类型的属性值通过整数编码表示。
4.根据权利要求1所述的一种基于AI的智能对话管理系统,其特征在于,实体和实体的属性值根据智能客服的业务决定。
5.根据权利要求1所述的一种基于AI的智能对话管理系统,其特征在于,知识图谱的构建包括以下步骤:
步骤S401,分词处理;通过中文分词工具将备用数据进行分词;
步骤S402,词性标注处理;通过词性标注工具对分词后的备用数据进行词性标注;
步骤S403,实体识别;通过实体识别工具对词性标注后的备用数据进行实体识别获得命名实体;
步骤S404,实体链接;将备用数据中的命名实体与知识图谱中的实体建立链接;
步骤S405,抽取实体的连接关系;通过抽取实体连接关系工具构建实体之间的边。
6.根据权利要求1所述的一种基于AI的智能对话管理系统,其特征在于,第一隐藏层的计算公式包括:
第一矩阵P的计算公式如下:其中/>表示第u个实体的更新属性值,PileM表示将M个实体的更新属性值进行堆叠操作,M表示第一知识图谱的实体的总数量的值;
第u个实体的更新属性值的计算公式如下:
其中Nu表示第u个实体的邻居实体的集合,第u个实体的邻居实体表示与第u个实体存在边的实体,hv表示第v个邻居实体的属性值,αuv表示第u个实体与第v个邻居实体之间的归一化注意力系数,W表示权重参数,sigmoid表示sigmoid激活函数;
第u个实体与第v个邻居实体之间的归一化注意力分数αuv的计算公式如下:
其中Nu表示第u个实体的邻居实体的集合,hu、hv和hx分别表示第u个实体的属性值、第v个邻居实体的属性值和第x个邻居实体的属性值,β表示注意力权重参数,W表示权重参数,||表示拼接操作,T表示转置操作,exp表示取自然指数函数的幂运算,LeakyReLU表示LeakyReLU激活函数。
7.根据权利要求1所述的一种基于AI的智能对话管理系统,其特征在于,第二隐藏层的计算公式如下:
Q=sigmoid(P*PT),其中Q表示第一邻接矩阵,P表示第一矩阵,T表示转置操作,sigmoid表示sigmoid激活函数,第一矩阵的元素值大于等于0.5则赋值为1,否则赋值为0。
8.根据权利要求1所述的一种基于AI的智能对话管理系统,其特征在于,用于训练异常检测模型的训练数据集中的训练样本对应的样本知识图谱和第二知识图谱的表示相同,即样本知识图谱不存在异常情况,异常检测模型在训练的过程中,通过学习实体之间的关联信息,并更新第一知识图谱以逼近样本知识图谱,第一知识图谱对应的第一邻接矩阵和样本知识图谱对应的样本邻接矩阵之间的差作为损失函数,用于反向传播更新异常检测模型的权重参数。
9.根据权利要求1所述的一种基于AI的智能对话管理系统,其特征在于,提取第一邻接矩阵中元素值为0的实体,并将对应的第一知识图谱的实体删除获得第二知识图谱。
10.根据权利要求1所述的一种基于AI的智能对话管理方法,其特征在于,其用于执行如权利要求1-9任一所述一种基于AI的智能对话管理系统,包括以下步骤:
步骤S501,收集智能客服的历史对话数据;
步骤S502,对历史对话数据进行数据处理获得备用数据;
步骤S503,基于备用数据构建第一知识图谱;
步骤S504,将第一知识图谱输入异常检测模型,输出第一邻接矩阵;
步骤S505,根据第一邻接矩阵和第一知识图谱进行异常处理获得第二知识图谱;
步骤S506,将第二知识图谱存储在图数据库中,根据当前用户输入的问题文本通过图数据库提供的查询工具检索获得对应的实体返回给用户。
CN202311778623.7A 2023-12-22 2023-12-22 一种基于ai的智能对话管理系统及方法 Active CN117591657B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311778623.7A CN117591657B (zh) 2023-12-22 2023-12-22 一种基于ai的智能对话管理系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311778623.7A CN117591657B (zh) 2023-12-22 2023-12-22 一种基于ai的智能对话管理系统及方法

Publications (2)

Publication Number Publication Date
CN117591657A true CN117591657A (zh) 2024-02-23
CN117591657B CN117591657B (zh) 2024-05-07

Family

ID=89910018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311778623.7A Active CN117591657B (zh) 2023-12-22 2023-12-22 一种基于ai的智能对话管理系统及方法

Country Status (1)

Country Link
CN (1) CN117591657B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200067713A (ko) * 2018-12-04 2020-06-12 숭실대학교산학협력단 오류 트리플 검출 시스템 및 방법
CN112559759A (zh) * 2020-12-03 2021-03-26 云知声智能科技股份有限公司 一种识别知识图谱中错误关系的方法和设备
KR20210033348A (ko) * 2019-09-18 2021-03-26 주식회사 솔트룩스 지식 그래프 기반의 사용자 맞춤형 질의 응답 시스템
WO2021082982A1 (zh) * 2019-10-29 2021-05-06 平安科技(深圳)有限公司 基于图谱化知识库的问答方法、设备、存储介质及装置
WO2022057671A1 (zh) * 2020-09-16 2022-03-24 浙江大学 一种基于神经网络的知识图谱不一致性推理方法
CN114491084A (zh) * 2022-04-12 2022-05-13 平安科技(深圳)有限公司 基于自编码器的关系网络信息挖掘方法、装置及设备
CN115858758A (zh) * 2022-12-28 2023-03-28 国家电网有限公司信息通信分公司 一种多非结构化数据识别的智慧客服知识图谱系统
CN115905188A (zh) * 2022-09-22 2023-04-04 同济大学 一种基于知识图谱的数据质量提升方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200067713A (ko) * 2018-12-04 2020-06-12 숭실대학교산학협력단 오류 트리플 검출 시스템 및 방법
KR20210033348A (ko) * 2019-09-18 2021-03-26 주식회사 솔트룩스 지식 그래프 기반의 사용자 맞춤형 질의 응답 시스템
WO2021082982A1 (zh) * 2019-10-29 2021-05-06 平安科技(深圳)有限公司 基于图谱化知识库的问答方法、设备、存储介质及装置
WO2022057671A1 (zh) * 2020-09-16 2022-03-24 浙江大学 一种基于神经网络的知识图谱不一致性推理方法
CN112559759A (zh) * 2020-12-03 2021-03-26 云知声智能科技股份有限公司 一种识别知识图谱中错误关系的方法和设备
CN114491084A (zh) * 2022-04-12 2022-05-13 平安科技(深圳)有限公司 基于自编码器的关系网络信息挖掘方法、装置及设备
CN115905188A (zh) * 2022-09-22 2023-04-04 同济大学 一种基于知识图谱的数据质量提升方法
CN115858758A (zh) * 2022-12-28 2023-03-28 国家电网有限公司信息通信分公司 一种多非结构化数据识别的智慧客服知识图谱系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
全威: "基于医疗知识图谱的交互式智能导诊系统", 计算机系统应用, vol. 30, no. 12, 31 December 2021 (2021-12-31) *

Also Published As

Publication number Publication date
CN117591657B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
WO2020001373A1 (zh) 一种本体构建方法及装置
US20230031738A1 (en) Taxpayer industry classification method based on label-noise learning
CN112328742B (zh) 基于人工智能的培训方法、装置、计算机设备及存储介质
WO2021212749A1 (zh) 命名实体标注方法、装置、计算机设备和存储介质
CN110727779A (zh) 基于多模型融合的问答方法及系统
CN112560478B (zh) 一种使用语义标注的中文地址RoBERTa-BiLSTM-CRF耦合解析方法
CN111222305A (zh) 一种信息结构化方法和装置
CN111966812B (zh) 一种基于动态词向量的自动问答方法和存储介质
CN110765277B (zh) 一种基于知识图谱的移动端的在线设备故障诊断方法
CN112163424A (zh) 数据的标注方法、装置、设备和介质
CN113157859B (zh) 一种基于上位概念信息的事件检测方法
CN113051922A (zh) 一种基于深度学习的三元组抽取方法及系统
CN112559723A (zh) 一种基于深度学习的faq检索式问答构建方法及系统
CN114416979A (zh) 一种文本查询方法、设备和存储介质
CN113742733A (zh) 阅读理解漏洞事件触发词抽取和漏洞类型识别方法及装置
CN111708870A (zh) 基于深度神经网络的问答方法、装置及存储介质
CN114239828A (zh) 一种基于因果关系的供应链事理图谱构建方法
CN113779987A (zh) 一种基于自注意力增强语义的事件共指消岐方法及系统
CN116402166B (zh) 一种预测模型的训练方法、装置、电子设备及存储介质
CN110362828B (zh) 网络资讯风险识别方法及系统
CN117271701A (zh) 一种基于tggat和cnn的系统运行异常事件关系抽取方法及系统
CN114842982B (zh) 一种面向医疗信息系统的知识表达方法、装置及系统
CN117591657B (zh) 一种基于ai的智能对话管理系统及方法
CN115640378A (zh) 工单检索方法、服务器、介质及产品
JP7216627B2 (ja) 入力支援方法、入力支援システム、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant