CN117235228A - 客服问答交互方法、装置、设备及存储介质 - Google Patents
客服问答交互方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN117235228A CN117235228A CN202311252123.XA CN202311252123A CN117235228A CN 117235228 A CN117235228 A CN 117235228A CN 202311252123 A CN202311252123 A CN 202311252123A CN 117235228 A CN117235228 A CN 117235228A
- Authority
- CN
- China
- Prior art keywords
- knowledge base
- text
- corpus
- matching
- customer service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 72
- 230000003993 interaction Effects 0.000 title claims abstract description 58
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 50
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000007781 pre-processing Methods 0.000 claims abstract description 14
- 239000013598 vector Substances 0.000 claims description 61
- 230000011218 segmentation Effects 0.000 claims description 55
- 238000005457 optimization Methods 0.000 claims description 16
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000013507 mapping Methods 0.000 claims description 12
- 238000004140 cleaning Methods 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 8
- 230000005587 bubbling Effects 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 5
- 238000013523 data management Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 230000006872 improvement Effects 0.000 description 4
- 230000008520 organization Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 3
- 230000006835 compression Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005355 Hall effect Effects 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据处理技术领域,尤其涉及客服问答交互方法、装置、设备及存储介质,所述方法包括:获取物流业务涉及的文本语料,并对文本语料进行预处理,得到预处理语料;对预处理语料进行信息抽取处理,获取预处理语料的实体、关系和属性;根据所获取的实体和关系构建概念层次结构,建立结构化知识库;建立索引以对结构化知识库进行优化,得到优化知识库;获取用户查询文本,提取用户查询文本的语义表示;匹配所提取的语义表示与优化知识库,生成并输出匹配结果;本申请公开的方法,可构建结构化知识库,提高数据管理规范度,并通过建立索引优化结构化知识库,有效提高问题处理效率;当反馈用户查询文本时,可实现快速精准解答,提高用户体验。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种客服问答交互方法、装置、设备及存储介质。
背景技术
当前的快递客服服务主要依靠人工电话和工单系统收发邮件进行,随着业务量的持续增长,这种传统模式面临许多挑战:
1.信息量大,查询效率低,快递信息分布在订单系统、货运系统等多个仓库,客服人员无法快速定位问题,导致无法快速准确地回答客户问题;
2.处理能力有限,高峰时人工量不足无法应对查询量,客户等待时间长;
3.由于人工客服解决问题的效率和质量依赖个人能力,存在经验服务质量不稳定的问题;
4.无法实现24小时服务,部分时间无法提供服务引起客户不满,降低了客户对客服服务的满意度;
5.人工客服导致运营成本高,且大量客服人员的使用降低了整体运营效率;
6、工单系统缺乏针对性的自助服务,进一步降低了客户的服务体验效果。
可见,现有技术还有待改进和提高。
发明内容
为了克服现有技术的不足,本发明的目的在于提供一种客服问答交互方法、装置、设备及存储介质,可实现快速精准地返回解答,大幅提升问题处理效率,改善用户体验。
本发明第一方面提供了一种客服问答交互方法,包括:获取物流业务涉及的文本语料,并对文本语料进行预处理,得到预处理语料;对预处理语料进行信息抽取处理,获取预处理语料的实体、关系和属性;根据所获取的实体和关系构建概念层次结构,建立结构化知识库;建立索引以对结构化知识库进行优化,得到优化知识库;获取用户查询文本,提取用户查询文本的语义表示;匹配所提取的语义表示与优化知识库,生成并输出匹配结果。
可选的,在本发明第一方面的第一种实施方式中,所述获取物流业务涉及的文本语料,并对文本语料进行预处理,得到预处理语料,具体包括:获取物流业务涉及的文本语料,所述文本语料包括客户问题、订单信息和运输流程;对文本语料进行数据清洗,得到清洗后文本;基于中文分词算法对清洗后文本进行分词处理,得到分词文本;基于预设的去除停用词列表对分词文本进行去除停用词处理,得到预处理语料。
可选的,在本发明第一方面的第二种实施方式中,所述对预处理语料进行信息抽取处理,获取预处理语料的实体、关系和属性,具体包括:基于自然语言处理和实体识别算法对预处理语料进行分析,识别预处理语料中的实体并进行标注;通过文本分析和关系抽取算法,获取实体之间的关系信息;预构建词性标注模型,所述词性标注模型为最大熵模型,基于所构建的词性标注模型获取实体的属性。
可选的,在本发明第一方面的第三种实施方式中,所述根据所获取的实体和关系构建概念层次结构,建立结构化知识库,具体包括:预构建词嵌入模型,基于所构建的词嵌入模型将实体和关系映射到向量空间中的固定纬度表示;采用节点和边的方式表示实体和关系,并通过属性描述实体和关系的特征,完成结构化知识库的建模;采用本体论定义实体的概念、属性和关系,构建概念间的层次结构,完成结构化知识库的构建,并生成与结构化知识库对应的查询接口。
可选的,在本发明第一方面的第四种实施方式中,所述建立索引以对结构化知识库进行优化,得到优化知识库,具体包括:获取结构化知识库内的所有文档,并基于中文分词算法逐一对文档进行分词,得到多个词语;针对每个词语建立倒排列表,汇总所有倒排列表以形成倒排索引;预构建词袋模型,基于所构建的词袋模型逐一将文档表示为经过TF-IDF加权后的向量,汇总所有向量以形成向量索引;采用霍尔曼编码算法对倒排索引进行压缩,并采用稀疏表示压缩向量索引,完成结构化知识库的优化,得到优化知识库。
可选的,在本发明第一方面的第五种实施方式中,所述获取用户查询文本,提取用户查询文本的语义表示,具体包括:获取用户查询文本,基于语法规则对用户查询文本所包括的句子进行句法分析,将句子分解为若干个句子成分;基于中文分词算法对若干个句子成分分别进行分词处理,得到分词结果;预构建词向量表示模型,将分词结果映射到向量空间,得到语义表示。
可选的,在本发明第一方面的第六种实施方式中,所述匹配所提取的语义表示与优化知识库,生成并输出匹配结果,具体包括:匹配所提取的语义表示和优化知识库,得到多条匹配信息;基于语义度相似算法计算多条匹配信息的匹配度,采用冒泡排序法根据匹配度对多条匹配信息进行排序,并生成匹配信息表;获取匹配信息表内匹配度最高的匹配信息作为匹配结果,并输出。
本发明第二方面提供了一种客服问答交互装置,包括:处理模块,用于获取物流业务涉及的文本语料,并对文本语料进行预处理,得到预处理语料;抽取模块,用于对预处理语料进行信息抽取处理,获取预处理语料的实体、关系和属性;构建模块,用于根据所获取的实体和关系构建概念层次结构,建立结构化知识库;优化模块,用于建立索引以对结构化知识库进行优化,得到优化知识库;提取模块,用于获取用户查询文本,提取用户查询文本的语义表示;匹配模块,用于匹配所提取的语义表示与优化知识库,生成并输出匹配结果。
可选的,在本发明第二方面的第一种实现方式中,所述处理模块包括:第一获取单元,用于获取物流业务涉及的文本语料,所述文本语料包括客户问题、订单信息和运输流程;清洗单元,用于对文本语料进行数据清洗,得到清洗后文本;第一分词单元,用于基于中文分词算法对清洗后文本进行分词处理,得到分词文本;处理单元,用于基于预设的去除停用词列表对分词文本进行去除停用词处理,得到预处理语料。
可选的,在本发明第二方面的第二种实现方式中,所述抽取模块包括:分析单元,用于基于自然语言处理和实体识别算法对预处理语料进行分析,识别预处理语料中的实体并进行标注;抽取单元,用于通过文本分析和关系抽取算法,获取实体之间的关系信息;第二获取单元,用于预构建词性标注模型,所述词性标注模型为最大熵模型,基于所构建的词性标注模型获取实体的属性。
可选的,在本发明第二方面的第三种实现方式中,所述构建模块包括:第一映射单元,用于预构建词嵌入模型,基于所构建的词嵌入模型将实体和关系映射到向量空间中的固定纬度表示;建模单元,用于采用节点和边的方式表示实体和关系,并通过属性描述实体和关系的特征,完成结构化知识库的建模;构建单元,用于采用本体论定义实体的概念、属性和关系,构建概念间的层次结构,完成结构化知识库的构建,并生成与结构化知识库对应的查询接口。
可选的,在本发明第二方面的第四种实现方式中,所述优化模块包括:第三获取单元,用于获取结构化知识库内的所有文档,并基于中文分词算法逐一对文档进行分词,得到多个词语;第一汇总单元,用于针对每个词语建立倒排列表,汇总所有倒排列表以形成倒排索引;第二汇总单元,用于预构建词袋模型,基于所构建的词袋模型逐一将文档表示为经过TF-IDF加权后的向量,汇总所有向量以形成向量索引;压缩单元,用于采用霍尔曼编码算法对倒排索引进行压缩,并采用稀疏表示压缩向量索引,完成结构化知识库的优化,得到优化知识库。
可选的,在本发明第二方面的第五种实现方式中,所述提取模块包括:第四获取单元,用于获取用户查询文本,基于语法规则对用户查询文本所包括的句子进行句法分析,将句子分解为若干个句子成分;第二分词单元,用于基于中文分词算法对若干个句子成分分别进行分词处理,得到分词结果;第二映射单元,用于预构建词向量表示模型,将分词结果映射到向量空间,得到语义表示。
可选的,在本发明第二方面的第六种实现方式中,所述匹配模块包括:匹配单元,用于匹配所提取的语义表示和优化知识库,得到多条匹配信息;排序单元,用于基于语义度相似算法计算多条匹配信息的匹配度,采用冒泡排序法根据匹配度对多条匹配信息进行排序,并生成匹配信息表;输出单元,用于获取匹配信息表内匹配度最高的匹配信息作为匹配结果,并输出。
本发明第三方面提供了一种客服问答交互设备,所述客服问答交互设备包括:存储器和至少一个处理器,所述存储器中存储有指令;至少一个所述处理器调用所述存储器中的所述指令,以使得所述客服问答交互设备执行上述任一项所述的客服问答交互方法的各个步骤。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,所述指令被处理器执行时实现上述任一项所述客服问答交互方法的各个步骤。
本发明的技术方案中,通过获取物流业务涉及的文本语料,并对文本语料进行预处理,得到预处理语料;对预处理语料进行信息抽取处理,获取预处理语料的实体、关系和属性;根据所获取的实体和关系构建概念层次结构,建立结构化知识库;建立索引以对结构化知识库进行优化,得到优化知识库;获取用户查询文本,提取用户查询文本的语义表示;匹配所提取的语义表示与优化知识库,生成并输出匹配结果;本申请公开的方法,可构建结构化知识库,以整理非结构化数据,提高数据管理规范度,并通过建立索引优化结构化知识库,加快检索速度,有效提高问题处理效率;当反馈用户查询文本时,通过与优化数据库进行精确语义匹配,可实现快速精准解答,提高客服服务效率,降低人工服务成本,优化用户体验。
附图说明
图1为本发明实施例提供的客服问答交互方法的第一种流程图;
图2为本发明实施例提供的客服问答交互方法的第二种流程图;
图3为本发明实施例提供的客服问答交互方法的第三种流程图;
图4为本发明实施例提供的客服问答交互方法的第四种流程图;
图5为本发明实施例提供的客服问答交互方法的第五种流程图;
图6为本发明实施例提供的客服问答交互方法的第六种流程图;
图7为本发明实施例提供的客服问答交互方法的第七种流程图;
图8为本发明实施例提供的客服问答交互装置的一种结构示意图;
图9为本发明实施例提供的客服问答交互设备的结构示意图。
具体实施方式
本发明提供了一种客服问答交互方法、装置、设备及存储介质,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中客服问答交互方法的一个实施例包括:
101、获取物流业务涉及的文本语料,并对文本语料进行预处理,得到预处理语料;
在本实施例中,所获取的文本语料包括物流业务涉及的客户问题、订单信息、运输流程等文本语料;文本语料是指由自然语言生成或处理的文本组成的语料库,通常用于机器学习和自然语言处理任务;它可以包括新闻文章、小说、电子邮件、网页内容等不同类型的内容;通过对所获取的文本语料进行预处理,为后续非结构化数据转换为结构化数据库做准备,提高数据处理效率。
102、对预处理语料进行信息抽取处理,获取预处理语料的实体、关系和属性;
在本实施例中,预处理语料的实体、关系和属性为文本语料的关键信息,常见的实体包括人名、地名、组织名等,属性描述了实体的特征和属性,而关系则表达了实体之间的联系。
103、根据所获取的实体和关系构建概念层次结构,建立结构化知识库;
在本实施例中,通过建立结构化数据库,可以将非结构化数据按照特定的结构进行组织和管理,实现对领域指示的有效组织;通过定义不同类型的数据字段和关系,可以提高数据的可读性、一致性和完整性,使数据更易于理解和使用;且完成结构化数据库的建立后,通过查询语句可以快速、高效地从数据库中检索所需数据。
104、建立索引以对结构化知识库进行优化,得到优化知识库;
在本实施例中,通过建立索引,可优化结构化数据库,防止重复数据和非法数据的插入和更新,减少数据库需要处理的数据量,为数据库的数据创建快速访问通道,加快数据检索速度,提高查询效率。
105、获取用户查询文本,提取用户查询文本的语义表示;
在本实施例中,通过获取用户查询文本对应的语义表示,以将自然语言中的句子或文本转换为及其可理解的表示形式,为后续与优化数据库的匹配做准备。
106、匹配所提取的语义表示与优化知识库,生成并输出匹配结果;
在本实施例中,通过优化知识库实现精确语义匹配,以快速解析用户意图,从而提供精准的解答。
本申请公开了一种客服问答交互方法,通过获取物流业务涉及的文本语料,并对文本语料进行预处理,得到预处理语料;对预处理语料进行信息抽取处理,获取预处理语料的实体、关系和属性;根据所获取的实体和关系构建概念层次结构,建立结构化知识库;建立索引以对结构化知识库进行优化,得到优化知识库;获取用户查询文本,提取用户查询文本的语义表示;匹配所提取的语义表示与优化知识库,生成并输出匹配结果;本申请公开的方法,可构建结构化知识库,以整理非结构化数据,提高数据管理规范度,并通过建立索引优化结构化知识库,加快检索速度,有效提高问题处理效率;当反馈用户查询文本时,通过与优化数据库进行精确语义匹配,可实现快速精准解答,提高客服服务效率,降低人工服务成本,优化用户体验。
请参阅图2,本发明实施例中客服问答交互方法的第二个实施例包括:
201、获取物流业务涉及的文本语料,所述文本语料包括客户问题、订单信息和运输流程;
202、对文本语料进行数据清洗,得到清洗后文本;
在本实施例中,通过对文本语料进行缺失值处理、异常值处理、重复值处理、数据去重和数据合并,可实现文本语料的数据清洗,以去除冗余信息、重复数据和噪声,减少数据处理量,降低非关键信息对处理结果的影响。
203、基于中文分词算法对清洗后文本进行分词处理,得到分词文本;
在本实施例中,可通过正向最大匹配法对清洗后文本进行分词处理;正向最大匹配法(FMM)为基于词表的分词算法,对于输入的下发信息文本序列从左至右,以贪心的算法切分出当前位置上长度最大的词,首先设置词库word_dict和一个待分词的字符串s,计算得到词库中最长词语的长度假设为m,从字符串第一个位置开始,选择一个最大长度的词长片段,如果该字符串的长度不足最大词长,则选择该全部字符串;判断选择出来的字符串片段是否在词库中,若在,则将此词分离出来,若不在,则从右边开始,逐一减少一个字符,直到这个片段存在在词典中结束,或者以只剩下最后一个字结束;通过正向最大匹配法,可得到分词文本,方便后续确认文本语料所包括的关键信息。
204、基于预设的去除停用词列表对分词文本进行去除停用词处理,得到预处理语料;
在本实施例中,停用词是指那些在文本中频繁出现、没有实际意义的词语,例如“的”、“了”、“在”等,使用预设的的去除停用词列表,所述预设的去除停用词列表其中包含常见的停用词,以将停用词从分词文本中删除,进一步降低了数据处理量,加快数据处理效率。
请参阅图3,本发明实施例中客服问答交互方法的第三个实施例包括:
301、基于自然语言处理和实体识别算法对预处理语料进行分析,识别预处理语料中的实体并进行标注;
在本实施例中,采用命名实体识别(NER)技术识别和分类预处理语料中特定类型的命名实体;该技术可以自动地将文本中的实体(例如人名、地名、组织机构名等)匹配并标注出来;NER技术主要应用于信息抽取、信息检索、问答系统、机器翻译等领域,它可以帮助用户从大量的文本数据中快速提取有效信息;NER技术的基本过程包括文本分词、词性标注、句法分析等步骤,通过使用训练好的模型和算法,可以将预处理语料中的实体与其所属的类别关联起来,并进行标注。
302、通过文本分析和关系抽取算法,获取实体之间的关系信息;
在本实施例中,可采用规则匹配算法获取实体之间的关系信息,所述规则匹配算法可以是KMP算法,KMP算法的基本思想为:从主串test和模式串pattern的第一个字符开始,将两字符串的字符一一比对,如果出现某个字符不匹配,主串回溯到第二个字符,子串回溯到第一个字符再进行一一比对,如果出现某个字符不匹配,主串回溯到第三个字符,子串回溯到第一个字符再进行一一比对,循环一直到子串字符全部匹配成功,即完成实体之间的关系信息的获取。
303、预构建词性标注模型,所述词性标注模型为最大熵模型,基于所构建的词性标注模型获取实体的属性;
在本实施例中,采用最大熵模型获取实体的属性,最大熵模型是概率建模中的一种方法,用于处理分类、预测和估计等问题,它基于信息理论中的最大熵原理,即在给定的约束条件下,选择具有最大不确定性(或最小偏见)的模型;最大熵模型通过最大化模型的熵来寻找最优的模型参数,在这个过程中,模型的约束条件可能来自于观测数据或者先验知识,通过优化算法,在满足所有约束条件的前提下,选择使得模型拥有最大不确定性的参数值。
请参阅图4,本发明实施例中客服问答交互方法的第四个实施例包括:
401、预构建词嵌入模型,基于所构建的词嵌入模型将实体和关系映射到向量空间中的固定纬度表示;
在本实施例中,所述词嵌入模型为Word2Vec词嵌入模型,Word2Vec是一种基于神经网络的词嵌入模型,它能够将文本中的单词映射到一个低维度的向量空间。这样做的好处是能够捕捉到单词之间的语义和关联性;通过跳字模型(Skip-gram)训练Word2Vec模型,具体的,根据一个目标单词周围的上下文单词来预测该目标单词,通过大量的文本数据进行训练后,模型就能够学习到每个单词的向量表示,即词向量。
402、采用节点和边的方式表示实体和关系,并通过属性描述实体和关系的特征,完成结构化知识库的建模;
在本实施例中,将实体、关系和属性以图的形式存储在图数据库中,如Neo4j等,为结构化知识库的建模做好数据准备。
403、采用本体论定义实体的概念、属性和关系,构建概念间的层次结构,完成结构化知识库的构建,并生成与结构化知识库对应的查询接口;
在本实施例中,采用本体论定义实体的概念、属性和关系,Ontology是(特定领域)信息组织的一种形式,是领域知识规范的抽象和描述,是表达、共享、重用知识的方法;本体(Ontology)通过对于概念(Concept)、术语(Terminology)及其相互关系(Relation,Property)的规范化(Conceptualization)描述,勾画出某一领域的基本知识体系和描述语言。
在本实施例中,当完成结构化知识库的构建后,生成与结构化知识库对应的查询接口,方便进行数据查询,且方便拓展业务应用。
请参阅图5,本发明实施例中客服问答交互方法的第五个实施例包括:
501、获取结构化知识库内的所有文档,并基于中文分词算法逐一对文档进行分词,得到多个词语;
在本实施例中,可通过正向最大匹配法对文档进行分词处理,以得到多个词语。
502、针对每个词语建立倒排列表,汇总所有倒排列表以形成倒排索引;
在本实施例中,倒排列表记录了包含该词语的所有文档的信息,如文档ID、出现次数等;通过倒排索引,可以快速定位到包含某个关键词的文档,从而提高查询效率。
503、预构建词袋模型,基于所构建的词袋模型逐一将文档表示为经过TF-IDF加权后的向量,汇总所有向量以形成向量索引;
在本实施例中,通过构建向量索引,可以快速找到与查询向量相似度较高的文档;综合运用倒排索引和向量索引的优势,以提升查询匹配效率;例如,在查询时先利用倒排索引找到包含查询词的候选文档集合,然后在这个候选集合上使用向量索引进行更精准的相似度匹配,能够减少需要计算相似度的文档数量,从而提高查询效率。
504、采用霍尔曼编码算法对倒排索引进行压缩,并采用稀疏表示压缩向量索引,完成结构化知识库的优化,得到优化知识库;
在本实施例中,创建索引可优化查询性能,加速查询操作,提高查询效率,但索引会占用额外的存储空间,为了减小索引占用的存储空间,加快查询速度,采用霍尔曼编码算法和稀疏表示分别对倒排索引和向量索引进行压缩;霍尔曼编码算法的思想是将频繁出现的固定长度序列映射成较短的二进制序列,而将出现频率较低的固定长度序列映射成较长的二进制序列,以实现数据的压缩;对于大多数应用,只有一小部分特征向量是重要的,因此可以使用稀疏表示来压缩向量索引,例如,可以使用L1正则化或稀疏矩阵分解等技术来找到最具代表性的特征向量,以实现向量索引的压缩。
请参阅图6,本发明实施例中客服问答交互方法的第六个实施例包括:
601、获取用户查询文本,基于语法规则对用户查询文本所包括的句子进行句法分析,将句子分解为若干个句子成分;
在本实施例中,可采用基于约束的文法(constraint-based grammar)对用户查询文本所包括的句子进行语法分析,将句子分解为若干个句子成分,从而表示句子之间的语义关系;具体的,可采用树-邻接文法(TAG)进行语法分析,在树连接语法中,使用一种简单的符号来表示节点之间的连接关系,如箭头,箭头的方向指示了连接的方向,从一个节点指向另一个节点;树连接语法有助于在树状结构中描述层次关系,通过连接节点,可以明确地表示父节点和子节点之间的关系,从而更好地理解和分析数据。
602、基于中文分词算法对若干个句子成分分别进行分词处理,得到分词结果;
在本实施例中,可通过正向最大匹配法对文档进行分词处理,以得到分词结果。
603、预构建词向量表示模型,将分词结果映射到向量空间,得到语义表示;
在本实施例中,所述词向量表示模型为为Word2Vec词向量表示模型,使用预训练的词向量表示模型将每个单词映射到连续的向量空间中,可以捕捉到单词之间的语义关系和上下文信息,得到语义表示。
请参阅图7,本发明实施例中客服问答交互方法的第七个实施例包括:
701、匹配所提取的语义表示和优化知识库,得到多条匹配信息;
在本实施例中,当获取了语义表示,即获取了用户查询文本的词向量后,可以通过计算两个词向量之间的距离或相似度来比较它们之间的语义相似性,实现语义表示和优化知识库的匹配;具体的,采用余弦相似度算法实现匹配,余弦相似度算法的基本思想为:用向量空间中两向量夹角的余弦值作为衡量两个个体之间差异的大小;余弦值越接近1,表明两个向量的夹角越接近0度,则两个向量越相似;余弦值越接近0,表明两个向量的夹角越接近180度,则两个向量越不相似;即通过确认夹角以确认两个向量之间的相似度。
702、基于语义度相似算法计算多条匹配信息的匹配度,采用冒泡排序法根据匹配度对多条匹配信息进行排序,并生成匹配信息表;
在本实施例中,采用冒泡排序法根据匹配度对多条匹配信息进行从小到大排序;冒泡排序的原理是:从左到右,相邻元素进行比较;每次比较一轮,就会找到序列中最大的一个或最小的一个;这个数就会从序列的最右边冒出来;以从小到大排序为例,第一轮比较后,所有数中最大的那个数就会浮到最右边;第二轮比较后,所有数中第二大的那个数就会浮到倒数第二个位置,通过多轮比较,最后实现从小到大排序。
在本实施例中,所生成的匹配信息表可作为后续优化数据库进一步优化的数据,以实现优化数据库的持续完善,丰富问题解决方案。
703、获取匹配信息表内匹配度最高的匹配信息作为匹配结果,并输出。
在本实施例中,举例说明,当用户查询文本为“包裹取件期限?”,提取取件关键词,输出的匹配结果为取件相关规定;当用户查询文本为“京东订单一直未更新?”,识别京东实体,输出的匹配结果对应延迟解答;当用户查询文本为“退货需要什么流程?”,分类为退货问题,输出的匹配结果为退货流程;当用户查询文本为“货物被损坏了,如何索赔?”,识别损坏词汇,输出的匹配结果为索赔方法。
上面对本发明实施例中客服问答交互方法进行了描述,下面对本发明实施例中客服问答交互装置进行描述,请参阅图8,本发明实施例中客服问答交互装置的一个实施例包括:
处理模块801,用于获取物流业务涉及的文本语料,并对文本语料进行预处理,得到预处理语料;抽取模块802,用于对预处理语料进行信息抽取处理,获取预处理语料的实体、关系和属性;构建模块803,用于根据所获取的实体和关系构建概念层次结构,建立结构化知识库;优化模块804,用于建立索引以对结构化知识库进行优化,得到优化知识库;提取模块805,用于获取用户查询文本,提取用户查询文本的语义表示;匹配模块806,用于匹配所提取的语义表示与优化知识库,生成并输出匹配结果。
在本实施例中,所述处理模块801包括:第一获取单元8011,用于获取物流业务涉及的文本语料,所述文本语料包括客户问题、订单信息和运输流程;清洗单元8012,用于对文本语料进行数据清洗,得到清洗后文本;第一分词单元8013,用于基于中文分词算法对清洗后文本进行分词处理,得到分词文本;处理单元8014,用于基于预设的去除停用词列表对分词文本进行去除停用词处理,得到预处理语料。
在本实施例中,所述抽取模块802包括:分析单元8021,用于基于自然语言处理和实体识别算法对预处理语料进行分析,识别预处理语料中的实体并进行标注;抽取单元8022,用于通过文本分析和关系抽取算法,获取实体之间的关系信息;第二获取单元8023,用于预构建词性标注模型,所述词性标注模型为最大熵模型,基于所构建的词性标注模型获取实体的属性。
在本实施例中,所述构建模块803包括:第一映射单元8031,用于预构建词嵌入模型,基于所构建的词嵌入模型将实体和关系映射到向量空间中的固定纬度表示;建模单元8032,用于采用节点和边的方式表示实体和关系,并通过属性描述实体和关系的特征,完成结构化知识库的建模;构建单元8033,用于采用本体论定义实体的概念、属性和关系,构建概念间的层次结构,完成结构化知识库的构建,并生成与结构化知识库对应的查询接口。
在本实施例中,所述优化模块804包括:第三获取单元8041,用于获取结构化知识库内的所有文档,并基于中文分词算法逐一对文档进行分词,得到多个词语;第一汇总单元8042,用于针对每个词语建立倒排列表,汇总所有倒排列表以形成倒排索引;第二汇总单元8043,用于预构建词袋模型,基于所构建的词袋模型逐一将文档表示为经过TF-IDF加权后的向量,汇总所有向量以形成向量索引;压缩单元8044,用于采用霍尔曼编码算法对倒排索引进行压缩,并采用稀疏表示压缩向量索引,完成结构化知识库的优化,得到优化知识库。
在本实施例中,所述提取模块805包括:第四获取单元8051,用于获取用户查询文本,基于语法规则对用户查询文本所包括的句子进行句法分析,将句子分解为若干个句子成分;第二分词单元8052,用于基于中文分词算法对若干个句子成分分别进行分词处理,得到分词结果;第二映射单元8053,用于预构建词向量表示模型,将分词结果映射到向量空间,得到语义表示。
在本实施例中,所述匹配模块806包括:匹配单元8061,用于匹配所提取的语义表示和优化知识库,得到多条匹配信息;排序单元8062,用于基于语义度相似算法计算多条匹配信息的匹配度,采用冒泡排序法根据匹配度对多条匹配信息进行排序,并生成匹配信息表;输出单元8063,用于获取匹配信息表内匹配度最高的匹配信息作为匹配结果,并输出。
上面图8从模块化功能实体的角度对本发明实施例中的客服问答交互装置进行详细描述,下面从硬件处理的角度对本发明实施例中客服问答交互设备进行详细描述。
图9是本发明实施例提供的一种客服问答交互设备的结构示意图,该客服问答交互设备900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)910(例如,一个或一个以上处理器)和存储器920,一个或一个以上存储应用程序933或数据932的存储介质930(例如一个或一个以上海量存储设备)。其中,存储器920和存储介质930可以是短暂存储或持久存储。存储在存储介质930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对客服问答交互设备900中的一系列指令操作。更进一步地,处理器910可以设置为与存储介质930通信,在客服问答交互设备900上执行存储介质930中的一系列指令操作,以实现上述各方法实施例提供的客服问答交互方法的步骤。
客服问答交互设备900还可以包括一个或一个以上电源940,一个或一个以上有线或无线网络接口950,一个或一个以上输入输出接口960,和/或,一个或一个以上操作系统931,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,本申请示出的客服问答交互设备结构并不构成对基于客服问答交互设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行客服问答交互方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述仅为本发明的优选实例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种客服问答交互方法,其特征在于,包括:
获取物流业务涉及的文本语料,并对文本语料进行预处理,得到预处理语料;
对预处理语料进行信息抽取处理,获取预处理语料的实体、关系和属性;
根据所获取的实体和关系构建概念层次结构,建立结构化知识库;
建立索引以对结构化知识库进行优化,得到优化知识库;
获取用户查询文本,提取用户查询文本的语义表示;
匹配所提取的语义表示与优化知识库,生成并输出匹配结果。
2.根据权利要求1所述的一种客服问答交互方法,其特征在于,所述获取物流业务涉及的文本语料,并对文本语料进行预处理,得到预处理语料,具体包括:
获取物流业务涉及的文本语料,所述文本语料包括客户问题、订单信息和运输流程;
对文本语料进行数据清洗,得到清洗后文本;
基于中文分词算法对清洗后文本进行分词处理,得到分词文本;
基于预设的去除停用词列表对分词文本进行去除停用词处理,得到预处理语料。
3.根据权利要求1所述的一种客服问答交互方法,其特征在于,所述对预处理语料进行信息抽取处理,获取预处理语料的实体、关系和属性,具体包括:
基于自然语言处理和实体识别算法对预处理语料进行分析,识别预处理语料中的实体并进行标注;
通过文本分析和关系抽取算法,获取实体之间的关系信息;
预构建词性标注模型,所述词性标注模型为最大熵模型,基于所构建的词性标注模型获取实体的属性。
4.根据权利要求1所述的一种客服问答交互方法,其特征在于,所述根据所获取的实体和关系构建概念层次结构,建立结构化知识库,具体包括:
预构建词嵌入模型,基于所构建的词嵌入模型将实体和关系映射到向量空间中的固定纬度表示;
采用节点和边的方式表示实体和关系,并通过属性描述实体和关系的特征,完成结构化知识库的建模;
采用本体论定义实体的概念、属性和关系,构建概念间的层次结构,完成结构化知识库的构建,并生成与结构化知识库对应的查询接口。
5.根据权利要求1所述的一种客服问答交互方法,其特征在于,所述建立索引以对结构化知识库进行优化,得到优化知识库,具体包括:
获取结构化知识库内的所有文档,并基于中文分词算法逐一对文档进行分词,得到多个词语;
针对每个词语建立倒排列表,汇总所有倒排列表以形成倒排索引;
预构建词袋模型,基于所构建的词袋模型逐一将文档表示为经过TF-IDF加权后的向量,汇总所有向量以形成向量索引;
采用霍尔曼编码算法对倒排索引进行压缩,并采用稀疏表示压缩向量索引,完成结构化知识库的优化,得到优化知识库。
6.根据权利要1所述的一种客服问答交互方法,其特征在于,所述获取用户查询文本,提取用户查询文本的语义表示,具体包括:
获取用户查询文本,基于语法规则对用户查询文本所包括的句子进行句法分析,将句子分解为若干个句子成分;
基于中文分词算法对若干个句子成分分别进行分词处理,得到分词结果;
预构建词向量表示模型,将分词结果映射到向量空间,得到语义表示。
7.根据权利要求1所述的一种客服问答交互方法,其特征在于,所述匹配所提取的语义表示与优化知识库,生成并输出匹配结果,具体包括:
匹配所提取的语义表示和优化知识库,得到多条匹配信息;
基于语义度相似算法计算多条匹配信息的匹配度,采用冒泡排序法根据匹配度对多条匹配信息进行排序,并生成匹配信息表;
获取匹配信息表内匹配度最高的匹配信息作为匹配结果,并输出。
8.一种客服问答交互装置,其特征在于,包括:
处理模块,用于获取物流业务涉及的文本语料,并对文本语料进行预处理,得到预处理语料;
抽取模块,用于对预处理语料进行信息抽取处理,获取预处理语料的实体、关系和属性;
构建模块,用于根据所获取的实体和关系构建概念层次结构,建立结构化知识库;
优化模块,用于建立索引以对结构化知识库进行优化,得到优化知识库;
提取模块,用于获取用户查询文本,提取用户查询文本的语义表示;
匹配模块,用于匹配所提取的语义表示与优化知识库,生成并输出匹配结果。
9.一种客服问答交互设备,其特征在于,所述客服问答交互设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
至少一个所述处理器调用所述存储器中的所述指令,以使得所述客服问答交互设备执行如权利要求1-7中任一项所述的客服问答交互方法的各个步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述客服问答交互方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311252123.XA CN117235228A (zh) | 2023-09-25 | 2023-09-25 | 客服问答交互方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311252123.XA CN117235228A (zh) | 2023-09-25 | 2023-09-25 | 客服问答交互方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117235228A true CN117235228A (zh) | 2023-12-15 |
Family
ID=89092689
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311252123.XA Pending CN117235228A (zh) | 2023-09-25 | 2023-09-25 | 客服问答交互方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117235228A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117634865A (zh) * | 2024-01-25 | 2024-03-01 | 卓望数码技术(深圳)有限公司 | 工作流创建方法、装置、设备及存储介质 |
-
2023
- 2023-09-25 CN CN202311252123.XA patent/CN117235228A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117634865A (zh) * | 2024-01-25 | 2024-03-01 | 卓望数码技术(深圳)有限公司 | 工作流创建方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
CN109885692B (zh) | 知识数据存储方法、装置、计算机设备和存储介质 | |
Gokulakrishnan et al. | Opinion mining and sentiment analysis on a twitter data stream | |
CN101079024B (zh) | 一种专业词表动态生成系统和方法 | |
CN112800170A (zh) | 问题的匹配方法及装置、问题的回复方法及装置 | |
Suleiman et al. | SMS spam detection using H2O framework | |
CN111783394A (zh) | 事件抽取模型的训练方法、事件抽取方法和系统及设备 | |
CN112035599B (zh) | 基于垂直搜索的查询方法、装置、计算机设备及存储介质 | |
CN114020768A (zh) | 中文自然语言的sql语句生成模型的构建方法及应用 | |
CN110580281A (zh) | 一种基于语义相似度的相似案件匹配方法 | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN111695358B (zh) | 生成词向量的方法、装置、计算机存储介质和电子设备 | |
CN110210038B (zh) | 核心实体确定方法及其系统、服务器和计算机可读介质 | |
US20230074771A1 (en) | Hierarchical clustering on graphs for taxonomy extraction and applications thereof | |
CN117235228A (zh) | 客服问答交互方法、装置、设备及存储介质 | |
CN115017303A (zh) | 基于新闻文本进行企业风险评估的方法、计算设备和介质 | |
CN113282729A (zh) | 基于知识图谱的问答方法及装置 | |
CN116628173B (zh) | 一种基于关键字提取的智能客服信息生成系统及生成方法 | |
Kamruzzaman et al. | Text categorization using association rule and naive Bayes classifier | |
Barkschat | Semantic information extraction on domain specific data sheets | |
CN110413770B (zh) | 将群消息归类到群话题的方法及装置 | |
CN112231513A (zh) | 一种学习视频推荐方法、装置及系统 | |
CN115438147A (zh) | 面向轨道交通领域的信息检索方法及系统 | |
CN114117309A (zh) | 一种网页实体提取方法、装置、计算机设备及存储介质 | |
CN109597879B (zh) | 一种基于“引文关系”数据的业务行为关系抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |