CN110196897A - 一种基于问答模板的案例识别方法 - Google Patents
一种基于问答模板的案例识别方法 Download PDFInfo
- Publication number
- CN110196897A CN110196897A CN201910436068.7A CN201910436068A CN110196897A CN 110196897 A CN110196897 A CN 110196897A CN 201910436068 A CN201910436068 A CN 201910436068A CN 110196897 A CN110196897 A CN 110196897A
- Authority
- CN
- China
- Prior art keywords
- sentence
- solr
- case
- question
- answer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于问答模板的案例识别方法,对接客服平台的质检平台,定时离线处理数据。对话文本是流式进入本系统,预处理后暂存在两个Solr中或者两个Solr Core中。由于待处理的数据量大,后续也使用了Solr的全文本检索功能,快速地过滤出近似句子,为后续的语义相似度计算模块减小压力,主要是语义相似度计算模块相对比较耗时。本发明中的技术可以应用在客服人员培训和客服质量检测环节,弥补现有培训环节的真实素材缺失,自动化输出符合指定问答模板的案例。并且可以作为对客服人员的一种评测。从另一方面讲,也可以检测问答模板设计的是否合理,是否符合实际场景。
Description
技术领域
本发明涉及AI智能客服与语音质量检测技术领域,具体为一种基于问答模板的案例识别方法。
背景技术
随着互联网、移动互联网的快速发展,各领域内的客户联络需求不断持续增长;与此同时,企业也提供了多种渠道的客服服务满足客户来满足客户的沟通需求,如电话人工客服、网络在线客服、短信、微信等。一线客服人员的培训和服务质量检测在客服管理中是必不可少的环节,客服满意度也直接影响了产品的购买率以及用户的后续行为。部分企业也存在了大量客服对话数据,语音数据经过ASR(Automatic Speech Recognition自动语音识别)系统转换了文本数据。如何从大量文本数据中挖掘出有用的信息,利用这些信息去辅助客服人员的培训以及完成语音质量检测?本方法是基于问答模板从大量文本数据中检测识别对应模板的对话案例,进而用真实的案例去培训客服人员。还可以使用此方法对文本案例进行质量检测,检测客服人员是否按照培训标准去回答客户问题。问答模板一般是优秀的客服人员总结出的标准问答,综合了专业知识和说话的技巧。
此方法的主要原理是运用了短文本相似度计算技术,按照设计的流程在待识别案例中逐个检测问句和临近回答语句与问答模板语句的相似程度;输出满足阈值的案例。现有的培训材料一般是人工撰写的问答模板,缺少真实的案例,也无法验证撰写的模板是否被高频率用到。使用该专利提供的技术既可以补充模板对应的案例素材,也可以从大量真实数据中验证已有模板的实用性。
发明内容
本发明的目的在于提供一种基于问答模板的案例识别方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于问答模板的案例识别方法,具体步骤如下:
第一步,大量文本案例数据是待挖掘的案例数据,其中每一个文档由一个唯一的id(流水号)和对话形式的文本构成,在对话文本中约定“0”表示客服,“1”是客户;
第二步,首先经过预处理模块,完成短句过滤、分词和去停用词处理,或者加入业务相关的专有名词替换处理等;
第三步,然后抽取所有文档的“1”句子,即客户提问部分,逐句输入到Solr(全文本检索服务工具),一个句子作为Solr内部的一个文档,并且附带该句子所在对话文档的id(流水号);为了和另一个Solr区分开来,把此Solr标记为Solr B;
第四步,把全部的对话文本处理成一个字符串,并保留了“0”和“1”的部分,把此字符串输入的Solr中备用,称为Solr A;至此,预处理工作完成,Solr B中存储了所以待处理案例中的客户文本句子,Solr A中存储了所以待处理案例的全部文本;
第五步,从问答模板中逐个取出问答对,Q1代表客户提问句子,A1代表客服回答句子;
第六步,在Solr B中查询Q1相似句子,为了不过多输出,取前30个最相似的句子,30个句子再逐个与Q1句子进行语义相似度计算,输出相似结果大于0.5的句子;故,最多输出30个满足0.5阈值的句子,句子集合标记成Qs;
第七步,从Qs中取出一条数据,用该条数据的id(流水号)去Solr A中检索该句子所在的全文本内容,并使用文本内容找到具体位置,取该位置后的4条客服回答,即“0”开头的句子;
第八步,取模板回答A1与4条客服回答逐一进行语义相似度计算,取大于0.5的输出,即该案例是优秀的案例,是比较符合标准Q1,A1的案例。
优选的,所述的第七步的4条回答是经验值,认为关键回答可能会出现在问题提出后的4轮问答内出现。
优选的,所述的第六步的30个句子的数量为经验值,选取句子的数量可根据实际需要进行修改。
在我们的实现场景中,本系统对接客服平台的质检平台,定时离线处理数据。对话文本是流式进入本系统,预处理后暂存在两个Solr中或者两个Solr Core中。由于待处理的数据量大,后续也使用了Solr的全文本检索功能,快速地过滤出近似句子,为后续的语义相似度计算模块减小压力,主要是语义相似度计算模块相对比较耗时。
与现有技术相比,本发明的有益效果是:本发明中的技术可以应用在客服人员培训和客服质量检测环节,弥补现有培训环节的真实素材缺失,自动化输出符合指定问答模板的案例。并且可以作为对客服人员的一种评测。从另一方面讲,也可以检测问答模板设计的是否合理,是否符合实际场景。
附图说明
图1为本发明整体结构示意图;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供了一种基于问答模板的案例识别方法,具体步骤如下:
第一步,大量文本案例数据是待挖掘的案例数据,其中每一个文档由一个唯一的id(流水号)和对话形式的文本构成,在对话文本中约定“0”表示客服,“1”是客户;
第二步,首先经过预处理模块,完成短句过滤、分词和去停用词处理,或者加入业务相关的专有名词替换处理等;
第三步,然后抽取所有文档的“1”句子,即客户提问部分,逐句输入到Solr(全文本检索服务工具),一个句子作为Solr内部的一个文档,并且附带该句子所在对话文档的id(流水号);为了和另一个Solr区分开来,把此Solr标记为Solr B;
第四步,把全部的对话文本处理成一个字符串,并保留了“0”和“1”的部分,把此字符串输入的Solr中备用,称为Solr A;至此,预处理工作完成,Solr B中存储了所以待处理案例中的客户文本句子,Solr A中存储了所以待处理案例的全部文本;
第五步,从问答模板中逐个取出问答对,Q1代表客户提问句子,A1代表客服回答句子;
第六步,在Solr B中查询Q1相似句子,为了不过多输出,取前30个最相似的句子,30个句子再逐个与Q1句子进行语义相似度计算,输出相似结果大于0.5的句子;故,最多输出30个满足0.5阈值的句子,句子集合标记成Qs;
第七步,从Qs中取出一条数据,用该条数据的id(流水号)去Solr A中检索该句子所在的全文本内容,并使用文本内容找到具体位置,取该位置后的4条客服回答,即“0”开头的句子;
第八步,取模板回答A1与4条客服回答逐一进行语义相似度计算,取大于0.5的输出,即该案例是优秀的案例,是比较符合标准Q1,A1的案例。
优选的,所述的第七步的4条回答是经验值,认为关键回答可能会出现在问题提出后的4轮问答内出现。
优选的,所述的第六步的30个句子的数量为经验值,选取句子的数量可根据实际需要进行修改。
工作原理:
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
Claims (3)
1.一种基于问答模板的案例识别方法,其特征在于,具体步骤如下:
第一步,大量文本案例数据是待挖掘的案例数据,其中每一个文档由一个唯一的id和对话形式的文本构成,在对话文本中约定“0”表示客服,“1”是客户;
第二步,首先经过预处理模块,完成短句过滤、分词和去停用词处理,或者加入业务相关的专有名词替换处理等;
第三步,然后抽取所有文档的“1”句子,即客户提问部分,逐句输入到Solr,一个句子作为Solr内部的一个文档,并且附带该句子所在对话文档的id;为了和另一个Solr区分开来,把此Solr标记为Solr B;
第四步,把全部的对话文本处理成一个字符串,并保留了“0”和“1”的部分,把此字符串输入的Solr中备用,称为Solr A;至此,预处理工作完成,Solr B中存储了所以待处理案例中的客户文本句子,Solr A中存储了所以待处理案例的全部文本;
第五步,从问答模板中逐个取出问答对,Q1代表客户提问句子,A1代表客服回答句子;
第六步,在Solr B中查询Q1相似句子,为了不过多输出,取前30个最相似的句子,30个句子再逐个与Q1句子进行语义相似度计算,输出相似结果大于0.5的句子;故,最多输出30个满足0.5阈值的句子,句子集合标记成Qs;
第七步,从Qs中取出一条数据,用该条数据的id去Solr A中检索该句子所在的全文本内容,并使用文本内容找到具体位置,取该位置后的4条客服回答,即“0”开头的句子;
第八步,取模板回答A1与4条客服回答逐一进行语义相似度计算,取大于0.5的输出,即该案例是优秀的案例,是比较符合标准Q1,A1的案例。
2.根据权利要求1所述的一种基于问答模板的案例识别方法,其特征在于,所述的第七步的4条回答是经验值,认为关键回答可能会出现在问题提出后的4轮问答内出现。
3.根据权利要求1所述的一种基于问答模板的案例识别方法,其特征在于,所述的第六步的30个句子的数量为经验值,选取句子的数量可根据实际需要进行修改。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910436068.7A CN110196897B (zh) | 2019-05-23 | 2019-05-23 | 一种基于问答模板的案例识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910436068.7A CN110196897B (zh) | 2019-05-23 | 2019-05-23 | 一种基于问答模板的案例识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110196897A true CN110196897A (zh) | 2019-09-03 |
CN110196897B CN110196897B (zh) | 2021-07-30 |
Family
ID=67751644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910436068.7A Active CN110196897B (zh) | 2019-05-23 | 2019-05-23 | 一种基于问答模板的案例识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110196897B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930905A (zh) * | 2020-07-13 | 2020-11-13 | 上海明略人工智能(集团)有限公司 | 用于问答训练的方法、装置、系统和计算机可读存储介质 |
CN112560449A (zh) * | 2021-02-23 | 2021-03-26 | 北京远鉴信息技术有限公司 | 一种文本质量的检测方法、装置、电子设备及存储介质 |
CN114722839A (zh) * | 2022-06-01 | 2022-07-08 | 阿里巴巴达摩院(杭州)科技有限公司 | 人机协同对话交互系统及方法 |
CN111930905B (zh) * | 2020-07-13 | 2024-06-07 | 上海明略人工智能(集团)有限公司 | 用于问答训练的方法、装置、系统和计算机可读存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005564A (zh) * | 2014-04-17 | 2015-10-28 | 北京搜狗科技发展有限公司 | 一种基于问答平台的数据处理方法和装置 |
CN106649612A (zh) * | 2016-11-29 | 2017-05-10 | 中国银联股份有限公司 | 一种自动问答模板匹配的方法及装置 |
CN108038234A (zh) * | 2017-12-26 | 2018-05-15 | 众安信息技术服务有限公司 | 一种问句模板自动生成方法及装置 |
CN108399169A (zh) * | 2017-02-06 | 2018-08-14 | 阿里巴巴集团控股有限公司 | 基于问答系统的对话处理方法、装置和系统及移动设备 |
CN109033262A (zh) * | 2018-07-09 | 2018-12-18 | 北京寻领科技有限公司 | 问答知识库更新方法及装置 |
US20190147353A1 (en) * | 2017-11-15 | 2019-05-16 | International Business Machines Corporation | Watched hypothesis for deep question answering |
-
2019
- 2019-05-23 CN CN201910436068.7A patent/CN110196897B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105005564A (zh) * | 2014-04-17 | 2015-10-28 | 北京搜狗科技发展有限公司 | 一种基于问答平台的数据处理方法和装置 |
CN106649612A (zh) * | 2016-11-29 | 2017-05-10 | 中国银联股份有限公司 | 一种自动问答模板匹配的方法及装置 |
CN108399169A (zh) * | 2017-02-06 | 2018-08-14 | 阿里巴巴集团控股有限公司 | 基于问答系统的对话处理方法、装置和系统及移动设备 |
US20190147353A1 (en) * | 2017-11-15 | 2019-05-16 | International Business Machines Corporation | Watched hypothesis for deep question answering |
CN108038234A (zh) * | 2017-12-26 | 2018-05-15 | 众安信息技术服务有限公司 | 一种问句模板自动生成方法及装置 |
CN109033262A (zh) * | 2018-07-09 | 2018-12-18 | 北京寻领科技有限公司 | 问答知识库更新方法及装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111930905A (zh) * | 2020-07-13 | 2020-11-13 | 上海明略人工智能(集团)有限公司 | 用于问答训练的方法、装置、系统和计算机可读存储介质 |
CN111930905B (zh) * | 2020-07-13 | 2024-06-07 | 上海明略人工智能(集团)有限公司 | 用于问答训练的方法、装置、系统和计算机可读存储介质 |
CN112560449A (zh) * | 2021-02-23 | 2021-03-26 | 北京远鉴信息技术有限公司 | 一种文本质量的检测方法、装置、电子设备及存储介质 |
CN114722839A (zh) * | 2022-06-01 | 2022-07-08 | 阿里巴巴达摩院(杭州)科技有限公司 | 人机协同对话交互系统及方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110196897B (zh) | 2021-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107329967B (zh) | 基于深度学习的问答系统以及方法 | |
CN112101028A (zh) | 一种多特征双向门控领域专家实体抽取方法及系统 | |
CN113468296B (zh) | 可配置业务逻辑的模型自迭代式智能客服质检系统与方法 | |
CN110321564B (zh) | 一种多轮对话意图识别方法 | |
CN111739519A (zh) | 基于语音识别的对话管理处理方法、装置、设备及介质 | |
CN107145573A (zh) | 人工智能客服机器人的问题解答方法及系统 | |
CN112016320A (zh) | 基于数据增强的英文标点符号添加方法和系统及设备 | |
CN110196897A (zh) | 一种基于问答模板的案例识别方法 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN112951233A (zh) | 语音问答方法、装置、电子设备及可读存储介质 | |
CN114742366A (zh) | 一种基于大数据算法的工单智能派发方法 | |
CN115510180A (zh) | 一种面向多领域的复杂事件要素抽取方法 | |
CN110689357A (zh) | 基于机器学习的用于在线客服的工单生成方法 | |
CN113326367A (zh) | 基于端到端文本生成的任务型对话方法和系统 | |
CN107480126A (zh) | 一种工程材料类别智能识别方法 | |
CN110362828B (zh) | 网络资讯风险识别方法及系统 | |
CN111427996A (zh) | 一种人机交互文本中抽取日期时间的方法和装置 | |
CN111737424A (zh) | 一种问题的匹配方法、装置、设备及存储介质 | |
CN110782221A (zh) | 一种面试智能评测系统及方法 | |
CN109325159A (zh) | 一种微博热点事件挖掘方法 | |
CN115080732A (zh) | 投诉工单处理方法、装置、电子设备和存储介质 | |
CN115687581A (zh) | 一种基于注意力机制的电力客服交互式问答方法及装置 | |
CN111507751A (zh) | 一种基于沟通数据的线索打分方法 | |
CN117453895B (zh) | 一种智能客服应答方法、装置、设备及可读存储介质 | |
CN108829669A (zh) | 支持极性区分和多义的词向量生成方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |