CN113705250A - 会话内容识别方法、装置、设备及计算机可读介质 - Google Patents
会话内容识别方法、装置、设备及计算机可读介质 Download PDFInfo
- Publication number
- CN113705250A CN113705250A CN202111268692.4A CN202111268692A CN113705250A CN 113705250 A CN113705250 A CN 113705250A CN 202111268692 A CN202111268692 A CN 202111268692A CN 113705250 A CN113705250 A CN 113705250A
- Authority
- CN
- China
- Prior art keywords
- session
- target
- event
- sentence
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种会话内容识别方法、装置、设备及计算机可读介质。该方法包括:获取会话文本,并将会话文本分割为至少一个目标会话片段;将目标会话片段输入预设的会话类型识别模型,以对目标会话片段添加分类标签;基于目标会话片段抽取出分类标签对应的目标事件。本申请通过分割会话并进行事件抽取,能够根据会话的上下文逻辑关系识别会话的核心内容,从而使得会话内容的识别更加符合用户的真实想法,准确度更高,解决了存在逻辑的会话内容提取不准确的技术问题。
Description
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种会话内容识别方法、装置、设备及计算机可读介质。
背景技术
随着即时通讯技术的迅猛发展,企业与客户之间除了面对面沟通、电话沟通这类传统的交流方式之外,在线即时通讯沟通也开始占据重要的一隅,甚至由于兼具实时、便捷、可存证等优点而被广泛使用。企业为了更快速、精准地抓住客户的需求、偏好,也诞生了利用深度学习对客服人员与客户的即时通讯会话来提取会话内容的技术手段,以为挖掘客户潜在需求和偏好奠定基础。企业也可以通过了解客服人员与客户的会话内容,来及时发现服务存在的问题,还能够挖掘到客户对产品的真实评价,以及新的需求,为改进现有产品,研发新产品提供线索和灵感。
目前,相关技术中,主要是将会话进行分词后,通过词频高低来形成词云,进而利用词云来分析会话内容。但是,由于会话中存在人与人之间沟通交流的语言逻辑,而且不只是单句中存在逻辑关系,会话的上下文之间也存在前后关联的逻辑,因此分词、词频、词云等技术特征不足以准确的反映会话的核心内容,也就难以准确的为企业提供支持。
针对存在逻辑的会话内容识别不准确的问题,目前尚未提出有效的解决方案。
发明内容
本申请提供了一种会话内容识别方法、装置、设备及计算机可读介质,以解决存在逻辑的会话内容提取不准确的技术问题。
根据本申请实施例的一个方面,本申请提供了一种会话内容识别方法,包括:
获取会话文本,并将会话文本分割为至少一个目标会话片段;
将目标会话片段输入预设的会话类型识别模型,以对目标会话片段添加分类标签;
基于目标会话片段抽取出分类标签对应的目标事件。
可选地,将会话文本分割为至少一个目标会话片段包括以下方式中的至少之一:
确定会话文本中各条消息的发送时间戳;在相邻两条消息的发送时间戳的时间间隔大于或等于第一阈值的情况下,在相邻两条消息处进行片段分割,其中,相邻两条消息被划分至不同的会话片段;
确定会话文本中各条消息的发送时间戳;按照各条消息的发送时间戳所在的时间区间对会话文本进行片段分割;
识别会话文本中的目标关键词,并将目标关键词作为会话片段的结尾对会话文本进行片段分割;
确定会话文本中的会话标识组,其中,会话标识组中包括相匹配的会话开始标识和会话结束标识,不同会话标识组中的标识不匹配;将同一组的会话开始标识至会话结束标识之间的会话消息作为目标会话片段进行分割。
可选地,基于目标会话片段抽取出分类标签对应的目标事件包括:
确定分类标签对应的代表句,其中,代表句为预先从具有相同分类标签的多个训练语料中提取出来的,代表句用于表示分类标签对应的事件类型的事件特征;
将代表句作为特征句标签添加到目标会话片段;
按照特征句标签的预设事件模板,从目标会话片段中抽取代表句中的属性对应的元素,其中,属性包括人物属性、事件属性、位置属性以及时间属性;
按照特征句标签的形式,利用抽取出来的元素组成目标特征句作为事件标签添加到目标会话片段,其中,事件标签用于表示目标事件。
可选地,确定分类标签对应的代表句之前,所述方法还包括按照如下方式从具有分类标签的多个训练语料中提取出代表句:
抽取多个训练语料中的句子,并确定各个句子与分类标签的相关度;
提取出与分类标签的相关度大于或等于第二阈值的句子作为核心句;
统计多个训练语料中核心句的出现次数,并按照出现次数对所有核心句进行排序;
选取排序结果中排名最高的核心句作为目标核心句;
将目标核心句作为所代表句,并基于目标核心句创建预设事件模板。
可选地,抽取出分类标签对应的目标事件之后,所述方法还包括:
利用预设的突发事件判别模型分析具有相同分类标签的会话在时间变化基础上的数量变化特征;
根据数量变化特征确定目标事件的异常度;
在异常度处于异常度阈值范围之外的情况下,确定目标事件为突发事件;
按照各个突发事件的异常度的排序结果,生成突发事件排序列表,并将突发事件排序列表推送至目标终端进行展示。
可选地,抽取出分类标签对应的目标事件之后,所述方法还包括:
利用预设的热门事件判别模型分析具有相同分类标签的会话在业务基础上的当前时段的数量特征;
根据数量特征确定目标事件的热度;
在热度大于或等于业务基础的热度阈值的情况下,确定目标事件为热门事件;
按照各个热门事件的热度的排序结果,生成热门事件排序列表,并将热门事件排序列表推送至目标终端进行展示。
可选地,抽取出分类标签对应的目标事件之后,所述方法还包括:
将目标事件作为结果事件,并将结果事件和目标会话片段输入预设的因果关系识别模型,以利用因果关系识别模型根据目标会话片段的上下文内容确定导致结果事件发生的原因事件;
利用原因事件和结果事件生成事件分析报告,并将事件分析报告推送至目标终端进行展示。
根据本申请实施例的另一方面,本申请提供了一种会话内容识别装置,包括:
获取模块,用于获取会话文本,并将会话文本分割为至少一个目标会话片段;
分类模块,用于将目标会话片段输入预设的会话类型识别模型,以对目标会话片段添加分类标签;
事件抽取模块,用于基于目标会话片段抽取出分类标签对应的目标事件。
根据本申请实施例的另一方面,本申请提供了一种电子设备,包括存储器、处理器、通信接口及通信总线,存储器中存储有可在处理器上运行的计算机程序,存储器、处理器通过通信总线和通信接口进行通信,处理器执行计算机程序时实现上述方法的步骤。
根据本申请实施例的另一方面,本申请还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,程序代码使处理器执行上述的方法。
本方案可以应用于深度学习领域进行自然语言处理,本申请实施例提供的上述技术方案与相关技术相比具有如下优点:
本申请技术方案为获取会话文本,并将会话文本分割为至少一个目标会话片段;将目标会话片段输入预设的会话类型识别模型,以对目标会话片段添加分类标签;基于目标会话片段抽取出分类标签对应的目标事件。本申请通过分割会话并进行事件抽取,能够根据会话的上下文逻辑关系识别会话的核心内容,从而使得会话内容的识别更加符合用户的真实想法,准确度更高,解决了存在逻辑的会话内容提取不准确的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为根据本申请实施例提供的一种可选的会话内容识别方法硬件环境示意图;
图2为根据本申请实施例提供的一种可选的会话内容识别方法流程图;
图3为根据本申请实施例提供的一种可选的会话内容识别装置框图;
图4为本申请实施例提供的一种可选的电子设备结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
在后续的描述中,使用用于表示元件的诸如“模块”、“部件”或“单元”的后缀仅为了有利于本申请的说明,其本身并没有特定的意义。因此,“模块”与“部件”可以混合地使用。
相关技术中,为了识别会话内容,主要是将会话进行分词后,通过词频高低来形成词云,进而利用词云来分析会话内容。但是,由于会话中存在人与人之间沟通交流的语言逻辑,而且不只是单句中存在逻辑关系,会话的上下文之间也存在前后关联的逻辑,因此分词、词频、词云等技术特征不足以准确的反映会话的核心内容,也就难以准确的为企业提供支持。
为了解决背景技术中提及的问题,根据本申请实施例的一方面,提供了一种会话内容识别方法的实施例。
可选地,在本申请实施例中,上述会话内容识别方法可以应用于如图1所示的由终端101和服务器103所构成的硬件环境中。如图1所示,服务器103通过网络与终端101进行连接,可用于为终端或终端上安装的客户端提供服务(如提供终端与终端之间的即时通讯会话服务和会话内容识别服务),可在服务器上或独立于服务器设置数据库105,用于为服务器103提供数据存储服务,上述网络包括但不限于:广域网、城域网或局域网,终端101包括但不限于PC、手机、平板电脑等。
本申请实施例中的一种会话内容识别方法可以由服务器103来执行,还可以是由服务器103和终端101共同执行,如图2所示,该方法可以包括以下步骤:
步骤S202,获取会话文本,并将会话文本分割为至少一个目标会话片段。
本申请技术方案可以应用于各类会话识别的技术场景,如咨询类、探讨类、辩论类、通知类等。示例性地,本申请以商品销售商与客户之间的会话识别为例进行说明,会话文本的来源可以是商品销售商的客服人员与客户之间的会话,如售前商品咨询会话、售后问题咨询会话等。
步骤S204,将目标会话片段输入预设的会话类型识别模型,以对目标会话片段添加分类标签。
本申请实施例中,会话类型识别模型可以是基于深度神经网络模型构建的分类模型,该会话类型识别模型的训练语料为标记有会话类型的各类会话文本语料,训练预料中包括训练集和验证集。训练该会话类型识别模型时,利用训练集对初始深度神经网络模型进行训练,得到中间模型,再利用验证集对训练后的中间模型进行验证,在中间模型对验证集的识别准确度达到准确度阈值的情况下,将中间模型作为训练完成的会话类型识别模型。在中间模型对验证集的识别准确度未达到准确度阈值的情况下,继续使用训练集对中间模型进行训练,以继续调整中间模型内各网络层中的参数的数值,直至所得到的中间模型对验证集的识别准确度达到准确度阈值时,将中间模型作为会话类型识别模型。继续使用训练集对中间模型进行训练时,包括:利用目标损失函数确定损失值,其中,所述损失值用于表示所述中间模型对所述验证集的识别结果和所述验证集的实际标签之间的准确度的差异;利用所述损失值调整所述中间模型中卷积核的参数,直至所述中间模型的输出精度达到所述准确度阈值。
本申请实施例中,会话类型识别模型的输出结果即为目标会话片段添加相应的分类标签。
步骤S206,基于目标会话片段抽取出分类标签对应的目标事件。
本申请实施例中,基于目标会话片段,可以根据上下文的逻辑关系抽取出该分类标签对应的目标事件。
通过步骤S202至S206,本申请通过分割会话并进行事件抽取,能够根据会话的上下文逻辑关系识别会话的核心内容,从而使得会话内容的识别更加符合用户的真实想法,准确度更高,解决了存在逻辑的会话内容提取不准确的技术问题。
可选地,在步骤S202的技术方案中,将会话文本分割为至少一个目标会话片段包括以下方式中的至少之一:
第一种,确定会话文本中各条消息的发送时间戳;在相邻两条消息的发送时间戳的时间间隔大于或等于第一阈值的情况下,在相邻两条消息处进行片段分割,其中,相邻两条消息被划分至不同的会话片段。
本申请实施例中,可以根据会话消息之间的时间间隔来判定是否为同一个会话,时间间隔相距较远的,往往是不同话题的会话。
第二种,确定会话文本中各条消息的发送时间戳;按照各条消息的发送时间戳所在的时间区间对会话文本进行片段分割。
本申请实施例中,可以预先划分时间区间,不同时间区间的会话消息分为不同的会话片段,如以下会话根据日期的不同划分为不同的会话片段:
1月1日,会话A:
消费者:“在吗”;
员工:“亲,您好,有什么可以帮助您”;
消费者:“我下单的商品发货了吗”;
员工:“亲,帮你查看了,已经发货了”;
消费者:“好的,谢谢”。
1月2日,会话B:
消费者:“在吗”;
员工:“亲,您好,有什么可以帮助您”;
消费者:“我想把刚买的那个商品退了”;
员工:“好的亲,现在帮你办理退货”;
消费者:“谢谢”。
第三种,识别会话文本中的目标关键词,并将目标关键词作为会话片段的结尾对会话文本进行片段分割。
本申请实施例中,还可以通过特定的关键词来识别一个话题是否结束,从而分割会话,如上述会话A和会话B,可以以“谢谢”为关键词来识别会话的结束。
第四种,确定会话文本中的会话标识组,其中,会话标识组中包括相匹配的会话开始标识和会话结束标识,不同会话标识组中的标识不匹配;将同一组的会话开始标识至会话结束标识之间的会话消息作为目标会话片段进行分割。
本申请实施例中,系统为了在用户发起会话时标记该会话而在连接建立后生成唯一的会话开始标识,该会话开始标识既可以标识会话开始,也可以用于识别该会话与其他会话。用户结束会话时,系统在连接断开后生成该会话的会话结束标识,该会话结束标识只与同一个会话下的会话开始标识相匹配。
可选地,通过步骤S204的技术方案,可以识别出会话内容属于哪种事件类型的会话,即识别出会话主题。如上述会话A可以识别为“订单查询”类会话,上述会话B可以识别为“退货申请”类会话。
可选地,在步骤S206的技术方案中,基于目标会话片段抽取出分类标签对应的目标事件包括以下步骤:
步骤1,确定分类标签对应的代表句,其中,代表句为预先从具有相同分类标签的多个训练语料中提取出来的,代表句用于表示分类标签对应的事件类型的事件特征。
本申请实施例中,代表句是分类标签所表示的事件类型的事件特征,即反映事件的通用统一性描述,如“退货申请”类会话的代表句可以是C想退货,其中C即指代想要退货的对象。
步骤2,将代表句作为特征句标签添加到目标会话片段;
步骤3,按照特征句标签的预设事件模板,从目标会话片段中抽取代表句中的属性对应的元素,其中,属性包括人物属性、事件属性、位置属性以及时间属性。
本申请实施例中,事件模板可以是如[时间元素地点元素人物元素事件元素],而对应于特征句标签“C想退货”的预设事件模板则可以简化为[人物元素事件元素]。代表句中的属性也相应的有时间属性、人物属性、位置属性、事件属性等,对于代表句“C想退货”,则简化为人物属性C及事件属性退货。
步骤4,按照特征句标签的形式,利用抽取出来的元素组成目标特征句作为事件标签添加到目标会话片段,其中,事件标签用于表示目标事件。
本申请实施例中,可以通过语言识别算法从目标会话片段中提取该预设事件模板中的元素,并用提取出的元素替换代表句中的属性,如从会话B中识别到想退货的对象是“我”,即客户自身,若该客户的识别标签为ID123,则对应替换后的目标特征句为“ID123想退货”。
可选地,确定分类标签对应的代表句之前,所述方法还包括按照如下方式从具有分类标签的多个训练语料中提取出代表句:
步骤1,抽取多个训练语料中的句子,并确定各个句子与分类标签的相关度;
步骤2,提取出与分类标签的相关度大于或等于第二阈值的句子作为核心句;
步骤3,统计多个训练语料中核心句的出现次数,并按照出现次数对所有核心句进行排序;
步骤4,选取排序结果中排名最高的核心句作为目标核心句;
步骤5,将目标核心句作为所代表句,并基于目标核心句创建预设事件模板。
本申请实施例中,可以利用自然语言处理算法从具有相同分类标签的训练预料中提取句子,再计算每个句子与该会话标签的相关度,保留相关度较高的句子,即提取出相关度大于或等于第二阈值的句子作为核心句,再计算每个核心句在所有训练语料中的出现次数,按照出现次数的多少对所有核心句进行排序,最后选择出现次数最多的核心句作为代表句,同时创建该代表句对应的事件模板。上述第二阈值可以根据实际需要进行设置,上述代表句可以定期更新。
本申请中,从会话片段中抽取出反映会话核心内容的目标事件之后,还可以对会话、事件进行进一步分析,如找出突发事件和/或热门事件推送给所需人员。下面分别对识别突发事件和识别热门事件的方案进行说明。
可选地,识别突发事件包括:
步骤1,利用预设的突发事件判别模型分析具有相同分类标签的会话在时间变化基础上的数量变化特征;
步骤2,根据数量变化特征确定目标事件的异常度;
步骤3,在异常度处于异常度阈值范围之外的情况下,确定目标事件为突发事件;
步骤4,按照各个突发事件的异常度的排序结果,生成突发事件排序列表,并将突发事件排序列表推送至目标终端进行展示。
本申请实施例中,突发事件判别模型为预先利用标记有突发事件特征的训练语料对初始神经网络模型进行训练得到的,识别是否为突发事件时,利用某一时段下相同事件的会话的数量变化关系确定数量变化特征。如目标事件为“ID123想退货”,则计算并绘制近两个小时内退货事件的会话的数量变化曲线图作为数量变化特征,计算退货事件的会话数量的增长率、减少率作为异常度,在出现激增或骤降(即异常度处于异常度阈值范围之外)的情况时,判断为突发事件。
又如针对用餐这一事件,用餐事件过长或过短都判断为突发事件。具体地,可以计算一个事件每小时的标准会话范围,如每1小时为一个时间切片(每10分钟切一次,一次切一小时,如10:10~11:10),每个自然天依据时间切片开始时间划分为5个用餐时间,日期类型W区分工作日W1和节假日W2。用餐事件在每一个时间切片中关联会话数量为x,计算x在用餐时间a中的最小会话数量x_a_min=min(x)和最大会话数量x_a_max=max(x),对应的值域范围为x_a_range=[x_a_min,x_a_max]。用餐事件在过去30天的日期类型W的用餐时间a中,每个时间区间中对应的值域范围为x_a_W_range,而用餐事件在过去30天的日期类型W的用餐时间a的标准值域范围为x_a_W_range_std,x_a_W_range_std=[avg(x_a_W_range_min),avg(x_a_W_range_max)],x_a_W_range_min即为各个时间区间内x_a_W_range中的最小值,x_a_W_range_max即为各个时间区间内x_a_W_range中的最大值。该x_a_W_range_std即可表示该异常度阈值范围。若现有在日期类型W的用餐时间P中,用餐事件关联的过去1小时会话量为x',x'高于或低于标准值域范围(x_P_W_range_std)都属于突发情况,可以将x'与标准值域范围间的差异指数化后作为异常度anomaly index=abs(max(x'-x_P_W_range_std))/(x_P_max-x_P_min)*100%。
本申请实施例中,识别出突发事件之后,还可以根据识别出来的多个突发事件的异常度进行排序并生成突发事件榜单(即突发事件排序列表),从而告知目标对象发生榜单所列的突发事件,以辅助目标对象产生相应的决策,上述目标对象可以是客服、企业管理人员等。
本申请实施例中,推送给目标对象的信息可以包括以事件的代表句作为事件名称,显示事件的异常度、事件的会话数以及环比的会话数变化值、事件的分类标签等。
可选地,识别热门事件包括:
步骤1,利用预设的热门事件判别模型分析具有相同分类标签的会话在业务基础上的当前时段的数量特征;
步骤2,根据数量特征确定目标事件的热度;
步骤3,在热度大于或等于业务基础的热度阈值的情况下,确定目标事件为热门事件;
步骤4,按照各个热门事件的热度的排序结果,生成热门事件排序列表,并将热门事件排序列表推送至目标终端进行展示。
本申请实施例中,热门事件判别模型为预先利用标记有热门事件特征的训练语料对初始神经网络模型进行训练得到的,识别是否为热门事件时,利用某一时段下相同事件的会话的数量关系确定数量特征。如目标事件为“ID123想退货”,则计算近两个小时内退货事件的会话总数作为数量特征,再根据数量特征确定该目标事件的热度,如可以按照所在业务领域的先验知识所确定的映射关系将会话总数映射到特定数值范围作为热度,如将庞大的会话数量映射到0至100以表示热度。还可以直接将会话总数作为热度。确定热度之后,再根据所在业务领域的先验知识所认定的热门标准,判断该热度是否达到热门标准,达到热门标准即判断为热门事件。不同领域的受关注度不同,因此按照同一套标准判定某一业务领域内的事件是否为热门事件不符合实际情况,因此需要分业务领域进行热门事件的判断。
本申请实施例中,推送给目标对象的信息可以包括以事件的代表句作为事件名称,显示事件的热度、事件的会话数以及环比的会话数变化值、事件的分类标签等。
本申请不仅可以抽取出反映会话核心内容的事件,还可以针对发生的事件追溯原因,从而为决策者提供改进意见。
可选地,抽取出分类标签对应的目标事件之后,所述方法还包括:
步骤1,将目标事件作为结果事件,并将结果事件和目标会话片段输入预设的因果关系识别模型,以利用因果关系识别模型根据目标会话片段的上下文内容确定导致结果事件发生的原因事件;
步骤2,利用原因事件和结果事件生成事件分析报告,并将事件分析报告推送至目标终端进行展示。
根据本申请实施例的又一方面,如图3所示,提供了一种会话内容识别装置,包括:
获取模块301,用于获取会话文本,并将会话文本分割为至少一个目标会话片段;
分类模块303,用于将目标会话片段输入预设的会话类型识别模型,以对目标会话片段添加分类标签;
事件抽取模块305,用于基于目标会话片段抽取出分类标签对应的目标事件。
需要说明的是,该实施例中的获取模块301可以用于执行本申请实施例中的步骤S202,该实施例中的分类模块303可以用于执行本申请实施例中的步骤S204,该实施例中的事件抽取模块305可以用于执行本申请实施例中的步骤S206。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
可选地,该获取模块,还包括分割单元,用于按照以下方式中的至少之一对目标会话片段进行分割:
确定会话文本中各条消息的发送时间戳;在相邻两条消息的发送时间戳的时间间隔大于或等于第一阈值的情况下,在相邻两条消息处进行片段分割,其中,相邻两条消息被划分至不同的会话片段;
确定会话文本中各条消息的发送时间戳;按照各条消息的发送时间戳所在的时间区间对会话文本进行片段分割;
识别会话文本中的目标关键词,并将目标关键词作为会话片段的结尾对会话文本进行片段分割;
确定会话文本中的会话标识组,其中,会话标识组中包括相匹配的会话开始标识和会话结束标识,不同会话标识组中的标识不匹配;将同一组的会话开始标识至会话结束标识之间的会话消息作为目标会话片段进行分割。
可选地,该事件抽取模块,具体用于:
确定分类标签对应的代表句,其中,代表句为预先从具有相同分类标签的多个训练语料中提取出来的,代表句用于表示分类标签对应的事件类型的事件特征;
将代表句作为特征句标签添加到目标会话片段;
按照特征句标签的预设事件模板,从目标会话片段中抽取代表句中的属性对应的元素,其中,属性包括人物属性、事件属性、位置属性以及时间属性;
按照特征句标签的形式,利用抽取出来的元素组成目标特征句作为事件标签添加到目标会话片段,其中,事件标签用于表示目标事件。
可选地,该会话内容识别装置,还包括代表句抽取模块,用于按照如下方式从具有分类标签的多个训练语料中提取出代表句:
抽取多个训练语料中的句子,并确定各个句子与分类标签的相关度;
提取出与分类标签的相关度大于或等于第二阈值的句子作为核心句;
统计多个训练语料中核心句的出现次数,并按照出现次数对所有核心句进行排序;
选取排序结果中排名最高的核心句作为目标核心句;
将目标核心句作为所代表句,并基于目标核心句创建预设事件模板。
可选地,该会话内容识别装置,还包括突发事件识别模块,用于:
利用预设的突发事件判别模型分析具有相同分类标签的会话在时间变化基础上的数量变化特征;
根据数量变化特征确定目标事件的异常度;
在异常度处于异常度阈值范围之外的情况下,确定目标事件为突发事件;
按照各个突发事件的异常度的排序结果,生成突发事件排序列表,并将突发事件排序列表推送至目标终端进行展示。
可选地,该会话内容识别装置,还包括热门事件识别模块,用于:
利用预设的热门事件判别模型分析具有相同分类标签的会话在业务基础上的当前时段的数量特征;
根据数量特征确定目标事件的热度;
在热度大于或等于业务基础的热度阈值的情况下,确定目标事件为热门事件;
按照各个热门事件的热度的排序结果,生成热门事件排序列表,并将热门事件排序列表推送至目标终端进行展示。
可选地,该会话内容识别装置,还包括原因追溯模块,用于:
将目标事件作为结果事件,并将结果事件和目标会话片段输入预设的因果关系识别模型,以利用因果关系识别模型根据目标会话片段的上下文内容确定导致结果事件发生的原因事件;
利用原因事件和结果事件生成事件分析报告,并将事件分析报告推送至目标终端进行展示。
根据本申请实施例的另一方面,本申请提供了一种电子设备,如图4所示,包括存储器401、处理器403、通信接口405及通信总线407,存储器401中存储有可在处理器403上运行的计算机程序,存储器401、处理器403通过通信接口405和通信总线407进行通信,处理器403执行计算机程序时实现上述方法的步骤。
上述电子设备中的存储器、处理器通过通信总线和通信接口进行通信。所述通信总线可以是外设部件互连标准(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture,简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。
存储器可以包括随机存取存储器(Random Access Memory,简称RAM),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
根据本申请实施例的又一方面还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质。
可选地,在本申请实施例中,计算机可读介质被设置为存储用于所述处理器执行以下步骤的程序代码:
获取会话文本,并将会话文本分割为至少一个目标会话片段;
将目标会话片段输入预设的会话类型识别模型,以对目标会话片段添加分类标签;
基于目标会话片段抽取出分类标签对应的目标事件。
可选地,本实施例中的具体示例可以参考上述实施例中所描述的示例,本实施例在此不再赘述。
本申请实施例在具体实现时,可以参阅上述各个实施例,具有相应的技术效果。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(ApplicationSpecific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable LogicDevice,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文所述功能的单元来实现本文所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种会话内容识别方法,其特征在于,包括:
获取会话文本,并将所述会话文本分割为至少一个目标会话片段;
将所述目标会话片段输入预设的会话类型识别模型,以对所述目标会话片段添加分类标签;
基于所述目标会话片段抽取出所述分类标签对应的目标事件。
2.根据权利要求1所述的方法,其特征在于,将所述会话文本分割为至少一个目标会话片段包括以下方式中的至少之一:
确定所述会话文本中各条消息的发送时间戳;在相邻两条消息的所述发送时间戳的时间间隔大于或等于第一阈值的情况下,在所述相邻两条消息处进行片段分割,其中,所述相邻两条消息被划分至不同的会话片段;
确定所述会话文本中各条消息的发送时间戳;按照各条消息的所述发送时间戳所在的时间区间对所述会话文本进行片段分割;
识别所述会话文本中的目标关键词,并将所述目标关键词作为会话片段的结尾对所述会话文本进行片段分割;
确定所述会话文本中的会话标识组,其中,所述会话标识组中包括相匹配的会话开始标识和会话结束标识,不同会话标识组中的标识不匹配;将同一组的所述会话开始标识至所述会话结束标识之间的会话消息作为所述目标会话片段进行分割。
3.根据权利要求1所述的方法,其特征在于,基于所述目标会话片段抽取出所述分类标签对应的目标事件包括:
确定所述分类标签对应的代表句,其中,所述代表句为预先从具有相同所述分类标签的多个训练语料中提取出来的,所述代表句用于表示所述分类标签对应的事件类型的事件特征;
将所述代表句作为特征句标签添加到所述目标会话片段;
按照所述特征句标签的预设事件模板,从所述目标会话片段中抽取所述代表句中的属性对应的元素,其中,所述属性包括人物属性、事件属性、位置属性以及时间属性;
按照所述特征句标签的形式,利用抽取出来的元素组成目标特征句作为事件标签添加到所述目标会话片段,其中,所述事件标签用于表示所述目标事件。
4.根据权利要求3所述的方法,其特征在于,确定所述分类标签对应的代表句之前,所述方法还包括按照如下方式从具有所述分类标签的多个训练语料中提取出所述代表句:
抽取所述多个训练语料中的句子,并确定各个句子与所述分类标签的相关度;
提取出与所述分类标签的相关度大于或等于第二阈值的句子作为核心句;
统计所述多个训练语料中所述核心句的出现次数,并按照所述出现次数对所有核心句进行排序;
选取排序结果中排名最高的所述核心句作为目标核心句;
将所述目标核心句作为所述代表句,并基于所述目标核心句创建所述预设事件模板。
5.根据权利要求3所述的方法,其特征在于,抽取出所述分类标签对应的目标事件之后,所述方法还包括:
利用预设的突发事件判别模型分析具有相同所述分类标签的会话在时间变化基础上的数量变化特征;
根据所述数量变化特征确定所述目标事件的异常度;
在所述异常度处于异常度阈值范围之外的情况下,确定所述目标事件为突发事件;
按照各个所述突发事件的异常度的排序结果,生成突发事件排序列表,并将所述突发事件排序列表推送至目标终端进行展示。
6.根据权利要求3所述的方法,其特征在于,抽取出所述分类标签对应的目标事件之后,所述方法还包括:
利用预设的热门事件判别模型分析具有相同所述分类标签的会话在业务基础上的当前时段的数量特征;
根据所述数量特征确定所述目标事件的热度;
在所述热度大于或等于所述业务基础的热度阈值的情况下,确定所述目标事件为热门事件;
按照各个所述热门事件的热度的排序结果,生成热门事件排序列表,并将所述热门事件排序列表推送至目标终端进行展示。
7.根据权利要求1至6任一所述的方法,其特征在于,抽取出所述分类标签对应的目标事件之后,所述方法还包括:
将所述目标事件作为结果事件,并将所述结果事件和所述目标会话片段输入预设的因果关系识别模型,以利用所述因果关系识别模型根据所述目标会话片段的上下文内容确定导致所述结果事件发生的原因事件;
利用所述原因事件和所述结果事件生成事件分析报告,并将所述事件分析报告推送至目标终端进行展示。
8.一种会话内容识别装置,其特征在于,包括:
获取模块,用于获取会话文本,并将所述会话文本分割为至少一个目标会话片段;
分类模块,用于将所述目标会话片段输入预设的会话类型识别模型,以对所述目标会话片段添加分类标签;
事件抽取模块,用于基于所述目标会话片段抽取出所述分类标签对应的目标事件。
9.一种电子设备,包括存储器、处理器、通信接口及通信总线,所述存储器中存储有可在所述处理器上运行的计算机程序,所述存储器、所述处理器通过所述通信总线和所述通信接口进行通信,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行所述权利要求1至7任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111268692.4A CN113705250B (zh) | 2021-10-29 | 2021-10-29 | 会话内容识别方法、装置、设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111268692.4A CN113705250B (zh) | 2021-10-29 | 2021-10-29 | 会话内容识别方法、装置、设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113705250A true CN113705250A (zh) | 2021-11-26 |
CN113705250B CN113705250B (zh) | 2022-02-22 |
Family
ID=78647483
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111268692.4A Active CN113705250B (zh) | 2021-10-29 | 2021-10-29 | 会话内容识别方法、装置、设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113705250B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114338586A (zh) * | 2021-12-21 | 2022-04-12 | 中国农业银行股份有限公司 | 一种消息推送方法、装置、电子设备及存储介质 |
CN114417817A (zh) * | 2021-12-30 | 2022-04-29 | 中国电信股份有限公司 | 一种会话信息切割方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107277095A (zh) * | 2016-04-07 | 2017-10-20 | 阿里巴巴集团控股有限公司 | 会话分割方法及装置 |
CN111798871A (zh) * | 2020-09-08 | 2020-10-20 | 共道网络科技有限公司 | 会话环节识别方法、装置及设备、存储介质 |
CN111970311A (zh) * | 2020-10-23 | 2020-11-20 | 北京世纪好未来教育科技有限公司 | 会话切分方法、电子设备及计算机可读介质 |
WO2020248524A1 (zh) * | 2019-06-13 | 2020-12-17 | 苏州思必驰信息科技有限公司 | 人机对话方法及电子设备 |
US20210264812A1 (en) * | 2017-10-17 | 2021-08-26 | Reallingua Inc. | Language learning system and method |
-
2021
- 2021-10-29 CN CN202111268692.4A patent/CN113705250B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107277095A (zh) * | 2016-04-07 | 2017-10-20 | 阿里巴巴集团控股有限公司 | 会话分割方法及装置 |
US20210264812A1 (en) * | 2017-10-17 | 2021-08-26 | Reallingua Inc. | Language learning system and method |
WO2020248524A1 (zh) * | 2019-06-13 | 2020-12-17 | 苏州思必驰信息科技有限公司 | 人机对话方法及电子设备 |
CN111798871A (zh) * | 2020-09-08 | 2020-10-20 | 共道网络科技有限公司 | 会话环节识别方法、装置及设备、存储介质 |
CN111970311A (zh) * | 2020-10-23 | 2020-11-20 | 北京世纪好未来教育科技有限公司 | 会话切分方法、电子设备及计算机可读介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114338586A (zh) * | 2021-12-21 | 2022-04-12 | 中国农业银行股份有限公司 | 一种消息推送方法、装置、电子设备及存储介质 |
CN114417817A (zh) * | 2021-12-30 | 2022-04-29 | 中国电信股份有限公司 | 一种会话信息切割方法和装置 |
CN114417817B (zh) * | 2021-12-30 | 2023-05-16 | 中国电信股份有限公司 | 一种会话信息切割方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113705250B (zh) | 2022-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108334533B (zh) | 关键词提取方法和装置、存储介质及电子装置 | |
US11050700B2 (en) | Action response selection based on communication message analysis | |
US20190138653A1 (en) | Calculating relationship strength using an activity-based distributed graph | |
WO2019095417A1 (zh) | 广告实时推荐方法、装置、终端设备及存储介质 | |
CN113705250B (zh) | 会话内容识别方法、装置、设备及计算机可读介质 | |
US20080059447A1 (en) | System, method and computer program product for ranking profiles | |
CN107193974B (zh) | 基于人工智能的地域性信息确定方法和装置 | |
CN112486917A (zh) | 从多个微博自动生成信息丰富的内容的方法以及系统 | |
CN110727761B (zh) | 对象信息获取方法、装置及电子设备 | |
US10002187B2 (en) | Method and system for performing topic creation for social data | |
CN111125566B (zh) | 信息获取方法和装置、电子设备和存储介质 | |
US12010082B2 (en) | Systems and methods for automatically identifying spam in social media comments based on context | |
JP6392042B2 (ja) | 情報提供装置、情報を提供する方法およびプログラム | |
CN112632405A (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN112307318B (zh) | 一种内容发布方法、系统及装置 | |
CN112905745A (zh) | 信息处理方法、装置、电子设备和计算机可读存储介质 | |
CN113190746A (zh) | 推荐模型的评估方法、装置及电子设备 | |
US11258741B2 (en) | Systems and methods for automatically identifying spam in social media comments | |
JP2017091376A (ja) | 広告システム及び広告配信方法 | |
US20230015090A1 (en) | Systems and Methods for Dynamically Classifying Products and Assessing Applicability of Product Regulations | |
CN113450172A (zh) | 一种商品推荐方法和装置 | |
CN113468206B (zh) | 数据维护方法、装置、服务器、介质及产品 | |
CN113010664B (zh) | 一种数据处理方法、装置及计算机设备 | |
CN113239177A (zh) | 知识点查询方法、装置、服务器、介质及产品 | |
US20180189699A1 (en) | A method and system for locating regulatory information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |