CN111970311B - 会话切分方法、电子设备及计算机可读介质 - Google Patents
会话切分方法、电子设备及计算机可读介质 Download PDFInfo
- Publication number
- CN111970311B CN111970311B CN202011149037.2A CN202011149037A CN111970311B CN 111970311 B CN111970311 B CN 111970311B CN 202011149037 A CN202011149037 A CN 202011149037A CN 111970311 B CN111970311 B CN 111970311B
- Authority
- CN
- China
- Prior art keywords
- session
- detection
- conversation
- end point
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L65/00—Network arrangements, protocols or services for supporting real-time applications in data packet communication
- H04L65/1066—Session management
- H04L65/1083—In-session procedures
- H04L65/1086—In-session procedures session scope modification
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种会话切分方法、电子设备和计算机可读介质,其中,会话切分方法包括:为多媒体数据中的当前会话确定会话开始点;以会话开始点为起始点,判断在预设会话区间内是否存在满足基准检测标准的会话,其中,基准检测标准用于指示基准检测所使用的检测规则,检测规则用于检测预设会话区间内的多媒体数据中是否存在完整会话;若存在,则根据满足基准检测标准的会话的结束点,确定当前会话的候选会话结束点;对确定的会话开始点和候选会话结束点之间的会话,按照预设的检测优先级进行至少一级会话结束点辅助检测;根据辅助检测的检测结果,确定当前会话的会话结束点;根据会话开始点和会话结束点,对多媒体数据进行会话切分。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种会话切分方法、电子设备和计算机可读介质。
背景技术
随着互联网兴起,在大量场景下出现了包含一对一对话的多媒体音视频,例如一对一教学场景、一对一访谈场景等。使用会话切分技术,对这些场景下的多媒体音视频进行会话切分,以进行后续的数据利用和技术改进成为重点技术之一。
通过会话切分技术,可以将长段的多媒体音视频中的会话分割成有效会话片段。目前,会话切分的流程为检测会话开始点然后再检测会话结束点,基于检测出的会话开始点和会话结束点进行会话切分。现有的会话结束点检测多通过语义相似度判断的方式,但该种基于语义的方式考量因素过于单一,无法实现会话的准确切分。
发明内容
本发明提供了一种会话切分方案,以至少部分解决上述问题。
根据本发明实施例的第一方面,提供了一种会话切分方法,包括:为多媒体数据中的当前会话确定会话开始点;以所述会话开始点为起始点,判断在预设会话区间内是否存在满足基准检测标准的会话,其中,所述基准检测标准用于指示基准检测所使用的检测规则,所述检测规则用于检测所述预设会话区间内的多媒体数据中是否存在完整会话;若存在,则根据满足所述基准检测标准的会话的结束点,确定当前会话的候选会话结束点;对确定的所述会话开始点和所述候选会话结束点之间的会话,按照预设的检测优先级进行至少一级会话结束点辅助检测;根据所述辅助检测的检测结果,确定当前会话的会话结束点;根据所述会话开始点和所述会话结束点,对所述多媒体数据进行会话切分。
根据本发明实施例的第二方面,提供了一种电子设备,所述设备包括:一个或多个处理器;计算机可读介质,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的会话切分方法。
根据本发明实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的会话切分方法。
根据本发明实施例提供的方案, 针对包含会话的多媒体体数据中的每个会话,先为其确定会话开始点,进而对其进行基准检测以判断该会话中是否存在满足基准检测标准的会话,基准检测可以认为是一种粗检测,通过基准检测可大概确定出一个完整会话,获得当前会话的候选会话结束点;接着,再基于会话开始点和该候选会话结束点,对当前会话进行精准检测,即至少一级会话结束点的辅助检测,通过该辅助检测确定更为精准的会话结束点;在具有了准确的会话开始点和会话结束点之后,即可基于此对多媒体数据进行会话切分,将当前会话从多媒体数据中准确地切分出来。相较于现有的仅通过语义相似度切分的方式,本发明实施例的方案通过多层级、多模态的会话结束点检测,有效避免了语义相似度检测因考量因素过于单一而导致检测准确度不高,进而导致会话切分准确度不高的问题。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明实施例一的一种会话切分方法的步骤流程图;
图2为根据本发明实施例二的一种会话切分方法的步骤流程图;
图3A为根据本发明实施例三的一种会话切分方法的步骤流程图;
图3B为图3A实施例中的一种会话结束点检测的过程示意图;
图4为根据本发明实施例四的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅配置为解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
实施例一
参照图1,示出了根据本发明实施例一的一种会话切分方法的步骤流程图。
本实施例的会话切分方法包括以下步骤:
步骤S102:为多媒体数据中的当前会话确定会话开始点。
其中,所述多媒体数据可以为包括音频数据和视频数据中的至少一种的数据。该多媒体数据中包含有至少一个会话,每个会话包括至少一句语句,每个会话都对应有相应的会话开始点。
会话开始点的确定可由本领域技术人员采用适当方式实现,例如,可以先对多媒体数据进行语音识别,以识别出其中每一句话(即每一句语句)对应的文本,该文本还同时具有时间信息如时间戳。此种情况下,会话开始点实现为会话中的第一个语句的会话开始时间点。但不限于此,会话开始点也可以实现为会话开始的多媒体数据帧如开始音频帧或开始视频帧等,均在本发明实施例的保护范围内。
步骤S104:以会话开始点为起始点,判断在预设会话区间内是否存在满足基准检测标准的会话。
其中,基准检测标准用于指示基准检测所使用的检测规则,所述检测规则用于检测所述预设时间段内的多媒体数据中是否存在完整会话。
所述预设会话区间可以为预设时间段或者预设时间帧的数量,具体的预设时间段或预设时间帧的数量的设置可以由本领域技术人员根据实际需求适当设置。在具体设置时,可以根据大数据统计的结果、或者经验值、或者实验数据来设定,可使得在该预设会话区间内可以包括一句完整的会话即可。在一种可行方式中,采用预设时间段的方式,所述预设时间段可以为3分钟。
本实施例中,首先使用基准检测的检测规则,对自会话开始点开始的预设会话区间内的多媒体数据进行基准检测,通过该基准检测可以确定所述多媒体数据在该预设会话区间内是否存在一个具有完整语义的会话,该具有完整语义的会话至少包括两方,其中一方为主要发言方,另一方可以认为是反馈方。在一种可行方式中,该反馈可以为低热度反馈,用于指示一个用户对另一个用户的发言未进行回复或仅进行了简要回复等。在实际应用中,该基准检测的检测规则可以实现为诸如:一个用户对于另一个用户的发言的反馈及其时间的检测,如用户A发言后用户B静默了5S,或者,用户A发言后用户B仅回复了一个字,等等。
在很多场景下,尤其是老师和学生的一对一教学场景下,相对于老师的发言,学生的发言则少得多。因此,当将上述基准规则应用于教学场景的多媒体数据中时,可有效进行会话的粗划分。
但本领域技术人员应当明了的是,虽然本发明实施例中将其称为粗划分,但相较于常规的粗划分仍具有更高的准确度。此外,上述低热度反馈仅为其中一种可能的反馈方式,在其它场景下,如对话访谈场景下,则可能为非低热度反馈,也即一个用户对另一个用户的发言进行了积极回复或其回复发言量更多等等。上述方式均在本发明实施例的保护范围内。
步骤S106:若在预设会话区间内存在满足基准检测标准的会话,则根据满足基准检测标准的会话的结束点,确定当前会话的候选会话结束点。
若在预设会话区间内,多媒体数据中存在满足基准检测标准的会话,则可根据该会话的结束点,如结束时间点或结束数据帧,来确定当前会话的候选会话结束点。例如,可直接将该会话的结束点确定为候选会话结束点,或者,将该会话结束点之后的某个时间点或数据帧确定为候选会话结束点。
步骤S108:对确定的会话开始点和候选会话结束点之间的会话,按照预设的检测优先级进行至少一级会话结束点辅助检测。
其中,会话结束点辅助检测用于基于基准检测的结果,进行进一步的准确检测。在实际应用中,本领域技术人员可根据实际需要设置适当的辅助检测方式,如语义检测、关键词检测等等,以实现基于粗检测基础上的细检测。
当辅助检测包括多种方式时,还可为该多种方式设置检测优先级。检测优先级的具体设置也可由本领域技术人员根据实际情况适当设置,以能够以最快速度进行最为精准的检测为原则。通过该至少一级辅助检测,即可对基于基准检测获得的候选会话结束点进行修正,以获得最终的会话结束点。
由上述过程可见,基准检测获得的候选会话结束点位于自会话开始点为起点的预设会话区间内,而最终确定的会话结束点则位于自会话开始点始,至候选会话结束点止的会话区间(如某时间点或某多媒体数据帧)内。
步骤S110:根据所述辅助检测的检测结果,确定当前会话的会话结束点。
如上所述,通过辅助检测,在候选会话结束点的基础上,可获得更为精准的最终的会话结束点。与前述相同,该会话结束点可以为具体的某一时间点也可以为具体的某一多媒体数据帧。
步骤S112:根据会话开始点和会话结束点,对多媒体数据进行会话切分。
在确定了当前会话的会话开始点和会话结束点之后,即可将当前会话从多媒体数据中切分出来。
当然,如果多媒体数据中包含有多个会话,可每确定一个会话的会话开始点和会话结束点后,即进行该会话的切分;也可以在所有会话的会话开始点和会话结束点确定后,对多媒体数据进行整体切分,将所有会话都从多媒体数据中切分出来。
通过本实施例,针对包含会话的多媒体体数据中的每个会话,先为其确定会话开始点,进而对其进行基准检测以判断该会话中是否存在满足基准检测标准的会话,基准检测可以认为是一种粗检测,通过基准检测可大概确定出一个完整会话,获得当前会话的候选会话结束点;接着,再基于会话开始点和该候选会话结束点,对当前会话进行精准检测,即至少一级会话结束点的辅助检测,通过该辅助检测确定更为精准的会话结束点;在具有了准确的会话开始点和会话结束点之后,即可基于此对多媒体数据进行会话切分,将当前会话从多媒体数据中准确地切分出来。相较于现有的仅通过语义相似度切分的方式,本发明实施例的方案通过多层级、多模态的会话结束点检测,有效避免了语义相似度检测因考量因素过于单一而导致检测准确度不高,进而导致会话切分准确度不高的问题。
本实施例的会话切分方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、PC机和移动终端等。
实施例二
参照图2,示出了根据本发明实施例二的一种会话切分方法的步骤流程图。
本实施例的会话切分方法包括以下步骤:
步骤S202:对多媒体数据进行语音检测,获得其中包含的多个语句的语句起始点。
本实施例中,以多媒体数据中包含多个(两个及两个以上)语句为例,但本领域技术人员应当明了,仅包含一个语句的多媒体数据同样适用本发明实施例的方案。
对多媒体数据的语音检测可以由本领域技术人员采用任意适当的方式实现,如,ASR(Automatic Speech Recognition,自动语音识别)方式等,本发明实施例对此不作限制。
通过对多媒体数据进行语音检测,可以获得其中的每个语句对应的文本、每个语句的起始点,如起始时间点或起始帧,还可以获得每个语句对应的用户等。本发明实施例中,语句为会话的组成单位,每个会话包括至少一个语句。例如,“同学们好!”-“老师好!”,其中包括两个语句,分别为“同学们好!”和“老师好!”,但其形成一个会话,即“同学们好!老师好!”。但不能排除的是,在某些情况下,一个会话中也可能仅包含一个语句。
步骤S204:为多媒体数据中的当前会话确定会话开始点。
如前所述,一个会话由至少一个语句构成,因此,可将该会话中的首个语句的起始点确定为一个会话的会话开始点。但对于会话来说,若不经过结束点检测,则无法获得一个完整会话。因此,在实际应用中,需要先将一个语句的起始点作为会话开始点,再进行会话结束点检测,在确定了会话结束点之后,才能确定该会话。之后,可以将距离该会话最近的一个语句的起始点确定为下一会话的会话开始点,继续进行下一会话的会话结束点检测,以获得下一个会话。该过程在多媒体数据中持续执行,直至完成最后一个会话的确定。因此,在本发明实施例中,当前会话即为当前处理的、待确定会话结束点的会话。在该会话处理完成后,下一会话将成为新的当前会话。
步骤S206:以会话开始点为起始点,判断在预设会话区间内是否存在满足基准检测标准的会话;若存在,则执行步骤S208;若不存在,则执行步骤S214。
其中,所述基准检测标准用于指示基准检测所使用的检测规则,所述检测规则用于检测所述预设会话区间内的多媒体数据中是否存在完整会话。
本实施例中,所述基准检测所使用的检测规则包括以下至少之一:
(1)用于指示第一用户的发言结束后,第二用户的静默时长达到预设时长的静默检测规则。
其中,所述预设时长可由本领域技术人员根据实际需求适当设置,可以一个常规语句时长为基准进行设置,本发明实施例对此不作限制。通过该检测规则,可以对第二用户未能及时对第一用户的发言作出反馈或者没有反馈的情况进行有效检测。
(2)用于指示第一用户的发言满足第一预设阈值,且第二用户对第一用户的发言的回应少于第二预设阈值的发言量检测规则。
其中,第一预设阈值为连续发言的次数阈值、或发言量阈值、或发言时长阈值;第二预设阈值为发言量阈值或发言时长阈值。第一预设阈值大于第二预设阈值,具体的阈值设置由本领域技术人员根据实际需求设置。通过该检测规则,可以对第二用户的消极反馈情况进行检测。
(3)用于指示发言密度小于第三预设阈值的发言密度检测规则。
其中,所述发言密度根据第二用户的发言量与第一用户的发言量的比值确定。第三预设阈值同样可由本领域技术人员根据实际需求适当设置。通过该检测规则,以发言密度为依据,检测更为精准。
上述三种方式在实际应用中可任意结合使用,通过上述检测规则,可对多种不同的会话场景情况进行有效检测,尤其适用于教学场景中老师与学生的交互会话场景。
步骤S208:根据满足所述基准检测标准的会话的结束点,确定当前会话的候选会话结束点。
例如,将会话中满足上述三种基准检测的检测规则的最后一个语句的结束时间点或结束数据帧,作为当前会话的候选会话结束点。
步骤S210:对确定的所述会话开始点和所述候选会话结束点之间的会话,按照预设的检测优先级进行至少一级会话结束点辅助检测。
本实施例中,所述辅助检测包括:用于判断会话是否为第一用户对第二用户的言语鼓励会话的鼓励检测;用于判断会话中先后两句语句的语义相似度的语义检测;用于判断会话中是否存在预设关键信息的关键信息检测;其中,所述鼓励检测的优先级高于所述语义检测,所述语义检测的优先级高于所述关键信息检测。也即,本实施例中,同时使用了上述四种辅助检测,但本领域技术人员应当明了的是,在实际应用中,可以在上述四种辅助检测中选择至少一种使用。而若选择了多种,则该多种可为上述四种的任意组合。并且,本领域技术人员也可根据需求调整上述辅助检测的优先级。通过上述辅助检测,可实现对会话结束点的精确确定。
基于上述辅助检测,本步骤可以实现为:对确定的所述会话开始点和所述候选会话结束点之间的会话,按照优先级从高到低的顺序依次进行所述鼓励检测、语义检测和关键信息检测中的至少一种。该种方式中,充分考虑了不同辅助检测的准确程度,优先使用准确度更高的辅助检测,若优先级高的辅助检测能确定会话结束点,则无需再进行后续检测。由此,既提高了检测效率,又尽可能地减少了数据处理负担。
其中:
在具体进行鼓励检测时,可以对确定的所述会话开始点和所述候选会话结束点之间的会话,判断所述会话中是否存在第一用户对第二用户的言语鼓励;若存在,则判断所述言语鼓励是否发生在第二用户的发言之后,若是,则将所述言语鼓励的结束点确定为会话结束点;若不存在,则对确定的所述会话开始点和所述候选会话结束点之间的会话,按照优先级从高到低的顺序依次进行语义检测和关键信息检测中的至少一种。在现实场景中,有时鼓励可能并不是针对第二用户的发言,因此,通过这种方式,可以过滤掉不是针对第二用户的发言的言语鼓励,避免误检。
其中,是否存在言语鼓励的具体判断可由本领域技术人员根据实际需求采用适当方式实现,包括但不限于:鼓励关键词匹配方式、神经网络模型检测方式等等,本发明实施例对此不作限制。言语鼓励的结束点可以为鼓励语句的结束时间点或结束数据帧。
在具体进行语义检测时,可以对确定的所述会话开始点和所述候选会话结束点之间的会话进行鼓励检测,判断所述会话中是否存在第一用户对第二用户的言语鼓励;若不存在,则获取所述会话中各个语句对应的特征文本,根据相邻的先后两句语句的特征文本,计算先后两句语句的语义相似度;若存在语义相似度低于预设相似度阈值的两句语句,则根据两句语句中在先语句的结束点确定会话结束点;若不存在语义相似度低于预设相似度阈值的两句语句,则进行关键信息检测。
其中,预设相似度阈值可以由本领域技术人员根据实际需求适当设定,如可以设定为0.6等。另外,获取各个语句对应的特征文本及语义相似度计算的具体实现也可由本领域技术人员根据实际需求采用适当方式,如通过特征提取算法或卷积算法提取特征文本,通过余弦距离等计算语义相似度,等等。在先语句的结束点可以为两句语句中前面语句的结束时间点或结束数据帧。通过语义检测的方式,能够从语义角度确定会话结束点。
在具体进行关键信息检测时,可以对确定的所述会话开始点和所述候选会话结束点之间的会话进行鼓励检测,判断所述会话中是否存在所述第一用户对所述第二用户的言语鼓励;若不存在,则对确定的所述会话开始点和所述候选会话结束点之间的会话进行语义检测,判断所述会话中是否存在语义相似度低于预设相似度阈值的先后两句语句;若不存在,则按照预设粒度对确定的所述会话开始点和所述候选会话结束点之间的会话进行关键信息检测,其中,所述预设粒度包括:多个关键词组合的关键词粒度、关键语句的语句粒度、关键词与关键语句组合的混合粒度;根据关键信息检测的检测结果,确定所述会话结束点。
这种方式中,若所述会话开始点和所述候选会话结束点之间的会话中,存在与关键信息相匹配的语句,则该语句的结束点如结束时间点或结束数据帧,即为会话结束点。这种方式实现简单,且可灵活设定各种检测粒度,可灵活地实现会话结束点的检测。
在实际应用中,上述鼓励检测、语义检测和关键信息检测的具体实现方式可结合使用也可择一使用,可由本领域技术人员根据实际需求设定,以实现会话结束的准确、有效检测。
步骤S212:根据所述辅助检测的检测结果,确定当前会话的会话结束点。然后,执行步骤S216。
如上所述,通过一种或多种辅助检测,即可有效实现会话结束点的确定。
步骤S214:若在预设会话区间内不存在满足所述基准检测标准的会话,则根据所述会话开始点和所述预设会话区间,确定会话结束点。然后,执行步骤S216。
在某些情况下,通过基准检测,无法对多媒体数据中的会话进行有效检测。此时,可以根据所述会话开始点和所述预设会话区间,确定会话结束点。
例如,当预设会话区间为预设时间段时,则可将会话开始时间点加上该预设时间段后的时间点确定为会话结束点。
当预设会话区间为预设数据帧的数量时,则可将会话开始数据帧加上该预设数据帧数量后的数据帧确定为会话结束点。
由此,可有效避免系统因基准检测无法检测到会话结束点时出现的异常,保证当前会话可被正常处理,而后续的会话仍可按照本实施例的前述方式进行处理,而不会产生影响,最大程度保证获取到的会话结束点的准确性。
步骤S216:根据所述会话开始点和所述会话结束点,对多媒体数据进行会话切分。
在确定了当前会话的会话开始点和会话结束点之后,即可对多媒体数据进行会话切分。如,将当前会话从多媒体数据中切分出来,或者,待该多媒体数据中的所有会话的会话开始点和会话结束点均确定后,一次性将所有会话从多媒体数据中切分出来。当然,也可以只进行部分会话的切分,本发明实施例不对具体会话切分的实现方式进行限制。
通过本实施例,针对包含会话的多媒体体数据中的每个会话,先为其确定会话开始点,进而对其进行基准检测以判断该会话中是否存在满足基准检测标准的会话,基准检测可以认为是一种粗检测,通过基准检测可大概确定出一个完整会话,获得当前会话的候选会话结束点;接着,再基于会话开始点和该候选会话结束点,对当前会话进行精准检测,即至少一级会话结束点的辅助检测,通过该辅助检测确定更为精准的会话结束点;在具有了准确的会话开始点和会话结束点之后,即可基于此对多媒体数据进行会话切分,将当前会话从多媒体数据中准确地切分出来。相较于现有的仅通过语义相似度切分的方式,本发明实施例的方案通过多层级、多模态的会话结束点检测,有效避免了语义相似度检测因考量因素过于单一而导致检测准确度不高,进而导致会话切分准确度不高的问题。
本实施例的会话切分方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、PC机和移动终端等。
实施例三
参照图3A,示出了根据本发明实施例三的一种会话切分方法的步骤流程图。
本实施例以一个具体实例的形式,对本发明实施例提供的会话切分方法进行说明。该具体实例以一对一教学为场景,多媒体数据采用包含音频的视频形式,以老师与学生的对话为会话形式。
基于此,本实施例的会话切分方法包括以下步骤:
步骤S302:为视频中的会话确定会话开始点,并检测各个会话的会话结束点。
初始时,可以以视频中老师说的第一句话为会话开始点,检测会话结束点。在一个会话的会话开始点和会话结束点确定后,可将最接近的下一语句的起始点作为下一个会话的会话开始点,继续进行该会话的会话结束点检测,直至完成视频中的所有会话检测。
其中,检测会话结束点的过程如图3B所示,该过程包括:
子步骤S3022:首先进行基准检测,判断是否可确定候选会话结束点;若可确定,则输出候选会话结束点;否则,执行子步骤S3030兜底检测的步骤。
本实施例中,基准检测也称为红线检测。从会话开始点往后看3min寻找视频中是否出现红线行为(即满足基准检测的检测规则的行为),其中,检测规则包括:
1、静默检测规则
即检测学生的静默时间是否过长。例如,老师提问完,学生10s没有回答;或者,学生说完后静默10s。则将静默后10s确定为候选会话结束点。
2、发言量检测规则
即检测是否存在学生说话少的情况。例如,老师连续说5句话或者20s,且学生回应总字数少于5个字,则将20s之后的一句话的结束点确定为候选会话结束点。
3、发言密度检测规则
即检测是否存在学生说话密度低的情况。其中,说话密度=学生字数/老师字数。例如,可以以10s为窗口滑动计算密度,如果密度低于20%,则将密度低于20%的那句话的结束点确定为候选结束点。
本实施例中,上述三种方式并行使用,其中任何一种满足,即可给出候选会话结束点。
需要说明的是,若上述三种方式均不满足,则可在会话开始点+预设时间段内进行后续检测,如,在[会话开始点,开始点+3min]的时间段内进行后续鼓励检测、语义检测、关键信息检测中的至少一种。
此外,若不能检测出候选会话结束点,则可执行子步骤S3030的兜底检测,具体到本实施例,即以“会话开始点+3min”为会话结束点。
子步骤S3024:基于候选会话结束点,进行鼓励检测,若可根据鼓励检测结果确定会话结束点,则输出该会话结束点;否则,执行子步骤S3026。
例如,在会话开始点和候选会话结束点之间,可以利用鼓励模型检测视频中老师是否存在鼓励行为(言语鼓励),若存在,则判断该鼓励行为是否发生在学生说话后(用以防止口头禅式鼓励),若是则将该鼓励行为对应的语句的结束点(图3B中示意为该语句的结束时间戳)输出为会话结束点,否则进行下一级检测,即子步骤S3026的语义检测。
子步骤S3026:基于候选会话结束点,进行语义检测,若可根据语义检测结果确定会话结束点,则输出该会话结束点;否则,执行子步骤S3028。
例如,对于会话开始点和候选会话结束点之间的所有语句,提取每一个语句的句子分词,获取各个句子分词对应的词向量,并进行特征提取,然后求均值得到200维度的、各个句子分词对应的特征文本feature_text。每一语句和下一语句计算余弦相似度,若相似度低于0.6则将两个语句中在前的语句的结束点(图3B中示意为该语句的结束时间戳)输出为会话结束点;否则,进行下一级检测,即子步骤S3028的关键信息检测。
子步骤S3028:基于候选会话结束点,进行关键信息检测,若可根据关键信息检测结果确定会话结束点,则输出该会话结束点;否则,执行子步骤S3030。
本实施例中,关键信息检测也称为pattern检测。可以预设多级相关pattern,例如“下一题类pattern”:其中包含“下一题”、“这节课”、“下一问”、“我们再一起看一下”、“我们再看一个例子”等多个粒度的多个关键信息。若pattern检测到预设的关键信息,即pattern,则将包含上述关键信息的最后一个语句的结束点(图3B中示意为pattern击中语句的结束时间戳)确定为会话结束点并输出;否则,执行子步骤S3030。
子步骤S3030:进行兜底检测。
若以上检测方式均未能确定会话结束点,则取会话开始点+预设时间段为会话结束点,例如,图3B中以“会话开始点+3min”为会话结束点。
步骤S304:在视频结束后,根据会话开始点和会话结束点,输出所有会话片段。
通过本实施例,针对包含会话的多媒体体数据中的每个会话,先为其确定会话开始点,进而对其进行基准检测以判断该会话中是否存在满足基准检测标准的会话,基准检测可以认为是一种粗检测,通过基准检测可大概确定出一个完整会话,获得当前会话的候选会话结束点;接着,再基于会话开始点和该候选会话结束点,对当前会话进行精准检测,即至少一级会话结束点的辅助检测,通过该辅助检测确定更为精准的会话结束点;在具有了准确的会话开始点和会话结束点之后,即可基于此对多媒体数据进行会话切分,将当前会话从多媒体数据中准确地切分出来。相较于现有的仅通过语义相似度切分的方式,本发明实施例的方案通过多层级、多模态的会话结束点检测,有效避免了语义相似度检测因考量因素过于单一而导致检测准确度不高,进而导致会话切分准确度不高的问题。
本实施例的会话切分方法可以由任意适当的具有数据处理能力的电子设备执行,包括但不限于:服务器、PC机和移动终端等。
实施例四
图4为本发明实施例四中电子设备的硬件结构,如图4所示,该电子设备可以包括:处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403、以及通信总线404。
其中:
处理器401、通信接口402、以及存储器403通过通信总线404完成相互间的通信。
通信接口402,用于与其它电子设备或服务器进行通信。
处理器401,用于执行程序405,具体可以执行上述会话切分方法实施例中的相关步骤。
具体地,程序405可以包括程序代码,该程序代码包括计算机操作指令。
处理器401可能是中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器403,用于存放程序405。存储器403可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序405具体可以用于使得处理器401执行以下操作:为多媒体数据中的当前会话确定会话开始点;以所述会话开始点为起始点,判断在预设会话区间内是否存在满足基准检测标准的会话,其中,所述基准检测标准用于指示基准检测所使用的检测规则,所述检测规则用于检测所述预设会话区间内的多媒体数据中是否存在完整会话;若存在,则根据满足所述基准检测标准的会话的结束点,确定当前会话的候选会话结束点;对确定的所述会话开始点和所述候选会话结束点之间的会话,按照预设的检测优先级进行至少一级会话结束点辅助检测;根据所述辅助检测的检测结果,确定当前会话的会话结束点;根据所述会话开始点和所述会话结束点,对所述多媒体数据进行会话切分。
在一种可选的实施方式中,所述基准检测所使用的检测规则包括以下至少之一:用于指示第一用户的发言结束后,第二用户的静默时长达到预设时长的静默检测规则;用于指示第一用户的发言满足第一预设阈值,且第二用户对所述第一用户的发言的回应少于第二预设阈值的发言量检测规则;用于指示发言密度小于第三预设阈值的发言密度检测规则,其中,所述发言密度根据第二用户的发言量与第一用户的发言量的比值确定。
在一种可选的实施方式中,所述第一预设阈值为连续发言的次数阈值、或发言量阈值、或发言时长阈值;所述第二预设阈值为发言量阈值或发言时长阈值。
在一种可选的实施方式中,所述辅助检测包括:用于判断会话是否为所述第一用户对所述第二用户的言语鼓励会话的鼓励检测;用于判断会话中先后两句语句的语义相似度的语义检测;用于判断会话中是否存在预设关键信息的关键信息检测;其中,所述鼓励检测的优先级高于所述语义检测,所述语义检测的优先级高于所述关键信息检测;程序405还用于使得处理器401在对确定的所述会话开始点和所述候选会话结束点之间的会话,按照预设的检测优先级进行至少一级会话结束点辅助检测时,对确定的所述会话开始点和所述候选会话结束点之间的会话,按照优先级从高到低的顺序依次进行所述鼓励检测、语义检测和关键信息检测中的至少一种。
在一种可选的实施方式中,程序405还用于使得处理器401在对确定的所述会话开始点和所述候选会话结束点之间的会话,按照优先级从高到低的顺序依次进行所述鼓励检测、语义检测和关键信息检测中的至少一种时,对确定的所述会话开始点和所述候选会话结束点之间的会话,判断所述会话中是否存在所述第一用户对所述第二用户的言语鼓励;若存在,则判断所述言语鼓励是否发生在所述第二用户的发言之后,若是,则将所述言语鼓励的结束点确定为会话结束点;若不存在,则对确定的所述会话开始点和所述候选会话结束点之间的会话,按照优先级从高到低的顺序依次进行语义检测和关键信息检测中的至少一种。
在一种可选的实施方式中,程序405还用于使得处理器401在对确定的所述会话开始点和所述候选会话结束点之间的会话,按照优先级从高到低的顺序依次进行所述鼓励检测、语义检测和关键信息检测中的至少一种时,对确定的所述会话开始点和所述候选会话结束点之间的会话进行鼓励检测,判断所述会话中是否存在所述第一用户对所述第二用户的言语鼓励;若不存在,则获取所述会话中各个语句对应的特征文本,根据相邻的先后两句语句的特征文本,计算先后两句语句的语义相似度;若存在语义相似度低于预设相似度阈值的两句语句,则根据两句语句中在先语句的结束点确定所述会话结束点;若不存在语义相似度低于预设相似度阈值的两句语句,则进行关键信息检测。
在一种可选的实施方式中,程序405还用于使得处理器401在对确定的所述会话开始点和所述候选会话结束点之间的会话,按照优先级从高到低的顺序依次进行所述鼓励检测、语义检测和关键信息检测中的至少一种时,对确定的所述会话开始点和所述候选会话结束点之间的会话进行鼓励检测,判断所述会话中是否存在所述第一用户对所述第二用户的言语鼓励;若不存在,则对确定的所述会话开始点和所述候选会话结束点之间的会话进行语义检测,判断所述会话中是否存在语义相似度低于预设相似度阈值的先后两句语句;若不存在,则按照预设粒度对确定的所述会话开始点和所述候选会话结束点之间的会话进行关键信息检测,其中,所述预设粒度包括:多个关键词组合的关键词粒度、关键语句的语句粒度、关键词与关键语句组合的混合粒度;根据关键信息检测的检测结果,确定所述会话结束点。
在一种可选的实施方式中,程序405还用于使得处理器401若在预设会话区间内不存在满足所述基准检测标准的会话,则根据所述会话开始点和所述预设会话区间,确定会话结束点。
程序405中各步骤的具体实现可以参见上述会话切分方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
通过本实施例的电子设备,针对包含会话的多媒体体数据中的每个会话,先为其确定会话开始点,进而对其进行基准检测以判断该会话中是否存在满足基准检测标准的会话,基准检测可以认为是一种粗检测,通过基准检测可大概确定出一个完整会话,获得当前会话的候选会话结束点;接着,再基于会话开始点和该候选会话结束点,对当前会话进行精准检测,即至少一级会话结束点的辅助检测,通过该辅助检测确定更为精准的会话结束点;在具有了准确的会话开始点和会话结束点之后,即可基于此对多媒体数据进行会话切分,将当前会话从多媒体数据中准确地切分出来。相较于现有的仅通过语义相似度切分的方式,本发明实施例的方案通过多层级、多模态的会话结束点检测,有效避免了语义相似度检测因考量因素过于单一而导致检测准确度不高,进而导致会话切分准确度不高的问题。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的会话切分方法。此外,当通用计算机访问用于实现在此示出的会话切分方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的会话切分方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。
Claims (10)
1.一种会话切分方法,其特征在于,包括:
为多媒体数据中的当前会话确定会话开始点;
以所述会话开始点为起始点,判断在预设会话区间内是否存在满足基准检测标准的会话,其中,所述基准检测标准用于指示基准检测所使用的检测规则,所述检测规则用于检测所述预设会话区间内的多媒体数据中是否存在完整会话;
若存在,则根据当前会话中满足所述基准检测标准的完整会话的结束点,确定当前会话的候选会话结束点;
对确定的所述会话开始点和所述候选会话结束点之间的会话,按照预设的检测优先级进行至少一级会话结束点辅助检测,所述辅助检测包括:用于判断会话是否为第一用户对第二用户的言语鼓励会话的鼓励检测;用于判断会话中先后两句语句的语义相似度的语义检测;用于判断会话中是否存在预设关键信息的关键信息检测;
根据所述辅助检测的检测结果,确定当前会话的会话结束点;
根据所述会话开始点和所述会话结束点,对所述多媒体数据进行会话切分。
2.根据权利要求1所述的方法,其特征在于,所述基准检测所使用的检测规则包括以下至少之一:
用于指示第一用户的发言结束后,第二用户的静默时长达到预设时长的静默检测规则;
用于指示第一用户的发言满足第一预设阈值,且第二用户对所述第一用户的发言的回应少于第二预设阈值的发言量检测规则;
用于指示发言密度小于第三预设阈值的发言密度检测规则,其中,所述发言密度根据第二用户的发言量与第一用户的发言量的比值确定。
3.根据权利要求2所述的方法,其特征在于,
所述第一预设阈值为连续发言的次数阈值、或发言量阈值、或发言时长阈值;所述第二预设阈值为发言量阈值或发言时长阈值。
4.根据权利要求2所述的方法,其特征在于,所述鼓励检测的优先级高于所述语义检测,所述语义检测的优先级高于所述关键信息检测;
所述对确定的所述会话开始点和所述候选会话结束点之间的会话,按照预设的检测优先级进行至少一级会话结束点辅助检测,包括:对确定的所述会话开始点和所述候选会话结束点之间的会话,按照优先级从高到低的顺序依次进行所述鼓励检测、语义检测和关键信息检测中的至少一种。
5.根据权利要求4所述的方法,其特征在于,所述对确定的所述会话开始点和所述候选会话结束点之间的会话,按照优先级从高到低的顺序依次进行所述鼓励检测、语义检测和关键信息检测中的至少一种,包括:
对确定的所述会话开始点和所述候选会话结束点之间的会话,判断所述会话中是否存在所述第一用户对所述第二用户的言语鼓励;
若存在,则判断所述言语鼓励是否发生在所述第二用户的发言之后,若是,则将所述言语鼓励的结束点确定为会话结束点;
若不存在,则对确定的所述会话开始点和所述候选会话结束点之间的会话,按照优先级从高到低的顺序依次进行语义检测和关键信息检测中的至少一种。
6.根据权利要求4或5所述的方法,其特征在于,所述对确定的所述会话开始点和所述候选会话结束点之间的会话,按照优先级从高到低的顺序依次进行所述鼓励检测、语义检测和关键信息检测中的至少一种,包括:
对确定的所述会话开始点和所述候选会话结束点之间的会话进行鼓励检测,判断所述会话中是否存在所述第一用户对所述第二用户的言语鼓励;
若不存在,则获取所述会话中各个语句对应的特征文本,根据相邻的先后两句语句的特征文本,计算先后两句语句的语义相似度;
若存在语义相似度低于预设相似度阈值的两句语句,则根据两句语句中在先语句的结束点确定所述会话结束点;
若不存在语义相似度低于预设相似度阈值的两句语句,则进行关键信息检测。
7.根据权利要求4或5所述的方法,其特征在于,所述对确定的所述会话开始点和所述候选会话结束点之间的会话,按照优先级从高到低的顺序依次进行所述鼓励检测、语义检测和关键信息检测中的至少一种,包括:
对确定的所述会话开始点和所述候选会话结束点之间的会话进行鼓励检测,判断所述会话中是否存在所述第一用户对所述第二用户的言语鼓励;
若不存在,则对确定的所述会话开始点和所述候选会话结束点之间的会话进行语义检测,判断所述会话中是否存在语义相似度低于预设相似度阈值的先后两句语句;
若不存在,则按照预设粒度对确定的所述会话开始点和所述候选会话结束点之间的会话进行关键信息检测,其中,所述预设粒度包括:多个关键词组合的关键词粒度、关键语句的语句粒度、关键词与关键语句组合的混合粒度;
根据关键信息检测的检测结果,确定所述会话结束点。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若在预设会话区间内不存在满足所述基准检测标准的会话,则根据所述会话开始点和所述预设会话区间,确定会话结束点。
9.一种电子设备,其特征在于,所述设备包括:
一个或多个处理器;
计算机可读介质,配置为存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一项所述的会话切分方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一项所述的会话切分方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011149037.2A CN111970311B (zh) | 2020-10-23 | 2020-10-23 | 会话切分方法、电子设备及计算机可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011149037.2A CN111970311B (zh) | 2020-10-23 | 2020-10-23 | 会话切分方法、电子设备及计算机可读介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111970311A CN111970311A (zh) | 2020-11-20 |
CN111970311B true CN111970311B (zh) | 2021-02-02 |
Family
ID=73387170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011149037.2A Active CN111970311B (zh) | 2020-10-23 | 2020-10-23 | 会话切分方法、电子设备及计算机可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111970311B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113705250B (zh) * | 2021-10-29 | 2022-02-22 | 北京明略昭辉科技有限公司 | 会话内容识别方法、装置、设备及计算机可读介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106657157A (zh) * | 2017-02-13 | 2017-05-10 | 长沙军鸽软件有限公司 | 一种从会话内容中提取会话对的方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100307065B1 (ko) * | 1994-07-18 | 2001-11-30 | 마츠시타 덴끼 산교 가부시키가이샤 | 음성검출장치 |
US10186282B2 (en) * | 2014-06-19 | 2019-01-22 | Apple Inc. | Robust end-pointing of speech signals using speaker recognition |
CN105845129A (zh) * | 2016-03-25 | 2016-08-10 | 乐视控股(北京)有限公司 | 一种在音频中切分句子的方法和系统及视频文件的字幕自动生成方法和系统 |
US10404632B2 (en) * | 2017-07-12 | 2019-09-03 | T-Mobile Usa, Inc. | Determining when to partition real time text content and display the partitioned content within separate conversation bubbles |
CN111708866B (zh) * | 2020-08-24 | 2020-12-11 | 北京世纪好未来教育科技有限公司 | 会话切分方法、装置、电子设备和存储介质 |
-
2020
- 2020-10-23 CN CN202011149037.2A patent/CN111970311B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106657157A (zh) * | 2017-02-13 | 2017-05-10 | 长沙军鸽软件有限公司 | 一种从会话内容中提取会话对的方法 |
Non-Patent Citations (1)
Title |
---|
语音端点检测的仿真研究;刘晓明 等;《系统仿真学报》;20050831;第17卷(第8期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111970311A (zh) | 2020-11-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109587360B (zh) | 电子装置、应对话术推荐方法和计算机可读存储介质 | |
US11043211B2 (en) | Speech recognition method, electronic device, and computer storage medium | |
CN108682420B (zh) | 一种音视频通话方言识别方法及终端设备 | |
CN108536654B (zh) | 识别文本展示方法及装置 | |
CN111128223B (zh) | 一种基于文本信息的辅助说话人分离方法及相关装置 | |
CN111797632B (zh) | 信息处理方法、装置及电子设备 | |
US11120802B2 (en) | Diarization driven by the ASR based segmentation | |
CN112468659B (zh) | 应用于电话客服的质量评价方法、装置、设备及存储介质 | |
CN111344717A (zh) | 交互行为预测方法、智能装置和计算机可读存储介质 | |
CN111970311B (zh) | 会话切分方法、电子设备及计算机可读介质 | |
CN111400463B (zh) | 对话响应方法、装置、设备和介质 | |
US10468031B2 (en) | Diarization driven by meta-information identified in discussion content | |
CN110826314A (zh) | 一种规则解析方法、装置、电子设备及存储介质 | |
CN112908315A (zh) | 一种基于声音特征和语音识别的问答意图判断方法 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
CN114842849B (zh) | 语音对话检测方法及装置 | |
CN113470617B (zh) | 语音识别方法以及电子设备、存储装置 | |
CN111681644B (zh) | 一种说话人分割方法、装置、设备和存储介质 | |
CN115374793A (zh) | 基于服务场景识别的语音数据处理方法及相关装置 | |
CN114254088A (zh) | 自动应答模型的构建方法和自动应答方法 | |
CN112735395A (zh) | 语音识别方法及电子设备、存储装置 | |
CN111785259A (zh) | 信息处理方法、装置及电子设备 | |
CN111782775A (zh) | 对话方法、装置、设备和介质 | |
CN113035171B (zh) | 语音识别处理方法及系统 | |
CN113158692B (zh) | 基于语义识别的多意图处理方法、系统、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |