CN115374273A - 会话文本分析方法、装置、计算机设备和存储介质 - Google Patents
会话文本分析方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN115374273A CN115374273A CN202210572512.XA CN202210572512A CN115374273A CN 115374273 A CN115374273 A CN 115374273A CN 202210572512 A CN202210572512 A CN 202210572512A CN 115374273 A CN115374273 A CN 115374273A
- Authority
- CN
- China
- Prior art keywords
- question
- text
- label
- service
- conversation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种会话文本分析方法、装置、计算机设备和存储介质。所述方法包括:获取包括多条会话语句的会话文本;对所述会话文本进行问题标签预测,得到所述会话文本的问题标签和所述会话文本中的问题关键语句;所述问题关键语句所表达的问题与所述问题标签相匹配;获取所述会话文本的各个业务标签和所述会话文本中对应于各所述业务标签的业务关键语句;基于所述问题关键语句和所述业务关键语句之间的相似度,从各个所述业务标签中确定与所述问题标签相关联的目标业务标签。采用本方法能够提高会话文本分析的准确率。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种会话文本分析方法、装置、计算机设备和存储介质。
背景技术
随着现代社会的信息化程度越来越深入,越来越多的企业为了提高服务质量,往往会对用户所咨询的问题和所涉及到的业务进行关联分析,从而能够精准适配用户的业务需求。
传统方法中,通过人工统计大量的会话文本数据,确定咨询同一问题的会话文本中所涉及业务,后续默认咨询同一问题的会话文本同样会涉及之前统计的业务。但是,由于企业业务的快速更新,这种人工统计的方式会导致无法覆盖新的业务,存在准确率低的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高准确率的会话文本分析方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种会话文本分析方法。所述方法包括:
获取包括多条会话语句的会话文本;
对所述会话文本进行问题标签预测,得到所述会话文本的问题标签和所述会话文本中的问题关键语句;所述问题关键语句所表达的问题与所述问题标签相匹配;
获取所述会话文本的各个业务标签和所述会话文本中对应于各所述业务标签的业务关键语句;
基于所述问题关键语句和所述业务关键语句之间的相似度,从各个所述业务标签中确定与所述问题标签相关联的目标业务标签。
第二方面,本申请还提供了一种会话文本分析装置。所述装置包括:
获取模块,用于获取包括多条会话语句的会话文本;
预测模块,用于对所述会话文本进行问题标签预测,得到所述会话文本的问题标签和所述会话文本中的问题关键语句;所述问题关键语句所表达的问题与所述问题标签相匹配;获取所述会话文本的各个业务标签和所述会话文本中对应于各所述业务标签的业务关键语句;
分析模块,用于基于所述问题关键语句和所述业务关键语句之间的相似度,从各个所述业务标签中确定与所述问题标签相关联的目标业务标签。
在其中一个实施例中,所述预测模块,还用于分别对多条所述会话语句进行问题标签预测,得到每条所述会话语句的预测问题标签和相应的预测置信度;基于所述预测置信度,从多个所述预测问题标签中确定所述会话文本的问题标签;确定所述会话文本中与所述问题标签相匹配的问题关键语句。
在其中一个实施例中,所述分析模块,还用于计算所述问题关键语句与每条所述业务关键语句之间的文本相似度;基于所述文本相似度的大小,从各个所述业务标签中确定与所述问题标签相关联的目标业务标签。
在其中一个实施例中,所述分析模块,还用于确定所述问题关键语句对应的第一文本向量和每条所述业务关键语句对应的第二文本向量;计算所述第一文本向量与每个所述第二文本向量之间的距离,以确定所述问题关键语句与每条所述业务关键语句之间的文本相似度。
在其中一个实施例中,所述会话文本的业务标签包括针对所述会话文本中的业务关键语句标注的业务标签;所述预测模块,还用于分别对多条所述会话语句进行业务标签预测,得到每条所述会话语句对应的业务标签和相应的预测得分;若所述预测得分满足业务标签保留条件,则判定相应会话语句为业务关键语句,以及针对所述业务关键语句标记预测的相应业务标签。
在其中一个实施例中,所述预测模块,还用于获取所述会话文本中与所述问题关键语句相邻的多条上下文业务关键语句和对应于所述上下文业务关键语句的业务标签;所述分析模块,还用于基于所述问题关键语句和所述上下文业务关键语句之间的相似度,从各个所述业务标签中确定与所述问题标签相关联的目标业务标签。
在其中一个实施例中,所述预测模块,还用于将所述会话文本输入至标签关联分析模型中进行问题标签预测,得到所述会话文本的问题标签和所述会话文本中的问题关键语句;其中,所述标签关联分析模型是基于样本会话文本训练得到的;所述样本会话文本中包括样本问题标签和样本问题标签关键语句。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请所述方法各实施例中的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请所述方法各实施例中的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请所述方法各实施例中的步骤。
上述会话文本分析方法、装置、计算机设备、存储介质和计算机程序产品,获取包括多条会话语句的会话文本;对会话文本进行问题标签预测,得到会话文本的问题标签和会话文本中的问题关键语句;问题关键语句所表达的问题与问题标签相匹配;获取会话文本的各个业务标签和会话文本中对应于各业务标签的业务关键语句;基于问题关键语句和业务关键语句之间的相似度,从各个业务标签中确定与问题标签相关联的目标业务标签。通过针对会话文本预测问题标签和获取业务标签,并基于问题关键语句和业务关键语句之间的相似度,分析与问题标签相关联的目标业务标签,从而能够实现对会话文本本身所涉及的问题和业务进行关联分析,相较于人工统计的方式,提高了准确率。
附图说明
图1为一个实施例中会话文本分析方法的应用环境图;
图2为一个实施例中会话文本分析方法的流程示意图;
图3为一个实施例中会话文本分析方法的简易流程示意图;
图4为一个实施例中会话文本分析装置的结构框图;
图5为一个实施例中计算机设备的内部结构图;
图6为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的会话文本分析方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他网络服务器上。终端102可以获取包括多条会话语句的会话文本;终端102可以对会话文本进行问题标签预测,得到会话文本的问题标签和会话文本中的问题关键语句;问题关键语句所表达的问题与问题标签相匹配;终端102可以获取会话文本的各个业务标签和会话文本中对应于各业务标签的业务关键语句;终端102可以基于问题关键语句和业务关键语句之间的相似度,从各个业务标签中确定与问题标签相关联的目标业务标签。终端102可以将与问题标签相关联的目标业务标签发送至服务器104。服务器104可以存储与问题标签相关联的目标业务标签。
其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,上述由终端102执行的步骤也可以由服务器104执行。可以理解,本申请实施例提供的方法不限于具体的执行主体,上述由终端102执行的步骤也可以由终端102和服务器104共同执行。
在一个实施例中,如图2所示,提供了一种会话文本分析方法,以该方法应用于图1中的终端为例进行说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
步骤202,获取包括多条会话语句的会话文本;对会话文本进行问题标签预测,得到会话文本的问题标签和会话文本中的问题关键语句。
其中,问题关键语句所表达的问题与问题标签相匹配。问题标签用于标志会话文本中的问题。问题关键语句对于问题标签预测起关键作用。可以理解,问题标签可以是针对问题关键语句进行问题标签预测得到的。
具体地,终端可以获取会话文本。会话文本中包括多条会话语句。可以理解,会话文本可以是在某一业务场景下用户咨询的通话内容。比如,一通会话文本可以是一通咨询套餐的通话内容。终端可以对会话文本进行问题标签预测,得到会话文本的至少一个预测问题标签、以及预测问题标签对应的预测置信度。终端可以基于预测置信度从至少一个预测问题标签中确定会话文本的问题标签。终端可以确定会话文本中与问题标签相匹配的问题关键语句。
步骤204,获取会话文本的各个业务标签和会话文本中对应于各业务标签的业务关键语句。
其中,业务关键语句所反映的业务与业务标签相匹配。业务标签用于标志会话文本中的业务。业务关键语句对于业务标签预测起关键作用。可以理解,业务标签可以是针对业务关键语句进行业务标签预测得到的。
具体地,终端可以通过对会话文本进行业务标签预测,获取会话文本的各个业务标签和会话文本中对应于各业务标签的业务关键语句。可以理解,会话文本中的业务标签和相应的业务关键语句可以是在问题标签预测之前得到的。
步骤206,基于问题关键语句和业务关键语句之间的相似度,从各个业务标签中确定与问题标签相关联的目标业务标签。
具体地,终端可以通过计算问题关键语句和业务关键语句之间的相似度,确定与问题关键语句相似的业务关键语句。可以理解,若业务关键语句与问题关键语句相似,则业务关键语句对应的业务标签与问题标签相关联。终端可以从各个业务标签中确定与问题关键语句相似的业务关键语句所对应的业务标签,得到与问题标签相关联的目标业务标签。可以理解,目标业务标签是与问题标签相关联的业务标签。
上述会话文本分析方法、装置、计算机设备、存储介质和计算机程序产品,获取包括多条会话语句的会话文本;对会话文本进行问题标签预测,得到会话文本的问题标签和会话文本中的问题关键语句;问题关键语句所表达的问题与问题标签相匹配;获取会话文本的各个业务标签和会话文本中对应于各业务标签的业务关键语句;基于问题关键语句和业务关键语句之间的相似度,从各个业务标签中确定与问题标签相关联的目标业务标签。通过针对会话文本预测问题标签和获取业务标签,并基于问题关键语句和业务关键语句之间的相似度,分析与问题标签相关联的目标业务标签,从而能够实现对会话文本本身所涉及的问题和业务进行关联分析,相较于人工统计的方式,提高了准确率。
在一个实施例中,对会话文本进行问题标签预测,得到会话文本的问题标签和会话文本中的问题关键语句包括:分别对多条会话语句进行问题标签预测,得到每条会话语句的预测问题标签和相应的预测置信度;基于预测置信度,从多个预测问题标签中确定会话文本的问题标签;确定会话文本中与问题标签相匹配的问题关键语句。
具体地,终端可以针对每条会话语句进行问题标签预测,得到每条会话语句的预测问题标签和预测问题标签对应的预测置信度。可以理解,一通会话文本中会预测多个预测问题标签。终端可以从多个预测问题标签中,确定相应预测置信度最高的预测问题标签,得到会话文本的问题标签。终端可以确定问题标签对应的会话语句,得到会话文本中与问题标签相匹配的问题关键语句。比如,终端对一通会话文本预测的问题标签为“网络故障”,问题关键语句为“我家宽带上不了网了”。
在一个实施例中,终端可以预先针对预测置信度设置置信度阈值。终端可以通过比对预测置信度和置信度阈值,确定相应预测置信度达到置信度阈值的预测问题标签,得到会话文本的问题标签。可以理解,若预测问题标签对应的预测置信度达到置信度阈值,则预测问题标签可以作为会话文本的问题标签。
在一个实施例中,终端可以预先针对问题标签的数量设置标签数量。终端可以按照预测置信度的大小对预测问题标签进行排序,确定预测置信度最高的前标签数量个预测问题标签,得到会话文本的问题标签。
本实施例中,通过对会话语句进行问题标签预测,得到会话语句的预测问题标签和相应的预测置信度,以基于预测置信度,确定会话文本的问题标签,以及与问题标签相匹配的问题关键语句,从而能够便于后续基于问题关键语句和业务关键语句对会话文本中的业务和问题进行关联分析,提高准确率。并且无需使用深度学习分析用户意图,降低了技术复杂度,减少了计算资源的浪费。
在一个实施例中,基于问题关键语句和业务关键语句之间的相似度,从各个业务标签中确定与问题标签相关联的目标业务标签包括:计算问题关键语句与每条业务关键语句之间的文本相似度;基于文本相似度的大小,从各个业务标签中确定与问题标签相关联的目标业务标签。
具体地,终端可以计算问题关键语句与每条业务关键语句之间的文本相似度。终端可以确定文本相似度最高的业务关键语句,并从各个业务标签中确定该业务关键语句对应的业务标签,得到与问题标签相关联的目标业务标签。可以理解,文本相似度最高的业务关键语句与问题关键语句最相似,该业务关键语句对应的业务标签与问题标签最相关。
在一个实施例中,终端可以预先针对文本相似度设置相似度阈值。终端可以通过比对文本相似度和相似度阈值的大小,确定文本相似度达到相似度阈值的业务关键语句,得到与问题关键语句相似的业务关键语句。
在一个实施例中,终端可以预先针对业务关键语句的数量设置语句数量。终端可以按照文本相似度的大小对业务关键语句进行排序,确定文本相似度最大的前语句数量个业务关键语句,得到与问题关键语句相似的业务关键语句。
本实施例中,通过计算问题关键语句与每条业务关键语句之间的文本相似度,从各个业务标签中确定与问题标签相关联的目标业务标签,从而实现对会话文本中的问题和业务关联分析,提高了准确率。
在一个实施例中,计算问题关键语句与每条业务关键语句之间的文本相似度包括:确定问题关键语句对应的第一文本向量和每条业务关键语句对应的第二文本向量;计算第一文本向量与每个第二文本向量之间的距离,以确定问题关键语句与每条业务关键语句之间的文本相似度。
具体地,终端可以将问题关键语句转化成第一文本向量、以及将业务关键语句转化成第二文本向量。终端可以确定问题关键语句对应的第一文本向量和每条业务关键语句对应的第二文本向量。终端可以计算第一文本向量与每个第二文本向量之间的距离,并将计算出的距离值作为文本相似度数值,以确定问题关键语句与每条业务关键语句之间的文本相似度。比如,会话文本是一通咨询套餐的通话内容,用户询问了宽带业务的问题,会话文本中包括套餐咨询和宽带业务两种业务标签,终端对会话文本预测的问题标签为“网络故障”,终端需要依次计算“网络故障”对应的问题关键语句与两种业务标签对应的业务关键语句之间的文本相似度。
在一个实施例中,终端可以从语句中提取关键词,并将关键词转化为词向量,得到文本向量。可以理解,终端可以采用词向量模型(word2vec)技术将关键词转换为词向量,并将关键词对应的词向量作为文本向量。
在一个实施例中,终端可以从问题关键语句中提取问题关键词,并采用词向量模型(word2vec)技术将问题关键词转换为问题词向量。终端可以将问题关键词对应的问题词向量作为问题关键语句对应的第一文本向量。
在一个实施例中,终端可以从业务关键语句中提取业务关键词,并采用词向量模型(word2vec)技术将业务关键词转换为业务词向量。终端可以将业务关键词对应的业务词向量作为业务关键语句对应的第二文本向量。
在一个实施例中,终端可以计算第一文本向量与每个第二文本向量之间的余弦距离,并将计算出的余弦距离值作为文本相似度数值,以确定问题关键语句与每条业务关键语句之间的文本相似度。可以理解,终端也可以计算第一文本向量与每个第二文本向量之间的欧式距离,并将计算出的欧式距离值作为文本相似度数值。
本实施例中,通过计算问题关键语句对应的第一文本向量和每条业务关键语句对应的第二文本向量之间的距离,确定问题关键语句与每条业务关键语句之间的文本相似度,从而实现后续基于文本相似度的大小对会话文本中的问题和业务关联分析,提高了准确率。
在一个实施例中,会话文本的业务标签包括针对会话文本中的业务关键语句标注的业务标签;在获取会话文本的各个业务标签和会话文本中对应于各业务标签的业务关键语句之前,还包括:分别对多条会话语句进行业务标签预测,得到每条会话语句对应的业务标签和相应的预测得分;若预测得分满足业务标签保留条件,则判定相应会话语句为业务关键语句,以及针对业务关键语句标记预测的相应业务标签。
具体地,终端可以针对每条会话语句进行业务标签预测,得到每条会话语句对应的业务标签和相应的预测得分。终端可以预先针对预测得分设置得分阈值,业务标签保留条件可以是预测得分达到得分阈值。若预测得分满足业务标签保留条件,即,预测得分达到得分阈值,则终端可以判定相应会话语句为业务关键语句,以及针对业务关键语句标记预测的相应业务标签。
在一个实施例中,终端可以预先针对业务标签的数量设置保留数量。终端可以按照从大到小的顺序对预测得分进行排序,业务标签保留条件可以是预测得分的排序位于前保留数量。可以理解,终端可以判定相应预测得分的排序位于前保留数量的会话语句为业务关键语句。
本实施例中,通过分别对多条会话语句进行业务标签预测,得到每条会话语句对应的业务标签和相应的预测得分,以确定业务关键语句、以及针对业务关键语句标记预测的相应业务标签,从而能够实现后续基于问题关键语句和业务关键语句对会话文本中的业务和问题进行关联分析,提高准确率。并且无需使用深度学习分析用户意图,降低了技术复杂度,减少了计算资源的浪费。
在一个实施例中,获取会话文本的各个业务标签和会话文本中对应于各业务标签的业务关键语句包括:获取会话文本中与问题关键语句相邻的多条上下文业务关键语句和对应于上下文业务关键语句的业务标签;基于问题关键语句和业务关键语句之间的相似度,从各个业务标签中确定与问题标签相关联的目标业务标签包括:基于问题关键语句和上下文业务关键语句之间的相似度,从各个业务标签中确定与问题标签相关联的目标业务标签。
具体地,终端可以预先设置最相邻数量。可以理解,最相邻数量是指与问题关键语句最相邻的上下文业务关键语句的数量。终端可以获取会话文本中与问题关键语句相邻的最相邻数量条上下文业务关键语句和对应于上下文业务关键语句的业务标签。终端可以通过计算问题关键语句和上下文业务关键语句之间的相似度,从各个业务标签中确定与问题标签相关联的目标业务标签。可以理解,对应于上下文业务关键语句的业务标签和问题关键语句对应的问题标签更可能相关联。比如,终端可以先确定距离问题关键语句上下五句以内的上下文业务关键语句,并重点基于获取到的上下文业务关键语句和问题关键语句对会话文本中的业务标签和问题标签进行关联分析。
本实施例中,通过获取会话文本中与问题关键语句相邻的多条上下文业务关键语句和对应于上下文业务关键语句的业务标签;基于问题关键语句和上下文业务关键语句之间的相似度,从各个业务标签中确定与问题标签相关联的目标业务标签,无需对每条业务关键语句进行相似度计算,减少计算资源的占用。
在一个实施例中,对会话文本进行问题标签预测,得到会话文本的问题标签和会话文本中的问题关键语句包括:将会话文本输入至标签关联分析模型中进行问题标签预测,得到会话文本的问题标签和会话文本中的问题关键语句;其中,标签关联分析模型是基于样本会话文本训练得到的;样本会话文本中包括样本问题标签和样本问题标签关键语句。
具体地,标签关联分析模型可以内置于终端。终端可以将会话文本输入至标签关联分析模型中进行问题标签预测,得到会话文本的问题标签和会话文本中的问题关键语句。可以理解,终端可以预先通过标签关联分析模型预测会话文本的业务标签和相应业务关键语句。终端可以通过标签关联分析模型计算问题关键语句和业务关键语句之间的相似度,从各个业务标签中确定与问题标签相关联的目标业务标签。终端可以获取标签关联分析模型输出的问题标签、以及与问题标签相关联的目标业务标签。终端可以将会话文本的问题标签、以及相关联的目标业务标签存储至服务器。
本实施例中,通过将会话文本输入至标签关联分析模型中进行问题标签预测,得到会话文本的问题标签和会话文本中的问题关键语句,从而能够基于标签关联分析模型实现对会话文本的问题和业务关联分析,在提高关联分析的效率的同时,提高关联分析的覆盖度,以更准确的分析出用户反馈的业务和问题。
在一个实施例中,如图3所示提供了会话文本分析方法的简易流程示意图。
步骤302,获取包括多条会话语句的会话文本。
具体地,终端可以获取包括多条会话语句的会话文本,并将会话文本输入至标签关联分析模型,以通过标签关联分析模型对会话文本的问题标签和业务标签进行关联分析。可以理解,会话文本是在业务场景下与用户的通话文本。
步骤304,分别对多条会话语句进行问题标签预测,得到每条会话语句的预测问题标签和相应的预测置信度。
具体地,终端可以通过标签关联分析模型,分别对多条会话语句进行问题标签预测,得到每条会话语句的预测问题标签和相应的预测置信度。
步骤306,确定相应预测置信度最高的预测问题标签,得到会话文本的问题标签、以及与该问题标签相匹配的问题关键语句。
具体地,终端可以将相应预测置信度最高的预测问题标签作为会话文本的问题标签,并将该问题标签对应的会话语句作为问题关键语句。
步骤308,获取会话文本中与问题关键语句相邻的多条上下文业务关键语句、以及上下文业务关键语句对应的业务标签。
具体地,在问题标签预测之前,终端可以对会话文本中的多条会话语句进行业务标签预测,得到会话文本的业务标签、以及对应于业务标签的业务关键语句。终端可以在得到会话文本的问题标签之后,确定与问题关键语句相邻的多条上下文业务关键语句、以及上下文业务关键语句对应的业务标签。
步骤310,确定问题关键语句对应的第一文本向量和每条上下文业务关键语句对应的第二文本向量。
具体地,终端可以提取问题关键语句中的问题关键词,并利用词向量模型得到问题关键词对应的问题词向量。终端可以将问题词向量作为问题关键语句对应的第一文本向量。终端可以提取上下文业务关键语句中的业务关键词,并利用词向量模型得到业务关键词对应的业务词向量。终端可以将业务词向量作为上下文业务关键语句对应的第二文本向量。
步骤312,计算第一文本向量与每个第二文本向量之间的距离,得到问题关键语句与每条上下文业务关键语句之间的文本相似度。
具体地,终端可以计算第一文本向量与每个第二文本向量之间的余弦距离,将计算出的余弦距离值作为文本相似度值,得到问题关键语句与每条上下文业务关键语句之间的文本相似度。
步骤314,确定相应文本相似度最高的上下文业务关键语句所对应的业务标签,得到与问题标签相关联的目标业务标签。
具体地,终端可以确定与问题关键语句之间的文本相似度最高的上下文业务关键语句,将该上下文业务关键语句对应的业务标签作为目标业务标签,得到与问题标签相关联的目标业务标签。
步骤316,将会话文本的问题标签和相关联的目标业务标签发送至服务器进行存储。
具体地,终端可以获取标签关联分析模型输出的问题标签和相关联的目标业务标签,并将会话文本的问题标签和目标业务标签关联存储至服务器。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的会话文本分析方法的会话文本分析装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个会话文本分析装置实施例中的具体限定可以参见上文中对于会话文本分析方法的限定,在此不再赘述。
在一个实施例中,如图4所示,提供了一种会话文本分析装置400,包括:获取模块402、预测模块404和分析模块406,其中:
获取模块402,用于获取包括多条会话语句的会话文本;
预测模块404,用于对所述会话文本进行问题标签预测,得到所述会话文本的问题标签和所述会话文本中的问题关键语句;所述问题关键语句所表达的问题与所述问题标签相匹配;获取所述会话文本的各个业务标签和所述会话文本中对应于各所述业务标签的业务关键语句;
分析模块406,用于基于所述问题关键语句和所述业务关键语句之间的相似度,从各个所述业务标签中确定与所述问题标签相关联的目标业务标签。
在一个实施例中,预测模块404,还用于分别对多条会话语句进行问题标签预测,得到每条会话语句的预测问题标签和相应的预测置信度;基于预测置信度,从多个预测问题标签中确定会话文本的问题标签;确定会话文本中与问题标签相匹配的问题关键语句。
在一个实施例中,分析模块406,还用于计算问题关键语句与每条业务关键语句之间的文本相似度;基于文本相似度的大小,从各个业务标签中确定与问题标签相关联的目标业务标签。
在一个实施例中,分析模块406,还用于确定问题关键语句对应的第一文本向量和每条业务关键语句对应的第二文本向量;计算第一文本向量与每个第二文本向量之间的距离,以确定问题关键语句与每条业务关键语句之间的文本相似度。
在一个实施例中,会话文本的业务标签包括针对会话文本中的业务关键语句标注的业务标签;预测模块404,还用于分别对多条会话语句进行业务标签预测,得到每条会话语句对应的业务标签和相应的预测得分;若预测得分满足业务标签保留条件,则判定相应会话语句为业务关键语句,以及针对业务关键语句标记预测的相应业务标签。
在一个实施例中,预测模块404,还用于获取会话文本中与问题关键语句相邻的多条上下文业务关键语句和对应于上下文业务关键语句的业务标签;分析模块406,还用于基于问题关键语句和上下文业务关键语句之间的相似度,从各个业务标签中确定与问题标签相关联的目标业务标签。
在一个实施例中,预测模块404,还用于将会话文本输入至标签关联分析模型中进行问题标签预测,得到会话文本的问题标签和会话文本中的问题关键语句;其中,标签关联分析模型是基于样本会话文本训练得到的;样本会话文本中包括样本问题标签和样本问题标签关键语句。
上述会话文本分析装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储会话文本的问题标签、以及与问题标签相关联的目标业务标签。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种会话文本分析方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种会话文本分析方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5和图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的会话文本为经用户授权或者经过各方充分授权的数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (10)
1.一种会话文本分析方法,其特征在于,所述方法包括:
获取包括多条会话语句的会话文本;
对所述会话文本进行问题标签预测,得到所述会话文本的问题标签和所述会话文本中的问题关键语句;所述问题关键语句所表达的问题与所述问题标签相匹配;
获取所述会话文本的各个业务标签和所述会话文本中对应于各所述业务标签的业务关键语句;
基于所述问题关键语句和所述业务关键语句之间的相似度,从各个所述业务标签中确定与所述问题标签相关联的目标业务标签。
2.根据权利要求1所述的方法,其特征在于,所述对所述会话文本进行问题标签预测,得到所述会话文本的问题标签和所述会话文本中的问题关键语句包括:
分别对多条所述会话语句进行问题标签预测,得到每条所述会话语句的预测问题标签和相应的预测置信度;
基于所述预测置信度,从多个所述预测问题标签中确定所述会话文本的问题标签;
确定所述会话文本中与所述问题标签相匹配的问题关键语句。
3.根据权利要求1所述的方法,其特征在于,所述基于所述问题关键语句和所述业务关键语句之间的相似度,从各个所述业务标签中确定与所述问题标签相关联的目标业务标签包括:
计算所述问题关键语句与每条所述业务关键语句之间的文本相似度;
基于所述文本相似度的大小,从各个所述业务标签中确定与所述问题标签相关联的目标业务标签。
4.根据权利要求3所述的方法,其特征在于,所述计算所述问题关键语句与每条所述业务关键语句之间的文本相似度包括:
确定所述问题关键语句对应的第一文本向量和每条所述业务关键语句对应的第二文本向量;
计算所述第一文本向量与每个所述第二文本向量之间的距离,以确定所述问题关键语句与每条所述业务关键语句之间的文本相似度。
5.根据权利要求1所述的方法,其特征在于,所述会话文本的业务标签包括针对所述会话文本中的业务关键语句标注的业务标签;
在所述获取所述会话文本的各个业务标签和所述会话文本中对应于各所述业务标签的业务关键语句之前,还包括:
分别对多条所述会话语句进行业务标签预测,得到每条所述会话语句对应的业务标签和相应的预测得分;
若所述预测得分满足业务标签保留条件,则判定相应会话语句为业务关键语句,以及针对所述业务关键语句标记预测的相应业务标签。
6.根据权利要求1所述的方法,其特征在于,所述获取所述会话文本的各个业务标签和所述会话文本中对应于各所述业务标签的业务关键语句包括:
获取所述会话文本中与所述问题关键语句相邻的多条上下文业务关键语句和对应于所述上下文业务关键语句的业务标签;
所述基于所述问题关键语句和所述业务关键语句之间的相似度,从各个所述业务标签中确定与所述问题标签相关联的目标业务标签包括:
基于所述问题关键语句和所述上下文业务关键语句之间的相似度,从各个所述业务标签中确定与所述问题标签相关联的目标业务标签。
7.根据权利要求1至6任意一项所述的方法,其特征在于,所述对所述会话文本进行问题标签预测,得到所述会话文本的问题标签和所述会话文本中的问题关键语句包括:
将所述会话文本输入至标签关联分析模型中进行问题标签预测,得到所述会话文本的问题标签和所述会话文本中的问题关键语句;
其中,所述标签关联分析模型是基于样本会话文本训练得到的;所述样本会话文本中包括样本问题标签和样本问题标签关键语句。
8.一种会话文本分析装置,其特征在于,所述装置包括:
获取模块,用于获取包括多条会话语句的会话文本;
预测模块,用于对所述会话文本进行问题标签预测,得到所述会话文本的问题标签和所述会话文本中的问题关键语句;所述问题关键语句所表达的问题与所述问题标签相匹配;获取所述会话文本的各个业务标签和所述会话文本中对应于各所述业务标签的业务关键语句;
分析模块,用于基于所述问题关键语句和所述业务关键语句之间的相似度,从各个所述业务标签中确定与所述问题标签相关联的目标业务标签。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210572512.XA CN115374273A (zh) | 2022-05-25 | 2022-05-25 | 会话文本分析方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210572512.XA CN115374273A (zh) | 2022-05-25 | 2022-05-25 | 会话文本分析方法、装置、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115374273A true CN115374273A (zh) | 2022-11-22 |
Family
ID=84061487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210572512.XA Pending CN115374273A (zh) | 2022-05-25 | 2022-05-25 | 会话文本分析方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115374273A (zh) |
-
2022
- 2022-05-25 CN CN202210572512.XA patent/CN115374273A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20200372359A1 (en) | Wide and deep machine learning models | |
US9934515B1 (en) | Content recommendation system using a neural network language model | |
US11948058B2 (en) | Utilizing recurrent neural networks to recognize and extract open intent from text inputs | |
US20180174037A1 (en) | Suggesting resources using context hashing | |
US20220261591A1 (en) | Data processing method and apparatus | |
CN112364204A (zh) | 视频搜索方法、装置、计算机设备及存储介质 | |
CN115795000A (zh) | 基于联合相似度算法对比的围标识别方法和装置 | |
US20170177739A1 (en) | Prediction using a data structure | |
CN110532229B (zh) | 证据文件检索方法、装置、计算机设备和存储介质 | |
CN114860892A (zh) | 层次类目预测方法、装置、设备和介质 | |
CN114491093B (zh) | 多媒体资源推荐、对象表征网络的生成方法及装置 | |
CN115576789A (zh) | 流失用户识别方法和系统 | |
CN115374273A (zh) | 会话文本分析方法、装置、计算机设备和存储介质 | |
CN113515701A (zh) | 信息推荐方法及装置 | |
CN114757700A (zh) | 物品销量预测模型训练方法、物品销量预测方法及装置 | |
CN111310016B (zh) | 标签挖掘方法、装置、服务器和存储介质 | |
CN114490996B (zh) | 意图识别方法、装置、计算机设备和存储介质 | |
CN114048392B (zh) | 多媒体资源推送方法、装置、电子设备及存储介质 | |
CN115017291B (zh) | 热点问题分析方法、装置、计算机设备和存储介质 | |
US20240160852A1 (en) | Domain-specific text labelling using natural language inference model | |
CN114139031B (zh) | 数据分类方法、装置、电子设备及存储介质 | |
CN114239603A (zh) | 业务需求匹配方法、装置、计算机设备和存储介质 | |
CN116702789A (zh) | 语义分析方法、装置、计算机设备以及存储介质 | |
CN116956204A (zh) | 多任务模型的网络结构确定方法、数据预测方法及装置 | |
CN116796729A (zh) | 基于特征强化的文本推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |