CN113850077A - 基于人工智能的话题识别方法、装置、服务器及介质 - Google Patents
基于人工智能的话题识别方法、装置、服务器及介质 Download PDFInfo
- Publication number
- CN113850077A CN113850077A CN202111138884.3A CN202111138884A CN113850077A CN 113850077 A CN113850077 A CN 113850077A CN 202111138884 A CN202111138884 A CN 202111138884A CN 113850077 A CN113850077 A CN 113850077A
- Authority
- CN
- China
- Prior art keywords
- keyword set
- preset keyword
- content
- keywords
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 42
- 230000011218 segmentation Effects 0.000 claims abstract description 126
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 238000004590 computer program Methods 0.000 claims description 20
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 230000006854 communication Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请适用于人工智能技术领域,提供了一种基于人工智能的话题识别方法、装置、服务器及介质,该方法包括:获取会话内容,根据会话内容的内容形式,将会话内容转换成会话文本,以及根据预设分词算法,对会话文本进行分词处理,得到多个切分词;根据各预设关键词集中的、与各切分词相匹配的关键词的相关信息,确定多个切分词与各预设关键词集之间的匹配度,匹配度用于指示会话内容与相应预设关键词集对应的目标话题之间的相似程度;根据各预设关键词集对应的目标话题和多个切分词与各预设关键词集之间的匹配度,确定会话内容所属的话题。本申请有助于提高对大量会话内容进行管理的效率和准确率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于人工智能的话题识别方法、装置、服务器及介质。
背景技术
在银行或其他企业的销售团队、服务团队围绕客户的日常沟通中,通常会产生大量的基于自然语言的会话内容。为了实现对所产生的会话内容进行有效管理,通常需要销售团队或者服务团队的工作人员在每次会话结束时,及时手动记录当前会话所属的话题。
然而,在实际工作过程中,工作人员对手动记录会话所属话题的意愿通常并不强烈,且经常出现主观漏记、错记的情况,导致阻碍了对大量会话内容进行管理的效率和准确率。
发明内容
有鉴于此,本申请实施例提供了一种基于人工智能的话题识别方法、装置、服务器及介质,以解决相关技术中,工作人员对手动记录会话所属话题的意愿通常并不强烈,且经常出现主观漏记、错记的情况,导致阻碍了对大量会话内容进行管理的效率和准确率的问题。
本申请实施例的第一方面提供了一种基于人工智能的话题识别方法,包括:
获取会话内容,根据会话内容的内容形式,将会话内容转换成会话文本,以及根据预设分词算法,对会话文本进行分词处理,得到多个切分词;
根据各预设关键词集中的、与各切分词相匹配的关键词的相关信息,确定多个切分词与各预设关键词集之间的匹配度,匹配度用于指示会话内容与相应预设关键词集对应的目标话题之间的相似程度,一个预设关键词集对应得到一个匹配度;
根据各预设关键词集对应的目标话题和多个切分词与各预设关键词集之间的匹配度,确定会话内容所属的话题。
进一步地,方法还包括:
分别获取各目标话题对应的样本会话文本,根据预设分词算法对样本会话文本进行分词处理,以及将分词处理得到的切分词作为关键词存入相应目标话题的预设关键词集。
进一步地,预设关键词集中的关键词的相关信息包括频率系数和区分度系数,以及方法还包括:
针对各目标话题对应的预设关键词集中的关键词,根据该关键词在相应目标话题中的出现频次和该关键词在除相应目标话题外的目标话题中的出现频次,确定该关键词的频率系数和区分度系数;
其中,频率系数用于指示关键词在该目标话题中的出现频率,区分度系数用于指示关键词区分该目标话题与其它目标话题的区分程度。
进一步地,根据各预设关键词集中的、与各切分词相匹配的关键词的相关信息,确定多个切分词与各预设关键词集之间的匹配度,包括:
针对每个预设关键词集,从该预设关键词集中选取分别与各切分词匹配的关键词,得到多个关键词;
计算各关键词的频率系数和区分度系数的乘积,得到多个乘积值,将多个乘积值的和值,确定为该预设关键词集的权重系数;
将该预设关键词集的权重系数和其它各预设关键词集的权重系数进行归一化处理,将该预设关键词集的归一化后的权重系数,确定为多个切分词与该预设关键词集之间的匹配度。
进一步地,根据各预设关键词集中的、与各切分词相匹配的关键词的相关信息,确定多个切分词与各预设关键词集之间的匹配度,包括:
针对每个预设关键词集,从该预设关键词集中选取分别与各切分词匹配的关键词,得到多个关键词;
根据所得到的关键词的数目和多个切分词的数目,确定该预设关键词集对多个切分词的覆盖率,以及将覆盖率确定为该预设关键词集与多个切分词之间的匹配度;
其中,覆盖率用于指示预设关键词集中选取得到的关键词在多个切分词中的占比。
进一步地,区分度系数包括以下任一项:
关键词在该目标话题中的出现次数与在其它各目标话题中的总出现次数的比值,记作第一比值;
关键词在该目标话题中的出现频率与在其它各目标话题中的出现频率之和的比值,记作第二比值;
第一比值与第二比值的加权和。
进一步地,根据会话内容的内容形式,将会话内容转换成会话文本,包括:
从会话内容中识别出对应不同内容形式的内容部分,内容形式包括以下至少一项:语音形式,图片形式,文本形式;
保留会话内容中的、对应内容形式为文本形式的内容部分,将会话内容中的、对应内容形式为语音形式的内容部分转换成文本,以及删除会话内容中的、对应内容形式为图片形式的内容部分。
本申请实施例的第二方面提供了一种基于人工智能的话题识别装置,包括:
内容处理单元,用于获取会话内容,根据会话内容的内容形式,将会话内容转换成会话文本,以及根据预设分词算法,对会话文本进行分词处理,得到多个切分词;
信息匹配单元,用于根据各预设关键词集中的、与各切分词相匹配的关键词的相关信息,确定多个切分词与各预设关键词集之间的匹配度,匹配度用于指示会话内容与相应预设关键词集对应的目标话题之间的相似程度,一个预设关键词集对应得到一个匹配度;
话题确定单元,用于根据各预设关键词集对应的目标话题和多个切分词与各预设关键词集之间的匹配度,确定会话内容所属的话题。
进一步地,装置还包括数集建立单元,用于:
分别获取各目标话题对应的样本会话文本,根据预设分词算法对样本会话文本进行分词处理,以及将分词处理得到的切分词作为关键词存入相应目标话题的预设关键词集。
进一步地,预设关键词集中的关键词的相关信息包括频率系数和区分度系数,以及装置还包括系数确定单元,用于:
针对各目标话题对应的预设关键词集中的关键词,根据该关键词在相应目标话题中的出现频次和该关键词在除相应目标话题外的目标话题中的出现频次,确定该关键词的频率系数和区分度系数;
其中,频率系数用于指示关键词在该目标话题中的出现频率,区分度系数用于指示关键词区分该目标话题与其它目标话题的区分程度。
进一步地,信息匹配单元具体用于:
针对每个预设关键词集,从该预设关键词集中选取分别与各切分词匹配的关键词,得到多个关键词;
计算各关键词的频率系数和区分度系数的乘积,得到多个乘积值,将多个乘积值的和值,确定为该预设关键词集的权重系数;
将该预设关键词集的权重系数和其它各预设关键词集的权重系数进行归一化处理,将该预设关键词集的归一化后的权重系数,确定为多个切分词与该预设关键词集之间的匹配度。
进一步地,信息匹配单元具体用于:
针对每个预设关键词集,从该预设关键词集中选取分别与各切分词匹配的关键词,得到多个关键词;
根据所得到的关键词的数目和多个切分词的数目,确定该预设关键词集对多个切分词的覆盖率,以及将覆盖率确定为该预设关键词集与多个切分词之间的匹配度;
其中,覆盖率用于指示预设关键词集中选取得到的关键词在多个切分词中的占比。
进一步地,区分度系数包括以下任一项:
关键词在该目标话题中的出现次数与在其它各目标话题中的总出现次数的比值,记作第一比值;
关键词在该目标话题中的出现频率与在其它各目标话题中的出现频率之和的比值,记作第二比值;
第一比值与第二比值的加权和。
进一步地,内容处理单元具体用于:
从会话内容中识别出对应不同内容形式的内容部分,内容形式包括以下至少一项:语音形式,图片形式,文本形式;
保留会话内容中的、对应内容形式为文本形式的内容部分,将会话内容中的、对应内容形式为语音形式的内容部分转换成文本,以及删除会话内容中的、对应内容形式为图片形式的内容部分。
本申请实施例的第三方面提供了一种服务器,包括存储器、处理器以及存储在存储器中并可在服务器上运行的计算机程序,处理器执行计算机程序时实现第一方面提供的基于人工智能的话题识别方法的各步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现第一方面提供的基于人工智能的话题识别方法的各步骤。
实施本申请实施例提供的一种基于人工智能的话题识别方法、装置、服务器及介质具有以下有益效果:能够实现自动对会话内容进行话题识别,比及手动记录,可以提高对会话内容进行话题分类的效率和准确率,从而有助于提高对大量会话内容进行管理的效率和准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种基于人工智能的话题识别方法的实现流程图;
图2是本申请实施例提供的另一种基于人工智能的话题识别方法的实现流程图;
图3是本申请实施例提供的一种基于人工智能的话题识别装置的结构框图;
图4是本申请实施例提供的一种服务器的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大基于人工智能的话题识别技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例中,基于人工智能技术,以实现对会话内容进行话题识别。
本申请实施例所涉及的基于人工智能的话题识别方法,可以由服务器执行。基于人工智能的话题识别方法由服务器执行时,执行主体为服务器。
需要指出的是,上述服务器可以包括但不限于服务器、手机、平板或可穿戴智能设备等。另外,上述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。
请参阅图1,图1示出了本申请实施例提供的一种基于人工智能的话题识别方法的实现流程图,包括:
步骤101,获取会话内容,根据会话内容的内容形式,将会话内容转换成会话文本,以及根据预设分词算法,对会话文本进行分词处理,得到多个切分词。
其中,上述会话内容可以是沟通过程中所产生的各种信息内容。实践中,会话内容中可以包括但不限于以下至少一种:文本、图片、音频、视频等。会话内容的内容形式可以包括但不限于以下至少一种:语音形式,图片形式,文本形式,视频形式等。
其中,上述预设分词算法可以是预先设定的分词算法,如,可以是最短路径分词算法(N-Short Path)、最大概率分词算法(Maximum Probability)、最大匹配算法(MaximumMatching)等。
这里,执行主体可以从本地获取会话内容,或者从通信连接的其他设备获取会话内容。在获取到会话内容后,上述执行主体可以将会话内容转换成文本形式,得到会话文本。如,可以将音频形式的会话内容转换成文本形式。
在各个实施例的可选的实现方式中,上述根据会话内容的内容形式,将会话内容转换成会话文本,可以包括如下步骤:
首先,从会话内容中识别出对应不同内容形式的内容部分。其中,内容形式包括以下至少一项:语音形式,图片形式,文本形式。
然后,保留会话内容中的、对应内容形式为文本形式的内容部分,将会话内容中的、对应内容形式为语音形式的内容部分转换成文本,以及删除会话内容中的、对应内容形式为图片形式的内容部分。
这里,由于对文本形式的会话内容进行处理更加容易实现,且计算量较小,将会话内容转换成会话文本,有助于提高数据处理效率。
这里,执行主体采用预设分词算法对会话文本进行分词处理之后,可以得到会话文本的至少一个切分词。其中,上述切分词为对会话文本进行分词处理后得到的词。举例来说,若会话文本为:“我想了解保险业务”,则对会话文本进行分词处理后,得到的切分词可以为:“我”、“保险业务”。
需要指出的是,本申请实施例中,所得到的切分词,通常不包括停用词。
步骤102,根据各预设关键词集中的、与各切分词相匹配的关键词的相关信息,确定多个切分词与各预设关键词集之间的匹配度。
其中,上述匹配度用于指示会话内容与相应预设关键词集对应的目标话题之间的相似程度,一个预设关键词集对应得到一个匹配度。
其中,上述预设关键词集通常是预先设定的关键词的集合。针对每个目标话题可以对应有一个预设关键词集。实践中,目标话题对应的预设关键词集通常是目标话题所涉及的文本中常出现的关键词的集合。
上述目标话题通常是预先设定的话题。作为示例,目标话题可以为买保险的话题,也可以为贷款的话题等。
这里,针对各预设关键词集,上述执行主体可以从该预设关键词集中选取与切分词相匹配的关键词。针对每个切分词可以选取一个或多个相匹配的关键词,也可能选取不到相匹配的关键词。针对多个切分词可以得到多个相匹配的关键词。上述与切分词相匹配的关键词,可以是与切分词相同或语义相近的关键词。针对每个预设关键词集,上述执行主体可以采用该预设关键词集中的与切分词匹配的关键词的相关信息,确定得到上述多个切分词与该预设关键词集之间的匹配度。
可选地,若关键词的相关信息为关键词本身,则上述根据各预设关键词集中的、与各切分词相匹配的关键词的相关信息,确定多个切分词与各预设关键词集之间的匹配度,可以包括:
步骤一,针对每个预设关键词集,从该预设关键词集中选取分别与各切分词匹配的关键词,得到多个关键词。
步骤二,根据所得到的关键词的数目和多个切分词的数目,确定该预设关键词集对多个切分词的覆盖率,以及将覆盖率确定为该预设关键词集与多个切分词之间的匹配度。
其中,覆盖率用于指示预设关键词集中选取得到的关键词在多个切分词中的占比。实际应用中,覆盖率为上述所得到的关键词的数目与多个切分词的数目的比值。
这里,上述执行主体可以针对每个预设关键词集,从中选取出与切分词相匹配的关键词,针对多个切分词可以选取得到多个关键词。然后,采用所得到的关键词的数目和多个切分词的数目,计算得到该预设关键词集对多个切分词的覆盖率,即,得到该预设关键词集与多个切分词之间的匹配度。
举例来说,若目标话题对应的预设关键词集甲为{A,B,C,D,E},多个切分词分别为A、B、C1、D1、F,其中,C1与C相似,D1与D相似,则预设关键词集甲对多个切分词的覆盖率为0.8,其中,0.8=4÷5。此时,预设关键词集甲与多个切分词之间的匹配度为0.8。
步骤103,根据各预设关键词集对应的目标话题和多个切分词与各预设关键词集之间的匹配度,确定会话内容所属的话题。
这里,多个切分词与每个预设关键词集之间可以得到一个匹配度,由于每个预设关键词集对应有目标话题,上述执行主体可以基于针对各预设关键词的匹配度,从多个目标话题中选取目标话题作为会话内容所属的话题。
可选地,上述根据各预设关键词集对应的目标话题和多个切分词与各预设关键词集之间的匹配度,确定会话内容所属的话题,可以包括:将对应匹配度满足预设匹配条件的目标话题,确定为会话内容所属的话题。
其中,上述预设匹配条件通常是预先设定的用于从多个目标话题中选取目标话题的条件。实践中,预设匹配条件包括但不限于以下至少一项:其一,匹配度大于预设匹配度阈值,其中,预设匹配度阈值通常是预先设定的数值。其二,匹配度为各匹配度中的最大值。
需要指出的是,会话内容所属的话题,可能为各目标话题中的某一个目标话题,也可能为各目标话题之外的话题。举例来说,若多个目标话题中不存在满足上述预设匹配条件的目标话题,则会话内容所属的话题为各目标话题之外的话题。
本实施例提供的方法,能够实现自动对会话内容进行话题识别,比及手动记录,可以提高对会话内容进行话题分类的效率和准确率,从而有助于提高对大量会话内容进行管理的效率和准确率。
请参阅图2,图2是本申请实施例提供的一种基于人工智能的话题识别方法的实现流程图。本实施例提供的基于人工智能的话题识别方法,可以包括以下步骤:
步骤201,分别获取各目标话题对应的样本会话文本,根据预设分词算法对样本会话文本进行分词处理,以及将分词处理得到的切分词作为关键词存入相应目标话题的预设关键词集。
其中,针对每一个目标话题可以具有一个或多个样本会话文本。针对每个目标话题,上述执行主体可以对该目标话题的每个样本会话文本进行分词处理,以及将对样本会话文本分词处理得到的切分词存入该目标话题对应的预设关键词集中。针对每个目标话题具有一个预设关键词集。
步骤202,获取会话内容,根据会话内容的内容形式,将会话内容转换成会话文本,以及根据预设分词算法,对会话文本进行分词处理,得到多个切分词。
步骤203,根据各预设关键词集中的、与各切分词相匹配的关键词的相关信息,确定多个切分词与各预设关键词集之间的匹配度。
其中,匹配度用于指示会话内容与相应预设关键词集对应的目标话题之间的相似程度,一个预设关键词集对应得到一个匹配度。
步骤204,根据各预设关键词集对应的目标话题和多个切分词与各预设关键词集之间的匹配度,确定会话内容所属的话题。
在本实施例中,步骤202-204的具体操作与图1所示的实施例中步骤101-103的操作基本相同,在此不再赘述。
本实施例可以实现从各目标话题的样本会话文本中,得到相应目标话题的预设关键词集。
在一些可选的实现方式中,若预设关键词集中的关键词的相关信息包括频率系数和区分度系数,则上述基于人工智能的话题识别方法还可以包括如下步骤:
针对各目标话题对应的预设关键词集中的关键词,根据该关键词在相应目标话题中的出现频次和该关键词在除相应目标话题外的目标话题中的出现频次,确定该关键词的频率系数和区分度系数。
其中,频率系数用于指示关键词在该目标话题中的出现频率,区分度系数用于指示关键词区分该目标话题与其它目标话题的区分程度。
上述出现频次通常是指出现频率和出现次数。
实践中,区分度系数可以包括但不限于以下任一项:
第一项,关键词在该目标话题中的出现次数与在其它各目标话题中的总出现次数的比值,记作第一比值。
第二项,关键词在该目标话题中的出现频率与在其它各目标话题中的出现频率之和的比值,记作第二比值。
第三项,第一比值与第二比值的加权和。其中,第一比值与第二比值的加权和,为对第一比值和第二比值进行加权后求和。
需要指出的是,在目标话题中的出现次数,通常是指在目标话题的预设关键词集中的出现次数。在目标话题中的出现频率通常是指在目标话题的预设关键词集中的出现频率。
这里,针对每个目标话题的每个关键词,上述执行主体可以计算该关键词在该目标话题的预设关键词集中的出现频率、出现次数,以及计算该关键词在其它目标话题的预设关键词集中的出现频率、出现次数,从而计算得到该关键词在目标话题中的频率系数和区分度系数。
实践中,针对预设关键词集中的每个关键词,可以计算得到该关键词在各个目标话题中的频率系数tfij。其中,tfij=nij/∑nij,tfij为第i个关键词在第j个目标话题中频率系数,其中,nij为第i个关键词在第j个目标话题中的出现次数,∑nij为第j个目标话题对应的所有关键词在第j个目标话题中的出现次数的总和。频率系数为第i个关键词在第j个目标话题中的出现次数,与第j个目标话题对应的所有关键词在第j个目标话题中的出现次数的总和的比值。频率系数能够衡量第i个关键词在第j个目标话题中的重要性,频率系数的取值越高,代表该关键词越重要。
另外,可以计算得到该关键词在各个目标话题中的区分度系数ponij。其中,ponij=nij/∑nim(m≠j)。其中,∑nim(m≠j)为第i个关键词在所有目标话题中(排除第j个目标话题)出现的总次数。区分度系数能够衡量第j个目标话题中的第i个关键词在区分目标话题上的作用,如果第i个关键词在第j个目标话题中频繁出现,但在其它目标话题中较少出现,说明第i个关键词在区分不同目标话题时有重要作用。区分度系数的取值越高,代表该关键词越重要。
需要指出的是,在对各目标话题的关键词计算频率系数和区分度系数后,为了便于后续操作,上述执行主体通常需要对各预设关键词集进行去重。即,在对各预设关键词集进行应用的过程中,所使用到的预设关键词集为去重后的预设关键词集。
这里,针对每个关键词计算频率系数和区分度系数可以确定关键词对相应目标话题的重要程度。
在一些可选的实现方式中,在预设关键词集中的各关键词具有频率系数和区分度系数时,上述根据各预设关键词集中的、与各切分词相匹配的关键词的相关信息,确定多个切分词与各预设关键词集之间的匹配度,可以包括:
首先,针对每个预设关键词集,从该预设关键词集中选取分别与各切分词匹配的关键词,得到多个关键词。
这里,针对各预设关键词集,上述执行主体可以从该预设关键词集中选取与切分词相匹配的关键词。针对每个切分词可以选取一个或多个相匹配的关键词,也可能选取不到相匹配的关键词。上述与切分词相匹配的关键词,可以是与切分词相同或语义相近的关键词。针对多个切分词可以选取得到多个关键词。
然后,计算各关键词的频率系数和区分度系数的乘积,得到多个乘积值,将多个乘积值的和值,确定为该预设关键词集的权重系数。
举例来说,若所选取的关键词有4个,分别为A、B、C、D,若A的频率系数为A1,区分度系数为A2,B的频率系数为B1,区分度系数为B2,C的频率系数为C1,区分度系数为C2,D的频率系数为D1,区分度系数为D2。则可以针对每个关键词,采用频率系数和区分度系数计算得到乘积值。所得到的4个乘积值可以为M1、M2、M3、M4,其中,M1=A1×A2,M2=B1×B2,M3=C1×C2,M4=D1×D2。此时,将多个乘积值的和值确定为该预设关键词集的权重系数,可以得到权重系数为W1,其中,W1=M1+M2+M3+M4。
最后,将该预设关键词集的权重系数和其它各预设关键词集的权重系数进行归一化处理,将该预设关键词集的归一化后的权重系数,确定为多个切分词与该预设关键词集之间的匹配度。
这里,上述执行主体可以对各预设关键词集的权重系数进行归一化处理。如,可以将各权重系数分别除以所有权重系数的和值,得到相应权重系数的归一化值。实践中,可以将各预设关键词集的权重系数输入softmax模型,通过该模型对各权重系数进行准确归一化。另外,在对各预设关键词集的权重系数进行归一化处理之后,可以将针对该预设关键词集的归一化后的权重系数,确定为上述多个切分词与该预设关键词集之间的匹配度。
需要指出的是,将该预设关键词集的归一化后的权重系数,确定为多个切分词与该预设关键词集之间的匹配度,可以缩小数据与数据之间的变化幅度,有助于降低数据维度和计算复杂度,同时可以提高数据处理的准确率。
请参阅图3,图3是本申请实施例提供的一种基于人工智能的话题识别装置300的结构框图。本实施例中该基于人工智能的话题识别装置包括的各单元用于执行图1-图2对应的实施例中的各步骤。具体请参阅图1-图2以及图1-图2所对应的实施例中的相关描述。为了便于说明,仅示出了与本实施例相关的部分。参见图3,基于人工智能的话题识别装置300包括:
内容处理单元301,用于获取会话内容,根据会话内容的内容形式,将会话内容转换成会话文本,以及根据预设分词算法,对会话文本进行分词处理,得到多个切分词;
信息匹配单元302,用于根据各预设关键词集中的、与各切分词相匹配的关键词的相关信息,确定多个切分词与各预设关键词集之间的匹配度,匹配度用于指示会话内容与相应预设关键词集对应的目标话题之间的相似程度,一个预设关键词集对应得到一个匹配度;
话题确定单元303,用于根据各预设关键词集对应的目标话题和多个切分词与各预设关键词集之间的匹配度,确定会话内容所属的话题。
作为本申请一实施例,基于人工智能的话题识别装置还可以包括数集建立单元(图中未示出)。其中,数集建立单元用于:
分别获取各目标话题对应的样本会话文本,根据预设分词算法对样本会话文本进行分词处理,以及将分词处理得到的切分词作为关键词存入相应目标话题的预设关键词集。
作为本申请一实施例,预设关键词集中的关键词的相关信息包括频率系数和区分度系数,以及基于人工智能的话题识别装置还可以包括系数确定单元(图中未示出)。其中,系数确定单元用于:
针对各目标话题对应的预设关键词集中的关键词,根据该关键词在相应目标话题中的出现频次和该关键词在除相应目标话题外的目标话题中的出现频次,确定该关键词的频率系数和区分度系数;
其中,频率系数用于指示关键词在该目标话题中的出现频率,区分度系数用于指示关键词区分该目标话题与其它目标话题的区分程度。
作为本申请一实施例,信息匹配单元302具体用于:
针对每个预设关键词集,从该预设关键词集中选取分别与各切分词匹配的关键词,得到多个关键词;
计算各关键词的频率系数和区分度系数的乘积,得到多个乘积值,将多个乘积值的和值,确定为该预设关键词集的权重系数;
将该预设关键词集的权重系数和其它各预设关键词集的权重系数进行归一化处理,将该预设关键词集的归一化后的权重系数,确定为多个切分词与该预设关键词集之间的匹配度。
作为本申请一实施例,信息匹配单元302具体还用于:
针对每个预设关键词集,从该预设关键词集中选取分别与各切分词匹配的关键词,得到多个关键词;
根据所得到的关键词的数目和多个切分词的数目,确定该预设关键词集对多个切分词的覆盖率,以及将覆盖率确定为该预设关键词集与多个切分词之间的匹配度;
其中,覆盖率用于指示预设关键词集中选取得到的关键词在多个切分词中的占比。
作为本申请一实施例,区分度系数包括以下任一项:
关键词在该目标话题中的出现次数与在其它各目标话题中的总出现次数的比值,记作第一比值;
关键词在该目标话题中的出现频率与在其它各目标话题中的出现频率之和的比值,记作第二比值;
第一比值与第二比值的加权和。
作为本申请一实施例,内容处理单元301,具体用于:
从会话内容中识别出对应不同内容形式的内容部分,内容形式包括以下至少一项:语音形式,图片形式,文本形式;
保留会话内容中的、对应内容形式为文本形式的内容部分,将会话内容中的、对应内容形式为语音形式的内容部分转换成文本,以及删除会话内容中的、对应内容形式为图片形式的内容部分。
本实施例提供的装置,能够实现自动对会话内容进行话题识别,比及手动记录,可以提高对会话内容进行话题分类的效率和准确率,从而有助于提高对大量会话内容进行管理的效率和准确率。
应当理解的是,图3示出的基于人工智能的话题识别装置的结构框图中,各单元用于执行图1-图2对应的实施例中的各步骤,而对于图1-图2对应的实施例中的各步骤已在上述实施例中进行详细解释,具体请参阅图1-图2以及图1-图2所对应的实施例中的相关描述,此处不再赘述。
图4是本申请另一实施例提供的一种服务器的结构框图。如图4所示,该实施例的服务器400包括:处理器401、存储器402以及存储在存储器402中并可在处理器401上运行的计算机程序403,例如基于人工智能的话题识别方法的程序。处理器401执行计算机程序403时实现上述各个基于人工智能的话题识别方法各实施例中的步骤,例如图1所示的步骤101至步骤103。或者,处理器401执行计算机程序403时实现上述图3对应的实施例中各单元的功能,例如,图3所示的单元301至303的功能,具体请参阅图3对应的实施例中的相关描述,此处不赘述。
示例性的,计算机程序403可以被分割成一个或多个单元,一个或者多个单元被存储在存储器402中,并由处理器401执行,以完成本申请。一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序403在服务器400中的执行过程。例如,计算机程序403可以被分割成内容处理单元,信息匹配单元,话题确定单元,各单元具体功能如上。
服务器可以包括,但不仅限于,处理器401、存储器402。本领域技术人员可以理解,图4仅仅是服务器400的示例,并不构成对服务器400的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如转台设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器401可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器402可以是服务器400的内部存储单元,例如服务器400的硬盘或内存。存储器402也可以是服务器400的外部存储设备,例如服务器400上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器402还可以既包括服务器400的内部存储单元也包括外部存储设备。存储器402用于存储计算机程序以及转台设备所需的其他程序和数据。存储器402还可以用于暂时地存储已经输出或者将要输出的数据。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。其中,计算机可读存储介质可以是非易失性的,也可以是易失性的。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读存储介质不包括电载波信号和电信信号。
以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种基于人工智能的话题识别方法,其特征在于,所述方法包括:
获取会话内容,根据所述会话内容的内容形式,将所述会话内容转换成会话文本,以及根据预设分词算法,对所述会话文本进行分词处理,得到多个切分词;
根据各预设关键词集中的、与各切分词相匹配的关键词的相关信息,确定所述多个切分词与各预设关键词集之间的匹配度,所述匹配度用于指示所述会话内容与相应预设关键词集对应的目标话题之间的相似程度,一个预设关键词集对应得到一个匹配度;
根据各预设关键词集对应的目标话题和所述多个切分词与各预设关键词集之间的匹配度,确定所述会话内容所属的话题。
2.根据权利要求1所述的基于人工智能的话题识别方法,其特征在于,所述方法还包括:
分别获取各目标话题对应的样本会话文本,根据所述预设分词算法对所述样本会话文本进行分词处理,以及将分词处理得到的切分词作为关键词存入相应目标话题的预设关键词集。
3.根据权利要求1所述的基于人工智能的话题识别方法,其特征在于,所述预设关键词集中的关键词的相关信息包括频率系数和区分度系数,以及所述方法还包括:
针对各目标话题对应的预设关键词集中的关键词,根据该关键词在相应目标话题中的出现频次和该关键词在除所述相应目标话题外的目标话题中的出现频次,确定该关键词的频率系数和区分度系数;
其中,频率系数用于指示关键词在该目标话题中的出现频率,区分度系数用于指示关键词区分该目标话题与其它目标话题的区分程度。
4.根据权利要求3所述的基于人工智能的话题识别方法,其特征在于,所述根据各预设关键词集中的、与各切分词相匹配的关键词的相关信息,确定所述多个切分词与各预设关键词集之间的匹配度,包括:
针对每个预设关键词集,从该预设关键词集中选取分别与各切分词匹配的关键词,得到多个关键词;
计算各关键词的频率系数和区分度系数的乘积,得到多个乘积值,将多个乘积值的和值,确定为该预设关键词集的权重系数;
将该预设关键词集的权重系数和其它各预设关键词集的权重系数进行归一化处理,将该预设关键词集的归一化后的权重系数,确定为所述多个切分词与该预设关键词集之间的匹配度。
5.根据权利要求1所述的基于人工智能的话题识别方法,其特征在于,所述根据各预设关键词集中的、与各切分词相匹配的关键词的相关信息,确定所述多个切分词与各预设关键词集之间的匹配度,包括:
针对每个预设关键词集,从该预设关键词集中选取分别与各切分词匹配的关键词,得到多个关键词;
根据所得到的关键词的数目和所述多个切分词的数目,确定该预设关键词集对所述多个切分词的覆盖率,以及将所述覆盖率确定为该预设关键词集与所述多个切分词之间的匹配度;
其中,所述覆盖率用于指示预设关键词集中选取得到的关键词在所述多个切分词中的占比。
6.根据权利要求3所述的基于人工智能的话题识别方法,其特征在于,所述区分度系数包括以下任一项:
关键词在该目标话题中的出现次数与在其它各目标话题中的总出现次数的比值,记作第一比值;
关键词在该目标话题中的出现频率与在其它各目标话题中的出现频率之和的比值,记作第二比值;
所述第一比值与所述第二比值的加权和。
7.根据权利要求1-6中任一项所述的基于人工智能的话题识别方法,其特征在于,所述根据所述会话内容的内容形式,将所述会话内容转换成会话文本,包括:
从所述会话内容中识别出对应不同内容形式的内容部分,所述内容形式包括以下至少一项:语音形式,图片形式,文本形式;
保留所述会话内容中的、对应内容形式为文本形式的内容部分,将所述会话内容中的、对应内容形式为语音形式的内容部分转换成文本,以及删除所述会话内容中的、对应内容形式为图片形式的内容部分。
8.一种基于人工智能的话题识别装置,其特征在于,所述装置包括:
内容处理单元,用于获取会话内容,根据所述会话内容的内容形式,将所述会话内容转换成会话文本,以及根据预设分词算法,对所述会话文本进行分词处理,得到多个切分词;
信息匹配单元,用于根据各预设关键词集中的、与各切分词相匹配的关键词的相关信息,确定所述多个切分词与各预设关键词集之间的匹配度,所述匹配度用于指示所述会话内容与相应预设关键词集对应的目标话题之间的相似程度,一个预设关键词集对应得到一个匹配度;
话题确定单元,用于根据各预设关键词集对应的目标话题和所述多个切分词与各预设关键词集之间的匹配度,确定所述会话内容所属的话题。
9.一种服务器,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111138884.3A CN113850077A (zh) | 2021-09-27 | 2021-09-27 | 基于人工智能的话题识别方法、装置、服务器及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111138884.3A CN113850077A (zh) | 2021-09-27 | 2021-09-27 | 基于人工智能的话题识别方法、装置、服务器及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113850077A true CN113850077A (zh) | 2021-12-28 |
Family
ID=78980626
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111138884.3A Pending CN113850077A (zh) | 2021-09-27 | 2021-09-27 | 基于人工智能的话题识别方法、装置、服务器及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113850077A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114938477A (zh) * | 2022-06-23 | 2022-08-23 | 阿里巴巴(中国)有限公司 | 视频话题确定方法、装置及设备 |
CN116610783A (zh) * | 2023-05-05 | 2023-08-18 | 衢州市艾思网络科技有限公司 | 基于人工智能决策的服务优化方法及数字化在线页面系统 |
-
2021
- 2021-09-27 CN CN202111138884.3A patent/CN113850077A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114938477A (zh) * | 2022-06-23 | 2022-08-23 | 阿里巴巴(中国)有限公司 | 视频话题确定方法、装置及设备 |
CN114938477B (zh) * | 2022-06-23 | 2024-05-03 | 阿里巴巴(中国)有限公司 | 视频话题确定方法、装置及设备 |
CN116610783A (zh) * | 2023-05-05 | 2023-08-18 | 衢州市艾思网络科技有限公司 | 基于人工智能决策的服务优化方法及数字化在线页面系统 |
CN116610783B (zh) * | 2023-05-05 | 2024-01-02 | 广东信佰工程监理有限公司 | 基于人工智能决策的服务优化方法及数字化在线页面系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10726038B2 (en) | System and method for optimizing aggregation and analysis of data across multiple data sources | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN112732911A (zh) | 基于语义识别的话术推荐方法、装置、设备及存储介质 | |
CN111061881A (zh) | 文本分类方法、设备及存储介质 | |
US11410644B2 (en) | Generating training datasets for a supervised learning topic model from outputs of a discovery topic model | |
US11436446B2 (en) | Image analysis enhanced related item decision | |
CN113850077A (zh) | 基于人工智能的话题识别方法、装置、服务器及介质 | |
CN113407677B (zh) | 评估咨询对话质量的方法、装置、设备和存储介质 | |
CN112163081A (zh) | 标签确定方法、装置、介质及电子设备 | |
CN113919437A (zh) | 生成客户画像的方法、装置、设备及存储介质 | |
CN113392920B (zh) | 生成作弊预测模型的方法、装置、设备、介质及程序产品 | |
CN111259975B (zh) | 分类器的生成方法及装置、文本的分类方法及装置 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN116863116A (zh) | 基于人工智能的图像识别方法、装置、设备及介质 | |
CN116342164A (zh) | 目标用户群体的定位方法、装置、电子设备及存储介质 | |
CN113095073B (zh) | 语料标签生成方法、装置、计算机设备和存储介质 | |
CN115063858A (zh) | 视频人脸表情识别模型训练方法、装置、设备及存储介质 | |
CN113806541A (zh) | 情感分类的方法和情感分类模型的训练方法、装置 | |
CN114283429A (zh) | 素材工单数据处理方法、装置、设备及存储介质 | |
WO2023272833A1 (zh) | 一种数据检测方法、装置、设备及可读存储介质 | |
CN117573956B (zh) | 元数据管理方法、装置、设备及存储介质 | |
CN114036278A (zh) | 用于识别意图的方法、装置、电子设备、介质和程序产品 | |
CN116910199A (zh) | 基于人工智能的智能问答处理方法、装置、设备及介质 | |
CN116010545A (zh) | 一种数据处理方法、装置及设备 | |
CN114520912A (zh) | 资源转移视频质量检测方法、装置、设备、介质和产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |