CN111553144A - 基于人工智能的话题挖掘方法、装置及电子设备 - Google Patents

基于人工智能的话题挖掘方法、装置及电子设备 Download PDF

Info

Publication number
CN111553144A
CN111553144A CN202010350555.4A CN202010350555A CN111553144A CN 111553144 A CN111553144 A CN 111553144A CN 202010350555 A CN202010350555 A CN 202010350555A CN 111553144 A CN111553144 A CN 111553144A
Authority
CN
China
Prior art keywords
topic
interest
topics
dialogue
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010350555.4A
Other languages
English (en)
Inventor
黄忆丁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
OneConnect Smart Technology Co Ltd
OneConnect Financial Technology Co Ltd Shanghai
Original Assignee
OneConnect Financial Technology Co Ltd Shanghai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by OneConnect Financial Technology Co Ltd Shanghai filed Critical OneConnect Financial Technology Co Ltd Shanghai
Priority to CN202010350555.4A priority Critical patent/CN111553144A/zh
Publication of CN111553144A publication Critical patent/CN111553144A/zh
Priority to PCT/CN2021/078135 priority patent/WO2021218339A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于人工智能的话题挖掘方法、装置及电子设备,涉及自然语言处理领域,该方法包括:获取对话录音的对话语音数据;基于预设的语音转文本技术,获取所述对话语音数据对应的对话文本数据;获取关注话题数;将所述对话文本数据以及所述关注话题数输入预训练的主题模型LDA,获取所述LDA对所述对话文本数据聚合得到的所述关注话题数的关注话题;基于所述对话文本数据对各所述关注话题进行统计,获取各所述关注话题的分布,实现话题挖掘。该方法提高了话题挖掘的挖掘率。本发明还涉及区块链技术,所述对话文本数据存储于区块链中。

Description

基于人工智能的话题挖掘方法、装置及电子设备
技术领域
本发明涉及人工智能的自然语言处理领域,特别是涉及基于人工智能的话题挖掘方法、装置及电子设备。
背景技术
在互联网技术飞速发展的今天,客户在接受商家服务的过程中,常常会与客服进行沟通。例如:向客服咨询商品的信息、向客服投诉物流速度过慢。为保证客服以高水平的沟通能力与客户进行沟通,就需要对审核客服与客户的沟通能力进行审核。具体,通过对客服与客户之间的沟通内容所涉及的话题进行挖掘——确认客服与客户在沟通时涉及了哪些话题、主要涉及的是哪些话题,从而管理人员能够根据挖掘出的话题对客服进行审核。
现有技术中,在进行话题挖掘时,只能够对预设的关注话题进行挖掘,若客服与客户在沟通过程中出现了新内容,则无法挖掘出该新内容对应的新话题,挖掘率较低。
发明内容
基于此,为解决相关技术中如何从技术层面上解决话题挖掘的挖掘率低所面临的技术问题,本发明提供了一种基于人工智能的话题挖掘方法、装置及电子设备。
第一方面,提供了一种基于人工智能的话题挖掘方法,包括:
获取对话录音的对话语音数据;
基于预设的语音转文本技术,获取所述对话语音数据对应的对话文本数据;
获取关注话题数;
将所述对话文本数据以及所述关注话题数输入预训练的主题模型LDA,获取所述LDA对所述对话文本数据聚合得到的所述关注话题数的关注话题;
基于所述对话文本数据对各所述关注话题进行统计,获取各所述关注话题的分布,实现话题挖掘。
在本公开的一示例性实施例中,获取对话录音的对话语音数据,包括:
获取预设时间段内的对话录音;
将所述对话录音按照双向音轨的方式进行拆分,分别获取所述对话录音中各对话用户对应的对话语音数据;
所述基于预设的语音转文本技术,获取所述对话语音数据对应的对话文本数据,包括:基于预设的语音转文本技术,分别获取所述各对话用户对应的对话语音数据所对应的对话文本数据。
在本公开的一示例性实施例中,获取关注话题数,包括:
获取所述对话录音对应的来源场景;
基于所述来源场景获取关注话题数。
在本公开的一示例性实施例中,获取关注话题数,包括:
获取所述对话录音中各对话用户的用户特征;
基于所述用户特征获取关注话题数。
在本公开的一示例性实施例中,所述对话文本数据存储于区块链中,基于所述对话文本数据对各所述关注话题进行统计,获取各所述关注话题的分布,包括:
针对每一所述关注话题,获取所述对话文本数据中的各词语分别与所述关注话题的关联得分,所述关联得分表征着对应词语与所述关注话题的关联紧密程度;
针对每一所述关注话题,基于所述对话文本数据中的各词语分别与所述关注话题的关联得分,获取所述关注话题的总得分;
基于所述总得分,对各所述关注话题进行统计,获取各所述关注话题的分布。
在本公开的一示例性实施例中,针对每一所述关注话题,获取所述对话文本数据中的各词语分别与所述关注话题的关联得分,包括:
对所述对话文本数据进行分词,获取所述对话文本数据中的各词语;
基于预设的词向量模型,获取所述对话文本数据中的各词语分别对应的第一词向量、以及所述关注话题对应的第二词向量;
基于所述第一词向量与所述第二词向量,获取所述对话文本数据中的各词语分别与所述关注话题的关联得分。
在本公开的一示例性实施例中,在所述获取各所述关注话题的分布之后,所述方法还包括:将各所述关注话题的分布以列表的形式进行展示。
根据本公开的第二方面,提供了一种基于人工智能的话题挖掘装置,包括:
第一获取模块,用于获取对话录音的对话语音数据;
第二获取模块,用于基于预设的语音转文本技术,获取所述对话语音数据对应的对话文本数据;
第三获取模块,用于获取关注话题数;
第四获取模块,用于将所述对话文本数据以及所述关注话题数输入预训练的主题模型LDA,获取所述LDA对所述对话文本数据聚合得到的所述关注话题数的关注话题;
第五获取模块,用于基于所述对话文本数据对各所述关注话题进行统计,获取各所述关注话题的分布,实现话题挖掘。
根据本公开的第三方面,提供了一种基于人工智能的话题挖掘电子设备,包括:
存储器,配置为存储可执行指令。
处理器,配置为执行所述存储器中存储的可执行指令,以执行以上所述的方法。
根据本公开的第四方面,提供一种计算机可读存储介质,其存储有计算机程序指令,当所述计算机指令被计算机执行时,使计算机执行以上所述的方法。
本公开实施例通过将获取到的对话录音的对话语音数据转化为对应的对话文本数据,获取关注话题数,进而基于预训练的主题模型LDA对该对话文本数据进行聚合,得到该关注话题数的关注话题,进而基于该对话文本数据对各关注话题进行统计,获取各关注话题的分布,实现话题挖掘。由此可见,本公开实施例在进行话题挖掘时,无需预先确定各关注话题,关注话题的确定是由LDA对输入的对话文本数据进行聚合而得到的。随着对话录音内容的不同,相应的,聚合得到的关注话题也会随着对话录音内容发生相应的变化。即使对话场景、对话用户发生改变,导致未曾记录存储的新话题的出现,本公开实施例也可以挖掘出该新话题,从而提高了话题挖掘的挖掘率。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本公开。
附图说明
图1示出根据本公开一示例实施方式的基于人工智能的话题挖掘方法的流程图。
图2示出根据本公开一示例实施方式的基于人工智能的话题挖掘装置的方框图。
图3示出根据本公开一示例实施方式的获取对话录音的对话语音数据的详细流程图。
图4示出根据本公开一示例实施方式的获取关注话题数的详细流程图。
图5示出根据本公开一示例实施方式的获取关注话题数的详细流程图。
图6示出根据本公开一示例实施方式的基于所述对话文本数据对各所述关注话题进行统计,获取各所述关注话题的分布的详细流程图。
图7示出根据本公开一示例实施方式的针对每一所述关注话题,获取所述对话文本数据中的各词语分别与所述关注话题的关联得分的详细流程图。
图8示出根据本公开一示例实施方式的基于人工智能的话题挖掘的系统架构图。
图9示出根据本公开一示例实施方式的基于人工智能的话题挖掘的电子设备图。
图10示出根据本公开一示例实施方式的基于人工智能的话题挖掘的计算机可读存储介质图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中,提供许多具体细节从而给出对本公开的实施方式的充分理解。然而,本领域技术人员将意识到,可以实践本公开的技术方案而省略所述特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。
此外,附图仅为本公开的示意性图解,并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分,因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体,不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
本公开的目的在于提高话题挖掘的挖掘率。根据本公开一个实施例的基于人工智能的话题挖掘方法,包括:获取对话录音的对话语音数据;基于预设的语音转文本技术,获取所述对话语音数据对应的对话文本数据;获取关注话题数;将所述对话文本数据以及所述关注话题数输入预训练的主题模型LDA,获取所述LDA对所述对话文本数据聚合得到的所述关注话题数的关注话题;基于所述对话文本数据对各所述关注话题进行统计,获取各所述关注话题的分布,实现话题挖掘。本公开实施例通过将获取到的对话录音的对话语音数据转化为对应的对话文本数据,获取关注话题数,进而基于预训练的主题模型LDA对该对话文本数据进行聚合,得到该关注话题数的关注话题,进而基于该对话文本数据对各关注话题进行统计,获取各关注话题的分布,实现话题挖掘。由此可见,本公开实施例在进行话题挖掘时,无需预先确定各关注话题,关注话题的确定是由LDA对输入的对话文本数据进行聚合而得到的。随着对话录音内容的不同,相应的,聚合得到的关注话题也会随着对话录音内容发生相应的变化。即使对话场景、对话用户发生改变,导致未曾记录存储的新话题的出现,本公开实施例也可以挖掘出该新话题,从而提高了话题挖掘的挖掘率。
下面,将结合附图对本示例实施方式中上述基于人工智能的话题挖掘的各步骤进行详细的解释以及说明。
图1示出根据本公开一示例实施方式的基于人工智能的话题挖掘的流程图:
步骤S110:获取对话录音的对话语音数据;
步骤S120:基于预设的语音转文本技术,获取所述对话语音数据对应的对话文本数据;
步骤S130:获取关注话题数;
步骤S140:将所述对话文本数据以及所述关注话题数输入预训练的主题模型LDA,获取所述LDA对所述对话文本数据聚合得到的所述关注话题数的关注话题;
步骤S150:基于所述对话文本数据对各所述关注话题进行统计,获取各所述关注话题的分布,实现话题挖掘。
本公开实施例通过将获取到的对话录音的对话语音数据转化为对应的对话文本数据,获取关注话题数,进而基于预训练的主题模型LDA对该对话文本数据进行聚合,得到该关注话题数的关注话题,进而基于该对话文本数据对各关注话题进行统计,获取各关注话题的分布,实现话题挖掘。由此可见,本公开实施例在进行话题挖掘时,无需预先确定各关注话题,关注话题的确定是由LDA对输入的对话文本数据进行聚合而得到的。随着对话录音内容的不同,相应的,聚合得到的关注话题也会随着对话录音内容发生相应的变化。即使对话场景、对话用户发生改变,导致未曾记录存储的新话题的出现,本公开实施例也可以挖掘出该新话题,从而提高了话题挖掘的挖掘率。
在步骤110中,获取对话录音的对话语音数据。
在步骤120中,基于预设的语音转文本技术,获取所述对话语音数据对应的对话文本数据。
在一实施例中,如图3所示,步骤S110包括:
步骤S1101:获取预设时间段内的对话录音;
步骤S1102:将所述对话录音按照双向音轨的方式进行拆分,分别获取所述对话录音中各对话用户对应的对话语音数据。
步骤S120包括:基于预设的语音转文本技术,分别获取所述各对话用户对应的对话语音数据所对应的对话文本数据。
在一实施例中,获取到对话录音后,从该对话录音中截取预设时间段的对话录音进行话题挖掘。将该预设时间段内的对话录音按照双向音轨的方式进行拆分,分别获取到各对话用户对应的对话语音数据。进而基于预设的语音转文本技术(Automatic SpeechRecognition,ASR),分别对获取到的各对话用户对应的对话语音数据进行语音转文本,从而分别获取各对话用户对应的对话语音数据所对应的对话文本数据。需要强调的是,为进一步保证上述对话文本数据的私密和安全性,上述对话文本数据还可以存储于一区块链的节点中。
例如:管理端要对客服与客户之间的沟通进行监控,以考核客服与客户的实时沟通能力。为此需要进行话题挖掘,确定客服与客户进行沟通时,沟通内容主要集中在哪些话题上。
管理端从数据库中提取客服与客户之间的对话录音,并截取后10分钟的对话录音,按照双向音轨的方式进行拆分,分别获取到客服的对话语音数据、客户的对话语音数据。然后基于预设的语音转文本技术分别对客服的对话语音数据、客户的对话语音数据进行处理,获取到客服的对话文本数据、客户的对话文本数据。
需要说明的是,该实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
在步骤S130中,获取关注话题数。
本公开实施例中,关注话题数是指待聚合而成的关注话题的数量。关注话题反映的则是对话用户之间在沟通时所关注、围绕的话题。
在一实施例中,获取关注话题数,包括:获取预设的关注话题数。
该实施例中,待聚合而成的关注话题的数量,即,关注话题数,是预先设置好的。具体的,可以根据自身的业务需求(例如:对关注话题聚合要求的精细度、对关注话题聚合要求的速度)相应地预设关注话题数。若是对于关注话题聚合要求的精细度高,则相应地增大关注话题数;若是对于关注话题聚合要求的速度高,则相应地减小关注话题数。
在一实施例中,如图4所示,步骤S130包括:
步骤S1301:获取所述对话录音对应的来源场景;
步骤S1302:基于所述来源场景获取关注话题数。
该实施例中,关注话题数的确定是基于对话录音对应的来源场景而确定的。具体的,可以预先根据在具体来源场景中对关注话题聚合要求的精细度,来确定不同来源场景所对应的关注话题数。
例如:用户与客服进行沟通的场景可以划分为三个场景——咨询场景、更换商品场景、投诉场景。一般情况下,在投诉场景中用户情绪的激烈程度会强于在更换商品场景中用户情绪的激烈程度;在更换商品场景中用户情绪的激烈程度会强于在咨询场景中用户情绪的激烈程度。用户情绪越激烈,就越考验客服的沟通能力。因此,在用户情绪更容易激烈的场景中,就需要以更高的精细度对关注话题进行聚合,从而能够对客服的沟通工作进行更为精准的判断。因此,对投诉场景预设的关注话题数大于对更换商品场景预设的关注话题数,对更换商品场景预设的关注话题数大于对咨询场景预设的关注话题数——对投诉场景预设的关注话题数为20,对更换商品场景预设的关注话题数为15,对咨询场景预设的关注话题数为10。从而使得进行话题挖掘时,对投诉场景下的对话录音挖掘出20个关注话题;对更换商品场景下的对话录音挖掘出15个关注话题;对咨询场景下的对话录音挖掘出10个关注话题。
需要说明的是,该实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
在一实施例中,如图5所示,步骤S130包括:
步骤S1301’:获取所述对话录音中各对话用户的用户特征;
步骤S1302’:基于所述用户特征获取关注话题数。
该实施例中,关注话题数的确定是基于对话录音中各对话用户的用户特征而确定的。其中,用户特征可以包括对应对话用户的性别、所属人群、历史行为数据。具体的,可以根据用户特征对对应对话用户进行打分,所得到的分数反映出该对话用户的重要程度。
例如:对于商家来说越重要的客户,就需要客服以越强的沟通能力进行沟通,为该客户提供更好的沟通服务,以保持该客户的粘性。因此,在对客服与客户之间的沟通进行监控,以考核客服与客户的实时沟通能力的情况下,获取关注话题数时,就要根据客户的用户特征来衡量出客户的重要程度——越重要的客户,就要以更高的精细度对关注话题进行聚合,从而能够对客服的沟通工作进行更为精准的判断。
需要说明的是,该实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
在步骤S140中,将所述对话文本数据以及所述关注话题数输入预训练的主题模型LDA,获取所述LDA对所述对话文本数据聚合得到的所述关注话题数的关注话题。
主题模型LDA(Latent Dirichlet Allocation)是一种基于非监督机器学习技术得到的机器学习模型,可以用来识别大规模文档集或语料库中潜藏的主题信息。在本公开实施例中,LDA识别出的主题信息,即为对对话文本数据聚合得到的关注话题,具体的,是对对话文本数据聚合得到的关注话题数的关注话题。
本公开实施例中,获取到对话语音数据对应的对话文本数据以及关注话题数后,将对话文本数据以及关注话题数输入预训练的LDA,从而LDA能够对该对话文本数据进行聚合——聚合为关注话题数的关注话题。
例如:获取到由客服与客户之间的对话录音得到的对话文本数据、预设的关注话题数5之后,将该对话文本数据、以及关注话题数5输入LDA后,LDA对该对话文本数据进行聚合,得到5个关注话题——“质量”、“物流”、“快递”、“性价比”、“使用体验”。
需要说明的是,该实施例只是示例性的说明,不应对本公开的功能和使用范围造成限制。
在步骤S150中,基于所述对话文本数据对各所述关注话题进行统计,获取各所述关注话题的分布,实现话题挖掘。
本公开实施例中,获取到关注话题数的关注话题后,就需要基于对话文本数据的具体内容,对各关注话题进行统计,获取各关注话题的分布,从而可以确定该次对话录音的沟通内容主要集中在哪些话题上,或者可以确定该次对话录音的沟通内容出现了哪些新话题,进而可以在挖掘出的话题的基础上,进一步基于自身需求进行业务分析(例如:对客服的沟通能力进行审核、对客户的新诉求进行分析)。
在一实施例中,如图6所示,步骤S150包括:
步骤S1501:针对每一所述关注话题,获取所述对话文本数据中的各词语分别与所述关注话题的关联得分,所述关联得分表征着对应词语与所述关注话题的关联紧密程度;
步骤S1502:针对每一所述关注话题,基于所述对话文本数据中的各词语分别与所述关注话题的关联得分,获取所述关注话题的总得分;
步骤S1503:基于所述总得分,对各所述关注话题进行统计,获取各所述关注话题的分布。
该实施例中,针对每一关注话题,获取对话文本数据中每一词语与该关注话题的关联得分,进而确定该关注话题的总得分。由于词语与关注话题的关联得分反映的是对应词语与该关注话题的关联紧密程度,所以基于所有词语与该关注话题的关联得分得到的总得分反映的是该次对话录音的沟通内容与该关注话题的关联紧密程度。即,每一关注话题的总得分反映了该次对话录音的沟通内容与对应关注话题的关联紧密程度,从而能够获取各关注话题的分布,实现话题挖掘。
在一实施例中,如图7所示,步骤S1501包括:
步骤S15011:对所述对话文本数据进行分词,获取所述对话文本数据中的各词语;
步骤S15012:基于预设的词向量模型,获取所述对话文本数据中的各词语分别对应的第一词向量、以及所述关注话题对应的第二词向量;
步骤S15013:基于所述第一词向量与所述第二词向量,获取所述对话文本数据中的各词语分别与所述关注话题的关联得分。
词向量是指以向量形式表示的词语。通过将文本形式的词语表示为数学形式的词向量,从而可以量化各词语之间的语义相近程度,即,各词语之间的关联紧密程度。通过上述说明可知,关联紧密程度反映到数字层面,可以表示为关联得分。
该实施例中,对该对话文本数据进行分词,得到该对话文本数据中的各词语。进而基于预设的词向量模型,获取该对话文本数据总的各词语分别对应的第一词向量、以及关注话题对应的第二词向量。由于通过词向量可以量化对应词语之间的关联紧密程度,因此,基于第一词向量与第二词向量,即可获取到该对话文本数据中各词语分别与该关注话题的关联得分。具体的,可以基于第一次向量与第二词向量之间的余弦距离,来衡量该对话文本数据中对应词语与该关注话题的关联紧密程度,进而使用该余弦距离除以预设的作为参考的参考距离,从而获取到该对话文本数据中对应词语与该关注话题的关联得分。
在一实施例中,在所述获取各所述关注话题的分布之后,还包括:将各所述关注话题的分布以直方图的形式进行展示。
该实施例中,获取到各关注话题的分布,实现话题挖掘之后,将各关注话题的分布情况制成直方图,并进行展示,从而使得管理人员能够根据直方图中图形的长短,直观地了解到该次对话录音的沟通内容所涉及到的话题、以及所主要涉及的话题。
在一实施例中,在所述获取各所述关注话题的分布之后,还包括:将各所述关注话题的分布以列表的形式进行展示。
该实施例中,获取到各关注话题的分布,实现话题挖掘之后,将各关注话题的分布情况制成列表,并进行展示,从而使得管理人员能够根据列表中展现的数据,准确、定量地了解到该次对话录音的沟通内容所涉及到的话题、以及所涉及到的每一话题的紧密程度。
在一实施例中,如图2所示,提供了一种基于人工智能的话题挖掘装置,具体包括:
第一获取模块210,用于获取对话录音的对话语音数据;
第二获取模块220,用于基于预设的语音转文本技术,获取所述对话语音数据对应的对话文本数据;
第三获取模块230,用于获取关注话题数;
第四获取模块240,用于将所述对话文本数据以及所述关注话题数输入预训练的主题模型LDA,获取所述LDA对所述对话文本数据聚合得到的所述关注话题数的关注话题;
第五获取模块250,用于基于所述对话文本数据对各所述关注话题进行统计,获取各所述关注话题的分布,实现话题挖掘。
需要强调的是,为进一步保证上述对话文本数据的私密和安全性,上述对话文本数据还可以存储于一区块链的节点中。
上述装置中各个模块的功能和作用的实现过程具体详见上述基于人工智能的话题挖掘方法中对应步骤的实现过程,在此不再赘述。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
此外,尽管在附图中以特定顺序描述了本公开中方法的各个步骤,但是,这并非要求或者暗示必须按照该特定顺序来执行这些步骤,或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的,可以省略某些步骤,将多个步骤合并为一个步骤执行,以及/或者将一个步骤分解为多个步骤执行等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、移动终端、或者网络设备等)执行根据本公开实施方式的方法。
图8示出根据本公开一示例实施方式的基于人工智能的话题挖掘的系统架构图。该系统架构包括:管理端310、坐席端320、客户端330。
在一实施例中,管理端310要对客服与客户之间的沟通进行监控,以考核客服与客户的实时沟通能力。为此需要进行话题挖掘,确定客服与客户进行沟通时,沟通内容主要集中在哪些话题上。其中,客服与客户进行沟通时,是通过客服对应的坐席端320与客户对应的客户端330之间的沟通实现的。
管理端310获取到坐席端320与客户端330之间的对话录音的对话语音数据获取所述对话语音数据对应的对话文本数据。管理端310获取关注话题数之后,将该对话文本数据以及该关注话题数输入预训练的主题模型LDA,获取该LDA对该对话文本数据聚合得到的该关注话题数的关注话题。进而管理端310基于该对话文本数据对各该关注话题进行统计,获取各关注话题的分布,实现话题挖掘。
通过以上对系统架构的描述,本领域的技术人员易于理解,这里描述的系统架构能够实现图2所示的基于人工智能的话题挖掘装置中各个模块的功能。
在本公开的示例性实施例中,还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图9来描述根据本发明的这种实施方式的电子设备400。图9显示的电子设备400仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,电子设备400以通用计算设备的形式表现。电子设备400的组件可以包括但不限于:上述至少一个处理单元410、上述至少一个存储单元420、连接不同系统组件(包括存储单元420和处理单元410)的总线430。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元410执行,使得所述处理单元410执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元410可以执行如图1中所示步骤S110:获取对话录音的对话语音数据;步骤S120:基于预设的语音转文本技术,获取所述对话语音数据对应的对话文本数据;步骤S130:获取关注话题数;步骤S140:将所述对话文本数据以及所述关注话题数输入预训练的主题模型LDA,获取所述LDA对所述对话文本数据聚合得到的所述关注话题数的关注话题;步骤S150:基于所述对话文本数据对各所述关注话题进行统计,获取各所述关注话题的分布,实现话题挖掘。
存储单元420可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)4201和/或高速缓存存储单元4202,还可以进一步包括只读存储单元(ROM)4203。
存储单元420还可以包括具有一组(至少一个)程序模块4205的程序/实用工具4204,这样的程序模块4205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线430可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备400也可以与一个或多个外部设备500(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备400交互的设备通信,和/或与使得该电子设备400能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口450进行。并且,电子设备400还可以通过网络适配器460与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器460通过总线430与电子设备400的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备400使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施方式的方法。
在本公开的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施方式的步骤。
参考图10所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品600,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本数据中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,上述附图仅是根据本发明示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。

Claims (10)

1.一种基于人工智能的话题挖掘方法,其特征在于,所述方法包括:
获取对话录音的对话语音数据;
基于预设的语音转文本技术,获取所述对话语音数据对应的对话文本数据;
获取关注话题数;
将所述对话文本数据以及所述关注话题数输入预训练的主题模型LDA,获取所述LDA对所述对话文本数据聚合得到的所述关注话题数的关注话题;
基于所述对话文本数据对各所述关注话题进行统计,获取各所述关注话题的分布,实现话题挖掘。
2.根据权利要求1所述的方法,其特征在于,所述获取对话录音的对话语音数据,包括:
获取预设时间段内的对话录音;
将所述对话录音按照双向音轨的方式进行拆分,分别获取所述对话录音中各对话用户对应的对话语音数据;
所述基于预设的语音转文本技术,获取所述对话语音数据对应的对话文本数据,包括:
基于预设的语音转文本技术,分别获取所述各对话用户对应的对话语音数据所对应的对话文本数据。
3.根据权利要求1所述的方法,其特征在于,所述获取关注话题数,包括:
获取所述对话录音对应的来源场景;
基于所述来源场景获取关注话题数。
4.根据权利要求1所述的方法,其特征在于,所述获取关注话题数,包括:
获取所述对话录音中各对话用户的用户特征;
基于所述用户特征获取关注话题数。
5.根据权利要求1所述的方法,其特征在于,所述对话文本数据存储于区块链中,所述基于所述对话文本数据对各所述关注话题进行统计,获取各所述关注话题的分布,包括:
针对每一所述关注话题,获取所述对话文本数据中的各词语分别与所述关注话题的关联得分,所述关联得分表征着对应词语与所述关注话题的关联紧密程度;
针对每一所述关注话题,基于所述对话文本数据中的各词语分别与所述关注话题的关联得分,获取所述关注话题的总得分;
基于所述总得分,对各所述关注话题进行统计,获取各所述关注话题的分布。
6.根据权利要求5所述的方法,其特征在于,所述针对每一所述关注话题,获取所述对话文本数据中的各词语分别与所述关注话题的关联得分,包括:
对所述对话文本数据进行分词,获取所述对话文本数据中的各词语;
基于预设的词向量模型,获取所述对话文本数据中的各词语分别对应的第一词向量、以及所述关注话题对应的第二词向量;
基于所述第一词向量与所述第二词向量,获取所述对话文本数据中的各词语分别与所述关注话题的关联得分。
7.根据权利要求5所述的方法,其特征在于,在所述获取各所述关注话题的分布之后,所述方法还包括:将各所述关注话题的分布以列表的形式进行展示。
8.一种基于人工智能的话题挖掘装置,其特征在于,包括:
第一获取模块,用于获取对话录音的对话语音数据;
第二获取模块,用于基于预设的语音转文本技术,获取所述对话语音数据对应的对话文本数据;
第三获取模块,用于获取关注话题数;
第四获取模块,用于将所述对话文本数据以及所述关注话题数输入预训练的主题模型LDA,获取所述LDA对所述对话文本数据聚合得到的所述关注话题数的关注话题;
第五获取模块,用于基于所述对话文本数据对各所述关注话题进行统计,获取各所述关注话题的分布,实现话题挖掘。
9.一种基于人工智能的话题挖掘电子设备,其特征在于,包括:
存储器,配置为存储可执行指令;
处理器,配置为执行所述存储器中存储的可执行指令,以执行根据权利要求1-7中任一个所述的方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序指令,当所述计算机指令被计算机执行时,使计算机执行根据权利要求1-7中任一个所述的方法。
CN202010350555.4A 2020-04-28 2020-04-28 基于人工智能的话题挖掘方法、装置及电子设备 Pending CN111553144A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010350555.4A CN111553144A (zh) 2020-04-28 2020-04-28 基于人工智能的话题挖掘方法、装置及电子设备
PCT/CN2021/078135 WO2021218339A1 (zh) 2020-04-28 2021-02-26 基于人工智能的话题挖掘方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010350555.4A CN111553144A (zh) 2020-04-28 2020-04-28 基于人工智能的话题挖掘方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN111553144A true CN111553144A (zh) 2020-08-18

Family

ID=72006008

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010350555.4A Pending CN111553144A (zh) 2020-04-28 2020-04-28 基于人工智能的话题挖掘方法、装置及电子设备

Country Status (2)

Country Link
CN (1) CN111553144A (zh)
WO (1) WO2021218339A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021218339A1 (zh) * 2020-04-28 2021-11-04 深圳壹账通智能科技有限公司 基于人工智能的话题挖掘方法、装置、电子设备及介质
WO2023045345A1 (zh) * 2021-09-22 2023-03-30 华为云计算技术有限公司 一种话题挖掘方法及相关装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615593A (zh) * 2013-11-01 2015-05-13 北大方正集团有限公司 微博热点话题自动检测方法及装置
CN109871433A (zh) * 2019-02-21 2019-06-11 北京奇艺世纪科技有限公司 文档与话题相关度的计算方法、装置、设备及介质
CN110569270A (zh) * 2019-08-15 2019-12-13 中国人民解放军国防科技大学 一种基于贝叶斯的lda话题标签标定方法、系统及介质
CN111061837A (zh) * 2019-12-18 2020-04-24 国网浙江省电力有限公司电力科学研究院 话题识别方法、装置、设备及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103778207B (zh) * 2014-01-15 2017-03-01 杭州电子科技大学 基于lda的新闻评论的话题挖掘方法
CN107870896B (zh) * 2016-09-23 2021-06-25 深圳市云网万店电子商务有限公司 一种对话分析方法及装置
CN106802951B (zh) * 2017-01-17 2019-06-11 厦门快商通科技股份有限公司 一种用于智能对话的话题抽取方法及系统
CN110347909A (zh) * 2019-05-23 2019-10-18 深圳壹账通智能科技有限公司 产品推荐方法、装置、存储介质及电子设备
CN111553144A (zh) * 2020-04-28 2020-08-18 深圳壹账通智能科技有限公司 基于人工智能的话题挖掘方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104615593A (zh) * 2013-11-01 2015-05-13 北大方正集团有限公司 微博热点话题自动检测方法及装置
CN109871433A (zh) * 2019-02-21 2019-06-11 北京奇艺世纪科技有限公司 文档与话题相关度的计算方法、装置、设备及介质
CN110569270A (zh) * 2019-08-15 2019-12-13 中国人民解放军国防科技大学 一种基于贝叶斯的lda话题标签标定方法、系统及介质
CN111061837A (zh) * 2019-12-18 2020-04-24 国网浙江省电力有限公司电力科学研究院 话题识别方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021218339A1 (zh) * 2020-04-28 2021-11-04 深圳壹账通智能科技有限公司 基于人工智能的话题挖掘方法、装置、电子设备及介质
WO2023045345A1 (zh) * 2021-09-22 2023-03-30 华为云计算技术有限公司 一种话题挖掘方法及相关装置

Also Published As

Publication number Publication date
WO2021218339A1 (zh) 2021-11-04

Similar Documents

Publication Publication Date Title
US10740380B2 (en) Incremental discovery of salient topics during customer interaction
US9722965B2 (en) Smartphone indicator for conversation nonproductivity
US11003716B2 (en) Discovery, characterization, and analysis of interpersonal relationships extracted from unstructured text data
US20170013126A1 (en) Using graphical text analysis to facilitate communication between customers and customer service representatives
US10067935B2 (en) Prediction and optimized prevention of bullying and other counterproductive interactions in live and virtual meeting contexts
US10592613B2 (en) Dialog flow evaluation
CN111783450B (zh) 语料文本中的短语提取方法、装置、存储介质及电子设备
US20190361761A1 (en) Event relationship analysis in fault management
US11095601B1 (en) Connection tier structure defining for control of multi-tier propagation of social network content
US20180365214A1 (en) Message tone evaluation between entities in an organization
US20170372347A1 (en) Sequence-based marketing attribution model for customer journeys
CN111553144A (zh) 基于人工智能的话题挖掘方法、装置及电子设备
US11126646B2 (en) Implicit and explicit cognitive analyses for data content comprehension
CN112017062A (zh) 基于客群细分的资源额度分配方法、装置及电子设备
US11308287B1 (en) Background conversation analysis for providing a real-time feedback
US11303683B2 (en) Methods and systems for managing distribution of online content based on content maturity
US10762154B2 (en) Relative weighting for social collaboration comments
US20200220832A1 (en) Content evaluation
US20180122404A1 (en) Determining a behavior of a user utilizing audio data
CN113420042A (zh) 基于演示文稿的数据统计方法、装置、设备及存储介质
US20230410023A1 (en) Generating an intelligent summary graph and text from qualitative reviews
US11315124B2 (en) Analyzing temporal classes in user feedback
US20230067819A1 (en) Live chat stream comment management
US11924379B1 (en) System and method for identifying compliance statements from contextual indicators in content
US11494054B2 (en) Item recommendation based on computed similarity between automatically generated item and request profiles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination