CN112364622B - 对话文本分析方法、装置、电子装置及存储介质 - Google Patents
对话文本分析方法、装置、电子装置及存储介质 Download PDFInfo
- Publication number
- CN112364622B CN112364622B CN202011254446.9A CN202011254446A CN112364622B CN 112364622 B CN112364622 B CN 112364622B CN 202011254446 A CN202011254446 A CN 202011254446A CN 112364622 B CN112364622 B CN 112364622B
- Authority
- CN
- China
- Prior art keywords
- data
- intention
- semantic
- text
- preset
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 134
- 238000004891 communication Methods 0.000 claims abstract description 48
- 238000000034 method Methods 0.000 claims abstract description 31
- 238000012216 screening Methods 0.000 claims abstract description 29
- 230000014509 gene expression Effects 0.000 claims description 49
- 238000001914 filtration Methods 0.000 claims description 40
- 230000004044 response Effects 0.000 claims description 27
- 238000000605 extraction Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 8
- 230000007717 exclusion Effects 0.000 claims description 5
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 claims description 4
- 239000010931 gold Substances 0.000 claims description 4
- 229910052737 gold Inorganic materials 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 10
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000013507 mapping Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种对话文本分析方法、装置、电子装置和存储介质。该对话文本分析方法包括:获取待分析的对话文本数据,其中,对话文本数据包括多轮次对话文本分析所产生的文本数据及与多轮次对话文本分析关联的实时通信数据;根据预设语义匹配规则对文本数据进行语义匹配,确定候选意向标签数据;对候选意向标签数据进行筛选处理,获取目标意向标签数据;根据实时通信数据确定目标意向标签数据对应的意向等级。通过本申请,解决了相关技术中文本分析系统误匹配率高、运营成本高的问题,实现了高效且便捷地提取对话文本中与业务目标强相关的真实客户意向标签,并结合对话相关指标将客户划分成不同的意向等级的有益效果。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及对话文本分析方法、装置、电子装置及存储介质。
背景技术
近几年,人工智能技术得到迅速地发展,与智能语音技术相关的产品已经进入到千家万户中。人们逐渐习惯了与机器对话,并且对机器的理解与应答能力有了更高的期待。基于语音的对话系统框架采用自动语音识别(ASR,Automatic Speech Recognition)模型和自然语言理解(NLU,Natural Language Understanding)模型,工作流程包括:首先通过ASR模型将用户的声音转换为文字,然后利用NLU模型进行语义解析,识别文本意图,最终实现对话文本分析交互。
相关技术中的对话机器人文本分析,常采用关键词匹配、客户意图分类。其中,使用关键词匹配的文本分析系统,缺点是误匹配率高,同时,语音机器人的文本对话数据往往是通过自动语音识别(ASR)转化而来,存在一定量级的字词错误率;使用客户意图分类的文本分析系统,缺点是需要大量业务场景相关的标注数据,人力成本极高,并且不支持业务所需进行快速修改;对于新的业务场景构建期间业务频繁对客户意向标签进行修改不友好,并且不支持场景迁移。
目前针对相关技术中文本分析系统误匹配率高、运营成本高的问题,尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种对话文本分析方法、装置、电子装置及存储介质,以至少解决相关技术中文本分析系统误匹配率高、运营成本高的问题。
第一方面,本申请实施例提供了一种对话文本分析方法,包括:获取待分析的对话文本数据,其中,所述对话文本数据包括多轮次对话文本分析所产生的文本数据及与所述多轮次对话文本分析关联的实时通信数据;根据预设语义匹配规则对所述文本数据进行语义匹配,确定候选意向标签数据,其中,所述预设语义匹配规则基于预设语义匹配模型和预设配置信息确定,所述预设配置信息包括对不同对话文本分析所产生的文本数据进行解析的解析信息;对所述候选意向标签数据进行筛选处理,获取目标意向标签数据,其中,所述筛选处理包括实体抽取、标签过滤;根据所述实时通信数据确定所述目标意向标签数据对应的意向等级。
在其中一些实施例中,根据预设语义匹配规则对所述对话文本数据进行语义匹配,确定候选意向标签数据包括:对所述文本数据进行自然语言理解,得到与所述多轮次对话文本分析对应的第一语义数据;获取所述第一语义数据中用户对话所对应的第一用户语义数据;通过所述预设语义匹配模型在所述第一用户语义数据中检测至少一个第一目标语义数据,其中,所述第一目标语义数据包括所述预设配置信息中与用户意图数据关联的用户潜在意图数据,所述预设语义匹配模型包括BERT语义匹配模型;在检测到所述第一目标语义数据的情况下,确定所述候选意向标签数据包括所述第一目标语义数据。
在其中一些实施例中,在未检测到所述第一目标语义数据的情况下,所述方法包括:获取第一轮次对话中的第一机器人话术,其中,所述第一轮次对话包括所述多轮次对话文本分析其中一次;对与所述第一机器人话术对应的第一用户应答数据进行推理,得到第一推理意图数据,并确定所述候选意向标签数据包括所述第一推理意图数据,其中,所述第一推理意图数据包括所述第一用户应答数据关联的语义特征值。
在其中一些实施例中,在确定所述候选意向标签数据包括所述第一目标语义数据之后,所述方法包括:根据所述第一目标语义数据推理得到第二推理意图数据,并确定所述候选意向标签数据包括所述第二推理意图数据,其中,所述第二推理意图数据包括相对所述第一目标语义数据具有相反语义的语义特征值。
在其中一些实施例中,在确定所述候选意向标签数据包括所述第一目标语义数据之后,所述方法包括:获取第二轮次对话中的第二机器人话术,其中,所述第二轮次对话包括所述多轮次对话文本分析其中一次;在与所述第二机器人话术对应的第二用户应答数据检测第三推理意图数据,并确定所述候选意向标签数据包括所述第三推理意图数据,其中,所述第三推理意图数据包括所述第二用户应答数据关联的语义特征值。
在其中一些实施例中,根据预设语义匹配规则对所述对话文本数据进行语义匹配,确定候选意向标签数据包括:对所述文本数据进行自然语言理解,得到与所述多轮次对话文本分析对应的第二语义数据;从所述第二语义数据中提取用户对话所对应的第二语义数据,并在所述第二语义数据中检测与第三轮次对话下用户意图对应的第一用户意图数据,其中,所述第三轮次对话为所述多轮次对话文本分析其中一次;确定所述第一用户意图数据所对应的意向信息;基于所述第三轮次对话中的第三机器人话术配置与所述意向信息所对应的推理配置意图数据,并确定所述候选意向标签数据包括所述推理配置意图数据。
在其中一些实施例中,根据预设语义匹配规则对所述对话文本数据进行语义匹配,确定候选意向标签数据包括:对所述文本数据进行自然语言理解,得到与所述多轮次对话文本分析对应的第三语义数据;从所述第三语义数据中提取机器人话术所对应的第三语义数据;在所述第三语义数据中追踪第三机器人话术所对应的第二目标语义数据,其中,所述第三机器人话术包括具有预设关键信息的机器人话术;在追踪到所述第二目标语义数据的情况下,根据所述第二目标语义数据的语义特征值生成响应于所述第三机器人话术的第一意向数据,并确定所述候选意向标签数据包括所述第一意向数据。
在其中一些实施例中,对所述候选意向标签数据进行筛选处理,获取目标意向标签数据包括:通过预设实体抽取模型在所述候选意向标签数据中检测第一意向标签数据,其中,所述第一意向标签数据包括当前轮次对话文本分析所对应的第一意图信息和第一意向实体,所述第一意向实体包括当前轮次对话对应的第三用户应答数据所关联的预设语义特征值;根据标签过滤规则,对所述第一意向标签数据金进行过滤筛选,得到所述目标意向标签数据,其中,所述标签过滤规则包括互斥标签过滤和/或强制标签过滤。
在其中一些实施例中,所述实时通信数据包括对话文本分析时长、对话文本分析轮次,根据所述实时通信数据确定所述目标意向标签数据对应的意向等级包括:提取所述目标意向标签数据对应是所述实时通信数据;在预设意向等级参数表中查询与所述实时通信数据关联的所述目标意向标签数据的意向等级,其中,所述预设意向等级参数表包括预设通信数据、预设意向标签数据和预设意向等级的对应关系。
第二方面,本申请实施例提供了一种对话文本分析装置,包括:
获取模块,用于获取待分析的对话文本数据,其中,所述对话文本数据包括多轮次对话文本分析所产生的文本数据及与所述多轮次对话文本分析关联的实时通信数据;
匹配模块,用于根据预设语义匹配规则对所述文本数据进行语义匹配,确定候选意向标签数据,其中,所述预设语义匹配规则基于预设语义匹配模型和预设配置信息确定,所述预设配置信息包括对不同对话文本分析所产生的文本数据进行解析的解析信息;
筛选模块,用于对所述候选意向标签数据进行筛选处理,获取目标意向标签数据,其中,所述筛选处理包括实体抽取、标签过滤;
处理模块,用于根据所述实时通信数据确定所述目标意向标签数据对应的意向等级。
第三方面,本申请实施例提供了一种电子装置,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行第一方面所述的对话文本分析方法。
第四方面,本申请实施例提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行第一方面所述的对话文本分析方法。
相比于相关技术,本申请实施例提供的一种对话文本分析方法、装置、电子装置及存储介质,通过获取待分析的对话文本数据,其中,对话文本数据包括多轮次对话文本分析所产生的文本数据及与多轮次对话文本分析关联的实时通信数据;根据预设语义匹配规则对文本数据进行语义匹配,确定候选意向标签数据,其中,预设语义匹配规则基于预设语义匹配模型和预设配置信息确定,预设配置信息包括对不同对话文本分析所产生的文本数据进行解析的解析信息;对候选意向标签数据进行筛选处理,获取目标意向标签数据,其中,筛选处理包括实体抽取、标签过滤;根据实时通信数据确定目标意向标签数据对应的意向等级,解决了相关技术中文本分析系统误匹配率高、运营成本高的问题,实现了高效且便捷地提取对话文本中与业务目标强相关的真实客户意向标签,并结合对话相关指标将客户划分成不同的意向等级的有益效果。
本申请的一个或多个实施例的细节在以下附图和描述中提出,以使本申请的其他特征、目的和优点更加简明易懂。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明实施例的对话文本分析方法的终端的硬件结构框图;
图2是根据本申请实施例的对话文本分析方法的流程图;
图3是本根据申请优选实施例中对话文本分析的流程图;
图4是根据本申请实施例的对话文本分析装置的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行描述和说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本申请提供的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
显而易见地,下面描述中的附图仅仅是本申请的一些示例或实施例,对于本领域的普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图将本申请应用于其他类似情景。此外,还可以理解的是,虽然这种开发过程中所作出的努力可能是复杂并且冗长的,然而对于与本申请公开的内容相关的本领域的普通技术人员而言,在本申请揭露的技术内容的基础上进行的一些设计,制造或者生产等变更只是常规的技术手段,不应当理解为本申请公开的内容不充分。
在本申请中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是,本申请所描述的实施例在不冲突的情况下,可以与其它实施例相结合。
除非另作定义,本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制,可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形,意图在于覆盖不排他的包含;例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可以还包括没有列出的步骤或单元,或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电气的连接,不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象,不代表针对对象的特定排序。
本申请中描述的各种技术可用于语音机器人与目标客户之间的对话文本的分析、意向标签的提取及客户意向等级的确认。
在对本申请的实施例进行描述和说明之前,先对本申请中使用的相关技术进行说明如下:
客户意向标签,语音机器人对与机器人与用户的对话语音对应的对话文本分析后输出的关于用户的业务所需的有价值的意向标签,例如:打算买车、同意加微信。
客户意向等级,语音机器人对与机器人与用户的对话语音对应的对话文本分析后输出的客户意向标签及相关通信数据划分的意向等级,例如:高意向、低意向。
BERT,自然语言处理领域中通过大规模文本数据预训练生成,并在小规模数据业务场景中对下游任务进行微调的深度模型。
Schema文件,描述和规范XML文档的逻辑结构的一种语言。
自动语音识别技术(Automatic Speech Recognition,ASR),是一种将人的语音转换为文本的技术。
本实施例提供的对话文本分析方法实施例可以在终端、计算机或者类似的测试平台中执行。以运行在终端上为例,图1是本发明实施例的对话文本分析方法运行终端的硬件结构框图。如图1所示,终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述终端的结构造成限定。例如,终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的对话文本分析方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括终端的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
本实施例提供了一种对话文本分析方法,图2是根据本申请实施例的对话文本分析方法的流程图,如图2所示,该流程包括如下步骤:
步骤S201,获取待分析的对话文本数据,其中,对话文本数据包括多轮次对话文本分析所产生的文本数据及与多轮次对话文本分析关联的实时通信数据。
在本实施例中,对话文本数据包括用户表述文本数据、机器人表述(话术)文本数据,而用户表述文本数据和机器人表述文本数据分别是将用户表示语音和机器人表述语音通过自动语音识别进行转换出的文本(在本实施例中,自动语音识别的文本包括但不限于语句、语义);实时通信数据包括单次或多次对话对应的通话时长、对话轮次。
步骤S202,根据预设语义匹配规则对文本数据进行语义匹配,确定候选意向标签数据,其中,预设语义匹配规则基于预设语义匹配模型和预设配置信息确定,预设配置信息包括对不同对话文本分析所产生的文本数据进行解析的解析信息。
在本实施例中,预设语义匹配模型至少包括基于BERT的语义匹配模型;在本实施例中,预设配置信息为进行本申请实施例的对话文本分析方法之前由文本分析系统的管理员配置的不同业务场景关联的Schema文件,Schema文件至少包括用于分析对应场景下,对话文本所需要的配置信息。
在本实施例中,schema文本包括:用户意向标签所关联的用户潜在表述,例如:用户意向标签“已买车”,用户潜在表述“我早就买好车子了。”;用户意向标签推理相关配置信息,其中,命中某一用户意向标签可进行相关标签推理;某一业务场景可能存在的机器人话术表述,例如:机器人话术“询问加微信”相关表述,“请问可以加您微信吗?”;机器人表述下的意向标签推理相关的配置信息;用户意向等级配置信息。
在本实施例中,对文本数据逐句进行语义理解,并采用基于BERT的语义匹配模型结合管理员配置的不同业务场景关联的Schema文件中的相关表述进行语义匹配,直接映射或间接推理出相关候选意向标签数据,具体包括如下:
朴素标签映射:即用户表述通过语义匹配模型直接命中某一意向标签下所配置的用户潜在表述,命中则直接输出对应的意向标签,对应获取候选意向标签数据。
肯定/否定意图推理:即通过语义理解获知当前用户表述意图为肯定或否定意图,然后,结合当前对话轮次下的机器人表述下的意向标签推理相关的配置信息,进行肯定/否定意向标签的推理,获取候选意向标签数据,例如:机器人表述:“请问您买好车了吗?”,用户意向标签推理相关的配置信息:“是的”,推理出“已买车”意向标签。
默认标签推理:当某一对话轮次下识别到用户表述的意图未命中时,结合某些特定机器人表述下的需求,进行默认意向标签推理,获取候选意向标签数据,例如:机器人表述:“请问您还有其他关于车方面的问题吗?”,用户表述:“这个车xxx方面有问题”,推理出“疑似质疑车辆问题”的意向标签。
显式标签推理:在“朴素标签映射”之后,即映射到某一用户意向标签,可推理出另一用户意向标签,获取候选意向数据,例如:机器人表述“请问您买好车了吗?”,用户表述“我早就买好车子了”,映射到“已买车”的意向标签,推理出“无购车意向”意向标签。
隐式标签推理:当通过“朴素标签映射”获取某一用户意向标签后,可结合当前轮次机器人表述隐式推理出其他意向标签,获取候选意向数据,例如:机器人表述:“请问能加您微信吗?”,用户表述:“你记下另一个号码吧”,映射到“另记号码”的意向标签,结合机器人表述隐式推理出“同意加微信”意向标签。
机器人表述追踪:追踪在整通(包括由多轮次对话组成的某一个对话场景)对话文本中某些能够直接获取关键信息的机器人表述,并直接输出相对应的意向标签,例如:机器人表述“来电是提醒您爱车应该保养了”,则输出“完成保养提醒”的意向标签。
步骤S203,对候选意向标签数据进行筛选处理,获取目标意向标签数据,其中,筛选处理包括实体抽取、标签过滤。
在本实施例中,对候选意向标签数据进行筛选处理包括实体标签抽取及意向标签过滤,从而得到目标意向标签数据。
在本实施例中,实体标签抽取是指在分析机器人与用户对话文本过程中,使用预设的实体抽取模型从用户表述中抽取业务场景所需的有价值的实体,从而转化成实体类型的用户意向标签,其中,实体标签抽取包括结合当前轮次的某些意向标签进行实体意向标签转化和结合当前轮次的机器人表述进行实体意向标签转化。
在本实施例中,结合当前轮次的某些意向标签进行实体意向标签转化的具体实例如下:机器人表述:“请问您买好车了吗?”,用户表述:“我买了A车”;通过“朴素标签映射”获得当前轮次对话对应的“已买车”的意向标签,并抽取出车型实体“A车”,进而转化为实体标签数据“已买车型:A车”)
在本实施例中,结合当前轮次的机器人表述进行实体意向标签转化的具体实例如下;机器人表述:“请问您买了什么车?”,用户表述“XX车”,在当前轮次从用户表述抽取到车型实体“XX车”的情况下,结合当前轮次对话的机器人表述对应的意图“询问已买车型”,得到实体标签数据“已买车型:XX车”。
在本实施例中,意向标签过滤是指对某一通对话文本分析输出的用户意向标签数据的合理性,在最终输出之前还需要进行的进一步意向标签过滤。
在本实施例中,意向标签过滤至少包括互斥标签过滤、强制标签过滤,其中,
互斥标签过滤的具体实例如下:在对话的上半部分/前半部分获取的用户意向标签有“打算买车”,随着对话的进行,在对话的下半部分/后半部分获取了用户意向标签为“不打算买车”,对于用户意向转移的情况,最终保留最后提取到的用户意向标签,也就是筛选出“不打算买车”的意向标签数据。
强制标签过滤的具体实例如下:在对某通对话文本数据分析之后,获取的意向标签有“已买车”、“接受到店邀约”;此时对于实际业务方来说对于“已买车”的客户“接受到店邀约”是没有价值的,于是将“接受到店邀约”的用户标签强制过滤掉,保留“已买车”的意向标签数据。
步骤S204,根据实时通信数据确定目标意向标签数据对应的意向等级。
在本实施例中,获得了某通语音机器人与用户的对话文本分析输出的一系列目标意向标签之后,结合通话时长及对话轮次等通信数据,对该用户进行目标意向等级的划分,例如,将目标意向标签包括“打算买车”,通话时长大于60s、对话轮次大于6轮的用户划分为“高购车意向”用户。
通过上述步骤S201至步骤S204,采用获取待分析的对话文本数据,其中,对话文本数据包括多轮次对话文本分析所产生的文本数据及与多轮次对话文本分析关联的实时通信数据;根据预设语义匹配规则对文本数据进行语义匹配,确定候选意向标签数据,其中,预设语义匹配规则基于预设语义匹配模型和预设配置信息确定,预设配置信息包括对不同对话文本分析所产生的文本数据进行解析的解析信息;对候选意向标签数据进行筛选处理,获取目标意向标签数据,其中,筛选处理包括实体抽取、标签过滤;根据实时通信数据确定目标意向标签数据对应的意向等级,解决了相关技术中文本分析系统误匹配率高、运营成本高的问题,实现了高效且便捷地提取对话文本中与业务目标强相关的真实客户意向标签,并结合对话相关指标将客户划分成不同的意向等级的有益效果。
在其中一些实施例中,根据预设语义匹配规则对对话文本数据进行语义匹配,确定候选意向标签数据包括如下步骤:
步骤1,对文本数据进行自然语言理解,得到与多轮次对话文本分析对应的第一语义数据。
步骤2,获取第一语义数据中用户对话所对应的第一用户语义数据。
步骤3,通过预设语义匹配模型在第一用户语义数据中检测至少一个第一目标语义数据,其中,第一目标语义数据包括预设配置信息中与用户意图数据关联的用户潜在意图数据,预设语义匹配模型包括BERT语义匹配模型。
在本实施例中,BERT语义匹配模型使用文本相似度数据集训练得到的语义匹配模型;在本实施例中,通过预设语义匹配模型在第一用户语义数据中检测至少一个第一目标语义数据对应为进行朴素标签映射。
步骤4,在检测到第一目标语义数据的情况下,确定候选意向标签数据包括第一目标语义数据。
在本实施例中,检测到第一目标语义数据,则对应为用户表述通过语义匹配模型直接命中某一意向标签下所配置的用户潜在表述,也就是朴素标签映射。
通过上述步骤中的对文本数据进行自然语言理解,得到与多轮次对话文本分析对应的第一语义数据;获取第一语义数据中用户对话所对应的第一用户语义数据;通过预设语义匹配模型在第一用户语义数据中检测至少一个第一目标语义数据;在检测到第一目标语义数据的情况下,确定候选意向标签数据包括第一目标语义数据,实现了候选意向标签数据的获取,候选意向标签数据是基于用户意图数据关联的用户潜在意图数据作为检索式,提高候选意向标签数据获取的精度,采用BERT语义匹配模型,无需大量的标注数据,降低文本分析系统的运营成本。
在其中一些实施例中,根据预设语义匹配规则对对话文本数据进行语义匹配,确定候选意向标签数据包括如下步骤:
步骤1,对文本数据进行自然语言理解,得到与多轮次对话文本分析对应的第一语义数据。
步骤2,获取第一语义数据中用户对话所对应的第一用户语义数据。
步骤3,通过预设语义匹配模型在第一用户语义数据中检测至少一个第一目标语义数据,其中,第一目标语义数据包括预设配置信息中与用户意图数据关联的用户潜在意图数据,预设语义匹配模型包括BERT语义匹配模型。
在本实施例中,BERT语义匹配模型使用文本相似度数据集训练得到的语义匹配模型,在本实施例中,通过预设语义匹配模型在第一用户语义数据中检测至少一个第一目标语义数据对应为进行朴素标签映射。
步骤4,在未检测到第一目标语义数据的情况下,获取第一轮次对话中的第一机器人话术,其中,第一轮次对话包括多轮次对话文本分析其中一次。
在本实施例中,未检测到第一目标语义数据的情况对应为某一对话轮次下识别到用户表示意图未命中。
步骤5,对与第一机器人话术对应的第一用户应答数据进行推理,得到第一推理意图数据,并确定候选意向标签数据包括第一推理意图数据,其中,第一推理意图数据包括第一用户应答数据关联的语义特征值。
在本实施例中,对与第一机器人话术对应的第一用户应答数据进行推理,得到第一推理意图数据对应为默认标签推理。
通过上述步骤中的对文本数据进行自然语言理解,得到与多轮次对话文本分析对应的第一语义数据;获取第一语义数据中用户对话所对应的第一用户语义数据;通过预设语义匹配模型在第一用户语义数据中检测至少一个第一目标语义数据;在未检测到第一目标语义数据的情况下,获取第一轮次对话中的第一机器人话术,对与第一机器人话术对应的第一用户应答数据进行推理,得到第一推理意图数据,并确定候选意向标签数据包括第一推理意图数据,实现了候选意向标签数据的获取,候选意向标签数据是基于对与第一机器人话术对应的第一用户应答数据进行推理的第一推理意图数据作为检索式,提高候选意向标签数据获取的精度,采用BERT语义匹配模型,无需大量的标注数据,降低文本分析系统的运营成本。
在其中一些实施例中,在确定候选意向标签数据包括第一目标语义数据之后,还执行如下步骤:根据第一目标语义数据推理得到第二推理意图数据,并确定候选意向标签数据包括第二推理意图数据,其中,第二推理意图数据包括相对第一目标语义数据具有相反语义的语义特征值。
在本实施例中,根据第一目标语义数据推理得到第二推理意图数据,并确定候选意向标签数据包括第二推理意图数据对应为显示标签推理,例如:机器人表述“请问您买好车了吗?”,用户表述“我早就买好车子了”,映射到“已买车”的意向标签,推理出“无购车意向”意向标签
在本实施例中,根据第一目标语义数据推理得到第二推理意图数据对应为在朴素标签映射获取某一用户意向标签后,推理出第二推理意图数据,且对应为显示标签推理。
在其中一些实施例中,根据预设语义匹配规则对对话文本数据进行语义匹配,确定候选意向标签数据包括如下步骤:
步骤1,对文本数据进行自然语言理解,得到与多轮次对话文本分析对应的第一语义数据。
步骤2,获取第一语义数据中用户对话所对应的第一用户语义数据。
步骤3,通过预设语义匹配模型在第一用户语义数据中检测至少一个第一目标语义数据,其中,第一目标语义数据包括预设配置信息中与用户意图数据关联的用户潜在意图数据,预设语义匹配模型包括BERT语义匹配模型。
在本实施例中,BERT语义匹配模型使用文本相似度数据集训练得到的语义匹配模型,在本实施例中,通过预设语义匹配模型在第一用户语义数据中检测至少一个第一目标语义数据对应为进行朴素标签映射。
步骤4,在检测到第一目标语义数据的情况下,确定候选意向标签数据包括第一目标语义数据。
步骤5,获取第二轮次对话中的第二机器人话术,其中,第二轮次对话包括多轮次对话文本分析其中一次。
步骤6,在与第二机器人话术对应的第二用户应答数据检测第三推理意图数据,并确定候选意向标签数据包括第三推理意图数据,其中,第三推理意图数据包括第二用户应答数据关联的语义特征值。
在本实施例中,在确定通过朴素标签映射获取到第一目标语义数据后,获取第二轮次对话中的第二机器人话术及在与第二机器人话术对应的第二用户应答数据检测第三推理意图数据对应为通过朴素标签映射获取某一用户意向标签后,结合当前轮次机器人表述隐藏式推理出当前轮次对话的机器人表述。
通过上述步骤中的对文本数据进行自然语言理解,得到与多轮次对话文本分析对应的第一语义数据;获取第一语义数据中用户对话所对应的第一用户语义数据;通过预设语义匹配模型在第一用户语义数据中检测至少一个第一目标语义数据;在检测到第一目标语义数据的情况下,确定候选意向标签数据包括第一目标语义数据;获取第二轮次对话中的第二机器人话术;在与第二机器人话术对应的第二用户应答数据检测第三推理意图数据,并确定候选意向标签数据包括第三推理意图数据,实现了候选意向标签数据的获取,候选意向标签数据是基于用户意图数据关联的用户潜在意图数据和/或在与第二机器人话术对应的第二用户应答数据检测出的第三推理意图数据作为检索式,提高候选意向标签数据获取的精度,采用BERT语义匹配模型,无需大量的标注数据,降低文本分析系统的运营成本。
在其中一些实施例中,根据预设语义匹配规则对对话文本数据进行语义匹配,确定候选意向标签数据包括如下步骤:
步骤1,对文本数据进行自然语言理解,得到与多轮次对话文本分析对应的第二语义数据。
步骤2,从第二语义数据中提取用户对话所对应的第二语义数据,并在第二语义数据中检测与第三轮次对话下用户意图对应的第一用户意图数据,其中,第三轮次对话为多轮次对话文本分析其中一次。
步骤3,确定第一用户意图数据所对应的意向信息。
步骤4,基于第三轮次对话中的第三机器人话术配置与意向信息所对应的推理配置意图数据,并确定候选意向标签数据包括推理配置意图数据。
在本实施例中,基于第三轮次对话中的第三机器人话术配置与意向信息所对应的推理配置意图数据对应为肯定/否定意图推理。
通过上述步骤中的对文本数据进行自然语言理解,得到与多轮次对话文本分析对应的第二语义数据;从第二语义数据中提取用户对话所对应的第二语义数据,并在第二语义数据中检测与第三轮次对话下用户意图对应的第一用户意图数据;确定第一用户意图数据所对应的意向信息;基于第三轮次对话中的第三机器人话术配置与意向信息所对应的推理配置意图数据,并确定候选意向标签数据包括推理配置意图数据,实现了基于第三机器人话术配置与意向信息所对应的推理配置意图数据检索候选意向标签数据。
在其中一些实施例中,根据预设语义匹配规则对对话文本数据进行语义匹配,确定候选意向标签数据包括如下步骤:
步骤1,对文本数据进行自然语言理解,得到与多轮次对话文本分析对应的第三语义数据。
步骤2,从第三语义数据中提取机器人话术所对应的第三语义数据。
步骤3,在第三语义数据中追踪第三机器人话术所对应的第二目标语义数据,其中,第三机器人话术包括具有预设关键信息的机器人话术。
在本实施例中,在第三语义数据中追踪第三机器人话术所对应的第二目标语义数据对应为机器人表述追踪。
步骤4,在追踪到第二目标语义数据的情况下,根据第二目标语义数据的语义特征值生成响应于第三机器人话术的第一意向数据,并确定候选意向标签数据包括第一意向数据。
通过上述步骤中的对文本数据进行自然语言理解,得到与多轮次对话文本分析对应的第三语义数据;从第三语义数据中提取机器人话术所对应的第三语义数据;在追踪到第二目标语义数据的情况下,根据第二目标语义数据的语义特征值生成响应于第三机器人话术的第一意向数据,并确定候选意向标签数据包括第一意向数据,实现了通过获取关键信息的机器人表述来确定候选意向标签数据。
在其中一些实施例中,对候选意向标签数据进行筛选处理,获取目标意向标签数据包括如下步骤:
步骤1,通过预设实体抽取模型在候选意向标签数据中检测第一意向标签数据,其中,第一意向标签数据包括当前轮次对话文本分析所对应的第一意图信息和第一意向实体,第一意向实体包括当前轮次对话对应的第三用户应答数据所关联的预设语义特征值;
步骤2,根据标签过滤规则,对第一意向标签数据金进行过滤筛选,得到目标意向标签数据,其中,标签过滤规则包括互斥标签过滤和/或强制标签过滤。
在其中一些实施例中,实时通信数据包括对话文本分析时长、对话文本分析轮次,根据实时通信数据确定目标意向标签数据对应的意向等级包括如下步骤:
步骤1,提取目标意向标签数据对应是实时通信数据。
步骤2,在预设意向等级参数表中查询与实时通信数据关联的目标意向标签数据的意向等级,其中,预设意向等级参数表包括预设通信数据、预设意向标签数据和预设意向等级的对应关系。
需要说明的是,在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本实施例还提供了一种对话文本分析装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图3是本根据申请优选实施例中对话文本分析的流程图,如图3所示,该流程包括如下步骤:
步骤1,文本分析系统接收语音机器人对话文本数据,其中,机器人对话文本数据包括用户表述、机器人表述及通信数据。
步骤2,文本分析系统的基于BERT语义匹配模型配合预设的场景关联配置文件对用户表述和机器人表述进行分析,获得用户意向标签,其中,用户意向标签包括用户表述意图、用户表述对应配置信息及机器人表述对应的配置信息。
步骤3,文本分析系统根据通信数据和预设的场景关联配置文件对用户意向标签进行用户意向等级划分,得到对应的意向等级,其中,通信数据包括通信时长、对话轮次。
图4是根据本申请实施例的对话文本分析装置的结构框图,如图4所示,该装置包括:
获取模块41,用于获取待分析的对话文本数据,其中,对话文本数据包括多轮次对话文本分析所产生的文本数据及与多轮次对话文本分析关联的实时通信数据;
匹配模块42,与获取模块41耦合连接,用于根据预设语义匹配规则对文本数据进行语义匹配,确定候选意向标签数据,其中,预设语义匹配规则基于预设语义匹配模型和预设配置信息确定,预设配置信息包括对不同对话文本分析所产生的文本数据进行解析的解析信息;
筛选模块43,与匹配模块42耦合连接,用于对候选意向标签数据进行筛选处理,获取目标意向标签数据,其中,筛选处理包括实体抽取、标签过滤;
处理模块44,与筛选模块43耦合连接,用于根据实时通信数据确定目标意向标签数据对应的意向等级。
在其中一些实施例中,匹配模块42用于对文本数据进行自然语言理解,得到与多轮次对话文本分析对应的第一语义数据;获取第一语义数据中用户对话所对应的第一用户语义数据;通过预设语义匹配模型在第一用户语义数据中检测至少一个第一目标语义数据,其中,第一目标语义数据包括预设配置信息中与用户意图数据关联的用户潜在意图数据,预设语义匹配模型包括BERT语义匹配模型;在检测到第一目标语义数据的情况下,确定候选意向标签数据包括第一目标语义数据。
在其中一些实施例中,匹配模块42还用于在未检测到第一目标语义数据的情况下,获取第一轮次对话中的第一机器人话术,其中,第一轮次对话包括多轮次对话文本分析其中一次;对与第一机器人话术对应的第一用户应答数据进行推理,得到第一推理意图数据,并确定候选意向标签数据包括第一推理意图数据,其中,第一推理意图数据包括第一用户应答数据关联的语义特征值。
在其中一些实施例中,匹配模块42还用于在确定候选意向标签数据包括第一目标语义数据之后,根据第一目标语义数据推理得到第二推理意图数据,并确定候选意向标签数据包括第二推理意图数据,其中,第二推理意图数据包括相对第一目标语义数据具有相反语义的语义特征值。
在其中一些实施例中,匹配模块42还用于在确定候选意向标签数据包括第一目标语义数据之后,获取第二轮次对话中的第二机器人话术,其中,第二轮次对话包括多轮次对话文本分析其中一次;在与第二机器人话术对应的第二用户应答数据检测第三推理意图数据,并确定候选意向标签数据包括第三推理意图数据,其中,第三推理意图数据包括第二用户应答数据关联的语义特征值。
在其中一些实施例中,匹配模块42用于对文本数据进行自然语言理解,得到与多轮次对话文本分析对应的第二语义数据;从第二语义数据中提取用户对话所对应的第二语义数据,并在第二语义数据中检测与第三轮次对话下用户意图对应的第一用户意图数据,其中,第三轮次对话为多轮次对话文本分析其中一次;确定第一用户意图数据所对应的意向信息;基于第三轮次对话中的第三机器人话术配置与意向信息所对应的推理配置意图数据,并确定候选意向标签数据包括推理配置意图数据。
在其中一些实施例中,匹配模块42用于对文本数据进行自然语言理解,得到与多轮次对话文本分析对应的第三语义数据;从第三语义数据中提取机器人话术所对应的第三语义数据;在第三语义数据中追踪第三机器人话术所对应的第二目标语义数据,其中,第三机器人话术包括具有预设关键信息的机器人话术;在追踪到第二目标语义数据的情况下,根据第二目标语义数据的语义特征值生成响应于第三机器人话术的第一意向数据,并确定候选意向标签数据包括第一意向数据。
在其中一些实施例中,筛选模块43用于通过预设实体抽取模型在候选意向标签数据中检测第一意向标签数据,其中,第一意向标签数据包括当前轮次对话文本分析所对应的第一意图信息和第一意向实体,第一意向实体包括当前轮次对话对应的第三用户应答数据所关联的预设语义特征值;根据标签过滤规则,对第一意向标签数据金进行过滤筛选,得到目标意向标签数据,其中,标签过滤规则包括互斥标签过滤和/或强制标签过滤。
在其中一些实施例中,实时通信数据包括对话文本分析时长、对话文本分析轮次,处理模块44用于提取目标意向标签数据对应是实时通信数据;在预设意向等级参数表中查询与实时通信数据关联的目标意向标签数据的意向等级,其中,预设意向等级参数表包括预设通信数据、预设意向标签数据和预设意向等级的对应关系。
需要说明的是,上述各个模块可以是功能模块也可以是程序模块,既可以通过软件来实现,也可以通过硬件来实现。对于通过硬件来实现的模块而言,上述各个模块可以位于同一处理器中;或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。
本实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,获取待分析的对话文本数据,其中,对话文本数据包括多轮次对话文本分析所产生的文本数据及与多轮次对话文本分析关联的实时通信数据。
S2,根据预设语义匹配规则对文本数据进行语义匹配,确定候选意向标签数据,其中,预设语义匹配规则基于预设语义匹配模型和预设配置信息确定,预设配置信息包括对不同对话文本分析所产生的文本数据进行解析的解析信息。
S3,对候选意向标签数据进行筛选处理,获取目标意向标签数据,其中,筛选处理包括实体抽取、标签过滤。
S4,根据实时通信数据确定目标意向标签数据对应的意向等级。
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
另外,结合上述实施例中的对话文本分析方法,本申请实施例可提供一种存储介质来实现。该存储介质上存储有计算机程序;该计算机程序被处理器执行时实现上述实施例中的任意一种对话文本分析方法。
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (12)
1.一种对话文本分析方法,其特征在于,包括:
获取待分析的对话文本数据,其中,所述对话文本数据包括多轮次对话文本分析所产生的文本数据及与所述多轮次对话文本分析关联的实时通信数据;所述文本数据包括用户表述文本数据、机器人表述文本数据;
根据预设语义匹配规则对所述文本数据进行语义匹配,确定候选意向标签数据,其中,所述预设语义匹配规则基于预设语义匹配模型和预设配置信息确定,所述预设配置信息包括对不同对话文本分析所产生的文本数据进行解析的解析信息;所述预设语义匹配模型至少包括基于BERT的语义匹配模型;具体的,对所述文本数据进行语义理解,并采用基于BERT的语义匹配模型结合预设配置信息对语义理解后的文本数据进行语义匹配,直接映射或间接推理出候选意向标签数据;
对所述候选意向标签数据进行筛选处理,获取目标意向标签数据,其中,所述筛选处理包括实体抽取、标签过滤;
根据所述实时通信数据确定所述目标意向标签数据对应的意向等级。
2.根据权利要求1所述的对话文本分析方法,其特征在于,根据预设语义匹配规则对所述对话文本数据进行语义匹配,确定候选意向标签数据包括:
对所述文本数据进行自然语言理解,得到与所述多轮次对话文本分析对应的第一语义数据;
获取所述第一语义数据中用户对话所对应的第一用户语义数据;
通过所述预设语义匹配模型在所述第一用户语义数据中检测至少一个第一目标语义数据,其中,所述第一目标语义数据包括所述预设配置信息中与用户意图数据关联的用户潜在意图数据,所述预设语义匹配模型包括BERT语义匹配模型;
在检测到所述第一目标语义数据的情况下,确定所述候选意向标签数据包括所述第一目标语义数据。
3.根据权利要求2所述的对话文本分析方法,其特征在于,在未检测到所述第一目标语义数据的情况下,所述方法包括:
获取第一轮次对话中的第一机器人话术,其中,所述第一轮次对话包括所述多轮次对话文本分析其中一次;
对与所述第一机器人话术对应的第一用户应答数据进行推理,得到第一推理意图数据,并确定所述候选意向标签数据包括所述第一推理意图数据,其中,所述第一推理意图数据包括所述第一用户应答数据关联的语义特征值。
4.根据权利要求2所述的对话文本分析方法,其特征在于,在确定所述候选意向标签数据包括所述第一目标语义数据之后,所述方法包括:根据所述第一目标语义数据推理得到第二推理意图数据,并确定所述候选意向标签数据包括所述第二推理意图数据,其中,所述第二推理意图数据包括相对所述第一目标语义数据具有相反语义的语义特征值。
5.根据权利要求2所述的对话文本分析方法,其特征在于,在确定所述候选意向标签数据包括所述第一目标语义数据之后,所述方法包括:
获取第二轮次对话中的第二机器人话术,其中,所述第二轮次对话包括所述多轮次对话文本分析其中一次;
在与所述第二机器人话术对应的第二用户应答数据检测第三推理意图数据,并确定所述候选意向标签数据包括所述第三推理意图数据,其中,所述第三推理意图数据包括所述第二用户应答数据关联的语义特征值。
6.根据权利要求1所述的对话文本分析方法,其特征在于,根据预设语义匹配规则对所述对话文本数据进行语义匹配,确定候选意向标签数据包括:
对所述文本数据进行自然语言理解,得到与所述多轮次对话文本分析对应的第二语义数据;
从所述第二语义数据中提取用户对话所对应的第二语义数据,并在所述第二语义数据中检测与第三轮次对话下用户意图对应的第一用户意图数据,其中,所述第三轮次对话为所述多轮次对话文本分析其中一次;
确定所述第一用户意图数据所对应的意向信息;
基于所述第三轮次对话中的第三机器人话术配置与所述意向信息所对应的推理配置意图数据,并确定所述候选意向标签数据包括所述推理配置意图数据。
7.根据权利要求1所述的对话文本分析方法,其特征在于,根据预设语义匹配规则对所述对话文本数据进行语义匹配,确定候选意向标签数据包括:
对所述文本数据进行自然语言理解,得到与所述多轮次对话文本分析对应的第三语义数据;
从所述第三语义数据中提取机器人话术所对应的第三语义数据;
在所述第三语义数据中追踪第三机器人话术所对应的第二目标语义数据,其中,所述第三机器人话术包括具有预设关键信息的机器人话术;
在追踪到所述第二目标语义数据的情况下,根据所述第二目标语义数据的语义特征值生成响应于所述第三机器人话术的第一意向数据,并确定所述候选意向标签数据包括所述第一意向数据。
8.根据权利要求1所述的对话文本分析方法,其特征在于,对所述候选意向标签数据进行筛选处理,获取目标意向标签数据包括:
通过预设实体抽取模型在所述候选意向标签数据中检测第一意向标签数据,其中,所述第一意向标签数据包括当前轮次对话文本分析所对应的第一意图信息和第一意向实体,所述第一意向实体包括当前轮次对话对应的第三用户应答数据所关联的预设语义特征值;
根据标签过滤规则,对所述第一意向标签数据金进行过滤筛选,得到所述目标意向标签数据,其中,所述标签过滤规则包括互斥标签过滤和/或强制标签过滤。
9.根据权利要求1所述的对话文本分析方法,其特征在于,所述实时通信数据包括对话文本分析时长、对话文本分析轮次,根据所述实时通信数据确定所述目标意向标签数据对应的意向等级包括:
提取所述目标意向标签数据对应是所述实时通信数据;
在预设意向等级参数表中查询与所述实时通信数据关联的所述目标意向标签数据的意向等级,其中,所述预设意向等级参数表包括预设通信数据、预设意向标签数据和预设意向等级的对应关系。
10.一种对话文本分析装置,其特征在于,包括:
获取模块,用于获取待分析的对话文本数据,其中,所述对话文本数据包括多轮次对话文本分析所产生的文本数据及与所述多轮次对话文本分析关联的实时通信数据;所述文本数据包括用户表述文本数据、机器人表述文本数据;
匹配模块,用于根据预设语义匹配规则对所述文本数据进行语义匹配,确定候选意向标签数据,其中,所述预设语义匹配规则基于预设语义匹配模型和预设配置信息确定,所述预设配置信息包括对不同对话文本分析所产生的文本数据进行解析的解析信息;所述预设语义匹配模型至少包括基于BERT的语义匹配模型;具体的,对所述文本数据进行语义理解,并采用基于BERT的语义匹配模型结合预设配置信息对语义理解后的文本数据进行语义匹配,直接映射或间接推理出候选意向标签数据;
筛选模块,用于对所述候选意向标签数据进行筛选处理,获取目标意向标签数据,其中,所述筛选处理包括实体抽取、标签过滤;
处理模块,用于根据所述实时通信数据确定所述目标意向标签数据对应的意向等级。
11.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行权利要求1至9中任一项所述的对话文本分析方法。
12.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至9中任一项所述的对话文本分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011254446.9A CN112364622B (zh) | 2020-11-11 | 2020-11-11 | 对话文本分析方法、装置、电子装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011254446.9A CN112364622B (zh) | 2020-11-11 | 2020-11-11 | 对话文本分析方法、装置、电子装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112364622A CN112364622A (zh) | 2021-02-12 |
CN112364622B true CN112364622B (zh) | 2024-06-14 |
Family
ID=74515952
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011254446.9A Active CN112364622B (zh) | 2020-11-11 | 2020-11-11 | 对话文本分析方法、装置、电子装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112364622B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113362072B (zh) * | 2021-06-30 | 2023-09-08 | 成都一蟹科技有限公司 | 风控数据处理方法、装置、电子设备及存储介质 |
CN115346690B (zh) * | 2022-07-08 | 2023-12-01 | 中国疾病预防控制中心慢性非传染性疾病预防控制中心 | 引导接线员对求助者进行问话的系统 |
CN115994766B (zh) * | 2022-11-03 | 2023-11-07 | 八度云计算(安徽)有限公司 | 一种自动定位目标人群的外呼系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104951428B (zh) * | 2014-03-26 | 2019-04-16 | 阿里巴巴集团控股有限公司 | 用户意图识别方法及装置 |
CN107612814A (zh) * | 2017-09-08 | 2018-01-19 | 北京百度网讯科技有限公司 | 用于生成候选回复信息的方法和装置 |
CN110008308B (zh) * | 2019-01-24 | 2023-06-02 | 创新先进技术有限公司 | 针对用户问句补充信息的方法和装置 |
CN109918673B (zh) * | 2019-03-14 | 2021-08-03 | 湖北亿咖通科技有限公司 | 语义仲裁方法、装置、电子设备和计算机可读存储介质 |
CN110096570B (zh) * | 2019-04-09 | 2021-03-30 | 苏宁易购集团股份有限公司 | 一种应用于智能客服机器人的意图识别方法及装置 |
CN110532361A (zh) * | 2019-08-09 | 2019-12-03 | 深圳追一科技有限公司 | 用户意图的识别方法、装置、计算机设备和存储介质 |
CN110516056A (zh) * | 2019-08-20 | 2019-11-29 | 深圳市奥拓电子股份有限公司 | 人机对话的自主学习方法、自主学习系统及存储介质 |
CN110472035A (zh) * | 2019-08-26 | 2019-11-19 | 杭州城市大数据运营有限公司 | 一种智能应答方法、装置、计算机设备及存储介质 |
CN111723559B (zh) * | 2020-06-19 | 2023-06-23 | 思必驰科技股份有限公司 | 一种实时信息抽取方法及装置 |
CN111897931A (zh) * | 2020-06-24 | 2020-11-06 | 深圳追一科技有限公司 | 对话设置方法和装置、服务器、计算机可读存储介质 |
-
2020
- 2020-11-11 CN CN202011254446.9A patent/CN112364622B/zh active Active
Non-Patent Citations (2)
Title |
---|
智能机器外呼系统的设计与实现;张庆恒;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-197 * |
面向虚拟学习环境的智能问答研究;颜勋;《中国优秀硕士学位论文全文数据库 信息科技辑》;I138-2200 * |
Also Published As
Publication number | Publication date |
---|---|
CN112364622A (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112364622B (zh) | 对话文本分析方法、装置、电子装置及存储介质 | |
CN110377911B (zh) | 对话框架下的意图识别方法和装置 | |
CN107657017B (zh) | 用于提供语音服务的方法和装置 | |
KR102288249B1 (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN110019742B (zh) | 用于处理信息的方法和装置 | |
CN109961786B (zh) | 基于语音分析的产品推荐方法、装置、设备和存储介质 | |
CN110782318A (zh) | 基于音频交互的营销方法、装置以及存储介质 | |
CN104462600A (zh) | 实现来电原因自动分类的方法及装置 | |
CN106997342B (zh) | 基于多轮交互的意图识别方法和装置 | |
CN113539244B (zh) | 端到端语音识别模型训练方法、语音识别方法及相关装置 | |
CN110362664A (zh) | 一种对聊天机器人faq知识库存储与匹配的方法及装置 | |
CN114782054A (zh) | 基于深度学习算法的客服服务质量检测方法及相关设备 | |
CN116821290A (zh) | 面向多任务对话的大语言模型训练方法和交互方法 | |
CN110059172B (zh) | 基于自然语言理解的推荐答案的方法和装置 | |
CN110750626B (zh) | 一种基于场景的任务驱动的多轮对话方法及系统 | |
CN113726942A (zh) | 一种智能电话接听方法、系统、介质及电子终端 | |
CN113886545A (zh) | 知识问答方法、装置、计算机可读介质及电子设备 | |
CN114491010A (zh) | 信息抽取模型的训练方法及装置 | |
CN117421398A (zh) | 人机交互方法、装置、设备以及存储介质 | |
CN115905490B (zh) | 人机交互对话方法、装置以及设备 | |
CN110377803B (zh) | 信息处理方法以及装置 | |
CN116662495A (zh) | 问答处理方法、训练问答处理模型的方法及装置 | |
CN116127011A (zh) | 意图识别方法、装置、电子设备及存储介质 | |
CN115688758A (zh) | 一种语句意图识别方法、装置和存储介质 | |
CN111683174B (zh) | 来电处理方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |