CN108509638B - 一种问题提取方法及电子设备 - Google Patents
一种问题提取方法及电子设备 Download PDFInfo
- Publication number
- CN108509638B CN108509638B CN201810319432.7A CN201810319432A CN108509638B CN 108509638 B CN108509638 B CN 108509638B CN 201810319432 A CN201810319432 A CN 201810319432A CN 108509638 B CN108509638 B CN 108509638B
- Authority
- CN
- China
- Prior art keywords
- input
- text
- user
- determining
- weight value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了一种问题提取方法及电子设备,通过针对不同用户针对不同问题的与客服的对话,确定每个对话预料中的关键特征,根据该关键特征确定真实问题文本,实现了根据不同的对话确定该对话中的语义特征及结构特征,避免了预先统计关键词表,从对话中提取关键词表中存在的关键词导致的关键词表不完备时,不能准确快速的确定用户的真实问题。
Description
技术领域
本发明涉及处理领域,尤其涉及一种问题提取方法及电子设备。
背景技术
目前,在客服系统中,通常采用机器人客服与用户交互,该机器人客服利用人工智能的方式,进行自然语言理解,从而与用户进行交互。
当用户有问题需要通过客服系统与客服沟通时,在整个过程中,通常会涉及多轮用户与客服之间的对话,用户输入的问题往往包括和真实问题弱相关或不相关的信息,例如:打招呼、闲聊,或与问题相关度较低的背景信息。
为了挖掘出用户的真实问题,目前,通常采用的方法是关键词筛选,收集用户问题中可能使用的关键词表,通过统计用户问题中关键词出现的频率来抽取用户的关键问题。
然而,采用上述方式,经常会由于关键词表不完备导致不能准确快速的确定用户的真实问题。
发明内容
有鉴于此,本发明提供一种问题提取方法及电子设备,以解决现有技术中由于关键词表不完备导致的不能准确快速的确定用户的真实问题的问题,其具体方案如下:
一种问题提取方法,包括:
提取用户输入的与客服对话中的不少于一个输入文本;
从所述用户输入的不少于一个输入文本中提取关键特征,确定所述关键特征的权重值,所述关键特征包括:语义特征及结构特征;
根据所述关键特征的权重值确定所述用户输入的不少于一个输入文本中每个输入文本的权重值;
根据所述用户输入的不少于一个输入文本中每个输入文本的权重值确定第一文本,将所述第一文本确定为真实问题文本。
进一步的,所述从所述用户输入的不少于一个输入文本中提取关键特征,确定所述关键特征的权重值,包括:
从所述用户输入的不少于一个输入文本中提取关键特征,并确定所述关键特征的特征值;
从对话预料中确定与预设模式文本匹配的输入文本,确定为正样本,构建正样本集合,所述对话预料包括:所述用户输入的与客服对话中的不少于一个输入文本,以及与所述用户进行对话的客服输入的不少于一个输入文本;
从所述对话预料中确定与所述预设模式文本不匹配的输入文本,确定为负样本,构建负样本集合;
对所述正样本集合及所述负样本集合进行训练,确定所述关键特征的权重值。
进一步的,所述根据所述关键特征的权重值确定所述用户输入的不少于一个输入文本中每个输入文本的权重值,包括:
确定所述用户输入的不少于一个输入文本中每个输入文本所包括的关键特征;
将所述每个输入文本所包括的关键特征的权重值进行线性组合,确定所述每个输入文本的权重值。
进一步的,所述根据所述用户输入的不少于一个输入文本中每个输入文本的权重值确定第一文本,将所述第一文本确定为真实问题文本,包括:
从所述用户输入的不少于一个输入文本中确定第一文本,所述第一文本的权重值大于所述用户输入的不少于一个输入文本中除所述第一文本外的其他输入文本的权重值,将所述第一文本确定为真实问题文本。
进一步的,所述根据所述用户输入的不少于一个输入文本中每个输入文本的权重值确定第一文本,将所述第一文本确定为真实问题文本,包括:
从所述用户输入的不少于一个输入文本中确定所述用户输入的不少于一个输入文本中权重值大于第一阈值的第一文本,将所述第一文本确定为真实问题文本。
进一步的,所述根据所述用户输入的不少于一个输入文本中每个输入文本的权重值确定第一文本,将所述第一文本确定为真实问题文本,包括:
从所述用户输入的不少于一个输入文本中确定第一输入文本,所述第一输入文本的权重值大于所述用户输入的不少于一个输入文本中除所述第一输入文本外的其他输入文本的权重值;
确定所述第一输入文本的语义要素是否完备,所述语义要素包括:问题的意图,完成意图要进行的操作,操作的对象及条件或限制;
当所述第一输入文本的语义要素不完备时,从所述用户与客服的对话文本中确定所述第一输入文本缺少的语义要素;
将补全所述语义要素的第一输入文本确定为第一文本,将所述第一文本确定为真实问题文本。
一种电子设备,包括:处理器,其中:
所述处理器用于提取用户输入的与客服对话中的不少于一个输入文本,从所述用户输入的不少于一个输入文本中提取关键特征,确定关键特征的权重值,所述关键特征包括:语义特征及结构特征,根据所述关键特征的权重值确定所述用户输入的不少于一个输入文本中每个输入文本的权重值,根据所述用户输入的不少于一个输入文本中每个输入文本的权重值确定第一文本,将所述第一文本确定为真实问题文本。
进一步的,还包括:存储器,其中:
所述存储器用于存储预设模式文本;
所述处理器从所述用户输入的不少于一个输入文本中提取关键特征,确定所述关键特征的权重值,包括:
所述处理器从所述用户输入的不少于一个输入文本中提取关键特征,并确定所述关键特征的特征值,从对话语料中确定与所述预设模式文本匹配的输入文本,确定为正样本,构建正样本集合,所述对话语料包括:所述用户输入的与客服对话中的不少于一个输入文本,以及与所述用户进行对话的客服输入的不少于一个输入文本,从所述对话语料中确定与所述预设模式文本不匹配的输入文本,确定为负样本,构建负样本集合,对所述正样本集合及所述负样本集合进行训练,确定所述关键特征的权重值。
进一步的,所述处理器根据所述关键特征的权重值确定所述用户输入的不少于一个输入文本中每个输入文本的权重值,包括:
所述处理器确定所述用户输入的不少于一个输入文本中每个输入文本所包括的关键特征,将所述每个输入文本所包括的关键特征的权重值进行线性组合,确定所述每个输入文本的权重值。
进一步的,所述处理器根据所述用户输入的不少于一个输入文本中每个输入文本的权重值确定第一文本,将所述第一文本确定为真实问题文本,包括:
所述处理器从所述用户输入的不少于一个输入文本中确定第一文本,所述第一文本的权重值大于所述用户输入的不少于一个输入文本中除所述第一文本外的其他输入文本的权重值,将所述第一文本确定为真实问题文本。
从上述技术方案可以看出,本申请公开的问题提取方法及电子设备,提取用户输入的与客服对话中的不少于一个输入文本,从用户输入的不少于一个输入文本中提取关键特征,确定关键特征的权重值,根据关键特征的权重值确定用户输入的不少于一个输入文本中每个输入文本的权重值,根据用户输入的不少于一个输入文本中每个输入文本的权重值确定第一文本,将第一文本确定为真实问题文本。本方案通过针对不同用户针对不同问题的与客服的对话,确定每个对话预料中的关键特征,根据该关键特征确定真实问题文本,实现了根据不同的对话确定该对话中的语义特征及结构特征,避免了预先统计关键词表,从对话中提取关键词表中存在的关键词导致的关键词表不完备时,不能准确快速的确定用户的真实问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种问题提取方法的流程图;
图2为本发明实施例公开的一种问题提取方法的流程图;
图3为本发明实施例公开的一种问题提取方法的流程图;
图4为本发明实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明公开了一种问题提取方法,其流程图如图1所示,包括:
步骤S11、提取用户输入的与客服对话中的不少于一个输入文本;
当用户需要与客服系统交互时,用户会输入多个输入文本,其中,包括:打招呼的文本,所涉及的问题的背景的文本以及问题的描述等,用户会通过多次输入来将其想要表达的问题表述清楚。
例如:如表1所示:
表1
其中,U1、U2、U3、U4、U5、U6、U7为用户分多次输入的输入文本,而A1、A2、A3、A4为客服分多次回复的输入文本。
其中,U1为用户输入的打招呼的输入文本,U2为用户输入的与问题有关的背景介绍,U2、U3、U4为用户分多次输入的问题。
步骤S12、从用户输入的不少于一个输入文本中提取关键特征,确定关键特征的权重值,关键特征包括:语义特征及结构特征;
从用户输入的多个输入文本中提取关键特征,以确定关键特征的权重值,其中,关键特征包括:语义特征及结构特征。
其中,语义特征主要包括用户输入的问题的语义要素是否完整,结构特征主要包括:用户输入的输入文本在语义图中的重要度以及在多轮对话中出现的位置信息等。
具体的,关键特征包括:问题要素完整度,启发词汇,句子长度,句子位置,句子重要度。
问题要素完整度即:语义要素的完整度,其中,语义要素包括:问题的意图,完成意图要进行的操作,操作的对象,以及条件或限制。
其中,问题的意图,即用户问这个问题是需要做什么,例如:更新APP;完成意图要进行的操作,即要完成上述过程需要进行怎样的操作,例如:更新操作;操作的对象,例如:上述更新APP中,其操作对象为APP;条件或限制,即要实现上述操作有什么限制,或者需要在什么条件下进行,例如:更新APP,是自动更新还是手动更新。
问题要素完整度,即语义要素是否完整,其所对应的特征值为:当前输入文本中包括语义要素中的哪些要素。
启发词汇,即每个输入文本中能够对问题产生启发的词汇有几个,具体的,启发词汇是用户输入的每个输入文本中包括的否定词和问题词的数量,通过否定词搭配和问题词词典可以获得启发词汇,并最终确定用户输入的每个输入文本中启发词汇的数量。
句子长度,即用户输入的每个输入文本中除停止词外剩余词语的数量。
句子位置,即用户输入的每个输入文本在整个对话中属于用户输入的第几句话。
句子重要度,即用户输入的每个输入文本在整个对话中所占的重要等级。
关键特征的特征值及说明具体如表2所示:
表2
其中,Intent为问题的意图,Operation为完成意图要进行的操作,Object为操作的对象,Condition为条件或限制。Ui为用户输入的输入文本。
具体的,句子重要度的计算方法可以为:
将用户输入的不少于一个输入文本以及客服输入的不少于一个输入文本进行分词处理,构建基于词的无向图,无向图的节点是词,边代表词之间的关系。例如:共现词关系、同义词关系即语义相似度关系等。
例如:Ti和Tj有共现关系,则Ti与Tj之间存在一条边。
当采用共现关系构建无向图时,边的强度表示词的共现频率;当采用语义相似度关系构建无向图时,边的强度表示词的语义相似度,语义相似度可以通过词向量的余弦距离计算,或者通过wordnet中两个词的距离计算。
构建好无向图后,利用图排序算法,如:PageRank,计算每个词的重要度,对每个用户输入的输入文本计算所有词的平均重要度,将该平均重要度作为该输入文本的句子重要度。
通过对各关键特征值的学习确定各关键特征的权重值。
步骤S13、根据关键特征的权重值确定用户输入的不少于一个输入文本中每个输入文本的权重值;
确定用户输入的每个输入文本中各关键特征的权重值,之后确定用户输入的各输入文本中每个输入文本所包括的关键特征,将每个输入文本所包括的关键特征的权重值进行线性组合,从而确定用户输入的每个输入文本的权重值。
步骤S14、根据用户输入的不少于一个输入文本中每个输入文本的权重值确定第一文本,将第一文本确定为真实问题文本。
用户输入的每一个输入文本均各自有一个权重值,根据各输入文本的权重值选取一个输入文本,将其确定为真实问题文本。
具体的,可以为:
从用户输入的不少于一个输入文本中确定第一文本,第一文本的权重值大于用户输入的不少于一个输入文本中除第一文本外的其他输入文本的权重值,将第一文本确定为真实问题文本,即从用户输入的不少于一个输入文本中选取权重值最大的一个输入文本作为真实问题文本。
还可以为:
从用户输入的不少于一个输入文本中确定用户输入的不少于一个输入文本中权重值大于第一阈值的第一文本,将第一文本确定为真实问题文本,即从用户输入的不少于一个输入文本中选取其中权重值大于第一阈值的文本作为真实问题文本。
进一步的,若用户输入的不少于一个输入文本中权重值大于第一阈值的文本不止有一个,还可以为:从这两个权重值大于第一阈值的输入文本中确定最大的一个作为真实问题文本;也可以为:将这两个权重值大于第一阈值的输入文本进行组合得到第一文本,将第一文本作为真实问题文本。
本实施例公开的问题提取方法,提取用户输入的与客服对话中的不少于一个输入文本,从用户输入的不少于一个输入文本中提取关键特征,确定关键特征的权重值,根据关键特征的权重值确定用户输入的不少于一个输入文本中每个输入文本的权重值,根据用户输入的不少于一个输入文本中每个输入文本的权重值确定第一文本,将第一文本确定为真实问题文本。本方案通过针对不同用户针对不同问题的与客服的对话,确定每个对话预料中的关键特征,根据该关键特征确定真实问题文本,实现了根据不同的对话确定该对话中的语义特征及结构特征,避免了预先统计关键词表,从对话中提取关键词表中存在的关键词导致的关键词表不完备时,不能准确快速的确定用户的真实问题。
本实施例公开了一种问题提取方法,其流程图如图2所示,包括:
步骤S21、提取用户输入的与客服对话中的不少于一个输入文本;
步骤S22、从用户输入的不少于一个输入文本中提取关键特征,并确定关键特征的特征值;
步骤S23、从对话语料中确定与预设模式文本匹配的输入文本,确定为正样本,构建正样本集合,对话语料包括:用户输入的与客服对话中的不少于一个输入文本,以及与用户进行对话的客服输入的不少于一个输入文本;
对话语料中不仅包括:用户输入的与客服对话中的不少于一个输入文本,还包括:与用户进行对话的客服输入的不少于一个输入文本。以表1为例,对应的对话语料包括:U1、U2、U3、U4、U5、U6、U7以及A1、A2、A3、A4。
进一步的,在对对话语料中的不少于一个输入文本进行后续处理之前,还需要对该对话语料进行预处理。
其中,预处理包括:过滤掉与问题无关的输入文本,如:过滤掉打招呼、寒暄、闲聊等输入文本,如:表1中的U1及A1;
预处理还可以包括:过滤掉句子长度小于某一预定阈值的用户输入的输入文本,如:表1中的U5;
预处理还可以包括:合并不少于两个连续的用户输入的输入文本,即用户的问题分多次输入,则将这多次输入的文本合并为一个,如:表1中的U2、U3、U4。
以表1为例,在对该对话语料进行预处理后,得到的预处理后的对话语料如表3所示:
表3
如表3所示,在对原对话语料进行预处理后,得到的预处理后的对话语料仅包括:用户输入的输入文本:U1、U2、U3,以及客服回复的输入文本:A1、A2、A3。
对于针对对话语料进行的后续操作,均是在预处理后的对话语料中进行的操作。
预先设定预设模式文本,用模板匹配的方式从对话语料中抽取这些输入文本作为用户关键问题的正样本。
具体的,在客服系统中客服接收到用户输入的与问题有关的输入文本后,通常会回复一个确认文本,例如:表1中的A2,即为客服系统在接收到用户输入的问题文本后,对该问题文本进行整理或提取,得到的用户问题,从而复述用户的问题,以便得到用户的确认。
通常在复述用户的问题时,会有固定的句式,如:“As I understand……Am Iright?”。
因此,预先构建类似的预设模式文本,用模板匹配的方式从对话语料中抽取这些句子作为用户关键问题的正样本,通过模板匹配的方式抽取的正样本构建正样本集合。
在确定正样本后,利用语义相似度的方式,例如:句向量的方法计算用户输入的不少于一个输入文本中每个输入文本与正样本集合的余弦距离,将平均语义相似度大于一定阈值的用户输入的输入文本作为正样本,加入正样本集合。
同时,将平均语义相似度小于一定阈值的用户输入的输入文本作为负样本,加入负样本集合。
步骤S24、从对话语料中确定与预设模式文本不匹配的输入文本,确定为负样本,构建负样本集合;
步骤S25、对正样本集合及负样本集合进行训练,确定关键特征的权重值;
针对表2中,用户输入的输入文本中关键特征的特征值可以如表4所示:
表4
根据表4所示,可以明确,在用户输入的U1中,语义要素有3个,分别为:Intent问题的意图,Operation完成意图要进行的操作,以及Object操作的对象,启发词汇的特征值为1,句子长度为21,句子位置为1,即为用户输入的第一句,句子重要度为0.8;对于U2,语义要素只有1个,为:Condition条件或限制,启发词汇的特征值为1,句子长度为6,句子位置为2,即该句属于用户输入的第二句,句子重要度为0.3;对于U3,其中没有语义要素,也没有启发词汇,句子长度为1,句子位置为3,句子重要度为0.1。
通过对正样本集合及负样本集合进行学习训练,从而得到各个关键特征的权重值,并最终得到分类模型M。
步骤S26、根据关键特征的权重值确定用户输入的不少于一个输入文本中每个输入文本的权重值;
步骤S27、根据用户输入的不少于一个输入文本中每个输入文本的权重值确定第一文本,将第一文本确定为真实问题文本。
本实施例公开的问题提取方法,提取用户输入的与客服对话中的不少于一个输入文本,从用户输入的不少于一个输入文本中提取关键特征,确定关键特征的权重值,根据关键特征的权重值确定用户输入的不少于一个输入文本中每个输入文本的权重值,根据用户输入的不少于一个输入文本中每个输入文本的权重值确定第一文本,将第一文本确定为真实问题文本。本方案通过针对不同用户针对不同问题的与客服的对话,确定每个对话预料中的关键特征,根据该关键特征确定真实问题文本,实现了根据不同的对话确定该对话中的语义特征及结构特征,避免了预先统计关键词表,从对话中提取关键词表中存在的关键词导致的关键词表不完备时,不能准确快速的确定用户的真实问题。
本实施例公开了一种问题提取方法,其流程图如图3所示,包括:
步骤S31、提取用户输入的与客服对话中的不少于一个输入文本;
步骤S32、从用户输入的不少于一个输入文本中提取关键特征,确定关键特征的权重值,关键特征包括:语义特征及结构特征;
步骤S33、根据关键特征的权重值确定用户输入的不少于一个输入文本中每个输入文本的权重值;
步骤S34、从用户输入的不少于一个输入文本中确定第一输入文本,第一输入文本的权重值大于用户输入的不少于一个输入文本中除第一输入文本外的其他输入文本的权重值;
步骤S35、确定第一输入文本的语义要素是否完备,语义要素包括:问题的意图,完成意图要进行的操作,操作的对象及条件或限制;
步骤S36、当第一输入文本的语义要素不完备时,从用户与客服的对话文本中确定第一输入文本缺少的语义要素;
步骤S37、将补全语义要素的第一输入文本确定为第一文本,将第一文本确定为真实问题文本。
从用户输入的不少于一个输入文本中选取第一输入文本,可以具体为:从用户输入的多个句子中选取其中权重值最大的一个,如表3所示的U1、U2及U3中,选取U1作为第一输入文本。
具体的,选取第一输入文本也可以为:根据分类模型M确定用户输入的多个文本中每个输入文本的分类,将大于某个置信度的输入文本确定为第一输入文本。
在确定第一输入文本后,确定该选定的第一输入文本中语义要素是否完整,即该第一输入文本中是否包括全部4个语义要素,若该第一输入文本中包括全部4个语义要素,则直接将该第一输入文本确定为第一文本,即为真实问题文本;若该第一输入文本中缺少1个或多个语义要素,则将缺少的语义要素补全。
具体的,从对话语料中的其他输入文本中确定缺少的语义要素,即从该第一输入文本的上下文中确定缺少的语义要素,将该确定的缺少的语义要素补入第一输入文本中,使第一输入文本中包括全部4个语义要素,此时,即可将包括全部4个语义要素的第一输入文本确定为第一文本,即真实问题文本。
以表4为例,U1中仅有3个语义要素,缺少Condition条件或限制的语义要素,而在U2中是包括有该语义要素的,因此,将从U2中提取出的Condition即“Windows 10desktop”补入U1中,获得包括全部4个语义要素的第一文本。
进一步的,在确定了第一文本后,将该第一文本反馈给用户,由用户确认该第一文本是否为用户想要表达的真实问题,如果得到的反馈为:“是”,则将该反馈给用户的文本确定为正样本,加入正样本集合中,否则,得到一个负样本,加入负样本集合中,通过这样的方式可以获得大量的正样本和负样本,在得到正样本或负样本后,重新训练分类模型,更新该分类模型M,从而实现系统的自学习优化,进而提高用户真实问题的识别精度。
本实施例公开的问题提取方法,提取用户输入的与客服对话中的不少于一个输入文本,从用户输入的不少于一个输入文本中提取关键特征,确定关键特征的权重值,根据关键特征的权重值确定用户输入的不少于一个输入文本中每个输入文本的权重值,根据用户输入的不少于一个输入文本中每个输入文本的权重值确定第一文本,将第一文本确定为真实问题文本。本方案通过针对不同用户针对不同问题的与客服的对话,确定每个对话预料中的关键特征,根据该关键特征确定真实问题文本,实现了根据不同的对话确定该对话中的语义特征及结构特征,避免了预先统计关键词表,从对话中提取关键词表中存在的关键词导致的关键词表不完备时,不能准确快速的确定用户的真实问题。
本实施例公开了一种电子设备,其结构示意图如图4所示,包括:
处理器41。
处理器41用于提取用户输入的与客服对话中的不少于一个输入文本,从用户输入的不少于一个输入文本中提取关键特征,确定关键特征的权重值,关键特征包括:语义特征及结构特征,根据关键特征的权重值确定用户输入的不少于一个输入文本中每个输入文本的权重值,根据用户输入的不少于一个输入文本中每个输入文本的权重值确定第一文本,将第一文本确定为真实问题文本。
当用户需要与客服系统交互时,用户会输入多个输入文本,其中,包括:打招呼的文本,所涉及的问题的背景的文本以及问题的描述等,用户会通过多次输入来将其想要表达的问题表述清楚。
例如:如表1所示:
表1
其中,U1、U2、U3、U4、U5、U6、U7为用户分多次输入的输入文本,而A1、A2、A3、A4为客服分多次回复的输入文本。
其中,U1为用户输入的打招呼的输入文本,U2为用户输入的与问题有关的背景介绍,U2、U3、U4为用户分多次输入的问题。
从用户输入的多个输入文本中提取关键特征,以确定关键特征的权重值,其中,关键特征包括:语义特征及结构特征。
其中,语义特征主要包括用户输入的问题的语义要素是否完整,结构特征主要包括:用户输入的输入文本在语义图中的重要度以及在多轮对话中出现的位置信息等。
具体的,关键特征包括:问题要素完整度,启发词汇,句子长度,句子位置,句子重要度。
问题要素完整度即:语义要素的完整度,其中,语义要素包括:问题的意图,完成意图要进行的操作,操作的对象,以及条件或限制。
其中,问题的意图,即用户问这个问题是需要做什么,例如:更新APP;完成意图要进行的操作,即要完成上述过程需要进行怎样的操作,例如:更新操作;操作的对象,例如:上述更新APP中,其操作对象为APP;条件或限制,即要实现上述操作有什么限制,或者需要在什么条件下进行,例如:更新APP,是自动更新还是手动更新。
问题要素完整度,即语义要素是否完整,其所对应的特征值为:当前输入文本中包括语义要素中的哪些要素。
启发词汇,即每个输入文本中能够对问题产生启发的词汇有几个,具体的,启发词汇是用户输入的每个输入文本中包括的否定词和问题词的数量,通过否定词搭配和问题词词典可以获得启发词汇,并最终确定用户输入的每个输入文本中启发词汇的数量。
句子长度,即用户输入的每个输入文本中除停止词外剩余词语的数量。
句子位置,即用户输入的每个输入文本在整个对话中属于用户输入的第几句话。
句子重要度,即用户输入的每个输入文本在整个对话中所占的重要等级。
关键特征的特征值及说明具体如表2所示:
表2
其中,Intent为问题的意图,Operation为完成意图要进行的操作,Object为操作的对象,Condition为条件或限制。Ui为用户输入的输入文本。
具体的,句子重要度的计算方法可以为:
将用户输入的不少于一个输入文本以及客服输入的不少于一个输入文本进行分词处理,构建基于词的无向图,无向图的节点是词,边代表词之间的关系。例如:共现词关系、同义词关系即语义相似度关系等。
例如:Ti和Tj有共现关系,则Ti与Tj之间存在一条边。
当采用共现关系构建无向图时,边的强度表示词的共现频率;当采用语义相似度关系构建无向图时,边的强度表示词的语义相似度,语义相似度可以通过词向量的余弦距离计算,或者通过wordnet中两个词的距离计算。
构建好无向图后,利用图排序算法,如:PageRank,计算每个词的重要度,对每个用户输入的输入文本计算所有词的平均重要度,将该平均重要度作为该输入文本的句子重要度。
通过对各关键特征值的学习确定各关键特征的权重值。
确定用户输入的每个输入文本中各关键特征的权重值,之后确定用户输入的各输入文本中每个输入文本所包括的关键特征,将每个输入文本所包括的关键特征的权重值进行线性组合,从而确定用户输入的每个输入文本的权重值。
用户输入的每一个输入文本均各自有一个权重值,根据各输入文本的权重值选取一个输入文本,将其确定为真实问题文本。
具体的,可以为:
从用户输入的不少于一个输入文本中确定第一文本,第一文本的权重值大于用户输入的不少于一个输入文本中除第一文本外的其他输入文本的权重值,将第一文本确定为真实问题文本,即从用户输入的不少于一个输入文本中选取权重值最大的一个输入文本作为真实问题文本。
还可以为:
从用户输入的不少于一个输入文本中确定用户输入的不少于一个输入文本中权重值大于第一阈值的第一文本,将第一文本确定为真实问题文本,即从用户输入的不少于一个输入文本中选取其中权重值大于第一阈值的文本作为真实问题文本。
进一步的,若用户输入的不少于一个输入文本中权重值大于第一阈值的文本不止有一个,还可以为:从这两个权重值大于第一阈值的输入文本中确定最大的一个作为真实问题文本;也可以为:将这两个权重值大于第一阈值的输入文本进行组合得到第一文本,将第一文本作为真实问题文本。
进一步的,本实施例公开的电子设备还可以包括:存储器42。
存储器42用于存储预设模式文本。
处理器41从用户输入的不少于一个输入文本中提取关键特征,确定关键特征的权重值,包括:
处理器从用户输入的不少于一个输入文本中提取关键特征,并确定关键特征的特征值,从对话语料中确定与预设模式文本匹配的输入文本,确定为正样本,构建正样本集合,对话语料包括:用户输入的与客服对话中的不少于一个输入文本,以及与用户进行对话的客服输入的不少于一个输入文本,从对话语料中确定与预设模式文本不匹配的输入文本,确定为负样本,构建负样本集合,对正样本集合及负样本集合进行训练,确定关键特征的权重值。
对话语料中不仅包括:用户输入的与客服对话中的不少于一个输入文本,还包括:与用户进行对话的客服输入的不少于一个输入文本。以表1为例,对应的对话语料包括:U1、U2、U3、U4、U5、U6、U7以及A1、A2、A3、A4。
进一步的,在对对话语料中的不少于一个输入文本进行后续处理之前,还需要对该对话语料进行预处理。
其中,预处理包括:过滤掉与问题无关的输入文本,如:过滤掉打招呼、寒暄、闲聊等输入文本,如:表1中的U1及A1;
预处理还可以包括:过滤掉句子长度小于某一预定阈值的用户输入的输入文本,如:表1中的U5;
预处理还可以包括:合并不少于两个连续的用户输入的输入文本,即用户的问题分多次输入,则将这多次输入的文本合并为一个,如:表1中的U2、U3、U4。
以表1为例,在对该对话语料进行预处理后,得到的预处理后的对话语料如表3所示:
表3
如表3所示,在对原对话语料进行预处理后,得到的预处理后的对话语料仅包括:用户输入的输入文本:U1、U2、U3,以及客服回复的输入文本:A1、A2、A3。
对于针对对话语料进行的后续操作,均是在预处理后的对话语料中进行的操作。
预先设定预设模式文本,用模板匹配的方式从对话语料中抽取这些输入文本作为用户关键问题的正样本。
具体的,在客服系统中客服接收到用户输入的与问题有关的输入文本后,通常会回复一个确认文本,例如:表1中的A2,即为客服系统在接收到用户输入的问题文本后,对该问题文本进行整理或提取,得到的用户问题,从而复述用户的问题,以便得到用户的确认。
通常在复述用户的问题时,会有固定的句式,如:“As Iunderstand……AmIright?”。
因此,预先构建类似的预设模式文本,用模板匹配的方式从对话语料中抽取这些句子作为用户关键问题的正样本,通过模板匹配的方式抽取的正样本构建正样本集合。
在确定正样本后,利用语义相似度的方式,例如:句向量的方法计算用户输入的不少于一个输入文本中每个输入文本与正样本集合的余弦距离,将平均语义相似度大于一定阈值的用户输入的输入文本作为正样本,加入正样本集合。
同时,将平均语义相似度小于一定阈值的用户输入的输入文本作为负样本,加入负样本集合。
针对表2中,用户输入的输入文本中关键特征的特征值可以如表4所示:
表4
根据表4所示,可以明确,在用户输入的U1中,语义要素有3个,分别为:Intent问题的意图,Operation完成意图要进行的操作,以及Object操作的对象,启发词汇的特征值为1,句子长度为21,句子位置为1,即为用户输入的第一句,句子重要度为0.8;对于U2,语义要素只有1个,为:Condition条件或限制,启发词汇的特征值为1,句子长度为6,句子位置为2,即该句属于用户输入的第二句,句子重要度为0.3;对于U3,其中没有语义要素,也没有启发词汇,句子长度为1,句子位置为3,句子重要度为0.1。
通过对正样本集合及负样本集合进行学习训练,从而得到各个关键特征的权重值,并最终得到分类模型M。
进一步的,处理器41根据用户输入的不少于一个输入文本中每个输入文本的权重值确定第一文本,将第一文本确定为真实问题文本,包括:
处理器41从用户输入的不少于一个输入文本中确定第一输入文本,第一输入文本的权重值大于用户输入的不少于一个输入文本中除第一输入文本外的其他输入文本的权重值;确定第一输入文本的语义要素是否完备,语义要素包括:问题的意图,完成意图要进行的操作,操作的对象及条件或限制;当第一输入文本的语义要素不完备时,从用户与客服的对话文本中确定第一输入文本缺少的语义要素;将补全语义要素的第一输入文本确定为第一文本,将第一文本确定为真实问题文本。
从用户输入的不少于一个输入文本中选取第一输入文本,可以具体为:从用户输入的多个句子中选取其中权重值最大的一个,如表3所示的U1、U2及U3中,选取U1作为第一输入文本。
具体的,选取第一输入文本也可以为:根据分类模型M确定用户输入的多个文本中每个输入文本的分类,将大于某个置信度的输入文本确定为第一输入文本。
在确定第一输入文本后,确定该选定的第一输入文本中语义要素是否完整,即该第一输入文本中是否包括全部4个语义要素,若该第一输入文本中包括全部4个语义要素,则直接将该第一输入文本确定为第一文本,即为真实问题文本;若该第一输入文本中缺少1个或多个语义要素,则将缺少的语义要素补全。
具体的,从对话语料中的其他输入文本中确定缺少的语义要素,即从该第一输入文本的上下文中确定缺少的语义要素,将该确定的缺少的语义要素补入第一输入文本中,使第一输入文本中包括全部4个语义要素,此时,即可将包括全部4个语义要素的第一输入文本确定为第一文本,即真实问题文本。
以表4为例,U1中仅有3个语义要素,缺少Condition条件或限制的语义要素,而在U2中是包括有该语义要素的,因此,将从U2中提取出的Condition即“Windows 10desktop”补入U1中,获得包括全部4个语义要素的第一文本。
进一步的,在确定了第一文本后,将该第一文本反馈给用户,由用户确认该第一文本是否为用户想要表达的真实问题,如果得到的反馈为:“是”,则将该反馈给用户的文本确定为正样本,加入正样本集合中,否则,得到一个负样本,加入负样本集合中,通过这样的方式可以获得大量的正样本和负样本,在得到正样本或负样本后,重新训练分类模型,更新该分类模型M,从而实现系统的自学习优化,进而提高用户真实问题的识别精度。
本实施例公开的电子设备,提取用户输入的与客服对话中的不少于一个输入文本,从用户输入的不少于一个输入文本中提取关键特征,确定关键特征的权重值,根据关键特征的权重值确定用户输入的不少于一个输入文本中每个输入文本的权重值,根据用户输入的不少于一个输入文本中每个输入文本的权重值确定第一文本,将第一文本确定为真实问题文本。本方案通过针对不同用户针对不同问题的与客服的对话,确定每个对话预料中的关键特征,根据该关键特征确定真实问题文本,实现了根据不同的对话确定该对话中的语义特征及结构特征,避免了预先统计关键词表,从对话中提取关键词表中存在的关键词导致的关键词表不完备时,不能准确快速的确定用户的真实问题。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种问题提取方法,其特征在于,包括:
提取用户输入的与客服对话中的不少于两个输入文本;
从所述用户输入的不少于两个输入文本中提取关键特征,确定所述关键特征的权重值,所述关键特征包括:语义特征及结构特征;所述结构特征包括:用户输入的输入文本在语义图中的重要度以及在多轮对话中出现的位置信息;
根据所述关键特征的权重值确定所述用户输入的不少于两个输入文本中每个输入文本的权重值;
根据所述用户输入的不少于两个输入文本中每个输入文本的权重值确定第一文本,将所述第一文本确定为真实问题文本;
所述从所述用户输入的不少于两个输入文本中提取关键特征,确定所述关键特征的权重值,包括:
从所述用户输入的不少于两个输入文本中提取关键特征,并确定所述关键特征的特征值;
从对话语料中确定与预设模式文本匹配的输入文本,确定为正样本,构建正样本集合,所述对话语料包括:所述用户输入的与客服对话中的不少于一个输入文本,以及与所述用户进行对话的客服输入的不少于一个输入文本;
从所述对话语料中确定与所述预设模式文本不匹配的输入文本,确定为负样本,构建负样本集合;
对所述正样本集合及所述负样本集合进行训练,确定所述关键特征的权重值。
2.根据权利要求1所述的方法,其特征在于,所述根据所述关键特征的权重值确定所述用户输入的不少于两个输入文本中每个输入文本的权重值,包括:
确定所述用户输入的不少于两个输入文本中每个输入文本所包括的关键特征;
将所述每个输入文本所包括的关键特征的权重值进行线性组合,确定所述每个输入文本的权重值。
3.根据权利要求1所述的方法,其特征在于,所述根据所述用户输入的不少于两个输入文本中每个输入文本的权重值确定第一文本,将所述第一文本确定为真实问题文本,包括:
从所述用户输入的不少于两个输入文本中确定第一文本,所述第一文本的权重值大于所述用户输入的不少于两个输入文本中除所述第一文本外的其他输入文本的权重值,将所述第一文本确定为真实问题文本。
4.根据权利要求1所述的方法,其特征在于,所述根据所述用户输入的不少于两个输入文本中每个输入文本的权重值确定第一文本,将所述第一文本确定为真实问题文本,包括:
从所述用户输入的不少于两个输入文本中确定所述用户输入的不少于两个输入文本中权重值大于第一阈值的第一文本,将所述第一文本确定为真实问题文本。
5.根据权利要求1所述的方法,其特征在于,所述根据所述用户输入的不少于两个输入文本中每个输入文本的权重值确定第一文本,将所述第一文本确定为真实问题文本,包括:
从所述用户输入的不少于两个输入文本中确定第一输入文本,所述第一输入文本的权重值大于所述用户输入的不少于两个输入文本中除所述第一输入文本外的其他输入文本的权重值;
确定所述第一输入文本的语义要素是否完备,所述语义要素包括:问题的意图,完成意图要进行的操作,操作的对象及条件或限制;
当所述第一输入文本的语义要素不完备时,从所述用户与客服的对话文本中确定所述第一输入文本缺少的语义要素;
将补全所述语义要素的第一输入文本确定为第一文本,将所述第一文本确定为真实问题文本。
6.一种电子设备,其特征在于,包括:处理器,其中:
所述处理器用于提取用户输入的与客服对话中的不少于两个输入文本,从所述用户输入的不少于两个输入文本中提取关键特征,确定关键特征的权重值,所述关键特征包括:语义特征及结构特征,所述结构特征包括:用户输入的输入文本在语义图中的重要度以及在多轮对话中出现的位置信息,根据所述关键特征的权重值确定所述用户输入的不少于两个输入文本中每个输入文本的权重值,根据所述用户输入的不少于两个输入文本中每个输入文本的权重值确定第一文本,将所述第一文本确定为真实问题文本;
还包括:存储器,其中:
所述存储器用于存储预设模式文本;
所述处理器从所述用户输入的不少于两个输入文本中提取关键特征,确定所述关键特征的权重值,包括:
所述处理器从所述用户输入的不少于两个输入文本中提取关键特征,并确定所述关键特征的特征值,从对话语料中确定与所述预设模式文本匹配的输入文本,确定为正样本,构建正样本集合,所述对话语料包括:所述用户输入的与客服对话中的不少于一个输入文本,以及与所述用户进行对话的客服输入的不少于一个输入文本,从所述对话语料中确定与所述预设模式文本不匹配的输入文本,确定为负样本,构建负样本集合,对所述正样本集合及所述负样本集合进行训练,确定所述关键特征的权重值。
7.根据权利要求6所述的电子设备,其特征在于,所述处理器根据所述关键特征的权重值确定所述用户输入的不少于两个输入文本中每个输入文本的权重值,包括:
所述处理器确定所述用户输入的不少于两个输入文本中每个输入文本所包括的关键特征,将所述每个输入文本所包括的关键特征的权重值进行线性组合,确定所述每个输入文本的权重值。
8.根据权利要求6所述的电子设备,其特征在于,所述处理器根据所述用户输入的不少于两个输入文本中每个输入文本的权重值确定第一文本,将所述第一文本确定为真实问题文本,包括:
所述处理器从所述用户输入的不少于两个输入文本中确定第一文本,所述第一文本的权重值大于所述用户输入的不少于两个输入文本中除所述第一文本外的其他输入文本的权重值,将所述第一文本确定为真实问题文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810319432.7A CN108509638B (zh) | 2018-04-11 | 2018-04-11 | 一种问题提取方法及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810319432.7A CN108509638B (zh) | 2018-04-11 | 2018-04-11 | 一种问题提取方法及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108509638A CN108509638A (zh) | 2018-09-07 |
CN108509638B true CN108509638B (zh) | 2023-06-27 |
Family
ID=63381396
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810319432.7A Active CN108509638B (zh) | 2018-04-11 | 2018-04-11 | 一种问题提取方法及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108509638B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108986573B (zh) * | 2018-08-20 | 2020-10-30 | 西安创艺教育培训中心有限公司 | 基于网络的互动教育系统及应用方法 |
CN109460453B (zh) * | 2018-10-09 | 2021-08-17 | 北京来也网络科技有限公司 | 用于正负样本的数据处理方法及装置 |
CN111199728A (zh) * | 2018-10-31 | 2020-05-26 | 阿里巴巴集团控股有限公司 | 训练数据获取方法及装置和智能音箱、智能电视 |
CN109753568B (zh) * | 2018-12-27 | 2021-09-14 | 联想(北京)有限公司 | 一种处理方法及电子设备 |
CN109783626B (zh) * | 2018-12-29 | 2022-05-31 | 联想(北京)有限公司 | 问题生成方法、智能问答系统、介质以及计算机系统 |
CN109726002B (zh) * | 2018-12-30 | 2021-04-13 | 联想(北京)有限公司 | 一种处理流程调整方法及装置 |
CN111309878B (zh) * | 2020-01-19 | 2023-08-22 | 支付宝(杭州)信息技术有限公司 | 检索式问答方法、模型训练方法、服务器及存储介质 |
CN111324722B (zh) * | 2020-05-15 | 2020-08-14 | 支付宝(杭州)信息技术有限公司 | 一种训练词语权重模型的方法和系统 |
CN112395887A (zh) * | 2020-11-05 | 2021-02-23 | 北京文思海辉金信软件有限公司 | 对话应答方法、装置、计算机设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103927302B (zh) * | 2013-01-10 | 2017-05-31 | 阿里巴巴集团控股有限公司 | 一种文本分类方法和系统 |
CN105912716B (zh) * | 2016-04-29 | 2019-09-10 | 国家计算机网络与信息安全管理中心 | 一种短文本分类方法及装置 |
CN106528694B (zh) * | 2016-10-31 | 2019-12-06 | 百度在线网络技术(北京)有限公司 | 基于人工智能的语义判定处理方法和装置 |
-
2018
- 2018-04-11 CN CN201810319432.7A patent/CN108509638B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN108509638A (zh) | 2018-09-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108509638B (zh) | 一种问题提取方法及电子设备 | |
CN107885874B (zh) | 数据查询方法和装置、计算机设备及计算机可读存储介质 | |
CN111241237B (zh) | 一种基于运维业务的智能问答数据处理方法及装置 | |
CN108304372A (zh) | 实体提取方法和装置、计算机设备和存储介质 | |
CN109002473B (zh) | 一种基于词向量与词性的情感分析方法 | |
CN111159363A (zh) | 一种基于知识库的问题答案确定方法及装置 | |
CN105609107A (zh) | 一种基于语音识别的文本处理方法和装置 | |
CN109284502B (zh) | 一种文本相似度计算方法、装置、电子设备及存储介质 | |
CN108846138B (zh) | 一种融合答案信息的问题分类模型构建方法、装置和介质 | |
CN111078856B (zh) | 一种群聊对话处理方法、装置及电子设备 | |
CN111259130B (zh) | 用于在对话中提供答复语句的方法及装置 | |
CN108073571B (zh) | 一种多语言文本质量评估方法及系统、智能文本处理系统 | |
CN110765759A (zh) | 意图识别方法及装置 | |
CN111428017A (zh) | 人机交互优化方法以及相关装置 | |
CN111611807A (zh) | 一种基于神经网络的关键词提取方法、装置及电子设备 | |
CN114238373A (zh) | 一种自然语言问题转换为结构化查询语句的方法及装置 | |
CN116227466A (zh) | 一种语义不同措辞相似的句子生成方法、装置及设备 | |
CN111428487B (zh) | 模型训练方法、歌词生成方法、装置、电子设备及介质 | |
CN110019714A (zh) | 基于历史结果的多意图查询方法、装置、设备及存储介质 | |
CN109684357B (zh) | 信息处理方法及装置、存储介质、终端 | |
CN116049376A (zh) | 一种信创知识检索回复的方法、装置和系统 | |
CN109727591B (zh) | 一种语音搜索的方法及装置 | |
CN111581347B (zh) | 语句相似度匹配方法及装置 | |
RU2628897C1 (ru) | Способ классификации текстов, полученных в результате распознавания речи | |
CN112182159A (zh) | 一种基于语义表示的个性化检索式对话方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |