CN109727598A - 大噪音语境下的意图识别方法 - Google Patents

大噪音语境下的意图识别方法 Download PDF

Info

Publication number
CN109727598A
CN109727598A CN201811617971.5A CN201811617971A CN109727598A CN 109727598 A CN109727598 A CN 109727598A CN 201811617971 A CN201811617971 A CN 201811617971A CN 109727598 A CN109727598 A CN 109727598A
Authority
CN
China
Prior art keywords
text data
intention
denoising
corpus
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811617971.5A
Other languages
English (en)
Inventor
王小统
祝景浩
宣明辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Telecom Corp Ltd
Original Assignee
China Telecom Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Telecom Corp Ltd filed Critical China Telecom Corp Ltd
Priority to CN201811617971.5A priority Critical patent/CN109727598A/zh
Publication of CN109727598A publication Critical patent/CN109727598A/zh
Pending legal-status Critical Current

Links

Abstract

本发明涉及大噪音语境下的意图识别。提供了一种用于在电信客服服务中基于用户通话来识别用户意图的方法,包括:接收用户的通话数据,并将用户的通话数据转换为文本数据;对所述文本数据进行噪音预处理,得到去噪文本数据;以及利用分析规则对所述去噪文本数据进行分析,从而识别出用户意图。

Description

大噪音语境下的意图识别方法
技术领域
本发明涉及数据挖掘与自然语言处理领域,具体地,本发明涉及大噪音语境下的意图识别。
背景技术
随着互联网的快速发展,在线客户行业在日常生活中扮演着越来越重要的角色,其日拨打量日益增高。但是,传统的客服服务人员服务水平参差不齐,培训经验有限,对业务可能不够熟悉,不能快速的理解用户的意图,导致处理业务速度缓慢,以致浪费时间,给用户造成困扰。另外,语音转文本的质量可能不佳,可能存在错别字、错误的标点符号以及错误的词汇识别。这些都会导致客服服务低效又不准确
因此,需要有效提高每通话务的处理速度和质量。
发明内容
本发明的一个目的是提供一种在电信客服服务中基于用户通话来识别用户意图的方法和系统,以精准地识别用户的意图。
根据本公开的第一方面,提供了一种用于在电信客服服务中基于用户通话来识别用户意图的方法,包括:接收用户的通话数据,并将用户的通话数据转换为文本数据;对所述文本数据进行噪音预处理,得到去噪文本数据;以及利用分析规则对所述去噪文本数据进行分析,从而识别出用户意图。
根据本公开的第二方面,提供了一种用于在电信客服服务中基于用户通话来识别用户意图的系统,包括:用于接收用户的通话数据并将用户的通话数据转换为文本数据的装置;用于对所述文本数据进行噪音预处理以得到去噪文本数据的装置;以及用于利用分析规则对所述去噪文本数据进行分析,从而识别出用户意图的装置。
根据本公开的第三方面,提供了一种计算机系统,包括:一个或更多个处理器;以及一个或更多个存储器,被配置为存储一系列计算机可执行指令,其中所述一系列计算机可执行指令在由所述一个或更多个处理器运行时使得所述一个或更多个处理器执行根据权利要求1-10中的任意一项所述的方法。
根据本公开的第四方面,提供了一种计算机可读介质,其上存储有计算机可执行指令,所述计算机可执行指令在由一个或更多个处理器运行时使得所述一个或更多个处理器执行根据权利要求1-10中的任意一项所述的方法。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得更为清楚。
附图说明
所包括的附图用于说明性目的,并且仅用于提供本文所公开的发明性装置以及将其应用到计算设备的方法的可能结构和布置的示例。这些附图绝不限制本领域的技术人员在不脱离实施方案的实质和范围的前提下可对实施方案进行的在形式和细节方面的任何更改。所述实施方案通过下面结合附图的具体描述将更易于理解,其中类似的附图标记表示类似的结构元件。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1例示出了根据本公开的示例性实施例的电信客服服务的场景的示意图;
图2例示出了根据本公开的示例性实施例的用于在电信客服服务中基于用户通话来识别用户意图的第一示例的流程图;
图3例示出了根据本公开的示例性实施例的对文本数据进行噪音预处理的流程图;
图4例示出了根据本公开的示例性实施例的对文本数据进行分词的结果的示意图;
图5例示出了根据本公开的示例性实施例的话术正则库的示意图;
图6例示出了根据本公开的示例性实施例的利用意图识别模型进行意图识别的流程图;
图7示出了根据本公开的示例性实施例的对置信度进行排序并输出其中置信度最高的意图的示意图;
图8例示出了根据本公开的示例性实施例的用于在电信客服服务中基于用户通话来识别用户意图的第二示例的流程图;
图9示出了根据本公开的示例性实施例的用于在电信客服服务中基于用户通话来识别用户意图的系统的框图。
具体实施方式
在客服服务中,需要计算设备来进行语音识别以提高客服人员的服务质量和效率。很多时候,用户与客服人员之间的通话会受到外界噪音的影响而质量较差,并且用户在通话中可能使用方言,用户也可能会错误发音,因此通话转化得到的文本质量往往较低,减慢了客服人员服务的速度。另外,自然语言文本和对话广泛存在各种各样的歧义或多义性,如果不加以相应处理,容易造成语音识别不准确。
因此,为了在上述大噪音语境下实现精准的意图识别,本发明提出了用于在电信客服服务中基于用户通话来识别用户意图的方法和系统,协助客服人员有效解决客户的疑问,缩短了客服人员与用户的沟通时间,提高了意图识别的效率和准确度。
下面将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
在本部分中提供了根据本文所述实施方案的装置和方法的代表性应用。提供这些示例仅是为了添加上下文并有助于理解所述实施方案。对于本领域的技术人员因此将显而易见的是,本发明所述的实施方案可在不具有这些具体细节中的一些或全部的情况下实施。在其它情况下,未详细描述熟知的工艺步骤,以便避免不必要地模糊本发明所述的实施方案。其它应用也是可能的,使得以下示例不应视为是限制性的。
为了更全面、清楚地理解本发明,下面将结合附图来阐述根据本公开的新颖的技术。
图1例示出了根据本公开的示例性实施例的电信客服服务的场景的示意图。如图1所示,用户110通过用户接入平台120发出通话请求。用户110的通话请求经由通信网络130到达客服平台140,客服平台140接收用户110的通话请求,从而客服人员150与用户110进行通信。客服人员150利用客服平台140,基于用户110的通话数据来识别用户110的意图,从而快速处理用户110的需求。
用户接入平台120能够使用户110接入通信网络130,用户接入平台120与客服平台140交换通话数据,从而用户110与客服人员150实现通信。用户接入平台120的示例包括但不局限于手机、座机、微信、台式计算机、膝上型计算机、平板计算机或任何其他能够支持用户110与客服平台140之间的通信的设备。用户接入平台120可以包括各种用户输入和输出设备,包括但不限于扬声器、麦克风、摄像头、键盘、显示屏等。
通信网络130可以帮助发送和接收通话请求、通话数据、指令信号、应答信号等,使得用户110和客服人员150能够进行交互。通信网络130可以包括但不限于蜂窝电话网络、无线网、互联网、局域网、广域网等或其任意组合。
客服平台140帮助客服人员与用户110进行通信,并且帮助客服人员150快速地理解用户110的意图。客服平台140包括但不限于中央处理器、服务器、存储器、通信接口等。容易理解,客服平台140可以为台式计算机、膝上型计算机、平板计算机等任何可以进行通信和意图识别处理的设备或其任意组合。
图2例示出了根据本公开的示例性实施例的用于在电信客服服务中基于用户通话来识别用户意图的第一示例的流程图。根据本实施例,用户发出通话请求,随后客服人员接收通话请求并且通话建立。在步骤S201中,客服平台接收用户的通话数据,并将接收到的用户的通话数据转换为文本数据。接下来,在步骤S202中,客服平台对文本数据进行噪音预处理,从而得到去噪文本数据。然后,在步骤S203中,客服平台选择要使用的分析规则。在步骤S204和S205中,客服平台利用选出的分析规则对所得到的去噪文本数据进行分析,从而识别出用户意图。最后,在步骤S206中,客服平台将识别出的意图输出给客服人员。
具体地,图3例示出了根据本公开的示例性实施例的对文本数据进行噪音预处理的流程图。根据本实施例,在步骤S310中,客服平台利用专业词库,将文本数据分词为由多个词组成的词序列。
作为示例,图4例示出了根据本公开的示例性实施例的对文本数据进行分词的结果的示意图。如图4中所示,以用户询问的通话转换得到的文本数据为“你好,我问一下,我昨天不是充了两次话费,第一次50,第二次60,怎么还没到账”为例。
在未利用专业词库的情况下,分词后的词序列为:
“你好/我/问/一下/,/我/昨天/不是/充了/两次/话费/,/第一次/50/第二次/60/怎么/还/没到/账”;
在利用了专业词库的情况下,分词后的词序列为:
“你好/我/问一下/我/昨天/不是/充了/两次/话费/,/第一次/50/第二次/60/怎么/还没/到账”。
其中,“/”表示将两个词语分隔开。可以看出,在利用了专业词库的情况下,专业词汇“问一下”和“到账”被加入分词结果中,分词结果更容易凸显出用户的意图。
根据本实施例,在步骤S320中,客服平台去除词序列中的噪音数据。词序列中的噪音数据包括但不限于“;”、“,”、“[”等由于语音转换过程中的错误生成的符号和乱码。
接下来,在步骤S330中,客服平台利用专业词库、同义词库和错词库,将去除噪音数据后的词序列中的同义词和错词替换为专业词汇。例如,将错词“199套装”替换为“199套餐”,将“无限流量套餐”替换为同义词“199无限量套餐”。按照上述方式,经过噪音预处理的文本数据更加规范,有利于后续的匹配和分析。
根据本实施例,其中专业词库、同义词库和错词库是预先构建的,并收录实时新词。专业词库中存储有多个专业词汇,这些专业词汇包括但不限于人工录入的词汇、使用自定义词典收录的实时热度高的新词。自定义词典由历史通话中新出现的名词构成。在电信领域中,每天都会出现各种各样的新词,这些新词由于之前未收录到词库中,可能会导致语义错误,因此收录新词十分重要。通过不断将新出现的名词录入自定义词典,并将其加入专业词库,能够使分词结果更加准确。
根据本实施例,构建同义词库即对表达意思相近的词汇进行整理。在电信领域中,由于口语的通俗化,比如“199套餐”、“无限量套餐”、“199卡”、“199元无限量套餐”等实际上都是指向同一个套餐。因此,将这些词汇与和其含义最相近的专业词汇相关联并记录在同义词库中,从而有利于后期的处理。与专业词库类似,同义词库也不断收录新出现的同义词,从而提高分词结果的准确度。
根据本实施例,构建错词库即对将通话数据转为文本数据后存在的错误词汇进行整理。由于当今语音识别技术并不是十分完善,并且存在用户口语发音不标准、方言等问题,这些对语音识别准确率造成不利影响。例如,当用户想要表达“199套餐”时,由于口语发音不标准等问题,通话数据可能被转换为“199投产”。根据本实施例,将这些错词与和其相似的专业词汇相关联并记录在错词库中,从而也有利于后期的处理。与专业词库类似,错词库也不断收录新出现的错词,从而提高分词结果的准确度。
下面,介绍客服平台选择分析规则来对去噪文本数据进行匹配,例如话术正则库规则或意图识别模型规则,等等。虽然这里仅示出了话术正则库规则和意图识别模型分析规则,但是分析规则不限于此,应当理解分析规则还包括其他任意能够进行意图识别的规则。另外,也应当理解,虽然这里仅例示出了在话术正则库规则和意图识别模型分析规则中任选一种分析规则的示例,但是本公开的一些实施例也可以直接单独使用一种分析规则来进行意图分析,而不需要选择要使用的分析规则。
图5例示出了根据本公开的示例性实施例的话术正则库的示意图。具体地,根据本实施例,将去噪文本数据与话术正则库中的正则表达式进行匹配。其中,话术正则库是根据用户的表意习惯预先构建的,在话术正则库中标准文本数据与用户意图相对应。话术正则库是对标准文本数据进行规则模版整理从而构建成的话术模版库。话术正则库中包含有多个正则表达式,若用户的去噪文本数据与正则表达式相匹配,则能够精确地判断该用户的意图。
在图5中,作为示例,示出了各个意图与正则表达式的对应关系。具体地,例如,当噪音预处理后的去噪文本数据为“帮我查工号是谁”或“给我查班务是谁”时,则匹配得到意图“查询基本信息”。例如,当噪音预处理后的去噪文本数据为“尽快更改套餐”时,则匹配得到意图“咨询改套餐”。
另外,根据本实施例,若利用所述话术正则库匹配出意图,则还可以将被分析的去噪文本数据与匹配出的意图对应地存储到话术正则库中,从而不断丰富话术正则库,提高以后进行意图识别的准确度。
下面,详细描述利用下述意图识别模型规则对去噪文本数据进行意图识别。根据该实施例,意图识别模型是基于多个先前用户的通话数据得到的。具体而言,首先,将多个先前用户的通话数据转换为文本语料数据,并分别标注相应的意图,具体格式示例如下:
##intent:查询充缴记录
-我想问一下,我这个套餐是昨天办的,他说有200块钱返给我,你帮我看一下有没有到账?
-我那个是刚才是不是手机又充进去了200块钱
….
##intent:流量扣费疑义
-上网费怎么这么多呢?能不能看下主要是什么用的比较多。
-你好,我想问一下,我这个流量为什么会超了500多兆啊?
…..
在以上示例格式中,##intent表示意图,意图下面的是对应于该意图的文本语料数据。例如,文本语料数据“上网费怎么这么多呢?能不能看下主要是什么用的比较多。”和“你好,我想问一下,我这个流量为什么会超了500多兆啊?”都表达了“流量扣费疑义”的意图。
在为文本语料数据标注好相应的意图之后,对文本语料数据进行噪音预处理,得到去噪文本语料数据。其中,对文本语料数据进行噪音预处理与上述噪音预处理S202的过程类似,因此在此省略其描述。噪音预处理降低了噪音对意图识别模型的不利影响。例如,文本语料数据“你好,我想问一下,我这个流量为什么会超了500多兆啊?”经过噪音预处理后得到去噪文本语料数据“你好/我想/问一下/我/这个/流量/为什么/会/超了/500多兆/啊”。
接下来,将去噪文本语料数据转换为多个语料句子向量,其中每个语料句子向量由多个语料词向量构成,以便由计算机进行后续处理。例如,上述去噪文本语料数据中的语料词“你好”、“我想”等各自对应于一个语料词向量,该去噪文本语料数据中的所有语料词对应的语料词向量组成一个语料句子向量。
接下来,为各个语料词向量设置相应的权重,从而构建出意图识别模型。
作为设置权重的示例,可以为各个语料词向量设置相应的分值。例如,可以根据词性不同,对不同词性的词汇设置不同的分值,例如为专业名词设置3分,为名词设置2分,为动词设置1分,为其他词设置0.5分。例如,可以为“流量”设置3分,为“超了”设置1分。应当理解,也可以根据其他赋分规则为词向量设置分值。
作为设置权重的另一个示例,也可以计算各个语料词向量对应于各个意图的概率。例如,可以统计出一个语料词向量对应于所有意图出现的总次数以及对应于各个意图出现的次数,将对应于一个意图的出现次数除以总出现次数,得到的比值即为该语料词向量对应于一个意图的概率。例如,若语料词“流量”对应的语料词向量的总出现次数为10,对应于意图“流量扣费疑义”的次数为2,则“流量”对应的语料词向量对应于意图“流量扣费疑义”的概率为0.2。
此外,意图识别模型并不限于通过以上方式构建出的模型,也可以采用Rasa自然语言分析规则,构建Rasa意图识别模型。
如此,可以利用构建好的意图识别模型对去噪文本数据进行意图识别。图6例示出了根据本公开的示例性实施例的利用意图识别模型进行意图识别的流程图。根据本实施例,首先,在步骤S610中,将由当前用户通话数据得到的去噪文本数据转换为由多个词向量构成的句子向量,以便于后续计算处理。接下来,在步骤S620中,将该句子向量中的多个词向量与意图识别模型中的多个语料词向量进行匹配。随后,在步骤S630中,利用匹配出的语料词向量对应的权重计算出该句子向量对应于各个意图的置信度,所述权重包括但不限于分值、概率,等等。然后,在步骤S640中,对对应于意图的置信度进行排序。最后,在步骤S650中,输出其中置信度最高的意图。
下面,根据具体例子阐述利用意图识别模型进行意图识别的过程。以去噪文本数据为“你好/我/的/流量/怎么/超了/500多兆”为例,其意图识别过程如下。
例如,在利用分值计算置信度的情况下,将该去噪文本数据中的词向量与作为语料的各个语料句子向量中的词向量分别进行匹配。例如,将去噪文本数据“你好/我/的/流量/怎么/超了/500多兆”中的各个词对应的词向量与去噪文本语料数据“你好/我想/问一下/我/这个/流量/为什么/会/超了/500多兆/啊”对应的语料句子向量中的语料词向量进行匹配。
根据上述所例示的分值分配规则,该去噪文本数据和去噪语料文本数据的分值分配如表1中所示。
在表1中,去噪语料文本数据中的各个语料词预先被分配了相应的分值。去噪文本数据中与去噪语料文本数据匹配的词被赋予了相同的分值,例如“你好”被赋予0.5分,“流量”被赋予3分。未匹配到的词则设置为0分,例如“的”、“怎么”。
表1
计算出该去噪文本数据的总分为9.5分,该语料句子序列的总分为13分,其比值0.93076923即为两个句子的匹配度(即,置信度)。换言之,去噪文本数据“你好/我/的/流量/怎么/超了/500多兆”对应于意图“流量扣费疑义”的置信度为0.93076923。
替代地,在利用概率计算置信度的情况下,预先计算并存储了各个语料词向量对应于各个意图的概率。将该去噪文本数据中的各个词对应的词向量与各个语料词向量进行匹配,然后计算该去噪文本数据对应于各个意图的概率。
例如,假定语料句子序列“你好/我想/问一下/我/这个/流量/为什么/会/超了/500多兆/啊”中的各个语料词对应的语料词向量对应于意图“流量扣费疑义”的概率如表2所示
你好 我想 问一下 这个 流量
流量扣费疑义 0.0001 0.0001 0.0002 0.0002 0.00003 0.3
为什么 超了 500多兆
流量扣费疑义 0.02 0.0002 0.2 0.05 0.00001
表2
将去噪文本数据“你好/我/的/流量/怎么/超了/500多兆”中的各个词对应的词向量与该去噪语料文本数据中的各个词对应的词向量进行匹配,对所匹配的词对应的概率求和,即0.0001+0.0002+0.3+0.2+0.05=0.5503。语料句子序列“你好/我想/问一下/我/这个/流量/为什么/会/超了/500多兆/啊”中的各个语料词对应的语料词向量的概率之和为0.57084。该去噪文本数据对应的概率与该去噪语料文本数据的概率的比值为0.96401794。这样,得到该去噪文本数据对应于意图“流量扣费疑义”的置信度为0.96401794。
按照上述方式,依次计算出去噪文本数据对应于各个去噪语料文本数据的分值或者概率。利用计算出的分值或获取的概率计算出该去噪文本数据对应于各个意图的置信度,对所得到的置信度进行排序。
之后,根据本实施例,输出通过话术正则库匹配出的意图或者利用意图识别模型得到的置信度最高的意图作为该去噪文本数据对应的意图。如图7中所示,当文本数据为“你好,我的流量怎么超了500多兆?”时,利用意图识别模型得到意图“流量扣费疑义”是置信度最高的意图,将其排在第一位并输出。
根据本实施例,若利用意图识别模型识别出意图,则还可以将当前用户通话所对应的去噪文本数据与该识别出的意图对应地存储作为用于训练意图识别模型的去噪文本语料数据,从而丰富意图识别模型中的去噪文本语料数据,提高意图识别的准确度。
通过上述方式,利用话术正则库和意图识别模型规则,在大噪音语境下能够实现精准的意图识别,协助客服人员有效解决客户的疑问,缩短了客服人员与用户的沟通时间,提高了意图识别的效率和准确度。
另外,为了进一步提高意图识别的效率和准确度,可以将话术正则库规则和意图识别模型规则结合来进行意图识别。
图8例示出了根据本公开的示例性实施例的用于在电信客服服务中基于用户通话来识别用户意图的第二示例的流程图。如图8中所示,在步骤S801中,客服平台接收用户的通话数据,并将其转换为文本数据。在步骤S802中,客服平台对该文本数据进行噪音预处理,得到去噪文本数据。在步骤S803中,利用话术正则库对去噪文本数据进行匹配。在步骤S804中,判定话术正则库匹配是否成功。若匹配成功,则进入步骤S806,输出所匹配出的意图。若匹配失败,则进入步骤S805,利用意图识别模型对去噪文本数据进行意图识别,然后进入步骤S806,输出所识别出的意图。其中,图8中与图2中的步骤所包含的处理的具体细节相似,因此在此省略其具体描述。
通过这种方式,不但发挥了话术正则库识别精准的优点,并且利用意图识别模型弥补了话术正则库可能无法涵盖所有可能性的不足,对于比较口语化之类不规范的文本数据也能够精准地进行意图识别,进一步减少了客服人员与客户沟通的时间,提高了意图识别的效率和准确度。
作为本公开的变型例,在利用话术正则库匹配失败时,客服平台还可以将去噪文本数据中的词与话术正则库的各个正则表达式中的词进行匹配,找出匹配度较高的若干个正则表达式,并以语音形式自动向用户询问用户想问的是否是这些正则表达式中的一项,并提示用户如果是的话则复述其所需的服务对应的正则表达式,客服平台根据用户所讲出的正则表达式便可以精准确定意图,此外也提示用户如果不是的话则讲出“不是”,并且客服平台继续利用意图识别模型来进行意图识别。替代地,也可以提示用户输入不同按键来选择这些正则表达式中的一个或者做出否定回答。以这种方式,可以进一步加快意图识别的速度,缩短客服人员与用户的沟通时间。
图9示出了根据本公开的示例性实施例的用于在电信客服服务中基于用户通话来识别用户意图的系统的框图。系统900是可以应用本发明的上述方面的硬件设备的实例。系统900可以是被配置为执行处理和/或计算的任何机器。系统900可以是但不限制于工作站、服务器、台式计算机、膝上型计算机、平板计算机、个人数据助手(PDA)、智能电话、车载计算机或以上组合。
如图9所示,系统900可以包括可能经由一个或多个接口与总线960连接或通信的一个或多个元件。总线960可以包括但不限于,工业标准架构(Industry StandardArchitecture,ISA)总线、微通道架构(Micro Channel Architecture,MCA)总线、增强ISA(EISA)总线、视频电子标准协会(VESA)局部总线、以及外设组件互连(PCI)总线等。系统900可以包括例如一个或多个处理器910。一个或多个处理器910可以是任何种类的处理器,并且可以包括但不限于一个或多个通用处理器或专用处理器(诸如专用处理芯片),例如中央处理器、控制器、微控制器、微处理器或其他数据处理芯片。
系统900还可以包括或被连接至一个或多个存储器920,存储器920可以是任何可以实现数据存储的存储设备,并且可以包括但不限于盘驱动器、光存储设备、固态存储器、软盘、柔性盘、硬盘、磁带或任何其他磁性介质、压缩盘或任何其他光学介质、缓存存储器和/或任何其他存储芯片或模块、和/或计算机可以从其中读取数据、指令和/或代码的其他任何介质。系统900还可以包括随机存取存储器(RAM)和只读存储器(ROM)。ROM可以以非易失性方式存储待执行的程序、实用程序或进程。RAM可提供易失性数据存储,并存储与系统900的操作相关的指令。存储器920存储有专业词库、同义词库、错词库、通话数据、话术正则库、意图识别模型等。
系统900还可以包括一个或多个输入设备930和输出设备940。输入设备930可以是能够向计算设备输入信息的任何类型的输入设备,并且可以包括但不限于鼠标、键盘、触摸屏、麦克风和/或远程控制器。输出设备940可以是能够呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。
系统900还可包括一个或多个通信接口950。通信接口950可以是能够启用与外部装置和/或网络通信的任何种类的设备或系统,并且可以包括但不限于调制解调器、网络卡、红外线通信设备、无线通信设备和/或芯片集(诸如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设施等)。
可单独地或以任何组合方式来使用前述实施方案的各个方面、实施方案、具体实施或特征。可由软件、硬件或硬件与软件的组合来实现前述实施方案的各个方面。
例如,前述实施方案可体现为计算机可读介质上的计算机可读代码。计算机可读介质为可存储数据的任何数据存储设备,所述数据其后可由计算机系统读取。计算机可读介质的示例包括只读存储器、随机存取存储器、CD-ROM、DVD、磁带、硬盘驱动器、固态驱动器和光学数据存储设备。计算机可读介质还可分布在网络耦接的计算机系统中使得计算机可读代码以分布式方式来存储和执行。
例如,前述实施方案可采用硬件电路的形式。硬件电路可以包括组合式逻辑电路、时钟存储设备(诸如软盘、触发器、锁存器等)、有限状态机、诸如静态随机存取存储器或嵌入式动态随机存取存储器的存储器、定制设计电路、可编程逻辑阵列等的任意组合。
在一个实施方案中,可以通过用诸如Verilog或VHDL的硬件描述语言(HDL)编码电路描述来实现根据本公开的硬件电路。可以针对给定集成电路制造技术设计的单元库合成HDL描述,并可以出于定时、功率和其他原因修改,以获得最终的设计数据库,可以将最终的设计数据库传输到工厂以通过半导体制造系统生产集成电路。半导体制造系统可通过(例如在可包括掩膜的晶片上)沉积半导体材料、移除材料、改变所沉积材料的形状、(例如通过掺杂材料或利用紫外处理修改介电常数)对材料改性等等来生产集成电路。集成电路可以包括晶体管并还可以包括其他电路元件(例如,诸如电容器、电阻器、电感器等无源元件)以及晶体管和电路元件之间的互连。一些实施方案可以实现耦接在一起的多个集成电路,以实现硬件电路,和/或可以在一些实施方案中使用离散元件。
虽然已通过示例详细展示了本发明的一些具体实施例,但是本领域技术人员应当理解,上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解,上述实施例可以在不脱离本发明的范围和实质的情况下被修改。本发明的范围是通过所附的权利要求限定的。

Claims (22)

1.一种用于在电信客服服务中基于用户通话来识别用户意图的方法,包括:
接收用户的通话数据,并将用户的通话数据转换为文本数据;
对所述文本数据进行噪音预处理,得到去噪文本数据;以及
利用分析规则对所述去噪文本数据进行分析,从而识别出用户意图。
2.根据权利要求1所述的方法,其中噪音预处理包括:
利用专业词库,将所述文本数据分词为由多个词组成的词序列;
去除所述词序列中的噪音数据;以及
利用专业词库、同义词库和错词库,将去除噪音数据后的词序列中的同义词和错词替换为专业词汇。
3.根据权利要求2所述的方法,其中
所述专业词库、同义词库和错词库是预先构建的,并收录实时新词;并且
所述专业词库存储有多个专业词汇,所述同义词库存储有多个与专业词汇相关联的近义词,所述错词库中存储有多个与专业词汇相似的错词。
4.根据权利要求1所述的方法,其中所述分析规则包括话术正则库规则或意图识别模型规则,其中利用分析规则对去噪文本数据进行分析包括以下两项中的一项:
将去噪文本数据与所述话术正则库中的正则表达式进行匹配,若匹配成功则输出对应的意图;以及
利用意图识别模型对去噪文本数据进行意图识别。
5.根据权利要求1所述的方法,其中所述分析规则包括话术正则库规则和意图识别模型规则,其中利用分析规则对去噪文本数据进行分析包括:
将去噪文本数据与所述话术正则库中的正则表达式进行匹配;
若匹配成功,则输出对应的意图;以及
若匹配不成功,则利用意图识别模型对去噪文本数据进行意图识别。
6.根据权利要求4或5所述的方法,其中
根据用户的表意习惯,预先构建标准文本数据与用户意图相对应的话术正则库;和/或
若利用所述话术正则库匹配出意图,则将所述去噪文本数据与该匹配出的意图对应地存储到话术正则库中。
7.根据权利要求4或5所述的方法,其中
基于多个先前用户的通话数据得到意图识别模型;和/或
若利用意图识别模型识别出意图,则将所述去噪文本数据与该识别出的意图对应地存储作为用于训练意图识别模型的去噪文本语料数据。
8.根据权利要求4或5所述的方法,其中利用意图识别模型对去噪文本数据进行意图识别包括:
将所述去噪文本数据转换为由多个词向量构成的句子向量;
将所述句子向量中的多个词向量与意图识别模型中的多个语料词向量进行匹配;以及
利用匹配出的语料词向量对应的权重计算出该句子向量对应于各个意图的置信度,对置信度进行排序并输出其中置信度最高的意图。
9.根据权利要求7所述的方法,其中基于多个先前用户的通话数据得到意图识别模型包括:
将多个先前用户的通话数据转换为文本语料数据,并分别标注相应的意图;
对文本语料数据进行噪音预处理,得到去噪文本语料数据;
将去噪文本语料数据转换为由多个语料词向量构成的多个语料句子向量;以及
为各个语料词向量设置相应的权重。
10.根据权利要求4或5所述的方法,其中
所述意图识别模型规则包括rasa自然语言分析规则。
11.一种用于在电信客服服务中基于用户通话来识别用户意图的系统,包括:
用于接收用户的通话数据并将用户的通话数据转换为文本数据的装置;
用于对所述文本数据进行噪音预处理以得到去噪文本数据的装置;以及
用于利用分析规则对所述去噪文本数据进行分析,从而识别出用户意图的装置。
12.根据权利要求11所述的系统,其中用于噪音预处理的装置包括:
用于利用专业词库,将所述文本数据分词为由多个词组成的词序列的装置;
用于去除所述词序列中的噪音数据的装置;以及
用于利用专业词库、同义词库和错词库,将去除噪音数据后的词序列中的同义词和错词替换为专业词汇的装置。
13.根据权利要求12所述的系统,其中
所述专业词库、同义词库和错词库是预先构建的,并收录实时新词;并且
所述专业词库存储有多个专业词汇,所述同义词库存储有多个与专业词汇相关联的近义词,所述错词库中存储有多个与专业词汇相似的错词。
14.根据权利要求11所述的系统,其中所述分析规则包括话术正则库规则或意图识别模型规则,其中用于利用分析规则对去噪文本数据进行分析的装置包括以下两项中的一项:
用于将去噪文本数据与所述话术正则库中的正则表达式进行匹配,若匹配成功则输出对应的意图的装置;以及
用于利用意图识别模型对去噪文本数据进行意图识别的装置。
15.根据权利要求11所述的系统,其中所述分析规则包括话术正则库规则和意图识别模型规则,其中用于利用分析规则对去噪文本数据进行分析的装置包括:
用于将去噪文本数据与所述话术正则库中的正则表达式进行匹配的装置;
若匹配成功,则输出对应的意图的装置;以及
若匹配不成功,则利用意图识别模型对去噪文本数据进行意图识别的装置。
16.根据权利要求14或15所述的系统,还包括:
根据用户的表意习惯预先构建的话术正则库,在所述话术正则库中存储有相对应的标准文本数据和用户意图;和/或
若利用所述话术正则库匹配出意图,则将所述去噪文本数据与该匹配出的意图对应地存储到话术正则库中的装置。
17.根据权利要求14或15所述的系统,还包括:
意图识别模型,所述意图识别模型基于多个先前用户的通话数据而得到;和/或
若利用意图识别模型识别出意图,则将所述去噪文本数据与该识别出的意图对应地存储作为用于训练意图识别模型的去噪文本语料数据的装置。
18.根据权利要求14或15所述的系统,其中用于利用意图识别模型对去噪文本数据进行意图识别的装置包括:
用于将所述去噪文本数据转换为由多个词向量构成的句子向量的装置;
用于将所述句子向量中的多个词向量与意图识别模型中的多个语料词向量进行匹配的装置;以及
用于利用匹配出的语料词向量对应的权重计算出该句子向量对应于各个意图的置信度,对置信度进行排序并输出其中置信度最高的意图的装置。
19.根据权利要求17所述的系统,还包括:
用于将多个先前用户的通话数据转换为文本语料数据,并分别标注相应的意图的装置;
用于对文本语料数据进行噪音预处理,得到去噪文本语料数据的装置;
用于将去噪文本语料数据转换为由多个语料词向量构成的多个语料句子向量的装置;以及
用于为各个语料词向量设置相应的权重的装置。
20.根据权利要求14或15所述的系统,其中
所述意图识别模型规则包括rasa自然语言分析规则。
21.一种计算机系统,包括:
一个或更多个处理器;以及
一个或更多个存储器,被配置为存储一系列计算机可执行指令,
其中所述一系列计算机可执行指令在由所述一个或更多个处理器运行时使得所述一个或更多个处理器执行根据权利要求1-10中的任意一项所述的方法。
22.一种计算机可读介质,其上存储有计算机可执行指令,所述计算机可执行指令在由一个或更多个处理器运行时使得所述一个或更多个处理器执行根据权利要求1-10中的任意一项所述的方法。
CN201811617971.5A 2018-12-28 2018-12-28 大噪音语境下的意图识别方法 Pending CN109727598A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811617971.5A CN109727598A (zh) 2018-12-28 2018-12-28 大噪音语境下的意图识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811617971.5A CN109727598A (zh) 2018-12-28 2018-12-28 大噪音语境下的意图识别方法

Publications (1)

Publication Number Publication Date
CN109727598A true CN109727598A (zh) 2019-05-07

Family

ID=66297391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811617971.5A Pending CN109727598A (zh) 2018-12-28 2018-12-28 大噪音语境下的意图识别方法

Country Status (1)

Country Link
CN (1) CN109727598A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110266899A (zh) * 2019-06-11 2019-09-20 平安科技(深圳)有限公司 客户意图的识别方法和客服系统
CN110459224A (zh) * 2019-07-31 2019-11-15 北京百度网讯科技有限公司 语音识别结果处理方法、装置、计算机设备及存储介质
CN110874394A (zh) * 2019-10-12 2020-03-10 中国平安财产保险股份有限公司 智能答疑方法、电子装置及存储介质
CN111027667A (zh) * 2019-12-06 2020-04-17 北京金山安全软件有限公司 意图类别的识别方法和装置
CN111554293A (zh) * 2020-03-17 2020-08-18 深圳市奥拓电子股份有限公司 语音识别中噪音的过滤方法、装置、介质及对话机器人
CN111737436A (zh) * 2020-06-24 2020-10-02 网易(杭州)网络有限公司 语料的意图识别方法及装置、电子设备、存储介质
CN112037792A (zh) * 2020-08-20 2020-12-04 北京字节跳动网络技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN113053359A (zh) * 2019-12-27 2021-06-29 深圳Tcl数字技术有限公司 一种语音识别方法、智能终端及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838713A (zh) * 2014-03-27 2014-06-04 王峥嵘 一种基于正则表达式的语义分析方法
CN105095186A (zh) * 2015-07-28 2015-11-25 百度在线网络技术(北京)有限公司 语义解析方法和装置
US20160210963A1 (en) * 2015-01-19 2016-07-21 Ncsoft Corporation Methods and systems for determining ranking of dialogue sticker based on situation and preference information
CN107193865A (zh) * 2017-04-06 2017-09-22 上海奔影网络科技有限公司 人机交互中自然语言意图理解方法及装置
CN107688667A (zh) * 2017-09-30 2018-02-13 平安科技(深圳)有限公司 智能机器人客服方法、电子装置及计算机可读存储介质
CN108334891A (zh) * 2017-12-15 2018-07-27 北京奇艺世纪科技有限公司 一种任务型意图分类方法及装置
CN108446286A (zh) * 2017-02-16 2018-08-24 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN108509477A (zh) * 2017-09-30 2018-09-07 平安科技(深圳)有限公司 语义识别方法、电子装置及计算机可读存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838713A (zh) * 2014-03-27 2014-06-04 王峥嵘 一种基于正则表达式的语义分析方法
US20160210963A1 (en) * 2015-01-19 2016-07-21 Ncsoft Corporation Methods and systems for determining ranking of dialogue sticker based on situation and preference information
CN105095186A (zh) * 2015-07-28 2015-11-25 百度在线网络技术(北京)有限公司 语义解析方法和装置
CN108446286A (zh) * 2017-02-16 2018-08-24 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN107193865A (zh) * 2017-04-06 2017-09-22 上海奔影网络科技有限公司 人机交互中自然语言意图理解方法及装置
CN107688667A (zh) * 2017-09-30 2018-02-13 平安科技(深圳)有限公司 智能机器人客服方法、电子装置及计算机可读存储介质
CN108509477A (zh) * 2017-09-30 2018-09-07 平安科技(深圳)有限公司 语义识别方法、电子装置及计算机可读存储介质
CN108334891A (zh) * 2017-12-15 2018-07-27 北京奇艺世纪科技有限公司 一种任务型意图分类方法及装置

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110266899A (zh) * 2019-06-11 2019-09-20 平安科技(深圳)有限公司 客户意图的识别方法和客服系统
CN110266899B (zh) * 2019-06-11 2023-03-03 平安科技(深圳)有限公司 客户意图的识别方法和客服系统
CN110459224A (zh) * 2019-07-31 2019-11-15 北京百度网讯科技有限公司 语音识别结果处理方法、装置、计算机设备及存储介质
CN110459224B (zh) * 2019-07-31 2022-02-25 北京百度网讯科技有限公司 语音识别结果处理方法、装置、计算机设备及存储介质
CN110874394A (zh) * 2019-10-12 2020-03-10 中国平安财产保险股份有限公司 智能答疑方法、电子装置及存储介质
CN111027667A (zh) * 2019-12-06 2020-04-17 北京金山安全软件有限公司 意图类别的识别方法和装置
CN111027667B (zh) * 2019-12-06 2023-10-17 北京金山安全软件有限公司 意图类别的识别方法和装置
CN113053359A (zh) * 2019-12-27 2021-06-29 深圳Tcl数字技术有限公司 一种语音识别方法、智能终端及存储介质
CN111554293A (zh) * 2020-03-17 2020-08-18 深圳市奥拓电子股份有限公司 语音识别中噪音的过滤方法、装置、介质及对话机器人
CN111737436A (zh) * 2020-06-24 2020-10-02 网易(杭州)网络有限公司 语料的意图识别方法及装置、电子设备、存储介质
CN112037792A (zh) * 2020-08-20 2020-12-04 北京字节跳动网络技术有限公司 一种语音识别方法、装置、电子设备及存储介质
CN112037792B (zh) * 2020-08-20 2022-06-17 北京字节跳动网络技术有限公司 一种语音识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN109727598A (zh) 大噪音语境下的意图识别方法
CN109918680B (zh) 实体识别方法、装置及计算机设备
CN109408526B (zh) Sql语句生成方法、装置、计算机设备及存储介质
US20210027788A1 (en) Conversation interaction method, apparatus and computer readable storage medium
US10176804B2 (en) Analyzing textual data
CN107016994B (zh) 语音识别的方法及装置
CN110111780B (zh) 数据处理方法和服务器
US11217236B2 (en) Method and apparatus for extracting information
JP2021089705A (ja) 翻訳品質を評価するための方法と装置
CN109086303A (zh) 基于机器阅读理解的智能对话方法、装置、终端
US20210103704A1 (en) Method and Apparatus for Reordering Results of a Translation Model
EP2896039A2 (en) Improving phonetic pronunciation
US9880996B2 (en) System and method for increasing recognition rates of in-vocabulary words by improving pronunciation modeling
CN103903619A (zh) 一种提高语音识别准确率的方法及系统
CN110517668B (zh) 一种中英文混合语音识别系统及方法
CN111310441A (zh) 基于bert的语音识别后文本修正方法、装置、终端及介质
CN111462748B (zh) 语音识别处理方法、装置、电子设备及存储介质
CN111951779A (zh) 语音合成的前端处理方法及相关设备
US20190303393A1 (en) Search method and electronic device using the method
CN111126084B (zh) 数据处理方法、装置、电子设备和存储介质
CN111508466A (zh) 一种文本处理方法、装置、设备及计算机可读存储介质
US11551012B2 (en) Apparatus and method for providing personal assistant service based on automatic translation
CN107734123A (zh) 一种联系人排序方法和装置
US20100204982A1 (en) System and Method for Generating Data for Complex Statistical Modeling for use in Dialog Systems
CN109872718A (zh) 语音数据的答案获取方法及装置、存储介质、计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190507

RJ01 Rejection of invention patent application after publication