CN108874774A - 一种基于意图理解的服务调用方法和系统 - Google Patents
一种基于意图理解的服务调用方法和系统 Download PDFInfo
- Publication number
- CN108874774A CN108874774A CN201810569449.8A CN201810569449A CN108874774A CN 108874774 A CN108874774 A CN 108874774A CN 201810569449 A CN201810569449 A CN 201810569449A CN 108874774 A CN108874774 A CN 108874774A
- Authority
- CN
- China
- Prior art keywords
- entity
- type
- list
- component
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明特别涉及一种基于意图理解的服务调用方法和系统。该基于意图理解的服务调用方法,通过构建基础数据模型和处理工具,构建意图理解模型,使用意图理解模型处理用户请求,综合多种策略识别出实体,根据实体类型确定意图类型,执行服务调用。该基于意图理解的服务调用方法和系统,通过匹配用户请求文本中的实体类型序列来判定意图类型,简单、可控、自然,易于工程化实现,符合大规模应用中的流式处理需要,既提高了命名实体识别的准确率,又提高了用户请求文本中命名实体识别的召回率。
Description
技术领域
本发明涉及任务型对话系统技术领域,特别涉及一种基于意图理解的服务调用方法和系统。
背景技术
任务型对话系统可以根据用户提出的请求,完成相应的任务,如买票、订餐、购物、天气查询等,广泛应用在苹果Siri、微软Cortana、百度度秘等语音助手中。其处理流程主要包括四部分:语音识别、意图理解、对话管理、自然语言生成;其中,意图理解将用户输入的非结构化请求文本转换为结构化的语义表示,对话管理根据意图理解的结果和上下文语境等因素调用服务;由此可知,基于意图理解的服务调用是任务型对话系统的核心。
意图理解输出的结构化语义表示包括三部分:域、意图、槽;其中,域(domain)是用户请求的范围,意图(intent)是用户请求的类型,槽(slot)是刻画用户请求的实体。例如,在请求“订一张上海飞北京的头等舱,下午五点出发”中,域是“订票”、意图是“飞机”、槽是“出发地=上海、目的地=北京、时间=下午五点”。
域、意图和槽构成结构化语义的层次结构。其中,每种意图都有对应的服务程序,将“槽”中的实体转换为参数,调用服务程序即可处理用户请求。
除了切换系统外,“域”在同一个系统中通常不发生变化,所以意图理解的主要工作是意图分类和实体识别。常用方法包括下述3种:
(1)基于规则的方法
使用关键词/正则表达式匹配来判定意图类型,同时抽取实体。这种方法灵活、简单,不需要训练数据;但需要大量的规则,随着规则的增加,维度难度也随之上升。
(2)基于传统机器学习的方法
首先,在语料中标注出实体和意图类型;然后,根据实体标注结果,通过HMM、CRF等方法训练出实体识别器;随后,根据语料特征和意图类型,通过SVM、LR等传统机器学习方法生成意图分类器。该方法源于数据驱动,具有一定的泛化能力。但是该方法需要大量精确标注的语料,对于给定类型的意图而言,用户提问的方式有限,语料数量很少;任务型对话系统中的语料都是短文本,可供训练的特征不多;上述两方面影响了该方法的准确性。此外,传统机器学习程序具有“黑箱”特性,内部运行机理复杂、参数不易调整、结果可解释性较差。
(3)基于深度学习的方法
需要综合CNN、LSTM、CRF等多种方法,主要包括两部分内容,如下:
A、构建意图分类器:首先,通过词汇向量化,将语料转换为向量;然后,将意图分类视为短文本分类,使用CNN训练向量化后的语料,生成意图分类模型。
B、构建命名实体识别器:首先,通过数据预处理(分句、分词)工具处理输入语句,得到词汇特征向量;然后,使用CNN处理每个单词的字符,得到对应的字符特征向量;随后,组合词汇特征向量和字符特征向量,传入双向LSTM网络进行训练,得到输入语句的信息特征;最后,将双向LSTM输出的语句信息特征作为CRF层的输入,使用CRF模型进行训练,得到命名实体识别模型。
该方法通过两级(词汇+字符)向量化+双向LSTM的方式,获得了输入数据的信息特征,包括不同标签的概率转移矩阵,以及输入字符被标记为不同标签的概率,已经包含命名实体的标注信息,再通过最后的CRF处理,可以准确抽取出命名实体。但是,这种方法用到CNN、LSTM等神经网络模型,涉及相当复杂的数学知识,不易被普通使用者掌握;深度学习网络包含的层数和节点数极其庞大,运行速度很慢;本方法自身的“黑箱”特性导致其参数不易调整、可解释性较差。此外,任务型对话系统的语料较少,会影响深度学习的准确性。
综上所述,在任务型对话系统的意图理解中,常用方法存在步骤复杂、不易调整、解释性差等问题;此外,语料数量少也会影响这些方法的准确性。
基于上述情况,本发明设计了一种基于意图理解的服务调用方法和系统。
发明内容
本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于意图理解的服务调用方法和系统。
本发明是通过如下技术方案实现的:
一种基于意图理解的服务调用方法,其特征在于,包括以下步骤:
S1:构建基础数据模型和处理工具,包括将实体名称转换为类型名称的基于字符索引的“实体->类型”映射表,获取常见类型实体名称的常用实体解析器和基于CRF(Conditional Random Field,条件随机场)模型的中文分词和词性标注器;
S2:构建意图理解模型,包括基于CRF模型的少量语料环境下命名实体识别器和基于命名实体类型标识符的意图分类模式;
S3:使用意图理解模型处理用户请求,首先综合多种策略识别出实体,然后根据实体类型确定意图类型,最后执行服务调用。
所述步骤S1中,构建基于字符索引的“实体->类型”映射表,具体包括以下步骤:
S111:制作领域实体表,即同一类型下的实体名称列表,每种类型分别对应一张实体表;
S112:制作同义词实体网,所述同义词实体网为图形结构,图中每个结点对应一个实体,结点名称就是实体名称,不同结点的名称不同,如果两个结点表示同一个实体,则二者互为同义词,用一条边连接二者;如果所有结点互为同义词,则它们构成全连通图;
S113:构建“实体->类型”映射表,所述“实体->类型”映射表要体现1对多的关系,当同一个实体名称属于不同的类型时,采用符号“/”将对应的类型连接起来,具体构建步骤如下:
S1131:新建“实体->类型”映射表;
S1132:读取第1个同义词实体网的信息;
S1133:获取实体的类型;
S1134:访问该同义词实体网的每个结点,根据每个结点的名称构建由实体名称和实体类型构成的二元组,插入到“实体->类型”映射表;
S1135:判断同义词实体网是否读取完毕,如果没有,转步骤S1136,否则转步骤S1137;
S1136:读取下1个同义词实体网的信息,转步骤S1133;
S1137:保存“实体->类型”映射表;
S114:建立“实体->类型”映射表的字符索引;所述基于字符索引的“实体->类型”映射表,具有下述特征:
S1141:若干名称中包含相同首字符的实体构成一棵树,表示对应实体到类型的映射关系;
S1142:所有的树构成森林,实现基于字符索引的“实体->类型”映射功能;
S1143:在每棵树中,非叶结点由单个汉字构成,从根结点到叶结点前驱的路径表示实体,路径结点的名称序列是实体的名称,叶结点表示对应实体的类型,其名称是实体的类型名称;
S1144:森林和树都有方向,对任意一个非叶结点的前驱结点而言,它所有的子结点,都按照字典序在下面一层自左向右排列;
S1145:由于同一实体可能会对应多种类型,所以允许非叶结点的前驱结点有多个子节点。
所述步骤S1中,构建常用实体解析器用于识别命名实体识别器不易抽取的特殊类型实体,正则表达式如下:
中文姓名:/^([a-zA-Z0-9\u4e00-\u9fa5\·]{1,10})$/
时间:/^(20|21|22|23|[0-1]\d):[0-5]\d:[0-5]\d$/
电话:/^(0\d{2,3}[-|]?)?(\d{7,8})([-|]?\d{3,5})?$/。
所述步骤S1中,采用《现代汉语语料库加工规范—词语切分与词性标注》规范中文分词和词性标注,同时采用CRF++训练NLP(Natural Language Processing,自然语言处理)领域中的数据标注模型,构建基于CRF模型的中文分词和词性标注器;
在中文分词中,使用BEMS方式标记每个汉字字符:B表示分词开始,E表示分词结束,M表示分词中间,S表示单个分词;
在中文词性标注中,采用《现代汉语语料库加工规范—词语切分与词性标注》规定的40种词性标记,同时在词性标记前面添加分词位置标记B、E、M或S;
CRF++在训练数据标注模模型的过程中,为了得到质量较好的中文分词和词性标注模型,需要设置不同的参数进行训练,得到若干模型,选择预测性能最好的,影响模型准确性的参数包括以下两个:
A、-c:浮点型参数,默认是1,用于调节训练结果的拟合程度,数值过大会产生过拟合(在训练集上效果很好,测试集上效果很差,即泛化性很差)现象;
B、-f:整数型参数,设置参与训练特征出现的最小次数,默认是1,当数据量很大时,仅出现1次的特征数量多达百万,全部参与运算的话,会带来严重的计算成本,此时需要增大该参数;
同时,为了减少数据过拟合以及从有限数据中获取尽可能多的有效信息,对于每组f和c生成的模型,使用K折交叉验证评估其效果。
所述步骤S2中,构建基于CRF模型的少量语料环境下命名实体识别器,具体包括以下步骤:
S211:对用户请求文本进行中文分词和词性标注,生成二元组列表语料;所述二元组列表语料,具有下述特征:
S2111:每条用户请求文本对应一个二元组序列;
S2112:序列元素由分词词汇和词性组成的二元组构成;
S2113:按照用户请求文本的分词顺序排列序列元素;
S212、在二元组列表语料中标注出实体及其类型,以及对应的意图类型,生成三元组列表语料;所述三元组列表语料,具有下述特征:
S2121:每条用户请求文本对应一个三元组序列和一种意图类型;
S2122:序列元素由分词、词性和实体类型构成的三元组序列构成;
S2123:按照用户请求文本的分词顺序排列序列元素;
S2124:在处理过程中,如果用户的某个标注结果,分词后成为多个词汇,则每个词汇都需要标注该命名实体对应的类型;
S213:使用CRF++训练三元组列表语料,生成命名实体识别器;在训练过程中,不断调整参数-c和-f,得到若干命名实体识别模型,使用K折交叉验证评估模型性能,最后选择识别效果最好的。
所述步骤S2中,构建基于命名实体类型标识符的意图分类模式,所述意图分类模式是由若干[$命名实体类型名称]构成的字符串;具体包括以下步骤:
S221:新建意图分类模式列表;
S222:读取第1个三元组列表语料的信息;
S223:获取实体类型序列R1;
S224:将R1转换为字符串形式,相邻项之间用空格隔开,得到序列R2;
S225:将序列R2中标注不是“O”的项前面加上“$”,然后在首尾加上中括号,得到序列R3;
S226:剔除序列R3中标注为“O”的项,得到序列R4;
S227:判断序列R4中是否存在多个相同的相邻项,如果存在,转步骤S228,否则转步骤S229;
S228:保留序列R4中多个相同相邻项中的一项,其余相同项均删除,得到序列R5,转步骤S22A;
S229:将序列R4直接赋值给序列R5;
S22A:删除序列R5中相邻项之间的空格,得到序列R6;
S22B:检索序列R6是否已经存在于意图分类模式列表中,如果不存在,转步骤S22C,否则转步骤S22D;
S22C:将序列R6添加到意图分类模式列表中;
S22D:判断三元组列表语料是否读取完毕,如果没有,转步骤S22E,否则转步骤S22F;
S22E:读取下1个三元组列表语料的信息,转步骤S223;
S22F:保存意图分类模式列表。
所述步骤S3中,基于混合策略的实体识别,具体包括以下步骤:
S311:使用基于CRF模型的中文分词和词性标注器处理用户请求文本,得到二元组列表语料L1;
S312:使用命名实体识别器从二元组列表语料L1中抽取出实体列表E1;
S313:从二元组列表语料L1中删除和实体列表E1中实体对应的项,得到二元组列表语料L2;
S314:判断实体列表E1是否存在多个类型相同且彼此相邻的实体,如果不存在,则转步骤S315,否则转步骤S316;
S315:将实体列表E1直接赋值给实体列表E2,二元组列表语料L2直接赋值给二元组列表语料L3,转S31A;
S316:将实体列表E1中多个类型相同且彼此相邻的实体按照顺序连接为1个实体,得到实体列表E2;
S317:判断实体列表E1相邻同类型实体在二元组列表语料L1对应项之间的分词词汇是否包含虚词,如果不包含,转S318,否则转S319;
S318:将二元组列表语料L2直接赋值给二元组列表语料L3,转S31A;
S319:将二元组列表语料L2中对应的虚词项删除,得到二元组语料列表L3;
S31A:从二元组列表语料L3中获取分词词汇序列,并转换为字符串形式,得到文本D1;
S31B:使用“常用实体解析器”处理文本D1,得到实体列表E3;
S31C:从文本D1中删除实体列表E3中的实体,得到文本D2;
S31D:使用“基于字符索引的‘实体-类型’映射表”逐字符匹配文本D2,从中抽取出实体列表E4;
S31E:计算实体列表E2、E3、E4的并集,并按照实体在二元组列表语料L1中的顺序进行排列,得到实体列表UnionE=E2∪E3∪E4;
S31F:判断实体列表UnionE是否存在多个类型相同且彼此相邻的实体,如果不存在,转S31G,否则转S31H;
S31G:将UnionE直接赋值给实体列表E,转S31I;
S31H:将UnionE中多个类型相同且彼此相邻的实体按照顺序连接为1个实体,得到实体列表NonRepE;
S31I:结束并返回实体列表NonRepE。
所述步骤S3中,基于实体类型匹配的意图分类,具体包括以下步骤:
S321:将用户请求文本中对应的实体名称替换为形如“$命名实体类型名称”的标识符;
S322:判断用户请求文本是否存在对应多个类型的实体,如果不存在,转步骤S323,否则转步骤S324;
S323:将替换后的结果直接赋值给文本T1,转步骤S325;
S324:采用符号“/”将实体的多个类型名称连接起来,得到文本T1;
S325:删除文本T1中非实体名称对应的文本,得到文本T2;
S326:判断文本T2的类型标识符中是否存在符号“/”,如果不存在,转步骤S327,否则转步骤S328;
S327:将T2直接赋值给序列文本Nt1,转步骤S329;
S328:对于文本T2中包含符号“/”的每个类型标识符,按照符号“/”将其分割为多个新的类型标识符,分别替换原先的类型标识符,从而得到序列文本Nt1~Ntp;
S329:在意图分类模式列表中逐个搜索文本Nti,i=1…p;
S32A:如果p个文本的搜索结果均为空,转步骤S32E,否则转步骤S32B;
S32B:判断返回的意图类型个数q是否等于1,不等于则转步骤S32C,否则转步骤S32D;
S32C:将q个意图类型输出给用户,通过交互询问的方式确定用户的真实意图类型;
S32D:结束并返回用户的意图类型;
S32E:结束并提示意图分类失败。
所述步骤S3中,执行服务调用,具体包括以下步骤:
S331:根据意图分类结果,确定用户请求对应的服务处理程序G;
S332:根据服务处理程序G中的参数类型和顺序,从实体列表NonRepE中抽取对应实体构成列表TransE;
S333:将列表TransE作为参数传递给服务处理程序G;
S334:执行服务处理程序G,响应用户的请求。
一种基于意图理解的服务调用系统,其特征在于:包括基础数据模型和处理工具构建模块U1,意图理解模型构建模块U2和基于意图理解的用户请求处理模块U3;所述基础数据模型和处理工具构建模块U1用于生成基础数据模型和处理工具;所述意图理解模型构建模块U2用于生成意图理解模型;所述基于意图理解的用户请求处理模块U3用于分析用户请求并调用对应的服务程序;
所述基础数据模型和处理工具构建模块U1,包括基于字符索引的“实体->类型”映射表构建部件U11,常用实体解析器构建部件U12和基于CRF模型的中文分词和词性标注器构建部件U13;
所述基于字符索引的“实体->类型”映射表构建部件U11用于生成基于字符索引的“实体->类型”映射表;
所述基于字符索引的“实体->类型”映射表构建部件U11,包括领域实体表制作部件U111,同义词实体网制作部件U112,“实体->类型”映射表构建部件U113和字符->类型”映射表字符索引构建部件U114;所述领域实体表制作部件U111用于生成领域实体表;所述同义词实体网制作部件U112用于生成同义词实体网;所述“实体->类型”映射表构建部件U113用于生成“实体->类型”映射表;所述“字符->类型”映射表字符索引构建部件U114用于生成带有字符索引结构的“实体->类型”映射表。
所述常用实体解析器构建部件U12用于生成常用实体解析器;所述基于CRF模型的中文分词和词性标注器构建部件U13用于生成基于CRF模型的中文分词和词性标注器;
所述意图理解模型构建模块U2,包括基于CRF模型的少量语料环境下命名实体识别器构建部件U21和基于命名实体识别类型标识符的意图分类模式构建部件U22;
所述基于CRF模型的少量语料环境下命名实体识别器构建部件U21用于生成基于CRF模型的少量语料环境下命名实体识别器;所述基于CRF模型的少量语料环境下命名实体识别器构建部件U21,包括:二元组列表语料制作部件U211,三元组列表语料制作部件U212和命名实体识别器构建部件U213;所述二元组列表语料制作部件U211用于生成二元组列表语料;所述三元组列表语料制作部件U212用于生成三元组列表语料;所述命名实体识别器构建部件U213用于生成命名实体识别器。
基于命名实体识别类型标识符的意图分类模式构建部件U22用于生成基于命名实体识别类型标识符的意图分类模式;
所述基于意图理解的用户请求处理模块U3,包括:基于混合策略的实体识别部件U31,基于实体类型匹配的意图分类部件U32和服务调用执行部件U33;
所述基于混合策略的实体识别部件U31用于从用户请求文本中得到命名实体;所述基于混合策略的实体识别部件U31,包括基于CRF模型的命名实体识别部件U311,基于常用实体解析器的命名实体识别部件U312和基于字符索引的“实体->类型”映射表的命名实体识别部件U313;
所述基于CRF模型的命名实体识别部件U311用于使用CRF模型识别用户请求文本中的命名实体;
所述基于常用实体解析器的命名实体识别部件U312用于使用常用实体解析器识别用户请求文本中的命名实体;
所述基于字符索引的“实体->类型”映射表的命名实体识别部件U313用于使用基于字符索引的“实体->类型”映射表识别用户请求文本中的命名实体;
所述基于实体类型匹配的意图分类部件U32用于确定用户的意图类型;所述基于实体类型匹配的意图分类部件U32,包括命名实体名称替换部件U321,意图分类模式匹配部件U322和真实意图类型交互询问部件U323;
所述命名实体名称替换部件U321用户将用户请求文本转换为由若干[$命名实体类型名称]构成的字符串;
所述意图分类模式匹配部件U322用于匹配已有的意图分类模式;
所述真实意图类型交互询问部件U323用于从多种意图类型中选择出用户的真实意图类型。
所述服务调用执行部件U33用于调用服务程序处理用户请求。
本发明的有益效果是:该基于意图理解的服务调用方法和系统,通过匹配用户请求文本中的实体类型序列来判定意图类型,简单、可控、自然,易于工程化实现;在该过程中获取的实体可以供后面的服务调用使用,符合大规模应用中的流式处理需要;通过标注由分词词汇、词性和实体类型构成的三元组的方式生成高质量语料,提高了命名实体识别的准确率;对于命名实体识别器无法抽取的实体,通过“常用实体解析器”和“基于字符索引的‘实体-类型’映射表”进行获取,提高了用户请求文本中命名实体识别的召回率。
附图说明
附图1为本发明构建“实体->类型”映射表流程示意图。
附图2为本发明基于字符索引的“实体->类型”映射表局部示意图。
附图3为本发明构建基于命名实体类型标识符的意图分类模式流程示意图。
附图4为本发明基于混合策略的实体识别流程示意图。
附图5为本发明基于实体类型匹配的意图分类流程示意图。
附图6为本发明基于意图理解的服务调用系统功能模块示意图。
具体实施方式
为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本发明进行详细的说明。应当说明的是,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
该基于意图理解的服务调用方法,包括以下步骤:
S1:构建基础数据模型和处理工具;
进一步,所述步骤S1中具体包括:
S11:构建基于字符索引的“实体-类型”映射表;
进一步,所述步骤S11中具体包括:
S111:制作领域实体表;
该表是同一类型下的实体名称列表。例如:“水果”实体表元素包括:苹果、香蕉、桃子、桔子、西瓜、……。除了“水果”外,还有很多实体类型,如:职业、疾病、香烟、城市、药材……,每种类型都对应一张实体表。
S112:制作同义词实体网;
该网是图形结构,图中每个结点对应一个实体,结点名称就是实体名称,不同结点的名称不同,如果两个结点表示同一个实体,则二者互为同义词,用一条边连接二者。如果所有结点互为同义词,则它们构成全连通图。
例如:“香蕉”的同义词包括:金蕉、甘蕉、芎蕉、香牙蕉、蕉子、蕉果,则它们构成由7个结点组成的全连通图。
在水果、药材、地点等类型的实体中,由于地域、历史等原因,广泛存在同义词现象。
S113:构建“实体->类型”映射表;
进一步,所述步骤S113中具体包括:
S1131:新建“实体->类型”映射表;
S1132:读取第1个同义词实体网的信息;
S1133:获取实体的类型;
S1134:访问该同义词实体网的每个结点,根据每个结点的名称构建二元组(实体名称,实体类型),插入到“实体->类型”映射表;
S1135:判断同义词实体网是否读取完毕,如果没有,转S1136,否则转S1137;
S1136:读取下1个同义词实体网的信息,转S1133;
S1137:保存“实体->类型”映射表。
同一个实体名称,可能会属于不同的类型,例如:“黄鹤楼”既可以是景点,也可以是香烟的名称,所以该映射表要体现“1对多”的关系。典型“实体->类型”映射表如表1所示:
表1“实体->类型”映射表示例
实体 | 类型 |
苹果 | 水果 |
济南 | 城市 |
丹参 | 药材 |
黄鹤楼 | 景点/香烟 |
… | … |
在表1中,实体“黄鹤楼”对应多种类型,采用符号“/”将这些类型连接起来。
S114:建立“实体->类型”映射表的字符索引。
构建“实体->类型”映射表的作用是将用户请求文本中的实体转换为类型,但不同的实体可能会具有相同的前缀,例如:黄山、黄石、黄芪、黄鹤楼、黄飞鸿、黄飞虎,采用如表1所示的二元组序列方式存放,一方面会由于相同前缀重复存储而浪费空间,另一方面会由于相同前缀重复匹配而耗费时间,所以采用如附图2所示的字符索引映射表进行存储。
附图2所示的映射表有如下特征:
A.若干名称中包含相同首字符的实体构成一棵树,表示对应实体到类型的映射关系;
B.所有的树构成森林,实现基于字符索引的“实体->类型”映射功能;
C.在每棵树中,非叶结点由单个汉字构成,从根结点到叶结点前驱的路径表示实体,路径结点的名称序列是实体的名称,叶结点表示对应实体的类型,其名称是实体的类型名称;
D.森林和树都有方向,对任意一个非叶结点的前驱结点而言,它所有的孩子结点,都按照字典序在下面一层自左向右排列;
E.由于同一实体可能会对应多种类型,所以允许非叶结点的前驱结点有多个孩子。
S12:构建常用实体解析器;
用于识别命名实体识别器不易抽取的某些特殊类型实体,如:时间、电话、人名、邮箱等。
常用的形式是正则表达式,如下:
中文姓名:/^([a-zA-Z0-9\u4e00-\u9fa5\·]{1,10})$/
时间:/^(20|21|22|23|[0-1]\d):[0-5]\d:[0-5]\d$/
电话:/^(0\d{2,3}[-|]?)?(\d{7,8})([-|]?\d{3,5})?$/
S13:构建基于CRF模型的中文分词和词性标注器。
条件随机场(Conditional Random Field,CRF)由John Lafferty等人在2001年提出,它是一种序列标注模型,能够对输入的序列进行标注,主要用于NLP(Natural LanguageProcessing,自然语言处理)领域的分词、词性标注、命名实体识别等场景。CRF++是TakuKudo于2005年用C++实现的条件随机场开源工具,综合性能最佳;因此,本发明采用CRF++训练NLP领域中的数据标注模型。
根据权威机构(如:微软亚洲研究院、北京大学、搜狗等)公开的大量中文分词和词性标注语料,使用CRF++软件包进行训练,可以得到基于CRF模型的中文分词和词性标注器。
采用北京大学计算语言所1999年制定的《现代汉语语料库加工规范—词语切分与词性标注》规范中文分词和词性标注。在中文分词中,使用BEMS方式标记每个汉字字符,标识符包括4种:B表示分词开始,E表示分词结束、M表示分词中间、S表示单个分词。标记示例如下:
引B
进E
外B
来E
物B
种E
破B
坏E
本B
地E
的S
食B
物M
链E
和S
全B
球E
气B
候E
变S
暖S
。S
在中文词性标注中,采用《现代汉语语料库加工规范—词语切分与词性标注》规定的40种词性标记,同时在词性标记前面添加分词位置标记(B\E\M\S)。以ns(地名)为例,Bns、Ens、Mns分别标记地名词汇的开始字符、结束字符、中间字符,Sns表示单个字符构成的地名。标记示例如下:
伊Bns
拉Mns
克Ens
媒Bn
体En
报Bv
道Ev
美Sj
英Sj
军Bn
舰En
阻Bv
挠Ev
赴Sv
伊Sj
商Bn
船En
。S
CRF++在训练模型过程中,需要调节相关参数,影响模型准确性的参数主要有下述两个:
A、-c:浮点型参数,默认是1,用于调节训练结果的拟合程度,数值过大会产生过拟合(在训练集上效果很好,测试集上效果很差,即泛化性很差)现象。
B、-f:整数型参数,设置参与训练特征出现的最小次数,默认是1,当数据量很大时,仅出现1次的特征数量多达百万,全部参与运算的话,会带来严重的计算成本,此时需要增大该参数。
为了得到质量较好的中文分词和词性标注模型,需要设置不同的f和c进行训练,得到若干模型,选择预测性能最好的。为了减少数据过拟合,以及从有限数据中获取尽可能多的有效信息,对于每组f和c生成的模型,使用K折交叉验证评估其效果。
S2:构建意图理解模型;
进一步,所述步骤S2中具体包括:
S21:构建基于CRF模型的少量语料环境下命名实体识别器;
CRF模型属于序列标注模型,不同的标注方式下训练得到的模型,准确性存在差异。在任务型对话系统意图理解中,语料数量很少。通过模拟少量对话语料进行训练,通过比较5种标注方式(包括:三元组(词汇、词性、实体类型)、三元组(汉字字符、带有分词标记的词性、带有分词标记的实体类型)、三元组(汉字字符、分词标记、带有分词标记的实体类型)、二元组(汉字字符、带有分词标记的实体类型)、二元组(词汇、实体类型))的效果,发现三元组(词汇、词性、实体类型)标注的准确性最好;采用这种方式标注用户请求文本,并使用CRF++生成的命名实体识别器,可以根据词汇和其词性,推测该词汇对应的实体类型。
进一步,所述步骤S21中具体包括:
S211:对用户请求文本进行中文分词和词性标注,生成二元组列表语料;
二元组列表语料是由分词和词性构成的二元组序列。以“我想查询苹果在山东省去年下半年的销售情况?”为例,对应结果如表2所示:
表2二元组列表语料示例
分词 | 词性 |
我 | r |
想 | vd |
查询 | v |
苹果 | n |
在 | p |
山东省 | ns |
去年 | t |
下半年 | t |
的 | u |
销售 | a |
情况 | n |
? | w |
S212:在二元组列表语料中标注出实体及其类型,以及对应的意图类型,生成三元组列表语料;
命名实体的类型一般划分为7类:人名、地名、机构名、时间、日期、货币和百分比,其标记分别为:Person、Location、Organization、Time、Date、Money和Percent。在实际应用中,这种通用分类方式不易描述特定领域中的特定类别。在基于意图理解的服务调用中,所涉及任务的领域细分性很强,如票务、餐饮、食品、天气、药材等,因此本发明对这些细分类型单独定义,如:水果、景点、香烟等。此外,由于所处理文本基本是中文,为了便于实体管理,其类型名称标注为中文。
在本发明中,由分词、词性和实体类型构成的三元组序列,称为三元组列表语料;每条语料对应一种意图类型。例如:在“水果查询”域中,定义三种意图类型:水果价格、水果销量、其它,语料标注示例如下:
语料1:我想查询苹果在山东省去年下半年的销售情况?
意图类型是:水果销量,对应三元组列表语料如表3所示:
表3三元组列表语料示例1
分词 | 词性 | 实体 |
我 | r | O |
想 | vd | O |
查询 | v | O |
苹果 | n | 水果 |
在 | p | O |
山东省 | ns | 地点 |
去年 | t | 时间 |
下半年 | t | 时间 |
的 | u | O |
销售 | a | 销量 |
情况 | n | 销量 |
? | w | O |
语料2:请帮我查一下香蕉今年上半年在湖北省的售价?
意图类型是:水果价格,对应三元组列表语料如表4所示:
表4三元组列表语料示例2
分词 | 词性 | 标注 |
请 | vd | O |
帮 | v | O |
我 | r | O |
查 | v | O |
一下 | d | O |
香蕉 | n | 水果 |
今年 | t | 时间 |
上半年 | t | 时间 |
在 | p | O |
湖北省 | ns | 地点 |
的 | u | O |
售价 | n | 价格 |
? | w | O |
语料3:请查询38760987号快递的当前状态??
意图类型是:其它,没有对应的服务程序,不会进行服务调用,不需要标注。
在处理过程中,如果用户的某个标注结果,分词后成为多个词汇,则每个词汇都需要标注,如表3中的“去年、下半年”和“销售、情况”。
S213:使用CRF++训练三元组列表语料,生成命名实体识别器。
和S13相似,在训练过程中,不断调整参数-c和-f,得到若干命名实体识别模型,使用K折交叉验证评估模型性能,最后选择识别效果最好的。
S22:构建基于命名实体类型标识符的意图分类模式。
本步骤生成全部由命名实体类型标识符构成的意图分类模式,如:[$水果][$地点][$时间][$销量]。进一步,所述步骤S22中具体包括:
S221:新建意图分类模式列表;
S222:读取第1个三元组列表语料的信息;
S223:获取实体类型序列R1;
S224:将R1转换为字符串形式,相邻项之间用空格隔开,得到序列R2;
S225:将R2中标注不是“O”的项前面加上“$”,然后在首尾加上中括号,得到序列R3;
S226:剔除R3中标注为“O”的项,得到序列R4;
S227:判断R4中是否存在多个相同的相邻项,如果存在,转S228,否则转S229;
S228:保留R4中多个相同相邻项中的一项,其余相同项均删除,得到序列R5,转S22A;
S229:将R4直接赋值给R5;
S22A:删除R5中相邻项之间的空格,得到序列R6;
S22B:检索R6是否已经存在于意图分类模式列表中,如果不存在,转S22C,否则转S22D;
S22C:将R6添加到意图分类模式列表中;
S22D:判断三元组列表语料是否读取完毕,如果没有,转S22E,否则转S22F;
S22E:读取下1个三元组列表语料的信息,转S223;
S22F:保存意图分类模式列表。
以步骤S212中的语料1“我想查询苹果在山东省去年下半年的销售情况?”为例,上述流程中产生的数据如下:
R2是“O O O水果O地点时间时间O销量销量O”;
R3是“O O O[$水果]O[$地点][$时间][$时间]O[$销量][$销量]O”;
R4是“[$水果][$地点][$时间][$时间][$销量][$销量]”;
R5是“[$水果][$地点][$时间][$销量]”
R6是“[$水果][$地点][$时间][$销量]”,它是意图“水果销量”的一个分类模式。
S3:使用意图理解模型处理用户请求。
进一步,所述步骤S3中具体包括:
S31:基于混合策略的实体识别;
本步骤综合使用基于CRF模型的中文分词和词性标注器、基于CRF模型的少量语料环境下命名实体识别器、常用实体解析器、基于字符索引的“实体-类型”映射表,从用户请求文本中得到命名实体。进一步,所述步骤S31中具体包括:
S311:使用基于CRF模型的中文分词和词性标注器处理用户请求文本,得到二元组列表语料L1;
S312:使用CRF命名实体识别器从二元组列表语料L1中抽取出实体列表E1;
S313:从L1中删除和E1中实体对应的项,得到二元组列表语料L2;
S314:判断实体列表E1是否存在多个类型相同且彼此相邻的实体,如果不存在,转S315,否则转S316;
S315:将E1直接赋值给E2,L2直接赋值给L3,转S31A;
S316:将E1中多个类型相同且彼此相邻的实体按照顺序连接为1个实体,得到实体列表E2;
S317:判断E1相邻同类型实体在L1对应项之间的分词词汇是否包含虚词,如果不包含,转S318,否则转S319;
S318:将L2直接赋值给L3,转S31A;
S319:将L2中对应的虚词项删除,得到二元组语料列表L3;
S31A:从L3中获取分词词汇序列,并转换为字符串形式,得到文本D1;
S31B:使用“常用实体解析器”处理文本D1,得到实体列表E3;
S31C:从D1中删除E3中的实体,得到文本D2;
S31D:使用“基于字符索引的‘实体-类型’映射表”逐字符匹配文本D2,从中抽取出实体列表E4;
S31E:计算实体列表E2、E3、E4的并集,并按照实体在L1中的顺序进行排列,得到实体列表UnionE=E2∪E3∪E4;
S31F:判断实体列表UnionE是否存在多个类型相同且彼此相邻的实体,如果不存在,转S31G,否则转S31H;
S31G:将UnionE直接赋值给E,转S31I;
S31H:将UnionE中多个类型相同且彼此相邻的实体按照顺序连接为1个实体,得到实体列表NonRepE;
S31I:结束并返回实体列表NonRepE。
以用户请求文本“请告诉我去年下半年香蕉在河南省销售的情况?”为例,上述流程的执行情况如下:
执行S311:生成的L1如下表所示:
分词 | 词性 |
请 | vd |
告诉 | v |
我 | r |
去年 | t |
下半年 | t |
香蕉 | n |
在 | p |
河南省 | ns |
销售 | a |
的 | u |
情况 | n |
? | w |
执行S312:E1=“香蕉、销售、情况”;
执行S313:从L1中删除和“香蕉”、“销售”、“情况”对应的项,生成的L2如下表所示:
执行S314:由于E1中的相邻实体“销售”和“情况”类型相同,所以转S316;
执行S316:将E1中的相邻实体“销售”和“情况”合并为1个实体“销售情况”,生成E2=“香蕉、销售情况”;
执行S317:由于L1中对应实体“销售”和“情况”间存在非实词“的”,所以转S319;
执行S319:将L2对应和“的”对应的项删除,生成L3如下表所示:
分词 | 词性 |
请 | vd |
告诉 | v |
我 | r |
去年 | t |
下半年 | t |
在 | p |
河南省 | ns |
? | w |
执行S31A:处理L3,生成文本D1=“请告诉我去年下半年在河南省?”;
执行S31B:使用“常用实体解析器”处理文本D1,生成E3=“下半年”;
执行S31C:从D1中删除实体“下半年”,生成D2=“请告诉我去年在河南省?”;
执行S31D:使用“基于字符索引的‘实体-类型’映射表”逐字符匹配文本D2,抽取出实体列表E4=“去年、河南省”;
执行S31E:按照实体在L1中的排列顺序,生成E2、E3、E4的并集UnionE=“去年、下半年、香蕉、河南省、销售情况”;
执行S31F:由于UnionE中的相邻实体“去年”和“下半年”类型相同,所以转S31H;
执行S31H:将UnionE中的相邻实体“去年”和“下半年”合并为1个实体“去年下半年”,生成NonRepE=“去年下半年、香蕉、河南省、销售情况”。
S32:基于实体类型匹配的意图分类;
本步骤根据用户请求文本、已识别的命名实体和意图分类模式列表,确定用户的意图类型。进一步,所述步骤S32中具体包括:
S321:将用户请求文本中对应的实体名称替换为形如[$命名实体类型名称]的标识符;
S322:判断用户请求文本是否存在对应多个类型的实体,如果不存在,转S323,否则转S324;
S323:将替换后的结果直接赋值给T1,转S325;
S324:采用符号“/”将实体的多个类型名称连接起来,得到文本T1;
S325:删除文本T1中非实体名称对应的文本,得到文本T2;
S326:判断文本T2的类型标识符中是否存在符号“/”,如果不存在,转S327,否则转S328;
S327:将T2直接赋值给Nt1,转S329;
S328:对于文本T2中包含符号“/”的每个类型标识符,按照符号“/”将其分割为多个新的类型标识符,分别替换原先的类型标识符,从而得到序列文本Nt1~Ntp;
S329:在意图分类模式列表中逐个搜索文本Nti,i=1…p;
S32A:如果p个文本的搜索结果均为空,转S32E,否则转S32B;
S32B:判断返回的意图类型个数q是否等于1,不等于则转S32C,否则转S32D;
S32C:将q个意图类型输出给用户,通过交互询问的方式确定用户的真实意图类型;
S32D:结束并返回用户的意图类型;
S32E:结束并提示意图分类失败。
以用户请求文本“我想知道黄鹤楼去年10月份在武汉市的价格?”为例,上述流程的执行情况如下:
执行S321:替换实体“黄鹤楼”、“去年10月份”、“武汉市”、“价格”为对应的类型;
执行S322:由于实体“黄鹤楼”对应两种类型:景点、香烟,所以转S324;
执行S324:采用“/”连接实体“黄鹤楼”对应的两种类型,生成T1=“我想知道[$景点/香烟][$时间]在[$地点]的[$价格]?”;
执行S325:T2=“[$景点/香烟][$时间][$地点][$价格]”;
执行S326:由于T2的“景点/香烟”中包含“/”,所以转S328;
执行S328:通过替换操作,生成Nt1=“[$景点][$时间][$地点][$价格]”、Nt2=“[$香烟][$时间][$地点][$价格]”;
执行S329:在意图分类模式列表中逐个搜索Nt1和Nt2,得到对应的意图类型:景点价格、香烟价格;
执行S32A:由于搜索结果非空,所以转S32B;
执行S32B:由于意图类型个数q=2大于1,所以转S32C;
执行S32C:通过和用户交互询问,确定真实意图类型:香烟价格;
执行S32D:结束并返回用户的意图类型。
S33:执行服务调用。
本步骤根据已识别的命名实体和意图类型,调用服务程序处理用户请求。进一步,所述步骤S33中具体包括:
S331:根据意图分类结果,确定用户请求对应的服务处理程序G;
S332:根据G中的参数类型和顺序,从NonRepE中抽取对应实体构成列表TransE;
S333:将TransE作为参数传递给服务处理程序G;
S334:执行服务处理程序G,响应用户的请求。
以用户请求文本“我想知道黄鹤楼去年10月份在武汉市的价格?”为例,上述流程的执行情况如下:
执行S331:根据意图类型(香烟价格),确定对应的服务处理程序CigarettePrice,该函数原型声明如下:
float CigarettePrice(String Brand,String Location,String Date)
其中,参数Brand、Location、Date分别是香烟品牌、销售地点和销售时间;
执行S332:TransE=“品牌=黄鹤楼,地点=武汉市,时间=去年10月份”;
执行S333:确定CigarettePrice的参数列表(黄鹤楼,武汉市,去年10月份);
执行S334:执行CigarettePrice(黄鹤楼,武汉市,去年10月份)。
本发明还提供了一种基于意图理解的服务调用系统,包括:
基础数据模型和处理工具构建模块U1,用于生成基础数据模型和处理工具,所述基础数据模型和处理工具构建模块U1包括:
基于字符索引的“实体->类型”映射表构建部件U11,用于生成基于字符索引的“实体->类型”映射表,所述基于字符索引的“实体->类型”映射表构建部件U11包括:
领域实体表制作部件U111,用于生成领域实体表;
同义词实体网制作部件U112,用于生成同义词实体网;
“实体->类型”映射表构建部件U113,用于生成“实体->类型”映射表;
“字符->类型”映射表字符索引构建部件U114,用于生成带有字符索引结构的“实体->类型”映射表。
常用实体解析器构建部件U12,用于生成常用实体解析器;
基于CRF模型的中文分词和词性标注器构建部件U13,用于生成基于CRF模型的中文分词和词性标注器。
意图理解模型构建模块U2,用于生成意图理解模型,所述意图理解模型构建模块U2包括:
基于CRF模型的少量语料环境下命名实体识别器构建部件U21,用于生成基于CRF模型的少量语料环境下命名实体识别器,所述基于CRF模型的少量语料环境下命名实体识别器构建部件U21包括:
二元组列表语料制作部件U211,用于生成二元组列表语料;
三元组列表语料制作部件U212,用于生成三元组列表语料;
命名实体识别器构建部件U213,用于生成命名实体识别器。
基于命名实体识别类型标识符的意图分类模式构建部件U22,用于生成基于命名实体识别类型标识符的意图分类模式。
基于意图理解的用户请求处理模块U3,用于分析用户请求并调用对应的服务程序,所述基于意图理解的用户请求处理模块U3包括:
基于混合策略的实体识别部件U31,用于从用户请求文本中得到命名实体,所述基于混合策略的实体识别部件U31包括:
基于CRF模型的命名实体识别部件U311,用于使用CRF模型识别用户请求文本中的命名实体;
基于常用实体解析器的命名实体识别部件U312,用于使用常用实体解析器识别用户请求文本中的命名实体;
基于字符索引的“实体->类型”映射表的命名实体识别部件U313,用于使用基于字符索引的“实体->类型”映射表识别用户请求文本中的命名实体。
基于实体类型匹配的意图分类部件U32,用户确定用户的意图类型,所述基于实体类型匹配的意图分类部件U32包括:
命名实体名称替换部件U321,用户将用户请求文本转换为由若干[$命名实体类型名称]构成的字符串;
意图分类模式匹配部件U322,用于匹配已有的意图分类模式;
真实意图类型交互询问部件U323,用于从多种意图类型中选择出用户的真实意图类型。
服务调用执行部件U33,用于调用服务程序处理用户请求。
Claims (10)
1.一种基于意图理解的服务调用方法,其特征在于,包括以下步骤:
S1:构建基础数据模型和处理工具,包括将实体名称转换为类型名称的基于字符索引的“实体->类型”映射表,获取常见类型实体名称的常用实体解析器和基于CRF(Conditional Random Field,条件随机场)模型的中文分词和词性标注器;
S2:构建意图理解模型,包括基于CRF模型的少量语料环境下命名实体识别器和基于命名实体类型标识符的意图分类模式;
S3:使用意图理解模型处理用户请求,首先综合多种策略识别出实体,然后根据实体类型确定意图类型,最后执行服务调用。
2.根据权利要求1所述的基于意图理解的服务调用方法,其特征在于:所述步骤S1中,构建基于字符索引的“实体->类型”映射表,具体包括以下步骤:
S111:制作领域实体表,即同一类型下的实体名称列表,每种类型分别对应一张实体表;
S112:制作同义词实体网,所述同义词实体网为图形结构,图中每个结点对应一个实体,结点名称就是实体名称,不同结点的名称不同,如果两个结点表示同一个实体,则二者互为同义词,用一条边连接二者;如果所有结点互为同义词,则它们构成全连通图;
S113:构建“实体->类型”映射表,所述“实体->类型”映射表要体现1对多的关系,当同一个实体名称属于不同的类型时,采用符号“/”将对应的类型连接起来,具体构建步骤如下:
S1131:新建“实体->类型”映射表;
S1132:读取第1个同义词实体网的信息;
S1133:获取实体的类型;
S1134:访问该同义词实体网的每个结点,根据每个结点的名称构建由实体名称和实体类型构成的二元组,插入到“实体->类型”映射表;
S1135:判断同义词实体网是否读取完毕,如果没有,转步骤S1136,否则转步骤S1137;
S1136:读取下1个同义词实体网的信息,转步骤S1133;
S1137:保存“实体->类型”映射表;
S114:建立“实体->类型”映射表的字符索引;所述基于字符索引的“实体->类型”映射表,具有下述特征:
S1141:若干名称中包含相同首字符的实体构成一棵树,表示对应实体到类型的映射关系;
S1142:所有的树构成森林,实现基于字符索引的“实体->类型”映射功能;
S1143:在每棵树中,非叶结点由单个汉字构成,从根结点到叶结点前驱的路径表示实体,路径结点的名称序列是实体的名称,叶结点表示对应实体的类型,其名称是实体的类型名称;
S1144:森林和树都有方向,对任意一个非叶结点的前驱结点而言,它所有的子结点,都按照字典序在下面一层自左向右排列;
S1145:由于同一实体可能会对应多种类型,所以允许非叶结点的前驱结点有多个子节点。
3.根据权利要求1所述的基于意图理解的服务调用方法,其特征在于:所述步骤S1中,构建常用实体解析器用于识别命名实体识别器不易抽取的特殊类型实体,正则表达式如下:
中文姓名:/^([a-zA-Z0-9\u4e00-\u9fa5\·]{1,10})$/
时间:/^(20|21|22|23|[0-1]\d):[0-5]\d:[0-5]\d$/
电话:/^(0\d{2,3}[-|]?)?(\d{7,8})([-|]?\d{3,5})?$/。
4.根据权利要求1所述的基于意图理解的服务调用方法,其特征在于:所述步骤S1中,采用《现代汉语语料库加工规范—词语切分与词性标注》规范中文分词和词性标注,同时采用CRF++训练NLP(Natural Language Processing,自然语言处理)领域中的数据标注模型,构建基于CRF模型的中文分词和词性标注器;
在中文分词中,使用BEMS方式标记每个汉字字符:B表示分词开始,E表示分词结束,M表示分词中间,S表示单个分词;
在中文词性标注中,采用《现代汉语语料库加工规范—词语切分与词性标注》规定的40种词性标记,同时在词性标记前面添加分词位置标记B、E、M或S;
CRF++在训练数据标注模模型的过程中,为了得到质量较好的中文分词和词性标注模型,需要设置不同的参数进行训练,得到若干模型,选择预测性能最好的,影响模型准确性的参数包括以下两个:
A、-c:浮点型参数,默认是1,用于调节训练结果的拟合程度,数值过大会产生过拟合(在训练集上效果很好,测试集上效果很差,即泛化性很差)现象;
B、-f:整数型参数,设置参与训练特征出现的最小次数,默认是1,当数据量很大时,仅出现1次的特征数量多达百万,全部参与运算的话,会带来严重的计算成本,此时需要增大该参数;
同时,为了减少数据过拟合以及从有限数据中获取尽可能多的有效信息,对于每组f和c生成的模型,使用K折交叉验证评估其效果。
5.根据权利要求1所述的基于意图理解的服务调用方法,其特征在于:所述步骤S2中,构建基于CRF模型的少量语料环境下命名实体识别器,具体包括以下步骤:
S211:对用户请求文本进行中文分词和词性标注,生成二元组列表语料;所述二元组列表语料,具有下述特征:
S2111:每条用户请求文本对应一个二元组序列;
S2112:序列元素由分词词汇和词性组成的二元组构成;
S2113:按照用户请求文本的分词顺序排列序列元素;
S212、在二元组列表语料中标注出实体及其类型,以及对应的意图类型,生成三元组列表语料;所述三元组列表语料,具有下述特征:
S2121:每条用户请求文本对应一个三元组序列和一种意图类型;
S2122:序列元素由分词、词性和实体类型构成的三元组序列构成;
S2123:按照用户请求文本的分词顺序排列序列元素;
S2124:在处理过程中,如果用户的某个标注结果,分词后成为多个词汇,则每个词汇都需要标注该命名实体对应的类型;
S213:使用CRF++训练三元组列表语料,生成命名实体识别器;在训练过程中,不断调整参数-c和-f,得到若干命名实体识别模型,使用K折交叉验证评估模型性能,最后选择识别效果最好的。
6.根据权利要求1所述的基于意图理解的服务调用方法,其特征在于:所述步骤S2中,构建基于命名实体类型标识符的意图分类模式,所述意图分类模式是由若干[$命名实体类型名称]构成的字符串;具体包括以下步骤:
S221:新建意图分类模式列表;
S222:读取第1个三元组列表语料的信息;
S223:获取实体类型序列R1;
S224:将R1转换为字符串形式,相邻项之间用空格隔开,得到序列R2;
S225:将序列R2中标注不是“O”的项前面加上“$”,然后在首尾加上中括号,得到序列R3;
S226:剔除序列R3中标注为“O”的项,得到序列R4;
S227:判断序列R4中是否存在多个相同的相邻项,如果存在,转步骤S228,否则转步骤S229;
S228:保留序列R4中多个相同相邻项中的一项,其余相同项均删除,得到序列R5,转步骤S22A;
S229:将序列R4直接赋值给序列R5;
S22A:删除序列R5中相邻项之间的空格,得到序列R6;
S22B:检索序列R6是否已经存在于意图分类模式列表中,如果不存在,转步骤S22C,否则转步骤S22D;
S22C:将序列R6添加到意图分类模式列表中;
S22D:判断三元组列表语料是否读取完毕,如果没有,转步骤S22E,否则转步骤S22F;
S22E:读取下1个三元组列表语料的信息,转步骤S223;
S22F:保存意图分类模式列表。
7.根据权利要求1所述的基于意图理解的服务调用方法,其特征在于:所述步骤S3中,基于混合策略的实体识别,具体包括以下步骤:
S311:使用基于CRF模型的中文分词和词性标注器处理用户请求文本,得到二元组列表语料L1;
S312:使用命名实体识别器从二元组列表语料L1中抽取出实体列表E1;
S313:从二元组列表语料L1中删除和实体列表E1中实体对应的项,得到二元组列表语料L2;
S314:判断实体列表E1是否存在多个类型相同且彼此相邻的实体,如果不存在,则转步骤S315,否则转步骤S316;
S315:将实体列表E1直接赋值给实体列表E2,二元组列表语料L2直接赋值给二元组列表语料L3,转S31A;
S316:将实体列表E1中多个类型相同且彼此相邻的实体按照顺序连接为1个实体,得到实体列表E2;
S317:判断实体列表E1相邻同类型实体在二元组列表语料L1对应项之间的分词词汇是否包含虚词,如果不包含,转S318,否则转S319;
S318:将二元组列表语料L2直接赋值给二元组列表语料L3,转S31A;
S319:将二元组列表语料L2中对应的虚词项删除,得到二元组语料列表L3;
S31A:从二元组列表语料L3中获取分词词汇序列,并转换为字符串形式,得到文本D1;
S31B:使用“常用实体解析器”处理文本D1,得到实体列表E3;
S31C:从文本D1中删除实体列表E3中的实体,得到文本D2;
S31D:使用“基于字符索引的‘实体-类型’映射表”逐字符匹配文本D2,从中抽取出实体列表E4;
S31E:计算实体列表E2、E3、E4的并集,并按照实体在二元组列表语料L1中的顺序进行排列,得到实体列表UnionE=E2∪E3∪E4;
S31F:判断实体列表UnionE是否存在多个类型相同且彼此相邻的实体,如果不存在,转S31G,否则转S31H;
S31G:将UnionE直接赋值给实体列表E,转S31I;
S31H:将UnionE中多个类型相同且彼此相邻的实体按照顺序连接为1个实体,得到实体列表NonRepE;
S31I:结束并返回实体列表NonRepE。
8.根据权利要求1所述的基于意图理解的服务调用方法,其特征在于:所述步骤S3中,基于实体类型匹配的意图分类,具体包括以下步骤:
S321:将用户请求文本中对应的实体名称替换为形如[$命名实体类型名称]的标识符;
S322:判断用户请求文本是否存在对应多个类型的实体,如果不存在,转步骤S323,否则转步骤S324;
S323:将替换后的结果直接赋值给文本T1,转步骤S325;
S324:采用符号“/”将实体的多个类型名称连接起来,得到文本T1;
S325:删除文本T1中非实体名称对应的文本,得到文本T2;
S326:判断文本T2的类型标识符中是否存在符号“/”,如果不存在,转步骤S327,否则转步骤S328;
S327:将T2直接赋值给序列文本Nt1,转步骤S329;
S328:对于文本T2中包含符号“/”的每个类型标识符,按照符号“/”将其分割为多个新的类型标识符,分别替换原先的类型标识符,从而得到序列文本Nt1~Ntp;
S329:在意图分类模式列表中逐个搜索文本Nti,i=1…p;
S32A:如果p个文本的搜索结果均为空,转步骤S32E,否则转步骤S32B;
S32B:判断返回的意图类型个数q是否等于1,不等于则转步骤S32C,否则转步骤S32D;
S32C:将q个意图类型输出给用户,通过交互询问的方式确定用户的真实意图类型;
S32D:结束并返回用户的意图类型;
S32E:结束并提示意图分类失败。
9.根据权利要求1所述的基于意图理解的服务调用方法,其特征在于:所述步骤S3中,执行服务调用,具体包括以下步骤:
S331:根据意图分类结果,确定用户请求对应的服务处理程序G;
S332:根据服务处理程序G中的参数类型和顺序,从实体列表NonRepE中抽取对应实体构成列表TransE;
S333:将列表TransE作为参数传递给服务处理程序G;
S334:执行服务处理程序G,响应用户的请求。
10.一种基于意图理解的服务调用系统,其特征在于:包括基础数据模型和处理工具构建模块U1,意图理解模型构建模块U2和基于意图理解的用户请求处理模块U3;所述基础数据模型和处理工具构建模块U1用于生成基础数据模型和处理工具;所述意图理解模型构建模块U2用于生成意图理解模型;所述基于意图理解的用户请求处理模块U3用于分析用户请求并调用对应的服务程序;
所述基础数据模型和处理工具构建模块U1,包括基于字符索引的“实体->类型”映射表构建部件U11,常用实体解析器构建部件U12和基于CRF模型的中文分词和词性标注器构建部件U13;
所述基于字符索引的“实体->类型”映射表构建部件U11用于生成基于字符索引的“实体->类型”映射表;
所述基于字符索引的“实体->类型”映射表构建部件U11,包括领域实体表制作部件U111,同义词实体网制作部件U112,“实体->类型”映射表构建部件U113和字符->类型”映射表字符索引构建部件U114;所述领域实体表制作部件U111用于生成领域实体表;所述同义词实体网制作部件U112用于生成同义词实体网;所述“实体->类型”映射表构建部件U113用于生成“实体->类型”映射表;所述“字符->类型”映射表字符索引构建部件U114用于生成带有字符索引结构的“实体->类型”映射表;
所述常用实体解析器构建部件U12用于生成常用实体解析器;所述基于CRF模型的中文分词和词性标注器构建部件U13用于生成基于CRF模型的中文分词和词性标注器;
所述意图理解模型构建模块U2,包括基于CRF模型的少量语料环境下命名实体识别器构建部件U21和基于命名实体识别类型标识符的意图分类模式构建部件U22;
所述基于CRF模型的少量语料环境下命名实体识别器构建部件U21用于生成基于CRF模型的少量语料环境下命名实体识别器;所述基于CRF模型的少量语料环境下命名实体识别器构建部件U21,包括:二元组列表语料制作部件U211,三元组列表语料制作部件U212和命名实体识别器构建部件U213;所述二元组列表语料制作部件U211用于生成二元组列表语料;所述三元组列表语料制作部件U212用于生成三元组列表语料;所述命名实体识别器构建部件U213用于生成命名实体识别器;
基于命名实体识别类型标识符的意图分类模式构建部件U22用于生成基于命名实体识别类型标识符的意图分类模式;
所述基于意图理解的用户请求处理模块U3,包括:基于混合策略的实体识别部件U31,基于实体类型匹配的意图分类部件U32和服务调用执行部件U33;
所述基于混合策略的实体识别部件U31用于从用户请求文本中得到命名实体;所述基于混合策略的实体识别部件U31,包括基于CRF模型的命名实体识别部件U311,基于常用实体解析器的命名实体识别部件U312和基于字符索引的“实体->类型”映射表的命名实体识别部件U313;
所述基于CRF模型的命名实体识别部件U311用于使用CRF模型识别用户请求文本中的命名实体;
所述基于常用实体解析器的命名实体识别部件U312用于使用常用实体解析器识别用户请求文本中的命名实体;
所述基于字符索引的“实体->类型”映射表的命名实体识别部件U313用于使用基于字符索引的“实体->类型”映射表识别用户请求文本中的命名实体;
所述基于实体类型匹配的意图分类部件U32用于确定用户的意图类型;所述基于实体类型匹配的意图分类部件U32,包括命名实体名称替换部件U321,意图分类模式匹配部件U322和真实意图类型交互询问部件U323;
所述命名实体名称替换部件U321用户将用户请求文本转换为由若干[$命名实体类型名称]构成的字符串;
所述意图分类模式匹配部件U322用于匹配已有的意图分类模式;
所述真实意图类型交互询问部件U323用于从多种意图类型中选择出用户的真实意图类型。
所述服务调用执行部件U33用于调用服务程序处理用户请求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810569449.8A CN108874774B (zh) | 2018-06-05 | 2018-06-05 | 一种基于意图理解的服务调用方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810569449.8A CN108874774B (zh) | 2018-06-05 | 2018-06-05 | 一种基于意图理解的服务调用方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108874774A true CN108874774A (zh) | 2018-11-23 |
CN108874774B CN108874774B (zh) | 2022-02-11 |
Family
ID=64336629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810569449.8A Active CN108874774B (zh) | 2018-06-05 | 2018-06-05 | 一种基于意图理解的服务调用方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108874774B (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109697679A (zh) * | 2018-12-27 | 2019-04-30 | 厦门智融合科技有限公司 | 知识产权服务导引方法及系统 |
CN109753565A (zh) * | 2018-12-27 | 2019-05-14 | 厦门智融合科技有限公司 | 知识产权智能服务方法及系统 |
CN110442676A (zh) * | 2019-07-02 | 2019-11-12 | 北京邮电大学 | 基于多轮对话的专利检索方法及装置 |
CN111046674A (zh) * | 2019-12-20 | 2020-04-21 | 科大讯飞股份有限公司 | 语义理解方法、装置、电子设备和存储介质 |
CN111309851A (zh) * | 2020-02-13 | 2020-06-19 | 北京金山安全软件有限公司 | 一种实体词存储方法、装置及电子设备 |
CN111427992A (zh) * | 2019-01-10 | 2020-07-17 | 华为技术有限公司 | 对话处理方法及设备 |
CN111553157A (zh) * | 2020-04-08 | 2020-08-18 | 南通大学 | 一种基于实体替换的对话意图识别方法 |
CN111798847A (zh) * | 2020-06-22 | 2020-10-20 | 广州小鹏车联网科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
CN112599124A (zh) * | 2020-11-20 | 2021-04-02 | 内蒙古电力(集团)有限责任公司电力调度控制分公司 | 一种面向电网调度的语音调度方法及系统 |
CN114912455A (zh) * | 2022-07-12 | 2022-08-16 | 共道网络科技有限公司 | 命名实体识别的方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103309948A (zh) * | 2013-05-20 | 2013-09-18 | 携程计算机技术(上海)有限公司 | 联络中心舆情监控分析和智能分配处理系统及方法 |
CN107015962A (zh) * | 2017-03-16 | 2017-08-04 | 北京光年无限科技有限公司 | 面向智能机器人的自定义意图识别的实现方法及装置 |
CN107315737A (zh) * | 2017-07-04 | 2017-11-03 | 北京奇艺世纪科技有限公司 | 一种语义逻辑处理方法及系统 |
-
2018
- 2018-06-05 CN CN201810569449.8A patent/CN108874774B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103309948A (zh) * | 2013-05-20 | 2013-09-18 | 携程计算机技术(上海)有限公司 | 联络中心舆情监控分析和智能分配处理系统及方法 |
CN107015962A (zh) * | 2017-03-16 | 2017-08-04 | 北京光年无限科技有限公司 | 面向智能机器人的自定义意图识别的实现方法及装置 |
CN107315737A (zh) * | 2017-07-04 | 2017-11-03 | 北京奇艺世纪科技有限公司 | 一种语义逻辑处理方法及系统 |
Non-Patent Citations (2)
Title |
---|
ARIJIT DE ET AL.: "A Rule-Based Short Query Intent Identification System", 《2010 INTERNATIONAL CONFERENCE ON SIGNAL AND IMAGE PROCESSING》 * |
王晓艳 等: "基于查询意图的中文信息类网页分类研究", 《图书情报工作》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109753565A (zh) * | 2018-12-27 | 2019-05-14 | 厦门智融合科技有限公司 | 知识产权智能服务方法及系统 |
CN109697679A (zh) * | 2018-12-27 | 2019-04-30 | 厦门智融合科技有限公司 | 知识产权服务导引方法及系统 |
CN111427992A (zh) * | 2019-01-10 | 2020-07-17 | 华为技术有限公司 | 对话处理方法及设备 |
US11977815B2 (en) | 2019-01-10 | 2024-05-07 | Huawei Technologies Co., Ltd. | Dialogue processing method and device |
CN110442676A (zh) * | 2019-07-02 | 2019-11-12 | 北京邮电大学 | 基于多轮对话的专利检索方法及装置 |
CN111046674A (zh) * | 2019-12-20 | 2020-04-21 | 科大讯飞股份有限公司 | 语义理解方法、装置、电子设备和存储介质 |
CN111046674B (zh) * | 2019-12-20 | 2024-05-31 | 科大讯飞股份有限公司 | 语义理解方法、装置、电子设备和存储介质 |
CN111309851B (zh) * | 2020-02-13 | 2023-09-19 | 北京金山安全软件有限公司 | 一种实体词存储方法、装置及电子设备 |
CN111309851A (zh) * | 2020-02-13 | 2020-06-19 | 北京金山安全软件有限公司 | 一种实体词存储方法、装置及电子设备 |
CN111553157A (zh) * | 2020-04-08 | 2020-08-18 | 南通大学 | 一种基于实体替换的对话意图识别方法 |
CN111798847A (zh) * | 2020-06-22 | 2020-10-20 | 广州小鹏车联网科技有限公司 | 语音交互方法、服务器和计算机可读存储介质 |
CN112599124A (zh) * | 2020-11-20 | 2021-04-02 | 内蒙古电力(集团)有限责任公司电力调度控制分公司 | 一种面向电网调度的语音调度方法及系统 |
CN114912455B (zh) * | 2022-07-12 | 2022-09-30 | 共道网络科技有限公司 | 命名实体识别的方法和装置 |
CN114912455A (zh) * | 2022-07-12 | 2022-08-16 | 共道网络科技有限公司 | 命名实体识别的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108874774B (zh) | 2022-02-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874774A (zh) | 一种基于意图理解的服务调用方法和系统 | |
CN109766524B (zh) | 一种并购重组类公告信息抽取方法及系统 | |
CN109271626A (zh) | 文本语义分析方法 | |
CN110427623A (zh) | 半结构化文档知识抽取方法、装置、电子设备及存储介质 | |
CN108763510A (zh) | 意图识别方法、装置、设备及存储介质 | |
CN106599032A (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN106055675B (zh) | 一种基于卷积神经网络和距离监督的关系抽取方法 | |
CN112115238A (zh) | 一种基于bert和知识库的问答方法和系统 | |
CN107729309A (zh) | 一种基于深度学习的中文语义分析的方法及装置 | |
CN101539907A (zh) | 词性标注模型训练装置、词性标注系统及其方法 | |
CN110489523A (zh) | 一种基于网购评价的细粒度情感分析方法 | |
CN113360647B (zh) | 一种基于聚类的5g移动业务投诉溯源分析方法 | |
CN109344187A (zh) | 一种司法判决书案情信息结构化处理系统 | |
CN116049354B (zh) | 基于自然语言的多表格检索方法及装置 | |
CN110059177A (zh) | 一种基于用户画像的活动推荐方法及装置 | |
CN106055633A (zh) | 一种中文微博主客观句分类方法 | |
CN110851593A (zh) | 一种基于位置与语义的复值词向量构建方法 | |
Qiu et al. | Query intent recognition based on multi-class features | |
Mohnot et al. | Hybrid approach for Part of Speech Tagger for Hindi language | |
CN107329951A (zh) | 构建命名实体标注资源库方法、装置、存储介质和计算机设备 | |
CN113254623B (zh) | 数据处理方法、装置、服务器、介质及产品 | |
CN115796165A (zh) | 人机智能交互方法、电子设备及存储介质 | |
Li et al. | Multi-level emotion cause analysis by multi-head attention based multi-task learning | |
CN114328863A (zh) | 一种基于高斯核函数的长文本检索方法及系统 | |
Wang et al. | Chinese-Korean Weibo Sentiment Classification Based on Pre-trained Language Model and Transfer Learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |