CN114138963A - 基于句法分析的意图识别模型 - Google Patents

基于句法分析的意图识别模型 Download PDF

Info

Publication number
CN114138963A
CN114138963A CN202111455561.7A CN202111455561A CN114138963A CN 114138963 A CN114138963 A CN 114138963A CN 202111455561 A CN202111455561 A CN 202111455561A CN 114138963 A CN114138963 A CN 114138963A
Authority
CN
China
Prior art keywords
template
sentence
intention
syntactic analysis
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111455561.7A
Other languages
English (en)
Inventor
张善睿
陈坤
宋海东
杨林凤
张磊
李磊
时孟旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Bite Yipai Information Technology Co ltd
Original Assignee
Beijing Bite Yipai Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Bite Yipai Information Technology Co ltd filed Critical Beijing Bite Yipai Information Technology Co ltd
Priority to CN202111455561.7A priority Critical patent/CN114138963A/zh
Publication of CN114138963A publication Critical patent/CN114138963A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于句法分析的意图识别模型,所述意图识别模型包括如下步骤:建立模板库:通过现有用户提问数据及其标签来建立模板库;对用户问题进行意图分类:对用户问题句子进行句法解析,并判断句式之后跟模板库中的句法模板进行匹配;系统维护:建立好规则库并可以用于意图识别后就需要考虑系统后续维护优化的问题。该种基于句法分析的意图识别模型、规则库无限扩展:通过汉语学家总结出的汉语常用十种句式可以包含易车网对话系统中所有用户交互中句子的句式;通过句法解析出的句子中心词和修饰词来建立模板成立模板库,模板库可以无限扩充,模板之间不会产生冲突。

Description

基于句法分析的意图识别模型
技术领域
本申请涉及句法分析技术领域,尤其是一种基于句法分析的意图识别模型。
背景技术
意图识别是NLP(自然语言处理)领域经典任务之一,常用于对话系统,搜索引擎,智能物联网和机器人等应用场景下;对话系统在工业界最常用的实现形式是用户说话->ASR语音转文本->NLU自然语言理解->DM对话管理->NLG自然语言生成回复->用户下一轮说话的pipeline形式;其中ASR语音转文本已有腾讯,科大讯飞,百度等成熟的SDK,可以将通用的汉语语言很好的转正文本形式;通过ASR模块得到用户语言的文本形式后,下一步就是在NLU模块正确理解用户话的意思,也就是意图识别;在一个汽车领域的对话系统中,用户的意图除了搜车还可能有其他很多方面,比如‘用车’,‘贷款买车’,‘汽车问答’等等;所以NLU意图识别模块的输入是文本形式的用户语言,输出是用户说的这句话的正确意图。
目前意图识别工业界常用的方法主要是模版规则配合机器学习/深度学习的方法;在最早的人工智能中,对话系统中的意图识别主要采取基于规则的方法,也就是模版匹配的方法;最早期的对话系统主要以专家系统的形式存在;即把所有某个领域的专家水平的知识和经验全部储存在一个动态数据库中,再用穷举的方法人工总结出用户和系统交互时所有可能说的话的文本形式,以模版规则的方式储存系统中;最后建立模版和知识的映射;而传统机器学习在到达一定精度后,精度不会再随着数据量的增加而提高。
工业界流行的意图识别方法缺点:
(a).需要人工参与较多,而且由于模版跟用户问题映射是一对一的关系所以系统几乎没有泛化性可言;
(b).基于正则表达式的规则模型解决了词表穷举法泛化性差和需要大量人工来创建模版的问题;正则表达式的缺点是当规则库变得复杂,模版数量多了以后很容易相互冲突,其中的任意匹配字符配合任意数量匹配字符‘.?’很容易匹配上新增规则中的某个单元从而造成意图识别错误;正则表达式的一个问题是主体漂移;正则表达式的另一个问题是随着系统迭代,当规则库变得越来越复杂,由于正则表达式有容易冲突的特征,更改规则库中的某一条规则或者改变某一条规则的顺序就可能导致整个规则库无法正常运转;
(c)基于神经网络的意图识别模型也有它的问题;神经网络是黑箱系统,也就是我们无法知道为什么神经网络会得出任意一个结果,原因是我们没有可解释的数据特征;由于工业界落地对系统结果精度的要求,意图分类器的训练一般使用有监督的方法进行,这就带来了另一个问题:建立这样一个有监督模型需要大量人工标注的数据,会耗费非常多的人力。因此,针对上述问题提出一种基于句法分析的意图识别模型。
发明内容
在本实施例中提供了一种基于句法分析的意图识别模型用于解决目前现有基于句法分析的意图识别模型中容易出现信息泄露的情况,同时一些信息识别错误,增加工作者的理解误差,降低实用性,不能满足使用需求,影响使用的问题。
根据本申请的一个方面,提供了一种基于句法分析的意图识别模型,所述意图识别模型包括如下步骤:
1.建立模板库:通过现有用户提问数据及其标签来建立模板库;
2.对用户问题进行意图分类:对用户问题句子进行句法解析,并判断句式之后跟模板库中的句法模板进行匹配;
3.系统维护:建立好规则库并可以用于意图识别后就需要考虑系统后续维护优化的问题。
进一步地,所述步骤(1)中建立模板库,首先利用句法分析工具对某一特定意图下的所有用户提问数据进行句法解析。
进一步地,所述句法依赖结果要更加清晰,更有利于开发人员总结模板,对ddparser解析出的结果建立依赖图。
进一步地,所述依赖图建立好后,我们把句子成分之间的依赖关系转换成类似句法成分分析CFG语法生成规则;以便于开发人员更直观的构建规则库了。
进一步地,所述步骤(1)中建立模板库需要判断句式并建立模板;不同句式之间建立模板和后续匹配模板的方法区别很大,所以我们首先判断用户问题的句式然后在不同句式下建立规则库;根据用户历史数据和文献查阅最终确定七种句式;之后即可摘出句子主干(主谓宾)进行意图识别匹配,句子修饰成分(定状补)进行补充条件匹配。
进一步地,所述步骤(3)中意图识别错其中分为两种情况,第一种是现有的意图识别错误,另一种是系统添加了新意图;对于第一种情况首先定位意图识别错误的用户问题是匹配了哪个句式下的哪个模板,之后具体分析是模板建立错误还是句子的修饰部分(定状补语)没有补充完整,通常可以通过细化具体规则模板来解决。
进一步地,所述添加了新意图的情况只需在规则模板中添加新的由中心词和修饰词生成的规则即可。
进一步地,所述句法模板进行匹配采用的方法是把句法模板储存在一个前缀树数据结构中,这样可以大大减少匹配所需要的时间;当整个系统不停的迭代开发规则库越来越复杂时,正则表达式规则模型在匹配时,会花大量的时间,因为单条正则表达式匹配文本需要用回溯法遍历模板文本,系统开发后期单条正则表达式可能会变得非常复杂,当模板数量变得很多的时候匹配时间会成平方时间增长,严重影响增加系统响应时间;而改用句法分析模板匹配所需时间为用户问题文本长度时间线性相关,可以近似为一个常数。
通过本申请上述实施例,采用了意图识别规则模型,解决了由于模版跟用户问题映射是一对一的关系所以系统几乎没有泛化性可言的问题,规则库无限扩展:通过汉语学家总结出的汉语常用十种句式可以包含易车网对话系统中所有用户交互中句子的句式,通过句法解析出的句子中心词和修饰词来建立模板成立模板库,模板库可以无限扩充,模板之间不会产生冲突。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明的方法流程图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。在此不再一一赘述,下面对本申请实施例的处理的方法进行介绍。
实施例一:
一种基于句法分析的意图识别模型,所述意图识别模型包括如下步骤:
(1.建立模板库:通过现有用户提问数据及其标签来建立模板库;
2.对用户问题进行意图分类:对用户问题句子进行句法解析,并判断句式之后跟模板库中的句法模板进行匹配;
3.系统维护:建立好规则库并可以用于意图识别后就需要考虑系统后续维护优化的问题。
进一步地,所述步骤(1)中建立模板库,首先利用句法分析工具对某一特定意图下的所有用户提问数据进行句法解析。
比如:取某一条数据”适合上下班开的车“作为例子,句法解析后的结果如下所示
'word':['适合','上下班','开','的','车'],
'head':[5,3,1,1,0],
'deprel':['ATT','ADV','VOB','MT','HED']
‘word’字段代表对句子切词后的结果,’head’字段代表切词后每个词的句法依赖词的位置下标,‘deprel’字段代表切词后每个词的句法依赖词的依赖关系。部分词依赖之间的关系解释如下表所示
Figure BDA0003386498050000051
进一步地,所述句法依赖结果要更加清晰,更有利于开发人员总结模板,对ddparser解析出的结果建立依赖图。
进一步地,所述依赖图建立好后,我们把句子成分之间的依赖关系转换成类似句法成分分析CFG语法生成规则;以便于开发人员更直观的构建规则库了。
结果如下所示:
车(HED)<-适合(ATT)<-开(VOB)<-上下班(ADV)
车(HED)<-适合(ATT)<-的(MT)
进一步地,所述步骤(1)中建立模板库需要判断句式并建立模板;不同句式之间建立模板和后续匹配模板的方法区别很大,所以我们首先判断用户问题的句式然后在不同句式下建立规则库;根据用户历史数据和文献查阅最终确定七种句式;之后即可摘出句子主干(主谓宾)进行意图识别匹配,句子修饰成分(定状补)进行补充条件匹配。
进一步地,所述步骤(3)中意图识别错其中分为两种情况,第一种是现有的意图识别错误,另一种是系统添加了新意图;对于第一种情况首先定位意图识别错误的用户问题是匹配了哪个句式下的哪个模板,之后具体分析是模板建立错误还是句子的修饰部分(定状补语)没有补充完整,通常可以通过细化具体规则模板来解决。
进一步地,所述添加了新意图的情况只需在规则模板中添加新的由中心词和修饰词生成的规则即可。
进一步地,所述句法模板进行匹配采用的方法是把句法模板储存在一个前缀树数据结构中,这样可以大大减少匹配所需要的时间;当整个系统不停的迭代开发规则库越来越复杂时,正则表达式规则模型在匹配时,会花大量的时间,因为单条正则表达式匹配文本需要用回溯法遍历模板文本,系统开发后期单条正则表达式可能会变得非常复杂,当模板数量变得很多的时候匹配时间会成平方时间增长,严重影响增加系统响应时间;而改用句法分析模板匹配所需时间为用户问题文本长度时间线性相关,可以近似为一个常数。
上述方法规则库无限扩展:通过汉语学家总结出的汉语常用十种句式可以包含易车网对话系统中所有用户交互中句子的句式。通过句法解析出的句子中心词和修饰词来建立模板成立模板库,模板库可以无限扩充,模板之间不会产生冲突。
实施例二:
一种基于句法分析的意图识别模型,所述意图识别模型包括如下步骤:
1.建立模板库:通过现有用户提问数据及其标签来建立模板库;
2.对用户问题进行意图分类:对用户问题句子进行句法解析,并判断句式之后跟模板库中的句法模板进行匹配;
3.系统维护:建立好规则库并可以用于意图识别后就需要考虑系统后续维护优化的问题。
进一步地,所述步骤(1)中建立模板库,首先利用句法分析工具对某一特定意图下的所有用户提问数据进行句法解析。
进一步地,所述句法依赖结果要更加清晰,更有利于开发人员总结模板,对ddparser解析出的结果建立依赖图。
进一步地,所述依赖图建立好后,我们把句子成分之间的依赖关系转换成类似句法成分分析CFG语法生成规则;以便于开发人员更直观的构建规则库了。
进一步地,所述步骤(1)中建立模板库需要判断句式并建立模板;不同句式之间建立模板和后续匹配模板的方法区别很大,所以我们首先判断用户问题的句式然后在不同句式下建立规则库;根据用户历史数据和文献查阅最终确定七种句式;之后即可摘出句子主干(主谓宾)进行意图识别匹配,句子修饰成分(定状补)进行补充条件匹配。
进一步地,所述步骤(3)中意图识别错其中分为两种情况,第一种是现有的意图识别错误,另一种是系统添加了新意图;对于第一种情况首先定位意图识别错误的用户问题是匹配了哪个句式下的哪个模板,之后具体分析是模板建立错误还是句子的修饰部分(定状补语)没有补充完整,通常可以通过细化具体规则模板来解决。
进一步地,所述添加了新意图的情况只需在规则模板中添加新的由中心词和修饰词生成的规则即可。
进一步地,所述句法模板进行匹配采用的方法是把句法模板储存在一个前缀树数据结构中,这样可以大大减少匹配所需要的时间;当整个系统不停的迭代开发规则库越来越复杂时,正则表达式规则模型在匹配时,会花大量的时间,因为单条正则表达式匹配文本需要用回溯法遍历模板文本,系统开发后期单条正则表达式可能会变得非常复杂,当模板数量变得很多的时候匹配时间会成平方时间增长,严重影响增加系统响应时间;而改用句法分析模板匹配所需时间为用户问题文本长度时间线性相关,可以近似为一个常数。
上述方法方便后续系统的迭代开发:用句法分析处理意图识别任务更符合自然语言习惯,用户问题匹配模板时直接匹配句子的中心成分(主谓宾)和修饰成分(定状补),对比正则表达式或深度学习方法更加可控,准确,更加方便迭代优化和更新。
本申请的有益之处在于:
1.规则库无限扩展:通过汉语学家总结出的汉语常用十种句式可以包含易车网对话系统中所有用户交互中句子的句式;通过句法解析出的句子中心词和修饰词来建立模板成立模板库,模板库可以无限扩充,模板之间不会产生冲突。
2.方便后续系统的迭代开发:用句法分析处理意图识别任务更符合自然语言习惯,用户问题匹配模板时直接匹配句子的中心成分(主谓宾)和修饰成分(定状补),对比正则表达式或深度学习方法更加可控,准确,更加方便迭代优化和更新。
3.多用途:用句法分析处理意图识别任务时建立的句法模板和工具包不仅仅可以处理意图识别任务,还可以用于更多易车网NLP任务比如汽车口碑标签生成,数据与标注,还可以作为特征转换成句向量后再处理下游任务。
涉及到的技术均为现有技术,本领域技术人员完全可以实现,无需赘言,本申请保护的内容也不涉及对于软件和方法的改进。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (8)

1.一种基于句法分析的意图识别模型,其特征在于:所述意图识别模型包括如下步骤:
1.建立模板库:通过现有用户提问数据及其标签来建立模板库;
2.对用户问题进行意图分类:对用户问题句子进行句法解析,并判断句式之后跟模板库中的句法模板进行匹配;
3.系统维护:建立好规则库并可以用于意图识别后就需要考虑系统后续维护优化的问题。
2.根据权利要求1所述的一种基于句法分析的意图识别模型,其特征在于:所述步骤(1)中建立模板库,首先利用句法分析工具对某一特定意图下的所有用户提问数据进行句法解析。
3.根据权利要求2所述的一种基于句法分析的意图识别模型,其特征在于:所述句法依赖结果要更加清晰,更有利于开发人员总结模板,对ddparser解析出的结果建立依赖图。
4.根据权利要求3所述的一种基于句法分析的意图识别模型,其特征在于:所述依赖图建立好后,我们把句子成分之间的依赖关系转换成类似句法成分分析CFG语法生成规则;以便于开发人员更直观的构建规则库了。
5.根据权利要求1所述的一种基于句法分析的意图识别模型,其特征在于:所述步骤(1)中建立模板库需要判断句式并建立模板;不同句式之间建立模板和后续匹配模板的方法区别很大,所以我们首先判断用户问题的句式然后在不同句式下建立规则库;根据用户历史数据和文献查阅最终确定七种句式;之后即可摘出句子主干(主谓宾)进行意图识别匹配,句子修饰成分(定状补)进行补充条件匹配。
6.根据权利要求1所述的一种基于句法分析的意图识别模型,其特征在于:所述步骤(3)中意图识别错其中分为两种情况,第一种是现有的意图识别错误,另一种是系统添加了新意图;对于第一种情况首先定位意图识别错误的用户问题是匹配了哪个句式下的哪个模板,之后具体分析是模板建立错误还是句子的修饰部分(定状补语)没有补充完整,通常可以通过细化具体规则模板来解决。
7.根据权利要求6所述的一种基于句法分析的意图识别模型,其特征在于:所述添加了新意图的情况只需在规则模板中添加新的由中心词和修饰词生成的规则即可。
8.根据权利要求1所述的一种基于句法分析的意图识别模型,其特征在于:所述句法模板进行匹配采用的方法是把句法模板储存在一个前缀树数据结构中,这样可以大大减少匹配所需要的时间;当整个系统不停的迭代开发规则库越来越复杂时,正则表达式规则模型在匹配时,会花大量的时间,因为单条正则表达式匹配文本需要用回溯法遍历模板文本,系统开发后期单条正则表达式可能会变得非常复杂,当模板数量变得很多的时候匹配时间会成平方时间增长,严重影响增加系统响应时间;而改用句法分析模板匹配所需时间为用户问题文本长度时间线性相关,可以近似为一个常数。
CN202111455561.7A 2021-12-01 2021-12-01 基于句法分析的意图识别模型 Pending CN114138963A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111455561.7A CN114138963A (zh) 2021-12-01 2021-12-01 基于句法分析的意图识别模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111455561.7A CN114138963A (zh) 2021-12-01 2021-12-01 基于句法分析的意图识别模型

Publications (1)

Publication Number Publication Date
CN114138963A true CN114138963A (zh) 2022-03-04

Family

ID=80386902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111455561.7A Pending CN114138963A (zh) 2021-12-01 2021-12-01 基于句法分析的意图识别模型

Country Status (1)

Country Link
CN (1) CN114138963A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116628004A (zh) * 2023-05-19 2023-08-22 北京百度网讯科技有限公司 信息查询方法、装置、电子设备及存储介质
WO2023168838A1 (zh) * 2022-03-09 2023-09-14 青岛海尔科技有限公司 语句文本的识别方法和装置、存储介质及电子装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023168838A1 (zh) * 2022-03-09 2023-09-14 青岛海尔科技有限公司 语句文本的识别方法和装置、存储介质及电子装置
CN116628004A (zh) * 2023-05-19 2023-08-22 北京百度网讯科技有限公司 信息查询方法、装置、电子设备及存储介质
CN116628004B (zh) * 2023-05-19 2023-12-08 北京百度网讯科技有限公司 信息查询方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
US10540347B2 (en) Contextual search disambiguation
CN108847241B (zh) 将会议语音识别为文本的方法、电子设备及存储介质
CN110321432B (zh) 文本事件信息提取方法、电子装置和非易失性存储介质
CN111159385B (zh) 一种基于动态知识图谱的无模板通用智能问答方法
CN111931506B (zh) 一种基于图信息增强的实体关系抽取方法
CN111708869B (zh) 人机对话的处理方法及装置
CN114547329A (zh) 建立预训练语言模型的方法、语义解析方法和装置
CN114138963A (zh) 基于句法分析的意图识别模型
KR102198265B1 (ko) 신경망을 이용한 사용자 의도분석 시스템 및 방법
CN104485107B (zh) 名称的语音识别方法、语音识别系统和语音识别设备
CN114757176B (zh) 一种获取目标意图识别模型的方法以及意图识别方法
EP1583076A1 (en) System and method for automatic generation of dialogue run time systems
CN109545202B (zh) 一种调整语义逻辑混乱的语料的方法及系统
CN114154570A (zh) 一种样本筛选方法、系统及神经网络模型训练方法
CN111399629B (zh) 一种终端设备的操作引导方法、终端设备及存储介质
CN117454898A (zh) 一种根据输入文本实现法人实体标准化输出的方法及装置
CN113157887A (zh) 知识问答意图识别方法、装置、及计算机设备
CN112818096A (zh) 对话生成方法及其装置
KR101255468B1 (ko) 대화 의도를 분류하는 방법
CN115906818A (zh) 语法知识预测方法、装置、电子设备和存储介质
CN115952260A (zh) 汽车领域问答方法、装置、电子设备及存储介质
CN111538810B (zh) 数据生成方法、装置、电子设备及存储介质
CN115658845A (zh) 一种适用于开源软件供应链的智能问答方法及装置
CN110851572A (zh) 会话标注方法、装置、存储介质及电子设备
Bockhorst et al. Knowledge graph-driven conversational agents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination