CN112800778B - 一种基于词串长度的意图识别方法、系统及存储介质 - Google Patents

一种基于词串长度的意图识别方法、系统及存储介质 Download PDF

Info

Publication number
CN112800778B
CN112800778B CN202110167645.4A CN202110167645A CN112800778B CN 112800778 B CN112800778 B CN 112800778B CN 202110167645 A CN202110167645 A CN 202110167645A CN 112800778 B CN112800778 B CN 112800778B
Authority
CN
China
Prior art keywords
question
intention
dictionary
length
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110167645.4A
Other languages
English (en)
Other versions
CN112800778A (zh
Inventor
刘伟华
谭培波
柳晶晶
侯志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhitong Yunlian Technology Co ltd
Original Assignee
Beijing Zhitong Yunlian Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhitong Yunlian Technology Co ltd filed Critical Beijing Zhitong Yunlian Technology Co ltd
Priority to CN202110167645.4A priority Critical patent/CN112800778B/zh
Publication of CN112800778A publication Critical patent/CN112800778A/zh
Application granted granted Critical
Publication of CN112800778B publication Critical patent/CN112800778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于词串长度的意图识别方法、系统、电子设备及存储介质,涉及意图识别技术领域,所述意图识别方法根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素字典;其中,T为时间,O为对象,P为参数,V为数值,M为方法;将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的目标词串进行匹配得到意图识别结果,能够快速进行意图识别,满足问答系统对实时性的要求。

Description

一种基于词串长度的意图识别方法、系统及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于词串长度的意图识别方法、系统、电子设备及存储介质。
背景技术
随着人工智能技术的快速发展,人机对话技术在日常生活中的应用也越来越广泛,人机对话技术中最关键的是用户意图的识别,即识别用户输入的问句所表达的意图,在人机会话过程中,需要准确把握对话过程中的用户意图,即对于用户输入的一句话,通过意图识别技术确定用户期望完成的任务是什么,可见意图识别决定了能否智能、准确地与用户进行交互。
现有技术中,由于计算量过大,计算速度不能满足现场问答对实时性的要求。
发明内容
本发明的目的在于提供一种基于词串长度的意图识别方法、系统、电子设备及存储介质,能够快速的进行意图识别。
第一方面,本发明实施例提供了一种基于词串长度的意图识别方法,包括以下步骤:
根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素字典;其中,T为时间,O为对象,P为参数,V为数值,M为方法;
将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的目标词串进行匹配得到意图识别结果。
可选地,将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串包括:
根据TOPVM的顺序组合构造全部要素组合词串,并按照所述组合词串的长度逆排序;
按照组合词串长度的顺序将所述第一要素字典合并,得到带有组合长度顺序信息的第二要素字典;
根据所述第二要素字典递增地替换原句中相应的要素,得到候选词串。
可选地,所述意图识别方法还包括:
对所述问句中出现的和正则运算可能混淆的符号进行替换和恢复。
可选地,按照所述组合词串的长度逆排序包括:
将5个要素序列进行笛卡尔扩展,构造出([T,O,P,V,M],len)的二元组序列;
对上述序列按照len进行逆序排列。
第二方面,本发明实施例提供了基于词串长度的意图识别系统,所述识别系统包括:
数据层,用于根据识别框架TOPVM查出问句对应所述识别框架的要素词;
处理层,用于将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的目标词串进行匹配;
应用层,用于意图识别结果的输出。
可选地,所述数据层包括:
问句语料库,用来记录问句相关信息,问句相关信息包括序号、问句来源以及问句;
第一要素字典,包括字典代码和要素的实例值;
问答意图知识库,包括问句目标词串和问答意图解析。
可选地,所述处理层包括:
正则符号处理模块,用于对输入问句中出现的和正则运算可能混淆的符号进行替换和恢复;
框架要素匹配模块,根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素字典;
字典排序模块,按照组合词串长度的顺序将所述第一要素字典合并,得到带有组合长度顺序信息的第二要素字典;
问答意图匹配模块,根据所述第二要素字典递增地替换原句中相应的要素,得到候选词串,并和问答意图知识库的目标词串进行匹配得到意图识别结果。
可选地,所述应用层包括:
问句分析模块,用于读入问句列表,并把意图识别结果进行输出。
第三方面,本发明实施例提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现上述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述方法的步骤。
有益效果
本发明提出了一种基于词串长度的意图识别方法,根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素字典;其中,T为时间,O为对象,P为参数,V为数值,M为方法;将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的目标词串进行匹配得到意图识别结果,能够快速进行意图识别,满足问答系统对实时性的要求。
附图说明
图1为本发明实施例的一种基于词串长度的意图识别方法的流程图;
图2为图1中步骤S40所述方法的流程图;
图3为发明实施例的一种基于词串长度的意图识别方法的流程图;
图4为发明实施例的一种基于词串长度的意图识别系统的结构框图;
图5为本发明实施例的一种电子设备的结构框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
术语"第一"、"第二"仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有"第一"、"第二"的特征可以明示或者隐含地包括一个或者更多个所述特征。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在问句框架意图识别中,有两个任务,其一识意图别框架名称,其二是识别框架要素。在基于句式框架的问答意图识别中[问句框架F一般由TOPVM(T→时间,O→对象,P→参数,V→值,M→方法)等5个框架元素及其分层构成],句子的框架目标词是一个含有英文字母的虚词实词结合在一起的混合词串,该词串并不是问句的一部分,例如问句“大湾404-2H井2013年4月18日同比2013年4月17日产水量减少多少”的框架目标词串是“OTP减少多少”,“OTP减少多少”并不是问句“大湾404-2H井2013年4月18日同比2013年4月17日产水量减少多少”的任何一部分,因此,不能用词串匹配的方式实现句子意图名称的识别,而必须采用跟改写句子、构造词串同样的方式,根据所有框架要素字典对句子进行改写,构造出所有可能的框架目标词串,然后和问答意图知识库中的意图条目进行比对,从而实现句子意图和意图框架要素的识别。
由于要素字典一般数量在10万量级,考虑到要素之间复杂的包含关系,能够组合出来的候选目标词串数量巨大,比如“大湾404-2H井2013年4月18日同比2013年4月17日产水量减少多少”能够查找出的TOPVM要素为47个,要素之间有非常复杂的多重包含关系,如对象的“大湾404-2H/404-2H井”、时间的“2013年4月18日/13年4月18日/2013年4月18/2013年4月/13年4月/2013年/13年/2013/4月”是一个复杂的层次包含关系,“2013/013/13”同时是时间也是对象,具有多语义关系;这47个要素词能组成的可能目标词串是2898种,而如果和一个包含1万条记录的意图知识库进行比较的话,其计算速度不能满足现场问答对实时性的要求。
据此,为了快速意图识别,本发明提出一种基于词串长度的意图识别方法,核心思想是根据人认识事物的简单性原则,如果改写后的包含虚词和实词的目标词串越短就越接近人的正确认知。
下面结合附图说明和具体实施例对本发明作进一步描述:
图1示出了本发明实施例的基于词串长度的快速意图识别方法的流程图;如图1所示,所述基于词串长度的快速意图识别方法包括以下步骤:
S20、根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素字典;其中,T为时间,O为对象,P为参数,V为数值,M为方法;
由于只重构问句,因此只需按照TOPVM的顺序,将句子中找到的相应的要素词叠加上去,就能得到第一要素字典,例如句子“中国人在北京城的哪个方位”,按照要素字典T=[中国人,韩国],O=[北京城,北京]在要素代号T中可以找到1个元素[中国人],没有其他的,那就只有1个;对于O字典,句子中找到一个[北京人],然后又找到1个[北京],则把第2个叠在在第一个上面形成一个数组[北京人,北京]来做处理;
所述第一要素字典是一个(要素词→要素代号)的二元组序列,如表1所示。
表1
如表1所示,每列有一个字典代码和它的实例值,其中还包含了1列计算结果Q及其实例。在各字典中,T字典有正则和非正则2种形式,正则是将数字用\d代替实现的,\d代表0-9的数字。在M字典中,包含文字和对应的数学方法,用”/”分开.
表2
问句的目标词串 问答意图解析
井O的P是啥? F101@@@井O的P是Q。
从0号到T,OP多少 F111@@@从0号到T,OPQ。
从TO的P是多少? F111@@@从TO的P是Q。
对于T来说OP的数是多少 F111@@@对于T来说OP的数是Q。
开发单元OT的P是多少 F111@@@开发单元OT的P是Q。
总共有多少O在O F201@@@总共有QO在O。
总共有多少O在V F102@@@总共有QO在V。
总共有多少V在O F102@@@总共有QV在O。
我想知道O的P F101@@@0的P是Q。
有哪些O位于O? F201@@@有QO位于O。
有哪些O在O? F201@@@有QO在O?。
有哪些O在O F201@@@有QO在O。
有多少O位于O? F201@@@有QO位于O。
有多少0在O F201@@@有QO在O。
0有多少O F201@@@O有QO。
O的P是多少? F101@@@O的P是Q。
O的P是多少 F101@@@O的P是Q。
O的PT增加还是减少 F111@@@O的PT是Q。
OP F101@@@OP是Q。
所述问答意图知识库的格式如表2所示,包含问句目标词串和问答意图解析2列,其中的问答意图解析包括用“@@@”隔开的2部分,前面是框架(问答意图)的名称,后面为答句模板。
S40、将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的目标词串进行匹配得到意图识别结果。和问答意图知识库表2中的索引条目进行匹配,找出正确的意图知识库条目、意图框架名称、答句模板,以及框架要素TOPVM的具体值。
本实施例根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素字典;其中,T为时间,O为对象,P为参数,V为数值,M为方法;将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的目标词串进行匹配得到意图识别结果,能够快速进行意图识别,满足问答系统对实时性的要求。
在一些实施例中,如图2所示,将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串包括:
S401、根据TOPVM的顺序组合构造全部要素组合词串,并按照所述组合词串的长度逆排序;
S402、按照组合词串长度的顺序将所述第一要素字典合并,得到带有组合长度顺序信息的第二要素字典;
S403、根据所述第二要素字典递增地替换原句中相应的要素,得到候选词串。
例如,将TO=[中国人*北京城,韩国*北京,中国人*北京,韩国*北京城],这副字典按照字典长度进行排序成TO=[中国人*北京城(6),中国人*北京(5),韩国*北京城(5),韩国*北京(4)],句子“中国人在北京城的哪个方位”从TO字典的第1个最长的词串往最小的词串依次替换,第1次替换为“T在O的哪个方位”(T:中国人,O→北京城)
第2词替换为“T在O城的哪个方位”(T:中国人,O→北京)
第3词替换为“中国人在O的哪个方位”(O→北京城)
第4词替换为“中国人在O城的哪个方位”(O→北京)
在问句意图知识库中存在只有“T在O的哪个方位”这句查得到有标注,所以,在第一次查到之后第2往后的替换就不再进行了,这样替换的最长得到的句子最短,又通过字典进行挑选,从理论和实践2方面实现快速意图识别。
具体地,所述意图识别方法还包括:
对所述问句中出现的和正则运算可能混淆的符号进行替换和恢复。将句子和字典中的”:()+.?-“等正则运算混淆字符替换为一个符号,在对句子进行正则处理的时候,使得原原始字符不受运算影响,通过建立一个对应字符字典re_dic={'\(':r'@@@1@@@',r'\)':r'@@@2@@@',r'\+':r'@@@3@@@',r'\-':r'@@@4@@@',r'\?':r'@@@5@@@',r'\.':r'@@@6@@@'}实现替换。
具体地,按照所述组合词串的长度逆排序包括:
构建(TOPVM→len(TOPVM)序列;
将5个要素序列进行笛卡尔扩展,构造出([T,O,P,V,M],len)的二元组序列;
对上述序列按照len进行逆序排列,对上述序列按照len进行逆序排列,长度越长越往前排。
下面以一较优的实施例对本发明所述基于词串长度的意图识别方法的有益效果进行说明:
如图3所示,本发明所述基于词串长度的意图识别方法包括以下步骤:
步骤1:读入框架要素字典和问答意图知识库;
框架要素字典按照TOPVMQ的顺序读入之后分别分解为6个序列,因为每个要素的长短不一样,其每一行之间也没有内在的联系,因此不采用表单形式进行统一处理,意图知识库的格式如表2所示,其索引是原问句改写出来的问句框架目标词串。
步骤2:读入问句文件;
读入表3形式的问句,只取其中的问句内容项。一般在专用的问答系统中,句末有没有问好都视为一个问句,因此在处理的时候可以先省去问号。
步骤3:构造句子中第一要素字典(字典1);
由于只重构问句,因此只需按照TOPVM的顺序,将句子中找到的相应的要素词叠加上去,就能得到第一要素字典(字典1),所述第一要素字典(字典1)是一个(要素词→要素代号)的二元组序列。
步骤4:对第一要素字典(字典1)按照长度重新排序;
该步骤包含步骤4-1到4-4,通过构建一个专门的排序方法,实现这些词按照TOPVM的组合长度顺序由长到短进行排序。总的组合数量5种要素个数的乘积,假定句子按照各要素最多出现1次为最主要的句子形式。
步骤4-1:构建(TOPVM→len(TOPVM)序列;
首先构造5级循环,将5个要素序列进行笛卡尔扩展,构造出([T,O,P,V,M],len)的二元组序列。
步骤4-2:TOPVM按照长度逆排序;
对上述序列按照len进行逆序排列,长度越长越往前排。
步骤4-3:整理得到第二要素字典(字典2),将[T,O,P,V,M]的2维序列压平为一维序列,由于扩展的缘故,一维序列中有很多是重复的,将这个序列定义为第二要素字典(字典2)。
然后对有序第二要素字典(字典2)中的每一个要素,都实现一次包含4-4的更新。
步骤4-4:第一要素字典(字典1)进行替换;
在本步骤中,第一要素字典(字典1)的顺序直到第一要素字典调整完为止。
步骤5:对于第一要素字典(字典1)的每一个词进行处理;
本步骤包含步骤6-11构成的对每一个排序后的第二要素字典(字典2)进行处理的循环,第二要素字典(字典2)带有了TOPVM的长度信息,能够最大可能地用要素编号替代掉原问句,使得构造的意图框架目标词串最短,最符合人的认知简单性习惯。
步骤6:对候选集中所有句子进行替换;
本步骤包含步骤7-11,整个候选框架目标词串的扩充和替换。对于所有之前改写的句子,在增加新的字典的时候,都有可能有新的替换从而实现新的缩短了的目标词串,所以本步骤的候选目标词串集合是一个累级的集合,包含了原问句以及所有替换后的句子。
步骤7:查找是否在意图知识库;
这是结束循环的判断条件,由于意图知识库的框架目标词串是唯一的,因此只要匹配上,就没有必要检查余下的知识库条目。
步骤8:句子和字典的正则替换
将句子和字典中的”:()+.?-“等正则运算混淆字符替换为一个符号,在对句子进行正则处理的时候,使得原原始字符不受运算影响,这是通过建立一个对应字符字典
re_dic={'\(':r'@@@1@@@',r'\)':r'@@@2@@@',r'\+':r'@@@3@@@',r'\-':r'@@@4@@@',r'\?':r'@@@5@@@',r'\.':r'@@@6@@@'}实现替换。
步骤9:句子改写;
对选定句子中出现的框架要素字符用相应的代号替换,需要注意的是,对于句子中有多个相同框架要素的情况,每次只能替换1个,不能全部替换。
步骤10:句子和字典正则恢复;
这是步骤8的逆过程,将re_dic中的右字符换成左边字符,就恢复了句子和字典的原始字符状态。
步骤11:改写句子加入候选句集合;
将改写后的句子加入候选目标词串集合中,去重,然后分别进入返回3重循环,候选目标词串、排序字典和下一句。在这里还要加入相应的框架要素TOPVM所对应的实际值。
步骤12:输出匹配结果;
将每个问句查找的意图知识条目,和步骤11得到的框架要素信息合成一起输出。
本实施例根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素字典;将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的目标词串进行匹配得到意图识别结果;符合人对自然语言语义认知的简单性原则,实际测试得到的查找知识库效率平均提高100倍以上,能够满足问答系统对实时性的要求,比如“大湾404-2H井2013年4月18日同比2013年4月17日产水量减少多少”这一句,传统方法需要2898次的查询操作,在优化之后只需要9次就能完成查询。
基于同一发明构思,本申请实施例还提供了一种基于词串长度的意图识别系统,可以用于实现上述实施例中所描述的方法,如下面实施例所述。由于该基于词串长度的意图识别系统解决问题的原理与基于词串长度的意图识别方法相似,因此基于词串长度的意图识别系统的实施可以参见基于词串长度的意图识别方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
如图4所示,本发明实施例提供的一种基于词串长度的意图识别系统包括:
数据层1,用于根据识别框架TOPVM查出问句对应所述识别框架的要素词;
处理层2,用于将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的目标词串进行匹配;
应用层3,用于意图识别结果的输出。
具体地,所述数据层1包括:
问句语料库1-1,用来记录问句相关信息,问句相关信息包括序号、问句来源以及问句;所述问句语料库1-1的格式如表3所示,包含序号、问句来源以及问句3个部分,用来记录问句相关信息,这些信息可以扩展如增加地域、提问人等信息,为未来进行更精准的问答做准备。
表3
第一要素字典1-2,包括字典代码和要素的实例值;所述第一要素字典1-2的格式如表1所示,每列有一个字典代码和它的实例值,其中还包含了1列计算结果Q及其实例。在各字典中,T字典有正则和非正则2种形式,正则是将数字用\d代替实现的,\d代表0-9的数字。在M字典中,包含文字和对应的数学方法,用”/”分开。
问答意图知识库1-3,包括问句目标词串和问答意图解析。所述问答意图知识库1-3的格式如表2所示,包含问句目标词串和问答意图解析2列,其中的问答意图解析包括用“@@@”隔开的2部分,前面是框架(问答意图)的名称,后面为答句模板。
具体地,所述处理层2包括:
正则符号处理模块2-1,用于对输入问句中出现的和正则运算可能混淆的符号进行替换和恢复;具体做法是赋予正则符号如”:()+.?-“等各一个不同的字符串,在对问句进行分析的时候,首先用这个字符串替代这些正则字符串,使得对替代后的句子进行正则处理时,这个字符串保持不变,当处理完之后,然后再把相应的字符串恢复为原来的字符;
框架要素匹配模块2-2,根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素字典;框架要素匹配模块2-2的功能是从表2中读出TOPVM字典,然后分别查找句子中包含该要素的所有要素字符串;
字典排序模块2-3,按照组合词串长度的顺序将所述第一要素字典合并,得到带有组合长度顺序信息的第二要素字典;字典排序模块2-3的功能是首先按照TOPVM等5个元素的顺序进行组合,按照5个元素的总长度进行倒排序,总长度长的放在前面,然后按照这个排序挑选框架要素匹配模块2-2中所得到的TOPV所有字符串,直到挑完为止,构造出包含(要素字符串→要素代号)二元组的第二要素字典。
问答意图匹配模块2-4,根据所述第二要素字典递增地替换原句中相应的要素,得到候选词串,并和问答意图知识库的目标词串进行匹配得到意图识别结果。按照第二要素字典词串长度的顺序,不断递增改写原问句、构造候选框架目标字符串,和问答意图知识库表2中的索引条目进行匹配,找出正确的意图知识库条目、意图框架名称、答句模板,以及框架要素TOPVM的具体值。
具体地,所述应用层3包括:
问句分析模块3-1,用于读入问句列表,并把意图识别结果进行输出。
基于同一发明构思,本申请实施例还提供了一种电子设备,图5示出了可以应用本申请实施例的电子设备的结构示意图,如图5所示,该计算机电子设备包括,中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM503中,还存储有系统操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
基于同一发明构思,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中一种基于词串长度的意图识别系统中所包含的计算机可读存储介质;也可以是单独存在,未装配入电子设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的基于词串长度的意图识别的方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.一种基于词串长度的意图识别方法,其特征在于,所述方法包括:
根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素字典;其中,T为时间,O为对象, P为参数,V为数值, M为方法;
将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的目标词串进行匹配得到意图识别结果;
将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串包括:
根据TOPVM的顺序组合构造全部要素组合词串,并按照所述组合词串的长度逆排序;
按照组合词串长度的顺序将所述第一要素字典合并,得到带有组合长度顺序信息的第二要素字典;
根据所述第二要素字典递增地替换原句中相应的要素,得到候选词串;
按照所述组合词串的长度逆排序包括:
将5个要素序列进行笛卡尔扩展,构造出([T,O,P,V,M],len)的二元组序列;
对上述序列按照len进行逆序排列。
2.根据权利要求1所述的意图识别方法,其特征在于,所述意图识别方法还包括:
对所述问句中出现的和正则运算可能混淆的符号进行替换和恢复。
3.一种基于词串长度的意图识别系统,其特征在于,所述识别系统包括:
数据层,用于根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素字典;其中,T为时间,O为对象,P为参数,V为数值,M为方法;将5个要素序列进行笛卡尔扩展,构造出([T,O,P,V,M],len)的二元组序列;对上述序列按照len进行逆序排列;
处理层,用于将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的目标词串进行匹配;
应用层,用于意图识别结果的输出;
所述处理层包括:
正则符号处理模块,用于对输入问句中出现的和正则运算可能混淆的符号进行替换和恢复;
框架要素匹配模块,根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素字典;
字典排序模块,按照组合词串长度的顺序将所述第一要素字典合并,得到带有组合长度顺序信息的第二要素字典;
问答意图匹配模块,根据所述第二要素字典递增地替换原句中相应的要素,得到候选词串,并和问答意图知识库的目标词串进行匹配得到意图识别结果。
4.根据权利要求3所述意图识别系统,其特征在于,所述数据层包括:
问句语料库,用来记录问句相关信息,问句相关信息包括序号、问句来源以及问句;
第一要素字典,包括字典代码和要素的实例值;
问答意图知识库,包括问句目标词串和问答意图解析。
5.根据权利要求3所述意图识别系统,其特征在于,所述应用层包括:
问句分析模块,用于读入问句列表,并把意图识别结果进行输出。
6.一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-2中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如权利要求1-2中任一项所述的方法步骤。
CN202110167645.4A 2021-02-07 2021-02-07 一种基于词串长度的意图识别方法、系统及存储介质 Active CN112800778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110167645.4A CN112800778B (zh) 2021-02-07 2021-02-07 一种基于词串长度的意图识别方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110167645.4A CN112800778B (zh) 2021-02-07 2021-02-07 一种基于词串长度的意图识别方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN112800778A CN112800778A (zh) 2021-05-14
CN112800778B true CN112800778B (zh) 2023-07-18

Family

ID=75814584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110167645.4A Active CN112800778B (zh) 2021-02-07 2021-02-07 一种基于词串长度的意图识别方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN112800778B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318557A (ja) * 2003-04-17 2004-11-11 Fuji Xerox Co Ltd 業務プロセス設計支援装置
CN109165273A (zh) * 2018-08-24 2019-01-08 安徽讯飞智能科技有限公司 一种面向大数据环境的通用中文地址匹配方法
CN110390006A (zh) * 2019-07-23 2019-10-29 腾讯科技(深圳)有限公司 问答语料生成方法、装置和计算机可读存储介质
CN110929501A (zh) * 2019-11-21 2020-03-27 苏州跃盟信息科技有限公司 文本分析方法和装置
CN111382253A (zh) * 2020-03-02 2020-07-07 苏州思必驰信息科技有限公司 语义解析方法及语义解析器
CN111708874A (zh) * 2020-08-24 2020-09-25 湖南大学 基于复杂意图智能识别的人机交互问答方法与系统
CN111930906A (zh) * 2020-07-29 2020-11-13 北京北大软件工程股份有限公司 基于语义块的知识图谱问答方法及装置
CN112069298A (zh) * 2020-07-31 2020-12-11 杭州远传新业科技有限公司 基于语义网和意图识别的人机交互方法、设备及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318557A (ja) * 2003-04-17 2004-11-11 Fuji Xerox Co Ltd 業務プロセス設計支援装置
CN109165273A (zh) * 2018-08-24 2019-01-08 安徽讯飞智能科技有限公司 一种面向大数据环境的通用中文地址匹配方法
CN110390006A (zh) * 2019-07-23 2019-10-29 腾讯科技(深圳)有限公司 问答语料生成方法、装置和计算机可读存储介质
CN110929501A (zh) * 2019-11-21 2020-03-27 苏州跃盟信息科技有限公司 文本分析方法和装置
CN111382253A (zh) * 2020-03-02 2020-07-07 苏州思必驰信息科技有限公司 语义解析方法及语义解析器
CN111930906A (zh) * 2020-07-29 2020-11-13 北京北大软件工程股份有限公司 基于语义块的知识图谱问答方法及装置
CN112069298A (zh) * 2020-07-31 2020-12-11 杭州远传新业科技有限公司 基于语义网和意图识别的人机交互方法、设备及介质
CN111708874A (zh) * 2020-08-24 2020-09-25 湖南大学 基于复杂意图智能识别的人机交互问答方法与系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Legal Question Answering System Using FrameNet;Ryosuke Taniguchi 等;JSAI-isAI 2018;193-206 *
基于本体的领域自动问答系统研究;朱淑媛;罗 军;计算机应用与软件;第36卷(第8期);98-105,154 *
面向问题分类的汉语框架网特征选择;王文晶;宋小香;李茹;计算机与现代化(第8期);9-12,16 *

Also Published As

Publication number Publication date
CN112800778A (zh) 2021-05-14

Similar Documents

Publication Publication Date Title
CN110321432B (zh) 文本事件信息提取方法、电子装置和非易失性存储介质
CN110399457B (zh) 一种智能问答方法和系统
CN110532397B (zh) 基于人工智能的问答方法、装置、计算机设备及存储介质
CN111125331A (zh) 语义识别方法、装置、电子设备及计算机可读存储介质
CN112364660B (zh) 语料文本处理方法、装置、计算机设备及存储介质
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
CN109522397B (zh) 信息处理方法及装置
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
CN115062134B (zh) 知识问答模型训练及知识问答方法、装置和计算机设备
CN113468887A (zh) 基于边界与片段分类的学者信息关系抽取方法和系统
CN117453851B (zh) 基于知识图谱的文本索引增强问答方法及系统
CN116070602B (zh) 一种pdf文档智能标注与抽取方法
CN113360654A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN108664464B (zh) 一种语义相关度的确定方法及确定装置
CN116776879A (zh) 一种挖掘招聘领域技能实体的方法、系统及设备
Wu et al. Deep learning models for spatial relation extraction in text
CN118260393A (zh) 基于大模型的垂直领域的问答方法及系统
CN117077679A (zh) 命名实体识别方法和装置
CN117271558A (zh) 语言查询模型构建方法、查询语言获取方法及相关装置
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
CN111738008A (zh) 基于多层模型的实体识别方法、装置、设备及存储介质
CN112800778B (zh) 一种基于词串长度的意图识别方法、系统及存储介质
CN114896382A (zh) 人工智能问答模型生成方法、问答方法、装置及存储介质
Liu et al. Recognizing proper names in ur iii texts through supervised learning
CN114548049A (zh) 一种数字正则化方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant