CN112800778A - 一种基于词串长度的意图识别方法、系统及存储介质 - Google Patents

一种基于词串长度的意图识别方法、系统及存储介质 Download PDF

Info

Publication number
CN112800778A
CN112800778A CN202110167645.4A CN202110167645A CN112800778A CN 112800778 A CN112800778 A CN 112800778A CN 202110167645 A CN202110167645 A CN 202110167645A CN 112800778 A CN112800778 A CN 112800778A
Authority
CN
China
Prior art keywords
question
intention
dictionary
recognition
topvm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110167645.4A
Other languages
English (en)
Other versions
CN112800778B (zh
Inventor
刘伟华
谭培波
柳晶晶
侯志强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhitong Yunlian Technology Co Ltd
Original Assignee
Beijing Zhitong Yunlian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhitong Yunlian Technology Co Ltd filed Critical Beijing Zhitong Yunlian Technology Co Ltd
Priority to CN202110167645.4A priority Critical patent/CN112800778B/zh
Publication of CN112800778A publication Critical patent/CN112800778A/zh
Application granted granted Critical
Publication of CN112800778B publication Critical patent/CN112800778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于词串长度的意图识别方法、系统、电子设备及存储介质,涉及意图识别技术领域,所述意图识别方法根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素字典;其中,T为时间,O为对象,P为参数,V为数值,M为方法;将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的目标词串进行匹配得到意图识别结果,能够快速进行意图识别,满足问答系统对实时性的要求。

Description

一种基于词串长度的意图识别方法、系统及存储介质
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于词串长度的意图识别方 法、系统、电子设备及存储介质。
背景技术
随着人工智能技术的快速发展,人机对话技术在日常生活中的应用也越来 越广泛,人机对话技术中最关键的是用户意图的识别,即识别用户输入的问句 所表达的意图,在人机会话过程中,需要准确把握对话过程中的用户意图,即 对于用户输入的一句话,通过意图识别技术确定用户期望完成的任务是什么, 可见意图识别决定了能否智能、准确地与用户进行交互。
现有技术中,由于计算量过大,计算速度不能满足现场问答对实时性的要 求。
发明内容
本发明的目的在于提供一种基于词串长度的意图识别方法、系统、电子设 备及存储介质,能够快速的进行意图识别。
第一方面,本发明实施例提供了一种基于词串长度的意图识别方法,包括 以下步骤:
根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素 字典;其中,T为时间,O为对象,P为参数,V为数值,M为方法;
将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的 TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的 目标词串进行匹配得到意图识别结果。
可选地,将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相 对较长的TOPVM的组合优先进行替换,得到候选词串包括:
根据TOPVM的顺序组合构造全部要素组合词串,并按照所述组合词串的 长度逆排序;
按照组合词串长度的顺序将所述第一要素字典合并,得到带有组合长度顺 序信息的第二要素字典;
根据所述第二要素字典递增地替换原句中相应的要素,得到候选词串。
可选地,所述意图识别方法还包括:
对所述问句中出现的和正则运算可能混淆的符号进行替换和恢复。
可选地,按照所述组合词串的长度逆排序包括:
将5个要素序列进行笛卡尔扩展,构造出([T,O,P,V,M],len)的二元组序列;
对上述序列按照len进行逆序排列。
第二方面,本发明实施例提供了基于词串长度的意图识别系统,所述识别 系统包括:
数据层,用于根据识别框架TOPVM查出问句对应所述识别框架的要素词;
处理层,用于将所述要素词按照TOPVM的组合顺序按照长度进行排列, 对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答 意图知识库的目标词串进行匹配;
应用层,用于意图识别结果的输出。
可选地,所述数据层包括:
问句语料库,用来记录问句相关信息,问句相关信息包括序号、问句来源 以及问句;
第一要素字典,包括字典代码和要素的实例值;
问答意图知识库,包括问句目标词串和问答意图解析。
可选地,所述处理层包括:
正则符号处理模块,用于对输入问句中出现的和正则运算可能混淆的符号 进行替换和恢复;
框架要素匹配模块,根据识别框架TOPVM查出问句对应所述识别框架的 要素词得到第一要素字典;
字典排序模块,按照组合词串长度的顺序将所述第一要素字典合并,得到 带有组合长度顺序信息的第二要素字典;
问答意图匹配模块,根据所述第二要素字典递增地替换原句中相应的要素, 得到候选词串,并和问答意图知识库的目标词串进行匹配得到意图识别结果。
可选地,所述应用层包括:
问句分析模块,用于读入问句列表,并把意图识别结果进行输出。
第三方面,本发明实施例提供了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现上述的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计 算机指令,该指令被处理器执行时实现上述方法的步骤。
有益效果
本发明提出了一种基于词串长度的意图识别方法,根据识别框架TOPVM 查出问句对应所述识别框架的要素词得到第一要素字典;其中,T为时间,O 为对象,P为参数,V为数值,M为方法;将所述要素词按照TOPVM的组 合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到 候选词串,并和预建的问答意图知识库的目标词串进行匹配得到意图识别结果, 能够快速进行意图识别,满足问答系统对实时性的要求。
附图说明
图1为本发明实施例的一种基于词串长度的意图识别方法的流程图;
图2为图1中步骤S40所述方法的流程图;
图3为发明实施例的一种基于词串长度的意图识别方法的流程图;
图4为发明实施例的一种基于词串长度的意图识别系统的结构框图;
图5为本发明实施例的一种电子设备的结构框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所 描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的 实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
术语"第一"、"第二"仅用于描述目的,而不能理解为指示或暗示相对重要 性或者隐含指明所指示的技术特征的数量。由此,限定有"第一"、"第二"的特 征可以明示或者隐含地包括一个或者更多个所述特征。对于本领域的普通技术 人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在问句框架意图识别中,有两个任务,其一识意图别框架名称,其二是识 别框架要素。在基于句式框架的问答意图识别中[问句框架F一般由TOPVM(T→ 时间,O→对象,P→参数,V→值,M→方法)等5个框架元素及其分层构成], 句子的框架目标词是一个含有英文字母的虚词实词结合在一起的混合词串,该 词串并不是问句的的一部分,例如问句“大湾404-2H井2013年4月18日同比 2013年4月17日产水量减少多少”的框架目标词串是“OTP减少多少”,“OTP 减少多少”并不是问句“大湾404-2H井2013年4月18日同比2013年4月17 日产水量减少多少”的任何一部分,因此,不能用词串匹配的方式实现句子意 图名称的识别,而必须采用跟改写句子、构造词串同样的方式,根据所有框架 要素字典对句子进行改写,构造出所有可能的框架目标词串,然后和问答意图 知识库中的意图条目进行比对,从而实现句子意图和意图框架要素的识别。
由于要素字典一般数量在10万量级,考虑到要素之间复杂的包含关系,能 够组合出来的候选目标词串数量巨大,比如“大湾404-2H井2013年4月18 日同比2013年4月17日产水量减少多少”能够查找出的TOPVM要素为47个, 要素之间有非常复杂的多重包含关系,如对象的“大湾404-2H/404-2H井”、 时间的“2013年4月18日/13年4月18日/2013年4月18/2013年4月/13 年4月/2013年/13年/2013/4月”是一个复杂的层次包含关系,“2013/013/13” 同时是时间也是对象,具有多语义关系;这47个要素词能组成的可能目标词串 是2898种,而如果和一个包含1万条记录的意图知识库进行比较的话,其计算 速度不能满足现场问答对实时性的要求。
据此,为了快速意图识别,本发明提出一种基于词串长度的意图识别方法, 核心思想是根据人认识事物的简单性原则,如果改写后的包含虚词和实词的目 标词串越短就越接近人的正确认知。
下面结合附图说明和具体实施例对本发明作进一步描述:
图1示出了本发明实施例的基于词串长度的快速意图识别方法的流程图; 如图1所示,所述基于词串长度的快速意图识别方法包括以下步骤:
S20、根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一 要素字典;其中,T为时间,O为对象,P为参数,V为数值,M为方法;
由于只重构问句,因此只需按照TOPVM的顺序,将句子中找到的相应的要 素词叠加上去,就能得到第一要素字典,例如句子“中国人在北京城的哪个方 位”,按照要素字典T=[中国人,韩国],O=[北京城,北京]在要素代号T中可 以找到1个元素[中国人],没有其他的,那就只有1个;对于O字典,句子中 找到一个[北京人],然后又找到1个[北京],则把第2个叠在在第一个上面形 成一个数组[北京人,北京]来做处理;
所述第一要素字典是一个(要素词→要素代号)的二元组序列,如表1所 示。
表1
Figure BDA0002937962340000061
如表1所示,每列有一个字典代码和它的实例值,其中还包含了1列计算 结果Q及其实例。在各字典中,T字典有正则和非正则2种形式,正则是将数 字用\d代替实现的,\d代表0-9的数字。在M字典中,包含文字和对应的数学 方法,用”/”分开.
表2
问句的目标词串 问答意图解析
井O的P是啥? F101@@@井O的P是Q。
从O号到T,OP多少 F111@@@从O号到T,OPQ。
从TO的P是多少? F111@@@从TO的P是Q。
对于T来说OP的数是多少 F111@@@对于T来说OP的数是Q。
开发单元OT的P是多少 F111@@@开发单元OT的P是Q。
总共有多少O在O F201@@@总共有QO在O。
总共有多少O在V F102@@@总共有QO在V。
总共有多少V在O F102@@@总共有QV在O。
我想知道O的P F101@@@O的P是Q。
有哪些O位于O? F201@@@有QO位于O。
有哪些O在O? F201@@@有QO在O?。
有哪些O在O F201@@@有QO在O。
有多少O位于O? F201@@@有QO位于O。
有多少O在O F201@@@有QO在O。
O有多少O F201@@@O有QO。
O的P是多少? F101@@@O的P是Q。
O的P是多少 F101@@@O的P是Q。
O的PT增加还是减少 F111@@@O的PT是Q。
OP F101@@@OP是Q。
所述问答意图知识库的格式如表2所示,包含问句目标词串和问答意图解 析2列,其中的问答意图解析包括用“@@@”隔开的2部分,前面是框架(问答 意图)的名称,后面为答句模板。
S40、将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较 长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识 库的目标词串进行匹配得到意图识别结果。和问答意图知识库表2中的索引条 目进行匹配,找出正确的意图知识库条目、意图框架名称、答句模板,以及框 架要素TOPVM的具体值。
本实施例根据识别框架TOPVM查出问句对应所述识别框架的要素词得到 第一要素字典;其中,T为时间,O为对象,P为参数,V为数值,M为方 法;将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的 TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的 目标词串进行匹配得到意图识别结果,能够快速进行意图识别,满足问答系统 对实时性的要求。
在一些实施例中,如图2所示,将所述要素词按照TOPVM的组合顺序按 照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串 包括:
S401、根据TOPVM的顺序组合构造全部要素组合词串,并按照所述组合 词串的长度逆排序;
S402、按照组合词串长度的顺序将所述第一要素字典合并,得到带有组合 长度顺序信息的第二要素字典;
S403、根据所述第二要素字典递增地替换原句中相应的要素,得到候选词 串。
例如,将TO=[中国人*北京城,韩国*北京,中国人*北京,韩国*北京城], 这副字典按照字典长度进行排序成TO=[中国人*北京城(6),中国人*北京(5), 韩国*北京城(5),韩国*北京(4)],句子“中国人在北京城的哪个方位”从 TO字典的第1个最长的词串往最小的词串依次替换,第1次替换为“T在O的 哪个方位”(T:中国人,O→北京城)
第2词替换为“T在O城的哪个方位”(T:中国人,O→北京)
第3词替换为“中国人在O的哪个方位”(O→北京城)
第4词替换为“中国人在O城的哪个方位”(O→北京)
在问句意图知识库中存在只有“T在O的哪个方位”这句查得到有标注, 所以,在第一次查到之后第2往后的替换就不再进行了,这样替换的最长得到 的句子最短,又通过字典进行挑选,从理论和实践2方面实现快速意图识别。
具体地,所述意图识别方法还包括:
对所述问句中出现的和正则运算可能混淆的符号进行替换和恢复。将句子 和字典中的”:()+.?-“等正则运算混淆字符替换为一个符号,在对句子进行 正则处理的时候,使得原原始字符不受运算影响,通过建立一个对应字符字典 re_dic={'\(':r'@@@1@@@',r'\)':r'@@@2@@@',r'\+':r'@@@3@@@',r'\-':r'@@ @4@@@',r'\?':r'@@@5@@@',r'\.':r'@@@6@@@'}实现替换。
具体地,按照所述组合词串的长度逆排序包括:
构建(TOPVM→len(TOPVM)序列;
将5个要素序列进行笛卡尔扩展,构造出([T,O,P,V,M],len)的二元组序列;
对上述序列按照len进行逆序排列,对上述序列按照len进行逆序排列, 长度越长越往前排。
下面以一较优的实施例对本发明所述基于词串长度的意图识别方法的有益 效果进行说明:
如图3所示,本发明所述基于词串长度的意图识别方法包括以下步骤:
步骤1:读入框架要素字典和问答意图知识库;
框架要素字典按照TOPVMQ的顺序读入之后分别分解为6个序列,因为每个 要素的长短不一样,其每一行之间也没有内在的联系,因此不采用表单形式进 行统一处理,意图知识库的格式如表2所示,其索引是原问句改写出来的问句 框架目标词串。
步骤2:读入问句文件;
读入表3形式的问句,只取其中的问句内容项。一般在专用的问答系统中, 句末有没有问好都视为一个问句,因此在处理的时候可以先省去问号。
步骤3:构造句子中第一要素字典(字典1);
由于只重构问句,因此只需按照TOPVM的顺序,将句子中找到的相应的要 素词叠加上去,就能得到第一要素字典(字典1),所述第一要素字典(字典1) 是一个(要素词→要素代号)的二元组序列。
步骤4:对第一要素字典(字典1)按照长度重新排序;
该步骤包含步骤4-1到4-4,通过构建一个专门的排序方法,实现这些词 按照TOPVM的的组合长度顺序由长到短进行排序。总的组合数量5种要素个数 的乘积,假定句子按照各要素最多出现1次为最主要的句子形式。
步骤4-1:构建(TOPVM→len(TOPVM)序列;
首先构造5级循环,将5个要素序列进行笛卡尔扩展,构造出 ([T,O,P,V,M],len)的二元组序列。
步骤4-2:TOPVM按照长度逆排序;
对上述序列按照len进行逆序排列,长度越长越往前排。
步骤4-3:整理得到第二要素字典(字典2),将[T,O,P,V,M]的2维序列 压平为一维序列,由于扩展的缘故,一维序列中有很多是重复的,将这个序列 定义为第二要素字典(字典2)。
然后对有序第二要素字典(字典2)中的每一个要素,都实现一次包含4-4 的更新。
步骤4-4:第一要素字典(字典1)进行替换;
在本步骤中,第一要素字典(字典1)的顺序直到第一要素字典调整完为 止。
步骤5:对于第一要素字典(字典1)的每一个词进行处理;
本步骤包含步骤6-11构成的对每一个排序后的第二要素字典(字典2)进 行处理的循环,第二要素字典(字典2)带有了TOPVM的长度信息,能够最大 可能地用要素编号替代掉原问句,使得构造的意图框架目标词串最短,最符合 人的认知简单性习惯。
步骤6:对候选集中所有句子进行替换;
本步骤包含步骤7-11,整个候选框架目标词串的扩充和替换。对于所有之 前改写的句子,在增加新的字典的时候,都有可能有新的替换从而实现新的缩 短了的目标词串,所以本步骤的候选目标词串集合是一个累级的集合,包含了 原问句以及所有替换后的句子。
步骤7:查找是否在意图知识库;
这是结束循环的判断条件,由于意图知识库的框架目标词串是唯一的,因 此只要匹配上,就没有必要检查余下的知识库条目。
步骤8:句子和字典的正则替换
将句子和字典中的”:()+.?-“等正则运算混淆字符替换为一个符号,在 对句子进行正则处理的时候,使得原原始字符不受运算影响,这是通过建立一 个对应字符字典
re_dic={'\(':r'@@@1@@@', r'\)':r'@@@2@@@',r'\+':r'@@@3@@@',r'\-':r'@@@4@@@',r'\?':r'@@@5@@@', r'\.':r'@@@6@@@'}实现替换。
步骤9:句子改写;
对选定句子中出现的框架要素字符用相应的代号替换,需要注意的是,对 于句子中有多个相同框架要素的情况,每次只能替换1个,不能全部替换。
步骤10:句子和字典正则恢复;
这是步骤8的逆过程,将re_dic中的右字符换成左边字符,就恢复了句子 和字典的原始字符状态。
步骤11:改写句子加入候选句集合;
将改写后的句子加入候选目标词串集合中,去重,然后分别进入返回3重 循环,候选目标词串、排序字典和下一句。在这里还要加入相应的框架要素 TOPVM所对应的实际值。
步骤12:输出匹配结果;
将每个问句查找的意图知识条目,和步骤11得到的框架要素信息合成一起 输出。
本实施例根据识别框架TOPVM查出问句对应所述识别框架的要素词得到 第一要素字典;将所述要素词按照TOPVM的组合顺序按照长度进行排列,对 相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意 图知识库的目标词串进行匹配得到意图识别结果;符合人对自然语言语义认知 的简单性原则,实际测试得到的查找知识库效率平均提高100倍以上,能够满 足问答系统对实时性的要求,比如“大湾404-2H井2013年4月18日同比2013 年4月17日产水量减少多少”这一句,传统方法需要2898次的查询操作,在优化之后只需要9次就能完成查询。
基于同一发明构思,本申请实施例还提供了一种基于词串长度的意图识别 系统,可以用于实现上述实施例中所描述的方法,如下面实施例所述。由于该 基于词串长度的意图识别系统解决问题的原理与基于词串长度的意图识别方法 相似,因此基于词串长度的意图识别系统的实施可以参见基于词串长度的意图 识别方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块” 可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳 地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想 的。
如图4所示,本发明实施例提供的一种基于词串长度的意图识别系统包括:
数据层1,用于根据识别框架TOPVM查出问句对应所述识别框架的要素 词;
处理层2,用于将所述要素词按照TOPVM的组合顺序按照长度进行排列, 对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答 意图知识库的目标词串进行匹配;
应用层3,用于意图识别结果的输出。
具体地,所述数据层1包括:
问句语料库1-1,用来记录问句相关信息,问句相关信息包括序号、问句来 源以及问句;所述问句语料库1-1的格式如表3所示,包含序号、问句来源以 及问句3个部分,用来记录问句相关信息,这些信息可以扩展如增加地域、提 问人等信息,为未来进行更精准的问答做准备。
表3
Figure BDA0002937962340000121
第一要素字典1-2,包括字典代码和要素的实例值;所述第一要素字典1-2 的格式如表1所示,每列有一个字典代码和它的实例值,其中还包含了1列计 算结果Q及其实例。在各字典中,T字典有正则和非正则2种形式,正则是将 数字用\d代替实现的,\d代表0-9的数字。在M字典中,包含文字和对应的数 学方法,用”/”分开。
问答意图知识库1-3,包括问句目标词串和问答意图解析。所述问答意图知 识库1-3的格式如表2所示,包含问句目标词串和问答意图解析2列,其中的 问答意图解析包括用“@@@”隔开的2部分,前面是框架(问答意图)的名称, 后面为答句模板。
具体地,所述处理层2包括:
正则符号处理模块2-1,用于对输入问句中出现的和正则运算可能混淆的符 号进行替换和恢复;具体做法是赋予正则符号如”:()+.?-“等各一个不同的 字符串,在对问句进行分析的时候,首先用这个字符串替代这些正则字符串, 使得对替代后的句子进行正则处理时,这个字符串保持不变,当处理完之后, 然后再把相应的字符串恢复为原来的字符;
框架要素匹配模块2-2,根据识别框架TOPVM查出问句对应所述识别框架 的要素词得到第一要素字典;框架要素匹配模块2-2的功能是从表2中读出 TOPVM字典,然后分别查找句子中包含该要素的所有要素字符串;
字典排序模块2-3,按照组合词串长度的顺序将所述第一要素字典合并, 得到带有组合长度顺序信息的第二要素字典;字典排序模块2-3的功能是首先 按照TOPVM等5个元素的顺序进行组合,按照5个元素的总长度进行倒排序, 总长度长的放在前面,然后按照这个排序挑选框架要素匹配模块2-2中所得到 的TOPV所有字符串,直到挑完为止,构造出包含(要素字符串→要素代号)二 元组的第二要素字典。
问答意图匹配模块2-4,根据所述第二要素字典递增地替换原句中相应的 要素,得到候选词串,并和问答意图知识库的目标词串进行匹配得到意图识别 结果。按照第二要素字典词串长度的顺序,不断递增改写原问句、构造候选框 架目标字符串,和问答意图知识库表2中的索引条目进行匹配,找出正确的意 图知识库条目、意图框架名称、答句模板,以及框架要素TOPVM的具体值。
具体地,所述应用层3包括:
问句分析模块3-1,用于读入问句列表,并把意图识别结果进行输出。
基于同一发明构思,本申请实施例还提供了一种电子设备,图5示出了可 以应用本申请实施例的电子设备的结构示意图,如图5所示,该计算机电子设 备包括,中央处理单元(CPU)501,其可以根据存储在只读存储器(ROM) 502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程 序而执行各种适当的动作和处理。在RAM503中,还存储有系统操作所需的各 种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输 入/输出(I/O)接口505也连接至总线504。
以下部件连接至I/O接口505:包括键盘、鼠标等的输入部分506;包括诸 如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507; 包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口 卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动 器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁 光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出 的计算机程序根据需要被安装入存储部分508。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和 计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或 框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、 程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行 指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以 以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可 以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程 图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统 来实现,或者可以用专用硬件与计算机指令的组合来实现。
基于同一发明构思,本申请实施例还提供了一种计算机可读存储介质,该 计算机可读存储介质可以是上述实施例中一种基于词串长度的意图识别系统 中所包含的计算机可读存储介质;也可以是单独存在,未装配入电子设备中 的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程 序,所述程序被一个或者一个以上的处理器用来执行描述于本申请的基于词 串长度的意图识别的方法。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者 对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相 应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于词串长度的意图识别方法,其特征在于,所述方法包括:
根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素字典;其中,T为时间,O为对象,P为参数,V为数值,M为方法;
将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的目标词串进行匹配得到意图识别结果。
2.根据权利要求1所述意图识别方法,其特征在于,将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串包括:
根据TOPVM的顺序组合构造全部要素组合词串,并按照所述组合词串的长度逆排序;
按照组合词串长度的顺序将所述第一要素字典合并,得到带有组合长度顺序信息的第二要素字典;
根据所述第二要素字典递增地替换原句中相应的要素,得到候选词串。
3.根据权利要求1或2所述的意图识别方法,其特征在于,所述意图识别方法还包括:
对所述问句中出现的和正则运算可能混淆的符号进行替换和恢复。
4.根据权利要求1或2所述的意图识别方法,其特征在于,按照所述组合词串的长度逆排序包括:
将5个要素序列进行笛卡尔扩展,构造出([T,O,P,V,M],len)的二元组序列;
对上述序列按照len进行逆序排列。
5.一种基于词串长度的意图识别系统,其特征在于,所述识别系统包括:
数据层,用于根据识别框架TOPVM查出问句对应所述识别框架的要素词;
处理层,用于将所述要素词按照TOPVM的组合顺序按照长度进行排列,对相对较长的TOPVM的组合优先进行替换,得到候选词串,并和预建的问答意图知识库的目标词串进行匹配;
应用层,用于意图识别结果的输出。
6.根据权利要求5所述意图识别系统,其特征在于,所述数据层包括:
问句语料库,用来记录问句相关信息,问句相关信息包括序号、问句来源以及问句;
第一要素字典,包括字典代码和要素的实例值;
问答意图知识库,包括问句目标词串和问答意图解析。
7.根据权利要求5所述意图识别系统,其特征在于,所述处理层包括:
正则符号处理模块,用于对输入问句中出现的和正则运算可能混淆的符号进行替换和恢复;
框架要素匹配模块,根据识别框架TOPVM查出问句对应所述识别框架的要素词得到第一要素字典;
字典排序模块,按照组合词串长度的顺序将所述第一要素字典合并,得到带有组合长度顺序信息的第二要素字典;
问答意图匹配模块,根据所述第二要素字典递增地替换原句中相应的要素,得到候选词串,并和问答意图知识库的目标词串进行匹配得到意图识别结果。
8.根据权利要求5所述意图识别系统,其特征在于,所述应用层包括:
问句分析模块,用于读入问句列表,并把意图识别结果进行输出。
9.一种电子设备,包括:
存储器,其上存储有计算机程序;
处理器,用于执行所述存储器中的所述计算机程序,以实现权利要求1-4中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如权利要求1-4中任一项所述的方法步骤。
CN202110167645.4A 2021-02-07 2021-02-07 一种基于词串长度的意图识别方法、系统及存储介质 Active CN112800778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110167645.4A CN112800778B (zh) 2021-02-07 2021-02-07 一种基于词串长度的意图识别方法、系统及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110167645.4A CN112800778B (zh) 2021-02-07 2021-02-07 一种基于词串长度的意图识别方法、系统及存储介质

Publications (2)

Publication Number Publication Date
CN112800778A true CN112800778A (zh) 2021-05-14
CN112800778B CN112800778B (zh) 2023-07-18

Family

ID=75814584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110167645.4A Active CN112800778B (zh) 2021-02-07 2021-02-07 一种基于词串长度的意图识别方法、系统及存储介质

Country Status (1)

Country Link
CN (1) CN112800778B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318557A (ja) * 2003-04-17 2004-11-11 Fuji Xerox Co Ltd 業務プロセス設計支援装置
CN109165273A (zh) * 2018-08-24 2019-01-08 安徽讯飞智能科技有限公司 一种面向大数据环境的通用中文地址匹配方法
CN110390006A (zh) * 2019-07-23 2019-10-29 腾讯科技(深圳)有限公司 问答语料生成方法、装置和计算机可读存储介质
CN110929501A (zh) * 2019-11-21 2020-03-27 苏州跃盟信息科技有限公司 文本分析方法和装置
CN111382253A (zh) * 2020-03-02 2020-07-07 苏州思必驰信息科技有限公司 语义解析方法及语义解析器
CN111708874A (zh) * 2020-08-24 2020-09-25 湖南大学 基于复杂意图智能识别的人机交互问答方法与系统
CN111930906A (zh) * 2020-07-29 2020-11-13 北京北大软件工程股份有限公司 基于语义块的知识图谱问答方法及装置
CN112069298A (zh) * 2020-07-31 2020-12-11 杭州远传新业科技有限公司 基于语义网和意图识别的人机交互方法、设备及介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004318557A (ja) * 2003-04-17 2004-11-11 Fuji Xerox Co Ltd 業務プロセス設計支援装置
CN109165273A (zh) * 2018-08-24 2019-01-08 安徽讯飞智能科技有限公司 一种面向大数据环境的通用中文地址匹配方法
CN110390006A (zh) * 2019-07-23 2019-10-29 腾讯科技(深圳)有限公司 问答语料生成方法、装置和计算机可读存储介质
CN110929501A (zh) * 2019-11-21 2020-03-27 苏州跃盟信息科技有限公司 文本分析方法和装置
CN111382253A (zh) * 2020-03-02 2020-07-07 苏州思必驰信息科技有限公司 语义解析方法及语义解析器
CN111930906A (zh) * 2020-07-29 2020-11-13 北京北大软件工程股份有限公司 基于语义块的知识图谱问答方法及装置
CN112069298A (zh) * 2020-07-31 2020-12-11 杭州远传新业科技有限公司 基于语义网和意图识别的人机交互方法、设备及介质
CN111708874A (zh) * 2020-08-24 2020-09-25 湖南大学 基于复杂意图智能识别的人机交互问答方法与系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
RYOSUKE TANIGUCHI 等: "Legal Question Answering System Using FrameNet", JSAI-ISAI 2018, pages 193 - 206 *
朱淑媛;罗 军: "基于本体的领域自动问答系统研究", 计算机应用与软件, vol. 36, no. 8, pages 98 - 105 *
王文晶;宋小香;李茹: "面向问题分类的汉语框架网特征选择", 计算机与现代化, no. 8, pages 9 - 12 *

Also Published As

Publication number Publication date
CN112800778B (zh) 2023-07-18

Similar Documents

Publication Publication Date Title
CN110321432B (zh) 文本事件信息提取方法、电子装置和非易失性存储介质
CN110399457B (zh) 一种智能问答方法和系统
CN106649783B (zh) 一种同义词挖掘方法和装置
CN111709243B (zh) 一种基于深度学习的知识抽取方法与装置
CN110532397B (zh) 基于人工智能的问答方法、装置、计算机设备及存储介质
JP2726568B2 (ja) 文字認識方法及び装置
CN112818093B (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
CN111324771B (zh) 视频标签的确定方法、装置、电子设备及存储介质
TW201841121A (zh) 一種自動生成語義相近句子樣本的方法
CN109522397B (zh) 信息处理方法及装置
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
CN117076653B (zh) 基于思维链及可视化提升上下文学习知识库问答方法
CN113220864B (zh) 智能问答数据处理系统
CN112417119A (zh) 一种基于深度学习的开放域问答预测方法
CN117688163B (zh) 基于指令微调和检索增强生成的在线智能问答方法及装置
CN117077679B (zh) 命名实体识别方法和装置
CN117271558A (zh) 语言查询模型构建方法、查询语言获取方法及相关装置
CN116776879A (zh) 一种挖掘招聘领域技能实体的方法、系统及设备
CN112800778A (zh) 一种基于词串长度的意图识别方法、系统及存储介质
CN115879450A (zh) 一种逐步文本生成方法、系统、计算机设备及存储介质
JP2609196B2 (ja) 類似度計算装置
CN114896382A (zh) 人工智能问答模型生成方法、问答方法、装置及存储介质
CN117725087B (zh) 一种基于重排序的代码搜索去偏差方法及系统
CN112988952B (zh) 一种多层级长文本向量检索方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant