CN109492222B - 基于概念树的意图识别方法、装置及计算机设备 - Google Patents

基于概念树的意图识别方法、装置及计算机设备 Download PDF

Info

Publication number
CN109492222B
CN109492222B CN201811285537.1A CN201811285537A CN109492222B CN 109492222 B CN109492222 B CN 109492222B CN 201811285537 A CN201811285537 A CN 201811285537A CN 109492222 B CN109492222 B CN 109492222B
Authority
CN
China
Prior art keywords
intention
word
keyword
target
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811285537.1A
Other languages
English (en)
Other versions
CN109492222A (zh
Inventor
严海锐
周宝
王健宗
肖京
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN201811285537.1A priority Critical patent/CN109492222B/zh
Priority to PCT/CN2019/070295 priority patent/WO2020087774A1/zh
Publication of CN109492222A publication Critical patent/CN109492222A/zh
Application granted granted Critical
Publication of CN109492222B publication Critical patent/CN109492222B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Robotics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于概念树的意图识别方法、装置及计算机设备,涉及数据分析技术领域,通过构建概念树,概念树包括至少一个层,每一个层包括至少一个意图,每一个意图对应至少一个关键词,每一个关键词设置有相应的权值,将目标语句分词处理为至少一个遍历词,并针对每一个当前遍历词,对概念树中每一个意图对应的关键词进行遍历,并计算当前遍历词与遍历到的每一个关键词的词向量相似度,根据词向量相似度以及每一个关键词的权值,计算目标语句在每一个意图对应的意图分值,根据意图分值以及每一个层的意图阈值,来确定目标语句的意图。本发明无需特定领域的大量训练样本,通过概念树实现关系网络分析,从而可以准确的预估出目标语句的意图。

Description

基于概念树的意图识别方法、装置及计算机设备
技术领域
本发明涉及数据分析技术领域,尤其涉及一种基于概念树的意图识别方法、装置及计算机设备。
背景技术
在服务机器人领域中,机器人可处理特定领域业务咨询业务,在处理咨询业务过程中,机器人能否正确识别用户的意图是机器人能有效给用户提供业务问答回复的重要因素。因此,基于意图识别的研究在不断地发展。
目前,在处理特定领域的意图识别中,大多数使用机器学习或者深度学习的方法对数据进行训练模型,从而进行意图分类。但是,因为应用场景是在特定领域下的意图识别,所以可提供的训练样本相对来说比较少,所以基于机器学习或者深度学习的方法在特定领域下可能会由于数据训练样本较少的原因,训练出来的模型效果不明显或是模型根本不可用。
因此,需要提供一种能够准确识别意图的方法。
发明内容
本发明的目的是提供一种基于概念树的意图识别方法、装置及计算机设备,用于解决现有技术存在的问题。
为实现上述目的,本发明提供一种基于概念树的意图识别方法,包括以下步骤:
步骤01,获取需要进行意图识别的目标语句;
步骤02,对所述目标语句进行分词处理,得到至少一个遍历词;
步骤03,针对每一个当前遍历词,对预先构建的概念树中每一个意图对应的关键词进行遍历,并计算当前遍历词与遍历到的每一个关键词的词向量相似度;其中,所述概念树包括至少一个层,每一个层包括至少一个意图,每一个意图对应至少一个关键词,每一个关键词设置有相应的权值;所述概念树中第N+1层为第N层的子意图,所述概念树中第N层为第N+1层的父意图,N为正整数;
步骤04,根据当前遍历词与遍历到的每一个关键词的词向量相似度,以及遍历到的每一个关键词对应的权值,计算所述目标语句在每一个意图对应的意图分值;
步骤05,根据所述目标语句在每一个意图上对应的意图分值,以及预先设置的每一个层对应的意图阈值,确定所述目标语句对应的意图。
优选地,所述概念树按照如下方式构建:
步骤001,确定用于构建所述概念树第N层的各个意图;
步骤002,获取各个意图分别对应的数据样本;
步骤003,针对每一个意图,将对应的数据样本进行分词处理,得到该意图对应的至少一个待选词,在至少一个待选词中选择该意图对应的关键词;
步骤004,确定每一个关键词对应的权值,将确定的权值配置给相应的关键词;
步骤005,判断每一个当前意图是否包括子意图,若包括子意图,则确定用于构建所述概念树第N+1层的各个子意图,并针对各个子意图执行步骤002-005,若不包括子意图,则所述概念树构建完成。
优选地,所述在至少一个待选词中选择该意图对应的关键词,包括:针对每一个待选词进行TF-IDF计算,根据待选词的TF-IDF值选取关键词。
优选地,
方法还包括:预先配置词列表;所述词列表中包括若干个无实质含义的词;
在步骤03之前,还包括:将得到的至少一个遍历词中位于所述词列表中的遍历词删除,并针对删除操作后剩余的至少一个遍历词执行步骤03。
优选地,所述步骤04中计算所述目标语句在每一个意图上对应的意图分值通过如下公式计算:
Figure GDA0004058845300000031
Figure GDA0004058845300000032
其中,S用于表征所述目标语句在当前意图上对应的意图分值;m用于表征遍历词的总个数;Si用于表征第i个遍历词在当前意图上对应的意图分值;n用于表征当前意图对应关键词的总个数,Pij用于表征第i个遍历词与当前意图对应的第j个关键词的词向量相似度,Qj用于表征当前意图对应的第j个关键词的权值。
优选地,在Pij的值小于设定的相似度阈值时,则Pij*Qj=0。
优选地,所述步骤05包括:
步骤051:针对当前层,确定当前层上意图分值最高的目标意图;
步骤052:判断所述目标意图的意图分值是否大于所属层对应的意图阈值,若是,执行步骤053;若否,执行步骤056;
步骤053:判断所述目标意图是否包括子意图,若所述目标意图包括子意图,执行步骤054;若所述目标意图不包括子意图,则执行步骤055;
步骤054:确定所述目标意图包括的子意图中意图分值最高的目标子意图,将所述目标子意图作为所述目标意图执行步骤052;
步骤055:将所述目标意图确定为所述目标语句对应的意图,结束;
步骤056:判断所述目标意图是否包括父意图,若包括,则执行步骤057;若不包括,则执行步骤058;
步骤057:将所述目标意图对应的父意图确定为所述目标语句对应的意图,结束;
步骤058:确定所述目标语句没有意图,结束。
为实现上述目的,本发明还提供一种基于概念树的意图识别装置,包括:
目标语句获取模块,用于获取需要进行意图识别的目标语句;
分词处理模块,用于对所述目标语句进行分词处理,得到至少一个遍历词;
关键词遍历模块,用于针对每一个当前遍历词,对预先构建的概念树中每一个意图对应的关键词进行遍历;其中,所述概念树包括至少一个层,每一个层包括至少一个意图,每一个意图对应至少一个关键词,每一个关键词设置有相应的权值;所述概念树中第N+1层为第N层的子意图,所述概念树中第N层为第N+1层的父意图,N为正整数;
词向量相似度计算模块,用于计算当前遍历词与遍历到的每一个关键词的词向量相似度;
意图分值计算模块,用于根据当前遍历词与遍历到的每一个关键词的词向量相似度,以及遍历到的每一个关键词对应的权值,计算所述目标语句在每一个意图对应的意图分值;
意图确定模块,用于根据所述目标语句在每一个意图上对应的意图分值,以及预先设置的每一个层对应的意图阈值,确定所述目标语句对应的意图。
为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
本发明提供的基于概念树的意图识别方法、装置及计算机设备,通过构建概念树,概念树包括至少一个层,每一个层包括至少一个意图,每一个意图对应至少一个关键词,每一个关键词设置有相应的权值,概念树中第N+1层为第N层的子意图,所述概念树中第N层为第N+1层的父意图,通过对需要进行意图识别的目标语句进行分词处理,得到至少一个遍历词,并针对每一个当前遍历词,对概念树中每一个意图对应的关键词进行遍历,并计算当前遍历词与遍历到的每一个关键词的词向量相似度,根据词向量相似度以及每一个关键词的权值,计算目标语句在每一个意图对应的意图分值,根据意图分值以及每一个层的意图阈值,来确定目标语句的意图。本发明无需特定领域的大量训练样本,可以准确的识别出目标语句的意图。
附图说明
图1为本发明基于概念树的意图识别方法实施例一的流程图;
图2为本发明实施例一的一个概念树的简单示例图;
图3为本发明实施例一的另一个概念树的简单示例图;
图4为本发明基于概念树的意图识别装置实施例一的程序模块示意图;
图5为本发明基于概念树的意图识别装置实施例一的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明提供的基于概念树的意图识别方法、装置及计算机设备,适用于数据分析技术领域,为对用户意图进行识别的方法。本发明通过构建概念树,概念树包括至少一个层,每一个层包括至少一个意图,每一个意图对应至少一个关键词,每一个关键词设置有相应的权值,概念树中第N+1层为第N层的子意图,所述概念树中第N层为第N+1层的父意图,通过对需要进行意图识别的目标语句进行分词处理,得到至少一个遍历词,并针对每一个当前遍历词,对概念树中每一个意图对应的关键词进行遍历,并计算当前遍历词与遍历到的每一个关键词的词向量相似度,根据词向量相似度以及每一个关键词的权值,计算目标语句在每一个意图对应的意图分值,根据意图分值以及每一个层的意图阈值,来确定目标语句的意图。本发明无需特定领域的大量训练样本,可以准确的识别出目标语句的意图。
实施例一
请参阅图1,本实施例的一种基于概念树的意图识别方法中,包括以下步骤:
步骤00,预先构建概念树。
其中,所述概念树包括至少一个层,每一个层包括至少一个意图,每一个意图对应至少一个关键词,每一个关键词设置有相应的权值;所述概念树中第N+1层为第n层的子意图,所述概念树中第N层为第N+1层的父意图,N为正整数。
在本实施例中,所述概念树按照如下方式构建:
步骤001,确定用于构建所述概念树第N层的各个意图。
在某一个领域内,不同的句子或词语对应不同的意图,为了能够准确识别用户语句的意图,首先需要确定出第一层的各个意图,其中,第一层的各个意图对应各个领域。例如,“机票”意图,“股票”意图等。其中,N为正整数。
在本实施例中,概念树可以将根节点作为出发点,第一层为各个领域的各个意图,其中,第一层的意图均与根节点连接。第一层的意图可以连接下一层的子意图,子意图也可以连接下一层的子意图。
步骤002,获取各个意图分别对应的数据样本。
在本实施例中,某一意图对应的数据样本其实际意图为该意图,每个意图的数据样本由句子文本组成,各个意图的数据样本可以在样本库中获取到,样本库为工作过程中积累得到的。
其中,每一个意图对应的数据样本量可以预先设定,例如,每一个意图对应的数据样本量为100个。
步骤003,针对每一个意图,将对应的数据样本进行分词处理,得到该意图对应的至少一个待选词,在至少一个待选词中选择该意图对应的关键词。
其中,分词方法包括斯坦福分词方法或结巴分词方法。
将数据样本进行分词处理后得到的至少一个待选词不一定全部作为关键词使用,可以在至少一个待选词中选择出最能够表明该意图的关键词,选择的关键词的个数可以是一个,也可以是多个。
在本实施例中,在至少一个待选词中选择该意图对应的关键词的方式至少可以采用如下几种方式:
a、针对每一个待选词进行TF-IDF计算,根据待选词的TF-IDF值选取关键词。
在本实施例中,TF-IDF值可以通过如下公式(1)计算:
TF-IDFW=FW*DFW式(1)
其中,TF-IDFW用于表征词条W的TF-IDF值;TFW用于表征词条W在该意图中出现的次数,为防止该参数偏向长的文件,通常需要对该参数进行归一化处理;IDFW用于表征词条W的逆向文件频率,其中,IDF的主要思想是:如果包含词条W的意图越少,IDF越大,则说明词条具有很好的类别区分能力。
TFW和IDFW可以通过如下式(2)和式(3)计算得到。
Figure GDA0004058845300000081
Figure GDA0004058845300000082
在本实施例中,在根据各个待选词的TF-IDF值选取关键词时可以是选取TF-IDF值大于第一阈值的词作为该意图的关键词,例如,该固定阈值为0.12。或者,可以根据TF-IDF值的从大到小进行排序,选择TF-IDF值排序靠前的第一预设数目的待选词作为该意图的关键词。
b、统计每一个待选词的词频(TF值),根据待选词的词频选取关键词。
其中,每一个待选词的TF值根据上述式(2)计算得到。
在本实施例中,可以选取TF值超过设定次数的待选词作为该意图的关键词。
c、对分词后的待选词进行卡方检验,根据卡方检验的值确定该意图的关键词。
在本实施例中,可以通过对分词后的各个待选词进行卡方检验,分别得到每个待选词对应的卡方检验计算出来的卡方检验值,对各个待选词的卡方检验值进行从大到小的排序,取出卡方检验值排序靠前的第二预设数目的待选词作为该意图的关键词,或者,将卡方检验值大于第二阈值的待选词作为该意图的关键词。
进一步地,在选取意图的关键词时,还可以采用将上述两种或三种方式结合来选取,例如,将上述各个方式下选取的相同关键词作为该意图的关键词;或者,为每一种选取方式设置一个权重,将上述各个方式下选取出的关键词结合对应方式的权重进一步筛选出取值大于第三阈值的词作为该意图的关键词,或者,将取值靠前的第三预设数目的词作为该意图的关键词。如此,可以进一步提升选取的关键词的准确性和可靠性,以便于提升意图识别的准确性。
在本发明一个实施例中,由于在对数据样本进行分词处理之后,在选取关键词之前,可以先删除一些无实质含义的词,例如,停用词,“的”“地”“得”等词。可以设置一个词列表,将这些无实质含义的词存入词列表中,通过词匹配的方式,将分词处理后待选词中位于词列表中的待选词删除。通过删除这些无实质含义的词,在从剩余的待选词中选取关键词,可以减小关键词确定的成本。
步骤004,确定每一个关键词对应的权值,将确定的权值配置给相应的关键词。
在本实施例中,可以直接将计算出来的TF-IDF值作为关键词的权值,也可以对TF-IDF值进行归一化处理后作为关键词的权值(即所有的权值加起来为1),或者,可以根据用户需求修改关键词的权值,或者,可以手动增加需要的关键词并根据用户需求对其进行赋值。
步骤005,判断每一个当前意图是否包括子意图,若包括子意图,则确定用于构建所述概念树第N+1层的各个子意图,并针对各个子意图执行步骤002-005,若不包括子意图,则所述概念树构建完成。
若当前意图包括子意图时,例如,“机票”意图下会有“查看”子意图、“预定”子意图、“取消”子意图,对于该“机票”意图属于概念树的第一层意图,对于“机票”意图下的“查看”子意图、“预定”子意图、“取消”子意图属于概念树的第二层意图。针对子意图可以通过步骤002-005来进一步确定关键词以及相应权值。
请参考图2,为一个概念树的简单示例图,根节点下连接有第一层意图包括:“机票”意图、“娱乐”意图、“股票”意图、“美食”意图、“信用卡”意图。该概念树还包括第二层意图,即“机票”意图连接有子意图包括:“查看”意图、“预定”意图、“取消”意图,“信用卡”意图连接有子意图包括:“办理”意图、“注销”意图、“查看”意图、“还款”意图。
对于“机票”意图可以包括的关键词,例如为‘机票’,‘航班’,‘航线’,‘机场’,‘天气’,‘温度’,‘气温’,‘旅游’,‘延误险’,‘意外险’,...,‘登机’;对于“股票”意图可以包括的关键词,例如为‘股票’,‘行情’,‘大盘’,‘推荐’,‘指数’,‘涨幅’,‘K线’,‘炒股’,‘股市’,‘持有’,‘赚钱’,‘分析’,...,‘长期’。
步骤01,获取需要进行意图识别的目标语句。
在本实施例中,需要进行意图识别的对象可以是语音、文字、图片、影像等。即对语音、文字、图片、影像提取出句子文本,将其作为需要进行意图识别的目标语句。
步骤02,对所述目标语句进行分词处理,得到至少一个遍历词。
其中,分词方法包括斯坦福分词方法或结巴分词方法。
进一步地,在分词为至少一个遍历词之后,为了进一步降低遍历概念树的成本,可以按照步骤00中设置的词列表,将至少一个遍历词中位于词列表中的遍历词删除,从剩余的遍历词中执行后续步骤。
例如,得到的遍历词分别为遍历词1和遍历词2。
步骤03,针对每一个当前遍历词,对预先构建的概念树中每一个意图对应的关键词进行遍历,并计算当前遍历词与遍历到的每一个关键词的词向量相似度。
首先从根节点出发,对第一层各个意图对应的关键词进行遍历,例如,以图2的概念树为例,首先针对遍历词1进行遍历,可以遍历“机票”意图对应的关键词,每遍历到一个关键词,计算遍历词1与该遍历到的关键词的词向量相似度,在本实施例中,词向量相似度可以利用word2Vec词向量求解。
步骤04,根据当前遍历词与遍历到的每一个关键词的词向量相似度,以及遍历到的每一个关键词对应的权值,计算所述目标语句在每一个意图对应的意图分值。
在本实施例中,计算所述目标语句在每一个意图上对应的意图分值可以通过如下式(4)式(5)进行计算。
Figure GDA0004058845300000111
Figure GDA0004058845300000112
其中,S用于表征所述目标语句在当前意图上对应的意图分值;m用于表征遍历词的总个数;Si用于表征第i个遍历词在当前意图上对应的意图分值;n用于表征当前意图对应关键词的总个数,Pij用于表征第i个遍历词与当前意图对应的第j个关键词的词向量相似度,Qj用于表征当前意图对应的第j个关键词的权值。
例如,当前意图包括关键词1和关键词2,目标语句包括遍历词1和遍历词2,遍历词1在当前意图上对应的意图分值S1为遍历词1与关键词1的词向量相似度与关键词1权值的乘积+遍历词1与关键词2的词向量相似度与关键词2权值的乘积,遍历词2在当前意图上对应的意图分值S2为遍历词2与关键词1的词向量相似度与关键词1权值的乘积+遍历词2与关键词2的词向量相似度与关键词2权值的乘积。目标语句在当前意图上对应的意图分值S为S1与S2的和。
在本发明一个实施例中,可以预先设置相似度阈值,当遍历词与关键词的词向量相似度小于该相似度阈值时,那么则设定该遍历词与关键词的词向量相似度与关键词权值的乘积为0,即在Pij的值小于设定的相似度阈值时,则Pij*Qj=0。
步骤05,根据所述目标语句在每一个意图上对应的意图分值,以及预先设置的每一个层对应的意图阈值,确定所述目标语句对应的意图。
在本实施例中,可以通过如下方式确定目标语句对应的意图:
步骤051:针对当前层,确定当前层上意图分值最高的目标意图。
以当前层为第一层为例,对于第一层中各个意图的意图分值,选择该层意图分值最高的目标意图,例如,“机票”意图的意图分值最高,那么目标意图为“机票”意图。
步骤052:判断所述目标意图的意图分值是否大于所属层对应的意图阈值,若是,执行步骤053;若否,执行步骤056。
在本实施中,概念树的每一个层均可以设置一个意图阈值,各个层的意图阈值可以相同,也可以不同。
在本步骤中,需要判断“机票”意图的意图分值是否大于第一层的意图阈值。
步骤053:判断所述目标意图是否包括子意图,若所述目标意图包括子意图,执行步骤054;若所述目标意图不包括子意图,则执行步骤055。
步骤054:确定所述目标意图包括的子意图中意图分值最高的目标子意图,将所述目标子意图作为所述目标意图执行步骤052。
在确定目标意图包括子意图时,则需要继续针对遍历词遍历子意图对应的各个关键词,并计算出每一个子意图的意图分值,将每一个子意图作为目标意图继续执行步骤052。
步骤055:将所述目标意图确定为所述目标语句对应的意图,结束;
步骤056:判断所述目标意图是否包括父意图,若包括,则执行步骤057;若不包括,则执行步骤058;
步骤057:将所述目标意图对应的父意图确定为所述目标语句对应的意图,结束;
步骤058:确定所述目标语句没有意图,结束。
下面以概念树中包括两个意图为例,请参考图3,根节点连接“天气”意图和“机票”意图,其中,“天气”意图包括关键词:“天气”(权值为0.2)和“今天”(权值为0.3);“机票”意图包括关键词:“天气”(权值为0.05)和“航班”(权值为0.4)。
例如,需要进行意图识别的目标语句是:“昨天的气温怎么样?”。将该目标语句分词处理后得到:“昨天”“气温”“怎么样”这三个遍历词。预先设定相似度阈值为0.8,在词向量相似度小于0.8时,词向量相似度与关键词权值的乘积为0。
针对遍历词“昨天”:A、在“天气”意图上,遍历词“昨天”与关键词“天气”、“今天”的词向量相似度分别为0.001、0.89,那么根据式(4)式(5)可以计算得到遍历词“昨天”在“天气”意图上的意图分值=0+0.89*0.2。B、在“机票”意图上,遍历词“昨天”与关键词“天气”、“航班”的词向量相似度分别为0.001、0.002,那么根据式(4)式(5)可以计算得到遍历词“昨天”在“机票”意图上的意图分值=0。
针对遍历词“气温”:A、在“天气”意图上,遍历词“气温”与关键词“天气”、“今天”的词向量相似度分别为0.9、0.001,那么根据式(4)式(5)可以计算得到遍历词“气温”在“天气”意图上的意图分值=0.9*0.3+0。B、在“机票”意图上,遍历词“气温”与关键词“天气”、“航班”的词向量相似度分别为0.9、0.001,那么根据式(4)式(5)可以计算得到遍历词“气温”在“机票”意图上的意图分值=0.9*0.05。
针对遍历词“怎么样”:A、在“天气”意图上,遍历词“怎么样”与关键词“天气”、“今天”的词向量相似度分别为0.001、0.001,那么根据式(4)式(5)可以计算得到遍历词“怎么样”在“天气”意图上的意图分值=0。B、在“机票”意图上,遍历词“怎么样”与关键词“天气”、“航班”的词向量相似度分别为0.001、0.001,那么根据式(4)式(5)可以计算得到遍历词“气温”在“机票”意图上的意图分值=0。
综上,可以得出目标语句在“天气”意图上的意图分值=0.2*0.89+0.3*0.9+0=0.448,目标语句在“机票”意图上的意图分值=0+0.05*0.90+0=0.045。
针对概念树的第一层,可以确定目标语句在“天气”意图上的意图分值最高。然后判断该“天气”意图上的意图分值0.448是否超过这一层的意图阈值(假设该层意图阈值设置为0.3),此时“天气”意图的意图分值超过所设定的意图阈值,则继续以同样的方式遍历“天气”意图的子意图对应的关键词。若“天气”意图没有子意图,则确定目标语句的意图就是属于“天气”意图。若“天气”意图有子意图(假如是“询问天气“意图)且“询问天气”意图的意图分值超过子意图层设定的意图阈值,则确定目标语句”今天天气怎么样”的意图为“询问天气”。假如该子意图的意图分值没有超过设定的意图阈值,则确定目标语句的意图为父级意图,即“天气”意图。
在本实施例中,在构建多层概念树之后,还可调整各关键词的权值,比如可根据一段时间内(如一周、一个月等等)输出意图对应的关键词的频率,更改该关键词的权值,输出关键词的频率越高,增加该关键词的权值,反之,则减小该关键词的权值。此外,还可收集输出没有意图的句子,对这些句子进行训练分析,整理出新的意图关键词,并将该新的意图关键词更新到多层概念树中,以提升意图识别的成功率和可靠性。
请继续参阅图4,示出了一种基于概念树的意图识别装置,在本实施例中,基于概念树的意图识别装置10可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述基于概念树的意图识别方法。本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述基于概念树的意图识别装置10在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
目标语句获取模块11,用于获取需要进行意图识别的目标语句;
分词处理模块12,用于对所述目标语句进行分词处理,得到至少一个遍历词;
关键词遍历模块13,用于针对每一个当前遍历词,对预先构建的概念树中每一个意图对应的关键词进行遍历;其中,所述概念树包括至少一个层,每一个层包括至少一个意图,每一个意图对应至少一个关键词,每一个关键词设置有相应的权值;所述概念树中第N+1层为第N层的子意图,所述概念树中第N层为第N+1层的父意图,N为正整数;
词向量相似度计算模块14,用于计算当前遍历词与遍历到的每一个关键词的词向量相似度;
意图分值计算模块15,用于根据当前遍历词与遍历到的每一个关键词的词向量相似度,以及遍历到的每一个关键词对应的权值,计算所述目标语句在每一个意图对应的意图分值;
意图确定模块16,用于根据所述目标语句在每一个意图上对应的意图分值,以及预先设置的每一个层对应的意图阈值,确定所述目标语句对应的意图。
本实施例还提供一种计算机设备,如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于:可通过系统总线相互通信连接的存储器21、处理器22,如图5所示。需要指出的是,图5仅示出了具有组件21-22的计算机设备20,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
本实施例中,存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备20的内部存储单元,例如该计算机设备20的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备20的外部存储设备,例如该计算机设备20上配备的插接式硬盘,智能存储卡(Smart Medna Card,SMC),安全数字(Secure Dngntal,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件,例如实施例一的基于概念树的意图识别装置10的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central ProcessnngUnnt,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行基于概念树的意图识别装置10,以实现实施例一的基于概念树的意图识别方法。
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于概念树的意图识别装置10,被处理器执行时实现实施例一的基于概念树的意图识别方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (8)

1.一种基于概念树的意图识别方法,其特征在于,包括以下步骤:
步骤01,获取需要进行意图识别的目标语句;
步骤02,对所述目标语句进行分词处理,得到至少一个遍历词;
步骤03,针对每一个当前遍历词,对预先构建的概念树中每一个意图对应的关键词进行遍历,并计算当前遍历词与遍历到的每一个关键词的词向量相似度;其中,所述概念树包括至少一个层,每一个层包括至少一个意图,每一个意图对应至少一个关键词,每一个关键词设置有相应的权值;所述概念树中第N+1层为第N层的子意图,所述概念树中第N层为第N+1层的父意图,N为正整数;
步骤04,根据当前遍历词与遍历到的每一个关键词的词向量相似度,以及遍历到的每一个关键词对应的权值,计算所述目标语句在每一个意图对应的意图分值;
步骤05,根据所述目标语句在每一个意图上对应的意图分值,以及预先设置的每一个层对应的意图阈值,确定所述目标语句对应的意图;
所述概念树按照如下方式构建:
步骤001,确定用于构建所述概念树第N层的各个意图;
步骤002,获取各个意图分别对应的数据样本;
步骤003,针对每一个意图,将对应的数据样本进行分词处理,得到该意图对应的至少一个待选词,在至少一个待选词中选择该意图对应的关键词;
步骤004,确定每一个关键词对应的权值,将确定的权值配置给相应的关键词;
步骤005,判断每一个当前意图是否包括子意图,若包括子意图,则确定用于构建所述概念树第N+1层的各个子意图,并针对各个子意图执行步骤002-005,若不包括子意图,则所述概念树构建完成;
所述步骤04中计算所述目标语句在每一个意图上对应的意图分值通过如下公式计算:
Figure FDA0004058845290000021
Figure FDA0004058845290000022
其中,S用于表征所述目标语句在当前意图上对应的意图分值;m用于表征遍历词的总个数;Si用于表征第i个遍历词在当前意图上对应的意图分值;n用于表征当前意图对应关键词的总个数,Pij用于表征第i个遍历词与当前意图对应的第j个关键词的词向量相似度,Qj用于表征当前意图对应的第j个关键词的权值。
2.根据权利要求1所述的基于概念树的意图识别方法,其特征在于,所述在至少一个待选词中选择该意图对应的关键词,包括:针对每一个待选词进行TF-IDF计算,根据待选词的TF-IDF值选取关键词。
3.根据权利要求1所述的基于概念树的意图识别方法,其特征在于,
方法还包括:预先配置词列表;所述词列表中包括若干个无实质含义的词;
在步骤03之前,还包括:将得到的至少一个遍历词中位于所述词列表中的遍历词删除,并针对删除操作后剩余的至少一个遍历词执行步骤03。
4.根据权利要求1所述的基于概念树的意图识别方法,其特征在于,在Pij的值小于设定的相似度阈值时,则Pij*Qj=0。
5.根据权利要求1-4中任一所述的基于概念树的意图识别方法,其特征在于,所述步骤05包括:
步骤051:针对当前层,确定当前层上意图分值最高的目标意图;
步骤052:判断所述目标意图的意图分值是否大于所属层对应的意图阈值,若是,执行步骤053;若否,执行步骤056;
步骤053:判断所述目标意图是否包括子意图,若所述目标意图包括子意图,执行步骤054;若所述目标意图不包括子意图,则执行步骤055;
步骤054:确定所述目标意图包括的子意图中意图分值最高的目标子意图,将所述目标子意图作为所述目标意图执行步骤052;
步骤055:将所述目标意图确定为所述目标语句对应的意图,结束;
步骤056:判断所述目标意图是否包括父意图,若包括,则执行步骤057;若不包括,则执行步骤058;
步骤057:将所述目标意图对应的父意图确定为所述目标语句对应的意图,结束;
步骤058:确定所述目标语句没有意图,结束。
6.一种基于概念树的意图识别装置,其特征在于,包括:
目标语句获取模块,用于获取需要进行意图识别的目标语句;
分词处理模块,用于对所述目标语句进行分词处理,得到至少一个遍历词;
关键词遍历模块,用于针对每一个当前遍历词,对预先构建的概念树中每一个意图对应的关键词进行遍历;其中,所述概念树包括至少一个层,每一个层包括至少一个意图,每一个意图对应至少一个关键词,每一个关键词设置有相应的权值;所述概念树中第N+1层为第N层的子意图,所述概念树中第N层为第N+1层的父意图,N为正整数;
词向量相似度计算模块,用于计算当前遍历词与遍历到的每一个关键词的词向量相似度;
意图分值计算模块,用于根据当前遍历词与遍历到的每一个关键词的词向量相似度,以及遍历到的每一个关键词对应的权值,计算所述目标语句在每一个意图对应的意图分值;
意图确定模块,用于根据所述目标语句在每一个意图上对应的意图分值,以及预先设置的每一个层对应的意图阈值,确定所述目标语句对应的意图;
所述概念树按照如下方式构建:
步骤001,确定用于构建所述概念树第N层的各个意图;
步骤002,获取各个意图分别对应的数据样本;
步骤003,针对每一个意图,将对应的数据样本进行分词处理,得到该意图对应的至少一个待选词,在至少一个待选词中选择该意图对应的关键词;
步骤004,确定每一个关键词对应的权值,将确定的权值配置给相应的关键词;
步骤005,判断每一个当前意图是否包括子意图,若包括子意图,则确定用于构建所述概念树第N+1层的各个子意图,并针对各个子意图执行步骤002-005,若不包括子意图,则所述概念树构建完成;
所述意图分值计算模块通过如下公式计算:
Figure FDA0004058845290000041
Figure FDA0004058845290000042
其中,S用于表征所述目标语句在当前意图上对应的意图分值;m用于表征遍历词的总个数;Si用于表征第i个遍历词在当前意图上对应的意图分值;n用于表征当前意图对应关键词的总个数,Pij用于表征第i个遍历词与当前意图对应的第j个关键词的词向量相似度,Qj用于表征当前意图对应的第j个关键词的权值。
7.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5任一项所述方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5任一项所述方法的步骤。
CN201811285537.1A 2018-10-31 2018-10-31 基于概念树的意图识别方法、装置及计算机设备 Active CN109492222B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201811285537.1A CN109492222B (zh) 2018-10-31 2018-10-31 基于概念树的意图识别方法、装置及计算机设备
PCT/CN2019/070295 WO2020087774A1 (zh) 2018-10-31 2019-01-03 基于概念树的意图识别方法、装置及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811285537.1A CN109492222B (zh) 2018-10-31 2018-10-31 基于概念树的意图识别方法、装置及计算机设备

Publications (2)

Publication Number Publication Date
CN109492222A CN109492222A (zh) 2019-03-19
CN109492222B true CN109492222B (zh) 2023-04-07

Family

ID=65693411

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811285537.1A Active CN109492222B (zh) 2018-10-31 2018-10-31 基于概念树的意图识别方法、装置及计算机设备

Country Status (2)

Country Link
CN (1) CN109492222B (zh)
WO (1) WO2020087774A1 (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492222B (zh) * 2018-10-31 2023-04-07 平安科技(深圳)有限公司 基于概念树的意图识别方法、装置及计算机设备
CN109815314B (zh) * 2019-01-04 2023-08-08 平安科技(深圳)有限公司 一种意图识别方法、识别设备及计算机可读存储介质
CN112699909B (zh) * 2019-10-23 2024-03-19 中移物联网有限公司 信息识别方法、装置、电子设备及计算机可读存储介质
CN111708873B (zh) * 2020-06-15 2023-11-24 腾讯科技(深圳)有限公司 智能问答方法、装置、计算机设备和存储介质
CN111832305B (zh) * 2020-07-03 2023-08-25 北京小鹏汽车有限公司 一种用户意图识别方法、装置、服务器和介质
CN111814481B (zh) * 2020-08-24 2023-11-14 深圳市欢太科技有限公司 购物意图识别方法、装置、终端设备及存储介质
CN112016296B (zh) * 2020-09-07 2023-08-25 平安科技(深圳)有限公司 句子向量生成方法、装置、设备及存储介质
CN112199958A (zh) * 2020-09-30 2021-01-08 平安科技(深圳)有限公司 概念词序列生成方法、装置、计算机设备及存储介质
CN112948550A (zh) * 2021-02-04 2021-06-11 维沃移动通信有限公司 日程创建方法、装置和电子设备
CN113887224A (zh) * 2021-10-19 2022-01-04 京东科技信息技术有限公司 语句意图识别方法、语句应答方法、装置和电子设备
CN115080786A (zh) * 2022-08-22 2022-09-20 科大讯飞股份有限公司 基于图片作诗的方法、装置、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013025648A (ja) * 2011-07-22 2013-02-04 Toshiba Corp 対話装置、対話方法および対話プログラム
CN104598445A (zh) * 2013-11-01 2015-05-06 腾讯科技(深圳)有限公司 自动问答系统和方法
CN105868366A (zh) * 2016-03-30 2016-08-17 浙江工业大学 基于概念关联的概念空间导航方法
CN107146610A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种用户意图的确定方法及装置
CN108595619A (zh) * 2018-04-23 2018-09-28 海信集团有限公司 一种问答方法及设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103970864B (zh) * 2014-05-08 2017-09-22 清华大学 基于微博文本的情绪分类和情绪成分分析方法及系统
US10719506B2 (en) * 2016-12-22 2020-07-21 Sap Se Natural language query generation
CN107766426B (zh) * 2017-09-14 2020-05-22 北京百分点信息科技有限公司 一种文本分类方法、装置及电子设备
CN107844559A (zh) * 2017-10-31 2018-03-27 国信优易数据有限公司 一种文件分类方法、装置及电子设备
CN109492222B (zh) * 2018-10-31 2023-04-07 平安科技(深圳)有限公司 基于概念树的意图识别方法、装置及计算机设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013025648A (ja) * 2011-07-22 2013-02-04 Toshiba Corp 対話装置、対話方法および対話プログラム
CN104598445A (zh) * 2013-11-01 2015-05-06 腾讯科技(深圳)有限公司 自动问答系统和方法
CN105868366A (zh) * 2016-03-30 2016-08-17 浙江工业大学 基于概念关联的概念空间导航方法
CN107146610A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种用户意图的确定方法及装置
CN108595619A (zh) * 2018-04-23 2018-09-28 海信集团有限公司 一种问答方法及设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张俊飞.改进TF-IDF结合余弦定理计算中文语句相似度.现代计算机(专业版).2017,(第32期),全文. *

Also Published As

Publication number Publication date
CN109492222A (zh) 2019-03-19
WO2020087774A1 (zh) 2020-05-07

Similar Documents

Publication Publication Date Title
CN109492222B (zh) 基于概念树的意图识别方法、装置及计算机设备
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN108629043B (zh) 网页目标信息的提取方法、装置及存储介质
CN107193962B (zh) 一种互联网推广信息的智能配图方法及装置
WO2020077824A1 (zh) 异常问题的定位方法、装置、设备及存储介质
US9720912B2 (en) Document management system, document management method, and document management program
CN110597978B (zh) 物品摘要生成方法、系统、电子设备及可读存储介质
CN109062972A (zh) 网页分类方法、装置及计算机可读存储介质
CN107818491A (zh) 电子装置、基于用户上网数据的产品推荐方法及存储介质
CN110750627A (zh) 一种素材的检索方法、装置、电子设备及存储介质
CN113986864A (zh) 日志数据处理方法、装置、电子设备及存储介质
CN113392218A (zh) 文本质量评估模型的训练方法和确定文本质量的方法
CN113220999A (zh) 用户特征的生成方法、装置、电子设备和存储介质
US11379527B2 (en) Sibling search queries
CN114495113A (zh) 文本分类方法和文本分类模型的训练方法、装置
US11803796B2 (en) System, method, electronic device, and storage medium for identifying risk event based on social information
CN113569018A (zh) 问答对挖掘方法及装置
CN108733702B (zh) 用户查询上下位关系提取的方法、装置、电子设备和介质
CN116089616A (zh) 主题文本获取方法、装置、设备及存储介质
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
CN114067343A (zh) 一种数据集的构建方法、模型训练方法和对应装置
CN111460206A (zh) 图像处理方法、装置、电子设备和计算机可读存储介质
US20200302005A1 (en) Comment-based article augmentation
CN114201607B (zh) 一种信息处理的方法和装置
US11763589B1 (en) Detection of blanks in documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant