CN112115229A - 文本意图识别方法、装置、系统以及文本分类系统 - Google Patents

文本意图识别方法、装置、系统以及文本分类系统 Download PDF

Info

Publication number
CN112115229A
CN112115229A CN201910538487.1A CN201910538487A CN112115229A CN 112115229 A CN112115229 A CN 112115229A CN 201910538487 A CN201910538487 A CN 201910538487A CN 112115229 A CN112115229 A CN 112115229A
Authority
CN
China
Prior art keywords
text
historical
recognized
texts
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910538487.1A
Other languages
English (en)
Inventor
罗辉
陈勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201910538487.1A priority Critical patent/CN112115229A/zh
Publication of CN112115229A publication Critical patent/CN112115229A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本意图识别方法、装置、系统以及文本分类系统,涉及计算机技术领域。该方法的一具体实施方式包括:获取待识别文本中的一个或多个分词;在判断预先建立的数据库中存储有包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本时,依据存储在所述数据库中的、所述历史文本的意图信息确定待识别文本的意图信息。该实施方式能够在意图识别错误时实现系统的及时修复。

Description

文本意图识别方法、装置、系统以及文本分类系统
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本意图识别方法、装置、系统以及文本分类系统。
背景技术
意图识别是聊天机器人等对话系统的重要工作环节,现有的文本意图识别方法主要有三种。其一是基于文本模板的方法,依靠人工方式归纳出不同的意图模式,之后整理成正则表达式模板与待识别文本匹配;其二是基于知识工程的方法,利用人的经验为每种意图定义推理规则,当待识别文本满足某种规则即判定具有相应意图;其三是基于统计学习的方法,通过标注数据训练意图分类模型,利用训练完成的模型预测待识别文本的意图,常用算法有决策树、深度神经网络等。
以上前两种方法覆盖的文本范围有限,第三种方法的识别精度较低。同时,对于采用任一种方法或者结合多种方法实现的意图识别系统,在遇到意图识别结果错误的情况时,往往需要重新开发代码或者重新训练模型进行紧急修复,之后重新发布版本并进行版本上线和线上验证。由于系统上线具有较高风险和成本,需要经过开发、测试和层层审批,因此上述修复过程需耗费较多时间和较高的人力成本,还需要承担一定的风险。
发明内容
有鉴于此,本发明实施例提供一种文本意图识别方法、装置、系统以及文本分类系统,通过建立存储有历史文本及其意图信息的数据库,在意图识别错误时实现系统的及时修复。
为实现上述目的,根据本发明的一个方面,提供了一种文本意图识别方法。
本发明实施例的文本意图识别方法包括:获取待识别文本中的一个或多个分词;在判断预先建立的数据库中存储有包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本时,依据存储在所述数据库中的、所述历史文本的意图信息确定待识别文本的意图信息。
可选地,所述数据库中存储的历史文本包括:在历史时期意图识别结果错误、并由人工标记意图信息的文本。
可选地,判断所述数据库中是否存储有包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本的步骤包括:在所述数据库中查询到包含至少一个所述分词的历史文本时,将查询到的历史文本中与待识别文本的相关程度不符合预设规则的历史文本去除。
可选地,所述将查询到的历史文本中与待识别文本的相关程度不符合预设规则的历史文本去除,包括:将查询到的历史文本按照与待识别文本的相关程度降序排列;将在前的预设数量的历史文本保留,将其余历史文本去除。
可选地,所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本通过以下步骤获得:获取保留的历史文本中与待识别文本相似度最大的历史文本;在该历史文本与待识别文本的相似度大于预设的第一阈值时,将该历史文本确定为所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本。
可选地,所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本通过以下步骤获得:将保留的历史文本根据历史文本的意图信息分成至少一个类别;获取包含历史文本数量最大的类别;在该类别中历史文本与待识别文本的相似度平均值大于预设的第二阈值时,将该类别中的历史文本确定为所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本。
可选地,所述依据存储在所述数据库中的、所述历史文本的意图信息确定待识别文本的意图信息,包括:将所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本的意图信息确定为待识别文本的意图信息。
可选地,所述方法进一步包括:在判断预先建立的数据库中未存储包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本时,利用预先建立的意图模板集合、和/或预先训练完成的意图分类模型确定待识别文本的意图信息;其中,意图模板集合中包括至少一个意图模板,每一意图模板配置有表征一种意图信息的规则。
可选地,所述数据库为弹性搜索引擎Elastic Search;所述相似度包括以下之一:余弦相似度、杰卡德相似度、皮尔逊相关系数、调整余弦相似度、基于编辑距离的相似度、基于欧氏距离的相似度、基于曼哈顿距离的相似度、基于明可夫斯基距离的相似度;历史文本与待识别文本的相关程度由以下因素确定:历史文本中包含的待识别文本分词和其它分词、以及历史文本中包含的待识别文本分词的排列顺序。
为实现上述目的,根据本发明的另一方面,提供了一种文本意图识别装置。
本发明实施例的文本意图识别装置可包括:分词单元,用于获取待识别文本中的一个或多个分词;意图识别单元,用于:在判断预先建立的数据库中存储有包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本时,依据存储在所述数据库中的、所述历史文本的意图信息确定待识别文本的意图信息。
为实现上述目的,根据本发明的又一方面,提供了一种文本意图识别系统。
本发明实施例的文本意图识别系统可包括:预先建立的、存储有至少一个历史文本和所述历史文本的意图信息的数据库,以及相似度判断单元;其中,所述数据库可用于:响应于携带有待识别文本的查询请求,输出包含至少一个待识别文本分词的历史文本;所述相似度判断单元可用于:获取所述数据库输出的历史文本中与待识别文本的相似度符合预设条件的历史文本,依据该历史文本的意图信息确定待识别文本的意图信息。
可选地,所述数据库中存储的历史文本可包括:在历史时期意图识别结果错误、并由人工标记意图信息的文本;所述数据库可进一步用于:将包含至少一个待识别文本分词的历史文本按照与待识别文本的相关程度降序排列,将在前的预设数量的历史文本输出。
可选地,所述相似度判断单元可进一步用于:获取所述数据库输出的历史文本中与待识别文本相似度最大的历史文本;在该历史文本与待识别文本的相似度大于预设的第一阈值时,将该历史文本的意图信息确定为待识别文本的意图信息;或者,将所述数据库输出的历史文本根据历史文本的意图信息分成至少一个类别,获取包含历史文本数量最大的类别;在该类别中历史文本与待识别文本的相似度平均值大于预设的第二阈值时,将该类别对应的意图信息确定为待识别文本的意图信息。
可选地,所述系统可进一步包括:预先建立的意图模板集合和预先训练完成的意图分类模型;其中,所述意图模板集合可用于:在所述数据库未存储包含至少一个待识别文本分词的历史文本、或者所述数据库输出的历史文本中不存在与待识别文本的相似度符合预设条件的历史文本时,提供至少一个意图模板尝试与待识别文本进行匹配,并将匹配成功的意图模板对应的意图信息确定为待识别文本的意图信息;所述意图分类模型可用于:在所述意图模板集合中的意图模板都未与待识别文本匹配成功时,接收待识别文本,输出待识别文本的意图信息。
可选地,所述数据库为弹性搜索引擎Elastic Search;所述相似度包括以下之一:余弦相似度、杰卡德相似度、皮尔逊相关系数、调整余弦相似度、基于编辑距离的相似度、基于欧氏距离的相似度、基于曼哈顿距离的相似度、基于明可夫斯基距离的相似度;历史文本与待识别文本的相关程度由以下因素确定:历史文本中包含的待识别文本分词和其它分词、以及历史文本中包含的待识别文本分词的排列顺序。
为实现上述目的,根据本发明的又一方面,提供了一种文本分类系统。
本发明实施例的文本分类系统可包括:预先建立的、存储有至少一个历史文本和所述历史文本在预设维度的类别信息的数据库,以及相似度计算单元;其中,所述数据库可用于:响应于携带有待识别文本的查询请求,输出包含至少一个待识别文本分词的历史文本;所述相似度计算单元可用于:获取所述数据库输出的历史文本中与待识别文本的相似度符合预设条件的历史文本,依据该历史文本的类别信息确定待识别文本的类别信息。
可选地,所述数据库中存储的历史文本可包括:在历史时期分类结果错误、并由人工标记类别信息的文本;所述数据库可进一步用于:将包含至少一个待识别文本分词的历史文本按照与待识别文本的相关程度降序排列,将在前的预设数量的历史文本输出;以及,所述相似度计算单元可进一步用于:获取所述数据库输出的历史文本中与待识别文本相似度最大的历史文本;在该历史文本与待识别文本的相似度大于预设的第一阈值时,将该历史文本的类别信息确定为待识别文本的类别信息;或者,将所述数据库输出的历史文本根据历史文本的类别信息置入至少一个文本集合;其中,文本集合与类别信息一一对应;获取包含历史文本数量最大的文本集合;在该文本集合中历史文本与待识别文本的相似度平均值大于预设的第二阈值时,将该文本集合对应的类别信息确定为待识别文本的类别信息。
可选地,所述系统可进一步包括:预先建立的文本模板集合和预先训练完成的文本分类模型;其中,所述文本模板集合可用于:在所述数据库未存储包含至少一个待识别文本分词的历史文本、或者所述数据库输出的历史文本中不存在与待识别文本的相似度符合预设条件的历史文本时,提供至少一个文本模板尝试与待识别文本进行匹配,并将匹配成功的文本模板对应的类别信息确定为待识别文本的类别信息;所述文本分类模型可用于:在所述文本模板集合中的文本模板都未与待识别文本匹配成功时,接收待识别文本,输出待识别文本的类别信息;以及,所述数据库可以是弹性搜索引擎Elastic Search;所述相似度可包括以下之一:余弦相似度、杰卡德相似度、皮尔逊相关系数、调整余弦相似度、基于编辑距离的相似度、基于欧氏距离的相似度、基于曼哈顿距离的相似度、基于明可夫斯基距离的相似度;历史文本与待识别文本的相关程度可由以下因素确定:历史文本中包含的待识别文本分词和其它分词、以及历史文本中包含的待识别文本分词的排列顺序。
为实现上述目的,根据本发明的又一方面,提供了一种电子设备。
本发明的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的文本意图识别方法。
为实现上述目的,根据本发明的再一方面,提供了一种计算机可读存储介质。
本发明的一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明所提供的文本意图识别方法。
根据本发明的技术方案,上述发明中的一个实施例具有如下优点或有益效果:
其一,通过建立存储有历史文本及其意图信息的数据库,并在数据库中查询待识别文本的相似文本用于待识别文本的意图识别,实现了一种准确、快速的文本意图识别方式。在此基础上,当发生意图识别错误时,由人工标记相应文本的正确意图后将文本及其正确意图存储到数据库,此后若再次遇到该文本或者该文本的类似文本时即可准确识别,从而实现意图识别系统的及时热修复(热修复指的是修复过程不影响系统工作),避免了现有修复方式中重新开发代码或者重新训练模型修复周期长、成本风险高等缺陷,也不需执行冗长的版本上线流程。此外,不断存储到数据库的意图识别错误案例有利于意图识别的数据分析工作,可提升意图分类模型以及意图识别系统的分类性能。
其二,在从数据库中确定待识别文本的相似文本时,首先获取包含至少一个待识别文本分词、并与待识别文本相关程度较高的预设数量的历史文本,之后从中确定相似度符合预设条件的历史文本用于判断待识别文本的意图。通过以上设置,能够在确保意图识别准确率的前提下提高系统的响应速度。
其三,上述数据库可与现有技术中的意图模板集合以及意图分类模型结合构成意图识别系统。其中,数据库用于在存储待识别文本的相似文本时进行快速识别以及意图识别错误时系统的及时修复,意图模板集合和意图分类模型用于在数据库无法提供识别结果时进行补充识别,由此实现兼顾文本覆盖范围、识别准确率和响应速度的意图识别系统。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明实施例中文本意图识别方法的主要步骤示意图;
图2是本发明实施例中文本意图识别装置的组成部分示意图;
图3是本发明实施例中文本意图识别系统的组成部分示意图;
图4是本发明实施例中文本分类系统的组成部分示意图;
图5是根据本发明实施例可以应用于其中的示例性系统架构图;
图6是用来实现本发明实施例中文本意图识别方法的电子设备结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明的实施例以及实施例中的技术特征可以相互结合。
图1是根据本发明实施例中文本意图识别方法的主要步骤示意图。
如图1所示,本发明实施例的文本意图识别方法可具体按照如下步骤执行:
步骤S101:获取待识别文本中的一个或多个分词。
在本步骤中,待识别文本可以是外部输入的文本信息,也可以是外部输入的语音信息转换而成的文本信息。从另一方面来说,待识别文本可以是由各种语言形成的文本,例如中文文本、英文文本。本步骤中的分词可以是对待识别文本进行分词处理之后得到的词语,也可以是待识别文本未经分词处理即包含的词语。实际应用中,中文文本一般需要经过分词处理得到其分词,英文文本可以在分词处理后得到其分词,也可以不经分词处理直接利用单词之间的间隙确定分词。需要说明的是,本步骤可以利用单独开发的程序模块实现,也可以利用后续将要介绍的数据库的功能实现。例如,若数据库为弹性搜索引擎ES(Elastic Search),即具有文本分词功能。
步骤S102:在判断预先建立的数据库中存储有包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本时,依据存储在所述数据库中的、所述历史文本的意图信息确定待识别文本的意图信息。
在本发明实施例中,数据库用于存储历史文本以及历史文本的意图信息,其可以是ES、Mysql、MongoDB等任意适用的数据库。以ES为例,其以记录的形式存储数据,在一条记录中,历史文本为该记录正文字段的值,该历史文本的意图信息为该记录意图字段的值。待识别文本及其意图信息可如下表所示。
待识别文本 意图信息
播放小红帽的故事 在线广播
明天早上6点叫我起床 提醒
放一首欢快的歌曲 播放音乐
关闭电视 家居控制
我们家谁最漂亮 聊天
本步骤中的相似度可以是以下相似度中的一种:余弦相似度、杰卡德相似度、皮尔逊相关系数、调整余弦相似度、基于编辑距离的相似度(编辑距离越大,该相似度越小)、基于欧氏距离的相似度(欧式距离越大,该相似度越小)、基于曼哈顿距离的相似度(曼哈顿距离越大,该相似度越小)、基于明可夫斯基距离的相似度(明可夫斯基距离越大,该相似度越小)。可以理解,在计算余弦相似度、皮尔逊相关系数、调整余弦相似度、基于欧氏距离的相似度、基于曼哈顿距离的相似度、基于明可夫斯基距离的相似度之前,需要将文本进行向量化表示。
在本步骤中,需要获取数据库中存储的包含待识别文本分词、并且与待识别文本的相似度符合预设条件的历史文本作为待识别文本的相似文本,来确定待识别文本的意图。获取上述相似文本可以有两种方式。在第一种方式中,首先从数据库中获取包含待识别文本分词的历史文本,之后对这些历史文本进行相似度判断以获得相似文本。在第二种方式中,首先从数据库中获取相似度符合预设条件的历史文本,之后判断这些历史文本中是否包含待识别文本的分词,从而获得相似文本。以下将以第一种方式为例介绍上述相似文本的获取过程。
在得到待识别文本的各分词之后,可利用一个或多个分词在数据库中进行查询,从而得到包含至少一个待识别文本分词的历史文本。在ES中,可利用其模糊检索功能实现上述查询过程。此后,可将查询到的历史文本中与待识别文本的相关程度不符合预设规则的历史文本去除。实际应用中,可将查询到的历史文本按照与待识别文本的相关程度降序排列,并将在前的预设数量的历史文本保留,将其余历史文本去除。
可以理解,相关程度为历史文本与待识别文本之间相关性的度量,可由历史文本中包含的待识别文本分词和其它分词、历史文本中包含的待识别文本分词的排列顺序等因素确定。例如,若待识别文本包含三个分词,可根据以下规则确定历史文本与待识别文本的相关程度大小。
1.首先,将相关程度设置为0与1之间的数值。之后,将包含待识别文本三个分词的历史文本的相关程度确定为大于0.6,将包含待识别文本两个分词的历史文本的相关程度确定在0.3与0.6之间,将包含待识别文本一个分词的历史文本的相关程度确定为小于0.3。
2.在相关程度大于0.6的历史文本中,将三个分词排列顺序与待识别文本一致的历史文本的相关程度确定为大于0.8,将三个分词排列顺序与待识别文本不一致的历史文本的相关程度确定在0.6与0.8之间;在相关程度大于0.8的历史文本中,将除待识别文本分词之外不包含其它分词的历史文本的相关程度确定为大于0.9,将除待识别文本分词之外还包含其它分词的历史文本的相关程度确定在0.8与0.9之间;在相关程度在0.6与0.8之间的历史文本中,将除待识别文本分词之外不包含其它分词的历史文本的相关程度确定在0.7与0.8之间,将除待识别文本分词之外还包含其它分词的历史文本的相关程度确定在0.6与0.7之间。
3.在相关程度在0.3与0.6之间的历史文本中,将两个分词排列顺序与待识别文本一致的历史文本的相关程度确定在0.45与0.6之间,将两个分词排列顺序与待识别文本不一致的历史文本的相关程度确定在0.3与0.45之间;在相关程度在0.45与0.6之间的历史文本中,将除待识别文本分词之外不包含其它分词的历史文本的相关程度确定在0.5与0.6之间,将除待识别文本分词之外还包含其它分词的历史文本的相关程度确定在0.45与0.5之间;在相关程度在0.3与0.45之间的历史文本中,将除待识别文本分词之外不包含其它分词的历史文本的相关程度确定在0.4与0.45之间,将除待识别文本分词之外还包含其它分词的历史文本的相关程度确定在0.3与0.4之间。
4.在相关程度小于0.3的历史文本中,将除待识别文本分词之外不包含其它分词的历史文本的相关程度确定在0.2与0.3之间,将除待识别文本分词之外还包含其它分词的历史文本的相关程度确定为小于0.2。
需要说明的是,以上规则仅为展示相关程度的度量方式,并不对相关程度的实际计算过程形成限制。具体应用中,计算相关程度除了考虑以上因素之外,还可能考虑包含的待识别文本分词的权重等因素。
此后,可计算保留的历史文本与待识别文本的相似度,并通过判断相似度是否符合预设条件从而得到待识别文本的相似文本。以下介绍获取相似文本的三种具体方式,可以理解,以下方式仅为示例,并不对用于相似度判断的预设条件形成任何限制。事实上,预设条件可根据应用环境和实际需要灵活设置。
在第一种方式中,首先获取保留的历史文本中与待识别文本相似度最大的历史文本,之后比较该历史文本与待识别文本的相似度和预设的第一阈值(此阈值与应用场景相关,可凭经验或者利用实验获得)的大小:在相似度大于第一阈值时,将该历史文本确定为待识别文本的相似文本;在相似度不大于第一阈值时,认为数据库中不存在待识别文本的相似文本。
在第二种方式中,首先将保留的历史文本根据历史文本的意图信息分成至少一个类别,之后获取包含历史文本数量最大的类别,并比较该类别中历史文本与待识别文本的相似度平均值(例如算数平均值、几何平均值等)和预设的第二阈值(此阈值与应用场景相关,可凭经验或者利用实验获得)的大小:在相似度平均值大于第二阈值时,将该类别中的历史文本确定为待识别文本的相似文本;在相似度平均值不大于第二阈值时,认为数据库中不存在待识别文本的相似文本。
在第三种方式中,结合了前两种方式,即首先获取保留的历史文本中与待识别文本相似度最大的历史文本,之后比较该历史文本与待识别文本的相似度和预设的第一阈值的大小:在相似度大于第一阈值时,将该历史文本确定为待识别文本的相似文本;在相似度不大于第一阈值时,将保留的历史文本根据历史文本的意图信息分成至少一个类别,获取包含历史文本数量最大的类别,并比较该类别中历史文本与待识别文本的相似度平均值和预设的第二阈值的大小:在相似度平均值大于第二阈值时,将该类别中的历史文本确定为待识别文本的相似文本;在相似度平均值不大于第二阈值时,认为数据库中不存在待识别文本的相似文本。
在步骤S102中,获取到待识别文本的相似文本之后,可依据数据库存储的相似文本的意图信息确定待识别文本的意图信息。在通过上述三种方式获取到待识别文本的相似文本之后,可将相似文本的意图信息确定为待识别文本的意图信息,从而实现意图识别。
较佳地,在本发明实施例中,如果通过步骤S102未获得待识别文本的相似文本,可利用预先建立的意图模板集合或者预先训练完成的意图分类模型确定待识别文本的意图信息。具体地,意图模板集合中包括至少一个采用正则表达式或者利用知识工程形成的意图模板,每一意图模板配置有表征一种意图信息的规则。使用时,将待识别文本分别与每一意图模板尝试进行匹配,如果匹配成功,则将相应模板对应的意图信息确定为待识别文本的意图信息。意图分类模型可以采用决策树、深度神经网络等算法,并通过人工标注的数据进行模型训练。实际应用中,也可将意图模板集合与意图分类模型结合进行意图识别,即首先将待识别文本输入意图模板集合,在得到识别结果时输出,在未得到识别结果时将待识别文本输入意图分类模型进行判断。将数据库、意图模板集合与意图分类模型结合可使系统兼顾文本覆盖范围、识别准确率和响应速度的要求。
特别地,上述数据库中存储的历史文本可以包括:在历史时期意图识别结果错误、并由人工标记意图信息的文本。也就是说,在执行意图识别的过程中,如果遇到识别错误的案例,可由人工标记相应文本的正确意图信息之后,将文本与其标记的意图信息存储到数据库。可以理解,此后如果遇到该文本或者该文本的类似文本,可通过前述获取相似文本的过程定位数据库之前存储的文本,从而可直接展示其正确意图。
例如,系统将待识别文本“放一首欢快的歌曲”的意图错误地预测为“聊天”,则在了解到错误发生之后,由人工将“放一首欢快的歌曲”的意图标记为“播放音乐”,并将文本及其标记的意图存储在ES。此后,系统在面对“放一首欢快的歌曲”或者其类似文本“放一首开心的歌曲”、“播放欢快的歌曲”时,可通过执行前述模糊检索、相似度判断步骤将ES中存储的“放一首欢快的歌曲”作为待识别文本的相似文本,并将ES中存储的“放一首欢快的歌曲”的意图信息“播放音乐”作为意图识别结果。
通过上述设置,系统在面对识别结果错误、需要紧急修复的情况时,不需重新开发代码和重新训练模型,也不需重新执行版本上线流程,仅需将相应文本及其正确意图存储在数据库并执行线上验证即可,由此实现了系统的及时热修复,保证了系统的正常工作和用户体验,避免了原有修复方式带来的风险和较大的时间成本及人工成本。
在本发明实施例的技术方案中,首先,通过建立存储有历史文本及其意图信息的数据库,并在数据库中查询待识别文本的相似文本用于待识别文本的意图识别,实现了一种准确、快速的文本意图识别方式。在此基础上,当发生意图识别错误时,由人工标记相应文本的正确意图后将文本及其正确意图存储到数据库,此后若再次遇到该文本或者该文本的类似文本时即可准确识别,从而实现意图识别系统的及时热修复,避免了现有修复方式中重新开发代码或者重新训练模型修复周期长、成本风险高等缺陷,也不需执行冗长的版本上线流程。此外,不断存储到数据库的意图识别错误案例有利于意图识别的数据分析工作,可提升意图分类模型以及意图识别系统的分类性能。其次,在从数据库中确定待识别文本的相似文本时,首先获取包含至少一个待识别文本分词、并与待识别文本相关程度较高的预设数量的历史文本,之后从中确定相似度符合预设条件的历史文本用于判断待识别文本的意图。通过以上设置,能够在确保意图识别准确率的前提下提高系统的响应速度。再次,上述数据库可与现有技术中的意图模板集合以及意图分类模型结合构成意图识别系统。其中,数据库用于在存储待识别文本的相似文本时进行快速识别以及意图识别错误时系统的及时修复,意图模板集合和意图分类模型用于在数据库无法提供识别结果时进行补充识别,由此实现兼顾文本覆盖范围、识别准确率和响应速度的意图识别系统。
需要说明的是,对于前述的各方法实施例,为了便于描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,某些步骤事实上可以采用其它顺序进行或者同时进行。此外,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是实现本发明所必须的。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图3所示,本发明实施例提供的文本意图识别装置200可以包括分词单元201和意图识别单元202。
其中,分词单元201可用于获取待识别文本中的一个或多个分词。意图识别单元202可用于:在判断预先建立的数据库中存储有包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本时,依据存储在所述数据库中的、所述历史文本的意图信息确定待识别文本的意图信息。
在本发明实施例中,所述数据库中存储的历史文本可包括:在历史时期意图识别结果错误、并由人工标记意图信息的文本。
实际应用中,意图识别单元202可进一步用于:在所述数据库中查询到包含至少一个所述分词的历史文本时,将查询到的历史文本中与待识别文本的相关程度不符合预设规则的历史文本去除。
具体应用中,意图识别单元202可进一步用于:将查询到的历史文本按照与待识别文本的相关程度降序排列;将在前的预设数量的历史文本保留,将其余历史文本去除。
较佳地,在本发明实施例中,意图识别单元202可进一步用于:获取保留的历史文本中与待识别文本相似度最大的历史文本;在该历史文本与待识别文本的相似度大于预设的第一阈值时,将该历史文本确定为所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本。
作为一个优选方案,意图识别单元202可进一步用于:将保留的历史文本根据历史文本的意图信息分成至少一个类别;获取包含历史文本数量最大的类别;在该类别中历史文本与待识别文本的相似度平均值大于预设的第二阈值时,将该类别中的历史文本确定为所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本。
在一个实施例中,意图识别单元202可进一步用于:将所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本的意图信息确定为待识别文本的意图信息。
在一可选实现方式中,文本意图识别装置可进一步包括辅助识别单元,其可用于:在判断预先建立的数据库中未存储包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本时,利用预先建立的意图模板集合、和/或预先训练完成的意图分类模型确定待识别文本的意图信息;其中,意图模板集合中包括至少一个意图模板,每一意图模板配置有表征一种意图信息的规则。
此外,在本发明实施例中,所述数据库为弹性搜索引擎ElasticSearch;所述相似度可包括以下之一:余弦相似度、杰卡德相似度、皮尔逊相关系数、调整余弦相似度、基于编辑距离的相似度、基于欧氏距离的相似度、基于曼哈顿距离的相似度、基于明可夫斯基距离的相似度;历史文本与待识别文本的相关程度可由以下因素确定:历史文本中包含的待识别文本分词和其它分词、以及历史文本中包含的待识别文本分词的排列顺序。
在本发明实施例的技术方案中,首先,通过建立存储有历史文本及其意图信息的数据库,并在数据库中查询待识别文本的相似文本用于待识别文本的意图识别,实现了一种准确、快速的文本意图识别方式。在此基础上,当发生意图识别错误时,由人工标记相应文本的正确意图后将文本及其正确意图存储到数据库,此后若再次遇到该文本或者该文本的类似文本时即可准确识别,从而实现意图识别系统的及时热修复,避免了现有修复方式中重新开发代码或者重新训练模型修复周期长、成本风险高等缺陷,也不需执行冗长的版本上线流程。此外,不断存储到数据库的意图识别错误案例有利于意图识别的数据分析工作,可提升意图分类模型以及意图识别系统的分类性能。其次,在从数据库中确定待识别文本的相似文本时,首先获取包含至少一个待识别文本分词、并与待识别文本相关程度较高的预设数量的历史文本,之后从中确定相似度符合预设条件的历史文本用于判断待识别文本的意图。通过以上设置,能够在确保意图识别准确率的前提下提高系统的响应速度。再次,上述数据库可与现有技术中的意图模板集合以及意图分类模型结合构成意图识别系统。其中,数据库用于在存储待识别文本的相似文本时进行快速识别以及意图识别错误时系统的及时修复,意图模板集合和意图分类模型用于在数据库无法提供识别结果时进行补充识别,由此实现兼顾文本覆盖范围、识别准确率和响应速度的意图识别系统。
图3是本发明实施例中文本意图识别系统的组成部分示意图。
如图3所示,本发明实施例的文本意图识别系统可包括:预先建立的、存储有至少一个历史文本和所述历史文本的意图信息的数据库,以及相似度判断单元。
其中,所述数据库可以是ES、Mysql、MongoDB等任意适用的数据库,其可用于:响应于携带有待识别文本的查询请求,输出包含至少一个待识别文本分词的历史文本。所述相似度判断单元可用于:获取所述数据库输出的历史文本中与待识别文本的相似度符合预设条件的历史文本,依据该历史文本的意图信息确定待识别文本的意图信息。实际应用中,相似度判断单元可在数据库内实现,也可独立于数据库。可以理解,所述系统还包括用于接收输入信息的输入单元和用于展示意图识别结果的输出单元。
在本发明实施例中,所述数据库中存储的历史文本可包括:在历史时期意图识别结果错误、并由人工标记意图信息的文本;所述数据库可进一步用于:将包含至少一个待识别文本分词的历史文本按照与待识别文本的相关程度降序排列,将在前的预设数量的历史文本输出。
实际应用场景中,所述相似度判断单元可进一步用于:获取所述数据库输出的历史文本中与待识别文本相似度最大的历史文本;在该历史文本与待识别文本的相似度大于预设的第一阈值时,将该历史文本的意图信息确定为待识别文本的意图信息;或者,将所述数据库输出的历史文本根据历史文本的意图信息分成至少一个类别,获取包含历史文本数量最大的类别;在该类别中历史文本与待识别文本的相似度平均值大于预设的第二阈值时,将该类别对应的意图信息确定为待识别文本的意图信息。
在一个实施例中,所述系统可进一步包括:预先建立的意图模板集合和预先训练完成的意图分类模型。具体地,意图模板集合中包括至少一个采用正则表达式或者利用知识工程形成的意图模板,每一意图模板配置有表征一种意图信息的规则,意图模板集合可用于:在所述数据库未存储包含至少一个待识别文本分词的历史文本、或者所述数据库输出的历史文本中不存在与待识别文本的相似度符合预设条件的历史文本时,提供至少一个意图模板尝试与待识别文本进行匹配,并将匹配成功的意图模板对应的意图信息确定为待识别文本的意图信息。意图分类模型可以是单模型或者融合模型,可采用决策树、深度神经网络等算法,并通过人工标注的数据进行模型训练。意图分类模型可用于:在所述意图模板集合中的意图模板都未与待识别文本匹配成功时,接收待识别文本,输出待识别文本的意图信息。
此外,在本发明实施例中,所述相似度可包括以下之一:余弦相似度、杰卡德相似度、皮尔逊相关系数、调整余弦相似度、基于编辑距离的相似度、基于欧氏距离的相似度、基于曼哈顿距离的相似度、基于明可夫斯基距离的相似度;历史文本与待识别文本的相关程度可由以下因素确定:历史文本中包含的待识别文本分词和其它分词、以及历史文本中包含的待识别文本分词的排列顺序。
图4是本发明实施例中文本分类系统的组成部分示意图。
如图4所示,本发明实施例的文本分类系统可包括:预先建立的、存储有至少一个历史文本和所述历史文本在预设维度的类别信息的数据库,以及相似度计算单元。其中,预设维度可以是意图维度、情绪维度等各种维度,意图维度的类别信息可以是聊天、播放音乐、在线广播等,情绪维度的类别信息可以是中性、愤怒、蔑视、厌恶、恐惧、高兴、悲伤、惊讶等。
所述数据库可以是ES、Mysql、MongoDB等任意适用的数据库,其可用于:响应于携带有待识别文本的查询请求,输出包含至少一个待识别文本分词的历史文本。所述相似度计算单元可用于:获取所述数据库输出的历史文本中与待识别文本的相似度符合预设条件的历史文本,依据该历史文本的类别信息确定待识别文本的类别信息。实际应用中,相似度计算单元可在数据库内实现,也可独立于数据库。可以理解,所述系统还包括用于接收输入信息的输入单元和用于展示分类结果的输出单元。
在本发明实施例中,所述数据库中存储的历史文本包括:在历史时期分类结果错误、并由人工标记类别信息的文本。所述数据库可进一步用于:将包含至少一个待识别文本分词的历史文本按照与待识别文本的相关程度降序排列,将在前的预设数量的历史文本输出。
实际应用场景中,所述相似度计算单元可进一步用于:获取所述数据库输出的历史文本中与待识别文本相似度最大的历史文本;在该历史文本与待识别文本的相似度大于预设的第一阈值时,将该历史文本的类别信息确定为待识别文本的类别信息;或者,将所述数据库输出的历史文本根据历史文本的类别信息置入至少一个文本集合;其中,文本集合与类别信息一一对应;获取包含历史文本数量最大的文本集合;在该文本集合中历史文本与待识别文本的相似度平均值大于预设的第二阈值时,将该文本集合对应的类别信息确定为待识别文本的类别信息。
在一个实施例中,所述系统可进一步包括:预先建立的文本模板集合和预先训练完成的文本分类模型。具体地,文本模板集合中包括至少一个采用正则表达式或者利用知识工程形成的文本模板,每一文本模板配置有表征一种类别信息的规则。所述文本模板集合可用于:在所述数据库未存储包含至少一个待识别文本分词的历史文本、或者所述数据库输出的历史文本中不存在与待识别文本的相似度符合预设条件的历史文本时,提供至少一个文本模板尝试与待识别文本进行匹配,并将匹配成功的文本模板对应的类别信息确定为待识别文本的类别信息。文本分类模型可以是单模型或者融合模型,可采用决策树、深度神经网络等算法,并通过人工标注的数据进行模型训练。文本分类模型可用于:在所述文本模板集合中的文本模板都未与待识别文本匹配成功时,接收待识别文本,输出待识别文本的类别信息。
此外,在本发明实施例中,所述相似度可包括以下之一:余弦相似度、杰卡德相似度、皮尔逊相关系数、调整余弦相似度、基于编辑距离的相似度、基于欧氏距离的相似度、基于曼哈顿距离的相似度、基于明可夫斯基距离的相似度;历史文本与待识别文本的相关程度可由以下因素确定:历史文本中包含的待识别文本分词和其它分词、以及历史文本中包含的待识别文本分词的排列顺序。
图5示出了可以应用本发明实施例的文本意图识别方法或文本意图识别装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505(此架构仅仅是示例,具体架构中包含的组件可以根据申请具体情况调整)。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种客户端应用,例如意图识别应用等(仅为示例)。
终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所操作的意图识别应用提供支持的后台服务器(仅为示例)。后台服务器可以对接收到的意图识别请求进行处理,并将处理结果(例如识别的意图信息--仅为示例)反馈给终端设备501、502、503。
需要说明的是,本发明实施例所提供的文本意图识别方法一般由服务器505执行,相应地,文本意图识别装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
本发明还提供了一种电子设备。本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的文本意图识别方法。
下面参考图6,其示出了适于用来实现本发明实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有计算机系统600操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文的主要步骤图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在上述实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元601执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括分词单元和意图识别单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,分词单元还可以被描述为“向意图识别单元提供待识别文本分词的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中的。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该设备执行时,使得该设备执行的步骤包括:获取待识别文本中的一个或多个分词;在判断预先建立的数据库中存储有包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本时,依据存储在所述数据库中的、所述历史文本的意图信息确定待识别文本的意图信息。
在本发明实施例的技术方案中,首先,通过建立存储有历史文本及其意图信息的数据库,并在数据库中查询待识别文本的相似文本用于待识别文本的意图识别,实现了一种准确、快速的文本意图识别方式。在此基础上,当发生意图识别错误时,由人工标记相应文本的正确意图后将文本及其正确意图存储到数据库,此后若再次遇到该文本或者该文本的类似文本时即可准确识别,从而实现意图识别系统的及时热修复,避免了现有修复方式中重新开发代码或者重新训练模型修复周期长、成本风险高等缺陷,也不需执行冗长的版本上线流程。此外,不断存储到数据库的意图识别错误案例有利于意图识别的数据分析工作,可提升意图分类模型以及意图识别系统的分类性能。其次,在从数据库中确定待识别文本的相似文本时,首先获取包含至少一个待识别文本分词、并与待识别文本相关程度较高的预设数量的历史文本,之后从中确定相似度符合预设条件的历史文本用于判断待识别文本的意图。通过以上设置,能够在确保意图识别准确率的前提下提高系统的响应速度。再次,上述数据库可与现有技术中的意图模板集合以及意图分类模型结合构成意图识别系统。其中,数据库用于在存储待识别文本的相似文本时进行快速识别以及意图识别错误时系统的及时修复,意图模板集合和意图分类模型用于在数据库无法提供识别结果时进行补充识别,由此实现兼顾文本覆盖范围、识别准确率和响应速度的意图识别系统。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (20)

1.一种文本意图识别方法,其特征在于,包括:
获取待识别文本中的一个或多个分词;
在判断预先建立的数据库中存储有包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本时,依据存储在所述数据库中的、所述历史文本的意图信息确定待识别文本的意图信息。
2.根据权利要求1所述的方法,其特征在于,所述数据库中存储的历史文本包括:在历史时期意图识别结果错误、并由人工标记意图信息的文本。
3.根据权利要求1所述的方法,其特征在于,判断所述数据库中是否存储有包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本的步骤包括:
在所述数据库中查询到包含至少一个所述分词的历史文本时,将查询到的历史文本中与待识别文本的相关程度不符合预设规则的历史文本去除。
4.根据权利要求3所述的方法,其特征在于,所述将查询到的历史文本中与待识别文本的相关程度不符合预设规则的历史文本去除,包括:
将查询到的历史文本按照与待识别文本的相关程度降序排列;
将在前的预设数量的历史文本保留,将其余历史文本去除。
5.根据权利要求4所述的方法,其特征在于,所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本通过以下步骤获得:
获取保留的历史文本中与待识别文本相似度最大的历史文本;在该历史文本与待识别文本的相似度大于预设的第一阈值时,将该历史文本确定为所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本。
6.根据权利要求4所述的方法,其特征在于,所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本通过以下步骤获得:
将保留的历史文本根据历史文本的意图信息分成至少一个类别;
获取包含历史文本数量最大的类别;在该类别中历史文本与待识别文本的相似度平均值大于预设的第二阈值时,将该类别中的历史文本确定为所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本。
7.根据权利要求5或6所述的方法,其特征在于,所述依据存储在所述数据库中的、所述历史文本的意图信息确定待识别文本的意图信息,包括:
将所述包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本的意图信息确定为待识别文本的意图信息。
8.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
在判断预先建立的数据库中未存储包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本时,利用预先建立的意图模板集合、和/或预先训练完成的意图分类模型确定待识别文本的意图信息;
其中,意图模板集合中包括至少一个意图模板,每一意图模板配置有表征一种意图信息的规则。
9.根据权利要求3-6任一所述的方法,其特征在于,
所述数据库为弹性搜索引擎Elastic Search;
所述相似度包括以下之一:余弦相似度、杰卡德相似度、皮尔逊相关系数、调整余弦相似度、基于编辑距离的相似度、基于欧氏距离的相似度、基于曼哈顿距离的相似度、基于明可夫斯基距离的相似度;
以及,历史文本与待识别文本的相关程度由以下因素确定:历史文本中包含的待识别文本分词和其它分词、以及历史文本中包含的待识别文本分词的排列顺序。
10.一种文本意图识别装置,其特征在于,包括:
分词单元,用于获取待识别文本中的一个或多个分词;
意图识别单元,用于:在判断预先建立的数据库中存储有包含至少一个所述分词、并且与待识别文本的相似度符合预设条件的历史文本时,依据存储在所述数据库中的、所述历史文本的意图信息确定待识别文本的意图信息。
11.一种文本意图识别系统,其特征在于,包括:预先建立的、存储有至少一个历史文本和所述历史文本的意图信息的数据库,以及相似度判断单元;其中,
所述数据库用于:响应于携带有待识别文本的查询请求,输出包含至少一个待识别文本分词的历史文本;
所述相似度判断单元用于:获取所述数据库输出的历史文本中与待识别文本的相似度符合预设条件的历史文本,依据该历史文本的意图信息确定待识别文本的意图信息。
12.根据权利要求11所述的系统,其特征在于,
所述数据库中存储的历史文本包括:在历史时期意图识别结果错误、并由人工标记意图信息的文本;
所述数据库进一步用于:将包含至少一个待识别文本分词的历史文本按照与待识别文本的相关程度降序排列,将在前的预设数量的历史文本输出。
13.根据权利要求11所述的系统,其特征在于,所述相似度判断单元进一步用于:
获取所述数据库输出的历史文本中与待识别文本相似度最大的历史文本;在该历史文本与待识别文本的相似度大于预设的第一阈值时,将该历史文本的意图信息确定为待识别文本的意图信息;或者,
将所述数据库输出的历史文本根据历史文本的意图信息分成至少一个类别,获取包含历史文本数量最大的类别;在该类别中历史文本与待识别文本的相似度平均值大于预设的第二阈值时,将该类别对应的意图信息确定为待识别文本的意图信息。
14.根据权利要求11所述的系统,其特征在于,所述系统进一步包括:预先建立的意图模板集合和预先训练完成的意图分类模型;
其中,所述意图模板集合用于:在所述数据库未存储包含至少一个待识别文本分词的历史文本、或者所述数据库输出的历史文本中不存在与待识别文本的相似度符合预设条件的历史文本时,提供至少一个意图模板尝试与待识别文本进行匹配,并将匹配成功的意图模板对应的意图信息确定为待识别文本的意图信息;
所述意图分类模型用于:在所述意图模板集合中的意图模板都未与待识别文本匹配成功时,接收待识别文本,输出待识别文本的意图信息。
15.根据权利要求12所述的系统,其特征在于,
所述数据库为弹性搜索引擎Elastic Search;
所述相似度包括以下之一:余弦相似度、杰卡德相似度、皮尔逊相关系数、调整余弦相似度、基于编辑距离的相似度、基于欧氏距离的相似度、基于曼哈顿距离的相似度、基于明可夫斯基距离的相似度;
以及,历史文本与待识别文本的相关程度由以下因素确定:历史文本中包含的待识别文本分词和其它分词、以及历史文本中包含的待识别文本分词的排列顺序。
16.一种文本分类系统,其特征在于,包括:预先建立的、存储有至少一个历史文本和所述历史文本在预设维度的类别信息的数据库,以及相似度计算单元;其中,
所述数据库用于:响应于携带有待识别文本的查询请求,输出包含至少一个待识别文本分词的历史文本;
所述相似度计算单元用于:获取所述数据库输出的历史文本中与待识别文本的相似度符合预设条件的历史文本,依据该历史文本的类别信息确定待识别文本的类别信息。
17.根据权利要求16所述的系统,其特征在于,
所述数据库中存储的历史文本包括:在历史时期分类结果错误、并由人工标记类别信息的文本;
所述数据库进一步用于:将包含至少一个待识别文本分词的历史文本按照与待识别文本的相关程度降序排列,将在前的预设数量的历史文本输出;以及,所述相似度计算单元进一步用于:
获取所述数据库输出的历史文本中与待识别文本相似度最大的历史文本;在该历史文本与待识别文本的相似度大于预设的第一阈值时,将该历史文本的类别信息确定为待识别文本的类别信息;或者,
将所述数据库输出的历史文本根据历史文本的类别信息置入至少一个文本集合;其中,文本集合与类别信息一一对应;获取包含历史文本数量最大的文本集合;在该文本集合中历史文本与待识别文本的相似度平均值大于预设的第二阈值时,将该文本集合对应的类别信息确定为待识别文本的类别信息。
18.根据权利要求17所述的系统,其特征在于,所述系统进一步包括:预先建立的文本模板集合和预先训练完成的文本分类模型;
其中,所述文本模板集合用于:在所述数据库未存储包含至少一个待识别文本分词的历史文本、或者所述数据库输出的历史文本中不存在与待识别文本的相似度符合预设条件的历史文本时,提供至少一个文本模板尝试与待识别文本进行匹配,并将匹配成功的文本模板对应的类别信息确定为待识别文本的类别信息;
所述文本分类模型用于:在所述文本模板集合中的文本模板都未与待识别文本匹配成功时,接收待识别文本,输出待识别文本的类别信息;以及,
所述数据库为弹性搜索引擎Elastic Search;
所述相似度包括以下之一:余弦相似度、杰卡德相似度、皮尔逊相关系数、调整余弦相似度、基于编辑距离的相似度、基于欧氏距离的相似度、基于曼哈顿距离的相似度、基于明可夫斯基距离的相似度;
历史文本与待识别文本的相关程度由以下因素确定:历史文本中包含的待识别文本分词和其它分词、以及历史文本中包含的待识别文本分词的排列顺序。
19.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-9中任一所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-9中任一所述的方法。
CN201910538487.1A 2019-06-20 2019-06-20 文本意图识别方法、装置、系统以及文本分类系统 Pending CN112115229A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910538487.1A CN112115229A (zh) 2019-06-20 2019-06-20 文本意图识别方法、装置、系统以及文本分类系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910538487.1A CN112115229A (zh) 2019-06-20 2019-06-20 文本意图识别方法、装置、系统以及文本分类系统

Publications (1)

Publication Number Publication Date
CN112115229A true CN112115229A (zh) 2020-12-22

Family

ID=73796104

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910538487.1A Pending CN112115229A (zh) 2019-06-20 2019-06-20 文本意图识别方法、装置、系统以及文本分类系统

Country Status (1)

Country Link
CN (1) CN112115229A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559671A (zh) * 2021-02-20 2021-03-26 深圳平安智汇企业信息管理有限公司 基于es的文本搜索引擎的构建方法、装置、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112559671A (zh) * 2021-02-20 2021-03-26 深圳平安智汇企业信息管理有限公司 基于es的文本搜索引擎的构建方法、装置、设备及介质
CN112559671B (zh) * 2021-02-20 2021-06-08 深圳平安智汇企业信息管理有限公司 基于es的文本搜索引擎的构建方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN110377911B (zh) 对话框架下的意图识别方法和装置
CN110555095A (zh) 人机对话方法和装置
CN109165291B (zh) 一种文本匹配方法及电子设备
CN112100354B (zh) 人机对话方法、装置、设备及存储介质
CN111428010B (zh) 人机智能问答的方法和装置
CN111310440B (zh) 文本的纠错方法、装置和系统
WO2013080406A1 (ja) 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム
CN111291570A (zh) 一种实现司法文书中要素识别的方法及装置
CN111222305A (zh) 一种信息结构化方法和装置
CN109086265B (zh) 一种语义训练方法、短文本中多语义词消歧方法
CN112507704B (zh) 多意图识别方法、装置、设备及存储介质
CN109325121B (zh) 用于确定文本的关键词的方法和装置
CN110929524A (zh) 数据筛选方法、装置、设备及计算机可读存储介质
CN112199602B (zh) 岗位推荐方法、推荐平台及服务器
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN111723870A (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN113051380A (zh) 信息生成方法、装置、电子设备和存储介质
CN113326702A (zh) 语义识别方法、装置、电子设备及存储介质
CN115455151A (zh) 一种ai情绪可视化识别方法、系统及云平台
CN111368066B (zh) 获取对话摘要的方法、装置和计算机可读存储介质
CN110750626B (zh) 一种基于场景的任务驱动的多轮对话方法及系统
CN112579781B (zh) 文本归类方法、装置、电子设备及介质
CN112115229A (zh) 文本意图识别方法、装置、系统以及文本分类系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination