CN114970531A - 基于即时通信消息的意图识别与命名实体提取方法及装置 - Google Patents

基于即时通信消息的意图识别与命名实体提取方法及装置 Download PDF

Info

Publication number
CN114970531A
CN114970531A CN202210374341.XA CN202210374341A CN114970531A CN 114970531 A CN114970531 A CN 114970531A CN 202210374341 A CN202210374341 A CN 202210374341A CN 114970531 A CN114970531 A CN 114970531A
Authority
CN
China
Prior art keywords
named entity
regular expression
instant messaging
character string
named
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210374341.XA
Other languages
English (en)
Inventor
赵桐阅
何巍巍
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beike Technology Co Ltd
Original Assignee
Beike Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beike Technology Co Ltd filed Critical Beike Technology Co Ltd
Priority to CN202210374341.XA priority Critical patent/CN114970531A/zh
Publication of CN114970531A publication Critical patent/CN114970531A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/322Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明提供一种基于即时通信消息的意图识别与命名实体提取方法及装置,该方法包括:获取即时通信消息对应的文本后在正则表达式语料库中进行匹配,获取匹配的正则表达式;其中,正则表达式语料库包括对即时通信消息样本正则化处理得到的正则表达式集合,其中的正则表达式划分了用户意图;根据匹配的正则表达式获取用户意图;根据匹配的正则表达式进行至少一个类别的命名实体的提取;利用根据命名实体样本预先建立的字典树对命名实体进行二次检索匹配,获取字典树中命名实体中的字符按原顺序出现的至少一个字符串;将命名实体修正为与命名实体相似度最高的字符串。本发明实现了用户意图和命名实体的快速、精确提取。

Description

基于即时通信消息的意图识别与命名实体提取方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种基于即时通信消息的意图识别与命名实体提取方法及装置。
背景技术
随着计算机技术的发展,智能化技术应用在生活的方方面面,比如,基于即时通信消息进行自动化响应。基于即时通信消息进行自动化响应包括根据用户咨询的问题进行自动应答或根据用户命令进行自动操作等。基于即时通信消息进行自动化响应的技术实现上,需要基于即时通信消息进行用户的意图识别和命名实体提取,进而根据意图和命名实体执行相应的自动化响应。
现有基于即时通信消息进行自动化响应的技术普遍存在响应速度慢、响应准确度低的问题,其根本原因在于意图识别和命名实体提取的速度慢、准确度低。若能够提高基于即时通信消息的意图识别与命名实体提取的速度和准确度可有效地提高自动化响应速度和准确度。
发明内容
为解决现有技术中的问题,本发明提供一种基于即时通信消息的意图识别与命名实体提取方法及装置。
本发明提供一种基于即时通信消息的意图识别与命名实体提取方法,包括:获取即时通信消息对应的文本;将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式;其中,所述正则表达式语料库包括对即时通信消息样本正则化处理得到的正则表达式集合,且所述正则表达式集合中的正则表达式划分了用户意图;根据所述匹配的正则表达式获取对应的用户意图;根据所述匹配的正则表达式进行至少一个类别的命名实体的提取;利用根据命名实体样本预先建立的字典树对所述命名实体进行二次检索匹配,获取所述字典树中所述命名实体中的字符按原顺序出现的至少一个字符串;将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串。
根据本发明提供的一种基于即时通信消息的意图识别与命名实体提取方法,在所述根据所述匹配的正则表达式获取对应的用户意图之后、所述根据所述匹配的正则表达式进行至少一个类别的命名实体的提取之前,所述方法还包括:根据所述用户意图获取对应的用于执行自动化响应的API地址;根据所述API地址获取待提取的所述命名实体的所述类别;在所述将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串之后,所述方法还包括:将所述命名实体作为请求所述API地址的入参,请求执行所述API地址对应的所述自动化响应。
根据本发明提供的一种基于即时通信消息的意图识别与命名实体提取方法,所述正则表达式集合中的正则表达式以文本样式存储在数据库表中;所述将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式,包括:利用数据库的正则检索功能将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式。
根据本发明提供的一种基于即时通信消息的意图识别与命名实体提取方法,所述根据所述匹配的正则表达式进行至少一个类别的命名实体的提取,包括:基于预先标注的不同类别命名实体在所述正则表达式中的位置进行至少一个类别的命名实体的提取。
根据本发明提供的一种基于即时通信消息的意图识别与命名实体提取方法,所述将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串,包括:通过计算所述至少一个字符串的TF-IDF分数获取排序靠前的预设个数的字符串;计算所述命名实体与所述预设个数的字符串的相似度,并将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串。
根据本发明提供的一种基于即时通信消息的意图识别与命名实体提取方法,所述将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式,包括:将所述文本在与场景对应的正则表达式语料库中进行匹配,并根据场景的优先级获取所述匹配的正则表达式。
本发明还提供一种基于即时通信消息的意图识别与命名实体提取装置,包括:文本获取模块,用于:获取即时通信消息对应的文本;正则匹配模块,用于:将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式;其中,所述正则表达式语料库包括对即时通信消息样本正则化处理得到的正则表达式集合,且所述正则表达式集合中的正则表达式划分了用户意图;意图识别模块,用于:根据所述匹配的正则表达式获取对应的用户意图;命名实体提取模块,用于:根据所述匹配的正则表达式进行至少一个类别的命名实体的提取;字典树二次匹配模块,用于:利用根据命名实体样本预先建立的字典树对所述命名实体进行二次检索匹配,获取所述字典树中所述命名实体中的字符按原顺序出现的至少一个字符串;命名实体修正模块,用于:将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于即时通信消息的意图识别与命名实体提取方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于即时通信消息的意图识别与命名实体提取方法的步骤。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述基于即时通信消息的意图识别与命名实体提取方法的步骤。
本发明提供的基于即时通信消息的意图识别与命名实体提取方法及装置,通过将即时通信消息对应的文本在正则表达式语料库进行匹配得到对应的正则表达式,根据匹配得到的正则表达式得到用户意图以及至少一个类别的命名实体,利用字典树对命名实体进行二次检索匹配,获取字典树中命名实体中的字符按原顺序出现的至少一个字符串,并通过相似度匹配,将命名实体的数据内容修正为至少一个字符串中与当前数据内容相似度最高的字符串,实现了用户意图和命名实体的快速、精确提取。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于即时通信消息的意图识别与命名实体提取方法流程图之一;
图2是字典树的结构示意图;
图3是本发明提供的基于即时通信消息的意图识别与命名实体提取方法流程图之二;
图4是本发明提供的基于即时通信消息的意图识别与命名实体提取装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图5描述本发明的基于即时通信消息的意图识别与命名实体提取方法及装置。
图1是本发明提供的基于即时通信消息的意图识别与命名实体提取方法流程图之一。如图1所示,所述方法包括:
步骤101、获取即时通信消息对应的文本。
获取即时通信消息对应的文本,若即时通信消息为文本形式,则获取即时通信消息即得到对应文本;若即时通信消息为语音形式,则可以获取经语音识别后的文本,得到即时通信消息对应的文本。
本发明提供的基于即时通信消息的意图识别与命名实体提取方法可以基于现有的即时通信软件的功能进行开发,比如可以在企业微信所提供的功能基础上进行开发,并可以作为工具或插件集成到企业微信中使用。这时,在获取即时通信消息对应的文本时需要通过即时通信软件提供的API服务获取。本发明提供的基于即时通信消息的意图识别与命名实体提取方法可以实现为提升数据使用便捷性的企业微信应用,尤其适用于通过正则表达式进行用户意图识别与命名实体提取的企业微信即时通信的交互场景。
获取到即时通信消息对应的文本后,可以将文本写入到Kafka队列以用于后续消费处理。
步骤102、将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式;其中,所述正则表达式语料库包括对即时通信消息样本正则化处理得到的正则表达式集合,且所述正则表达式集合中的正则表达式划分了用户意图。
收集、分析并提炼用户的不同意图的即时通信消息样本,将其正则化,用于识别用户意图。基于对即时通信(Instant Messaging,即时通信)消息样本正则化处理得到的正则表达式集合构建正则表达式语料库。即时通信消息样本比如可以通过搜集常见的问询文本或命令文本实现。正则化处理即根据即时通信消息样本获取对应的正则表达式。由于每个即时通信消息样本是对应于意图的,因此,基于即时通信消息样本获取的正则表达式也对应于意图,即正则表达式集合中的正则表达式划分了用户意图。
将即时通信消息对应的文本在正则表达式语料库中进行匹配,获取匹配的正则表达式。比如,可以获取即时通信消息对应的文本的正则表达式,进而将得到的正则表达式与正则表达式集合中的正则表达式进行匹配,获取匹配的正则表达式。
通过将文本在正则表达式语料库中进行匹配,获取匹配的正则表达式可以精确的匹配用户意图。同时,正则表达式语料库可以根据业务的发展快速迭代规则,以适应需求。
步骤103、根据所述匹配的正则表达式获取对应的用户意图。
由于正则表达式集合中的正则表达式是划分了用户意图的,因此,可以根据匹配的正则表达式获取对应的用户意图。
步骤104、根据所述匹配的正则表达式进行至少一个类别的命名实体的提取。
所谓的命名实体(named entity,NE)就是人名、机构名、地名以及其他所有以名称为标识的实体。用户意图可以反映用户的即时通信消息对应于哪方面的需求,结合命名实体则将用户意图具体化。
根据即时通信消息对应的文本获取匹配的正则表达式,根据匹配的正则表达式获取对应的用户意图后,需要对于用户意图进行相应的响应,也即需要执行相应的自动化响应满足用户意图。相应的自动化响应的执行需要获取设定类别的命名实体,不同的自动化响应需要获取的命名实体的类别和数量可能不同。正则表达式中会保留全部命名实体的信息,或部分命名实体的信息,命名实体可以基于正则表达式进行提取。因此,根据执行用户意图对应的自动化响应所需的命名实体类别的不同,根据匹配的正则表达式进行至少一个类别的命名实体的提取。
步骤105、利用根据命名实体样本预先建立的字典树对所述命名实体进行二次检索匹配,获取所述字典树中所述命名实体中的字符按原顺序出现的至少一个字符串。
本发明提供的基于即时消息的意图识别与命名实体提取方法可以应用于业务系统中。根据业务的不同,业务系统中可以包括不同类别的命名实体。业务系统中的命名实体可以作为请求执行业务相关指令的入参。
实际操作中,从用户输入的一段语句中提取出的命名实体很可能是口语化的主体,由此,命名实体在业务系统中的名字与提取出的口语化的命名实体相似但不相同,需要根据提取的命名实体到业务系统中的命名实体中进行匹配,获取对应的业务系统中的命名实体。
字典树,又称为单词查找树,是一种树形结构,也是一种哈希树的变种。图2是字典树的结构示意图。字典树的构建过程包括定义节点、函数构造及构建字典树三部分。可以单起进程循环更新字典树,以保持字典树的及时性。
字典树具有如下特点:
a.根节点不包含字符,除根节点外的每一个子节点都包含一个字符,这个字符可以是英文字符,也可是中文字符或其他字符。
b.从根节点到任一节点,路径上经过的字符,连接起来就是该节点对应的字符串。
c.每个节点的所有子节点包含的字符都不相同。
在根据提取的命名实体到业务系统中的命名实体中进行匹配时,如果采用精确匹配,则很可能无法识别出用户真正希望识别的命名实体,如果采用常规的文本模糊查询,只能查找到包含该提取出的命名实体的结果,无法完全提取出相近的命名实体,如:语句中间多了个“的”字。
为了能够更广泛的识别出相近的命名实体的信息,将业务系统中的命名实体作为命名实体样本,根据命名实体样本预先构建字典树,字典树包括多个命名实体样本对应的字符串,也即命名实体样本在字典树中是以字符串的形式存在。利用构建的字典树对提取出的命名实体进行二次检索匹配,获取字典树中命名实体中的字符按原顺序出现的至少一个字符串,由于字典树中的字符串是对应于命名实体样本的,匹配到的字典树中的至少一个字符串对应于至少一个命名实体样本,命名实体样本中包括提取到的命名实体中的字符,且命名实体中的字符在命名实体样本中是按在命名实体中原来的先后顺序出现的,但命名实体中的字符和字符之间允许出现其他字符。也即通过将命名实体与字典树匹配,获取到包括提取的命名实体中的字符、且命名实体中的字符按原顺序出现的命名实体样本。
比如,命名实体样本对应的字符串为abcdefg,根据正则表达式提取的命名实体对应的字符串为abe,则命名实体样本对应的字符串abcdefg为命名实体abe中的字符按原顺序出现的字符串;再比如,命名实体样本对应的字符串为abcdefg,根据正则表达式提取的命名实体对应的字符串为afg,则命名实体样本对应的字符串abcdefg为命名实体afg中的字符按原顺序出现的字符串。
经过上述过程,对于根据正则表达式提取的命名实体,可能在字典树中匹配到多个字符串。
步骤106、将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串。
根据正则表达式提取出命名实体后,利用字典树进行二次匹配检索及进一步相似度匹配,以确定与用户即时通信消息最相近的精确命名实体。
在实现更广泛的识别出相近的命名实体样本的信息(即获取匹配得到的多个字符串)之后,通过进行相似度匹配确认最相似的命名实体样本。具体通过将命名实体的字符串与字典树匹配得到的字符串进行相似度匹配(比如可以通过计算编辑距离进行相似度匹配),将命名实体的数据内容修正为至少一个字符串中与当前数据内容相似度最高的字符串。也即,获取到了业务系统中与提取的命名实体最相近的命名实体样本,将命名实体替换为业务系统中最相近的命名实体样本。
本发明提供的基于即时通信消息的意图识别与命名实体提取方法,不仅可以实现用户意图和命名实体的精确获取,还大大提高了用户意图和命名实体提取的速度。经实验证明,用户通过企业微信输入即时通信文本信息后,平均1秒左右即可识别用户意图,并完成命名实体提取与精确匹配操作。
本发明提供的基于即时通信消息的意图识别与命名实体提取方法,通过将即时通信消息对应的文本在正则表达式语料库进行匹配得到对应的正则表达式,根据匹配得到的正则表达式得到用户意图以及至少一个类别的命名实体,利用字典树对命名实体进行二次检索匹配,获取字典树中命名实体中的字符按原顺序出现的至少一个字符串,并通过相似度匹配,将命名实体的数据内容修正为至少一个字符串中与当前数据内容相似度最高的字符串,实现了用户意图和命名实体的快速、精确提取。
根据本发明提供的一种基于即时通信消息的意图识别与命名实体提取方法,在所述根据所述匹配的正则表达式获取对应的用户意图之后、所述根据所述匹配的正则表达式进行至少一个类别的命名实体的提取之前,所述方法还包括:根据所述用户意图获取对应的用于执行自动化响应的API地址;根据所述API地址获取待提取的所述命名实体的所述类别;在所述将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串之后,所述方法还包括:将所述命名实体作为请求所述API地址的入参,请求执行所述API地址对应的所述自动化响应。
通过与用户意图对应的自动化响应来实现相应的意图,而自动化响应的实现可以与API地址绑定,通过访问绑定的API地址执行对应的自动化响应。访问API地址需要提供入参,入参包括访问API地址所需的命名实体。访问API地址的入参的类别可以是预先写好的。
因此,在根据匹配的正则表达式获取对应的用户意图之后,根据用户意图获取对应的用于执行自动化响应的API地址,根据API地址获取待提取的命名实体的类别,进而根据匹配的正则表达式进行相应类别的命名实体的提取。
在将命名实体的数据内容修正为至少一个字符串中与当前数据内容相似度最高的字符串之后,也即精确匹配到命名实体样本之后,将命名实体样本作为请求API地址的入参,请求执行API地址对应的自动化响应,实现了对应即时通信消息的自动化响应。
可以根据意图类别,开发对应的Action类及Action方法。其中,Action方法为执行自动化响应的方法,Action类为定义Action方法的类。可以通过开发配置化插件,允许通过实例化配置类的方式,调用Action方法。
本发明提供的基于即时通信消息的意图识别与命名实体提取方法,通过根据用户意图获取对应的用于执行自动化响应的API地址,根据API地址获取待提取的命名实体的类别,实现了待提取的命名实体的类别确定;通过将命名实体作为请求API地址的入参,请求执行API地址对应的自动化响应,实现了对应即时通信消息的自动化响应。
根据本发明提供的一种基于即时通信消息的意图识别与命名实体提取方法,所述正则表达式集合中的正则表达式以文本样式存储在数据库表中;所述将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式,包括:利用数据库的正则检索功能将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式。
通过正则检索配置化,将提炼出的正则化规则存入数据表中,利用数据库的正则检索功能进行即时通信消息的正则化检索。
收集总结用户常规询问或命令语句,根据这些语句进行主干抽象化,针对抽象后的语句进行类别划分,并以此构建正则表达式语料库中的正则表达式。将正则表达式语料库中的正则表达式以文本样式存入数据库表中,如Mysql表中,将即时通信消息对应的文本在正则表达式语料库中进行匹配时,使用RLIKE语法进行(在MySQL中,RLIKE运算符用于确定字符串是否匹配正则表达式)。
本发明提供的基于即时通信消息的意图识别与命名实体提取方法,通过将正则表达式集合中的正则表达式以文本样式存储在数据库表中,利用数据库的正则检索功能将文本在正则表达式语料库中进行匹配,获取匹配的正则表达式,提高了正则表达式匹配速度,由此提高了意图识别的速度。
根据本发明提供的一种基于即时通信消息的意图识别与命名实体提取方法,所述根据所述匹配的正则表达式进行至少一个类别的命名实体的提取,包括:基于预先标注的不同类别命名实体在所述正则表达式中的位置进行至少一个类别的命名实体的提取。
可以对不同类别的命名实体在正则表达式语料库中的正则表达式中的位置进行标注,由此可以根据正则表达式进行标注的相应类别的命名实体的提取。
比如,正则表达式语料库构建流程可以为:
1)确定意图类别;
2)根据意图类别及日常汉语用法,构建日常语料库;
3)根据日常语料库,提炼出正则表达式语料库;
4)根据正则表达式规则,确定正则表达式语料库中的正则表达式中需要提取的命名实体的位置信息。
本发明提供的基于即时通信消息的意图识别与命名实体提取方法,通过基于预先标注的不同类别命名实体在正则表达式中的位置进行至少一个类别的命名实体的提取,提高了命名实体的提取速度。
根据本发明提供的一种基于即时通信消息的意图识别与命名实体提取方法,所述将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串,包括:通过计算所述至少一个字符串的TF-IDF分数获取排序靠前的预设个数的字符串;计算所述命名实体与所述预设个数的字符串的相似度,并将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串。
若通过字典树二次检索匹配得到的至少一个字符串的数量较多,将根据即时通信消息提取的命名实体和得到的至少一个字符串一一进行相似度匹配的话,则将比较耗时,也比较消耗计算资源。
TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。TF是词频(Term Frequency),IDF是逆文本频率指数(InverseDocument Frequency)。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
在通过字典树二次检索匹配得到的至少一个字符串的数量较多时,可以通过计算至少一个字符串的TF-IDF分数评估各个字符串的重要性,并提取TF-IDF分数排序靠前的字符串进行匹配,由此既保证了匹配结果的精确性,又能节约计算时间和计算资源。
因此,在将命名实体的数据内容修正为至少一个字符串中与当前数据内容相似度最高的字符串时,通过计算至少一个字符串的TF-IDF分数获取排序靠前的预设个数的字符串,计算命名实体与预设个数的字符串的相似度,并将命名实体的数据内容修正为至少一个字符串中与当前数据内容相似度最高的字符串。其中,在计算命名实体与预设个数的字符串的相似度时,可以利用编辑距离进行计算。
本发明提供的基于即时通信消息的意图识别与命名实体提取方法,通过计算至少一个字符串的TF-IDF分数获取排序靠前的预设个数的字符串,计算命名实体与预设个数的字符串的相似度,并将命名实体的数据内容修正为至少一个字符串中与当前数据内容相似度最高的字符串,在保证命名实体提取精确性的基础上进一步提高了提取速度。
根据本发明提供的基于即时通信消息的意图识别与命名实体提取方法,所述将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式,包括:将所述文本在与场景对应的正则表达式语料库中进行匹配,并根据场景的优先级获取所述匹配的正则表达式。
在应用本发明提供的基于即时通信消息的意图识别与命名实体提取方法进行自动响应时,可以设置不同的应用场景。如:
场景一:根据任务id或任务名查询任务的及时性情况,并给予查询人以操作建议。
示例:
麻烦帮我查一下任务12345现在运行的怎么样?
我想知道,任务12345今天会延迟吗?
任务12345今天预计几点产出?
任务stg_xxxx_da一般几点产出?
场景二:根据指标id或指标名称,查询指标波动的原因。
示例:
今天指标12345为啥涨了30%?
指标12345今天数值正常吗?
指标xxx,预计明天走势如何?
场景三:根据自定义任务组合,查询组合的及时性情况。
示例:
集团日报今天能正常产出不?
今天任务整体运行的怎么样?
核心任务运行正常吗?
场景四:根据用户指令,添加/修改/删减监控报警。
示例:
给我添加下任务12345的及时性报警。
如果指标xxx波动超过10%,给我和A发送报警。
所有接收人是我的报警,全部删除。
有时候,同一句话,由于语音语调或个别字的差异可能体现不同的意图。场景的划分中,除了对应于不同的应用场景外,还可以体现出类似语句对应的不同意图。因此,可以对应不同场景设置不同的正则表达式语料库。在将即时通信消息对应的文本在正则表达式语料库中匹配时,根据场景的不同,分别在对应的正则表达式语料库中进行匹配。
将即时通信消息对应的文本在不同场景对应的正则表达式语料库中进行匹配时,可能会匹配到多个场景下的正则表达式,而多个场景下的正则表达式可能对应不同的意图。通过对场景设置优先级,根据场景的优先级的高低确定匹配的正则表达式。在匹配的多个正则表达式中,判断场景的优先级的高低,将优先级最高的场景下的正则表达式作为最终匹配的正则表达式。
本发明提供的基于即时通信消息的意图识别与命名实体提取方法,通过将文本在与场景对应的正则表达式语料库中进行匹配,并根据场景的优先级获取匹配的正则表达式,可以根据场景的不同进行意图识别,提高了灵活性。
图3是本发明提供的基于即时通信消息的意图识别与命名实体提取方法流程图之二。如图3所示,以企业微信应用为例进一步说明本发明提供的基于即时通信消息的意图识别与命名实体提取方法的流程,该流程包括如下步骤:
用户在企业微信客户端发送即时通信消息(IM消息),通过调用企业微信API服务获取即时通信消息对应的文本,并将即时通信消息对应的文本写入Kafka队列,以供消费进程从队列取走即时通信消息对应的文本并与正则表达式(Regular Expression,RE)语料库中的正则表达式进行匹配。根据匹配到的正则表达式进行意图识别,根据识别到的意图确认Action路由,其中,Action路由可以为与执行识别到的意图对应的自动化响应的API地址。根据Action路由获取需要提取的命名实体的类别,根据正则表达式进行相应类别的命名实体的提取(NER提取)。将提取的正则表达式进一步在字典树(Trie)模型中进行二次检索,获取匹配到的字典树中的字符串,计算提取的命名实体和匹配到的字符串之间的相似度,将命名实体的数据内容修正为与当前数据内容相似度最高的字符串,实现命名实体的修正(NER选择)。将修正得到的命名实体作为请求上述API地址的入参,执行对应的自动化响应(Action方法的执行)。
本发明提供的基于即时通信消息的意图识别与命名实体提取方法,可以精确识别用户即时通信消息的意图并进行命名实体提取,依据用户的意图进行精确的信息查找或系统操作。
下面对本发明提供的基于即时通信消息的意图识别与命名实体提取装置进行描述,下文描述的基于即时通信消息的意图识别与命名实体提取装置与上文描述的基于即时通信消息的意图识别与命名实体提取方法可相互对应参照。
图4是本发明提供的基于即时通信消息的意图识别与命名实体提取装置的结构示意图。如图4所示,所述装置包括文本获取模块10、正则匹配模块20、意图识别模块30、命名实体提取模块40、字典树二次匹配模块50及命名实体修正模块60,其中:文本获取模块10用于:获取即时通信消息对应的文本;正则匹配模块20用于:将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式;其中,所述正则表达式语料库包括对即时通信消息样本正则化处理得到的正则表达式集合,且所述正则表达式集合中的正则表达式划分了用户意图;意图识别模块30用于:根据所述匹配的正则表达式获取对应的用户意图;命名实体提取模块40用于:根据所述匹配的正则表达式进行至少一个类别的命名实体的提取;字典树二次匹配模块50用于:利用根据命名实体样本预先建立的字典树对所述命名实体进行二次检索匹配,获取所述字典树中所述命名实体中的字符按原顺序出现的至少一个字符串;命名实体修正模块60用于:将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串。
本发明提供的基于即时通信消息的意图识别与命名实体提取装置,通过将即时通信消息对应的文本在正则表达式语料库进行匹配得到对应的正则表达式,根据匹配得到的正则表达式得到用户意图以及至少一个类别的命名实体,利用字典树对命名实体进行二次检索匹配,获取字典树中命名实体中的字符按原顺序出现的至少一个字符串,并通过相似度匹配,将命名实体的数据内容修正为至少一个字符串中与当前数据内容相似度最高的字符串,实现了用户意图和命名实体的快速、精确提取。
根据本发明提供的一种基于即时通信消息的意图识别与命名实体提取装置,所述装置还包括命名实体类别获取模块及自动化响应执行模块,所述命名实体类别获取模块用于在命名实体提取模块40根据所述匹配的正则表达式进行至少一个类别的命名实体的提取之前:根据所述用户意图获取对应的用于执行自动化响应的API地址,根据所述API地址获取待提取的所述命名实体的所述类别;所述自动化响应执行模块用于在命名实体修正模块60将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串之后:将所述命名实体作为请求所述API地址的入参,请求执行所述API地址对应的所述自动化响应。
本发明提供的基于即时通信消息的意图识别与命名实体提取装置,通过根据用户意图获取对应的用于执行自动化响应的API地址,根据API地址获取待提取的命名实体的类别,实现了待提取的命名实体的类别确定;通过将命名实体作为请求API地址的入参,请求执行API地址对应的自动化响应,实现了对应即时通信消息的自动化响应。
根据本发明提供的一种基于即时通信消息的意图识别与命名实体提取装置,所述正则表达式集合中的正则表达式以文本样式存储在数据库表中;正则匹配模块20在用于将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式时,具体用于:利用数据库的正则检索功能将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式。
本发明提供的基于即时通信消息的意图识别与命名实体提取装置,通过将正则表达式集合中的正则表达式以文本样式存储在数据库表中,利用数据库的正则检索功能将文本在正则表达式语料库中进行匹配,获取匹配的正则表达式,提高了正则表达式匹配速度,由此提高了意图识别的速度。
根据本发明提供的一种基于即时通信消息的意图识别与命名实体提取装置,命名实体提取模块40具体用于:基于预先标注的不同类别命名实体在所述正则表达式中的位置进行至少一个类别的命名实体的提取。
本发明提供的基于即时通信消息的意图识别与命名实体提取装置,通过基于预先标注的不同类别命名实体在正则表达式中的位置进行至少一个类别的命名实体的提取,提高了命名实体的提取速度。
根据本发明提供的一种基于即时通信消息的意图识别与命名实体提取装置,命名实体修正模块60具体用于:通过计算所述至少一个字符串的TF-IDF分数获取排序靠前的预设个数的字符串;计算所述命名实体与所述预设个数的字符串的相似度,并将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串。
本发明提供的基于即时通信消息的意图识别与命名实体提取装置,通过计算至少一个字符串的TF-IDF分数获取排序靠前的预设个数的字符串,计算命名实体与预设个数的字符串的相似度,并将命名实体的数据内容修正为至少一个字符串中与当前数据内容相似度最高的字符串,在保证命名实体提取精确性的基础上进一步提高了提取速度。
根据本发明提供的一种基于即时通信消息的意图识别与命名实体提取装置,正则匹配模块20具体用于:将所述文本在与场景对应的正则表达式语料库中进行匹配,并根据场景的优先级获取所述匹配的正则表达式。
本发明提供的基于即时通信消息的意图识别与命名实体提取装置,通过将文本在与场景对应的正则表达式语料库中进行匹配,并根据场景的优先级获取匹配的正则表达式,可以根据场景的不同进行意图识别,提高了灵活性。
图5是本发明提供的电子设备的结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行基于即时通信消息的意图识别与命名实体提取方法,该方法包括:获取即时通信消息对应的文本;将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式;其中,所述正则表达式语料库包括对即时通信消息样本正则化处理得到的正则表达式集合,且所述正则表达式集合中的正则表达式划分了用户意图;根据所述匹配的正则表达式获取对应的用户意图;根据所述匹配的正则表达式进行至少一个类别的命名实体的提取;利用根据命名实体样本预先建立的字典树对所述命名实体进行二次检索匹配,获取所述字典树中所述命名实体中的字符按原顺序出现的至少一个字符串;将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于即时通信消息的意图识别与命名实体提取方法,该方法包括:获取即时通信消息对应的文本;将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式;其中,所述正则表达式语料库包括对即时通信消息样本正则化处理得到的正则表达式集合,且所述正则表达式集合中的正则表达式划分了用户意图;根据所述匹配的正则表达式获取对应的用户意图;根据所述匹配的正则表达式进行至少一个类别的命名实体的提取;利用根据命名实体样本预先建立的字典树对所述命名实体进行二次检索匹配,获取所述字典树中所述命名实体中的字符按原顺序出现的至少一个字符串;将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于即时通信消息的意图识别与命名实体提取方法,该方法包括:获取即时通信消息对应的文本;将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式;其中,所述正则表达式语料库包括对即时通信消息样本正则化处理得到的正则表达式集合,且所述正则表达式集合中的正则表达式划分了用户意图;根据所述匹配的正则表达式获取对应的用户意图;根据所述匹配的正则表达式进行至少一个类别的命名实体的提取;利用根据命名实体样本预先建立的字典树对所述命名实体进行二次检索匹配,获取所述字典树中所述命名实体中的字符按原顺序出现的至少一个字符串;将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种基于即时通信消息的意图识别与命名实体提取方法,其特征在于,包括:
获取即时通信消息对应的文本;
将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式;其中,所述正则表达式语料库包括对即时通信消息样本正则化处理得到的正则表达式集合,且所述正则表达式集合中的正则表达式划分了用户意图;
根据所述匹配的正则表达式获取对应的用户意图;
根据所述匹配的正则表达式进行至少一个类别的命名实体的提取;
利用根据命名实体样本预先建立的字典树对所述命名实体进行二次检索匹配,获取所述字典树中所述命名实体中的字符按原顺序出现的至少一个字符串;
将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串。
2.根据权利要求1所述的基于即时通信消息的意图识别与命名实体提取方法,其特征在于,在所述根据所述匹配的正则表达式获取对应的用户意图之后、所述根据所述匹配的正则表达式进行至少一个类别的命名实体的提取之前,所述方法还包括:根据所述用户意图获取对应的用于执行自动化响应的API地址;根据所述API地址获取待提取的所述命名实体的所述类别;
在所述将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串之后,所述方法还包括:将所述命名实体作为请求所述API地址的入参,请求执行所述API地址对应的所述自动化响应。
3.根据权利要求1所述的基于即时通信消息的意图识别与命名实体提取方法,其特征在于,所述正则表达式集合中的正则表达式以文本样式存储在数据库表中;
所述将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式,包括:利用数据库的正则检索功能将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式。
4.根据权利要求1所述的基于即时通信消息的意图识别与命名实体提取方法,其特征在于,所述根据所述匹配的正则表达式进行至少一个类别的命名实体的提取,包括:
基于预先标注的不同类别命名实体在所述正则表达式中的位置进行至少一个类别的命名实体的提取。
5.根据权利要求1所述的基于即时通信消息的意图识别与命名实体提取方法,其特征在于,所述将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串,包括:
通过计算所述至少一个字符串的TF-IDF分数获取排序靠前的预设个数的字符串;
计算所述命名实体与所述预设个数的字符串的相似度,并将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串。
6.根据权利要求1所述的基于即时通信消息的意图识别与命名实体提取方法,其特征在于,所述将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式,包括:
将所述文本在与场景对应的正则表达式语料库中进行匹配,并根据场景的优先级获取所述匹配的正则表达式。
7.一种基于即时通信消息的意图识别与命名实体提取装置,其特征在于,包括:
文本获取模块,用于:获取即时通信消息对应的文本;
正则匹配模块,用于:将所述文本在正则表达式语料库中进行匹配,获取匹配的正则表达式;其中,所述正则表达式语料库包括对即时通信消息样本正则化处理得到的正则表达式集合,且所述正则表达式集合中的正则表达式划分了用户意图;
意图识别模块,用于:根据所述匹配的正则表达式获取对应的用户意图;
命名实体提取模块,用于:根据所述匹配的正则表达式进行至少一个类别的命名实体的提取;
字典树二次匹配模块,用于:利用根据命名实体样本预先建立的字典树对所述命名实体进行二次检索匹配,获取所述字典树中所述命名实体中的字符按原顺序出现的至少一个字符串;
命名实体修正模块,用于:将所述命名实体的数据内容修正为所述至少一个字符串中与当前数据内容相似度最高的字符串。
8.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至6任一项所述基于即时通信消息的意图识别与命名实体提取方法的步骤。
9.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于即时通信消息的意图识别与命名实体提取方法的步骤。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述基于即时通信消息的意图识别与命名实体提取方法的步骤。
CN202210374341.XA 2022-04-11 2022-04-11 基于即时通信消息的意图识别与命名实体提取方法及装置 Pending CN114970531A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210374341.XA CN114970531A (zh) 2022-04-11 2022-04-11 基于即时通信消息的意图识别与命名实体提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210374341.XA CN114970531A (zh) 2022-04-11 2022-04-11 基于即时通信消息的意图识别与命名实体提取方法及装置

Publications (1)

Publication Number Publication Date
CN114970531A true CN114970531A (zh) 2022-08-30

Family

ID=82977739

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210374341.XA Pending CN114970531A (zh) 2022-04-11 2022-04-11 基于即时通信消息的意图识别与命名实体提取方法及装置

Country Status (1)

Country Link
CN (1) CN114970531A (zh)

Similar Documents

Publication Publication Date Title
US20230142217A1 (en) Model Training Method, Electronic Device, And Storage Medium
CN109670163B (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
US9524291B2 (en) Visual display of semantic information
US10332012B2 (en) Knowledge driven solution inference
EP3819785A1 (en) Feature word determining method, apparatus, and server
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
US20240078168A1 (en) Test Case Generation Method and Apparatus and Device
CN112579733A (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
EP4141697A1 (en) Method and apparatus of processing triple data, method and apparatus of training triple data processing model, device, and medium
CN108763202A (zh) 识别敏感文本的方法、装置、设备及可读存储介质
CN112507089A (zh) 一种基于知识图谱的智能问答引擎及其实现方法
CN115481229A (zh) 一种应答话术推送方法、装置、电子设备及存储介质
CN114625834A (zh) 企业的行业信息确定方法、装置及电子设备
CN112560425B (zh) 模板生成方法、装置、电子设备及存储介质
CN113157888A (zh) 支持多知识来源的询问答复方法、装置和电子设备
CN110489740B (zh) 语义解析方法及相关产品
CN114970531A (zh) 基于即时通信消息的意图识别与命名实体提取方法及装置
US11017172B2 (en) Proposition identification in natural language and usage thereof for search and retrieval
KR20220099690A (ko) 문서를 요약하는 장치, 방법 및 컴퓨터 프로그램
CN112926297A (zh) 处理信息的方法、装置、设备和存储介质
CN112989066A (zh) 数据处理方法和装置、电子设备、计算机可读介质
CN117973402B (zh) 文本转换的预处理方法和装置、存储介质及电子设备
CN112558913A (zh) 基于聚合卡片的对话方法、装置、计算机设备及存储介质
CN112035623A (zh) 智能问答方法、装置、电子设备及存储介质
CN115496069A (zh) 一种基于社交网络的语义决策方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination