CN109670163A - 信息识别方法、信息推荐方法、模板构建方法及计算设备 - Google Patents

信息识别方法、信息推荐方法、模板构建方法及计算设备 Download PDF

Info

Publication number
CN109670163A
CN109670163A CN201710964905.4A CN201710964905A CN109670163A CN 109670163 A CN109670163 A CN 109670163A CN 201710964905 A CN201710964905 A CN 201710964905A CN 109670163 A CN109670163 A CN 109670163A
Authority
CN
China
Prior art keywords
semantic
text
processed
node
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710964905.4A
Other languages
English (en)
Other versions
CN109670163B (zh
Inventor
任巨伟
李凤麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201710964905.4A priority Critical patent/CN109670163B/zh
Publication of CN109670163A publication Critical patent/CN109670163A/zh
Application granted granted Critical
Publication of CN109670163B publication Critical patent/CN109670163B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种信息识别方法、信息推荐方法、模板构建方法、装置及计算设备。其中,本申请实施例中基于语义节点的训练样本,可以构建由关键词、通配符和/或属性信息构成的语义模板;基于多个语义模板可以构造字典树,从而针对待处理文本,通过查找该字典树,可以获得待处理文本对应的语义模板,由待处理文本对应的语义模板关联的语义节点即构成该待处理文本的语义信息,在人机对话场景中,基于语义信息可以查找命中的输入样本,从而即可以获得待处理文本对应的应答内容。本申请实施例提供的技术方案提高了信息识别的准确度以及识别效率。

Description

信息识别方法、信息推荐方法、模板构建方法及计算设备
技术领域
本申请实施例涉及计算机应用技术领域,尤其涉及一种信息识别方法和装置、一种信息推荐方法和装置、一种模板构建方法和装置以及一种计算设备。
背景技术
随着人机交互技术的发展,人机对话在诸多场景中得到了广泛应用,所谓人机对话也即是基于用户输入的语句,能够智能输出相应的应答内容,看起来像是用户与设备进行了对话。
目前实现人机对话的方案,主要是通过预先创建对话库存储<Q,A>数据,Q为输入样本,A为该输入样本对应的应答内容。从而基于用户输入的语句,在对话库中进行匹配,查找与用户输入的语句匹配的输入样本,即可以找到相应的应答内容。
由上述描述可知,为了查找与用户输入的语句匹配的输入样本,首先需要对用户输入的语句进行语义解析,以识别用户输入的语句表达的语义信息,了解用户意图,因此如何快速、准确的识别用户意图是提高人机对话效果的关键技术。
发明内容
本申请实施例提供一种信息识别方法、模板构建方法、装置及计算设备,用以解决现有技术中信息识别准确度低以及效率低的技术问题。
第一方面,本申请实施例中提供了一种信息识别方法,包括:
基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;其中,所述字典树存储多个语义模板;每一语义模板基于其关联的语义节点的训练样本获得,由关键词、通配符、和/或属性信息构成;
确定所述待处理文本对应的语义模板关联的语义节点;
由所述语义节点构成所述待处理文本的语义信息。
第二方面,本申请实施例中提供了一种信息识别方法,包括:
基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;其中,所述字典树存储多个语义模板;
确定所述待处理文本对应的语义模板关联的语义节点;
由所述语义节点构成所述待处理文本的语义信息。
第三方面,本申请实施例中提供了一种信息推荐方法,包括:
基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;其中,所述字典树存储多个语义模板;
确定所述待处理文本对应的语义模板关联的语义节点;
由所述语义节点构成所述待处理文本的语义信息;
查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容;
发送所述应答内容至客户端,以触发所述客户端输出所述应答内容。
第四方面,本申请实施例中提供了一种信息推荐方法,包括:
发送待处理文本至服务端,以供所述服务端查找字典树获得所述待处理文本命中的语义模板,并由所述待处理文本对应的语义模板关联的语义节点构成所述待处理文本的语义信息;查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容;
接收所述服务端发送的所述应答内容;
输出所述应答内容。
第五方面,本申请实施例中提供了一种模板构建方法,包括:
针对任一语义节点的训练样本,确定所述训练样本包括的关键词、通配词和/或属性词;
构建由所述关键词、所述通配词对应的通配符和/或所述属性词的属性信息构成的语义模板;
基于多个语义模板分词获得的字符信息,构造字典树;
保存所述字典树存储的各个语义模板与各自对应语义节点的关联关系。
第六方面,本申请实施例中提供了一种信息识别装置,包括:
模板检索模块,用于基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;其中,所述字典树存储多个语义模板;
节点确定模块,用于确定所述待处理文本对应的语义模板关联的语义节点;
语义生成模块,用于由所述语义节点构成所述待处理文本的语义信息。
第七方面,本申请实施例中提供了一种信息推荐装置,包括:
模板检索模块,用于基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;其中,所述字典树存储多个语义模板;
节点确定模块,用于确定所述待处理文本对应的语义模板关联的语义节点;
语义生成模块,用于由所述语义节点构成所述待处理文本的语义信息;
内容查找模块,用于查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容;
应答模块,用于发送所述应答内容至客户端以触发所述客户端输出所述应答内容。
第八方面,本申请实施例中提供了一种信息推荐装置,包括:
文本发送模块,用于发送待处理文本至服务端,以供所述服务端查找字典树获得所述待处理文本命中的语义模板,并由所述待处理文本对应的语义模板关联的语义节点构成所述待处理文本的语义信息;查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容;
内容接收模块,用于接收所述服务端发送的所述应答内容;
输出模块,用于输出所述应答内容。
第九方面,本申请实施例中提供了一种模板构建装置,包括:
词确定模块,用于针对任一语义节点的训练样本,确定所述训练样本包括的关键词、通配词和/或属性词;
模板构建模块,用于构建由所述关键词、所述通配词对应的通配符和/或所述属性词的属性信息构成的语义模板;
字典树构造模块,用于基于多个语义模板分词获得的字符信息,构造字典树;
保存模块,用于保存所述字典树存储的各个语义模板与各自对应语义节点的关联关系。
第十方面,本申请实施例中提供了一种计算设备,包括存储组件以及处理组件;
所述存储组件存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用执行;
所处理组件用于:
基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;其中,所述字典树存储多个语义模板;
确定所述待处理文本对应的语义模板关联的语义节点;
由所述语义节点构成所述待处理文本的语义信息。
第十一方面,本申请实施例中提供了一种计算设备,包括存储组件以及处理组件;
所述存储组件存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用执行;
所处理组件用于:
基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;其中,所述字典树存储多个语义模板;每一语义模板基于其关联的语义节点的训练样本获得,由关键词、通配符、和/或属性信息构成;
确定所述待处理文本对应的语义模板关联的语义节点;
由所述语义节点构成所述待处理文本的语义信息。
查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容;
发送所述应答内容至客户端以触发所述客户端输出所述应答内容
第十二方面,本申请实施例中提供了一种计算设备,其特征在于,包括存储组件以及处理组件;
所述存储组件存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用执行;
所处理组件用于:
发送待处理文本至服务端,以供所述服务端查找字典树获得所述待处理文本命中的语义模板,并由所述待处理文本对应的语义模板关联的语义节点构成所述待处理文本的语义信息;查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容;
接收所述服务端发送的所述应答内容;
输出所述应答内容。
第十三方面,本申请实施例中提供了一种计算设备,包括存储组件以及处理组件;
所述存储组件存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用执行;
所处理组件用于:
针对任一语义节点的训练样本,确定所述训练样本包括的关键词、通配词和/或属性词;
构建由所述关键词、所述通配词对应的通配符和/或所述属性词的属性信息构成的语义模板;
基于多个语义模板分词获得的字符信息,构造字典树;
保存所述字典树存储的各个语义模板与各自对应语义节点的关联关系。
本申请实施例中,基于语义节点的训练样本,可以构建由关键词、通配符和/或属性信息构成的语义模板;基于多个语义模板可以构造字典树,从而针对待处理文本,通过查找该字典树,可以获得待处理文本对应的语义模板,由待处理文本对应的语义模板关联的语义节点即构成该待处理文本的语义信息,在人机对话场景中,基于语义信息可以查找命中的输入样本,从而即可以获得待处理文本对应的应答内容。本申请实施例提供的技术方案提高了信息识别的准确度以及识别效率,提高了人机对话效果。
本申请的这些方面或其他方面在以下实施例的描述中会更加简明易懂。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种模板构建方法一个实施例的流程图;
图2a为本申请实施例中一个字典树的部分示意图;
图2b为本申请实施例中又一个字典树的部分示意图;
图3为本申请实施例中又一个字典树的部分示意图;
图4为本申请提供的一种信息识别方法一个实施例的流程图;
图5为本申请提供的一种信息推荐方法一个实施例的流程图;
图6为本申请在一个实际应用中提供的信息推荐方法又一个实施例的流程图;
图7为本申请提供的一种模板构建装置一个实施例的结构示意图;
图8为本申请提供的一种计算设备一个实施例的结构示意图;
图9为本申请提供的一种信息识别装置一个实施例的结构示意图;
图10申请提供的一种计算设备又一个实施例的结构示意图;
图11为本申请提供的一种信息推荐装置一个实施例的结构示意图;
图12为本申请提供的一种计算设备又一个实施例的结构示意图;
图13为本申请提供的一种信息推荐装置又一个实施例的结构示意图;
图14为本申请提供的一种计算设备又一个实施例的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本申请的技术方案主要应用于人机对话场景中,人机对话技术广泛应用于很多领域中,例如智能问答、机器人客服、聊天机器人等。当然,本申请的技术方案还可以适用于涉及语义解析的任意场景中,例如信息检索、问题发现、舆情监控等,通过识别待处理文本的语义信息可以进行相应的处理操作。
其中,语义解析也即是指对一段文本在语义维度通过核心的关键词或者短语的方式,归纳其所表达的核心意思或概念的过程,而核心的关键词或者短语也被称为语义节点,具有实际意义或业务含义,与语义节点对应的即是虚词或者无意义的标点等。一段文本可以被解析为多个语义节点,多个语义节点即构成该段文本的语义信息。例如一段文本“我的工行密码被偷了,转账如何处理”,其语义节点包括“工行密码被盗”,“转账”。
以人机对话场景为例,如背景技术中所述,目前实现人机对话的方案,主要是通过预先创建对话库存储<Q,A>数据,用户输入的语句为待处理文本,通过查找与待处理文本匹配的Q,就可以向用户推荐对应的A。例如Q为“你喜欢的电影是什么”,A为“我最喜欢的电影当然是《XXX》了,啥时候咱俩一起去看”。
发明人在研究中发现,输入样本通常由核心的关键词或短语构成,也即由至少一个语义节点构成,如果待处理文本命中输入样本对应的语义节点,即可以判定与输入样本匹配。因此,就需要对待处理文本进行语义解析,确定待处理文本的语义节点,以识别待处理文本的语义信息,
为了快速、准确的进行语义解析,实现信息识别,发明人经过进一步研究提出了本申请的技术方案,在本申请实施例中,可以基于语义节点的训练文本,构建由关键词、通配符和/或属性信息构成的语义模板;基于多个语义模板构造字典树,从而基于待处理文本,查找该字典树,即可以获得待处理文本对应的语义模板。由待处理文本对应的语义模板关联的语义节点构成该待处理文本的语义信息,本申请实施例中,采用语义模板来表示语义节点,语义模板不仅由关键词构成,还可以包括通配符和/或属性信息,使得语义模板适用范围更广,不仅实现了准确识别,还降低了模板配置的复杂性,且通过字典树进行语义模板的存储和查询,提高了信息识别的效率。在人机对话场景中,输入样本基于各个语义节点构成,从而可以查找语义信息命中的输入样本,进而确定输入样本对应的应答内容,由于信息识别的效率以及准确度均提高,从而可以提高人机对话效果,提高用户体验。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请提供的一种模板构建方法一个实施例的流程图,该方法可以包括以下几个步骤:
101:针对任一语义节点的训练样本,确定所述训练样本包括的关键词、通配词和/或属性词。
其中,在人机对话场景中,训练样本可以从历史对话记录中统计获得。
语义节点可以结合实际需求预先设定,在人机对话场景中,这些语义节点即用来构建对话库中的输入样本。
每一个语义节点对应的训练样本可以包括多个。
其中,通过对每一个语义节点的各个训练样本分别进行分词处理,可以将各个训练文本分割为多个词串,每一个词串可以归类为关键词、通配词或者属性词。因此即可以确定获得每一训练样本包括的关键词、通配词和/或属性词。
需要说明的是,本申请实施例中涉及的分词方式可以采用正向最大匹配法、逆向最大匹配法、最少切分方等技术实现,与现有技术相同,在此不再赘述。
其中,通配词通常可以是指停用词、采用停用词过滤技术,即可以确定每一训练文本中的停用词。例如“淘宝头像为什么设置不了两个”中的停用词即为:“为什么”。淘宝头像在PAD(平板电脑)上如何设置”中的停用词即为:“如何”。
其中,属性词可以是指命名实体词,可以采用实体识别技术识别获得的,该命名实体词可以是人名、地名、机构名、专有名词等,例如“淘宝头像在PAD上如何设置”中,“淘宝”、“PAD”即为命名实体词。
属性词也可以是指具有数词、形容词、名词或动词等词性的词,例如“淘宝头像为什么设置不了两个”中的“两个”即为数词。
属性词也可以是指具有同义词的词,例如“何时”,其具有同义词“几时”,“什么时候”,“几号”等。
属性词也可以是指表示时间的词,例如“12月30日是张三的生日”,“12月30日”即为表示时间的词。
其中,关键词是指一段文本中的具有实际意义的核心词,属性词通常为关键词的一种,本实施例中,关键词可以基于一段文本中除去通配词以及属性词的剩余字符串确定的。例如“淘宝头像为什么设置不了两个”中,“淘宝”以及“两个”确定为属性词,“为什么”确定为通配词,基于剩余字符串“头像、设置不了”即可以提取出关键词“头像”以及“设置”“不了”。
此外,作为又一个实施例,训练样本可以基于种子文本及其相似文本确定,种子文本以及种子文本对应的语义节点预先设定,通过计算文本相似度,可以确定种子文本的相似文本,基于种子文本及其相似文本即可以确定种子文本对应的各个语义节点的训练样本。其中,种子文本对应语义节点可以包括多个。在人机对话场景中,即是从历史对话记录中查找与定种子文本的相似文本,种子文本也即是基于历史对话记录中确定的知识标题。
其中,文本相似度的计算算法与现有技术相同,例如可以将两个文本分别量化为向量,通过计算两个向量之间的向量距离,例如余弦距离,即作为两个文本的文本相似度,在此不再过多赘述。
例如,种子文本:“淘宝头像传不上去,图片如何删除”,其对应语义节点包括:“APP(Application,应用程序)”、“头像传不上去”、“删除图片”。
通过计算文本相似度,种子文本的相似文本可以包括:“淘宝头像为什么设置不了两个”;“淘宝头像在PAD上如何设置”等。
通过将种子文本及其相似文本分别进行分词处理,可以获得种子文本及其相似文本各自对应的词串,之后通过频繁项集挖掘技术,将分词获得的词串重新组合,以将种子文本及其相似文本分别分割为对应每一个语义节点的短语,即作为语义节点的训练样本。
可选地,语义节点本身也可以作为语义节点的训练样本。
例如,上例中种子文本为:“淘宝头像传不上去,图片如何删除”,其对应语义节点包括:“APP”、“头像传不上去”、“删除图片”。
种子文本的相似文本可以包括:“淘宝头像为什么设置不了两个”;“淘宝头像在PAD上如何设置”等。
通过频繁项集挖掘技术,“淘宝头像传不上去,图片如何删除”可以划分为三个短语“淘宝”、“头像传不上去”以及“图片如何删除”;“淘宝头像为什么设置不了两个”可以划分为两个短语:“淘宝”“头像为什么设置不了两个”;“淘宝头像在PAD上如何设置”可以划分为两个短语:“淘宝”、“头像在PAD上如何设置”。
可知,语义节点“APP”的训练样本包括:“淘宝”;
语义节点“头像传不上去”的训练样本包括:“头像传不上去”“头像为什么设置不了两个”以及“头像在PAD上如何设置”。
语义节点“删除图片”的训练样本包括:“图片如何删除”。
102:构建由所述关键词、所述通配词对应的通配符和/或所述属性词的属性信息构成的语义模板。
通配符是一种特殊语句,用来代替一个或多个真正字符;例如通配符“+”代表0~1个词,通配符“++”代表2个词等。当然通配符还可以采用其它符号表示,例如“*”、“?”、“!”等。
其中,属性信息可以为属性词的词性或者属性词所属的特征标签,词性可以包括动词、名词、形容词、数词等;例如属性词“搜索”为一个动词,其属性信息即为“动词”;
特征标签可以是指属性词表示的内容(也即属性词作为键,属性词表示的内容即为值)所属的类别或者其特性。
其中,属性词为表示时间的词时,例如属性词“12月30日”,其特征标签为“时间”;属性词为表示人名的词时,例如属性词“张三”,其特征标签可以为“姓名”。
属性词为实体命名词等时,属性词的特征标签可以预先设置,在实际应用中,可以结合实际需求预先设置特征标签以及特征标签对应的属性词。因此根据识别获得的属性词,即可以查找其对应的特征标签。,例如,特征标签“银行”对应的属性词可以包括:农行、工行、建行等等。属性词“农行”的特征标签即为“银行”,特征标签“设备”对应的属性词可以包括:手机、笔记本、计算机、PAD等等。属性词“PAD”的特征标签即为“设备”。
基于每一训练样本包括的关键词、通配词和/或属性词,即可以将训练样本映射成语义节点对应的语义模板。
上例中,语义节点“APP”对应的训练短语为“淘宝”,由上文分析可知,若“淘宝”为属性词,其对应的属性信息即为APP;语义节点“APP”的语义模板即可以是:[APP]。需要说明的是,本文示例中,以符号“[]”表示属性信息,当然本申请并不对此进行具体限制,例如对于具有同义词的属性词,其属性信息即可以是指属性词的各个同义词,采用符号“|(或)”进行间隔。
语义节点“头像传不上去”对应训练样本包括“头像传不上去”、“头像为什么设置不了两个”以及“头像在PAD上如何设置”;其中,“头像传不上去”只包括关键词,其映射的语义模板可以是:头像传不上去;“头像为什么设置不了两个”中,“头像”、“设置”“不了”为关键词,“为什么”为通配词,“两个”为属性词,其是一个数词,因此映射的语义模板可以是:头像+设置不了[POSTAG-M]。[POSTAG-M]表示属性信息,POSTAG-M表示数词,“+”为通配符,代表0~1个词;“头像在PAD上如何设置”中,“头像”、“在”“上”、“设置”为关键词,“PAD”为属性词,其属性信息为“设备”,“如何”为通配词,因此,映射的语义模板为:头像在[设备]上+设置。因此,可知,针对语义节点“头像传不上去”获得的语义模板包括:“头像传不上去”、“头像+设置不了[POSTAG-M]”,以及“头像在[设备]上+设置”。
语义节点“删除图片”对应的训练样本包括“图片如何删除”,其中,“图片”、“删除”为关键词,“如何”为通配词,因此获得的语义模板即为:“图片+删除”。
由上述描述可知,针对任一个语义节点,可以获得其对应的至少一个语义模板。
本申请实施例中,通过语义模板承载语义节点,如果待处理文本与语义模板匹配,则表明其命中该语义模板对应的语义节点,可以由该语义模板对应的语义节点来表示待处理文本的语义信息。采用语义模板,可以提高语义信息识别的准确度。尽管现有技术中存在基于Aiml模板的匹配技术,但是Aiml模板采用xml语言配置,仅包括关键词以及通配符,其识别准确度较低,例如在人机对话场景中,如果两个待处理文本中分别包括“农行”以及“工行”,其均表示银行,对应的应答内容没有什么区别,但是按照现有方案会被识别为语义不同的文本,导致识别准确度降低。且需要专门技术人员进行维护,无法进行快速配置。
103:基于多个语义模板分词获得的字符信息,构造字典树。
104:建立所述字典树存储的各个语义模板与各自对应语义节点的关联关系。
字典树又称前缀树或字典树,是一种树形结构,通常用于统计、排序或保存字符串(不仅限于字符串)。字典树由根节点和叶子节点构成,一个节点的所有子孙都有相同前缀,也即该节点对应的字符串。从根节点到某一节点的路径上经过的字符连接起来,就是该节点对应的字符串。
本申请实施例中,利用字典树来存储以及查询语义模板。因此获得语义模板之后,需要利用语义模板构造字典树。
为了实现信息识别,通常会设置大量的语义节点,而每一个语义节点对应至少一个语义模板,因此构造字典树的多个语义模板可以对应多个语义节点。
可选地的,可以将每一个语义模板首先进行分词,确定分词获得的字符信息,由于语义模板可以由通配符、关键词和/或所述属性词的属性信息构成,因此分词获得的字符信息可以为通配符、属性信息、或者关键词;也即语义模板进行分词处理保证通配符以及属性信息可以单独分割,剩余字符串按照现有的分词处理方式进行分词即可。
将每一个字符信息作为字典树中节点对应的键值,即可以构造字典树。字典树的构造过程与现有技术相同,只是节点对应的键值为将语义模板分词获得字符信息,而不是单一的字符。构造字典树时可以采用正向构造方式或者逆向构造方式。
如图2a所示,为至少基于A[x]D、A+D、A++B、B++C、ABC构造的字典树的部分示意图,采用正向构造方式构造获得,其中A、B、C、D分别代表关键词,[x]为属性信息,其可以是特征标签,也可以是词性,+以及++为通配符。以A[x]D为例,其分词获得的字符信息即包括:A、[X]、D。由于根节点对应空字符串,图2中省去了根节点,“A”、“B”对应的节点即可以是与根节点连接的子节点。如果采用逆向构造方式,即如图2b中所示。
采用正向构造方式构造的字典树,待处理文本也即采用正向遍历方式查找字典树,采用逆向构造方式构造的字典树,待处理文本也即采用逆向遍历方式查找字典树。例如对于一个待处理文本为“AEFD”,如果采用图2a所示的字典树,则按照“A、E、F、D”的方式依次遍历查找字典树,如果采用图2b所示的字典树,则按照“D、F、E、A”的方式依次遍历查找字典树。
为了进一步方便理解,假设两个语义节点“头像传不上去”以及“删除图片”,各自对应的语义模板分别为:
头像传不上去:“头像+设置不了[POSTAG-M]”、“头像在[设备]上+设置”;
删除图片:“图片+删除”。
首先对每一个语义模板进行分词,例如“头像+设置不了[POSTAG-M]”分词获得的字符信息包括:“头像”、“+”、“设置”、“不了”、“[POSTAG-M”;“头像在[设备]上+设置”分词获得的字符信息包括:“头像”、“在”、“[设备]”、“上”、“+”、“设置”;“图片+删除”分词获得的字符信息包括:“图片”、“+”、“删除”。
将每一个字符信息作为字典树的键值,则至少基于该三个语义模板,采用正向构造方式,构造的字典树的部分示意图即如图3中所示。
此外,由上述描述可知,语义模板中可以包括关键词,而关键词也可能存在同义词或者属性信息。
因此,可选地,构建获得字典树之后,所述方法还可以包括:
如果所述字典树中的任一字符信息存在同义词或者属性信息,还可以对应保存所述任一字符信息的同义词或者属性信息。
该任一字符信息即可以是指语义模板分词获得的关键词。字符信息的属性信息可以包括字符信息的词性或者字符信息所属的特征标签。
在实际应用中,由于属性词也是一种关键词,若训练样本中包括属性词,但是构建的语义模板中可以不包括属性词的属性信息,则属性词即作为关键词存在于语义模板中,因此存在属性信息的字符信息可以具体即是指属性词。
如图2所示的字典树中,假设A存在同义词,B存在特征标签,可以对应保存A对应的同义词,以及B对应的特征标签。
以字典树为载体存储语义模板,可以大大减少内存占用空间,且可以提高查询效率,并且字典树方便配置以及扩展。
因此在某些实施例中,构建获得字典树之后,所述方法还可以包括:
如果存在新增模板时,基于所述新增模板分词获得的字符信息,更新所述字典树。
该新增模板即是按照步骤101以及步骤102的操作方式构建获得的语义模板。
由于字典树中存储多个语义模板,同一个词在构建一个语义模板中可能被识别为关键词,在另一个语义模板中可能被识别为属性词或者通配词等。因此在进行字典树查找时,可以设置匹配优先级,例如关键词的匹配优先级高于属性信息,属性信息的匹配优先级高于通配符,对于连接同一节点的待匹配子节点,将待处理文本优先匹配对应关键词的子节点,其次对应属性信息的子节点,再其次对应通配符的子节点。由于属性信息可以为词性或者特征标签,还可以设置特征标签的匹配优先级高于词性。
本申请实施例中,基于语义节点的训练样本,可以构建语义节点的语义模板,并采用字典树形式存储语义模板,语义模板不仅包括关键词、还可以包括通配符以及属性信息,从而可以提高语义模板的准确度,保证信息识别的准确度,采用字典树存储语义节点的语义模板,可以实现高效的语义模板的查询,从而可以提高信息识别的效率。
本申请实施例中,构建获得的字典树即用于待处理文本的查询,以基于查询获得的语义模板关联的语义节点,构成所述待处理文本的语义信息。
如图4所示,为本申请实施例提供的一种信息识别方法一个实施例的流程图,该方法可以包括以下几个步骤:
401:基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板。
其中,所述字典树存储多个语义模板。
可选地,每一语义模板可以基于其关联的语义节点的训练文本获得,由关键词、通配符、属性信息构成;语义模板以及字典树的构建可以参见上述实施例中所述的模板构建方法。
402:确定所述待处理文本命中的语义模板关联的语义节点。
403:由所述语义节点构成所述待处理文本的语义信息。
本申请实施例中,通过字典树存储语义模板,基于待处理文本查找字典树即可以获得待处理文本对应的语义模板,提高了模板匹配效率,从而可以保证信息识别的效率。且字典树中的语义模板由关键词、通配符、属性词和/或所述属性词的属性信息构成,提高语义模板的准确度,保证信息识别的准确度。
其中,由于字典树中的每一节点对应语义模板分词获得的字符信息。
因此,在某些实施例中,所述将所述待处理文本与所述字典树的各节点对应的字符信息进行匹配可以包括:
将所述待处理文本与所述字典树的各节点对应的字符信息进行匹配;
将匹配成功的匹配路径上所述待处理文本命中的字符信息连接,获得所述待处理文本对应的语义模板。
其中,所述待处理文本命中的字符信息也即是指与待处理文本匹配成功的字符信息。
其中,可以首先将所述待处理文本进行分词,获得分词结果;
将所述分词结果依次与所述字典树的各节点对应的字符信息进行匹配。
可选地,为了进一步提高识别准确度,避免无法进行有效识别。在某些实施例中,将所述待处理文本进行分词,获得分词结果可以包括:
将待处理文本进行分词,获得多个词串;
利用通配符替换所述多个词串中的通配词、和/或利用属性信息替换所述多个词串中的属性词,以获得所述分词结果。
通过分词处理,可以将待处理文本分割为多个词串,每一个词串也可以归类为关键词、通配词或者属性词。通过可以利用通配符替换所述多个词串中的通配词、和/或利用属性信息替换所述多个词串中的属性词,以获得最终的分词结果。
例如“三颗星手机怎么样”,分词获得的词串包括:“三颗星”“手机”“怎么样”。其中,“三颗星”表示一个手机的品牌,因此其属性信息为其特征标签可以为“品牌”,手机为一个设备,其属性信息可以为其特征标签“设备”,因此分词结果中的分词信息即包括:“[品牌]”、“[设备]”、“怎么样”。
由上述描述可知,分词结果由多个分词信息构成,将所述分词结果依次与所述字典树的各节点对应的字符信息进行匹配可以具体包括:
从所述分词结果中的第一个分词信息开始,将所述分词结果与所述字典树的各个节点对应的字符信息进行匹配;
如果所述分词结果中的任一分词信息与所述字典树中任一节点对应字符信息或与所述任一节点对应字符信息的同义词或与所述任一节点对应字符信息的属性信息匹配,确定所述任一分词信息与所述任一节点匹配成功,否则确定所述任一分词信息与所述任一节点匹配失败;
如果所述任一分词信息与所述任一节点匹配成功,将所述任一分词信息的下一个分词信息与所述任一节点连接的子节点对应字符信息进行匹配,直至最后一个分词信息匹配成功。
也即可以从根节点开始检索,针对第一个分词信息,确定根节点连接的各个子节点中,是否存在与第一个分词信息相匹配的字符信息对应的子节点;
之后针对匹配成功的节点,基于与其匹配成功的分词信息的下一个分词信息,与所述匹配成功的节点连接的子节点继续进行匹配,直至最后一个分词信息匹配完成功。由最后一个分词信息匹配成功的节点及与最后一个分词信息匹配成功的节点连接的各级父节点所在的子树,即形成匹配成功的匹配路径。将匹配成功的匹配路径上的各节点对应的字符信息连接,即构成待处理文本的语义模板。
为了方便理解,以图3对应的字典树为例,假设待处理文本为“头像图片设置不了一个,怎么删除”,分词处理获得的分词结果包括“头像”、“图片”、“设置”、“不了”、“一个”、“怎么”、“删除”。查找该字典树,与之匹配成功的匹配路径上的各节点对应的字符信息包括:“头像”“+”“设置”“不了”“[POSTAG-M]”,其中待处理文本中的“图片”与字符信息“+”匹配成功,“一个”为数词与字符信息中的“[POSTAG-M]”匹配成功。据此可以得到该待处理文本命中的一个语义模板即为“头像+设置不了[POSTAG-M]”,从而可以确定该语义模板对应的语义节点为“头像传不上去”。如果待处理文本仅命中“头像+设置不了[POSTAG-M]”,则“头像传不上去”即为待处理文本的语义信息。
此外,由于字典树中,存储多个语义节点的语义模板,而在构建不同语义节点的语义模板时,同一个词可能在一个语义节点的语义模板中为关键词,而在另一个语义节点的语义模板中作为属性词或者通配词,因此在进行字典树查找时,可以设置匹配优先级。在某些实施例中,所述关键词的匹配优先级高于所述属性信息;所述属性信息的匹配优先级高于所述通配符;
所述将所述待处理文本与所述字典树的各节点对应的字符信息进行匹配可以包括:
按照匹配优先级从高到低的顺序,将所述待处理文本与所述字典树的各节点对应的字符信息进行匹配。
也即优先匹配关键词,其次属性信息,再其次通配符。
具体的,所述按照匹配优先级从高到低的顺序,将所述待处理文本与所述字典树的各节点对应的字符信息进行匹配可以包括:
针对与所述待处理文本匹配成功的任一节点连接的各子节点,判断是否存在所述待处理文本命中的任一关键词对应的子节点;
如果是,确定所述待处理文本与所述任一关键词对应的子节点匹配成功;
如果否,判断是否存在所述待处理文本命中的任一属性信息对应的子节点;若是,确定所述待处理文本与所述任一属性信息对应的子节点匹配成功;若否,判断是否存在所述待处理文本命中的任一通配符对应的子节点;
如果存在所述待处理文本命中的任一通配符对应的子节点,确定所述待处理文本与所述任一通配符对应的子节点匹配成功;
如果不存在所述待处理文本命中的任一通配符对应的子节点,确定所述待处理文本与所述任一任一通配符对应的子节点匹配失败。
由上文可知,待处理文本会首先分词获得多个分词信息,逐一进行匹配,一个分词信息匹配成功之后,则继续匹配下一个分词信息。上述描述中,以与关键词对应的任一子节点匹配为例,与所述待处理文本匹配的关键词对应的任一子节点,即是指与待匹配的分词信息匹配的关键词对应的任一子节点,将所述待处理文本与所述任一子节点连接的下一个子节点对应的字符信息进行匹配,即是指将待匹配的分词信息的下一个分词信息所述任一子节点连接的下一个子节点对应的字符信息进行匹配。
例如,若待匹配的分词信息为“iPhone”,与待匹配的各节点中分别对应“[手机]”以及“iPhone”的字符信息,其中“[手机]”为属性信息,其是一个特征标签,表示一个实体集合,所有品牌的手机均会与其匹配成功;iPhone为手机的一个具体的品牌,是一个关键词。则该待匹配的分词信息会优先与关键词“iPhone”进行匹配,若匹配不成功,再与属性信息“[手机]”进行匹配。
此外,为了提高匹配准确度,提高信息识别的准确度,如果任一匹配成功的匹配路径中包括任一通配符对应的节点,则对于通配符命中的字符串可以从根节点开始继续进行检索。因此,在某些实施例中,所述将所述待处理文本与所述字典树的各节点对应的字符信息进行匹配可以包括:
将所述待处理文本与所述字典树的各节点对应的字符信息进行匹配;
如果任一匹配成功的匹配路径中包括任一通配符对应的节点,确定所述待处理文本中与所述任一通配符匹配的字符串以及未参与匹配的字符串构成的剩余字符串;
将所述剩余字符串作为待处理文本继续与所述字典树的各节点对应的字符信息进行匹配。
例如,仍以图3所示的字典树为例,“头像图片设置不了一个,怎么删除”,命中其中一个语义模板““头像+设置不了[POSTAG-M]”,其中,通配符“+”命中待处理文本中的分词信息“图片”,则剩余字符串为“图片,怎么删除”可以继续进行匹配,分词信息包括“图片”、“怎么”、“删除”,查找字典树,可以命中下一个语义模板“图片+删除”,该语义模板对应的语义节点为“删除图片”,则该待处理文本的语义信息即为“头像传不上去,删除图片”。
在人机对话场景中,待处理文本即为用户输入语句,语义节点的训练样本基于历史对话记录统计获得,为了实现智能应答,可以预先创建对话库存储<Q,A>数据,Q为输入样本,其即有不同语义节点构成,可以按照本申请实施例的技术方案,为这些语义节点构建语义模板,并存储在字典树中,从而通过查找字典树即可以快速、准确的获得待处理文本命中的语义模板,由待处理文本命中的语义模板构成待处理文本的语义信息,从对话库中查找语义信息命中的输入样本,即可以获得输入样本对应的应答内容,从而即可以输出该输出应答内容,实现人机对话。
因此,本申请还提供了一种信息推荐方法,如图5中所示,该方法可以包括以下几个步骤:
501:客户端发送待处理文本至服务端。
502:服务端基于该待处理文本查找字典树,以获得所述待处理文本命中的语义模板;
其中,所述字典树存储多个语义模板;每一语义模板基于其关联的语义节点的训练样本获得,由关键词、通配符、和/或属性信息构成。
其中,语义模板的构建以及字典树的建立可以参见上述实施例中所述的模板构建方法。
字典树中存储的各个语义模板承载的语义节点,用于构成输入样本。
例如,一个输入样本为“头像传不上去,删除图片”,其即由“头像传不上去”以及“删除图片”两个语义节点构成。
503:服务端确定所述待处理文本对应的语义模板关联的语义节点。
504:服务端由所述语义节点构成所述待处理文本的语义信息。
步骤502~步骤504的操作即是语义信息识别过程,具体可以参见上述实施例中所述信息识别方法。
505:服务端查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容。
506:服务端发送所述应答内容至客户端。
507:客户端输出所述应答内容。
由于语义信息以及输入样本均有语义节点构成,可选地,如果一个语义信息包含的语义节点与一个输入样本包含的语义节点相同,则可以确定该语义信息命中该输入样本。从而输入样本对应的应答内容即作为输出内容而输出。
现有技术中,通常是通过计算用户输入语句与输入样本的文本相似度,来确定与用户输入语句相似度较高的输入样本,这种方式不仅准确度较低且计算复杂,导致查找效率降低,而采用本实施例的技术方案,将构成输入样本的语义节点通过语义模板进行承载,并由字典树存储语义模板,对于待处理文本通过查找字典树可以快速获得待处理文本命中的语义模板,包含待处理文本命中的语义模板对应的语义节点的输入样本,即为与待处理文本相似的输入样本,从而可以输出输入样本输出的应答内容,提高查找效率,在实际应用中,对于用户输入的语句可以快速做出应答,保证了人机对话效果。
在人机对话场景中,待处理文本即为用户输入语句,语义节点的训练样本基于历史对话记录统计获得,如图6中所示,采用本申请实施例的信息推荐方案实现人机对话的流程示意图中,基于历史对话记录统计获得的语义节点的训练样本,可以构建语义模板601,基于构建的语义模板可以构造字典树602。对于从用户端获得的用户输入语句可以首先进行分词处理获得用户输入语句的分词信息603,基于用户输入语句的分词信息查找字典树604,判断是否存在用户输入语句命中的语义模板605,如果不存在用户输入语句命中的语义模板,则语义节点为空,此时可以输出预设内容至用户端606,该预设内容例如可以是“对不起,我没理解您的意思”,以保证用户体验;
如果存在用户输入语句命中的语义模板,则查找语义模板映射的语义节点607,并进行字符串筛选确定是否存在剩余字符串608,如果存在剩余字符串,则可以继续返回步骤603继续执行。如果不存在剩余字符串,则基于用户输入语句对应的语义节点构成所述用户输入语句的语义信息609,基于语义信息可以查找输入样本,以确定命中的输入样本对应的应答内容610,输出该应答内容至客户端611,即实现了人机对话。
图7为本申请提供的一种模板构建装置一个实施例的结构示意图,该装置可以包括:
词确定模块701,用于针对任一语义节点的训练样本,确定所述训练样本包括的关键词、通配词和/或属性词;
模板构建模块702,用于构建由所述关键词、所述通配词对应的通配符和/或所述属性词的属性信息构成的语义模板;
字典树构造模块703,用于基于多个语义模板分词获得的字符信息,构造字典树;
可选地,其中,所述属性信息包括所述属性词的词性或者所述属性词的特征标签。
保存模块704,用于保存所述字典树存储的各个语义模板与各自对应语义节点的关联关系。
其中,所述字典树用于待处理文本的查询,以基于查询获得的语义模板关联的语义节点,构成所述待处理文本的语义信息。
在某些实施例中,该装置还可以包括:
种子文本获取模块,确定种子文本以及所述种子文本的语义节点;
相似文本获取模块,用于从历史对话记录中查找所述种子文本的相似文本;
训练样本获取模块,用于基于所述种子文本以及所述相似文本,获得所述种子文本的语义节点对应的训练样本。
在某些实施例中,所述字典树构造模块可以具体用于:
将多个语义模板分别进行分词,获得多个字符信息;所述多个字符信息包括所述通配符、所述属性信息、和/或所述关键词;
基于所述多个字符信息,构造字典树;
如果任一字符信息存在同义词或者属性信息,对应保存所述任一字符信息的同义词或者属性信息。
在某些实施例中,该装置还可以包括:
更新模块,用于如果存在新增模板,基于所述新增模板分词获得的字符信息,更新所述字典树。
图7所述的模板构建装置可以执行图1所示实施例所述的模板构建方法,其实现原理和技术效果不再赘述。对于上述实施例中的模板构建装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,图7所示实施例的模板构建装置可以实现为一计算设备,该计算设备例如可以为服务器,如图8所示,该计算设备可以包括存储组件801以及处理组件802;
存储组件801存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件802调用执行。
所述处理组件802用于:
针对任一语义节点的训练样本,确定所述训练样本包括的关键词、通配词和/或属性词;
构建由所述关键词、所述通配词对应的通配符和/或所述属性词的属性信息构成的语义模板;
基于多个语义模板分词获得的字符信息,构造字典树;
保存所述字典树存储的各个语义模板与各自对应语义节点的关联关系;
其中,所述字典树用于待处理文本的查询,以基于查询获得的语义模板关联的语义节点,构成所述待处理文本的语义信息。
其中,处理组件802可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
其中,存储组件801被配置为存储各种类型的数据以支持在计算设备的操作。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当然,计算设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于通信服务器和其他设备之间有线或无线方式的通信。
此外,本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时可以实现上述图1所示实施例的模板构建方法。
图9为本申请提供的一种信息识别装置一个实施例的结构示意图,该装置可以包括:
模板检索模块901,用于基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;
其中,所述字典树存储多个语义模板;
可选地,每一语义模板可以基于其关联的语义节点的训练样本获得,由关键词、通配符、和/或属性信息构成;
节点确定模块902,用于确定所述待处理文本对应的语义模板关联的语义节点;
语义生成模块903,用于由所述语义节点构成所述待处理文本的语义信息。
在某些实施例中,所述字典树的各节点分别对应所述多个语义模板经分词处理获得的字符信息;
所述模板检索模块可以包括:
模板检索单元,用于将所述待处理文本与所述字典树的各节点对应的字符信息进行匹配;
模板确定单元,用于将匹配成功的匹配路径上所述待处理文本命中的字符信息连接,获得所述待处理文本命中的语义模板。
在某些实施例中,所述字符信息为所述通配符、所述属性信息或者所述关键词;其中,所述关键词的匹配优先级高于所述属性信息;所述属性信息的匹配优先级高于所述通配符;
所述模板检索单元可以具体用于:
针对与所述待处理文本匹配成功的任一节点连接的各子节点,判断是否存在所述待处理文本命中的任一关键词对应的子节点;
如果是,确定所述待处理文本与所述任一关键词对应的子节点匹配成功;
如果否,判断是否存在所述待处理文本命中的任一属性信息对应的子节点;若是,确定所述待处理文本与所述任一属性信息对应的子节点匹配成功;若否,判断是否存在所述待处理文本命中的任一通配符对应的子节点;
如果存在所述待处理文本命中的任一通配符对应的子节点,确定所述待处理文本与所述任一通配符对应的子节点匹配成功;
如果不存在所述待处理文本命中的任一通配符对应的子节点,确定所述待处理文本与所述任一任一通配符对应的子节点匹配失败。
在某些实施例中,所述模板检索单元可以具体用于:
将所述待处理文本与所述字典树的各节点对应的字符信息进行匹配;
如果任一匹配成功的匹配路径中包括任一通配符对应的节点,确定所述待处理文本中与所述任一通配符匹配成功的字符串以及未参与匹配的字符串构成的剩余字符串;
将所述剩余字符串与所述字典树的各节点对应的字符信息继续进行匹配。
在某些实施例中,所述模板检索单元可以包括:
分词子单元,用于将所述待处理文本进行分词,获得分词结果;
检索子单元,用于将所述分词结果依次与所述字典树的各节点对应的字符信息进行匹配。
在某些实施例中,所述分词子单元可以具体用于:
将待处理文本进行分词,获得多个词串;
利用通配符替换所述多个词串中的通配词、和/或利用属性信息替换所述多个词串中的属性词,以获得所述分词结果。
在某些实施例中,,所述检索子单元可以具体用于:
从所述分词结果中的第一个分词信息开始,将所述分词结果与所述字典树的各个节点对应的字符信息进行匹配;
如果所述分词结果中的任一分词信息与所述字典树中任一节点对应字符信息或与所述任一节点对应字符信息的同义词或与所述任一节点对应字符信息的属性信息匹配成功,确定所述任一分词信息与所述任一节点匹配成功,否则确定所述任一分词信息与所述任一节点匹配失败;
如果所述任一分词信息与所述任一节点匹配成功,将所述任一分词信息的下一个分词信息与所述任一节点连接的下一节点对应字符信息进行匹配。
图9所述的信息识别装置可以执行图4所示实施例所述的信息识别方法,其实现原理和技术效果不再赘述。对于上述实施例中的信息识别装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,图9所示实施例的信息识别装置可以实现为一计算设备,该计算设备例如可以为服务器,如图10所示,该计算设备可以包括存储组件1001以及处理组件1002;
存储组件1001存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件1002调用执行。
所述处理组件1002用于:
基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;其中,所述字典树存储多个语义模板;可选地,每一语义模板可以基于其关联的语义节点的训练样本获得,由关键词、通配符、和/或属性信息构成;
确定所述待处理文本对应的语义模板关联的语义节点;
由所述语义节点构成所述待处理文本的语义信息。
其中,处理组件1002可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
其中,存储组件1001被配置为存储各种类型的数据以支持在计算设备的操作。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当然,计算设备必然还可以包括其他部件,例如输入/输出接口、通信组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于通信服务器和其他设备之间有线或无线方式的通信。
此外,本申请实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被计算机执行时可以实现上述图4所示实施例的信息识别方法。
图11为本申请提供的一种信息推荐装置一个实施例的结构示意图,该装置可以包括:
模板检索模块1101,用于基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;
其中,所述字典树存储多个语义模板;
可选地,每一语义模板可以基于其关联的语义节点的训练样本获得,由关键词、通配符、和/或属性信息构成;
节点确定模块1102,用于确定所述待处理文本对应的语义模板关联的语义节点;
语义生成模块1103,用于由所述语义节点构成所述待处理文本的语义信息。
内容查找模块1104,用于查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容;
应答模块1105,用于输出所述应答内容。
对于上述实施例中的信息推荐装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,图11所示实施例的信息推荐装置可以实现为一计算设备,该计算设备例如可以为服务器,如图12所示,该计算设备可以包括存储组件1201以及处理组件1202;
存储组件1201存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件1202调用执行。
所述处理组件1202用于:
基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;其中,所述字典树存储多个语义模板;每一语义模板基于其关联的语义节点的训练样本获得,由关键词、通配符、和/或属性信息构成;
确定所述待处理文本对应的语义模板关联的语义节点;
由所述语义节点构成所述待处理文本的语义信息。
查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容;
发送所述应答内容至客户端以触发所述客户端输出所述应答内容。
其中,处理组件1202可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
其中,存储组件1201被配置为存储各种类型的数据以支持在计算设备的操作。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当然,计算设备必然还可以包括其他部件,例如输入/输出接口、通信组件、发射/接收组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于通信服务器和其他设备之间有线或无线方式的通信。
处理组件可以具体是触发发射/接收组件发送所述应答内容至客户端。
图13为本申请提供的一种信息推荐装置又一个实施例的结构示意图,该装置可以包括:
文本发送模块1301,用于发送待处理文本至服务端,以供所述服务端查找字典树获得所述待处理文本命中的语义模板,并由所述待处理文本对应的语义模板关联的语义节点构成所述待处理文本的语义信息;查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容;
内容接收模块1302,用于接收所述服务端发送的所述应答内容;
输出模块1303,用于输出所述应答内容。
其中,所述字典树存储多个语义模板;
可选地,每一语义模板可以基于其关联的语义节点的训练样本获得,由关键词、通配符、和/或属性信息构成。
对于上述实施例中的信息推荐装置其中各个模块、单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在一个可能的设计中,图13所示实施例的信息推荐装置可以实现为一计算设备,该计算设备可以为计算机、平板电脑、手机等终端。如图14所示,该计算设备可以包括存储组件1401以及处理组件1402;
存储组件1401存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件1402调用执行。
所述处理组件1402用于:
发送待处理文本至服务端,以供所述服务端查找字典树获得所述待处理文本命中的语义模板,并由所述待处理文本对应的语义模板关联的语义节点构成所述待处理文本的语义信息;查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容;
接收所述服务端发送的所述应答内容;
输出所述应答内容。
其中,处理组件1402可以包括一个或多个处理器来执行计算机指令,以完成上述的方法中的全部或部分步骤。当然处理组件也可以为一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
其中,存储组件1401被配置为存储各种类型的数据以支持在终端中的操作。存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
当然,该终端必然还可以包括其他部件,例如输入/输出接口、通信组件、输出组件等。
输入/输出接口为处理组件和外围接口模块之间提供接口,上述外围接口模块可以是输出设备、输入设备等。
通信组件被配置为便于终端和其他设备之间有线或无线方式的通信。
处理组件可以具体是触发输出组件输出所述应答内容。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (24)

1.一种信息识别方法,其特征在于,包括:
基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;其中,所述字典树存储多个语义模板;每一语义模板基于其关联的语义节点的训练样本获得,由关键词、通配符、和/或属性信息构成;
确定所述待处理文本对应的语义模板关联的语义节点;
由所述语义节点构成所述待处理文本的语义信息。
2.根据权利要求1所述的方法,其特征在于,所述字典树的各节点分别对应所述多个语义模板经分词处理获得的字符信息;
所述基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板包括:
将所述待处理文本与所述字典树的各节点对应的字符信息进行匹配;
将匹配成功的匹配路径上所述待处理文本命中的字符信息连接,获得所述待处理文本命中的语义模板。
3.根据权利要求2所述的方法,其特征在于,所述字符信息为所述通配符、所述属性信息或者所述关键词;其中,所述关键词的匹配优先级高于所述属性信息;所述属性信息的匹配优先级高于所述通配符;
所述将所述待处理文本与所述字典树的各节点对应的字符信息进行匹配包括:
针对与所述待处理文本匹配成功的任一节点连接的各子节点,判断是否存在所述待处理文本命中的任一关键词对应的子节点;
如果是,确定所述待处理文本与所述任一关键词对应的子节点匹配成功;
如果否,判断是否存在所述待处理文本命中的任一属性信息对应的子节点;若是,确定所述待处理文本与所述任一属性信息对应的子节点匹配成功;若否,判断是否存在所述待处理文本命中的任一通配符对应的子节点;
如果存在所述待处理文本命中的任一通配符对应的子节点,确定所述待处理文本与所述任一通配符对应的子节点匹配成功;
如果不存在所述待处理文本命中的任一通配符对应的子节点,确定所述待处理文本与所述任一通配符对应的子节点匹配失败。
4.根据权利要求2所述的方法,其特征在于,所述将所述待处理文本与所述字典树的各节点对应的字符信息进行匹配包括:
将所述待处理文本与所述字典树的各节点对应的字符信息进行匹配;
如果任一匹配成功的匹配路径中包括任一通配符对应的节点,确定所述待处理文本中与所述任一通配符匹配成功的字符串以及未参与匹配的字符串构成的剩余字符串;
将所述剩余字符串与所述字典树的各节点对应的字符信息继续进行匹配。
5.根据权利要求2所述的方法,其特征在于,所述将所述待处理文本与所述字典树的各节点对应的字符信息进行匹配包括:
将所述待处理文本进行分词,获得分词结果;
将所述分词结果依次与所述字典树的各节点对应的字符信息进行匹配。
6.根据权利要求5所述的方法,其特征在于,所述将待处理文本进行分词,获得分词结果包括:
将待处理文本进行分词,获得多个词串;
利用通配符替换所述多个词串中的通配词、和/或利用属性信息替换所述多个词串中的属性词,以获得所述分词结果。
7.根据权利要求5所述的方法,其特征在于,所述将所述分词结果依次与所述字典树的各节点对应的字符信息进行匹配包括:
从所述分词结果中的第一个分词信息开始,将所述分词结果与所述字典树的各个节点对应的字符信息进行匹配;
如果所述分词结果中的任一分词信息与所述字典树中任一节点对应字符信息或与所述任一节点对应字符信息的同义词或与所述任一节点对应字符信息的属性信息匹配成功,确定所述任一分词信息与所述任一节点匹配成功,否则确定所述任一分词信息与所述任一节点匹配失败;
如果所述任一分词信息与所述任一节点匹配成功,将所述任一分词信息的下一个分词信息与所述任一节点连接的下一节点对应字符信息进行匹配。
8.一种信息识别方法,其特征在于,包括:
基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;其中,所述字典树存储多个语义模板;
确定所述待处理文本对应的语义模板关联的语义节点;
由所述语义节点构成所述待处理文本的语义信息。
9.一种信息推荐方法,其特征在于,包括:
基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;其中,所述字典树存储多个语义模板;
确定所述待处理文本对应的语义模板关联的语义节点;
由所述语义节点构成所述待处理文本的语义信息;
查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容;
发送所述应答内容至客户端,以触发所述客户端输出所述应答内容。
10.一种信息推荐方法,其特征在于,包括:
发送待处理文本至服务端,以供所述服务端查找字典树获得所述待处理文本命中的语义模板,并由所述待处理文本对应的语义模板关联的语义节点构成所述待处理文本的语义信息;查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容;
接收所述服务端发送的所述应答内容;
输出所述应答内容。
11.一种模板构建方法,其特征在于,包括:
针对任一语义节点的训练样本,确定所述训练样本包括的关键词、通配词和/或属性词;
构建由所述关键词、所述通配词对应的通配符和/或所述属性词的属性信息构成的语义模板;
基于多个语义模板分词获得的字符信息,构造字典树;
保存所述字典树存储的各个语义模板与各自对应语义节点的关联关系。
12.根据权利要求11所述的方法,其特征在于,所述字典树用于待处理文本的查询,以基于查询获得的语义模板关联的语义节点,构成所述待处理文本的语义信息。
13.根据权利要求11所述的方法,其特征在于,还包括:
确定种子文本以及所述种子文本的语义节点;
从历史对话记录中查找所述种子文本的相似文本;
基于所述种子文本以及所述相似文本,获得所述种子文本的语义节点对应的训练样本。
14.根据权利要求11所述的方法,其特征在于,所述基于多个语义模板分词获得的多个字符信息,构造字典树包括:
将多个语义模板分别进行分词,获得多个字符信息;所述多个字符信息包括所述通配符、所述属性信息、和/或所述关键词;
基于所述多个字符信息,构造字典树;
如果任一字符信息存在同义词或者属性信息,对应保存所述任一字符信息的同义词或者属性信息。
15.根据权利要求14所述的方法,其特征在于,所述基于多个语义模板分词获得的字符信息,构造字典树之后,所述方法还包括:
如果存在新增模板,基于所述新增模板分词获得的字符信息,更新所述字典树。
16.根据权利要求11所述的方法,其特征在于,所述属性信息包括所述属性词的词性或者所述属性词的特征标签。
17.一种信息识别装置,其特征在于,包括:
模板检索模块,用于基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;其中,所述字典树存储多个语义模板;
节点确定模块,用于确定所述待处理文本对应的语义模板关联的语义节点;
语义生成模块,用于由所述语义节点构成所述待处理文本的语义信息。
18.一种信息推荐装置,其特征在于,包括:
模板检索模块,用于基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;其中,所述字典树存储多个语义模板;
节点确定模块,用于确定所述待处理文本对应的语义模板关联的语义节点;
语义生成模块,用于由所述语义节点构成所述待处理文本的语义信息;
内容查找模块,用于查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容;
应答模块,用于发送所述应答内容至客户端以触发所述客户端输出所述应答内容。
19.一种信息推荐装置,其特征在于,包括:
文本发送模块,用于发送待处理文本至服务端,以供所述服务端查找字典树获得所述待处理文本命中的语义模板,并由所述待处理文本对应的语义模板关联的语义节点构成所述待处理文本的语义信息;查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容;
内容接收模块,用于接收所述服务端发送的所述应答内容;
输出模块,用于输出所述应答内容。
20.一种模板构建装置,其特征在于,包括:
词确定模块,用于针对任一语义节点的训练样本,确定所述训练样本包括的关键词、通配词和/或属性词;
模板构建模块,用于构建由所述关键词、所述通配词对应的通配符和/或所述属性词的属性信息构成的语义模板;
字典树构造模块,用于基于多个语义模板分词获得的字符信息,构造字典树;
保存模块,用于保存所述字典树存储的各个语义模板与各自对应语义节点的关联关系。
21.一种计算设备,其特征在于,包括存储组件以及处理组件;
所述存储组件存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用执行;
所处理组件用于:
基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;其中,所述字典树存储多个语义模板;
确定所述待处理文本对应的语义模板关联的语义节点;
由所述语义节点构成所述待处理文本的语义信息。
22.一种计算设备,其特征在于,包括存储组件以及处理组件;
所述存储组件存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用执行;
所处理组件用于:
基于待处理文本查找字典树,以获得所述待处理文本命中的语义模板;其中,所述字典树存储多个语义模板;
确定所述待处理文本对应的语义模板关联的语义节点;
由所述语义节点构成所述待处理文本的语义信息。
查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容;
发送所述应答内容至客户端以触发所述客户端输出所述应答内容。
23.一种计算设备,其特征在于,包括存储组件以及处理组件;
所述存储组件存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用执行;
所处理组件用于:
发送待处理文本至服务端,以供所述服务端查找字典树获得所述待处理文本命中的语义模板,并由所述待处理文本对应的语义模板关联的语义节点构成所述待处理文本的语义信息;查找所述语义信息命中的输入样本以及所述输入样本对应的应答内容;
接收所述服务端发送的所述应答内容;
输出所述应答内容。
24.一种计算设备,其特征在于,包括存储组件以及处理组件;
所述存储组件存储一条或多条计算机指令,其中,所述一条或多条计算机指令供所述处理组件调用执行;
所处理组件用于:
针对任一语义节点的训练样本,确定所述训练样本包括的关键词、通配词和/或属性词;
构建由所述关键词、所述通配词对应的通配符和/或所述属性词的属性信息构成的语义模板;
基于多个语义模板分词获得的字符信息,构造字典树;
保存所述字典树存储的各个语义模板与各自对应语义节点的关联关系。
CN201710964905.4A 2017-10-17 2017-10-17 信息识别方法、信息推荐方法、模板构建方法及计算设备 Active CN109670163B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710964905.4A CN109670163B (zh) 2017-10-17 2017-10-17 信息识别方法、信息推荐方法、模板构建方法及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710964905.4A CN109670163B (zh) 2017-10-17 2017-10-17 信息识别方法、信息推荐方法、模板构建方法及计算设备

Publications (2)

Publication Number Publication Date
CN109670163A true CN109670163A (zh) 2019-04-23
CN109670163B CN109670163B (zh) 2023-03-28

Family

ID=66140363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710964905.4A Active CN109670163B (zh) 2017-10-17 2017-10-17 信息识别方法、信息推荐方法、模板构建方法及计算设备

Country Status (1)

Country Link
CN (1) CN109670163B (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147433A (zh) * 2019-05-21 2019-08-20 北京鸿联九五信息产业有限公司 一种基于字典树的文本模板提取方法
CN110321437A (zh) * 2019-05-27 2019-10-11 腾讯科技(深圳)有限公司 一种语料数据处理方法、装置、电子设备及介质
CN110399457A (zh) * 2019-07-01 2019-11-01 吉林大学 一种智能问答方法和系统
CN111159377A (zh) * 2019-12-30 2020-05-15 深圳追一科技有限公司 属性召回模型训练方法、装置、电子设备以及存储介质
CN111737425A (zh) * 2020-02-28 2020-10-02 北京沃东天骏信息技术有限公司 一种应答方法、装置、服务器及存储介质
CN111813914A (zh) * 2020-07-13 2020-10-23 龙马智芯(珠海横琴)科技有限公司 基于字典树的问答方法、装置、识别设备及可读存储介质
CN111914065A (zh) * 2020-07-31 2020-11-10 中国工商银行股份有限公司 短信内容验证方法、装置、计算机系统和计算机可读介质
CN112163081A (zh) * 2020-10-14 2021-01-01 网易(杭州)网络有限公司 标签确定方法、装置、介质及电子设备
CN112214980A (zh) * 2019-07-11 2021-01-12 国际商业机器公司 树结构模板的定制和推荐
CN112597772A (zh) * 2020-12-31 2021-04-02 讯飞智元信息科技有限公司 一种热点信息确定方法、计算机设备以及装置
CN113408271A (zh) * 2021-06-16 2021-09-17 北京来也网络科技有限公司 基于rpa及ai的信息抽取方法、装置、设备及介质
CN113468368A (zh) * 2020-04-28 2021-10-01 海信集团有限公司 一种语音记事方法、装置、设备及介质
WO2021237562A1 (zh) * 2020-05-28 2021-12-02 深圳市欢太数字科技有限公司 文本模板提取方法、电子设备和存储介质
CN115934921A (zh) * 2023-03-03 2023-04-07 北京远鉴信息技术有限公司 一种任务式回答的确定方法、装置、电子设备及存储介质
WO2023159749A1 (zh) * 2022-02-25 2023-08-31 平安科技(深圳)有限公司 客服机器人的对话流程控制方法、装置、服务器及介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11902231B2 (en) * 2022-02-14 2024-02-13 International Business Machines Corporation Dynamic display of images based on textual content

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030191847A1 (en) * 2002-01-16 2003-10-09 Xerox Corporation Symmetrical structural pattern matching
CN201066901Y (zh) * 2007-08-01 2008-05-28 浙江大学 短信息监控中心
US20110055233A1 (en) * 2009-08-25 2011-03-03 Lutz Weber Methods, Computer Systems, Software and Storage Media for Handling Many Data Elements for Search and Annotation
CN102053993A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
CN102279875A (zh) * 2011-06-24 2011-12-14 成都市华为赛门铁克科技有限公司 钓鱼网站的识别方法和装置
US20120143897A1 (en) * 2010-12-03 2012-06-07 Microsoft Corporation Wild Card Auto Completion
CN104933363A (zh) * 2015-06-19 2015-09-23 安一恒通(北京)科技有限公司 检测恶意文件的方法和装置
US20160055240A1 (en) * 2014-08-22 2016-02-25 Microsoft Corporation Orphaned utterance detection system and method
US20170032689A1 (en) * 2015-07-28 2017-02-02 International Business Machines Corporation Domain-specific question-answer pair generation
CN106446162A (zh) * 2016-09-26 2017-02-22 浙江大学 一种面向领域的本体知识库文本检索方法
CN107203526A (zh) * 2016-03-16 2017-09-26 高德信息技术有限公司 一种查询串语义需求分析方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030191847A1 (en) * 2002-01-16 2003-10-09 Xerox Corporation Symmetrical structural pattern matching
CN201066901Y (zh) * 2007-08-01 2008-05-28 浙江大学 短信息监控中心
US20110055233A1 (en) * 2009-08-25 2011-03-03 Lutz Weber Methods, Computer Systems, Software and Storage Media for Handling Many Data Elements for Search and Annotation
CN102053993A (zh) * 2009-11-10 2011-05-11 阿里巴巴集团控股有限公司 一种文本过滤方法及文本过滤系统
US20120143897A1 (en) * 2010-12-03 2012-06-07 Microsoft Corporation Wild Card Auto Completion
CN102279875A (zh) * 2011-06-24 2011-12-14 成都市华为赛门铁克科技有限公司 钓鱼网站的识别方法和装置
US20160055240A1 (en) * 2014-08-22 2016-02-25 Microsoft Corporation Orphaned utterance detection system and method
CN104933363A (zh) * 2015-06-19 2015-09-23 安一恒通(北京)科技有限公司 检测恶意文件的方法和装置
US20170032689A1 (en) * 2015-07-28 2017-02-02 International Business Machines Corporation Domain-specific question-answer pair generation
CN107203526A (zh) * 2016-03-16 2017-09-26 高德信息技术有限公司 一种查询串语义需求分析方法及装置
CN106446162A (zh) * 2016-09-26 2017-02-22 浙江大学 一种面向领域的本体知识库文本检索方法

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110147433A (zh) * 2019-05-21 2019-08-20 北京鸿联九五信息产业有限公司 一种基于字典树的文本模板提取方法
CN110321437A (zh) * 2019-05-27 2019-10-11 腾讯科技(深圳)有限公司 一种语料数据处理方法、装置、电子设备及介质
CN110321437B (zh) * 2019-05-27 2024-03-15 腾讯科技(深圳)有限公司 一种语料数据处理方法、装置、电子设备及介质
CN110399457A (zh) * 2019-07-01 2019-11-01 吉林大学 一种智能问答方法和系统
CN110399457B (zh) * 2019-07-01 2023-02-03 吉林大学 一种智能问答方法和系统
CN112214980A (zh) * 2019-07-11 2021-01-12 国际商业机器公司 树结构模板的定制和推荐
CN111159377A (zh) * 2019-12-30 2020-05-15 深圳追一科技有限公司 属性召回模型训练方法、装置、电子设备以及存储介质
CN111737425A (zh) * 2020-02-28 2020-10-02 北京沃东天骏信息技术有限公司 一种应答方法、装置、服务器及存储介质
CN111737425B (zh) * 2020-02-28 2024-03-01 北京汇钧科技有限公司 一种应答方法、装置、服务器及存储介质
CN113468368A (zh) * 2020-04-28 2021-10-01 海信集团有限公司 一种语音记事方法、装置、设备及介质
WO2021237562A1 (zh) * 2020-05-28 2021-12-02 深圳市欢太数字科技有限公司 文本模板提取方法、电子设备和存储介质
CN111813914B (zh) * 2020-07-13 2021-07-06 龙马智芯(珠海横琴)科技有限公司 基于字典树的问答方法、装置、识别设备及可读存储介质
CN111813914A (zh) * 2020-07-13 2020-10-23 龙马智芯(珠海横琴)科技有限公司 基于字典树的问答方法、装置、识别设备及可读存储介质
CN111914065B (zh) * 2020-07-31 2023-08-15 中国工商银行股份有限公司 短信内容验证方法、装置、计算机系统和计算机可读介质
CN111914065A (zh) * 2020-07-31 2020-11-10 中国工商银行股份有限公司 短信内容验证方法、装置、计算机系统和计算机可读介质
CN112163081A (zh) * 2020-10-14 2021-01-01 网易(杭州)网络有限公司 标签确定方法、装置、介质及电子设备
CN112597772A (zh) * 2020-12-31 2021-04-02 讯飞智元信息科技有限公司 一种热点信息确定方法、计算机设备以及装置
CN113408271A (zh) * 2021-06-16 2021-09-17 北京来也网络科技有限公司 基于rpa及ai的信息抽取方法、装置、设备及介质
WO2023159749A1 (zh) * 2022-02-25 2023-08-31 平安科技(深圳)有限公司 客服机器人的对话流程控制方法、装置、服务器及介质
CN115934921A (zh) * 2023-03-03 2023-04-07 北京远鉴信息技术有限公司 一种任务式回答的确定方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109670163B (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN109670163A (zh) 信息识别方法、信息推荐方法、模板构建方法及计算设备
US20200301954A1 (en) Reply information obtaining method and apparatus
US10565244B2 (en) System and method for text categorization and sentiment analysis
CN108038183B (zh) 结构化实体收录方法、装置、服务器和存储介质
CN106776544B (zh) 人物关系识别方法及装置和分词方法
AU2019201531B2 (en) An in-app conversational question answering assistant for product help
CN104850574B (zh) 一种面向文本信息的敏感词过滤方法
CN103593412B (zh) 一种基于树形结构问题的应答方法及系统
US20210018332A1 (en) Poi name matching method, apparatus, device and storage medium
US20240160626A1 (en) System and method for automatic creation of ontological databases and semantic searching
CN107092639A (zh) 一种搜索引擎系统
CN107273359A (zh) 一种文本相似度确定方法
CN108197116B (zh) 一种中文文本分词的方法、装置、分词设备及存储介质
US11775767B1 (en) Systems and methods for automated iterative population of responses using artificial intelligence
CN112883165B (zh) 一种基于语义理解的智能全文检索方法及系统
CN110457689A (zh) 语义处理方法及相关装置
CN109582954A (zh) 用于输出信息的方法和装置
CN110377745B (zh) 信息处理方法、信息检索方法、装置及服务器
CN114329225B (zh) 基于搜索语句的搜索方法、装置、设备及存储介质
CN109829045A (zh) 一种问答方法和装置
CN112580328A (zh) 事件信息的抽取方法及装置、存储介质、电子设备
US20180225382A1 (en) System and method for automatic creation of ontological databases and semantic searching
CN112148701A (zh) 一种文件检索的方法及设备
CN110209659A (zh) 一种简历过滤方法、系统和计算机可读存储介质
CN111160041A (zh) 语义理解方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant