CN109145153B - 意图类别的识别方法和装置 - Google Patents

意图类别的识别方法和装置 Download PDF

Info

Publication number
CN109145153B
CN109145153B CN201810717544.8A CN201810717544A CN109145153B CN 109145153 B CN109145153 B CN 109145153B CN 201810717544 A CN201810717544 A CN 201810717544A CN 109145153 B CN109145153 B CN 109145153B
Authority
CN
China
Prior art keywords
video
event
entity
knowledge graph
behavior data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810717544.8A
Other languages
English (en)
Other versions
CN109145153A (zh
Inventor
符文君
吴友政
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201810717544.8A priority Critical patent/CN109145153B/zh
Publication of CN109145153A publication Critical patent/CN109145153A/zh
Application granted granted Critical
Publication of CN109145153B publication Critical patent/CN109145153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明提供了一种意图类别的识别方法和装置,该方法包括:对预设时间段内的第一视频搜索行为数据,挖掘事件实体;将事件实体添加至预先构建的视频知识图谱;根据视频知识图谱对第二视频搜索行为数据进行实体类型的标注;对第二视频搜索行为数据进行意图类别的标注;将具有实体类型以及意图类别标注的第二视频搜索行为数据作为训练样本,输入至预设分类模型进行意图分类训练;接收用户的视频搜索语句,根据视频知识图谱对视频搜索语句进行实体类型的标注;将具有实体类型标注的视频搜索语句输入至已训练的预设分类模型进行意图类别的识别,确定视频搜索语句所属的意图类别。本发明能够提升对输入的视频搜索语句的意图类别分类的准确率。

Description

意图类别的识别方法和装置
技术领域
本发明涉及互联网技术领域,特别是涉及一种意图类别的识别方法和装置。
背景技术
目前,在对用户输入的查询语句进行意图类别(“意图类别”指的是对用户输入的一段用于表达查询需求的信息,判定用户想要进行何种类型内容的搜索,即搜用户之所想)的识别时,主要是通过对查询语句抽取字特征、词特征、短语特征,根据这些特征来判断该查询语句的意图类别。但是,发明人在实现本发明的过程中发现,根据查询语句中的字词特征、短语特征去判断该查询语句对应的用户意图类别,没有利用深层语义特征,存在意图类别分类准确率较低的问题。
例如用户输入:“沈腾买电影票”,“光头强电影票”,则采用现有技术的方案这两种输入都被分类为“购买电影票”的意图类别,然而用户搜索“沈腾买电影票”仅仅是想看“沈腾买电影票”相关事件的视频,用户搜索“光头强电影票”则是想要收看“光头强电影票”相关剧情的视频片段。
由此可见,现有技术中的意图类别的识别方案普遍存在着意图类别分类准确率较低的问题。
发明内容
本发明提供了一种意图类别的识别方法和装置,以解决现有技术中的意图类别的识别方案所存在的意图类别分类准确率较低的问题。
为了解决上述问题,根据本发明的一个方面,本发明公开了一种意图类别的识别方法,包括:
对预设时间段内的第一视频搜索行为数据,挖掘事件实体;
将所述事件实体添加至预先构建的视频知识图谱,其中,所述视频知识图谱包括多个类型的实体和不同类型实体之间的关系,其中,每个实体具有名称和属性;
根据所述视频知识图谱对第二视频搜索行为数据进行实体类型的标注;
对所述第二视频搜索行为数据进行意图类别的标注;
将具有实体类型以及意图类别标注的所述第二视频搜索行为数据作为训练样本,输入至预设分类模型进行意图分类训练;
接收用户的视频搜索语句,根据所述视频知识图谱对所述视频搜索语句进行实体类型的标注;
将具有实体类型标注的视频搜索语句输入至已训练的所述预设分类模型进行意图类别的识别,确定所述视频搜索语句所属的意图类别。
可选地,所述对预设时间段内的第一视频搜索行为数据,挖掘事件实体,包括:
对预设时间段内的每条第一视频搜索行为数据进行分词处理,得到对应所述每条第一视频搜索行为数据的多个词项;
根据每个词项在所述预设时间段内的搜索词频,确定所述多个词项中是否存在热点词;
针对存在热点词的第一目标视频搜索行为数据,根据所述第一目标视频搜索行为数据的热点词,确定事件实体的名称;
从所述名称中抽取事件要素构成所述事件实体的属性;
识别所述事件实体与预先构建的视频知识图谱中已构建的其他类型的实体之间的关系;
所述将所述事件实体添加至预先构建的视频知识图谱,包括:
根据所述事件实体的名称、所述事件实体的属性、所述事件实体与其他类型的实体之间的关系,将所述事件实体添加至预先构建的视频知识图谱。
可选地,所述根据所述视频知识图谱对第二视频搜索行为数据进行实体类型的标注,包括:
对第二视频搜索行为数据进行预处理,得到词项列表;
根据所述视频知识图谱对所述词项列表进行非事件实体类型的标注;
根据所述视频知识图谱对所述词项列表进行事件实体类型的标注。
可选地,所述根据所述视频知识图谱对所述词项列表进行事件实体类型的标注,包括:
将所述词项列表划分为多个词项子集;
将每个词项子集与所述视频知识图谱中的所有事件实体的名称和属性值进行语义匹配,得到语义匹配度;
若所述多个词项子集中存在语义匹配度大于预设匹配度阈值的目标词项子集,则确定所述词项列表命中事件实体;
对所述词项列表进行事件实体类型的标注。
可选地,所述将每个词项子集与所述视频知识图谱中的所有事件实体的名称和属性值进行语义匹配,得到语义匹配度,包括:
将每个词项子集对应的词向量与所述视频知识图谱中的所有事件实体的词向量进行语义匹配,得到语义匹配度,其中,每个事件实体的词向量为该事件实体的名称和属性值的组合对应的词向量。
根据本发明的另一方面,本发明还公开了一种意图类别的识别装置,包括:
挖掘模块,用于对预设时间段内的第一视频搜索行为数据,挖掘事件实体;
添加模块,用于将所述事件实体添加至预先构建的视频知识图谱,其中,所述视频知识图谱包括多个类型的实体和不同类型实体之间的关系,其中,每个实体具有名称和属性;
第一标注模块,用于根据所述视频知识图谱对第二视频搜索行为数据进行实体类型的标注;
第二标注模块,用于对所述第二视频搜索行为数据进行意图类别的标注;
训练模块,用于将具有实体类型以及意图类别标注的所述第二视频搜索行为数据作为训练样本,输入至预设分类模型进行意图分类训练;
第三标注模块,用于接收用户的视频搜索语句,根据所述视频知识图谱对所述视频搜索语句进行实体类型的标注;
识别模块,用于将具有实体类型标注的视频搜索语句输入至已训练的所述预设分类模型进行意图类别的识别,确定所述视频搜索语句所属的意图类别。
可选地,所述挖掘模块包括:
分词子模块,用于对预设时间段内的每条第一视频搜索行为数据进行分词处理,得到对应所述每条第一视频搜索行为数据的多个词项;
第一确定子模块,用于根据每个词项在所述预设时间段内的搜索词频,确定所述多个词项中是否存在热点词;
第二确定子模块,用于针对存在热点词的第一目标视频搜索行为数据,根据所述第一目标视频搜索行为数据的热点词,确定事件实体的名称;
抽取子模块,用于从所述名称中抽取事件要素构成所述事件实体的属性;
识别子模块,用于识别所述事件实体与预先构建的视频知识图谱中已构建的其他类型的实体之间的关系;
所述添加模块包括:
添加子模块,用于根据所述事件实体的名称、所述事件实体的属性、所述事件实体与其他类型的实体之间的关系,将所述事件实体添加至预先构建的视频知识图谱。
可选地,所述第一标注模块包括:
预处理子模块,用于对第二视频搜索行为数据进行预处理,得到词项列表;
第一标注子模块,用于根据所述视频知识图谱对所述词项列表进行非事件实体类型的标注;
第二标注子模块,用于根据所述视频知识图谱对所述词项列表进行事件实体类型的标注。
可选地,所述第二标注子模块包括:
划分单元,用于将所述词项列表划分为多个词项子集;
语义匹配单元,用于将每个词项子集与所述视频知识图谱中的所有事件实体的名称和属性值进行语义匹配,得到语义匹配度;
确定单元,用于若所述多个词项子集中存在语义匹配度大于预设匹配度阈值的目标词项子集,则确定所述词项列表命中事件实体;
标注单元,用于对所述词项列表进行事件实体类型的标注。
可选地,所述语义匹配单元,还用于将每个词项子集对应的词向量与所述视频知识图谱中的所有事件实体的词向量进行语义匹配,得到语义匹配度,其中,每个事件实体的词向量为该事件实体的名称和属性值的组合对应的词向量。
与现有技术相比,本发明包括以下优点:
本发明利用预设时间段内的视频搜索行为数据来挖掘事件实体,并将其添加至预先构建的视频知识图谱,并根据该视频知识图谱来对用于训练的视频搜索行为数据进行实体类型的标注,即,确定该视频搜索行为数据的语义特征;然后,根据标注有实体类型和意图类别的视频搜索行为数据来对预设分类模型进行训练,使得训练后的分类模型在进行意图类别的分类时能够考虑到输入文本的语义特征,从而提升了意图类别分类的准确率。
附图说明
图1是本发明的一种意图类别的识别方法实施例的步骤流程图;
图2是本发明的一种意图类别的识别装置实施例的结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的一种意图类别的识别方法实施例的步骤流程图,具体可以包括如下步骤:
步骤101,对预设时间段内的第一视频搜索行为数据,挖掘事件实体;
其中,该预设时间段可以是最近一周、最近三天、最近一个月等最近预设时间长度内,还可以是某个时间段,例如系统时间是2018年6月25日,那么该预设时间段可以是2018年4月1日至2018年6月1日。本发明对预设时间段的具体时间范围并不做具体限制。
本实施例中,第一视频搜索行为数据可以包括用户对视频的搜索日志。
其中,第一视频搜索行为数据可以对应一个或多个用户,本发明对此不做限制。
在实际应用中,第一视频搜索行为数据可以以文本(即搜索查询语句)的形式进行表达。
可选地,在一个实施例中,在执行步骤101时,可以采用以下子步骤来实现:
S11,对预设时间段内的每条第一视频搜索行为数据进行分词处理,得到对应所述每条第一视频搜索行为数据的多个词项;
其中,这里的第一视频搜索行为数据可以为上述的搜索查询语句,可以将预设时间段内所有用户对视频的搜索查询语句来作为挖掘事件实体的依据。
对预设时间段内的每条搜索查询语句进行分词处理,得到多个词项;其中,每条搜索查询语句都可以具有多个词项。
S12,根据每个词项在所述预设时间段内的搜索词频,确定所述多个词项中是否存在热点词;
其中,对于任意一条搜索查询语句,可以计算该语句中每个词项在预设时间段内的搜索词频,如果该语句中存在搜索词频大于预设词频阈值的词项,则确定该语句的多个词项中存在热点词,否则不存在。
那么通过本子步骤就可以确定预设时间段内的多条搜索查询语句中,哪些语句中具有热点词,而只有具有热点词的搜索查询语句才可以挖掘出事件实体。
S13,针对存在热点词的第一目标视频搜索行为数据,根据所述第一目标视频搜索行为数据的热点词,确定事件实体的名称;
其中,预设时间段内的第一搜索行为数据中只有一部分视频搜索行为数据(即第一目标视频搜索行为数据)存在热点词,因此,可以将第一目标视频搜索行为数据的热点词进行连接,来得到一个事件实体的名称。
例如某一条第一目标视频搜索行为数据为“沈腾买电影票”,这里的热点词包括沈腾、买、电影票,那么将这三个热点词连接起来可以得到该第一目标视频搜索行为数据对应的事件实体的名称为“沈腾买电影票”。
当然,根据一个或多个热点词来确定事件实体的名称的方式并不限于本示例中的连接方式,还可以包括其他已知确定方式,这里不再赘述。
S14,从所述名称中抽取事件要素构成所述事件实体的属性;
其中,可以采用基于规则模板或基于机器学习的方法从该事件实体的名称中抽取事件要素,事件要素包括施事,受事,动作等,该事件要素作为事件实体的属性。
继续以上述搜索查询语句为“沈腾买电影票”为例进行说明,这里的事件要素施事的取值为“沈腾”、受事的取值为“电影票”、动作的取值为“买”。这样,该“沈腾买电影票”事件就赋予了上述三个属性。
S15,识别所述事件实体与预先构建的视频知识图谱中已构建的其他类型的实体之间的关系;
其中,可以基于实体链接和关系分类算法等,来识别该事件实体与预先构建的知识图谱中已构建的其它类型的实体之间的关系。
这样,本发明实施例能够根据第一视频搜索行为数据来挖掘待搜索的视频对应的热点事件,使得本发明实施例的视频知识图谱不仅仅只包括传统意义上的实体,例如视频实体、明星实体、角色实体、游戏实体,还包括对应视频的事件实体,视频知识图谱的实体类型更加丰富,便于对用户的搜索意图的分类。
步骤102,将所述事件实体添加至预先构建的视频知识图谱,其中,所述视频知识图谱包括多个类型的实体和不同类型实体之间的关系,其中,每个实体具有名称和属性;
在本实施例中,预先构建的知识图谱限定于视频领域,视频知识图谱中的实体类型可以包括视频(VIDEO)、明星(STAR)、角色(ROLE)、游戏(GAME)、事件(EVENT)等。其中,预先构建的视频知识图谱中已经预先添加了视频(VIDEO)、明星(STAR)、角色(ROLE)、游戏(GAME)等实体类型,经过步骤102,也将事件(EVENT)实体类型添加到了该视频知识图谱中。
在预先构建该视频知识图谱时,可以采用已知的知识图谱的构建步骤,例如可以包括信息抽取(实体、关系、属性抽取)、知识融合(实体链接、实体消歧)和知识加工更新(本体定义、知识推理)等来构建不包含事件类型实体的视频知识图谱,以上构建步骤为知识图谱的已知构建步骤,在此不展开描述。
在一个实施例中,通过上述子步骤挖掘出事件实体后,在执行步骤102时,可以根据所述事件实体的名称、所述事件实体的属性、所述事件实体与其他类型的实体之间的关系,将所述事件实体添加至预先构建的视频知识图谱。
其中,上述子步骤挖掘出的事件实体可以是一个或多个,那么对于每一个事件实体,在将其添加到预先构建的视频知识图谱中时,都可以根据该事件实体的名称、该事件实体的属性、该事件实体与其他类型的实体之间的关系,来将该事件实体添加至预先构建的视频知识图谱,从而将上述子步骤挖掘出的所有事件实体都添加到该预先构建的视频知识图谱中。
例如,挖掘出事件实体“沈腾买电影票”后,可以将该事件实体与预先构建的视频知识图谱中已构建的明星实体“沈腾”进行关联,并根据该事件实体的名称以及属性,对该事件实体进行名称和属性的设置;
再如,针对视频查询语句“光头强电影票”挖局出的事件实体为“光头强电影票”,则可以将该事件实体和视频知识图谱中的视频实体“熊出没”、角色实体“光头强”分别进行关联,并根据该事件实体的名称以及属性,来对该事件实体进行名称和属性的设置。
步骤103,根据所述视频知识图谱对第二视频搜索行为数据进行实体类型的标注;
其中,该第二视频搜索行为数据专门用于对预设分类模型进行训练。在本实施例中,该第二视频搜索行为数据可以与上述第一视频搜索行为数据部分或全部重合,或完全不同;
同样的,在实际应用中,第二视频搜索行为数据也可以以文本(即搜索查询语句)的形式进行表达。
其中,这里的视频知识图谱,为添加了已挖掘的事件实体的视频知识图谱。
其中,在一个实施例中,在执行步骤103时,可以通过以下方式来实现:
S21,对所述第二视频搜索行为数据进行预处理,得到词项列表;
其中,可以对第二视频搜索行为数据进行预处理,其中,每条第二视频搜索行为数据为可以作为一个训练样本。
在预处理时,可以去除样本中的标点,对样本进行分词处理,并对词项进行词性标注、停用词过滤等预处理操作,来获得词项列表,其中,该词项列表包括多个词项,通过对该多个词项进行不同节点的截断,可以得到多个短句、长句等。
其中,每条第二视频搜索行为数据,即每个训练样本对应一个词项列表。
随后就可以执行S22和S23,即基于知识图谱来对训练样本进行实体标注,这里标注的实体类型,即为语义特征。
实体类型的标注过程分两步处理,第一步,先对训练样本中的单个词项进行非事件类实体标注,第二步,再对训练样本中的多个词项构成的短句、长句等句子进行事件类型实体的标注。
S22,根据所述视频知识图谱对所述词项列表进行非事件实体类型的标注;
具体而言,可以在视频知识图谱中查找是否存在与词项列表中的单个词项相同的实体的名称和/或别名,如存在,则将该词项标记为相应类型的实体(例如明星);
如该词项对应视频知识图谱中多个同名的实体(例如词项为张三,该视频知识图谱中明星类型的实体的名称为张三、角色类型的实体的名称也为张三),则可以基于实体消歧算法来获取该词项对应的最相似的实体对象,例如为角色{ROLE}。
如果该词项列表中的某个词项在视频知识图谱中没有对应相同名称/别名的实体,则可以在预设同义词表中查找该词项对应的同义词,然后,再使用该同义词在视频知识图谱中查找,查看该同义词是否在视频知识图谱中存在对应的相同名称/别名的实体。例如,“lol”和“英雄联盟”互为同义词,但lol在视频知识图谱的实体名称/别名中不存在,而“英雄联盟”在视频知识图谱中为游戏实体的名称,因此,可以将“lol”标注为游戏实体{GAME}。
如果同义词在视频知识图谱中也不存在相同名称/别名的实体,则可以基于编辑距离算法,查找与该词项字形相似、发音相似的词是否在视频知识图谱中存在对应相同名称/别名的实体。例如,用户查找“周润法”,但是视频知识图谱中存在明星实体的名称“周润发”,则可以将“周润法”标注为明星实体{STAR}。
这样,经过本发明实施例的上述方案,就可以根据所述视频知识图谱来对每个训练样本进行非事件实体类型的标注,例如视频、明星、角色、游戏等实体类型。
S23,根据所述视频知识图谱对所述词项列表进行事件实体类型的标注。
其中,在一个实施例中,在执行S23时,可以通过以下方式来实现:
将所述词项列表划分为多个词项子集;
其中,由于词项列表包括多个词项,而这些词项是按照一定的顺序排列的,那么可以对这些词项构成的词项列表进行不同节点的截断,从而得到多个词项子集,例如词项列表包括{1、2、3、4、5、6},则可以从1和2之间截断,则得到词项子集{1}、{2、3、4、5、6};还可以从2和3之间截断,则得到词项子集{1、2}、{3、4、5、6},依次类推,可以得到多个词项子集。其中,需要注意的是,本发明对于生成词项子集时对词项列表进行截断的节点的位置并不做具体限定,也不限于上述列举。
将每个词项子集与所述视频知识图谱中的所有事件实体的名称和属性值进行语义匹配,得到语义匹配度;
其中,可以将每个词项子集与所述视频知识图谱中的所有事件类型的实体的名称和属性值进行语义匹配,具体匹配算法可以采用CDSSM、ARC-II等。其中,由于在实际应用中,属性值可以包括实体的名称,因此,以词项列表的词项子集1为例来进行匹配过程的说明:
可以将一个词项列表的词项子集1{word1,……,wordn}与事件实体1的属性值集1{event_property1,……,event_propertyn}、事件实体2的属性值集2{event_property1,……,event_propertyn}……事件实体M的属性值集m{event_property1,……,event_propertyn}分别进行语义匹配,从而可以得到对应不同事件实体的M个语义匹配度。
其中,在一个实施例中,在进行语义匹配时,可以将每个词项子集的词项对应的词向量与所述视频知识图谱中的所有事件实体的词向量进行语义匹配,得到语义匹配度,其中,每个事件实体的词向量为该事件实体的名称和属性值的组合对应的词向量。
具体而言,可以基于fasttext/word2vec/paragraph2vec/skip-thought等算法,来获取每个待语义匹配的对象(即上述的词项子集的词项和所有事件实体的名称和属性值的组合)的分布式表示。
在本实施例中,可以采用fasttext算法进行词向量预训练,以完善对未登录词汇的处理。由于fasttext在生成词向量时采用的是子词向量加和平均的方法,因此能较好地处理轻微变形的词项。
若所述多个词项子集中存在语义匹配度大于预设匹配度阈值的目标词项子集,则确定所述词项列表命中事件实体;
例如,词项列表中的词项子集1{word1,……,wordn}与事件实体1的属性值集1{event_property1,……,event_propertyn}的语义匹配度大于预设匹配度阈值,则可以确定该词项列表已经命中了该事件实体1。
对所述词项列表进行事件实体类型的标注。
其中,可以对该词项列表标注{EVENT}。
例如视频搜索行为数据,即视频搜索语句(训练样本)为“我想看老九门”,那么经过步骤103的上述方法,对该训练样本抽取的语义特征(即,标注的实体类型)为{VIDEO}”;再如,视频搜索语句为“沈腾买电影票”,那么经过步骤103的上述方法,对该训练样本抽取的语义特征(即,标注的实体类型)为{EVENT,STAR};又如,视频搜索语句为“光头强电影票”,那么经过步骤103的上述方法,对该训练样本抽取的语义特征(即,标注的实体类型)为{ROLE,EVENT}。
这样,本发明实施例的方法就可以利用视频知识图谱来对视频搜索语句进行不同实体类型的实体标注,即语义特征标注。
步骤104,对所述第二视频搜索行为数据进行意图类别的标注;
其中,本发明实施例的方法还可以对每个训练样本进行意图类别的定义。其中,本发明实施例的意图类别为根据视频搜索行为数据进行人为指定的。该意图类别可以包括搜索视频,播放视频,购买电影票,购买会员等。
举例来说,例如视频搜索语句为“沈腾买电影票”,则对“沈腾买电影票”标注的意图类别为“搜索视频”,即,用户搜索“沈腾买电影票”,实质搜索意图是想要看沈腾买电影票事件的相关视频,即搜索视频,而非购买电影票。
步骤105,将具有实体类型以及意图类别标注的所述第二视频搜索行为数据作为训练样本,输入至预设分类模型进行意图分类训练;
其中,经过步骤101~步骤104之后,每个训练样本都标注了其对应的实体类型,其中,该实体类型体现了该训练样本的语义特征。而本发明实施例的方法又对每个训练样本进行了用户的搜索意图的标注,即意图类别的标注。
那么可以将进行了上述两种信息的标注的训练样本输入至预设分类模型来进行意图分类训练,即使得训练后的预设分类模型能够根据训练样本的语义特征来确定该训练样本对应的用户的搜索意图,即意图类别。
在一个实施例中,为了进一步提升意图分类的准确性,本发明实施例的方法还可以对获取训练样本的一元/二元词项特征、分布式表示特征。将上述特征连同步骤103中的语义特征(即标注的不同类型的实体)作为训练样本的输入特征。
在训练分类模型(可以为分类器)时,可以采用多种方式将特征进行融合,作为分类器的输入。以下列举三种分类模型架构来进行分类模型的训练过程阐述。
实施例一,采用卷积神经网络作为分类模型,将训练样本的每个语义特征(即标注的不同类型的实体)视为词项,训练其对应的分布式表示特征,然后将该分布式表示特征与训练样本对应的词向量进行拼接,将拼接后的数据作为分类模型的输入。
实施例二,采用(Support Vector Machine,SVM)支持向量机作为分类模型,将一元词项特征、二元词项特征、语义特征映射为binary特征,与训练样本的词向量进行拼接,再将拼接后的数据作为分类模型输入。
实施例三,将训练样本的词向量输入卷积神经网络,经卷积层、最大池化层输出得到训练样本对应向量后,再与语义特征对应的binary特征进行拼接,作为softmax层的输入。
其中,由于预设分类模型可以是已知技术中的任意一种分类模型,因此,随着分类模型的差异和不同,该分类模型的输入也存在着差异,但是有一点不变的是,在对预设分类模型进行意图分类训练时,训练样本的实体类型标注以及意图类别标注信息都会输入至预设分类模型进行意图分类训练。
步骤106,接收用户的视频搜索语句,根据所述视频知识图谱对所述视频搜索语句进行实体类型的标注;
其中,经过上步骤101~步骤105,对预设分类模型已经完成了意图类别的分类训练。那么在实际操作时,为了能够对用户输入的任意一个查询语句进行意图类别的分类,本发明实施例的方法可以接收用户输入的视频搜索语句,即一条查询文本,然后,对该查询文本进行步骤103的实体类型标注,即,语义特征提取。例如:用户输入“我想搜索沈腾买电影票”,得到的语义特征(即实体类型)为{EVENT,STAR}。
可选地,还可以对该查询文本进行一元/二元特征提取、分布式表示。
这里该查询文本的一元词特征为{我,想,搜索},二元词特征为{我想,想搜索},分布式表示特征为128维向量{0.122,……0.189};
步骤107,将具有实体类型标注的视频搜索语句输入至已训练的所述预设分类模型进行意图类别的识别,确定所述视频搜索语句所属的意图类别。
其中,可以将具有实体类型标注,即语义特征标注的查询文本随后输入已经完成意图类别的分类训练的分类器。
这里,可以将“我想搜索沈腾买电影票”的语义特征(即实体类型){EVENT,STAR}、一元词特征为{我,想,搜索}、二元词特征为{我想,想搜索}、分布式表示特征为128维向量{0.122,……0.189}输入至该已完成训练的分类器。由分类器对该查询文本进行意图类别的分类,这里,可以输出该查询文本所属的意图类别“搜索视频”。
可选地,那么本发明实施例的方法就可以将该意图类别来搜索“沈腾买电影票”的事件的相关视频,供用户播放收看。
借助于本发明上述实施例的技术方案,本发明利用预设时间段内的视频搜索行为数据来挖掘事件实体,并将其添加至预先构建的视频知识图谱,并根据该视频知识图谱来对用于训练的视频搜索行为数据进行实体类型的标注,即,确定该视频搜索行为数据的语义特征;然后,根据标注有实体类型和意图类别的视频搜索行为数据来对预设分类模型进行训练,使得训练后的分类模型在进行意图类别的分类时能够考虑到输入文本的语义特征,从而提升了意图类别分类的准确率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
与上述本发明实施例所提供的方法相对应,参照图2,示出了本发明一种意图类别的识别装置实施例的结构框图,具体可以包括如下模块:
挖掘模块21,用于对预设时间段内的第一视频搜索行为数据,挖掘事件实体;
添加模块22,用于将所述事件实体添加至预先构建的视频知识图谱,其中,所述视频知识图谱包括多个类型的实体和不同类型实体之间的关系,其中,每个实体具有名称和属性;
第一标注模块23,用于根据所述视频知识图谱对第二视频搜索行为数据进行实体类型的标注;
第二标注模块24,用于对所述第二视频搜索行为数据进行意图类别的标注;
训练模块25,用于将具有实体类型以及意图类别标注的所述第二视频搜索行为数据作为训练样本,输入至预设分类模型进行意图分类训练;
第三标注模块26,用于接收用户的视频搜索语句,根据所述视频知识图谱对所述视频搜索语句进行实体类型的标注;
识别模块27,用于将具有实体类型标注的视频搜索语句输入至已训练的所述预设分类模型进行意图类别的识别,确定所述视频搜索语句所属的意图类别。
可选地,所述挖掘模块21包括:
分词子模块,用于对预设时间段内的每条第一视频搜索行为数据进行分词处理,得到对应所述每条第一视频搜索行为数据的多个词项;
第一确定子模块,用于根据每个词项在所述预设时间段内的搜索词频,确定所述多个词项中是否存在热点词;
第二确定子模块,用于针对存在热点词的第一目标视频搜索行为数据,根据所述第一目标视频搜索行为数据的热点词,确定事件实体的名称;
抽取子模块,用于从所述名称中抽取事件要素构成所述事件实体的属性;
识别子模块,用于识别所述事件实体与预先构建的视频知识图谱中已构建的其他类型的实体之间的关系;
所述添加模块22包括:
添加子模块,用于根据所述事件实体的名称、所述事件实体的属性、所述事件实体与其他类型的实体之间的关系,将所述事件实体添加至预先构建的视频知识图谱。
可选地,所述第一标注模块23包括:
预处理子模块,用于对第二视频搜索行为数据进行预处理,得到词项列表;
第一标注子模块,用于根据所述视频知识图谱对所述词项列表进行非事件实体类型的标注;
第二标注子模块,用于根据所述视频知识图谱对所述词项列表进行事件实体类型的标注。
可选地,所述第二标注子模块包括:
划分单元,用于将所述词项列表划分为多个词项子集;
语义匹配单元,用于将每个词项子集与所述视频知识图谱中的所有事件实体的名称和属性值进行语义匹配,得到语义匹配度;
确定单元,用于若所述多个词项子集中存在语义匹配度大于预设匹配度阈值的目标词项子集,则确定所述词项列表命中事件实体;
标注单元,用于对所述词项列表进行事件实体类型的标注。
可选地,所述语义匹配单元,还用于将每个词项子集对应的词向量与所述视频知识图谱中的所有事件实体的词向量进行语义匹配,得到语义匹配度,其中,每个事件实体的词向量为该事件实体的名称和属性值的组合对应的词向量。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种意图类别的识别方法和一种意图类别的识别装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种意图类别的识别方法,其特征在于,包括:
对预设时间段内的第一视频搜索行为数据,挖掘事件实体,包括:对预设时间段内的每条第一视频搜索行为数据进行分词处理,得到对应所述每条第一视频搜索行为数据的多个词项;根据每个词项在所述预设时间段内的搜索词频,确定所述多个词项中是否存在热点词;针对存在热点词的第一目标视频搜索行为数据,根据所述第一目标视频搜索行为数据的热点词,确定事件实体的名称;从所述名称中抽取事件要素构成所述事件实体的属性;识别所述事件实体与预先构建的视频知识图谱中已构建的其他类型的实体之间的关系;
将所述事件实体添加至预先构建的视频知识图谱,包括:根据所述事件实体的名称、所述事件实体的属性、所述事件实体与其他类型的实体之间的关系,将所述事件实体添加至预先构建的视频知识图谱;其中,所述视频知识图谱包括多个类型的实体和不同类型实体之间的关系,其中,每个实体具有名称和属性;
根据所述视频知识图谱对第二视频搜索行为数据进行实体类型的标注;
对所述第二视频搜索行为数据进行意图类别的标注;
将具有实体类型以及意图类别标注的所述第二视频搜索行为数据作为训练样本,输入至预设分类模型进行意图分类训练;
接收用户的视频搜索语句,根据所述视频知识图谱对所述视频搜索语句进行实体类型的标注;
将具有实体类型标注的视频搜索语句输入至已训练的所述预设分类模型进行意图类别的识别,确定所述视频搜索语句所属的意图类别。
2.根据权利要求1所述的方法,其特征在于,所述根据所述视频知识图谱对第二视频搜索行为数据进行实体类型的标注,包括:
对第二视频搜索行为数据进行预处理,得到词项列表;
根据所述视频知识图谱对所述词项列表进行非事件实体类型的标注;
根据所述视频知识图谱对所述词项列表进行事件实体类型的标注。
3.根据权利要求2所述的方法,其特征在于,所述根据所述视频知识图谱对所述词项列表进行事件实体类型的标注,包括:
将所述词项列表划分为多个词项子集;
将每个词项子集与所述视频知识图谱中的所有事件实体的名称和属性值进行语义匹配,得到语义匹配度;
若所述多个词项子集中存在语义匹配度大于预设匹配度阈值的目标词项子集,则确定所述词项列表命中事件实体;
对所述词项列表进行事件实体类型的标注。
4.根据权利要求3所述的方法,其特征在于,所述将每个词项子集与所述视频知识图谱中的所有事件实体的名称和属性值进行语义匹配,得到语义匹配度,包括:
将每个词项子集对应的词向量与所述视频知识图谱中的所有事件实体的词向量进行语义匹配,得到语义匹配度,其中,每个事件实体的词向量为该事件实体的名称和属性值的组合对应的词向量。
5.一种意图类别的识别装置,其特征在于,包括:
挖掘模块,用于对预设时间段内的第一视频搜索行为数据,挖掘事件实体;
添加模块,用于将所述事件实体添加至预先构建的视频知识图谱,其中,所述视频知识图谱包括多个类型的实体和不同类型实体之间的关系,其中,每个实体具有名称和属性;
第一标注模块,用于根据所述视频知识图谱对第二视频搜索行为数据进行实体类型的标注;
第二标注模块,用于对所述第二视频搜索行为数据进行意图类别的标注;
训练模块,用于将具有实体类型以及意图类别标注的所述第二视频搜索行为数据作为训练样本,输入至预设分类模型进行意图分类训练;
第三标注模块,用于接收用户的视频搜索语句,根据所述视频知识图谱对所述视频搜索语句进行实体类型的标注;
识别模块,用于将具有实体类型标注的视频搜索语句输入至已训练的所述预设分类模型进行意图类别的识别,确定所述视频搜索语句所属的意图类别;
其中,所述挖掘模块包括:
分词子模块,用于对预设时间段内的每条第一视频搜索行为数据进行分词处理,得到对应所述每条第一视频搜索行为数据的多个词项;
第一确定子模块,用于根据每个词项在所述预设时间段内的搜索词频,确定所述多个词项中是否存在热点词;
第二确定子模块,用于针对存在热点词的第一目标视频搜索行为数据,根据所述第一目标视频搜索行为数据的热点词,确定事件实体的名称;
抽取子模块,用于从所述名称中抽取事件要素构成所述事件实体的属性;
识别子模块,用于识别所述事件实体与预先构建的视频知识图谱中已构建的其他类型的实体之间的关系;
所述添加模块包括:
添加子模块,用于根据所述事件实体的名称、所述事件实体的属性、所述事件实体与其他类型的实体之间的关系,将所述事件实体添加至预先构建的视频知识图谱。
6.根据权利要求5所述的装置,其特征在于,所述第一标注模块包括:
预处理子模块,用于对第二视频搜索行为数据进行预处理,得到词项列表;
第一标注子模块,用于根据所述视频知识图谱对所述词项列表进行非事件实体类型的标注;
第二标注子模块,用于根据所述视频知识图谱对所述词项列表进行事件实体类型的标注。
7.根据权利要求6所述的装置,其特征在于,所述第二标注子模块包括:
划分单元,用于将所述词项列表划分为多个词项子集;
语义匹配单元,用于将每个词项子集与所述视频知识图谱中的所有事件实体的名称和属性值进行语义匹配,得到语义匹配度;
确定单元,用于若所述多个词项子集中存在语义匹配度大于预设匹配度阈值的目标词项子集,则确定所述词项列表命中事件实体;
标注单元,用于对所述词项列表进行事件实体类型的标注。
8.根据权利要求7所述的装置,其特征在于,
所述语义匹配单元,还用于将每个词项子集对应的词向量与所述视频知识图谱中的所有事件实体的词向量进行语义匹配,得到语义匹配度,其中,每个事件实体的词向量为该事件实体的名称和属性值的组合对应的词向量。
CN201810717544.8A 2018-07-02 2018-07-02 意图类别的识别方法和装置 Active CN109145153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810717544.8A CN109145153B (zh) 2018-07-02 2018-07-02 意图类别的识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810717544.8A CN109145153B (zh) 2018-07-02 2018-07-02 意图类别的识别方法和装置

Publications (2)

Publication Number Publication Date
CN109145153A CN109145153A (zh) 2019-01-04
CN109145153B true CN109145153B (zh) 2021-03-12

Family

ID=64799723

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810717544.8A Active CN109145153B (zh) 2018-07-02 2018-07-02 意图类别的识别方法和装置

Country Status (1)

Country Link
CN (1) CN109145153B (zh)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563209B (zh) * 2019-01-29 2023-06-30 株式会社理光 一种意图识别的方法、装置及计算机可读存储介质
CN109918452A (zh) * 2019-02-14 2019-06-21 北京明略软件系统有限公司 一种数据处理的方法、装置、计算机存储介质及终端
CN109871543B (zh) * 2019-03-12 2023-10-24 广东小天才科技有限公司 一种意图获取方法及系统
CN109992671A (zh) * 2019-04-10 2019-07-09 出门问问信息科技有限公司 意图识别方法、装置、设备及存储介质
CN110147437B (zh) * 2019-05-23 2022-09-02 北京金山数字娱乐科技有限公司 一种基于知识图谱的搜索方法及装置
CN110263180B (zh) * 2019-06-13 2021-06-04 北京百度网讯科技有限公司 意图知识图谱生成方法、意图识别方法及装置
CN112115240A (zh) * 2019-06-21 2020-12-22 百度在线网络技术(北京)有限公司 分类处理方法、装置、服务器和存储介质
CN111291205B (zh) * 2020-01-22 2023-06-13 北京百度网讯科技有限公司 知识图谱构建方法、装置、设备和介质
CN111368049B (zh) * 2020-02-26 2024-04-26 京东方科技集团股份有限公司 信息获取方法、装置、电子设备及计算机可读存储介质
CN113360751A (zh) * 2020-03-06 2021-09-07 百度在线网络技术(北京)有限公司 意图识别方法、装置、设备和介质
CN111651570A (zh) * 2020-05-13 2020-09-11 深圳追一科技有限公司 文本语句处理方法、装置、电子设备以及存储介质
CN111552821B (zh) * 2020-05-14 2022-03-01 北京华宇元典信息服务有限公司 法律意图搜索方法、法律意图搜索装置和电子设备
CN111666425B (zh) * 2020-06-10 2023-04-18 深圳开思时代科技有限公司 基于语义知识的汽配件搜索方法
CN111737430B (zh) * 2020-06-16 2024-04-05 北京百度网讯科技有限公司 实体链接方法、装置、设备以及存储介质
CN111898014B (zh) * 2020-08-12 2021-07-13 哈尔滨工业大学 一种面向认知服务的用户意图识别方法及系统
CN112559747A (zh) * 2020-12-15 2021-03-26 北京百度网讯科技有限公司 事件分类处理方法、装置、电子设备和存储介质
CN113010638B (zh) * 2021-02-25 2024-02-09 北京金堤征信服务有限公司 实体识别模型生成方法及装置、实体提取方法及装置
CN113301541B (zh) * 2021-07-27 2021-11-12 成都信息工程大学 Sl通信的视频知识图谱构建方法及装置
CN113377969B (zh) * 2021-08-16 2021-11-09 中航信移动科技有限公司 意图识别数据处理系统
CN114168756B (zh) * 2022-01-29 2022-05-13 浙江口碑网络技术有限公司 搜索意图的查询理解方法和装置,存储介质和电子设备
CN114611010A (zh) * 2022-05-12 2022-06-10 北京沃丰时代数据科技有限公司 一种商品搜索推荐方法及系统
CN114996482B (zh) * 2022-08-03 2022-11-11 北京达佳互联信息技术有限公司 知识图谱构建、视频搜索方法、装置及电子设备
CN116720944B (zh) * 2023-08-10 2023-12-19 山景智能(北京)科技有限公司 银行流水打标方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035917B (zh) * 2014-06-10 2017-07-07 复旦大学 一种基于语义空间映射的知识图谱管理方法和系统
US9652675B2 (en) * 2014-07-23 2017-05-16 Microsoft Technology Licensing, Llc Identifying presentation styles of educational videos
CN104951433B (zh) * 2015-06-24 2018-01-23 北京京东尚科信息技术有限公司 基于上下文进行意图识别的方法和系统
CN106250393B (zh) * 2016-07-13 2017-08-25 广州安望信息科技有限公司 一种基于知识图谱的短文本理解方法及装置

Also Published As

Publication number Publication date
CN109145153A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109145153B (zh) 意图类别的识别方法和装置
US11657231B2 (en) Capturing rich response relationships with small-data neural networks
CN110321432B (zh) 文本事件信息提取方法、电子装置和非易失性存储介质
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
US9424524B2 (en) Extracting facts from unstructured text
WO2021179897A1 (zh) 实体链接方法及装置
CN106537370B (zh) 在存在来源和翻译错误的情况下对命名实体鲁棒标记的方法和系统
US9645988B1 (en) System and method for identifying passages in electronic documents
US9846836B2 (en) Modeling interestingness with deep neural networks
US10515125B1 (en) Structured text segment indexing techniques
US8538898B2 (en) Interactive framework for name disambiguation
US10713438B2 (en) Determining off-topic questions in a question answering system using probabilistic language models
US20130159277A1 (en) Target based indexing of micro-blog content
CN110008473B (zh) 一种基于迭代方法的医疗文本命名实体识别标注方法
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN111737560B (zh) 内容搜索方法、领域预测模型训练方法、装置及存储介质
CN111832290A (zh) 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质
Wang et al. DM_NLP at semeval-2018 task 12: A pipeline system for toponym resolution
US11227183B1 (en) Section segmentation based information retrieval with entity expansion
WO2015084404A1 (en) Matching of an input document to documents in a document collection
Ahmed et al. Named entity recognition by using maximum entropy
Wu et al. Exploring multiple feature spaces for novel entity discovery
CN113609847B (zh) 信息抽取方法、装置、电子设备及存储介质
Abbas et al. Automated File Labeling for Heterogeneous Files Organization Using Machine Learning.
Lindén et al. Evaluating combinations of classification algorithms and paragraph vectors for news article classification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant