CN111488453A - 资源分级方法、装置、设备及存储介质 - Google Patents

资源分级方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111488453A
CN111488453A CN201910075690.XA CN201910075690A CN111488453A CN 111488453 A CN111488453 A CN 111488453A CN 201910075690 A CN201910075690 A CN 201910075690A CN 111488453 A CN111488453 A CN 111488453A
Authority
CN
China
Prior art keywords
resource
resources
grade
classified
graded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910075690.XA
Other languages
English (en)
Other versions
CN111488453B (zh
Inventor
李冬白
宋俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Orion Star Technology Co Ltd
Original Assignee
Beijing Orion Star Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Orion Star Technology Co Ltd filed Critical Beijing Orion Star Technology Co Ltd
Priority to CN201910075690.XA priority Critical patent/CN111488453B/zh
Publication of CN111488453A publication Critical patent/CN111488453A/zh
Application granted granted Critical
Publication of CN111488453B publication Critical patent/CN111488453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种资源分级方法、装置、设备及存储介质,通过从已有数据库中获取待分级资源;获取待分级资源的特征信息;根据待分级资源的特征信息,确定待分级资源的等级标签,并将待分级资源的等级标签存储于数据库中。本发明中通过对资源进行分级,从而可根据分级提供给不同的业务,从而可以满足接待服务型机器人、儿童陪伴性机器人、AI音箱等设备搜索引擎的业务需求,在用户搜索资源时为更准确快速的为用户提供所需的资源,提高用户体验。

Description

资源分级方法、装置、设备及存储介质
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种资源分级方法、装置、设备及存储介质。
背景技术
随着大数据时代的到来,数据作为重要的资源成为人工智能各个领域发展的主要驱动力。目前,作用于机器人工智能领域的数据资源,都需要进行一定的预处理,才能被语音交互技术、智能音箱的搜索技术、自然语言理解过程中的信息抽取等技术所应用。为充分发挥数据资源在人工智能领域的优势,需要利用搜索引擎对数据资源进行检索,尽可能多的获取数据信息,对数据资源进行分级,将优质的资源提供给机器人工智能领域,进而提升机器智能的性能。
现有技术中通常依据数据资源的播放量对资源进行分级,然而不同资源类别、不同来源、不同业务需求对资源分级提出了更高的需求,仅仅依据播放量对资源进行分级已经无法满足各种设备搜索引擎的需求,使得无法为用户更准确快速的提供用户所需的资源,影响用户体验。
发明内容
本发明提供一种资源分级方法、装置、设备及存储介质,以更好的实现对资源的分级,可以满足各设备的搜索引擎的业务需求,在用户搜索资源时为更准确快速的为用户提供所需的资源,提高用户体验。
本发明的第一方面是提供一种资源分级方法,包括:
从已有数据库中获取待分级资源;
获取所述待分级资源的特征信息;
根据所述待分级资源的特征信息,确定所述待分级资源的等级标签,并将所述待分级资源的等级标签存储于所述数据库中。
本发明的第二方面是提供一种语义解析方法,所述方法包括:
获取待处理的文本信息;
若所述文本信息中包含任一资源名称,获取所述资源名称对应的资源的等级标签;
将所述文本信息和所述等级标签输入预先训练的意图分类模型,得到所述文本信息对应的意图信息。
本发明的第三方面是提供一种模型训练方法,所述方法包括:
获取训练数据和用于表征所述训练数据意图的第一训练标签;
若所述训练数据中包含任一资源名称,获取所述资源名称对应的资源的等级标签,并将所述等级标签确定为所述训练数据的第二训练标签;
根据所述训练数据、所述训练数据对应的第一训练标签和第二训练标签,对意图分类模型进行训练。
本发明的第四方面是提供一种资源分级装置,包括:
资源获取模块,用于从已有数据库中获取待分级资源;
特征信息获取模块,用于获取所述待分级资源的特征信息;
分级模块,用于根据所述待分级资源的特征信息,确定所述待分级资源的等级标签,并将所述待分级资源的等级标签存储于所述数据库中。
本发明的第五方面是提供一种语义解析装置,所述装置包括:
获取模块,用于获取待处理的文本信息;
处理模块,用于若所述文本信息中包含任一资源名称,获取所述资源名称对应的资源的等级标签;
意图分类模块,用于将所述文本信息和所述等级标签输入预先训练的意图分类模型,得到所述文本信息对应的意图信息。
本发明的第六方面是提供一种模型训练装置,所述装置包括:
获取模块,用于获取训练数据和用于表征所述训练数据意图的第一训练标签;
处理模块,用于若所述训练数据中包含任一资源名称,获取所述资源名称对应的资源的等级标签,并将所述等级标签确定为所述训练数据的第二训练标签;
训练模块,用于根据所述训练数据、所述训练数据对应的第一训练标签和第二训练标签,对意图分类模型进行训练。
本发明的第七方面是提供一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。
本发明的第八方面是提供一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第二方面所述的方法。
本发明的第九方面是提供一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第三方面所述的方法。
本发明的第十方面是提供一种计算机可读存储介质,其上存储有计算机程序;
所述计算机程序被处理器执行时实现如第一方面所述的方法。
本发明的第十一方面是提供一种计算机可读存储介质,其上存储有计算机程序;
所述计算机程序被处理器执行时实现如第二方面所述的方法。
本发明的第十二方面是提供一种计算机可读存储介质,其上存储有计算机程序;
所述计算机程序被处理器执行时实现如第三方面所述的方法。
本发明提供的资源分级方法、装置、设备及存储介质,通过从已有数据库中获取待分级资源;获取待分级资源的特征信息;根据待分级资源的特征信息,确定待分级资源的等级标签,并将待分级资源的等级标签存储于数据库中。本发明中通过对资源进行分级,从而可根据分级提供给不同的业务,从而可以满足接待服务型机器人、儿童陪伴性机器人、AI音箱等设备搜索引擎的业务需求,在用户搜索资源时为更准确快速的为用户提供所需的资源,提高用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的资源分级方法流程图;
图2为本发明另一实施例提供的资源分级方法流程图;
图3为本发明另一实施例提供的资源分级方法流程图;
图4为本发明实施例提供的语义解析方法流程图;
图5为本发明实施例提供的模型训练方法流程图;
图6为本发明实施例提供的资源分级装置的结构图;
图7为本发明实施例提供的语义解析装置的结构图;
图8为本发明实施例提供的模型训练装置的结构图;
图9为本发明实施例提供的电子设备的结构图;
图10为本发明另一实施例提供的电子设备的结构图;
图11为本发明另一实施例提供的电子设备的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的资源分级方法流程图。本实施例针提供了一种资源分级方法,该方法具体步骤如下:
S101、从已有数据库中获取待分级资源。
在本实施例中,已有数据库中的待分级资源可以为音频资源,其中音频资源可以包括音乐资源以及有声资源(如有声读物等),当然,资源也可以为视频资源、图片资源、或者文本资源等。
S102、获取所述待分级资源的特征信息。
在本实施例中,可通过搜索引擎获取数据库中每一待分级资源的特征信息,其中特征信息包括但不限于资源名称、热度信息(例如资源的播放量、点击量、收藏量等)、资源类别,还可包括资源来源、资源描述、资源图片、作者/歌手/艺术家、资源别名等。需要说明的是,数据库中资源的特征信息可从同一搜索引擎获取,当然也可分别从多个搜索引擎获取同一个资源的热度信息,若从多个搜索引擎获取同一个资源的热度信息,进一步还需要对这些热度信息进行处理(如取最大值,平均值,加权求平均等)后得到该资源对应的热度信息。
S103、根据所述待分级资源的特征信息,确定所述待分级资源的等级标签,并将所述待分级资源的等级标签存储于所述数据库中。
在本实施例中,可根据待分级资源的特征信息对待分级资源进行分级从而得到待分级资源的等级标签,并将待分级资源的等级标签存储于数据库中,当然也进一步的根据等级标签将相同等级的资源存储到一个资源集合中。
更具体的,本实施例中等级标签可包括:常用语资源等级、最优资源等级、优质资源等级、中间等级、劣质资源等级中的至少一种,以区分各资源的好坏,其中,常用语资源等级表示资源名称为常用语的资源;优质资源等级表示具有相同资源名称的资源中热度最高的资源;劣质资源等级表示具有资源名称属于领域关键词或相同资源名称的资源中热度较低的资源;中间等级表示具有相同资源名称的资源中热度相差不多的资源;最优资源等级表示资源名称不属于常用语、也不属于领域关键词、且资源名称与资源内容唯一对应的资源,不存在资源名称相同且资源内容不同的资源。基于本实施例中的分级,使用者(开发者)可更好的选择合适的资源进行使用,例如NLU(Natural Language Understanding,自然语言理解)技术开发者希望拿到比较好的资源应用到自己的业务中,则可选择最优资源等级或者优质资源等级的资源进行使用,也即根据等级标签从数据库中提取对应等级的资源形成资源集合进行使用;对于资源的优劣要求不高的场景,可选择最优资源等级或者优质资源等级的资源,也可选择中间等级的资源,需要通过二次询问或结合上下文信息等才可确定用户期望的资源;而对于常用语资源等级的资源,可用于判断用户交互信息(query)中哪些常用语是存在对应的资源(资源名称为常用语的资源),进而可通过其他方式(例如上下文、或者二次询问)确定用户是查询资源还是聊天;此外,资源标签还可用于对用户交互信息(query)文本进行意图领域分类,例如可判断文本中包含哪些资源名称,并获取资源名称对应的等级标签,然后输入到预先训练的分类模型中进行意图领域分类,其中等级标签与意图的强烈程度相关,如文本中包含优质资源等级的资源名称时,可明确的确定用户的意图领域,也即意图领域分类的准确度较高,而文本中包含劣质资源等级的资源名称时,则意图领域分类的准确度相对较低,文本中包含常用语资源等级的资源名称时可进一步根据上下文语境判断用户的意图领域。此外,对于常用语资源等级和劣质资源等级的资源,也可进行资源的转换、过滤等清洗过程,以便于资源的应用。当然本实施例中资源的等级可并不限于上述列举的等级。
本实施例提供的资源分级方法,通过从已有数据库中获取待分级资源;获取待分级资源的特征信息;根据待分级资源的特征信息,确定待分级资源的等级标签,并将待分级资源的等级标签存储于数据库中。本实施例中通过对资源进行分级,从而可根据分级提供给不同的业务,从而可以满足接待服务型机器人、儿童陪伴性机器人、AI音箱等设备搜索引擎的业务需求,在用户搜索资源时为更准确快速的为用户提供所需的资源,提高用户体验。
在上述实施例的基础上,所述待分级资源的特征信息包括所述待分级资源的资源名称;
所述等级标签包括:常用语资源等级、最优资源等级、优质资源等级、中间等级、劣质资源等级中的至少一种。
本发明实施例中,S103所述根据所述待分级资源的特征信息,确定所述待分级资源的等级标签,包括但不限于以下可能的实现方式:
方式一,本方式中基于预设的常用语语料库,确定所述待分级资源的等级标签,具体如图2所示,S103所述根据所述待分级资源的特征信息,确定所述待分级资源的等级标签,具体包括:
S201、对于每个待分级资源,在预设的常用语语料库中,统计包含所述待分级资源的资源名称的语料的数量。
在本实施例中,常用语语料库为包括人们沟通时使用频率较高的语料,比如“你好”、“今天天气怎么样”、“吃饭了吗”、“朋友”、“交个朋友吧”、“我们是朋友”等。由于资源名称可能与常用语相同,例如“我想”、“再见”、“国画”等,当用户交互过程中用户交互信息(query)中包含常用语时,可能存在无法确定是查询资源还是聊天的情况,需要通过其他方式进行判断(例如上下文、或者二次询问),因此需要根据对此类的资源进行筛选。本实施例中根据资源名称统计常用语语料库中包含资源名称的语料的数量,例如某一待分级资源的资源名称为“朋友”,“朋友”在上述举例的常用语语料库中的“朋友”、“交个朋友吧”、“我们是朋友”中出现3次,因此包含资源名称的语料的数量为3。
S202、根据统计得到的语料的数量,确定所述待分级资源的常用程度参数。
在本实施例中,可以直接以统计得到的语料的数量作为待分级资源的常用程度参数,当然也可对该数量进行归一化处理,将归一化处理结果作为常用程度参数,从而进一步执行下述的S203与第一预设阈值进行比较来确认该待分级资源的等级标签是否为常用语资源等级。
具体的,S202所述得到所述待分级资源的常用程度参数,可包括:
若包含所述待分级资源的资源名称的语料的数量小于或等于第二预设阈值,则将所述待分级资源的常用程度参数设置为0;
若包含所述待分级资源的资源名称的语料的数量大于所述第二预设阈值,则对包含所述待分级资源的资源名称的语料的数量进行归一化处理,得到所述待分级资源的常用程度参数。
在本实施例中,设置第二预设阈值,当包含待分级资源的资源名称的语料的数量小于或等于第二预设阈值时,说明该名称信息有很大可能不是常用语,因此将第二资源分级参数设置为0;然后再对包含待分级资源的资源名称的语料的数量大于第二预设阈值的资源的包含待分级资源的资源名称的语料的数量进行归一化处理,将归一化处理结果作为该资源的常用程度参数,从而可以划分出更好的梯度,便于进行资源分级,避免各资源包含待分级资源的资源名称的语料的数量数量级相差较大造成分级不准确,从而可以大大提高资源分级的准确度。
在一可能的实施例中,可根据如下公式对所述包含待分级资源的资源名称的语料的数量进行归一化处理:
Figure BDA0001958662180000081
其中,bg为包含待分级资源的资源名称的语料的数量大于所述第二预设阈值的资源中资源g的常用程度参数;ag为资源g的所述包含待分级资源的资源名称的语料的数量,m为包含待分级资源的资源名称的语料的数量大于所述第二预设阈值的资源的个数,g∈[1,m];
Figure BDA0001958662180000082
为包含待分级资源的资源名称的语料的数量大于所述第二预设阈值的资源中的最大的包含所述资源名称的语料数量;
Figure BDA0001958662180000083
为包含待分级资源的资源名称的语料的数量大于所述第二预设阈值的资源的最小包含所述资源名称的语料数量。
S203、若所述常用程度参数大于第一预设阈值,则确定所述资源名称对应的所述待分级资源的等级标签为常用语资源等级。
在本实施例中,通过将常用程度参数与第一预设阈值进行比较,若常用程度参数大于第一预设阈值,则确定该资源的资源名称为常用语,进而划分为常用语资源等级。在本实施例中,第一预设阈值可以为固定数值,当然也可根据不同的情况设置不同的数值。
进一步的,待分级资源的特征信息还包括所述待分级资源的资源类别,其中资源类别用于对数据库中的资源进行归类,例如可以包括古典音乐、摇滚音乐、民谣音乐等,也可以包括有声小说、相声、评书等,当然并不限于上述所列举的资源类别,当然每一资源类别还可包括更详细的类别。
进一步的,S202所述得到所述待分级资源的常用程度参数后,还可包括:
根据资源类别与第一预设阈值的对应关系,确定与所述待分级资源的资源类别对应的第一预设阈值。
在本实施例中,对于不同的资源类别,第一预设阈值不同,从而将不同资源类别中常用程度参数进行分别考虑,更符合实际的应用场景,提高常用语资源等级分级的准确性。本实施例中可预先配置资源类别与第一预设阈值的对应关系,进而可根据资源类别与第一预设阈值的对应关系确定与所述待分级资源的资源类别对应的第一预设阈值。
方式二,本方式中基于预设的领域关键词,确定所述待分级资源的等级标签,具体实施时,S103所述根据所述待分级资源的特征信息,确定所述待分级资源的等级标签,可包括:
若所述待分级资源的资源名称中包括至少一个预设的领域关键词,则确定所述待分级资源的等级标签为劣质资源等级。
在本实施例中,可以判断资源名称是否包括预设的领域关键词,具体的,判断资源名称作为一个词语是否包括预设的领域关键词,或者资源名称经过拆分后的每一个词语是否均包括预设的领域关键词,例如资源名称“古典音乐”与预设领域关键词“古典音乐”相同,再如资源名称“瑜伽音乐”经拆分后得到的“瑜伽”和“音乐”均属于预设领域关键词,在用户搜索“古典音乐”或“瑜伽音乐”时,无法确定是返回资源名称为“古典音乐”或“瑜伽音乐”的资源,还是返回对应领域中的资源,因此这类资源对于用户搜索造成了干扰,因此确定该种类型的待分级资源的等级标签为劣质资源等级。
方式三,所述资源的特征信息还包括所述待分级资源的热度信息;其中,热度信息可以为资源的播放量、点击量、收藏量等,当然也可为根据资源的播放量、点击量、收藏量等获取的热度参数,可用于表征资源的热度。本方式中基于所述待分级资源的热度信息,确定所述待分级资源的等级标签。具体如图3所示,S103所述根据所述待分级资源的特征信息,确定所述待分级资源的等级标签,可包括:
S301、获取所述数据库中资源名称相同但资源内容不同的待分级资源;
S302、根据待分级资源的热度信息确定所述待分级资源的等级标签。
在本实施例中,当数据库中的待分级资源存在名称信息相同但资源内容不同的情况时,则在用户根据名称信息请求资源时导致无法准确的为用户推荐资源,其中资源内容不同具体可以表现为资源类别不同,例如名称信息为“西游记”的资源,有资源类别为歌曲的资源、有资源类别为儿童故事的资源,当用户搜索“西游记”时若能确定用户期望的资源类别,则返回对应的资源,但很多情况无法确定用户期望的资源类别,故无法确定应该返回哪一资源,因此需要对数据库中名称信息相同但资源内容不同的这类资源进行分级。
本实施例中首先根据资源的名称信息从数据库中查找具有相同名称信息的资源,然后判断资源内容是否相同(具体可以为资源类别是否相同),从而获取数据库中名称信息相同但资源内容不同的待分级资源。进一步的,根据待分级资源的热度信息对待分级资源进行分级确定待分级资源的等级标签。
作为一种可能的实现方式,所述根据待分级资源的热度信息确定所述待分级资源的等级标签,包括:
若资源名称相同但资源内容不同的待分级资源有两个,则获取两个待分级资源的热度信息的第一差值;
若所述第一差值超过第三预设阈值,则确定两个待分级资源中热度信息高者的等级标签为优质资源等级,低者的等级标签为劣质资源等级;
若所述第一差值未超过第三预设阈值,则确定两个待分级资源的等级标签均为中间等级。
在本实施例中,当数据库中具有某一名称信息但资源内容不同的待分级资源只有两个时,此时可获取该两个待分级资源的热度信息,然后计算热度信息的第一差值,若第一差值超过第三预设阈值,则确定两个待分级资源中热度信息高者的等级标签为优质资源等级,低者的分级为劣质资源等级,也即两个资源的播放量等热度信息具有较大的差距,热度信息较大的资源为较为优质的资源,当用户根据名称信息请求资源时可返回该资源,更容易命中用户期望的资源;若第一差值未超过第三预设阈值,确定两个待分级资源分级均为中间等级,也即两个的播放量等热度信息差距不大,当用户根据名称信息请求资源时无法直接确定返回哪一资源,因此可进行二次询问或根据上下文信息,确定用户期望的资源。
本发明实施例中不对第三预设阈值进行限定,可根据实际需求或应用场景进行配置,例如,第三预设阈值设置为0.3。
作为另一种可能的实现方式,所述根据待分级资源的热度信息确定所述待分级资源的等级标签,包括:
若资源名称相同但资源内容不同的待分级资源有至少三个,按热度信息由高到低,对该些待分级资源进行排序,确定排序在前两位的待分级资源的热度信息的第二差值;
若所述第二差值超过第三预设阈值,则确定热度信息较高的待分级资源的等级标签为优质资源等级,除热度信息较高的待分级资源外的其余待分级资源的等级标签均为中间等级;
若所述第二差值未超过第三预设阈值,则确定各待分级资源的等级标签均为中间等级。
在本实施例中,当数据库中具有某一名称信息但资源内容不同的待分级资源有至少三个时,在获取各待分级资源的热度信息后,根据热度信息由高到低对待分级资源进行排序获取热度信息排序前两个的待分级资源(也即热度信息最高的资源和第二高的资源)的热度信息的第二差值,若第二差值超过第三预设阈值,则确定热度信息较高的待分级资源(也即热度信息最高的资源)的等级标签为优质资源等级,而除热度信息最高的待分级资源外的其余待分级资源相对于热度信息最高待分级资源,热度信息则相差不多,因此该些待分级资源的等级标签均为中间等级,可进行二次询问或根据上下文信息,确定用户期望的资源;若第二差值未超过第三预设阈值,则说明数据库中具有某一名称信息但资源内容不同的待分级资源各资源间的热度信息差距不大,因此确定各待分级资源的等级标签均为中间等级,当用户根据名称信息请求资源时无法直接确定返回哪一资源,因此可进行二次询问或根据上下文信息,确定用户期望的资源。
在上述实施例的基础上,本实施例中,待分级资源的热度信息可以为热度参数,根据资源的播放量、点击量、收藏量等获取,本实施例中以播放量为例,根据数据库中所有资源的播放量对每一资源的播放量进行归一化,得到每一资源的热度参数,具体的,可包括:
根据所述数据库中所有资源按照播放量由高到低进行排序;将排序在前第一百分比的资源的热度参数设置为1,将排序在最后第二百分比的资源的热度参数设置为0;对所述数据库中除热度参数被设置为1和0的资源外的其余资源,将所述其余资源的播放量进行归一化处理,获取热度参数。
在本实施例中,通过统计发现,在对资源根据播放量等热度信息由高到低进行排序后排序在前第一百分比的资源为用户比较关注的资源,而排序在最后第二百分比的资源为用户关注不多的资源,因此在归一化时将排序在前第一百分比的资源的热度参数设置为1,将排序在最后第二百分比的资源的热度参数设置为0对于用户比较关注的资源和用户关注不多的资源可较准确的进行分级,而对于关注度介于中间的资源可以划分出更好的梯度,便于进行资源分级,避免不同关注度的资源的播放量等热度信息数量级相差较大造成分级不准确,从而可以大大提高资源分级的准确度,同时也能够简化热度参数的计算,节约系统资源。
本发明实施例中不对第一百分比和第二百分比的值进行限定,可根据实际需求或应用场景进行配置,例如,第一百分比配置为1%,第二百分比配置为20%。
更具体的,根据如下公式对所述其余资源的热度信息进行归一化处理:
Figure BDA0001958662180000121
其中,yi为除热度参数被设置为1和0的资源外的其余资源中资源i的热度参数;xi为该资源i的热度信息数值,n为所述其余资源的个数,i∈[1,n];
Figure BDA0001958662180000122
为所述其余资源的热度信息数值中的最大热度信息数值;
Figure BDA0001958662180000123
为其余资源的热度信息数值中的最小热度信息数值。
基于上述任一实施例,S103所述根据所述待分级资源的特征信息,确定所述待分级资源的等级标签,可包括:
从所述待分级资源中,筛选出等级标签不为常用语资源等级、优质资源等级、中间等级、且劣质资源等级的待分级资源;
确定筛选出的待分级资源的等级标签为最优资源等级。
在本实施例中,对于不属于上述各可选实施例中的常用语资源等级、优质资源等级、中间等级、且劣质资源等级的待分级资源,也即资源名称不属于常用语、且资源名称不属于领域关键词、且不存在资源名称相同但资源内容不同资源,划为最优资源等级,用户根据资源名称进行搜索时,可直接得到该资源名称对应的唯一的资源,可准确命中用户的期望。
需要说明的是,上述各可选实施例可以以任一的策略进行组合或排序,优选的,可首先进行S201-S203的流程,进行常用语资源等级资源的筛选,然后对筛选剩余的资源进行资源名称是否包括预设的领域关键词的判断,进一步的再进行S301-S302的筛选,将最终筛选剩余的资源划分为最优资源等级,从而完成对数据库中待分级资源的等级划分。
在上述实施例的基础上,S102所述获取所述待分级资源的特征信息后,还包括:
对从第三方服务器或搜索引擎获取到的资源的原资源名称进行清洗,并将清洗后得到的结果作为所述资源的名称信息。
在本实施例中,对从第三方服务器或搜索引擎获取到资源,资源的原资源名称会带有很多无效字符,因此需要对原资源名称进行清洗,去除多余空格、表情符号、标点符号、特殊符号、中文繁体转简体等;同时需要去除原资源名称中无意义的词语,例如“求打赏”、“支持”、“订阅”等,其中无意义的词语可预先定义在停用词表中,根据停用词表对原资源名称进行清洗,上述实施例中的资源名称均可采用经过清洗的资源名称,从而可避免无意义的词语对资源推荐、资源分级产生的影响,提高资源推荐、资源分级的准确度和处理效率。
图4本发明的实施例提供语义解析方法流程图。本实施例提供了一种语义解析方法,该方法具体步骤如下:
S401、获取待处理的文本信息;
在本实施例中,待处理的文本信息可以为用户与服务型机器人、儿童陪伴性机器人、AI音箱等电子设备进行交互时的交互文本信息,该交互文本可以为用户通过键盘或触摸屏幕输入的文本,也可以为用户通过语音与上述电子设备进行交互时,将电子设备采集到的语音转换成的文本。
S402、若所述文本信息中包含任一资源名称,获取所述资源名称对应的资源的等级标签。
在本实施例中,基于数据库中资源的资源名称,对文本信息进行处理,识别文本信息中所包含的资源名称,获取资源名称对应的等级标签,其中等级标签如上述实施例所述,可包括常用语资源等级、最优资源等级、优质资源等级、中间等级、劣质资源等级中的至少一种。当然也可不限于上述实施例所述的等级标签。
S403、将所述文本信息和所述等级标签输入预先训练的意图分类模型,得到所述文本信息对应的意图信息。
在本实施例中,在获取了文本信息包含的资源名称对应的等级标签后,将文本信息和等级标签输入到预先训练的意图分类模型中,得到文本信息对应的意图信息,其中等级标签会影响意图信息结果的准确度(或可信度),提高意图信息结果的准确度。本实施例中,意图分类模型可根据等级标签的种类以及个数等信息输出意图信息结果的概率,用以表示意图分类的可信度,例如等级标签为最优资源等级或优质资源等级,则可信度更高,例如对于文本信息“我想听刘德华的忘情水”,其中包含资源名称“忘情水”,而数据库中资源“忘情书”对应的等级标签为优质资源等级,当对文本信息和等级标签通过意图分类模型识别,可得到意图信息为“音乐领域”,并给出较高的概率。本实施例中意图分类过程中对于文本信息考虑到更多的特征,相较于现有技术中仅通过文本信息获取意图信息,所得到的意图信息结果更为准确。需要说明的是,本实施例中对于意图分类模型的输入也可并不仅限于文本信息和等级标签,还可包括文本信息所包含的资源名称、以及对应的资源的其他特征信息等。
图5本发明的实施例提供模型训练方法流程图。本实施例针提供了一种模型训练方法,该方法具体步骤如下:
S501、获取训练数据和用于表征所述训练数据意图的第一训练标签;
S502、若所述训练数据中包含任一资源名称,获取所述资源名称对应的资源的等级标签,并将所述等级标签确定为所述训练数据的第二训练标签;
S503、根据所述训练数据、所述训练数据对应的第一训练标签和第二训练标签,对意图分类模型进行训练。
本实施例提供了上述实施例中意图分类模型的训练过程,首先需要获取训练数据,其中训练数据可以为历史文本信息,且该训练数据表示有第一训练标签和第二训练标签,其中第一训练标签用于表征该训练数据的意图领域,第二训练标签为训练数据所包含的资源名称对应的等级标签;然后构建意图分类模型,其中意图分类模型可以为现有的机器学习模型,模型输入可以包括训练数据及训练数据的第二训练标签,模型输出可以包括训练数据的意图信息以及概率,并根据训练数据的第一训练标签对模型进行测试和优化,以使文本信息对应的等级标签与意图识别结果进行关联,提高意图识别的准确度。其中意图分类模型的训练过程此处不再详细赘述。需要说明的是,本实施例中对于意图分类模型的输入还可包括训练数据所包含的资源名称、以及对应的资源的其他特征信息等。
图6为本发明实施例提供的资源分级装置的结构图。本实施例提供的资源分级装置可以执行资源分级方法实施例提供的处理流程,如图6所示,资源分级装置60包括资源获取模块61、特征信息获取模块62以及分级模块63。
资源获取模块61,用于从已有数据库中获取待分级资源;
特征信息获取模块62,用于获取所述待分级资源的特征信息;
分级模块63,用于根据所述待分级资源的特征信息,确定所述待分级资源的等级标签,并将所述待分级资源的等级标签存储于所述数据库中。
进一步的,所述待分级资源的特征信息包括所述待分级资源的资源名称;
所述等级标签包括:常用语资源等级、最优资源等级、优质资源等级、中间等级、劣质资源等级中的至少一种。
可选的,所述分级模块63用于:
对于每个待分级资源,在预设的常用语语料库中,统计包含所述待分级资源的资源名称的语料的数量;
根据统计得到的语料的数量,确定所述待分级资源的常用程度参数;
若所述常用程度参数大于第一预设阈值,则确定所述资源名称对应的所述待分级资源的等级标签为常用语资源等级。
进一步的,所述分级模块63还用于:根据资源类别与第一预设阈值的对应关系,确定与所述待分级资源的资源类别对应的第一预设阈值。
进一步的,所述分级模块63具体用于:
若包含所述待分级资源的资源名称的语料的数量小于或等于第二预设阈值,则将所述待分级资源的常用程度参数设置为0;
若包含所述待分级资源的资源名称的语料的数量大于所述第二预设阈值,则对包含所述待分级资源的资源名称的语料的数量进行归一化处理,得到所述待分级资源的常用程度参数。
可选的,所述分级模块63用于:
若所述待分级资源的资源名称中包括至少一个预设的领域关键词,则确定所述待分级资源的等级标签为劣质资源等级。
进一步的,所述资源的特征信息还包括所述待分级资源的热度信息;
可选的,所述分级模块63用于:
获取所述数据库中资源名称相同但资源内容不同的待分级资源;
根据待分级资源的热度信息确定所述待分级资源的等级标签。
可选的,所述分级模块63具体用于:
若资源名称相同但资源内容不同的待分级资源有两个,则获取两个待分级资源的热度信息的第一差值;
若所述第一差值超过第三预设阈值,则确定两个待分级资源中热度信息高者的等级标签为优质资源等级,低者的等级标签为劣质资源等级;
若所述第一差值未超过第三预设阈值,则确定两个待分级资源的等级标签均为中间等级。
可选的,所述分级模块63具体用于:
若资源名称相同但资源内容不同的待分级资源有至少三个,按热度信息由高到低,对该些待分级资源进行排序,确定排序前两位的待分级资源的热度信息的第二差值;
若所述第二差值超过第三预设阈值,则确定热度信息较高的待分级资源的等级标签为优质资源等级,除热度信息较高的待分级资源外的其余待分级资源的等级标签均为中间等级;
若所述第二差值未超过第三预设阈值,则确定各待分级资源的等级标签均为中间等级。
可选的,所述分级模块63用于:
从所述待分级资源中,筛选出等级标签不为常用语资源等级、优质资源等级、中间等级、且劣质资源等级的待分级资源;
确定筛选出的待分级资源的等级标签为最优资源等级。
在上述实施例的基础上,所述特征信息获取模块62还用于:
对从第三方服务器或搜索引擎获取到的资源的原资源名称进行清洗,并将清洗后得到的结果作为所述资源的名称信息。
本发明实施例提供的资源分级装置可以具体用于执行上述图1至图3所提供的任一方法实施例,具体功能此处不再赘述。
本发明实施例提供的资源分级装置,通过从已有数据库中获取待分级资源;获取待分级资源的特征信息;根据待分级资源的特征信息,确定待分级资源的等级标签,并将待分级资源的等级标签存储于数据库中。本实施例中通过对资源进行分级,从而可根据分级提供给不同的业务,从而可以满足接待服务型机器人、儿童陪伴性机器人、AI音箱等设备搜索引擎的业务需求,在用户搜索资源时为更准确快速的为用户提供所需的资源,提高用户体验。
图7为本发明实施例提供的语义解析装置的结构图。本实施例提供的语义解析装置可以执行语义解析方法实施例提供的处理流程,如图7所示,语义解析装置70包括获取模块71、处理模块72及意图分类模块73。
获取模块71,用于获取待处理的文本信息;
处理模块72,用于若所述文本信息中包含任一资源名称,获取所述资源名称对应的资源的等级标签;
意图分类模块73,用于将所述文本信息和所述等级标签输入预先训练的意图分类模型,得到所述文本信息对应的意图信息。
本发明实施例提供的语义解析装置可以具体用于执行上述图4所提供的方法实施例,具体功能此处不再赘述。
图8为本发明实施例提供的模型训练装置的结构图。本实施例提供的模型训练装置可以执行模型训练方法实施例提供的处理流程,如图7所示,模型训练装置80包括获取模块81、处理模块82及训练模块83。
获取模块81,用于获取训练数据和用于表征所述训练数据意图的第一训练标签;
处理模块82,用于若所述训练数据中包含任一资源名称,获取所述资源名称对应的资源的等级标签,并将所述等级标签确定为所述训练数据的第二训练标签;
训练模块83,用于根据所述训练数据、所述训练数据对应的第一训练标签和第二训练标签,对意图分类模型进行训练。
本发明实施例提供的模型训练装置可以具体用于执行上述图5所提供的方法实施例,具体功能此处不再赘述。
图9为本发明实施例提供的电子设备的结构示意图。本发明实施例提供的电子设备可以执行资源分级方法实施例提供的处理流程,如图9所示,电子设备90包括存储器91、处理器92、计算机程序和通讯接口93;其中,计算机程序存储在存储器91中,并被配置为由处理器92执行以上实施例所述的资源分级方法。
图9所示实施例的电子设备可用于执行上述资源分级方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图10为本发明实施例提供的电子设备的结构示意图。本发明实施例提供的电子设备可以执行语义解析方法实施例提供的处理流程,如图10所示,电子设备1000包括存储器1001、处理器1002、计算机程序和通讯接口1003;其中,计算机程序存储在存储器1001中,并被配置为由处理器1002执行以上实施例所述的语义解析方法。
图10所示实施例的电子设备可用于执行上述语义解析方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图11为本发明实施例提供的电子设备的结构示意图。本发明实施例提供的电子设备可以执行模型训练方法实施例提供的处理流程,如图11所示,电子设备1100包括存储器1101、处理器1102、计算机程序和通讯接口1103;其中,计算机程序存储在存储器1101中,并被配置为由处理器1102执行以上实施例所述的模型训练方法。
图11所示实施例的电子设备可用于执行上述模型训练方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
另外,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的资源分级方法。
另外,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的语义解析方法。
另外,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的模型训练方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种资源分级方法,其特征在于,包括:
从已有数据库中获取待分级资源;
获取所述待分级资源的特征信息;
根据所述待分级资源的特征信息,确定所述待分级资源的等级标签,并将所述待分级资源的等级标签存储于所述数据库中。
2.根据权利要求1所述的方法,其特征在于,
所述等级标签包括:常用语资源等级、最优资源等级、优质资源等级、中间等级、劣质资源等级中的至少一种。
3.根据权利要求2所述的方法,其特征在于,所述根据所述待分级资源的特征信息,确定所述待分级资源的等级标签,包括:
对于每个待分级资源,在预设的常用语语料库中,统计包含所述待分级资源的资源名称的语料的数量;
根据统计得到的语料的数量,确定所述待分级资源的常用程度参数;
若所述常用程度参数大于第一预设阈值,则确定所述资源名称对应的所述待分级资源的等级标签为常用语资源等级。
4.根据权利要求3所述的方法,其特征在于,所述待分级资源的特征信息还包括所述待分级资源的资源类别;所述得到所述待分级资源的常用程度参数后,还包括:
根据资源类别与第一预设阈值的对应关系,确定与所述待分级资源的资源类别对应的第一预设阈值。
5.根据权利要求3所述的方法,其特征在于,所述得到所述待分级资源的常用程度参数,包括:
若包含所述待分级资源的资源名称的语料的数量小于或等于第二预设阈值,则将所述待分级资源的常用程度参数设置为0;
若包含所述待分级资源的资源名称的语料的数量大于所述第二预设阈值,则对包含所述待分级资源的资源名称的语料的数量进行归一化处理,得到所述待分级资源的常用程度参数。
6.根据权利要求2所述的方法,其特征在于,所述根据所述待分级资源的特征信息,确定所述待分级资源的等级标签,包括:
若所述待分级资源的资源名称中包括至少一个预设的领域关键词,则确定所述待分级资源的等级标签为劣质资源等级。
7.根据权利要求2所述的方法,其特征在于,所述资源的特征信息还包括所述待分级资源的热度信息;所述根据所述待分级资源的特征信息,确定所述待分级资源的等级标签,包括:
获取所述数据库中资源名称相同但资源内容不同的待分级资源;
根据待分级资源的热度信息确定所述待分级资源的等级标签。
8.根据权利要求7所述的方法,其特征在于,所述根据待分级资源的热度信息确定所述待分级资源的等级标签,包括:
若资源名称相同但资源内容不同的待分级资源有两个,则获取两个待分级资源的热度信息的第一差值;
若所述第一差值超过第三预设阈值,则确定两个待分级资源中热度信息高者的等级标签为优质资源等级,低者的等级标签为劣质资源等级;
若所述第一差值未超过第三预设阈值,则确定两个待分级资源的等级标签均为中间等级。
9.根据权利要求7所述的方法,其特征在于,所述根据待分级资源的热度信息确定所述待分级资源的等级标签,包括:
若资源名称相同但资源内容不同的待分级资源有至少三个,按热度信息由高到低,对该些待分级资源进行排序,确定排序在前两位的待分级资源的热度信息的第二差值;
若所述第二差值超过第三预设阈值,则确定热度信息较高的待分级资源的等级标签为优质资源等级,除热度信息较高的待分级资源外的其余待分级资源的等级标签均为中间等级;
若所述第二差值未超过第三预设阈值,则确定各待分级资源的等级标签均为中间等级。
10.根据权利要求2所述的方法,其特征在于,所述根据所述待分级资源的特征信息,确定所述待分级资源的等级标签,包括:
从所述待分级资源中,筛选出等级标签不为常用语资源等级、优质资源等级、中间等级、且劣质资源等级的待分级资源;
确定筛选出的待分级资源的等级标签为最优资源等级。
CN201910075690.XA 2019-01-25 2019-01-25 资源分级方法、装置、设备及存储介质 Active CN111488453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910075690.XA CN111488453B (zh) 2019-01-25 2019-01-25 资源分级方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910075690.XA CN111488453B (zh) 2019-01-25 2019-01-25 资源分级方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111488453A true CN111488453A (zh) 2020-08-04
CN111488453B CN111488453B (zh) 2024-02-23

Family

ID=71793915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910075690.XA Active CN111488453B (zh) 2019-01-25 2019-01-25 资源分级方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111488453B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100454A (zh) * 2020-08-17 2020-12-18 百度在线网络技术(北京)有限公司 搜索方法、装置、电子设备和可读存储介质
CN112671901A (zh) * 2020-12-23 2021-04-16 深圳市名图信息技术有限公司 一种基于大数据采集分析的资源信息服务平台
CN113420213A (zh) * 2021-06-23 2021-09-21 洪恩完美(北京)教育科技发展有限公司 儿童英语绘本的阅读推荐方法、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100228693A1 (en) * 2009-03-06 2010-09-09 phiScape AG Method and system for generating a document representation
WO2018049960A1 (zh) * 2016-09-14 2018-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
CN108256119A (zh) * 2018-02-14 2018-07-06 北京方正阿帕比技术有限公司 一种资源推荐模型的构建方法及基于该模型的资源推荐方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100228693A1 (en) * 2009-03-06 2010-09-09 phiScape AG Method and system for generating a document representation
WO2018049960A1 (zh) * 2016-09-14 2018-03-22 厦门幻世网络科技有限公司 一种为文本信息匹配资源的方法及装置
CN108256119A (zh) * 2018-02-14 2018-07-06 北京方正阿帕比技术有限公司 一种资源推荐模型的构建方法及基于该模型的资源推荐方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张伟;: "基于语义Web页面多媒体资源库的设计与实现" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112100454A (zh) * 2020-08-17 2020-12-18 百度在线网络技术(北京)有限公司 搜索方法、装置、电子设备和可读存储介质
CN112671901A (zh) * 2020-12-23 2021-04-16 深圳市名图信息技术有限公司 一种基于大数据采集分析的资源信息服务平台
CN113420213A (zh) * 2021-06-23 2021-09-21 洪恩完美(北京)教育科技发展有限公司 儿童英语绘本的阅读推荐方法、设备及存储介质

Also Published As

Publication number Publication date
CN111488453B (zh) 2024-02-23

Similar Documents

Publication Publication Date Title
CN111753060B (zh) 信息检索方法、装置、设备及计算机可读存储介质
US9589208B2 (en) Retrieval of similar images to a query image
US10366093B2 (en) Query result bottom retrieval method and apparatus
EP2438539B1 (en) Co-selected image classification
US8335787B2 (en) Topic word generation method and system
US20080168056A1 (en) On-line iterative multistage search engine with text categorization and supervised learning
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN106940726B (zh) 一种基于知识网络的创意自动生成方法与终端
WO2008022581A1 (fr) Procédé et dispositif d'obtention de mots nouveaux et système et procédé de saisie
CN110083837B (zh) 一种关键词生成方法及装置
CN111488453A (zh) 资源分级方法、装置、设备及存储介质
CN111557000B (zh) 针对媒体的准确性确定
KR100954842B1 (ko) 카테고리 태그 정보를 이용한 웹 페이지 분류 방법, 그 시스템 및 이를 기록한 기록매체
Ransom et al. Facets of user‐assigned tags and their effectiveness in image retrieval
CN112749272A (zh) 面向非结构化数据的新能源规划性文本智能推荐方法
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
CN112307336A (zh) 热点资讯挖掘与预览方法、装置、计算机设备及存储介质
Wei et al. Online education recommendation model based on user behavior data analysis
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
JP2013168177A (ja) 情報提供プログラム、情報提供装置および検索サービスの提供方法
CN116882414A (zh) 基于大规模语言模型的评语自动生成方法及相关装置
JP5315726B2 (ja) 情報提供方法、情報提供装置、および情報提供プログラム
Naveed et al. Feature sentiment diversification of user generated reviews: the FREuD approach
CN111931480B (zh) 文本主要内容的确定方法、装置、存储介质及计算机设备
CN115114425A (zh) 文本推送方法、装置、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant