CN108932244B - 信息识别方法及装置 - Google Patents

信息识别方法及装置 Download PDF

Info

Publication number
CN108932244B
CN108932244B CN201710373850.XA CN201710373850A CN108932244B CN 108932244 B CN108932244 B CN 108932244B CN 201710373850 A CN201710373850 A CN 201710373850A CN 108932244 B CN108932244 B CN 108932244B
Authority
CN
China
Prior art keywords
query information
information
determining
resources
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710373850.XA
Other languages
English (en)
Other versions
CN108932244A (zh
Inventor
司竹月
王志勇
刘尚堃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN201710373850.XA priority Critical patent/CN108932244B/zh
Publication of CN108932244A publication Critical patent/CN108932244A/zh
Application granted granted Critical
Publication of CN108932244B publication Critical patent/CN108932244B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种信息识别方法及装置。该方法包括:针对用户输入的查询信息进行特征抽取,确定查询信息的特征;基于查询信息的特征以及学习模型,确定查询信息针对第一类别集合的资源的第一出现概率;在第一出现概率大于或等于第一阈值的情况下,识别查询信息为第一类别查询信息,其中,确定查询信息的特征包括以下操作中的一种或多种:确定出现概率特征、确定热度特征、确定一致性特征、确定属性特征。根据本公开的实施例,能通过抽取查询信息特征,确定查询信息针对第一类别集合的资源的第一出现概率,并在第一出现概率大于或等于第一阈值的情况下,识别查询信息为第一类别查询信息,从而快速识别用户输入的查询信息。

Description

信息识别方法及装置
技术领域
本公开涉及计算机技术领域,尤其涉及一种信息识别方法及装置。
背景技术
随着网络的不断普及,人们越来越多地通过网络来查询信息。针对用户输入的查询信息,在相关技术中一般基于一定时间内多个用户输入某查询信息的频率来识别查询信息是否是热点信息,需要时间来累积用户行为,因此,识别的时效性上往往有延迟。并且,当一个实时性查询信息的查询量一直较少、查询量累积不足时,无法识别该查询信息的时效性及火热程度,从而无法给用户返回所需结果。
发明内容
有鉴于此,本公开提出了一种信息识别方法及装置,能够快速地识别用户输入的查询信息。
根据本公开的一方面,提供了一种信息识别方法,包括:
针对用户输入的查询信息进行特征抽取,确定所述查询信息的特征;
基于所述查询信息的特征以及学习模型,确定所述查询信息针对第一类别集合的资源的第一出现概率;在所述第一出现概率大于或等于第一阈值的情况下,识别所述查询信息为第一类别查询信息,
其中,确定所述查询信息的特征包括以下操作中的一种或多种:确定出现概率特征、确定热度特征、确定一致性特征,以及确定属性特征。
根据本公开的另一方面,提供了一种信息识别装置,包括:
特征抽取模块,用于针对用户输入的查询信息进行特征抽取,确定所述查询信息的特征;查询信息概率获取模块,用于基于所述查询信息的特征以及学习模型,确定所述查询信息针对第一类别集合的资源的第一出现概率;信息识别模块,用于在所述第一出现概率大于或等于第一阈值的情况下,识别所述查询信息为第一类别查询信息,
其中,所述特征抽取模块包括以下子模块中的一个或多个:第一特征确定子模块,用于确定出现概率特征;第二特征确定子模块,用于确定热度特征;第三特征确定子模块,用于确定一致性特征;以及第四特征确定子模块,用于确定属性特征。
根据本公开的另一方面,提供了一种信息识别装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为执行上述方法。
根据本公开的另一方面,提供了一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其中,所述计算机程序指令被处理器执行时实现上述方法。
根据本公开实施例的信息识别方法及装置,能够通过对用户输入的查询信息进行特征抽取,并通过查询信息的特征以及学习模型确定查询信息针对第一类别集合的资源的出现概率,并在出现概率大于或等于阈值时识别查询信息为第一类别查询信息,从而快速、准确识别用户输入的查询信息。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1是根据一示例性实施例示出的一种信息识别方法的流程图。
图2是根据一示例性实施例示出的一种信息识别方法的流程图。
图3是根据一示例性实施例示出的一种信息识别方法的步骤S111的流程图。
图4是根据一示例性实施例示出的一种信息识别方法的步骤S112的流程图。
图5是根据一示例性实施例示出的一种信息识别方法的步骤S113的流程图。
图6是根据一示例性实施例示出的一种信息识别方法的流程图。
图7是根据一示例性实施例示出的一种信息识别方法的应用示例的示意图。
图8是根据一示例性实施例示出的一种信息识别装置的框图。
图9是根据一示例性实施例示出的一种信息识别装置的框图。
图10是根据一示例性实施例示出的一种信息识别装置的框图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
实施例1
图1、图2是根据一示例性实施例示出的一种信息识别方法的流程图。该方法可应用于服务器中。如图1、图2所示,根据本公开实施例的信息识别方法包括:
步骤S11,针对用户输入的查询信息进行特征抽取,确定所述查询信息的特征;
步骤S12,基于所述查询信息的特征以及学习模型,确定所述查询信息针对第一类别集合的资源的第一出现概率;
步骤S13,在所述第一出现概率大于或等于第一阈值的情况下,识别所述查询信息为第一类别查询信息,其中,步骤S11包括以下操作中的一种或多种:
步骤S111,确定出现概率特征;
步骤S112,确定热度特征;
步骤S113,确定一致性特征;
步骤S114,确定属性特征。
根据本公开实施例能够通过针对用户输入的查询信息进行特征抽取,基于查询信息的特征以及学习模型确定查询信息针对第一类别集合的资源的出现概率,并在出现概率大于等于阈值的情况下识别查询信息为第一类别查询信息,从而可以快速、准确的识别用户输入的查询信息。
举例来说,针对用户输入的查询信息(例如查询词query),可以进行实时特征抽取,并确定查询信息的特征,包括确定查询信息的出现概率特征、热度特征、一致性特征、属性特征中的一维或多维特征。例如,用户输入的查询信息为“XX离婚事件”,可以针对用户输入“XX离婚事件”进行实时特征抽取,从而确定“XX离婚事件”这一查询信息的特征。可以同时就“XX离婚事件”的出现概率特征、热度特征、一致性特征、属性特征进行多维特征抽取,也可以针对“XX离婚事件”的出现概率特征、热度特征、一致性特征、属性特征中的一种或多种特征进行一维或多维特征抽取,所述多维特征抽取是指针对一种特征进行多次特征抽取,例如,针对所述查询信息的出现概率特征抽取,可以分别就几个不同的时间区间进行查询信息的出现概率特征抽取,从而确定出所述查询信息的多维出现概率特征。
本领域技术人员应理解,针对用户输入的查询信息进行特征抽取,其中,抽取并确定的查询信息特征种数越多、针对每种查询信息特征进行抽取的维数越多,则对所述查询信息的识别就越准确,在综合考虑特征抽取时间成本、特征抽取经济成本以及识别准确度的情况下,本领域技术人员可就查询信息特征抽取的种数及其维数进行设置,本公开对此不做限制。
在一种可能的实现方式中,在确定出所述查询信息的特征的情况下,基于所述查询信息的特征以及学习模型,可以确定所述查询信息针对第一类别集合的资源的第一出现概率。举例来说,就用户输入的查询信息“XX离婚事件”已经实时抽取了其出现概率特征、热度特征、一致性特征、属性特征等多维特征,基于学习模型,从而确定查询信息“XX离婚事件”针对第一类别集合的资源的第一出现概率。其中,第一类别集合的资源可以是指定类别的资源,例如,第一类别集合的资源可以是新闻类视频资源。
需要说明的是,所述学习模型可以通过机器学习方式训练得到,所述机器学习是指用某种算法(例如xgboost等)指导终端设备(例如计算机、服务器等)利用已知数据(例如特征数据)得出适当的模型,并利用此模型对新的数据给出判断的过程。本领域技术人员应理解,可通过多种方式训练学习模型,只要所述学习模型能够在基于所述查询信息的特征的情况下,可以确定所述查询信息针对第一类别集合的资源的第一出现概率即可,本公开对学习模型的训练算法及方式不做限制。
在一种可能的实现方式中,在所述第一出现概率大于或等于第一阈值的情况下,则可以识别所述查询信息为第一类别查询信息,其中第一阈值可以为预先设定的出现概率阈值,取值范围可以为0-1,例如,0.62。举例来说,当基于抽取的查询信息特征和学习模型,确定出所述查询信息“XX离婚事件”针对第一类别集合的资源的第一出现概率为0.8时,则可以确定所述查询信息“XX离婚事件”为第一类别查询信息。本公开对第一阈值的具体取值不做限制。
通过这种方式,对查询信息的识别不再依赖于累积用户行为,通过查询信息的特征以及学习模型,确定所述查询信息为特定类别的查询信息的出现概率,即可快速、准确、实时地判断用户输入的查询信息是否为特定类别的查询信息,从而更准确地为用户提供相关查询结果。以新闻类查询信息为例,根据本公开实施例,可以实时快速识别用户输入的查询信息是否为新闻类查询词,并将相匹配的最新、最热的新闻消息或新闻类视频等查询结果推荐给用户。
图3是根据一示例性实施例示出的一种信息识别方法的步骤S111的流程图。如图3所示,在一种可能的实现方式中,步骤S111包括:
步骤S1111,将所述查询信息分解为一个或多个基本信息;
步骤S1112,基于所述基本信息针对所有资源的第二出现概率、所述基本信息针对第一类别集合的资源的第三出现概率、以及第一类别集合的资源针对所有资源的第四出现概率,获取所述查询信息针对第一类别集合的资源的第五出现概率;
步骤S1113,将所述第五出现概率确定为所述查询信息的出现概率特征。
举例来说,针对用户输入的查询信息,可以对查询信息进行切词,将查询信息分解为一个或多个基本信息(例如原子词)。例如,用户输入的查询信息为“XX离婚事件”,其中XX可以是人名,可以将其分解为“XX”“离婚”“事件”这三个基本信息。这样,查询信息x可以表示为:
x=w1+w2+…+wk+…+wn-1+wn (1)
其中,x表示用户输入的查询信息,n表示组成查询信息x的基本信息的数量,wk表示组成查询信息x的第k个基本信息,k的取值为1-n之间的自然数。对于公式(1)中的查询信息x,可以计算查询信息x针对第一类别集合的资源的出现概率(第五出现概率)。
现以第一类别集合的资源是新闻类视频资源为例进行说明,第一类别集合可以表示为集合N,所有资源的集合可以表示为集合V,则有集合N∈集合V。
在一种可能的实现方式中,可以设定参数y,如果查询信息x是第一类别查询信息,则y取值为1;如果查询信息x不是第一类别查询信息,则y取值为0。因此,查询信息x是第一类别查询信息的概率(也即,查询信息x针对第一类别集合的资源的出现概率)可以表示为p(y=1|x)。利用条件概率公式,可以通过对p(x|y=1)进行建模,间接计算出p(y=1|x),如公式(2)所示。
Figure BDA0001303485690000051
在公式(2)中,p(x|y=1)可以表示y为真(等于1)的x的概率,p(y=1)可以表示第一类别集合的资源在所有资源(所有资源的集合可以表示为集合V)中的出现概率(也即,第一类别集合的资源针对所有资源的第四出现概率),p(x)可以表示查询信息x针对所有资源的出现概率。可以利用贝叶斯公式计算得到
Figure BDA0001303485690000061
如公式(3)所示:
Figure BDA0001303485690000062
在一种可能的实现方式中,根据属性条件独立假设,可以认为不同的基本信息对查询信息的归类影响是相互独立的,不相互影响,这将用于近似对
Figure BDA0001303485690000063
进行建模。这样,将公式(2)与(3)结合,可以得到公式(4):
Figure BDA0001303485690000064
其中,p(wk|y=1)可以表示查询信息x的第k个基本信息wk针对第一类别集合的资源的第三出现概率,p(wk)可以表示基本信息wk针对所有资源的第二出现概率,p(y=1)可以表示第一类别集合的资源在所有资源中的出现概率,(也即,第一类别集合的资源针对所有资源的第四出现概率)。其中,p(y=1)可以表示为公式(5):
Figure BDA0001303485690000065
公式(5)中,m表示所有资源的资源数量,在所有资源中的第i个资源的资源信息为第一类别集合的资源的资源信息时,y(i)=1;反之,y(i)=0;i的取值为1-m。
在一种可能的实现方式中,根据属性条件独立假设,可以认为不同的基本信息对查询信息的归类影响是相互独立的,不相互影响。将第一类别集合表示为集合N,所有资源的集合表示为集合V,可以认为:p(wk|y=1)表示基本信息wk在集合N中的出现概率(第三出现概率);p(wk)表示基本信息wk在集合V中的出现概率(第二出现概率);p(y=1)表示集合N在集合V中的出现概率(第四出现概率)。因此,基于所述基本信息针对所有资源的第二出现概率、所述基本信息针对第一类别集合的资源的第三出现概率、以及第一类别集合的资源针对所有资源的第四出现概率,可以根据公式(4)获取查询信息针对第一类别集合的资源的第五出现概率p(y=1|x)。本领域技术人员应当理解,由于上述的近似,公式(4)的计算结果可能出现不属于[0,1]的情况。
本领域技术人员应理解,第二出现概率、第三出现概率和第四出现概率能够表达第五出现概率,但是他们之间的关系并不限于公式(4)所示,本领域技术人员还可以采用其他方式,根据第二出现概率、第三出现概率和第四出现概率来计算第五出现概率,本公开对此不做限制。
通过这种方法获得的所述第五出现概率为所述查询信息的出现概率特征。
在一种可能的实现方式中,所述第一类别集合的资源可以是由与所述第一类别集合的资源相关的用户在第一时间区间内上传的资源。
其中,与所述第一类别集合的资源相关的用户例如可以是经常上传第一类别的资源的用户。
举例来说,可以根据用户是否经常上传第一类别的资源(例如新闻类视频资源),得到用户列表(user_list),作为种子用户集合U。利用种子用户集合U,可以实时获取(例如以10分钟为时间间隔爬取数据)用户集合U在第一时间区间内上传的第一类别集合的资源(集合N)。其中,第一时间区间可以为预先设置的时间区间,对于新闻类视频资源,为了保证新闻类视频的更新,并且保证新闻类时效性词(查询信息)的及时识别,第一时间区间可以设置得较短,例如第一时间区间为24小时。
在一种可能的实现方式中,可以基于查询信息的时间属性,设置多个第一时间区间,分别获取多个第一时间区间内查询信息针对第一类别集合的资源的多个第五出现概率,将多个第五出现概率作为查询信息的多维出现概率特征。
举例来说,用户于201X年3月15日输入查询信息“XX离婚事件”,根据用户输入查询信息的时间属性(例如,日期201X年3月15日),设置多个第一时间区间,例如第一时间区间为24小时,分段选取201X年3月9日至201X年3月15日的7个第一时间区间,并分别获取这7个第一时间区间内与所述第一类别集合的资源相关的用户新上传的第一类别集合的资源,从而分别获取所述查询信息“XX离婚事件”针对第一类别集合资源的7个第五出现概率,将7个第五出现概率作为查询信息的7维出现概率特征。
本领域技术人员应理解,第一时间区间长短的设置以及基于所述用户输入查询信息的时间属性设置所述第一时间区间的数量是可以根据所述查询信息的资源类别及其特点进行分别设置的,例如本公开实施例中考虑新闻类视频资源的实时性较强,因此设置的第一时间区间较短(24小时),考虑到新闻类视频资源在7天内,查询信息的出现概率特征会有较明显的区别,因此根据查询信息的时间属性设置了7个第一时间区间。可以理解的是,本领域技术人员可以根据查询信息的资源类别及其特点进行设置,本公开对此不做限制。
通过这种方式,就查询信息的出现概率特征进行了多维出现概率特征抽取,使得查询信息的多维出现概率之间会有较明显的区别,从而使得查询信息的出现概率特征的特征性更加突出,进而提升了基于所述出现概率特征识别所述查询信息为第一类别查询信息的准确度。
图4是根据一示例性实施例示出的一种信息识别方法的步骤112的流程图。如图4所示,在一种可能的实现方式中,步骤112包括:
步骤S1121,将所述查询信息分解为一个或多个基本信息;
步骤S1122,基于所述第一类别集合的资源的总播放量、包含所述基本信息的第一类别集合资源的播放量,获取所述查询信息的热度特征。
其中,对步骤S1121的描述可参见上文对步骤S1111的描述,如公式(1)所示,x表示用户输入的查询信息,wk表示组成查询信息x的第k个基本信息,k的取值为1-n之间的自然数。
在一种可能的实现方式中,查询信息x的热度特征可以表示为公式(6):
Figure BDA0001303485690000081
其中,H表示用户输入的查询信息x的热度特征,n表示组成查询信息x的基本信息的数量,H(N)表示所述第一类别集合的资源的总播放量,
Figure BDA0001303485690000082
表示包含基本信息wk的第一类别集合资源的播放量。
举例来说,用户输入的查询信息x为“XX离婚事件”,则根据公式(1)可将所述查询信息x分解为“XX”“离婚”“事件”这三个基本信息。
在一种可能的实现方式中,所述第一类别集合的资源可以是由与所述第一类别集合的资源相关的用户在第一时间区间内上传的资源,如上文所述,所述第一时间区间可以为预先设置的时间区间,对于新闻类视频资源,为了保证新闻类视频的更新,并且保证新闻类时效性词(查询信息)的及时识别,第一时间区间可以设置得较短,例如此时设置第一时间区间为1天,并确定所述1天内第一类别集合的资源的总播放量H(N),以及获取包含所述基本信息的第一类别集合资源的播放量
Figure BDA0001303485690000091
可以理解的是,基于所述第一类别集合的资源的总播放量H(N)、包含所述基本信息的第一类别集合的资源的播放量
Figure BDA0001303485690000092
可以根据公式(6)获取所述查询信息的热度特征。
在一种可能的实现方式中,包含基本信息wk的第一类别集合资源的播放量
Figure BDA0001303485690000093
可以表示为公式(7):
Figure BDA0001303485690000094
其中,wk∈N表示包含所述基本信息wk的第一类别资源,例如,以新闻类视频资源为所述第一类别集合资源为例,当新闻类视频的资源信息(例如标题或标签)中包含所述查询信息x的基本信息wk时,即所述新闻类视频为包含所述基本信息wk的新闻类视频资源,从而可以根据公式(7)获取包含基本信息wk的第一类别集合资源的播放量
Figure BDA0001303485690000095
在一种可能的实现方式中,所述第一类别集合资源的播放量H(N)可以表示为公式(8):
H(N)=VV(N) (8)
其中,VV(N)表示第一类别集合资源在第一时间区间内的播放量,需要说明的是,此时,用户输入所述查询信息的时间点距离所述第一类别集合资源的创建时间点大于或者等于所述第一时间区间。
举例来说,如果所述第一时间区间为1天,则VV(N)表示第一类别集合资源在1天内的播放量,用户输入查询信息“XX离婚事件”的日期为201X年3月15日上午10点,所述第一类别集合资源的创建时间点,例如关于“XX离婚事件”的新闻视频资源的创建时间点为201X年3月14日上午8点,此时,所述查询信息的时间点距离所述第一类别集合资源的创建时间点大于1天(大于所述第一时间区间),那么此时,获取的第一类别集合资源在1天内的播放量VV(N)就是所述第一类别集合资源的播放量H(N)。
在一种可能的实现方式中,所述第一类别集合资源的播放量H(N)可以表示为公式(8):
Figure BDA0001303485690000101
其中,VV(N)表示第一类别集合资源在第一时间区间内的播放量,t1为用户输入查询信息时的时间点,t2为所述第一类别集合资源的创建时间点,需要说明的是,此时,用户输入所述查询信息的时间点距离所述第一类别集合资源的创建时间点小于所述第一时间区间。
举例来说,如果所述第一时间区间为1天,则VV(N)表示第一类别集合资源在1天内的播放量。此时,用户输入所述查询信息的时间点距离所述第一类别集合资源的创建时间点小于所述第一时间区间,可以理解的是,此时VV(N)包含的第一类别集合资源在1天内的播放量是1天内一定时间段的播放量(部分时间段内,所述第一类别集合资源尚未创建,无法点播),例如,用户输入查询信息“XX离婚事件”的日期为201X年3月15日上午10点,所述第一类别集合资源的创建时间点,例如关于“XX离婚事件”的新闻视频资源的创建时间点为201X年3月15日凌晨4点,此时,所述查询信息的时间点距离所述第一类别集合资源的创建时间点小于1天(小于所述第一时间区间,为0.25天),那么此时,获取的表示第一类别集合资源在1天内的播放量VV(N)是所述0.25天内的播放量(其他0.75天内视频尚未创建,所述0.75天实际播放量为0),可以理解的是,此时需要通过公式(9)进行折算,获取所述第一类别集合资源的播放量H(N)。
本领域技术人员应理解,基于所述第一类别集合的资源的总播放量H(N)、包含所述基本信息的第一类别集合资源的播放量
Figure BDA0001303485690000102
可以获取所述查询信息的热度特征H,但他们之间的关系并不限于公式(6),包含所述基本信息的第一类别集合资源的播放量的获取公式并不限于公式(7),所述第一类别集合的资源的总播放量获取公式也并不限于公式(8)、公式(9),本领域技术人员还可以采用其他方式,获取所述第一类别集合的资源的总播放量以及包含所述基本信息的第一类别集合资源的播放量,从而基于所述第一类别集合的资源的总播放量、包含所述基本信息的第一类别集合资源的播放量,获取所述查询信息的热度特征,本公开对此不做限制。
通过这种方式,可以确定所述查询信息的热度特征,并基于所述查询信息的热度特征进行第一类别集合的资源的信息识别,提升信息识别准确度,避免因所述查询信息的基本信息在整个视频库中的出现频率过高而导致的误判。
图5是根据一示例性实施例示出的一种信息识别方法的步骤113的流程图。如图5所示,在一种可能的实现方式中,步骤113包括:
步骤S1131,基于所述查询信息与所述第一类别集合的资源的相关度,对所述第一类别集合的资源进行排序;
步骤S1132,将所述查询信息分解为一个或多个基本信息,分别获取所述基本信息针对所排序的多个第一类别集合的资源的第六出现概率;
步骤S1133,基于第六出现概率,获取所述查询信息的所述一致性特征。
举例来说,通过获取所述查询信息与所述第一类别集合的资源的相关度,从而对所述第一类别集合的资源进行排序。在一种可能的实现方式中,可以通过倒排索引原理构建包含所述第一类别集合的资源的索引,并基于此索引对所述查询信息进行检索,以实现对所述第一类别集合的资源进行排序。
可以理解的是,本领域技术人员可以采用其他方式来获取所述查询信息与所述第一类别集合的资源的相关度,本公开对所述相关度的获取方式以及对所述第一类别集合的资源的排序方式不做限制。
在一种可能的实现方式中,可以基于所述查询信息与所述第一类别集合的资源的相关度,将所述第一类别集合的资源按照相关度从高到低的顺序进行排序,从而获取与所述查询信息相关度最高的前q条第一类别集合的资源,其中,q为自然数。
在一种可能的实现方式中,分别获取基本信息针对所排序的多个第一类别集合的资源的第六出现概率可以包括:分别获取基本信息针对所排序的多个第一类别集合的资源的单独第六出现概率,以及获取基本信息针对所排序的多个第一类别集合的资源的整体第六出现概率。
举例来说,用户于201X年3月15日输入查询信息“XX离婚事件”,如上文所述,基于所述查询信息“XX离婚事件”与所述第一类别集合的资源的相关度,对所述第一类别集合的资源进行排序,例如,获取与查询信息“XX离婚事件”相关度最高的前10条第一类别集合的资源(q取10),根据公式(1)将所述查询信息“XX离婚事件”分解为3个基本信息,分别为“XX”、“离婚”和“事件”,分别获取所述基本信息针对前10条第一类别集合的资源的单独第六出现概率以及所述查询信息针对前10条第一类别集合的资源的整体第六出现概率。
现以与所述查询信息“XX离婚事件”相关度最高的前10条第一类别集合的资源(新闻类视频资源)为例,对所述基本信息针对第一类别集合的资源的单独第六出现概率的一种确定方式进行说明。例如,选取所述前10条新闻类视频资源中的1条新闻类视频资源,所述1条新闻类视频的资源信息(例如视频标题、标签)中包括:2个“XX”、1个“离婚”以及1个“事件”,那么,所述查询信息“XX离婚事件”中的基本信息“XX”针对所述1条新闻类视频的单独第六出现概率为1/2,所述基本信息“离婚”针对所述1条新闻类视频的单独第六出现概率为1/4,所述基本信息“事件”针对所述1条新闻类视频的单独第六出现概率为1/4。
现以获取与“XX离婚事件”相关度最高的前10条第一类别集合的资源(新闻类视频资源)为例,对所述基本信息针对所述第一类别集合的资源整体第六出现概率的一种确定方式进行说明,所述前10条新闻类视频资源的资源信息(例如视频标题、标签)中包括:20个“XX”、20个“离婚”以及10个“事件”,那么,所述查询信息的基本信息“XX”针对所述与查询信息相关度最高的前10条第一类别集合的资源整体第六出现概率为2/5,所述基本信息“离婚”针对所述与查询信息相关度最高的前10条第一类别集合的资源整体第六出现概率为2/5,所述基本信息“事件”针对所述与查询信息相关度最高的前10条第一类别集合的整体第六出现概率为1/5。
在一种可能的实现方式中,本公开可以通过JS散度(Jensen-Shannondivergence)来确定所述查询信息的一致性特征(查询信息的JS散度越低,说明其一致性越高;查询信息的JS散度越高,说明其一致性越低),所述JS散度可以表示为公式(10):
Figure BDA0001303485690000121
其中,Pj表示与查询信息相关联的q条第一类别集合的资源中的第j条资源的资源信息(例如视频标题、标签)的概率分布,j的取值范围是1-q,πj表示概率分布Pj的权重,H(Pj)为概率分布Pj的信息熵。
在一种可能的实现方式中,πj可以定义为1,也就是说,所述每个概率分布Pj的权重相同为1(代表着所述每个第一类别集合的资源的重要性相同),可以理解的是,每个概率分布Pj的权重πj是可以不同的,可根据需要预先设置不同的权重值,本公开对此不做限制。
以每个概率分布Pj的权重相同为1为例进行说明,则公式(10)可以简化为公式(11):
Figure BDA0001303485690000131
在一种可能的实现方式中,公式(11)中的信息熵H(Pj)可以表示为公式(12):
Figure BDA0001303485690000132
其中,p(wk)可以表示所述查询信息x的基本信息wk针对所述第一类别集合的资源中第j条资源的单独第六出现概率。
在一种可能的实现方式中,公式(11)中的
Figure BDA0001303485690000133
可以表示为公式(13):
Figure BDA0001303485690000134
其中,p2(wk)可以表示所述查询信息x的基本信息wk针对所述第一类别集合的所有资源的整体第六出现概率。
这样,基于单独第六出现概率以及整体第六出现概率,可以分别通过公式(12)-(13)计算信息熵H(Pj)以及
Figure BDA0001303485690000135
从而可以根据公式(11)计算出查询信息x的JS散度,进而确定查询信息x的一致性特征。例如,用户于201X年3月15日输入查询信息“XX离婚事件”,如上文所述,可以分别获取基本信息针对所排序的多个第一类别集合的资源的单独第六出现概率以及整体第六出现概率,进而根据公式(11)获取查询信息“XX离婚事件”的一致性特征。
在一种可能的实现方式中,所述第一类别集合的资源可以是由与所述第一类别集合的资源相关的用户在第一时间区间内上传的资源,如上文所述,所述第一时间区间可以为预先设置的时间区间,对于新闻类视频资源,为了保证其一致性特征的有效性,例如,可以将第一时间区间设置为2天,可以理解的是,为了提升所述第一类集合的资源的一致性特征的准确性及有效性,可以设置多个时间长短不同的第一时间区间,例如分别将所述第一时间区间设置为2天和7天,进而获取所述第一类别集合的资源的2维一致性特征。
举例来说,用户输入的查询信息“XX离婚事件”的时间点为201X年3月15日,分别利用7天内(201X年3月9日至201X年3月15日)的所述第一类别集合资源和2天内(201X年月14日至201X年3月15日)的所述第一类别集合资源构建包含所述第一类别集合的资源的索引,并基于此索引对所述查询信息进行检索,从而实现对所述第一类别集合的资源的排序,例如,将所述第一类别集合的资源按照相关度从高到低的顺序进行排序,分别选取与所述查询信息相关度最高的前q条第一类别集合的资源,例如,分别选取7天内与所述查询信息相关度最高的前10条第一类别集合的资源(q取10)以及2天内与所述查询信息相关度最高的前10条第一类别集合的资源(q取10)。
本领域技术人员应理解,所述第一时间区间的设置越细致、越多,所述选取的第一类别集合的资源的条数越多、则获取的所述第一类别集合的资源的一致性特征的有效性越强,在综合考虑特征抽取时间成本、特征抽取经济成本以及识别准确度的情况下,本领域技术人员可就抽取查询信息一致性特征的第一时间区间长短、所述选取的第一类别集合的资源的条数进行设置,本公开对此不做限制。
通过这种方式,可以获取所述查询信息的一致性特征,进而根据查询信息的一致性特征识别所述查询信息是否为第一类别查询信息,提高了对查询信息的识别准确度。
在一种可能的实现方式中,步骤S114包括以下操作中的一种或多种:
获取所述查询信息的字符数,将所述字符数确定为所述属性特征;
基于所述查询信息中的字符数以及特殊字符数,获取所述查询信息的特殊字符占比,将所述特殊字符占比确定为所述属性特征;
根据所述查询信息是否包括实词,确定所述属性特征;
根据所述查询信息是否包括节目名称,确定所述属性特征。
举例来说,用户输入的查询信息本身具有相应的多个属性特征,包括所述查询信息的长度、特殊字符占比、是否包括实词以及是否包括节目名称等。例如,所述用户输入的查询信息为“XX离婚事件”,其中,“XX”为人名。可见,所述查询信息包括6个字符数,所述查询信息包括实词“XX”;再比如,当用户输入的查询信息为“三生三世”时,所述查询信息包括4个字符数以及一个电视剧名称“三生三世”。用户输入的查询信息本身的属性特征也可以做为识别查询信息是否为第一类别集合的资源的特征。
在一种可能的实现方式中,可以预先设置并存储实词、节目名称等相关信息的信息库,并以一定的时间间隔进行更新。当用户输入查询信息时,可以实时抽取查询信息的属性特征(长度以及特殊字符占比);并且,将查询信息与信息库中实词、节目名称等相关信息进行比对,从而确定属性特征(是否包括实词,以及是否包括节目名称)。
本领域技术人员应理解,在进行所述查询信息的属性特征抽取时,抽取并确定的查询信息属性特征维数越多、所述属性特征的代表性越强,则对所述查询信息的识别就越准确。例如,就用户输入的查询信息抽取其字符数1维特征、确定其特殊字符占1维特征、判断其是否包括实词,确定1维属性特征以及判断其是否包括节目名称,确定1维属性特征,一共抽取所述查询信息4维属性特征,那么对所述查询信息是否为第一类别查询信息的识别就较仅抽取所述查询信息1维属性特征的识别更准确,在综合考虑特征抽取时间成本、特征抽取经济成本以及识别准确度的情况下,本领域技术人员可就查询信息属性特征抽取的维数进行设置,本公开对此不做限制。
在一种可能的实现方式中,获取所述查询信息的字符数,将所述字符数确定为所述属性特征是指所述查询信息每个汉字或英文字母的字符数为1;基于所述查询信息中的字符数以及特殊字符数,获取所述查询信息的特殊字符占比,将所述特殊字符占比确定为所述属性特征是指获取所述查询信息中特殊字符占所述查询信息所有字符的比例;根据所述查询信息是否包括实词,确定所述属性特征是指当所述查询信息包括实词(与信息库中的实词完全匹配)时,确定所述实词属性特征为1,当所述查询信息不包括实词时,确定所述实词属性特征为0;根据所述查询信息是否包括节目名称,确定所述属性特征是指当所述查询信息包括节目名称(与信息库中的节目名称完全匹配)时,确定所述节目属性特征为1,当所述查询信息不包括节目名称时,确定所述节目属性特征为0。
举例来说,当用户输入的查询信息为“XX离婚事件”时,其中,“XX”为人名,可以确定所述查询信息的属性特征为:包括6个字符数、特殊字符占比为0、所述查询信息包含实词“XX”,确定实词属性特征为1、所述查询信息不是节目名称,确定节目属性特征为0。
本领域技术人员应当理解,所述查询信息的属性特征赋值规则可以根据需要进行设置,例如,可以将查询信息中的汉字和英文字母包含的字符数进行区别设置,比如,每个汉字的字符数设置为2,每个英文字母的字符数设置为1,也可以设置查询信息包含实词时,确定实词属性特征为0,所述查询信息不包含实词时,确定实词属性特征为1,本公开对此不做限制。
通过这种方式,可以获取查询信息本身的属性特征,并依据所述查询信息本身属性特征识别所述查询信息是否为第一类别查询信息,提高了对查询信息的识别准确度。
图6是根据一示例性实施例示出的一种信息识别方法的流程图。如图6所示,在一种可能的实现方式中,所述方法还包括:
步骤S14,针对所述查询信息中的样本信息进行特征抽取,确定所述样本信息的特征;
步骤S15,基于所述样本信息的特征训练学习模型;
其中,确定所述样本信息的特征包括以下操作中的一种或多种:
确定出现概率特征、确定热度特征、确定一致性特征,以及确定属性特征。
举例来说,可以获取所述查询信息的样本信息,针对所述样本信息进行特征抽取,并确定所述样本信息的特征,其中,针对所述样本信息进行特征抽取的过程如上文所述,与针对所述查询信息进行特征抽取的过程类似;基于所述样本信息的特征训练学习模型,如上文所述,可通过机器学习等多种方式进行训练得到,在此不再赘述。
在一种可能的实现方式中,所述查询信息的样本信息可以包括正样本和负样本,其中,正样本包括的所述样本信息可为属于第一类别集合的资源,负样本包括的所述样本信息可为不属于第一类别集合的资源。
在一种可能的实现方式中,所述查询信息的样本信息可以通过以下方式获取:
选取查询日志,获取所述查询日志中的查询信息,将所述查询信息分解为一个或多个基本信息;
基于所述基本信息针对所有资源的第二出现概率、所述基本信息针对第一类别集合的资源的第三出现概率、以及第一类别集合的资源针对所有资源的第四出现概率,获取所述查询信息针对第一类别集合的资源的第五出现概率;
在所述第五出现概率大于或等于第二阈值的情况下,识别所述查询信息为第一类别查询信息;
随机选取所述第五出现概率小于第二阈值的查询信息归入所述负样本。
在一种可能的实现方式中,可以获取查询点击日志,确定所述查询信息的最高点击类别,当所述查询信息依据所述第五出现概率被识别为所述第一类别查询信息,但其最高点击类别不是所述第一类别时,将所述查询信息归入所述负样本。
在一种可能的实现方式中,基于所述查询信息的查询点击日志,在其所述最高点击类别高于第三阈值时,将所述查询信息归入所述正样本;
随机选取所述被识别为第一类别查询信息的所述查询信息,将其归入所述正样本;
基于所述第一类别集合的资源,人工选取查询信息归入所述正样本。
举例来说,可以选取201X年3月14日的查询日志,获取所述查询日志中的查询信息,将所述查询信息分解为一个或多个基本信息;基于所述基本信息针对所有资源的第二出现概率、所述基本信息针对第一类别集合的资源的第三出现概率、以及第一类别集合的资源针对所有资源的第四出现概率,获取所述查询信息针对第一类别集合的资源的第五出现概率;在所述第五出现概率大于或等于第二阈值的情况下,例如设置第二阈值为0.005,识别所述查询信息为第一类别查询信息。也就是说,将201X年3月14日查询日志中的查询信息分别计算其针对第一类别集合的资源的第五出现概率,从而识别其是否为第一类别查询信息;此时,201X年3月14日查询日志中的查询信息被分别两类,一类是第一类别查询信息(第五出现概率大于或等于0.005),另一类为非第一类别查询信息(第五出现概率小于0.005),随机选取非第一类别查询信息中的查询信息归入负样本;获取查询点击日志,确定所述查询信息的最高点击类别,例如,查询信息x的第五出现概率大于等于0.005,也就是说所述查询信息x被识别为第一类别查询信息,但通过查询点击日志发现所述查询信息x的最高点击类别不是所述第一类别,例如第一类别查询信息为新闻视频类信息,但在查询点击日志中发现所述查询信息x的最高点击类别是文字类信息时,那么将所述查询信息x归入负样本。
基于所述查询信息的查询点击日志,在所述最高点击类别高于第三阈值时(例如50%),则将所述查询信息归入正样本。例如,所述查询信息x的近几天的点击类别分别为第一类别信息、第二类别信息、第三类别信息以及第四类别信息,例如,201X年3月12日至201X年3月14日期间,所述查询信息x的点击类别为以上4种,其中,其点击类别为第一类别信息的比例为55%(大于50%),那么可以将其归入所述正样本。
基于所述查询信息的第五出现概率,识别为第一类别查询信息时,可随机从中选取查询信息归入所述正样本。
可以理解的是,所述第一类别查询信息可能在实时产生,为此,可以根据较新的(例如,查询信息上传当天)的信息,由人工选取部分查询信息归入正样本。
需要说明的是,所述查询信息的样本信息可以预先设置,也就是说,预先选取所述查询信息的样本信息,也可以结合预先设置与后期选取,即预先设置所述查询信息的样本信息,并在进行信息识别的过程中,可以不断地将信息识别过程中的查询信息归入所述查询信息的样本信息中,从而使得样本信息更加丰富,进而不断提升识别所述查询信息的准确度,可以理解的是,所述查询信息的样本信息也可以通过人工检查并修正。
本领域技术人员应理解,可以采用多种方式获取所述查询信息的样本信息,本公开对此不做限制。
通过这种方式,可以获取所述查询信息的样本信息特征,并基于所述特征训练学习模型,实现在用户输入查询信息时,基于所述查询信息的特征以及所述学习模型实时识别所述查询信息是否属于第一类别查询信息,提高了查询信息识别的准确度。
应用示例
以下结合“识别用户输入的查询词是否为新闻词”作为一个示例性应用场景,给出根据本公开实施例的应用示例,以便于理解信息识别的流程。本领域技术人员应理解,以下应用示例仅仅是出于便于理解本发明实施例的目的,不应视为对本发明实施例的限制。
图7是根据一示例性实施例示出的一种信息识别方法的应用示例的示意图。如图7所示,在该应用示例中,可以首先选取训练样本(步骤705),可以选取某天的查询日志,对该查询日志中的多个查询词query(查询信息)进行打分。例如,将查询词分解为一个或多个原子词(基本信息);基于原子词针对所有资源的出现概率、原子词针对新闻类资源的出现概率、以及新闻类资源针对所有资源的出现概率,计算出查询词针对新闻类资源的出现概率,将其作为查询词的得分。
在该应用示例中,根据该查询日志中的多个查询词的得分,可以从查询词中选择部分查询词作为训练样本。例如,如果判定该查询词是新闻词(得分≥识别阈值),但用户点击的视频的类别不是新闻类视频资源,则可以将该查询词作为训练样本中的负样本;如果判定该查询词不是新闻词(得分<识别阈值),则可以随机选取部分该类的查询词作为训练样本中的负样本;如果判定该查询词是新闻词,则可以随机选取部分该类的查询词作为训练样本中的正样本;查看某天较新新闻视频,人工生成小部分查询词作为训练样本中的正样本等。
在该应用示例中,可以对所选取的训练样本进行特征抽取(步骤706),得到训练样本的14维特征,包括出现概率特征7维(7天的出现概率特征)、热度特征1维(当天的热度特征)、一致性特征2维(2天和7天内的一致性特征)以及属性特征4维(包括字符数、特殊字符占比、是否包括实词,以及是否包括节目名称)。根据训练样本的14维特征,可以利用开源的xgboost进行模型训练(步骤707),从而建立新闻词识别模型(步骤703)。
在该应用示例中,在用户实时输入查询词时,可以抓取用户输入的查询词query(查询信息)(步骤701);然后可以针对查询词进行特征抽取(步骤702),抽取到查询词的14维特征(包括出现概率特征7维、热度特征1维、一致性特征2维以及属性特征4维);将查询词的14维特征导入到新闻词识别模型(步骤703)中进行分析,就可以的得到查询词得分(出现概率)(步骤708)。
在该应用示例中,可以判断查询词得分的大小(步骤709),如果查询词得分≥预先设定的得分阈值0.62,则可以认为用户输入的查询词是新闻词(步骤710);反之,如果查询词得分<预先设定的得分阈值0.62,则可以认为用户输入的查询词是非新闻词(步骤711)。这样,就完成了新闻类查询词的识别过程。
根据本公开实施例,能够通过针对用户输入的查询词进行特征抽取,基于查询词的特征以及新闻词识别模型确定查询词的得分,在得分大于等于阈值的情况下识别查询词为新闻类查询词,从而可以快速、准确的识别用户输入的新闻类查询词。
实施例2
图8是根据一示例性实施例示出的一种信息识别装置的框图。如图8所示,该信息识别装置包括:特征抽取模块81、查询信息概率获取模块82以及信息识别模块83。
特征抽取模块81,用于针对用户输入的查询信息进行特征抽取,确定所述查询信息的特征;
查询信息概率获取模块82,用于基于所述查询信息的特征以及学习模型,确定所述查询信息针对第一类别集合的资源的第一出现概率;
信息识别模块83,用于在所述第一出现概率大于或等于第一阈值的情况下,识别所述查询信息为第一类别查询信息,
其中,所述特征抽取模块81包括以下子模块中的一个或多个:
第一特征确定子模块811,用于确定出现概率特征;
第二特征确定子模块812,用于确定热度特征;
第三特征确定子模块813,用于确定一致性特征;以及
第四特征确定子模块814,用于确定属性特征。
图9是根据一示例性实施例示出的一种信息识别装置的框图。如图9所示,在一种可能的实现方式中,所述第一特征确定子模块811包括:
第一信息分解子模块8111,用于将所述查询信息分解为一个或多个基本信息;
出现概率获取子模块8112,用于基于所述基本信息针对所有资源的第二出现概率、所述基本信息针对第一类别集合的资源的第三出现概率、以及第一类别集合的资源针对所有资源的第四出现概率,获取所述查询信息针对第一类别集合的资源的第五出现概率;
概率特征确定子模块8113,用于将所述第五出现概率确定为所述查询信息的出现概率特征。
如图9所示,在一种可能的实现方式中,所述第二特征确定子模块812包括:
第二信息分解子模块8121,用于将所述查询信息分解为一个或多个基本信息;
热度特征获取子模块8122,用于基于所述第一类别集合的资源的总播放量、包含所述基本信息的第一类别集合资源的播放量,获取所述查询信息的热度特征。
如图9所示,在一种可能的实现方式中,所述第三特征确定子模块813包括:
资源排序子模块8131,用于基于所述查询信息与所述第一类别集合的资源的相关度,对所述第一类别集合的资源进行排序;
第三信息分解子模块8132,用于将所述查询信息分解为一个或多个基本信息;
出现概率获取子模块8133,用于分别获取所述基本信息针对所排序的多个第一类别集合的资源的第六出现概率;
一致性特征获取子模块8134,用于基于第六出现概率,获取所述查询信息的所述一致性特征。
在一种可能的实现方式中,所述第四特征确定子模块814包括以下子模块中的一个或多个:
数量确定子模块8141,用于获取所述查询信息的字符数,将所述字符数确定为所述属性特征;
占比确定子模块8142,用于基于所述查询信息中的字符数以及特殊字符数,获取所述查询信息的特殊字符占比,将所述特殊字符占比确定为所述属性特征;
实词判断子模块8143,用于根据所述查询信息是否包括实词,确定所述属性特征;
名称判断子模块8144,用于根据所述查询信息是否包括节目名称,确定所述属性特征。
如图9所示,在一种可能的实现方式中,所述装置还包括:
样本特征抽取模块84,用于针对所述查询信息中的样本信息进行特征抽取,确定所述样本信息的特征;
模型训练模块85,用于基于所述样本信息的特征训练学习模型;
其中,所述样本特征抽取模块84包括以下子模块中的一个或多个;
第一特征确定子模块,用于确定出现概率特征;
第二特征确定子模块,用于确定热度特征;
第三特征确定子模块,用于确定一致性特征;以及
第四特征确定子模块,用于确定属性特征。
在一种可能的实现方式中,所述第一类别集合的资源是由与所述第一类别集合的资源相关的用户在第一时间区间内上传的资源。
在一种可能的实现方式中,所述第一类别集合的资源是新闻类视频资源。
实施例3
图10是根据一示例性实施例示出的一种信息识别装置1900的框图。例如,装置1900可以被提供为一服务器。参照图10,装置1900包括处理组件1922,其进一步包括一个或多个处理器,以及由存储器1932所代表的存储器资源,用于存储可由处理组件1922的执行的指令,例如应用程序。存储器1932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件1922被配置为执行指令,以执行上述方法。
装置1900还可以包括一个电源组件1926被配置为执行装置1900的电源管理,一个有线或无线网络接口1950被配置为将装置1900连接到网络,和一个输入输出(I/O)接口1958。装置1900可以操作基于存储在存储器1932的操作系统,例如Windows ServerTM,MacOS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
在示例性实施例中,还提供了一种非易失性计算机可读存储介质,例如包括计算机程序指令的存储器1932,上述计算机程序指令可由装置1900的处理组件1922执行以完成上述方法。
本公开可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本公开的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本公开操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本公开的各个方面。
这里参照根据本公开实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本公开的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (16)

1.一种信息识别方法,其特征在于,包括:
针对用户输入的查询信息进行特征抽取,确定所述查询信息的特征;
基于所述查询信息的特征以及学习模型,确定所述查询信息针对第一类别集合的资源的第一出现概率;
在所述第一出现概率大于或等于第一阈值的情况下,识别所述查询信息为第一类别查询信息,
其中,确定所述查询信息的特征包括以下操作中的一种或多种:
确定出现概率特征、确定热度特征、确定一致性特征,以及确定属性特征,
所述确定热度特征包括:
将所述查询信息分解为一个或多个基本信息;
基于所述第一类别集合的资源的总播放量、包含所述基本信息的第一类别集合资源的播放量,获取所述查询信息的热度特征。
2.根据权利要求1所述的方法,其特征在于,所述确定出现概率特征包括:
将所述查询信息分解为一个或多个基本信息;
基于所述基本信息针对所有资源的第二出现概率、所述基本信息针对第一类别集合的资源的第三出现概率、以及第一类别集合的资源针对所有资源的第四出现概率,获取所述查询信息针对第一类别集合的资源的第五出现概率;
将所述第五出现概率确定为所述查询信息的出现概率特征。
3.根据权利要求1所述的方法,其特征在于,所述确定一致性特征包括:
基于所述查询信息与所述第一类别集合的资源的相关度,对所述第一类别集合的资源进行排序;
将所述查询信息分解为一个或多个基本信息,分别获取所述基本信息针对所排序的多个第一类别集合的资源的第六出现概率;
基于第六出现概率,获取所述查询信息的所述一致性特征。
4.根据权利要求1所述的方法,其特征在于,所述确定属性特征包括以下操作中的一种或多种:
获取所述查询信息的字符数,将所述字符数确定为所述属性特征;
基于所述查询信息中的字符数以及特殊字符数,获取所述查询信息的特殊字符占比,将所述特殊字符占比确定为所述属性特征;
根据所述查询信息是否包括实词,确定所述属性特征;
根据所述查询信息是否包括节目名称,确定所述属性特征。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
针对所述查询信息中的样本信息进行特征抽取,确定所述样本信息的特征;
基于所述样本信息的特征训练学习模型;
其中,确定所述样本信息的特征包括以下操作中的一种或多种:
确定出现概率特征、确定热度特征、确定一致性特征,以及确定属性特征。
6.根据权利要求1-5中任意一项所述的方法,其特征在于,所述第一类别集合的资源是由与所述第一类别集合的资源相关的用户在第一时间区间内上传的资源。
7.根据权利要求1-5中任意一项所述的方法,其特征在于,所述第一类别集合的资源是新闻类视频资源。
8.一种信息识别装置,其特征在于,包括:
特征抽取模块,用于针对用户输入的查询信息进行特征抽取,确定所述查询信息的特征;
查询信息概率获取模块,用于基于所述查询信息的特征以及学习模型,确定所述查询信息针对第一类别集合的资源的第一出现概率;
信息识别模块,用于在所述第一出现概率大于或等于第一阈值的情况下,识别所述查询信息为第一类别查询信息,
其中,所述特征抽取模块包括以下子模块中的一个或多个:
第一特征确定子模块,用于确定出现概率特征;
第二特征确定子模块,用于确定热度特征;
第三特征确定子模块,用于确定一致性特征;以及
第四特征确定子模块,用于确定属性特征,
所述第二特征确定子模块包括:
第二信息分解子模块,用于将所述查询信息分解为一个或多个基本信息;
热度特征获取子模块,用于基于所述第一类别集合的资源的总播放量、包含所述基本信息的第一类别集合资源的播放量,获取所述查询信息的热度特征。
9.根据权利要求8所述的装置,其特征在于,所述第一特征确定子模块包括:
第一信息分解子模块,用于将所述查询信息分解为一个或多个基本信息;
出现概率获取子模块,用于基于所述基本信息针对所有资源的第二出现概率、所述基本信息针对第一类别集合的资源的第三出现概率、以及第一类别集合的资源针对所有资源的第四出现概率,获取所述查询信息针对第一类别集合的资源的第五出现概率;
概率特征确定子模块,用于将所述第五出现概率确定为所述查询信息的出现概率特征。
10.根据权利要求8所述的装置,其特征在于,所述第三特征确定子模块包括:
资源排序子模块,用于基于所述查询信息与所述第一类别集合的资源的相关度,对所述第一类别集合的资源进行排序;
第三信息分解子模块,用于将所述查询信息分解为一个或多个基本信息;
出现概率获取子模块,用于分别获取所述基本信息针对所排序的多个第一类别集合的资源的第六出现概率;
一致性特征获取子模块,用于基于第六出现概率,获取所述查询信息的所述一致性特征。
11.根据权利要求8所述的装置,其特征在于,所述第四特征确定子模块包括以下子模块中的一个或多个:
数量确定子模块,用于获取所述查询信息的字符数,将所述字符数确定为所述属性特征;
占比确定子模块,用于基于所述查询信息中的字符数以及特殊字符数,获取所述查询信息的特殊字符占比,将所述特殊字符占比确定为所述属性特征;
实词判断子模块,用于根据所述查询信息是否包括实词,确定所述属性特征;
名称判断子模块,用于根据所述查询信息是否包括节目名称,确定所述属性特征。
12.根据权利要求8所述的装置,其特征在于,所述装置还包括:
样本特征抽取模块,用于针对所述查询信息中的样本信息进行特征抽取,确定所述样本信息的特征;
模型训练模块,用于基于所述样本信息的特征训练学习模型;
其中,所述样本特征抽取模块包括以下子模块中的一个或多个;
第一特征确定子模块,用于确定出现概率特征;
第二特征确定子模块,用于确定热度特征;
第三特征确定子模块,用于确定一致性特征;以及
第四特征确定子模块,用于确定属性特征。
13.根据权利要求8-12中任意一项所述的装置,其特征在于,所述第一类别集合的资源是由与所述第一类别集合的资源相关的用户在第一时间区间内上传的资源。
14.根据权利要求8-12中任意一项所述的装置,其特征在于,所述第一类别集合的资源是新闻类视频资源。
15.一种信息识别装置,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
针对用户输入的查询信息进行特征抽取,确定所述查询信息的特征;
基于所述查询信息的特征以及学习模型,确定所述查询信息针对第一类别集合的资源的第一出现概率;
在所述第一出现概率大于或等于第一阈值的情况下,识别所述查询信息为第一类别查询信息,
其中,确定所述查询信息的特征包括以下操作中的一种或多种:
确定出现概率特征、确定热度特征、确定一致性特征,以及确定属性特征,
所述确定热度特征包括:
将所述查询信息分解为一个或多个基本信息;
基于所述第一类别集合的资源的总播放量、包含所述基本信息的第一类别集合资源的播放量,获取所述查询信息的热度特征。
16.一种非易失性计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至7中任意一项所述的方法。
CN201710373850.XA 2017-05-24 2017-05-24 信息识别方法及装置 Active CN108932244B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710373850.XA CN108932244B (zh) 2017-05-24 2017-05-24 信息识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710373850.XA CN108932244B (zh) 2017-05-24 2017-05-24 信息识别方法及装置

Publications (2)

Publication Number Publication Date
CN108932244A CN108932244A (zh) 2018-12-04
CN108932244B true CN108932244B (zh) 2021-01-26

Family

ID=64449857

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710373850.XA Active CN108932244B (zh) 2017-05-24 2017-05-24 信息识别方法及装置

Country Status (1)

Country Link
CN (1) CN108932244B (zh)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101122909B (zh) * 2006-08-10 2010-06-16 株式会社日立制作所 文本信息检索装置以及文本信息检索方法
US8774498B2 (en) * 2009-01-28 2014-07-08 Xerox Corporation Modeling images as sets of weighted features
US8719298B2 (en) * 2009-05-21 2014-05-06 Microsoft Corporation Click-through prediction for news queries
CN102033877A (zh) * 2009-09-27 2011-04-27 阿里巴巴集团控股有限公司 检索方法和装置
US9098511B1 (en) * 2012-10-02 2015-08-04 Google Inc. Watch time based ranking
CN104063448B (zh) * 2014-06-18 2017-02-01 华东师范大学 一种视频领域相关的分布式微博数据抓取系统
CN104504124B (zh) * 2014-12-31 2017-12-19 合一网络技术(北京)有限公司 通过视频搜索和播放行为表现出实体热度的方法
CN106294500B (zh) * 2015-06-09 2020-04-24 深圳市腾讯计算机系统有限公司 内容项目的推送方法、装置及系统
CN105893438A (zh) * 2015-12-14 2016-08-24 乐视网信息技术(北京)股份有限公司 搜索提示方法及装置
CN105635762B (zh) * 2016-01-15 2018-11-27 深圳大学 一种基于深度信念网络的视频热度预测方法及其系统

Also Published As

Publication number Publication date
CN108932244A (zh) 2018-12-04

Similar Documents

Publication Publication Date Title
US9256664B2 (en) System and method for news events detection and visualization
CN110019794B (zh) 文本资源的分类方法、装置、存储介质及电子装置
CN107862022B (zh) 文化资源推荐系统
CN110888990B (zh) 文本推荐方法、装置、设备及介质
CN112148889A (zh) 一种推荐列表的生成方法及设备
CN108376129B (zh) 一种纠错方法及装置
CN104090888A (zh) 一种用户行为数据的分析方法和装置
CN107193974B (zh) 基于人工智能的地域性信息确定方法和装置
CN108885623A (zh) 基于知识图谱的语意分析系统及方法
CN108846097B (zh) 用户的兴趣标签表示方法、文章推荐方法、及装置、设备
US10387805B2 (en) System and method for ranking news feeds
CN110457672A (zh) 关键词确定方法、装置、电子设备及存储介质
CN109388634B (zh) 地址信息的处理方法、终端设备及计算机可读存储介质
CN111861550B (zh) 一种基于ott设备的家庭画像构建方法及系统
CN110162754B (zh) 一种岗位描述文档的生成方法及设备
CN112559747A (zh) 事件分类处理方法、装置、电子设备和存储介质
CN114780606A (zh) 一种大数据挖掘方法及系统
CN110929169A (zh) 基于改进Canopy聚类协同过滤算法的职位推荐方法
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
Obiedat Predicting the popularity of online news using classification methods with feature filtering techniques
CN112163415A (zh) 针对反馈内容的用户意图识别方法、装置及电子设备
CN108932244B (zh) 信息识别方法及装置
CN110941713A (zh) 基于主题模型的自优化金融资讯版块分类方法
CN108052503B (zh) 一种置信度的计算方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Applicant after: Youku network technology (Beijing) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Applicant before: 1VERGE INTERNET TECHNOLOGY (BEIJING) Co.,Ltd.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20200616

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 100080 Beijing Haidian District city Haidian street A Sinosteel International Plaza No. 8 block 5 layer A, C

Applicant before: Youku network technology (Beijing) Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant