CN111783440B - 意图识别方法、装置、可读介质及电子设备 - Google Patents

意图识别方法、装置、可读介质及电子设备 Download PDF

Info

Publication number
CN111783440B
CN111783440B CN202010634548.7A CN202010634548A CN111783440B CN 111783440 B CN111783440 B CN 111783440B CN 202010634548 A CN202010634548 A CN 202010634548A CN 111783440 B CN111783440 B CN 111783440B
Authority
CN
China
Prior art keywords
preset
target
probability
search
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010634548.7A
Other languages
English (en)
Other versions
CN111783440A (zh
Inventor
王鑫宇
张永华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN202010634548.7A priority Critical patent/CN111783440B/zh
Publication of CN111783440A publication Critical patent/CN111783440A/zh
Priority to PCT/CN2021/102254 priority patent/WO2022001846A1/zh
Application granted granted Critical
Publication of CN111783440B publication Critical patent/CN111783440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开涉及一种意图识别方法、装置、可读介质及电子设备。该方法包括:获取检索信息,所述检索信息包括至少一个检索词;针对每一所述检索词,分别确定该检索词在所述检索信息中属于每一预设主题的目标概率;根据所述目标概率,识别所述检索信息对应的目标意图。通过上述技术方案,对于检索词表征不同意图的情况,根据确定出的目标概率,可以准确识别检索信息对应的目标意图,提高意图识别的准确性,从而可以为用户提供更符合其需求的检索结果。

Description

意图识别方法、装置、可读介质及电子设备
技术领域
本公开涉及检索技术领域,具体地,涉及一种意图识别方法、装置、可读介质及电子设备。
背景技术
在检索领域,用户想要进行信息查询时,通常输入一个或多个检索词来进行查询。其中,不同的检索词可能表征不同的意图,同一个检索词也可能表征多种不同的意图。相关技术中,在对用户的检索意图进行识别时,并未考虑检索词表征不同意图的情况,因此无法准确识别出用户的检索意图,使得意图识别的结果不够准确,从而无法提供满足用户检索需求的检索结果。
发明内容
提供该发明内容部分以便以简要的形式介绍构思,这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征,也不旨在用于限制所要求的保护的技术方案的范围。
第一方面,本公开提供一种意图识别方法,所述方法包括:获取检索信息,所述检索信息包括至少一个检索词;针对每一所述检索词,分别确定该检索词在所述检索信息中属于每一预设主题的目标概率;根据所述目标概率,识别所述检索信息对应的目标意图。
第二方面,本公开提供一种意图识别装置,所述装置包括:获取模块,被配置成用于获取检索信息,所述检索信息包括至少一个检索词;目标概率确定模块,被配置成用于针对每一所述检索词,分别确定该检索词在所述检索信息中属于每一预设主题的目标概率;识别模块,被配置成用于根据所述目标概率,识别所述检索信息对应的目标意图。
第三方面,本公开提供一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现本公开第一方面提供的所述方法的步骤。
第四方面,本公开提供一种电子设备,包括:存储装置,其上存储有计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现本公开第一方面提供的所述方法的步骤。
通过上述技术方案,检索信息中可包括至少一个检索词,针对每一检索词,分别确定该检索词在检索信息中属于每一预设主题的目标概率,该目标概率可以指的是,该检索词在用户输入的检索信息中所表征的意图与该预设主题的相关性。对于检索词表征不同意图的情况,根据确定出的目标概率,可以准确识别检索信息对应的目标意图,提高意图识别的准确性,从而可以为用户提供更符合其需求的检索结果。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
结合附图并参考以下具体实施方式,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中,相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的,原件和元素不一定按照比例绘制。在附图中:
图1是根据一示例性实施例示出的一种意图识别方法的流程图。
图2是根据一示例性实施例示出的一种分别确定检索词在检索信息中属于每一预设主题的目标概率的方法的流程图。
图3是根据一示例性实施例示出的一种确定检索词属于目标预设主题的概率的方法的流程图。
图4根据一示例性实施例示出的一种确定第一检索词和第二检索词同时属于目标预设主题的第二概率的方法的流程图。
图5根据一示例性实施例示出的一种确定第一检索词和第二检索词中其中一个属于目标预设主题且另一个属于其他预设主题的第三概率的方法的流程图。
图6是根据另一示例性实施例示出的一种意图识别方法的流程图。
图7是根据一示例性实施例示出的一种意图识别装置的框图。
图8是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。
需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
在检索领域,用户可输入检索信息以获得相关的检索结果。其中,检索信息可包括一个或多个检索词。当检索信息包括多个检索词时,不同的检索词可能表征不同的意图。示例地,以歌曲为例,用户在检索时,可能会通过歌手姓名加歌曲名称的方式来搜索,歌手姓名和歌曲名称即表征不同的意图。当用户输入一个检索词时,该检索词也可能表征多种意图。例如,如果用户输入的检索词为歌手姓名,该检索词表征的意图可以为歌手的介绍信息,也可以为该歌手创作的歌曲。
相关技术中,在对用户的检索意图进行识别时,并未考虑检索词表征不同意图的情况,使得意图识别不够准确。并且,当检索信息中包括多个检索词时,相关技术中一般是对检索信息进行整体的意图识别,识别检索信息整体所表征的意图,然而当出现上述提及的不同检索词表征不同意图的情况时,按照相关技术中的意图识别方式,便无法准确识别出用户的检索意图,从而无法提供满足用户检索需求的结果。
鉴于此,本公开提供一种意图识别方法、装置、可读介质及电子设备,以准确识别检索信息对应的目标意图。值得说明的是,本公开在以下介绍中,以对媒体文件的检索为例进行解释说明,媒体文件可包括歌曲、音乐、短视频、音乐短片等,但本公开的应用场景并不局限于此,例如,对物品的检索、对文献资料的检索等等,同样适用于本公开。
图1是根据一示例性实施例示出的一种意图识别方法的流程图,该方法可应用于具有处理能力的电子设备中,如终端或服务器等。如图1所示,该方法可包括S101~S103。
在S101中,获取检索信息。
该检索信息可以是用户想要进行信息查询时所输入的检索词、检索语句等。该检索信息中可包括至少一个检索词。其中,如果用户输入的是检索语句,可先对该检索语句进行分词操作,以确定其中的至少一个检索词。分词操作的具体方式可参照本领域相关技术。
在S102中,针对每一检索词,分别确定该检索词在检索信息中属于每一预设主题的目标概率。
预设主题可以是预先设置的标签,不同的预设主题用于从不同的维度来描述一个媒体文件。示例地,对于媒体文件来说,预设主题可包括媒体文件的创作者、名称、所属专辑、风格等。
检索词在检索信息中属于预设主题的目标概率,可以指的是该检索词在用户输入的检索信息中所表征的意图与该预设主题的相关性,或属于该预设主题的可能性。
示例地,以检索信息包括两个检索词,分别为词1、词2,预设主题包括媒体文件的创作者和名称为例进行举例说明。例如词1为一歌手的姓名,则词1在检索信息中所表征的意图为创作者的可能性较大,为媒体文件的名称的可能性较小,即词1在检索信息中属于创作者这一预设主题的目标概率相对较高,属于媒体文件的名称这一预设主题的目标概率相对较低。例如词2为一歌曲的歌名,则词2在检索信息中所表征的意图为媒体文件的名称的可能性较大,为创作者的可能性较小,即词2在检索信息中属于媒体文件的名称这一预设主题的目标概率相对较高,属于创作者这一预设主题的目标概率相对较低。
在S103中,根据目标概率,识别检索信息对应的目标意图。
检索词在检索信息中属于预设主题的目标概率越高,可表明该检索词在检索信息中所表征的意图为该预设主题的可能性越大,用户可能更倾向于获得该检索词包括在该预设主题下的媒体文件。其中,检索信息对应的目标意图可以指的是用户的检索意图。
沿用上述示例,例如词1在检索信息中属于创作者这一预设主题的目标概率为0.79,属于媒体文件的名称这一预设主题的目标概率为0.21,词2在检索信息中属于创作者这一预设主题的目标概率为0.08,属于媒体文件的名称这一预设主题的目标概率为0.92。
根据目标概率的大小可知,创作者为词1、名称为词2的媒体文件可能是用户最想要检索的媒体文件,即该媒体文件最符合检索信息对应的目标意图。其次,由于词2在检索信息中属于媒体文件的名称的目标概率相对更高,用户可能更倾向于搜索名称为词2的媒体文件。因此,在向用户展示检索结果时,在创作者为词1、名称为词2的媒体文件之后,可先向用户展示名称为词2、创作者为其他歌手的媒体文件。如此,该展示顺序可能更符合用户的检索意图。
当检索信息包括一个检索词时,例如为词1,由于词1属于创作者的目标概率高于属于媒体文件的名称的目标概率,因此,当用户输入的检索词为词1时,可表征用户更想要检索创作者为词1的媒体文件,而不是名称为词1的媒体文件。
需要说明的是,本公开上述示例所给出的数值,以及下文示例所给出的数值,仅为解释说明,便于本领域技术人员更好的理解本公开提供的方法,不构成对本公开实施方式的限制。
通过上述技术方案,检索信息中可包括至少一个检索词,针对每一检索词,分别确定该检索词在检索信息中属于每一预设主题的目标概率,该目标概率可以指的是,该检索词在用户输入的检索信息中所表征的意图与该预设主题的相关性。对于检索词表征不同意图的情况,根据确定出的目标概率,可以准确识别检索信息对应的目标意图,提高意图识别的准确性,从而可以为用户提供更符合其需求的检索结果。
本公开中,检索信息包括至少一个检索词,可分为两种情况,即检索信息包括一个检索词,和检索信息包括多个检索词。
下面首先介绍检索信息包括多个检索词的情况,当检索信息包括多个检索词时,上述S102中分别确定检索词在检索信息中属于每一预设主题的目标概率的示例性实施方式可如图2所示,包括S201~S205。
在S201中,遍历每一预设主题,并将当前遍历到的预设主题作为目标预设主题。
本公开对预设主题的数量以及遍历的顺序不做具体限制。示例地,以预设主题包括预设主题A和预设主题B为例,例如当前遍历到的为预设主题A,该预设主题A可作为目标预设主题。
在S202中,将该检索词作为第一检索词,该检索词外的其他每一检索词分别作为第二检索词。
示例地,以检索信息包括两个检索词,分别为词1、词2为例,例如可将词1作为第一检索词,词2可作为第二检索词。
又示例地,检索信息包括三个检索词时,例如为词1、词2、词3,可将词1作为第一检索词,词2和词3分别作为第二检索词。在下文示例中,以检索信息包括两个检索词为例进行举例说明,但本公开对检索词的数量并不做具体限制。
在S203中,获取第一检索词属于目标预设主题的第一概率。
值得说明的是,检索词属于预设主题的概率,与上述提及的检索词在检索信息中属于预设主题的目标概率不同。其中,检索词属于预设主题的概率,可以指的是该检索词单独出现时所表征的意图与该预设主题的相关性。检索词在检索信息中属于预设主题的目标概率,可以指的是检索词在用户输入的检索信息中,与其他词组合在一起出现时所表征的意图与该预设主题的相关性。
其中,检索信息可以为针对媒体文件的检索信息,媒体文件具有在每一预设主题下的主题内容。示例地,对于创作者这一预设主题,主题内容可以为歌手的姓名;对于媒体文件的名称这一预设主题,主题内容可以为歌曲的歌名。
本公开中,检索词属于目标预设主题的概率可通过如图3所示的实施方式来预先确定,包括S301和S302。
在S301中,针对每一预设主题,获取检索词包括在该预设主题的主题内容中的媒体文件的第一使用量,并确定该第一使用量之和。
本公开中涉及到的媒体文件的使用量,可以是根据媒体文件的历史使用信息统计得到的,媒体文件的历史使用信息可以是在预设历史时段(如过去一周、一个月)内,用户对该媒体文件的使用信息。示例地,该使用量例如可包括媒体文件被播放的次数、被作为背景媒体文件(如音乐铃声、短视频背景音乐)的次数,等等。
该第一使用量可以是多个媒体文件的使用量之和,即检索词包括在该预设主题的主题内容中的所有媒体文件的使用量之和。示例地,以该检索词为词1为例,针对预设主题A,媒体文件a的预设主题A的主题内容中包括词1,媒体文件a的使用量例如为100;媒体文件b的预设主题A的主题内容中也包括词1,媒体文件b的使用量为200,则词1包括在预设主题A的主题内容中的媒体文件的第一使用量,可以为媒体文件a和媒体文件b的使用量之和300。针对预设主题B,词1包括在预设主题B的主题内容中的媒体文件的第一使用量例如为700。
在针对每一预设主题,确定该检索词包括在该预设主题的主题内容中的媒体文件的第一使用量之后,可确定该第一使用量之和。在上述示例中,对于词1来说,其对应的第一使用量之和可以为1000。
在S302中,根据检索词包括在目标预设主题的主题内容中的媒体文件的第一使用量,以及第一使用量之和,确定检索词属于目标预设主题的概率。
示例地,可通过如下公式,确定检索词属于目标预设主题的概率:
其中,Ft表示目标预设主题,W表示检索词,P(Ft|W)表示该检索词属于目标预设主题的概率,count(W in Ft)表示该检索词包括在目标预设主题的主题内容中的媒体文件的第一使用量,Fi表示第i个预设主题,count(W in Fi)表示该检索词包括在第i个预设主题的主题内容中的媒体文件的第一使用量,m表示预设主题的个数。
目标预设主题可以为任一预设主题,例如将预设主题A作为目标预设主题,词1属于预设主题A的概率可以为0.3。
针对用户可能会输入的每一检索词,均可通过图3所示的方式,根据媒体文件的历史使用信息,分别预先确定该检索词属于每一预设主题的概率,并存储在数据库中。在上述S203中,可直接从数据库中获取到第一检索词属于目标预设主题的第一概率。
在S204中,针对每一第二检索词,获取第一检索词和该第二检索词同时属于目标预设主题的第二概率,以及第一检索词和该第二检索词中其中一个属于目标预设主题且另一个属于其他预设主题的第三概率,并分别获取该第二检索词属于每一预设主题的第四概率。
在S205中,根据第一概率、第二概率、第三概率和第四概率,确定第一检索词在检索信息中属于目标预设主题的目标概率。
其中,第二检索词属于预设主题的概率也可通过图3所示的实施方式预先确定出,在S204中,可从数据库中分别获取到该第二检索词属于每一预设主题的第四概率。
本公开中,第一检索词和第二检索词同时属于目标预设主题的第二概率可通过图4所示的方式预先确定出,包括S401~S403。
在S401中,针对每一预设主题,获取第一检索词和第二检索词同时包括在该预设主题的主题内容中的媒体文件的第二使用量,并确定该第二使用量之和。
与上述第一使用量类似,该第二使用量也可以是多个媒体文件的使用量之和,即第一检索词和第二检索词同时包括在该预设主题的主题内容中的所有媒体文件的使用量之和。
示例地,词1为第一检索词,词2为第二检索词,针对预设主题A,媒体文件c的预设主题A的主题内容中同时包括词1和词2,媒体文件c的使用量例如为40;媒体文件d的预设主题A的主题内容中也同时包括词1和词2,媒体文件d的使用量例如为60,则词1和词2同时包括在预设主题A的主题内容中的媒体文件的第二使用量,可以为媒体文件c和媒体文件d的使用量之和100。针对预设主题B,词1和词2同时包括在预设主题B的主题内容中的媒体文件的第二使用量例如可以为200。
在针对每一预设主题,确定第一检索词和第二检索词同时包括在该预设主题的主题内容中的媒体文件的第二使用量之后,可确定该第二使用量之和。在上述示例中,对于词1和词2来说,对应的第二使用量之和可以为300。
在S402中,获取第一检索词和第二检索词包括在不同预设主题的主题内容中的媒体文件的第三使用量。
该第三使用量也可以是多个媒体文件的使用量之和。示例地,媒体文件e的预设主题A的主题内容中包括词1但不包括词2,预设主题B的主题内容中包括词2但不包括词1,媒体文件e的使用量例如为50。媒体文件f的预设主题A的主题内容中包括词2但不包括词1,预设主题B的主题内容中包括词1但不包括词2,媒体文件f的使用量例如为150。词1和词2包括在不同预设主题的主题内容中的媒体文件的第三使用量,可以为媒体文件e和媒体文件f的使用量之和200。
在S403中,根据第一检索词和第二检索词同时包括在目标预设主题的主题内容中的媒体文件的第二使用量、第二使用量之和、以及第三使用量,确定第二概率。
示例地,可通过如下公式,确定第一检索词和第二检索词同时属于目标预设主题的第二概率:
其中,W1表示第一检索词,W2表示第二检索词,P(both in Ft|W1,W2)表示第二概率,count(W1,W2 both in Ft)表示第一检索词和第二检索词同时包括在目标预设主题的主题内容中的媒体文件的第二使用量,count(W1,W2 both in Fi)表示第一检索词和第二检索词同时包括在第i个预设主题的主题内容中的媒体文件的第二使用量,count(W1,W2in different F)表示第三使用量,F表示预设主题,m表示预设主题的个数。
沿用上述示例,词1和词2同时属于预设主题A的第二概率可以为100/300+200=0.2。
对于用户可能会输入的任意两个检索词,均可通过图4的方式,预先确定这两个检索词同时属于某一预设主题的概率,并预先存储在数据库中。在S204中,可从数据库中获取到第一检索词和第二检索词同时属于目标预设主题的第二概率。
本公开中,第一检索词和第二检索词中其中一个属于目标预设主题且另一个属于其他预设主题的第三概率可通过图5所示的方式预先确定出,包括S501和S502。
在S501中,获取第一检索词和第二检索词中的其中一个检索词包括在目标预设主题的主题内容中、且另一个检索词包括在其他预设主题的主题内容中的媒体文件的第四使用量。
其中,两个检索词中其中一个检索词包括在目标预设主题的主题内容中、且另一个检索词包括在其他预设主题的主题内容中,为两个检索词包括在不同预设主题的主题内容中的一种情况,该步骤中,确定第四使用量的方式可与S402中确定第三使用量的方式类似,该第四使用量也可为多个媒体文件的使用量之和。
在S502中,根据第二使用量之和、第三使用量、以及第四使用量,确定第三概率。
示例地,可通过如下公式,确定该第三概率:
其中,P(only one in Ft|W1,W2)表示第三概率,count(either W1 or W2 in Ft)表示第四使用量。
在获取到第一概率、第二概率、第三概率和第四概率后,可通过如下公式,确定检索词在检索信息中属于目标预设主题的目标概率:
其中,Fx表示第x个预设主题,Wy表示第y个检索词,Q表示检索信息,P(Fx|Wy|Q)表示第y个检索词在检索信息中属于第x个预设主题的目标概率,P(Fx|Wy)表示第y个检索词属于第x个预设主题的概率,Fi表示第i个预设主题,Wj表示第j个检索词,P(Fi|Wj)表示第j个检索词属于第i个预设主题的概率,P(both in Fx|Wj,Wy)表示第j个检索词和第y个检索词同时属于第x个预设主题的概率,P(only one in Fx|Wj,Wy)表示第j个检索词和第y个检索词中其中一个属于第x个预设主题且另一个属于其他预设主题的概率,m表示预设主题的个数,n表示检索词的个数。
下面以预设主题为两个、检索信息可包括两个检索词为例,介绍本公开中确定检索词在检索信息中属于预设主题的目标概率。在一实施例中,可将预设主题A作为第一个预设主题,预设主题B作为第二个预设主题,将词1作为第一个检索词,词2作为第二个检索词。
词1在检索信息中属于预设主题A的目标概率P(F1|W1|Q)可以为:
P(F1|W1|Q)=P(F1|W1)*[P(F1|W2)*P(both inF1|W1,W2)+P(F2|W2)*P(only oneinF1|W1,W2)]
词1在检索信息中属于预设主题B的目标概率P(F2|W1|Q)可以为:
P(F2|W1|Q)=P(F2|W1)*[P(F2|W2)*P(both inF2|W1,W2)+P(F1|W2)*P(only oneinF2|W1,W2)]
词2在检索信息中属于预设主题A的目标概率P(F1|W2|Q)可以为:
P(F1|W2|Q)=P(F1|W2)*[P(F1|W1)*P(both inF1|W1,W2)+P(F2|W1)*P(only oneinF1|W1,W2)]
词2在检索信息中属于预设主题B的目标概率P(F2|W2|Q)可以为:
P(F2|W2|Q)=P(F2|W2)*[P(F2|W1)*P(both inF2|W1,W2)+P(F1|W1)*P(only oneinF2|W1,W2)]
如此,当检索信息中包括多个检索词时,可通过图2所示的实施方式,针对检索信息中的每一检索词,分别确定该检索词属于每一预设主题的目标概率。其中,对于图2中S203和S204的执行顺序,本公开不做具体限制,S204也可在S203之前执行,或二者也可并行执行。
当检索信息包括一个检索词时,该检索词在检索信息中属于预设主题的目标概率,也即是该检索词属于该预设主题的概率,该概率可通过上述图3所示的方式预先确定出,并预先存储在数据库中。如果S101中获取到的检索信息中包括一个检索词,则S102中可直接从数据库中分别获取到该检索词属于每一预设主题的目标概率。
图6是根据另一示例性实施例示出的一种意图识别方法的流程图,如图6所示,除S101~S103外,本公开提供的意图识别方法还可包括S601和S602。
在S601中,根据检索信息和目标概率,确定待展示的多个目标媒体文件。
待展示的目标媒体文件可以为检索出的、与用户输入的检索信息相关的媒体文件。本公开中,在确定待展示的目标媒体文件时,除了根据用户输入的检索信息外,还根据确定出的检索词在检索信息中属于预设主题的目标概率。
其中,在目标概率高于预设阈值的情况下,可将目标概率对应的检索词包括在目标概率对应的预设主题的主题内容中的媒体文件,确定为目标媒体文件。预设阈值可预先标定出,目标概率高于预设阈值,可表征检索词在检索信息中所表征的意图为预设主题的可能性较大。
示例地,沿用S103中的目标概率值的示例,词2在检索信息中属于媒体文件的名称这一预设主题的目标概率为0.92,高于预设阈值,可将名称中包括词2的媒体文件,确定为待展示的目标媒体文件。而词2在检索信息中属于创作者这一预设主题的目标概率为0.08,目标概率较低,低于预设阈值,可不在存储创作者相关信息的数据库中搜索词2,也即是可不将创作者的主题内容中包括词2的媒体文件,确定为待展示的目标媒体文件。
这样,在确定目标媒体文件时,参考确定出的目标概率,如果目标概率过低,低于预设阈值,可表征检索词在检索信息中所表征的意图为该预设主题的可能性较小,那么在确定检索结果时,可以不在该目标概率对应的预设主题的数据库中搜索该检索词,可提高检索效率。
在S602中,针对每一目标媒体文件,根据目标概率和该目标媒体文件的各个预设主题的主题内容,确定该目标媒体文件的展示顺序。
在确定目标媒体文件的展示顺序时,可首先针对每一预设主题,在目标媒体文件的该预设主题的主题内容中包括检索词的情况下,根据该预设主题的主题内容中包括的检索词,以及该检索词在检索信息中属于该预设主题的目标概率,确定目标媒体文件与检索信息之间的相关度。之后,根据该相关度,确定目标媒体文件的展示顺序。
示例地,以检索信息包括词1和词2为例,沿用S103中的目标概率值的示例,以四个目标媒体文件的展示顺序为例进行说明,该四个目标媒体文件例如为:
目标媒体文件g:创作者的主题内容中包括词1,名称包括词2;
目标媒体文件h:创作者的主题内容中包括词2,名称包括词1;
目标媒体文件k:创作者的主题内容中包括词1,名称包括词3;
目标媒体文件r:创作者的主题内容中包括词4,名称包括词2。
根据相关技术中的方案,目标媒体文件g和目标媒体文件h,由于这两个目标媒体文件的主题内容中均出现了检索信息中的词1和词2,因此认为这两个目标媒体文件与检索信息之间的相关度是一样的。对于目标媒体文件k和目标媒体文件r,目标媒体文件k的主题内容中具有检索信息中的其中一个词,即词1,目标媒体文件r的主题内容中具有检索信息中的其中一个词,即词2,二者均匹配了检索信息中的一个检索词,根据相关技术中的方案,认为这两个目标媒体文件与检索信息之间的相关度是一样的,在确定它们的展示顺序时,可随机进行排序。
本公开中,根据确定出的目标概率,可更精确地确定目标媒体文件与检索信息之间的相关度。
对于目标媒体文件g,创作者的主题内容中包括词1,词1在检索信息中属于创作者这一预设主题的目标概率为0.79,目标媒体文件g的名称包括词2,词2在检索信息中属于媒体文件的名称这一预设主题的目标概率为0.92。在确定目标媒体文件g与检索信息之间的相关度时,可根据该目标概率以及各个检索词所占的权重来确定,其中,词1和词2所占的权重可以均为0.5,该相关度可以为0.5×0.79+0.5×0.92。
同样的方式,目标媒体文件h与检索信息之间的相关度可以为0.5×0.21+0.5×0.08。目标媒体文件k与检索信息之间的相关度可以为0.5×0.79。目标媒体文件与检索信息之间的相关度可以为0.5×0.92。
其中,可将与检索信息之间的相关度较高的目标媒体文件的展示顺序排在前面,将与检索信息之间的相关度较低的目标媒体文件的展示顺序排在后面。示例地,在确定这四个目标媒体文件的展示顺序时,从前到后依次可以为:目标媒体文件g、目标媒体文件r、目标媒体文件k、目标媒体文件h。
如此,相比于相关技术中的方式,对用户的检索意图的识别更为准确,根据目标概率对目标媒体文件进行排序,可以使得用户首先浏览到更符合其检索意图的目标媒体文件,提升用户体验,并且使得目标媒体文件的展示顺序更为合理。
基于同一发明构思,本公开还提供一种意图识别装置,图7是根据一示例性实施例示出的一种意图识别装置的框图,如图7所示,该装置700可包括:
获取模块701,被配置成用于获取检索信息,所述检索信息包括至少一个检索词;
目标概率确定模块702,被配置成用于针对每一所述检索词,分别确定该检索词在所述检索信息中属于每一预设主题的目标概率;
识别模块703,被配置成用于根据所述目标概率,识别所述检索信息对应的目标意图。
通过上述技术方案,检索信息中可包括至少一个检索词,针对每一检索词,分别确定该检索词在检索信息中属于每一预设主题的目标概率,该目标概率可以指的是,该检索词在用户输入的检索信息中所表征的意图与该预设主题的相关性。对于检索词表征不同意图的情况,根据确定出的目标概率,可以准确识别检索信息对应的目标意图,提高意图识别的准确性,从而可以为用户提供更符合其需求的检索结果。
可选地,所述检索信息包括多个所述检索词;所述目标概率确定模块702可包括:遍历子模块,被配置成用于遍历每一所述预设主题,并将当前遍历到的所述预设主题作为目标预设主题;第一确定子模块,被配置成用于将该检索词作为第一检索词,该检索词外的其他每一所述检索词分别作为第二检索词;第一获取子模块,被配置成用于获取所述第一检索词属于所述目标预设主题的第一概率;第二获取子模块,被配置成用于针对每一所述第二检索词,获取所述第一检索词和该第二检索词同时属于所述目标预设主题的第二概率,以及所述第一检索词和该第二检索词中其中一个属于所述目标预设主题且另一个属于其他预设主题的第三概率,并分别获取该第二检索词属于每一所述预设主题的第四概率;第二确定子模块,被配置成用于根据所述第一概率、所述第二概率、所述第三概率和所述第四概率,确定所述第一检索词在所述检索信息中属于所述目标预设主题的目标概率。
可选地,所述检索信息为针对媒体文件的检索信息,所述媒体文件具有在每一所述预设主题下的主题内容;所述装置700还可包括:目标媒体文件确定模块,被配置成用于根据所述检索信息和所述目标概率,确定待展示的多个目标媒体文件;展示顺序确定模块,被配置成用于针对每一所述目标媒体文件,根据所述目标概率和该目标媒体文件的各个预设主题的主题内容,确定该目标媒体文件的展示顺序。
可选地,所述目标媒体文件确定模块被配置成用于在所述目标概率高于预设阈值的情况下,将所述目标概率对应的检索词包括在所述目标概率对应的预设主题的主题内容中的媒体文件,确定为所述目标媒体文件。
可选地,所述展示顺序确定模块,包括:相关度确定子模块,被配置成用于针对每一所述预设主题,在所述目标媒体文件的该预设主题的主题内容中包括所述检索词的情况下,根据该预设主题的主题内容中包括的检索词,以及该检索词在所述检索信息中属于该预设主题的所述目标概率,确定所述目标媒体文件与所述检索信息之间的相关度;展示顺序确定子模块,被配置成用于根据所述相关度,确定所述目标媒体文件的展示顺序。
下面参考图8,其示出了适于用来实现本公开实施例的电子设备800的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800可以包括处理装置(例如中央处理器、图形处理器等)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储装置808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有电子设备800操作所需的各种程序和数据。处理装置801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
通常,以下装置可以连接至I/O接口805:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置806;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置807;包括例如磁带、硬盘等的存储装置808;以及通信装置809。通信装置809可以允许电子设备800与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备800,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置809从网络上被下载和安装,或者从存储装置808被安装,或者从ROM 802被安装。在该计算机程序被处理装置801执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
在一些实施方式中,客户端、服务器可以利用诸如HTTP(HyperText TransferProtocol,超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信,并且可以与任意形式或介质的数字数据通信(例如,通信网络)互连。通信网络的示例包括局域网(“LAN”),广域网(“WAN”),网际网(例如,互联网)以及端对端网络(例如,ad hoc端对端网络),以及任何当前已知或未来研发的网络。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:获取检索信息,所述检索信息包括至少一个检索词;针对每一所述检索词,分别确定该检索词在所述检索信息中属于每一预设主题的目标概率;根据所述目标概率,识别所述检索信息对应的目标意图。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该模块本身的限定,例如,获取模块还可以被描述为“检索信息获取模块”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
根据本公开的一个或多个实施例,示例1提供了一种意图识别方法,所述方法包括:获取检索信息,所述检索信息包括至少一个检索词;针对每一所述检索词,分别确定该检索词在所述检索信息中属于每一预设主题的目标概率;根据所述目标概率,识别所述检索信息对应的目标意图。
根据本公开的一个或多个实施例,示例2提供了示例1的方法,所述检索信息包括多个所述检索词;所述分别确定该检索词在所述检索信息中属于每一预设主题的目标概率,包括:遍历每一所述预设主题,并将当前遍历到的所述预设主题作为目标预设主题;将该检索词作为第一检索词,该检索词外的其他每一所述检索词分别作为第二检索词;获取所述第一检索词属于所述目标预设主题的第一概率;针对每一所述第二检索词,获取所述第一检索词和该第二检索词同时属于所述目标预设主题的第二概率,以及所述第一检索词和该第二检索词中其中一个属于所述目标预设主题且另一个属于其他预设主题的第三概率,并分别获取该第二检索词属于每一所述预设主题的第四概率;根据所述第一概率、所述第二概率、所述第三概率和所述第四概率,确定所述第一检索词在所述检索信息中属于所述目标预设主题的目标概率。
根据本公开的一个或多个实施例,示例3提供了示例2的方法,通过如下公式确定检索词在检索信息中属于预设主题的目标概率:
其中,Fx表示第x个预设主题,Wy表示第y个检索词,Q表示检索信息,P(Fx|Wy|Q)表示第y个检索词在检索信息中属于第x个预设主题的目标概率,P(Fx|Wy)表示第y个检索词属于第x个预设主题的概率,Fi表示第i个预设主题,Wj表示第j个检索词,P(Fi|Wj)表示第j个检索词属于第i个预设主题的概率,P(both in Fx|Wj,Wy)表示第j个检索词和第y个检索词同时属于第x个预设主题的概率,P(only one in Fx|Wj,Wy)表示第j个检索词和第y个检索词中其中一个属于第x个预设主题且另一个属于其他预设主题的概率,m表示预设主题的个数,n表示检索词的个数。
根据本公开的一个或多个实施例,示例4提供了示例2的方法,所述检索信息为针对媒体文件的检索信息,所述媒体文件具有在每一所述预设主题下的主题内容;所述检索词属于目标预设主题的概率是通过如下方式确定的:针对每一所述预设主题,获取所述检索词包括在该预设主题的主题内容中的媒体文件的第一使用量,并确定该第一使用量之和;根据所述检索词包括在所述目标预设主题的主题内容中的媒体文件的第一使用量,以及所述第一使用量之和,确定所述检索词属于所述目标预设主题的概率。
根据本公开的一个或多个实施例,示例5提供了示例4的方法,通过如下公式,确定所述检索词属于所述目标预设主题的概率:
其中,Ft表示所述目标预设主题,W表示检索词,P(Ft|W)表示该检索词属于所述目标预设主题的概率,count(W in Ft)表示该检索词包括在所述目标预设主题的主题内容中的媒体文件的第一使用量,Fi表示第i个预设主题,count(W in Fi)表示该检索词包括在第i个预设主题的主题内容中的媒体文件的第一使用量,m表示预设主题的个数。
根据本公开的一个或多个实施例,示例6提供了示例2的方法,所述检索信息为针对媒体文件的检索信息,所述媒体文件具有在每一所述预设主题下的主题内容;所述第一检索词和所述第二检索词同时属于所述目标预设主题的所述第二概率是通过如下方式确定的:针对每一所述预设主题,获取所述第一检索词和所述第二检索词同时包括在该预设主题的主题内容中的媒体文件的第二使用量,并确定该第二使用量之和;获取所述第一检索词和所述第二检索词包括在不同预设主题的主题内容中的媒体文件的第三使用量;根据所述第一检索词和所述第二检索词同时包括在所述目标预设主题的主题内容中的媒体文件的第二使用量、所述第二使用量之和、以及所述第三使用量,确定所述第二概率。
根据本公开的一个或多个实施例,示例7提供了示例6的方法,通过如下公式,确定所述第二概率:
其中,Ft表示所述目标预设主题,W1表示第一检索词,W2表示第二检索词,P(bothin Ft|W1,W2)表示所述第二概率,count(W1,W2 both in Ft)表示第一检索词和第二检索词同时包括在所述目标预设主题的主题内容中的媒体文件的第二使用量,Fi表示第i个预设主题,count(W1,W2 both in Fi)表示第一检索词和第二检索词同时包括在第i个预设主题的主题内容中的媒体文件的第二使用量,count(W1,W2 in different F)表示所述第三使用量,F表示预设主题,m表示预设主题的个数。
根据本公开的一个或多个实施例,示例8提供了示例6的方法,所述第一检索词和所述第二检索词中其中一个属于所述目标预设主题且另一个属于其他预设主题的所述第三概率是通过如下方式确定的:获取所述第一检索词和所述第二检索词中的其中一个检索词包括在所述目标预设主题的主题内容中、且另一个检索词包括在其他预设主题的主题内容中的媒体文件的第四使用量;根据所述第二使用量之和、所述第三使用量、以及所述第四使用量,确定所述第三概率。
根据本公开的一个或多个实施例,示例9提供了示例8的方法,通过如下公式,确定所述第三概率:
其中,Ft表示所述目标预设主题,W1表示第一检索词,W2表示第二检索词,P(onlyone in Ft|W1,W2)表示所述第三概率,count(either W1 or W2 in Ft)表示所述第四使用量,Fi表示第i个预设主题,count(W1,W2 both in Fi)表示第一检索词和第二检索词同时包括在第i个预设主题的主题内容中的媒体文件的第二使用量,count(W1,W2 in differentF)表示所述第三使用量,F表示预设主题,m表示预设主题的个数。
根据本公开的一个或多个实施例,示例10提供了示例1的方法,所述检索信息为针对媒体文件的检索信息,所述媒体文件具有在每一所述预设主题下的主题内容;所述方法还包括:根据所述检索信息和所述目标概率,确定待展示的多个目标媒体文件;针对每一所述目标媒体文件,根据所述目标概率和该目标媒体文件的各个预设主题的主题内容,确定该目标媒体文件的展示顺序。
根据本公开的一个或多个实施例,示例11提供了示例10的方法,所述根据所述检索信息和所述目标概率,确定待展示的多个目标媒体文件,包括:在所述目标概率高于预设阈值的情况下,将所述目标概率对应的检索词包括在所述目标概率对应的预设主题的主题内容中的媒体文件,确定为所述目标媒体文件。
根据本公开的一个或多个实施例,示例12提供了示例10的方法,所述根据所述目标概率和该目标媒体文件的各个预设主题的主题内容,确定该目标媒体文件的展示顺序,包括:针对每一所述预设主题,在所述目标媒体文件的该预设主题的主题内容中包括所述检索词的情况下,根据该预设主题的主题内容中包括的检索词,以及该检索词在所述检索信息中属于该预设主题的所述目标概率,确定所述目标媒体文件与所述检索信息之间的相关度;根据所述相关度,确定所述目标媒体文件的展示顺序。
根据本公开的一个或多个实施例,示例13提供了一种意图识别装置,所述装置包括:获取模块,被配置成用于获取检索信息,所述检索信息包括至少一个检索词;目标概率确定模块,被配置成用于针对每一所述检索词,分别确定该检索词在所述检索信息中属于每一预设主题的目标概率;识别模块,被配置成用于根据所述目标概率,识别所述检索信息对应的目标意图。
根据本公开的一个或多个实施例,示例14提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理装置执行时实现示例1至示例12中任一项所述方法的步骤。
根据本公开的一个或多个实施例,示例15提供了一种电子设备,包括:存储装置,其上存储有计算机程序;处理装置,用于执行所述存储装置中的所述计算机程序,以实现示例1至示例12中任一项所述方法的步骤。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

Claims (14)

1.一种意图识别方法,其特征在于,所述方法包括:
获取检索信息,所述检索信息包括多个检索词;
针对每一所述检索词,分别确定该检索词在所述检索信息中属于每一预设主题的目标概率;
根据所述目标概率,识别所述检索信息对应的目标意图;
其中,所述分别确定该检索词在所述检索信息中属于每一预设主题的目标概率,包括:
遍历每一所述预设主题,并将当前遍历到的所述预设主题作为目标预设主题;
将该检索词作为第一检索词,该检索词外的其他每一所述检索词分别作为第二检索词;
获取所述第一检索词属于所述目标预设主题的第一概率;
针对每一所述第二检索词,获取所述第一检索词和该第二检索词同时属于所述目标预设主题的第二概率,以及所述第一检索词和该第二检索词中其中一个属于所述目标预设主题且另一个属于其他预设主题的第三概率,并分别获取该第二检索词属于每一所述预设主题的第四概率;
根据所述第一概率、所述第二概率、所述第三概率和所述第四概率,确定所述第一检索词在所述检索信息中属于所述目标预设主题的目标概率。
2.根据权利要求1所述的方法,其特征在于,通过如下公式确定检索词在检索信息中属于预设主题的目标概率:
其中,Fx表示第x个预设主题,Wy表示第y个检索词,Q表示检索信息,P(Fx|Wy|Q)表示第y个检索词在检索信息中属于第x个预设主题的目标概率,P(Fx|Wy)表示第y个检索词属于第x个预设主题的概率,Fi表示第i个预设主题,Wj表示第j个检索词,P(Fi|Wj)表示第j个检索词属于第i个预设主题的概率,P(both in Fx|Wj,Wy)表示第j个检索词和第y个检索词同时属于第x个预设主题的概率,P(only one in Fx|Wj,Wy)表示第j个检索词和第y个检索词中其中一个属于第x个预设主题且另一个属于其他预设主题的概率,m表示预设主题的个数,n表示检索词的个数。
3.根据权利要求1所述的方法,其特征在于,所述检索信息为针对媒体文件的检索信息,所述媒体文件具有在每一所述预设主题下的主题内容;
所述检索词属于目标预设主题的概率是通过如下方式确定的:
针对每一所述预设主题,获取所述检索词包括在该预设主题的主题内容中的媒体文件的第一使用量,并确定该第一使用量之和;
根据所述检索词包括在所述目标预设主题的主题内容中的媒体文件的第一使用量,以及所述第一使用量之和,确定所述检索词属于所述目标预设主题的概率。
4.根据权利要求3所述的方法,其特征在于,通过如下公式,确定所述检索词属于所述目标预设主题的概率:
其中,Ft表示所述目标预设主题,W表示检索词,P(Ft|W)表示该检索词属于所述目标预设主题的概率,count(W in Ft)表示该检索词包括在所述目标预设主题的主题内容中的媒体文件的第一使用量,Fi表示第i个预设主题,count(W in Fi)表示该检索词包括在第i个预设主题的主题内容中的媒体文件的第一使用量,m表示预设主题的个数。
5.根据权利要求1所述的方法,其特征在于,所述检索信息为针对媒体文件的检索信息,所述媒体文件具有在每一所述预设主题下的主题内容;
所述第一检索词和所述第二检索词同时属于所述目标预设主题的所述第二概率是通过如下方式确定的:
针对每一所述预设主题,获取所述第一检索词和所述第二检索词同时包括在该预设主题的主题内容中的媒体文件的第二使用量,并确定该第二使用量之和;
获取所述第一检索词和所述第二检索词包括在不同预设主题的主题内容中的媒体文件的第三使用量;
根据所述第一检索词和所述第二检索词同时包括在所述目标预设主题的主题内容中的媒体文件的第二使用量、所述第二使用量之和、以及所述第三使用量,确定所述第二概率。
6.根据权利要求5所述的方法,其特征在于,通过如下公式,确定所述第二概率:
其中,Ft表示所述目标预设主题,W1表示第一检索词,W2表示第二检索词,P(both in Ft|W1,W2)表示所述第二概率,count(W1,W2 both in Ft)表示第一检索词和第二检索词同时包括在所述目标预设主题的主题内容中的媒体文件的第二使用量,Fi表示第i个预设主题,count(W1,W2 both in Fi)表示第一检索词和第二检索词同时包括在第i个预设主题的主题内容中的媒体文件的第二使用量,count(W1,W2 in different F)表示所述第三使用量,F表示预设主题,m表示预设主题的个数。
7.根据权利要求5所述的方法,其特征在于,所述第一检索词和所述第二检索词中其中一个属于所述目标预设主题且另一个属于其他预设主题的所述第三概率是通过如下方式确定的:
获取所述第一检索词和所述第二检索词中的其中一个检索词包括在所述目标预设主题的主题内容中、且另一个检索词包括在其他预设主题的主题内容中的媒体文件的第四使用量;
根据所述第二使用量之和、所述第三使用量、以及所述第四使用量,确定所述第三概率。
8.根据权利要求7所述的方法,其特征在于,通过如下公式,确定所述第三概率:
其中,Ft表示所述目标预设主题,W1表示第一检索词,W2表示第二检索词,P(only onein Ft|W1,W2)表示所述第三概率,count(either W1 or W2 in Ft)表示所述第四使用量,Fi表示第i个预设主题,count(W1,W2 both in Fi)表示第一检索词和第二检索词同时包括在第i个预设主题的主题内容中的媒体文件的第二使用量,count(W1,W2 in different F)表示所述第三使用量,F表示预设主题,m表示预设主题的个数。
9.根据权利要求1所述的方法,其特征在于,所述检索信息为针对媒体文件的检索信息,所述媒体文件具有在每一所述预设主题下的主题内容;所述方法还包括:
根据所述检索信息和所述目标概率,确定待展示的多个目标媒体文件;
针对每一所述目标媒体文件,根据所述目标概率和该目标媒体文件的各个预设主题的主题内容,确定该目标媒体文件的展示顺序。
10.根据权利要求9所述的方法,其特征在于,所述根据所述检索信息和所述目标概率,确定待展示的多个目标媒体文件,包括:
在所述目标概率高于预设阈值的情况下,将所述目标概率对应的检索词包括在所述目标概率对应的预设主题的主题内容中的媒体文件,确定为所述目标媒体文件。
11.根据权利要求9所述的方法,其特征在于,所述根据所述目标概率和该目标媒体文件的各个预设主题的主题内容,确定该目标媒体文件的展示顺序,包括:
针对每一所述预设主题,在所述目标媒体文件的该预设主题的主题内容中包括所述检索词的情况下,根据该预设主题的主题内容中包括的检索词,以及该检索词在所述检索信息中属于该预设主题的所述目标概率,确定所述目标媒体文件与所述检索信息之间的相关度;
根据所述相关度,确定所述目标媒体文件的展示顺序。
12.一种意图识别装置,其特征在于,所述装置包括:
获取模块,被配置成用于获取检索信息,所述检索信息包括多个检索词;
目标概率确定模块,被配置成用于针对每一所述检索词,分别确定该检索词在所述检索信息中属于每一预设主题的目标概率;
识别模块,被配置成用于根据所述目标概率,识别所述检索信息对应的目标意图;
所述目标概率确定模块包括:
遍历子模块,被配置成用于遍历每一所述预设主题,并将当前遍历到的所述预设主题作为目标预设主题;
第一确定子模块,被配置成用于将该检索词作为第一检索词,该检索词外的其他每一所述检索词分别作为第二检索词;
第一获取子模块,被配置成用于获取所述第一检索词属于所述目标预设主题的第一概率;
第二获取子模块,被配置成用于针对每一所述第二检索词,获取所述第一检索词和该第二检索词同时属于所述目标预设主题的第二概率,以及所述第一检索词和该第二检索词中其中一个属于所述目标预设主题且另一个属于其他预设主题的第三概率,并分别获取该第二检索词属于每一所述预设主题的第四概率;
第二确定子模块,被配置成用于根据所述第一概率、所述第二概率、所述第三概率和所述第四概率,确定所述第一检索词在所述检索信息中属于所述目标预设主题的目标概率。
13.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理装置执行时实现权利要求1-11中任一项所述方法的步骤。
14.一种电子设备,其特征在于,包括:
存储装置,其上存储有计算机程序;
处理装置,用于执行所述存储装置中的所述计算机程序,以实现权利要求1-11中任一项所述方法的步骤。
CN202010634548.7A 2020-07-02 2020-07-02 意图识别方法、装置、可读介质及电子设备 Active CN111783440B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010634548.7A CN111783440B (zh) 2020-07-02 2020-07-02 意图识别方法、装置、可读介质及电子设备
PCT/CN2021/102254 WO2022001846A1 (zh) 2020-07-02 2021-06-25 意图识别方法、装置、可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010634548.7A CN111783440B (zh) 2020-07-02 2020-07-02 意图识别方法、装置、可读介质及电子设备

Publications (2)

Publication Number Publication Date
CN111783440A CN111783440A (zh) 2020-10-16
CN111783440B true CN111783440B (zh) 2024-04-26

Family

ID=72759007

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010634548.7A Active CN111783440B (zh) 2020-07-02 2020-07-02 意图识别方法、装置、可读介质及电子设备

Country Status (2)

Country Link
CN (1) CN111783440B (zh)
WO (1) WO2022001846A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783440B (zh) * 2020-07-02 2024-04-26 北京字节跳动网络技术有限公司 意图识别方法、装置、可读介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN107862027A (zh) * 2017-10-31 2018-03-30 北京小度信息科技有限公司 检索意图识别方法、装置、电子设备及可读存储介质
CN108287901A (zh) * 2018-01-24 2018-07-17 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN110597987A (zh) * 2019-08-21 2019-12-20 微梦创科网络科技(中国)有限公司 一种搜索推荐方法及装置
CN110968686A (zh) * 2018-09-28 2020-04-07 百度在线网络技术(北京)有限公司 意图识别方法、装置、设备及计算机可读介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090326947A1 (en) * 2008-06-27 2009-12-31 James Arnold System and method for spoken topic or criterion recognition in digital media and contextual advertising
CN104765769B (zh) * 2015-03-06 2018-04-27 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法
US10242093B2 (en) * 2015-10-29 2019-03-26 Intuit Inc. Method and system for performing a probabilistic topic analysis of search queries for a customer support system
CN109063094A (zh) * 2018-07-27 2018-12-21 吉首大学 一种建立中医药知识图谱的方法
CN111783440B (zh) * 2020-07-02 2024-04-26 北京字节跳动网络技术有限公司 意图识别方法、装置、可读介质及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
WO2018149326A1 (zh) * 2017-02-16 2018-08-23 阿里巴巴集团控股有限公司 一种自然语言问句答案的生成方法、装置及服务器
CN107862027A (zh) * 2017-10-31 2018-03-30 北京小度信息科技有限公司 检索意图识别方法、装置、电子设备及可读存储介质
CN108287901A (zh) * 2018-01-24 2018-07-17 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN110968686A (zh) * 2018-09-28 2020-04-07 百度在线网络技术(北京)有限公司 意图识别方法、装置、设备及计算机可读介质
CN110597987A (zh) * 2019-08-21 2019-12-20 微梦创科网络科技(中国)有限公司 一种搜索推荐方法及装置

Also Published As

Publication number Publication date
CN111783440A (zh) 2020-10-16
WO2022001846A1 (zh) 2022-01-06

Similar Documents

Publication Publication Date Title
CN111414498B (zh) 多媒体信息推荐方法、装置及电子设备
CN111368185B (zh) 数据展示方法、装置、存储介质及电子设备
CN111444356B (zh) 基于搜索的推荐方法及装置
CN112528595B (zh) 文档处理方法、装置和电子设备
CN111400625B (zh) 页面处理方法、装置、电子设备及计算机可读存储介质
WO2022105775A1 (zh) 搜索处理方法、模型训练方法、装置、介质及设备
CN113204691B (zh) 一种信息展示方法、装置、设备及介质
CN111324700A (zh) 资源召回方法、装置、电子设备及计算机可读存储介质
CN114357325A (zh) 内容搜索方法、装置、设备及介质
CN110825481A (zh) 页面标签对应的页面信息的展示方法、装置、电子设备
CN114995691B (zh) 一种文档处理方法、装置、设备和介质
CN111783440B (zh) 意图识别方法、装置、可读介质及电子设备
CN110765357A (zh) 在线文档的搜索方法、装置、设备及存储介质
CN111782895B (zh) 检索处理方法、装置、可读介质及电子设备
CN111339452B (zh) 搜索结果展现的方法、终端、服务器和系统
CN111737571B (zh) 搜索方法、装置和电子设备
CN111382365B (zh) 用于输出信息的方法和装置
CN110442403B (zh) 一种调用功能组件的方法、装置、电子设备及介质
CN111310031B (zh) 房源信息展示方法、装置、终端及存储介质
CN110598133A (zh) 确定搜索项目的顺序的方法、装置、电子设备和计算机可读存储介质
CN112182290A (zh) 一种信息处理方法、装置和电子设备
CN113032808B (zh) 数据处理方法、装置、可读介质及电子设备
CN114997120B (zh) 文档标签的生成方法、装置、终端和存储介质
CN117390284A (zh) 书籍推荐方法、装置、介质和电子设备
CN117435750A (zh) 一种媒体数据的搜索方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant