CN111488451A - 基于svm分类模型的用户查询信息及意图提取方法及装置 - Google Patents

基于svm分类模型的用户查询信息及意图提取方法及装置 Download PDF

Info

Publication number
CN111488451A
CN111488451A CN202010600199.7A CN202010600199A CN111488451A CN 111488451 A CN111488451 A CN 111488451A CN 202010600199 A CN202010600199 A CN 202010600199A CN 111488451 A CN111488451 A CN 111488451A
Authority
CN
China
Prior art keywords
information
target
keyword
word vector
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010600199.7A
Other languages
English (en)
Other versions
CN111488451B (zh
Inventor
杨贻宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Feiqi Network Technology Co ltd
Original Assignee
Shanghai Feiqi Network Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Feiqi Network Technology Co ltd filed Critical Shanghai Feiqi Network Technology Co ltd
Priority to CN202010600199.7A priority Critical patent/CN111488451B/zh
Publication of CN111488451A publication Critical patent/CN111488451A/zh
Application granted granted Critical
Publication of CN111488451B publication Critical patent/CN111488451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于SVM分类模型的用户查询信息及意图提取方法及装置。在执行上述方法时,通过对每个关键词进行挖掘和分类能够确定出每个关键词的多个近义的目标关键词,避免采用单一关键词进行搜索带来的歧义和偏差。通过词向量相似度确定目标主题信息,能够将终端设备的历史目标查询记录考虑在内,进而确保目标主题信息能够准确地表达终端设备的意图。如此,通过对关键词进行挖掘和分类,能够将不存在逻辑关联的离散关键词组合成与终端设备相适配的目标主题信息,这样可以确保得到的搜索结果与用户的搜索需求和意图相吻合。

Description

基于SVM分类模型的用户查询信息及意图提取方法及装置
技术领域
本发明涉及大数据健康信息搜索查询技术领域,具体而言,涉及一种基于SVM分类模型的用户查询信息及意图提取方法及装置。
背景技术
随着大健康时代的到来,越来越多的用户通过网络进行健康信息的搜索和咨询。搜索引擎作为常用的网络搜索工具之一,可以基于用户输入的查询词句进行健康信息的搜索和展示。但是搜索引擎接收到的查询词句大多是简短且不具有逻辑信息的多个关键词,若直接通过这些关键词进行健康信息的搜索,得到的搜索结果可能与用户的搜索需求和搜索意图存在偏差。
发明内容
为了改善上述问题,本发明提供了一种基于SVM分类模型的用户查询信息及意图提取方法及装置。
所述方案揭示一种基于SVM分类模型的用户查询信息及意图提取方法,应用于搜索引擎,所述方法包括:
获取终端设备发送的多个关键词以及所述终端设备的设备标识;
将每个关键词输入预先训练完成的SVM分类模型进行计算,得到每个关键词对应的类别分组以及所述类别分组下的多个目标关键词;
确定每个类别分组下的每个目标关键词的关键词标识,根据所述关键词标识将每个类别分组进行关联,得到多个查询主题信息;
提取每个查询主题信息的第一词向量;从预设的运行日志中确定与所述设备标识对应的目标查询记录,并提取目标查询记录的第二词向量;
计算每个第一词向量与所述第二词向量之间的相似度,将最大相似度对应的查询主题信息确定为目标主题信息;
基于所述目标主题信息进行搜索,并将搜索结果回传给所述终端设备。
优选地,所述方法还包括:
计算所述目标主题信息和预设主题信息之间的词向量相似度;
判断所述词向量相似度是否超过设定阈值;
若所述词向量相似度超过所述设定阈值,则向所述终端设备发送提示信息,以提示所述终端设备基于所述提示信息与目标设备进行通讯。
优选地,确定每个类别分组下的每个目标关键词的关键词标识,根据所述关键词标识将每个类别分组进行关联,得到多个查询主题信息,包括:
确定每个目标关键词的词性信息以及所述词性信息对应的上游词性信息和下游词性信息;
在每个类别分组下查找与每个目标关键词相对应的上游词性信息对应的上游关键词以及与每个目标关键词相对应的下游词性信息对应下游关键词;
将每个目标关键词及其对应的上游关键词和下游关键词进行关联得到所述查询主题信息。
优选地,从预设的运行日志中确定与所述设备标识对应的目标查询记录,包括:
获取所述运行日志中包括的携带有所述设备标识的多个初始查询记录;
在预设的信息数据库中查询是否存在所述初始查询记录的反馈信息;其中,所述反馈信息在所述终端设备接收到初始查询记录时反馈给所述预设的信息数据库;
若存在所述反馈信息,将所述反馈信息对应的初始查询记录确定为所述设备标识对应的目标查询记录。
优选地,计算每个第一词向量与所述第二词向量之间的相似度,将最大相似度对应的查询主题信息确定为目标主题信息,包括:
针对每个第一词向量,计算该第一词向量与每个目标查询记录对应的第二词向量之间的相似度,并计算该第一词向量对应的多个相似度的平均值;
将计算得到的最大平均值对应的第一词向量的查询主题信息确定为目标主题信息。
所述方案揭示一种基于SVM分类模型的用户查询信息及意图提取装置,应用于搜索引擎,所述装置包括:
信息获取模块,用于获取终端设备发送的多个关键词以及所述终端设备的设备标识;
分类计算模块,用于将每个关键词输入预先训练完成的SVM分类模型进行计算,得到每个关键词对应的类别分组以及所述类别分组下的多个目标关键词;
主题获得模块,用于确定每个类别分组下的每个目标关键词的关键词标识,根据所述关键词标识将每个类别分组进行关联,得到多个查询主题信息;
向量提取模块,用于提取每个查询主题信息的第一词向量;从预设的运行日志中确定与所述设备标识对应的目标查询记录,并提取目标查询记录的第二词向量;
主题确定模块,用于计算每个第一词向量与所述第二词向量之间的相似度,将最大相似度对应的查询主题信息确定为目标主题信息;
信息搜索模块,用于基于所述目标主题信息进行搜索,并将搜索结果回传给所述终端设备。
优选地,所述装置还包括信息提示模块,用于:计算所述目标主题信息和预设主题信息之间的词向量相似度;判断所述词向量相似度是否超过设定阈值;若所述词向量相似度超过所述设定阈值,则向所述终端设备发送提示信息,以提示所述终端设备基于所述提示信息与目标设备进行通讯。
优选地,所述主题获得模块,进一步用于:确定每个目标关键词的词性信息以及所述词性信息对应的上游词性信息和下游词性信息;在每个类别分组下查找与每个目标关键词相对应的上游词性信息对应的上游关键词以及与每个目标关键词相对应的下游词性信息对应下游关键词;将每个目标关键词及其对应的上游关键词和下游关键词进行关联得到所述查询主题信息。
优选地,所述向量提取模块,进一步用于:获取所述运行日志中包括的携带有所述设备标识的多个初始查询记录;在预设的信息数据库中查询是否存在所述初始查询记录的反馈信息;其中,所述反馈信息在所述终端设备接收到初始查询记录时反馈给所述预设的信息数据库;若存在所述反馈信息,将所述反馈信息对应的初始查询记录确定为所述设备标识对应的目标查询记录。
优选地,所述主题确定模块,还用于:针对每个第一词向量,计算该第一词向量与每个目标查询记录对应的第二词向量之间的相似度,并计算该第一词向量对应的多个相似度的平均值;将计算得到的最大平均值对应的第一词向量的查询主题信息确定为目标主题信息。
在应用上述方案时,首先获取多个关键词以及终端设备的设备标识,其次基于SVM模型提取每个关键词的类别分组以及每个类别分组下的目标关键词,然后根据每个目标关键词的关键词标识将每个类别分组进行关联得到多个查询主题,进而根据查询主题信息的第一词向量和从运行日志中确定出的与设备标识对应的目标查询记录的第二词向量确定目标主题信息,最后基于目标主题信息进行搜索并将搜索结果回传给终端设备。
另外,通过对每个关键词进行挖掘和分类能够确定出每个关键词的多个近义的目标关键词,避免采用单一关键词进行搜索带来的歧义和偏差。通过词向量相似度确定目标主题信息,能够将终端设备的历史目标查询记录考虑在内,进而确保目标主题信息能够准确地表达终端设备的意图。如此,通过对关键词进行挖掘和分类,能够将不存在逻辑关联的离散关键词组合成与终端设备相适配的目标主题信息,这样可以确保得到的搜索结果与用户的搜索需求和意图相吻合。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本公开揭示的计算机设备与终端设备交互的示意图。
图2为本公开揭示的一种基于SVM分类模型的用户查询信息及意图提取方法的步骤流程示意图。
图3为本公开揭示的一种基于SVM分类模型的用户查询信息及意图提取方法的另一步骤流程示意图。
图4为本公开揭示的一种基于SVM分类模型的用户查询信息及意图提取装置的功能模块框图。
图标:
100-计算机设备;110-搜索引擎;
200-终端设备;
300-基于SVM分类模型的用户查询信息及意图提取装置;
310-信息获取模块;320-分类计算模块;330-主题获得模块;340-向量提取模块;350-主题确定模块;360-信息搜索模块;370-信息提示模块。
具体实施方式
下面将参照附图更详细地描述本发明公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为便于对本公开进行阐述,请首先参阅图1,是计算机设备100与终端设备200交互的示意图。在图1中,终端设备200与配置于计算机设备100中的搜索引擎110进行数据交互或通信,终端设备200用于向计算机设备100发送关键词,搜索引擎110可以根据这些关键词进行搜索,并通过计算机设备100将搜索结果回传给终端设备200。
为确保得到的搜索结果与用户的搜索需求和意图相吻合,本公开对计算机设备100的搜索引擎110进行了改进,并通过执行图2所示的方法能够实现上述目的。其中,图2所示的方法可以包括以下步骤所描述的内容。
步骤S210,获取终端设备发送的多个关键词以及所述终端设备的设备标识。
在本实施例中,关键词可以是多个不具有逻辑连接性的关键词,例如感冒、发烧、乏力、跑步和寒冷等。设备标识可以是终端设备的mac地址,也可以是终端设备上登录的用户的用户身份信息,在此不作限定。
步骤S220,将每个关键词输入预先训练完成的SVM分类模型进行计算,得到每个关键词对应的类别分组以及所述类别分组下的多个目标关键词。
在本实施例中,支持向量机(Support Vector Machine, SVM)是一类按监督学习方式对数据进行二元分类的广义线性分类器。在训练SVM分类模型时,可以基于预先设置了标签的样本关键词以及样本搜索结果(训练集)对SVM分类模型进行训练和学习,然后采用测试集对SVM分类模型进行验证和参数校正。例如,可以采用基于SVM思想的开源工具LIBSVM对SVM分类模型进行参数校正。
通过开源工具LIBSVM对SVM分类模型进行参数校正,能够使得SVM分类模型支持多种主流语言,例如中文、英文和日文等。这样,搜索引擎110在接收到不同语言的关键词的时候,无需将关键词进行翻译即可直接输入SVM分类模型。
进一步地,SVM分类模型的训练过程如下:首先对训练集的格式进行检查,其次基于开源工具LIBSVM选择SVM分类模型的最优参数,然后基于最优参数进行SVM分类模型的训练,最后采用测试集对SVM分类模型进行评价。在完成对SVM分类模型的训练之后,可以将SVM分类模型部署于搜索引擎110中。
在本公开中,关键词的类别分组可以通过语义来进行分组,也可以通过词性来进行分组。例如,若通过语义来进行分组,则发烧和乏力的类别分组为症状,跑步的类别分组为行为,寒冷的类别分组为环境。又例如,若通过词性来分组,发烧和跑步的类别分组为动词,乏力和寒冷的类别分组为形容词。
在具体实施时,可以单独采用其中一种分类方式来分组,也可以结合多种分类方式来分组,在此不作限定。可以理解,不同类别分组下的目标关键词可以是近义词。因此,每个关键词在其类别分组下对应多个近义的目标关键词。
步骤S230,确定每个类别分组下的每个目标关键词的关键词标识,根据所述关键词标识将每个类别分组进行关联,得到多个查询主题信息。
在具体实施过程中,可以通过以下子步骤得到多个查询主题信息。
首先,确定每个目标关键词的词性信息以及所述词性信息对应的上游词性信息和下游词性信息。
其次,在每个类别分组下查找与每个目标关键词相对应的上游词性信息对应的上游关键词以及与每个目标关键词相对应的下游词性信息对应下游关键词。
最后,将每个目标关键词及其对应的上游关键词和下游关键词进行关联得到所述查询主题信息。
在上述内容中,关键词标识可以理解为关键词的词性信息。每个词性信息的上游词性信息和下游词性信息用于表征可以与该词性信息进行关联的词性信息。例如,若关键词“佩戴”的词性信息为动词,则关键词的“佩戴”的词性信息的上游词性信息可以为名词,上游关键词可以为“医生”、“护士”和“患者”等。关键词的“佩戴”的词性信息的下游词性信息也可以为名词,下游关键词可以为“口罩”和“面罩”等。
在具体实施时,可以在每个类别分组下查找与每个目标关键词相对应的上游词性信息对应的上游关键词以及与每个目标关键词相对应的下游词性信息对应下游关键词,这样可以基于每个目标关键词及其对应的上游关键词和下游关键词进行关联得到多个不同的查询主题信息。例如,其中一个查询主题信息可以是“在人群密集环境下进行跑步,出现畏寒和发热症状”。当然,在具体实施时,通过不同的上下游关键词组合可以得到多个不同的查询主题信息,在本实施例中不再进行一一列举。
步骤S240,提取每个查询主题信息的第一词向量;从预设的运行日志中确定与所述设备标识对应的目标查询记录,并提取目标查询记录的第二词向量。
在步骤S240中,可以基于自然语言处理(Natural Language Processing,NLP)技术对主题信息和目标查询记录进行词向量的提取。
进一步地,从预设的运行日志中确定与所述设备标识对应的目标查询记录,具体可以包括内容。
首先,获取所述运行日志中包括的携带有所述设备标识的多个初始查询记录。
其次,在预设的信息数据库中查询是否存在所述初始查询记录的反馈信息,若存在所述反馈信息,将所述反馈信息对应的初始查询记录确定为所述设备标识对应的目标查询记录。
在本实施例中,所述反馈信息在所述终端设备接收到初始查询记录时反馈给所述预设的信息数据库。运行日志可以是计算机设备100中保存的搜索记录。可以理解,通过上述内容,能够确保确定出的目标查询记录是满足终端设备200对应的用户查询需求和用户查询意图的。
步骤S250,计算每个第一词向量与所述第二词向量之间的相似度,将最大相似度对应的查询主题信息确定为目标主题信息。
进一步地,若目标查询记录为多个,则可以计算每个第一词向量与每个目标查询记录对应的第二词向量之间的相似度,然后计算每个第一词向量对应的多个相似度的平均值,从而将计算得到的最大平均值对应的第一词向量的查询主题信息确定为目标主题信息。如此,能够将查询主题信息与多个目标查询记录之间的词向量相似度考虑在内,从而确保目标主题信息能够与用户查询需求和意图相吻合。
步骤S260,基于所述目标主题信息进行搜索,并将搜索结果回传给所述终端设备。
在本实施例中,搜索引擎110通过对目标主题信息进行搜索,可以获得一系列的搜索结果,在将搜索结果回传给终端设备200时,可以将点击率靠前的若干个搜索结果进行回传,还可以将编辑时间最近的若干个搜索结果进行回传,在此不作限定。
可以理解,由于搜索结果是基于目标主题信息搜索得到的,而目标主题信息是基于查询主题信息和目标查询记录之间的词向量比较结果得到的,如此,通过对关键词进行挖掘和分类,能够将不存在逻辑关联的离散关键词组合成与终端设备相适配的目标主题信息,这样可以确保得到的搜索结果与用户的搜索需求和意图相吻合。
可以理解,在应用上述方案时,首先获取多个关键词以及终端设备的设备标识,其次基于SVM模型提取每个关键词的类别分组以及每个类别分组下的目标关键词,然后根据每个目标关键词的关键词标识将每个类别分组进行关联得到多个查询主题,进而根据查询主题信息的第一词向量和从运行日志中确定出的与设备标识对应的目标查询记录的第二词向量确定目标主题信息,最后基于目标主题信息进行搜索并将搜索结果回传给终端设备。
通过对每个关键词进行挖掘和分类能够确定出每个关键词的多个近义的目标关键词,避免采用单一关键词进行搜索带来的歧义和偏差。通过词向量相似度确定目标主题信息,能够将终端设备的历史目标查询记录考虑在内,进而确保目标主题信息能够准确地表达终端设备的意图。
如此,通过对关键词进行挖掘和分类,能够将不存在逻辑关联的离散关键词组合成与终端设备相适配的目标主题信息,这样可以确保得到的搜索结果与用户的搜索需求和意图相吻合。
在一个可选的方式中,请结合参阅图3,所述方法还可以包括以下步骤所描述的内容。
步骤S270,计算所述目标主题信息和预设主题信息之间的词向量相似度。
在本实施例中,预设主题信息可以是与大流行病相关的疫情主题信息。
步骤S280,判断所述词向量相似度是否超过设定阈值。
在所述词向量相似度超过设定阈值时,转向步骤S290。
步骤S290,向所述终端设备发送提示信息,以提示所述终端设备基于所述提示信息与目标设备进行通讯。
可以理解,如果词向量相似度超过设定阈值,则可以确定目标主题信息是与疫情相关的查询或访问意图,则计算机设备100可以通过页面提示信息或发送短信的方式向终端设备200发送提示信息。在本实施例中,目标设备可以是咨询中心或者心理疏导机构。这样,可以提示终端设备200对应的用户与咨询中心或者心理疏导机构进行通讯,从而为终端设备200对应的用户提供相应的心理疏导。
在上述基础上,本发明还公开了基于SVM分类模型的用户查询信息及意图提取装置300,该装置包括信息获取模块310、分类计算模块320、主题获得模块330、向量提取模块340、主题确定模块350以及信息搜索模块360。
所述信息获取模块310,用于获取终端设备发送的多个关键词以及所述终端设备的设备标识。
所述分类计算模块320,用于将每个关键词输入预先训练完成的SVM分类模型进行计算,得到每个关键词对应的类别分组以及所述类别分组下的多个目标关键词。
所述主题获得模块330,用于确定每个类别分组下的每个目标关键词的关键词标识,根据所述关键词标识将每个类别分组进行关联,得到多个查询主题信息。
所述向量提取模块340,用于提取每个查询主题信息的第一词向量;从预设的运行日志中确定与所述设备标识对应的目标查询记录,并提取目标查询记录的第二词向量。
所述主题确定模块350,用于计算每个第一词向量与所述第二词向量之间的相似度,将最大相似度对应的查询主题信息确定为目标主题信息。
所述信息搜索模块360,用于基于所述目标主题信息进行搜索,并将搜索结果回传给所述终端设备。
可选地,所述装置还包括信息提示模块370,用于:
计算所述目标主题信息和预设主题信息之间的词向量相似度;
判断所述词向量相似度是否超过设定阈值;
若所述词向量相似度超过所述设定阈值,则向所述终端设备发送提示信息,以提示所述终端设备基于所述提示信息与目标设备进行通讯。
可选地,所述主题获得模块330,进一步用于:
确定每个目标关键词的词性信息以及所述词性信息对应的上游词性信息和下游词性信息;
在每个类别分组下查找与每个目标关键词相对应的上游词性信息对应的上游关键词以及与每个目标关键词相对应的下游词性信息对应下游关键词;
将每个目标关键词及其对应的上游关键词和下游关键词进行关联得到所述查询主题信息。
可选地,所述向量提取模块340,进一步用于:
获取所述运行日志中包括的携带有所述设备标识的多个初始查询记录;
在预设的信息数据库中查询是否存在所述初始查询记录的反馈信息;其中,所述反馈信息在所述终端设备接收到初始查询记录时反馈给所述预设的信息数据库;
若存在所述反馈信息,将所述反馈信息对应的初始查询记录确定为所述设备标识对应的目标查询记录。
可选地,所述主题确定模块350,还用于:
针对每个第一词向量,计算该第一词向量与每个目标查询记录对应的第二词向量之间的相似度,并计算该第一词向量对应的多个相似度的平均值;
将计算得到的最大平均值对应的第一词向量的查询主题信息确定为目标主题信息。
关于上述信息获取模块310、分类计算模块320、主题获得模块330、向量提取模块340、主题确定模块350、信息搜索模块360以及信息提示模块370的描述请参照对上述方法步骤的说明。
综上,本发明实施例所提供的一种基于SVM分类模型的用户查询信息及意图提取方法及装置,首先获取多个关键词以及终端设备的设备标识,其次基于SVM模型提取每个关键词的类别分组以及每个类别分组下的目标关键词,然后根据每个目标关键词的关键词标识将每个类别分组进行关联得到多个查询主题,进而根据查询主题信息的第一词向量和从运行日志中确定出的与设备标识对应的目标查询记录的第二词向量确定目标主题信息,最后基于目标主题信息进行搜索并将搜索结果回传给终端设备。
另外,通过对每个关键词进行挖掘和分类能够确定出每个关键词的多个近义的目标关键词,避免采用单一关键词进行搜索带来的歧义和偏差。通过词向量相似度确定目标主题信息,能够将终端设备的历史目标查询记录考虑在内,进而确保目标主题信息能够准确地表达终端设备的意图。
如此,通过对关键词进行挖掘和分类,能够将不存在逻辑关联的离散关键词组合成与终端设备相适配的目标主题信息,这样可以确保得到的搜索结果与用户的搜索需求和意图相吻合。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种基于SVM分类模型的用户查询信息及意图提取方法,其特征在于,应用于搜索引擎,所述方法包括:
获取终端设备发送的多个关键词以及所述终端设备的设备标识;
将每个关键词输入预先训练完成的SVM分类模型进行计算,得到每个关键词对应的类别分组以及所述类别分组下的多个目标关键词;
确定每个类别分组下的每个目标关键词的关键词标识,根据所述关键词标识将每个类别分组进行关联,得到多个查询主题信息;
提取每个查询主题信息的第一词向量;从预设的运行日志中确定与所述设备标识对应的目标查询记录,并提取目标查询记录的第二词向量;
计算每个第一词向量与所述第二词向量之间的相似度,将最大相似度对应的查询主题信息确定为目标主题信息;
基于所述目标主题信息进行搜索,并将搜索结果回传给所述终端设备。
2.如权利要求1所述的方法,其特征在于,所述方法还包括:
计算所述目标主题信息和预设主题信息之间的词向量相似度;
判断所述词向量相似度是否超过设定阈值;
若所述词向量相似度超过所述设定阈值,则向所述终端设备发送提示信息,以提示所述终端设备基于所述提示信息与目标设备进行通讯。
3.如权利要求1或2所述的方法,其特征在于,确定每个类别分组下的每个目标关键词的关键词标识,根据所述关键词标识将每个类别分组进行关联,得到多个查询主题信息,包括:
确定每个目标关键词的词性信息以及所述词性信息对应的上游词性信息和下游词性信息;
在每个类别分组下查找与每个目标关键词相对应的上游词性信息对应的上游关键词以及与每个目标关键词相对应的下游词性信息对应下游关键词;
将每个目标关键词及其对应的上游关键词和下游关键词进行关联得到所述查询主题信息。
4.如权利要求1所述的方法,其特征在于,从预设的运行日志中确定与所述设备标识对应的目标查询记录,包括:
获取所述运行日志中包括的携带有所述设备标识的多个初始查询记录;
在预设的信息数据库中查询是否存在所述初始查询记录的反馈信息;其中,所述反馈信息在所述终端设备接收到初始查询记录时反馈给所述预设的信息数据库;
若存在所述反馈信息,将所述反馈信息对应的初始查询记录确定为所述设备标识对应的目标查询记录。
5.如权利要求4所述的方法,其特征在于,计算每个第一词向量与所述第二词向量之间的相似度,将最大相似度对应的查询主题信息确定为目标主题信息,包括:
针对每个第一词向量,计算该第一词向量与每个目标查询记录对应的第二词向量之间的相似度,并计算该第一词向量对应的多个相似度的平均值;
将计算得到的最大平均值对应的第一词向量的查询主题信息确定为目标主题信息。
6.一种基于SVM分类模型的用户查询信息及意图提取装置,其特征在于,应用于搜索引擎,所述装置包括:
信息获取模块,用于获取终端设备发送的多个关键词以及所述终端设备的设备标识;
分类计算模块,用于将每个关键词输入预先训练完成的SVM分类模型进行计算,得到每个关键词对应的类别分组以及所述类别分组下的多个目标关键词;
主题获得模块,用于确定每个类别分组下的每个目标关键词的关键词标识,根据所述关键词标识将每个类别分组进行关联,得到多个查询主题信息;
向量提取模块,用于提取每个查询主题信息的第一词向量;从预设的运行日志中确定与所述设备标识对应的目标查询记录,并提取目标查询记录的第二词向量;
主题确定模块,用于计算每个第一词向量与所述第二词向量之间的相似度,将最大相似度对应的查询主题信息确定为目标主题信息;
信息搜索模块,用于基于所述目标主题信息进行搜索,并将搜索结果回传给所述终端设备。
7.如权利要求6所述的装置,其特征在于,所述装置还包括信息提示模块,用于:
计算所述目标主题信息和预设主题信息之间的词向量相似度;
判断所述词向量相似度是否超过设定阈值;
若所述词向量相似度超过所述设定阈值,则向所述终端设备发送提示信息,以提示所述终端设备基于所述提示信息与目标设备进行通讯。
8.如权利要求6或7所述的装置,其特征在于,所述主题获得模块,进一步用于:
确定每个目标关键词的词性信息以及所述词性信息对应的上游词性信息和下游词性信息;
在每个类别分组下查找与每个目标关键词相对应的上游词性信息对应的上游关键词以及与每个目标关键词相对应的下游词性信息对应下游关键词;
将每个目标关键词及其对应的上游关键词和下游关键词进行关联得到所述查询主题信息。
9.如权利要求6所述的装置,其特征在于,所述向量提取模块,进一步用于:
获取所述运行日志中包括的携带有所述设备标识的多个初始查询记录;
在预设的信息数据库中查询是否存在所述初始查询记录的反馈信息;其中,所述反馈信息在所述终端设备接收到初始查询记录时反馈给所述预设的信息数据库;
若存在所述反馈信息,将所述反馈信息对应的初始查询记录确定为所述设备标识对应的目标查询记录。
10.如权利要求9所述的装置,其特征在于,所述主题确定模块还用于:
针对每个第一词向量,计算该第一词向量与每个目标查询记录对应的第二词向量之间的相似度,并计算该第一词向量对应的多个相似度的平均值;
将计算得到的最大平均值对应的第一词向量的查询主题信息确定为目标主题信息。
CN202010600199.7A 2020-06-29 2020-06-29 基于svm分类模型的用户查询信息及意图提取方法及装置 Active CN111488451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010600199.7A CN111488451B (zh) 2020-06-29 2020-06-29 基于svm分类模型的用户查询信息及意图提取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010600199.7A CN111488451B (zh) 2020-06-29 2020-06-29 基于svm分类模型的用户查询信息及意图提取方法及装置

Publications (2)

Publication Number Publication Date
CN111488451A true CN111488451A (zh) 2020-08-04
CN111488451B CN111488451B (zh) 2020-09-18

Family

ID=71813438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010600199.7A Active CN111488451B (zh) 2020-06-29 2020-06-29 基于svm分类模型的用户查询信息及意图提取方法及装置

Country Status (1)

Country Link
CN (1) CN111488451B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170123630A1 (en) * 2015-10-29 2017-05-04 Kabushiki Kaisha Toshiba Electronic device and method for searching data
CN108804532A (zh) * 2018-05-03 2018-11-13 腾讯科技(深圳)有限公司 一种查询意图的挖掘和查询意图的识别方法、装置
CN109871483A (zh) * 2019-01-22 2019-06-11 珠海天燕科技有限公司 一种推荐信息的确定方法及装置
CN110852100A (zh) * 2019-10-30 2020-02-28 北京大米科技有限公司 关键词提取方法、装置、电子设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170123630A1 (en) * 2015-10-29 2017-05-04 Kabushiki Kaisha Toshiba Electronic device and method for searching data
CN108804532A (zh) * 2018-05-03 2018-11-13 腾讯科技(深圳)有限公司 一种查询意图的挖掘和查询意图的识别方法、装置
CN109871483A (zh) * 2019-01-22 2019-06-11 珠海天燕科技有限公司 一种推荐信息的确定方法及装置
CN110852100A (zh) * 2019-10-30 2020-02-28 北京大米科技有限公司 关键词提取方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN111488451B (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
CN110765244B (zh) 获取应答话术的方法、装置、计算机设备及存储介质
CN111708873B (zh) 智能问答方法、装置、计算机设备和存储介质
CN107818781B (zh) 智能交互方法、设备及存储介质
US11822890B2 (en) Method, system, and computer program for artificial intelligence answer
CN109165291B (zh) 一种文本匹配方法及电子设备
US9146987B2 (en) Clustering based question set generation for training and testing of a question and answer system
CN106815356B (zh) 基于语义分析的精确目标用户消息推送方法及系统
KR102491172B1 (ko) 자연어 질의응답 시스템 및 그 학습 방법
CN108959559B (zh) 问答对生成方法和装置
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN114757176B (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
WO2020208593A1 (en) Methods, systems and computer program products for implementing neural network based optimization of database search functionality
CN111353026A (zh) 一种智能法务律师助手客服系统
CN112507089A (zh) 一种基于知识图谱的智能问答引擎及其实现方法
CN106407332B (zh) 基于人工智能的搜索方法和装置
KR20200066119A (ko) 지식 기반 추론 및 신뢰도 분석을 이용한 가짜뉴스 판별 방법, 이를 수행하기 위한 기록매체 및 장치
CN111488451B (zh) 基于svm分类模型的用户查询信息及意图提取方法及装置
CN112579733B (zh) 规则匹配方法、规则匹配装置、存储介质及电子设备
CN110347807B (zh) 问题信息处理方法及装置
CN111639160A (zh) 领域识别的方法、交互的方法、电子设备及存储介质
CN117235213A (zh) 一种交互式客服方法及系统
CN116383234A (zh) 一种搜索语句生成方法、装置、计算机设备及存储介质
CN111460114A (zh) 检索方法、装置、设备及计算机可读存储介质
El-salam et al. Extracting Arabic relations from the web

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant