CN113901314A - 处理用户查询内容的方法、装置、设备和介质 - Google Patents

处理用户查询内容的方法、装置、设备和介质 Download PDF

Info

Publication number
CN113901314A
CN113901314A CN202111164771.0A CN202111164771A CN113901314A CN 113901314 A CN113901314 A CN 113901314A CN 202111164771 A CN202111164771 A CN 202111164771A CN 113901314 A CN113901314 A CN 113901314A
Authority
CN
China
Prior art keywords
score
user
knowledge
content
intellectual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111164771.0A
Other languages
English (en)
Inventor
王首勋
吕亮
邵世臣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202111164771.0A priority Critical patent/CN113901314A/zh
Publication of CN113901314A publication Critical patent/CN113901314A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种处理用户查询内容的方法、装置、电子设备、存储介质和程序产品,涉及人工智能领域,尤其涉及自然语言处理领域。实现方案为:获取用户的输入查询内容和用户的属性数据;利用与用户查询内容相关联的知识性得分数据库得到输入查询内容对应的第一得分;利用与用户属性相关联的知识性得分数据库得到用户的属性数据对应的第二得分;以及基于第一得分和第二得分,识别输入查询内容是否为知识需求。

Description

处理用户查询内容的方法、装置、设备和介质
技术领域
本公开涉及人工智能领域,尤其涉及自然语言处理技术,具体涉及一种处理用户查询内容的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术。人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。
随着信息时代的逐步升级,知识正在以前所未有的速度进行更新迭代。知识定义、知识结构以及网民对知识需求的表达方式均开始进入快速的迭代阶段。但是新知识的出现,需要服务商能够快速识别关于知识的进展,并及时提供针对性的内容补充及正确的内容匹配为用户提供优质的服务。
在此部分中描述的方法不一定是之前已经设想到或采用的方法。除非另有指明,否则不应假定此部分中描述的任何方法仅因其包括在此部分中就被认为是现有技术。类似地,除非另有指明,否则此部分中提及的问题不应认为在任何现有技术中已被公认。
发明内容
本公开提供了一种处理用户查询内容的方法、装置、电子设备、计算机可读存储介质和计算机程序产品。
根据本公开的一方面,提供了一种处理用户查询内容的方法,包括:获取用户的输入查询内容和用户的属性数据;利用与用户查询内容相关联的知识性得分数据库得到输入查询内容对应的第一得分;利用与用户属性相关联的知识性得分数据库得到用户的属性数据对应的第二得分;以及基于第一得分和第二得分,识别输入查询内容是否为知识需求。
根据本公开的另一方面,提供了一种处理用户查询内容的装置,包括:第一单元,被配置用于获取用户的输入查询内容和用户的属性数据;第二单元,被配置用于利用与用户查询内容相关联的知识性得分数据库得到输入查询内容相对应的第一得分;第三单元,被配置用于利用与用户属性相关联的知识性得分数据库得到用户的属性数据相对应的第二得分;以及第四单元,被配置用于基于第一得分和第二得分,识别输入查询内容是否为知识需求。
根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器;其中存储器存储有可被至少一个处理器执行的指令,这些指令被至少一个处理器执行,以使至少一个处理器能够执行上述处理用户查询内容的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,计算机指令用于使计算机执行上述处理用户查询内容的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,计算机程序在被处理器执行时实现上述处理用户查询内容的方法。
根据本公开的实施例,首先获取用户的查询内容,再通过存储有被识别为历史查询内容的相关数据的数据库,分别从用户输入的内容和该用户自身的属性进行识别,最后基于预设的规则,来识别当前用户的查询内容是否是知识需求。由此,服务商可以通过上述方法获取反馈的数据,快速识别当前市场对具体的知识的需求,进行针对性的知识补充,并且通过例如知识付费这样的商业行为,实现商业获利。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1示出了根据本公开的实施例的可以在其中实施本文描述的各种方法的示例性系统的示意图;
图2示出了根据本公开示例性实施例的一种处理用户查询内容的方法的流程图;
图3示出了根据本公开示例性实施例的在图2的方法中得到输入查询内容相对应的第一得分的示例过程;
图4示出了根据本公开示例性实施例的在图2的方法中得到用户的属性数据相对应的第二得分的示例过程;
图5示出了根据本公开的另一个示例性实施例的一种处理用户查询内容的方法的流程图;
图6示出了根据本公开示例性实施例的在图5的方法中对输入查询内容进行统计分析的示例过程的流程图;
图7示出了根据本公开示例性实施例的处理用户查询内容的装置的结构框图;
图8示出了根据本公开示例性实施例的另一种处理用户查询内容的装置的结构框图;以及
图9示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在本公开中,除非另有说明,否则使用术语“第一”、“第二”等来描述各种要素不意图限定这些要素的位置关系、时序关系或重要性关系,这种术语只是用于将一个元件与另一元件区分开。在一些示例中,第一要素和第二要素可以指向该要素的同一示例,而在某些情况下,基于上下文的描述,它们也可以指代不同示例。
在本公开中对各种所述示例的描述中所使用的术语只是为了描述特定示例的目的,而并非旨在进行限制。除非上下文另外明确地表明,如果不特意限定要素的数量,则该要素可以是一个也可以是多个。此外,本公开中所使用的术语“和/或”涵盖所列出的项目中的任何一个以及全部可能的组合方式。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
相关技术中,在由人工完成包含相关知识点的知识图谱的搭建后,将用户查询内容与该知识图谱中的每个节点进行完全匹配或模糊匹配,并依据匹配结果识别用户查询内容是否为知识需求。可以理解的是,发现新的知识需求主要依赖于预先搭建好的知识图谱,如果在知识图谱中存在相关节点与用户的查询内容相匹配,则能识别出知识需求。但是同时通过这种方式,未出现在知识图谱中的知识点便不会被识别成为知识需求。所以在相关技术中,对于知识点的识别范围较窄以及对于发现新的知识需求的速度较慢。
为解决上述问题,本公开实施例提供了一种处理用户查询内容的方法,该方法通过获取用户的查询内容,基于预先建立好的知识性得分数据库对查询内容和用户本身的属性数据进行处理,最后来识别当前用户的查询内容是否是一种知识需求。通过该方法,可以缓解、减轻或甚至消除上述问题。
下面将结合附图详细描述本公开的实施例。
图1示出了根据本公开的实施例可以将本文描述的各种方法和装置在其中实施的示例性系统100的示意图。参考图1,该系统100包括一个或多个客户端设备101、102、103、104、105和106、服务器120以及将一个或多个客户端设备耦接到服务器120的一个或多个通信网络110。客户端设备101、102、103、104、105和106可以被配置为执行一个或多个应用程序。
在本公开的实施例中,服务器120可以运行使得能够执行处理用户查询内容的方法的一个或多个服务或软件应用。
在某些实施例中,服务器120还可以提供可以包括非虚拟环境和虚拟环境的其他服务或软件应用。在某些实施例中,这些服务可以作为基于web的服务或云服务提供,例如在软件即服务(SaaS)模型下提供给客户端设备101、102、103、104、105和/或106的用户。
在图1所示的配置中,服务器120可以包括实现由服务器120执行的功能的一个或多个组件。这些组件可以包括可由一个或多个处理器执行的软件组件、硬件组件或其组合。操作客户端设备101、102、103、104、105和/或106的用户可以依次利用一个或多个客户端应用程序来与服务器120进行交互以利用这些组件提供的服务。应当理解,各种不同的系统配置是可能的,其可以与系统100不同。因此,图1是用于实施本文所描述的各种方法的系统的一个示例,并且不旨在进行限制。
用户可以使用客户端设备101、102、103、104、105和/或106来显示用户查询内容页面并获取用户的查询内容。客户端设备可以提供使客户端设备的用户能够与客户端设备进行交互的接口。客户端设备还可以经由该接口向用户输出信息。尽管图1仅描绘了六种客户端设备,但是本领域技术人员将能够理解,本公开可以支持任何数量的客户端设备。
客户端设备101、102、103、104、105和/或106可以包括各种类型的计算机设备,例如便携式手持设备、通用计算机(诸如个人计算机和膝上型计算机)、工作站计算机、可穿戴设备、游戏系统、瘦客户端、各种消息收发设备、传感器或其他感测设备等。这些计算机设备可以运行各种类型和版本的软件应用程序和操作系统,例如MICROSOFT Windows、APPLEiOS、类UNIX操作系统、Linux或类Linux操作系统(例如GOOGLE Chrome OS);或包括各种移动操作系统,例如MICROSOFT Windows Mobile OS、iOS、Windows Phone、Android。便携式手持设备可以包括蜂窝电话、智能电话、平板电脑、个人数字助理(PDA)等。可穿戴设备可以包括头戴式显示器和其他设备。游戏系统可以包括各种手持式游戏设备、支持互联网的游戏设备等。客户端设备能够执行各种不同的应用程序,例如各种与Internet相关的应用程序、通信应用程序(例如电子邮件应用程序)、短消息服务(SMS)应用程序,并且可以使用各种通信协议。
网络110可以是本领域技术人员熟知的任何类型的网络,其可以使用多种可用协议中的任何一种(包括但不限于TCP/IP、SNA、IPX等)来支持数据通信。仅作为示例,一个或多个网络110可以是局域网(LAN)、基于以太网的网络、令牌环、广域网(WAN)、因特网、虚拟网络、虚拟专用网络(VPN)、内部网、外部网、公共交换电话网(PSTN)、红外网络、无线网络(例如蓝牙、WIFI)和/或这些和/或其他网络的任意组合。
服务器120可以包括一个或多个通用计算机、专用服务器计算机(例如PC(个人计算机)服务器、UNIX服务器、中端服务器)、刀片式服务器、大型计算机、服务器群集或任何其他适当的布置和/或组合。服务器120可以包括运行虚拟操作系统的一个或多个虚拟机,或者涉及虚拟化的其他计算架构(例如可以被虚拟化以维护服务器的虚拟存储设备的逻辑存储设备的一个或多个灵活池)。在各种实施例中,服务器120可以运行提供下文所描述的功能的一个或多个服务或软件应用。
服务器120中的计算单元可以运行包括上述任何操作系统以及任何商业上可用的服务器操作系统的一个或多个操作系统。服务器120还可以运行各种附加服务器应用程序和/或中间层应用程序中的任何一个,包括HTTP服务器、FTP服务器、CGI服务器、JAVA服务器、数据库服务器等。
在一些实施方式中,服务器120可以包括一个或多个应用程序,以分析和合并从客户端设备101、102、103、104、105和106的用户接收的数据馈送和/或事件更新。服务器120还可以包括一个或多个应用程序,以经由客户端设备101、102、103、104、105和106的一个或多个显示设备来显示数据馈送和/或实时事件。
在一些实施方式中,服务器120可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器120也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。云服务器是云计算服务体系中的一项主机产品,以解决传统物理主机与虚拟专用服务器(VPS,Virtual Private Server)服务中存在的管理难度大、业务扩展性弱的缺陷。
系统100还可以包括一个或多个数据库130。在某些实施例中,这些数据库可以用于存储数据和其他信息。例如,数据库130中的一个或多个可用于存储诸如音频文件和视频文件的信息。数据存储库130可以驻留在各种位置。例如,由服务器120使用的数据存储库可以在服务器120本地,或者可以远离服务器120且可以经由基于网络或专用的连接与服务器120通信。数据存储库130可以是不同的类型。在某些实施例中,由服务器120使用的数据存储库可以是数据库,例如关系数据库。这些数据库中的一个或多个可以响应于命令而存储、更新和检索到数据库以及来自数据库的数据。
在某些实施例中,数据库130中的一个或多个还可以由应用程序使用来存储应用程序数据。由应用程序使用的数据库可以是不同类型的数据库,例如键值存储库,对象存储库或由文件系统支持的常规存储库。
图1的系统100可以以各种方式配置和操作,以使得能够应用根据本公开所描述的各种方法和装置。
图2是示出了根据本公开示例性实施例的一种处理用户查询内容的方法200的流程图。方法200可以应用于图1的服务器120。方法200可以包括以下步骤。
在步骤201中,获取用户的输入查询内容和用户的属性数据。
根据一些实施例,用户的属性数据包括用户的唯一标识信息和定位信息。
在步骤202中,利用与用户查询内容相关联的知识性得分数据库得到输入查询内容对应的第一得分。
根据一些实施例,句式知识性得分数据库中维护多个句式模板和与多个句式模板分别对应的多个句式知识性得分。
根据一些实施例,在执行方法200之前,建立句式知识性得分数据库包括,收集在历史数据中被识别为知识需求的用户查询的输入,基于自然语言处理模型,提取输入的句式特征,并对得到的所有句式特征赋予一个知识性的得分,最后将所有的句式与各自对应的知识性得分建设成为一个句式知识性得分数据库。
在一个示例中,句式知识性得分数据库中可以包括例如专利号“CNXXXXXXXA”这样的句式、专利名称“一种关于XXX的方法”这样的句式、以及期刊论文名称“基于小波变换产生的滤波效果的研究”等等这样的句式。并且,句式知识性得分数据库还可以包含上述所有句式对应的知识性得分。
根据一些实施例,词汇知识性得分数据库中维护多个内容片段模板和与多个内容片段模板分别对应的多个词汇知识性得分。
根据一些实施例,在执行方法200之前,可以建立词汇知识性得分数据库。例如,词汇知识性得分数据库可以通过以下过程来建立:收集在历史数据中被识别为知识需求的用户查询的输入,基于自然语言处理模型,提取输入的词汇,并对得到的所有的词汇赋予一个知识性的得分,最后将所有的词汇与各自对应的知识性得分建设成为词汇知识性得分数据库。
在一个示例中,词汇知识性得分数据库中可以包括例如“方式”、“方法”、“做法”、以及“傅里叶变换”等等这样的词汇。同样,词汇知识性得分数据库也包括上述所有的词汇对应的知识性得分。
在步骤203中,利用与用户属性相关联的知识性得分数据库得到用户的属性数据对应的第二得分。
根据一些实施例,人群知识性得分数据库中维护多个用户唯一标识信息和与多个用户唯一标识信息分别对应的多个人群知识性得分。
根据一些实施例,在执行方法200之前,可以建立人群知识性得分数据库。例如,人群知识性得分数据库可以通过以下过程来建立:收集历史用户的属性数据,通过用户画像模型,对每个历史用户生成不同的用户画像,并赋予每个用户画像不同的知识性得分,最后将所有的用户画像与各自对应的知识性得分建设成为人群知识性得分数据库。
根据一些实施例,为了使得收集到的历史用户是唯一的,即一位历史用户只能在人群知识性得分数据库中对应一个用户画像数据,需要对每个历史用户确定唯一的标识信息。
在一个示例中,对于历史用户在网页端或移动端登录账号操作,将该账号信息作为唯一用户标识信息。对于历史用户在网页端未登录账号的操作,将网页端cookie信息作为唯一用户标识信息;对于历史用户在移动端未登录账号的操作,将移动端的移动设备物理信息作为唯一用户标识信息。
在一个示例中,如果用户既存在登录账号的操作,又以游客的身份访问过网页端或移动端,即并未登录账号,可以以账号信息作为唯一用户标识信息。
在一个示例中,历史用户始终以游客的身份访问网页端和移动端,即并未登录账号,可以以移动端的设备物理信息作为唯一用户标识信息。
根据一些实施例,辅助知识性得分数据库中维护多个定位信息和与多个定位信息分别对应的多个辅助知识性得分。
根据一些实施例,在执行方法200之前,可以建立辅助知识性得分数据库。例如,辅助知识性得分数据库可以通过以下过程来建立:收集历史用户在输入查询内容时的定位信息,并赋予每个定位信息不同的知识性得分,最后将所有的定位信息与各自对应的知识性得分建设成为辅助知识性得分数据库。
在一个示例中,该定位信息可以是历史用户输入查询内容时的IP地址或者兴趣点(Point Of Interest)。
在步骤204中,基于第一得分和第二得分,识别输入查询内容是否为知识需求。
图3示出了根据本公开示例性实施例的在图2的方法200中得到输入查询内容相对应的第一得分的示例过程(步骤202)。步骤202可以包括以下步骤。
在步骤301中,对输入查询内容进行句式分析,以得到输入查询内容的至少一个句式。
根据一些实施例,服务器120在获取包含用户查询内容的输入后,再通过自然语言处理模型,提取用户输入的句式特征。
在一个示例中,用户输入的查询内容可以为“一种计算曲面积分的方法”这样的句子,服务器120可以基于自然语言处理的模型,提取句子的特征,最后得到该用户输入的查询内容的句式特征为“一种XXX的方法”。
在步骤302中,在句式知识性得分数据库中查找与至少一个句式相似度最高的相应至少一个句式模板所分别对应的至少一个句式知识性得分。
根据一些实施例,服务器120可以通过自然语言处理模型,将用户的查询内容的至少一个句式特征转换为至少一个特征向量,再将句式知识性得分数据库中的句式模板转换为多个特征向量。然后,分别计算每个用户的句式特征向量与数据库中的每个句式特征向量的欧式距离,并确定数据库中多个与用户输入相似度最高的句式以及该多个句式分别对应的句式知识性得分。
在步骤303中,对输入查询内容进行词汇切片,以得到输入查询内容的至少一个内容片段。
根据一些实施例,服务器120在获取包含用户查询内容的输入后,再通过自然语言处理模型将用户查询的输入,划分为多个内容片段。
在一个示例中,用户输入的查询内容可以为“曲面积分方式是什么?”这样的句子,服务器120可以基于自然语言处理的注意力机制模型,将“曲面积分方式”划分为“曲面”、“积分”、“曲面积分”、“计算”、“方式”以及“是什么”等等这样的多个内容片段。
在步骤304中,在词汇知识性得分数据库中查找与至少一个内容片段相似度最高的相应至少一个内容片段模板所分别对应的至少一个词汇知识性得分。
根据一些实施例,服务器120可以通过自然语言处理模型,将用户的查询内容的至少一个的内容片段特征转换为至少一个特征向量,再将词汇知识性得分数据库中的内容片段模板转换为多个内容片段特征向量。然后,分别计算至少一个用户的内容片段特征向量与数据库中的每个内容片段特征向量的欧式距离,并确定数据库中多个与用户输入相似度最高的内容片段以及该内容片段对应的知识性得分。
在步骤305中,计算至少一个句式知识性得分的加权和以及至少一个词汇知识性得分的加权和。
在一个示例中,在用户的输入查询内容中可能出现了多个句式,比如既出现了专利名称句式“一种xxx的方法”,也出现了专利号“CNxxxxxxA”。在建设句式知识性得分数据库时,也需要赋予并存储每种句式的权重值,权重指示该句式在输入查询内容中的重要程度。此时,句式知识性得分数据库包括句式模板以及句式模板中每种句式对应的权重值和知识性得分。
在一个示例中,在用户的输入查询内容中包含至少一个内容片段,比如“曲面”、“积分”、“曲面积分”、“计算”、“方式”以及“是什么”等等这样的多个内容片段。在建设词汇知识性得分数据库时,也需要赋予并存储每种内容片段不同的权重,权重指示该内容切片在输入查询内容中的重要程度。此时,词汇知识性得分数据库包括内容片段模板以及内容片段模板中每个内容片段对应的权重值和知识性得分。
根据一些实施例,需要考虑到用户的输入查询内容中的多个句式与句式知识性得分数据库中的句式不是完全相同。即每个用户查询句式的特征向量与句式知识性得分数据库的句式特征向量存在至少一个相似度数值。
根据一些实施例,同样需要考虑到用户的输入查询内容中的多个内容片段与词汇知识性得分数据库中的内容片段不是完全相同。即每个用户查询的内容片段的特征向量与词汇知识性得分数据库的内容片段特征向量存在至少一个相似度数值。
在一个示例中,结合多个句式知识性得分数据库中与用户输入相似度最高的句式的知识性得分、权重值和相似度数值。
例如,句式知识性得分的加权和=(N1句式得分*N1句式知识需求权重*相似度+N2句式得分*N2句式知识需求权重*相似度…Nn句式得分*Nn句式知识需求权重*相似度),得到句式知识性得分的加权和。
在一个示例中,结合多个词汇知识性得分数据库与用户输入相似度最高的内容片段的知识性得分、权重值和相似度数值。
根据公式,词汇知识性得分的加权和=(N1切片得分*N1切片知识需求权重*相似度+N2切片得分*N2切片知识需求权重*相似度+…Nn切片得分*Nn切片知识需求权重*相似度),得到词汇知识性得分的加权和。
在步骤306中,根据至少一个句式知识性得分的加权和以及至少一个词汇知识性得分的加权和,计算第一得分。
在一个示例中,第一得分=句式知识性得分的加权和+词汇知识性得分的加权和。
图4示出了根据本公开示例性实施例的在图2的方法200中得到用户的属性数据相对应的第二得分的示例过程(步骤203)。步骤203可以包括以下步骤。
在步骤401中,在人群知识性得分数据库中查找用户的唯一标识信息对应的人群知识性得分。
根据一些实施例,用户的唯一标识信息可以是账号信息或cookie信息或移动设备物理信息。在人群知识性得分数据库中查找与包括唯一标识信息的的用户的属性数据相同的标识信息。然后,通过人群知识性得分数据库中的标识信息,确定对应的用户画像,进而确定对应的人群知识性得分。
在步骤402中,在辅助知识性得分数据库中查找用户的定位信息对应的辅助知识性得分。
根据一些实施例,在辅助知识性得分数据库中查找与包括定位信息的用户的属性数据相关联的IP地址或POI,通过辅助知识性得分数据库中的定位信息,进而得到对应的辅助知识性得分。
在步骤402中,根据人群知识性得分和辅助知识性得分,计算第二得分。
在一个示例中,第二得分=人群知识性得分+辅助知识性得分。
图5示出了根据本公开的另一个示例性实施例的一种处理用户查询内容的方法500的流程图。方法500可以包括以下步骤。
在步骤505中,第一得分之和和第二得分之和是否大于阈值。
根据一些实施例,第一得分+第二得分=句式知识性得分的加权和+词汇知识性得分的加权和+人群知识性得分+辅助知识性得分。
步骤501至504与上述关于图2描述的步骤201至步骤204相同,并且为了简洁起见,不再赘述。
根据一些实施例,若第一得分和第二得分之和大于阈值,则执行步骤506。若第一得分和第二得分之和小于阈值,则执行步骤507。
在步骤506中,响应于确定输入查询内容被识别为知识需求,对输入查询内容进行统计分析。步骤506将在后续结合图6具体描述。
在步骤507中,识别输入查询内容为非知识需求。
图6示出了根据本公开示例性实施例的在图5的方法500中对输入查询内容进行统计分析的示例过程(步骤506)的流程图。步骤506包括以下步骤。
在步骤601中,对输入查询内容进行词汇切片,以得到输入查询内容的至少一个内容片段。
在步骤602中,向至少一个内容片段中的每个内容片段赋予相应的权重,该权重指示该内容切片在输入查询内容中的重要程度。
根据一些实施例,步骤601至步骤602可以与上述描述图2的步骤303至步骤304基本相同,区别在于步骤601的输入查询内容已经被确定为知识需求,但在步骤303和步骤304中的输入查询内容不一定是知识需求。
在步骤603中,统计至少一个内容片段的相应历史检索次数。
在步骤604中,计算至少一个内容片段的相应历史检索次数与至少一个内容片段的相应权重的加权和。
在一个示例中,可以通过步骤604,得到被识别为知识需求的用户查询内容的用户价值分数。例如,用户价值分数=N1切片检索量*N1切片知识需求权重+N2切片检索量*N2切片知识需求权重+…Nn切片检索量*Nn切片知识需求权重。
根据一些实施例,同样也可以统计至少一个内容片段中的每个内容片段对应的知识性载体的历史访问指标,来得到被识别为知识需求的用户查询内容的商业价值分数。
在一个示例中,历史访问指标可以是对图书、专利、论文、标准、期刊和非正式出版文档的下载次数、引用次数和购买量这三种指标的至少一种。通过统计被识别为知识需求的用户查询内容的每个内容片段的历史访问指标,可以得到用户查询内容的商业价值分数。
图7示出了根据本公开示例性实施例的处理用户查询内容的装置700的结构框图。如图7所示,装置700包括:第一单元701,被配置用于获取用户的输入查询内容和用户的属性数据;第二单元702,被配置用于利用与用户查询内容相关联的知识性得分数据库得到输入查询内容相对应的第一得分;第三单元703,被配置用于利用与用户属性相关联的知识性得分数据库得到用户的属性数据相对应的第二得分;以及第四单元704,被配置用于基于第一得分和第二得分,识别输入查询内容是否为知识需求。
图8示出了根据本公开示例性实施例的处理用户查询内容的装置700的结构框图。如图8所示,装置800包括:第一单元801、第二单元802、第三单元803、第四单元804以及第五单元805。其中,第五单元805被配置为响应于确定输入查询内容被识别为知识需求,对输入查询内容进行统计分析。第一单元801、第二单元802、第三单元803和第四单元804可以与图7中的第一单元701、第二单元702、第三单元703和第四单元704相同,在此不做赘述。
根据本公开的实施例,还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
参考图9,现将描述可以作为本公开的服务器或客户端的电子设备900的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,设备900包括计算单元901,其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序,来执行各种适当的动作和处理。在RAM 903中,还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
设备900中的多个部件连接至I/O接口905,包括:输入单元906、输出单元907、存储单元908以及通信单元909。输入单元906可以是能向设备900输入信息的任何类型的设备,输入单元906可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入,并且可以包括但不限于鼠标、键盘、触摸屏、轨迹板、轨迹球、操作杆、麦克风和/或遥控器。输出单元907可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元908可以包括但不限于磁盘、光盘。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、1302.11设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理,例如处理用户查询内容的方法。例如,在一些实施例中,处理用处查询内容的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元908。在一些实施例中,计算机程序的部分或者全部可以经由ROM902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时,可以执行上文描述的处理用户查询内容的方法的一个或多个步骤。备选地,在其他实施例中,计算单元1201可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文本识别方法和文本检测网络模型的训练方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本公开中记载的各步骤可以并行地执行、也可以顺序地或以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
虽然已经参照附图描述了本公开的实施例或示例,但应理解,上述的方法、系统和设备仅仅是示例性的实施例或示例,本发明的范围并不由这些实施例或示例限制,而是仅由授权后的权利要求书及其等同范围来限定。实施例或示例中的各种要素可以被省略或者可由其等同要素替代。此外,可以通过不同于本公开中描述的次序来执行各步骤。进一步地,可以以各种方式组合实施例或示例中的各种要素。重要的是随着技术的演进,在此描述的很多要素可以由本公开之后出现的等同要素进行替换。

Claims (23)

1.一种处理用户查询内容的方法,包括:
获取用户的输入查询内容和所述用户的属性数据;
利用与用户查询内容相关联的知识性得分数据库得到所述输入查询内容对应的第一得分;
利用与用户属性相关联的知识性得分数据库得到所述用户的属性数据对应的第二得分;以及
基于所述第一得分和第二得分,识别所述输入查询内容是否为知识需求。
2.如权利要求1所述的方法,其中,与用户查询内容相关联的知识性得分数据库包括:
句式知识性得分数据库,在所述句式知识性得分数据库中维护多个句式模板和与所述多个句式模板分别对应的多个句式知识性得分;以及
词汇知识性得分数据库,在所述词汇知识性得分数据库中维护多个内容片段模板和与所述多个内容片段模板分别对应的多个词汇知识性得分。
3.如权利要求2所述的方法,其中,得到所述输入查询内容对应的第一得分包括:
对所述输入查询内容进行句式分析,以得到所述输入查询内容的至少一个句式;
在所述句式知识性得分数据库中查找与所述至少一个句式相似度最高的相应至少一个句式模板所分别对应的至少一个句式知识性得分;
对所述输入查询内容进行词汇切片,以得到所述输入查询内容的至少一个内容片段;
在所述词汇知识性得分数据库中查找与所述至少一个内容片段相似度最高的相应至少一个内容片段模板所分别对应的至少一个词汇知识性得分;
计算所述至少一个句式知识性得分的加权和以及所述至少一个词汇知识性得分的加权和;以及
根据所述至少一个句式知识性得分的加权和以及所述至少一个词汇知识性得分的加权和,计算所述第一得分。
4.如权利要求1所述的方法,其中,与用户属性相关联的知识性得分数据库包括:
人群知识性得分数据库,在所述人群知识性得分数据库中维护多个用户唯一标识信息和与所述多个用户唯一标识信息分别对应的多个人群知识性得分;和
辅助知识性得分数据库,在所述辅助知识性得分数据库中维护多个定位信息和与所述多个定位信息分别对应的多个辅助知识性得分。
5.如权利要求4所述的方法,其中,所述用户的属性数据包括所述用户的唯一标识信息和定位信息,并且其中,得到所述用户的属性数据对应的第二得分包括:
在所述人群知识性得分数据库中查找所述用户的唯一标识信息对应的人群知识性得分;
在所述辅助知识性得分数据库中查找所述用户的定位信息对应的辅助知识性得分;以及
根据所述人群知识性得分和所述辅助知识性得分,计算所述第二得分。
6.如权利要求1所述的方法,其中,识别所述输入查询内容是否为知识需求包括:
计算所述第一得分和所述第二得分之和;以及
响应于确定所述第一得分和所述第二得分之和大于阈值,将所述输入查询内容识别为知识需求。
7.如权利要求1-6中任一项所述的方法,还包括:
响应于确定所述输入查询内容被识别为知识需求,对所述输入查询内容进行统计分析。
8.如权利要求7所述的方法,其中,对所述输入查询内容进行统计分析包括:
对所述输入查询内容进行词汇切片,以得到所述输入查询内容的至少一个内容片段;
向所述至少一个内容片段中的每个内容片段赋予相应的权重,所述权重指示该内容切片在所述输入查询内容中的重要程度;
统计所述至少一个内容片段的相应历史检索次数;以及
计算所述至少一个内容片段的相应历史检索次数与所述至少一个内容片段的相应权重的加权和。
9.如权利要求8所述的方法,其中,对所述输入查询内容进行统计分析还包括:
统计所述至少一个内容片段中的每个内容片段对应的知识性载体的历史访问指标。
10.如权利要求9所述的方法,其中,所述知识性载体包括以下中的至少一项:图书、专利、论文、标准、期刊和非正式出版文档,并且其中,所述历史访问指标包括以下中的至少一项:下载次数、引用次数和购买量。
11.一种处理用户查询内容的装置,包括:
第一单元,被配置用于获取用户的输入查询内容和用户的属性数据;
第二单元,被配置用于利用与用户查询内容相关联的知识性得分数据库得到所述输入查询内容相对应的第一得分;
第三单元,被配置用于利用与用户属性相关联的知识性得分数据库得到所述用户的属性数据相对应的第二得分;以及
第四单元,被配置用于基于所述第一得分和第二得分,识别所述输入查询内容是否为知识需求。
12.如权利要求11所述的装置,其中,与用户查询内容相关联的知识性得分数据库包括:
句式知识性得分数据库,在所述句式知识性得分数据库中维护多个句式模板和与所述多个句式模板分别对应的多个句式知识性得分;以及
词汇知识性得分数据库,在所述词汇知识性得分数据库中维护多个内容片段模板和与所述多个内容片段模板分别对应的多个词汇知识性得分。
13.如权利要求12所述的装置,其中,所述第二单元包括:
第一子单元,被配置用于对所述输入查询内容进行句式分析,以得到所述输入查询内容的至少一个句式;
第二子单元,被配置用于在所述句式知识性得分数据库中查找与所述至少一个句式相似度最高的相应至少一个句式模板所分别对应的至少一个句式知识性得分;
第三子单元,被配置用于对所述输入查询内容进行词汇切片,以得到所述输入查询内容的至少一个内容片段;
第四子单元,被配置用于在所述词汇知识性得分数据库中查找与所述至少一个内容片段相似度最高的相应至少一个内容片段模板所分别对应的至少一个词汇知识性得分;
第五子单元,被配置用于计算所述至少一个句式知识性得分的加权和以及所述至少一个词汇知识性得分的加权和;以及
第六子单元,被配置用于根据所述至少一个句式知识性得分的加权和以及所述至少一个词汇知识性得分的加权和,计算所述第一得分。
14.如权利要求11所述的装置,与用户属性相关联的知识性得分数据库包括:
人群知识性得分数据库,在所述人群知识性得分数据库中维护多个用户唯一标识信息和与所述多个用户唯一标识信息分别对应的多个人群知识性得分;以及
辅助知识性得分数据库,在所述辅助知识性得分数据库中维护多个定位信息和与所述多个定位信息分别对应的多个辅助知识性得分。
15.如权利要求14所述的装置,其中,所述用户的属性数据包括所述用户的唯一标识信息和定位信息,并且其中,所述第三单元包括:
第七子单元,被配置用于在所述人群知识性得分数据库中查找所述用户的唯一标识信息对应的人群知识性得分;
第八子单元,被配置用于在所述辅助知识性得分数据库中查找所述用户的定位信息对应的辅助知识性得分;以及
第九子单元,被配置用于根据所述人群知识性得分和所述辅助知识性得分,计算所述第二得分。
16.如权利要求11所述的装置,其中,所述第四单元包括:
第十子单元,被配置用于计算所述第一得分和所述第二得分之和;以及
第十一子单元,被配置用于响应于确定所述第一得分和所述第二得分之和大于阈值,将所述输入查询内容识别为知识需求。
17.如权利要求11-16中任一项所述的装置,还包括:
第五单元,被配置用于响应于确定所述输入查询内容被识别为知识需求,对所述输入查询内容进行统计分析。
18.如权利要求17所述的装置,其中,所述第五单元包括:
第十二子单元,被配置用于对所述输入查询内容进行词汇切片,以得到所述输入查询内容的至少一个内容片段;
第十三子单元,被配置用于向所述至少一个内容片段中的每个内容片段赋予相应的权重,所述权重指示该内容切片在所述输入查询内容中的重要程度;
第十四子单元,被配置用于统计所述至少一个内容片段的相应历史检索次数;以及
第十五子单元,被配置用于计算所述至少一个内容片段的相应历史检索次数与所述至少一个内容片段的相应权重的加权和。
19.如权利要求18所述的装置,其中,所述第五单元还包括:
第十六子单元,被配置用于统计所述至少一个内容片段中的每个内容片段对应的知识性载体的历史访问指标。
20.如权利要求19所述的装置,其中,所述知识性载体包括以下中的至少一项:图书、专利、论文、标准、期刊和非正式出版文档,并且其中,所述历史访问指标包括以下中的至少一项:下载次数、引用次数和购买量。
21.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-10中任一项所述的方法。
22.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-10中任一项所述的方法。
23.一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被处理器执行时实现权利要求1-10中任一项所述的方法。
CN202111164771.0A 2021-09-30 2021-09-30 处理用户查询内容的方法、装置、设备和介质 Pending CN113901314A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111164771.0A CN113901314A (zh) 2021-09-30 2021-09-30 处理用户查询内容的方法、装置、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111164771.0A CN113901314A (zh) 2021-09-30 2021-09-30 处理用户查询内容的方法、装置、设备和介质

Publications (1)

Publication Number Publication Date
CN113901314A true CN113901314A (zh) 2022-01-07

Family

ID=79189908

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111164771.0A Pending CN113901314A (zh) 2021-09-30 2021-09-30 处理用户查询内容的方法、装置、设备和介质

Country Status (1)

Country Link
CN (1) CN113901314A (zh)

Similar Documents

Publication Publication Date Title
CN113836333A (zh) 图文匹配模型的训练方法、实现图文检索的方法、装置
CN112579909A (zh) 对象推荐方法及装置、计算机设备和介质
CN114648638A (zh) 语义分割模型的训练方法、语义分割方法与装置
CN114595686B (zh) 知识抽取方法、知识抽取模型的训练方法及装置
CN116501960B (zh) 内容检索方法、装置、设备及介质
CN113656668B (zh) 多模态信息库的检索方法、管理方法、装置、设备和介质
CN113656587A (zh) 文本分类方法、装置、电子设备及存储介质
KR20230006601A (ko) 정렬 방법, 정렬 모델의 트레이닝 방법, 장치, 전자 기기 및 매체
CN115168545A (zh) 群组搜索方法、装置、电子设备及介质
CN112560480B (zh) 任务社区发现方法、装置、设备和存储介质
WO2024027125A1 (zh) 对象推荐方法、装置、电子设备和存储介质
CN112905743B (zh) 文本对象检测的方法、装置、电子设备和存储介质
CN114281990A (zh) 文档分类方法及装置、电子设备和介质
CN114238745A (zh) 一种提供搜索结果的方法及装置、电子设备和介质
CN114328855A (zh) 文档查询方法、装置、电子设备和可读存储介质
CN113901314A (zh) 处理用户查询内容的方法、装置、设备和介质
CN112860681A (zh) 数据清洗方法及装置、计算机设备和介质
CN115809364B (zh) 对象推荐方法和模型训练方法
CN114861658B (zh) 地址信息解析方法及装置、设备和介质
CN114611526A (zh) 实体链接方法及装置、设备和介质
CN113656534A (zh) 语料扩充方法、装置、设备和介质
CN115829653A (zh) 广告文本的相关度确定方法及装置、设备和介质
CN113887417A (zh) 文本匹配方法、装置、设备和介质
CN115617968A (zh) 对话方法及装置、设备和介质
CN114169440A (zh) 模型训练方法、数据处理方法、装置、电子设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination