CN113792116B - 基于搜索词语义多垂域多意图分层判定方法和系统 - Google Patents

基于搜索词语义多垂域多意图分层判定方法和系统 Download PDF

Info

Publication number
CN113792116B
CN113792116B CN202110984280.4A CN202110984280A CN113792116B CN 113792116 B CN113792116 B CN 113792116B CN 202110984280 A CN202110984280 A CN 202110984280A CN 113792116 B CN113792116 B CN 113792116B
Authority
CN
China
Prior art keywords
intention
user
vertical
search request
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110984280.4A
Other languages
English (en)
Other versions
CN113792116A (zh
Inventor
秦海龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qury Technology Co ltd
Original Assignee
Beijing Qury Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qury Technology Co ltd filed Critical Beijing Qury Technology Co ltd
Priority to CN202110984280.4A priority Critical patent/CN113792116B/zh
Publication of CN113792116A publication Critical patent/CN113792116A/zh
Application granted granted Critical
Publication of CN113792116B publication Critical patent/CN113792116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及基于搜索词语义多垂域多意图分层判定方法和系统,所示方法包括步骤1:依据互联网服务建立用户意图分类体系;步骤2:针对用户意图分类体系训练文本分类器;步骤3:基于文本分类器对用户搜索请求进行文本分类,判定用户搜索请求相关的意图;步骤4:步骤3判定的意图结合搜索请求语义和用户历史行为,从内容库的多个信息源中进行不同相关服务或内容的召回和排序,实现用户真实意图的判定分析。可缩短用户获取服务的路径,改善用户搜索体验。

Description

基于搜索词语义多垂域多意图分层判定方法和系统
技术领域
本公开涉及数据信息安全领域,尤其涉及一种基于搜索词语义多垂域多意图分层判定方法和系统。
背景技术
现有搜索引擎的流程通常为将搜索词切分成若干词汇,每个词汇与内容库中标题或者摘要进行匹配,然后根据与用户词汇的匹配程度进行排序,最后展示给用户。
这种方法在搜索词匹配时没有考虑到用户query的深层意图以及之前的用户行为,也没有对内容库中的内容根据用户意图进行系统的分类,直接用关键词对所有内容进行匹配,由于没有对用户深层意图和query的深层语义进行理解,很多时候很难找到用户真正想触达的内容。
发明内容
有鉴于此,本公开提出了一种基于搜索词语义多垂域多意图分层判定方法和系统。
为实现上述技术目的,本发明采取的技术方案为:
基于搜索词语义多垂域多意图分层判定方法,所述方法包括:、
步骤1:依据互联网服务建立用户意图分类体系;
步骤2:针对用户意图分类体系训练文本分类器;
步骤3:基于文本分类器对用户搜索请求进行文本分类,判定用户搜索请求相关的意图;
步骤4:步骤3判定的意图结合搜索请求语义和用户历史行为,从内容库的多个信息源中进行不同相关服务或内容的召回和排序,实现用户真实意图的判定分析。
为优化上述技术方案,采取的具体措施还包括:
进一步地,步骤1中,所述用户意图分类体系分为两层,第一层为互联网服务的垂直领域,第二层为垂直领域下的用户具体意图。
进一步地,对于垂直领域,参考互联网的应用分类名称作为种子,统一整理成用户意图分类体系中的垂直领域;
对于每个垂直领域下的用户具体意图,通过抓取垂直领域分类下应用的服务名称,对每一个服务名称采用文本预训练模型进行近义词召回,并对所有词进行词义聚类后,整理得到垂直领域下的用户具体意图。
进一步地,步骤1中,还按照垂直领域和垂直领域下的用户具体意图对互联网应用和互联网应用中的服务或内容进行分类划分。
进一步地,步骤2中,针对每个垂直领域和垂直领域下的每个意图训练文本分类器,分别用于判定文本是否属于该垂直领域或意图。
进一步地,步骤3中,基于文本分类器对每个用户搜索请求进行两次文本分类,判定用户搜索请求相关的垂直领域及相关的意图;
第一次文本分类中,应用垂直领域的文本分类器判定搜索请求(query)所属的垂直领域,返回用户搜索请求相关的多个垂直领域;
在第二次文本分类中,应用所述多个垂直领域下的所有意图的文本分类器进行意图判定,返回用户搜索请求相关的多个意图。
进一步地,步骤4所述的用户历史行为包括用户以往对垂直领域、意图和意图下应用实体的使用情况。
本发明还公开一种基于搜索词语义多垂域多意图分层判定系统,所述系统包括:
用户意图分类体系建立模块,用于依据互联网服务建立用户意图分类体系;
文本分类器训练模块,用于针对用户意图分类体系训练文本分类器;相关意图判定模块,用于基于文本分类器对用户搜索请求进行文本分类,判定用户搜索请求相关的意图;
真实意图判定模块,用于意图判定模块判定的意图结合搜索请求语义和用户历史行为,从内容库的多个信息源中进行不同相关服务或内容的召回和排序,实现用户真实意图的判定分析。
本发明具有以下有益效果:
本发明对用户搜索请求及服务、内容的垂直领域和意图进行多层分类,构建涉及垂直领域和用户意图的用户意图分类体系,在此基础上,判定用户搜索请求包含的意图,根据用户搜索请求包含的意图与相关内容覆盖的意图,结合用户查询语义、用户历史行为共同决定用户实际搜索意图,可以深度理解用户搜索请求的意图,通过理解用户意图来直接推荐不同应用体中的相关服务,缩短了用户获取服务的路径,改善了用户搜索体验。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1为本发明基于搜索词语义多垂域多意图分层判定方法流程图;
图2为本发明基于搜索词语义多垂域多意图分层判定方法过程示意图;
图3为本发明实施例中用户意图分类体系结构图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
实施例1
以下结合附图对本发明的实施例作进一步详细描述。
如图1和图2所示,本发明的基于搜索词语义多垂域多意图分层判定方法,包括:
步骤1:依据互联网服务建立用户意图分类体系;
如图3所示,所述用户意图分类体系分为两层,第一层为互联网服务的垂直领域,例如出行、金融领域;
第二层为垂直领域下的用户具体意图,例如出行垂直领域下的订火车票、订机票意图。
对于垂直领域,参考互联网的应用分类名称作为种子,统一整理成用户意图分类体系中的垂直领域;
对于每个垂直领域下的用户具体意图,通过抓取垂直领域分类下应用的服务名称,对每一个服务名称采用文本预训练模型进行近义词召回,并对所有词进行词义聚类后,整理得到垂直领域下的用户具体意图。其中预训练模型可以使用Word2Vec,、Glove等方法,文本聚类方法主要采用层次聚类方法。
同时,按照垂直领域和垂直领域下的用户具体意图对互联网应用和互联网应用中的服务或内容进行分类划分。
步骤2:针对每个垂直领域和垂直领域下的每个意图训练文本分类器(一般情况下是基于Bert变种的文本分类器),每个分类器的作用为判定一段文本是否属于这个垂直领域或意图;
步骤3:基于文本分类器对用户搜索请求(query)进行文本分类,判定用户搜索请求相关的意图,具体的:
基于文本分类器对每个用户搜索请求进行两次文本分类,判定用户搜索请求相关的垂直领域及相关的意图;
第一次文本分类中,应用垂直领域的文本分类器判定搜索请求所属的垂直领域,返回用户搜索请求相关的多个垂直领域;
在第二次文本分类中,应用所述多个垂直领域下的所有意图的文本分类器进行意图判定,返回用户搜索请求相关的多个意图。
步骤4:步骤3判定的意图结合搜索请求语义和用户历史行为,从内容库的多个信息源中进行不同相关服务或内容的召回和排序,实现用户真实意图的判定分析。
所述的用户历史行为包括用户以往对垂直领域、意图和意图下应用实体的使用情况等。
本发明的基于搜索词语义多垂域多意图分层判定系统,包括:
用户意图分类体系建立模块,用于依据互联网服务建立用户意图分类体系;
文本分类器训练模块,用于针对用户意图分类体系训练文本分类器;
相关意图判定模块,用于基于文本分类器对用户搜索请求进行文本分类,判定用户搜索请求相关的意图;
真实意图判定模块,用于意图判定模块判定的意图结合搜索请求语义和用户历史行为,从内容库的多个信息源中进行不同相关服务或内容的召回和排序,实现用户真实意图的判定分析。
本发明依据互联网常用服务建立跨信息源的基于多垂域多意图的用户意图分类体系,首先对用户搜索搜索请求进行意图理解,基于用户搜索请求的内容和用户意图等共同在内容库中召回不同信息源中的服务/内容,在召回过程中,用户搜索请求的垂直领域分类、意图分类、语义信息和用户历史行为信息可以作为不同算法的特征进行内容排序,可以深度理解用户搜索请求的意图,通过理解用户意图来直接推荐不同应用体中的相关服务,最后展示给用户,缩短了用户获取服务的路径,改善了用户搜索体验。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (5)

1.基于搜索词语义多垂域多意图分层判定方法,其特征在于:
所述方法包括:
步骤1:依据互联网服务建立用户意图分类体系;
步骤2:针对用户意图分类体系训练文本分类器;
步骤3:基于文本分类器对用户搜索请求进行文本分类,判定用户搜索请求相关的意图;
步骤4:步骤3判定的意图结合搜索请求语义和用户历史行为,从内容库的多个信息源中进行不同相关服务或内容的召回和排序,实现用户真实意图的判定分析;
步骤1中,所述用户意图分类体系分为两层,第一层为互联网服务的垂直领域,第二层为垂直领域下的用户具体意图;
步骤2中,针对每个垂直领域和垂直领域下的每个意图训练文本分类器,分别用于判定文本是否属于该垂直领域或意图;
步骤3中,基于文本分类器对每个用户搜索请求进行两次文本分类,判定用户搜索请求相关的垂直领域及相关的意图;
第一次文本分类中,应用垂直领域的文本分类器判定搜索请所属的垂直领域,返回用户搜索请求相关的多个垂直领域;
在第二次文本分类中,应用所述多个垂直领域下的所有意图的文本分类器进行意图判定,返回用户搜索请求相关的多个意图。
2.根据权利要求1所述的基于搜索词语义多垂域多意图分层判定方法,其特征在于:
对于垂直领域,参考互联网的应用分类名称作为种子,统一整理成用户意图分类体系中的垂直领域;
对于每个垂直领域下的用户具体意图,通过抓取垂直领域分类下应用的服务名称,对每一个服务名称采用文本预训练模型进行近义词召回,并对所有词进行词义聚类后,整理得到垂直领域下的用户具体意图。
3.根据权利要求1所述的基于搜索词语义多垂域多意图分层判定方法,其特征在于:
步骤1中,还按照垂直领域和垂直领域下的用户具体意图对互联网应用和互联网应用中的服务或内容进行分类划分。
4.根据权利要求1所述的基于搜索词语义多垂域多意图分层判定方法,其特征在于:
步骤4所述的用户历史行为包括用户以往对垂直领域、意图和意图下应用实体的使用情况。
5.根据权利要求1-4任意一项所述的基于搜索词语义多垂域多意图分层判定方法的基于搜索词语义多垂域多意图分层判定系统,其特征在于:
所述系统包括:
用户意图分类体系建立模块,用于依据互联网服务建立用户意图分类体系;
文本分类器训练模块,用于针对用户意图分类体系训练文本分类器;
相关意图判定模块,用于基于文本分类器对用户搜索请求进行文本分类,判定用户搜索请求相关的意图;
真实意图判定模块,用于意图判定模块判定的意图结合搜索请求语义和用户历史行为,从内容库的多个信息源中进行不同相关服务或内容的召回和排序,实现用户真实意图的判定分析;且
所述用户意图分类体系分为两层,第一层为互联网服务的垂直领域,第二层为垂直领域下的用户具体意图;
针对每个垂直领域和垂直领域下的每个意图训练文本分类器,分别用于判定文本是否属于该垂直领域或意图;
基于文本分类器对每个用户搜索请求进行两次文本分类,判定用户搜索请求相关的垂直领域及相关的意图;
第一次文本分类中,应用垂直领域的文本分类器判定搜索请求所属的垂直领域,返回用户搜索请求相关的多个垂直领域;
在第二次文本分类中,应用所述多个垂直领域下的所有意图的文本分类器进行意图判定,返回用户搜索请求相关的多个意图。
CN202110984280.4A 2021-08-25 2021-08-25 基于搜索词语义多垂域多意图分层判定方法和系统 Active CN113792116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110984280.4A CN113792116B (zh) 2021-08-25 2021-08-25 基于搜索词语义多垂域多意图分层判定方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110984280.4A CN113792116B (zh) 2021-08-25 2021-08-25 基于搜索词语义多垂域多意图分层判定方法和系统

Publications (2)

Publication Number Publication Date
CN113792116A CN113792116A (zh) 2021-12-14
CN113792116B true CN113792116B (zh) 2024-03-29

Family

ID=78876391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110984280.4A Active CN113792116B (zh) 2021-08-25 2021-08-25 基于搜索词语义多垂域多意图分层判定方法和系统

Country Status (1)

Country Link
CN (1) CN113792116B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115712786A (zh) * 2022-11-16 2023-02-24 深圳市世强元件网络有限公司 一种搜索内容显示方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
KR20170057135A (ko) * 2015-11-14 2017-05-24 석 영 정 국가직무능력표준 기반의 직무 자동매칭 서비스 방법 및 그를 이용하는 시스템
KR101913191B1 (ko) * 2018-07-05 2018-10-30 미디어젠(주) 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법
CN111291156A (zh) * 2020-01-21 2020-06-16 同方知网(北京)技术有限公司 一种基于知识图谱的问答意图识别方法
CN111488426A (zh) * 2020-04-17 2020-08-04 支付宝(杭州)信息技术有限公司 一种查询意图确定方法、装置及处理设备
CN112182176A (zh) * 2020-09-25 2021-01-05 北京字节跳动网络技术有限公司 智能问答方法、装置、设备及可读存储介质
CN113255354A (zh) * 2021-06-03 2021-08-13 北京达佳互联信息技术有限公司 搜索意图识别方法、装置、服务器及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200066267A1 (en) * 2018-06-08 2020-02-27 Nuance Communications, Inc. Dialog Manager for Supporting Multi-Intent Dialogs

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170057135A (ko) * 2015-11-14 2017-05-24 석 영 정 국가직무능력표준 기반의 직무 자동매칭 서비스 방법 및 그를 이용하는 시스템
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
KR101913191B1 (ko) * 2018-07-05 2018-10-30 미디어젠(주) 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법
CN111291156A (zh) * 2020-01-21 2020-06-16 同方知网(北京)技术有限公司 一种基于知识图谱的问答意图识别方法
CN111488426A (zh) * 2020-04-17 2020-08-04 支付宝(杭州)信息技术有限公司 一种查询意图确定方法、装置及处理设备
CN112182176A (zh) * 2020-09-25 2021-01-05 北京字节跳动网络技术有限公司 智能问答方法、装置、设备及可读存储介质
CN113255354A (zh) * 2021-06-03 2021-08-13 北京达佳互联信息技术有限公司 搜索意图识别方法、装置、服务器及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Extending domain coverage of language understanding systems via intent transfer between domains using knowledge graphs and search query click logs;A. El-Kahky等;《IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)》;20140714;第2014卷;4067-4071 *
不规则薄板零件排样算法的研究;吕永海;《中国优秀硕士学位论文全文数据库 (工程科技Ⅱ辑)》;20130115;第2013卷(第1期);C029-72 *

Also Published As

Publication number Publication date
CN113792116A (zh) 2021-12-14

Similar Documents

Publication Publication Date Title
Gebru et al. Using deep learning and Google Street View to estimate the demographic makeup of neighborhoods across the United States
US9449271B2 (en) Classifying resources using a deep network
US20170286524A1 (en) Systems and methods for classifying electronic documents
CN104680453B (zh) 基于学生属性的课程推荐方法及系统
CN111191122A (zh) 一种基于用户画像的学习资源推荐系统
CN105843844A (zh) 相对于分类体系来分类诸如文档和/或聚类的对象以及从这种分类导出的数据结构
CN110209764A (zh) 语料标注集的生成方法及装置、电子设备、存储介质
US20060026152A1 (en) Query-based snippet clustering for search result grouping
CN106874279A (zh) 生成应用类别标签的方法及装置
JP2014522540A (ja) マイクロブログのシーケンシング、検索、表示方法及びシステム
CN104484461A (zh) 一种基于百科数据对实体进行分类的方法及系统
CN101119326A (zh) 一种即时通信会话记录的管理方法及装置
CN106789559A (zh) 用于微信公众平台的信息处理方法、装置、及系统
CN106227788A (zh) 一种以Lucene为基础的数据库查询方法
CN110737821A (zh) 相似事件查询的方法、装置、存储介质和终端设备
KR20140050217A (ko) 키워드 연관 관계 시각화 제공 시스템 및 방법과, 이를 지원하는 장치
CN107229614A (zh) 用于分类数据的方法和装置
CN113792116B (zh) 基于搜索词语义多垂域多意图分层判定方法和系统
CN112417204A (zh) 一种基于实时路况的音乐推荐系统
CN107832444A (zh) 基于搜索日志的事件发现方法及装置
CN107463941A (zh) 一种车主身份识别方法及装置
CN112749328A (zh) 搜索方法、装置和计算机设备
CN115309860A (zh) 基于伪孪生网络的虚假新闻检测方法
CN110413903A (zh) 车辆导航系统中兴趣点信息检索装置及方法
CN117370539A (zh) 一种基于知识库和大模型的法律条文信息推荐系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant