CN113627161A - 数据处理方法及装置、存储介质、电子设备 - Google Patents

数据处理方法及装置、存储介质、电子设备 Download PDF

Info

Publication number
CN113627161A
CN113627161A CN202110906879.6A CN202110906879A CN113627161A CN 113627161 A CN113627161 A CN 113627161A CN 202110906879 A CN202110906879 A CN 202110906879A CN 113627161 A CN113627161 A CN 113627161A
Authority
CN
China
Prior art keywords
intention
result
search
text
search text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110906879.6A
Other languages
English (en)
Other versions
CN113627161B (zh
Inventor
王炜
姚澜
孙翠荣
解忠乾
罗川江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Netease Cloud Music Technology Co Ltd
Original Assignee
Hangzhou Netease Cloud Music Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Netease Cloud Music Technology Co Ltd filed Critical Hangzhou Netease Cloud Music Technology Co Ltd
Priority to CN202110906879.6A priority Critical patent/CN113627161B/zh
Publication of CN113627161A publication Critical patent/CN113627161A/zh
Application granted granted Critical
Publication of CN113627161B publication Critical patent/CN113627161B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Machine Translation (AREA)

Abstract

本公开的实施方式涉及计算机技术领域,更具体地,本公开的实施方式涉及数据处理方法及装置,存储介质和电子设备。所述方法包括:获取搜索文本;基于所述搜索文本确定对应的第一意图评分结果;其中,所述第一意图评分结果以离线方式获取;以及根据所述搜索文本对应的语法向量的编码特征和词向量的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果;结合所述第一意图评分结果和所述第二意图评分结果确定所述搜索文本的泛搜意图识别结果。本公开的方案在保证意图识别结果准确性的前提下,可以进一步的保证意图识别的效率,提升针对搜索文本的意图识别的速度。

Description

数据处理方法及装置、存储介质、电子设备
技术领域
本公开的实施方式涉及计算机技术领域,更具体地,本公开的实施方式涉及数据处理方法及装置,存储介质和电子设备。
背景技术
本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文,此处的描述不因为包括在本部分中就承认是现有技术。
在目前的技术中,用户可以通过在搜索引擎中输入搜索请求来得到期望得到的数据内容。在音乐搜索场景中,用户可以在搜索框中输入搜索请求,例如文字内容;音乐搜索引擎可以根据用户输入的文字进行搜索并提供相应的搜索结果。音乐搜索引擎或者后台服务器在根据用户输入的内容进行数据搜索时,可以根据意图识别来判断用户输入的文字是否属于泛搜索意图。
发明内容
但是,在一些技术中,对于用户输入的搜索请求,意图识别通常只能给出精准的搜索请求意图的识别结果。对于并不明确的搜索请求,搜索引擎根据意图识别结果做召回排序,对于这类泛意图搜索并不能提供准确的搜索结果。
为此,非常需要一种改进的数据处理方法及装置、存储介质和电子设备,以提供一种能够为准确识别用户的搜索请求是否为泛搜意图的方案。
在本上下文中,本发明的实施方式期望提供一种数据处理方法和装置、存储介质和电子设备。
根据本公开的一个方面,提供一种数据处理方法,包括:获取搜索文本;
基于所述搜索文本确定对应的第一意图评分结果;其中,所述第一意图评分结果以离线方式获取;以及
根据所述搜索文本对应的语法向量的编码特征和词向量的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果;
结合所述第一意图评分结果和所述第二意图评分结果确定所述搜索文本的泛搜意图识别结果。
在本公开的一种示例性实施例中,所述方法还包括:
基于预先构建的实体词典确定所述搜索文本对应的热度信息及意图信息,并根据所述热度信息和意图信息确定第三意图识别结果;以用于结合所述第一意图评分结果、所述第二意图评分结果和所述第三意图识别结果确定所述搜索文本的泛搜意图识别结果。
在本公开的一种示例性实施例中,基于所述搜索文本确定对应的第一意图评分结果,包括:
基于所述搜索文本查询所述搜索文本历史数据以获取相匹配的历史搜索文本,并将所述历史搜索文本对应的第一意图评分结果配置为当前的所述搜索文本对应的第一意图评分结果。
在本公开的一种示例性实施例中,所述基于所述搜索文本对应的语法向量和词向量对应的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果,包括:
对所述搜索文本进行第二预处理;
对第二预处理结果进行切词处理,利用预设的单字词典为各切词结果配置对应的标识,并利用各切词结果对应的映射值构建所述词向量;以及
按预设粒度对所述第二预处理结果进行拆分,利用预设的语法词典配置各拆分结果对应的标识,并利用拆分结果对对应的映射值构建所述语法向量;
基于所述语法向量对应的编码特征和所述词向量对应的编码特征依次进行卷积处理、池化处理、归一化处理、聚合处理和全连接处理,以获取所述第二意图评分结果。
在本公开的一种示例性实施例中,
在本公开的一种示例性实施例中,所述基于预先构建的实体词典确定所述搜索文本对应的热度信息及意图信息,并根据所述热度信息和意图信息确定第三意图识别结果,包括:
根据所述搜索文本查询所述实体词典以获取对应的匹配结果;
根据所述匹配结果对应的预设热度值和预设意图值计算所述搜索文本对应的第三意图识别结果。
在本公开的一种示例性实施例中,所述确定所述搜索文本的泛搜意图识别结果,包括:
在识别所述第三意图识别结果中的所述意图信息符合预设规则时,且判断所述第三意图识别结果中的所述热度信息大于或等于预设热度阈值,则确定所述搜索文本为非泛搜意图;或者
在识别所述第三意图识别结果中的所述意图信息符合预设规则时,且判断所述第三意图识别结果中的所述热度信息小于预设热度阈值,则根据所述第一意图识别结果和所述第二意图识别结果计算所述泛搜意图识别结果的概率值;并在概率值达到预设阈值时,确定所述搜索文本为泛搜意图;或者
在识别所述第三意图识别结果中的所述意图信息不符合预设规则时,则根据所述第一意图识别结果和所述第二意图识别结果计算所述泛搜意图识别结果的概率值;并在概率值达到预设阈值时,确定所述搜索文本为泛搜意图。
在本公开的一种示例性实施例中,所述方法还包括:
获取更新数据,并基于所述更新数据更新基础数据库;
根据预设热度阈值对所述基础数据库中的资源数据进行筛选,以删除热度值小于预设热度阈值的资源数据;
对所述基础数据库中的各所述资源数据抽取目标字段,对所述目标字段进行归一化处理以获取实体字段;并建立所述实体字段与对应的所述资源数据之间的关联关系;
基于与所述实体字段存在关联关系的所述资源数据对应的热度信息及意图信息配置所述实体字段的热度信息及意图信息,并根据所述实体字段构建所述实体词典。
在本公开的一种示例性实施例中,在确定所述搜索文本为泛搜意图时,所述方法还包括:
对所述搜索文本的分词结果进行标签关联,以根据所述搜索文本分词结果对应的标签关联结果配置所述搜索文本对应的数据标签。
在本公开的一种示例性实施例中,所述根对所述搜索文本的分词结果进行标签关联,以根据所述搜索文本分词结果对应的标签关联结果配置所述搜索文本对应的数据标签,包括:
对所述搜索文本进行分词处理,利用预设的业务标签集合为分词结果配置对应的标签,以获取所述搜索文本分词结果对应的标签列表;
将所述搜索文本对应的对应的文本编码结果,与预设的候选资源进行文本匹配,以获取相似度度大于预设阈值的相似标签结果;
将所述标签列表与所述相似标签结果进行标签对比,并在所述标签列表与所述匹配结果匹配时,将标签对比结果配置为所述搜索文本对应的标签结果,以用于基于所述搜索文本对应的标签结果进行数据搜索。
根据本公开的一个方面,提供一种数据处理装置,包括:
请求响应模块,用于获取搜索文本;
第一意图评分结果确定模块,用于基于所述搜索文本确定对应的第一意图评分结果;其中,所述第一意图评分结果以离线方式获取;以及
第二意图评分结果确定模块,用于根据所述搜索文本对应的语法向量的编码特征和词向量的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果;
识别结果输出模块,用于结合所述第一意图评分结果和所述第二意图评分结果确定所述搜索文本的泛搜意图识别结果。
在本公开的一种示例性实施例中,所述装置还包括:
第三意图识别结果确定模块,用于基于预先构建的实体词典确定所述搜索文本对应的热度信息及意图信息,并根据所述热度信息和意图信息确定第三意图识别结果;以用于结合所述第一意图评分结果、所述第二意图评分结果和所述第三意图识别结果确定所述搜索文本的泛搜意图识别结果。
在本公开的一种示例性实施例中,所述装置还包括:
第一数据处理模块,用于对搜索文本历史数据进行第一预处理,以获取目标格式的待处理文本;利用BERT模型抽取所述待处理文本对应的文本表征向量;基于所述文本表征向量进行全连接处理,以获取输出的二维向量;根据所述二维向量确定所述搜索文本历史数据对应的第一意图评分结果。
在本公开的一种示例性实施例中,所述第一意图评分结果确定模块用于基于所述搜索文本查询所述搜索文本历史数据以获取相匹配的历史搜索文本,并将所述历史搜索文本对应的第一意图评分结果配置为当前的所述搜索文本对应的第一意图评分结果。
在本公开的一种示例性实施例中,所述第二意图评分结果确定模块包括:对所述搜索文本进行第二预处理;对第二预处理结果进行切词处理,利用预设的单字词典为各切词结果配置对应的标识,并利用各切词结果对应的映射值构建所述词向量;以及按预设粒度对所述第二预处理结果进行拆分,利用预设的语法词典配置各拆分结果对应的标识,并利用拆分结果对对应的映射值构建所述语法向量;基于所述语法向量对应的编码特征和所述词向量对应的编码特征依次进行卷积处理、池化处理、归一化处理、聚合处理和全连接处理,以获取所述第二意图评分结果。
在本公开的一种示例性实施例中,所述第三意图识别结果确定模块包括:根据所述搜索文本查询所述实体词典以获取对应的匹配结果;根据所述匹配结果对应的预设热度值和预设意图值计算所述搜索文本对应的第三意图识别结果。
在本公开的一种示例性实施例中,所述识别结果输出模块包括:
第一识别模块,用于在识别所述第三意图识别结果中的所述意图信息符合预设规则时,且判断所述第三意图识别结果中的所述热度信息大于或等于预设热度阈值,则确定所述搜索文本为非泛搜意图;
第二识别模块,用于在识别所述第三意图识别结果中的所述意图信息符合预设规则时,且判断所述第三意图识别结果中的所述热度信息小于预设热度阈值,则根据所述第一意图识别结果和所述第意图识别结果计算所述泛搜意图识别结果的概率值;并在概率值达到预设阈值时,确定所述搜索文本为泛搜意图;
第三识别模块,用于在识别所述第三意图识别结果中的所述意图信息不符合预设规则时,则根据所述第一意图识别结果和所述第二意图识别结果计算所述泛搜意图识别结果的概率值;并在概率值达到预设阈值时,确定所述搜索文本为泛搜意图。
在本公开的一种示例性实施例中,所述装置还包括:
实体词典构建模块,用于获取更新数据,并基于所述更新数据更新基础数据库;根据预设热度阈值对所述基础数据库中的资源数据进行筛选,以删除热度值小于预设热度阈值的资源数据;对所述基础数据库中的各所述资源数据抽取目标字段,对所述目标字段进行归一化处理以获取实体字段;并建立所述实体字段与对应的所述资源数据之间的关联关系;基于与所述实体字段存在关联关系的所述资源数据对应的热度信息及意图信息配置所述实体字段的热度信息及意图信息,并根据所述实体字段构建所述实体词典。
在本公开的一种示例性实施例中,所述装置还包括:
标签匹配模块,用于在确定所述搜索文本为泛搜意图时,对所述搜索文本的分词结果进行标签关联,以根据所述搜索文本分词结果对应的标签关联结果配置所述搜索文本对应的数据标签。
在本公开的一种示例性实施例中,所述标签匹配模块包括:对所述搜索文本进行分词处理,利用预设的业务标签集合为分词结果配置对应的标签,以获取所述搜索文本分词结果对应的标签列表;将所述搜索文本对应的对应的文本编码结果,与预设的候选资源进行文本匹配,以获取相似度度大于预设阈值的相似标签结果;将所述标签列表与所述相似标签结果进行标签对比,并在所述标签列表与所述匹配结果匹配时,将标签对比结果配置为所述搜索文本对应的标签结果,以用于基于所述搜索文本对应的标签结果进行数据搜索。
根据本公开的一个方面,提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时上述的数据处理方法。
根据本公开的一个方面,提供一种电子设备,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的数据处理方法。
根据本公开实施方式的数据处理方法,在获取用户的搜索文本后,通过以离线方式得到针对搜索文本的第一意图评分结果,同时利用搜索文本对应的多个编码特征的聚合结果来计算对应第二意图评分结果,通过利用两个不同计算方式获取的意图评分结果相结合,可以准确的判断当前的搜索文本是否属于泛搜意图。并且,通过以离线的方式获取准确率较高的第一意图评分结果,在保证意图识别结果准确性的前提下,可以进一步的保证意图识别的效率,提升针对搜索文本的意图识别的速度。
附图说明
通过参考附图阅读下文的详细描述,本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本公开的若干实施方式,其中:
图1示意性地示出了根据本发明实施方式的数据处理方法的流程图;
图2示意性地示出了根据本发明实施方式的数据处理方法的系统架构示意图;
图3示意性地示出了根据本公开实施方式的构建数据词典的方法的流程图;
图4示意性地示出了根据本公开实施方式的全连接网络的结构示意图;
图5示意性地示出了根据本公开实施方式的神经网络的结构示意图;
图6示意性地示出了根据本发明实施方式的一种数据处理方法的系统架构示意图;
图7示意性地示出了根据本公开实施方式的判断泛搜意图的方法的示意图;
图8示意性地示出了根据本公开实施方式的为泛搜意图的搜索文本进行标签关联的方法的示意图;
图9示意性地示出了根据本公开实施方式的数据处理装置的方框图;
图10示意性地示出了根据本公开实施方式的方法的搜索结果交互界面展示的示意图;
图11示出了根据本公开实施方式的存储介质的示意图;以及
图12示意性示出了根据公开实施方式的电子设备的方框图。
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本公开的实施方式,提供一种数据处理方法、数据处理装置、存储介质和电子设备。
在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本公开的若干代表性实施方式,详细阐述本公开的原理和精神。
发明概述
本发明人发现,在音乐搜索、新闻搜索、资讯搜索等应用场景中,用户在应用程序的搜索框中输入待搜索信息的文本后,后台会根据输入的文本内容提供相应的搜索结果给用户。在召回阶段,即根据一定条件筛选出合适的搜索结果给用户的过程中,意图识别扮演着至关重要的角色。对于用户输入的文本内容,首先根据意图识别判断用户的输入文本是否属于泛搜索意图,即寻找满足某类需求的数据;如果属于泛搜索意图,则对文本关联对应的泛搜索标签,召回对应的资源做召回排序,展示最终的数据搜索结果。以音乐类应用程序为例,在一些音乐搜索系统中,对于用户输入的搜索请求(Query),意图识别通常只能给出精准的Query意图的识别结果;并且,搜索系统在根据意图识别结果做召回排序时,对于这类泛意图搜索的结果支持较弱。在一些技术中,将用户输入的搜索请求的文本同精准搜索的文本统一对待,当按照精准搜索意图对用户当前输入的搜索请求进行召回和排序时,仅当用户输入的泛搜索意图文本和搜索结果对应的字段相似度较高时,搜索结果可以部分满足需求。但是,当用户当前的搜索请求的文本是并不明确的搜索意图时,例如搜索请求为“好听的粤语歌”等非具体指向某一首歌的意图时,用户实际想搜索的是粤语这一类歌曲,而非单指某一首歌;此时,若使用精准意图的方式进行召回,则会指向某首歌,得到的结果都是字面上包含粤语等文字的歌曲,这显然是不符合用户泛搜索意图需求的。在一些技术中,在使用DSSM(Deep Structured Semantic Models,深度语义模型)算法基于歌曲的标题进行召回时,并不能有效的考虑到歌曲的曲风、类型等特征;因此直接以用户输入的Query从歌曲的标题或名称进行召回无法满足用户的泛搜索意图需求。
鉴于上述内容,本发明的基本思想在于:根据本发明实施方式的数据处理方法和数据处理装置,能够从多个维度对用户的搜索请求进行分析,判断当前搜索请求是否为泛搜意图,得到对应的的意图评分结果;再将多个维度的意图评分结果进行结合,从而准确的判断用户当前的搜索请求是否为泛搜意图。
在介绍了本发明的基本原理之后,下面具体介绍本发明的各种非限制性实施方式。
示例性方法
下面结合图1来描述根据本公开示例性实施方式的数据处理方法。
参考图1所示,所述数据处理方法可以包括以下步骤:
S11、获取搜索文本;
S12、基于所述搜索文本确定对应的第一意图评分结果;其中,所述第一意图评分结果以离线方式获取;以及
S13、根据所述搜索文本对应的语法向量的编码特征和词向量的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果;
S14、结合所述第一意图评分结果和所述第二意图评分结果确定所述搜索文本的泛搜意图识别结果。
在本公开实施方式的数据处理方法中,在获取用户的搜索文本后,一方面,通过以离线方式得到针对搜索文本的第一意图评分结果;另一方面,可以同时利用搜索文本对应的多个编码特征的聚合结果来计算对应第二意图评分结果;从而可以通过利用两个不同计算方式获取的意图评分结果及新型结合,进而可以准确的判断当前的搜索文本是否属于泛搜意图。另外,通过以离线的方式获取准确率较高的第一意图评分结果,在保证意图识别结果准确性的前提下,可以进一步的保证意图识别的效率,提升针对搜索文本的意图识别的速度。
图2示意性示出了可以应用本公开实施例的技术方案的示例性系统架构的示意图。如图2所示,系统架构可以包括配置终端设备201和服务器203。其中,上述的终端设备可以是手机、电脑、平板电脑等智能终端设备。终端设备201和服务器203之间通过网络202进行数据传输。网络可以包括各种连接类型,例如有线通信链路、无线通信链路等等。其中,图2中的终端设备和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。比如服务器203可以是多个服务器组成的服务器集群等。上述的数据处理方法可以在服务器端或者用户侧的终端设备执行。或者,也可以由服务器端和用户终端协作执行。
在步骤S11中,获取搜索文本。
在本公开的示例性实施方式中,以音乐类型的应用程序为例,上述的数据处理方法可以由终端设备和服务器协作执行。
在用户侧终端设备上的图形用户界面中,可以在音乐应用程序中提供一搜索框。用户可以在该搜索框内输入待搜索的文本。当用户点击图形用户界面中的“搜索”或者“确定”按钮时,便可以针对用户当前输入的搜索文本创建一搜索请求。其中,该搜索请求可以包括用户输出的搜索文本,以及用户标识、终端设备标识、时间等信息。针对该搜索文本,可以首先判断其是否为泛搜索意图。举例来说,上述的搜索文本可以是针对某一个类型的音乐、或者是针对某一语种的音乐等等。例如,用户输入的搜索文本内容可以是“好听的韩语歌曲”。
当然,在本公开的其他示例性实施例中,上述的搜索文本也可以是针对视频、新闻或者其他类型的资讯信息的搜索内容。
在步骤S12中,基于所述搜索文本确定对应的第一意图评分结果;其中,所述第一意图评分结果以离线方式获取。
在本公开的示例性实施方式中,针对用户输入的搜索文本,可以首先以离线的方式获取对应的第一意图识别结果。具体的,可以基于所述搜索文本查询搜索文本历史数据以获取相匹配的历史搜索文本,并将所述历史搜索文本对应的第一意图评分结果配置为当前的所述搜索文本对应的第一意图评分结果。
在本公开的示例性实施方式中,可以预先构建基于历史搜索数据的数据词典。具体的,参考图3所示,上述的方法还可以包括:
步骤S301,对搜索文本历史数据进行第一预处理,以获取目标格式的待处理文本;
步骤S302,利用BERT模型抽取所述待处理文本对应的文本表征向量;
步骤S303,基于所述文本表征向量进行全连接处理,以获取输出的二维向量;
步骤S304,根据所述二维向量确定所述搜索文本历史数据对应的第一意图评分结果。
举例来说,上述的搜索文本历史数据可以是全体用户的搜索文本历史数据,而并不仅是当前用户的搜索历史。
对于搜索历史中用户输入的各历史搜索文本,可以首先进行第一预处理。即,对搜索文本Qurey添加标志位,处理得到[CLS]+Query+[SEP]的表示形式。然后,加载已训练的BERT模型,将预处理后的搜索文本作为模型的输入,利用BERT模型抽取待处理文本的文本特征。然后,对获取的文本特征获取第0位特征,即CLS标签部分的文本表征,表示文本的语义向量;即上述的文本表征向量。将该语义向量输入一全连接网络中,对语义向量经过两层全连接层做二分类,经过softmax层进行归一化获得二维向量输出,从而得到该搜索文本历史数据是否为泛搜索意图的第一意图识别结果。参考图4所示,上述的全连接网络可以包括依次设置的第一第二全连接层;其中,全连接层可以包括Dense层和过拟合(Dropout)层;第一全连接层中的Dense层可以配置尺寸为16;第二全连接层中的Dense层可以配置尺寸为2;其中,损失函数可以使用交叉熵损失函数。
通过对一段时间内的搜索文本历史数据计算并确定对应的泛搜索意图识别结果后,便可以根据该些历史数据构建一本地的、离线的历史搜索数据的数据词典。在一些实施方式中,上述的够时间数据词典的过程可以是由服务器端完成的,并将构建完成的数据词典下发至终端设备,以便终端设备能够以离线方式进行第一意图评分结果的计算。或者,也可以在由各终端设备根据用户在本终端设备中的历史搜索记录分别构建对应的子数据词典,再将该子数据词典上传至服务器端,由服务器端进行数据的整合,再下发到各终端设备。并且,服务器端还可以按一定周期对该数据词典进行更新,从而保证该数据词典的有效性,保证用户输入的搜索文本都能够得到对应的、准确的第一意图评分结果。
终端设备在接收到用户当前的搜索文本后,便可以将其文本内容与该数据词典中的各文本进行文本匹配,从而筛选出匹配度最高的历史搜索文本;并将该历史搜索文本对应的第一意图评分结果作为当前的搜索文本所对应的第一意图评分结果。或者,若在数据词典中未能搜索匹配的历史搜索文本,则可以将第一意图评分结果置为空。
在步骤S13中,根据所述搜索文本对应的语法向量的编码特征和词向量的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果。
在本公开的示例性实施方式中,可以利用在线的方式来计算搜索文本对应的第二意图评分结果。具体来说,上述的步骤S13可以包括:
步骤S131,对所述搜索文本进行第二预处理;
步骤S132,对第二预处理结果进行切词处理,利用预设的单字词典为各切词结果配置对应的标识,并利用各切词结果对应的映射值构建所述词向量;以及
步骤S133,按预设粒度对所述第二预处理结果进行拆分,利用预设的语法词典配置各拆分结果对应的标识,并利用拆分结果对对应的映射值构建所述语法向量;
步骤S134,基于所述语法向量对应的编码特征和所述词向量对应的编码特征依次进行卷积处理、池化处理、归一化处理、聚合处理和全连接处理,以获取所述第二意图评分结果。
具体的,在获取用户的搜索文本后,还可以对搜索文本进行第二预处理。举例来说,第二预处理可是对搜索文本进行特殊符号处理、英文大小写转换、全角半角转换以及简繁体字统一等处理。例如,可以对搜索文本中的特殊符号或特殊字符进行删除,或者替换为指定的文本内容;可以将文本内容中的英文同一为大写;将字符转为全角字符;以及,将繁体转换为对应的简体等。
在对搜索文本文完成第二预处理后,可以计算对应的词向量(char embedding)和语法向量(bigram embedding)。一般来说,在深度学习方法中,传统文本经过词表中单字或单词到id的映射关系转换为id序列,形成表示向量,即为Embedding。Embedding的表示在深度学习训练中尤为重要,其能够将机器无法直接传递学习的文本数值化,从而能够在深度学习网络中计算不同网络结构的数学变换。本质上深度学习方法为一个高阶函数y=F(x)对输入的向量进行高阶参数拟合,得到输入值x到输出值y的映射关系,文本到输入值向量Embedding的映射关系由构建的词表决定,Embedding表达作为深度学习方法的基础,能够将非数值特征和输入表达为数值特征,从而模型可以进行一系列数值变换。
具体的,可以对第二预处理结果进行分词处理。例如,用户的搜索文本为“好听的韩语歌”。基于单字进行拆分,可以对应对应的6个拆分结果:“好”、“听”、“的”、“韩”、“语”、“歌”。再利用预先构建的单字字典,查询各分词结果对应的映射ID,即单字标识。例如,单字字典的构成可以是基于大量的Query构成的语料集合Corpus={q1,q2,qi,……qn},对该语料集合进行单字切词处理得到对应的CorpusChar={c1,c2,ci,……cm};其中,m为定义的单字字典的维度。通过单字字典给每个字一个自增的id标识,得到Dict={c1:1,c2:2,ci:i,cm:m,UNK:0};其中,UNK代表将所有不在字典中的字的默认标识key。
基于该预先构建的单字词典,对上述示例的搜索文本“好听的韩语歌”进行单字切词,并对单字切词结果查询该单字词典,得到各单字切词结果对应的标识数据;再根据各标识数据构建该搜索文本对应的词向量。其中,可以配置词向量的维度为30。若构建的词向量不满30个维度,则可以利用默认表示“0”进行填充。
此外,在完成第二预处理之后,构建搜索文本对应的词向量之后,或者在构建词向量的同时,还可以构建搜索文本对应的语法向量。举例来说,对于上述的搜索文本“好听的韩语歌”,可以按预设粒度进行切词。例如,预设粒度的长度为2,则按两个字的粒度对该搜索文本进行拆分,得到对应的拆分结果为“好听”、“听的”、“的韩”、“韩语”、“语歌”共5个两字分词结果。对于各分词结果,可以利用预先构建的bigram(二元语法)单位词典,即上述的语法词典;查找词典并得到每个分词结果对应的标识,再基于各分词结果的标识构建搜索文本对应的语法向量。其中,对于上述的bigram单位词典,即语法词典,可以预先利用大规模的语料进行构建;其构建过程参照上述单字词典的构建过程。对于上述的语法向量来说,可以配置其向量的维度为30。若构建的词向量不满30个维度,则可以利用默认表示“0”进行填充。
在获取搜索文本对应的词向量以及语法向量之后,便可以将其作为输入参数,输入在线形式的神经网络模型,并输出对应的第二意图评分结果。参考图5所示,可以将词向量和语法向量的编码特征作为输入,由神经网络模型的池化层(MaxPooling层)将不同维度的两路输入归一化到统一维度,将两路MaxPooling层输出的利用合并层(Conce他)进行聚合,对聚合结果再经过一个两层的全连接网络,通过归一化层(Softmax层)获取二分类结果。其中,损失函数可以使用交叉熵损失函数。交叉熵损失函数(Cross Entropy Loss)可以用于度量预测结果分布和真实标注分布之前的差异性;假设样本中M为类别的数量,yic为指示变量即真实标注标签,即当预测类别和样本类别相同就是1,否则为0,pic为观测样本属于某类别的预测概率,则对应的Cross Entropy Loss函数为:
Figure BDA0003201977400000151
或者,在一些其他的实施方式中,也可以利用RNN模型来计算搜索文本对应的向量表示。
在步骤S14中,结合所述第一意图评分结果和所述第二意图评分结果确定所述搜索文本的泛搜意图识别结果。
在本公开的示例性实施方式中,在计算得到搜索文本对应的第一意图评分结果和第二意图评分结果后,便可以根据两结果计算搜索文本是否为泛搜意图的概率。具体的,可以分别为两种意图评分结果配置不同的权重,计算泛搜意图识别结果。例如,公式可以包括:
Output=Score_online*0.4+Score_offline*0.6
其中,Score_online为以在线方式获取的第二意图评分结果;Score_offline为以离线方式获取的第一意图评分结果。另外,在其他示例性实施方式中,还可以配置其他的权重比例,例如0.3与0.7,0.25与0.75等;具体可以根据应用场景以及搜索对应进行自定义配置。
此外,在本公开的一些示例性实施方式中,上述的数据处理方法还可以包括:基于预先构建的实体词典确定所述搜索文本对应的热度信息及意图信息,并根据所述热度信息和意图信息确定第三意图识别结果;以用于结合所述第一意图评分结果、所述第二意图评分结果和所述第三意图识别结果确定所述搜索文本的泛搜意图识别结果。
具体来说,参考图6所示,提供的一种数据处理方法可以包括:
步骤S61,获取搜索文本;
步骤S62,基于所述搜索文本确定对应的第一意图评分结果;其中,所述第一意图评分结果以离线方式获取;以及
步骤S63,根据所述搜索文本对应的语法向量的编码特征和词向量的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果;
步骤S64,基于预先构建的实体词典确定所述搜索文本对应的热度信息及意图信息,并根据所述热度信息和意图信息确定第三意图识别结果;
步骤S65,结合所述第一意图评分结果、所述第二意图评分结果和所述第三意图识别结果确定所述搜索文本的泛搜意图识别结果。
在本公开的一些示例性实施方式中,上述的步骤S64可以包括:
步骤S641,根据所述搜索文本查询所述实体词典以获取对应的匹配结果;
步骤S642,根据所述匹配结果对应的预设热度值和预设意图值计算所述搜索文本对应的第三意图识别结果。
具体来说,可以预先构建实体词典。在实体词典中,可以包含实体,以及各实体对应的热度值和意图值评分;此外,还可以包括实体名称、实体类型,以及各实体对应的资源ID。对于用户的搜索文本,可以识别其中的一个或多个特征字段,并利用识别输出的特征字段向实体词典中进行搜索,获取关联的热度信息和意图信息,作为精准的第三意图识别结果。
在一些示例性实施例中,在获取用户输入的搜索文本后,在计算第一意图评分结果、第二意图评分结果的同时,可以同步计算第三意图识别结果。或者,在一些示例性实施方式中,也可也以在获取第一意图评分结果、第二意图评分结果之后,再计算第三意图识别结果。例如,当计算第一意图识别结果为空时,可以计算第三意图识别结果,从而可以结合第二意图评分结果和第三意图评分结果来计算搜索文本的泛搜意图识别结果。或者,当获取第一意图评分结果、第二意图评分结果之后,可以根据其他的指标判断是否进行第三意图识别结果的计算。
在本公开的一些示例性实施方式中,上述的构建实体词典的方法可以包括:
步骤S601,获取更新数据,并基于所述更新数据更新基础数据库;
步骤S602,根据预设热度阈值对所述基础数据库中的资源数据进行筛选,以删除热度值小于预设热度阈值的资源数据;
步骤S603,对所述基础数据库中的各所述资源数据抽取目标字段,对所述目标字段进行归一化处理以获取实体字段;并建立所述实体字段与对应的所述资源数据之间的关联关系;
步骤S604,基于与所述实体字段存在关联关系的所述资源数据对应的热度信息及意图信息配置所述实体字段的热度信息及意图信息,并根据所述实体字段构建所述实体词典。
具体来说,在服务器端,可以根据曲库的天级更新数据,每天定时拉取更新曲库后的基础歌曲数据库,保证歌曲实体信息的及时更新。歌曲的基础数据库中的每条数据,均可以包含资源的ID和资源名,资源类型,以及热度分数和曲库意图分数等相关信息。例如,如表1所示,单曲“错位时空”、歌手“陈奕迅”对应的相关信息可以包括以下内容。
表1
Figure BDA0003201977400000171
Figure BDA0003201977400000181
对于更新点后的基础数据库,可以根据曲库的热度信息,过滤掉冷门的单曲/歌手/专辑等歌曲资源。举例来说,曲库中的全部资源可能包含10年前的某个歌手,但是这个歌手在音乐应用程序从来没有被用户搜索过,热度分数为0或者很小的值,这种对于搜索无用的信息,需要过滤处理。
此外,对于数据过滤后的基础数据库,可以进行歌曲资源名归一化处理,曲库中给出的是资源ID和相关联信息,如表1所示。而歌曲实体词典需要的是实体相关联信息,如表2所示。
表2
Figure BDA0003201977400000182
在根据热度过滤后的曲库数据中,从曲库的资源名字段中,分别抽取单曲名,歌曲名和专辑名等资源名,然后对抽取的资源名做大小写转换和去除特殊中文字符等文本预处理操作,然后得到文本归一化的实体名,然后再把和该实体相关的资源类型和资源ID信息进行关联。例如,歌手资源名“SHE”做文本预处理后,变为“she”;歌曲“She”做文本预处理后,也变为“she”;则归一化后的实体词“she”,会关联上曲库中的歌手“SHE”以及歌曲“She”的实体类型,以及对应的意图分数、热度值和资源ID等信息。
根据实体关联的曲库资源信息,给出该实体在单曲/歌手/专辑等意图下的归一化分数。例如,实体“she”对应多个单曲(song)资源ID,包括{id1,id2,id3,}。对这些单曲资源ID对应的原始意图分数求和,得到实体词典中的单曲(song)意图分数。计算公式可以包括:
Figure BDA0003201977400000183
在本公开的一些示例性实施方式中,在通过三个不同的方式得到三种意图识别结果后,便可以结合三种意图识别结果进行判断。具体来说,参考图7所示,上述的步骤S65可以包括:
在识别所述第三意图识别结果中的所述意图信息符合预设规则时,且判断所述第三意图识别结果中的所述热度信息大于或等于预设热度阈值,则确定所述搜索文本为非泛搜意图;或者
在识别所述第三意图识别结果中的所述意图信息符合预设规则时,且判断所述第三意图识别结果中的所述热度信息小于预设热度阈值,则根据所述第一意图识别结果和所述第二意图识别结果计算所述泛搜意图识别结果的概率值;并在概率值达到预设阈值时,确定所述搜索文本为泛搜意图;或者
在识别所述第三意图识别结果中的所述意图信息不符合预设规则时,则根据所述第一意图识别结果和所述第二意图识别结果计算所述泛搜意图识别结果的概率值;并在概率值达到预设阈值时,确定所述搜索文本为泛搜意图。
在本公开的示例性实施方式中,在确定用户的搜索文本为泛搜意图后,上述方法还可以包括:对所述搜索文本的分词结果进行标签关联,以根据所述搜索文本分词结果对应的标签关联结果配置所述搜索文本对应的数据标签。
具体来说,参考图8所示,上述的步骤具体可以包括:
步骤S81,对所述搜索文本进行分词处理,利用预设的业务标签集合为分词结果配置对应的标签,以获取所述搜索文本分词结果对应的标签列表;
步骤S82,将所述搜索文本对应的对应的文本编码结果,与预设的候选资源进行文本匹配,以获取相似度度大于预设阈值的相似标签结果;
步骤S83,将所述标签列表与所述相似标签结果进行标签对比,并在所述标签列表与所述匹配结果匹配时,将标签对比结果配置为所述搜索文本对应的标签结果,以用于基于所述搜索文本对应的标签结果进行数据搜索。
具体而言,针对泛搜索意图的搜索文本,可以首先做分词处理,得到搜索文本的标签分词序列,将标签分词序列通过预设的标签列表映射,得到初步的标签列表。对输入的搜索文本,还可以利用BERT编码获取对应的文本表征Queryencode。对候选资源库中所有的标签通过BERT编码获取标签表征Topicencode。通过faiss工具,针对得到的搜索文本对应的文本表征,通过相似度阈值控制召回最相似的Topic,如有则输出,无则输出为0。例如,搜索文本为“好听的韩语歌”,进行分词后可以得到“好听”、“的”、“韩语”、“歌”,通过预设的业务标签集合,得到分词结果中的初步标签为“韩语”。然后计算该搜索文本对应的文本表征为Queryencode。通过faiss工具,获取最相似的Topicencode,通过预设的相似度阈值0.8,得到最相似的标签为韩语,结果与第一步分词映射得到的标签重合,则确定最终标签为“韩语”,从而可以根据该标签“韩语”进行数据搜索,并向用户展示搜索结果。例如,参考图10所示的交互界面中,用户输入的搜索文本为“好听的粤语歌”,在利用上述的方法识别并确定该搜索文本为意图识别后,利用上述的方法确定该搜索文本对应的标签为“华语-粤语”,从而利用该标签进行数据搜索,并在交互界面中展示歌曲搜索结果。例如,根据标签“华语-粤语”推荐的搜索结果1可以是“最爱-周慧敏”;搜索结果2可以是“不该用情-叫莫姐姐-抖音完整版”;搜索结果3可以是“处处吻-林一-原唱:杨千嬅”;等等。
综上所述,本公开提供的方法,在获取搜索文本后,通过以离线方式获取对应的第一意图识别结果,以在线的方式确定对应的第二意图识别结果,以及第三意图识别结果。通过不同的计算方式以不同的维度得到对搜索文本是否属于泛搜意图的评估结果,能够对搜索文本是否属于泛搜意图进行准确的识别。在确定搜索文本属于泛搜意图后,通过进行标签关联,能够抽取出更适合召回排序的标签来改变原搜索文本直接进行召回而可能带来的语义偏差文本,使得最终的搜索结果符合用户真实的泛搜意图需求。本申请的技术方案可以应用于音乐应用程序中的音乐、视频搜索;也可以应用于新闻资讯类、金融类应用程序中的泛搜场景,以及视频应用程序中对视频的泛搜索场景。
示例性装置
在介绍了本公开示例性实施方式的数据处理方法之后,接下来,参考图9对本公开示例性实施方式的数据处理装置进行描述。
参考图9所示,本公开示例性实施方式的数据处理装置90可以包括:请求响应模块901,第一意图评分结果确定模块902,第二意图评分结果确定模块903以及识别结果输出模块904。其中,
所述请求响应模块901可以用于获取搜索文本。
所述第一意图评分结果确定模块902可以用于基于所述搜索文本确定对应的第一意图评分结果;其中,所述第一意图评分结果以离线方式获取。
所述第二意图评分结果确定模块903可以用于根据所述搜索文本对应的语法向量的编码特征和词向量的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果。
所述识别结果输出模904可以用于结合所述第一意图评分结果和所述第二意图评分结果确定所述搜索文本的泛搜意图识别结果。
根据本公开的示例性实施例,所述装置90还可以包括:第三意图识别结果确定模块。
所述第三意图识别结果确定模块可以用于基于预先构建的实体词典确定所述搜索文本对应的热度信息及意图信息,并根据所述热度信息和意图信息确定第三意图识别结果;以用于结合所述第一意图评分结果、所述第二意图评分结果和所述第三意图识别结果确定所述搜索文本的泛搜意图识别结果。
根据本公开的示例性实施例,所述装置90还可以包括:第一数据处理模块。
所述第一数据处理模块可以用于对搜索文本历史数据进行第一预处理,以获取目标格式的待处理文本;利用BERT模型抽取所述待处理文本对应的文本表征向量;基于所述文本表征向量进行全连接处理,以获取输出的二维向量;根据所述二维向量确定所述搜索文本历史数据对应的第一意图评分结果。
根据本公开的示例性实施例,所述第一意图评分结果确定模块用于基于所述搜索文本查询所述搜索文本历史数据以获取相匹配的历史搜索文本,并将所述历史搜索文本对应的第一意图评分结果配置为当前的所述搜索文本对应的第一意图评分结果。
根据本公开的示例性实施例,所述第二意图评分结果确定模块可以包括:对所述搜索文本进行第二预处理;对第二预处理结果进行切词处理,利用预设的单字词典为各切词结果配置对应的标识,并利用各切词结果对应的映射值构建所述词向量;以及按预设粒度对所述第二预处理结果进行拆分,利用预设的语法词典配置各拆分结果对应的标识,并利用拆分结果对对应的映射值构建所述语法向量;基于所述语法向量对应的编码特征和所述词向量对应的编码特征依次进行卷积处理、池化处理、归一化处理、聚合处理和全连接处理,以获取所述第二意图评分结果。
根据本公开的示例性实施例,所述第三意图识别结果确定模块可以包括:根据所述搜索文本查询所述实体词典以获取对应的匹配结果;根据所述匹配结果对应的预设热度值和预设意图值计算所述搜索文本对应的第三意图识别结果。
根据本公开的示例性实施例,所述识别结果输出模块904还可以包括:第一识别模块、第二识别模块和第三识别模块。其中,
所述第一识别模块可以用于在识别所述第三意图识别结果中的所述意图信息符合预设规则时,且判断所述第三意图识别结果中的所述热度信息大于或等于预设热度阈值,则确定所述搜索文本为非泛搜意图。
所述第二识别模块可以用于在识别所述第三意图识别结果中的所述意图信息符合预设规则时,且判断所述第三意图识别结果中的所述热度信息小于预设热度阈值,则根据所述第一意图识别结果和所述第意图识别结果计算所述泛搜意图识别结果的概率值;并在概率值达到预设阈值时,确定所述搜索文本为泛搜意图。
所述第三识别模块可以用于在识别所述第三意图识别结果中的所述意图信息不符合预设规则时,则根据所述第一意图识别结果和所述第二意图识别结果计算所述泛搜意图识别结果的概率值;并在概率值达到预设阈值时,确定所述搜索文本为泛搜意图。
根据本公开的示例性实施例,所述装置90还可以包括:实体词典构建模块。
所述实体词典构建模块可以用于获取更新数据,并基于所述更新数据更新基础数据库;根据预设热度阈值对所述基础数据库中的资源数据进行筛选,以删除热度值小于预设热度阈值的资源数据;对所述基础数据库中的各所述资源数据抽取目标字段,对所述目标字段进行归一化处理以获取实体字段;并建立所述实体字段与对应的所述资源数据之间的关联关系;基于与所述实体字段存在关联关系的所述资源数据对应的热度信息及意图信息配置所述实体字段的热度信息及意图信息,并根据所述实体字段构建所述实体词典。
根据本公开的示例性实施例,所述装置90还可以包括:标签匹配模块。
所述标签匹配模块可以用于在确定所述搜索文本为泛搜意图时,对所述搜索文本的分词结果进行标签关联,以根据所述搜索文本分词结果对应的标签关联结果配置所述搜索文本对应的数据标签。
根据本公开的示例性实施例,所述标签匹配模块可以包括:对所述搜索文本进行分词处理,利用预设的业务标签集合为分词结果配置对应的标签,以获取所述搜索文本分词结果对应的标签列表;将所述搜索文本对应的对应的文本编码结果,与预设的候选资源进行文本匹配,以获取相似度度大于预设阈值的相似标签结果;将所述标签列表与所述相似标签结果进行标签对比,并在所述标签列表与所述匹配结果匹配时,将标签对比结果配置为所述搜索文本对应的标签结果,以用于基于所述搜索文本对应的标签结果进行数据搜索。
由于本公开实施方式的数据处理装置的各个功能模块与上述数据处理方法公开实施方式中相同,因此在此不再赘述。
示例性存储介质
在介绍了本公开示例性实施方式的数据处理方法和装置之后,接下来,参考图11对本公开示例性实施方式的存储介质进行说明。
参考图11所示,描述了根据本公开的实施方式的用于实现上述数据处理方法的程序产品1100,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、C++等,还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
示例性电子设备
在介绍了本公开示例性实施方式的存储介质之后,接下来,参考图12对本公开示例性实施方式的电子设备进行说明。
图12显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图12所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述"示例性方法"部分中描述的根据本发明各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图1中所示的步骤。
存储单元820可以包括易失性存储单元,例如随机存取存储单元(RAM)8201和/或高速缓存存储单元8202,还可以进一步包括只读存储单元(ROM)8203。
存储单元820还可以包括具有一组(至少一个)程序模块8205的程序/实用工具8204,这样的程序模块8205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以包括数据总线、地址总线和控制总线。
电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信,这种通信可以通过输入/输出(I/O)接口850进行。电子设备800还包括显示单元840,其连接到输入/输出(I/O)接口850,用于进行显示。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
应当注意,尽管在上文详细描述中提及了音频播放装置和音频分享装置的若干模块或子模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本公开的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
获取搜索文本;
基于所述搜索文本确定对应的第一意图评分结果;其中,所述第一意图评分结果以离线方式获取;以及
根据所述搜索文本对应的语法向量的编码特征和词向量的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果;
结合所述第一意图评分结果和所述第二意图评分结果确定所述搜索文本的泛搜意图识别结果。
2.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
基于预先构建的实体词典确定所述搜索文本对应的热度信息及意图信息,并根据所述热度信息和意图信息确定第三意图识别结果;以用于结合所述第一意图评分结果、所述第二意图评分结果和所述第三意图识别结果确定所述搜索文本的泛搜意图识别结果。
3.根据权利要求1所述的数据处理方法,其特征在于,所述方法还包括:
对搜索文本历史数据进行第一预处理,以获取目标格式的待处理文本;
利用BERT模型抽取所述待处理文本对应的文本表征向量;
基于所述文本表征向量进行全连接处理,以获取输出的二维向量;
根据所述二维向量确定所述搜索文本历史数据对应的第一意图评分结果。
4.根据权利要求3所述的数据处理方法,其特征在于,基于所述搜索文本确定对应的第一意图评分结果,包括:
基于所述搜索文本查询所述搜索文本历史数据以获取相匹配的历史搜索文本,并将所述历史搜索文本对应的第一意图评分结果配置为当前的所述搜索文本对应的第一意图评分结果。
5.根据权利要求1所述的数据处理方法,其特征在于,所述基于所述搜索文本对应的语法向量和词向量对应的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果,包括:
对所述搜索文本进行第二预处理;
对第二预处理结果进行切词处理,利用预设的单字词典为各切词结果配置对应的标识,并利用各切词结果对应的映射值构建所述词向量;以及
按预设粒度对所述第二预处理结果进行拆分,利用预设的语法词典配置各拆分结果对应的标识,并利用拆分结果对对应的映射值构建所述语法向量;
基于所述语法向量对应的编码特征和所述词向量对应的编码特征依次进行卷积处理、池化处理、归一化处理、聚合处理和全连接处理,以获取所述第二意图评分结果。
6.根据权利要求2所述的数据处理方法,其特征在于,所述基于预先构建的实体词典确定所述搜索文本对应的热度信息及意图信息,并根据所述热度信息和意图信息确定第三意图识别结果,包括:
根据所述搜索文本查询所述实体词典以获取对应的匹配结果;
根据所述匹配结果对应的预设热度值和预设意图值计算所述搜索文本对应的第三意图识别结果。
7.根据权利要求2或6所述的数据处理方法,其特征在于,所述确定所述搜索文本的泛搜意图识别结果,包括:
在识别所述第三意图识别结果中的所述意图信息符合预设规则时,且判断所述第三意图识别结果中的所述热度信息大于或等于预设热度阈值,则确定所述搜索文本为非泛搜意图;或者
在识别所述第三意图识别结果中的所述意图信息符合预设规则时,且判断所述第三意图识别结果中的所述热度信息小于预设热度阈值,则根据所述第一意图识别结果和所述第二意图识别结果计算所述泛搜意图识别结果的概率值;并在概率值达到预设阈值时,确定所述搜索文本为泛搜意图;或者
在识别所述第三意图识别结果中的所述意图信息不符合预设规则时,则根据所述第一意图识别结果和所述第二意图识别结果计算所述泛搜意图识别结果的概率值;并在概率值达到预设阈值时,确定所述搜索文本为泛搜意图。
8.一种数据处理装置,其特征在于,包括:
请求响应模块,用于获取搜索文本;
第一意图评分结果确定模块,用于基于所述搜索文本确定对应的第一意图评分结果;其中,所述第一意图评分结果以离线方式获取;以及
第二意图评分结果确定模块,用于根据所述搜索文本对应的语法向量的编码特征和词向量的编码特征进行聚合处理,以根据聚合处理结果确定第二意图评分结果;
识别结果输出模块,用于结合所述第一意图评分结果和所述第二意图评分结果确定所述搜索文本的泛搜意图识别结果。
9.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~7中任一项所述的数据处理方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~7中任一项所述的数据处理方法。
CN202110906879.6A 2021-08-09 2021-08-09 数据处理方法及装置、存储介质、电子设备 Active CN113627161B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110906879.6A CN113627161B (zh) 2021-08-09 2021-08-09 数据处理方法及装置、存储介质、电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110906879.6A CN113627161B (zh) 2021-08-09 2021-08-09 数据处理方法及装置、存储介质、电子设备

Publications (2)

Publication Number Publication Date
CN113627161A true CN113627161A (zh) 2021-11-09
CN113627161B CN113627161B (zh) 2024-06-04

Family

ID=78383537

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110906879.6A Active CN113627161B (zh) 2021-08-09 2021-08-09 数据处理方法及装置、存储介质、电子设备

Country Status (1)

Country Link
CN (1) CN113627161B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116415339A (zh) * 2023-06-06 2023-07-11 四川名人居门窗有限公司 基于结构应力跟踪的门窗风险预测方法、系统及设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8700404B1 (en) * 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
CN106874425A (zh) * 2017-01-23 2017-06-20 福州大学 基于Storm的实时关键词近似搜索算法
CN109684626A (zh) * 2018-11-16 2019-04-26 深思考人工智能机器人科技(北京)有限公司 语义识别方法、模型、存储介质和装置
JP2019133563A (ja) * 2018-02-02 2019-08-08 株式会社日立製作所 情報処理装置および情報処理システム
CN111368161A (zh) * 2018-12-26 2020-07-03 北京搜狗科技发展有限公司 一种搜索意图的识别方法、意图识别模型训练方法和装置
CN111552821A (zh) * 2020-05-14 2020-08-18 北京华宇元典信息服务有限公司 法律意图搜索方法、法律意图搜索装置和电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8700404B1 (en) * 2005-08-27 2014-04-15 At&T Intellectual Property Ii, L.P. System and method for using semantic and syntactic graphs for utterance classification
CN106874425A (zh) * 2017-01-23 2017-06-20 福州大学 基于Storm的实时关键词近似搜索算法
JP2019133563A (ja) * 2018-02-02 2019-08-08 株式会社日立製作所 情報処理装置および情報処理システム
CN109684626A (zh) * 2018-11-16 2019-04-26 深思考人工智能机器人科技(北京)有限公司 语义识别方法、模型、存储介质和装置
CN111368161A (zh) * 2018-12-26 2020-07-03 北京搜狗科技发展有限公司 一种搜索意图的识别方法、意图识别模型训练方法和装置
CN111552821A (zh) * 2020-05-14 2020-08-18 北京华宇元典信息服务有限公司 法律意图搜索方法、法律意图搜索装置和电子设备

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
ELISHEVA BONCHEK-DOKOW, GAL A.KAMINKA: "Towards computational models of intention detection and intention prediction", COGNITIVE SYSTEMS RESEARCH *
周权;陈永生;郭玉臣;: "基于多特征融合的意图识别算法研究", 电脑知识与技术, no. 21 *
张晓娟;彭琳;李倩;: "查询推荐研究综述", 情报学报, no. 04 *
杨志明;王来奇;王泳;: "基于双通道卷积神经网络的问句意图分类研究", 中文信息学报, no. 05 *
王星星;毕建涛;池天河;: "基于元数据的语义识别搜索方法的研究与实现", 测绘科学, no. 05 *
迟海洋;严馨;周枫;徐广义;张磊;: "基于BERT-BiGRU-Attention的在线健康社区用户意图识别方法", 河北科技大学学报, no. 03 *
陈婷婷;林民;李艳玲;: "基于Attention+Bi-LSTM的公交出行意图和语义槽填充联合识别", 青海师范大学学报(自然科学版), no. 04 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116415339A (zh) * 2023-06-06 2023-07-11 四川名人居门窗有限公司 基于结构应力跟踪的门窗风险预测方法、系统及设备

Also Published As

Publication number Publication date
CN113627161B (zh) 2024-06-04

Similar Documents

Publication Publication Date Title
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN116775847B (zh) 一种基于知识图谱和大语言模型的问答方法和系统
CN111753060A (zh) 信息检索方法、装置、设备及计算机可读存储介质
WO2021121198A1 (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN112395506A (zh) 一种资讯推荐方法、装置、电子设备和存储介质
CN113705299A (zh) 一种视频识别的方法、装置及存储介质
WO2021135455A1 (zh) 语义召回方法、装置、计算机设备及存储介质
CN113590850A (zh) 多媒体数据的搜索方法、装置、设备及存储介质
WO2021226840A1 (zh) 热点新闻意图识别方法、装置、设备及可读存储介质
CN113434636B (zh) 基于语义的近似文本搜索方法、装置、计算机设备及介质
CN112035626A (zh) 一种大规模意图的快速识别方法、装置和电子设备
CN113821593A (zh) 一种语料处理的方法、相关装置及设备
CN115248839A (zh) 一种基于知识体系的长文本检索方法以及装置
CN117609479B (zh) 一种模型处理方法、装置、设备、介质及产品
CN111078855A (zh) 信息处理方法、装置、电子设备及存储介质
CN114328800A (zh) 文本处理方法、装置、电子设备和计算机可读存储介质
CN112417875B (zh) 配置信息的更新方法、装置、计算机设备及介质
CN113627161B (zh) 数据处理方法及装置、存储介质、电子设备
CN112417996B (zh) 工业图纸的信息处理方法、装置、电子设备和存储介质
CN117312535A (zh) 基于人工智能的问题数据处理方法、装置、设备及介质
CN113342944A (zh) 一种语料泛化方法、装置、设备及存储介质
CN111061939B (zh) 基于深度学习的科研学术新闻关键字匹配推荐方法
Lian Implementation of computer network user behavior forensic analysis system based on speech data system log
CN113569578B (zh) 一种用户意图识别方法、装置和计算机设备
CN112632962B (zh) 人机交互系统中实现自然语言理解方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant