CN113392309A - 一种数据处理方法、装置、设备及存储介质 - Google Patents

一种数据处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113392309A
CN113392309A CN202110004255.5A CN202110004255A CN113392309A CN 113392309 A CN113392309 A CN 113392309A CN 202110004255 A CN202110004255 A CN 202110004255A CN 113392309 A CN113392309 A CN 113392309A
Authority
CN
China
Prior art keywords
data
matching
feature
query
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110004255.5A
Other languages
English (en)
Inventor
黄剑辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110004255.5A priority Critical patent/CN113392309A/zh
Publication of CN113392309A publication Critical patent/CN113392309A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例公开了一种数据处理方法、装置、设备及存储介质,该数据处理方法包括:获取查询数据,并从查询数据中提取查询特征序列;获取特征匹配规则,特征匹配规则包括以下至少两种:顺序匹配规则、命中率匹配规则和紧密度匹配规则;按照特征匹配规则从数据库中搜索与查询特征序列相匹配的目标文档。采用本申请实施例,可以从多个维度对查询数据进行特征匹配,有效提高查询数据的匹配准确率。

Description

一种数据处理方法、装置、设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及智能搜索技术领域,具体涉及一种数据处理方法、一种数据处理装置、一种数据处理设备以及一种计算机可读存储介质。
背景技术
搜索系统(例如百度、谷歌等搜索引擎)的本质是针对用户给定的查询数据(例如一个搜索字符、一个搜索词或一个搜索语句),返回与查询数据相关的文档给用户。目前,搜索系统常常会出现返回的文档与查询数据之间不匹配的情况,搜索体验较差。因此,如何提高查询数据的匹配准确率成为当前研究的热点话题。
发明内容
本申请实施例提供了一种数据处理方法、装置、设备及存储介质,可以从多个维度对查询数据进行特征匹配,有效提高查询数据的匹配准确率。
一方面,本申请实施例提供一种数据处理方法,该数据处理方法包括:
获取查询数据,并从查询数据中提取查询特征序列,查询特征序列包括N个特征数据,N为正整数;
获取特征匹配规则,特征匹配规则包括以下至少两种:顺序匹配规则、命中率匹配规则和紧密度匹配规则;顺序匹配规则用于指示按照N个特征数据在所述查询特征序列中的排列顺序进行依次匹配;命中率匹配规则用于指示按照命中数据与N个特征数据之间的数量比维度进行匹配;紧密度匹配规则用于指示按照命中数据之间的紧密度维度进行匹配;
按照特征匹配规则从数据库中搜索与查询特征序列相匹配的目标文档;其中,命中数据是指目标文档中与查询特征序列中的特征数据相匹配的数据。
另一方面,本申请实施例提供一种数据处理装置,该数据处理装置包括:
获取单元,用于获取查询数据,并从查询数据中提取查询特征序列,查询特征序列包括N个特征数据,N为正整数;
获取单元,还用于获取特征匹配规则,特征匹配规则包括以下至少两种:顺序匹配规则、命中率匹配规则和紧密度匹配规则;顺序匹配规则用于指示按照N个特征数据在所述查询特征序列中的排列顺序进行依次匹配;命中率匹配规则用于指示按照命中数据与N个特征数据之间的数量比维度进行匹配;紧密度匹配规则用于指示按照命中数据之间的紧密度维度进行匹配;
处理单元,用于按照特征匹配规则从数据库中搜索与查询特征序列相匹配的目标文档;其中,命中数据是指目标文档中与查询特征序列中的特征数据相匹配的数据。
在一种实现方式中,获取单元,具体用于:
对查询数据进行拆分,得到N个特征数据,特征数据包括特征词或特征字符;
按照N个特征数据在查询数据中的排列顺序对N个特征数据进行组合,形成查询特征序列。
在一种实现方式中,处理单元,具体用于:
从数据库中提取待匹配的第一文档;
对第一文档进行拆分,得到待匹配的数据集,数据集中包含多个数据;数据包括词或字符;
按照特征匹配规则从数据集中获取M个命中数据,命中数据是指数据集中与查询特征序列中的特征数据相匹配的数据,M为正整数;
按照特征匹配规则计算M个命中数据与查询特征序列中的N个特征数据之间的匹配度得分;
若匹配度得分高于阈值,则将第一文档确定为与查询特征序列相匹配的目标文档。
在一种实现方式中,特征匹配规则包括顺序匹配规则,匹配度得分包括顺序匹配得分;处理单元,具体用于:
按照M个命中数据与查询特征序列之间的匹配顺序,确定查询特征序列的最长公共子序列;
计算最长公共子序列中的命中数据的数量与查询特征序列中的N个特征数据的数量之间的第一比值;
将第一比值确定为顺序匹配得分。
在一种实现方式中,特征匹配规则包括命中率匹配规则,匹配度得分包括命中率匹配得分;处理单元,具体用于:
计算M个命中数据的数量与查询特征序列中的N个特征数据的数量之间的第二比值;
将第二比值确定为命中率匹配得分。
在一种实现方式中,特征匹配规则包括紧密度匹配规则,匹配度得分包括紧密度匹配得分;处理单元,具体用于:
按照M个命中数据与查询特征序列之间的匹配顺序,确定查询特征序列的最长公共子序列;
获取最长公共子序列中位于最首排列位置的第一命中数据和位于最末排列位置的第二命中数据;
获取第一命中数据在所述第一文档中的第一位置,以及第二命中数据在第一文档中的第二位置;
计算第一位置与第二位置之间的长度差,并计算长度差与查询特征序列的长度之间的第三比值;
将第三比值确定为紧密度匹配得分。
在一种实现方式中,若特征匹配规则是顺序匹配规则和命中率匹配规则的组合,则匹配度得分是顺序匹配得分与命中率匹配得分的乘积;
若特征匹配规则是顺序匹配规则和紧密度匹配规则的组合,则匹配度得分是顺序匹配得分与紧密度匹配得分的乘积;
若特征匹配规则是命中率匹配规则和紧密度匹配规则的组合,则匹配度得分是命中率匹配得分和紧密度匹配得分的乘积;
若特征匹配规则是顺序匹配规则、命中率匹配规则和紧密度匹配规则三者的组合,则匹配度得分是顺序匹配得分、命中率匹配得分和紧密度匹配得分三者的乘积。
在一种实现方式中,若特征匹配规则是顺序匹配规则和命中率匹配规则的组合,则匹配度得分是顺序匹配得分与命中率匹配得分的加权之和;
若特征匹配规则是顺序匹配规则和紧密度匹配规则的组合,则匹配度得分是顺序匹配得分与紧密度匹配得分的加权之和;
若特征匹配规则是命中率匹配规则和紧密度匹配规则的组合,则匹配度得分是命中率匹配得分和紧密度匹配得分的加权之和;
若特征匹配规则是顺序匹配规则、命中率匹配规则和紧密度匹配规则三者的组合,则匹配度得分是顺序匹配得分、命中率匹配得分和紧密度匹配得分三者的加权之和。
在一种实现方式中,处理单元,还用于:
按照特征匹配规则从数据库中搜索与查询特征序列相匹配的P个文档,目标文档是P个文档中的任一个,P为正整数。
在一种实现方式中,数据处理装置还包括显示单元,显示单元,具体用于:
显示目标应用程序的文档搜索页面,文档搜索页面包括搜索框、搜索选项和查询结果展示区域;
当存在作用于搜索框的输入操作时,在搜索框中显示输入搜索框中的查询数据;
当搜索选项被选中时,在查询结果展示区域中展示P个文档。
在一种实现方式中,P个文档中的每个文档对应一个匹配度得分,匹配度得分越高,表示文档与特征匹配规则的匹配度越高;显示单元,具体用于:
按照匹配度得分由高至低的顺序,在查询结果展示区域中排列显示P个文档。
另一方面,本申请实施例提供一种数据处理设备,该数据处理设备包括:
处理器,适于实现计算机程序;以及,
计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序适于由处理器加载并执行上述的数据处理方法。
另一方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被计算机设备的处理器读取并执行时,使得计算机设备执行上述的数据处理方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的数据处理方法。
本申请实施例中,从查询数据中提取到的查询特征序列可以包括N个特征数据,N为正整数;获取到的特征匹配规则可以包括顺序匹配规则、命中率匹配规则和紧密度匹配规则中的至少两种;特征匹配规则可以从多个维度对查询数据进行特征匹配,顺序匹配规则用于指示按照N个特征数据在查询特征序列中的排列顺序进行依次匹配,命中率匹配规则用于指示按照命中数据与N个特征数据之间的数量比维度进行匹配,紧密度匹配规则用于指示按照命中数据之间的紧密度维度进行匹配,命中数据是指目标文档中与查询特征序列中的特征数据相匹配的数据。从而,可以按照多维度的特征匹配规则从数据库中搜索与查询特征序列相匹配的目标文档,采用多维度的特征匹配规则对查询数据进行匹配,能够有效提高查询数据匹配准确率,能够在数据库中搜索到与查询数据具有较高匹配度的目标文档。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请一个示例性实施例提供的一种智能搜索技术的基本流程示意图;
图2示出了本申请一个示例性实施例提供的一种数据处理系统的架构示意图;
图3a示出了本申请一个示例性实施例提供的一种文档搜索页面的示意图;
图3b示出了本申请另一个示例性实施例提供的一种文档搜索页面的示意图;
图3c示出了本申请另一个示例性实施例提供的一种文档搜索页面的示意图;
图4示出了本申请一个示例性实施例提供的一种数据处理方法的流程示意图;
图5示出了本申请另一个示例性实施例提供的一种数据处理方法的流程示意图;
图6示出了本申请一个示例性实施例提供的一种数据处理装置的结构示意图;
图7示出了本申请一个示例性实施例提供的一种数据处理设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提出一种数据处理方案,该数据处理方案涉及人工智能的自然语言处理、机器学习等技术,其中:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例涉及智能搜索技术。智能搜索技术是指针对用户给定的查询数据(例如一个搜索字符、一个搜索词或一个搜索语句),能够返回与查询数据相匹配的文档的技术。本申请实施例提及的文档可以包括但不限于:文章、视频、音频、游戏等等。图1示出了本申请一个示例性实施例提供的一种智能搜索技术的基本流程示意图,图1以视频搜索应用程序为例,针对用户给定的查询数据“XXX”,视频搜索应用程序对查询数据进行分析,并通过求交召回、粗排召回、精排排序等阶段从数据库中筛选出与“XXX”相匹配的多个视频,并将筛选得到的视频返回给用户。
智能搜索技术中的一个核心点在于匹配规则的构建,匹配规则构建得越好,对查询数据的匹配越准确,查询数据与搜索到的文档匹配度越高。本申请实施例提供一种数据处理方法,该数据处理方法采用特征匹配规则对查询数据进行多维度匹配,提高了查询数据的匹配准确率。该数据处理方法具体可以为:获取查询数据,并从查询数据中提取查询特征序列,查询特征序列可以包括N个特征数据,N为正整数;获取特征匹配规则,特征匹配规则可以包括顺序匹配规则、命中率匹配规则和紧密度匹配规则中的至少两种;按照特征匹配规则从数据库中搜索与所述查询特征序列相匹配的目标文档。特征匹配规则可以从多个维度对查询数据进行特征匹配,顺序匹配规则用于指示按照N个特征数据在查询特征序列中的排列顺序进行依次匹配,命中率匹配规则用于指示按照命中数据与N个特征数据之间的数量比维度进行匹配,紧密度匹配规则用于指示按照命中数据之间的紧密度维度进行匹配,命中数据是指目标文档中与查询特征序列中的特征数据相匹配的数据。采用多维度的特征匹配规则对查询数据进行匹配,有效提高了查询数据的匹配准确率,能够在数据库中搜索到与查询数据具有较高匹配度的目标文档。
需要说明的是,本申请实施例提供的数据处理方案可以采用特征匹配模型实现,特征匹配模型可以是采用样本数据集对机器学习模型(例如可以是人工神经网络模型、生成对抗网络模型等等)进行训练得到的,样本数据集可以包括多个样本查询数据,以及与每个样本查询数据相匹配的多个文档。从查询数据中提取查询特征序列的过程可以是通过人工智能中的自然语言处理技术实现的;用户给定采用自然语言描述的查询数据,通过自然语言处理技术对查询数据中的文本进行分析处理,得到N个特征数据,查询特征序列包括N个特征数据,N为正整数。
为了能够更好地理解本申请实施例提供的数据处理方案,下面将结合实际应用场景对本申请实施例涉及的数据处理系统进行介绍。图2示出了本申请一个示例性实施例提供的一种数据处理系统的架构示意图,如图2所示,数据处理系统20可以包括终端201和服务器202。其中,本申请实施例对终端201和服务器202的数量不作限定。其中,终端201可以包括但不限于:智能手机、平板电脑、PC(Personal Computer,个人计算机)、台式计算机、智能音箱、智能手表、智能可穿戴设备等等;终端201往往配置有显示装置,显示装置可以为显示器、显示屏、触摸屏等等,触摸屏可以为触控屏、触控面板等等。服务器202可以为终端201提供计算和应用服务支持。服务器202可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器,本申请实施例在此不作限制。终端201和服务器202之间可以通过有线通信或者无线通信方式进行直接或间接地连接,本申请在此不做限制。
能够实现数据处理方案的特征匹配模型可以部署于终端201中,也可以部署于服务器202中,当特征匹配模型部署于服务器202中时,服务器202可以向终端201提供数据处理服务。其中:
(1)特征匹配模型部署于服务器202中
终端可以支持各种应用程序的安装及运行,此处的应用程序例如可以包括但不限于即时通信应用程序、视频服务应用程序、音频服务应用程序、游戏应用程序等等。目标应用程序(例如可以是一个智能搜索应用程序)是终端中安装并运行的任一个应用程序,目标应用程序可以包括多个服务页面,例如登录页面、设置页面等等,文档搜索页面是目标应用程序中的一个服务页面。
当终端侧的用户存在搜索需求时,终端可以显示目标应用程序的文档搜索页面,文档搜索页面中可以包括搜索框、搜索选项和查询结果展示区域。当存在作用于搜索框的输入操作(例如用户在搜索框中输入查询数据)时,搜索框中显示有输入搜索框中的查询数据。当搜索选项被选中(例如用户点击搜索选项)时,终端向服务器发送查询数据。服务器可以采用特征匹配模型对查询数据进行匹配,按照特征匹配规则从服务器的数据库中搜索与查询数据相匹配的P个文档,并将搜索到的P个文档返回至终端,P个文档中的每个文档对应一个匹配度得分;匹配度得分可以指示文档与查询数据的匹配程度,匹配度得分越高,表示文档与特征匹配规则的匹配度越高,也可以理解为,匹配度越高,表示文档与查询数据的匹配度越高。终端可以在文档搜索页面的查询结果展示区域中随机展示P个文档,终端也可以按照匹配度得分由高至低的顺序,在查询结果展示区域中排列显示P个文档,P为正整数。
(2)特征匹配模型部署于终端201中
终端可以支持各种应用程序的安装及运行,此处的应用程序例如可以包括但不限于即时通信应用程序、视频服务应用程序、音频服务应用程序、游戏应用程序等等。目标应用程序(例如可以是一个智能搜索应用程序)是终端中安装并运行的任一个应用程序,目标应用程序可以包括多个服务页面,例如登录页面、设置页面等等,文档搜索页面是目标应用程序中的一个服务页面。
当用户存在搜索需求时,终端可以显示目标应用程序的文档搜索页面,文档搜索页面中可以包括搜索框、搜索选项和查询结果展示区域。当存在作用于搜索框的输入操作(例如用户在搜索框中输入查询数据)时,搜索框中显示有输入搜索框中的查询数据。当搜索选项被选中(例如用户点击搜索选项)时,终端可以采用特征匹配模型对查询数据进行匹配,按照特征匹配规则从终端的数据库中搜索与查询数据相匹配的P个文档;匹配度得分可以指示文档与查询数据的匹配程度,匹配度得分越高,表示文档与特征匹配规则的匹配度越高,也可以理解为,匹配度越高,表示文档与查询数据的匹配度越高。终端可以在文档搜索页面的查询结果展示区域中随机展示P个文档。终端也可以按照匹配度得分由高至低的顺序,在查询结果展示区域中排列显示P个文档,P为正整数。通过这种方式,与查询数据匹配程度越高的文档,在查询结果展示区域中的排列位置越靠前,用户可以及时获取到与查询结果紧密匹配的文档,满足了用户的查询需求,提升了用户的查询体验。
由上述内容可知,不论特征匹配模型部署于终端201中还是部署于服务器202中,对于用户而言,当用户在文档搜索页面的搜索框中输入查询数据并点击搜索选项后,在文档搜索页面的查询结果展示区域中就会展示与查询数据相匹配的多个文档,例如可以是多个视频、多篇文章等等。图3a示出了本申请一个示例性实施例提供的一种文档搜索页面的示意图,如图3a所示,文档搜索页面30包括搜索框301,搜索选项302和文档展示区域303,当用户存在搜索需求时,用户在搜索框301中输入查询数据“草莓蛋糕样式”,搜索框301中显示有输入搜索框301中的查询数据。当用户点击搜索选项302时,在文档搜索页面30的查询结果展示区域303中展示与查询数据相匹配的6个视频,每个视频对应一个匹配度得分,匹配度得分越高,表示视频与查询数据的匹配度越高。6个视频可以按照匹配度得分由高至低的顺序,在查询结果展示区域303中排列显示。需要说明的是,当文档是视频时,视频可以包括视频标题,视频与查询数据相匹配可以是指视频标题与查询数据相匹配;在查询结果展示区域303中,视频标题为“草莓蛋糕样式大全”的视频304排列在视频标题为“草莓蛋糕的一百种样式”的视频305之前,表示视频304的匹配度得分高于视频305的匹配度得分,视频304与查询数据之间的匹配程度高于视频305与查询数据之间的匹配程度。
文档还可以是文章,图3b示出了本申请另一个示例性实施例提供的一种文档搜索页面的示意图,如图3b所示,用户在搜索框301中输入查询数据“草莓蛋糕样式”,搜索框301中显示有输入搜索框301中的查询数据。当用户点击搜索选项302时,在文档搜索页面30的查询结果展示区域303中展示与查询数据相匹配的6篇文章,每篇文章对应一个匹配度得分,匹配度得分越高,表示文章与查询数据的匹配度越高。6篇文章可以按照匹配度得分由高至低的顺序,在查询结果展示区域303中排列显示。需要说明的是,当文档是文章时,文章可以包括文章标题和文章内容,文章与查询数据相匹配可以是指文章标题与查询数据相匹配,也可以是指文章内容与查询数据相匹配;在查询结果展示区域303中,文章标题为“草莓蛋糕样式大全”的文章306排列在文章标题为“草莓蛋糕的一百种样式”的文章307之前,表示文章306的匹配度得分高于文章307的匹配度得分,文章306与查询数据之间的匹配程度高于文章307与查询数据之间的匹配程度。
文档还可以是文章、视频等的组合。图3c示出了本申请另一个示例性实施例提供的一种文档搜索页面的示意图,如图3c所示,用户在搜索框301中输入查询数据“草莓蛋糕样式”,搜索框301中显示有输入搜索框301中的查询数据。当用户点击搜索选项302时,在文档搜索页面30的查询结果展示区域303中展示与查询数据相匹配的5个文档,5个文档中可以包括视频、文章等等,例如,可以包括视频标题为“草莓蛋糕样式大全”的视频304和文章标题为“草莓蛋糕样式大全”的文章306等等。文档搜索页面30还以包括视频选项308、文章选项309,当视频选项308被选中时,在查询结果展示区域303中筛选出视频进行展示,当文章选项309被选中时,在查询结果展示区域303中筛选出文章进行展示。
由于查询结果展示区域303的容积有限,查询结果展示区域303内可以展示的文档数量也受到限制,还可以通过选中继续搜索选项310(例如图3a、图3b或图3c中的“更多”选项310)的方式,在查询结果展示区域303中查看更多与查询数据相匹配的文档;或者也可以在查询结果展示区域303中执行滑动操作(例如上下滑动、左右滑动)的方式,在查询结果展示区域303中查看更多与查询数据相匹配的文档。
需要说明的是,本申请实施例中提及的匹配度得分的计算方式可以参见下述实施例中的具体描述,在此不再赘述。
本申请实施例中,当用户在终端的文档搜索页面中输入查询数据时,可以在文档编辑页面中显示与查询数据相匹配的P个文档,并且P个文档按照每个文档的匹配度得分由高到低的顺序进行排列显示。由此可见,与查询数据匹配程度越高的文档,在查询结果展示区域中的排列位置越靠前,用户可以及时获取到与查询结果紧密匹配的文档,满足了用户的查询需求,提升了用户的查询体验。
可以理解的是,本申请实施例描述的数据处理系统是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着系统架构的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
基于上述描述,请参见图4,图4示出了本申请一个示例性实施例提供的一种数据处理方法的流程示意图,该数据处理方法可以由图2所示的数据处理系统20中的终端201执行,该数据处理方法可以包括以下步骤S401至步骤S404:
S401,获取查询数据。
查询数据可以由终端侧的用户输入至终端。终端中显示有文档编辑页面,文档编辑页面中可以包括搜索框,用户可以通过搜索框输入查询数据,即获取查询数据可以是指获取用户输入搜索框中的查询数据。
S402,从查询数据中提取查询特征序列。
获取到查询数据之后,可以从查询数据中提取查询特征序列,查询特征序列包括N个特征数据,N为正整数。从查询数据中提取查询特征序列的方式可以为:对查询数据进行拆分,得到N个特征数据,按照N个特征数据在查询数据中的排列顺序对N个特征数据进行组合,形成查询特征序列。其中,特征数据可以包括特征词或特征字符,特征词可以是指由多个特征字符组成的字符串,特征字符可以是指单个字符。查询特征序列可以是纯特征词序列,即查询特征序列中的N个特征数据全部都是特征词;查询特征序列还可以是纯特征字符序列,即查询特征序列中的N个特征数据全部都是特征字符;查询特征序列也可以是特征词与特征字符的混合序列,即查询特征序列中的一部分特征数据是特征词,一部分特征数据是特征字符。
举例来说,查询数据为“草莓蛋糕样式”,可以将该查询数据拆分为3个特征词,分别是“草莓”、“蛋糕”和“样式”,按照这3个特征词在查询数据中的排列顺序对3个特征词进行组合,形成查询特征序列{草莓、蛋糕、样式}。或者,还可以将该查询数据拆分为6个特征字符,分别是“草”、“莓”、“蛋”“糕”、“样”和“式”,按照这6个特征字符在查询数据中的排列顺序对6个特征字符进行组合,形成查询特征序列{草、莓、蛋、糕、样、式}。或者,可以将该查询数据拆分为2个特征词和2个特征字符,2个特征词分别是“草莓”和“样式”,2个特征字符分别是“蛋”和“糕”,按照2个特征词和2个特征字符在查询数据中的排列顺序对它们进行组合,形成查询特征序列{草莓、蛋、糕、样式}。
S403,获取特征匹配规则。
S404,按照特征匹配规则从数据库中搜索与查询特征序列相匹配的目标文档。
步骤S403中,特征匹配规则可以包括但不限于以下至少两种:顺序匹配规则、命中率匹配规则、紧密度匹配规则,本申请实施例对此不作限定。其中,顺序匹配规则可以用于指示按照N个特征数据在查询特征序列中的排列顺序进行依次匹配;命中率匹配规则可以用于指示按照命中数据与N个特征数据之间的数量比维度进行匹配;紧密度匹配规则可以用于指示按照命中数据之间的紧密度维度进行匹配。命中数据可以是指目标文档中与查询特征序列中的特征数据相匹配的数据;目标文档中与查询特征序列中的特征数据相匹配的数据可以包括两种情况:一种是目标文档中与查询特征序列中的特征数据相同的数据。另一种是目标文档中与查询特征序列中的特征数据相近的数据,当目标文档中的数据与特征数据中相同字符的数量,与特征数据中字符的数量的比值超过数量阈值,可以认为目标文档中的该数据与特征数据相近,该数据可以是命中数据。例如,目标文档中的某一个数据为“草莓蛋糕”,特征数据为“树莓蛋糕”,该数据与特征数据中相同字符的数量,与特征数据中字符的数量的比值为0.75,超过数量阈值0.5,可以认为目标文档中的该数据与特征数据相近,该数据是命中数据。本申请实施例以第一种情况为例进行说明,即本申请实施例以命中数据是目标文档中与查询特征序列中的特征数据相同的数据为例进行说明。例如,目标文档为“今天我想做草莓蛋糕,你们有制作教程吗”,查询特征序列为{草莓、蛋糕、样式},那么命中数据有2个,一个是“草莓”,一个是“蛋糕”。
步骤S404中,按照特征匹配规则从数据库中搜索与查询特征序列相匹配的目标文档的方式可以为:数据库中可以包括多个待匹配的文档,从数据库中提取待匹配的第一文档;对第一文档进行拆分,得到待匹配的数据集,数据集中可以包含多个数据,数据可以包括词或字符;按照特征匹配规则从数据集中获取M个命中数据,命中数据是指数据集中与查询特征序列中的特征数据相匹配的数据,M为正整数;按照特征匹配规则计算M个命中数据与查询特征序列中的N个特征数据之间的匹配度得分;若匹配度得分高于阈值,则将第一文档确定为与查询特征序列相匹配的目标文档。其中,匹配度得分可以包括但不限于以下至少两种:顺序匹配得分、命中率匹配得分、紧密度匹配得分,本申请实施例对此不作限定;按照顺序匹配规则可以计算得到M个命中数据与查询特征序列中的N个特征数据之间的顺序匹配得分;按照命中率匹配规则可以计算得到M个命中数据与查询特征序列中的N个特征数据之间的命中率匹配得分;按照紧密度匹配规则可以计算得到M个命中数据与查询特征序列中的N个特征数据之间的紧密度匹配得分。顺序匹配得分、命中率匹配得分、紧密度匹配得分的具体计算过程可以参见图5所示实施例中步骤S507的具体描述。
本申请实施例中,匹配度得分可以作为衡量一个文档与查询数据是否匹配的标准,若一个文档的匹配度得分超过阈值,则认为该文档与查询数据匹配,若一个文档的匹配度得分未超过阈值,则认为该文档与查询数据不匹配。对于文档的匹配度得分,可以包括顺序匹配得分、命中率匹配得分以及紧密度匹配得分中的至少两种的组合,按照顺序匹配规则可以计算得到文档与查询数据之间的顺序匹配得分;按照命中率匹配规则可以计算得到文档与查询数据之间的命中率匹配得分;按照紧密度匹配规则可以计算得到文档与查询数据之间的紧密度匹配得分。顺序匹配得分、命中率匹配得分以及紧密度匹配得分从不同维度表示文档与查询数据之间的匹配关系,在文档与查询数据的匹配过程中,综合考虑文档中的命中数据与查询数据中的特征数据在数据排列顺序,数量比、紧密度三个维度的匹配程度,能够有效提高对查询数据的匹配准确率。
请参见图5,图5示出了本申请另一个示例性实施例提供的一种数据处理方法的流程示意图,该数据处理方法可以由图2所示的数据处理系统20中的终端201执行,该数据处理方法可以包括以下步骤S501至步骤S508:
S501,获取查询数据。
S502,从查询数据中提取查询特征序列。
S503,获取特征匹配规则。
本申请实施例中步骤S501的执行过程与图4所示实施例中步骤S401的执行过程相同,步骤S502的执行过程与图4所示实施例中步骤S402的执行过程相同,步骤S503的执行过程与图4所示实施例中步骤S403的执行过程相同,具体执行过程可以参见图4所示实施例的描述,本申请实施例在此不再赘述。
S504,从数据库中提取待匹配的第一文档。
数据库中可以包括多个待匹配的文档,从数据库中提取待匹配的第一文档,第一文档是数据库中的任一个文档。
S505,对第一文档进行拆分,得到待匹配的数据集。
第一文档可以包括文档标题和文档内容,对第一文档进行拆分可以是指对第一文档的文档标题进行拆分,也可以是指对第一文档的文档内容进行拆分。当第一文档是视频时,文档标题可以是指视频标题,文档内容可以是指视频数据;当第一文档是文章时,文档标题可以是文章标题,文档内容可以是指文档内容。
待匹配的数据集可以包括多个待匹配的数据;对第一文档进行拆分,得到待匹配的数据集的方式可以为:对第一文档进行拆分,得到多个待匹配的数据,按照多个待匹配的数据在查询数据中的排列顺序对多个待匹配的数据进行组合,形成待匹配的数据集。其中,数据可以包括词或字符,数据中的词可以是指由多个字符组成的字符串,数据中的字符可以是指单个字符。待匹配的数据集可以是词集合,即待匹配的数据集中的多个数据全部都是词;待匹配的数据集还可以是字符集合,即待匹配的数据集中的多个数据全部都是字符;待匹配的数据集也可以是词与字符的混合集合,即待匹配的数据集中的一部分数据是词,一部分数据是字符。
S506,按照特征匹配规则从数据集中获取M个命中数据。
命中数据可以是指待匹配的数据集中与查询特征序列中的特征数据相匹配的数据。可以按照命中率匹配规则从数据集中获取M个命中数据,M为正整数。
举例来说,第一文档为“蛋糕的一百种样式”,对第一文档拆分得到的数据集为{蛋糕、的、一百种、样式},此处也可以对拆分得到的数据集进行优化,去除无意义的助词如“的”,得到优化后的数据集为{蛋糕、一百种、样式}。查询数据为“草莓蛋糕样式”,对查询数据进行拆分得到的查询特征序列为{草莓、蛋糕、样式},按照命中率匹配规则,可以从数据集中获取2个命中数据,分别是“蛋糕”和“样式”。
S507,按照特征匹配规则计算M个命中数据与查询特征序列中的N个特征数据之间的匹配度得分。
特征匹配规则可以包括但不限于以下至少两种:顺序匹配规则、命中率匹配规则、紧密度匹配规则,本申请实施例对此不作限定;匹配度得分可以包括但不限于以下至少两种:顺序匹配得分、命中率匹配得分、紧密度匹配得分,本申请实施例对此不作限定。按照顺序匹配规则可以计算得到M个命中数据与查询特征序列中的N个特征数据之间的顺序匹配得分;按照命中率匹配规则可以计算得到M个命中数据与查询特征序列中的N个特征数据之间的命中率匹配得分;按照紧密度匹配规则可以计算得到M个命中数据与查询特征序列中的N个特征数据之间的紧密度匹配得分。其中:
(1)按照顺序匹配规则计算M个命中数据与查询特征序列中的N个特征数据之间的顺序匹配得分。具体地,可以按照M个命中数据与查询特征序列之间的匹配顺序,确定查询特征序列的最长公共子序列;计算最长公共子序列中的命中数据的数量与查询特征序列中的N个特征数据的数量之间的第一比值,并将第一比值确定为顺序匹配得分。顺序匹配得分的计算方式如下公式1所示:
Score_sequence=count(LSC)/count(Query) 公式1
如上述公式1所示,Score_sequence表示顺序匹配得分,LSC表示查询特征序列的最长公共子序列,count(LSC)表示最长公共子序列中的命中数据的数量,Query表示查询特征序列,count(Query)表示查询特征序列中的N个特征数据的数量。
其中,最长公共子序列(Longest Common Subsequence,LCS)是一个经典的动态规划问题,若给定Q个序列,则最长公共子序列可以是指Q个序列的所有公共子序列中包含数据的数量最多的公共子序列,Q为大于或等于2的整数;Q个序列的公共子序列可以是指Q个序列中的每个序列分别删去一定数量(例如0个、1个、2个或者多个等等)的数据,且不改变Q个序列中剩余数据的排列顺序后得到的包含相同数据的序列。例如给定2个序列,分别是序列X和序列Y,序列X={1,a,2,b,3},序列Y={h,f,a,h,b,r,c},序列X和序列Y的公共子序列为公共子序列Z1={a,b}、公共子序列Z2={a}和公共子序列Z3={b},公共子序列Z1、公共子序列Z2和公共子序列Z3中包含数据的数量最多的公共子序列是公共子序列Z1,则序列X和序列Y的最长公共子序列为公共子序列Z1。
举例来说,若2个命中数据为“蛋糕”和“样式”,则2个命中数据与查询特征序列中的3个特征数据{草莓、蛋糕、样式}之间的最长公共子序列为{蛋糕、样式},最长公共子序列中的命中数据的数量为2,查询特征序列中的特征数据的数量为3,最长公共子序列中的命中数据的数量与查询特征序列中的特征数据的数量之间的第一比值为2/3,则顺序匹配得分为2/3。若2个命中数据为“样式”和“蛋糕”,则2个命中数据与查询特征序列中的3个特征数据{草莓、蛋糕、样式}之间的最长公共子序列为{样式}或{蛋糕},最长公共子序列中的命中数据的数量为1,查询特征序列中的特征数据的数量为3,最长公共子序列中的命中数据的数量与查询特征序列中的特征数据的数量之间的第一比值为1/3,则顺序匹配得分为1/3。
由上述内容可知,在采用顺序匹配规则对M个命中数据与查询特征序列进行匹配的过程中,考虑了命中数据的顺序。若M个命中数据与查询特征序列中的特征数据顺序匹配,那么计算得到的顺序匹配得分较高;若M个命中数据与查询特征序列中的特征数据未按序匹配或者部分按序匹配,那么计算得到的顺序匹配得分较低。采用顺序匹配规则从匹配顺序的维度提高查询数据的匹配准确率。
(2)按照命中率匹配规则计算M个命中数据与查询特征序列中的N个特征数据之间的命中率匹配得分。具体地,可以计算M个命中数据的数量与查询特征序列中的N个特征数据的数量之间的第二比值,并将第二比值确定为命中率匹配得分。命中率匹配得分的计算方式如下公式2所示:
Score_hit=count(Hit)/count(Query) 公式2
如上述公式2所示,Score_hit表示命中率匹配得分,Hit表示命中数据,count(Hit)表示命中数据的数量,Query表示查询特征序列,count(Query)表示查询特征序列中的N个特征数据的数量。
举例来说,若2个命中数据为“蛋糕”和“样式”,查询特征序列为{草莓、蛋糕、样式},则命中数据的数量为2,查询特征序列中的特征数据的数量为3,命中数据的数量与查询特征序列中的特征数据的数量之间的第二比值为2/3,命中率匹配得分为2/3。
由上述内容可知,在采用命中率匹配规则对M个命中数据与查询特征序列进行匹配的过程中,考虑了命中数据的数量。若命中数据的数量多,则计算得到的命中率匹配得分较高;若命中数据的数量少,则计算得到的命中率匹配得分较低。采用命中率匹配规则从匹配命中率的维度提高查询数据的匹配准确率。
(3)按照紧密度匹配规则计算M个命中数据与查询特征序列中的N个特征数据之间的紧密度匹配得分。具体地,按照M个命中数据与查询特征序列之间的匹配顺序,确定查询特征序列的最长公共子序列;获取最长公共子序列中位于最首排列位置的第一命中数据和位于最末排列位置的第二命中数据;获取第一命中数据在第一文档中的第一位置,以及第二命中数据在第一文档中的第二位置;计算第一位置与第二位置之间的长度差,并计算长度差与查询特征序列的长度之间的第三比值,并将第三比值确定为紧密度匹配得分;其中,查询特征序列的长度可以是指查询特征序列包括的N个特征数据的长度之和,特征数据的长度可以等于特征数据中包含的字符的数量,例如特征数据为“草莓”,特征数据的长度为2。紧密度匹配得分的计算方式如下公式3所示:
Score_span=(pos_end-pos_first)/len(Query) 公式3
如上公式3所示,Score_span表示紧密度匹配得分,pos_end表示最长公共子序列中位于最末排列位置的第二命中数据在第一文档中的第二位置,pos_first表示最长公共子序列中位于最首排列位置的第一命中数据在第一文档中的第一位置,(pos_end-pos_first)表示第一位置与第二位置之间的长度差,Query表示查询特征序列,len(Query)表示查询特征序列的长度。
举例来说,第一文档为“蛋糕的一百种样式”,查询特征序列为{草莓、蛋糕、样式},按照命中率匹配规则,可以得到2个命中数据,分别是“蛋糕”和“样式”;2个命中数据与查询特征序列中的3个特征数据之间的最长公共子序列为{蛋糕、样式};最长公共子序列中位于最首排列位置的第一命中数据是“蛋糕”,最长公共子序列中位于最末排列位置的第二命中数据“样式”,第一命中数据在第一文档中的第一位置与第二命中数据在第一文档中的第二位置之间的长度差为4,查询特征序列的长度为6,长度差与查询特征序列的长度之间的第三比值为4/6,则紧密度匹配得分为4/6。
由上述内容可知,在采用紧密度匹配规则对M个命中数据与查询特征序列进行匹配的过程中,考虑了命中数据之间的紧密度。若第一命中数据与第二命中数据在第一文档中的跨度越小,表明第一命中数据与第二命中数据之间越紧密,查询数据与第一文档的匹配度越高;若第一命中数据与第二命中数据在第一文档中的跨度越大,表明第一命中数据与第二命中数据之间越稀疏,查询数据与第一文档的匹配度越低。采用紧密度匹配规则从命中数据之间的紧密度维度提高查询数据的匹配准确率。
特征匹配规则可以包括但不限于以下至少两种:顺序匹配规则、命中率匹配规则、紧密度匹配规则,本申请实施例对此不作限定;匹配度得分可以包括但不限于以下至少两种:顺序匹配得分、命中率匹配得分、紧密度匹配得分,本申请实施例对此不作限定。匹配度得分的具体计算方式可以包括以下几种情况:
(1)若特征匹配规则是顺序匹配规则和所述命中率匹配规则的组合,则匹配度得分可以是顺序匹配得分与命中率匹配得分的乘积,或者匹配度得分还可以是顺序匹配得分与命中率匹配得分的加权之和。
(2)若特征匹配规则是顺序匹配规则和紧密度匹配规则的组合,则匹配度得分可以是顺序匹配得分与紧密度匹配得分的倒数的乘积,或者匹配度得分可以是顺序匹配得分与紧密度匹配得分的倒数的加权之和。
(3)若特征匹配规则是命中率匹配规则和紧密度匹配规则的组合,则匹配度得分可以是命中率匹配得分和紧密度匹配得分的倒数的乘积,或者匹配度得分可以是命中率匹配得分和紧密度匹配得分的倒数的加权之和。
(4)若特征匹配规则是顺序匹配规则、命中率匹配规则和紧密度匹配规则三者的组合,则匹配度得分可以是顺序匹配得分、命中率匹配得分和紧密度匹配得分的倒数三者的乘积,或者匹配度得分还可以是顺序匹配得分、命中率匹配得分和紧密度匹配得分的倒数三者的加权之和。
以匹配度得分是顺序匹配得分、命中率匹配得分和紧密度匹配得分的倒数三者的乘积为例,匹配度得分的计算方式如下述公式4所示:
Score=Score_sequence×Score_hit×(1/Score_span) 公式4
如上述公式4所示,Score表示匹配度得分,Score_sequence表示顺序匹配得分,Score_hit表示命中率匹配得分,(1/Score_span)表示紧密度得分的倒数。
以匹配度得分是顺序匹配得分、命中率匹配得分和紧密度匹配得分的倒数三者的加权之和为例,匹配度得分的计算方式如下述公式5所示:
Score=a×Score_sequence+b×Score_hit+c×(1/Score_span) 公式5
如上述公式5所示,Score表示匹配度得分;a表示顺序匹配得分的权重,Score_sequence表示顺序匹配得分;b表示命中率匹配得分的权重,Score_hit表示命中率匹配得分;c表示紧密度匹配得分的权重,(1/Score_span)表示紧密度匹配得分的倒数。其中,a、b、c可以相同,也可以不相同;通过不同的权重,可以对特征匹配规则进行调整,若顺序匹配得分的权重比较大,则表明在匹配过程中更加关注命中数据与查询特征序列之间的匹配顺序;若命中率匹配得分的权重比较大,则表明在匹配过程中更加关注命中数据与查询特征序列中的特征数据之间的数量比;若紧密度匹配得分的权重比较大,则表明在匹配过程中更加关注命中数据在文档中的紧密度,进一步提高了对查询数据的匹配准确率。
举例来说,第一文档“蛋糕的一百种样式”与查询特征序列为{草莓、蛋糕、样式}之间的匹配度得分的一种计算方式可参见表1。
表1
Figure BDA0002882355560000201
S508,若匹配度得分高于阈值,则将第一文档确定为与查询特征序列相匹配的目标文档。
终端中可以运行目标应用程序,查询数据可以是用户通过目标应用程序的文档搜索页面输入的。终端中显示有目标应用程序的文档搜索页面,文档搜索页面包括搜索框、搜索选项和查询结果展示区域;当存在作用于搜索框的输入操作时,在搜索框中显示输入搜索框中的查询数据;当搜索选项被选中时,可以按照特征匹配规则从数据库中搜索与查询特征序列相匹配的P个文档,并在查询结果展示区域中展示P个文档,目标文档是P个文档中的任一个,P为正整数。P个文档中的每个文档可以对应一个匹配度得分,匹配度得分越高,表示文档与特征匹配规则的匹配度越高,即表明文档与查询特征序列的匹配度越高;可以按照匹配度得分由高至低的顺序,在查询结果展示区域中排列显示P个文档。文档搜索页面的多种显示方式可参见上述图3a至图3c的描述,在此不再赘述。
本申请实施例中,对于第一文档的匹配度得分,可以包括顺序匹配得分、命中率匹配得分以及紧密度匹配得分中的至少两种的组合,按照顺序匹配规则可以计算得到第一文档的M个命中数据与查询特征序列中的N个特征数据之间的顺序匹配得分;按照命中率匹配规则可以计算得到第一文档的M个命中数据与查询特征序列中的N个特征数据之间的命中率匹配得分;按照紧密度匹配规则可以计算得到第一文档的M个命中数据与查询特征序列中的N个特征数据之间的紧密度匹配得分。匹配度得分可以是顺序匹配得分、命中率匹配得分以及紧密度匹配得分的倒数中的至少两种的乘积,也可以是顺序匹配得分、命中率匹配得分以及紧密度匹配得分的倒数中的至少两种的加权之和。在对顺序匹配得分、命中率匹配得分以及紧密度匹配得分的倒数进行加权融合的过程中,可以设置不同的权重,通过不同的权重,可以对特征匹配规则中不同维度的匹配规则的关注度进行调整,进一步提升对查询数据的匹配准确率。
请参见图6,图6示出了本申请另一个示例性实施例提供的一种数据处理装置的结构示意图,该数据处理装置60可以设置于数据处理设备中,数据处理设备可以是图2所示的数据处理系统中的终端201。该数据处理装置60可以用于执行图4或图5所示的数据处理方法中的相应步骤,该数据处理装置60可以包括如下单元:
获取单元601,用于获取查询数据,并从查询数据中提取查询特征序列,查询特征序列包括N个特征数据,N为正整数;
获取单元601,还用于获取特征匹配规则,特征匹配规则包括以下至少两种:顺序匹配规则、命中率匹配规则和紧密度匹配规则;顺序匹配规则用于指示按照N个特征数据在所述查询特征序列中的排列顺序进行依次匹配;命中率匹配规则用于指示按照命中数据与N个特征数据之间的数量比维度进行匹配;紧密度匹配规则用于指示按照命中数据之间的紧密度维度进行匹配;
处理单元602,用于按照特征匹配规则从数据库中搜索与查询特征序列相匹配的目标文档;其中,命中数据是指目标文档中与查询特征序列中的特征数据相匹配的数据。
在一种实现方式中,获取单元601,具体用于:
对查询数据进行拆分,得到N个特征数据,特征数据包括特征词或特征字符;
按照N个特征数据在查询数据中的排列顺序对N个特征数据进行组合,形成查询特征序列。
在一种实现方式中,处理单元602,具体用于:
从数据库中提取待匹配的第一文档;
对第一文档进行拆分,得到待匹配的数据集,数据集中包含多个数据;数据包括词或字符;
按照特征匹配规则从数据集中获取M个命中数据,命中数据是指数据集中与查询特征序列中的特征数据相匹配的数据,M为正整数;
按照特征匹配规则计算M个命中数据与查询特征序列中的N个特征数据之间的匹配度得分;
若匹配度得分高于阈值,则将第一文档确定为与查询特征序列相匹配的目标文档。
在一种实现方式中,特征匹配规则包括顺序匹配规则,匹配度得分包括顺序匹配得分;处理单元602,具体用于:
按照M个命中数据与查询特征序列之间的匹配顺序,确定查询特征序列的最长公共子序列;
计算最长公共子序列中的命中数据的数量与查询特征序列中的N个特征数据的数量之间的第一比值;
将第一比值确定为顺序匹配得分。
在一种实现方式中,特征匹配规则包括命中率匹配规则,匹配度得分包括命中率匹配得分;处理单元602,具体用于:
计算M个命中数据的数量与查询特征序列中的N个特征数据的数量之间的第二比值;
将第二比值确定为命中率匹配得分。
在一种实现方式中,特征匹配规则包括紧密度匹配规则,匹配度得分包括紧密度匹配得分;处理单元602,具体用于:
按照M个命中数据与查询特征序列之间的匹配顺序,确定查询特征序列的最长公共子序列;
获取最长公共子序列中位于最首排列位置的第一命中数据和位于最末排列位置的第二命中数据;
获取第一命中数据在所述第一文档中的第一位置,以及第二命中数据在第一文档中的第二位置;
计算第一位置与第二位置之间的长度差,并计算长度差与查询特征序列的长度之间的第三比值;
将第三比值确定为紧密度匹配得分。
在一种实现方式中,若特征匹配规则是顺序匹配规则和命中率匹配规则的组合,则匹配度得分是顺序匹配得分与命中率匹配得分的乘积;
若特征匹配规则是顺序匹配规则和紧密度匹配规则的组合,则匹配度得分是顺序匹配得分与紧密度匹配得分的乘积;
若特征匹配规则是命中率匹配规则和紧密度匹配规则的组合,则匹配度得分是命中率匹配得分和紧密度匹配得分的乘积;
若特征匹配规则是顺序匹配规则、命中率匹配规则和紧密度匹配规则三者的组合,则匹配度得分是顺序匹配得分、命中率匹配得分和紧密度匹配得分三者的乘积。
在一种实现方式中,若特征匹配规则是顺序匹配规则和命中率匹配规则的组合,则匹配度得分是顺序匹配得分与命中率匹配得分的加权之和;
若特征匹配规则是顺序匹配规则和紧密度匹配规则的组合,则匹配度得分是顺序匹配得分与紧密度匹配得分的加权之和;
若特征匹配规则是命中率匹配规则和紧密度匹配规则的组合,则匹配度得分是命中率匹配得分和紧密度匹配得分的加权之和;
若特征匹配规则是顺序匹配规则、命中率匹配规则和紧密度匹配规则三者的组合,则匹配度得分是顺序匹配得分、命中率匹配得分和紧密度匹配得分三者的加权之和。
在一种实现方式中,处理单元602,还用于:
按照特征匹配规则从数据库中搜索与查询特征序列相匹配的P个文档,目标文档是P个文档中的任一个,P为正整数。
在一种实现方式中,数据处理装置还包括显示单元603,显示单元603,具体用于:
显示目标应用程序的文档搜索页面,文档搜索页面包括搜索框、搜索选项和查询结果展示区域;
当存在作用于搜索框的输入操作时,在搜索框中显示输入搜索框中的查询数据;
当搜索选项被选中时,在查询结果展示区域中展示P个文档。
在一种实现方式中,P个文档中的每个文档对应一个匹配度得分,匹配度得分越高,表示文档与特征匹配规则的匹配度越高;显示单元603,具体用于:
按照匹配度得分由高至低的顺序,在查询结果展示区域中排列显示P个文档。
根据本申请的一个实施例,图6所示的数据处理装置60中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本申请的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本申请的其它实施例中,该数据处理装置60也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。根据本申请的另一个实施例,可以通过在包括例如中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的通用计算机的通用计算设备上运行能够执行如图4或图5中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图6中所示的数据处理装置60,以及来实现本申请实施例的数据处理方法。计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本申请实施例中,从查询数据中提取到的查询特征序列可以包括N个特征数据,N为正整数;获取到的特征匹配规则可以包括顺序匹配规则、命中率匹配规则和紧密度匹配规则中的至少两种;特征匹配规则可以从多个维度对查询数据进行特征匹配,顺序匹配规则用于指示按照N个特征数据在查询特征序列中的排列顺序进行依次匹配,命中率匹配规则用于指示按照命中数据与N个特征数据之间的数量比维度进行匹配,紧密度匹配规则用于指示按照命中数据之间的紧密度维度进行匹配,命中数据是指目标文档中与查询特征序列中的特征数据相匹配的数据。从而,可以按照多维度的特征匹配规则从数据库中搜索与查询特征序列相匹配的目标文档,采用多维度的特征匹配规则对查询数据进行匹配,能够有效提高查询数据匹配准确率,能够在数据库中搜索到与查询数据具有较高匹配度的目标文档。
请参见图7,图7示出了本申请一个示例性实施例提供的一种数据处理设备的结构示意图,该数据处理设备70至少包括处理器701、计算机可读存储介质702以及通信接口703。其中,处理器701、计算机可读存储介质702以及通信接口703可通过总线或者其它方式连接。通信接口703可以用于接收或者发送数据。计算机可读存储介质702可以存储在存储器中,计算机可读存储介质702用于存储计算机程序,计算机程序包括计算机指令。处理器701用于执行计算机指令。处理器701(或称CPU(Central Processing Unit,中央处理器))是数据处理设备70的计算核心以及控制核心,其适于实现一条或多条计算机指令,具体适于加载并执行一条或多条计算机指令从而实现相应方法流程或相应功能。
本申请实施例还提供了一种计算机可读存储介质(Memory),计算机可读存储介质是数据处理设备70中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质702既可以包括数据处理设备70中的内置存储介质,当然也可以包括数据处理设备70所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了数据处理设备70的操作系统。并且,在该存储空间中还存放了适于被处理器701加载并执行的一条或多条的计算机指令,这些计算机指令可以是一个或多个的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质702可以是高速RAM存储器,也可以是非不稳定的存储器(Non-Volatile Memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器701的计算机可读存储介质。
该数据处理设备70可以是图2所示的数据处理系统20中的终端201,该计算机可读存储介质702中存储有计算机程序,计算机程序包括一条或多条计算机指令;由处理器701加载并执行一条或多条计算机指令,以实现图4或图5所示方法实施例中的相应步骤;具体实现中,计算机可读存储介质702中的计算机指令由处理器701加载并执行如下步骤:
获取查询数据,并从查询数据中提取查询特征序列,查询特征序列包括N个特征数据,N为正整数;
获取特征匹配规则,特征匹配规则包括以下至少两种:顺序匹配规则、命中率匹配规则和紧密度匹配规则;顺序匹配规则用于指示按照N个特征数据在所述查询特征序列中的排列顺序进行依次匹配;命中率匹配规则用于指示按照命中数据与N个特征数据之间的数量比维度进行匹配;紧密度匹配规则用于指示按照命中数据之间的紧密度维度进行匹配;
按照特征匹配规则从数据库中搜索与查询特征序列相匹配的目标文档;其中,命中数据是指目标文档中与查询特征序列中的特征数据相匹配的数据。
在一种实现方式中,计算机可读存储介质702中的计算机指令由处理器701加载时具体执行如下步骤:
对查询数据进行拆分,得到N个特征数据,特征数据包括特征词或特征字符;
按照N个特征数据在查询数据中的排列顺序对N个特征数据进行组合,形成查询特征序列。
在一种实现方式中,计算机可读存储介质702中的计算机指令由处理器701加载时具体执行如下步骤:
从数据库中提取待匹配的第一文档;
对第一文档进行拆分,得到待匹配的数据集,数据集中包含多个数据;数据包括词或字符;
按照特征匹配规则从数据集中获取M个命中数据,命中数据是指数据集中与查询特征序列中的特征数据相匹配的数据,M为正整数;
按照特征匹配规则计算M个命中数据与查询特征序列中的N个特征数据之间的匹配度得分;
若匹配度得分高于阈值,则将第一文档确定为与查询特征序列相匹配的目标文档。
在一种实现方式中,特征匹配规则包括顺序匹配规则,匹配度得分包括顺序匹配得分;计算机可读存储介质702中的计算机指令由处理器701加载时具体执行如下步骤:
按照M个命中数据与查询特征序列之间的匹配顺序,确定查询特征序列的最长公共子序列;
计算最长公共子序列中的命中数据的数量与查询特征序列中的N个特征数据的数量之间的第一比值;
将第一比值确定为顺序匹配得分。
在一种实现方式中,特征匹配规则包括命中率匹配规则,匹配度得分包括命中率匹配得分;计算机可读存储介质702中的计算机指令由处理器701加载时具体执行如下步骤:
计算M个命中数据的数量与查询特征序列中的N个特征数据的数量之间的第二比值;
将第二比值确定为命中率匹配得分。
在一种实现方式中,特征匹配规则包括紧密度匹配规则,匹配度得分包括紧密度匹配得分;计算机可读存储介质702中的计算机指令由处理器701加载时具体执行如下步骤:
按照M个命中数据与查询特征序列之间的匹配顺序,确定查询特征序列的最长公共子序列;
获取最长公共子序列中位于最首排列位置的第一命中数据和位于最末排列位置的第二命中数据;
获取第一命中数据在所述第一文档中的第一位置,以及第二命中数据在第一文档中的第二位置;
计算第一位置与第二位置之间的长度差,并计算长度差与查询特征序列的长度之间的第三比值;
将第三比值确定为紧密度匹配得分。
在一种实现方式中,若特征匹配规则是顺序匹配规则和命中率匹配规则的组合,则匹配度得分是顺序匹配得分与命中率匹配得分的乘积;
若特征匹配规则是顺序匹配规则和紧密度匹配规则的组合,则匹配度得分是顺序匹配得分与紧密度匹配得分的乘积;
若特征匹配规则是命中率匹配规则和紧密度匹配规则的组合,则匹配度得分是命中率匹配得分和紧密度匹配得分的乘积;
若特征匹配规则是顺序匹配规则、命中率匹配规则和紧密度匹配规则三者的组合,则匹配度得分是顺序匹配得分、命中率匹配得分和紧密度匹配得分三者的乘积。
在一种实现方式中,若特征匹配规则是顺序匹配规则和命中率匹配规则的组合,则匹配度得分是顺序匹配得分与命中率匹配得分的加权之和;
若特征匹配规则是顺序匹配规则和紧密度匹配规则的组合,则匹配度得分是顺序匹配得分与紧密度匹配得分的加权之和;
若特征匹配规则是命中率匹配规则和紧密度匹配规则的组合,则匹配度得分是命中率匹配得分和紧密度匹配得分的加权之和;
若特征匹配规则是顺序匹配规则、命中率匹配规则和紧密度匹配规则三者的组合,则匹配度得分是顺序匹配得分、命中率匹配得分和紧密度匹配得分三者的加权之和。
在一种实现方式中,计算机可读存储介质702中的计算机指令由处理器701加载时还执行如下步骤:
按照特征匹配规则从数据库中搜索与查询特征序列相匹配的P个文档,目标文档是P个文档中的任一个,P为正整数。
在一种实现方式中,计算机可读存储介质702中的计算机指令由处理器701加载时具体执行如下步骤:
显示目标应用程序的文档搜索页面,文档搜索页面包括搜索框、搜索选项和查询结果展示区域;
当存在作用于搜索框的输入操作时,在搜索框中显示输入搜索框中的查询数据;
当搜索选项被选中时,在查询结果展示区域中展示P个文档。
在一种实现方式中,P个文档中的每个文档对应一个匹配度得分,匹配度得分越高,表示文档与特征匹配规则的匹配度越高;计算机可读存储介质702中的计算机指令由处理器701加载时具体执行如下步骤:
按照匹配度得分由高至低的顺序,在查询结果展示区域中排列显示P个文档。
本申请实施例中,从查询数据中提取到的查询特征序列可以包括N个特征数据,N为正整数;获取到的特征匹配规则可以包括顺序匹配规则、命中率匹配规则和紧密度匹配规则中的至少两种;特征匹配规则可以从多个维度对查询数据进行特征匹配,顺序匹配规则用于指示按照N个特征数据在查询特征序列中的排列顺序进行依次匹配,命中率匹配规则用于指示按照命中数据与N个特征数据之间的数量比维度进行匹配,紧密度匹配规则用于指示按照命中数据之间的紧密度维度进行匹配,命中数据是指目标文档中与查询特征序列中的特征数据相匹配的数据。从而,可以按照多维度的特征匹配规则从数据库中搜索与查询特征序列相匹配的目标文档,采用多维度的特征匹配规则对查询数据进行匹配,能够有效提高查询数据匹配准确率,能够在数据库中搜索到与查询数据具有较高匹配度的目标文档。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各种可选方式中提供的数据处理方法。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (14)

1.一种数据处理方法,其特征在于,所述方法包括:
获取查询数据,并从所述查询数据中提取查询特征序列,所述查询特征序列包括N个特征数据,N为正整数;
获取特征匹配规则,所述特征匹配规则包括以下至少两种:顺序匹配规则、命中率匹配规则和紧密度匹配规则;所述顺序匹配规则用于指示按照所述N个特征数据在所述查询特征序列中的排列顺序进行依次匹配;所述命中率匹配规则用于指示按照命中数据与所述N个特征数据之间的数量比维度进行匹配;所述紧密度匹配规则用于指示按照所述命中数据之间的紧密度维度进行匹配;
按照所述特征匹配规则从数据库中搜索与所述查询特征序列相匹配的目标文档;其中,所述命中数据是指所述目标文档中与所述查询特征序列中的特征数据相匹配的数据。
2.如权利要求1所述的方法,其特征在于,所述从所述查询数据中提取查询特征序列,包括:
对所述查询数据进行拆分,得到所述N个特征数据,所述特征数据包括特征词或特征字符;
按照所述N个特征数据在所述查询数据中的排列顺序对所述N个特征数据进行组合,形成所述查询特征序列。
3.如权利要求1所述的方法,其特征在于,所述按照所述特征匹配规则从数据库中搜索与所述查询特征相匹配的目标文档,包括:
从所述数据库中提取待匹配的第一文档;
对所述第一文档进行拆分,得到待匹配的数据集,所述数据集中包含多个数据;所述数据包括词或字符;
按照所述特征匹配规则从所述数据集中获取M个命中数据,所述命中数据是指所述数据集中与所述查询特征序列中的特征数据相匹配的数据,M为正整数;
按照所述特征匹配规则计算所述M个命中数据与所述查询特征序列中的N个特征数据之间的匹配度得分;
若所述匹配度得分高于阈值,则将所述第一文档确定为与所述查询特征序列相匹配的所述目标文档。
4.如权利要求3所述的方法,其特征在于,所述特征匹配规则包括所述顺序匹配规则,所述匹配度得分包括顺序匹配得分;
所述按照所述特征匹配规则计算所述M个命中数据与所述查询特征序列中的N个特征数据之间的匹配度得分,包括:
按照所述M个命中数据与所述查询特征序列之间的匹配顺序,确定所述查询特征序列的最长公共子序列;
计算所述最长公共子序列中的命中数据的数量与所述查询特征序列中的N个特征数据的数量之间的第一比值;
将所述第一比值确定为所述顺序匹配得分。
5.如权利要求3所述的方法,其特征在于,所述特征匹配规则包括所述命中率匹配规则,所述匹配度得分包括命中率匹配得分;
所述按照所述特征匹配规则计算所述M个命中数据与所述查询特征序列中的N个特征数据之间的匹配度得分,包括:
计算所述M个命中数据的数量与所述查询特征序列中的N个特征数据的数量之间的第二比值;
将所述第二比值确定为所述命中率匹配得分。
6.如权利要求3所述的方法,其特征在于,所述特征匹配规则包括所述紧密度匹配规则,所述匹配度得分包括紧密度匹配得分;
所述按照特征匹配规则计算所述M个命中数据与所述查询特征序列中的N个特征数据之间的匹配度得分,包括:
按照所述M个命中数据与所述查询特征序列之间的匹配顺序,确定所述查询特征序列的最长公共子序列;
获取所述最长公共子序列中位于最首排列位置的第一命中数据和位于最末排列位置的第二命中数据;
获取所述第一命中数据在所述第一文档中的第一位置,以及所述第二命中数据在所述第一文档中的第二位置;
计算所述第一位置与所述第二位置之间的长度差,并计算所述长度差与所述查询特征序列的长度之间的第三比值;
将所述第三比值确定为所述紧密度匹配得分。
7.如权利要求3所述的方法,其特征在于:
若所述特征匹配规则是所述顺序匹配规则和所述命中率匹配规则的组合,则所述匹配度得分是顺序匹配得分与命中率匹配得分的乘积;
若所述特征匹配规则是所述顺序匹配规则和所述紧密度匹配规则的组合,则所述匹配度得分是所述顺序匹配得分与紧密度匹配得分的乘积;
若所述特征匹配规则是所述命中率匹配规则和所述紧密度匹配规则的组合,则所述匹配度得分是所述命中率匹配得分和所述紧密度匹配得分的乘积;
若所述特征匹配规则是所述顺序匹配规则、所述命中率匹配规则和所述紧密度匹配规则三者的组合,则所述匹配度得分是所述顺序匹配得分、所述命中率匹配得分和所述紧密度匹配得分三者的乘积。
8.如权利要求3所述的方法,其特征在于:
若所述特征匹配规则是所述顺序匹配规则和所述命中率匹配规则的组合,则所述匹配度得分是顺序匹配得分与命中率匹配得分的加权之和;
若所述特征匹配规则是所述顺序匹配规则和所述紧密度匹配规则的组合,则所述匹配度得分是所述顺序匹配得分与紧密度匹配得分的加权之和;
若所述特征匹配规则是所述命中率匹配规则和所述紧密度匹配规则的组合,则所述匹配度得分是所述命中率匹配得分和所述紧密度匹配得分的加权之和;
若所述特征匹配规则是所述顺序匹配规则、所述命中率匹配规则和所述紧密度匹配规则三者的组合,则所述匹配度得分是所述顺序匹配得分、所述命中率匹配得分和所述紧密度匹配得分三者的加权之和。
9.如权利要求1所述的方法,其特征在于,所述方法还包括:
按照所述特征匹配规则从所述数据库中搜索与所述查询特征序列相匹配的P个文档,所述目标文档是所述P个文档中的任一个,P为正整数。
10.如权利要求9所述的方法,其特征在于,所述方法还包括:
显示目标应用程序的文档搜索页面,所述文档搜索页面包括搜索框、搜索选项和查询结果展示区域;
当存在作用于所述搜索框的输入操作时,在所述搜索框中显示输入所述搜索框中的所述查询数据;
当所述搜索选项被选中时,在所述查询结果展示区域中展示所述P个文档。
11.如权利要求10所述的方法,其特征在于,所述P个文档中的每个文档对应一个匹配度得分,所述匹配度得分越高,表示文档与所述特征匹配规则的匹配度越高;所述在所述查询结果展示区域中展示所述P个文档,包括:
按照所述匹配度得分由高至低的顺序,在所述查询结果展示区域中排列显示所述P个文档。
12.一种数据处理装置,其特征在于,所述数据处理装置包括:
获取单元,用于获取查询数据,并从所述查询数据中提取查询特征序列,所述查询特征序列包括N个特征数据,N为正整数;
所述获取单元,还用于获取特征匹配规则,所述特征匹配规则包括以下至少两种:顺序匹配规则、命中率匹配规则和紧密度匹配规则;所述顺序匹配规则用于指示按照所述N个特征数据在所述查询特征序列中的排列顺序进行依次匹配;所述命中率匹配规则用于指示按照命中数据与所述N个特征数据之间的数量比维度进行匹配;所述紧密度匹配规则用于指示按照所述命中数据之间的紧密度维度进行匹配;
处理单元,用于按照所述特征匹配规则从数据库中搜索与所述查询特征序列相匹配的目标文档;其中,所述命中数据是指所述目标文档中与所述查询特征序列中的特征数据相匹配的数据。
13.一种数据处理设备,其特征在于,所述数据处理设备包括:
处理器,适于实现计算机程序;以及,
计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1至11任一项所述的数据处理方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括计算机程序,所述计算机程序适于由处理器加载并执行如权利要求1至11任一项所述的数据处理方法。
CN202110004255.5A 2021-01-04 2021-01-04 一种数据处理方法、装置、设备及存储介质 Pending CN113392309A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110004255.5A CN113392309A (zh) 2021-01-04 2021-01-04 一种数据处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110004255.5A CN113392309A (zh) 2021-01-04 2021-01-04 一种数据处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN113392309A true CN113392309A (zh) 2021-09-14

Family

ID=77616692

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110004255.5A Pending CN113392309A (zh) 2021-01-04 2021-01-04 一种数据处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113392309A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564496A (zh) * 2022-03-01 2022-05-31 北京有竹居网络技术有限公司 一种内容推荐方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114564496A (zh) * 2022-03-01 2022-05-31 北京有竹居网络技术有限公司 一种内容推荐方法及装置
CN114564496B (zh) * 2022-03-01 2023-09-19 北京有竹居网络技术有限公司 一种内容推荐方法及装置

Similar Documents

Publication Publication Date Title
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN105183833B (zh) 一种基于用户模型的微博文本推荐方法及其推荐装置
EP2866421B1 (en) Method and apparatus for identifying a same user in multiple social networks
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN106156023B (zh) 语义匹配的方法、装置和系统
CN103869998B (zh) 一种对输入法所产生的候选项进行排序的方法及装置
CN108287875B (zh) 人物共现关系确定方法、专家推荐方法、装置及设备
JP5538185B2 (ja) テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
CN110717038B (zh) 对象分类方法及装置
CN111125348A (zh) 一种文本摘要的提取方法及装置
CN104915399A (zh) 基于新闻标题的推荐数据处理方法及系统
Wu et al. ECNU at SemEval-2017 task 3: Using traditional and deep learning methods to address community question answering task
CN112084307A (zh) 一种数据处理方法、装置、服务器及计算机可读存储介质
CN109284389A (zh) 一种文本数据的信息处理方法、装置
CN112052297A (zh) 信息生成方法、装置、电子设备和计算机可读介质
CN113392309A (zh) 一种数据处理方法、装置、设备及存储介质
CN113569018A (zh) 问答对挖掘方法及装置
CN116127066A (zh) 文本聚类方法、文本聚类装置、电子设备及存储介质
CN114090778A (zh) 基于知识锚点的检索方法、装置、电子设备及存储介质
CN111507098B (zh) 多义词识别方法、装置、电子设备及计算机可读存储介质
JP5944809B2 (ja) 文書解析装置、方法、及びプログラム
JP4462014B2 (ja) 話題語結合方法及び装置及びプログラム
CN112214511A (zh) 一种基于wtp-wcd算法的api推荐方法
Rusyaeva et al. Integrative Approach to Creation of Information Systems and Entropy Analysis of Linguistic Information
CN114492669B (zh) 关键词推荐模型训练方法、推荐方法和装置、设备、介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40052780

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination