CN112925872A - 一种数据搜索方法和装置 - Google Patents

一种数据搜索方法和装置 Download PDF

Info

Publication number
CN112925872A
CN112925872A CN201911233899.0A CN201911233899A CN112925872A CN 112925872 A CN112925872 A CN 112925872A CN 201911233899 A CN201911233899 A CN 201911233899A CN 112925872 A CN112925872 A CN 112925872A
Authority
CN
China
Prior art keywords
matching rate
reference fields
search
target keyword
comparison matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911233899.0A
Other languages
English (en)
Inventor
张斌
赵苗苗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201911233899.0A priority Critical patent/CN112925872A/zh
Publication of CN112925872A publication Critical patent/CN112925872A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据搜索方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:从搜索文本中提取至少一个目标关键词,分别计算所述至少一个目标关键词与设定的多个基准字段之间的匹配率;比较所述匹配率与设定第一阈值的大小,在存在所述匹配率小于所述第一阈值的情况下,利用层次分析法计算所述多个基准字段对应的权重;根据所述权重修正所述匹配率,以按照修正后的匹配率,对所述多个基准字段进行排序,得到搜索结果。该方法使用层次分词法计算基准字段对应的权重,利用权重修正匹配率,以基于修正后的匹配率确定搜索结果,提高了搜索结果的准确性。

Description

一种数据搜索方法和装置
技术领域
本发明涉及计算机领域,尤其涉及一种数据搜索方法和装置。
背景技术
数据搜索是信息领域非常核心的功能,通过搜索可以迅速定位到用户所需要的信息。现有技术中,系统应用的搜索排序算法一般是使用ElasticSearch这个企业级搜索引擎实现的。其中,ElasticSearch是一个分布式、高扩展、高实时的搜索与数据分析引擎,使用Java语言开发,能很方便的使大量数据具有搜索、分析和探索的能力。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
ElasticSearch以文本关键词的频率作为搜索的唯一依据,搜索结果的准确性较低。
发明内容
有鉴于此,本发明实施例提供一种数据搜索方法和装置,使用层次分词法计算基准字段对应的权重,利用权重修正匹配率,以基于修正后的匹配率确定搜索结果,提高了搜索结果的准确性。
为实现上述目的,根据本发明实施例的一个方面,提供了一种数据搜索方法。
本发明实施例的一种数据搜索方法,包括:从搜索文本中提取至少一个目标关键词,分别计算所述至少一个目标关键词与设定的多个基准字段之间的匹配率;比较所述匹配率与设定第一阈值的大小,在存在所述匹配率小于所述第一阈值的情况下,利用层次分析法计算所述多个基准字段对应的权重;根据所述权重修正所述匹配率,以按照修正后的匹配率,对所述多个基准字段进行排序,得到搜索结果。
可选地,利用层次分析法计算所述多个基准字段对应的权重,包括:建立层次结构模型,其中,所述层次结构模型包括目标层、准则层和方案层,所述目标层的总目标为比重程度,所述准则层为所述多个基准字段,所述方案层为权重;对同一层的元素关于上一层中单个准则的重要性进行两两比较,以构造判断比较矩阵;对所述判断比较矩阵进行归一化处理,得到特征向量,以根据所述特征向量计算所述多个基准字段的权重。
可选地,所述方法还包括:校验所述判断比较矩阵的一致性,以根据一致性校验结果调整所述判断比较矩阵;对所述判断比较矩阵进行归一化处理,包括:对调整后的所述判断比较矩阵进行归一化处理。
可选地,校验所述判断比较矩阵的一致性,包括:根据所述判断比较矩阵和所述特征向量,计算所述判断比较矩阵的最大特征值和一致性指标;将所述一致性指标与设定第二阈值比较,以根据比较结果确定所述判断比较矩阵的一致性。
可选地,根据所述权重修正所述匹配率,包括:将所述多个基准字段的权重与对应的所述匹配率相乘,得到所述修正后的匹配率。
可选地,计算所述至少一个目标关键词与设定的一个基准字段之间的匹配率,包括:分别计算每个目标关键词在所述基准字段中出现的频率,以及在所述多个基准字段的逆向文件频率;将每个所述目标关键词在所述基准字段中出现的频率和对应的所述逆向文件频率相乘后求和,得到所述至少一个目标关键词与所述基准字段之间的匹配率。
可选地,从搜索文本中提取至少一个目标关键词,包括:对搜索文本进行预处理,得到多个候选关键词;构建候选关键词图,以迭代计算所述多个候选关键词的权重;其中,所述候选关键词图包括由所述多个候选关键词组成的节点集,和采用共现关系构造的节点之间的边集;根据所述多个候选关键词的权重大小,从所述多个候选关键词中选取至少一个目标关键词。
为实现上述目的,根据本发明实施例的另一方面,提供了一种数据搜索装置。
本发明实施例的一种数据搜索装置,包括:匹配率计算模块,用于从搜索文本中提取至少一个目标关键词,分别计算所述至少一个目标关键词与设定的多个基准字段之间的匹配率;权重计算模块,用于比较所述匹配率与设定第一阈值的大小,在存在所述匹配率小于所述第一阈值的情况下,利用层次分析法计算所述多个基准字段对应的权重;修正排序模块,用于根据所述权重修正所述匹配率,以按照修正后的匹配率,对所述多个基准字段进行排序,得到搜索结果。
可选地,所述权重计算模块,还用于:建立层次结构模型,其中,所述层次结构模型包括目标层、准则层和方案层,所述目标层的总目标为比重程度,所述准则层为所述多个基准字段,所述方案层为权重;对同一层的元素关于上一层中单个准则的重要性进行两两比较,以构造判断比较矩阵;对所述判断比较矩阵进行归一化处理,得到特征向量,以根据所述特征向量计算所述多个基准字段的权重。
可选地,所述装置还包括:校验调整模块,用于校验所述判断比较矩阵的一致性,以根据一致性校验结果调整所述判断比较矩阵;所述权重计算模块,还用于:对调整后的所述判断比较矩阵进行归一化处理。
可选地,所述权重计算模块,还用于:根据所述判断比较矩阵和所述特征向量,计算所述判断比较矩阵的最大特征值和一致性指标;将所述一致性指标与设定第二阈值比较,以根据比较结果确定所述判断比较矩阵的一致性。
可选地,所述修正排序模块,还用于:将所述多个基准字段的权重与对应的所述匹配率相乘,得到所述修正后的匹配率。
可选地,所述匹配率计算模块,还用于:分别计算每个目标关键词在所述基准字段中出现的频率,以及在所述多个基准字段的逆向文件频率;将每个所述目标关键词在所述基准字段中出现的频率和对应的所述逆向文件频率相乘后求和,得到所述至少一个目标关键词与所述基准字段之间的匹配率。
可选地,所述匹配率计算模块,还用于:对搜索文本进行预处理,得到多个候选关键词;构建候选关键词图,以迭代计算所述多个候选关键词的权重;其中,所述候选关键词图包括由所述多个候选关键词组成的节点集,和采用共现关系构造的节点之间的边集;根据所述多个候选关键词的权重大小,从所述多个候选关键词中选取至少一个目标关键词。
为实现上述目的,根据本发明实施例的再一方面,提供了一种电子设备。
本发明实施例的一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种数据搜索方法。
为实现上述目的,根据本发明实施例的再一方面,提供了一种计算机可读介质。
本发明实施例的一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种数据搜索方法。
上述发明中的一个实施例具有如下优点或有益效果:使用层次分词法计算基准字段对应的权重,利用权重修正匹配率,以基于修正后的匹配率确定搜索结果,提高了搜索结果的准确性;通过层次分析法对各基准字段的重要性构建判断比较矩阵,并进行归一化处理,进而得出各基准字段对应的权重,将层次分析法与搜索场景关联,提升搜索结果的准确性、灵活性;对于一致性校验未通过的判断比较矩阵进行调整,进一步保证搜索结果的准确性。
上述发明中的一个实施例具有如下优点或有益效果:使用最大特征值和一致性指标衡量判断比较矩阵的一致性,实现简单,可靠性好;将基准字段的权重与对应的匹配率的相乘结果作为修正后的匹配率,修正搜索结果,增加场景覆盖范围;使用词频、逆向文件频率计算目标关键词与基准字段之间的匹配率,有效地反映了基准字段对搜索文本的重要程度,以及目标关键词在基准字段的分布情况;对搜索文本进行语义切分加权得到独立的目标关键词后,再进行匹配率计算,实现了搜索文本为完整句子时的准确搜索。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是根据本发明实施例的数据搜索方法的主要步骤的示意图;
图2是根据本发明实施例的数据搜索方法的实现原理示意图;
图3是根据本发明实施例的数据搜索方法的主要流程示意图;
图4是根据本发明实施例的数据搜索方法的层次结构模型示意图;
图5是根据本发明实施例的数据搜索方法中计算多个基准字段对应的权重的主要流程示意图;
图6是根据本发明实施例的数据搜索装置的主要模块的示意图;
图7是本发明实施例可以应用于其中的示例性系统架构图;
图8是适用于来实现本发明实施例的电子设备的计算机装置的结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
ElasticSearch是常用的数据搜索引擎,该搜索引擎搜索快速,而且实现简单。但是该搜索引擎仅适用文本关键词的频率作为搜索的唯一依据,文本关键词频率小的单词认为越重要,文本关键词频率大的单词认为越不重要,搜索结果的准确性较差。同时,ElasticSearch基于原始搜索文本进行搜索,无法反应搜索结果对搜索文本的重要程度和搜索词的分布情况。基于现有技术的上述问题,本发明提供了一种数据搜索方法,基于各基准字段的权重对搜索结果的权值重新进行调整,能够提高搜索结果的准确性,满足用户不同场景搜索需求。下面进行详细说明。
图1是根据本发明实施例的数据搜索方法的主要步骤的示意图。如图1所示,本发明实施例的数据搜索方法,主要包括如下步骤:
步骤S101:从搜索文本中提取至少一个目标关键词,分别计算所述至少一个目标关键词与设定的多个基准字段之间的匹配率。搜索文本即用户在搜索框输入的文本。从搜索文本中提取至少一个目标关键词的实现过程为:首先对搜索文本进行预处理,得到多个候选关键词;之后构建候选关键词图,迭代计算多个候选关键词的权重;最后权重大小,从多个候选关键词中选取至少一个目标关键词。
基准字段包括字段名称和字段值。计算至少一个目标关键词与设定的一个基准字段之间的匹配率的实现过程为:分别计算每个目标关键词在该基准字段的字段值中出现的频率,以及在全部基准字段的逆向文件频率;将每个目标关键词在该基准字段的字段值中出现的频率和对应的逆向文件频率相乘后求和,即可得到至少一个目标关键词与该基准字段之间的匹配率。按照上述方式,即可计算得出目标关键词与每个基准字段之间的匹配率。
步骤S102:比较所述匹配率与设定第一阈值的大小,在存在所述匹配率小于所述第一阈值的情况下,利用层次分析法计算所述多个基准字段对应的权重。分别比较每个匹配率与第一阈值的大小,当存在匹配率小于第一阈值时,认为没有与用户搜索文本高锲合度的内容,需要通过层次分析法对每个基准字段的字段名称的重要性,构建判断比较矩阵,进而得出多个基准字段的字段名称对应的权重。当全部匹配率均大于第一阈值时,可以按照匹配率由高到低的顺序,对多个基准字段的字段值进行排序,即可得到搜索结果。
步骤S103:根据所述权重修正所述匹配率,以按照修正后的匹配率,对所述多个基准字段进行排序,得到搜索结果。将多个基准字段的字段名称的权重与对应的匹配率相乘,得到修正后的匹配率。按照修正后的匹配率由高到低的顺序,对多个基准字段的字段值进行排序,即可得到搜索结果。后续可以将搜索结果输出展示给用户。
图2是根据本发明实施例的数据搜索方法的实现原理示意图。如图2所示,本发明实施例的数据搜索方法,首先从搜索文本中提取对目标关键词,之后计算目标关键词与每个基准字段的字段值之间的匹配率。然后判断每个匹配率是否大于设定的第一阈值,如果匹配率均大于第一阈值,则将每个基准字段的字段值作为搜索结果,并按照匹配率由高到低的顺序输出。如果存在匹配率小于等于第一阈值,则计算每个基准字段的字段名称的权重,基于权重调整匹配率,之后按照调整后的匹配率由高到低的顺序,输出每个基准字段的字段值。
图3是根据本发明实施例的数据搜索方法的主要流程示意图。如图3所示,本发明实施例的数据搜索方法,主要包括如下步骤:
步骤S301:对搜索文本进行预处理,得到多个候选关键词。用户在搜索框输入任意的搜索内容,该搜索内容构成搜索文本。此处的预处理包括语义分割、分词、过滤停用词等操作。具体实现为:根据标点符号(比如句号、分号、问号、感叹号)将整个搜索文本进行切分,得到独立句子;然后对每个句子进行分词和词性标注处理,过滤停用词,保留指定词性的单词,比如名词、动词、形容词,即可得到的候选关键词。需要注意的是,若搜索文本本身为一句话,则不切分。
停用词为在搜索过程中,对搜索结果起不到任何帮助的词。停用词可以分为两类:一类是在Internet上随处可见,比如“Web”一词几乎在每个网站上均会出现,这样的词对搜索结果没有帮助;另一类是语气助词、副词、介词、连接词等,其自身通常并无明确的意义,只有将其放入一个完整的句子中才有一定作用,比如“的”、“在”之类的词。
步骤S302:构建候选关键词图,以迭代计算多个候选关键词的权重。候选关键词图包括由多个候选关键词组成的节点集,和采用共现关系构造的节点之间的边集。候选关键词图可以用G=(V,E)表示,其中,V为节点集,G为边集。采用共现关系构造的任意两个节点之间的边。两个节点之间存在边仅当它们对应的词在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。
迭代传播计算多个候选关键词的权重,直至收敛。节点的得分定义如下:
Figure BDA0002304356210000081
式中,d为阻尼系数,取值范围为0到1,代表从图中某一特定点指向其他任意点的概率,一般取值为0.85;N代表页面总数;wji为任意两个节点Vi,Vj之间的边的权重;对于一个给定的节点Vi,In(Vi)为指向该节点Vi的节点集合,Out(Vi)为节点Vi指向的节点集合。实际应用中,绝大多数用户搜索内容不会超过1页,所以N=1。
步骤S303:根据权重大小,从多个候选关键词中选取目标关键词。对节点权重进行倒序排序,得到最重要的T个候选关键词。可以将这T个候选关键词作为目标关键词。还可以将T个候选关键词在搜索文本中进行标记,如果两个候选关键词形成相邻词组,则组合成多词关键词,将组合后的结果作为目标关键词。
步骤S301-步骤S303根据TextRank算法在搜索文本中提取目标关键词。在一优选的实施例中,还可以使用线性判别式分析(Linear Discriminant Analysis,LDA)的方式在搜索文本中提取目标关键词。其中,TextRank算法是一种文本检索算法,用于关键词提取。
步骤S304:统计目标关键词在每个基准字段的字段值中出现的频率和逆向文件频率,以计算目标关键词与每个基准字段的匹配率。通过TD-IDF算法,将目标关键词与系统中保存的基准字段进行权重匹配计算,得出匹配率。基准字段根据业务属性自定义,包括字段名称和字段值。其中,TF即Term Frequency,词频;IDF,即Inverse Document Frequency,逆向文件频率。TF-IDF本质上为TF和IDF的乘积,目标关键词与当前基准字段的匹配率的计算公式如下:
Figure BDA0002304356210000082
式中,q代表选取出的全部目标关键词;d代表当前基准字段;wi代表选取出的第i个目标关键词。
Figure BDA0002304356210000091
式中,ni代表选取出的第i个目标关键词在当前基准字段的出现次数,
Figure BDA0002304356210000092
为当前基准字段中所有字词的出现次数之和。
Figure BDA0002304356210000093
式中,|D|代表全部基准字段的总数;|{j:wi∈dj}|代表包含词语wi的基准字段的数量。如果词语不在基准字段中,会导致分母为零,因此使分母加了一个1。
步骤S305:判断每个匹配率是否均大于第一阈值,如果匹配率均大于第一阈值,则执行步骤S306;如果存在匹配率小于等于第一阈值,则执行步骤S307。第一阈值可以自定义设置,比如为50%、60%等。
步骤S306:按照匹配率高低,输出基准字段的字段值,结束本流程。如果匹配率α1、α2、α3、……、αn均大于第一阈值,则可以按照匹配率大小,直接给用户排序展示基准字段的字段值。
步骤S307:利用层次分析法,计算多个基准字段的字段名称对应的权重。如果存在匹配率小于等于第一阈值,则认为没有与用户搜索内容高贴合度的内容,需通过层次分析法(Analytic Hierarchy Process,AHP)对每个基准字段的重要性,构建判断比较矩阵并归一化处理,得出每个基准字段的字段名称对应的权重λ1、λ2、λ3、……、λn。
步骤S308:根据权重修正匹配率,以按照修正后的匹配率,对多个基准字段的字段值进行排序,得到搜索结果,输出搜索结果。将每个基准字段的字段名称对应的权重与匹配率相乘,修正其匹配率,优化TD-IDF算法。计算公式如下:
βi=αi×λi
公式5式中,βi代表修正后的匹配率,αi代表目标关键词与第i个基准字段的匹配率;λi代表第i个基准字段的字段名称的权重。
按照βi的大小给用户排序展示基准字段的字段值。本申请对搜索文本进行语义分析切块后,在原有TD-IDF算法基础上,运用AHP层次分析法,结合用户搜索实际场景和不同系统功能特殊性,灵活的将系统的关联字段和用户搜索场景的高度关联,提升用户搜索结果和推荐排序内容的准确性。本发明实施例的数据搜索方法可广泛灵活应用在各种搜索场景,并替用户搜索出贴合度高的结果。特别是在门店搜索、系统个性推荐能力较弱的情况下,会有更为广泛的应用空间。
图4是根据本发明实施例的数据搜索方法的层次结构模型示意图。如图4所示,层次结构模型包括目标层、准则层和方案层,目标层的总目标指决策目的、待解决问题,本实施例中为比重程度;准则层为需要考虑的影响因子的准则,本实施例中为多个基准字段(例如:门店搜索中为门店名称、品牌名称、门店地址、商品名称、商圈名称等);方案层为具体决策的,本实施例中方案为权重。
图5是根据本发明实施例的数据搜索方法中计算多个基准字段对应的权重的主要流程示意图。如图5所示,本发明实施例的计算多个基准字段对应的权重的实现过程,主要包括以下步骤:
步骤S501:建立层次结构模型。其中,层次结构模型包括目标层、准则层和方案层,目标层的总目标为比重程度,准则层为多个基准字段,方案层为权重。
步骤S502:对同一层的元素关于上一层中单个准则的重要性进行两两比较,以构造判断比较矩阵。aij为因素i与因素j重要性比较结果,根据下表给出的9个重要性等级及其赋值。按两两比较结果构成的判断比较矩阵A。
表1为9个重要性等级及其赋值
因素i比因素j 量化值
同等重要 1
稍微重要 3
较强重要 5
强烈重要 7
极端重要 9
两相邻判断的中间值 2,4,6,8
步骤S503:对判断比较矩阵进行归一化处理,得到特征向量,以根据特征向量计算多个基准字段的权重。对判断比较矩阵A的每一列进行归一化,之后再按行求和,将求和的结果归一化,即可得到特征向量ω。
λ1λ2λ3…λn=ω(ω1ω2ω3…ωn) 公式6
步骤S504:根据判断比较矩阵和特征向量,计算判断比较矩阵的最大特征值和一致性指标。利用公式Aω=λmaxω,计算出最大特征值λmax,并将λmax值代入如下公式中,计算一致性指标CI。
Figure BDA0002304356210000111
式中,n代表判断比较矩阵的阶数,若为4阶矩阵,则n=4。
步骤S505:判断一致性指标是否小于等于设定第二阈值,如果一致性指标小于等于第二阈值,则结束本流程;如果一致性指标大于第二阈值,则执行步骤S506。第二阈值可以自定义设置,比如为0.1。若CI≤0.1,则证明该判断比较矩阵具有一致性,判断结果有效。
步骤S506:调整判断比较矩阵,执行步骤S503。若CI>0.1,则证明该判断比较矩阵不具有一致性,需要重新调整判断比较矩阵,再次进行步骤S503至步骤S506的处理。
下面结合具体应用场景进行说明。假设用户搜索“北京望京附近的火锅门店有哪些呢?并且还要辣一点的四川火锅。”
按照本实施例的数据搜索方法,首先将此句话切分成两句话,北京望京附近的火锅门店有哪些呢+并且还要辣一点的四川火锅;再根据TextRank算法提取出目标关键词(北京望京、火锅门店、辣、四川火锅)。上述过程对应步骤S301-步骤S303的处理。
将(北京望京、火锅门店、辣、四川火锅)四个目标关键词整体与本地存储的基准字段进行匹配,最后四个关键词匹配结果相加,匹配率最高的排在前面,由大到小排列。上述过程对应步骤S304-步骤S306的处理。
根据用户本身搜索频道,将(北京望京、火锅门店、辣、四川火锅)四个目标关键词归属到对应基准字段(城市地址、美食类型、门店类型、个性标签),按照四个维度在系统中相应的重要性高低,将这四个维度字段的计算权重参数,与原来的四个匹配率分别进行相乘,得出最终修正后的权重占比值(即匹配率),并将搜索结果由大到小给用户排列。上述过程对应步骤S307-步骤S308的处理。
通过本发明实施例的数据搜索方法可以看出,使用层次分词法计算基准字段对应的权重,利用权重修正匹配率,以基于修正后的匹配率确定搜索结果,提高了搜索结果的准确性;通过层次分析法对各基准字段的重要性构建判断比较矩阵,并进行归一化处理,进而得出各基准字段对应的权重,将层次分析法与搜索场景关联,提升搜索结果的准确性、灵活性;对于一致性校验未通过的判断比较矩阵进行调整,进一步保证搜索结果的准确性。
通过本发明实施例的数据搜索方法可以看出,使用最大特征值和一致性指标衡量判断比较矩阵的一致性,实现简单,可靠性好;将基准字段的权重与对应的匹配率的相乘结果作为修正后的匹配率,修正搜索结果,增加场景覆盖范围;使用词频、逆向文件频率计算目标关键词与基准字段之间的匹配率,有效地反映了基准字段对搜索文本的重要程度,以及目标关键词在基准字段的分布情况;对搜索文本进行语义切分加权得到独立的目标关键词后,再进行匹配率计算,实现了搜索文本为完整句子时的准确搜索。
图6是根据本发明实施例的数据搜索装置的主要模块的示意图。如图6所示,本发明实施例的数据搜索装置600,主要包括:
匹配率计算模块601,用于从搜索文本中提取至少一个目标关键词,分别计算所述至少一个目标关键词与设定的多个基准字段之间的匹配率。从搜索文本中提取至少一个目标关键词的实现过程为:首先对搜索文本进行预处理,得到多个候选关键词;之后构建候选关键词图,迭代计算多个候选关键词的权重;最后权重大小,从多个候选关键词中选取至少一个目标关键词。
基准字段包括字段名称和字段值。计算至少一个目标关键词与设定的一个基准字段之间的匹配率的实现过程为:分别计算每个目标关键词在该基准字段的字段值中出现的频率,以及在全部基准字段的逆向文件频率;将每个目标关键词在该基准字段的字段值中出现的频率和对应的逆向文件频率相乘后求和,即可得到至少一个目标关键词与该基准字段之间的匹配率。按照上述方式,即可计算得出目标关键词与每个基准字段之间的匹配率。
权重计算模块602,用于比较所述匹配率与设定第一阈值的大小,在存在所述匹配率小于所述第一阈值的情况下,利用层次分析法计算所述多个基准字段对应的权重。分别比较每个匹配率与第一阈值的大小,当存在匹配率小于第一阈值时,认为没有与用户搜索文本高锲合度的内容,需要通过层次分析法对每个基准字段的字段名称的重要性,构建判断比较矩阵,进而得出多个基准字段的字段名称对应的权重。当全部匹配率均大于第一阈值时,可以按照匹配率由高到低的顺序,对多个基准字段的字段值进行排序,即可得到搜索结果。
修正排序模块603,用于根据所述权重修正所述匹配率,以按照修正后的匹配率,对所述多个基准字段进行排序,得到搜索结果。将多个基准字段的字段名称的权重与对应的匹配率相乘,得到修正后的匹配率。按照修正后的匹配率由高到低的顺序,对多个基准字段的字段值进行排序,即可得到搜索结果。后续可以将搜索结果输出展示给用户。
另外,本发明实施例的数据搜索装置600还可以包括:校验处理模块(图6中未示出)。其中,该模块用于校验所述判断比较矩阵的一致性,以根据一致性校验结果调整所述判断比较矩阵。
从以上描述可以看出,使用层次分词法计算基准字段对应的权重,利用权重修正匹配率,以基于修正后的匹配率确定搜索结果,提高了搜索结果的准确性。
图7示出了可以应用本发明实施例的数据搜索方法或数据搜索装置的示例性系统架构700。
如图7所示,系统架构700可以包括终端设备701、702、703,网络704和服务器705。网络704用以在终端设备701、702、703和服务器705之间提供通信链路的介质。网络704可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备701、702、703通过网络704与服务器705交互,以接收或发送消息等。终端设备701、702、703上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备701、702、703可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器705可以是提供各种服务的服务器,例如用户利用终端设备701、702、703发送的搜索请求进行处理的后台管理服务器。后台管理服务器可以提取搜索文本的目标关键词,计算匹配率,修正匹配率等处理,并将处理结果(例如搜索结果)反馈给终端设备。
需要说明的是,本申请实施例所提供的数据搜索方法一般由服务器705执行,相应地,数据搜索装置一般设置于服务器705中。
应该理解,图7中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
根据本发明的实施例,本发明还提供了一种电子设备和一种计算机可读介质。
本发明的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明实施例的一种数据搜索方法。
本发明的计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明实施例的一种数据搜索方法。
下面参考图8,其示出了适用于来实现本发明实施例的电子设备的计算机系统800的结构示意图。图8示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有计算机系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本发明公开的实施例,上文主要步骤图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括匹配率计算模块、权重计算模块和修正排序模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,匹配率计算模块还可以被描述为“从搜索文本中提取至少一个目标关键词,分别计算所述至少一个目标关键词与设定的多个基准字段之间的匹配率的模块”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该设备执行时,使得该设备包括:从搜索文本中提取至少一个目标关键词,分别计算所述至少一个目标关键词与设定的多个基准字段之间的匹配率;比较所述匹配率与设定第一阈值的大小,在存在所述匹配率小于所述第一阈值的情况下,利用层次分析法计算所述多个基准字段对应的权重;根据所述权重修正所述匹配率,以按照修正后的匹配率,对所述多个基准字段进行排序,得到搜索结果。
从以上描述可以看出,使用层次分词法计算基准字段对应的权重,利用权重修正匹配率,以基于修正后的匹配率确定搜索结果,提高了搜索结果的准确性。
上述产品可执行本发明实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例所提供的方法。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种数据搜索方法,其特征在于,包括:
从搜索文本中提取至少一个目标关键词,分别计算所述至少一个目标关键词与设定的多个基准字段之间的匹配率;
比较所述匹配率与设定第一阈值的大小,在存在所述匹配率小于所述第一阈值的情况下,利用层次分析法计算所述多个基准字段对应的权重;
根据所述权重修正所述匹配率,以按照修正后的匹配率,对所述多个基准字段进行排序,得到搜索结果。
2.根据权利要求1所述的方法,其特征在于,利用层次分析法计算所述多个基准字段对应的权重,包括:
建立层次结构模型,其中,所述层次结构模型包括目标层、准则层和方案层,所述目标层的总目标为比重程度,所述准则层为所述多个基准字段,所述方案层为权重;
对同一层的元素关于上一层中单个准则的重要性进行两两比较,以构造判断比较矩阵;
对所述判断比较矩阵进行归一化处理,得到特征向量,以根据所述特征向量计算所述多个基准字段的权重。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
校验所述判断比较矩阵的一致性,以根据一致性校验结果调整所述判断比较矩阵;
对所述判断比较矩阵进行归一化处理,包括:对调整后的所述判断比较矩阵进行归一化处理。
4.根据权利要求3所述的方法,其特征在于,校验所述判断比较矩阵的一致性,包括:
根据所述判断比较矩阵和所述特征向量,计算所述判断比较矩阵的最大特征值和一致性指标;
将所述一致性指标与设定第二阈值比较,以根据比较结果确定所述判断比较矩阵的一致性。
5.根据权利要求1所述方法,其特征在于,根据所述权重修正所述匹配率,包括:
将所述多个基准字段的权重与对应的所述匹配率相乘,得到所述修正后的匹配率。
6.根据权利要求1所述的方法,其特征在于,计算所述至少一个目标关键词与设定的一个基准字段之间的匹配率,包括:
分别计算每个目标关键词在所述基准字段中出现的频率,以及在所述多个基准字段的逆向文件频率;
将每个所述目标关键词在所述基准字段中出现的频率和对应的所述逆向文件频率相乘后求和,得到所述至少一个目标关键词与所述基准字段之间的匹配率。
7.根据权利要求1所述的方法,其特征在于,从搜索文本中提取至少一个目标关键词,包括:
对搜索文本进行预处理,得到多个候选关键词;
构建候选关键词图,以迭代计算所述多个候选关键词的权重;其中,所述候选关键词图包括由所述多个候选关键词组成的节点集,和采用共现关系构造的节点之间的边集;
根据所述多个候选关键词的权重大小,从所述多个候选关键词中选取至少一个目标关键词。
8.一种数据搜索装置,其特征在于,包括:
匹配率计算模块,用于从搜索文本中提取至少一个目标关键词,分别计算所述至少一个目标关键词与设定的多个基准字段之间的匹配率;
权重计算模块,用于比较所述匹配率与设定第一阈值的大小,在存在所述匹配率小于所述第一阈值的情况下,利用层次分析法计算所述多个基准字段对应的权重;
修正排序模块,用于根据所述权重修正所述匹配率,以按照修正后的匹配率,对所述多个基准字段进行排序,得到搜索结果。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-7中任一所述的方法。
CN201911233899.0A 2019-12-05 2019-12-05 一种数据搜索方法和装置 Pending CN112925872A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911233899.0A CN112925872A (zh) 2019-12-05 2019-12-05 一种数据搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911233899.0A CN112925872A (zh) 2019-12-05 2019-12-05 一种数据搜索方法和装置

Publications (1)

Publication Number Publication Date
CN112925872A true CN112925872A (zh) 2021-06-08

Family

ID=76161213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911233899.0A Pending CN112925872A (zh) 2019-12-05 2019-12-05 一种数据搜索方法和装置

Country Status (1)

Country Link
CN (1) CN112925872A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089368A (zh) * 2022-08-01 2023-05-09 荣耀终端有限公司 文件搜索方法和相关装置
CN116450931A (zh) * 2023-03-24 2023-07-18 广州易尊网络科技股份有限公司 热搜词投放方法、热搜词投放装置以及计算机存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143892A (ja) * 1997-11-07 1999-05-28 Fujitsu Ltd キーワード重み生成装置及び方法並びにプログラム記憶媒体
CN106294319A (zh) * 2016-08-04 2017-01-04 武汉数为科技有限公司 一种串并案识别方法
KR20170042080A (ko) * 2015-10-08 2017-04-18 삼성에스디에스 주식회사 개인화된 검색 결과 제공 방법 및 그 장치
CN107193919A (zh) * 2017-05-15 2017-09-22 清华大学深圳研究生院 一种电子病历的检索方法及系统
WO2017215245A1 (zh) * 2016-06-17 2017-12-21 广州视源电子科技股份有限公司 简历搜索方法和装置
CN107870984A (zh) * 2017-10-11 2018-04-03 北京京东尚科信息技术有限公司 识别搜索词的意图的方法和装置
CN108763196A (zh) * 2018-05-03 2018-11-06 上海海事大学 一种基于pmi的关键字提取方法
CN109033386A (zh) * 2018-07-27 2018-12-18 天津字节跳动科技有限公司 搜索排序方法、装置、计算机设备和存储介质
CN109636126A (zh) * 2018-11-19 2019-04-16 南方电网能源发展研究院有限责任公司 增量配电网投资决策的量化方法、装置、设备和存储介质
CN110059311A (zh) * 2019-03-27 2019-07-26 银江股份有限公司 一种面向司法文本数据的关键词提取方法及系统
CN110309251A (zh) * 2018-03-12 2019-10-08 北京京东尚科信息技术有限公司 文本数据的处理方法、装置和计算机可读存储介质
CN110399385A (zh) * 2019-06-24 2019-11-01 厦门市美亚柏科信息股份有限公司 一种用于小数据集的语义分析方法和系统

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143892A (ja) * 1997-11-07 1999-05-28 Fujitsu Ltd キーワード重み生成装置及び方法並びにプログラム記憶媒体
KR20170042080A (ko) * 2015-10-08 2017-04-18 삼성에스디에스 주식회사 개인화된 검색 결과 제공 방법 및 그 장치
WO2017215245A1 (zh) * 2016-06-17 2017-12-21 广州视源电子科技股份有限公司 简历搜索方法和装置
CN106294319A (zh) * 2016-08-04 2017-01-04 武汉数为科技有限公司 一种串并案识别方法
CN107193919A (zh) * 2017-05-15 2017-09-22 清华大学深圳研究生院 一种电子病历的检索方法及系统
CN107870984A (zh) * 2017-10-11 2018-04-03 北京京东尚科信息技术有限公司 识别搜索词的意图的方法和装置
CN110309251A (zh) * 2018-03-12 2019-10-08 北京京东尚科信息技术有限公司 文本数据的处理方法、装置和计算机可读存储介质
CN108763196A (zh) * 2018-05-03 2018-11-06 上海海事大学 一种基于pmi的关键字提取方法
CN109033386A (zh) * 2018-07-27 2018-12-18 天津字节跳动科技有限公司 搜索排序方法、装置、计算机设备和存储介质
CN109636126A (zh) * 2018-11-19 2019-04-16 南方电网能源发展研究院有限责任公司 增量配电网投资决策的量化方法、装置、设备和存储介质
CN110059311A (zh) * 2019-03-27 2019-07-26 银江股份有限公司 一种面向司法文本数据的关键词提取方法及系统
CN110399385A (zh) * 2019-06-24 2019-11-01 厦门市美亚柏科信息股份有限公司 一种用于小数据集的语义分析方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张莉婧;李业丽;曾庆涛;雷嘉丽;杨鹏;: "基于改进TextRank的关键词抽取算法", 北京印刷学院学报, no. 04, 30 August 2016 (2016-08-30) *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116089368A (zh) * 2022-08-01 2023-05-09 荣耀终端有限公司 文件搜索方法和相关装置
CN116089368B (zh) * 2022-08-01 2023-12-19 荣耀终端有限公司 文件搜索方法和相关装置
CN116450931A (zh) * 2023-03-24 2023-07-18 广州易尊网络科技股份有限公司 热搜词投放方法、热搜词投放装置以及计算机存储介质
CN116450931B (zh) * 2023-03-24 2024-04-09 广州易尊网络科技股份有限公司 热搜词投放方法、热搜词投放装置以及计算机存储介质

Similar Documents

Publication Publication Date Title
KR101721338B1 (ko) 검색 엔진 및 그의 구현 방법
CN106960030B (zh) 基于人工智能的推送信息方法及装置
US8660836B2 (en) Optimization of natural language processing system based on conditional output quality at risk
CN110489558B (zh) 文章聚合方法和装置、介质和计算设备
CN107885717B (zh) 一种关键词提取方法及装置
CN107526718B (zh) 用于生成文本的方法和装置
CN102043843A (zh) 一种用于基于目标应用获取目标词条的方法与获取设备
US9940355B2 (en) Providing answers to questions having both rankable and probabilistic components
CN113326420B (zh) 问题检索方法、装置、电子设备和介质
US12067061B2 (en) Systems and methods for automated information retrieval
CN107609192A (zh) 一种搜索引擎的补充搜索方法和装置
CN111435406A (zh) 一种纠正数据库语句拼写错误的方法和装置
CN113268560A (zh) 用于文本匹配的方法和装置
CN109063184A (zh) 多语言新闻文本聚类方法、存储介质及终端设备
CN112925872A (zh) 一种数据搜索方法和装置
KR20190138623A (ko) 개체명 연결 방법, 장치, 시스템 및 컴퓨터 프로그램
US20110125732A1 (en) Internal ranking model representation schema
CN110019802B (zh) 一种文本聚类的方法和装置
CN110852057A (zh) 一种计算文本相似度的方法和装置
CN112464081A (zh) 项目信息匹配方法、装置以及存储介质
CN114036921A (zh) 一种政策信息匹配方法和装置
CN115238676B (zh) 招标需求热点识别方法、装置、存储介质及电子设备
CN111126073A (zh) 语义检索方法和装置
CN111723201A (zh) 一种用于文本数据聚类的方法和装置
CN110852078A (zh) 生成标题的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination