CN108932320B - 文章搜索方法、装置及电子设备 - Google Patents

文章搜索方法、装置及电子设备 Download PDF

Info

Publication number
CN108932320B
CN108932320B CN201810680189.1A CN201810680189A CN108932320B CN 108932320 B CN108932320 B CN 108932320B CN 201810680189 A CN201810680189 A CN 201810680189A CN 108932320 B CN108932320 B CN 108932320B
Authority
CN
China
Prior art keywords
article
search
candidate
word
participle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810680189.1A
Other languages
English (en)
Other versions
CN108932320A (zh
Inventor
潘岸腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN201810680189.1A priority Critical patent/CN108932320B/zh
Publication of CN108932320A publication Critical patent/CN108932320A/zh
Application granted granted Critical
Publication of CN108932320B publication Critical patent/CN108932320B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文章搜索方法、装置及电子设备。该方法包括:接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合;根据搜索分词集合,获取目标搜索词与文章数据库所包括的每个候选文章之间的相关性评分;将相关性评分符合预设的搜索条件的候选文章,作为搜索结果提供给用户。根据本发明,可以在用户搜索文章时向用户提供与搜索词相关性较高的文章,更精准满足用户的文章搜索需求。

Description

文章搜索方法、装置及电子设备
技术领域
本发明涉及搜索技术领域,更具体地,涉及一种文章搜索方法、装置及电子设备。
背景技术
文章搜索功能是计算机软件程序、移动终端应用(APP)中可支持的最基本的应用功能。
目前文章搜索功能的实现,通常是根据用户输入的搜索词进行搜索,搜索到包括与该搜索词匹配的关键词的文章时,将该文章作为搜索结果提供给用户。
但是,这种文章搜索方法并不能搜索到包括与搜索词存在相关性的相关词的文章,例如,用户输入搜索词“理财”,可以搜索出包括“理财”这一关键词的文章,但是,却无法搜索出不包括“理财”但是包括与“理财”存在相关性的相关词“投资”或者“基金”的文章。
发明内容
本发明的一个目的是提供一种用于文章搜索的新技术方案。
根据本发明的第一方面,提供了一种文章搜索方法,其中,包括:
接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合;
根据所述搜索分词集合,获取所述目标搜索词与文章数据库所包括的每个候选文章之间的相关性评分;
将所述相关性评分符合预设的搜索条件的候选文章,作为搜索结果提供给用户。
可选地,所述获取搜索分词集合的步骤包括:
获取与所述文章搜索操作对应的目标搜索词;
将所述目标搜索词进行分词处理,得到多个搜索分词以构成所述搜索分词集合。
可选地,所述获取所述目标搜索词与每个所述候选文章之间的相关性评分的步骤包括:
对该候选文章进行分词处理,得到多个候选文章分词以构成对应的候选文章分词集合;
根据所述搜索分词集合、所述候选文章分词集合,计算目标搜索词与该候选文章之间的相关性评分。
可选地,所述计算目标搜索词与该候选文章之间的相关性评分的步骤包括:
对所述搜索分词集合中包括的每一个搜索分词,分别获取该搜索分词与每个所述候选文章分词之间的分词相关值;
根据所述搜索分词集合包括搜索分词的数目、所述候选文章分词集合中的候选文章分词的数目以及全部所述分词相关值,计算得到所述相关性评分。
可选地,所述获取分词相关值的步骤包括:
对所述文章数据库中包括的全部所述候选文章进行分词,获取包括所述搜索分词的候选文章的第一文章集合以及包括所述候选文章分词的第二文章集合;
获取所述第一文章集合与所述第二文章集合的文章交集,以及所述第一文章集合与所述第二文章集合的文章并集;
根据所述文章交集所包括的文章数目,以及所述文章并集所包括的文章数目,计算获取所述分词相关值。
可选地,所述计算得到所述相关性评分的步骤包括:
根据所述搜索分词的数目、所述候选文章分词的数目,计算得到相关性系数;
根据全部所述分词相关值求和得到的结果值以及所述相关性系数,计算所述相关性评分。
可选地,所述计算得到所述相关性评分的步骤包括:
根据所述搜索分词的数目、所述候选文章分词的数目以及预设的平滑系数,计算得到相关性系数;
根据全部所述分词相关值求和得到的结果值以及所述相关性系数,计算所述相关性评分。
可选地,
所述搜索条件是该候选文章的相关性评分的降序排序值在预设的排序值范围之内。
根据本发明的第二方面,提供一种文章搜索装置,其中,包括:
搜索分词获取单元,用于接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合;
相关性评分获取单元,用于根据所述搜索分词集合,获取所述目标搜索词与文章数据库所包括的每个候选文章之间的相关性评分;
搜索结果提供单元,用于将所述相关性评分符合预设的搜索条件的候选文章,作为搜索结果提供给用户。
根据本发明的第三方面,提供一种电子设备,其中,包括:
存储器,用于存储可执行的指令;
处理器,用于根据所述可执行的指令的控制,运行所述电子设备执行本发明第一方面提供的文章搜索方法。
根据本公开的一个实施例,基于所获取用户的目标搜索词的搜索分词集合,获取用户的目标搜索词与可被搜索的候选文章直接的相关性评分,将相关性评分较高的候选文章作为搜索结果提供给用户,在用户搜索文章时向用户提供与目标搜索词相关性较高的文章,更精准满足用户的文章搜索需求。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是显示可用于实现本发明的实施例的电子设备1000的硬件配置的例子的框图。
图2示出了本发明的实施例的搜索方法的流程图。
图3示出了本发明的实施例的获取搜索分词集合步骤流程图。
图4示出了本发明的实施例的获取相关性评分步骤的流程图。
图5示出了本发明的实施例的计算相关性评分步骤的流程图。
图6示出了本发明的实施例的计算分词相关值步骤的流程图。
图7示出了本发明的实施例的计算相关性评分步骤的又一流程图。
图8示出了本发明的实施例的文章搜索装置的框图。
图9示出了本发明的实施例的电子设备的框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是示出可以实现本发明的实施例的电子设备1000的硬件配置的框图。
电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑等。如图1所示,电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中,处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信,具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。
图1所示的电子设备仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中,电子设备1000的存储器1200用于存储指令,指令用于控制处理器1100进行操作以执行本发明实施例提供的任意一项文章搜索方法。本领域技术人员应当理解,尽管在图1中对电子设备1000示出了多个装置,但是,本发明可以仅涉及其中的部分装置,例如,电子设备1000只涉及处理器1100和存储装置1200。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
<实施例>
本实施例的总体构思,是提供一种新的文章搜索方案,通过评估用户搜索文章使用的目标搜索词与候选文章之间的相关性,将相关性较高的候选文章作为搜索结果提供给用户,可以在用户搜索文章时向用户提供与目标搜索词相关性较高的文章,其中不仅与目标搜索词匹配的文章,还包括与目标搜索词不匹配但具有较强相关性的文章,更精准地满足用户的搜索需求。
<方法>
在本实施例中,提供一种文章搜索方法。应当理解的是,作为搜索对象的文章,是任意可以被搜索后提供给用户浏览或者阅读内容,例如,可以是网页新闻、线上小说、各种媒体应用或者社交应用发布的文章等。
该文章搜索方法,如图2所示,包括:步骤S2100-S2300。
步骤S2100,接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合。
用户的文章搜索操作可以是在提供搜索功能的应用界面上实施的输入操作、点击操作或者勾选操作等。例如,用户可以通过语音或者文本输入目标搜索词以后,点击搜索相关的功能按钮实现文章搜索操作,或者用户可以在提供的候选搜索词中通过勾选操作选择目标搜索词后,点击搜索相关的功能按钮实现文章搜索操作等等。
在本实施例中,可以通过提供搜索功能的应用界面接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合,以结合后续步骤评估目标搜索词与候选文章之间的相关性,相关性较高的候选文章作为搜索结果提供给用户,精准满足用户的搜索需求。
在一个例子中,步骤S2100可以如图3所示,包括:步骤S2110-S2120。
步骤S2110,获取与文章搜索操作对应的目标搜索词。
用户实施的文章搜索操作,会对应输入或者选择目标搜索词,通过获取文章搜索操作相关信息,可以获取对应的目标搜索词。
步骤S2120,将目标搜索词进行分词处理,得到多个搜索分词以构成搜索分词集合。
对目标搜索词进行分词处理,是将目标搜索词作为“文章”进行单词切分,得到对应的多个搜索分词,以用于结合后续的步骤评估目标搜索词与候选文章之间的相关性。
例如,目标搜索词是“理财攻略”,对目标搜索词进行分词处理,可以得到“理财”、“攻略”两个搜索分词构成的搜索分词集合:{“理财”,“攻略”}。
在本例中,对目标搜索词的分词处理,可以使用基于字符串匹配的分词算法、基于理解的分词算法以及基于统计的分词算法,在本实施例中不做限制。
在步骤S2100之后,进入:
S2200,根据搜索分词集合,获取目标搜索词与文章数据库所包括的每个候选文章之间的相关性评分。
该文章数据库是提供可被搜索的候选文章的数据库,包括多个候选文章。在本实施例中,文章数据库可以存储在实施本实施例的电子设备本地,也可以存储于与实施本实施例的电子设备建立通信连接的远端设备中。
通过获取目标搜索词与候选文章之间的相关性评分,可以根据相关性评分评估目标搜索词与候选文章之间的相关性,结合后续步骤相关性较高的候选文章作为搜索结果提供给用户,精准满足用户的搜索需求。
在一个例子中,步骤S2200,可以如图4所示,包括:步骤S2210-S2220。
步骤S2210,对该候选文章进行分词处理,得到多个候选文章分词以构成对应的候选文章分词集合。
在获取目标搜索词与一个候选文章之间的相关性评分时,将该候选文章进行分词处理,得到多个候选文章分词构成的候选文章分词集合,可以结合后续步骤,实现以目标搜索词作为一个文章评估与该候选文章之间的相关性,得到对应的相关性评分。
在本例中,对候选文章进行分词处理可以采用上文对目标搜索词进行分词处理所采用的类似方法,在此不再赘述。
步骤S2220,根据搜索分词集合、候选文章分词集合,计算目标搜索词与该候选文章之间的相关性评分。
基于搜索分词集合和候选文章分词集合,计算目标搜索词与该候选文章之间的相关性评分,实现客观、精准评估目标搜索词与候选文章之间的相关性。
在一个例子中,步骤S2220可以如图5所示,包括:步骤S2221-S2222。
步骤S2221,对搜索分词集合中包括的每一个搜索分词,分别获取该搜索分词与每个候选文章分词之间的分词相关值。
分词相关值用于评估任意两个分词之间的相关性。
在一个例子中,步骤S2221可以如图6所示,包括:步骤S22211-S22213。
步骤S22211,对文章数据库中包括的全部候选文章进行分词,获取包括搜索分词的候选文章的第一文章集合以及包括候选文章分词的第二文章集合。
假设搜索分词集合为S,其中包括Ns个搜索分词,对应每个搜索分词Wsk(k=1,.......,Ns),包括任意一个搜索分词Wsk的候选文章的第一文章集合为
Figure BDA0001710770590000081
假设候选文章分词集合为J,其中包括Nj个候选文章分词,对应每个候选文章分词Wjl(l=1,.......,Nj),包括任意一个候选文章分词Wjl的第二文章集合为
Figure BDA0001710770590000082
步骤S22212,获取第一文章集合与第二文章集合的文章交集,以及第一文章集合与第二文章集合的文章并集。
具体地,假设包括任意一个搜索分词Wsk的候选文章的第一文章集合为
Figure BDA0001710770590000083
假设包括任意一个候选文章分词Wjl的第二文章集合为
Figure BDA0001710770590000084
则第一文章集合与第二文章集合的文章交集为
Figure BDA0001710770590000085
而第一文章集合与第二文章集合的文章并集为
Figure BDA0001710770590000086
步骤S22213,根据文章交集所包括的文章数目,以及文章并集所包括的文章数目,计算获取分词相关值。
具体地,由上述步骤S22212可以得到文章交集所包括的文章数目为
Figure BDA0001710770590000087
文章并集所包括的文章数目为
Figure BDA0001710770590000088
对应的分词相关值sim(Wsk,Wjl)可以根据下述公式计算:
Figure BDA0001710770590000089
以此类推,可以得到任意一个搜索分词与任意一个候选文章分词之间的分词相关值。
在实际应用中,在实施本例的文章搜索方法时,实时计算任意一个搜索分词与任意一个候选文章分词之间的分词相关值,需要消耗较多的处理资源,对实施本例的电子设备要求较高,同时,也存在重复冗余计算带来的浪费处理资源的缺陷。
因此,在本例中,可以预先计算任意两个候选文章分词之间的分词相关值,对应存储在本地,或者存储在文章数据库所在的设备的存储中;在实施本例的文章搜索方法时,可以直接读取与搜索分词相同的候选文章分词与其他候选文章分词之间的分词相关值,以此避免实时计算分词相关值带来的对处理资源的消耗,降低对实施本例的电子设备的处理能力的要求,同时避免重复冗余计算带来的浪费处理资源。
步骤S2222,根据搜索分词集合包括搜索分词的数目、候选文章分词集合中的候选文章分词的数目以及全部分词相关值,计算得到相关性评分。
在一个例子中,步骤S2222可以如图7所示,包括步骤S22221-S22222。
步骤S22221,根据搜索分词的数目、候选文章分词的数目,计算得到相关性系数。
相关性系数是计算目标搜索词与某个候选文章的相关性评分时使用的系数因子。
在一个例子中,可以将搜索分词的数目与候选文章分词的数目相乘,将相乘得到的结果值的倒数作为上述相关性系数。
假如搜索分词集合S中包括Ns个搜索分词,候选文章分词集合J中包括Nj个候选文章分词,对应的,相关性系数α为:
Figure BDA0001710770590000091
在实际应用中,某些候选文章的篇幅比较短,包括的候选文章分词比较少,会导致计算得到的相关性系数值偏大,对应影响后续计算出的相关性评分的准确性。因此,在一个例子中,可以将候选文章分词的数目,与预设的平滑系数值相加后得到的结果值,与搜索分词的数目相乘,将相乘得到的结果值的倒数作为相关性系数。
该平滑系数是用于对不同篇幅的候选文章之间进行平滑处理,降低候选文章的篇幅大小对相关性评估的影响,避免计算的相关性评分出现误差。该平滑系数可以根据工程经验或者实验仿真结果设置,例如,设置为100。
假如搜索分词集合S中包括Ns个搜索分词,候选文章分词集合J中包括Nj个候选文章分词,平滑系数为β,对应的,相关性系数α为:
Figure BDA0001710770590000092
步骤S22222,根据全部分词相关值求和得到的结果值以及相关性系数,计算相关性评分。
具体地,假设目标搜索词s的搜索分词集合为S,其中包括Ns个搜索分词,对应每个搜索分词Wsk(k=1,.......,Ns),候选文章dj的候选文章分词集合为J,其中包括Nj个候选文章分词,对应每个候选文章分词Wjl(l=1,.......,Nj),相关性系数为α,根据步骤S22213可以计算得到任意一个搜索分词Wsk与任意一个候选文章分词Wjl之间的分词相关值为sim(Wsk,Wjl),对应地,该目标搜索词s与候选文章dj的相关性评分
Figure BDA0001710770590000101
为:
Figure BDA0001710770590000102
其中,
Figure BDA0001710770590000103
时:
Figure BDA0001710770590000104
Figure BDA0001710770590000105
时:
Figure BDA0001710770590000106
以上已经结合附图和例子举例说明如何实施步骤S2200,之后进入:
S2300,将相关性评分符合预设的搜索条件的候选文章,作为搜索结果提供给用户。
搜索条件是用于评估候选文章与目标搜索词之间的相关性评分是否满足用户的搜索需求的条件,可以根据具体的应用场景或者需求设置。
在一个例子中,搜索条件可以是该候选文章的相关性评分的降序排序值在预设的排序值范围之内。排序值范围可以根据具体的应用场景或者需求设置,例如设置为1-100,使得相关性评分排序在前100的候选文章能作为搜索结果提供给用户。
通过将相关性评分满足搜索条件的候选文章,作为搜索结果提供给用户,可以使得用户在文章搜索过程中,能获取与目标搜索词相关性较高的文章,其中不仅包括与目标搜索词匹配的文章,还能包括其他不包括目标搜索词但与目标搜索词具有强相关性的文章,使得搜索结果更充实,更精准地满足用户的搜索需求。
<文章搜索装置>
在本实施例中,还提供一种文章搜索装置3000,如图8所示,包括:搜索分词获取单元3100、相关性评分获取单元3200以及搜索结果提供单元3300,用于实施本实施例中提供的任意一项文章搜索方法,在此不再赘述。
搜索分词获取单元3100,用于接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合。
在一个例子中,搜索分词获取单元3100用于:
获取与文章搜索操作对应的目标搜索词;
将目标搜索词进行分词处理,得到多个搜索分词以构成搜索分词集合。
相关性评分获取单元3200,用于根据搜索分词集合,获取目标搜索词与文章数据库所包括的每个候选文章之间的相关性评分。
在一个例子中,相关性评分获取单元3200用于:
对该候选文章进行分词处理,得到多个候选文章分词以构成对应的候选文章分词集合;
根据搜索分词集合、候选文章分词集合,计算目标搜索词与该候选文章之间的相关性评分。
进一步地,相关性评分获取单元3200还用于:
对搜索分词集合中包括的每一个搜索分词,分别获取该搜索分词与每个候选文章分词之间的分词相关值;
根据搜索分词集合包括搜索分词的数目、候选文章分词集合中的候选文章分词的数目以及全部分词相关值,计算得到相关性评分。
进一步地,相关性评分获取单元3200还用于:
对文章数据库中包括的全部候选文章进行分词,获取包括搜索分词的候选文章的第一文章集合以及包括候选文章分词的第二文章集合;
获取第一文章集合与第二文章集合的文章交集,以及第一文章集合与第二文章集合的文章并集;
根据文章交集所包括的文章数目,以及文章并集所包括的文章数目,计算获取分词相关值。
进一步地,相关性评分获取单元3200还用于:
根据搜索分词的数目、候选文章分词的数目,计算得到相关性系数;
根据全部分词相关值求和得到的结果值以及相关性系数,计算相关性评分。
进一步地,相关性评分获取单元3200还用于:
根据搜索分词的数目、候选文章分词的数目以及预设的平滑系数,计算得到相关性系数;
根据全部分词相关值求和得到的结果值以及相关性系数,计算相关性评分。
搜索结果提供单元3300,用于将相关性评分符合预设的搜索条件的候选文章,作为搜索结果提供给用户。
可选地,搜索条件是该候选文章的相关性评分的降序排序值在预设的排序值范围之内。
本领域技术人员应当明白,可以通过各种方式来实现文章搜索装置3000。例如,可以通过指令配置处理器来实现文章搜索装置3000。例如,可以将指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现文章搜索装置3000。例如,可以将文章搜索装置3000固化到专用器件(例如ASIC)中。可以将文章搜索装置3000分成相互独立的单元,或者可以将它们合并在一起实现。文章搜索装置3000可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。
在本实施例中,文章搜索装置3000可以具体各种实施形式,例如,文章搜索装置3000可以是任意提供搜索功能的软件产品,比如浏览器或者类似浏览器的应用程序,或者,文章搜索装置3000可以设置与能实现搜索功能的任意电子设备中,比如设置在客户端或者是服务器中,或者是部分功能单元设置在客户端、部分功能单元设置在服务器等等。
<电子设备>
在本实施例中,还提供一种电子设备4000,如图9所示,包括:
存储器4100,用于存储可执行的指令;
处理器4200,用于根据可执行的指令的控制,运行电子设备执行如本实施例中提供的任意一项文章搜索方法。
在本实施例中,电子设备4000是任意可以实现搜索功能的电子设备,例如手机、平板电脑、掌上电脑、笔记本电脑或者台式计算机等,电子设备4000还可以包括其他硬件装置,例如,如图1所示的电子设备1000。
以上已经结合附图和例子描述了本发明的实施例,根据本实施例,提供一种文章搜索方法、装置及电子设备,基于所获取用户的目标搜索词的搜索分词集合,获取用户的目标搜索词与可被搜索的候选文章直接的相关性评分,将相关性评分较高的候选文章作为搜索结果提供给用户,在用户搜索文章时向用户提供与目标搜索词相关性较高的文章,更精准满足用户的文章搜索需求。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (8)

1.一种文章搜索方法,其中,包括:
接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合;
根据所述搜索分词集合,获取所述目标搜索词与文章数据库所包括的每个候选文章之间的相关性评分;
将所述相关性评分符合预设的搜索条件的候选文章,作为搜索结果提供给用户;
其中,获取所述目标搜索词与文章数据库所包括的任意候选文章之间的相关性评分,包括:
对该候选文章进行分词处理,得到多个候选文章分词以构成对应的候选文章分词集合;
对所述搜索分词集合中包括的每一个搜索分词,分别获取该搜索分词与所述候选文章分词集合中每个候选文章分词之间的分词相关值;
根据全部所述分词相关值求和得到的结果值以及相关性系数,获得目标搜索词与该候选文章之间的相关性评分,其中,所述相关性系数为一系数因子。
2.根据权利要求1所述的方法,其中,获取搜索分词集合的步骤包括:
获取与所述文章搜索操作对应的目标搜索词;
将所述目标搜索词进行分词处理,得到多个搜索分词以构成所述搜索分词集合。
3.根据权利要求1所述的方法,其中,所述获取分词相关值的步骤包括:
对所述文章数据库中包括的全部所述候选文章进行分词,获取包括所述搜索分词的候选文章的第一文章集合以及包括所述候选文章分词的第二文章集合;
获取所述第一文章集合与所述第二文章集合的文章交集,以及所述第一文章集合与所述第二文章集合的文章并集;
根据所述文章交集所包括的文章数目,以及所述文章并集所包括的文章数目,计算获取所述分词相关值。
4.根据权利要求1所述的方法,其中,计算得到所述相关性评分的步骤包括:
根据所述搜索分词的数目、所述候选文章分词的数目,计算得到相关性系数。
5.根据权利要求1所述的方法,其中,计算得到所述相关性评分的步骤包括:
根据所述搜索分词的数目、所述候选文章分词的数目以及预设的平滑系数,计算得到相关性系数。
6.根据权利要求1所述的方法,其中,
所述搜索条件是该候选文章的相关性评分的降序排序值在预设的排序值范围之内。
7.一种文章搜索装置,其中,包括:
搜索分词获取单元,用于接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合;
相关性评分获取单元,用于根据所述搜索分词集合,获取所述目标搜索词与文章数据库所包括的每个候选文章之间的相关性评分;
搜索结果提供单元,用于将所述相关性评分符合预设的搜索条件的候选文章,作为搜索结果提供给用户;
所述相关性评分获取单元获取所述目标搜索词与文章数据库所包括的任意候选文章之间的相关性评分,包括:
对该候选文章进行分词处理,得到多个候选文章分词以构成对应的候选文章分词集合;
对所述搜索分词集合中包括的每一个搜索分词,分别获取该搜索分词与所述候选文章分词集合中每个候选文章分词之间的分词相关值;
根据全部所述分词相关值求和得到的结果值以及相关性系数,获得目标搜索词与该候选文章之间的相关性评分,其中,所述相关性系数为一系数因子。
8.一种电子设备,其中,包括:
存储器,用于存储可执行的指令;
处理器,用于根据所述可执行的指令的控制,运行所述电子设备执行如权利要求1-6所述的任意一项文章搜索方法。
CN201810680189.1A 2018-06-27 2018-06-27 文章搜索方法、装置及电子设备 Active CN108932320B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810680189.1A CN108932320B (zh) 2018-06-27 2018-06-27 文章搜索方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810680189.1A CN108932320B (zh) 2018-06-27 2018-06-27 文章搜索方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN108932320A CN108932320A (zh) 2018-12-04
CN108932320B true CN108932320B (zh) 2021-01-26

Family

ID=64446434

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810680189.1A Active CN108932320B (zh) 2018-06-27 2018-06-27 文章搜索方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN108932320B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111078858B (zh) * 2018-10-19 2023-06-09 阿里巴巴集团控股有限公司 文章搜索方法、装置及电子设备
CN110866144B (zh) * 2019-11-06 2022-08-05 腾讯音乐娱乐科技(深圳)有限公司 歌曲检索方法及装置
CN111143516A (zh) * 2019-12-30 2020-05-12 广州探途网络技术有限公司 一种文章搜索结果展示方法及相关装置
CN113032436B (zh) * 2021-04-16 2022-05-31 苏州臻璇数据信息技术有限公司 基于文章内容和标题的搜索方法和装置
CN113987128A (zh) * 2021-11-04 2022-01-28 智慧芽信息科技(苏州)有限公司 相关文章搜索方法、装置、电子设备和存储介质
CN116680481B (zh) * 2023-08-03 2024-01-12 腾讯科技(深圳)有限公司 搜索排序方法、装置、设备、存储介质及计算机程序产品

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10255354B2 (en) * 2015-04-24 2019-04-09 Microsoft Technology Licensing, Llc Detecting and combining synonymous topics
CN106021223B (zh) * 2016-05-09 2020-06-23 Tcl科技集团股份有限公司 一种句子相似度的计算方法及系统
CN106844331A (zh) * 2016-12-13 2017-06-13 苏州大学 一种句子相似度计算方法和系统
CN107273476A (zh) * 2017-06-08 2017-10-20 广州优视网络科技有限公司 一种文章搜索方法、装置及服务器
CN107862062A (zh) * 2017-11-15 2018-03-30 中国银行股份有限公司 一种信息查询方法、装置及电子设备

Also Published As

Publication number Publication date
CN108932320A (zh) 2018-12-04

Similar Documents

Publication Publication Date Title
CN108932320B (zh) 文章搜索方法、装置及电子设备
US11397772B2 (en) Information search method, apparatus, and system
CN109241238B (zh) 文章搜索方法、装置及电子设备
CA2976365C (en) Method and apparatus for improving experiences of online visitors to a website
CN111104514A (zh) 文档标签模型的训练方法及装置
US20230076387A1 (en) Systems and methods for providing a comment-centered news reader
CN111078858B (zh) 文章搜索方法、装置及电子设备
JP2014106661A (ja) ユーザ状態予測装置及び方法及びプログラム
CN105069036A (zh) 一种信息推荐方法及装置
CN114036322A (zh) 用于搜索系统的训练方法、电子设备和存储介质
CN111191445A (zh) 广告文本分类方法及装置
CN114861889A (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN111950279A (zh) 实体关系的处理方法、装置、设备及计算机可读存储介质
US11734602B2 (en) Methods and systems for automated feature generation utilizing formula semantification
CN111782925B (zh) 物品推荐方法、装置、设备、系统及可读存储介质
US10769372B2 (en) Synonymy tag obtaining method and apparatus, device and computer readable storage medium
CN114048288A (zh) 细粒度情感分析方法、系统、计算机设备和存储介质
WO2014154088A1 (en) Adjusting information prompting in input method
CN114048315A (zh) 确定文档标签的方法、装置、电子设备和存储介质
CN112905885A (zh) 向用户推荐资源的方法、装置、设备、介质和程序产品
CN112214663A (zh) 获取舆情声量的方法、系统、装置、存储介质及移动终端
CN107273362B (zh) 数据处理方法及其设备
KR20210043281A (ko) 소셜미디어 빅데이터 분석을 통한 커스텀 위젯의 시각적 제공 방법 및 이를 수행하는 서버
CN116383340A (zh) 信息搜索方法、装置、电子设备和存储介质
CN113743973B (zh) 分析市场热点趋势的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200526

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510627, room 146-150, first floor, No. 07, Whampoa Avenue, Tianhe District, Guangdong, Guangzhou

Applicant before: GUANGZHOU UC NETWORK TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant