CN109241238B - 文章搜索方法、装置及电子设备 - Google Patents

文章搜索方法、装置及电子设备 Download PDF

Info

Publication number
CN109241238B
CN109241238B CN201810680187.2A CN201810680187A CN109241238B CN 109241238 B CN109241238 B CN 109241238B CN 201810680187 A CN201810680187 A CN 201810680187A CN 109241238 B CN109241238 B CN 109241238B
Authority
CN
China
Prior art keywords
word
search
article
candidate
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810680187.2A
Other languages
English (en)
Other versions
CN109241238A (zh
Inventor
潘岸腾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN201810680187.2A priority Critical patent/CN109241238B/zh
Publication of CN109241238A publication Critical patent/CN109241238A/zh
Application granted granted Critical
Publication of CN109241238B publication Critical patent/CN109241238B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文章搜索方法、装置及电子设备。该方法包括:接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合;根据搜索分词集合,获取对应的搜索词频向量集合;根据搜索词频向量集合,获取目标搜索词与对应的文章数据库中包括的每篇候选文章之间的相关性评分;将相关性评分符合预设的搜索条件的候选文章,作为搜索结果提供给用户。根据本发明,可以在用户搜索文章时向用户提供与搜索词相关性较高的文章,更精准满足用户的文章搜索需求。

Description

文章搜索方法、装置及电子设备
技术领域
本发明涉及搜索技术领域,更具体地,涉及一种文章搜索方法、装置及电子设备。
背景技术
文章搜索功能是计算机软件程序、移动终端应用(APP)中可支持的最基本的应用功能。
目前文章搜索功能的实现,通常是根据用户输入的搜索词进行搜索,搜索到包括与该搜索词匹配的关键词的文章时,将该文章作为搜索结果提供给用户。
但是,这种文章搜索方法并不能搜索到包括与搜索词存在相关性的相关词的文章,例如,用户输入搜索词“理财”,可以搜索出包括“理财”这一关键词的文章,但是,却无法搜索出不包括“理财”但是包括与“理财”存在相关性的相关词“投资”或者“基金”的文章。
发明内容
本发明的一个目的是提供一种用于文章搜索的新技术方案。
根据本发明的第一方面,提供了一种文章搜索方法,其中,包括:
接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合;
根据所述搜索分词集合,获取对应的搜索词频向量集合;
根据所述搜索词频向量集合,获取所述目标搜索词与对应的文章数据库中包括的每篇候选文章之间的相关性评分;
将所述相关性评分符合预设的搜索条件的候选文章,作为搜索结果提供给用户。
可选地,所述获取搜索分词集合的步骤包括:
获取与所述文章搜索操作对应的目标搜索词;
将所述目标搜索词进行分词处理,得到多个搜索分词以构成所述搜索分词集合。
可选地,所述获取对应的搜索词频向量集合的步骤包括:
对所述搜索分词集合中包括的每个搜索分词,计算所述搜索分词在对应的文章数据库中包括的每篇候选文章中出现的频率,得到所述搜索分词的词频向量;
根据全部所述搜索分词的词频向量,得到所述搜索词频向量集合。
可选地,所述获取所述目标搜索词与每篇所述候选文章之间的相关性评分的步骤包括:
对该候选文章进行分词处理,得到多个候选文章分词以构成对应的候选文章分词集合;
根据所述候选文章分词集合,获取对应的候选文章词频向量集合;
根据所述搜索词频向量集合、所述候选文章词频向量集合,计算目标搜索词与该候选文章之间的相关性评分。
可选地,所述获取对应的候选文章词频向量集合的步骤包括:
对每个所述候选文章分词,计算所述候选文章分词在对应的文章数据库中包括的每篇候选文章中出现的频率,得到所述候选文章分词的词频向量;
根据全部所述候选文章分词的词频向量,得到所述候选文章词频向量集合。
可选地,所述计算目标搜索词与该候选文章之间的相关性评分的步骤包括:
根据每个所述搜索分词的词频向量,以及每个所述候选文章分词的词频向量,获取对应的搜索分词与所述候选文章分词之间的分词相关值;
根据所述搜索分词集合、所述候选文章分词集合以及全部所述分词相关值,计算得到所述相关性评分。
可选地,所述获取分词相关值的步骤包括:
计算所述搜索分词的词频向量与所述候选文章分词的词频向量之间的余弦相关值,作为所述分词相关值。
可选地,所述计算得到所述相关性评分的步骤包括:
获取每个所述搜索分词在所述搜索分词集合中出现的第一频率值,以及每个所述候选文章分词在对应的所述候选分词集合中出现的第二频率值;
根据所述第一频率值、所述第二频率值,计算相关性系数;
将每个所述分词相关值,与对应的所述搜索分词的第一频率值以及对应的所述候选文章分词的第二频率值相乘后得到的乘积值求和,根据求和得到的结果值以及所述相关性系数,计算获取对应的相关性评分。
可选地,所述计算相关性系数的步骤包括:
将全部所述第一频率值求和得到的结果值,与全部所述第二频率值求和得到的结果值相乘,将相乘得到的结果值作为所述相关性系数;
和/或,
将全部所述第二频率值求和后,与预设的平滑系数值相加后得到的结果值,与全部所述第一频率值求和得到的结果值相乘,将相乘得到的结果值作为所述相关性系数。
可选地,
所述搜索条件是该候选文章的相关性评分的降序排序值在预设的排序值范围之内。
根据本发明的第二方面,提供一种文章搜索装置,其中,包括:
搜索分词获取单元,用于接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合;
词频向量获取单元,用于根据所述搜索分词集合,获取对应的搜索词频向量集合;
相关性评分获取单元,用于根据所述搜索词频向量集合,获取所述目标搜索词与对应的文章数据库中包括的每篇候选文章之间的相关性评分;
搜索结果提供单元,用于将所述相关性评分符合预设的搜索条件的候选文章,作为搜索结果提供给用户。
根据本发明的第三方面,提供一种电子设备,其中,包括:
存储器,用于存储可执行的指令;
处理器,用于根据所述可执行的指令的控制,运行所述电子设备执行本发明第一方面提供的文章搜索方法。
根据本公开的一个实施例,根据所获取用户的搜索词的分词集合,对应获取搜索词频向量集合,基于该搜索词频向量集合,获取用户的搜索词与可被搜索的候选文章之间的相关性评分,将相关性评分较高的候选文章作为搜索结果提供给用户,在用户搜索文章时向用户提供与搜索词相关性较高的文章,更精准满足用户的文章搜索需求。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是显示可用于实现本发明的实施例的电子设备1000的硬件配置的例子的框图。
图2示出了本发明的实施例的搜索方法的流程图。
图3示出了本发明的实施例的获取搜索分词集合步骤的流程图。
图4示出了本发明的实施例的获取搜索词频向量集合步骤的流程图。
图5示出了本发明的实施例的获取相关性评分步骤的流程图。
图6示出了本发明的实施例的获取候选文章词频向量集步骤的流程图。
图7示出了本发明的实施例的计算相关性评分步骤的流程图。
图8示出了本发明的实施例的计算相关性评分步骤的又一流程图。
图9示出了本发明的实施例的文章搜索装置的框图。
图10示出了本发明的实施例的电子设备的框图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
<硬件配置>
图1是示出可以实现本发明的实施例的电子设备1000的硬件配置的框图。
电子设备1000可以是便携式电脑、台式计算机、手机、平板电脑等。如图1所示,电子设备1000可以包括处理器1100、存储器1200、接口装置1300、通信装置1400、显示装置1500、输入装置1600、扬声器1700、麦克风1800等等。其中,处理器1100可以是中央处理器CPU、微处理器MCU等。存储器1200例如包括ROM(只读存储器)、RAM(随机存取存储器)、诸如硬盘的非易失性存储器等。接口装置1300例如包括USB接口、耳机接口等。通信装置1400例如能够进行有线或无线通信,具体地可以包括Wifi通信、蓝牙通信、2G/3G/4G/5G通信等。显示装置1500例如是液晶显示屏、触摸显示屏等。输入装置1600例如可以包括触摸屏、键盘、体感输入等。用户可以通过扬声器1700和麦克风1800输入/输出语音信息。
图1所示的电子设备仅仅是说明性的并且决不意味着对本发明、其应用或使用的任何限制。应用于本发明的实施例中,电子设备1000的所述存储器1200用于存储指令,所述指令用于控制所述处理器1100进行操作以执行本发明实施例提供的任意一项文章搜索方法。本领域技术人员应当理解,尽管在图1中对电子设备1000示出了多个装置,但是,本发明可以仅涉及其中的部分装置,例如,电子设备1000只涉及处理器1100和存储装置1200。技术人员可以根据本发明所公开方案设计指令。指令如何控制处理器进行操作,这是本领域公知,故在此不再详细描述。
<实施例>
本实施例的总体构思,是提供一种新的文章搜索方案,通过评估用户搜索文章使用的搜索词与候选文章之间的相关性,将相关性较高的候选文章作为搜索结果提供给用户,可以在用户搜索文章时向用户提供与搜索词相关性较高的文章,其中不仅与搜索词匹配的文章,还包括与搜索词不匹配但具有较强相关性的文章,更精准地满足用户的搜索需求。
<方法>
在本实施例中,提供一种文章搜索方法。应当理解的是,作为搜索对象的文章,是任意可以被搜索后提供给用户浏览或者阅读内容,例如,可以是网页新闻、线上小说、各种媒体应用或者社交应用发布的文章等。
该文章搜索方法,如图2所示,包括:步骤S2100-S2400。
步骤S2100,接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合。
用户的文章搜索操作可以是在提供搜索功能的应用界面上实施的输入操作、点击操作或者勾选操作等。例如,用户可以通过语音或者文本输入目标搜索词以后,点击搜索相关的功能按钮实现文章搜索操作,或者用户可以在提供的候选搜索词中通过勾选操作选择目标搜索词后,点击搜索相关的功能按钮实现文章搜索操作等等。
在本实施例中,可以通过提供搜索功能的应用界面接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合,以结合后续步骤评估目标搜索词与候选文章之间的相关性,相关性较高的候选文章作为搜索结果提供给用户,精准满足用户的搜索需求。
在一个例子中,步骤S2100可以如图3所示,包括:步骤S2110-S2120。
步骤S2110,获取与文章搜索操作对应的目标搜索词。
用户实施的文章搜索操作,会对应输入或者选择目标搜索词,通过获取文章搜索操作相关信息,可以获取对应的目标搜索词。
步骤S2120,将目标搜索词进行分词处理,得到多个搜索分词以构成搜索分词集合。
对目标搜索词进行分词处理,是将目标搜索词作为“文章”进行单词切分,得到对应的多个搜索分词,以用于结合后续的步骤评估目标搜索词与候选文章之间的相关性。
例如,目标搜索词是“理财攻略”,对目标搜索词进行分词处理,可以得到“理财”、“攻略”两个搜索分词构成的搜索分词集合:{“理财”,“攻略”}。
在本例中,对目标搜索词的分词处理,可以使用基于字符串匹配的分词算法、基于理解的分词算法以及基于统计的分词算法,在本实施例中不做限制。
在步骤S2100之后,进入:
步骤S2200,根据搜索分词集合,获取对应的搜索词频向量集合。
词频向量,是对应的分词在文章数据库中每篇候选文章中出现的频率构成的向量。
该文章数据库是提供可被搜索的候选文章的数据库,包括多篇候选文章。在本实施例中,文章数据库可以存储在实施本实施例的电子设备本地,也可以存储于与实施本实施例的电子设备建立通信连接的远端设备中。
获取目标搜索词的搜索词频向量集合,可以基于目标搜索词的分词的词频特性,结合后续步骤评估目标搜索词与候选文章之间的相关性,针对同一搜索分词在不同候选文章中体现的词频特征不同(出现的频率不同),来综合评估目标搜索词与候选文章之间的相关性,使得相关性评估更为精准。
在一个例子中,步骤S2200可以如图4所示,包括:步骤S2210-S2220。
步骤S2210,对搜索分词集合中的包括每个所搜索分词,计算搜索分词在对应的文章数据库中包括的每篇候选文章中出现的频率,得到搜索分词的词频向量。
在本例中,可以通过对候选文章进行分词处理,得到若干个候选文章分词,统计该候选文章分词中出现对应的搜索分词的数目,将该数目除以候选文章分词的总数目,得到该搜索分词在该候选文章出现的频率。
例如,假设对候选文章d进行分词,得到的候选文章的分词总数量是k,其中,与搜索分词w相同的候选文章分词数量为l,那么搜索分词w在候选文章d中的频率为l/k。
以此类推,可以得到该搜索分词在文章数据库的每篇候选文章中的频率,以此获得对应的搜索词频向量。
例如,假设文章数据库中共有5篇候选文章,对于搜索分词w,在5篇候选文章中出现的频率分别是0.1、0.2、0.3、0、0,对应的词频向量为[0.1,0.2,0.3,0,0]。
步骤S2220,根据全部搜索分词的词频向量,得到搜索词频向量集合。
例如,搜索分词集合为{“理财”,“攻略”},搜索分词“理财”的词频向量为V1,搜索分词“攻略”的词频向量为V2,得到搜索词频向量集合{V1,V2}。
在实际应用中,在对目标搜索词进行分词处理后,实时计算每个搜索分词的文章数据库中包括的每篇候选文章中出现的频率得到对应的词频向量,需要消耗较多的处理资源,对实施本实施例的电子设备要求较高。
因此在本例中,可以预先将文章数据库中的每篇候选文章进行分词处理,对每篇候选文章中包括的每个候选文章分词,分别计算该候选文章分词在所有候选文章中出现的频率,得到该候选文章分词的词频向量,以此类推,得到所有候选文章分词的词频向量存储在本地,或者存储在文章数据库所在的设备的存储中;在对目标搜索词进行分词处理后,可以直接读取与搜索分词相同的候选文章分词的词频向量,作为搜索分词的词频向量。以此避免实时计算带来的对处理资源的消耗,降低对实施本例电子设备的处理能力的要求。
在步骤S2200之后,进入:
步骤S2300,根据搜索词频向量集合,获取目标搜索词与对应的文章数据库中包括的每篇候选文章之间的相关性评分。
通过获取目标搜索词与候选文章之间的相关性评分,可以根据相关性评分评估目标搜索词与候选文章之间的相关性,结合后续步骤相关性较高的候选文章作为搜索结果提供给用户,精准满足用户的搜索需求。
在一个例子中,步骤S2300,可以如图5所示,包括:步骤S2310-S2330。
步骤S2310,对该候选文章进行分词处理,得到多个候选文章分词以构成对应的候选文章分词集合。
在获取目标搜索词与一篇候选文章之间的相关性评分时,将该篇候选文章进行分词处理,得到多个候选文章分词构成的候选文章分词集合,可以结合后续步骤,实现以目标搜索词作为一篇文章评估与该候选文章之间的相关性,得到对应的相关性评分。
在本例中,对候选文章进行分词处理可以采用上文对搜索词进行分词处理所采用的类似方法,在此不再赘述。
步骤S2320,根据候选文章分词集合,获取对应的候选文章词频向量集合。
获取每篇候选文章的候选文章词频向量集合,可以结合后续步骤,基于目标搜索词中每个搜索分词的词频特性、以及候选文章中每个候选文章分词的词频特征,评估目标搜索词作为一篇文章评估与该候选文章之间的相关性。
在一个例子中,步骤S2320可以如图6所示,包括:步骤S2321-S2322。
步骤S2321,对每个所候选文章分词,计算候选文章分词在对应的文章数据库中包括的每篇候选文章中出现的频率,得到候选文章分词的词频向量。
在本例中,对每一个候选文章分词,针对某一篇候选文章,可以对该候选文章进行分词得到若干个分词,统计候选文章包括的分词中出现该候选文章分词的数目,将该数目除以该候选文章的分词总数目,得到该搜索分词在该候选文章出现的频率。
以此类推,可以得到该候选文章分词在文章数据库的每篇候选文章中的频率,以此获得该候选文章分词的词频向量。
具体可以采用上文中获取搜索分词的词频向量的步骤S2210相似的方法。
步骤S2322,根据全部候选文章分词的词频向量,得到候选文章词频向量集合。
例如,候选文章分词集合为{“投资”,“基金”,……},候选文章分词“投资”的词频向量为U1,候选文章分词“基金”的词频向量为U2,得到候选文章分词词频向量集合{U1,U2,……}。
在实际应用中,针对每次搜索操作,都对候选文章进行分词处理、以及实时计算每个候选文章分词在每篇候选文章中出现的频率得到对应的词频向量,需要消耗较多的处理资源,对实施本实施例的电子设备要求较高,同时,也存在重复冗余计算带来的浪费处理资源的缺陷。
因此在本例中,可以预先将文章数据库中的每篇候选文章进行分词处理,对每篇候选文章中包括的每个候选文章分词,分别计算该候选文章分词在所有候选文章中出现的频率,得到该候选文章分词的词频向量,以此类推,可以得到每篇候选文章的候选文章词频向量集合,对应存储在本地,或者存储在文章数据库所在的设备的存储中;在实施本例的文章搜索方法时,可以直接读取得到每篇候选文章的候选文章词频向量集合。以此避免分词处理,实时获取候选文章词频向量集合带来的对处理资源的消耗,降低对实施本例的电子设备的处理能力的要求,同时避免重复冗余计算带来的浪费处理资源。
步骤S2330,根据搜索词频向量集合、候选文章词频向量集合,计算目标搜索词与该候选文章之间的相关性评分。
基于搜索词频向量集合体现的目标搜索词的分词的词频特性,结合候选文章词频向量集合体现的候选文章的分词的词频特性,计算目标搜索词与该候选文章之间的相关性评分,实现客观、精准评估目标搜索词与候选文章之间的相关性。
在一个例子中,步骤S2330可以如图7所示,包括:步骤S2331-S2332。
步骤S2331,根据每个搜索分词的词频向量,以及每个候选文章分词的词频向量,获取对应的搜索分词与候选文章分词之间的分词相关值。
分词相关值用于评估任意两个分词之间的相关性。
在本例中,可以通过计算向量间距离、向量间相似度等方法,基于每个搜索分词的词频向量以及每个候选文章分词的词频向量,计算得到对应的分词相关值。
例如,可以计算搜索分词的词频向量与候选文章分词的词频向量之间的余弦相关值,作为分词相关值。具体地,假设搜索分词wi的词频向量
Figure BDA0001710770450000111
候选文章分词wj的词频向量
Figure BDA0001710770450000112
对应的分词相关值
Figure BDA0001710770450000113
可以根据下述公式计算:
Figure BDA0001710770450000114
以此类推,可以得到任意一个搜索分词与任意一个候选文章分词之间的分词相关值。
在实际应用中,在实施本例的文章搜索方法时,实时计算任意一个搜索分词与任意一个候选文章分词之间的分词相关值,需要消耗较多的处理资源,对实施本例的电子设备要求较高,同时,也存在重复冗余计算带来的浪费处理资源的缺陷。
因此,在本例中,可以预先计算任意两个候选文章分词之间的分词相关值,对应存储在本地,或者存储在文章数据库所在的设备的存储中;在实施本例的文章搜索方法时,可以直接读取与搜索分词相同的候选文章分词与其他候选文章分词之间的分词相关值,以此避免实时计算分词相关值带来的对处理资源的消耗,降低对实施本例的电子设备的处理能力的要求,同时避免重复冗余计算带来的浪费处理资源。
步骤S2332,根据搜索分词集合、候选文章分词集合以及全部分词相关值,计算得到相关性评分。
在一个例子中,步骤S2332可以如图8所示,包括:步骤S23321-S23323。
步骤S23321,获取每个搜索分词在搜索分词集合中出现的第一频率值,以及每个候选文章分词在对应的候选分词集合中出现的第二频率值。
假设搜索分词集合为S,其中包括Ns个搜索分词,对于每个搜索分词Wsk(k=1,.......,Ns)统计得到其在整个搜索分词集合S中出现的频率,得到对应的第一频率值Qsk(k=1,.......,Ns);
假设候选文章dj的候选文章分词集合为J,其中包括Nj个候选文章分词,对于每个候选文章分词Wjl(l=1,.......,Nj)统计得到其在整个候选文章分词集合中J出现的频率,得到对应的第二频率值Qjl(l=1,.......,Nj)。
以此类推,可以得到任意搜索分词的第一频率值以及任意候选文章分词的第二频率值。
步骤S23322,根据第一频率值、所述第二频率值,计算相关性系数。
相关性系数是计算目标搜索词与某篇候选文章的相关性评分时使用的系数因子。
在一个例子中,可以将全部第一频率值求和得到的结果值,与全部的第二频率值求和得到的结果值相乘,将相乘得到的结果值的倒数作为所述相关性系数。
假设对于目标搜索词s的搜索分词集合为S,其中包括Ns个搜索分词,对应每个搜索分词Wsk(k=1,.......,Ns)的第一频率值Qsk(k=1,.......,Ns);候选文章dj的候选文章分词集合为J,其中包括Nj个候选文章分词,对应每个候选文章分词Wjl(l=1,.......,Nj)对应的第二频率值Qjl(l=1,.......,Nj),对应的,相关性系数α为:
Figure BDA0001710770450000121
在实际应用中,某些候选文章的篇幅比较短,包括的候选文章分词比较少,会导致计算得到的相关性系数值偏大,对应影响后续计算出的相关性评分的准确性。因此,在一个例子中,可以将全部第二频率值求和后,与预设的平滑系数值相加后得到的结果值,与全部第一频率值求和得到的结果值相乘,将相乘得到的结果值的倒数作为相关性系数。
该平滑系数是用于对不同篇幅的候选文章之间进行平滑处理,降低候选文章的篇幅大小对相关性评估的影响,避免计算的相关性评分出现误差。该平滑系数可以根据工程经验或者实验仿真结果设置,例如,设置为100。
假设对于目标搜索词的搜索分词集合为S,其中包括Ns个搜索分词,对应每个搜索分词Wsk(k=1,.......,Ns)的第一频率值Qsk(k=1,.......,Ns);候选文章dj的候选文章分词集合为J,其中包括Nj个候选文章分词,对应每个候选文章分词Wjl(l=1,.......,Nj)对应的第二频率值Qjl(l=1,.......,Nj),平滑系数为β,对应的,相关性系数α为:
Figure BDA0001710770450000131
步骤S23323,将每个分词相关值,与对应的搜索分词的第一频率值以及对应的候选文章分词的第二频率值相乘后得到的乘积值求和,根据求和得到的结果值以及相关性系数,计算获取对应的相关性评分。
具体地,假设目标搜索词s的搜索分词集合为S,其中包括Ns个搜索分词,对应每个搜索分词Wsk(k=1,.......,Ns),候选文章dj的候选文章分词集合为J,其中包括Nj个候选文章分词,对应每个候选文章分词Wjl(l=1,.......,Nj),相关性系数为α,根据步骤S2331可以计算得到任意一个搜索分词Wsk与任意一个候选文章分词Wjl之间的分词相关值为sim(Wsk,Wjl),对应地,该目标搜索词s与候选文章dj的相关性评分
Figure BDA0001710770450000132
为:
Figure BDA0001710770450000133
其中,
Figure BDA0001710770450000134
时:
Figure BDA0001710770450000135
Figure BDA0001710770450000136
时:
Figure BDA0001710770450000137
以上已经结合附图和例子举例说明如何实施步骤S2300,之后进入:
步骤S2400,将相关性评分符合预设的搜索条件的候选文章,作为搜索结果提供给用户。
搜索条件是用于评估候选文章与目标搜索词之间的相关性评分是否满足用户的搜索需求的条件,可以根据具体的应用场景或者需求设置。
在一个例子中,搜索条件可以是该候选文章的相关性评分的降序排序值在预设的排序值范围之内。排序值范围可以根据具体的应用场景或者需求设置,例如设置为1-100,使得相关性评分排序在前100的候选文章能作为搜索结果提供给用户。
通过将相关性评分满足搜索条件的候选文章,作为搜索结果提供给用户,可以使得用户在文章搜索过程中,能获取与目标搜索词相关性较高的文章,其中不仅包括与目标搜索词匹配的文章,还能包括其他不包括目标搜索词但与目标搜索词具有强相关性的文章,使得搜索结果更充实,更精准地满足用户的搜索需求。
<文章搜索装置>
在本实施例中,还提供一种文章搜索装置3000,如图9所示,包括:搜索分词获取单元3100、词频向量获取单元3200、相关性评分获取单元3300以及搜索结果提供单元3400,用于实施本实施例中提供的任意一项文章搜索方法,在此不再赘述。
搜索分词获取单元3100,用于接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合。
在一个例子中,搜索分词获取单元3100用于:
获取与所述文章搜索操作对应的目标搜索词;
将所述目标搜索词进行分词处理,得到多个搜索分词以构成所述搜索分词集合。
在一个例子中,词频向量获取单元3200用于:
对每个所述搜索分词,计算所述搜索分词在对应的文章数据库中包括的每篇候选文章中出现的频率,得到所述搜索分词的词频向量;
根据全部所述搜索分词的词频向量,得到所述搜索词频向量集合。
在一个例子中,相关性评分获取单元3300用于:
对该候选文章进行分词处理,得到多个候选文章分词以构成对应的候选文章分词集合;
根据所述候选文章分词集合,获取对应的候选文章词频向量集合;
根据所述搜索词频向量集合、所述候选文章词频向量集合,计算目标搜索词与该候选文章之间的相关性评分。
进一步地,相关性评分获取单元3300还用于:
对每个所述候选文章分词,计算所述候选文章分词在对应的文章数据库中包括的每篇候选文章中出现的频率,得到所述候选文章分词的词频向量;
根据全部所述候选文章分词的词频向量,得到所述候选文章词频向量集合。
进一步地,相关性评分获取单元3300还用于:
根据每个所述搜索分词的词频向量,以及每个所述候选文章分词的词频向量,获取对应的搜索分词与所述候选文章分词之间的分词相关值;
根据所述搜索分词集合、所述候选文章分词集合以及全部所述分词相关值,计算得到所述相关性评分。
进一步地,相关性评分获取单元3300还用于:
计算所述搜索分词的词频向量与所述候选文章分词的词频向量之间的余弦相关值,作为所述分词相关值。
进一步地,相关性评分获取单元3300还用于:
获取每个所述搜索分词在所述搜索分词集合中出现的第一频率值,以及每个所述候选文章分词在对应的所述候选分词集合中出现的第二频率值;
根据所述第一频率值、所述第二频率值,计算相关性系数;
将每个所述分词相关值,与对应的所述搜索分词的第一频率值以及对应的所述候选文章分词的第二频率值相乘后得到的乘积值求和,根据求和得到的结果值以及所述相关性系数,计算获取对应的相关性评分。
进一步地,相关性评分获取单元3300还用于:
将全部所述第一频率值求和得到的结果值,与全部所述第二频率值求和得到的结果值相乘,将相乘得到的结果值作为所述相关性系数;
和/或,
将全部所述第二频率值求和后,与预设的平滑系数值相加后得到的结果值,与全部所述第一频率值求和得到的结果值相乘,将相乘得到的结果值作为所述相关性系数。
搜索结果提供单元3400,用于将所述相关性评分符合预设的搜索条件的候选文章,作为搜索结果提供给用户。
可选地,所述搜索条件是该候选文章的相关性评分的降序排序值在预设的排序值范围之内。
本领域技术人员应当明白,可以通过各种方式来实现文章搜索装置3000。例如,可以通过指令配置处理器来实现文章搜索装置3000。例如,可以将指令存储在ROM中,并且当启动设备时,将指令从ROM读取到可编程器件中来实现文章搜索装置3000。例如,可以将文章搜索装置3000固化到专用器件(例如ASIC)中。可以将文章搜索装置3000分成相互独立的单元,或者可以将它们合并在一起实现。文章搜索装置3000可以通过上述各种实现方式中的一种来实现,或者可以通过上述各种实现方式中的两种或更多种方式的组合来实现。
在本实施例中,文章搜索装置3000可以具体各种实施形式,例如,文章搜索装置3000可以是任意提供搜索功能的软件产品,比如浏览器或者类似浏览器的应用程序,或者,文章搜索装置3000可以设置与能实现搜索功能的任意电子设备中,比如设置在客户端或者是服务器中,或者是部分功能单元设置在客户端、部分功能单元设置在服务器等等。
<电子设备>
在本实施例中,还提供一种电子设备4000,如图10所示,包括:
存储器4100,用于存储可执行的指令;
处理器4200,用于根据所述可执行的指令的控制,运行所述电子设备执行如本实施例中提供的任意一项文章搜索方法。
在本实施例中,电子设备4000是任意可以实现搜索功能的电子设备,例如手机、平板电脑、掌上电脑、笔记本电脑或者台式计算机等,电子设备4000还可以包括其他硬件装置,例如,如图1所示的电子设备1000。
以上已经结合附图和例子描述了本发明的实施例,根据本实施例,提供一种文章搜索方法、装置及电子设备,根据所获取用户的搜索词的分词集合,对应获取搜索词频向量集合,基于该搜索词频向量集合,获取用户的搜索词与可被搜索的候选文章之间的相关性评分,将相关性评分较高的候选文章作为搜索结果提供给用户,在用户搜索文章时向用户提供与搜索词相关性较高的文章,更精准满足用户的文章搜索需求。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种文章搜索方法,其中,包括:
接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合;
根据所述搜索分词集合,获取对应的搜索词频向量集合,其中所述搜索词频向量集合包括所述搜索分词集合中每个搜索分词的词频向量;
根据所述搜索词频向量集合,获取所述目标搜索词与对应的文章数据库中包括的每篇候选文章之间的相关性评分;
将所述相关性评分符合预设的搜索条件的候选文章,作为搜索结果提供给用户,
其中,所述获取所述目标搜索词与每篇所述候选文章之间的相关性评分的步骤包括:
对该候选文章进行分词处理,得到多个候选文章分词以构成对应的候选文章分词集合;
根据所述候选文章分词集合,获取对应的候选文章词频向量集合,其中所述候选文章词频向量集合包括所述多个候选文章分词的词频向量;
根据每个所述搜索分词的词频向量,以及每个所述候选文章分词的词频向量,获取对应的搜索分词与所述候选文章分词之间的分词相关值;
根据所述搜索分词集合、所述候选文章分词集合以及全部所述分词相关值,计算得到所述相关性评分,
其中,所述词频向量是对应的分词在文章数据库中每篇候选文章中出现的频率构成的向量。
2.根据权利要求1所述的方法,其中,所述获取搜索分词集合的步骤包括:
获取与所述文章搜索操作对应的目标搜索词;
将所述目标搜索词进行分词处理,得到多个搜索分词以构成所述搜索分词集合。
3.根据权利要求1所述的方法,其中,所述获取对应的搜索词频向量集合的步骤包括:
对所述搜索分词集合中包括的每个搜索分词,计算所述搜索分词在对应的文章数据库中包括的每篇候选文章中出现的频率,得到所述搜索分词的词频向量;
根据全部所述搜索分词的词频向量,得到所述搜索词频向量集合。
4.根据权利要求1所述的方法,其中,所述获取对应的候选文章词频向量集合的步骤包括:
对每个所述候选文章分词,计算所述候选文章分词在对应的文章数据库中包括的每篇候选文章中出现的频率,得到所述候选文章分词的词频向量;
根据全部所述候选文章分词的词频向量,得到所述候选文章词频向量集合。
5.根据权利要求1所述的方法,其中,所述获取分词相关值的步骤包括:
计算所述搜索分词的词频向量与所述候选文章分词的词频向量之间的余弦相关值,作为所述分词相关值。
6.根据权利要求1所述的方法,其中,所述计算得到所述相关性评分的步骤包括:
获取每个所述搜索分词在所述搜索分词集合中出现的第一频率值,以及每个所述候选文章分词在对应的所述候选分词集合中出现的第二频率值;
根据所述第一频率值、所述第二频率值,计算相关性系数;
将每个所述分词相关值,与对应的所述搜索分词的第一频率值以及对应的所述候选文章分词的第二频率值相乘后得到的乘积值求和,根据求和得到的结果值以及所述相关性系数,计算获取对应的相关性评分。
7.根据权利要求6所述的方法,其中,所述计算相关性系数的步骤包括:
将全部所述第一频率值求和得到的结果值,与全部所述第二频率值求和得到的结果值相乘,将相乘得到的结果值的倒数作为所述相关性系数;
和/或,
将全部所述第二频率值求和后,与预设的平滑系数值相加后得到的结果值,与全部所述第一频率值求和得到的结果值相乘,将相乘得到的结果值的倒数作为所述相关性系数。
8.根据权利要求1所述的方法,其中,
所述搜索条件是该候选文章的相关性评分的降序排序值在预设的排序值范围之内。
9.一种文章搜索装置,其中,包括:
搜索分词获取单元,用于接收用户的文章搜索操作,获取对应的目标搜索词的搜索分词集合;
词频向量获取单元,用于根据所述搜索分词集合,获取对应的搜索词频向量集合,其中所述搜索词频向量集合包括所述搜索分词集合中每个搜索分词的词频向量;
相关性评分获取单元,用于根据所述搜索词频向量集合,获取所述目标搜索词与对应的文章数据库中包括的每篇候选文章之间的相关性评分;
搜索结果提供单元,用于将所述相关性评分符合预设的搜索条件的候选文章,作为搜索结果提供给用户,
其中,所述相关性评分获取单元获取所述目标搜索词与每篇所述候选文章之间的相关性评分包括:
对该候选文章进行分词处理,得到多个候选文章分词以构成对应的候选文章分词集合;
根据所述候选文章分词集合,获取对应的候选文章词频向量集合,其中所述候选文章词频向量集合包括所述多个候选文章分词的词频向量;
根据每个所述搜索分词的词频向量,以及每个所述候选文章分词的词频向量,获取对应的搜索分词与所述候选文章分词之间的分词相关值;
根据所述搜索分词集合、所述候选文章分词集合以及全部所述分词相关值,计算得到所述相关性评分,
其中,所述词频向量是对应的分词在文章数据库中每篇候选文章中出现的频率构成的向量。
10.一种电子设备,其中,包括:
存储器,用于存储可执行的指令;
处理器,用于根据所述可执行的指令的控制,运行所述电子设备执行如权利要求1-8任意一项所述的文章搜索方法。
CN201810680187.2A 2018-06-27 2018-06-27 文章搜索方法、装置及电子设备 Active CN109241238B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810680187.2A CN109241238B (zh) 2018-06-27 2018-06-27 文章搜索方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810680187.2A CN109241238B (zh) 2018-06-27 2018-06-27 文章搜索方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN109241238A CN109241238A (zh) 2019-01-18
CN109241238B true CN109241238B (zh) 2022-02-08

Family

ID=65072016

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810680187.2A Active CN109241238B (zh) 2018-06-27 2018-06-27 文章搜索方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN109241238B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110069597A (zh) * 2019-03-08 2019-07-30 北京合享智慧科技有限公司 基于执行对象的场景信息的构建方法及装置
CN110472018A (zh) * 2019-08-22 2019-11-19 子长科技(北京)有限公司 基于深度学习的信息处理方法、装置及计算机存储介质
JP7396190B2 (ja) 2020-04-30 2023-12-12 富士通株式会社 抽出プログラム、抽出方法及び抽出装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273476A (zh) * 2017-06-08 2017-10-20 广州优视网络科技有限公司 一种文章搜索方法、装置及服务器

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972432B2 (en) * 2008-04-23 2015-03-03 Google Inc. Machine translation using information retrieval
CN103309886B (zh) * 2012-03-13 2017-05-10 阿里巴巴集团控股有限公司 一种基于交易平台的结构化信息搜索方法和装置
US20140244240A1 (en) * 2013-02-27 2014-08-28 Hewlett-Packard Development Company, L.P. Determining Explanatoriness of a Segment
CN104899310B (zh) * 2015-06-12 2018-01-19 百度在线网络技术(北京)有限公司 信息排序方法、用于生成信息排序模型的方法及装置
CN106649409A (zh) * 2015-11-04 2017-05-10 陈包容 一种基于场景信息显示搜索结果的方法及装置
CN106776881A (zh) * 2016-11-28 2017-05-31 中国科学院软件研究所 一种基于微博平台的领域信息推荐系统及方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273476A (zh) * 2017-06-08 2017-10-20 广州优视网络科技有限公司 一种文章搜索方法、装置及服务器

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于语义的文本相似度算法研究及应用;张金鹏;《中国优秀硕士学位论文全文数据库(信息科技辑)》;20150115;第7页,第48页 *

Also Published As

Publication number Publication date
CN109241238A (zh) 2019-01-18

Similar Documents

Publication Publication Date Title
CN108932320B (zh) 文章搜索方法、装置及电子设备
US11550871B1 (en) Processing structured documents using convolutional neural networks
US10210243B2 (en) Method and system for enhanced query term suggestion
US10289957B2 (en) Method and system for entity linking
CN110909550B (zh) 文本处理方法、装置、电子设备和可读存储介质
CN107357917B (zh) 一种简历搜索方法及计算设备
CN111078858B (zh) 文章搜索方法、装置及电子设备
CN109241238B (zh) 文章搜索方法、装置及电子设备
US11238050B2 (en) Method and apparatus for determining response for user input data, and medium
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
CN110427453B (zh) 数据的相似度计算方法、装置、计算机设备及存储介质
CN111078842A (zh) 查询结果的确定方法、装置、服务器及存储介质
CN111191445A (zh) 广告文本分类方法及装置
CN114036322A (zh) 用于搜索系统的训练方法、电子设备和存储介质
CN111950279A (zh) 实体关系的处理方法、装置、设备及计算机可读存储介质
CN111782925B (zh) 物品推荐方法、装置、设备、系统及可读存储介质
CN111538830A (zh) 法条检索方法、装置、计算机设备及存储介质
CN112214663A (zh) 获取舆情声量的方法、系统、装置、存储介质及移动终端
CN107273362B (zh) 数据处理方法及其设备
CN116383340A (zh) 信息搜索方法、装置、电子设备和存储介质
US11734602B2 (en) Methods and systems for automated feature generation utilizing formula semantification
US20180157744A1 (en) Comparison table automatic generation method, device and computer program product of the same
US10223728B2 (en) Systems and methods of providing recommendations by generating transition probability data with directed consumption
US20210216707A1 (en) Methods and systems for improving language processing for ambiguous instances
CN111078989B (zh) 一种应用程序的推荐方法、装置、及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200526

Address after: 310051 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 510627, room 146-150, first floor, No. 07, Whampoa Avenue, Tianhe District, Guangdong, Guangzhou

Applicant before: GUANGZHOU UC NETWORK TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant