CN108897861A - 一种信息搜索方法 - Google Patents

一种信息搜索方法 Download PDF

Info

Publication number
CN108897861A
CN108897861A CN201810704165.5A CN201810704165A CN108897861A CN 108897861 A CN108897861 A CN 108897861A CN 201810704165 A CN201810704165 A CN 201810704165A CN 108897861 A CN108897861 A CN 108897861A
Authority
CN
China
Prior art keywords
text
key message
database
search
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810704165.5A
Other languages
English (en)
Inventor
向湘杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dongguan Huarui Electronic Technology Co Ltd
Original Assignee
Dongguan Huarui Electronic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dongguan Huarui Electronic Technology Co Ltd filed Critical Dongguan Huarui Electronic Technology Co Ltd
Priority to CN201810704165.5A priority Critical patent/CN108897861A/zh
Publication of CN108897861A publication Critical patent/CN108897861A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种信息搜索方法,该方法包括:对数据库中的文本进行关键信息提取,得到数据库中各文本对应的关键句子;根据数据库中各文本对应的关键句子,组成数据库关键句子集合;在用户进行文本搜索时,获取用户搜索的关键词;根据关键词在所述数据库关键句子集合中搜索,以确定命中关键词的目标关键句子;根据目标关键句子在数据库搜索对应的文本,并显示文本搜索结果。本发明中由于数据库中文本都有对应的关键句子,在用户进行关键词搜索时,先查找命中关键词的关键句子,再查找关键句子对应的文本,大大降低了文本搜索量,提高了文本搜索效率和准确度。

Description

一种信息搜索方法
技术领域
本发明文本处理技术领域,尤其涉及一种信息搜索方法。
背景技术
随着互联网的普及,互联网上的内容信息急剧增长,因而通过关键词在数据库上搜索要查询的内容的方法也广泛使用开来。
现有技术中的文本方法一般是由人工输入搜索关键词,使用这些关键词在数据库中进行搜索,然后显示命中关键词的文本信息。
由于数据库信息的庞大,现有技术手段对于搜索结果显示无法准确显示搜索结果,同时搜索的数据量非常庞大,耗时较长。
发明内容
本发明提供了一种信息搜索方法,更准确的显示用户文本搜索结果,减少搜索处理时间,提高搜索效率。
本发明提供一种信息搜索方法,该方法包括:
对数据库中的文本进行关键信息提取,得到所述数据库中各文本对应的关键信息;
根据所述数据库中各文本对应的关键信息,组成所述数据库关键信息集合;
在用户进行文本搜索时,获取用户搜索的关键词;
根据所述关键词在所述数据库关键信息集合中搜索,以确定命中所述关键词的目标关键信息;
根据所述目标关键信息在所述数据库搜索对应的文本,并显示文本搜索结果。
进一步的,所述关键词包括第一关键词和第二关键词;所述根据所述关键词在所述数据库关键信息集合中搜索,以确定命中所述关键词的目标关键信息,包括:
根据所述第一关键词在所述数据库关键信息集合中搜索,以确定命中所述第一关键词的第一关键信息;
所述根据所述目标关键信息在所述数据库搜索对应的文本,并显示文本搜索结果,包括:
根据所述第一关键信息在所述数据库搜索对应的文本;
若所述第一关键信息的搜索结果小于预设数量,则直接显示所述第一关键信息的搜索结果;
若所述第一关键信息的搜索结果不小于预设数量,则根据所述第二关键信息在所述第一关键信息的搜索结果查找对应的文本,并显示搜索结果。
进一步的,所述对数据库中的文本进行关键信息提取,获取数据库中各文本的关键信息,包括:
依次以所述数据库中的文本为目标文本;
对所述目标文本进行拆解得到若干候选句子;
确定各候选句子的重要性分数;
提取重要性分数大于预设值的目标句子作为所述目标文本的关键信息;
在完成所述数据库中所有文本的关键信息提取后,获取所述数据库中各文本的关键信息。
进一步的,所述对所述目标文本进行拆解得到若干候选句子,包括:
获取所述目标文本中的第一类型标点符号;
按照所述第一类型标点符号,对所述目标文本进行拆解,得到若干候选句子。
进一步的,所述确定各候选句子的重要性分数,包括:
确定各候选句子的类型;
若候选句子为中文句子,则按照语义分析的方式再将每个候选句子拆分为若干个词组;
进行全文检索,计算各词组出现的次数;
按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。
进一步的,所述确定各候选句子的重要性分数,还包括:
若候选句子为网页链接地址,则后台开启该网页链接地址对应的目标网页;
根据该目标网页中,指向该目标网页的链接确定该目标网页的重要性分数,该目标网页的重要性分数就是该候选句子的重要性分数。
进一步的,根据该目标网页中,指向该目标网页的链接确定该目标网页的重要性分数,采用如下公式:
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85, In(Vi)是存在指向目标网页的链接的网页集合,out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。
进一步的,所述方法还包括:
在对第一文本及第二文本进行比较时,获取所述第一文本的第一关键信息及所述第二文本的第二关键信息;
将所述第一关键信息与第二关键信息进行对比得到对比结果。
进一步的,所述将所述第一关键信息与第二关键信息进行对比得到对比结果,包括:
计算所述第一关键信息中第一关键句子与所述第二关键信息中第二关键句子的余弦相似度;
若所述余弦相似度高于预设值,则确定第一文本与第二文本近似。
进一步的,所述计算所述第一关键信息中第一关键句子与所述第二关键信息中第二关键句子的余弦相似度,包括:
将第一关键句子拆分为若干个词组;
将第二关键句子拆分为若干个词组;
将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
计算第一序列和第二序列之间的余弦相似度,并作为第一关键句子和第二关键句子之间的余弦相似度。
进一步的,所述计算第一序列和第二序列之间的余弦相似度,采用如下公式:
其中,a表示第一序列,b表示第二序列,ab表示第一序列的中元素与第二序列中相应的元素相乘后整体相加,分母表示第一序列中所有元素的平方和开根号后乘以第二序列中所有元素的平方和开根号。
本发明中通过对数据库中的文本进行关键信息提取,得到数据库中各文本对应的关键信息;根据数据库中各文本对应的关键信息,组成数据库关键信息集合;在用户进行文本搜索时,获取用户搜索的关键词;根据关键词在所述数据库关键信息集合中搜索,以确定命中关键词的目标关键信息;根据目标关键信息在数据库搜索对应的文本,并显示文本搜索结果。本发明中由于数据库中文本都有对应的关键信息,在用户进行关键词搜索时,先查找命中关键词的关键信息,再查找关键信息对应的文本,大大降低了文本搜索量,提高了文本搜索效率和准确度。
附图说明
图1为本发明中信息搜索方法的一个实施例示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等 (如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
如图1所示,本发明实施例中提供一种信息搜索方法,该方法包括:
S101、对数据库中的文本进行关键信息提取,得到所述数据库中各文本对应的关键信息;
本实施例中,数据库可以是预设的数据库,例如某个平台的数据库,某个网站的数据库,某个公司的数据库等。
S102、根据数据库中各文本对应的关键信息,组成数据库关键信息集合;
S103、在用户进行文本搜索时,获取用户搜索的关键词;
S104、根据所述关键词在所述数据库关键信息集合中搜索,以确定命中所述关键词的目标关键信息;
S105、根据所述目标关键信息在所述数据库搜索对应的文本,并显示文本搜索结果。
具体的,由于步骤S101中数据库中各文本都对应有关键信息,根据目标关键信息可以确定具有该目标关键信息的文本,并查找到这些文本,从而进行搜索结果显示。
本发明实施例中通过对数据库中的文本进行关键信息提取,得到数据库中各文本对应的关键信息;根据数据库中各文本对应的关键信息,组成数据库关键信息集合;在用户进行文本搜索时,获取用户搜索的关键词;根据关键词在所述数据库关键信息集合中搜索,以确定命中关键词的目标关键信息;根据目标关键信息在数据库搜索对应的文本,并显示文本搜索结果。本发明中由于数据库中文本都有对应的关键信息,在用户进行关键词搜索时,先查找命中关键词的关键信息,再查找关键信息对应的文本,大大降低了文本搜索量,提高了文本搜索效率和准确度。
进一步的,所述关键词包括第一关键词和第二关键词;所述根据所述关键词在所述数据库关键信息集合中搜索,以确定命中所述关键词的目标关键信息,包括:
根据所述第一关键词在所述数据库关键信息集合中搜索,以确定命中所述第一关键词的第一关键信息;
此时,所述根据所述目标关键信息在所述数据库搜索对应的文本,并显示文本搜索结果,包括:根据所述第一关键信息在所述数据库搜索对应的文本;若所述第一关键信息的搜索结果小于预设数量,则直接显示所述第一关键信息的搜索结果;若所述第一关键信息的搜索结果不小于预设数量,则根据所述第二关键信息在所述第一关键信息的搜索结果查找对应的文本,并显示搜索结果。其中,预设数量为预先设置的数量单位,例如100,这样可以方便用户在搜索结果不多时,直接显示所有搜索结果,在所述结果很多时,在根据第二关键信息进行二次筛选,显示搜索结果。
进一步的,所述对数据库中的文本进行关键信息提取,获取数据库中各文本的关键信息,包括:
依次以所述数据库中的文本为目标文本;
对所述目标文本进行拆解得到若干候选句子;
确定各候选句子的重要性分数;
提取重要性分数大于预设值的目标句子作为所述目标文本的关键信息;
在完成所述数据库中所有文本的关键信息提取后,获取所述数据库中各文本的关键信息。
进一步的,所述对所述目标文本进行拆解得到若干候选句子,包括:
获取所述目标文本中的第一类型标点符号;
按照所述第一类型标点符号,对所述目标文本进行拆解,得到若干候选句子。
例如,按照与预设类型标点符号进行拆解,预设类型标点符号可以包括分号、逗号、句号,即在分号、逗号、句号处进行拆解,而忽略其他标点符号,例如顿号、冒号、引号不进行拆解。
进一步的,所述确定各候选句子的重要性分数,包括:
确定各候选句子的类型;
若候选句子为中文句子,则按照语义分析的方式再将每个候选句子拆分为若干个词组;
进行全文检索,计算各词组出现的次数;
按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。
例如,有一篇文章:
今天XX协会在北京召开了工作会议,天气不错,大概有30摄氏度,没有下雨,交通情况也良好,在工作会议上,张会长对XX协会去年的工作进行了总结,还表彰了XX协会的优秀员工。
经过拆解得到候选句子包括:
A、今天XX协会在北京召开了工作会议;
B、天气不错;
C、大概有30摄氏度;
D、没有下雨;
E、交通情况也良好;
F、在工作会议上;
G、张会长对XX协会去年的工作进行了总结;
H、还表彰了XX协会的优秀员工。
拆解得到的词组包括:
今天:出现1次,权值为1
XX协会:出现3次,权值为3
北京:1次,权值为1
召开:1次,权值为1
工作会议:2次,权值为2
天气:1次,权值为1
30摄氏度:1次,权值为1
下雨:1次,权值为1
交通情况:1次,权值为1
张会长:1次,权值为1
去年的工作:1次,权值为1
总结:1次,权值为1
表彰:1次,权值为1
优秀员工:1次,权值为1
则上面的候选句子的重要性分数分别为:A号8分,B号1分,C号1分, D号1分,E号1分,F号2分,G号6分,H号5分。
假设预设值为2分,则目标句子为A号,F号,G号和H号,最后的关键信息为:今天XX协会在北京召开了工作会议;在工作会议上;张会长对XX 协会去年的工作进行了总结;还表彰了XX协会的优秀员工。
进一步的,所述确定各候选句子的重要性分数,还包括:
若候选句子为网页链接地址,则后台开启该网页链接地址对应的目标网页;
根据该目标网页中,指向该目标网页的链接确定该目标网页的重要性分数,该目标网页的重要性分数就是该候选句子的重要性分数。
进一步的,根据该目标网页中,指向该目标网页的链接确定该目标网页的重要性分数,采用如下公式:
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85, In(Vi)是存在指向目标网页的链接的网页集合,out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。
在本发明一些实施例中,有时候可以将数据库中一部分文本标记为相似文本,以便于后续搜索时,将相似文本作为一个搜索结果(例如仅显示其中一个搜索),此时,需要预先对数据库中的文本进行相似度比较,确定数据库中的相似文本,因此,进一步的,本发明实施例方法还可以包括:
在对第一文本及第二文本进行比较时,获取所述第一文本的第一关键信息及所述第二文本的第二关键信息;
将所述第一关键信息与第二关键信息进行对比得到对比结果。
进一步的,所述将所述第一关键信息与第二关键信息进行对比得到对比结果,包括:
计算所述第一关键信息中第一关键句子与所述第二关键信息中第二关键句子的余弦相似度;
若所述余弦相似度高于预设值,则确定第一文本与第二文本近似。
进一步的,所述计算所述第一关键信息中第一关键句子与所述第二关键信息中第二关键句子的余弦相似度,包括:
将第一关键句子拆分为若干个词组;
将第二关键句子拆分为若干个词组;
将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
计算第一序列和第二序列之间的余弦相似度,并作为第一关键句子和第二关键句子之间的余弦相似度。
一个根据第一关键句子及第二关键句子得到第一序列和第二序列的示例具体如下:
第一关键句子为:今天协会在北京召开会议。
第二关键句子为:协会在北京召开了普法会议。
今天 协会 北京 召开 普法 会议
第一句子 1 1 1 1 0 1
第二句子 0 1 1 1 1 1
则第一序列a为(1,1,1,1,0,1),第二序列b为(0,1,1,1,1, 1)。
进一步的,所述计算第一序列和第二序列之间的余弦相似度,采用如下公式:
其中,a表示第一序列,b表示第二序列,ab表示第一序列的中元素与第二序列中相应的元素相乘后整体相加,分母表示第一序列中所有元素的平方和开根号后乘以第二序列中所有元素的平方和开根号。
例如同样以上述的第一关键句子和第二关键句子为例,上述两个句子的余弦相似度计算的结果为:
最终第一序列和第二序列之间的余弦相似度的计算结果为:0.8。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种信息搜索方法,其特征在于,包括:
对数据库中的文本进行关键信息提取,得到所述数据库中各文本对应的关键信息;
根据所述数据库中各文本对应的关键信息,组成所述数据库关键信息集合;
在用户进行文本搜索时,获取用户搜索的关键词;
根据所述关键词在所述数据库关键信息集合中搜索,以确定命中所述关键词的目标关键信息;
根据所述目标关键信息在所述数据库搜索对应的文本,并显示文本搜索结果。
2.根据权利要求1所述的方法,其特征在于,所述关键词包括第一关键词和第二关键词;所述根据所述关键词在所述数据库关键信息集合中搜索,以确定命中所述关键词的目标关键信息,包括:
根据所述第一关键词在所述数据库关键信息集合中搜索,以确定命中所述第一关键词的第一关键信息;
所述根据所述目标关键信息在所述数据库搜索对应的文本,并显示文本搜索结果,包括:
根据所述第一关键信息在所述数据库搜索对应的文本;
若所述第一关键信息的搜索结果小于预设数量,则直接显示所述第一关键信息的搜索结果;
若所述第一关键信息的搜索结果不小于预设数量,则根据所述第二关键信息在所述第一关键信息的搜索结果查找对应的文本,并显示搜索结果。
3.根据权利要求1所述的方法,其特征在于,所述对数据库中的文本进行关键信息提取,获取数据库中各文本的关键信息,包括:
依次以所述数据库中的文本为目标文本;
对所述目标文本进行拆解得到若干候选句子;
确定各候选句子的重要性分数;
提取重要性分数大于预设值的目标句子作为所述目标文本的关键信息;
在完成所述数据库中所有文本的关键信息提取后,获取所述数据库中各文本的关键信息。
4.根据权利要求3所述的方法,其特征在于,所述确定各候选句子的重要性分数,包括:
确定各候选句子的类型;
若候选句子为中文句子,则按照语义分析的方式再将每个候选句子拆分为若干个词组;
进行全文检索,计算各词组出现的次数;
按照出现次数由高到低的顺序对各词组进行排序,每个词组按照出现次数赋予相应的权值,出现次数越高,权值越高;
根据各词组的权值,计算各候选句子的重要性分数,该重要性分数即为该候选句子中各词组的权值之和。
5.根据权利要求4所述的方法,其特征在于,所述确定各候选句子的重要性分数,还包括:
若候选句子为网页链接地址,则后台开启该网页链接地址对应的目标网页;
根据该目标网页中,指向该目标网页的链接确定该目标网页的重要性分数,该目标网页的重要性分数就是该候选句子的重要性分数。
6.根据权利要求5所述的方法,其特征在于,根据该目标网页中,指向该目标网页的链接确定该目标网页的重要性分数,采用如下公式:
其中,S(Vi)是目标网页的重要性分数,d是阻尼系数,一般设置为0.85,In(Vi)是存在指向目标网页的链接的网页集合,out(Vj)是网页j中的链接存在的链接指向的网页集合,out(Vj)取绝对值是用以表示该网页集合中元素的个数,S(Vj)是网页j的重要性分数。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在对第一文本及第二文本进行比较时,获取所述第一文本的第一关键信息及所述第二文本的第二关键信息;
将所述第一关键信息与第二关键信息进行对比得到对比结果。
8.根据权利要求7所述的方法,其特征在于,所述将所述第一关键信息与第二关键信息进行对比得到对比结果,包括:
计算所述第一关键信息中第一关键句子与所述第二关键信息中第二关键句子的余弦相似度;
若所述余弦相似度高于预设值,则确定第一文本与第二文本近似。
9.根据权利要求8所述的方法,其特征在于,所述计算所述第一关键信息中第一关键句子与所述第二关键信息中第二关键句子的余弦相似度,包括:
将第一关键句子拆分为若干个词组;
将第二关键句子拆分为若干个词组;
将两组词组进行逐一对比,若存在,则记录为1,若不存在,则记录为0,得到第一序列和第二序列;
计算第一序列和第二序列之间的余弦相似度,并作为第一关键句子和第二关键句子之间的余弦相似度。
10.根据权利要求9所述的方法,其特征在于,所述计算第一序列和第二序列之间的余弦相似度,采用如下公式:
其中,a表示第一序列,b表示第二序列,ab表示第一序列的中元素与第二序列中相应的元素相乘后整体相加,分母表示第一序列中所有元素的平方和开根号后乘以第二序列中所有元素的平方和开根号。
CN201810704165.5A 2018-07-01 2018-07-01 一种信息搜索方法 Pending CN108897861A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810704165.5A CN108897861A (zh) 2018-07-01 2018-07-01 一种信息搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810704165.5A CN108897861A (zh) 2018-07-01 2018-07-01 一种信息搜索方法

Publications (1)

Publication Number Publication Date
CN108897861A true CN108897861A (zh) 2018-11-27

Family

ID=64347139

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810704165.5A Pending CN108897861A (zh) 2018-07-01 2018-07-01 一种信息搜索方法

Country Status (1)

Country Link
CN (1) CN108897861A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815312A (zh) * 2018-12-27 2019-05-28 达闼科技(北京)有限公司 一种文档查询的方法、装置、计算设备及计算机存储介质
CN110298028A (zh) * 2019-05-21 2019-10-01 浙江省北大信息技术高等研究院 一种文本段落的关键句提取方法和装置
CN112765460A (zh) * 2021-01-08 2021-05-07 北京字跳网络技术有限公司 会议信息查询方法、装置、存储介质、终端设备和服务器
CN116701813A (zh) * 2023-08-04 2023-09-05 北控水务(中国)投资有限公司 一种数据检索方法、系统、终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399901A (zh) * 2013-07-25 2013-11-20 三星电子(中国)研发中心 一种关键词抽取方法
CN103530415A (zh) * 2013-10-29 2014-01-22 谭永 一种兼容关键词搜索的自然语言搜索方法及系统
CN103823857A (zh) * 2014-02-21 2014-05-28 浙江大学 基于自然语言处理的空间信息检索方法
CN107122478A (zh) * 2017-05-03 2017-09-01 成都云数未来信息科学有限公司 一种基于关键词提取热点话题的方法
CN107644010A (zh) * 2016-07-20 2018-01-30 阿里巴巴集团控股有限公司 一种文本相似度计算方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103399901A (zh) * 2013-07-25 2013-11-20 三星电子(中国)研发中心 一种关键词抽取方法
CN103530415A (zh) * 2013-10-29 2014-01-22 谭永 一种兼容关键词搜索的自然语言搜索方法及系统
CN103823857A (zh) * 2014-02-21 2014-05-28 浙江大学 基于自然语言处理的空间信息检索方法
CN107644010A (zh) * 2016-07-20 2018-01-30 阿里巴巴集团控股有限公司 一种文本相似度计算方法及装置
CN107122478A (zh) * 2017-05-03 2017-09-01 成都云数未来信息科学有限公司 一种基于关键词提取热点话题的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SUNSHINE0625: "Pagerank原理总结", 《"PAGERANK原理总结",SUNSHINE0625,CSDN,HTTPS://BLOG.CSDN.NET/U012680593/ARTICLE/DETAILS/52219391》 *
强迫症专用头像: "TextRank算法", 《"TEXTRANK算法",强迫症专用头像,CSDN,HTTPS://BLOG.CSDN.NET/WZX19840423/ARTICLE/DETAILS/77864602》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815312A (zh) * 2018-12-27 2019-05-28 达闼科技(北京)有限公司 一种文档查询的方法、装置、计算设备及计算机存储介质
CN110298028A (zh) * 2019-05-21 2019-10-01 浙江省北大信息技术高等研究院 一种文本段落的关键句提取方法和装置
CN110298028B (zh) * 2019-05-21 2023-08-18 杭州未名信科科技有限公司 一种文本段落的关键句提取方法和装置
CN112765460A (zh) * 2021-01-08 2021-05-07 北京字跳网络技术有限公司 会议信息查询方法、装置、存储介质、终端设备和服务器
CN116701813A (zh) * 2023-08-04 2023-09-05 北控水务(中国)投资有限公司 一种数据检索方法、系统、终端及存储介质

Similar Documents

Publication Publication Date Title
CN108897861A (zh) 一种信息搜索方法
CN105488024B (zh) 网页主题句的抽取方法及装置
CN104615767B (zh) 搜索排序模型的训练方法、搜索处理方法及装置
CN110427563B (zh) 一种基于知识图谱的专业领域系统冷启动推荐方法
CN102411563B (zh) 一种识别目标词的方法、装置及系统
CN109508414B (zh) 一种同义词挖掘方法及装置
CN103678576B (zh) 基于动态语义分析的全文检索系统
CN108920633B (zh) 一种论文相似度的检测方法
CN107315738B (zh) 一种文本信息的创新度评估方法
CN107045496A (zh) 语音识别后文本的纠错方法及纠错装置
CN109033212B (zh) 一种基于相似度匹配的文本分类方法
CN106815252A (zh) 一种搜索方法和设备
CN106204156A (zh) 一种用于网络论坛的广告投放方法及装置
CN103823859B (zh) 基于决策树规则和多种统计模型相结合的人名识别算法
CN106033445B (zh) 获取文章关联度数据的方法和装置
CN106933800A (zh) 一种金融领域的事件句抽取方法
CN106599054A (zh) 一种题目分类及推送的方法及系统
CN108038099B (zh) 基于词聚类的低频关键词识别方法
US20140330866A1 (en) Systems and methods for parsing search queries
CN110555154B (zh) 一种面向主题的信息检索方法
CN103744956A (zh) 一种关键词的多样化拓展方法
Liu et al. Opinion mining based on feature-level
CN110928986A (zh) 法律证据的排序和推荐方法、装置、设备及存储介质
CN108920576A (zh) 一种自适应文本检索方法
CN109002508B (zh) 一种基于网络爬虫的文本信息爬取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20181127

WD01 Invention patent application deemed withdrawn after publication