CN108897861A

CN108897861A - 一种信息搜索方法

Info

Publication number: CN108897861A
Application number: CN201810704165.5A
Authority: CN
Inventors: 向湘杰
Original assignee: Dongguan Huarui Electronic Technology Co Ltd
Current assignee: Dongguan Huarui Electronic Technology Co Ltd
Priority date: 2018-07-01
Filing date: 2018-07-01
Publication date: 2018-11-27

Abstract

本发明提供一种信息搜索方法，该方法包括：对数据库中的文本进行关键信息提取，得到数据库中各文本对应的关键句子；根据数据库中各文本对应的关键句子，组成数据库关键句子集合；在用户进行文本搜索时，获取用户搜索的关键词；根据关键词在所述数据库关键句子集合中搜索，以确定命中关键词的目标关键句子；根据目标关键句子在数据库搜索对应的文本，并显示文本搜索结果。本发明中由于数据库中文本都有对应的关键句子，在用户进行关键词搜索时，先查找命中关键词的关键句子，再查找关键句子对应的文本，大大降低了文本搜索量，提高了文本搜索效率和准确度。

Description

一种信息搜索方法

技术领域

本发明文本处理技术领域，尤其涉及一种信息搜索方法。

背景技术

随着互联网的普及，互联网上的内容信息急剧增长，因而通过关键词在数据库上搜索要查询的内容的方法也广泛使用开来。

现有技术中的文本方法一般是由人工输入搜索关键词，使用这些关键词在数据库中进行搜索，然后显示命中关键词的文本信息。

由于数据库信息的庞大，现有技术手段对于搜索结果显示无法准确显示搜索结果，同时搜索的数据量非常庞大，耗时较长。

发明内容

本发明提供了一种信息搜索方法，更准确的显示用户文本搜索结果，减少搜索处理时间，提高搜索效率。

本发明提供一种信息搜索方法，该方法包括：

对数据库中的文本进行关键信息提取，得到所述数据库中各文本对应的关键信息；

根据所述数据库中各文本对应的关键信息，组成所述数据库关键信息集合；

在用户进行文本搜索时，获取用户搜索的关键词；

根据所述关键词在所述数据库关键信息集合中搜索，以确定命中所述关键词的目标关键信息；

根据所述目标关键信息在所述数据库搜索对应的文本，并显示文本搜索结果。

进一步的，所述关键词包括第一关键词和第二关键词；所述根据所述关键词在所述数据库关键信息集合中搜索，以确定命中所述关键词的目标关键信息，包括：

根据所述第一关键词在所述数据库关键信息集合中搜索，以确定命中所述第一关键词的第一关键信息；

所述根据所述目标关键信息在所述数据库搜索对应的文本，并显示文本搜索结果，包括：

根据所述第一关键信息在所述数据库搜索对应的文本；

若所述第一关键信息的搜索结果小于预设数量，则直接显示所述第一关键信息的搜索结果；

若所述第一关键信息的搜索结果不小于预设数量，则根据所述第二关键信息在所述第一关键信息的搜索结果查找对应的文本，并显示搜索结果。

进一步的，所述对数据库中的文本进行关键信息提取，获取数据库中各文本的关键信息，包括：

依次以所述数据库中的文本为目标文本；

对所述目标文本进行拆解得到若干候选句子；

确定各候选句子的重要性分数；

提取重要性分数大于预设值的目标句子作为所述目标文本的关键信息；

在完成所述数据库中所有文本的关键信息提取后，获取所述数据库中各文本的关键信息。

进一步的，所述对所述目标文本进行拆解得到若干候选句子，包括：

获取所述目标文本中的第一类型标点符号；

按照所述第一类型标点符号，对所述目标文本进行拆解，得到若干候选句子。

进一步的，所述确定各候选句子的重要性分数，包括：

确定各候选句子的类型；

若候选句子为中文句子，则按照语义分析的方式再将每个候选句子拆分为若干个词组；

进行全文检索，计算各词组出现的次数；

按照出现次数由高到低的顺序对各词组进行排序，每个词组按照出现次数赋予相应的权值，出现次数越高，权值越高；

根据各词组的权值，计算各候选句子的重要性分数，该重要性分数即为该候选句子中各词组的权值之和。

进一步的，所述确定各候选句子的重要性分数，还包括：

若候选句子为网页链接地址，则后台开启该网页链接地址对应的目标网页；

根据该目标网页中，指向该目标网页的链接确定该目标网页的重要性分数，该目标网页的重要性分数就是该候选句子的重要性分数。

进一步的，根据该目标网页中，指向该目标网页的链接确定该目标网页的重要性分数，采用如下公式：

其中，S(V_i)是目标网页的重要性分数，d是阻尼系数，一般设置为0.85， In(V_i)是存在指向目标网页的链接的网页集合，out(V_j)是网页j中的链接存在的链接指向的网页集合，out(V_j)取绝对值是用以表示该网页集合中元素的个数，S(V_j)是网页j的重要性分数。

进一步的，所述方法还包括：

在对第一文本及第二文本进行比较时，获取所述第一文本的第一关键信息及所述第二文本的第二关键信息；

将所述第一关键信息与第二关键信息进行对比得到对比结果。

进一步的，所述将所述第一关键信息与第二关键信息进行对比得到对比结果，包括：

计算所述第一关键信息中第一关键句子与所述第二关键信息中第二关键句子的余弦相似度；

若所述余弦相似度高于预设值，则确定第一文本与第二文本近似。

进一步的，所述计算所述第一关键信息中第一关键句子与所述第二关键信息中第二关键句子的余弦相似度，包括：

将第一关键句子拆分为若干个词组；

将第二关键句子拆分为若干个词组；

将两组词组进行逐一对比，若存在，则记录为1，若不存在，则记录为0，得到第一序列和第二序列；

计算第一序列和第二序列之间的余弦相似度，并作为第一关键句子和第二关键句子之间的余弦相似度。

进一步的，所述计算第一序列和第二序列之间的余弦相似度，采用如下公式：

其中，a表示第一序列，b表示第二序列，ab表示第一序列的中元素与第二序列中相应的元素相乘后整体相加，分母表示第一序列中所有元素的平方和开根号后乘以第二序列中所有元素的平方和开根号。

本发明中通过对数据库中的文本进行关键信息提取，得到数据库中各文本对应的关键信息；根据数据库中各文本对应的关键信息，组成数据库关键信息集合；在用户进行文本搜索时，获取用户搜索的关键词；根据关键词在所述数据库关键信息集合中搜索，以确定命中关键词的目标关键信息；根据目标关键信息在数据库搜索对应的文本，并显示文本搜索结果。本发明中由于数据库中文本都有对应的关键信息，在用户进行关键词搜索时，先查找命中关键词的关键信息，再查找关键信息对应的文本，大大降低了文本搜索量，提高了文本搜索效率和准确度。

附图说明

图1为本发明中信息搜索方法的一个实施例示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等 (如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

如图1所示，本发明实施例中提供一种信息搜索方法，该方法包括：

S101、对数据库中的文本进行关键信息提取，得到所述数据库中各文本对应的关键信息；

本实施例中，数据库可以是预设的数据库，例如某个平台的数据库，某个网站的数据库，某个公司的数据库等。

S102、根据数据库中各文本对应的关键信息，组成数据库关键信息集合；

S103、在用户进行文本搜索时，获取用户搜索的关键词；

S104、根据所述关键词在所述数据库关键信息集合中搜索，以确定命中所述关键词的目标关键信息；

S105、根据所述目标关键信息在所述数据库搜索对应的文本，并显示文本搜索结果。

具体的，由于步骤S101中数据库中各文本都对应有关键信息，根据目标关键信息可以确定具有该目标关键信息的文本，并查找到这些文本，从而进行搜索结果显示。

本发明实施例中通过对数据库中的文本进行关键信息提取，得到数据库中各文本对应的关键信息；根据数据库中各文本对应的关键信息，组成数据库关键信息集合；在用户进行文本搜索时，获取用户搜索的关键词；根据关键词在所述数据库关键信息集合中搜索，以确定命中关键词的目标关键信息；根据目标关键信息在数据库搜索对应的文本，并显示文本搜索结果。本发明中由于数据库中文本都有对应的关键信息，在用户进行关键词搜索时，先查找命中关键词的关键信息，再查找关键信息对应的文本，大大降低了文本搜索量，提高了文本搜索效率和准确度。

此时，所述根据所述目标关键信息在所述数据库搜索对应的文本，并显示文本搜索结果，包括：根据所述第一关键信息在所述数据库搜索对应的文本；若所述第一关键信息的搜索结果小于预设数量，则直接显示所述第一关键信息的搜索结果；若所述第一关键信息的搜索结果不小于预设数量，则根据所述第二关键信息在所述第一关键信息的搜索结果查找对应的文本，并显示搜索结果。其中，预设数量为预先设置的数量单位，例如100，这样可以方便用户在搜索结果不多时，直接显示所有搜索结果，在所述结果很多时，在根据第二关键信息进行二次筛选，显示搜索结果。

依次以所述数据库中的文本为目标文本；

对所述目标文本进行拆解得到若干候选句子；

确定各候选句子的重要性分数；

获取所述目标文本中的第一类型标点符号；

例如，按照与预设类型标点符号进行拆解，预设类型标点符号可以包括分号、逗号、句号，即在分号、逗号、句号处进行拆解，而忽略其他标点符号，例如顿号、冒号、引号不进行拆解。

进一步的，所述确定各候选句子的重要性分数，包括：

确定各候选句子的类型；

进行全文检索，计算各词组出现的次数；

例如，有一篇文章：

今天XX协会在北京召开了工作会议，天气不错，大概有30摄氏度，没有下雨，交通情况也良好，在工作会议上，张会长对XX协会去年的工作进行了总结，还表彰了XX协会的优秀员工。

经过拆解得到候选句子包括：

A、今天XX协会在北京召开了工作会议；

B、天气不错；

C、大概有30摄氏度；

D、没有下雨；

E、交通情况也良好；

F、在工作会议上；

G、张会长对XX协会去年的工作进行了总结；

H、还表彰了XX协会的优秀员工。

拆解得到的词组包括：

今天：出现1次，权值为1

XX协会：出现3次，权值为3

北京：1次，权值为1

召开：1次，权值为1

工作会议：2次，权值为2

天气：1次，权值为1

30摄氏度：1次，权值为1

下雨：1次，权值为1

交通情况：1次，权值为1

张会长：1次，权值为1

去年的工作：1次，权值为1

总结：1次，权值为1

表彰：1次，权值为1

优秀员工：1次，权值为1

则上面的候选句子的重要性分数分别为：A号8分，B号1分，C号1分， D号1分，E号1分，F号2分，G号6分，H号5分。

假设预设值为2分，则目标句子为A号，F号，G号和H号，最后的关键信息为：今天XX协会在北京召开了工作会议；在工作会议上；张会长对XX 协会去年的工作进行了总结；还表彰了XX协会的优秀员工。

进一步的，所述确定各候选句子的重要性分数，还包括：

在本发明一些实施例中，有时候可以将数据库中一部分文本标记为相似文本，以便于后续搜索时，将相似文本作为一个搜索结果(例如仅显示其中一个搜索)，此时，需要预先对数据库中的文本进行相似度比较，确定数据库中的相似文本，因此，进一步的，本发明实施例方法还可以包括：

将第一关键句子拆分为若干个词组；

将第二关键句子拆分为若干个词组；

一个根据第一关键句子及第二关键句子得到第一序列和第二序列的示例具体如下：

第一关键句子为：今天协会在北京召开会议。

第二关键句子为：协会在北京召开了普法会议。

	今天	协会	北京	召开	普法	会议
							第一句子	1	1	1	1	0	1
第二句子	0	1	1	1	1	1

则第一序列a为(1，1，1，1，0，1)，第二序列b为(0，1，1，1，1， 1)。

例如同样以上述的第一关键句子和第二关键句子为例，上述两个句子的余弦相似度计算的结果为：

最终第一序列和第二序列之间的余弦相似度的计算结果为：0.8。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

以上所述，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种信息搜索方法，其特征在于，包括：

在用户进行文本搜索时，获取用户搜索的关键词；

2.根据权利要求1所述的方法，其特征在于，所述关键词包括第一关键词和第二关键词；所述根据所述关键词在所述数据库关键信息集合中搜索，以确定命中所述关键词的目标关键信息，包括：

根据所述第一关键信息在所述数据库搜索对应的文本；

3.根据权利要求1所述的方法，其特征在于，所述对数据库中的文本进行关键信息提取，获取数据库中各文本的关键信息，包括：

依次以所述数据库中的文本为目标文本；

对所述目标文本进行拆解得到若干候选句子；

确定各候选句子的重要性分数；

4.根据权利要求3所述的方法，其特征在于，所述确定各候选句子的重要性分数，包括：

确定各候选句子的类型；

进行全文检索，计算各词组出现的次数；

5.根据权利要求4所述的方法，其特征在于，所述确定各候选句子的重要性分数，还包括：

6.根据权利要求5所述的方法，其特征在于，根据该目标网页中，指向该目标网页的链接确定该目标网页的重要性分数，采用如下公式：

其中，S(V_i)是目标网页的重要性分数，d是阻尼系数，一般设置为0.85，In(V_i)是存在指向目标网页的链接的网页集合，out(V_j)是网页j中的链接存在的链接指向的网页集合，out(V_j)取绝对值是用以表示该网页集合中元素的个数，S(V_j)是网页j的重要性分数。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述将所述第一关键信息与第二关键信息进行对比得到对比结果，包括：

9.根据权利要求8所述的方法，其特征在于，所述计算所述第一关键信息中第一关键句子与所述第二关键信息中第二关键句子的余弦相似度，包括：

将第一关键句子拆分为若干个词组；

将第二关键句子拆分为若干个词组；

10.根据权利要求9所述的方法，其特征在于，所述计算第一序列和第二序列之间的余弦相似度，采用如下公式：