CN103886063B - 一种文本检索方法和装置 - Google Patents

一种文本检索方法和装置 Download PDF

Info

Publication number
CN103886063B
CN103886063B CN201410101286.2A CN201410101286A CN103886063B CN 103886063 B CN103886063 B CN 103886063B CN 201410101286 A CN201410101286 A CN 201410101286A CN 103886063 B CN103886063 B CN 103886063B
Authority
CN
China
Prior art keywords
word
term
text
retrieval
key word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410101286.2A
Other languages
English (en)
Other versions
CN103886063A (zh
Inventor
杨芳
盛兴
李蔚君
彭珍
赵鹏
贾辉辉
张同乔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BAODING DAWEI COMPUTER SOFTWARE DEVELOPMENT Co Ltd
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Jinan Power Supply Co of State Grid Shandong Electric Power Co Ltd
Original Assignee
BAODING DAWEI COMPUTER SOFTWARE DEVELOPMENT Co Ltd
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
Jinan Power Supply Co of State Grid Shandong Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BAODING DAWEI COMPUTER SOFTWARE DEVELOPMENT Co Ltd, State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, Jinan Power Supply Co of State Grid Shandong Electric Power Co Ltd filed Critical BAODING DAWEI COMPUTER SOFTWARE DEVELOPMENT Co Ltd
Priority to CN201410101286.2A priority Critical patent/CN103886063B/zh
Publication of CN103886063A publication Critical patent/CN103886063A/zh
Application granted granted Critical
Publication of CN103886063B publication Critical patent/CN103886063B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Abstract

本发明实施例提供一种文本检索方法和装置,其中一种文本检索方法,包括:获取用户输入的原始文本;从原始文本中获取检索词;依据用户的检索需求,对检索词进行过滤,得到关键词;对关键词进行组合,并依据组合后的关键词对文本数据库中的文本进行检索,得到至少一个检索文本;对检索文本以相关性倒序显示,并在检索文本中突显关键词,相关性用于原始文本和检索文本具有关联关系的程度。由于关键词是依据用户的检索需求对检索词进行过滤,所以关键词为无效词的几率降低,并且相比于直接从原始文本得到的检索词更符合检索需求,进而应用组合后的关键词检索得到的检索文本也比较符合检索需求,提高检索的准确度。

Description

一种文本检索方法和装置
技术领域
本发明涉及文本挖掘技术领域,特别涉及一种文本检索方法和装置。
背景技术
文本检索顾名思义就是从文本抽取出有价值的信息,将有价值的信息在电子设备的显示屏上显示给用户。目前文本检索原理是对文本分词后直接进行匹配搜索,通用的两种文本检索方式是:为用户提供分类浏览的查询方式或基于关键词的全文检索方式。
上述两种检索方式都是通过对用户输入的文本分词后得到关键词匹配,但是这种单纯的文本分词方式得到的关键词包括无效词,其中所述无效词为在多数文本中出现且会导致检索结果增大的词语。例如用户输入的文本为:一种基于图像识别方法的图像匹配装置,在经过分词后得到的关键词包括:一种、基于、图像识别、方法、图像匹配和装置,而一种、基于、方法和装置在很多文本中都会出现,这样在采用or组合关键词进行检索时,会使得检索结果增多,并且有部分检索结果与用户想要的结果不同。
从上述技术方案可以看出,现有文本分词不能充分理解用户的检索需求,因此在对文本分词时提取出的关键词可能是无效词,且不是无效词的关键词也可能不符合用户的检索需求,进而在基于这些关键词的全文模糊检索时会使得检索结果中存在不符合检索需求的文本,且检索准确度降低。
发明内容
本发明所要解决的技术问题是提供一种文本检索方法和装置,用以依据用户的检索需求得到关键词,从而使得检索结果比较符合检索需求。技术方案如下:
本发明实施例提供了一种文本检索方法,包括:
获取用户输入的原始文本;
从所述原始文本中获取检索词,所述检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本;
依据用户的检索需求,对所述检索词进行过滤,得到关键词;
对所述关键词进行组合,并依据组合后的关键词对所述文本数据库中的文本进行检索,得到至少一个检索文本;
对所述检索文本以相关性倒序显示,并在所述检索文本中突显所述关键词,所述相关性用于所述原始文本和所述检索文本具有关联关系的程度。
优选地,从所述原始文本中获取检索词,包括:
使用中文分词方法对所述原始文本进行分词,得到一级检索词;
依据词语特性,采用加权公式Wi=A×Freqi+B×Lengthi+C×Posi+D×Addi计算所述一级检索词的权重,所述词语特性包括词频Freqi、词长Lengthi、词性Posi和位置Addi,Wi为一级检索词i在文本中的权重,A、B、C、D为比例系数,用于表示各个词语特性在加权公式中的比重;
提取所述权重在预设权重范围内的所述一级检索词,所提取出的所述一级检索词为所述检索词。
优选地,从所述原始文本中获取检索词之后,依据用户的检索需求,对所述检索词进行过滤,得到关键词之前,所述方法还包括:
对所述检索词进行词义扩展,得到的扩展词记为检索词,所述词义扩展包括:同义词扩展、等同词扩展、上位词扩展和下位词扩展中的至少一种扩展方式。
优选地,依据用户的检索需求,对所述检索词进行过滤,得到关键词,包括:
将所述检索词在词语展示界面中显示,以由用户在所述词语展示界面中对所述检索词进行操作,操作后的所述检索词以及用户在所述词语展示界面中增加的词语为所述关键词,所述操作包括修改和/或删除;
或者将所述检索词和词库中记录的词语进行匹配,匹配成功的所述检索词为关键词,所述词库中记录的词语为用户手动更新的词语。
优选地,对所述关键词进行组合,包括:
任意选取n个关键词进行逻辑与运算,得到第一组合词语,第一组合词语的个数为其中m为关键词总数,n等于0.7m;
对所述第一组合词语进行逻辑或运算,得到第二组合词语,所述第二组合词语为组合后的所述关键词,用于对文本数据库中的其他文本进行检索。
本发明实施例还提供一种文本检索装置,包括:
第一获取单元,用于获取用户输入的原始文本;
第二获取单元,用于从所述原始文本中获取检索词,所述检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本;
过滤单元,用于依据用户的检索需求,对所述检索词进行过滤,得到关键词;
组合单元,用于对所述关键词进行组合;
检索单元,用于依据组合后的关键词对所述文本数据库中的文本进行检索,得到至少一个检索文本;
显示单元,用于对所述检索文本以相关性倒序显示,并在所述检索文本中突显所述关键词,所述相关性用于所述原始文本和所述检索文本具有关联关系的程度。
优选地,所述第二获取单元包括:
分词子单元,用于使用中文分词装置对所述原始文本进行分词,得到一级检索词;
加权计算子单元,用于依据词语特性,采用加权公式Wi=A×Freqi+B×Lengthi+C×Posi+D×Addi计算所述一级检索词的权重,所述词语特性包括词频Freqi、词长Lengthi、词性Posi和位置Addi,Wi为一级检索词i在文本中的权重,A、B、C、D为比例系数,用于表示各个词语特性在加权公式中的比重;
提取子单元,用于提取所述权重在预设权重范围内的所述一级检索词,所提取出的所述一级检索词为所述检索词。
优选地,所述装置还包括:
扩展单元,用于对所述检索词进行词义扩展,得到的扩展词记为检索词,所述词义扩展包括:同义词扩展、等同词扩展、上位词扩展和下位词扩展中的至少一种扩展方式。
优选地,所述过滤单元依据用户的检索需求,对所述检索词进行过滤,得到关键词,包括:
将所述检索词在词语展示界面中显示,以由用户在所述词语展示界面中对所述检索词进行操作,操作后的所述检索词以及用户在所述词语展示界面中增加的词语为所述关键词,所述操作包括修改和/或删除;
或者将所述检索词和词库中记录的词语进行匹配,匹配成功的所述检索词为关键词,所述词库中记录的词语为用户手动更新的词语。
优选地,所述组合单元对所述关键词进行组合,包括:
任意选取n个关键词进行逻辑与运算,得到第一组合词语,第一组合词语的个数为其中m为关键词总数,n等于0.7m。
对所述第一组合词语进行逻辑或运算,得到第二组合词语,所述第二组合词语为组合后的所述关键词,用于对文本数据库中的其他文本进行检索。
与现有技术相比,本发明包括以下优点:
通过以上技术方案,在从用户输入的原始文本中获取检索词后,依据用户的检索需求对检索词进行过滤,得到关键词;然后对关键词进行组合,依据组合后的关键词对文本数据库中的文本进行检索。由于关键词是依据用户的检索需求对检索词进行过滤,所以关键词为无效词的几率降低,并且相比于直接从原始文本得到的检索词更符合检索需求,进而应用组合后的关键词检索得到的检索文本也比较符合检索需求,提高检索的准确度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的文本检索方法的一种流程图;
图2是本发明实施例提供的电子设备的一种示意图;
图3是图1中获取检索词的流程图;
图4是本发明实施例提供的词语展示界面的示意图;
图5是本发明实施例基于图1提供的文本检索方法的另一种流程图;
图6是本发明实施例提供的文本检索装置的一种结构示意图;
图7是本发明实施例基于图6提供的文本检索装置的另一种结构示意图。
具体实施方式
在现有基于关键词的文本检索时,直接采用对原始文本分词后得到的关键词进行检索,如在对原始文本“一种基于图像识别方法的图像匹配装置”进行分词后,得到的关键词包括:“一种、基于、图像识别、方法、图像匹配和装置”,而“一种、基于、方法和装置”明显为无效词,其对检索起到的作用很小,因此在基于这些关键词检索时,检索到文本中会有多数不符合用户的检索需求,降低检索准确度。
为此,本发明实施例提供的文本检索方法在分词后,会依据用户的检索需求对检索词进行过滤得到关键词,这样在基于组合后的关键词检索文本时,得到的检索文本更能符合用户的检索需求,提高检索准确度。
为了本领域技术人员更好地理解本发明,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种文本检索方法的流程图,可以包括以下步骤:
101:获取用户输入的原始文本。
在本发明实施例中,文本检索的目的是用于从文本数据库中检索出与原始文本相类似的文本,因此,为了检索类似于原始文本的文本需要优先获取原始文本,然后从原始文本中进一步获取检索词。
其中,原始文本可以由用户手动输入,也可以通过其他方式输入,如语音输入。其实现方式可以参阅图2所示,在图2中为实施本发明的电子设备100可以配置一个输入设备200,当用户点击输入设备200上的输入按钮201后,输入设备200发送输入获取指令至电子设备100。电子设备100的显示屏上会显示一输入界面,输入界面上显示“正在语音输入”,同时用户对准输入设备200上的话筒202语音输入原始文本。当用户松开输入按钮201后,输入设备200发送输入结束指令至电子设备100,此时电子设备100开启语音识别功能,在输入栏中显示语音输入的原始文本。
由于电子设备100在进行语音识别时,其识别结果可能不同于用户语音输入的原始文本,用户还需要再次对准话筒202语音输入原始文本,直至在输入栏中显示出原始文本。
102:从原始文本中获取检索词,检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本。
在本发明的一些示例中,获取检索词的方式可以是通过现有中文分词技术,对原始文本进行文本分段、文本断句以及文本分词等操作在原始文本中提取出检索词。
在发明的另一些示例中,获取检索词的方式还可以是:在采用现有中文分词技术得到词语后,对词语进行加权计算,然后选取某些权重的词语为检索词,其过程可以参阅图3所示,其示出了本发明实施例从原始文本中获取检索词的一种可行方式,包括以下步骤:
1021:使用中文分词方法对原始文本进行分词,得到一级检索词。
其中,中文分词方法可以为文本分段、文本断句以及文本分词等方式,通过对原始文本进行文本分段、文本断句以及文本分词等操作得到一级检索词,如对于原始文本“应增加农业补贴,直接补贴占农民收入只有3%左右”,通过文本分段可以得到“应增加农业补贴”和“直接补贴占农民收入只有3%左右”,然后还可以对分段进行文本分词,得到一级检索词“增加、农业、补贴、直接、农民收入、3%”。
1022:依据词语特性,采用加权公式Wi=A×Freqi+B×Lengthi+C×Posi+D×Addi计算一级检索词的权重。
其中,词语特性包括词频Freqi、词长Lengthi、词性Posi和位置Addi这四个特性因子。在计算权重之前首先对这四个词语特性进行量化,这四个词语特性的量化计算分别采用如下方式:
词频Freqi因子的量化计算公式为:其中,Fi表示词语i在一篇文本中的词频,该计算公式也叫非线性函数方法,其可以使词频因子随词频的增加而逐渐上升,当词语的词频逐渐增大时,函数逐渐向1收敛,即词语出现的次数越多,该词作为一级检索词的可能性越大。同时,可能性的增长又不是线性的,当词频特别高时,基本趋于稳定,比线性方法更加符合语言的实际。
词长Lengthi因子的量化计算公式为:其中,Li表示词语i的词长,Max(Li)表示词语i所处文本中所有词语的最大长度,对一篇固定的文本来说Max(Li)的取值固定。
词性Posi因子主要从词i的词性考虑,可得到以下量化计算公式:
位置Addi因子:为了获取每个词的位置信息,需要确定记录位置信息的方式以及各个位置的词在反映主题时的相对重要性,如出现在标题中的词比出现在段首和段尾中的词更能反映文献的主题,而出现在段首中的词比出现在段尾中的词在反映文献主题方面更有价值,正文中的词比重最小。因此可以利用下列量化计算公式:
其中,对词W在不同位置出现的次数赋予不同权值。W1为词在标题中出现的次数;W2为词在段首出现的次数;W3为词在段尾出现的次数;L为文本中词的总数。
在得到每个因子后,依据上述公式Wi=A×Freqi+B×Lengthi+C×Posi+D×Addi可以得到一级检索词的权重,其中Wi为一级检索词i在文本中的权重,A、B、C、D为比例系数,用于表示各个词语特性在加权公式中的比重。在本发明实施例中确定上述四个比例系数可以利用大规模的语料库进行反向推理的方法,并且由于语料库的选择以及此方法本身的研究性,其并不能代表所有领域的一级检索词提取情况,因此在进行反向推理之前可以先采用模糊处理方法进行预处理,并对预处理结果利用大规模的语料库进行反向推理的方法。
经过试验以及对语言学的研究,词频在这四个词语特性中重要程度最高,赋值为1.5,其次是词性赋值为1.1,位置赋值为1.0,最后是词长,由于词长对一级检索词提取的影响受限于中文分词技术分出来词的长度和准确度,故对其赋值为0.8。
1023:提取权重在预设权重范围内的一级检索词,所提取出的一级检索词为检索词。
可以理解的是,权重越大表示该一级检索词在反映主题时的重要程度越高,因此在提取一级检索词时优先提取权重较高的词语,所以预设权重范围可以设为[100,50]。然后将权重位于该范围内的一级检索词提取出来作为检索词。
103:依据用户的检索需求,对检索词进行过滤,得到关键词。
在得到检索词后,电子设备会触发显示词语展示界面,以将检索词显示在该界面中供用户使用。如上述检索词“增加、农业、补贴、直接、农民收入、3%”会显示在图4所示的词语展示界面中。
并且在图4所示界面中向用户提供针对检索词的各种操作,如删除、修改等操作,当然,用户还可以在该界面中增加词语,这样对检索词删除、修改后剩余的检索词以及增加的词语即可以作为关键词。
例如上述检索词“增加、农业、补贴、直接、农民收入、3%”在由用户处理后得到关键词“增加农业补贴和农民收入30%”。
上述自动过滤的方式则可以是:电子设备中存储有一词库,在该词库内记录用户手动更新的词语,这些手动更新的词语是用户基于以往的检索需求构建到词库中。在得到检索词后,电子设备将检索词与词库中记录的词语进行匹配,匹配成功的检索词则直接作为关键词。
由于自动过滤的方式基于用户手动更新的词库,假如该词库中的词语未能及时更新,则会导致可以作为关键词的检索词被过滤,影响检索结果,因此在本发明实施例中优选人工过滤方式。
104:对关键词进行组合,并依据组合后的关键词对文本数据库中的文本进行检索,得到至少一个检索文本。
在本发明实施例中,对关键词进行组合的一种可行方式是:对关键词进行逻辑与运算,其可以是任意选取几个关键词进行逻辑与运算,当然也可以选取全部关键词进行逻辑与运算,这样在全部关键词进行逻辑与运算,可以得到一个组合后的关键词。使用一个组合后的关键词检索会降低检索结果,提高检索效率,但是这种检索方式可能使得部分符合检索需求的文本被滤除。
另一种可行方式是:对关键词进行逻辑或运算,其可以是任意选取几个关键词进行逻辑或运算,当然也可以选取全部关键词进行逻辑或运算,这样相当于采用每个关键词进行单独检索,从而增加了检索结果。
其他可行方式是:任意选取n个关键词进行逻辑与运算,得到第一组合词语,第一组合词语的个数为其中m为关键词总数,n等于0.7m;
在得到第一组合词语后,对第一组合词语进行逻辑或运算,得到第二组合词语,所述第二组合词语为组合后的所述关键词,用于对文本数据库中的其他文本进行检索。
下面以关键词为模块、信息、汽车、预警、装置、实时、采集、图像、警示、通信,对上述三种关键词组合检索的方式进行相应实验,得到的实验结果如表1所示。
表1检索结果表
序号 关键词数(m) 取词数(n) 组合数量 检索数量 检索时间
1 10 1 10 3310214 3s
2 10 2 45 662701 3s
3 10 3 120 164005 5s
4 10 4 210 38814 4s
5 10 5 252 8366 7s
6 10 6 210 1343 5s
7 10 7 120 197 4s
8 10 8 45 14 2s
9 10 9 10 2 1s
10 10 10 1 2 1s
上述表1中,第一行为单独逻辑或运算,最后一行为单独逻辑与运算,从该表1中可以看出,如果通过关键词之间采用逻辑或运算直接进行检索,可能造成检索结果的不准确,如果采用逻辑与运算进行检索,则可能造成检索结果的不全面,为了避免这两类极端的情况发生,本发明实施例采用关键词逻辑与加逻辑或的组合方式进行检索。
在实际应用过程中,可以根据实际情况进行n值的设定,为了确保检索效率及检索效果,一般采用n=0.7m的关系进行设定,同时m的最大数量设置在20以内。
105:对检索文本以相关性倒序显示,并在检索文本中突显关键词,相关性用于原始文本和检索文本具有关联关系的程度。相关性的计算可以采用现有相关算法,对此本发明实施例不在阐述。相应的,关键词可以采用高亮显示。
应用上述技术方案,在从用户输入的原始文本中获取检索词后,依据用户的检索需求对检索词进行过滤,得到关键词;然后对关键词进行组合,依据组合后的关键词对文本数据库中的文本进行检索。由于关键词是依据用户的检索需求对检索词进行过滤,所以关键词为无效词的几率降低,并且相比于直接从原始文本得到的检索词更符合检索需求,进而应用组合后的关键词检索得到的检索文本也比较符合检索需求,提高检索的准确度。
此外,在实际检索过程中,某一个检索词可能在其他文本中采用与其具有相同含义的其他词语,而这些包括有相同含义的其他词语的文本也需要检索,因此为了使得检索词更加全面,本发明实施例提供的文本检索方法还可以对检索词进行扩展。
请参阅图5,其示出了本发明实施例提供的文本检索方法的另一种流程图,在图1基础上,还可以包括:
步骤106:对检索词进行词义扩展,得到的扩展词记为检索词。其中词义扩展包括:同义词扩展、等同词扩展、上位词扩展和下位词扩展中的至少一种扩展方式。
以短消息为检索词为例,对短消息进行扩展可以得到:短信和彩信两个检索词,则使得检索词更加全面,覆盖文本更多。
与上述方法实施例相对应,本发明实施例还提供一种文本检索装置,其结构示意图可以参阅图6所示,可以包括:第一获取单元61、第二获取单元62、过滤单元63、组合单元64、检索单元65和显示单元66,其中,
第一获取单元61,用于获取用户输入的原始文本。
在本发明实施例中,文本检索的目的是用于从文本数据库中检索出与原始文本相类似的文本,因此,为了检索类似于原始文本的文本需要优先获取原始文本,然后从原始文本中进一步获取检索词。
其中,原始文本可以由用户手动输入,也可以通过其他方式输入,如语音输入。其实现方式可以参阅图2所示,在图2中为实施本发明的电子设备100可以配置一个输入设备200,当用户点击输入设备200上的输入按钮201后,输入设备200发送输入获取指令至电子设备100。电子设备100的显示屏上会显示一输入界面,输入界面上显示“正在语音输入”,同时用户对准输入设备200上的话筒202语音输入原始文本。当用户松开输入按钮201后,输入设备200发送输入结束指令至电子设备100,此时电子设备100开启语音识别功能,在输入栏中显示语音输入的原始文本。
由于电子设备100在进行语音识别时,其识别结果可能不同于用户语音输入的原始文本,用户还需要再次对准话筒202语音输入原始文本,直至在输入栏中显示出原始文本。
第二获取单元62,用于从原始文本中获取检索词,检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本。
在本发明的一些示例中,获取检索词的方式可以是通过现有中文分词技术,对原始文本进行文本分段、文本断句以及文本分词等操作在原始文本中提取出检索词。
在发明的另一些示例中,第二获取单元62获取检索词的方式还可以是:在采用现有中文分词技术得到词语后,对词语进行加权计算,然后选取某些权重的词语为检索词。基于此,该第二获取单元62可以包括:分词子单元621、加权计算子单元622和提取子单元623。其中,
分词子单元621,用于使用中文分词装置对原始文本进行分词,得到一级检索词。可以理解的是,中文分词方法可以为文本分段、文本断句以及文本分词等方式,通过对原始文本进行文本分段、文本断句以及文本分词等操作得到一级检索词,如对于原始文本“应增加农业补贴,直接补贴占农民收入只有3%左右”,通过文本分段可以得到“应增加农业补贴”和“直接补贴占农民收入只有3%左右”,然后还可以对分段进行文本分词,得到一级检索词“增加、农业、补贴、直接、农民收入、3%”。
加权计算子单元622,用于依据词语特性,采用加权公式Wi=A×Freqi+B×Lengthi+C×Posi+D×Addi计算一级检索词的权重,词语特性包括词频Freqi、词长Lengthi、词性Posi和位置Addi,Wi为一级检索词i在文本中的权重,A、B、C、D为比例系数,用于表示各个词语特性在加权公式中的比重。词频Freqi、词长Lengthi、词性Posi和位置Addi这四个特性因子的量化计算公式请参阅方法实施例部分,对此不再详述。
提取子单元623,用于提取权重在预设权重范围内的一级检索词,所提取出的一级检索词为检索词。可以理解的是,权重越大表示该一级检索词在反映主题时的重要程度越高,因此在提取一级检索词时优先提取权重较高的词语,所以预设权重范围可以设为[100,50]。然后将权重位于该范围内的一级检索词提取出来作为检索词。
过滤单元63,用于依据用户的检索需求,对检索词进行过滤,得到关键词。
在对检索词进行过滤时,可以采用但不限于人工过滤或者自动过滤两种方式,其中人工过滤方式为:将检索词在词语展示界面中显示,以由用户在词语展示界面中对检索词进行操作,操作后的检索词以及用户在词语展示界面中增加的词语为关键词,操作包括修改和/或删除。
自动过滤方式可以为:将检索词和词库中记录的词语进行匹配,匹配成功的检索词为关键词,词库中记录的词语为用户手动更新的词语。由于自动过滤的方式基于用户手动更新的词库,假如该词库中的词语未能及时更新,则会导致可以作为关键词的检索词被过滤,影响检索结果,因此在本发明实施例中优选人工过滤方式。
组合单元64,用于对关键词进行组合。
在本发明实施例中,对关键词进行组合的一种可行方式是:对关键词进行逻辑与运算,其可以是任意选取几个关键词进行逻辑与运算,当然也可以选取全部关键词进行逻辑与运算,这样在全部关键词进行逻辑与运算,可以得到一个组合后的关键词。使用一个组合后的关键词检索会降低检索结果,提高检索效率,但是这种检索方式可能使得部分符合检索需求的文本被滤除。
另一种可行方式是:对关键词进行逻辑或运算,其可以是任意选取几个关键词进行逻辑或运算,当然也可以选取全部关键词进行逻辑或运算,这样相当于采用每个关键词进行单独检索,从而增加了检索结果。
其他可行方式是:任意选取n个关键词进行逻辑与运算,得到第一组合词语,第一组合词语的个数为其中m为关键词总数,n等于0.7m;
在得到第一组合词语后,对第一组合词语进行逻辑或运算,得到第二组合词语,所述第二组合词语为组合后的所述关键词,用于对文本数据库中的其他文本进行检索。
经过实验得知,如果通过关键词之间采用逻辑或运算直接进行检索,可能造成检索结果的不准确,如果采用逻辑与运算进行检索,则可能造成检索结果的不全面,为了避免这两类极端的情况发生,本发明实施例采用关键词逻辑与加逻辑或的组合方式进行检索。
并且为了确保检索效率及检索效果,一般采用n=0.7m的关系进行设定,同时m的最大数量设置在20以内。
检索单元65,用于依据组合后的关键词对文本数据库中的文本进行检索,得到至少一个检索文本。
显示单元66,用于对检索文本以相关性倒序显示,并在检索文本中突显关键词,相关性用于原始文本和检索文本具有关联关系的程度。
此外,在实际检索过程中,某一个检索词可能在其他文本中采用与其具有相同含义的其他词语,而这些包括有相同含义的其他词语的文本也需要检索,因此为了使得检索词更加全面,本发明实施例提供的文本检索装置还可以包括:扩展单元67,如图7所示,其中扩展单元67用于对检索词进行词义扩展,得到的扩展词记为检索词,词义扩展包括:同义词扩展、等同词扩展、上位词扩展和下位词扩展中的至少一种扩展方式。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于方法类实施例而言,由于其与装置实施例基本相似,所以描述的比较简单,相关之处参见装置实施例的部分说明即可。
最后,还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本发明所提供的一种文本检索方法和装置进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种文本检索方法,其特征在于,包括:
获取用户输入的原始文本;
从所述原始文本中获取检索词,所述检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本;
依据用户的检索需求,对所述检索词进行过滤,得到关键词;
对所述关键词进行组合,并依据组合后的关键词对所述文本数据库中的文本进行检索,得到至少一个检索文本;
对所述检索文本以相关性倒序显示,并在所述检索文本中突显所述关键词,所述相关性用于所述原始文本和所述检索文本具有关联关系的程度;
其中,从所述原始文本中获取检索词,包括:
使用中文分词方法对所述原始文本进行分词,得到一级检索词;
依据词语特性,采用加权公式Wi=A×Freqi+B×Lengthi+C×Posi+D×Addi计算所述一级检索词的权重,所述词语特性包括词频Freqi、词长Lengthi、词性Posi和位置Addi,Wi为一级检索词i在文本中的权重,A、B、C、D为比例系数,用于表示各个词语特性在加权公式中的比重;
提取所述权重在预设权重范围内的所述一级检索词,所提取出的所述一级检索词为所述检索词。
2.根据权利要求1所述的方法,其特征在于,从所述原始文本中获取检索词之后,依据用户的检索需求,对所述检索词进行过滤,得到关键词之前,所述方法还包括:
对所述检索词进行词义扩展,得到的扩展词记为检索词,所述词义扩展包括:同义词扩展、等同词扩展、上位词扩展和下位词扩展中的至少一种扩展方式。
3.根据权利要求1所述的方法,其特征在于,依据用户的检索需求,对所述检索词进行过滤,得到关键词,包括:
将所述检索词在词语展示界面中显示,以由用户在所述词语展示界面中对所述检索词进行操作,操作后的所述检索词以及用户在所述词语展示界面中增加的词语为所述关键词,所述操作包括修改和/或删除;
或者将所述检索词和词库中记录的词语进行匹配,匹配成功的所述检索词为关键词,所述词库中记录的词语为用户手动更新的词语。
4.根据权利要求1所述的方法,其特征在于,对所述关键词进行组合,包括:
任意选取n个关键词进行逻辑与运算,得到第一组合词语,第一组合词语的个数为其中m为关键词总数,n等于0.7m;
对所述第一组合词语进行逻辑或运算,得到第二组合词语,所述第二组合词语为组合后的所述关键词,用于对文本数据库中的其他文本进行检索。
5.一种文本检索装置,其特征在于,包括:
第一获取单元,用于获取用户输入的原始文本;
第二获取单元,用于从所述原始文本中获取检索词,所述检索词用于检索文本数据库中的其他文本,以从文本数据库中获取符合用户的检索需求的文本;
过滤单元,用于依据用户的检索需求,对所述检索词进行过滤,得到关键词;
组合单元,用于对所述关键词进行组合;
检索单元,用于依据组合后的关键词对所述文本数据库中的文本进行检索,得到至少一个检索文本;
显示单元,用于对所述检索文本以相关性倒序显示,并在所述检索文本中突显所述关键词,所述相关性用于所述原始文本和所述检索文本具有关联关系的程度;
其中,所述第二获取单元包括:
分词子单元,用于使用中文分词装置对所述原始文本进行分词,得到一级检索词;
加权计算子单元,用于依据词语特性,采用加权公式Wi=A×Freqi+B×Lengthi+C×Posi+D×Addi计算所述一级检索词的权重,所述词语特性包括词频Freqi、词长Lengthi、词性Posi和位置Addi,Wi为一级检索词i在文本中的权重,A、B、C、D为比例系数,用于表示各个词语特性在加权公式中的比重;
提取子单元,用于提取所述权重在预设权重范围内的所述一级检索词,所提取出的所述一级检索词为所述检索词。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
扩展单元,用于对所述检索词进行词义扩展,得到的扩展词记为检索词,所述词义扩展包括:同义词扩展、等同词扩展、上位词扩展和下位词扩展中的至少一种扩展方式。
7.根据权利要求5所述的装置,其特征在于,所述过滤单元依据用户的检索需求,对所述检索词进行过滤,得到关键词,包括:
将所述检索词在词语展示界面中显示,以由用户在所述词语展示界面中对所述检索词进行操作,操作后的所述检索词以及用户在所述词语展示界面中增加的词语为所述关键词,所述操作包括修改和/或删除;
或者将所述检索词和词库中记录的词语进行匹配,匹配成功的所述检索词为关键词,所述词库中记录的词语为用户手动更新的词语。
8.根据权利要求5所述的装置,其特征在于,所述组合单元对所述关键词进行组合,包括:
任意选取n个关键词进行逻辑与运算,得到第一组合词语,第一组合词语的个数为其中m为关键词总数,n等于0.7m;
对所述第一组合词语进行逻辑或运算,得到第二组合词语,所述第二组合词语为组合后的所述关键词,用于对文本数据库中的其他文本进行检索。
CN201410101286.2A 2014-03-18 2014-03-18 一种文本检索方法和装置 Active CN103886063B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410101286.2A CN103886063B (zh) 2014-03-18 2014-03-18 一种文本检索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410101286.2A CN103886063B (zh) 2014-03-18 2014-03-18 一种文本检索方法和装置

Publications (2)

Publication Number Publication Date
CN103886063A CN103886063A (zh) 2014-06-25
CN103886063B true CN103886063B (zh) 2017-03-08

Family

ID=50954955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410101286.2A Active CN103886063B (zh) 2014-03-18 2014-03-18 一种文本检索方法和装置

Country Status (1)

Country Link
CN (1) CN103886063B (zh)

Families Citing this family (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701115A (zh) * 2014-11-27 2016-06-22 英业达科技有限公司 解决方案搜寻系统的操作方法及解决方案搜寻系统
CN104462439B (zh) * 2014-12-15 2017-12-19 北京国双科技有限公司 事件的识别方法和装置
CN104615650B (zh) * 2014-12-29 2018-01-02 厦门欣旅通科技有限公司 一种内容获取方法及装置
CN106156111B (zh) * 2015-04-03 2021-10-19 北京中知智慧科技有限公司 专利文件检索方法、装置和系统
CN106156154A (zh) * 2015-04-14 2016-11-23 阿里巴巴集团控股有限公司 相似文本的检索方法及其装置
CN105260359B (zh) * 2015-10-16 2018-10-02 晶赞广告(上海)有限公司 语义关键词提取方法及装置
CN105302779A (zh) * 2015-10-23 2016-02-03 北京慧点科技有限公司 一种文本相似度比对方法及装置
CN106649303A (zh) * 2015-10-28 2017-05-10 英业达科技有限公司 解决方案搜寻系统的操作方法及解决方案搜寻系统
CN106815262B (zh) * 2015-12-01 2020-07-03 北京国双科技有限公司 裁判文书的搜索方法及装置
CN106897290B (zh) * 2015-12-17 2020-04-24 中国移动通信集团上海有限公司 一种建立关键词模型的方法及装置
CN106970922A (zh) * 2016-01-14 2017-07-21 北大方正集团有限公司 基于多字段关键词的索引建立方法、检索方法及索引系统
CN105808737B (zh) * 2016-03-10 2021-04-06 腾讯科技(深圳)有限公司 一种信息检索方法及服务器
CN106682174B (zh) * 2016-12-28 2020-04-17 南华大学 一种基于大数据应用的短文本信息检索系统
CN106844337A (zh) * 2016-12-30 2017-06-13 全民互联科技(天津)有限公司 一种合同缺失条款自动扫描方法及系统
CN108427686A (zh) * 2017-02-15 2018-08-21 北京国双科技有限公司 文本数据查询方法及装置
CN107122352B (zh) * 2017-05-18 2020-04-07 成都四方伟业软件股份有限公司 一种基于k-means、word2vec的抽取关键词的方法
CN107193962B (zh) * 2017-05-24 2021-06-11 百度在线网络技术(北京)有限公司 一种互联网推广信息的智能配图方法及装置
CN108959314A (zh) * 2017-05-24 2018-12-07 西安科技大市场创新云服务股份有限公司 一种语义检索方法和装置
CN107832330B (zh) * 2017-09-27 2021-06-15 华为技术有限公司 一种搜索方法及终端设备
CN110019668A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN110019669B (zh) * 2017-10-31 2021-06-29 北京国双科技有限公司 一种文本检索方法及装置
CN110019670A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种文本检索方法及装置
CN107798144A (zh) * 2017-11-28 2018-03-13 北京小度互娱科技有限公司 一种基于切词的多层次检索方法
CN108334590B (zh) * 2018-01-30 2021-06-29 苏州龙御上宾信息科技有限公司 一种信息检索系统
CN110309416B (zh) * 2018-02-05 2021-11-30 索意互动(北京)信息技术有限公司 一种客户端、服务器、检索方法及其系统
CN109033132B (zh) * 2018-06-05 2020-12-11 中证征信(深圳)有限公司 利用知识图谱计算文本和主体相关度的方法以及装置
CN109635275A (zh) * 2018-11-06 2019-04-16 交控科技股份有限公司 文献内容检索与识别方法及装置
CN109815499B (zh) * 2019-01-25 2023-05-23 杭州凡闻科技有限公司 信息关联方法和系统
JP6651189B1 (ja) * 2019-03-29 2020-02-19 株式会社 情報システムエンジニアリング 機械学習用のデータ構造、学習方法及び情報提供システム
CN110175268B (zh) * 2019-04-19 2020-01-17 杭州电子科技大学 一种最长匹配资源映射方法
CN110110045B (zh) * 2019-04-26 2021-08-31 腾讯科技(深圳)有限公司 一种检索相似文本的方法、装置以及存储介质
CN110263127A (zh) * 2019-06-21 2019-09-20 北京创鑫旅程网络技术有限公司 基于用户查询词进行文本搜索方法及装置
CN111078998B (zh) * 2019-11-19 2024-03-12 Oppo(重庆)智能科技有限公司 信息检索方法、装置、存储介质及服务器
CN111190993A (zh) * 2019-12-26 2020-05-22 航天信息股份有限公司企业服务分公司 一种基于关键字有序集合的分级排序方法
CN111190948A (zh) * 2019-12-26 2020-05-22 航天信息股份有限公司企业服务分公司 一种基于关键字排序的检索编码方法
CN111161738A (zh) * 2019-12-27 2020-05-15 苏州欧孚网络科技股份有限公司 一种语音文件检索系统及其检索方法
CN113360613A (zh) * 2021-05-31 2021-09-07 维沃移动通信有限公司 文本处理方法、装置和电子设备
CN117033563B (zh) * 2023-10-10 2024-04-26 北京轻松怡康信息技术有限公司 一种文本检索方法、装置、电子设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100816912B1 (ko) * 2006-04-13 2008-03-26 엘지전자 주식회사 문서검색 시스템 및 그 방법
CN101315624B (zh) * 2007-05-29 2015-11-25 阿里巴巴集团控股有限公司 一种文本主题推荐的方法和装置
CN101334796B (zh) * 2008-02-29 2011-01-12 浙江师范大学 一种个性化及协同化融合的网上多媒体检索与查询方法

Also Published As

Publication number Publication date
CN103886063A (zh) 2014-06-25

Similar Documents

Publication Publication Date Title
CN103886063B (zh) 一种文本检索方法和装置
CN100458795C (zh) 一种智能组词输入的方法和一种输入法系统及其更新方法
CN103365925B (zh) 获取多音字拼音、基于拼音检索的方法及其相应装置
US8280902B2 (en) High precision search system and method
CN103810212B (zh) 一种数据库索引的自动创建方法及系统
CN103631794B (zh) 一种用于对搜索结果进行排序的方法、装置与设备
CN106951438A (zh) 一种面向开放域的事件抽取系统及方法
US8126897B2 (en) Unified inverted index for video passage retrieval
CN103186633B (zh) 一种结构化信息抽取方法、搜索方法和装置
EP1927927A2 (en) Speech recognition training method for audio and video file indexing on a search engine
CN106446018B (zh) 基于人工智能的查询信息处理方法和装置
CN107145496A (zh) 基于关键词将图像与内容项目匹配的方法
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
CN103324626B (zh) 一种建立多粒度词典的方法、分词的方法及其装置
CN103605665A (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN104679783B (zh) 一种网络搜索方法和装置
CN105493075A (zh) 基于所标识的实体的属性值检索
US10078672B2 (en) Search device, search method, and computer program product
WO2007059287A1 (en) Extending keyword searching to syntactically and semantically annotated data
JP2006048684A (ja) 情報検索システムにおけるフレーズに基づく検索方法
CN106682012A (zh) 商品对象信息搜索方法及装置
CN105956206A (zh) 一种基于关键词树的视频检索方法及系统
CN106446162A (zh) 一种面向领域的本体知识库文本检索方法
CN104008180A (zh) 结构化数据与图片的关联方法与关联装置
CN102999489A (zh) 一种社区网站页面的图片检索方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
ASS Succession or assignment of patent right

Owner name: STATE GRID INFORMATION + TELECOMMUNICATION BRANCH

Free format text: FORMER OWNER: STATE GRID INFORMATION + TELECOMMUNICATION BRANCH BAODING DAWEI COMPUTER SOFTWARE DEVELOPMENT CO., LTD.

Effective date: 20140922

C41 Transfer of patent application or patent right or utility model
C53 Correction of patent for invention or patent application
CB03 Change of inventor or designer information

Inventor after: Yang Fang

Inventor after: Sheng Xing

Inventor after: Li Weijun

Inventor after: Peng Zhen

Inventor after: Zhao Peng

Inventor after: Jia Huihui

Inventor after: Zhang Tongqiao

Inventor before: Yang Fang

Inventor before: Sheng Xing

Inventor before: Li Weijun

Inventor before: Peng Zhen

Inventor before: Zhao Peng

Inventor before: Jia Huihui

COR Change of bibliographic data

Free format text: CORRECT: INVENTOR; FROM: YANG FANG SHENG XING LI WEIJUN PENG ZHEN ZHAO PENG JIA HUIHUI TO: YANG FANG SHENG XING LI WEIJUN PENG ZHEN ZHAO PENG JIA HUIHUI ZHANG TONGQIAO

TA01 Transfer of patent application right

Effective date of registration: 20140922

Address after: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant after: State Grid Corporation of China

Applicant after: STATE GRID INFORMATION & TELECOMMUNICATION BRANCH

Applicant after: Baoding Dawei Computer Software Development Co., Ltd.

Applicant after: Jinan Power Supply Company, State Grid Shandong Electric Power Company

Address before: 100031 Xicheng District West Chang'an Avenue, No. 86, Beijing

Applicant before: State Grid Corporation of China

Applicant before: STATE GRID INFORMATION & TELECOMMUNICATION BRANCH

Applicant before: Baoding Dawei Computer Software Development Co., Ltd.

C14 Grant of patent or utility model
GR01 Patent grant