CN112084290B - 一种数据检索方法、装置、设备及存储介质 - Google Patents
一种数据检索方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN112084290B CN112084290B CN201910512482.1A CN201910512482A CN112084290B CN 112084290 B CN112084290 B CN 112084290B CN 201910512482 A CN201910512482 A CN 201910512482A CN 112084290 B CN112084290 B CN 112084290B
- Authority
- CN
- China
- Prior art keywords
- word
- vocabulary
- weight
- system data
- professional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000011218 segmentation Effects 0.000 claims abstract description 157
- 238000004590 computer program Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000009193 crawling Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种数据检索方法、装置、设备及存储介质。该方法包括:获取系统数据,并确定所述系统数据所包含的各特征词;根据各所述特征词在所述系统数据中的相邻词汇,扩展各所述特征词得到各候选专业词;根据各所述候选专业词对所述系统数据进行分词,并根据各分词结果对应的词汇权重生成词汇索引表,以在接收到输入的检索关键词时基于所述词汇索引表获得并返回检索结果。本发明实施例提高了对系统数据中专业词汇进行分词的准确性,进而增强了词汇索引表对专业词汇的针对性,从而在使用搜索引擎基于词汇索引表进行数据检索时,提高了搜索引擎对专业词汇的查准率。
Description
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种数据检索方法、装置、设备及存储介质。
背景技术
随着信息技术的发展,互联网的信息越来越丰富,已经渗透到人们生活的各个方面。用户通常通过搜索引擎进行关键词搜索的方式,从海量数据中查找自己需要的信息。
在使用搜索引擎进行搜索时,通常采用通用性较好的开源词库进行分词后得到的索引表进行数据检索。在实现本发明过程中,发明人发现现有技术中至少存在如下问题:开源词库在进行普通词汇的检索时,分词准确性更高,进而使搜索结果更准确。而在企业级搜索引擎中存在着大量的专业词汇,而通过开源词汇对专业词汇的分词结果的准确性较差,使得基于分词结果生成的索引表对专业词汇针对性较差,导致企业搜索引擎对专业词汇的查准率较低。
发明内容
本发明提供一种数据检索方法、装置、设备及存储介质,以提高对专业词汇的分词准确性,增强索引表对专业数据的针对性,提高搜索引擎对专业词汇的查准率。
第一方面,本发明实施例提供了一种数据检索方法,包括:
获取系统数据,并确定所述系统数据所包含的各特征词;
根据各所述特征词在所述系统数据中的相邻词汇,扩展各所述特征词得到各候选专业词;
根据各所述候选专业词对所述系统数据进行分词,并根据各分词结果对应的词汇权重生成词汇索引表,以在接收到输入的检索关键词时基于所述词汇索引表获得并返回检索结果。
第二方面,本发明实施例还提供了一种数据检索装置,包括:
系统数据获取模块,用于获取系统数据,并确定所述系统数据所包含的各特征词;
候选专业词扩展模块,用于根据各所述特征词在所述系统数据中的相邻词汇,扩展各所述特征词得到各候选专业词;
索引表生成模块,用于根据各所述候选专业词对所述系统数据进行分词,并根据各分词结果对应的词汇权重生成词汇索引表,以在接收到输入的检索关键词时基于所述词汇索引表获得并返回检索结果。
第三方面,本发明实施例还提供了一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面实施例所提供的一种数据检索方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面实施例所提供的一种数据检索方法。
本发明实施例通过获取系统数据,并确定系统数据所包含的各特征词;根据各特征词在系统数据中的相邻词汇,扩展各特征词得到各候选专业词;根据各候选专业词对系统数据进行分词,并根据各分词结果对应的词汇权重生成词汇索引表,以在接收到输入的检索关键词时基于所述词汇索引表获得并返回检索结果。上述技术方案通过扩展特征词得到的候选专业词对系统数据进行分词,使得在生成词汇索引表的过程引入包含专业词汇的候选专业词,提高了对系统数据中专业词汇进行分词的准确性,进而增强了词汇索引表对专业词汇的针对性,从而在使用搜索引擎基于词汇索引表进行数据检索时,提高了搜索引擎对专业词汇的查准率。
附图说明
图1是本发明实施例一中的一种数据检索方法的流程图;
图2是本发明实施例二中的一种数据检索方法的流程图;
图3是本发明实施例三中的一种数据检索方法的流程图;
图4是本发明实施例四中的一种数据检索方法的流程图;
图5是本发明实施例五中的一种数据检索装置的结构图;
图6是本发明实施例六中的一种电子设备的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一中的一种数据检索方法的流程图。本发明实施例适用于使用搜索引擎对专业词汇进行关键词检索之前,生成搜索过程所采用的词汇索引表的情况,该方法由数据检索装置执行,该装置由软件和/或硬件实现,并具体配置于具备一定的数据运算能力的电子设备,例如服务器。
如图1所示的一种数据检索方法,包括:
S110、获取系统数据,并确定所述系统数据所包含的各特征词。
其中,系统数据可以理解为从企业内部系统所获取的与企业相关联的数据。示例性地,企业内部系统可以是企业的数据库系统、邮箱系统以及即时沟通系统以及官方网站等。其中,系统数据包括至少一个文档,一个文档包括至少一个语句,语句包括至少一个词汇。其中,特征词可以理解为文档中具备一定实际意义的词汇,例如名词、动词、形容词以及副词等。
可选的,获取系统数据,可以是实时或定时从企业内部系统对应的存储设备或云端中获取数据,或者实时或定时接收企业内部系统所发送的系统数据。示例性地,获取系统数据可以是通过使用爬虫在企业内部系统中进行相关数据的爬取。
示例性地,确定系统数据所包含的各特征词,可以是人工功标注所获取的系统数据所包含的各特征词;还可以是将系统数据的各词汇与预先设定的高频词表中所包含的各高频词进行比对,并将比对结果一致的词汇作为特征词;还可以是将系统数据的各词汇与预先设定的低频词表中所包含的各低频词进行比对,并将系统数据所包含的词汇中的低频词剔除,得到特征词。其中,低频词表中包含的各低频次可以理解为无实际意义的词汇,例如虚词等。
为了提高确定的特征词的准确性,典型的,确定系统数据所包含的各特征词,可以是根据开源词库对系统数据进行分词,并根据分词结果对应的词汇权重,确定至少一个分词结果为特征词。
其中,词汇权重可以是分词结果在所有分词结果中出现的概率值,或者还可以是是各分词结果的信息熵值或词频逆文本频率指数值等。
根据分词结果对应的词汇权重,确定至少一个分词结果为特征词,可以是将各分词结果按照词汇权重进行排序,选取词汇权重大于设定特征词权重阈值的分词结果作为特征词。其中,设定特征词权重阈值可以由技术人员根据需要或经验值进行设定。
S120、根据各所述特征词在所述系统数据中的相邻词汇,扩展各所述特征词得到各候选专业词。
示例性地,针对每个特征词,查找所述系统数据中包含所述特征词的语句;在查找到的每个语句中,向所述特征词上文扩展第一设定数量词汇,和/或向所述特征词下文扩展第二设定数量词汇,得到与所述特征词对应的候选专业词。其中第一设定数量和/或第二设定数量可以由技术人员根据需要或经验值进行设定,还可以通过大量试验加以确定。
可以理解的是,由于候选专业词根据具有实际意义的特征词扩展得到,所以候选专业词中至少包括部分专业词汇。例如,特征词为“库存”,经上文扩展和/或下文扩展后,可能得到的候选专业词为“X库存X”、“库存X”以及“X库存”。其中“X”表示词汇或字符,“X”的数量由第一设定数量和/或第二设定数量确定。由于系统数据均从企业内部系统中获取得到,那么使用频率较高的专业词汇“现货库存金额”将会包括到候选专业词中。
S130、根据各所述候选专业词对所述系统数据进行分词,并根据各分词结果对应的词汇权重生成词汇索引表,以在接收到输入的检索关键词时基于所述词汇索引表获得并返回检索结果。
其中,词汇索引表包括索引词汇、包含各索引词汇的各文档标识,以及各索引词汇在所在文档中的位置信息,用于表征索引词汇在系统数据中的具体位置。示例性地,词汇索引表可以是倒排索引表。
根据各候选专业词对系统数据进行分词,得到相应的分词结果;根据各分词结果对应的词汇权重,确定词汇权重大于设定索引阈值的词汇结果为索引词;根据包含各索引词的文档以及各索引词位于各文档中的位置,生成词汇索引表。相应的,当使用词汇索引表进行关键词检索时,在检索服务器接收到用户输入的检索关键词时,基于词汇索引表获得并返回检索结果。其中,分词结果的词汇权重越高,表明包含该分词结果的文档与用户的检索期望的契合度越高。其中,检索服务器与生成索引表的电子设备可以是同一或不同的设备。
本发明实施例通过获取系统数据,并确定系统数据所包含的各特征词;根据各特征词在系统数据中的相邻词汇,扩展各特征词得到各候选专业词;根据各候选专业词对系统数据进行分词,并根据各分词结果对应的词汇权重生成词汇索引表,以在接收到输入的检索关键词时基于所述词汇索引表获得并返回检索结果。上述技术方案通过扩展特征词得到的候选专业词对系统数据进行分词,使得在生成词汇索引表的过程引入包含专业词汇的候选专业词,提高了对系统数据中专业词汇进行分词的准确性,进而增强了词汇索引表对专业词汇的针对性,从而在使用搜索引擎基于词汇索引表进行数据检索时,提高了搜索引擎对专业词汇的查准率。
实施例二
图2是本发明实施例二中的一种数据检索方法的流程图,本发明实施例在上述各实施例的技术方案的基础上进行了优化改进。
进一步地,在执行操作“根据各所述候选专业词对所述系统数据进行分词”之后,在执行操作“根据各分词结果对应的词汇权重生成词汇索引表”之前,追加“根据所述候选专业词对所述系统数据进行分词得到的各分词结果对应的词汇权重,确定至少一个分词结果为目标专业词;根据各所述目标专业词对所述系统数据重新进行分词”;相应的,将操作“根据各分词结果对应的词汇权重生成词汇索引表”细化为“根据重新分词得到的各分词结果对应的词汇权重生成词汇索引表”,以提高词汇索引表中包含的专业词汇的比例。
如图2所示的一种数据检索方法,包括:
S210、获取系统数据,并确定所述系统数据所包含的各特征词。
S220、根据各所述特征词在所述系统数据中的相邻词汇,扩展各所述特征词得到各候选专业词。
S230、根据各所述候选专业词对所述系统数据进行分词,并根据分词得到的各分词结果对应的词汇权重,确定至少一个分词结果为目标专业词。
由于候选专业词根据特征词的上下文信息扩展得到,使得候选专业词中存在大量的非专业词汇,那么后续根据各候选专业词对系统数据进行分词时,必然由于大量非专业词汇的存在,使得最终得到的词汇索引表中包含的非专业词汇的数量较多。为了对词汇索引表中所包含的索引词汇进行专业词汇提纯,可以对候选专业词进行初步筛选,并对系统数据中的其他词汇进行再次筛查。
具体的,根据候选专业词对系统数据进行分词,并确定得到的各分词结果的词汇权重;选择词汇权重大于设定目标阈值的分词结果作为目标专业词。其中,设定目标阈值由技术人员根据需要或经验值进行设定。其中,词汇权重可以是各分词结果的概率值、信息熵值、或者词频逆文本频率指数值等。
S240、根据各所述目标专业词对所述系统数据重新进行分词,并根据重新分词得到的各分词结果对应的词汇权重生成词汇索引表,以在接收到输入的检索关键词时基于所述词汇索引表获得并返回检索结果。
由于目标专业词基于候选专业词对系统数据进行分词,并通过词汇权重筛选得到,因此目标专业词中所包含专业词汇的比例较高。那么相应的,采用目标专业词代替候选专业词对系统数据进行分词,并根据分词结果生成的词汇索引表中所包含的专业词汇的比例也相对较高。
具体的,根据各目标专业词对系统数据重新分词,并确定得到的各分词结果的词汇权重;选择词汇权重大于设定索引阈值的分词结果作为索引词;根据包含各索引词的文档以及各索引词位于各文档中的位置,生成词汇索引表。其中,词汇权重可以是各分词结果的概率值、信息熵值、或者词频逆文本频率指数值等。
本发明实施例通过在生成词汇索引表之前,根据候选专业词对系统数据的各分词结果对应的词汇权重,确定至少一个分词结果为目标专业词;根据各目标专业词对系统数据重新分词,并根据重新分词得到的各分词结果对应的词汇权重生成词汇索引表,提高了词汇索引表中包含的专业词汇的比例,从而进一步增强了词汇索引表对专业词汇的针对性,进而在使用搜索引擎基于词汇索引表进行将数据检索时,进一步提高了搜索引擎对专业词汇的查准率。
实施例三
图3是本发明实施例三中的一种数据检索方法的流程图,本发明实施例在上述各实施例的技术方案的基础上进行了优化改进。
进一步地,在每次执行“对系统数据进行分词”时,追加“确定各分词结果的词汇权重”的操作,以完善词汇索引表的生成机制。
如图3所示的一种数据检索方法,包括:
S310、获取系统数据,并确定所述系统数据所包含的各特征词。
S320、根据各所述特征词在所述系统数据中的相邻词汇,扩展各所述特征词得到各候选专业词。
S330、根据各所述候选专业词对所述系统数据进行分词,并确定各分词结果的词汇权重。
可选的,确定各分词结果的词汇权重可以是:根据初始权重、系统权重、以及检索权重中的至少一个,确定当前分词结果的词汇权重。
示例性地,根据初始权重、系统权重、以及检索权重中的至少一个,确定当前分词结果的词汇权重,可以是根据系统权重和/或检索权重对所述初始权重进行加权,将加权后的初始权重确定为当前分词结果的词汇权重。
可选的,根据系统权重对初始权重进行加权,可以采用如下公式确定:
词汇权重=系统权重×初始权重。
可选的,根据检索权重对所述初始权重进行加权,可以采用如下公式确定:
词汇权重=(1+检索权重)×初始权重。
可选的,根据系统权重和检索权重对所述初始权重进行加权,可以采用如下公式确定:
词汇权重=(1+检索权重)×系统权重×初始权重。
其中,初始权重根据当前分词结果在系统数据所包含的各文档中出现的频次确定,例如可以是概率值、信息熵值、或者词频逆文本频率指数值等。示例性地,当初始权重为词频逆文本频率指数值时,可以根据如下公式进行初始权重的确定:
其中,m为文档i中出现当前分词结果的次数;M为文档i中分词结果的总数量;n为包含当前分词结果的文档数量,N为系统数据中包含的文档总数量;ε为校正因子,可以根据经验值进行设定;TF-IDF为词频逆文本频率指数。
其中,系统权重根据当前分词结果的数据来源确定。示例性地,在获取系统数据,会标记系统数据的数据来源,根据不同的数据来源,对所获取的系统数据赋予不同的系统权重。其中,系统权重的大小由技术人员根据需要或经验值进行确定。例如,将数据库系统的系统权重设定为1,将邮箱系统的系统权重设置为0.8、将企业官方网站的系统权重设置为0.9、将企业即时沟通系统的系统权重设置为0.6等。
可以理解的是,由于企业所处的行业不同,所获取的系统数据的重要程度也就不同,通过系统权重对初始权重加权,可以提高确定的目标专业词中的专业词汇的比例,进而进一步提高专业术语在词汇索引表中的占比。例如,在物流企业内部,数据库系统中存储的数据专业化程度较高,因此可以赋予数据库系统较高的系统权重;技术文档系统中着重于技术讲解,与业务相关度较低,因此可以赋予技术文档系统较低的系统权重。
其中,检索权重根据当前分词结果的检索频率确定。可以理解的是,当分词结果在历史检索的过程中的检索频率较高时,可以认定该分词结果为专业词汇的概率就越大,因此通过检索权重对初始权重加权,可以提高分词结果中专业词汇的词汇权重,抑制非专业词汇的词汇权重,达到对专业词汇初步筛查的目的,进而大幅度提高了确定的目标专业词中的专业词汇的比例。
S340、根据候选专业词对所述系统数据进行分词得到的各分词结果对应的词汇权重,确定至少一个分词结果为目标专业词。
S350、根据各所述目标专业词对所述系统数据重新进行分词,并确定各分词结果的词汇权重。
根据包含有专业词汇的目标专业词对系统数据重新进行分词,并确定各分词结果的初始权重、系统权重以及检索权重中的至少一种;根据初始权重、系统权重以及检索权重中的至少一种,确定各分词结果的词汇权重。
示例性地,可以采用系统权重和/或检索权重对初始权重进行加权,将加权后的初始权重作为词汇权重。
需要说明的是,对初始权重、系统权重以及检索权重的确定方法与前述内容相同,在此不再赘述。
S360、根据目标专业词对所述系统数据重新进行分词得到的各分词结果对应的词汇权重生成词汇索引表,以在接收到输入的检索关键词时基于所述词汇索引表获得并返回检索结果。
由于目标专业词中包含有大量的专业词汇,因此根据目标专业词对系统数据重新分词时,对专业术语的分词结果将更加准确,因此提高了生成的词汇索引表中所包含的切分正确的分词结果的词汇总数量。
由于搜索引擎的查准率根据分词结果中切分正确的总词数与系统数据中的总词数的比值确定,那么在后续基于词汇索引表进行数据检索时,由于系统数据的总词数不变,分词结果中切分正确的总词数增多,因此将进一步提高搜索引擎的查准率。
本发明实施例通过在对系统数据进行分词时,追加确定各参差结果的词汇权重的操作,并具体通过系统权重和/或检索权重对初始权重进行加权,有效提高专业词汇的词汇权重,进而提升分词结果中专业词汇的占比,从而提高了词汇索引表汇总包含的专业词汇的数量,进一步增强了词汇索引表对专业词汇的针对性,进而在使用搜索引擎基于词汇索引表进行将数据检索时,提高了搜索引擎对专业词汇的查准率。
实施例四
图4是本发明实施例四中的一种数据检索方法的流程图,本发明实施例在上述各实施例的技术方案的基础上进行了优化改进。
进一步地,将操作“确定至少一个分词结果为目标专业词”之后,追加“将各目标专业词添加至预先构建的专业词库”;相应的,将操作“根据各所述目标专业词对所述系统数据重新进行分词”细化为“根据所述专业词库和开源词库中的词汇对所述系统数据重新进行分词”以通过专业词库的构建和更新,便于对专业词汇的累积和迁移使用。
如图4所示的一种数据检索方法,包括:
S410、获取系统数据,并确定所述系统数据所包含的各特征词。
S420、根据各所述特征词在所述系统数据中的相邻词汇,扩展各所述特征词得到各候选专业词。
S430、根据各所述候选专业词对所述系统数据进行分词,并根据分词得到的各分词结果对应的词汇权重,确定至少一个分词结果为目标专业词。
S440、将各目标专业词添加至预先构建的专业词库。
其中,预先构建的专业词库中可以包含有人工输入的专业词汇,或者历史确定的目标专业词,通过目标专业词的不断添加,丰富专业词库的词汇量。
S450、根据所述专业词库和开源词库中的词汇对所述系统数据重新进行分词,并根据重新分词得到的各分词结果对应的词汇权重生成词汇索引表,以在接收到输入的检索关键词时基于所述词汇索引表获得并返回检索结果。
可以理解的是,由于在企业搜索引擎中进行数据检索时不止检索专业术语,还会进行非专业术语的检索,因此在生成词汇索引表时,典型是根据专业词库和开源词库中的词汇对系统数据重新进行分词;确定重新分词得到的分词结果对应的词汇权重;将词汇权重大于预设索引阈值的分词结果作为索引词;根据包含各索引词的文档以及各索引词位于各文档中的位置,生成词汇索引表。
其中,确定重新分词得到的分词结果的词汇权重,可以是确定重新分词得到的分词结果的初始权重、系统权重以及检索权重中的至少一种;根据初始权重、系统权重以及检索权重中的至少一种确定词汇权重。
示例性地,可以采用系统权重和/或检索权重对初始权重进行加权,将加权后的初始权重作为词汇权重。
需要说明的是,对初始权重、系统权重以及检索权重的确定方法与前述内容相同,在此不再赘述。
在上述各实施例的技术方案的基础上,为了减少专业词库中非专业词汇的数量,还会对专业词库中的词汇进行清洗。示例性地,可以采用以下方式对专业词库中的词汇进行清洗:确定专业词库中所包含的专业词汇的检索频率,并根据专业词汇的检索频率,更新所述专业词库。可选的,可以将检索频率小于设定词汇阈值的专业词汇从专业词库中剔除,以更新专业词库。相应的,后续可以根据更新后的专业词库和开源词库,对系统数据进行重新分词,并根据重新分词的分词结果对应的词汇权重更新所述词汇索引表。
本发明实施例通过在确定至少一个目标专业词之后,追加将各目标专业词添加至预先构建的专业词库中,以根据专业词库和开源词库中的词汇对系统数据重新进行分词,进而进行词汇索引表的生成。上述技术方案通过专业词库的构建和更新,实现了对专业词汇的累积,同时通过专业词汇在专业词库中的集中存储,为专业词库的迁移使用提供了便利。
实施例五
图5是本发明实施例五中的一种数据检索装置的结构图。本发明实施例适用于使用搜索引擎对专业词汇进行关键词检索之前,生成搜索过程所采用的词汇索引表的情况,该装置由软件和/或硬件实现,并具体配置于具备一定的数据运算能力的电子设备,例如服务器。
如图5所示的一种数据检索装置,包括:系统数据获取模块510,候选专业词扩展模块520以及数据检索模块530。
其中,系统数据获取模块510,用于获取系统数据,并确定所述系统数据所包含的各特征词;
候选专业词扩展模块520,用于根据各所述特征词在所述系统数据中的相邻词汇,扩展各所述特征词得到各候选专业词;
索引表生成模块530,用于根据各所述候选专业词对所述系统数据进行分词,并根据各分词结果对应的词汇权重生成词汇索引表,以在接收到输入的检索关键词时基于所述词汇索引表获得并返回检索结果。
本发明实施例通过系统数据获取模块获取系统数据,并确定系统数据所包含的各特征词;通过候选专业词扩展模块根据各特征词在系统数据中的相邻词汇,扩展各特征词得到各候选专业词;通过索引表生成模块根据各候选专业词对系统数据进行分词,并根据各分词结果对应的词汇权重生成词汇索引表,以在接收到输入的检索关键词时基于所述词汇索引表获得并返回检索结果。上述技术方案通过扩展特征词得到的候选专业词对系统数据进行分词,使得在生成词汇索引表的过程引入包含专业词汇的候选专业词,提高了对系统数据中专业词汇进行分词的准确性,进而增强了词汇索引表对专业词汇的针对性,从而在使用搜索引擎基于词汇索引表进行数据检索时,提高了搜索引擎对专业词汇的查准率。
进一步地,该装置还包括,目标专业词确定模块,包括:
目标专业词确定单元,用于在根据各所述候选专业词对所述系统数据进行分词之后,在根据各分词结果对应的词汇权重生成词汇索引表之前,根据所述候选专业词对所述系统数据进行分词得到的各分词结果对应的词汇权重,确定至少一个分词结果为目标专业词;
重新分词单元,用于根据各所述目标专业词对所述系统数据重新进行分词;
相应的,数据检索模块530,在执行根据各分词结果对应的词汇权重生成词汇索引表时,具体用于:
根据重新分词得到的各分词结果对应的词汇权重生成词汇索引表。
进一步地,候选专业词扩展模块520,包括:
语句查找单元,用于针对每个特征词,查找所述系统数据中包含所述特征词的语句;
在查找到的每个语句中,向所述特征词上文扩展第一设定数量词汇,和/或向所述特征词下文扩展第二设定数量词汇,得到与所述特征词对应的候选专业词。
进一步地,该装置还包括,词汇权重确定模块,用于:
在每次对所述系统数据进行分词时,确定各分词结果的词汇权重。
进一步地,词汇权重确定模块,包括:
子权重确定单元,用于确定当前分词结果对应的初始权重、系统权重、以及检索权重中的至少一个;
词汇权重确定单元,用于根据初始权重、系统权重、以及检索权重中的至少一个,确定当前分词结果的词汇权重;
其中,所述系统权重是根据当前分词结果的数据来源确定的权重,所述检索权重是根据当前分词结果的检索频率确定的权重,所述初始权重是根据当前分词结果在所述系统数据所包含的各文档中出现的频次确定。
进一步地,词汇权重确定单元,具体用于:
根据所述系统权重和/或检索权重对所述初始权重进行加权,将加权后的初始权重确定为当前分词结果的词汇权重。
进一步地,该装置还包括,专业词库更新模块,用于:
在确定至少一个分词结果为目标专业词之后,还包括:
将各目标专业词添加至预先构建的专业词库;
相应的,索引表生成模块530,在执行根据各所述目标专业词对所述系统数据重新进行分词时,具体用于:
根据所述专业词库和开源词库中的词汇对所述系统数据重新进行分词。
进一步地,该装置还包括,索引表更新模块,包括:
检索频率确定单元,用于确定专业词库中所包含的专业词汇的检索频率,并根据专业词汇的检索频率,更新所述专业词库;
索引表更新单元,用于根据所述开源词库和更新后的专业词库对所述系统数据进行重新分词,并根据重新分词的分词结果对应的词汇权重更新所述词汇索引表。
进一步地,系统数据获取模块510,在执行确定所述系统数据所包含的各特征词时,具体用于:
根据开源词库对所述系统数据进行分词,并根据各分词结果对应的词汇权重,确定至少一个分词结果为特征词。
上述数据检索装置可执行本发明任意实施例所提供的数据检索方法,具备执行数据检索方法相应的功能模块和有益效果。
实施例六
图6是本发明实施例六中的一种电子设备的结构图。该电子设备可以是服务器。如图6所示的电子设备,包括:输入装置610、处理器620以及存储装置630。
其中,输入装置610,用于获取系统数据;
一个或多个处理器620;
存储装置630,用于存储一个或多个程序。
图6中以一个处理器620为例,该电子设备中的输入装置610可以通过总线或其他方式与、处理器620以及存储装置630相连,且处理器620和存储装置630也通过总线或其他方式连接,图6中以通过总线连接为例。
在本实施例中,电子设备中的处理器620可以控制输入装置610获取系统数据;还可以确定所述系统数据所包含的各特征词;还可以根据各所述特征词在所述系统数据中的相邻词汇,扩展各所述特征词得到各候选专业词;还可以根据各所述候选专业词对所述系统数据进行分词,并根据各分词结果对应的词汇权重生成词汇索引表;还可以将将词汇索引表存储至存储装置630。
该电子设备中的存储装置630作为一种计算机可读存储介质,可用于存储一个或多个程序,所述程序可以是软件程序、计算机可执行程序以及模块,如本发明实施例中数据检索方法对应的程序指令/模块(例如,附图5所示的系统数据获取模块510,候选专业词扩展模块520以及索引表生成模块530)。处理器620通过运行存储在存储装置630中的软件程序、指令以及模块,从而执行电子设备的各种功能应用以及数据处理,即实现上述方法实施例中的数据检索方法。
存储装置630可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储数据等(如上述实施例中的系统数据、特征词、候选专业词、以及词汇索引表等)。此外,存储装置630可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置630可进一步包括相对于处理器620远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实施例七
本发明实施例七还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被数据检索装置执行时实现本发明实施提供的数据检索方法,该方法包括:获取系统数据,并确定所述系统数据所包含的各特征词;根据各所述特征词在所述系统数据中的相邻词汇,扩展各所述特征词得到各候选专业词;根据各所述候选专业词对所述系统数据进行分词,并根据各分词结果对应的词汇权重生成词汇索引表。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种数据检索方法,其特征在于,包括:
获取系统数据,并确定所述系统数据所包含的各特征词;
根据各所述特征词在所述系统数据中的相邻词汇,扩展各所述特征词得到各候选专业词;其中,所述候选专业词是将所述特征词经上文扩展和/或下文扩展得到的,所述候选专业词包含所述特征词;
根据各所述候选专业词对所述系统数据进行分词,并根据各分词结果对应的词汇权重生成词汇索引表,以在接收到输入的检索关键词时基于所述词汇索引表获得并返回检索结果;其中,所述词汇权重是根据分词结果对应的初始权重、系统权重、以及检索权重中的至少一个确定的,所述系统权重是根据分词结果的数据来源确定的权重,所述检索权重是根据分词结果的检索频率确定的权重,所述初始权重是根据分词结果在所述系统数据所包含的各文档中出现的频次确定;
其中,确定所述系统数据所包含的各特征词,包括:
根据开源词库对所述系统数据进行分词,并根据各分词结果对应的词汇权重,确定至少一个分词结果为特征词;或者,将所述系统数据的各词汇与预先设定的高频词表中所包含的各高频词进行比对,将比对结果一致的词汇作为特征词;或者,将所述系统数据的各词汇与预先设定的低频词表中所包含的各低频词进行比对,将系统数据所包含的词汇中的低频词剔除,得到特征词。
2.根据权利要求1所述的方法,其特征在于,在根据各所述候选专业词对所述系统数据进行分词之后,在根据各分词结果对应的词汇权重生成词汇索引表之前,还包括:
根据所述候选专业词对所述系统数据进行分词得到的各分词结果对应的词汇权重,确定至少一个分词结果为目标专业词;
根据各所述目标专业词对所述系统数据重新进行分词;
相应的,根据各分词结果对应的词汇权重生成词汇索引表,包括:
根据重新分词得到的各分词结果对应的词汇权重生成词汇索引表。
3.根据权利要求1所述的方法,其特征在于,根据各所述特征词在所述系统数据中的相邻词汇,扩展各所述特征词得到各候选专业词,包括:
针对每个特征词,查找所述系统数据中包含所述特征词的语句;
在查找到的每个语句中,向所述特征词上文扩展第一设定数量词汇,和/或向所述特征词下文扩展第二设定数量词汇,得到与所述特征词对应的候选专业词。
4.根据权利要求2所述的方法,其特征在于,在每次对所述系统数据进行分词时,确定各分词结果的词汇权重;
相应的,确定各分词结果的词汇权重,包括:
确定当前分词结果对应的初始权重、系统权重、以及检索权重中的至少一个;
根据初始权重、系统权重、以及检索权重中的至少一个,确定当前分词结果的词汇权重。
5.根据权利要求4所述的方法,其特征在于,根据初始权重、系统权重、以及检索权重中的至少一个,确定当前分词结果的词汇权重,包括:
根据所述系统权重和/或检索权重对所述初始权重进行加权,将加权后的初始权重确定为当前分词结果的词汇权重。
6.根据权利要求2所述的方法,其特征在于,确定至少一个分词结果为目标专业词之后,还包括:
将各目标专业词添加至预先构建的专业词库;
相应的,根据各所述目标专业词对所述系统数据重新进行分词,包括:
根据所述专业词库和开源词库中的词汇对所述系统数据重新进行分词。
7.根据权利要求6所述的方法,其特征在于,还包括:
确定专业词库中所包含的专业词汇的检索频率,并根据专业词汇的检索频率,更新所述专业词库;
根据所述开源词库和更新后的专业词库对所述系统数据进行重新分词,并根据重新分词的分词结果对应的词汇权重更新所述词汇索引表。
8.一种数据检索装置,其特征在于,包括:
系统数据获取模块,用于获取系统数据,并确定所述系统数据所包含的各特征词;
候选专业词扩展模块,用于根据各所述特征词在所述系统数据中的相邻词汇,扩展各所述特征词得到各候选专业词;其中,所述候选专业词是将所述特征词经上文扩展和/或下文扩展得到的,所述候选专业词包含所述特征词;
索引表生成模块,用于根据各所述候选专业词对所述系统数据进行分词,并根据各分词结果对应的词汇权重生成词汇索引表,以在接收到输入的检索关键词时基于所述词汇索引表获得并返回检索结果;其中,所述词汇权重是根据分词结果对应的初始权重、系统权重、以及检索权重中的至少一个确定的,所述系统权重是根据分词结果的数据来源确定的权重,所述检索权重是根据分词结果的检索频率确定的权重,所述初始权重是根据分词结果在所述系统数据所包含的各文档中出现的频次确定;
其中,所述系统数据获取模块在执行确定所述系统数据所包含的各特征词时,具体用于:
根据开源词库对所述系统数据进行分词,并根据各分词结果对应的词汇权重,确定至少一个分词结果为特征词;或者,将所述系统数据的各词汇与预先设定的高频词表中所包含的各高频词进行比对,将比对结果一致的词汇作为特征词;或者,将所述系统数据的各词汇与预先设定的低频词表中所包含的各低频词进行比对,将系统数据所包含的词汇中的低频词剔除,得到特征词。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一项所述的一种数据检索方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的一种数据检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910512482.1A CN112084290B (zh) | 2019-06-13 | 2019-06-13 | 一种数据检索方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910512482.1A CN112084290B (zh) | 2019-06-13 | 2019-06-13 | 一种数据检索方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112084290A CN112084290A (zh) | 2020-12-15 |
CN112084290B true CN112084290B (zh) | 2024-04-05 |
Family
ID=73733735
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910512482.1A Active CN112084290B (zh) | 2019-06-13 | 2019-06-13 | 一种数据检索方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112084290B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819578A (zh) * | 2010-01-25 | 2010-09-01 | 青岛普加智能信息有限公司 | 检索方法、索引建立方法和装置及检索系统 |
CN102768679A (zh) * | 2012-06-25 | 2012-11-07 | 深圳市汉络计算机技术有限公司 | 一种搜索方法及搜索系统 |
CN105528411A (zh) * | 2015-12-03 | 2016-04-27 | 中国人民解放军海军工程大学 | 船舶装备交互式电子技术手册全文检索装置及方法 |
CN109543178A (zh) * | 2018-11-01 | 2019-03-29 | 银江股份有限公司 | 一种司法文本标签体系构建方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105868236A (zh) * | 2015-12-09 | 2016-08-17 | 乐视网信息技术(北京)股份有限公司 | 一种同义词数据挖掘方法和系统 |
-
2019
- 2019-06-13 CN CN201910512482.1A patent/CN112084290B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101819578A (zh) * | 2010-01-25 | 2010-09-01 | 青岛普加智能信息有限公司 | 检索方法、索引建立方法和装置及检索系统 |
CN102768679A (zh) * | 2012-06-25 | 2012-11-07 | 深圳市汉络计算机技术有限公司 | 一种搜索方法及搜索系统 |
CN105528411A (zh) * | 2015-12-03 | 2016-04-27 | 中国人民解放军海军工程大学 | 船舶装备交互式电子技术手册全文检索装置及方法 |
CN109543178A (zh) * | 2018-11-01 | 2019-03-29 | 银江股份有限公司 | 一种司法文本标签体系构建方法及系统 |
Non-Patent Citations (1)
Title |
---|
专业信息检索系统中索引项提取策略的研究;熊桂喜;陆壮飞;;计算机技术与发展(第09期);第25-27页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112084290A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11580168B2 (en) | Method and system for providing context based query suggestions | |
US9594826B2 (en) | Co-selected image classification | |
US8719262B1 (en) | Identification of semantic units from within a search query | |
JP6141305B2 (ja) | 画像検索 | |
TWI512502B (zh) | 用於產生習慣語言模式之方法及系統及相關之電腦程式產品 | |
Reinanda et al. | Mining, ranking and recommending entity aspects | |
US9275128B2 (en) | Method and system for document indexing and data querying | |
US20100191758A1 (en) | System and method for improved search relevance using proximity boosting | |
US10565253B2 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
CN110990533B (zh) | 确定查询文本所对应标准文本的方法及装置 | |
CN110309251B (zh) | 文本数据的处理方法、装置和计算机可读存储介质 | |
CN109241243B (zh) | 候选文档排序方法及装置 | |
JP6932360B2 (ja) | オブジェクト検索方法、装置およびサーバ | |
JP2023516209A (ja) | コンテンツを検索する方法、装置、機器及びコンピュータ読み取り可能な記憶媒体 | |
KR101651780B1 (ko) | 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템 | |
CN110909120A (zh) | 简历搜索/投递方法、装置、系统及电子设备 | |
CN103226601B (zh) | 一种图片搜索的方法和装置 | |
CN111859079B (zh) | 信息搜索方法、装置、计算机设备及存储介质 | |
US20120059786A1 (en) | Method and an apparatus for matching data network resources | |
CN113918807A (zh) | 数据推荐方法、装置、计算设备及计算机可读存储介质 | |
CN111666417B (zh) | 生成同义词的方法、装置、电子设备以及可读存储介质 | |
CN109918661B (zh) | 同义词获取方法及装置 | |
EP4127957A1 (en) | Methods and systems for searching and retrieving information | |
CN112084290B (zh) | 一种数据检索方法、装置、设备及存储介质 | |
CN116383340A (zh) | 信息搜索方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |