CN111753048B - 文档检索方法、装置、设备及存储介质 - Google Patents
文档检索方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111753048B CN111753048B CN202010436162.5A CN202010436162A CN111753048B CN 111753048 B CN111753048 B CN 111753048B CN 202010436162 A CN202010436162 A CN 202010436162A CN 111753048 B CN111753048 B CN 111753048B
- Authority
- CN
- China
- Prior art keywords
- document
- candidate
- word
- feature
- candidate document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000013145 classification model Methods 0.000 claims abstract description 68
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 96
- 238000011156 evaluation Methods 0.000 claims description 55
- 238000004364 calculation method Methods 0.000 claims description 38
- 238000004590 computer program Methods 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 25
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 20
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000002372 labelling Methods 0.000 claims description 15
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 5
- 238000006467 substitution reaction Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 7
- 230000006872 improvement Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000009849 deactivation Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 101100283966 Pectobacterium carotovorum subsp. carotovorum outN gene Proteins 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013016 damping Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文档检索方法、装置、设备及存储介质,该方法包括:根据用户输入的检索关键词,从预设的文档数据库中检索出候选文档集;通过预先训练好的分类模型计算候选文档集的各个文档归属于检索关键词所属类别的概率;基于TextRank算法计算检索关键词在候选文档集的各个文档中的权值;根据候选文档集的各个文档归属于检索关键词所属类别的概率,以及检索关键词在候选文档集的各个文档中的权值,计算候选文档集的各个文档的排序权重;根据候选文档集的各个文档的排序权重对候选文档集进行排序,得到排序后的候选文档集;根据排序后的候选文档集,生成文档检索结果。采用本发明能够根据用户输入的检索关键词生成准确的文档检索结果。
Description
技术领域
本发明涉及文本信息处理技术领域,尤其涉及一种文档检索方法、装置、设备及存储介质。
背景技术
随着信息技术的发展,人们可以自由享受计算机带来的快捷与便利,但也面临着如何在海量的数据中快速、准确、全面地找到所需要内容的困境。基于关键词的文档检索技术,能够使人们更快、更准的获取所需要的文档,为用户获取所需信息提供有力的支持。
目前,一般是通过检索出包含用户输入的检索关键词的候选文档,利用Text Rank算法计算检索关键词在各个候选文档中的重要度权值,再根据检索关键词在各个候选文档中的重要度权值的高低顺序,对各个候选文档进行排序,从而生成文档检索结果。
然而,发明人在实施本发明的过程中发现,现有的文档检索方法仅基于检索关键词在各个候选文档中的重要度权值进行文档检索,而忽略了各个候选文档所属类别的影响,容易导致属于检索关键词所属类别的相似文档排后,而检索关键词所属类别很大程度上反映了用户检索意图,因此,现有的文档检索方法容易导致与用户检索意图匹配度较高的相似文档排后,降低了文档检索结果的准确度,增加了用户查阅时间。
发明内容
本发明实施例提供一种文档检索方法、装置、设备及存储介质,能够根据用户输入的检索关键词,生成准确的文档检索结果。
为了实现上述目的,本发明一实施例提供一种文档检索方法,包括:
接收用户的文档检索请求;其中,所述文档检索请求中包括用户输入的检索关键词;
根据所述检索关键词,从预设的文档数据库中检索出候选文档集;
通过预先训练好的分类模型计算所述候选文档集的各个文档归属于所述检索关键词所属类别的概率;
基于TextRank算法,计算所述检索关键词在所述候选文档集的各个文档中的权值;
根据所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,以及所述检索关键词在所述候选文档集的各个文档中的权值,计算所述候选文档集的各个文档的排序权重;
根据所述候选文档集的各个文档的排序权重对所述候选文档集进行排序,得到排序后的候选文档集;
根据所述排序后的候选文档集,生成文档检索结果。
作为上述方案的改进,所述根据所述检索关键词,从预设的文档数据库中检索出候选文档集,具体包括:
获取所述检索关键词对应的关键词表;其中,所述关键词表包括所述检索关键词和所述检索关键词对应的同义词;
根据所述关键词表,从预设的文档数据库中检索出候选文档集。
作为上述方案的改进,所述通过预先训练好的分类模型计算所述候选文档集的各个文档归属于所述检索关键词所属类别的概率之前,还包括步骤:
对所述候选文档集进行抽样筛选,得到训练样本集;
获取所述训练样本集的各个文档对应的标注信息;
根据所述训练样本集的各个文档及其对应的标注信息训练分类模型,生成所述预先训练好的分类模型。
作为上述方案的改进,所述根据所述训练样本集的各个文档及其对应的标注信息训练分类模型,生成所述预先训练好的分类模型,具体包括:
基于所述关键词表,对所述训练样本集的各个文档进行分词、去停用词和替代同义词处理,得到所述训练样本集的各个文档对应的词特征数据;
对所述训练样本集的各个文档对应的词特征数据进行词频和逆文档频率统计,得到所述训练样本集的各个文档中的每个词特征对应的TF-IDF值;
根据位置特征评估函数,对所述训练样本集的各个文档对应的词特征数据进行位置特征评估,得到所述训练样本集的各个文档中的每个词特征对应的位置特征评估值;
根据所述训练样本集的各个文档中的每个词特征对应的TF-IDF值和位置特征评估值进行特征值计算,得到所述训练样本集的各个文档中的每个词特征对应的特征值;
根据所述训练样本集的各个文档中的每个词特征对应的特征值,生成所述训练样本集对应的特征矩阵;
根据所述训练样本集对应的特征矩阵及所述训练样本集的各个文档对应的标注信息训练分类模型,生成所述预先训练好的分类模型。
作为上述方案的改进,所述通过预先训练好的分类模型计算所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,具体包括:
基于所述关键词表,对所述候选文档集的各个文档进行分词、去停用词和替代同义词处理,得到所述候选文档集的各个文档对应的词特征数据;
对所述候选文档集的各个文档对应的词特征数据进行词频和逆文档频率统计,得到所述候选文档集的各个文档中的每个词特征对应的TF-IDF值;
根据位置特征评估函数,对所述候选文档集的各个文档对应的词特征数据进行位置特征评估,得到所述候选文档集的各个文档中的每个词特征对应的位置特征评估值;
根据所述候选文档集的各个文档中的每个词特征对应的TF-IDF值和位置特征评估值进行特征值计算,得到所述候选文档集的各个文档中的每个词特征对应的特征值;
根据所述候选文档集的各个文档中的每个词特征对应的特征值,生成所述候选文档集对应的特征矩阵;
将所述候选文档集对应的特征矩阵输入至预先训练好的分类模型,生成所述候选文档集的各个文档归属于所述检索关键词所属类别的概率。
作为上述方案的改进,所述位置特征评估函数为:
其中,pos(t)表示词特征t在一个文档中的位置特征评估值;P(t)表示文本包含所述词特征t的概率;P(CJ|t)表示文本包含所述词特征t时属于CJ类的条件概率,CJ表示第j类文档集合,m为类别数,j=1,2,…,m;θ为可调节参数,当设定文档的前N个词语位置为重要位置时,取θ=1,当设定文档中的后M个词语位置为重要位置时,取N和M均为正整数,且N和M的和不大于该文档中的总词数;Lt为所述词特征t出现在其所在句中的下标位置。
作为上述方案的改进,所述基于TextRank算法,计算所述检索关键词在所述候选文档集的各个文档中的权值,具体包括:
基于所述关键词表,对所述候选文档集的各个文档进行分词、去停用词和替代同义词处理,得到所述候选文档集的各个文档对应的词特征数据;
对所述候选文档集的各个文档对应的词特征数据进行词频和逆文档频率统计,得到所述候选文档集的各个文档中的每个词特征对应的TF-IDF值;
将所述候选文档集的各个文档中的每个词特征对应的TF-IDF值作为所述候选文档集的各个文档中的每个词特征对应的初始权重,对所述候选文档集的每个文档对应的词特征数据进行TextRank处理,得到所述检索关键词在所述候选文档集的各个文档中的权值。
相应地,本发明另一实施例提供了一种文档检索装置,包括:
文档检索请求接收模块,用于接收用户的文档检索请求;其中,所述文档检索请求中包括用户输入的检索关键词;
候选文档集检索模块,用于根据所述检索关键词,从预设的文档数据库中检索出候选文档集;
概率计算模块,用于通过预先训练好的分类模型计算所述候选文档集的各个文档归属于所述检索关键词所属类别的概率;
权值计算模块,用于基于TextRank算法,计算所述检索关键词在所述候选文档集的各个文档中的权值;
排序权重计算模块,用于根据所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,以及所述检索关键词在所述候选文档集的各个文档中的权值,计算所述候选文档集的各个文档的排序权重;
候选文档集排序模块,用于根据所述候选文档集的各个文档的排序权重对所述候选文档集进行排序,得到排序后的候选文档集;
文档检索结果生成模块,用于根据所述排序后的候选文档集,生成文档检索结果。
本发明另一实施例提供了一种文档检索设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项所述的文档检索方法。
本发明另一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项所述的文档检索方法。
与现有技术相比,本发明实施例提供的一种文档检索方法、装置、设备及存储介质,首先接收用户的文档检索请求,再根据用户输入的检索关键词,从预设的文档数据库中检索出候选文档集,接着,通过预先训练好的分类模型计算所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,再接着,基于T extRank算法,计算所述检索关键词在所述候选文档集的各个文档中的权值,然后,根据所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,以及所述检索关键词在所述候选文档集的各个文档中的权值,计算所述候选文档集的各个文档的排序权重,再然后,根据所述候选文档集的各个文档的排序权重对所述候选文档集进行排序,得到排序后的候选文档集,最后,根据所述排序后的候选文档集,生成文档检索结果。本发明实施例在进行文档检索的过程中,由于是通过结合候选文档集的各个文档归属于检索关键词所属类别的概率,以及检索关键词在候选文档集的各个文档中的权值对候选文档集进行排序,增加了各个文档归属于检索关键词所属类别的概率的影响,能够提高文档检索结果与用户检索意图的匹配程度,从而保证所生成的文档检索结果的准确性,有利于提高用户的查阅效率。
附图说明
图1是本发明实施例一提供的一种文档检索方法的流程示意图。
图2是本发明实施例二提供的一种文档检索方法的流程示意图。
图3是本发明实施例三提供的一种文档检索装置的结构示意图。
图4是本发明实施例四提供的一种文档检索设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明实施例一提供的一种文档检索方法的流程示意图。
本发明实施例提供的文档检索方法,包括步骤S11至步骤S17,具体如下:
S11、接收用户的文档检索请求;其中,所述文档检索请求中包括用户输入的检索关键词。
S12、根据所述检索关键词,从预设的文档数据库中检索出候选文档集。
需要说明的是,候选文档集的检索方法有多种,在此不做限定。例如,可以是将预设的文档数据库中所有包含检索关键词的文档检索出来,生成候选文档集,也可以是将预设的文档数据库中所有包含检索关键词且检索关键词的词频大于预设词频阈值的文档检索出来,生成候选文档集。
S13、通过预先训练好的分类模型计算所述候选文档集的各个文档归属于所述检索关键词所属类别的概率。
需要说明的是,所述预先训练好的分类模型,可以是预先训练好的朴素贝叶斯分类模型。在具体实施时,可以是预先根据已标注的训练样本集对朴素贝叶斯分类模型进行训练,从而生成预先训练好的朴素贝叶斯分类模型。
在一个可选的实施方式中,可以是先基于各词汇与类别之间的预置对应关系,确定检索关键词所属类别,再将候选文档集输入至预先训练好的分类模型中进行分类识别,由该预先训练好的分类模型输出候选文档集的各个文档归属于检索关键词所属类别的概率。
S14、基于TextRank算法,计算所述检索关键词在所述候选文档集的各个文档中的权值。
在一个可选的实施方式中,可以是先对候选样本集的各个文档进行分词、去停用词,得到候选样本集的各个文档对应的词特征数据,再对候选样本集的各个文档对应的词特征数据进行TextRank处理,计算出候选样本集的各个文档中的各个词特征对应的重要度权值,从而得到检索关键词在候选文档集的各个文档中的权值。其中,检索关键词在文档中的权值,可以反映检索关键词在该文档中的重要程度。
S15、根据所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,以及所述检索关键词在所述候选文档集的各个文档中的权值,计算所述候选文档集的各个文档的排序权重。
需要说明的是,文档的排序权重的计算方法有多种,在此不作限定。例如,对于候选文档集的各个文档来说,可以是将其归属于检索关键词所属类别的概率与检索关键词在其中的权值进行加权计算,从而得到其排序权重,需要说明的是,其归属于检索关键词所属类别的概率所占的权重以及检索关键词在其中的权值所占的权重可以是根据实际情况进行设定,满足两者相加等于1即可,在此不做限制,可选的,其归属于检索关键词所属类别的概率所占的权重以及检索关键词在其中的权值所占的权重均为0.5。又例如,对于候选文档集的各个文档来说,可以是计算其归属于检索关键词所属类别的概率与检索关键词在其中的权值之和,作为其排序权重。
S16、根据所述候选文档集的各个文档的排序权重对所述候选文档集进行排序,得到排序后的候选文档集。
在一个可选的实施方式中,可以是基于排序权重从大到小的顺序,根据候选文档集的各个文档的排序权重对候选文档集进行排序,得到排序后的候选文档集。
S17、根据所述排序后的候选文档集,生成文档检索结果。
其中,文档检索结果的生成方式有多种,在此不作限定。例如,直接将排序后的候选文档集作为文档检索结果,又例如,将排序后的候选文档集中的前十个文档作为文档检索结果。
本发明实施例提供的文档检索方法,首先接收用户的文档检索请求,再根据用户输入的检索关键词,从预设的文档数据库中检索出候选文档集,接着,通过预先训练好的分类模型计算所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,再接着,基于TextRank算法,计算所述检索关键词在所述候选文档集的各个文档中的权值,然后,根据所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,以及所述检索关键词在所述候选文档集的各个文档中的权值,计算所述候选文档集的各个文档的排序权重,再然后,根据所述候选文档集的各个文档的排序权重对所述候选文档集进行排序,得到排序后的候选文档集,最后,根据所述排序后的候选文档集,生成文档检索结果。本发明实施例在进行文档检索的过程中,由于是通过结合候选文档集的各个文档归属于检索关键词所属类别的概率,以及检索关键词在候选文档集的各个文档中的权值对候选文档集进行排序,增加了各个文档归属于检索关键词所属类别的概率的影响,能够提高文档检索结果与用户检索意图的匹配程度,从而保证所生成的文档检索结果的准确性,有利于提高用户的查阅效率。
参见图2,是本发明实施例二提供的一种文档检索方法的流程示意图。
本发明实施例提供的文档检索方法,包括步骤S101至步骤S108,具体如下:
S101、接收用户的文档检索请求;其中,所述文档检索请求中包括用户输入的检索关键词。
S102、获取所述检索关键词对应的关键词表;其中,所述关键词表包括所述检索关键词和所述检索关键词对应的同义词。
在一个可选的实施方式中,可以是先基于预置的同义词对应关系,确定与检索关键词对应的同义词,再根据与检索关键词对应的同义词,生成检索关键词对应的关键词表。其中,同义词指的是表达方式不同但表达同一概念的词,同义词对应关系可以是预先由领域专家进行设置,也可以是预先根据符合标准的词典进行设置,在此不作限定。
S103、根据所述关键词表,从预设的文档数据库中检索出候选文档集。
需要说明的是,候选文档集的检索方法有多种,在此不做限定。例如,可以是将预设的文档数据库中包含关键词表内的某一词语的所有文档检索出来,生成候选文档集,也可以是将预设的文档数据库中包含关键词表内的某一词语且该词语的词频大于预设词频阈值的文档检索出来,生成候选文档集。
S104、通过预先训练好的分类模型计算所述候选文档集的各个文档归属于所述检索关键词所属类别的概率。
需要说明的是,所述预先训练好的分类模型,可以是预先训练好的朴素贝叶斯分类模型。在具体实施时,可以是预先根据已标注的训练样本集对朴素贝叶斯分类模型进行训练,从而生成预先训练好的朴素贝叶斯分类模型。
在一个可选的实施方式中,由于可能会出现候选文档集的某个文档只包括与检索关键词对应的同义词,而不包括检索关键词的情况,可以是先将候选文档集的各个文档中与检索关键词对应的同义词替换成检索关键词,再基于各词汇与类别之间的预置对应关系,确定检索关键词所属类别,然后将候选文档集输入至预先训练好的分类模型中进行分类识别,由该预先训练好的分类模型输出候选文档集的各个文档归属于检索关键词所属类别的概率。
S105、基于TextRank算法,计算所述检索关键词在所述候选文档集的各个文档中的权值。
在一个可选的实施方式中,由于可能会出现候选文档集的某个文档只包括与检索关键词对应的同义词,而不包括检索关键词的情况,可以是先对候选样本集的各个文档进行分词、去停用词,得到候选样本集的各个文档对应的词特征数据,再将候选文档集的各个文档对应的词特征数据中与检索关键词对应的同义词替换成检索关键词,然后对候选样本集的各个文档对应的词特征数据进行TextRan k处理,计算出候选样本集的各个文档中的各个词特征对应的重要度权值,从而得到检索关键词在候选文档集的各个文档中的权值。其中,检索关键词在文档中的权值,可以反映检索关键词在该文档中的重要程度。
S106、根据所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,以及所述检索关键词在所述候选文档集的各个文档中的权值,计算所述候选文档集的各个文档的排序权重。
需要说明的是,文档的排序权重的计算方法有多种,在此不作限定。例如,对于候选文档集的各个文档来说,可以是将其归属于检索关键词所属类别的概率与检索关键词在其中的权值进行加权计算,从而得到其排序权重,需要说明的是,其归属于检索关键词所属类别的概率所占的权重以及检索关键词在其中的权值所占的权重可以是根据实际情况进行设定,满足两者相加等于1即可,在此不做限制,可选的,其归属于检索关键词所属类别的概率所占的权重以及检索关键词在其中的权值所占的权重均为0.5。又例如,对于候选文档集的各个文档来说,可以是计算其归属于检索关键词所属类别的概率与检索关键词在其中的权值之和,作为其排序权重。
S107、根据所述候选文档集的各个文档的排序权重对所述候选文档集进行排序,得到排序后的候选文档集。
在一个可选的实施方式中,可以是基于排序权重从大到小的顺序,根据候选文档集的各个文档的排序权重对候选文档集进行排序,得到排序后的候选文档集。
S108、根据所述排序后的候选文档集,生成文档检索结果。
其中,文档检索结果的生成方式有多种,在此不作限定。例如,直接将排序后的候选文档集作为文档检索结果,又例如,将排序后的候选文档集中的前十个文档作为文档检索结果。
本发明实施例提供的文档检索方法,首先接收用户的文档检索请求,再根据用户输入的检索关键词,获取检索关键词对应的关键词表,并根据所述关键词表从预设的文档数据库中检索出候选文档集,接着,通过预先训练好的分类模型计算所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,再接着,基于TextRank算法,计算所述检索关键词在所述候选文档集的各个文档中的权值,然后,根据所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,以及所述检索关键词在所述候选文档集的各个文档中的权值,计算所述候选文档集的各个文档的排序权重,再然后,根据所述候选文档集的各个文档的排序权重对所述候选文档集进行排序,得到排序后的候选文档集,最后,根据所述排序后的候选文档集,生成文档检索结果。本发明实施例在进行文档检索的过程中,由于是将包含与检索关键词对应的同义词的文档也作为候选文档,避免忽略了不包含检索关键词但又与用户检索意图的匹配程度高的文档,能够提高文档检索结果与用户检索意图的匹配程度,从而保证所生成的文档检索结果的准确性,有利于提高用户的查阅效率,并且,通过结合候选文档集的各个文档归属于检索关键词所属类别的概率,以及检索关键词在候选文档集的各个文档中的权值对候选文档集进行排序,增加了各个文档归属于检索关键词所属类别的概率的影响,同样能够提高文档检索结果与用户检索意图的匹配程度,从而保证所生成的文档检索结果的准确性,有利于提高用户的查阅效率。
在实施例二的基础上,作为一个可选实施例,在所述步骤S104之前,还包括步骤:
S111、对所述候选文档集进行抽样筛选,得到训练样本集。
需要说明的是,抽样筛选的方法有多种,在此不做限定,例如简单随机抽样、系统抽样或是分层抽样等。
S112、获取所述训练样本集的各个文档对应的标注信息。
可以理解的,各个文档对应的标注信息用于指示各个文档对应的类别。
S113、根据所述训练样本集的各个文档及其对应的标注信息训练分类模型,生成所述预先训练好的分类模型。
在一个可选的实施方式中,可以是将训练样本集输入至分类模型进行预测,再根据预测得到的结果和训练样本集的各个文档对应的标注信息对分类模型的参数进行修正,从而生成预先训练好的分类模型。
可选的,所述步骤S113具体包括:
S1131、基于所述关键词表,对所述训练样本集的各个文档进行分词、去停用词和替代同义词处理,得到所述训练样本集的各个文档对应的词特征数据。
其中,可以是结合关键词表,对训练样本集中每个文档进行分词和去停用词处理,得到训练样本集的每个文档对应的文本数据,再将训练样本集的每个文档对应的文本数据中与检索关键词对应的同义词替换为检索关键词,从而得到训练样本集的各个文档对应的词特征数据。可以理解的,训练样本集的各个文档对应的词特征数据包含多个词特征。
S1132、对所述训练样本集的各个文档对应的词特征数据进行词频和逆文档频率统计,得到所述训练样本集的各个文档中的每个词特征对应的TF-IDF值。
需要说明的是,TF-IDF值用于刻画特词征表达文本内容属性的能力。TF(t ermFrequency)是词频,或称特征项频率,不同类别的文档特征项出现的频率差异很大,因此特征项频率信息是文本分类的重要参考之一,一般TF较大的特征项在该类文档具有代表性,TF越大,表示这个词对文档越重要。IDF(Inverse Document Frequency)是反比文档频率,或称逆文档频率,IDF越大,则说明此特征项在文档中的分布越集中,说明此特征项在区分该文档内容属性方面的能力越强,IDF是特征项在文档集分布情况的量化,IDF应用时经常采用对数形式,其核心思想是,在大多数文档中都出现的特征项不如只在小部分文档中出现的特征项重,IDF能够弱化一些在大多数文档中都出现的高频特征项的重要度,同时增强一些在小部分文档中出现的低频特征项的重要度。
TF-IDF值的计算方法有多种,在此不作限定。作为举例,对于一个文本集来说,TF-IDF的值的计算公式如下:
其中,为词特征t在文本/>中的权重,而/>为词特征t在文本/>中的词频,N为文本集中文本的总数,nt为文本集中出现t的文本数。
进一步地,考虑到文本长度的不同对权值的影响,还可以对TF-IDF值的计算公式做归一化处理,从而将TF-IDF值规范到[0,1]之间。作为举例,对上述的TF-IDF的值的计算公式进行归一化处理后,得到的TF-IDF的计算公式为:
其中,分母为归一化因子。
S1133、根据位置特征评估函数,对所述训练样本集的各个文档对应的词特征数据进行位置特征评估,得到所述训练样本集的各个文档中的每个词特征对应的位置特征评估值。
需要说明的是,位置特征评估值,用于反映词在文档中的分布位置的重要程度。
具体的,所述位置特征评估函数为:
其中,pos(t)表示词特征t在一个文档中的位置特征评估值;P(t)表示文本包含所述词特征t的概率;P(CJ|t)表示文本包含所述词特征t时属于CJ类的条件概率,CJ表示第j类文档集合,m为类别数,j=1,2,…,m;θ为可调节参数,当设定文档的前N个词语位置为重要位置时,取θ=1,当设定文档中的后M个词语位置为重要位置时,取N和M均为正整数,且N和M的和不大于该文档中的总词数;Lt为所述词特征t出现在其所在句中的下标位置。
可以理解的,P(t)和P(CJ|t)可以是预先根据一预设的语料样本集计算得到。在一个可选的实施方式中,P(t)等于该语料样本集中包含词特征t的样本数与该语料样本集中的样本总数的比值,其中,/>为该语料样本集中归属CJ类的命中样本数,CJ类为命中类别中数量最大的类,C为该语料样本集中包含词特征t的样本数。
可以理解的,若词特征t仅在文档中仅出现一次,则等于词特征t出现在其唯一所在句中的下标位置的倒数;若词特征t在文档中不止一次出现,则/>等于词特征t出现在其每一所在句中的下标位置的倒数之和。
S1134、根据所述训练样本集的各个文档中的每个词特征对应的TF-IDF值和位置特征评估值进行特征值计算,得到所述训练样本集的各个文档中的每个词特征对应的特征值。
需要说明的是,通过对大量的文章结构进行分析,可以发现不同位置的词的重要程度是不一样的,词在文档中的分布位置是决定词语表达文本内容的重要因素之一,也即,词在文档中的分布位置对于词在文档中的重要程度有着重要影响,然而各个词特征所处于文本的位置无法通过词频或是逆文档频率准确的衡量其重要性,也即词特征对应的TF-IDF值,并不能很好的反映词特征在文档中的分布位置,因此仅依赖于词特征对应的TF-IDF值进行分类,会导致影响分类模型的最终预测结果。在本实施例中,通过结合训练样本集的各个文档中的每个词特征对应的TF-IDF值和位置特征评估值进行特征值计算,增加了每个词特征对应的位置特征评估值的影响,使得计算得到的每个词特征对应的特征值能够准确地反映词特征在文档中的重要程度,保证了训练得到的分类模型的准确性,进而保证分类的准确性,从而保证所生成的文档检索结果的准确性。
在一个可选的实施方式中,对于训练样本集的各个文档中的每个词特征来说,其对应的特征值等于其对应的TF-IDF值和位置特征评估值之和。
S1135、根据所述训练样本集的各个文档中的每个词特征对应的特征值,生成所述训练样本集对应的特征矩阵。
在一个可选的实施方式中,设训练样本集Train={d1,d2,…,dn},将训练样本集的各个文档中的每个词特征与训练样本集的各个文档按照横轴与纵轴的形式排列,再将训练样本集的各个文档中的每个词特征对应的特征值填充对应的位置,从而生成训练样本集对应的特征矩阵X={xM1,xM2,…,xMd},其中,训练样本集对应的类变量为Y={y1,y2,…,ym},训练样本集Train可以分为ym类别,xM1,xM2,…,xMd相互独立且随机。
S1136、根据所述训练样本集对应的特征矩阵及所述训练样本集的各个文档对应的标注信息训练分类模型,生成所述预先训练好的分类模型。
在一个可选的实施方式中,可以是将训练样本集对应的特征矩阵输入至分类模型进行预测,再根据预测得到的结果和训练样本集的各个文档对应的标注信息对分类模型的参数进行修正,从而生成预先训练好的分类模型。
在实施例二的基础上,作为一个可选实施例,所述步骤S104具体包括:
S1041、基于所述关键词表,对所述候选文档集的各个文档进行分词、去停用词和替代同义词处理,得到所述候选文档集的各个文档对应的词特征数据。
其中,可以是结合关键词表,对候选文档集中每个文档进行分词和去停用词处理,得到候选文档集的每个文档对应的文本数据,再将候选文档集的每个文档对应的文本数据中与检索关键词对应的同义词替换为检索关键词,从而得到候选文档集的各个文档对应的词特征数据。可以理解的,候选文档集的各个文档对应的词特征数据包含多个词特征。
S1042、对所述候选文档集的各个文档对应的词特征数据进行词频和逆文档频率统计,得到所述候选文档集的各个文档中的每个词特征对应的TF-IDF值。
需要说明的是,TF-IDF值的具体含义及相关计算公式可以参考前述方法实施例,在此不做赘述。
S1043、根据位置特征评估函数,对所述候选文档集的各个文档对应的词特征数据进行位置特征评估,得到所述候选文档集的各个文档中的每个词特征对应的位置特征评估值。
需要说明的是,位置特征评估值,用于反映词在文档中的分布位置的重要程度。
具体的,所述位置特征评估函数为:
其中,pos(t)表示词特征t在一个文档中的位置特征评估值;P(t)表示文本包含所述词特征t的概率;P(CJ|t)表示文本包含所述词特征t时属于CJ类的条件概率,CJ表示第j类文档集合,m为类别数,j=1,2,…,m;θ为可调节参数,当设定文档的前N个词语位置为重要位置时,取θ=1,当设定文档中的后M个词语位置为重要位置时,取N和M均为正整数,且N和M的和不大于该文档中的总词数;Lt为所述词特征t出现在其所在句中的下标位置。
可以理解的,P(t)和P(CJ|t)可以是预先根据一预设的语料样本集计算得到。在一个可选的实施方式中,P(t)等于该语料样本集中包含词特征t的样本数与该语料样本集中的样本总数的比值,其中,/>为该语料样本集中归属CJ类的命中样本数,CJ类为命中类别中数量最大的类,C为该语料样本集中包含词特征t的样本数。
可以理解的,若词特征t仅在文档中仅出现一次,则等于词特征t出现在其唯一所在句中的下标位置的倒数;若词特征t在文档中不止一次出现,则/>等于词特征t出现在其每一所在句中的下标位置的倒数之和。
S1044、根据所述候选文档集的各个文档中的每个词特征对应的TF-IDF值和位置特征评估值进行特征值计算,得到所述候选文档集的各个文档中的每个词特征对应的特征值。
需要说明的是,通过对大量的文章结构进行分析,可以发现不同位置的词的重要程度是不一样的,词在文档中的分布位置是决定词语表达文本内容的重要因素之一,也即,词在文档中的分布位置对于词在文档中的重要程度有着重要影响,然而各个词特征所处于文本的位置无法通过词频或是逆文档频率准确的衡量其重要性,也即词特征对应的TF-IDF值,并不能很好的反映词特征在文档中的分布位置,因此仅依赖于词特征对应的TF-IDF值进行分类,会导致影响分类模型的最终预测结果。在本实施例中,通过结合候选文档集的各个文档中的每个词特征对应的TF-IDF值和位置特征评估值进行特征值计算,增加了每个词特征对应的位置特征评估值的影响,使得计算得到的每个词特征对应的特征值能够准确地反映词特征在文档中的重要程度,从而保证分类的准确性,进而保证所生成的文档检索结果的准确性。
S1045、根据所述候选文档集的各个文档中的每个词特征对应的特征值,生成所述候选文档集对应的特征矩阵。
在一个可选的实施方式中,可以是将候选文档集的各个文档中的每个词特征与候选文档集的各个文档按照横轴与纵轴的形式排列,再将候选文档集的各个文档中的每个词特征对应的特征值填充对应的位置,从而生成候选文档集对应的特征矩阵。
S1046、将所述候选文档集对应的特征矩阵输入至预先训练好的分类模型,生成所述候选文档集的各个文档归属于所述检索关键词所属类别的概率。
在一个可选的实施方式中,可以是先基于各词汇与类别之间的预置对应关系,确定检索关键词所属类别,再将候选文档集对应的特征矩阵输入至预先训练好的分类模型中进行分类识别,由该预先训练好的分类模型输出候选文档集的各个文档归属于检索关键词所属类别的概率。
在实施例二的基础上,作为一个可选实施例,所述步骤S105具体包括:
S1051、基于所述关键词表,对所述候选文档集的各个文档进行分词、去停用词和替代同义词处理,得到所述候选文档集的各个文档对应的词特征数据。
其中,可以是结合关键词表,对候选文档集中每个文档进行分词和去停用词处理,得到候选文档集的每个文档对应的文本数据,再将候选文档集的每个文档对应的文本数据中与检索关键词对应的同义词替换为检索关键词,从而得到候选文档集的各个文档对应的词特征数据。可以理解的,候选文档集的各个文档对应的词特征数据包含多个词特征。
S1052、对所述候选文档集的各个文档对应的词特征数据进行词频和逆文档频率统计,得到所述候选文档集的各个文档中的每个词特征对应的TF-IDF值。
需要说明的是,TF-IDF值的具体含义及相关计算公式可以参考前述方法实施例,在此不做赘述。
S1053、将所述候选文档集的各个文档中的每个词特征对应的TF-IDF值作为所述候选文档集的各个文档中的每个词特征对应的初始权重,对所述候选文档集的每个文档对应的词特征数据进行TextRank处理,得到所述检索关键词在所述候选文档集的各个文档中的权值。
需要说明的是,对文档对应的词特征数据进行TextRank处理的过程,就是迭代计算一个由文档对应的词特征数据构建的有向有权图G=(V,E),从而得到候选文档集的各个文档中的每个词特征的权值。对于文档的各词特征的权值计算过程来说,现有技术中通常是将每个词特征的初始权重设置为均值1,但是在实际试验中可以发现,对于大规模的文档数据进行的文本处理来说,对于不同的话题,不同的内容,对应的词语在文档中的重要程度是不一样的,因此,本实施例在使用TextRank算法对候选文档集的各个文档中的词特征数据进行权值计算时,先将文档中的每个词特征对应的TF-IDF值作为其对应的初始权重,再进行迭代计算,从而得到该文档中的每个词特征的权值,进而得到检索关键词在该文档中的权值,使得计算得到的检索关键词在该文档中的权值更具备针对性,更加的接近文档中的主要内容,从而进一步提高文档检索结果的准确度。
可选的,本步骤中进行TextRank处理的算法公式如下:
其中,Ri表示文档中的第i个词特征的当前权值,Ri′表示第i个词特征对应的初始权重,ε表示词与词的关系,wij表示两个词特征vivj的边权,d为阻尼系数,d的取值在0到1之间。
参见图3,是本发明实施例三提供的一种文档检索装置的结构示意图。
本发明实施例提供的文档检索装置,包括:
文档检索请求接收模块21,用于接收用户的文档检索请求;其中,所述文档检索请求中包括用户输入的检索关键词;
候选文档集检索模块22,用于根据所述检索关键词,从预设的文档数据库中检索出候选文档集;
概率计算模块23,用于通过预先训练好的分类模型计算所述候选文档集的各个文档归属于所述检索关键词所属类别的概率;
权值计算模块24,用于基于TextRank算法,计算所述检索关键词在所述候选文档集的各个文档中的权值;
排序权重计算模块25,用于根据所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,以及所述检索关键词在所述候选文档集的各个文档中的权值,计算所述候选文档集的各个文档的排序权重;
候选文档集排序模块26,用于根据所述候选文档集的各个文档的排序权重对所述候选文档集进行排序,得到排序后的候选文档集;
文档检索结果生成模块27,用于根据所述排序后的候选文档集,生成文档检索结果。
该文档检索装置实现文档检索的原理与上述方法实施例相同,在此不再赘述。
本发明实施例提供的文档检索装置,首先接收用户的文档检索请求,再根据用户输入的检索关键词,从预设的文档数据库中检索出候选文档集,接着,通过预先训练好的分类模型计算所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,再接着,基于TextRank算法,计算所述检索关键词在所述候选文档集的各个文档中的权值,然后,根据所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,以及所述检索关键词在所述候选文档集的各个文档中的权值,计算所述候选文档集的各个文档的排序权重,再然后,根据所述候选文档集的各个文档的排序权重对所述候选文档集进行排序,得到排序后的候选文档集,最后,根据所述排序后的候选文档集,生成文档检索结果。本发明实施例在进行文档检索的过程中,由于是通过结合候选文档集的各个文档归属于检索关键词所属类别的概率,以及检索关键词在候选文档集的各个文档中的权值对候选文档集进行排序,增加了各个文档归属于检索关键词所属类别的概率的影响,能够提高文档检索结果与用户检索意图的匹配程度,从而保证所生成的文档检索结果的准确性,有利于提高用户的查阅效率。
作为其中一个可选实施例,所述候选文档集检索模块22具体包括:
关键词表获取单元,用于获取所述检索关键词对应的关键词表;其中,所述关键词表包括所述检索关键词和所述检索关键词对应的同义词;
候选文档集获取单元,用于根据所述关键词表,从预设的文档数据库中检索出候选文档集。
进一步地,所述文档检索设备还包括:
训练样本集获取模块,用于对所述候选文档集进行抽样筛选,得到训练样本集;
标注信息获取模块,用于获取所述训练样本集的各个文档对应的标注信息;
分类模型训练模块,用于根据所述训练样本集的各个文档及其对应的标注信息训练分类模型,生成所述预先训练好的分类模型。
具体的,所述分类模型训练模块具体包括:
第一词特征数据获取单元,用于基于所述关键词表,对所述训练样本集的各个文档进行分词、去停用词和替代同义词处理,得到所述训练样本集的各个文档对应的词特征数据;
第一TF-IDF值计算单元,用于对所述训练样本集的各个文档对应的词特征数据进行词频和逆文档频率统计,得到所述训练样本集的各个文档中的每个词特征对应的TF-IDF值;
第一位置特征评估值计算单元,用于根据位置特征评估函数,对所述训练样本集的各个文档对应的词特征数据进行位置特征评估,得到所述训练样本集的各个文档中的每个词特征对应的位置特征评估值;
第一特征值计算单元,用于根据所述训练样本集的各个文档中的每个词特征对应的TF-IDF值和位置特征评估值进行特征值计算,得到所述训练样本集的各个文档中的每个词特征对应的特征值;
第一特征矩阵生成单元,用于根据所述训练样本集的各个文档中的每个词特征对应的特征值,生成所述训练样本集对应的特征矩阵;
分类模型生成单元,用于根据所述训练样本集对应的特征矩阵及所述训练样本集的各个文档对应的标注信息训练分类模型,生成所述预先训练好的分类模型。
进一步地,所述概率计算模块23具体包括:
第二词特征数据获取单元,用于基于所述关键词表,对所述候选文档集的各个文档进行分词、去停用词和替代同义词处理,得到所述候选文档集的各个文档对应的词特征数据;
第二TF-IDF值计算单元,用于对所述候选文档集的各个文档对应的词特征数据进行词频和逆文档频率统计,得到所述候选文档集的各个文档中的每个词特征对应的TF-IDF值;
第二位置特征评估值计算单元,用于根据位置特征评估函数,对所述候选文档集的各个文档对应的词特征数据进行位置特征评估,得到所述候选文档集的各个文档中的每个词特征对应的位置特征评估值;
第二特征值计算单元,用于根据所述候选文档集的各个文档中的每个词特征对应的TF-IDF值和位置特征评估值进行特征值计算,得到所述候选文档集的各个文档中的每个词特征对应的特征值;
第二特征矩阵生成单元,用于根据所述候选文档集的各个文档中的每个词特征对应的特征值,生成所述候选文档集对应的特征矩阵;
概率预测单元,用于将所述候选文档集对应的特征矩阵输入至预先训练好的分类模型,生成所述候选文档集的各个文档归属于所述检索关键词所属类别的概率。
具体的,所述位置特征评估函数为:
其中,pos(t)表示词特征t在一个文档中的位置特征评估值;P(t)表示文本包含所述词特征t的概率;P(CJ|t)表示文本包含所述词特征t时属于CJ类的条件概率,CJ表示第j类文档集合,m为类别数,j=1,2,…,m;θ为可调节参数,当设定文档的前N个词语位置为重要位置时,取θ=1,当设定文档中的后M个词语位置为重要位置时,取N和M均为正整数,且N和M的和不大于该文档中的总词数;Lt为所述词特征t出现在其所在句中的下标位置。
进一步地,所述权值计算模块24具体包括:
第三词特征数据获取单元,用于基于所述关键词表,对所述候选文档集的各个文档进行分词、去停用词和替代同义词处理,得到所述候选文档集的各个文档对应的词特征数据;
第三TF-IDF值计算单元,用于对所述候选文档集的各个文档对应的词特征数据进行词频和逆文档频率统计,得到所述候选文档集的各个文档中的每个词特征对应的TF-IDF值;
TextRank处理单元,用于将所述候选文档集的各个文档中的每个词特征对应的TF-IDF值作为所述候选文档集的各个文档中的每个词特征对应的初始权重,对所述候选文档集的每个文档对应的词特征数据进行TextRank处理,得到所述检索关键词在所述候选文档集的各个文档中的权值。
参见图4,是本发明实施例四提供的一种文档检索设备的结构示意图。
本发明实施例提供的一种文档检索设备,包括处理器31、存储器32以及存储在所述存储器32中且被配置为由所述处理器31执行的计算机程序,所述处理器31执行所述计算机程序时实现如上任一实施例所述的文档检索方法。
另外,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任一实施例所述的文档检索方法。
所述处理器31执行所述计算机程序时实现上述文档检索方法实施例中的步骤,例如图1所示的文档检索方法的所有步骤。或者,所述处理器31执行所述计算机程序时实现上述文档检索装置实施例中各模块/单元的功能,例如图3所示的文档检索装置的各模块的功能。
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器32中,并由所述处理器31执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述文档检索设备中的执行过程。例如,所述计算机程序可以被分割成文档检索请求接收模块、候选文档集检索模块、概率计算模块、权值计算模块、排序权重计算模块、候选文档集排序模块和文档检索结果生成模块,各模块具体功能如下:文档检索请求接收模块,用于接收用户的文档检索请求;其中,所述文档检索请求中包括用户输入的检索关键词;候选文档集检索模块,用于根据所述检索关键词,从预设的文档数据库中检索出候选文档集;概率计算模块,用于通过预先训练好的分类模型计算所述候选文档集的各个文档归属于所述检索关键词所属类别的概率;权值计算模块,用于基于TextRank算法,计算所述检索关键词在所述候选文档集的各个文档中的权值;排序权重计算模块,用于根据所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,以及所述检索关键词在所述候选文档集的各个文档中的权值,计算所述候选文档集的各个文档的排序权重;候选文档集排序模块,用于根据所述候选文档集的各个文档的排序权重对所述候选文档集进行排序,得到排序后的候选文档集;文档检索结果生成模块,用于根据所述排序后的候选文档集,生成文档检索结果。
所述文档检索设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述文档检索设备可包括,但不仅限于,处理器31、存储器32。本领域技术人员可以理解,所述示意图仅仅是文档检索设备的示例,并不构成对文档检索设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述文档检索设备还可以包括输入输出设备、网络接入设备、总线等。
所称处理器31可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器31是所述文档检索设备的控制中心,利用各种接口和线路连接整个文档检索设备的各个部分。
所述存储器32可用于存储所述计算机程序和/或模块,所述处理器31通过运行或执行存储在所述存储器32内的计算机程序和/或模块,以及调用存储在存储器32内的数据,实现所述文档检索设备的各种功能。所述存储器32可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据文档检索设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(S ecure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述文档检索设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (9)
1.一种文档检索方法,其特征在于,包括:
接收用户的文档检索请求;其中,所述文档检索请求中包括用户输入的检索关键词;
根据所述检索关键词,从预设的文档数据库中检索出候选文档集;
通过预先训练好的分类模型计算所述候选文档集的各个文档归属于所述检索关键词所属类别的概率;
基于TextRank算法,计算所述检索关键词在所述候选文档集的各个文档中的权值;
根据所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,以及所述检索关键词在所述候选文档集的各个文档中的权值,计算所述候选文档集的各个文档的排序权重;
根据所述候选文档集的各个文档的排序权重对所述候选文档集进行排序,得到排序后的候选文档集;
根据所述排序后的候选文档集,生成文档检索结果;
其中,所述根据所述检索关键词,从预设的文档数据库中检索出候选文档集,具体包括:
获取所述检索关键词对应的关键词表;
根据所述关键词表,从预设的文档数据库中检索出候选文档集;
其中,所述通过预先训练好的分类模型计算所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,具体包括:
基于所述关键词表,对所述候选文档集的各个文档进行分词、去停用词和替代同义词处理,得到所述候选文档集的各个文档对应的词特征数据;
对所述候选文档集的各个文档对应的词特征数据进行词频和逆文档频率统计,得到所述候选文档集的各个文档中的每个词特征对应的TF-IDF值;
根据位置特征评估函数,对所述候选文档集的各个文档对应的词特征数据进行位置特征评估,得到所述候选文档集的各个文档中的每个词特征对应的位置特征评估值;
根据所述候选文档集的各个文档中的每个词特征对应的TF-IDF值和位置特征评估值进行特征值计算,得到所述候选文档集的各个文档中的每个词特征对应的特征值;
根据所述候选文档集的各个文档中的每个词特征对应的特征值,生成所述候选文档集对应的特征矩阵;
将所述候选文档集对应的特征矩阵输入至预先训练好的分类模型,生成所述候选文档集的各个文档归属于所述检索关键词所属类别的概率。
2.如权利要求1所述的文档检索方法,其特征在于,所述关键词表包括所述检索关键词和所述检索关键词对应的同义词。
3.如权利要求2所述的文档检索方法,其特征在于,所述通过预先训练好的分类模型计算所述候选文档集的各个文档归属于所述检索关键词所属类别的概率之前,还包括步骤:
对所述候选文档集进行抽样筛选,得到训练样本集;
获取所述训练样本集的各个文档对应的标注信息;
根据所述训练样本集的各个文档及其对应的标注信息训练分类模型,生成所述预先训练好的分类模型。
4.如权利要求3所述的文档检索方法,其特征在于,所述根据所述训练样本集的各个文档及其对应的标注信息训练分类模型,生成所述预先训练好的分类模型,具体包括:
基于所述关键词表,对所述训练样本集的各个文档进行分词、去停用词和替代同义词处理,得到所述训练样本集的各个文档对应的词特征数据;
对所述训练样本集的各个文档对应的词特征数据进行词频和逆文档频率统计,得到所述训练样本集的各个文档中的每个词特征对应的TF-IDF值;
根据位置特征评估函数,对所述训练样本集的各个文档对应的词特征数据进行位置特征评估,得到所述训练样本集的各个文档中的每个词特征对应的位置特征评估值;
根据所述训练样本集的各个文档中的每个词特征对应的TF-IDF值和位置特征评估值进行特征值计算,得到所述训练样本集的各个文档中的每个词特征对应的特征值;
根据所述训练样本集的各个文档中的每个词特征对应的特征值,生成所述训练样本集对应的特征矩阵;
根据所述训练样本集对应的特征矩阵及所述训练样本集的各个文档对应的标注信息训练分类模型,生成所述预先训练好的分类模型。
5.如权利要求1或4所述的文档检索方法,其特征在于,所述位置特征评估函数为:
其中,pos(t)表示词特征t在一个文档中的位置特征评估值;P(t)表示文本包含所述词特征t的概率;P(CJ|t)表示文本包含所述词特征t时属于CJ类的条件概率,CJ表示第j类文档集合,m为类别数,j=1,2,…,m;θ为可调节参数,当设定文档的前N个词语位置为重要位置时,取θ=1,当设定文档中的后M个词语位置为重要位置时,取N和M均为正整数,且N和M的和不大于该文档中的总词数;Lt为所述词特征t出现在其所在句中的下标位置。
6.如权利要求2所述的文档检索方法,其特征在于,所述基于TextRank算法,计算所述检索关键词在所述候选文档集的各个文档中的权值,具体包括:
基于所述关键词表,对所述候选文档集的各个文档进行分词、去停用词和替代同义词处理,得到所述候选文档集的各个文档对应的词特征数据;
对所述候选文档集的各个文档对应的词特征数据进行词频和逆文档频率统计,得到所述候选文档集的各个文档中的每个词特征对应的TF-IDF值;
将所述候选文档集的各个文档中的每个词特征对应的TF-IDF值作为所述候选文档集的各个文档中的每个词特征对应的初始权重,对所述候选文档集的每个文档对应的词特征数据进行TextRank处理,得到所述检索关键词在所述候选文档集的各个文档中的权值。
7.一种文档检索装置,其特征在于,包括:
文档检索请求接收模块,用于接收用户的文档检索请求;其中,所述文档检索请求中包括用户输入的检索关键词;
候选文档集检索模块,用于根据所述检索关键词,从预设的文档数据库中检索出候选文档集;
概率计算模块,用于通过预先训练好的分类模型计算所述候选文档集的各个文档归属于所述检索关键词所属类别的概率;
权值计算模块,用于基于TextRank算法,计算所述检索关键词在所述候选文档集的各个文档中的权值;
排序权重计算模块,用于根据所述候选文档集的各个文档归属于所述检索关键词所属类别的概率,以及所述检索关键词在所述候选文档集的各个文档中的权值,计算所述候选文档集的各个文档的排序权重;
候选文档集排序模块,用于根据所述候选文档集的各个文档的排序权重对所述候选文档集进行排序,得到排序后的候选文档集;
文档检索结果生成模块,用于根据所述排序后的候选文档集,生成文档检索结果;
其中,所述候选文档集检索模块,具体用于:
获取所述检索关键词对应的关键词表;
根据所述关键词表,从预设的文档数据库中检索出候选文档集;
其中,所述概率计算模块,具体用于:
基于所述关键词表,对所述候选文档集的各个文档进行分词、去停用词和替代同义词处理,得到所述候选文档集的各个文档对应的词特征数据;
对所述候选文档集的各个文档对应的词特征数据进行词频和逆文档频率统计,得到所述候选文档集的各个文档中的每个词特征对应的TF-IDF值;
根据位置特征评估函数,对所述候选文档集的各个文档对应的词特征数据进行位置特征评估,得到所述候选文档集的各个文档中的每个词特征对应的位置特征评估值;
根据所述候选文档集的各个文档中的每个词特征对应的TF-IDF值和位置特征评估值进行特征值计算,得到所述候选文档集的各个文档中的每个词特征对应的特征值;
根据所述候选文档集的各个文档中的每个词特征对应的特征值,生成所述候选文档集对应的特征矩阵;
将所述候选文档集对应的特征矩阵输入至预先训练好的分类模型,生成所述候选文档集的各个文档归属于所述检索关键词所属类别的概率。
8.一种文档检索设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6中任意一项所述的文档检索方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1-6中任意一项所述的文档检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010436162.5A CN111753048B (zh) | 2020-05-21 | 2020-05-21 | 文档检索方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010436162.5A CN111753048B (zh) | 2020-05-21 | 2020-05-21 | 文档检索方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111753048A CN111753048A (zh) | 2020-10-09 |
CN111753048B true CN111753048B (zh) | 2024-02-02 |
Family
ID=72673962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010436162.5A Active CN111753048B (zh) | 2020-05-21 | 2020-05-21 | 文档检索方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111753048B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112346876B (zh) * | 2020-12-04 | 2023-04-18 | 山东鲁软数字科技有限公司 | 一种具备自主学习特性的通道分配方法及系统 |
CN112559684A (zh) * | 2020-12-10 | 2021-03-26 | 中科院计算技术研究所大数据研究院 | 一种关键词提取及信息检索方法 |
CN112966796B (zh) * | 2021-03-04 | 2022-03-15 | 南通苏博办公服务有限公司 | 基于大数据的企业信息档案存储管理方法及系统 |
CN113094519B (zh) * | 2021-05-07 | 2023-04-14 | 超凡知识产权服务股份有限公司 | 一种基于文档进行检索的方法及装置 |
CN113868406B (zh) * | 2021-12-01 | 2022-03-11 | 无码科技(杭州)有限公司 | 搜索方法、系统、计算机可读存储介质 |
CN116842138B (zh) * | 2023-07-24 | 2024-07-19 | 上海金麦穗信息技术集团有限公司 | 基于文档的检索方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020213A (zh) * | 2012-12-07 | 2013-04-03 | 福建亿榕信息技术有限公司 | 具有明显类别划分的非结构化电子文档的检索方法和系统 |
CN103123653A (zh) * | 2013-03-15 | 2013-05-29 | 山东浪潮齐鲁软件产业股份有限公司 | 基于贝叶斯分类学习的搜索引擎检索排序方法 |
CN103324640A (zh) * | 2012-03-23 | 2013-09-25 | 日电(中国)有限公司 | 一种确定搜索结果文档的方法、装置和设备 |
CN103377226A (zh) * | 2012-04-25 | 2013-10-30 | 中国移动通信集团公司 | 一种智能检索方法及其系统 |
CN103514213A (zh) * | 2012-06-28 | 2014-01-15 | 华为技术有限公司 | 词语提取方法及装置 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103744835B (zh) * | 2014-01-02 | 2016-12-07 | 上海大学 | 一种基于主题模型的文本关键词提取方法 |
JP6260294B2 (ja) * | 2014-01-21 | 2018-01-17 | 富士通株式会社 | 情報検索装置、情報検索方法および情報検索プログラム |
CN108763196A (zh) * | 2018-05-03 | 2018-11-06 | 上海海事大学 | 一种基于pmi的关键字提取方法 |
CN108763213A (zh) * | 2018-05-25 | 2018-11-06 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 主题特征文本关键词提取方法 |
CN110334178B (zh) * | 2019-03-28 | 2023-06-20 | 平安科技(深圳)有限公司 | 数据检索方法、装置、设备及可读存储介质 |
CN110532451B (zh) * | 2019-06-26 | 2023-08-29 | 平安科技(深圳)有限公司 | 针对政策文本的检索方法和装置、存储介质、电子装置 |
-
2020
- 2020-05-21 CN CN202010436162.5A patent/CN111753048B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103324640A (zh) * | 2012-03-23 | 2013-09-25 | 日电(中国)有限公司 | 一种确定搜索结果文档的方法、装置和设备 |
CN103377226A (zh) * | 2012-04-25 | 2013-10-30 | 中国移动通信集团公司 | 一种智能检索方法及其系统 |
CN103514213A (zh) * | 2012-06-28 | 2014-01-15 | 华为技术有限公司 | 词语提取方法及装置 |
CN103020213A (zh) * | 2012-12-07 | 2013-04-03 | 福建亿榕信息技术有限公司 | 具有明显类别划分的非结构化电子文档的检索方法和系统 |
CN103123653A (zh) * | 2013-03-15 | 2013-05-29 | 山东浪潮齐鲁软件产业股份有限公司 | 基于贝叶斯分类学习的搜索引擎检索排序方法 |
CN110059311A (zh) * | 2019-03-27 | 2019-07-26 | 银江股份有限公司 | 一种面向司法文本数据的关键词提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111753048A (zh) | 2020-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111753048B (zh) | 文档检索方法、装置、设备及存储介质 | |
Oghbaie et al. | Pairwise document similarity measure based on present term set | |
AU2024204609A1 (en) | System and engine for seeded clustering of news events | |
KR101508260B1 (ko) | 문서 특징을 반영하는 요약문 생성 장치 및 방법 | |
US7797265B2 (en) | Document clustering that applies a locality sensitive hashing function to a feature vector to obtain a limited set of candidate clusters | |
Jonnalagadda et al. | A new iterative method to reduce workload in systematic review process | |
US20130060769A1 (en) | System and method for identifying social media interactions | |
CN104834651B (zh) | 一种提供高频问题回答的方法和装置 | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN110019474B (zh) | 异构数据库中的同义数据自动关联方法、装置及电子设备 | |
US20110252030A1 (en) | Systems, methods and computer program products for a snippet based proximal search | |
US10073890B1 (en) | Systems and methods for patent reference comparison in a combined semantical-probabilistic algorithm | |
CN114330335B (zh) | 关键词抽取方法、装置、设备及存储介质 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
Jo | K nearest neighbor for text summarization using feature similarity | |
Jo | Using K Nearest Neighbors for text segmentation with feature similarity | |
CN115630144A (zh) | 一种文档搜索方法、装置及相关设备 | |
Huang et al. | Sentiment analysis of Chinese online reviews using ensemble learning framework | |
Basmatkar et al. | An overview of contextual topic modeling using bidirectional encoder representations from transformers | |
CN116610853A (zh) | 搜索推荐方法、搜索推荐系统、计算机设备及存储介质 | |
CN112612867B (zh) | 新闻稿件传播分析方法、计算机可读存储介质及电子设备 | |
US20210117448A1 (en) | Iterative sampling based dataset clustering | |
CN114742062B (zh) | 文本关键词提取处理方法及系统 | |
CN111859066A (zh) | 一种运维工单的查询推荐方法及装置 | |
CN113449063B (zh) | 一种构建文档结构信息检索库的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |