CN110019669A - 一种文本检索方法及装置 - Google Patents
一种文本检索方法及装置 Download PDFInfo
- Publication number
- CN110019669A CN110019669A CN201711044415.9A CN201711044415A CN110019669A CN 110019669 A CN110019669 A CN 110019669A CN 201711044415 A CN201711044415 A CN 201711044415A CN 110019669 A CN110019669 A CN 110019669A
- Authority
- CN
- China
- Prior art keywords
- word
- text
- keyword
- retrieved
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种文本检索方法及装置,可以对搜索内容进行分词,得到搜索内容对应的至少一个关键词,并对至少一个关键词进行扩词,得到至少一个关键词各自对应的至少一个扩展词,从而得到搜索内容对应的搜索词语集合,以增加用于检索且与搜索内容相关的词语数量。对搜索词语集合和至少一个待检索文本各自对应的文本词语集合来说,确定这两个集合中词语的词向量,并根据这两个集合中词语的词向量对至少一个待检索文本进行排序输出。由于本发明使用词向量表示各词语与词语间的关系,所以本发明可以根据各词语与词语间的关系对待检索文本进行排序输出,使得排序输出的待检索文本与搜索内容相关,从而提高检索的准确度。
Description
技术领域
本发明涉及文本检索技术领域,更具体的说,尤其涉及一种文本检索方法及装置。
背景技术
文本检索顾名思义是指根据用户输入的搜索内容(简称query),输出与query相关的文本,例如输出与“老板不发工资”这一搜索内容相关的裁判文书。
目前文本检索方法在对用户输入的搜索内容进行分词得到至少一个关键词后,获取每个关键词在待检索文本中的词频,从而得到待检索文本中出现关键词的词频总和,并根据待检索文本中出现关键词的词频总和对待检索文本进行排序输出。
虽然目前的文本检索方法可输出包含有关键词的待检索文本,但是并未考虑关键词与待检索文本的相关程度,从而降低检索的准确度。如待检索文本中出现query中的某个关键词,但是该关键词并未体现裁判文书的核心内容,例如query为“老板不还钱”,其对应的关键词包括:“老板”、“不”和“还钱”,用户希望输出的待检索文本为与劳动合同纠纷类的裁判文书,但是由于卖淫类案件的裁判文书中经常出现大量的“老板”和“不”一词,因此使得卖淫类案件的裁判文书排列在劳动合同纠纷类的裁判文书之前,降低检索的准确度。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本检索方法及装置,用于提高检索的准确度。技术方案如下:
本发明提供一种文本检索方法,所述方法包括:
对搜索内容进行分词,得到所述搜索内容对应的至少一个关键词;
对所述至少一个关键词进行扩词,得到所述至少一个关键词各自对应的至少一个扩展词;
将所述至少一个关键词和所述至少一个关键词各自对应的至少一个扩展词存储在所述搜索内容对应的搜索词语集合中;
确定所述搜索词语集合中每个词语的词向量;
获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;
根据所述搜索词语集合中每个词语的词向量和所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量,对所述至少一个待检索文本进行排序输出。
优选地,所述根据所述搜索词语集合中每个词语的词向量和所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量,对所述至少一个待检索文本进行排序输出包括:
对所述至少一个待检索文本中的每个待检索文本:计算所述搜索词语集合中每个词语的词向量和该待检索文本对应的文本词语集合中每个词语的词向量之间的向量相似度,从所述搜索词语集合中每个词语各自对应的向量相似度中,获取所述搜索词语集合中每个词语各自对应的最大向量相似度,从所述搜索词语中每个词语各自对应的最大向量相似度中获取取值最小的最大向量相似度作为该待检索文本的排序得分;
根据待检索文本的排序得分,对所述至少一个待检索文本进行排序输出。
优选地,所述方法还包括:获取所述搜索内容对应的至少一个关键词的关键词数量;
在所述关键词数量小于或等于预设数量的情况下,执行对所述至少一个关键词进行扩词,得到所述至少一个关键词各自对应的至少一个扩展词的步骤。
优选地,所述对所述至少一个关键词进行扩词,得到所述至少一个关键词各自对应的至少一个扩展词包括:
对所述至少一个关键词中的每个关键词:获取该关键词的编码符号,根据该关键词的编码符号,查找该关键词对应的至少一个扩展词。
优选地,对任一待检索文本:获取该待检索文本的文本词语集合的过程包括:
对该待检索文本进行分词,得到多个词语;
从所述多个词语中去除重复词语和停用词,获得第一词语集合;
计算所述第一词语集合中每个词语的重要度;
根据所述第一词语集合中每个词语的重要度,从所述第一词语集合中确定出所述文本词语集合。
优选地,所述计算所述第一词语集合中每个词语的重要度包括:
对所述第一词语集合中的每个词语:确定该词语的左侧熵值和该词语的右侧熵值的熵值和,将所述熵值和确定为该词语的重要度;
或者
对所述第一词语集合中的每个词语:利用TextRank算法计算该词语的重要度。
本发明还提供一种文本检索装置,所述装置包括:
分词单元,用于对搜索内容进行分词,得到所述搜索内容对应的至少一个关键词;
扩词单元,用于对所述至少一个关键词进行扩词,得到所述至少一个关键词各自对应的至少一个扩展词;
存储单元,用于将所述至少一个关键词和所述至少一个关键词各自对应的至少一个扩展词存储在所述搜索内容对应的搜索词语集合中;
获取单元,用于获取至少一个待检索文本各自对应的文本词语集合;
确定单元,用于确定所述搜索词语集合中每个词语的词向量,以及确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;
排序输出单元,用于根据所述搜索词语集合中每个词语的词向量和所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量,对所述至少一个待检索文本进行排序输出。
优选地,所述排序输出单元包括:
计算子单元,用于对所述至少一个待检索文本中的每个待检索文本:计算所述搜索词语集合中每个词语的词向量和该待检索文本对应的文本词语集合中每个词语的词向量之间的向量相似度,从所述搜索词语集合中每个词语各自对应的向量相似度中,获取所述搜索词语集合中每个词语各自对应的最大向量相似度,从所述搜索词语中每个词语各自对应的最大向量相似度中获取取值最小的最大向量相似度作为该待检索文本的排序得分;
输出子单元,用于根据待检索文本的排序得分,对所述至少一个待检索文本进行排序输出。
优选地,所述获取单元,还用于获取所述搜索内容对应的至少一个关键词的关键词数量,并在所述关键词数量小于或等于预设数量的情况下,触发所述扩词单元对所述至少一个关键词进行扩词。
优选地,所述扩词单元,具体用于对所述至少一个关键词中的每个关键词:获取该关键词的编码符号,根据该关键词的编码符号,查找该关键词对应的至少一个扩展词。
优选地,所述获取单元,具体用于对任一待检索文本:对该待检索文本进行分词,得到多个词语,从所述多个词语中去除重复词语和停用词,获得第一词语集合,计算所述第一词语集合中每个词语的重要度,并根据所述第一词语集合中每个词语的重要度,从所述第一词语集合中确定出所述文本词语集合。
优选地,对所述第一词语集合中每个词语:该词语的重要度为该词语的熵值和,或者为利用TextRank算法计算出的该词语的重要度。
本发明还提供一种存储介质,所述存储介质上存储有程序,所述程序执行时实现上述文本检索方法。
本发明还提供一种处理器,所述处理器用于运行程序,其中所述程序运行时执行上述文本检索方法。
借由上述技术方案,本发明提供的文本检索方法及装置,可以对搜索内容进行分词,得到搜索内容对应的至少一个关键词,并对至少一个关键词进行扩词,得到至少一个关键词各自对应的至少一个扩展词,从而得到搜索内容对应的搜索词语集合,以增加用于检索且与搜索内容相关的词语数量。对搜索词语集合和至少一个待检索文本各自对应的文本词语集合来说,确定这两个集合中词语的词向量,并根据这两个集合中词语的词向量对至少一个待检索文本进行排序输出。由于本发明使用词向量表示各词语与词语间的关系,所以本发明可以根据各词语与词语间的关系对待检索文本进行排序输出,使得排序输出的待检索文本与搜索内容相关,从而提高检索的准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本公开的示例性实施例提供的一种文本检索方法的流程图;
图2示出了本公开的示例性实施例提供的确定文本词语集合的流程图;
图3示出了本公开的示例性实施例提供的另一种文本检索方法的流程图;
图4示出了本公开的示例性实施例提供的文本检索装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
请参阅图1,其示出了本公开的示例性实施例提供的一种文本检索方法的流程图,用于提高检索的准确度,其中所述文本检索方法可以包括以下步骤:
101:对搜索内容进行分词,得到搜索内容对应的至少一个关键词。所谓分词是指:将连续的字序列(搜索内容可以视为一个连续的字序列)按照一定规范拆分成多个独立的用于检索的关键词,如搜索内容为“老板不还钱”,对该搜索内容进行分词得到的关键词包括:“老板”、“不”和“还钱”。
在本示例性实施例中,可通过基于词库匹配的分词方法、基于词频度统计的分词方法、基于知识理解的分词方法和LTP(Language Technology Platform,语言技术平台)分词工具等中的至少一种对搜索内容进行分词,具体过程本示例性实施例不再详述。
102:对至少一个关键词进行扩词,得到至少一个关键词各自对应的至少一个扩展词。
可以理解的是:中文中存在同义词和相关词,这些同义词和相关词可以采用不同描述表示同一个含义或相似含义,如“大豆”、“毛豆”和“黄豆”表示相似含义,均表示豆类,“西红柿”和“番茄”表示同一个含义,均表示一种蔬菜“西红柿”,这就使得不同用户会根据自身用语习惯在文本中写入表示同一个含义或相似含义的不同词语,因此本示例性实施例需要对关键词进行扩词,以得到与关键词表示同一个含义或相似含义的至少一个扩展词,这样可以增加用于检索且与搜索内容相关的词语数量。并且文本中的词语和用于检索的词语在表示同一个含义或相似含义但两者采用不同描述的情况下,若仅通过关键词则会丢弃这些采用不同描述的文本,若通过关键词的扩展词则可以确定出采用不同描述的文本与搜索内容相关,提高检索的准确度和全面性。
在本示例性实施例中,关键词对应的扩展词可以是关键词的同义词和相关词中的至少一种,其中同义词是指与关键词表示同一个含义或相似含义的词,而相关词是指与关键词的相关性在预设相关性范围内的词,在相关词与关键词的相关性在预设相关性范围内时,表明相关词与关键词可以表示同一个含义或相似含义,预设相关性范围可以根据实际应用而定,对此本实施例不再阐述。
而对关键词进行扩词以得到关键词的至少一个扩展词的方式是:获取该关键词的编码符号,根据该关键词的编码符号,查找该关键词对应的至少一个扩展词。具体的,在本示例性实施例中可以预先构建词语到符号的第一映射算法以及符号到词语的第二映射算法,这样在得到一个关键词后,可以将该关键词写入到第一映射算法中,得到该关键词的编码符号;然后将该关键词的编码符号写入到第二映射算法中,得到该关键词对应的至少一个扩展词。由于本示例性实施例可以通过第二映射算法直接得到扩展词,使得本示例性实施例无需对存储有扩展词的列表进行遍历,所以本示例性实施例的时间复杂度为O(1),降低时间复杂度。
以同义词词林为例,申请人通过对同义词词林中的词语和词语对应的编码符号的分析,得到第一映射算法和第二映射算法。首先将关键词写入到第一映射算法中,得到表1所示结构的编码符号,如关键词的编码符号为Ba01A02=,其中表1为哈工大同义词林的树形结构。
表1哈工大同义词林的树形结构
从编码符号的第8位可知,“=”代表“相等”、“同义”,说明该编码符号对应的词语为同义词;“#”代表“不等”、“同类”,说明该编码符号对应的词语为相关词;“@”代表“自我封闭”、“独立”,说明该编码符号下仅有一个词语,基于此得到的第二映射算法规定:在编码符号的第8位为#或者=的情况下,将编码符号的第1位至第8位完全相同的各个词语互作为扩展词;在编码符号的第8位为@的情况下,将与该编码符号的第1位至第7位完全相同的各个词语作为该编码符号的词语的扩展词。
如编码符号为Da15B02#,则第二映射算法规定编码符号同样是Da15B02#的词为该编码符号的词语的扩展词;若编码符号为Da15B02@,则找到编码符号为Da15B02的词作为该编码符号的词的扩展词。
在本示例性实施例中,编码符号和扩展词以键值对的形式存储在列表中,这样在将关键词的编码符号写入到第二映射算法后,可以直接从列表中查找到编码符号对应的扩展词,使得本实施例的时间复杂度为O(1),降低时间复杂度。
这里需要说明的一点是:本实施例可以对搜索内容对应的所有关键词进行扩展,或者仅对所有关键词中的第一数量的关键词进行扩展,其中第一数量可以根据实际应用而定,对此本实施例不再阐述
103:将至少一个关键词和至少一个关键词各自对应的至少一个扩展词存储在搜索内容对应的搜索词语集合中。
104:确定搜索词语集合中每个词语的词向量。
在本示例性实施例中,可以使用至少一种词向量模型确定词语的词向量,如使用:word2vector模型、LSA(Latent Semantic Analysis,潜在语义分析)矩阵分解模型、PLSA(Probability Latent Semantic Analysis,概率潜语义分析)模型和LDA(LatentDirichlet Allocation,潜在狄利克雷分布)模型(通称为文档主题生成模型)等中的至少一种词向量模型。
在实际应用中,可以预先对词向量模型进行训练,例如通过一定数量的文本对词向量模型进行训练。如在实际应用中,可以利用10万级的裁判文书对word2vector模型进行训练,并通过训练好的word2vector模型获得搜索词语集合中的每个词语的词向量,其中每个词语的词向量可以表示各词语与词语间的关系(如相似性),并且词向量的维度可以在预设维度之间,如在50到300维,具体数目根据实际应用确定。
105:获取至少一个待检索文本各自对应的文本词语集合,并确定至少一个待检索文本各自对应的文本词语集合中每个词语的词向量。
其中,获取的待检索文本的数量可以不低于第一数量,例如第一数量可以是10万级,且待检索文本可以为至少一种类型的文本,如学术论文、专利、裁判文书等中的至少一种。
在本示例性实施例中,待检索文本可以至少包括:题目和正文。可以理解的是,题目中包含的词语对于待检索文本而言十分重要,因此本示例性实施例可以获取待检索文本的题目和正文对应的文本词语集合,使得文本词语集合中的词语更加全面和准确。其中,对任一待检索文本来说,确定文本词语集合的过程可以如图2所示,包括以下步骤:
201:对该待检索文本进行分词,得到多个词语,其中,对待检索文本进行分词的方式可以与对搜索内容进行分词的方式相同,对此本示例性实施例不再阐述。
202:从多个词语中去除重复词语和停用词,获得第一词语集合。
可以理解的是,从多个词语中去除重复词语的过程即为去重处理的过程,当多个词语中包括N个词语A时,可以将多个词语中的N-1个词语A删除,使得多个词语中仅包括一个词语A,其中,N≥2。
相对应的,停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为StopWords(停用词)。停用词可以分为两类,一类是功能词,这些功能词极其普遍,比如“网”一词在每个网站上均会出现,对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率;另一类为没有明确含义的词语,如语气助词、副词、介词、连接词等,因此对于这些停用词需要去除。
203:计算第一词语集合中每个词语的重要度。在本示例性实施例中,计算词语的重要度的方式包括但不限于下述方式:
一种方式:确定该词语的左侧熵值和该词语的右侧熵值的熵值和,将所述熵值和确定为该词语的重要度。其中词语的左侧熵值为该词语在待检测文本中的各出现位置的左侧相邻词语构成的集合的熵值,相应的,词语的右侧熵值为该词语在待检测文本中的各出现位置的右侧相邻词语构成的集合的熵值。
另一种方式:利用TextRank算法计算该词语的重要度,其中TextRank算法是一种用于文本的基于图的排序算法,对于利用TextRank算法计算该词语的重要度的过程不再详述。
204:根据第一词语集合中每个词语的重要度,从第一词语集合中确定出文本词语集合。具体的,可以根据第一词语集合中每个词语的重要度,对第一词语集合中的词语进行排序,选取出排序在前M位的词语,即从排序为第一位开始至排序为第M位的词语,由这M个词语组成文本词语集合,其中M的取值可以根据实际应用而定,对此本实施例不进行限定。
在确定待检索文本对应的文本词语集合后,可以采用确定搜索词语集合中词语的词向量的方式,确定文本词语集合中词语的词向量,对此不再详述。
106:根据搜索词语集合中每个词语的词向量和至少一个待检索文本各自对应的文本词语集合中每个词语的词向量,对至少一个待检索文本进行排序输出。
在本示例性实施例中,对至少一个待检索文本进行排序输出的可行方式如下:
对至少一个待检索文本中的每个待检索文本:计算搜索词语集合中每个词语的词向量和该待检索文本对应的文本词语集合中每个词语的词向量之间的向量相似度,从搜索词语集合中每个词语各自对应的向量相似度中,获取搜索词语集合中每个词语各自对应的最大向量相似度,从搜索词语集合中每个词语各自对应的最大向量相似度中获取取值最小的最大向量相似度作为该待检索文本的排序得分,并根据待检索文本的排序得分,对至少一个待检索文本进行排序输出。
其中向量相似度可以是余弦相似度、正弦相似度和距离相似度等中的任意一种,如余弦相似度为:a*b/|a|*|b|,其中a和b表示两个词向量,|a|表示a的长度,a*b表示a、b两个向量的点乘求和,而最大向量相似度则是向量相似度中取值最大的向量相似度。
下面进行举例说明,如搜索词语集合包括:A1和A2两个词语,某个待检索文本中确定的文本词语集合包括:B1和B2两个词语,搜索词语集合中每个词语和该待检索文本对应的文本词语集合中每个词语的词向量的词向量之间的向量相似度分别为:
A1与B1相似度为23%;
A1与B2相似度为50%;
A2与B1相似度为76%;
A2与B2相似度为15%。
则对于A1来说,可以确定A1对应的两个向量相似度中的最大向量相似度为50%,即:A1与文本词语集合中的B2最相似。同时,对于A2来说,可以确定A2对应的两个向量相似度中的最大向量相似度为76%,即:A2与文本词语集合中的B1最相似。然后,对于包括A1和A2这两个词语的搜索词语集合而言,可以将两个最大向量相似度中的最小的最大向量相似度,即50%作为该待检索文本的排序得分。
可以理解的是,上述最大向量相似度表示搜索词语集合中的词语与待检索文本中的某个词语高度相关,而取各最大向量相似度中的最小的最大向量相似度(即最大向量相似度中取值最小的最大向量相似度)作为待检索文本的排序得分是为了使得搜索词语集合中的每个词语都体现在从待检索文本中确定的文本词语集合的向量相似度中。比如搜索词语集合包括:“老板”和“还钱”,如果一个待检索文本的文本词语集合中有“老板”和“老板”的同义词和/或相关词,但没有“还钱”和“还钱”的同义词和/或相关词,那么取各最大向量相似度中最小的最大向量相似度后,该待检索文本的排序得分就很低,排名就会靠后,而这也符合实际情况,因此根据向量相似度可以提高检索的准确度。
从上述技术方案可知,在对搜索内容进行分词,得到搜索内容对应的至少一个关键词后,可以对至少一个关键词进行扩词,得到至少一个关键词各自对应的至少一个扩展词,从而得到搜索内容对应的搜索词语集合,以增加用于检索且与搜索内容相关的词语数量。对搜索词语集合和至少一个待检索文本各自对应的文本词语集合来说,确定这两个集合中词语的词向量,并根据这两个集合中词语的词向量对至少一个待检索文本进行排序输出。由于本发明使用词向量表示各词语与词语间的关系,所以本发明可以根据各词语与词语间的关系对待检索文本进行排序输出,使得排序输出的待检索文本与搜索内容相关,从而提高检索的准确度。
请参阅图3,其示出了本公开的示例性实施例提供的另一种文本检索方法的流程图,可以包括以下步骤:
301:对搜索内容进行分词,得到搜索内容对应的至少一个关键词。
302:获取搜索内容对应的至少一个关键词的关键词数量。
303:在关键词数量小于或等于预设数量的情况下,对至少一个关键词进行扩词,得到至少一个关键词各自对应的至少一个扩展词。
也就是说,在关键词数量小于或等于预设数量的情况下,才对关键词进行扩词,即在关键词数量大于预设数量的情况下,则认为关键词可以满足文本检索的要求,而在关键词数量小于或等于预设数量的情况下,则认为关键词不满足文本检索的要求,此时则需要对其进行扩词,具体扩展方式请参阅步骤102的说明。
如在关键词数量小于或等于3个的情况下,对关键词进行扩词,以增加用于检索且与搜索内容相关的扩展词,其中本实施例不限定预设数量的取值。
304:将至少一个关键词和至少一个关键词各自对应的至少一个扩展词存储在搜索内容对应的搜索词语集合中。
305:确定搜索词语集合中每个词语的词向量。
306:获取至少一个待检索文本各自对应的文本词语集合,并确定至少一个待检索文本各自对应的文本词语集合中每个词语的词向量。
307:根据搜索词语集合中每个词语的词向量和至少一个待检索文本各自对应的文本词语集合中每个词语的词向量,对至少一个待检索文本进行排序输出。
对于本实施例来说,步骤301、304至307的实施过程可以参阅图1所示实施例中的相关说明,对此本实施例不再阐述。
与上述方法实施例相对应,本公开的示例性实施例还提供一种文本检索装置,其结构示意图如图4所示,可以包括:分词单元11、扩词单元12、存储单元13、获取单元14、确定单元15和排序输出单元16。
分词单元11,用于对搜索内容进行分词,得到搜索内容对应的至少一个关键词。所谓分词是指:将连续的字序列(搜索内容可以视为一个连续的字序列)按照一定规范拆分成多个独立的用于检索的关键词,分词单元11可通过基于词库匹配的分词方法、基于词频度统计的分词方法、基于知识理解的分词方法和LTP分词工具等中的至少一种对搜索内容进行分词,具体过程本示例性实施例不再详述。
扩词单元12,用于对至少一个关键词进行扩词,得到至少一个关键词各自对应的至少一个扩展词。
可以理解的是:中文中存在同义词和相关词,这些同义词和相关词可以采用不同描述表示同一个含义或相似含义,如“大豆”、“毛豆”和“黄豆”表示相似含义,均表示豆类,“西红柿”和“番茄”表示同一个含义,均表示一种蔬菜“西红柿”,这就使得不同用户会根据自身用语习惯在文本中写入表示同一个含义或相似含义的不同词语,因此本示例性实施例扩词单元12需要对关键词进行扩词,以得到与关键词表示同一个含义或相似含义的至少一个扩展词,这样可以增加用于检索且与搜索内容相关的词语数量。并且文本中的词语和用于检索的词语在表示同一个含义或相似含义但两者采用不同描述的情况下,若仅通过关键词则会丢弃这些采用不同描述的文本,若通过关键词的扩展词则可以确定出采用不同描述的文本与搜索内容相关,提高检索的准确度和全面性。
在本示例性实施例中,关键词对应的扩展词可以是关键词的同义词和相关词中的至少一种,其中同义词是指与关键词表示同一个含义或相似含义的词,而相关词是指与关键词的相关性在预设相关性范围内的词,在相关词与关键词的相关性在预设相关性范围内时,表明相关词与关键词可以表示同一个含义或相似含义,预设相关性范围可以根据实际应用而定,对此本实施例不再阐述。
而扩词单元12对关键词进行扩词以得到关键词的至少一个扩展词的方式是:获取该关键词的编码符号,根据该关键词的编码符号,查找该关键词对应的至少一个扩展词,具体请参阅方法实施例中的相关说明,对此本实施例不再阐述。
存储单元13,用于将至少一个关键词和至少一个关键词各自对应的至少一个扩展词存储在搜索内容对应的搜索词语集合中。
获取单元14,用于获取至少一个待检索文本各自对应的文本词语集合。其中,获取的待检索文本的数量可以不低于第一数量,例如第一数量可以是10万级,且待检索文本可以为至少一种类型的文本,如学术论文、专利、裁判文书等中的至少一种。
在本示例性实施例中,待检索文本可以至少包括:题目和正文。可以理解的是,题目中包含的词语对于待检索文本而言十分重要,因此本示例性实施例可以获取待检索文本的题目和正文对应的文本词语集合,使得文本词语集合中的词语更加全面和准确。其中获取单元14对任一待检索文本:获取该待检索文本对应的文本词语集合的过程如下:
对该待检索文本进行分词,得到多个词语,从多个词语中去除重复词语和停用词,获得第一词语集合,计算第一词语集合中每个词语的重要度,并根据第一词语集合中每个词语的重要度,从第一词语集合中确定出文本词语集合,具体说明请参阅方法实施例中的现骨干说明。其中,对第一词语集合中每个词语:该词语的重要度为该词语的熵值和,或者为利用TextRank算法计算出的该词语的重要度,该词语的熵值和为该词语的左侧熵值和该词语的右侧熵值的和,该词语的左侧熵值为该词语在待检测文本中的各出现位置的左侧相邻词语构成的集合的熵值,相应的,该词语的右侧熵值为该词语在待检测文本中的各出现位置的右侧相邻词语构成的集合的熵值。
确定单元15,用于确定搜索词语集合中每个词语的词向量,以及确定至少一个待检索文本各自对应的文本词语集合中每个词语的词向量。
在本示例性实施例中,确定单元15可以使用至少一种词向量模型确定词语的词向量,如使用:word2vector模型、LSA矩阵分解模型、PLSA模型和LDA模型等中的至少一种词向量模型。
排序输出单元16,用于根据搜索词语集合中每个词语的词向量和至少一个待检索文本各自对应的文本词语集合中每个词语的词向量,对至少一个待检索文本进行排序输出。
在本示例性实施例中,排序输出单元包括:计算子单元和输出子单元,其中,计算子单元,用于对至少一个待检索文本中的每个待检索文本:计算搜索词语集合中每个词语的词向量和该待检索文本对应的文本词语集合中每个词语的词向量之间的向量相似度,从搜索词语集合中每个词语各自对应的向量相似度中,获取搜索词语集合中每个词语各自对应的最大向量相似度,从搜索词语集合中每个词语各自对应的最大向量相似度中获取取值最小的最大向量相似度作为该待检索文本的排序得分,并根据待检索文本的排序得分,对至少一个待检索文本进行排序输出;输出子单元,用于根据待检索文本的排序得分,对至少一个待检索文本进行排序输出。而对于排序输出单元16以从搜索词语集合中每个词语各自对应的最大向量相似度中的取值最小的最大向量相似度最为该待检索文本的排序得分的理由请参阅方法实施例中的相关说明,对此不再举例说明。
从上述技术方案可知,在对搜索内容进行分词,得到搜索内容对应的至少一个关键词后,可以对至少一个关键词进行扩词,得到至少一个关键词各自对应的至少一个扩展词,从而得到搜索内容对应的搜索词语集合,以增加用于检索且与搜索内容相关的词语数量。对搜索词语集合和至少一个待检索文本各自对应的文本词语集合来说,确定这两个集合中词语的词向量,并根据这两个集合中词语的词向量对至少一个待检索文本进行排序输出。由于本发明使用词向量表示各词语与词语间的关系,所以本发明可以根据各词语与词语间的关系对待检索文本进行排序输出,使得排序输出的待检索文本与搜索内容相关,从而提高检索的准确度。
所述文本检索装置包括处理器和存储器,上述分词单元11、扩词单元12、存储单元13、获取单元14、确定单元15和排序输出单元16等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提高检索的准确度。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述文本检索方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述文本检索方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
对搜索内容进行分词,得到所述搜索内容对应的至少一个关键词;
对所述至少一个关键词进行扩词,得到所述至少一个关键词各自对应的至少一个扩展词;
将所述至少一个关键词和所述至少一个关键词各自对应的至少一个扩展词存储在所述搜索内容对应的搜索词语集合中;
确定所述搜索词语集合中每个词语的词向量;
获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;
根据所述搜索词语集合中每个词语的词向量和所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量,对所述至少一个待检索文本进行排序输出。
优选地,所述根据所述搜索词语集合中每个词语的词向量和所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量,对所述至少一个待检索文本进行排序输出包括:
对所述至少一个待检索文本中的每个待检索文本:计算所述搜索词语集合中每个词语的词向量和该待检索文本对应的文本词语集合中每个词语的词向量之间的向量相似度,从所述搜索词语集合中每个词语各自对应的向量相似度中,获取所述搜索词语集合中每个词语各自对应的最大向量相似度,从所述搜索词语中每个词语各自对应的最大向量相似度中获取取值最小的最大向量相似度作为该待检索文本的排序得分;
根据待检索文本的排序得分,对所述至少一个待检索文本进行排序输出。
优选地,处理器执行程序时还实现以下步骤:
获取所述搜索内容对应的至少一个关键词的关键词数量;
在所述关键词数量小于或等于预设数量的情况下,执行对所述至少一个关键词进行扩词,得到所述至少一个关键词各自对应的至少一个扩展词的步骤。
优选地,所述对所述至少一个关键词进行扩词,得到所述至少一个关键词各自对应的至少一个扩展词包括:
对所述至少一个关键词中的每个关键词:获取该关键词的编码符号,根据该关键词的编码符号,查找该关键词对应的至少一个扩展词。
优选地,对任一待检索文本:获取该待检索文本的文本词语集合的过程包括:
对该待检索文本进行分词,得到多个词语;
从所述多个词语中去除重复词语和停用词,获得第一词语集合;
计算所述第一词语集合中每个词语的重要度;
根据所述第一词语集合中每个词语的重要度,从所述第一词语集合中确定出所述文本词语集合。
优选地,所述计算所述第一词语集合中每个词语的重要度包括:
对所述第一词语集合中的每个词语:确定该词语的左侧熵值和该词语的右侧熵值的熵值和,将所述熵值和确定为该词语的重要度;
或者
对所述第一词语集合中的每个词语:利用TextRank算法计算该词语的重要度。
本文中的设备可以是服务器、PC、PAD、手机等。
本发明还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
对搜索内容进行分词,得到所述搜索内容对应的至少一个关键词;
对所述至少一个关键词进行扩词,得到所述至少一个关键词各自对应的至少一个扩展词;
将所述至少一个关键词和所述至少一个关键词各自对应的至少一个扩展词存储在所述搜索内容对应的搜索词语集合中;
确定所述搜索词语集合中每个词语的词向量;
获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;
根据所述搜索词语集合中每个词语的词向量和所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量,对所述至少一个待检索文本进行排序输出。
优选地,所述根据所述搜索词语集合中每个词语的词向量和所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量,对所述至少一个待检索文本进行排序输出包括:
对所述至少一个待检索文本中的每个待检索文本:计算所述搜索词语集合中每个词语的词向量和该待检索文本对应的文本词语集合中每个词语的词向量之间的向量相似度,从所述搜索词语集合中每个词语各自对应的向量相似度中,获取所述搜索词语集合中每个词语各自对应的最大向量相似度,从所述搜索词语中每个词语各自对应的最大向量相似度中获取取值最小的最大向量相似度作为该待检索文本的排序得分;
根据待检索文本的排序得分,对所述至少一个待检索文本进行排序输出。
优选地,当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:
获取所述搜索内容对应的至少一个关键词的关键词数量;
在所述关键词数量小于或等于预设数量的情况下,执行对所述至少一个关键词进行扩词,得到所述至少一个关键词各自对应的至少一个扩展词的步骤。
优选地,所述对所述至少一个关键词进行扩词,得到所述至少一个关键词各自对应的至少一个扩展词包括:
对所述至少一个关键词中的每个关键词:获取该关键词的编码符号,根据该关键词的编码符号,查找该关键词对应的至少一个扩展词。
优选地,对任一待检索文本:获取该待检索文本的文本词语集合的过程包括:
对该待检索文本进行分词,得到多个词语;
从所述多个词语中去除重复词语和停用词,获得第一词语集合;
计算所述第一词语集合中每个词语的重要度;
根据所述第一词语集合中每个词语的重要度,从所述第一词语集合中确定出所述文本词语集合。
优选地,所述计算所述第一词语集合中每个词语的重要度包括:
对所述第一词语集合中的每个词语:确定该词语的左侧熵值和该词语的右侧熵值的熵值和,将所述熵值和确定为该词语的重要度;
或者
对所述第一词语集合中的每个词语:利用TextRank算法计算该词语的重要度。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种文本检索方法,其特征在于,所述方法包括:
对搜索内容进行分词,得到所述搜索内容对应的至少一个关键词;
对所述至少一个关键词进行扩词,得到所述至少一个关键词各自对应的至少一个扩展词;
将所述至少一个关键词和所述至少一个关键词各自对应的至少一个扩展词存储在所述搜索内容对应的搜索词语集合中;
确定所述搜索词语集合中每个词语的词向量;
获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;
根据所述搜索词语集合中每个词语的词向量和所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量,对所述至少一个待检索文本进行排序输出。
2.根据权利要求1所述的方法,其特征在于,所述根据所述搜索词语集合中每个词语的词向量和所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量,对所述至少一个待检索文本进行排序输出包括:
对所述至少一个待检索文本中的每个待检索文本:计算所述搜索词语集合中每个词语的词向量和该待检索文本对应的文本词语集合中每个词语的词向量之间的向量相似度,从所述搜索词语集合中每个词语各自对应的向量相似度中,获取所述搜索词语集合中每个词语各自对应的最大向量相似度,从所述搜索词语中每个词语各自对应的最大向量相似度中获取取值最小的最大向量相似度作为该待检索文本的排序得分;
根据待检索文本的排序得分,对所述至少一个待检索文本进行排序输出。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取所述搜索内容对应的至少一个关键词的关键词数量;
在所述关键词数量小于或等于预设数量的情况下,执行对所述至少一个关键词进行扩词,得到所述至少一个关键词各自对应的至少一个扩展词的步骤。
4.根据权利要求1至3任意一项所述的方法,其特征在于,所述对所述至少一个关键词进行扩词,得到所述至少一个关键词各自对应的至少一个扩展词包括:
对所述至少一个关键词中的每个关键词:获取该关键词的编码符号,根据该关键词的编码符号,查找该关键词对应的至少一个扩展词。
5.根据权利要求1所述的方法,其特征在于,对任一待检索文本:获取该待检索文本的文本词语集合的过程包括:
对该待检索文本进行分词,得到多个词语;
从所述多个词语中去除重复词语和停用词,获得第一词语集合;
计算所述第一词语集合中每个词语的重要度;
根据所述第一词语集合中每个词语的重要度,从所述第一词语集合中确定出所述文本词语集合。
6.根据权利要求5所述的方法,其特征在于,所述计算所述第一词语集合中每个词语的重要度包括:
对所述第一词语集合中的每个词语:确定该词语的左侧熵值和该词语的右侧熵值的熵值和,将所述熵值和确定为该词语的重要度;
或者
对所述第一词语集合中的每个词语:利用TextRank算法计算该词语的重要度。
7.一种文本检索装置,其特征在于,所述装置包括:
分词单元,用于对搜索内容进行分词,得到所述搜索内容对应的至少一个关键词;
扩词单元,用于对所述至少一个关键词进行扩词,得到所述至少一个关键词各自对应的至少一个扩展词;
存储单元,用于将所述至少一个关键词和所述至少一个关键词各自对应的至少一个扩展词存储在所述搜索内容对应的搜索词语集合中;
获取单元,用于获取至少一个待检索文本各自对应的文本词语集合;
确定单元,用于确定所述搜索词语集合中每个词语的词向量,以及确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;
排序输出单元,用于根据所述搜索词语集合中每个词语的词向量和所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量,对所述至少一个待检索文本进行排序输出。
8.根据权利要求7所述的装置,其特征在于,所述获取单元,还用于获取所述搜索内容对应的至少一个关键词的关键词数量,并在所述关键词数量小于或等于预设数量的情况下,触发所述扩词单元对所述至少一个关键词进行扩词;
所述扩词单元,具体用于对所述至少一个关键词中的每个关键词:获取该关键词的编码符号,根据该关键词的编码符号,查找该关键词对应的至少一个扩展词。
9.一种存储介质,其特征在于,所述存储介质上存储有程序,所述程序执行时实现权利要求1至6任意一项所述的文本检索方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中所述程序运行时执行权利要求1至6任意一项所述的文本检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711044415.9A CN110019669B (zh) | 2017-10-31 | 2017-10-31 | 一种文本检索方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711044415.9A CN110019669B (zh) | 2017-10-31 | 2017-10-31 | 一种文本检索方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110019669A true CN110019669A (zh) | 2019-07-16 |
CN110019669B CN110019669B (zh) | 2021-06-29 |
Family
ID=67186712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711044415.9A Active CN110019669B (zh) | 2017-10-31 | 2017-10-31 | 一种文本检索方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110019669B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442704A (zh) * | 2019-08-13 | 2019-11-12 | 重庆誉存大数据科技有限公司 | 一种企业新闻筛选方法及系统 |
CN111159361A (zh) * | 2019-12-30 | 2020-05-15 | 北京阿尔山区块链联盟科技有限公司 | 获取文章的方法和装置及电子设备 |
CN112819512A (zh) * | 2021-01-22 | 2021-05-18 | 北京有竹居网络技术有限公司 | 一种文本处理方法、装置、设备及介质 |
CN112925873A (zh) * | 2021-02-24 | 2021-06-08 | 京华信息科技股份有限公司 | 面向文本搜索需求的形式化表达方法、装置及存储介质 |
WO2021175005A1 (zh) * | 2020-03-04 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 基于向量的文档检索方法、装置、计算机设备及存储介质 |
CN113836918A (zh) * | 2021-09-29 | 2021-12-24 | 天翼物联科技有限公司 | 文档搜索方法、装置、计算机设备及计算机可读存储介质 |
CN114996439A (zh) * | 2022-08-01 | 2022-09-02 | 太极计算机股份有限公司 | 一种文本搜索方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120330978A1 (en) * | 2008-06-24 | 2012-12-27 | Microsoft Corporation | Consistent phrase relevance measures |
CN103886063A (zh) * | 2014-03-18 | 2014-06-25 | 国家电网公司 | 一种文本检索方法和装置 |
US20160070803A1 (en) * | 2014-09-09 | 2016-03-10 | Funky Flick, Inc. | Conceptual product recommendation |
CN105653671A (zh) * | 2015-12-29 | 2016-06-08 | 畅捷通信息技术股份有限公司 | 相似信息推荐方法及系统 |
CN106021223A (zh) * | 2016-05-09 | 2016-10-12 | Tcl集团股份有限公司 | 一种句子相似度的计算方法及系统 |
CN106156272A (zh) * | 2016-06-21 | 2016-11-23 | 北京工业大学 | 一种基于多源语义分析的信息检索方法 |
CN106991092A (zh) * | 2016-01-20 | 2017-07-28 | 阿里巴巴集团控股有限公司 | 基于大数据挖掘相似裁判文书的方法和设备 |
CN107066621A (zh) * | 2017-05-11 | 2017-08-18 | 腾讯科技(深圳)有限公司 | 一种相似视频的检索方法、装置和存储介质 |
CN107153689A (zh) * | 2017-04-29 | 2017-09-12 | 安徽富驰信息技术有限公司 | 一种基于主题相似度的案件检索方法 |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
-
2017
- 2017-10-31 CN CN201711044415.9A patent/CN110019669B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120330978A1 (en) * | 2008-06-24 | 2012-12-27 | Microsoft Corporation | Consistent phrase relevance measures |
CN103886063A (zh) * | 2014-03-18 | 2014-06-25 | 国家电网公司 | 一种文本检索方法和装置 |
US20160070803A1 (en) * | 2014-09-09 | 2016-03-10 | Funky Flick, Inc. | Conceptual product recommendation |
CN105653671A (zh) * | 2015-12-29 | 2016-06-08 | 畅捷通信息技术股份有限公司 | 相似信息推荐方法及系统 |
CN106991092A (zh) * | 2016-01-20 | 2017-07-28 | 阿里巴巴集团控股有限公司 | 基于大数据挖掘相似裁判文书的方法和设备 |
CN106021223A (zh) * | 2016-05-09 | 2016-10-12 | Tcl集团股份有限公司 | 一种句子相似度的计算方法及系统 |
CN106156272A (zh) * | 2016-06-21 | 2016-11-23 | 北京工业大学 | 一种基于多源语义分析的信息检索方法 |
CN107153689A (zh) * | 2017-04-29 | 2017-09-12 | 安徽富驰信息技术有限公司 | 一种基于主题相似度的案件检索方法 |
CN107066621A (zh) * | 2017-05-11 | 2017-08-18 | 腾讯科技(深圳)有限公司 | 一种相似视频的检索方法、装置和存储介质 |
CN107247780A (zh) * | 2017-06-12 | 2017-10-13 | 北京理工大学 | 一种基于知识本体的专利文献相似性度量方法 |
Non-Patent Citations (3)
Title |
---|
杨丽萍: "面向自然语言的法律检索系统的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
梁伟明: "中文关键词提取技术", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
胡小荣等: "基于风险短语自动抽取的上市公司风险识别方法及可视化研究", 《情报学报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110442704A (zh) * | 2019-08-13 | 2019-11-12 | 重庆誉存大数据科技有限公司 | 一种企业新闻筛选方法及系统 |
CN111159361A (zh) * | 2019-12-30 | 2020-05-15 | 北京阿尔山区块链联盟科技有限公司 | 获取文章的方法和装置及电子设备 |
CN111159361B (zh) * | 2019-12-30 | 2023-10-20 | 北京阿尔山区块链联盟科技有限公司 | 获取文章的方法和装置及电子设备 |
WO2021175005A1 (zh) * | 2020-03-04 | 2021-09-10 | 深圳壹账通智能科技有限公司 | 基于向量的文档检索方法、装置、计算机设备及存储介质 |
CN112819512A (zh) * | 2021-01-22 | 2021-05-18 | 北京有竹居网络技术有限公司 | 一种文本处理方法、装置、设备及介质 |
CN112925873A (zh) * | 2021-02-24 | 2021-06-08 | 京华信息科技股份有限公司 | 面向文本搜索需求的形式化表达方法、装置及存储介质 |
CN113836918A (zh) * | 2021-09-29 | 2021-12-24 | 天翼物联科技有限公司 | 文档搜索方法、装置、计算机设备及计算机可读存储介质 |
CN114996439A (zh) * | 2022-08-01 | 2022-09-02 | 太极计算机股份有限公司 | 一种文本搜索方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110019669B (zh) | 2021-06-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110019669A (zh) | 一种文本检索方法及装置 | |
US8775442B2 (en) | Semantic search using a single-source semantic model | |
CN105224521B (zh) | 主题词提取方法及使用其获取相关数字资源的方法及装置 | |
CN111046221B (zh) | 歌曲推荐方法、装置、终端设备以及存储介质 | |
CN110019668A (zh) | 一种文本检索方法及装置 | |
Wang et al. | Targeted disambiguation of ad-hoc, homogeneous sets of named entities | |
KR102046692B1 (ko) | 다언어 특질 투영된 개체 공간 기반 개체 요약본 생성 방법 및 시스템 | |
CN108875065B (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
US20110320442A1 (en) | Systems and Methods for Semantics Based Domain Independent Faceted Navigation Over Documents | |
CN112329460A (zh) | 文本的主题聚类方法、装置、设备及存储介质 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN114995903B (zh) | 一种基于预训练语言模型的类别标签识别方法及装置 | |
CN105354182B (zh) | 获取相关数字资源的方法及使用其生成专题的方法及装置 | |
Sarkar et al. | A comparative analysis of particle swarm optimization and K-means algorithm for text clustering using Nepali Wordnet | |
CN110019670A (zh) | 一种文本检索方法及装置 | |
Wita et al. | Content-based filtering recommendation in abstract search using neo4j | |
CN113139383A (zh) | 一种文档排序方法、系统、电子设备及存储介质 | |
Wahyudi et al. | Information retrieval system for searching JSON files with vector space model method | |
JP5869948B2 (ja) | パッセージ分割方法、装置、及びプログラム | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 | |
Garrido et al. | Improving the generation of infoboxes from data silos through machine learning and the use of semantic repositories | |
CN111062219A (zh) | 一种基于张量的潜在语义分析文本处理方法及装置 | |
CN110019665A (zh) | 文本检索方法及装置 | |
CN115328945A (zh) | 数据资产的检索方法、电子设备及计算机可读存储介质 | |
JP2005025465A (ja) | 文書検索方法及び文書検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing Applicant after: Beijing Guoshuang Technology Co.,Ltd. Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A Applicant before: Beijing Guoshuang Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |