CN110019670A - 一种文本检索方法及装置 - Google Patents

一种文本检索方法及装置 Download PDF

Info

Publication number
CN110019670A
CN110019670A CN201711048519.7A CN201711048519A CN110019670A CN 110019670 A CN110019670 A CN 110019670A CN 201711048519 A CN201711048519 A CN 201711048519A CN 110019670 A CN110019670 A CN 110019670A
Authority
CN
China
Prior art keywords
word
text
retrieved
entropy
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711048519.7A
Other languages
English (en)
Inventor
戴威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201711048519.7A priority Critical patent/CN110019670A/zh
Publication of CN110019670A publication Critical patent/CN110019670A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文本检索方法及装置。方法包括:对检索文本进行分词,获得检索词语集合;对于检索词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和;依据各个词语的熵值和,选取预设数量的词语作为关键词集合;确定关键词集合中各个词语的词向量;获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;计算关键词集合中每一个词语的词向量分别与至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;根据相似度将至少一个待检索文本进行排序输出。本发明提高了检索结果的准确性。

Description

一种文本检索方法及装置
技术领域
本发明涉及文本检索技术领域,尤其涉及一种文本检索方法及装置。
背景技术
法律文书类案推送是指输入一篇法律文书,采用一定的算法获得一系列与该输入的法律文书相似的其他文书,借此以快速查找到与当前输入的法律文书相关的历史文书(也称历史案件)。
然而目前采用的算法一般是基于一些筛选规则,例如案由相同、适用法条一致等,来检索出与输入的法律文书相似的其他文书,这种检索方式得到的检索结果往往准确性较差。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的文本检索方法及装置,技术方案如下:
一种文本检索方法,所述方法包括:
对检索文本进行分词,获得检索词语集合;
对于所述检索词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和;
依据各个词语的熵值和,选取预设数量的词语作为关键词集合;
确定所述关键词集合中各个词语的词向量;
获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;
计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;
根据所述相似度将所述至少一个待检索文本进行排序输出。
可选地,获取至少一个待检索文本包括:基于所述检索文本,利用文本相似度算法,确定至少一个待检索文本;
获取至少一个待检索文本各自对应的文本词语集合包括:
对每一个待检索文本进行分词,获得多个词语;
从所述多个词语中去除重复词语和停用词,获得候选词语集合;
对于所述候选词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和;
根据所述候选词语集合中的各个词语的熵值和,从所述候选词语集合中确定出文本词语集合。
可选地,对于每个词语,分别计算每个词语的左侧熵值和右侧熵值包括:
对于每个词语,统计该词语在其所在文本中所有出现位置处的左侧词语,构成左侧词语集合;统计该词语在其所在文本中所有出现位置处的右侧词语,构成右侧词语集合;
计算所述左侧词语集合的熵值,作为该词语的左侧熵值;
计算所述右侧词语集合的熵值,作为该词语的右侧熵值。
可选地,所述根据所述相似度将所述至少一个待检索文本进行排序输出,包括:
对于任意一个待检索文本,从计算得到的所述关键词集合中每个词语与该待检索文本的文本词语集合中每个词语的相似度中,获取所述关键词集合中每个词语各自对应的最大相似度;
从所述关键词集合中每个词语各自对应的最大相似度中,按最大相似度从大到小的顺序,确定预设排序位置处的词语对应的最大相似度作为所述待检索文本的排序得分;
依据各个待检索文本的排序得分,对所述至少一个待检索文本进行排序输出。
可选地,所述待检索文本包括:待检索文本题目和待检索文本正文。
可选地,确定词语的词向量包括:
利用预先训练好的词向量模型,确定词语的词向量;
其中所述预先训练好的词向量模型包括以下任意一种:word2vector模型、潜在语义分析LSA矩阵分解模型、概率潜语义分析PLSA潜在语义分析概率模型和潜在狄利克雷分布LDA模型。
一种文本检索装置,所述装置包括:
分词单元,用于对检索文本进行分词,获得检索词语集合;
熵值计算单元,用于对于所述检索词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和;
关键词集合确定单元,用于依据各个词语的熵值和,选取预设数量的词语作为关键词集合;
第一词向量确定单元,用于确定所述关键词集合中各个词语的词向量;
文本词语集合获取单元,用于获取至少一个待检索文本各自对应的文本词语集合;
第二词向量确定单元,用于确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;
相似度计算单元,用于计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;
文本排序输出单元,用于根据所述相似度将所述至少一个待检索文本进行排序输出。
可选地,所述文本排序输出单元包括:
最大相似度确定子单元,用于对于任意一个待检索文本,从计算得到的所述关键词集合中每个词语与该待检索文本的文本词语集合中每个词语的相似度中,获取所述关键词集合中每个词语各自对应的最大相似度;
排序得分确定子单元,用于从所述关键词集合中每个词语各自对应的最大相似度中,按最大相似度从大到小的顺序,确定预设排序位置处的词语对应的最大相似度作为所述待检索文本的排序得分;
文本排序输出子单元,用于依据各个待检索文本的排序得分,对所述至少一个待检索文本进行排序输出。
一种存储介质,其上存储有程序,所述程序被处理器执行时实现前文所述文本检索方法。
一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行前文所述文本检索方法。
借由上述技术方案,本发明提供的文本检索方法及装置中,对检索文本进行分词,获得检索词语集合;对于所述检索词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和;依据各个词语的熵值和,选取预设数量的词语作为关键词集合;确定所述关键词集合中各个词语的词向量;获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;根据所述相似度将所述至少一个待检索文本进行排序输出。
本发明通过计算检索词语集合中的每个词语的熵值和,并依据各个词语的熵值和,选取预设数量的词语作为关键词集合,该得到的关键词集合能够较为准确地表达检索文本的核心内容,排除了一些高频无关词语的干扰,在一定程度上保证了待检索文本的准确性。且,本申请使用词向量表示各词语及词语间的关系,并根据各词语本身以及词语间的关系对待检索文本进行排序,检索结果的准确性进一步提高。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种文本检索方法的流程图;
图2示出了本发明实施例提供的一种文本检索装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供的一种文本检索方法,可以包括:
步骤101,对检索文本进行分词,获得检索词语集合。
具体的,本发明可以通过基于词库匹配的分词方法、基于词频度统计的分词方法、基于知识理解的分词方法和哈工大的LTP(Language Technology Platform,语言技术平台)分词工具等中的至少一种,对用户输入的检索文本进行分词。
可选的,本发明对用户输入的检索文件进行分词后,还可以将分词后得到的所有词语执行去重处理,进而得到去重处理后的检索词语集合。如,当分词后得到的词语中,词语“抢劫”出现有N次,则本发明可以将N-1个“抢劫”删除,使得检索词语集合中仅出现一次词语“抢劫”。其中,N为大于1的正整数。
为了便于说明,本发明将对用户输入的检索文本进行分词,获得的检索词语集合记为A。
步骤102,对于所述检索词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和。
在获得检索词语集合A后,分别计算该检索词语集合A中每个词语的熵值和。具体的,本发明步骤102可以采用如下步骤1021-步骤1024实现,包括:
步骤1021,对于每个词语,统计该词语在其所在文本中所有出现位置处的左侧词语,构成左侧词语集合;统计该词语在其所在文本中所有出现位置处的右侧词语,构成右侧词语集合。
具体的,假设检索词语集合A包括词语“杀人”和词语“抢劫”,则本发明统计词语“杀人”在用户输入的检索文本中所有出现位置处的左侧词语,构成左侧词语集合S1,统计词语“杀人”在用户输入的检索文本中所有出现位置处的右侧词语,构成右侧词语集合S2。统计词语“抢劫”在用户输入的检索文本中所有出现位置处的左侧词语,构成左侧词语集合S3,统计词语“抢劫”在用户输入的检索文本中所有出现位置处的右侧词语,构成右侧词语集合S4
步骤1022,计算所述左侧词语集合的熵值,作为该词语的左侧熵值。
步骤1023,计算所述右侧词语集合的熵值,作为该词语的右侧熵值。
具体的,本发明计算左侧词语集合S1的熵值,该熵值作为词语“杀人”的左侧熵值;计算右侧词语集合S2的熵值,该熵值作为词语“杀人”的右侧熵值;计算左侧词语集合S3的熵值,该熵值作为词语“抢劫”的左侧熵值;计算右侧词语集合S4的熵值,该熵值作为词语“抢劫”的右侧熵值。
即本发明中,词语的左侧熵值为该词语在其所在文本中的各出现位置的左侧相邻词语构成的集合的熵值。某词语的右侧熵值为该词语在其所在文本中的各出现位置的右侧相邻词语构成的集合的熵值。
步骤1024,计算词语的左侧熵值和右侧熵值的熵值和。
在计算得到词语“杀人”的左侧熵值和右侧熵值后,计算词语“杀人”的左侧熵值和右侧熵值的熵值和。
在计算得到词语“抢劫”的左侧熵值和右侧熵值后,计算词语“抢劫”的左侧熵值和右侧熵值的熵值和。
步骤103,依据各个词语的熵值和,选取预设数量的词语作为关键词集合。
具体地,本发明可以按照熵值和从大到小的顺序,选取预设数量的词语作为关键词集合。其中预设数量例如为8个、10个、12个等,本发明对此不作限制。
更具体地,以预设数量具体为10个为例,本发明按熵值和从大到小的顺序,可以依次选取前10个词语组成关键词集合。为了便于说明,本发明将关键词集合记为K。
可选的,本发明按照熵值和从大到小的排序,可以在去掉其中停用词、以及词性判断为连词、介词等词性的词语后,选取前10个词语组成关键词集合K。
步骤104,确定所述关键词集合中各个词语的词向量。
具体地,本发明利用预先训练好的词向量模型,确定所述关键词集合中各个词语的词向量。其中,预先训练好的词向量模型可以包括以下任意一种:word2vector模型、LSA(Latent Semantic Analysis,潜在语义分析)矩阵分解模型、PLSA(Probability LatentSemantic Analysis,概率潜语义分析)潜在语义分析概率模型和LDA(Latent DirichletAllocation,潜在狄利克雷分布)模型(通称为文档主题生成模型)。利用预先训练好的词向量模型,确定关键词集合K中各个词语的词向量。
在本发明实际应用时,本发明可以预先对词向量模型进行训练,例如:通过一定数量的文本对词向量模型进行训练。如在实际应用中,可以利用10万级的裁判文书对word2vector模型进行训练,并通过训练好的word2vector模型获得检索词语集合中每个词语的词向量,其中每个词语的词向量可以表示各词语与词语间的关系(如相似性),并且词向量的维度可以在预设维度之间,如在50到300维,具体数目根据实际应用确定。
步骤105,获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量。
具体的,本发明步骤105可以采用如下步骤1051-步骤1056实现,包括:
步骤1051,基于所述检索文本,利用文本相似度算法,确定至少一个待检索文本。
例如,将用户输入的检索文本作为搜索引擎(如Elasticsearch)的输入,基于TF-IDF等内容计算长文本间的相似度,确定相似度满足预设阈值的文本作为待检索文本。
当然,本发明也可以直接确定裁判文书库的全部裁判文书为待检索文本,而不执行步骤1051。
本发明实施例中的待检索文本的数量可以不低于某个数量,如10万。待检索文本优选为裁判文书。其中可选的,待检索文本可以包括:待检索文本题目和待检索文本正文。可以理解的是,题目中包含的词语对于待检索文本而言十分重要,因此本发明将题目和正文一起作为待检索文本,可以从题目和正文中确定文本词语集合,更加全面和准确。
步骤1052,对于每一个待检索文本进行分词,获得多个词语。
具体的,本发明可以通过基于词库匹配的分词方法、基于词频度统计的分词方法、基于知识理解的分词方法和哈工大的LTP分词工具等中的至少一种,对用户输入的检索文本进行分词。
步骤1053,从所述多个词语中去除重复词语和停用词,获得候选词语集合。
具体的,从所述多个词语中去除重复词语的过程即为去重处理的过程。
停用词是指在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词,这些字或词即被称为Stop Words(停用词)。停用词可以分为两类,一类是人类语言中包含的功能词,这些功能词极其普遍,比如“网”一词几乎在每个网站上均会出现,对这样的词搜索引擎无法保证能够给出真正相关的搜索结果,难以帮助缩小搜索范围,同时还会降低搜索的效率;另一类为没有明确含义的词语,如语气助词、副词、介词、连接词等。
步骤1054,对于所述候选词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和。
本发明步骤1054的具体实现方法同前述步骤1021-步骤1024的实现方法相同,在此发明人不再详细描述。
步骤1055,根据所述候选词语集合中的各个词语的熵值和,从所述候选词语集合中确定出文本词语集合。
本发明在计算得到候选词语集合中各个词语对应的熵值和后,可以按照对应的熵值和对候选词语集合中各个词语进行排序,例如将排列在前N位的词语确定为文本词语集合。当检索文本为裁判文书等长文本的情形,可选的,对检索文本的关键词集合和待检索文本的文本词语集合的获取处理方式相同。
步骤1056,确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量。
具体地,确定文本词语集合后,利用预先训练好的词向量模型,确定该文本词语集合中各个词语的词向量。
需要说明的是,步骤1056中利用到的词向量模型与步骤104中利用到的词向量模型一致。
步骤106,计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度。
步骤107,根据所述相似度将所述至少一个待检索文本进行排序输出。
具体的,本发明步骤107可以采用如下步骤1071-步骤1073实现,包括:
步骤1071,对于任意一个待检索文本,从计算得到的所述关键词集合中每个词语与该待检索文本的文本词语集合中每个词语的相似度中,获取所述关键词集合中每个词语各自对应的最大相似度。
步骤1072,从所述关键词集合中每个词语各自对应的最大相似度中,按最大相似度从大到小的顺序,确定预设排序位置处的词语对应的最大相似度作为所述待检索文本的排序得分。
本发明中,预设排序位置例如为,最大相似度从大到小顺序排列中的第5位、第7位、中间位、或最后一位等,本发明对此不作限制。
步骤1073,依据各个待检索文本的排序得分,对所述至少一个待检索文本进行排序输出。
举例来说,假设关键词集合K包括:A1、A2和A3三个词语,某待检索文本中确定的文本词语集合包括:B1、B2、B3三个词语,关键词集合K中的各个词语与从该待检索文本中确定的文本词语集合中各个词语的相似度分别为:
A1与B1相似度为23%;
A1与B2相似度为50%;
A1与B3相似度为61%;
A2与B1相似度为15%;
A2与B2相似度为76%;
A2与B3相似度为95%;
A3与B1相似度为100%;
A3与B2相似度为2%;
A3与B3相似度为30%。
则可以确定A1对应的三个相似度中的最大值为61%,即:A1与文本词语集合中的B3最相似。同时,可以确定A2对应的三个相似度中的最大值为95%,即:A2与文本词语集合中的B3最相似。同时,可以确定A3对应的三个相似度中的最大值为100%,即:A3与文本词语集合中的B1最相似。然后,对于包括A1、A2、A3三个词语的关键词集合K而言,可以将三个最大值中的第2位,也即中间位的词语对应的最大相似度95%作为该待检索文本的排序得分,或将三个最大值中的最后一位词语对应的最大相似度61%作为该待检索文本的排序得分。
可以理解的是,上述相似度的最大值代表着关键词集合K中的词语与待检索文本中的某个词语高度相关,而取最大相似度从大到小顺序排列中的第5位、第7位、中间位、或最后一位作为待检索文本的排序得分是为了让关键词集合K中的每个词语都体现在从待检索文本中确定的文本词语集合的相似度中,保证检索的准确性。
因此,本发明提供的文本检索方法,通过计算检索词语集合中的每个词语的熵值和,并依据各个词语的熵值和,选取预设数量的词语作为关键词集合,该得到的关键词集合能够较为准确地表达检索文本的核心内容,排除了一些高频无关词语的干扰,在一定程度上保证了待检索文本的准确性。且,本申请使用词向量表示各词语及词语间的关系,并根据各词语本身以及词语间的关系对待检索文本进行排序,检索结果的准确性进一步提高。
与上述方法实施例相对应,本发明还提供了一种文本检索装置。
如图2所示,本发明实施例提供的一种文本检索装置,可以包括:分词单元10、熵值计算单元20、关键词集合确定单元30、第一词向量确定单元40、待检索文本确定单元50、文本词语集合确定单元60、第二词向量确定单元70、相似度计算单元80和文本排序输出单元90。其中,
分词单元10,用于对检索文本进行分词,获得检索词语集合;
熵值计算单元20,用于对于所述检索词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和;
关键词集合确定单元30,用于依据各个词语的熵值和,选取预设数量的词语作为关键词集合;
第一词向量确定单元40,用于确定所述关键词集合中各个词语的词向量;
文本词语集合获取单元50,用于获取至少一个待检索文本各自对应的文本词语集合;
第二词向量确定单元60,用于确定所述至少一个待检索文本各自对应的文本词语集合中各个词语的词向量;
相似度计算单元70,用于计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;
文本排序输出单元80,用于根据所述相似度将所述至少一个待检索文本进行排序输出。
可选的,所述文本排序输出单元包括:
最大相似度确定子单元,用于对于任意一个待检索文本,从计算得到的所述关键词集合中每个词语与该待检索文本的文本词语集合中每个词语的相似度中,获取所述关键词集合中每个词语各自对应的最大相似度;
排序得分确定子单元,用于从所述关键词集合中每个词语各自对应的最大相似度中,按最大相似度从大到小的顺序,确定预设排序位置处的词语对应的最大相似度作为所述待检索文本的排序得分;
文本排序输出子单元,用于依据各个待检索文本的排序得分,对所述至少一个待检索文本进行排序输出。
所述文本检索装置包括处理器和存储器,上述分词单元10、熵值计算单元20、关键词集合确定单元30、第一词向量确定单元40、文本词语集合获取单元50、第二词向量确定单元60、相似度计算单元70和文本排序输出单元80等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来进行文本检索。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述文本检索方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述文本检索方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
对检索文本进行分词,获得检索词语集合;
对于所述检索词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和;
依据各个词语的熵值和,选取预设数量的词语作为关键词集合;
确定所述关键词集合中各个词语的词向量;
获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;
计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;
根据所述相似度将所述至少一个待检索文本进行排序输出。
可选地,获取至少一个待检索文本包括:基于所述检索文本,利用文本相似度算法,确定至少一个待检索文本;
获取至少一个待检索文本各自对应的文本词语集合包括:
对每一个待检索文本进行分词,获得多个词语;
从所述多个词语中去除重复词语和停用词,获得候选词语集合;
对于所述候选词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和;
根据所述候选词语集合中的各个词语的熵值和,从所述候选词语集合中确定出文本词语集合。
可选地,对于每个词语,分别计算每个词语的左侧熵值和右侧熵值包括:
对于每个词语,统计该词语在其所在文本中所有出现位置处的左侧词语,构成左侧词语集合;统计该词语在其所在文本中所有出现位置处的右侧词语,构成右侧词语集合;
计算所述左侧词语集合的熵值,作为该词语的左侧熵值;
计算所述右侧词语集合的熵值,作为该词语的右侧熵值。
可选地,所述根据所述相似度将所述至少一个待检索文本进行排序输出,包括:
对于任意一个待检索文本,从计算得到的所述关键词集合中每个词语与该待检索文本的文本词语集合中每个词语的相似度中,获取所述关键词集合中每个词语各自对应的最大相似度;
从所述关键词集合中每个词语各自对应的最大相似度中,按最大相似度从大到小的顺序,确定预设排序位置处的词语对应的最大相似度作为所述待检索文本的排序得分;
依据各个待检索文本的排序得分,对所述至少一个待检索文本进行排序输出。
可选地,所述待检索文本包括:待检索文本题目和待检索文本正文。
可选地,确定词语的词向量包括:
利用预先训练好的词向量模型,确定词语的词向量;
其中所述预先训练好的词向量模型包括以下任意一种:word2vector模型、潜在语义分析LSA矩阵分解模型、概率潜语义分析PLSA潜在语义分析概率模型和潜在狄利克雷分布LDA模型。本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
对检索文本进行分词,获得检索词语集合;
对于所述检索词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和;
依据各个词语的熵值和,选取预设数量的词语作为关键词集合;
确定所述关键词集合中各个词语的词向量;
获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;
计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;
根据所述相似度将所述至少一个待检索文本进行排序输出。
可选地,获取至少一个待检索文本包括:基于所述检索文本,利用文本相似度算法,确定至少一个待检索文本;
获取至少一个待检索文本各自对应的文本词语集合包括:
对每一个待检索文本进行分词,获得多个词语;
从所述多个词语中去除重复词语和停用词,获得候选词语集合;
对于所述候选词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和;
根据所述候选词语集合中的各个词语的熵值和,从所述候选词语集合中确定出文本词语集合。
可选地,对于每个词语,分别计算每个词语的左侧熵值和右侧熵值包括:
对于每个词语,统计该词语在其所在文本中所有出现位置处的左侧词语,构成左侧词语集合;统计该词语在其所在文本中所有出现位置处的右侧词语,构成右侧词语集合;
计算所述左侧词语集合的熵值,作为该词语的左侧熵值;
计算所述右侧词语集合的熵值,作为该词语的右侧熵值。
可选地,所述根据所述相似度将所述至少一个待检索文本进行排序输出,包括:
对于任意一个待检索文本,从计算得到的所述关键词集合中每个词语与该待检索文本的文本词语集合中每个词语的相似度中,获取所述关键词集合中每个词语各自对应的最大相似度;
从所述关键词集合中每个词语各自对应的最大相似度中,按最大相似度从大到小的顺序,确定预设排序位置处的词语对应的最大相似度作为所述待检索文本的排序得分;
依据各个待检索文本的排序得分,对所述至少一个待检索文本进行排序输出。
可选地,所述待检索文本包括:待检索文本题目和待检索文本正文。
可选地,确定词语的词向量包括:
利用预先训练好的词向量模型,确定词语的词向量;
其中所述预先训练好的词向量模型包括以下任意一种:word2vector模型、潜在语义分析LSA矩阵分解模型、概率潜语义分析PLSA潜在语义分析概率模型和潜在狄利克雷分布LDA模型。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种文本检索方法,其特征在于,所述方法包括:
对检索文本进行分词,获得检索词语集合;
对于所述检索词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和;
依据各个词语的熵值和,选取预设数量的词语作为关键词集合;
确定所述关键词集合中各个词语的词向量;
获取至少一个待检索文本各自对应的文本词语集合,并确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;
计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;
根据所述相似度将所述至少一个待检索文本进行排序输出。
2.根据权利要求1所述的方法,其特征在于,
获取至少一个待检索文本包括:基于所述检索文本,利用文本相似度算法,确定至少一个待检索文本;
获取至少一个待检索文本各自对应的文本词语集合包括:
对每一个待检索文本进行分词,获得多个词语;
从所述多个词语中去除重复词语和停用词,获得候选词语集合;
对于所述候选词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和;
根据所述候选词语集合中的各个词语的熵值和,从所述候选词语集合中确定出文本词语集合。
3.根据权利要求1或2所述的方法,其特征在于,对于每个词语,分别计算每个词语的左侧熵值和右侧熵值包括:
对于每个词语,统计该词语在其所在文本中所有出现位置处的左侧词语,构成左侧词语集合;统计该词语在其所在文本中所有出现位置处的右侧词语,构成右侧词语集合;
计算所述左侧词语集合的熵值,作为该词语的左侧熵值;
计算所述右侧词语集合的熵值,作为该词语的右侧熵值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述相似度将所述至少一个待检索文本进行排序输出,包括:
对于任意一个待检索文本,从计算得到的所述关键词集合中每个词语与该待检索文本的文本词语集合中每个词语的相似度中,获取所述关键词集合中每个词语各自对应的最大相似度;
从所述关键词集合中每个词语各自对应的最大相似度中,按最大相似度从大到小的顺序,确定预设排序位置处的词语对应的最大相似度作为所述待检索文本的排序得分;
依据各个待检索文本的排序得分,对所述至少一个待检索文本进行排序输出。
5.根据权利要求4所述的方法,其特征在于,所述待检索文本包括:待检索文本题目和待检索文本正文。
6.根据权利要求1所述的方法,其特征在于,确定词语的词向量包括:
利用预先训练好的词向量模型,确定词语的词向量;
其中所述预先训练好的词向量模型包括以下任意一种:word2vector模型、潜在语义分析LSA矩阵分解模型、概率潜语义分析PLSA潜在语义分析概率模型和潜在狄利克雷分布LDA模型。
7.一种文本检索装置,其特征在于,所述装置包括:
分词单元,用于对检索文本进行分词,获得检索词语集合;
熵值计算单元,用于对于所述检索词语集合中的每个词语,分别计算每个词语的左侧熵值和右侧熵值的熵值和;
关键词集合确定单元,用于依据各个词语的熵值和,选取预设数量的词语作为关键词集合;
第一词向量确定单元,用于确定所述关键词集合中各个词语的词向量;
文本词语集合获取单元,用于获取至少一个待检索文本各自对应的文本词语集合;
第二词向量确定单元,用于确定所述至少一个待检索文本各自对应的文本词语集合中每个词语的词向量;
相似度计算单元,用于计算所述关键词集合中每一个词语的词向量分别与所述至少一个待检索文本各自对应的文本词语集合中每一个词语的词向量的相似度;
文本排序输出单元,用于根据所述相似度将所述至少一个待检索文本进行排序输出。
8.根据权利要求7所述的装置,其特征在于,所述文本排序输出单元包括:
最大相似度确定子单元,用于对于任意一个待检索文本,从计算得到的所述关键词集合中每个词语与该待检索文本的文本词语集合中每个词语的相似度中,获取所述关键词集合中每个词语各自对应的最大相似度;
排序得分确定子单元,用于从所述关键词集合中每个词语各自对应的最大相似度中,按最大相似度从大到小的顺序,确定预设排序位置处的词语对应的最大相似度作为所述待检索文本的排序得分;
文本排序输出子单元,用于依据各个待检索文本的排序得分,对所述至少一个待检索文本进行排序输出。
9.一种存储介质,其特征在于,其上存储有程序,所述程序被处理器执行时实现权利要求1至6中任一项所述文本检索方法。
10.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至6中任一项所述文本检索方法。
CN201711048519.7A 2017-10-31 2017-10-31 一种文本检索方法及装置 Pending CN110019670A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711048519.7A CN110019670A (zh) 2017-10-31 2017-10-31 一种文本检索方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711048519.7A CN110019670A (zh) 2017-10-31 2017-10-31 一种文本检索方法及装置

Publications (1)

Publication Number Publication Date
CN110019670A true CN110019670A (zh) 2019-07-16

Family

ID=67186721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711048519.7A Pending CN110019670A (zh) 2017-10-31 2017-10-31 一种文本检索方法及装置

Country Status (1)

Country Link
CN (1) CN110019670A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061879A (zh) * 2019-12-13 2020-04-24 云孚科技(北京)有限公司 一种关键词抽取效果评估方法
CN111274808A (zh) * 2020-02-11 2020-06-12 支付宝(杭州)信息技术有限公司 文本检索方法、模型训练方法、文本检索装置及存储介质
CN112257436A (zh) * 2020-09-29 2021-01-22 华为技术有限公司 文本检测方法及装置
CN115203379A (zh) * 2022-09-15 2022-10-18 太平金融科技服务(上海)有限公司深圳分公司 检索方法、装置、计算机设备、存储介质和程序产品

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101853284A (zh) * 2010-05-24 2010-10-06 哈尔滨工程大学 面向互联网的有意义串的提取方法及装置
US20120330978A1 (en) * 2008-06-24 2012-12-27 Microsoft Corporation Consistent phrase relevance measures
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
US20160070803A1 (en) * 2014-09-09 2016-03-10 Funky Flick, Inc. Conceptual product recommendation
CN105653671A (zh) * 2015-12-29 2016-06-08 畅捷通信息技术股份有限公司 相似信息推荐方法及系统
CN106021223A (zh) * 2016-05-09 2016-10-12 Tcl集团股份有限公司 一种句子相似度的计算方法及系统
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
CN106991092A (zh) * 2016-01-20 2017-07-28 阿里巴巴集团控股有限公司 基于大数据挖掘相似裁判文书的方法和设备
CN107066621A (zh) * 2017-05-11 2017-08-18 腾讯科技(深圳)有限公司 一种相似视频的检索方法、装置和存储介质
CN107153689A (zh) * 2017-04-29 2017-09-12 安徽富驰信息技术有限公司 一种基于主题相似度的案件检索方法
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120330978A1 (en) * 2008-06-24 2012-12-27 Microsoft Corporation Consistent phrase relevance measures
CN101853284A (zh) * 2010-05-24 2010-10-06 哈尔滨工程大学 面向互联网的有意义串的提取方法及装置
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
US20160070803A1 (en) * 2014-09-09 2016-03-10 Funky Flick, Inc. Conceptual product recommendation
CN105653671A (zh) * 2015-12-29 2016-06-08 畅捷通信息技术股份有限公司 相似信息推荐方法及系统
CN106991092A (zh) * 2016-01-20 2017-07-28 阿里巴巴集团控股有限公司 基于大数据挖掘相似裁判文书的方法和设备
CN106021223A (zh) * 2016-05-09 2016-10-12 Tcl集团股份有限公司 一种句子相似度的计算方法及系统
CN106156272A (zh) * 2016-06-21 2016-11-23 北京工业大学 一种基于多源语义分析的信息检索方法
CN107153689A (zh) * 2017-04-29 2017-09-12 安徽富驰信息技术有限公司 一种基于主题相似度的案件检索方法
CN107066621A (zh) * 2017-05-11 2017-08-18 腾讯科技(深圳)有限公司 一种相似视频的检索方法、装置和存储介质
CN107247780A (zh) * 2017-06-12 2017-10-13 北京理工大学 一种基于知识本体的专利文献相似性度量方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
杨丽萍: "面向自然语言的法律检索系统的研究与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
梁伟明: "中文关键词提取技术", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
胡小荣等: "基于风险短语自动抽取的上市公司风险识别方法及可视化研究", 《情报学报》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061879A (zh) * 2019-12-13 2020-04-24 云孚科技(北京)有限公司 一种关键词抽取效果评估方法
CN111274808A (zh) * 2020-02-11 2020-06-12 支付宝(杭州)信息技术有限公司 文本检索方法、模型训练方法、文本检索装置及存储介质
CN112257436A (zh) * 2020-09-29 2021-01-22 华为技术有限公司 文本检测方法及装置
CN112257436B (zh) * 2020-09-29 2024-04-02 华为技术有限公司 文本检测方法及装置
CN115203379A (zh) * 2022-09-15 2022-10-18 太平金融科技服务(上海)有限公司深圳分公司 检索方法、装置、计算机设备、存储介质和程序产品

Similar Documents

Publication Publication Date Title
CN110019668A (zh) 一种文本检索方法及装置
US11126647B2 (en) System and method for hierarchically organizing documents based on document portions
US9542477B2 (en) Method of automated discovery of topics relatedness
US10268758B2 (en) Method and system of acquiring semantic information, keyword expansion and keyword search thereof
JP5995409B2 (ja) コンピュータ解析のためにテキスト文書を表現するためのグラフィカル・モデル
CN108268617B (zh) 用户意图确定方法及装置
TWI710917B (zh) 資料處理方法及裝置
CN110019670A (zh) 一种文本检索方法及装置
CN110019669B (zh) 一种文本检索方法及装置
KR20200038984A (ko) 동의어 사전 작성 장치, 동의어 사전 작성 프로그램 및 동의어 사전 작성 방법
CN112329460A (zh) 文本的主题聚类方法、装置、设备及存储介质
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN109388796A (zh) 裁判文书的推送方法及装置
WO2015084757A1 (en) Systems and methods for processing data stored in a database
CN110032721A (zh) 一种裁判文书推送方法及装置
CN113535817B (zh) 特征宽表生成及业务处理模型的训练方法和装置
Shayegh et al. Automated approach to improve iot privacy policies
CN105786929B (zh) 一种信息监测方法及装置
CN110020134A (zh) 一种知识服务信息的推送方法、系统、存储介质和处理器
CN109117434A (zh) 裁判文书检索方法、装置、存储介质及处理器
CN110019665A (zh) 文本检索方法及装置
Zimniewicz et al. Scheduling aspects in keyword extraction problem
CN110704613A (zh) 词汇数据库构建及查询方法、数据库系统、设备及介质
CN112487181A (zh) 关键词确定方法和相关设备
CN115563268A (zh) 一种文本摘要的生成方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100080 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Beijing city Haidian District Shuangyushu Area No. 76 Zhichun Road cuigongfandian 8 layer A

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
RJ01 Rejection of invention patent application after publication

Application publication date: 20190716

RJ01 Rejection of invention patent application after publication