CN110287288B - 推荐文档的方法和装置 - Google Patents

推荐文档的方法和装置 Download PDF

Info

Publication number
CN110287288B
CN110287288B CN201910526207.5A CN201910526207A CN110287288B CN 110287288 B CN110287288 B CN 110287288B CN 201910526207 A CN201910526207 A CN 201910526207A CN 110287288 B CN110287288 B CN 110287288B
Authority
CN
China
Prior art keywords
document
entries
score
training
search term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910526207.5A
Other languages
English (en)
Other versions
CN110287288A (zh
Inventor
杨天行
彭彬
张一麟
陈曦
杨晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910526207.5A priority Critical patent/CN110287288B/zh
Publication of CN110287288A publication Critical patent/CN110287288A/zh
Application granted granted Critical
Publication of CN110287288B publication Critical patent/CN110287288B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供一种推荐文档的方法和装置,该方法包括获取至少一个检索词;获取至少一个检索词中的检索词在各文档中的分值,并根据至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档;至少一个检索词中的任一第一检索词在第一文档中的分值是由第一检索词的分值信息确定的,该分值信息包括如下中的至少两项:第一检索词在第一文档中的TF‑IDF、第一检索词在第一文档中的第一分值、第一检索词在第一文档中的第二分值,第一分值与第一文档的正文对应的逻辑关系相关,第二分值与第一文档的正文和第一文档所属的范畴联合对应的逻辑关系相关;第一文档为包括第一检索词的文档。本申请可提高向用户推荐的文档的准确度。

Description

推荐文档的方法和装置
技术领域
本申请实施例涉及计算机技术,尤其涉及一种推荐文档的方法和装置。
背景技术
用户检索文档时,设备可根据检索词在语料库中的文档中的分值,确定为用户推荐的文档;其中,词条的分值表征词条在文档中的重要性,分值越高越重要。
目前,词条在文档中的分值是设备根据词频-逆文档频率(term frequency–inverse document frequency,简称TF-IDF)得到的。其中,词频等同于词条在文档中出现的频率(即词频=词条在文档中出现次数/该文档中的词条总数目)。逆文本频率等于出现某一词条的文档数/文档的总数目。
根据TF-IDF得到的词条在其所在文档中的分值并不能很好的表征词条在文档中的重要性,从而使得在用户检索时,为用户推荐的文档并一定是用户需要的文档,即上述方法推荐文档的准确率较低。
发明内容
本申请实施例提供一种推荐文档的方法和装置,提高了在用户检索时,向用户推荐的文档的准确率。
第一方面,本申请实施例提供一种推荐文档的方法,包括:获取至少一个检索词;获取所述至少一个检索词中的检索词在各文档中的分值,并根据所述至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档;其中,所述至少一个检索词中的任一第一检索词在第一文档中的分值是由所述第一检索词的分值信息确定的,所述分值信息包括如下中的至少两项:所述第一检索词在所述第一文档中的词频-逆文档频率TF-IDF、所述第一检索词在所述第一文档中的第一分值、所述第一检索词在所述第一文档中的第二分值,所述第一分值与所述第一文档的正文对应的逻辑关系相关,所述第二分值与所述第一文档的正文和所述第一文档所属的范畴联合对应的逻辑关系相关;所述第一文档为包括所述第一检索词的文档。
本方案中检索词的分值与检索词所在的文档的正文对应的逻辑关系和/或该文档的正文和该文档所属的范畴联合对应的逻辑关系相关,使得检索词的分值可以很好的表征或指示检索词在该文档中的重要性。因此,确定的向用户推荐文档中包括用户想要的文档的概率就较高,即本方案中向用户推荐文档的准确率比较高。
结合第一方面,在第一方面的一种可能的实现方式中,在根据所述至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档之前,还包括:根据所述第一文档,得到多个词条,所述多个词条中包括所述第一检索词;获取所述多个词条中的词条的分值信息;根据所述多个词条中的词条的分值信息,确定所述多个词条中的词条在所述第一文档中的分值。
本方案提供了获取词条在文档中分值的具体实现。
结合第一方面,在第一方面的一种可能的实现方式中,所述多个词条中的词条的分值信息包括该词条在所述第一文档中的第一分值;则获取所述多个词条中的词条的分值信息,包括:将所述多个词条作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值;其中,所述第一机器学习模型是根据多个第一训练样本和所述多个第一训练样本各自的标签得到的,对于多个第一训练样本中的任一第一训练样本,该第一训练样本包括根据第一训练文档的正文得到的多个第一训练词条,该第一训练样本的标签用于指示所述多个第一训练词条各自的分值,所述多个第一训练词条各自的分值与所述第一训练文档对应的逻辑关系相关。
本方案中,采用机器学习模型确定词条在相应文档中的第一分值,使得第一分值确定的效率高且准确。
结合第一方面,在第一方面的一种可能的实现方式中,所述将所述多个词条作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值,包括:将所述多个词条和所述多个词条中的词条的属性作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值。
本方案中,在采用机器学习模型确定词条在相应文档中的第一分值时,考虑了词条的属性,进一步提高了确定第一分值的效率和准确率。
结合第一方面,在第一方面的一种可能的实现方式中,所述多个词条中的词条的分值信息包括该词条在所述第一文档中的第二分值;根据所述第一文档,得到多个词条,包括:根据所述第一文档的正文和所述第一文档所属的范畴对应的文本,得到多个词条。
本方案中,在采用机器学习模型确定词条在相应文档中的第一分值时,考虑了词条的属性,进一步提高了确定第一分值的效率和准确率。
结合第一方面,在第一方面的一种可能的实现方式中,获取所述多个词条中的词条的分值信息,包括:将所述多个词条作为第二机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第二分值;其中,所述第二机器学习模型是根据多个第二训练样本和所述多个第二训练样本各自的标签得到的,对于多个第二训练样本中的任一第二训练样本,该第二训练样本包括根据第二训练文档的正文和所述第二训练文档所属的范畴对应的文本得到的多个第二训练词条,该第二训练样本的标签用于指示所述多个第二训练词条各自的分值,所述多个第二训练词条各自的分值与所述第二训练文档的正文和所述第二训练文档所属的范畴对应的文本联合对应的逻辑关系相关。
结合第一方面,在第一方面的一种可能的实现方式中,根据所述第一文档,得到多个词条,包括:对所述第一文档的正文进行切词,得到多个预选词条;对所述多个预选词条中的预选词条进行扩展,得到所述多个词条。
本方案中,在对文档切词后,对词条进行了扩展,增大了词条的数量,提高了用户在检索时得到检索结果的概率以及得到正确检索结果的概率。
结合第一方面,在第一方面的一种可能的实现方式中,所述根据所述分值信息确定所述多个词条中的词条在所述第一文档中的分值,包括:根据所述分值信息和所述第一文档的类型,确定所述多个词条中的词条在所述第一文档中的分值。
本方案中,进一步提高了确定第一分值的准确率。
第二方面,本申请实施例提供一种电子设备,包括处理器和存储器,所述存储器中存储有指令,所述处理器用于调用所述指令,执行如下操作:获取至少一个检索词;获取所述至少一个检索词中的检索词在各文档中的分值,并根据所述至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档;其中,所述至少一个检索词中的任一第一检索词在第一文档中的分值是由所述第一检索词的分值信息确定的,所述分值信息包括如下中的至少两项:所述第一检索词在所述第一文档中的词频-逆文档频率TF-IDF、所述第一检索词在所述第一文档中的第一分值、所述第一检索词在所述第一文档中的第二分值,所述第一分值与所述第一文档的正文对应的逻辑关系相关,所述第二分值与所述第一文档的正文和所述第一文档所属的范畴联合对应的逻辑关系相关;所述第一文档为包括所述第一检索词的文档。
结合第二方面,在第二方面的一种可能的实现方式中,在所述处理器用于根据所述至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档之前,所述处理器还用于执行如下操作:根据所述第一文档,得到多个词条,所述多个词条中包括所述第一检索词;获取所述多个词条中的词条的分值信息;根据所述多个词条中的词条的分值信息,确定所述多个词条中的词条在所述第一文档中的分值。
结合第二方面,在第二方面的一种可能的实现方式中,所述多个词条中的词条的分值信息包括该词条在所述第一文档中的第一分值;所述处理器用于获取所述多个词条中的词条的分值信息,包括:所述处理器,具体用于将所述多个词条作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值;其中,所述第一机器学习模型是根据多个第一训练样本和所述多个第一训练样本各自的标签得到的,对于多个第一训练样本中的任一第一训练样本,该第一训练样本包括根据第一训练文档的正文得到的多个第一训练词条,该第一训练样本的标签用于指示所述多个第一训练词条各自的分值,所述多个第一训练词条各自的分值与所述第一训练文档对应的逻辑关系相关。
结合第二方面,在第二方面的一种可能的实现方式中,所述处理器用于将所述多个词条作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值,包括:所述处理器,具体用于将所述多个词条和所述多个词条中的词条的属性作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值。
结合第二方面,在第二方面的一种可能的实现方式中,所述多个词条中的词条的分值信息包括该词条在所述第一文档中的第二分值;所述处理器,用于根据所述第一文档,得到多个词条,包括:所述处理器,具体用于根据所述第一文档的正文和所述第一文档所属的范畴对应的文本,得到多个词条。
结合第二方面,在第二方面的一种可能的实现方式中,所述处理器,用于获取所述多个词条中的词条的分值信息,包括:所述处理器,具体用于将所述多个词条作为第二机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第二分值;其中,所述第二机器学习模型是根据多个第二训练样本和所述多个第二训练样本各自的标签得到的,对于多个第二训练样本中的任一第二训练样本,该第二训练样本包括根据第二训练文档的正文和所述第二训练文档所属的范畴对应的文本得到的多个第二训练词条,该第二训练样本的标签用于指示所述多个第二训练词条各自的分值,所述多个第二训练词条各自的分值与所述第二训练文档的正文和所述第二训练文档所属的范畴对应的文本联合对应的逻辑关系相关。
结合第二方面,在第二方面的一种可能的实现方式中,所述处理器,用于根据所述第一文档,得到多个词条,包括:所述处理器,具体用于对所述第一文档的正文进行切词,得到多个预选词条;以及对所述多个预选词条中的预选词条进行扩展,得到所述多个词条。
结合第二方面,在第二方面的一种可能的实现方式中,所述处理器,用于根据所述分值信息确定所述多个词条中的词条在所述第一文档中的分值,包括:所述处理器,具体用于根据所述分值信息和所述第一文档的类型,确定所述多个词条中的词条在所述第一文档中的分值。
第三方面,本申请实施例提供一种计算机可读存储介质,包括程序或指令,当所述程序或指令在计算机上运行时,第一方面以及第一方面任一可能的实现方式所述的方法被执行。
本申请中检索词的分值与检索词所在的文档的正文对应的逻辑关系和/或该文档的正文和该文档所属的范畴联合对应的逻辑关系相关,使得检索词的分值可以很好的表征或指示检索词在该文档中的重要性。因此,确定的向用户推荐文档中包括用户想要的文档的概率就较高,即本申请中向用户推荐文档的准确率比较高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种推荐文档的方法的流程图一;
图2为本申请实施例提供的一种推荐文档的方法的流程图二;
图3为本申请实施例提供的推荐文档的装置的结构示意图;
图4为本申请实施例提供的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。本申请中术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
本申请实施例提供的推荐文档的方法可以适用于用户在检索法律文本的场景。其中法律文本可为法律法规(比如专利法、劳动法等,又比如行政法规、地方法规等,又比如司法解释),还可为法律文书(比如判决书、起诉书等等)。当然,本申请实施例提供的推荐文档的方法也可适用于其它的场景,本实施例中并不限制。
图1为本申请实施例提供的一种推荐文档的方法的流程图一,本申请实施例的执行主体可为推荐文档的装置,该装置可通过硬件或软件实现,该装置可设置在服务器中。如图1所示,本实施例的方法可以包括:
步骤S101、获取至少一个检索词。
具体地,用户在检索时,会通过终端的用户界面输入检索信息,检索信息可为一个或多个词语,还可为一句或多句查询语句。在一种方式中,终端可将检索信息发送至推荐文档的装置。推荐文档的装置根据检索信息,获取至少一个检索词。在另一种方式中,终端根据检索信息,获取至少一个检索词,并将至少一个检索词发送至推荐文档的装置,推荐文档的装置接收终端发送的检索词。
下面对在检索信息为查询语句的情况下,根据检索信息,获取至少一个检索词的方法进行说明。根据检索信息,获取至少一个检索词可以通过a1~a2实现:
a1、对检索信息进行切词,得到多个预选检索词。
其中,可采用切词工具对检索信息进行切词,得到多个预选检索词。
a2、对多个预选检索词中的预选检索词进行扩展,得到至少一个检索词。
其中,比如可进行同义词扩展、反义词扩展等等。
示例性地,用户在检索法律文本的场景下,对于预选检索词“婚姻法”时,可扩展检索词“婚姻”。对于预选检索词“赡养费”时,可扩展检索词条“赡养”。对于预选检索词“家庭暴力”时,可扩展检索词“家暴”。
步骤S102、获取至少一个检索词中的检索词在各文档中的分值,并根据至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档。
其中,至少一个检索词中的任一第一检索词在第一文档中的分值是由第一检索词的分值信息确定的,该分值信息包括如下中的至少两项:第一检索词在第一文档中的TF-IDF、第一检索词在第一文档中的第一分值、第一检索词在第一文档中的第二分值,该第一分值是根据第一文档的正文对应的逻辑关系得到的,该第二分值是根据第一文档的正文和第一文档所属的范畴对应的逻辑关系得到的;第一文档为包括第一检索词的文档。
其中,文档的正文对应的逻辑关系是指该文档中包括的所有内容之间的逻辑关系。文档的正文和该文档所属的范畴联合对应的逻辑关系是指该文档中包括的所有内容之间的逻辑关系以及该文档中包括的所有内容与该文档所属的范畴之间的逻辑关系。对于法律法规对应的文档,该文档所属的范畴对应的文本可为法律法规的名称,比如“XX国XX法”。对于法律文书对应的文档,该文档所属的范畴对应的文本可为法律文书的标题。
由此可知,用于确定第一检索词的分值的分值信息包括与第一文档的正文对应的逻辑关系相关的第一分值和/或与第一文档的正文和第一文档所属的范畴联合对应的逻辑关系相关的第二分值,即在确定第一检索词的分值时充分考虑了第一文档的正文对应的逻辑关系和/或第一文档的正文和第一文档所属的范畴联合对应的逻辑关系,使得第一检索词的分值可以很好的表征或指示第一检索词在第一文档中的重要性。第一检索词为至少一个检索词中的任意的一个检索词,也就是说,至少一个检索词中的每个检索词可以很好的表征或指示该检索词在相应文档中的重要性。
本实施例中的各文档可为数据库中存储的文档,数据库中还可存储有各文档对应的词条在相应文档中的分值。可以理解的是,至少一个检索词为数据库中存储的各文档对应的词条中的词语,而至少一个检索词可以是任意的一个或多个检索词,也就说明数据库中包括的各文档对应的词条在相应文档中的分值的确定方法是和第一检索词相同的,数据库中包括的各文档对应的词条在相应文档中的分值可以很好的表征或指示词条在相应文档中的重要性。其中,词条相应的文档即为包括该词条的文档。
下面对“获取至少一个检索词中的检索词在各文档中的分值,并根据至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档”进行说明。
在一种实施方式中,“获取至少一个检索词中的检索词在各文档中的分值,并根据至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档”可通过如下的b1~b2实现。
b1、获取至少一个检索词中的检索词在各文档中的分值。
其中,推荐文档的装置在获取到至少一个检索词后,获取至少一个检索词中的检索词中的检索词在各文档中的分值,具体可为:对于至少一个检索词中的任一第一检索词,获取数据库中存储的与第一检索词相同的第一词条在各文档中的分值,得到第一检索词在各文档中的分值,即第一词条在各文档中分值为第一检索词在各文档中的分值。可以理解的是,若某一文档中不存在该检索词,则该检索词在该文档中的分值可为0或者不存在分值。
b2、根据至少一个检索词中的检索词在各文档中的分值,获取各文档的总分值;
对于包括至少一个检索词中一个或多个检索词的文档中的任一文档:根据至少一个检索词中的每个检索词在该文档中的分值,获取该文档的总分值。在一种方式中,根据至少一个检索词中的每个检索词在该文档中的分值,获取该文档的总分值,包括:根据至少一个检索词中的每个检索词在该文档中的分值之和,获取各文档的总分值。在另一种方式中,根据至少一个检索词中的每个检索词在该文档中的分值,获取该文档的总分值,包括:根据至少一个检索词中的第一类检索词在该文档中的分值、第一类检索词的权重、至少一个检索词中的第二类检索词在该文档中的分值和第二类检索词的权重,获取该文档的总分值;第一类检索词为该文档的标题中的词条,第二类检索词为该文档的正文中的词条。
示例性地,至少一个检索词包括检索词a、检索词b、检索词c和检索词d,文档A中包括检索词a、检索词b和检索词c,检索词a在文档A的标题中,检索词b和检索词c在文档A的正文中,那么检索词a为第一类检索词,检索词b和检索词c为第二类检索词,第一类检索词的权重为10,第二类检索词的权重为1。检索词a在文档A中的分值为4分,检索词b在文档A中的分值为5分、检索词c文档A中的分值为3分。则文档A的总分值=4×10+5+3=48。
示例性地,至少一个检索词包括检索词a、检索词b、检索词c和检索词d,文档B中包括检索词a、检索词b、检索词c和检索词d,检索词a和检索词b在文档A的标题中,检索词c和检索词d在文档A的正文中,那么检索词a和检索词b为第一类检索词,检索词c和检索词d为第二类检索词,第一类检索词的权重为10,第二类检索词的权重为1。检索词a在文档B中的分值为5分,检索词b在文档A中的分值为3分、检索词c文档B中的分值为6分,检索词d文档B中的分值为1分。则文档B的总分值=5×10+3×10+6+1=87。
可以理解的是,对于不包括至少一个检索词中任一个检索词的文档,该文档的总分值可为一第一预设值,该第一预设值可为0。
b3、根据各文档的总分值,确定向用户推荐的文档。
在词条在文档中的分值越高,词条越重要的情况下:一种方式中,将各文档的总分值中大于第一预设值的文档确定为向用户推荐的文档。另一种方式中,将各文档的总分值中大于第二预设值的文档确定为向用户推荐的文档,第二预设值大于第一预设值。
在另一种实施方式中,“获取至少一个检索词中的检索词在各文档中的分值,并根据至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档”可通过如下的c1~c4实现。
c1、获取当前检索场景。
在用户检索法律文本的场景下,当前检索场景可为用户当前需要检索法律文书,或者,当前的检索场景可为用户当前需要检索法律法规,或者,当前的检索场景可为用户当前需要检索法律文本(即不限制检索结果是法律法规还是法律文书)。在本实施例中,用户当前需要检索法律文书的场景可称为第一检索场景,用户当前需要检索法律法规的场景可称为第二检索场景,用户当前需要检索法律文本可称为第三检索场景。当然,本实施例中并不限于上述三种检索场景。
其中,当前检索场景可以是推荐文档的装置根据检索信息确定的,还可以是终端设备根据检索信息确定当前的检索场景后,发送至推荐文档的装置的。当前检索场景还可以是终端设备接收到用户通过用户界面输入的检索场景后,发送至推荐文档的装置的。
c2、获取至少一个检索词中的检索词在当前检索场景对应的各文档中的分值。
其中,当前检索场景为第一检索场景时,当前检索场景对应的文档为法律文书,当前检索场景为第二检索场景时,当前检索场景对应的文档为法律法规,当前检索场景为第三检索场景时,当前检索场景对应的文档为所有的法律文本。
推荐文档的装置在获取到至少一个检索词后,获取至少一个检索词中的检索词在当前检索场景对应的文档中的分值,具体可为:对于至少一个检索词中的任一第一检索词,获取数据库中存储的与第一检索词相同的第一词条在当前检索场景对应的各文档中的分值,得到第一检索词在当前检索场景对应的各文档中的分值。可以理解的是,若某一文档中不存在该检索词,则该检索词在该文档中的分值可为0或者不存在分值。
c3、根据至少一个检索词中的检索词在当前检索场景对应的各文档中的分值,获取各文档的总分值;
其中,c3的具体实现参见b2中的阐述,此处不再赘述。
c4、根据各文档的总分值,确定向用户推荐的文档。
其中,c4的具体实现参见b3中的阐述,此处不再赘述。
为了表述的方便,后续将推荐文档的装置确定的向用户推荐的文档称为目标文档。
可选地,推荐文档的装置在确定了目标文档后,可将目标文档或目标文档标识,以及目标文档的总分值发送至终端设备,终端设备按照总分值从高到低的顺序向用户显示目标文档或目标文档的标识。
可选地,推荐文档的装置在确定了目标文档后,按照总分值从高到低的顺序对目标文档进行排序,接着可将目标文档或目标文档标识,以及目标文档的排序标记发送至终端设备,终端设备根据排序标记所指示的目标文档的排序,从高到低的顺序向用户显示目标文档或目标文档的标识。
如上所述,检索词在相应文档中的分值很好的表征该词条在其所在的文档中的重要性,因此,文档推荐的装置确定的向用户推荐文档中包括用户想要的文档的概率就较高,即本实施例中的方法向用户推荐文档的准确率比较高。
下面以确定上述的第一文档对应的各词条在第一文档中的分值为例,说明上一实施例中的词条在相应文档中的分值的具体获取方法。
图2为本申请实施例提供的推荐文档的方法的流程图二,如图2所示,本实施例的方法可以包括:
步骤S201、根据第一文档,得到多个词条。多个词条中包括上一实施例中的第一检索词。
本实施例中,一部法律可作为一个文档,法律的一章或一节也可作为一个文档,一份法律文书可为一个文档,一份法律文书的一部分可为一个文档,本实施例中并不限制。
在一种方式中:根据第一文档,得到多个词条,包括:(1)对第一文档的正文进行切词,得到多个预选词条;(2)对多个预选词条中的预选词条进行扩展,得到多个词条(第一文档对应的多个词条)。
该种方式适用于获取词条在第一文档中的第一分值的场景。
在另一种方式中:根据第一文档,得到多个词条,包括:(1)对第一文档的正文和第一文档所属的范畴对应的文本进行切词,得到多个预选词条;(2)对多个预选词条中的预选词条进行扩展,得到多个词条(第一文档对应的多个词条)。
该种方式适用于获取词条在第一文档中的第二分值的场景。
步骤S202、获取第一文档对应的多个词条中的词条的分值信息。
根据上一实施例的阐述可知,多个词条中的任一第一词条在其所在的第一文档中的分值信息至少包括如下的两项:第一词条在第一文档中的TF-IDF、第一词条在第一文档中的第一分值、第一词条在第一文档中的第二分值,第一分值是根据第一文档的正文对应的逻辑关系得到的,第二分值是根据第一文档的正文和第一文档所属的范畴联合对应的逻辑关系得到的。
在第一词条在所在的第一文档中的分值信息包括第一词条在第一文档中的TF-IDF时,获取第一文档对应的多个词条中的词条的分值信息,包括:获取第一文档对应的多个词条中的词条的TF-IDF。
在第一词条在所在的第一文档中的分值信息包括第一词条在第一文档中的第一分值时,获取第一文档对应的多个词条中的词条的分值信息,包括:将第一文档对应的多个词条作为第一机器学习模型的输入,以得到第一文档对应的多个词条中的词条在第一文档中的第一分值。
其中,采用机器学习模型获取词条在文档中的第一分值,可以提高获取词条在文档中的第一分值的准确率和效率。
为了进一步提高获取的多个词条中的词条在第一文档中的第一分值的准确性,将第一文档对应的多个词条作为第一机器学习模型的输入,以得到第一文档对应的多个词条中的词条在第一文档中的第一分值,可包括:将第一文档对应的多个词条以及该多个词条各自的属性作为第一机器学习模型的输入,以得到该多个词条中的词条在第一文档中的第一分值。其中,词条的属性包括如下中的至少一项:(1)词条的词性;(2)词条的位置;(3)词条是人名还是地名还是机构名还是其它的专属名词还是不是专属名词;(4)词条的状态特征(即词条为主语或谓语或定语或宾语或状语或补语)。
其中,第一机器学习模型是根据多个第一训练样本和多个第一训练样本各自的标签得到的,对于多个第一训练样本中的任一第一训练样本,该第一训练样本包括根据第一训练文档的正文得到的多个第一训练词条,该第一训练样本的标签用于指示多个第一训练词条各自的分值,多个第一训练词条各自的分值与该第一训练文档对应的逻辑关系相关。
具体地,第一机器学习模型可以是离线对多个第一训练样本训练得到的。其中,第一机器学习模型可为神经网络模型,神经网络模型可为反向传播(back propagation,简称BP)神经网络模型,或者,循环神经网络(recurrent neural networks,简称RNN)模型,或者,长短时记忆神经网络(long short termmemory,LSTM)模型,或者,双向循环神经网络(bidirections recurrent neural networks,简称BRNN)模型等。
对于第一训练样本:若第一文档为法律法规对应的文档,则第一训练样本可包括:根据一个文档(该文档即为第一训练文档)中包括的法条正文得到的多个词条(多个第一训练词条);或者,第一训练样本可包括,根据一个文档中包括的法条正文得到的多个词条和多个词条各自的属性。若第一文档为法律文书,第一训练样本可包括:第一训练样本可包括,根据一法律文书(该法律文书即为第一训练文档)的正文得到的多个词条;或者,第一训练样本可包括,根据法律文书的正文得到的多个词条和多个词条各自的属性。
可以理解的是,用于训练第一机器模型的多个第一训练样本中的各第一训练样本对应的训练文档不相同。
对于第一标签:第一训练样本包括的多个词条各自的分值是用户根据包括该多个词条的文档的正文对应的逻辑关系确定的。可根据该第一训练样本包括的多个词条各自的分值,为该第一训练样本分配一个第一标签,该第一标签用于指示该第一训练样本包括的多个词条各自的分值。可以理解的是,用于训练第一机器模型的多个第一训练样本中的各第一训练样本均具有一个第一标签。
在训练第一机器模型时,一种方案中,将第一训练样本转化成输入向量作为初始化的神经网络模型的输入,得到一个输出,根据输出和该第一训练样本的第一标签,调整初始化的神经网络模型中的神经元之间的连接权重,得到更新后的机器学习模型,此为一次学习过程。每次学习过程均得到一个更新后的机器学习模型;经过预设次数的学习过程或者神经网络模型的输出和对应学习过程中的输入的第一训练样本的第一标签之间的误差满足要求时,得到的机器学习模型,即为最终的第一机器学习模型。
在第一词条在所在的第一文档中的分值信息包括第一词条在第一文档中的第二分值时,获取多个词条中的词条的分值信息,包括:将第一文档对应的多个词条作为第二机器学习模型的输入,以得到第一文档对应的多个词条中的词条在第一文档中的第二分值。
为了进一步提高获取的第一文档对应的多个词条中的词条在第一文档中的第二分值的准确性,将第一文档对应的多个词条作为第二机器学习模型的输入,以得到第一文档对应的多个词条中的词条在第一文档中的第二分值,可包括:将第一文档对应的多个词条以及多个词条各自的属性作为第二机器学习模型的输入,以得到多个词条中的词条在第一文档中的第二分值。其中,词条的属性如上所述,此处不再赘述。
其中,第二机器学习模型是根据多个第二训练样本和多个第二训练样本各自的标签得到的,对于多个第二训练样本中的任一第二训练样本,该第二训练样本包括根据第二训练文档的正文和该第二训练文档所属的范畴对应的文本得到的多个第二训练词条,该第二训练样本的标签用于指示多个第二训练词条各自的分值,多个第二训练词条各自的分值与该第二训练文档的正文和该第二训练文档所属的范畴对应的文本联合对应的逻辑关系相关。
具体地,第二机器学习模型可以是离线对多个第二训练样本训练得到的。其中,第二机器学习模型可为神经网络模型。
对于第二训练样本:若第一文档为法律法规对应的文档,则第二训练样本可包括:根据一个文档(该文档即为第二训练文档)中包括的法条正文和该文档所属的范畴对应的文本得到的多个词条(多个第二训练词条);或者,第二训练样本可包括,根据一个文档中包括的法条正文和该文档所属的范畴对应的文本得到的多个词条和多个词条各自的属性。若第一文档为法律文书,第二训练样本可包括:根据一法律文书(该法律文书即为第二训练文档)的正文和该法律文书所属的范畴对应的文本得到的多个词条;或者,第二训练样本可包括,根据法律文书的正文和该法律文书所属的范畴对应的文本得到的多个词条各自的属性。
可以理解的是,用于训练第二机器模型的多个第二训练样本中的各第二训练样本对应的训练文档不相同。
对于第二标签:第二训练样本包括的多个词条各自的分值是用户根据该多个词条在包括该多个词条的文档和该文档所属的范畴联合对应的逻辑关系确定的。可根据用户确定的该第二训练样本包括的多个词条各自的分值,为该第二训练样本分配一个第二标签,该第二标签用于指示该第二训练样本包括的多个词条各自的分值。可以理解的是,用于训练第二机器模型的多个第一训练样本中的各第二训练样本均具有一个第二标签。
在训练第二机器模型时,一种方案中,将第二训练样本转化成一输入向量作为初始化的神经网络模型的输入,得到一个输出,根据输出和该第二训练样本的第二标签,调整初始化的神经网络模型中的神经元之间的连接权重,得到更新后的机器学习模型,此为一次学习过程。每次学习过程均得到一个更新后的机器学习模型;经过预设次数的学习过程或者神经网络模型的输出和对应学习过程中的输入的第二训练样本的第二标签之间的误差满足要求时,得到的机器学习模型,即为最终的第二机器学习模型。
步骤S203、根据第一文档对应的多个词条中的词条的分值信息确定多个词条中的词条在第一文档中的分值。
下面以第一文档对应的多个词条中的任一第一词条在第一文档中的分值信息包括第一词条在第一文档中的TF-IDF、第一词条在第一文档中的第一分值和第一词条在第一文档中的第二分值为例,来说明第一词条在第一文档中的分值的获取方法。
在一种实施方式中,根据第一词条在第一文档中的TF-IDF、第一词条在第一文档中的第一分值和第一分值权重之和,得到第一词条在第一文档中的分值。
在另一种实施方式中,根据所述分值信息和第一文档的类型,确定第一词条在第一文档中的分值,具体地,根据第一词条在第一文档中的TF-IDF、TF-IDF权重、第一词条在第一文档中的第一分值、与第一文档的类型匹配的第一分值权重、第一词条在第一文档中的第二分值和与第一文档的类型匹配的第二分值权重,得到第一词条在第一文档中的分值。例如,若第一文档的类型为法律法规对应的文档,则TF-IDF权重小于第一分值权重,第一分值权重小于第二分值权重;若第一文档的类型为法律文书对应的文档,则TF-IDF权重和第二分值权重均小于第一分值权重,TF-IDF权重小于第二分值权重。
本实施例提供了数据库中存储的各词条在其所在的文档中的分值的获取方法。
以上对本申请实施例提供的推荐文档的方法进行了说明,下面采用具体地实施例对本申请实施例提供装置进行说明。
图3为本申请实施例提供的推荐文档的装置的结构示意图,如图3所示,本实施例的装置可以包括:获取模块31和处理模块32;
获取模块31,用于获取至少一个检索词;
处理模块32,用于获取所述至少一个检索词中的检索词在各文档中的分值,并根据所述至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档;其中,所述至少一个检索词中的任一第一检索词在第一文档中的分值是由所述第一检索词的分值信息确定的,所述分值信息包括如下中的至少两项:所述第一检索词在所述第一文档中的词频-逆文档频率TF-IDF、所述第一检索词在所述第一文档中的第一分值、所述第一检索词在所述第一文档中的第二分值,所述第一分值与所述第一文档的正文对应的逻辑关系相关,所述第二分值与所述第一文档的正文和所述第一文档所属的范畴联合对应的逻辑关系相关;所述第一文档为包括所述第一检索词的文档。
可选地,作为一个实施例,在所述处理模块32用于根据所述至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档之前,所述处理模块32还用于执行如下操作:根据所述第一文档,得到多个词条,所述多个词条中包括所述第一检索词;获取所述多个词条中的词条的分值信息;根据所述多个词条中的词条的分值信息,确定所述多个词条中的词条在所述第一文档中的分值。
可选地,作为一个实施例,所述多个词条中的词条的分值信息包括该词条在所述第一文档中的第一分值;所述处理模块32用于获取所述多个词条中的词条的分值信息,包括:所述处理模块32,具体用于将所述多个词条作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值;其中,所述第一机器学习模型是根据多个第一训练样本和所述多个第一训练样本各自的标签得到的,对于多个第一训练样本中的任一第一训练样本,该第一训练样本包括根据第一训练文档的正文得到的多个第一训练词条,该第一训练样本的标签用于指示所述多个第一训练词条各自的分值,所述多个第一训练词条各自的分值与所述第一训练文档对应的逻辑关系相关。
可选地,作为一个实施例,所述处理模块32用于将所述多个词条作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值,包括:所述处理模块32,具体用于将所述多个词条和所述多个词条中的词条的属性作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值。
可选地,作为一个实施例,所述多个词条中的词条的分值信息包括该词条在所述第一文档中的第二分值;所述处理模块32,用于根据所述第一文档,得到多个词条,包括:所述处理模块32,具体用于根据所述第一文档的正文和所述第一文档所属的范畴对应的文本,得到多个词条。
可选地,作为一个实施例,所述处理模块32,用于获取所述多个词条中的词条的分值信息,包括:所述处理模块32,具体用于将所述多个词条作为第二机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第二分值;其中,所述第二机器学习模型是根据多个第二训练样本和所述多个第二训练样本各自的标签得到的,对于多个第二训练样本中的任一第二训练样本,该第二训练样本包括根据第二训练文档的正文和所述第二训练文档所属的范畴对应的文本得到的多个第二训练词条,该第二训练样本的标签用于指示所述多个第二训练词条各自的分值,所述多个第二训练词条各自的分值与所述第二训练文档的正文和所述第二训练文档所属的范畴对应的文本联合对应的逻辑关系相关。
可选地,作为一个实施例,所述处理模块32,用于根据所述第一文档,得到多个词条,包括:所述处理模块32,具体用于对所述第一文档的正文进行切词,得到多个预选词条;以及对所述多个预选词条中的预选词条进行扩展,得到所述多个词条。
可选地,作为一个实施例,所述处理模块32,用于根据所述分值信息确定所述多个词条中的词条在所述第一文档中的分值,包括:所述处理模块32,具体用于根据所述分值信息和所述第一文档的类型,确定所述多个词条中的词条在所述第一文档中的分值。
本实施例的装置,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图4为本申请实施例提供的电子设备的结构示意图,本实施例提供的电子设备可包括图3所示的推荐文档的装置。如图4所示,本实施例的电子设备,包括处理器41和存储器42,所述存储器42中存储有指令,所述处理器41用于调用所述指令,执行如下操作:获取至少一个检索词;获取所述至少一个检索词中的检索词在各文档中的分值,并根据所述至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档;其中,所述至少一个检索词中的任一第一检索词在第一文档中的分值是由所述第一检索词的分值信息确定的,所述分值信息包括如下中的至少两项:所述第一检索词在所述第一文档中的词频-逆文档频率TF-IDF、所述第一检索词在所述第一文档中的第一分值、所述第一检索词在所述第一文档中的第二分值,所述第一分值与所述第一文档的正文对应的逻辑关系相关,所述第二分值与所述第一文档的正文和所述第一文档所属的范畴联合对应的逻辑关系相关;所述第一文档为包括所述第一检索词的文档。
结合第二方面,在第二方面的一种可能的实现方式中,在所述处理器41用于根据所述至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档之前,所述处理器41还用于执行如下操作:根据所述第一文档,得到多个词条,所述多个词条中包括所述第一检索词;获取所述多个词条中的词条的分值信息;根据所述多个词条中的词条的分值信息,确定所述多个词条中的词条在所述第一文档中的分值。
结合第二方面,在第二方面的一种可能的实现方式中,所述多个词条中的词条的分值信息包括该词条在所述第一文档中的第一分值;所述处理器41用于获取所述多个词条中的词条的分值信息,包括:所述处理器41,具体用于将所述多个词条作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值;其中,所述第一机器学习模型是根据多个第一训练样本和所述多个第一训练样本各自的标签得到的,对于多个第一训练样本中的任一第一训练样本,该第一训练样本包括根据第一训练文档的正文得到的多个第一训练词条,该第一训练样本的标签用于指示所述多个第一训练词条各自的分值,所述多个第一训练词条各自的分值与所述第一训练文档对应的逻辑关系相关。
结合第二方面,在第二方面的一种可能的实现方式中,所述处理器41用于将所述多个词条作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值,包括:所述处理器41,具体用于将所述多个词条和所述多个词条中的词条的属性作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值。
结合第二方面,在第二方面的一种可能的实现方式中,所述多个词条中的词条的分值信息包括该词条在所述第一文档中的第二分值;所述处理器41,用于根据所述第一文档,得到多个词条,包括:所述处理器41,具体用于根据所述第一文档的正文和所述第一文档所属的范畴对应的文本,得到多个词条。
结合第二方面,在第二方面的一种可能的实现方式中,所述处理器41,用于获取所述多个词条中的词条的分值信息,包括:所述处理器41,具体用于将所述多个词条作为第二机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第二分值;其中,所述第二机器学习模型是根据多个第二训练样本和所述多个第二训练样本各自的标签得到的,对于多个第二训练样本中的任一第二训练样本,该第二训练样本包括根据第二训练文档的正文和所述第二训练文档所属的范畴对应的文本得到的多个第二训练词条,该第二训练样本的标签用于指示所述多个第二训练词条各自的分值,所述多个第二训练词条各自的分值与所述第二训练文档的正文和所述第二训练文档所属的范畴对应的文本联合对应的逻辑关系相关。
结合第二方面,在第二方面的一种可能的实现方式中,所述处理器41,用于根据所述第一文档,得到多个词条,包括:所述处理器41,具体用于对所述第一文档的正文进行切词,得到多个预选词条;以及对所述多个预选词条中的预选词条进行扩展,得到所述多个词条。
结合第二方面,在第二方面的一种可能的实现方式中,所述处理器41,用于根据所述分值信息确定所述多个词条中的词条在所述第一文档中的分值,包括:所述处理器41,具体用于根据所述分值信息和所述第一文档的类型,确定所述多个词条中的词条在所述第一文档中的分值。
上述处理器可以是通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(directrambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本实施例的电子设备,可以用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (17)

1.一种推荐文档的方法,其特征在于,包括:
获取至少一个检索词;
获取所述至少一个检索词中的检索词在各文档中的分值,并根据所述至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档;
其中,所述至少一个检索词中的任一第一检索词在第一文档中的分值是由所述第一检索词的分值信息确定的,所述分值信息包括如下中的至少两项:所述第一检索词在所述第一文档中的词频-逆文档频率TF-IDF、所述第一检索词在所述第一文档中的第一分值、所述第一检索词在所述第一文档中的第二分值,所述第一分值与所述第一文档的正文对应的逻辑关系相关,所述第二分值与所述第一文档的正文和所述第一文档所属的范畴联合对应的逻辑关系相关;所述第一文档为包括所述第一检索词的文档,所述第一文档的正文对应的逻辑关系是指所述第一文档中包括的所有内容之间的逻辑关系,所述第一文档的正文和所述第一文档所属的范畴联合对应的逻辑关系是指所述第一文档中包括的所有内容之间的逻辑关系以及所述第一文档中包括的所有内容与所述第一文档所属的范畴之间的逻辑关系。
2.根据权利要求1所述的方法,其特征在于,在根据所述至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档之前,还包括:
根据所述第一文档,得到多个词条,所述多个词条中包括所述第一检索词;
获取所述多个词条中的词条的分值信息;
根据所述多个词条中的词条的分值信息,确定所述多个词条中的词条在所述第一文档中的分值。
3.根据权利要求2所述的方法,其特征在于,所述多个词条中的词条的分值信息包括该词条在所述第一文档中的第一分值;则获取所述多个词条中的词条的分值信息,包括:
将所述多个词条作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值;
其中,所述第一机器学习模型是根据多个第一训练样本和所述多个第一训练样本各自的标签得到的,对于多个第一训练样本中的任一第一训练样本,该第一训练样本包括根据第一训练文档的正文得到的多个第一训练词条,该第一训练样本的标签用于指示所述多个第一训练词条各自的分值,所述多个第一训练词条各自的分值与所述第一训练文档对应的逻辑关系相关。
4.根据权利要求3所述的方法,其特征在于,所述将所述多个词条作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值,包括:
将所述多个词条和所述多个词条中的词条的属性作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值。
5.根据权利要求2~4任一项所述的方法,其特征在于,所述多个词条中的词条的分值信息包括该词条在所述第一文档中的第二分值;
根据所述第一文档,得到多个词条,包括:
根据所述第一文档的正文和所述第一文档所属的范畴对应的文本,得到多个词条。
6.根据权利要求5所述的方法,其特征在于,获取所述多个词条中的词条的分值信息,包括:
将所述多个词条作为第二机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第二分值;
其中,所述第二机器学习模型是根据多个第二训练样本和所述多个第二训练样本各自的标签得到的,对于多个第二训练样本中的任一第二训练样本,该第二训练样本包括根据第二训练文档的正文和所述第二训练文档所属的范畴对应的文本得到的多个第二训练词条,该第二训练样本的标签用于指示所述多个第二训练词条各自的分值,所述多个第二训练词条各自的分值与所述第二训练文档的正文和所述第二训练文档所属的范畴对应的文本联合对应的逻辑关系相关。
7.根据权利要求2~4任一项所述的方法,其特征在于,根据所述第一文档,得到多个词条,包括:
对所述第一文档的正文进行切词,得到多个预选词条;
对所述多个预选词条中的预选词条进行扩展,得到所述多个词条。
8.根据权利要求2~4以及6中任一项所述的方法,其特征在于,所述根据所述分值信息确定所述多个词条中的词条在所述第一文档中的分值,包括:
根据所述分值信息和所述第一文档的类型,确定所述多个词条中的词条在所述第一文档中的分值。
9.一种电子设备,包括处理器和存储器,其特征在于,所述存储器中存储有指令,所述处理器用于调用所述指令,执行如下操作:
获取至少一个检索词;
获取所述至少一个检索词中的检索词在各文档中的分值,并根据所述至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档;
其中,所述至少一个检索词中的任一第一检索词在第一文档中的分值是由所述第一检索词的分值信息确定的,所述分值信息包括如下中的至少两项:所述第一检索词在所述第一文档中的词频-逆文档频率TF-IDF、所述第一检索词在所述第一文档中的第一分值、所述第一检索词在所述第一文档中的第二分值,所述第一分值与所述第一文档的正文对应的逻辑关系相关,所述第二分值与所述第一文档的正文和所述第一文档所属的范畴联合对应的逻辑关系相关;所述第一文档为包括所述第一检索词的文档,所述第一文档的正文对应的逻辑关系是指所述第一文档中包括的所有内容之间的逻辑关系,所述第一文档的正文和所述第一文档所属的范畴联合对应的逻辑关系是指所述第一文档中包括的所有内容之间的逻辑关系以及所述第一文档中包括的所有内容与所述第一文档所属的范畴之间的逻辑关系。
10.根据权利要求9所述的电子设备,其特征在于,在根据所述至少一个检索词中的检索词在各文档中的分值,确定向用户推荐的文档之前,所述处理器还用于执行如下操作:
根据所述第一文档,得到多个词条,所述多个词条中包括所述第一检索词;
获取所述多个词条中的词条的分值信息;
根据所述多个词条中的词条的分值信息,确定所述多个词条中的词条在所述第一文档中的分值。
11.根据权利要求10所述的电子设备,其特征在于,所述多个词条中的词条的分值信息包括该词条在所述第一文档中的第一分值;所述处理器用于获取所述多个词条中的词条的分值信息,包括:
所述处理器,具体用于将所述多个词条作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值;
其中,所述第一机器学习模型是根据多个第一训练样本和所述多个第一训练样本各自的标签得到的,对于多个第一训练样本中的任一第一训练样本,该第一训练样本包括根据第一训练文档的正文得到的多个第一训练词条,该第一训练样本的标签用于指示所述多个第一训练词条各自的分值,所述多个第一训练词条各自的分值与所述第一训练文档对应的逻辑关系相关。
12.根据权利要求11所述的电子设备,其特征在于,所述处理器用于将所述多个词条作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值,包括:
所述处理器,具体用于将所述多个词条和所述多个词条中的词条的属性作为第一机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第一分值。
13.根据权利要求10~12任一项所述的电子设备,其特征在于,所述多个词条中的词条的分值信息包括该词条在所述第一文档中的第二分值;
所述处理器,用于根据所述第一文档,得到多个词条,包括:
所述处理器,具体用于根据所述第一文档的正文和所述第一文档所属的范畴对应的文本,得到多个词条。
14.根据权利要求13所述的电子设备,其特征在于,所述处理器,用于获取所述多个词条中的词条的分值信息,包括:
所述处理器,具体用于将所述多个词条作为第二机器学习模型的输入,以得到所述多个词条中的词条在所述第一文档中的第二分值;
其中,所述第二机器学习模型是根据多个第二训练样本和所述多个第二训练样本各自的标签得到的,对于多个第二训练样本中的任一第二训练样本,该第二训练样本包括根据第二训练文档的正文和所述第二训练文档所属的范畴对应的文本得到的多个第二训练词条,该第二训练样本的标签用于指示所述多个第二训练词条各自的分值,所述多个第二训练词条各自的分值与所述第二训练文档的正文和所述第二训练文档所属的范畴对应的文本联合对应的逻辑关系相关。
15.根据权利要求10~12任一项所述的电子设备,其特征在于,所述处理器,用于根据所述第一文档,得到多个词条,包括:
所述处理器,具体用于对所述第一文档的正文进行切词,得到多个预选词条;以及
对所述多个预选词条中的预选词条进行扩展,得到所述多个词条。
16.根据权利要求10~12以及14中任一项所述的电子设备,其特征在于,所述处理器,用于根据所述分值信息确定所述多个词条中的词条在所述第一文档中的分值,包括:
所述处理器,具体用于根据所述分值信息和所述第一文档的类型,确定所述多个词条中的词条在所述第一文档中的分值。
17.一种计算机可读存储介质,包括程序或指令,其特征在于,当所述程序或指令在计算机上运行时,权利要求1~8任一所述的方法被执行。
CN201910526207.5A 2019-06-18 2019-06-18 推荐文档的方法和装置 Active CN110287288B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910526207.5A CN110287288B (zh) 2019-06-18 2019-06-18 推荐文档的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910526207.5A CN110287288B (zh) 2019-06-18 2019-06-18 推荐文档的方法和装置

Publications (2)

Publication Number Publication Date
CN110287288A CN110287288A (zh) 2019-09-27
CN110287288B true CN110287288B (zh) 2022-02-18

Family

ID=68005246

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910526207.5A Active CN110287288B (zh) 2019-06-18 2019-06-18 推荐文档的方法和装置

Country Status (1)

Country Link
CN (1) CN110287288B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020164A (zh) * 2012-11-26 2013-04-03 华北电力大学 一种基于多语义分析和个性化排序的语义检索方法
CN103455487A (zh) * 2012-05-29 2013-12-18 腾讯科技(深圳)有限公司 一种搜索词的提取方法及装置
CN108733745A (zh) * 2018-03-30 2018-11-02 华东师范大学 一种基于医学知识的查询扩展方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251841B (zh) * 2007-05-17 2011-06-29 华东师范大学 基于语义的Web文档的特征矩阵的建立和检索方法
US20100011025A1 (en) * 2008-07-09 2010-01-14 Yahoo! Inc. Transfer learning methods and apparatuses for establishing additive models for related-task ranking
US20100198816A1 (en) * 2009-01-30 2010-08-05 Yahoo! Inc. System and method for presenting content representative of document search
CN103218443A (zh) * 2013-04-22 2013-07-24 中山大学 一种面向博客网页的网页检索系统及方法
CN105653562B (zh) * 2014-12-02 2019-03-15 阿里巴巴集团控股有限公司 一种文本内容与查询请求之间相关性的计算方法及装置
CN105760504A (zh) * 2016-02-23 2016-07-13 中国银联股份有限公司 基于浏览器的资源检索方法
US10817519B2 (en) * 2016-06-06 2020-10-27 Baidu Usa Llc Automatic conversion stage discovery

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103455487A (zh) * 2012-05-29 2013-12-18 腾讯科技(深圳)有限公司 一种搜索词的提取方法及装置
CN103020164A (zh) * 2012-11-26 2013-04-03 华北电力大学 一种基于多语义分析和个性化排序的语义检索方法
CN108733745A (zh) * 2018-03-30 2018-11-02 华东师范大学 一种基于医学知识的查询扩展方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
特定领域问答系统中基于语义检索的非事实型问题研究;仇瑜 等;《北京大学学报(自然科学版)》;20190131;第55卷(第1期);55-64 *

Also Published As

Publication number Publication date
CN110287288A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
US20240078386A1 (en) Methods and systems for language-agnostic machine learning in natural language processing using feature extraction
CN106874441B (zh) 智能问答方法和装置
CN111190997B (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
US11977589B2 (en) Information search method, device, apparatus and computer-readable medium
CN108986910B (zh) 线上问答方法、装置、计算机设备和存储介质
US20070136280A1 (en) Factoid-based searching
CN110674319A (zh) 标签确定方法、装置、计算机设备及存储介质
CN110909122B (zh) 一种信息处理方法及相关设备
CN111159363A (zh) 一种基于知识库的问题答案确定方法及装置
CN109597874B (zh) 信息推荐方法、装置及服务器
US11593436B2 (en) Information provision device, information provision method, and program
CN111767737A (zh) 文本意图相似度确定方法、装置、电子设备和存储介质
CN110955766A (zh) 一种自动扩充智能客服标准问题对的方法和系统
CN112926308B (zh) 匹配正文的方法、装置、设备、存储介质以及程序产品
CN114818729A (zh) 一种训练语义识别模型、查找语句的方法、装置及介质
CN108628821B (zh) 一种词汇挖掘方法及装置
CN113934834A (zh) 一种问句匹配的方法、装置、设备和存储介质
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
CN110287288B (zh) 推荐文档的方法和装置
CN110851560B (zh) 信息检索方法、装置及设备
CN114328895A (zh) 新闻摘要的生成方法、装置以及计算机设备
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质
CN111930880A (zh) 一种文本编码检索的方法、装置及介质
CN110717008A (zh) 基于语意识别的搜索结果排序方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant