CN112507068A - 文档查询方法、装置、电子设备和存储介质 - Google Patents

文档查询方法、装置、电子设备和存储介质 Download PDF

Info

Publication number
CN112507068A
CN112507068A CN202011380049.6A CN202011380049A CN112507068A CN 112507068 A CN112507068 A CN 112507068A CN 202011380049 A CN202011380049 A CN 202011380049A CN 112507068 A CN112507068 A CN 112507068A
Authority
CN
China
Prior art keywords
document
keywords
search
candidate
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011380049.6A
Other languages
English (en)
Other versions
CN112507068B (zh
Inventor
杨天行
杨晨
彭彬
宋勋超
张一麟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202011380049.6A priority Critical patent/CN112507068B/zh
Publication of CN112507068A publication Critical patent/CN112507068A/zh
Application granted granted Critical
Publication of CN112507068B publication Critical patent/CN112507068B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了文档查询方法、装置、电子设备和存储介质,涉及知识图谱和深度学习技术领域。具体实现方案为:获取搜索关键词,根据提取搜索关键词所采用的提取策略,确定搜索关键词所属目标维度,从候选文档多个维度的文档关键词中,查询目标维度的文档关键词,在目标维度的文档关键词与目标维度的搜索关键词匹配的情况下,确定候选文档与搜索关键词匹配。本申请中通过根据提取策略确定出不同维度的关键词,进而在文档查询时,将对应维度的关键词进行匹配,提高了匹配的准确度,以及文档查询的灵活性,满足了不同的查询需求。

Description

文档查询方法、装置、电子设备和存储介质
技术领域
本申请涉及计算机技术领域,具体涉及知识图谱和深度学习技术领域,尤其涉及文档查询方法、装置、电子设备和存储介质。
背景技术
随着计算机技术的不断发展,互联网上的信息越来越多,例如,裁判文书作为法律领域由政府公开的法律文书,拥有至少8000万的公开语料,蕴含丰富知识。当信息量巨大时,如何满足不同的查询需求,同时准确的查找到对应的信息,变得至关重要。
发明内容
本申请提供了一种用于满足不同查询需求,并提高查询准确度的文档查询方法、装置、电子设备和存储介质。
根据本申请的一方面,提供了一种文档查询方法,包括:
获取搜索关键词;
根据提取所述搜索关键词所采用的提取策略,确定所述搜索关键词所属目标维度;
从候选文档多个维度的文档关键词中,查询所述目标维度的文档关键词;
在所述目标维度的所述文档关键词与所述目标维度的所述搜索关键词匹配的情况下,确定所述候选文档与所述搜索关键词匹配。
根据本申请的另一方面,提供了一种文档查询装置,包括:
获取模块,用于获取搜索关键词;
确定模块,用于根据提取所述搜索关键词所采用的提取策略,确定所述搜索关键词所属目标维度;
查询模块,用于从候选文档多个维度的文档关键词中,查询所述目标维度的文档关键词;
所述确定模块,还用于在所述目标维度的所述文档关键词与所述目标维度的所述搜索关键词匹配的情况下,确定所述候选文档与所述搜索关键词匹配。
根据本申请的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前述一方面所述的文档查询方法。
根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如前述一方面所述的文档查询方法。
根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如前述一方面所述的文档查询方法。
应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请实施例所提供的一种文档查询方法的流程示意图;
图2为本申请实施例提供的另一种文档查询方法的流程示意图;
图3为本实施例中多个维度的示意图;
图4为本申请实施例提供的另一种文档查询方法的流程示意图;
图5为本申请实施例提供的一种文档查询装置的结构示意图;
图6是用来实现本申请实施例的文档查询方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
下面参考附图描述本申请实施例的文档查询方法、装置、电子设备和存储介质。
相关技术中,通常采用对语料建立倒排索引,并依赖传统文档切词确定关键字等信息进行文档查询,然而这种查询方式,查询时文档推荐和检索的相关性较差,针对同一个检索词,无法区分不同场景下的语义,例如,同一个关键词“匕首”,即可以当做典当案件中的典当物品,也可以作为持械伤人案件中的凶器。也就是说传统的查询方式,容易丢失语义信息,同时,对于文档中没有出现的标签,也无法挖掘,也就是说无法挖掘出文档中蕴含的多种知识体系,无法满足不同场景的查询需求,查询的准确性较差。
为此,本申请提出了一种文档查询方法,通过根据提取策略确定出不同维度的关键词,进而在文档查询时,将对应维度的关键词进行匹配,提高了匹配的准确度,以及文档查询的灵活性,满足了不同的查询需求。
图1为本申请实施例所提供的一种文档查询方法的流程示意图。
如图1所示,该方法包括以下步骤:
步骤101,获取搜索关键词。
其中,关键词可以为一个或多个。
本申请实施例中,关键词是对搜索文本进行关键词提取得到的。其中,搜索文本可以是用户在交互界面的输入框中输入的输入文本;或者是采集用户的语音,并进行文本解析生成的语音对应的文本;又或者是基于用户操作,在数据库中选定的参考文本。
本申请的另一个实施例中,搜索关键词可以是用户在交互界面的输入框中输入的搜索关键词,或者是用户从数据库中选定的搜索关键词。
步骤102,根据提取搜索关键词所采用的提取策略,确定搜索关键词所属目标维度。
本申请实施例中,获取到的关键词在提取时是基于相应的提取策略确定的,而提取策略和关键词提取的场景具有对应关系,不同的场景下,具有相应的关键词提取策略,场景不同,关键词提取策略可以相同或不同,本实施例中不进行限定。例如,在新闻查询场景下,获取到的关键词对应的提取策略为对关键词所属的文档提取主题或摘要,而主题或摘要即为该关键词所属的目标维度。
步骤103,从候选文档多个维度的文档关键词中,查询目标维度的文档关键词。
其中,维度包含命名实体标签维度、挖掘类标签维度、归纳类标签维度、文档结构标签维度、标题摘要标签维度和切词类标签维度等,本实施例中不一一列举,其中,候选文档的维度可以根据不同的应用场景的需求灵活设置,上述列举的维度仅为一种示例,并不构成对本申请的限定。
本实施例中,候选文档多个维度的文档关键词,是对候选文档采用多种提取策略进行提取得到的,不同的提取策略,对应不同维度的文档关键词。在确定搜索关键词对应的目标维度后,从候选文档多个维度的文档关键词中,查询确定目标维度的文档关键词。
步骤104,在目标维度的文档关键词与目标维度的搜索关键词匹配的情况下,确定候选文档与搜索关键词匹配。
本申请实施例中,将属于同一目标维度的文档关键词和搜索关键词,进行匹配,作为一种可能的实现方式,可以将文档关键词和搜索关键词转化为对应的向量,进而基于两个向量之间的距离,确定文档关键词和搜索关键词是否匹配,如果候选关键词和搜索关键词匹配,则确定候选文档与搜索关键词匹配。
本实施例中,获取搜索关键词,根据提取搜索关键词所采用的提取策略,确定搜索关键词所属目标维度,从候选文档多个维度的文档关键词中,查询目标维度的文档关键词,在目标维度的文档关键词与目标维度的搜索关键词匹配的情况下,确定候选文档与搜索关键词匹配。本申请中通过根据提取策略确定出不同维度的关键词,进而在文档查询时,将对应维度的关键词进行匹配,提高了匹配的准确度,以及文档查询的灵活性,满足了不同的查询需求。
基于上一实施例,本实施例中,在确定候选文档与搜索关键词匹配之后,也即上述步骤104之后,还包括:
展示搜索结果页面,其中,搜索结果页面中包含候选文档的摘要,和/或,候选文档多个维度的文档关键词。
本实施例中,确定候选文档与搜索关键词匹配之后,为了帮助用户了解搜文文本的信息,可展示搜索结果页面,以在搜索结果页面中展示候选文档的摘要,和/或,候选文档多个维度的文档关键词。例如,在裁判文书搜索场景,通过在搜索结果页面中展示候选文档的摘要,和/或,候选文档多个维度的文档关键词,可以帮助用户更好的理解案件,并帮助用户了解检索结果的匹配性,满足了不同场景的查询需求。
基于上述实施例,本申请实施例提供了另一种文档查询方法,图2为本申请实施例提供的另一种文档查询方法的流程示意图,如图2所示,步骤101包含以下步骤:
步骤201,响应于用户操作,确定搜索文本和搜索场景。
其中,用户操作,包含点击操作,滑动操作,触控操作等。搜索文本包含包括输入文本和/或选定的参考文档,其中,输入文本可以是用户在交互界面的输入框中输入文本;或者参考文档,可以是基于用户操作,在数据库中选定的,通过设置多种搜索文本的获取方式,丰富了搜索文本的获取方式,满足不同场景的需求。
本实施例中,搜索场景包含需求识别场景、案件推送场景、案件检索场景和可视化展示等场景。其中,案件推送场景,例如基于给定的案件A,推送相似的案件B,C或E等。案件检索场景,例如,确定案件是关于侵害的,则检索语义包含“侵害”的文档,提高了文档检索的范围,提高了检索的准确性。可视化展示场景,是指提供案件的摘要等,以帮助用户直观的理解案件。
步骤202,查询搜索场景适用的提取策略。
本实施例中,多种提取策略包括以下提取策略中的一个或多个组合:
提取出现在候选文档中的实体词和/或事件词;
对出现在候选文档中的实体词和/或事件词,在配置的知识图谱中查询相关词,提取相关词;
对候选文档进行语义编码或者字符编码,得到候选文档的编码向量,将编码向量输入经过训练的提取模型,得到候选文档的文档关键词;其中,提取模型,可以是采用深度学习的方式训练得到的。
对候选文档中包含的标题进行提取;
根据候选文档中各词的词频进行关键词提取;
提取候选文档的主题或摘要。
其中,提取出现在候选文档中的实体词和/或事件词,作为一种可能的实现方式,可通过命名实体识别技术,识别文档中出现的人名、机构名、时间、地点、物品等命名实体,例如,AA大学对应组织机构,范某对应人物等,作为最基本的基于文本内容维度的知识体系。
对出现在候选文档中的实体词和/或事件词,在配置的知识图谱中查询相关词,提取相关词,例如,根据出现的实体词奔驰,查询确定的相关词为机动车;实体词持刀,对应的相关词为携带凶器;实体词喝了三瓶青岛啤酒,对应的相关词为饮酒,通过确定相关词,丰富补充了搜索文本无法包含的知识体系。
对候选文档进行语义编码或者字符编码,得到候选文档的编码向量,将编码向量输入经过训练的提取模型,得到候选文档的文档关键词,基于行业专家标注的标签体系,例如诉求、案情、争议点、小结论,例如,侵权人驾驶机动车;侵权人系未成年人,归纳分类搜索文本中体现的归纳性标签,从而丰富补充原文无法包含的知识体系。
提取候选文档的主题或摘要,对候选文档中包含的标题进行提取,例如,文档中的摘要、标题、副标题等提取出来的知识体系,可以表征搜索文本在原始文档层级体现的知识体系。
提取候选文档的主题或摘要,作为一种实现方式,对搜索文本的关键段落,自动进行标题摘要的挖掘,基于内容生成技术归纳生成摘要性主题,并自动挖掘语义性标签,从而丰富补充搜索文本无法包含的知识体系。
本实施例中,不同的搜索场景具有适用的提取策略,搜索场景不同,适用的提取策略可以相同或者不同,实现了基于不同的场景,根据不同的提取策略以提取不同维度的关键词,相较于通过切词直接获取的关键词,本申请实施例在切词的基础上获取更多维度的关键词,丰富了搜索文档包含的信息,满足了不同场景的查询需求。
步骤203,对搜索文本采用搜索场景适用的提取策略进行关键词提取,以得到搜索关键词。
例如,在类似案件推送场景下,例如,给定案件B,推送相似的一个或多个案件B1和B2等。适用的提取策略可包含上述列举的全部提取策略,从基于搜索场景适用的提取策略进行关键词提取,可以获取相应多种维度下的搜索关键词,丰富了搜索关键词包含的信息量,提高了类似案件推送的准确性和相关性。
本实施例中,利用提取策略对搜索文本进行关键词提取,可以得到对应多个维度的搜索关键词,同理,对其他文档采用多种提取策略进行关键词提取,也可以获取多个维度的关键词。
图3为本实施例中多个维度的示意图。本实施例中,以搜索文本为裁判书原文为例,进行说明。
其中,图3指示了,针对裁判书原文,可进行多层次的维度生成,多层次的维度包含生成类标签维度、原文信息标签维度和传统标签维度。而生成类标签维度和原文信息标签维度属于语义型标签维度,包含语义信息。其中,生成类标签维度包含挖掘类标签维度、归纳类标签维度和标题摘要维度。原文信息标签维度包含文档结构标签维度和命名实体标签维度。
其中,提取策略和提取得到的关键词的维度具有对应关系,其中,表1即为一种可能的对应关系。
Figure BDA0002808254360000061
Figure BDA0002808254360000071
表1
可以理解的是,表1中的每一个元素、每一条对应关系,都是独立存在的;这些元素、对应关系被示例性的列在同一张表格中,但是并不代表表格中的所有元素、对应关系必须根据表格1中所示的同时存在。其中每一个元素的值和每一对应关系,是不依赖于表1中任何其他元素值或对应关系。因此本领域内技术人员可以理解,该表1中的每一个元素的取值、每一条对应关系,各种都是一个独立的实施例。
本申请实施例中,基于搜索场景,确定适用的提取策略,基于不同的提取策略确定出不同维度的搜索关键词,丰富了搜索文本包含的信息量,进而在文档查询时,将对应维度的关键词进行匹配,提高了匹配的准确度,以及文档查询的灵活性,满足了不同的查询需求。
基于上述实施例,本实施例提供了另一种文档查询方法,图4为本申请实施例提供的另一种文档查询方法的流程示意图,如图4所示,步骤104之前还包含以下步骤:
步骤401,查询目标维度的权重系数。
本实施例中,不同维度具有对应的重要程度,重要程度采用权重系数来表示,权重系数越大,表示该维度具有的重要程度或可信程度越高。
步骤402,根据权重系数,对文档关键词与搜索关键词之间的匹配度进行匹配度调整,得到目标匹配度。
步骤403,在目标匹配度大于设定阈值的情况下,确定目标维度的文档关键词与目标维度的搜索关键词匹配。
本实施例中,确定文档关键词与搜索关键词之间的匹配程度,作为一种可能的实现方式,可基于文档关键词与搜索关键词之间的距离确定文档关键词和搜索关键词之间的匹配程度。
作为一种可能的实现方式,若获取到的搜索关键词为一个,则对应的目标维度则为一个,在确定文档关键词和搜索关键词之间的匹配程度之后,将匹配程度和目标维度的权重系数相乘,得到根据权重系数调整后的目标匹配度。进而,在目标匹配度大于设定阈值的情况下,确定目标维度的文档关键词与目标维度的搜索关键词匹配,实现了通过将不同维度进行重要性或可信度划分,确定不同维度的权重,基于维度权重系数对匹配度的调整,提高了关键词匹配的准确性。
作为另一种可能的实现方式,若获取到的搜索关键词为多个,则对应的目标维度可以为多个,从而,根据多个目标维度对应的权重系数,进行加权计算,确定相应文档关键词和搜索关键词之间的目标匹配程度,进而,在目标匹配度大于设定阈值的情况下,确定目标维度的文档关键词与目标维度的搜索关键词匹配,实现了通过将不同维度进行重要性或可信度划分,确定不同维度的权重,基于维度权重系数对匹配度的调整,提高了关键词匹配的准确性。
本实施例中,通过将不同维度进行重要性或可信度划分,确定不同维度的权重,基于不同维度的权重系数,对匹配度进行调整,提高了关键词匹配的准确性。
为了实现上述实施例,本实施例提供了一种文档查询装置。
图5为本申请实施例提供的一种文档查询装置的结构示意图。
如图5所示,该装置包含:
获取模块51,用于获取搜索关键词。
确定模块52,用于根据提取所述搜索关键词所采用的提取策略,确定所述搜索关键词所属目标维度。
查询模块53,用于从候选文档多个维度的文档关键词中,查询所述目标维度的文档关键词。
上述确定模块51,还用于在所述目标维度的所述文档关键词与所述目标维度的所述搜索关键词匹配的情况下,确定所述候选文档与所述搜索关键词匹配。
进一步,在本申请实施例的一种可能的实现方式中,上述获取模块51,具体用于:
响应于用户操作,确定搜索文本和搜索场景;
查询所述搜索场景适用的提取策略;
对所述搜索文本采用所述搜索场景适用的提取策略进行关键词提取,以得到所述搜索关键词。
在本申请实施例的一种可能的实现方式中,所述候选文档多个维度的文档关键词,是对所述候选文档采用多种所述提取策略进行提取得到的;
所述多种提取策略包括以下提取策略中的一个或多个组合:
提取出现在所述候选文档中的实体词和/或事件词;
对出现在所述候选文档中的所述实体词和/或所述事件词,在配置的知识图谱中查询相关词,提取所述相关词;
对所述候选文档进行语义编码或者字符编码,得到所述候选文档的编码向量,将所述编码向量输入经过训练的提取模型,得到所述候选文档的文档关键词;
对所述候选文档中包含的标题进行提取;
根据所述候选文档中各词的词频进行关键词提取;
提取所述候选文档的主题或摘要。
在本申请实施例的一种可能的实现方式中,所述搜索文本包括输入文本和/或选定的参考文档。
在本申请实施例的一种可能的实现方式中,所述装置,还包括:
上述查询模块53,具体用于查询所述目标维度的权重系数。
调整模块,用于根据所述权重系数,对所述文档关键词与所述搜索关键词之间的匹配度进行匹配度调整,得到目标匹配度。
上述确定模块51,还用于在所述目标匹配度大于设定阈值的情况下,确定所述目标维度的所述文档关键词与所述目标维度的所述搜索关键词匹配。
在本申请实施例的一种可能的实现方式中,该装置,还包括:
展示模块,用于展示搜索结果页面;其中,所述搜索结果页面中包含所述候选文档的摘要,和/或,所述候选文档多个维度的文档关键词。
需要说明的是,前述对文档查询方法实施例的解释说明,也适用于本实施例的文档查询装置,原理相同,此处不再赘述。
本实施例中,确定候选文档与搜索关键词匹配之后,为了帮助用户了解搜文文本的信息,可展示搜索结果页面,以在搜索结果页面中展示候选文档的摘要,和/或,候选文档多个维度的文档关键词。例如,在裁判文书搜索场景,通过在搜索结果页面中展示候选文档的摘要,和/或,候选文档多个维度的文档关键词,可以帮助用户更好的理解案件,并帮助用户了解检索结果的匹配性,满足了不同场景的查询需求。
为了实现上述实施例,本申请实施例还提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如前述方法实施例所述的文档查询方法。
为了实现上述实施例,本申请实施例还提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如前述方法实施例所述的文档查询方法。
为了实现上述实施例,本申请实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现如前述方法实施例所述的文档查询方法。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图6所示,是根据本申请实施例的文档查询方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图6所示,该电子设备包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的文档查询方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的文档查询方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的文档查询方法对应的程序指令/模块(例如,附图5所示的获取模块51、确定模块52和查询模块53)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的文档查询方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据文档查询方法的电子设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至文档查询方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
文档查询方法的电子设备还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与文档查询方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
根据本申请实施例的技术方案,获取搜索关键词,根据提取搜索关键词所采用的提取策略,确定搜索关键词所属目标维度,从候选文档多个维度的文档关键词中,查询目标维度的文档关键词,在目标维度的文档关键词与目标维度的搜索关键词匹配的情况下,确定候选文档与搜索关键词匹配。本申请中通过根据提取策略确定出不同维度的关键词,进而在文档查询时,将对应维度的关键词进行匹配,提高了匹配的准确度,以及文档查询的灵活性,满足了不同的查询需求。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

Claims (15)

1.一种文档查询方法,包括:
获取搜索关键词;
根据提取所述搜索关键词所采用的提取策略,确定所述搜索关键词所属目标维度;
从候选文档多个维度的文档关键词中,查询所述目标维度的文档关键词;
在所述目标维度的所述文档关键词与所述目标维度的所述搜索关键词匹配的情况下,确定所述候选文档与所述搜索关键词匹配。
2.根据权利要求1所述的文档查询方法,其中,所述获取搜索关键词,包括:
响应于用户操作,确定搜索文本和搜索场景;
查询所述搜索场景适用的提取策略;
对所述搜索文本采用所述搜索场景适用的提取策略进行关键词提取,以得到所述搜索关键词。
3.根据权利要求1所述的文档查询方法,其中,所述候选文档多个维度的文档关键词,是对所述候选文档采用多种所述提取策略进行提取得到的;
所述多种提取策略包括以下提取策略中的一个或多个组合:
提取出现在所述候选文档中的实体词和/或事件词;
对出现在所述候选文档中的所述实体词和/或所述事件词,在配置的知识图谱中查询相关词,提取所述相关词;
对所述候选文档进行语义编码或者字符编码,得到所述候选文档的编码向量,将所述编码向量输入经过训练的提取模型,得到所述候选文档的文档关键词;
对所述候选文档中包含的标题进行提取;
根据所述候选文档中各词的词频进行关键词提取;
提取所述候选文档的主题或摘要。
4.根据权利要求2所述的文档查询方法,其中,所述搜索文本包括输入文本和/或选定的参考文档。
5.根据权利要求1-4任一项所述的文档查询方法,其中,所述在所述目标维度的所述文档关键词与所述目标维度的所述搜索关键词匹配的情况下,确定所述候选文档与所述搜索关键词匹配之前,还包括:
查询所述目标维度的权重系数;
根据所述权重系数,对所述文档关键词与所述搜索关键词之间的匹配度进行匹配度调整,得到目标匹配度;
在所述目标匹配度大于设定阈值的情况下,确定所述目标维度的所述文档关键词与所述目标维度的所述搜索关键词匹配。
6.根据权利要求1-4任一项所述的文档查询方法,其中,所述确定所述候选文档与所述搜索关键词匹配之后,还包括:
展示搜索结果页面;其中,所述搜索结果页面中包含所述候选文档的摘要,和/或,所述候选文档多个维度的文档关键词。
7.一种文档查询装置,包括:
获取模块,用于获取搜索关键词;
确定模块,用于根据提取所述搜索关键词所采用的提取策略,确定所述搜索关键词所属目标维度;
查询模块,用于从候选文档多个维度的文档关键词中,查询所述目标维度的文档关键词;
所述确定模块,还用于在所述目标维度的所述文档关键词与所述目标维度的所述搜索关键词匹配的情况下,确定所述候选文档与所述搜索关键词匹配。
8.根据权利要求7所述的文档查询装置,其中,所述获取模块,具体用于:
响应于用户操作,确定搜索文本和搜索场景;
查询所述搜索场景适用的提取策略;
对所述搜索文本采用所述搜索场景适用的提取策略进行关键词提取,以得到所述搜索关键词。
9.根据权利要求7所述的文档查询装置,其中,所述候选文档多个维度的文档关键词,是对所述候选文档采用多种所述提取策略进行提取得到的;
所述多种提取策略包括以下提取策略中的一个或多个组合:
提取出现在所述候选文档中的实体词和/或事件词;
对出现在所述候选文档中的所述实体词和/或所述事件词,在配置的知识图谱中查询相关词,提取所述相关词;
对所述候选文档进行语义编码或者字符编码,得到所述候选文档的编码向量,将所述编码向量输入经过训练的提取模型,得到所述候选文档的文档关键词;
对所述候选文档中包含的标题进行提取;
根据所述候选文档中各词的词频进行关键词提取;
提取所述候选文档的主题或摘要。
10.根据权利要求8所述的文档查询装置,其中,所述搜索文本包括输入文本和/或选定的参考文档。
11.根据权利要求7-10任一项所述的文档查询装置,其中,所述装置,还包括:
所述查询模块,具体用于查询所述目标维度的权重系数;
调整模块,用于根据所述权重系数,对所述文档关键词与所述搜索关键词之间的匹配度进行匹配度调整,得到目标匹配度;
所述确定模块,还用于在所述目标匹配度大于设定阈值的情况下,确定所述目标维度的所述文档关键词与所述目标维度的所述搜索关键词匹配。
12.根据权利要求7-10任一项所述的文档查询装置,其中,所述装置,还包括:
展示模块,用于展示搜索结果页面;其中,所述搜索结果页面中包含所述候选文档的摘要,和/或,所述候选文档多个维度的文档关键词。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时,实现权利要求1-6中任一项所述的方法。
CN202011380049.6A 2020-11-30 2020-11-30 文档查询方法、装置、电子设备和存储介质 Active CN112507068B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011380049.6A CN112507068B (zh) 2020-11-30 2020-11-30 文档查询方法、装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011380049.6A CN112507068B (zh) 2020-11-30 2020-11-30 文档查询方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN112507068A true CN112507068A (zh) 2021-03-16
CN112507068B CN112507068B (zh) 2023-11-14

Family

ID=74969747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011380049.6A Active CN112507068B (zh) 2020-11-30 2020-11-30 文档查询方法、装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN112507068B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191145A (zh) * 2021-05-21 2021-07-30 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质
CN113239275A (zh) * 2021-05-28 2021-08-10 北京百度网讯科技有限公司 信息推送方法、装置、电子设备和存储介质
CN113568940A (zh) * 2021-08-04 2021-10-29 北京百度网讯科技有限公司 数据查询的方法、装置、设备以及存储介质
CN113626559A (zh) * 2021-07-23 2021-11-09 上海齐网网络科技有限公司 基于语义的网络文档智能检索的方法及系统
CN114818678A (zh) * 2022-03-28 2022-07-29 西安远诺技术转移有限公司 一种科技成果管理方法、平台及电子设备
CN116013296A (zh) * 2023-03-28 2023-04-25 国网浙江省电力有限公司营销服务中心 基于计算机自然语言处理的搜索方法
CN116089599A (zh) * 2023-04-07 2023-05-09 北京澜舟科技有限公司 信息查询方法、系统以及存储介质
CN116561288A (zh) * 2023-07-12 2023-08-08 腾讯科技(深圳)有限公司 事件查询方法、装置、计算机设备、存储介质及程序产品
CN116662521A (zh) * 2023-07-26 2023-08-29 广东省建设工程质量安全检测总站有限公司 一种电子文档筛选查询方法及系统
WO2023236257A1 (zh) * 2022-06-07 2023-12-14 来也科技(北京)有限公司 文档搜索平台、搜索方法、装置、电子设备及存储介质
CN117408652A (zh) * 2023-12-15 2024-01-16 江西驱动交通科技有限公司 一种档案数据分析管理方法及系统
CN117851340A (zh) * 2024-03-08 2024-04-09 湖南云档信息科技有限公司 一种基于关键词的档案形成方法、系统、终端及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7996393B1 (en) * 2006-09-29 2011-08-09 Google Inc. Keywords associated with document categories
CN102929873A (zh) * 2011-08-08 2013-02-13 腾讯科技(深圳)有限公司 一种基于情境搜索提取搜索价值词的方法及装置
WO2013098886A1 (ja) * 2011-12-27 2013-07-04 三菱電機株式会社 検索装置
CN103699625A (zh) * 2013-12-20 2014-04-02 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置
CN107085583A (zh) * 2016-10-27 2017-08-22 中国长城科技集团股份有限公司 一种基于内容的电子文档管理方法及装置
CN108304484A (zh) * 2017-12-29 2018-07-20 北京城市网邻信息技术有限公司 关键词匹配方法及装置、电子设备和可读存储介质
CN110134760A (zh) * 2019-05-17 2019-08-16 北京思维造物信息科技股份有限公司 一种搜索方法、装置、设备及介质
CN110196901A (zh) * 2019-06-28 2019-09-03 北京百度网讯科技有限公司 对话系统的构建方法、装置、计算机设备和存储介质
CN110287289A (zh) * 2019-06-25 2019-09-27 北京金海群英网络信息技术有限公司 一种文档关键词提取及基于文档匹配商品的方法
CN111522905A (zh) * 2020-04-15 2020-08-11 武汉灯塔之光科技有限公司 一种基于数据库的文档搜索方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7996393B1 (en) * 2006-09-29 2011-08-09 Google Inc. Keywords associated with document categories
CN102929873A (zh) * 2011-08-08 2013-02-13 腾讯科技(深圳)有限公司 一种基于情境搜索提取搜索价值词的方法及装置
WO2013098886A1 (ja) * 2011-12-27 2013-07-04 三菱電機株式会社 検索装置
CN103699625A (zh) * 2013-12-20 2014-04-02 北京百度网讯科技有限公司 基于关键词进行检索的方法及装置
CN107085583A (zh) * 2016-10-27 2017-08-22 中国长城科技集团股份有限公司 一种基于内容的电子文档管理方法及装置
CN108304484A (zh) * 2017-12-29 2018-07-20 北京城市网邻信息技术有限公司 关键词匹配方法及装置、电子设备和可读存储介质
CN110134760A (zh) * 2019-05-17 2019-08-16 北京思维造物信息科技股份有限公司 一种搜索方法、装置、设备及介质
CN110287289A (zh) * 2019-06-25 2019-09-27 北京金海群英网络信息技术有限公司 一种文档关键词提取及基于文档匹配商品的方法
CN110196901A (zh) * 2019-06-28 2019-09-03 北京百度网讯科技有限公司 对话系统的构建方法、装置、计算机设备和存储介质
CN111522905A (zh) * 2020-04-15 2020-08-11 武汉灯塔之光科技有限公司 一种基于数据库的文档搜索方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
吴勇;周军;: "基于语境和语义的中文文本聚类算法研究", 科技信息, no. 35 *
邱利茂;刘嘉勇;: "基于文档词典的文本关联关键词推荐技术", 现代计算机(专业版), no. 07 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191145A (zh) * 2021-05-21 2021-07-30 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质
CN113191145B (zh) * 2021-05-21 2023-08-11 百度在线网络技术(北京)有限公司 关键词的处理方法、装置、电子设备和介质
CN113239275B (zh) * 2021-05-28 2023-06-30 北京百度网讯科技有限公司 信息推送方法、装置、电子设备和存储介质
CN113239275A (zh) * 2021-05-28 2021-08-10 北京百度网讯科技有限公司 信息推送方法、装置、电子设备和存储介质
CN113626559A (zh) * 2021-07-23 2021-11-09 上海齐网网络科技有限公司 基于语义的网络文档智能检索的方法及系统
CN113626559B (zh) * 2021-07-23 2024-02-27 上海齐网网络科技有限公司 基于语义的网络文档智能检索的方法及系统
CN113568940A (zh) * 2021-08-04 2021-10-29 北京百度网讯科技有限公司 数据查询的方法、装置、设备以及存储介质
CN113568940B (zh) * 2021-08-04 2024-05-21 北京百度网讯科技有限公司 数据查询的方法、装置、设备以及存储介质
CN114818678A (zh) * 2022-03-28 2022-07-29 西安远诺技术转移有限公司 一种科技成果管理方法、平台及电子设备
WO2023236257A1 (zh) * 2022-06-07 2023-12-14 来也科技(北京)有限公司 文档搜索平台、搜索方法、装置、电子设备及存储介质
CN116013296B (zh) * 2023-03-28 2023-05-30 国网浙江省电力有限公司营销服务中心 基于计算机自然语言处理的搜索方法
CN116013296A (zh) * 2023-03-28 2023-04-25 国网浙江省电力有限公司营销服务中心 基于计算机自然语言处理的搜索方法
CN116089599A (zh) * 2023-04-07 2023-05-09 北京澜舟科技有限公司 信息查询方法、系统以及存储介质
CN116561288A (zh) * 2023-07-12 2023-08-08 腾讯科技(深圳)有限公司 事件查询方法、装置、计算机设备、存储介质及程序产品
CN116561288B (zh) * 2023-07-12 2024-01-05 腾讯科技(深圳)有限公司 事件查询方法、装置、计算机设备、存储介质及程序产品
CN116662521A (zh) * 2023-07-26 2023-08-29 广东省建设工程质量安全检测总站有限公司 一种电子文档筛选查询方法及系统
CN116662521B (zh) * 2023-07-26 2023-11-14 广东省建设工程质量安全检测总站有限公司 一种电子文档筛选查询方法及系统
CN117408652A (zh) * 2023-12-15 2024-01-16 江西驱动交通科技有限公司 一种档案数据分析管理方法及系统
CN117851340A (zh) * 2024-03-08 2024-04-09 湖南云档信息科技有限公司 一种基于关键词的档案形成方法、系统、终端及存储介质

Also Published As

Publication number Publication date
CN112507068B (zh) 2023-11-14

Similar Documents

Publication Publication Date Title
CN112507068B (zh) 文档查询方法、装置、电子设备和存储介质
CN110543574B (zh) 一种知识图谱的构建方法、装置、设备及介质
US11720572B2 (en) Method and system for content recommendation
US10558754B2 (en) Method and system for automating training of named entity recognition in natural language processing
US20200210468A1 (en) Document recommendation method and device based on semantic tag
CN111125435B (zh) 视频标签的确定方法、装置和计算机设备
CN110991196B (zh) 多义词的翻译方法、装置、电子设备及介质
CN112507715A (zh) 确定实体之间关联关系的方法、装置、设备和存储介质
US20130060769A1 (en) System and method for identifying social media interactions
US20140149401A1 (en) Per-document index for semantic searching
US11361030B2 (en) Positive/negative facet identification in similar documents to search context
US10956469B2 (en) System and method for metadata correlation using natural language processing
CN112560479A (zh) 摘要抽取模型训练方法、摘要抽取方法、装置和电子设备
CN111831821A (zh) 文本分类模型的训练样本生成方法、装置和电子设备
CN111538815B (zh) 一种文本查询方法、装置、设备及存储介质
CN111737501A (zh) 一种内容推荐方法及装置、电子设备、存储介质
CN110569370B (zh) 一种知识图谱的构建方法、装置、电子设备及存储介质
US11887011B2 (en) Schema augmentation system for exploratory research
CN111783861A (zh) 数据分类方法、模型训练方法、装置和电子设备
CN112052397B (zh) 用户特征生成方法、装置、电子设备及存储介质
WO2015084404A1 (en) Matching of an input document to documents in a document collection
CN112380847A (zh) 兴趣点处理方法、装置、电子设备及存储介质
CN113609847A (zh) 信息抽取方法、装置、电子设备及存储介质
US20190095525A1 (en) Extraction of expression for natural language processing
CN112650919A (zh) 实体资讯分析方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant