CN111177306B - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN111177306B
CN111177306B CN202010001412.2A CN202010001412A CN111177306B CN 111177306 B CN111177306 B CN 111177306B CN 202010001412 A CN202010001412 A CN 202010001412A CN 111177306 B CN111177306 B CN 111177306B
Authority
CN
China
Prior art keywords
knowledge
unstructured document
unstructured
document
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010001412.2A
Other languages
English (en)
Other versions
CN111177306A (zh
Inventor
申亚坤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bank of China Ltd
Original Assignee
Bank of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bank of China Ltd filed Critical Bank of China Ltd
Priority to CN202010001412.2A priority Critical patent/CN111177306B/zh
Publication of CN111177306A publication Critical patent/CN111177306A/zh
Application granted granted Critical
Publication of CN111177306B publication Critical patent/CN111177306B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/383Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据处理方法及装置,获取非结构化文档,并对非结构化文档进行知识梳理,获得对应非结构化文档的知识条目,将非结构化文档和知识条目存储至知识库中,获取检索关键词,并基于检索关键词,以及存储于知识库中的非结构化文档和知识条目进行检索,获得对应检索关键词的目标文档。通过检索关键词检索知识条目,基于知识条目获得目标文档,解决了在知识库中进行全文检索非结构化文档,反馈给用户的效率极低,给用户造成了极差的检索体验的问题,实现了提高检索效率的目的。

Description

一种数据处理方法及装置
技术领域
本发明属于计算机技术领域,具体为涉及一种数据处理方法及装置。
背景技术
目前,知识库中存储有海量的非结构化文档,当存在需求时,通过全文检索的方式在知识库中进行检索,获得需要的非结构化文档。通过对知识库中存储海量的非结构化文档进行检索,很大程度上方便用户在该知识库中获取所需的非结构化文档。
但是,在知识库中进行全文检索非结构化的文档反馈给用户的效率极低,给用户造成了极差的检索体验。
发明内容
有鉴于此,本发明的目的在于提供一种数据处理方法及装置,用于解决在知识库中进行全文检索非结构化的文档,反馈给用户的效率极低,给用户造成了极差的检索体验的问题。技术方案如下:
本发明实施例第一方面公开了一种数据处理方法,所述方法包括:
获取非结构化文档,并对所述非结构化文档进行知识梳理,获得对应所述非结构化文档的知识条目;
将所述非结构化文档和所述知识条目存储至知识库中;
获取检索关键词,并基于所述检索关键词,以及存储于所述知识库中的所述非结构化文档和所述知识条目进行检索,获得对应所述检索关键词的目标文档。
优选的,所述获取非结构化文档,并对所述非结构化文档进行知识梳理,获得对应所述非结构化文档的知识条目,包括:
判断所述非结构化文档表述是否规范;
若是,获取所述非结构化文档中的规范的知识内容;
若否,规范所述非结构化文档中所包含的知识内容,获取规范的知识内容;
对所述规范的知识内容进行知识梳理,获取通过多维度信息对所述知识内容进行描述的知识条目。
优选的,所述获取规范的知识内容之后,对所述规范的知识内容进行知识梳理之前,还包括:
判断所述规范的知识内容中是否包含敏感词;
若所述规范的知识内容中包含敏感词,过滤所述规范的知识内容中的敏感词。
优选的,所述将所述非结构化文档和所述知识条目存储至知识库中,包括:
建立所述非结构化文档和所述知识条目的对应关系,得到关系列表;
将所述关系列表存储至所述知识库中。
优选的,所述获取检索关键词,并基于所述检索关键词,以及存储于所述知识库中的所述非结构化文档和所述知识条目进行检索,获得对应所述检索关键词的目标文档,包括:
获取检索关键词;
基于所述检索关键词对存储于所述知识库中的所述非结构化文档和所述知识条目进行全文检索;
若优先检索到对应所述检索关键词的知识条目,获取所述知识条目对应的非结构化文档;
若优先检索到对应所述检索关键词的非结构化文档,获取对应所述检索关键词的非结构化文档。
本发明实施例第二方面公开了一种数据处理装置,所述装置包括:
第一获得模块,用于获取非结构化文档,并对所述非结构化文档进行知识梳理,获得对应所述非结构化文档的知识条目;
存储模块,用于将所述非结构化文档和所述知识条目存储至知识库中;
第二获得模块,用于获取检索关键词,并基于所述检索关键词,以及存储于所述知识库中的所述非结构化文档和所述知识条目进行检索,获得对应所述检索关键词的目标文档。
优选的,所述第一获得模块,包括:
判断单元,用于判断所述非结构化文档表述是否规范;
第一获取单元,用于若所述非结构化文档表述规范,获取所述非结构文档中的规范的知识内容;
规范单元,用于若所述非结构化文档表述不规范,规范所述非结构化文档中所包含的知识内容,获取规范的知识内容;
第二获取单元,用于对所述规范的知识内容进行知识梳理,获取通过多维度信息对所述知识内容进行描述的知识条目。
优选的,所述装置还包括:
判断模块,用于判断所述规范的知识内容中是否包含敏感词;
过滤模块,用于若所述规范的知识内容中包含敏感词,过滤所述规范的知识内容中的敏感词。
优选的,所述存储模块,包括:
建立单元,用于建立所述非结构化文档和所述知识条目的对应关系,得到关系列表;
存储单元,用于将所述关系列表存储至所述知识库中。
优选的,所述第二获得模块,包括:
第三获取单元,用于获取检索关键词;
检索单元,用于基于所述检索关键词对存储于所述知识库中的所述非结构化文档和所述知识条目进行全文检索;
第四获取单元,用于若优先检索到对应所述检索关键词的知识条目,获取所述知识条目对应的非结构化文档;
第五获取单元,用于若优先检索到对应所述检索关键词的非结构化文档,获取对应所述检索关键词的非结构化文档。
与现有技术相比,本发明提供的上述技术方案具有如下优点:
获取非结构化文档,并对非结构化文档进行知识梳理,获得对应非结构化文档的知识条目,将非结构化文档和知识条目存储至知识库中,获取检索关键词,并基于检索关键词,以及存储于知识库中的非结构化文档和知识条目进行检索,获得对应检索关键词的目标文档。通过检索关键词检索知识条目,基于知识条目获得目标文档,解决了在知识库中进行全文检索非结构化的文档,反馈给用户的效率极低,给用户造成了极差的检索体验的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据处理方法的流程图;
图2是本发明实施例提供的一种获得对应非结构化文档的知识条目的流程图;
图3是本发明实施例提供的一种过滤规范的知识内容中的敏感词的流程图;
图4是本发明实施例提供的一种将非结构化文档和知识条目存储至知识库中的流程图;
图5是本发明实施例提供的一种获得对应检索关键词的目标文档的流程图;
图6是本发明实施例提供的一种用户办理信用卡的流程图;
图7是本发明实施例提供的一种数据处理装置的结构示意图。
具体实施方式
本发明提供了一种数据处理方法及装置,用于解决在知识库中进行全文检索非结构化的文档,反馈给用户的效率极低,给用户造成了极差的检索体验的问题。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由背景技术可知,在现有技术中,通过对知识库中存储海量的非结构化文档进行检索,很大程度上方便用户在该知识库中获取所需的非结构化文档。但是,在知识库中进行全文检索非结构化的文档反馈给用户的效率极低,给用户造成了极差的检索体验。
因此,本发明提供了一种数据处理方法及装置,用于通过检索关键词检索知识条目,基于知识条目获得目标文档,实现了高效检索的目的,解决了在知识库中进行全文检索非结构化的文档,反馈给用户的效率极低,给用户造成了极差的检索体验的问题。
如图1所示,示出了本发明实施例提供的一种数据处理方法的流程图,该方法包括以下步骤:
S101:获取非结构化文档,并对非结构化文档进行知识梳理,获得对应非结构化文档的知识条目。
在S101中,知识梳理是一种标准化操作流程,它能够对非结构化文档如Word、Excel、PDF和Txt等进行一系列操作,最终形成规范的知识条目。知识梳理的特点是梳理过程规范、梳理结果友好、梳理方法简单。通过知识梳理能够提升知识库搜索效率,是提升知识库搜索效率的方法之一。
知识条目是一种知识表示形式,能够通过多维度的信息对一条知识进行描述。知识条目的特点是易存储、知识表示简洁和搜索效率高等。知识条目是最基本的知识存储单位,知识条目与知识条目之间可以存在复杂的关系。
在具体实现S101的过程中,对获取的非结构文档进行知识梳理,得到通过多维度的信息对非结构化文档中的每条知识进行描述,得到对应非结构化文档的知识条目。
S102:将非结构化文档和知识条目存储至知识库中。
在S102中,知识库是指通过标准化操作流程,对知识进行检索、管理、沉淀,建立的知识管理平台。该知识库存储有海量的知识内容。在该知识库中能够高效查询需要的知识内容。
知识库的特点是数据量庞大、查询速度快。基于知识库的特点,知识库常用于客服、企业办公和检索等领域。
在具体实现S102的过程中,在获得非结构化文档相应的知识条目后,将该非结构化文档和知识条目存储在知识库中,以便于用户进行检索时,高效的找到对应的文档反馈给用户。
S103:获取检索关键词,并基于检索关键词,以及存储于知识库中的非结构化文档和知识条目进行检索,获得对应检索关键词的目标文档。
在具体实现S103的过程中,当用户想要获取需要的目标文档时,需要输入文字信息,该文字信息包括但不限于是一句话,然后系统提取检索关键词,在知识库中对知识条目和非结构文档进行检索,最后获得对应检索关键词的目标文档,并将该文档反馈给用户。
需要说明的是,基于检索关键词,在知识库中对非结构化文档和知识条目进行并行检索,很大程度上提高了检索的效率,降低了用户的等待的时间,给予了用户良好的检索体验。
根据上述本发明实施例公开的数据处理方法可知,获取非结构化文档,并对非结构化文档进行知识梳理,获得对应非结构化文档的知识条目,将非结构化文档和知识条目存储至知识库中,获取检索关键词,并基于检索关键词,以及存储于知识库中的非结构化文档和知识条目进行检索,获得对应检索关键词的目标文档。通过检索关键词检索知识条目,基于知识条目获得目标文档,解决了在知识库中进行全文检索非结构化文档,反馈给用户的效率极低,给用户造成了极差的检索体验的问题,实现了提高检索效率的目的。
基于上述本发明实施例图1公开的一种数据处理方法,图1中示出的S101:获取非结构化文档,并对非结构化文档进行知识梳理,获得对应非结构化文档的知识条目的具体实现过程,如图2所示,主要包括:
S201:判断非结构化文档表述是否规范,若是,执行S202,若否,执行S203。
在具体实现S201的过程中,对非结构化文档进行知识梳理,首先是对非结构化文档的表述进行规范处理,在规范处理非结构化文档的表述之前,需要判断非结构化的表述是否规范。当非结构化文档的表述规范时,则直接获取非结构化文档中规范的知识内容,当非结构化文档的表述不规范时,需要对非结构化文档的表述进行规范处理。
S202:获取非结构化文档中的规范的知识内容。
在具体实现S202的过程中,若非结构化文档的表述规范时,实时获取该规范的知识内容,通过获取非结构化文档的规范的知识内容,为后续生成知识条目,提供了重要的保障。
S203:规范非结构化文档中所包含的知识内容,获取规范的知识内容。
在具体实现S203的过程中,如果非结构化文档的表述不规范,则需要对该非结构化文档进行规范处理,如将非结构化文档中流程顺序不规范的知识内容,进行规范处理,经过规范处理后的知识内容,使得知识内容的流程顺序变得规范,需要说明的是,非结构化文档的表述不规范包括但不限于是流程的不规范,具体的,这里举例进行说明:
例如:在一非结构化文档中,表述的是一信用卡的办理流程:具体为,首先填写姓名和住址等资料,其次是选择卡种,然后进行信用审核,最后发卡。信用卡规范的办理流程具体为:首先填写姓名和住址等资料,其次进行信用审核,其次选择卡种,最后发卡。其中,非结构化文档中先选择卡种,再进行信用审核,不符合先进行信用审核,再进行选择卡种的规范流程。
因此,将非结构化文档表述的信用卡办卡流程从第一填写姓名和住址等资料;第二选择卡种;第三进行信用审核;第四最后发卡的表述规范为:第一填写姓名和住址等资料;第二进行信用审核;第三选择卡种;第四最后发卡。
从上述例举的例子可知,非结构化文档的表述不规范,因此需要对该非结构化的表述进行规范化处理,使得非结构化文档表述的信用卡办理流程规范化,使得非结构化文档的表述更加的准确。
S204:对规范的知识内容进行知识梳理,获取通过多维度信息对知识内容进行描述的知识条目。
在S204中,多维度信息指的是不同方面的信息。
在具体实现S204的过程中,通过多维度信息对规范的知识内容进行描述,使得规范的知识内容通过不同方面的信息描述后,形成知识条目。
根据上述本发明实施例公开的数据处理方法可知,获取非结构化文档,并对非结构化文档进行知识梳理,获得对应非结构化文档的知识条目,将非结构化文档和知识条目存储至知识库中,获取检索关键词,并基于检索关键词,以及存储于知识库中的非结构化文档和知识条目进行检索,获得对应检索关键词的目标文档。通过检索关键词检索知识条目,基于知识条目获得目标文档,实现了高效检索的目的,解决了在知识库中进行全文检索非结构化文档,反馈给用户的效率极低,给用户造成了极差的检索体验的问题。
基于上述本发明实施例图2公开的数据处理方法,图2涉及到的,获取规范的知识内容之后,对所述规范的知识内容进行知识梳理之前,过滤规范的知识内容中的敏感词的具体实现过程,如图3所示,包括:
S301:判断规范的知识内容中是否包含敏感词,若是,执行S302,若否,执行S303。
S302:过滤规范的知识内容中的敏感词。
在具体实现S302的过程中,若规范的知识内容中包含敏感词,通过人工干预和审核的方式去除敏感词,最终以简洁、易懂、友好和人性化的方式展示给用户。
S303:禁止过滤规范的知识内容中的敏感词。
根据上述本发明实施例公开的数据处理方法可知,通过判断规范的知识内容中是否包含敏感词,若规范的知识内容中包含敏感词,过滤规范的知识内容中的敏感词,为获得知识条目提供了重要的保障。
基于上述本发明实施例图1公开的一种数据处理方法,图1示出的S102:将非结构化文档和知识条目存储至知识库中的具体实现过程,如图4所示,主要包括:
S401:建立非结构化文档和知识条目的对应关系,得到关系列表。
在具体实现S401的过程中,针对每个非结构化文档,建立非结构化文档和其相应的知识条目的对应关系,得到关系列表,以便于检索到非结构化文档的同时,通过该关系列表获得相应的知识条目,或者检索到知识条目的同时,通过关系列表获得相应的非结构化文档。
S402:将关系列表存储至知识库中。
在具体实现S402的过程中,将得到的关系列表存储至知识库中,以便于在知识库中对非结构化文档以及知识条目进行检索时,基于关系列表以及非结构化文档获得对应的知识条目,或者基于关系列表以及知识条目获得对应的非结构化文档。
根据上述本发明实施例公开的数据处理方法可知,通过建立非结构化文档和知识条目的对应关系,得到的关系列表,基于该关系列表能高效的,通过非结构化文档获得对应的知识条目,或者通过知识条目获得非结构化文档。
基于上述本发明实施例图1公开的数据处理方法,图1示出的S103:获取检索关键词,并基于检索关键词,以及存储于知识库中的非结构化文档和知识条目进行检索,获得对应检索关键词的目标文档的具体实现过程,如图5所示,主要包括:
S501:获取检索关键词。
在具体实现S501的过程中,当用户需要获得想要的目标文档时,需要输入相关的文字信息,然后通过系统在该文字信息中获取检索关键词,以便于获得与该检索关键词对应的目标文档。
例如:用户输入“海洋中的生物”,可提取“海洋”作为检索关键词,然后进一步的基于还检索关键词“海洋”,检索相关的目标文档。
S502:基于检索关键词对存储于知识库中的非结构化文档和知识条目进行全文检索。
在S502中,全文检索指的是通过TF-IDF算法或其他文本相似度算法计算跟某一或某些关键词词向量最近的文本的检索技术,通过全文检索,能够获取非结构化文档中用户想要的答案。
在具体实现S502的过程中,基于检索关键词在知识库中对非结构化文档和知识条目进行并行检索,即同时对非结构化文档和知识条件进行检索,通过并行检索的方式,极大程度上提高了检索的效率,减少用户等待获得目标文档的时间。
S503:判断优先检索到对应检索关键词的知识条目,还是优先检索到对应检索关键词的非结构化文档,若优先检索到对应检索关键词的知识条目,执行S504,若优先检索到对应检索关键词的非结构化文档,执行S505。
在具体实现S503的过程中,基于检索关键词对知识库中的非结构化文档和知识条目进行检索,若优先检索到对应检索关键词的知识条目,执行S504。
若优先检索到对应检索关键词的非结构化文档,执行S505。
S504:获取知识条目对应的非结构化文档。
S505:获取对应检索关键词的非结构化文档。
根据上述本发明实施例公开的数据处理方法可知,获取非结构化文档,并对非结构化文档进行知识梳理,获得对应非结构化文档的知识条目,将非结构化文档和知识条目存储至知识库中,获取检索关键词,并基于检索关键词,以及存储于知识库中的非结构化文档和知识条目进行检索,获得对应检索关键词的目标文档。通过检索关键词检索知识条目,基于知识条目获得目标文档,解决了在知识库中进行全文检索非结构化文档,反馈给用户的效率极低,给用户造成了极差的检索体验的问题。
基于上述本发明实施例公开的数据处理方法的实现进行举例说明,如图6所示,为用户办理信用卡的流程图,包括:
S601:获取非结构化文档。
S602:对获取的非结构化文档进行知识梳理。
S603:判断非结构化文档的表述是否规范,若否,执行S604,若是,执行S605。
S604:规范非结构文档的知识内容。
在S604中,知识内容包括但不限于是:
1、用户姓名、用户地址、用户联系方式;
2、信用审核;
3、选择卡种;
4、发放信用卡。
对非结构文档的知识内容规范完成后,执行S605。
S605:判断规范的知识内容是否包含敏感词,若是,执行S606,若否,执行S607。
S606:过滤规范的知识内容中的敏感词。
过滤规范的知识内容中的敏感词完成后,执行S607。
S607:生成知识条目。
S608:将知识条目和非结构化文档存储至知识库中。
S609:获得用户输入的检索关键词。
在S609中,获得用户输入的检索关键词包括但不限于是:如何办理信用卡。
S610:基于检索关键词,对存储于知识库中的非结构化文档和知识条目进行全文检索,并获得目标文档。
在具体实现S610的过程中,基于检索关键词,即“如何办理信用卡”,在知识库中对知识条目和非结构化文档进行并行检索。需要说明的是,获得目标文档包括但不限于是:信用卡的办理流程。
S611:结束检索。
基于上述本发明实施例公开的数据处理方法,本发明实施例还对应公开一种数据处理装置,如图7所示,为本发明实施例提供的一种数据处理装置的结构示意图,主要包括:第一获得模块70、存储模块71和第二获得模块73。
第一获得模块70,用于获取非结构化文档,并对非结构化文档进行知识梳理,获得对应非结构化文档的知识条目。
存储模块71,用于将非结构化文档和知识条目存储至知识库中。
第二获得模块72,用于获取检索关键词,并基于检索关键词,以及存储于知识库中的非结构化文档和知识条目进行检索,获得对应检索关键词的目标文档。
在本发明实施例中第一获得模块70的一种可选结构为:第一获得模块70包括判断单元、第一获取单元、规范单元和第二获取单元。
判断单元,用于判断非结构化文档表述是否规范。
第一获取单元,用于若非结构化文档表述规范,获取非结构文档中的规范的知识内容。
规范单元,用于若非结构化文档表述不规范,规范非结构化文档中所包含的知识内容,获取规范的知识内容。
第二获取单元,用于对规范的知识内容进行知识梳理,获取通过多维度信息对知识内容进行描述的知识条目。
在本发明实施例中存储模块71的一种可选结构为:存储模块71包括建立单元和存储单元。
建立单元,用于建立非结构化文档和知识条目的对应关系,得到关系列表。
存储单元,用于将关系列表存储至知识库中。
在本发明实施例中第二获得模块72的一种可选结构为:第二获得模块72包括第三获取单元、检索单元、第四获取单元和第五获取单元。
第三获取单元,用于获取检索关键词。
检索单元,用于基于检索关键词对存储于知识库中的非结构化文档和知识条目进行全文检索。
第四获取单元,用于若优先检索到对应检索关键词的知识条目,获取知识条目对应的非结构化文档。
第五获取单元,用于若优先检索到对应检索关键词的非结构化文档,获取对应检索关键词的非结构化文档。
根据上述本发明实施例公开的数据处理装置可知,获取非结构化文档,并对非结构化文档进行知识梳理,获得对应非结构化文档的知识条目,将非结构化文档和知识条目存储至知识库中,获取检索关键词,并基于检索关键词,以及存储于知识库中的非结构化文档和知识条目进行检索,获得对应检索关键词的目标文档。通过检索关键词检索知识条目,基于知识条目获得目标文档,解决了在知识库中进行全文检索非结构化文档,反馈给用户的效率极低,给用户造成了极差的检索体验的问题。
基于上述本发明实施例公开的数据处理装置,该数据处理装置还包括:判断模块和过滤模块。
判断模块,用于判断规范的知识内容中是否包含敏感词。
过滤模块,用于若规范的知识内容中包含敏感词,过滤规范的知识内容中的敏感词。
根据上述本发明实施例公开的数据处理装置可知,获取非结构化文档,并对非结构化文档进行知识梳理,获得对应非结构化文档的知识条目,将非结构化文档和知识条目存储至知识库中,获取检索关键词,并基于检索关键词,以及存储于知识库中的非结构化文档和知识条目进行检索,获得对应检索关键词的目标文档。通过检索关键词检索知识条目,基于知识条目获得目标文档,解决了在知识库中进行全文检索非结构化文档,反馈给用户的效率极低,给用户造成了极差的检索体验的问题。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (6)

1.一种数据处理方法,其特征在于,所述方法包括:
获取非结构化文档,并对所述非结构化文档进行知识梳理,获得对应所述非结构化文档的知识条目;
建立所述非结构化文档和所述知识条目的对应关系,得到关系列表;
将所述关系列表存储至知识库中;
获取检索关键词;
基于所述检索关键词对存储于所述知识库中的所述非结构化文档和所述知识条目同时进行全文检索;
判断优先检索到对应所述检索关键词的知识条目,还是优先检索到对应所述检索关键词的非结构化文档;
若优先检索到对应所述检索关键词的知识条目,获取所述知识条目对应的非结构化文档;
若优先检索到对应所述检索关键词的非结构化文档,获取对应所述检索关键词的非结构化文档。
2.根据权利要求1所述的方法,其特征在于,所述获取非结构化文档,并对所述非结构化文档进行知识梳理,获得对应所述非结构化文档的知识条目,包括:
判断所述非结构化文档表述是否规范;
若是,获取所述非结构化文档中的规范的知识内容;
若否,规范所述非结构化文档中所包含的知识内容,获取规范的知识内容;
对所述规范的知识内容进行知识梳理,获取通过多维度信息对所述知识内容进行描述的知识条目。
3.根据权利要求2所述的方法,其特征在于,所述获取规范的知识内容之后,对所述规范的知识内容进行知识梳理之前,还包括:
判断所述规范的知识内容中是否包含敏感词;
若所述规范的知识内容中包含敏感词,过滤所述规范的知识内容中的敏感词。
4.一种数据处理装置,其特征在于,所述装置包括:
第一获得模块,用于获取非结构化文档,并对所述非结构化文档进行知识梳理,获得对应所述非结构化文档的知识条目;
存储模块,包括:建立单元和存储单元;
所述建立单元,用于建立所述非结构化文档和所述知识条目的对应关系,得到关系列表;
所述存储单元,用于将所述关系列表存储至知识库中;
第二获得模块,包括:第三获取单元、检索单元、第四获取单元和第五获取单元;
所述第三获取单元,用于获取检索关键词;
所述检索单元,用于基于所述检索关键词对存储于所述知识库中的所述非结构化文档和所述知识条目同时进行全文检索;判断优先检索到对应所述检索关键词的知识条目,还是优先检索到对应所述检索关键词的非结构化文档;
所述第四获取单元,用于若优先检索到对应所述检索关键词的知识条目,获取所述知识条目对应的非结构化文档;
所述第五获取单元,用于若优先检索到对应所述检索关键词的非结构化文档,获取对应所述检索关键词的非结构化文档。
5.根据权利要求4所述的装置,其特征在于,所述第一获得模块,包括:
判断单元,用于判断所述非结构化文档表述是否规范;
第一获取单元,用于若所述非结构化文档表述规范,获取所述非结构文档中的规范的知识内容;
规范单元,用于若所述非结构化文档表述不规范,规范所述非结构化文档中所包含的知识内容,获取规范的知识内容;
第二获取单元,用于对所述规范的知识内容进行知识梳理,获取通过多维度信息对所述知识内容进行描述的知识条目。
6.根据权利要求5所述的装置,其特征在于,所述装置还包括:
判断模块,用于判断所述规范的知识内容中是否包含敏感词;
过滤模块,用于若所述规范的知识内容中包含敏感词,过滤所述规范的知识内容中的敏感词。
CN202010001412.2A 2020-01-02 2020-01-02 一种数据处理方法及装置 Active CN111177306B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010001412.2A CN111177306B (zh) 2020-01-02 2020-01-02 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010001412.2A CN111177306B (zh) 2020-01-02 2020-01-02 一种数据处理方法及装置

Publications (2)

Publication Number Publication Date
CN111177306A CN111177306A (zh) 2020-05-19
CN111177306B true CN111177306B (zh) 2023-09-26

Family

ID=70649261

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010001412.2A Active CN111177306B (zh) 2020-01-02 2020-01-02 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN111177306B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563107A (zh) * 2020-05-25 2020-08-21 泰康保险集团股份有限公司 信息推荐的方法、装置、电子设备和存储介质
CN112035512B (zh) * 2020-09-02 2023-08-18 中国银行股份有限公司 知识库的检索方法、装置、电子设备及计算机存储介质
CN115934880A (zh) * 2022-10-31 2023-04-07 永道工程咨询有限公司 一种工程造价文档数据库构建和工程造价文档检索方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008216461A (ja) * 2007-03-01 2008-09-18 Nec Corp 音声認識・キーワード抽出・知識ベース検索連携装置
CN105447616A (zh) * 2015-05-22 2016-03-30 京华信息科技股份有限公司 基于多维分类和全文检索的知识管理系统
CN109871468A (zh) * 2019-02-01 2019-06-11 国网四川省电力公司广元供电公司 非结构化文档管理与规章制度条目化管理一体化系统
CN109902150A (zh) * 2019-02-25 2019-06-18 南京庚商网络信息技术有限公司 非结构化数字资源全文检索方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10430445B2 (en) * 2014-09-12 2019-10-01 Nuance Communications, Inc. Text indexing and passage retrieval
US10303798B2 (en) * 2014-12-18 2019-05-28 Nuance Communications, Inc. Question answering from structured and unstructured data sources

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008216461A (ja) * 2007-03-01 2008-09-18 Nec Corp 音声認識・キーワード抽出・知識ベース検索連携装置
CN105447616A (zh) * 2015-05-22 2016-03-30 京华信息科技股份有限公司 基于多维分类和全文检索的知识管理系统
CN109871468A (zh) * 2019-02-01 2019-06-11 国网四川省电力公司广元供电公司 非结构化文档管理与规章制度条目化管理一体化系统
CN109902150A (zh) * 2019-02-25 2019-06-18 南京庚商网络信息技术有限公司 非结构化数字资源全文检索方法及系统

Also Published As

Publication number Publication date
CN111177306A (zh) 2020-05-19

Similar Documents

Publication Publication Date Title
CN111177306B (zh) 一种数据处理方法及装置
US10002183B2 (en) Resource efficient document search
US20220261427A1 (en) Methods and system for semantic search in large databases
AU2022201654A1 (en) System and engine for seeded clustering of news events
US8131684B2 (en) Adaptive archive data management
TWI512506B (zh) Sorting method and device for search results
CN111008321B (zh) 基于逻辑回归推荐方法、装置、计算设备、可读存储介质
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
CN107329987A (zh) 一种基于mongo数据库的搜索系统
US9558185B2 (en) Method and system to discover and recommend interesting documents
JP5624674B2 (ja) データベースの検索のための照会の改善方法
US20140006369A1 (en) Processing structured and unstructured data
US20230029526A1 (en) System and method for dynamic data filtering
CA2956627A1 (en) System and engine for seeded clustering of news events
CN110674087A (zh) 文件查询方法、装置及计算机可读存储介质
CN117149804A (zh) 数据处理方法、装置、电子设备及存储介质
CN117056477A (zh) 一种案例数据的检索方法、装置、设备及可读存储介质
CN110008407B (zh) 一种信息检索方法及装置
US20090187585A1 (en) Comparing very large xml data
CN112015968B (zh) 信息处理方法及装置
CN107256260A (zh) 一种智能语义识别方法、搜索方法、装置及系统
US10528569B2 (en) Dataset browsing using additive filters
CN112052261A (zh) 一种基于es的银行外部数据管理方法、装置及设备
US11314765B2 (en) Multistage data sniffer for data extraction
Pawar et al. Intelligent Clustering Engine Solution for Desktop Usability

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant