CN113190687B - 知识图谱的确定方法、装置、计算机设备及存储介质 - Google Patents

知识图谱的确定方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN113190687B
CN113190687B CN202110499034.XA CN202110499034A CN113190687B CN 113190687 B CN113190687 B CN 113190687B CN 202110499034 A CN202110499034 A CN 202110499034A CN 113190687 B CN113190687 B CN 113190687B
Authority
CN
China
Prior art keywords
document
knowledge
query
content
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110499034.XA
Other languages
English (en)
Other versions
CN113190687A (zh
Inventor
程明飞
顾磊
陈骁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eisoo Information Technology Co Ltd
Original Assignee
Shanghai Eisoo Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eisoo Information Technology Co Ltd filed Critical Shanghai Eisoo Information Technology Co Ltd
Priority to CN202110499034.XA priority Critical patent/CN113190687B/zh
Publication of CN113190687A publication Critical patent/CN113190687A/zh
Application granted granted Critical
Publication of CN113190687B publication Critical patent/CN113190687B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Abstract

本发明实施例公开了一种知识图谱的确定方法、装置、计算机设备及存储介质。所述方法包括:获取文档内容,并确定所述文档内容对应的文档格式类型;在所述文档内容中,查询与所述文档格式类型匹配的至少一个目标格式位置处的文本,并确定文档知识;根据各所述文档知识,确定所述文档内容对应的知识图谱。本发明实施例可以提高文档知识提取准确率和效率,建立精确的知识图谱。

Description

知识图谱的确定方法、装置、计算机设备及存储介质
技术领域
本发明实施例涉及数据处理领域,尤其涉及一种知识图谱的确定方法、装置、计算机设备及存储介质。
背景技术
企业文档资料越来越多,文档之间的关联性较弱,普遍存在查找不方便,知识管理难的问题。
目前,互联网公司利用知识图谱改善各自搜索引擎的智能化水平。其中,知识图谱是近年来人工智能领域新的知识体系组织形式,核心在于建立不同实体之间的关系,形成知识网络,图谱融合技术可以整合来自不同知识库的知识,且基于图谱可进行非常高效的关联检索。
在这种方式中,通常是针对网页进行搜索。实际上,网页文本通常有固定格式,企业文档的文档格式类型较多,很难按照统一的方式从企业文档中并确定文档知识,导致提取难度大,且提取的准确率低。
发明内容
本发明实施例提供一种知识图谱的确定方法、装置、计算机设备及存储介质,可以提高文档知识提取准确率和效率,建立精确的知识图谱。
第一方面,本发明实施例提供了一种知识图谱的确定方法,包括:
获取文档内容,并确定所述文档内容对应的文档格式类型;
在所述文档内容中,查询与所述文档格式类型匹配的至少一个目标格式位置处的文本,并确定文档知识;
根据各所述文档知识,确定所述文档内容对应的知识图谱。
第二方面,本发明实施例还提供了一种知识图谱的确定装置,包括:
文档格式类型获取模块,用于获取文档内容,并确定所述文档内容对应的文档格式类型;
文档知识提取模块,用于在所述文档内容中,查询与所述文档格式类型匹配的至少一个目标格式位置处的文本,并确定文档知识;
知识图谱确定模块,用于根据各所述文档知识,确定所述文档内容对应的知识图谱。
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序所述处理器执行所述程序时实现如本发明实施例中任一所述的知识图谱的确定方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例中任一所述的知识图谱的确定方法。
本发明实施例通过根据文档格式类型,可以在文档格式类型匹配的至少一个目标格式位置处,并确定文档知识,并基于提取的文档知识,构建文档内容的知识图谱,解决了现有技术中按照统一的方式从企业文档并确定文档知识的难度大且准确率低的问题,可以提高文档知识的提取准确率,同时降低文档知识的提取难度,从而快速准确构建知识图谱。
附图说明
图1是本发明实施例一中的一种知识图谱的确定方法的流程图;
图2a是本发明实施例二中的一种知识图谱的确定方法的流程图;
图2b是本发明实施例二中的一种业务知识库的示意图;
图2c是本发明实施例二中的一种命名实体识别模型的示意图;
图2d是本发明实施例二中的一种知识图谱的确定方法的流程图;
图3是本发明实施例三中的一种知识图谱的确定装置的结构示意图;
图4是本发明实施例四中的一种知识图谱的确定装置的结构示意图;
图5是本发明实施例五中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一中的一种知识图谱的确定方法的流程图,本实施例可适用于从文档内容中提取文档知识,并构建知识图谱的情况,该方法可以由本发明实施例提供的知识图谱的确定装置来执行,该装置可采用软件和/或硬件的方式实现,并一般可集成计算机设备中。如图1所示,本实施例的方法具体包括:
S110,获取文档内容,并确定所述文档内容对应的文档格式类型。
文档内容可以是指一篇文档的内容。文档内容包括文档的有效数据,示例性的,文档内容至少包括文档名称和文档内容。可以从网络中下载文档内容。例如,可以向数据云平台请求文档,获取数据云平台反馈的文档内容。其中,文档内容的传输形式可以是数据流传输。例如,获取数据云平台反馈的文件二进制流。
文档格式类型用于描述数据的存储格式,实际上,不同文档格式类型的文档内容所包括的数据类型和数据存储数据格式不同。示例性的,文档格式类型可以包括docx、excel、txt、doc、pdf或pptx。
S120,在所述文档内容中,查询与所述文档格式类型匹配的至少一个目标格式位置处的文本,并确定文档知识。
目标格式位置与文档格式类型对应。目标格式位置可以是指文档知识包括的内容在文档内容中的位置。可以预先配置文档格式类型在文档内容中对应的多个目标格式位置,不同目标格式位置对应的文本在文档中的结构类型不同。其中,文档知识可以是指结构化信息。结构类型用于描述文本所处的文档结构。结构类型通常可以包括文件夹、文档、标题和正文等。不同文档知识需要的结构化的数据不同。示例性的,文档知识可以是文档和标题的结构化信息,相应的,文档知识包括文档名称的文本和标题名称的文本等。示例性的,遍历文档内容中的段落,第一段为标题,此时目标格式位置为第一段,文档知识的结构类型为标题,包括第一段包括的文本内容。
其中,文档夹结构类型的文本(文件夹名称)通常无法从文档内容获取,而部分文档内容中包括文档结构类型的文本(文档名称),以及部分文档内容不包括文档结构类型的文本(文档名称)。在无法从文档内容获取文档夹结构类型的文本和文档结构类型的文本时,可以通过从数据云平台中获取文档树,并提取文件夹信息和文档信息,对应文件夹类型的文本和文档类型的文本,以及各文档结构实体的属性。
可选的,所述在所述文档内容中,查询与所述文档格式类型匹配的至少一个目标格式位置处的文本,并确定文档知识,包括:根据所述文档格式类型,在所述文档内容的与所述文档格式类型匹配的至少一个目标格式位置处,提取至少一个结构类型的文本;根据三元组结构类型配置信息,对各所述结构类型的文本进行组合,形成至少一个三元组,并确定为文档知识。
针对每个文档格式类型,预先配置目标格式位置,以及每个目标格式位置对应的结构类型。目标格式位置处对应的文本可以理解为文档结构实体,具体可以包括文件夹名称文本、文档名称文本、第i级标题文本和正文文本等。此外,还需要预先配置三元组结构类型配置信息。三元组可以是指知识图谱中知识表示的基本单位,三元组被用来表示实体与实体之间的关系,或者实体的某个属性的属性值是什么。三元组结构类型配置信息用于描述定义三元组的结构,具体是确定三元组由什么组成,可以是指三元组包括的结构类型和其他文本。示例性的,三元组为“实体、关系和实体”形成的组,其中,“实体、关系和实体”为该三元组结构类型配置信息定义的三元组的内容。
可以在新获取文档内容之后,查询各目标格式位置处对应的文本,并将目标格式位置对应的结构类型,确定为提取的文本的结构类型。可以将至少两个结构类型的文档结构实体进行组合,形成一个三元组,或将两个结构类型的文档结构实体以及其中任一文档结构实体的属性进行组合,形成一个三元组。一个文档知识可以理解为一个三元组。
在一个具体的例子中,针对不同的文档格式类型,文档知识提取的方法不同。document2head集合用于存储文档到标题三元组,document2text用于存储文档到正文三元组、head2text集合用于存储标题到正文三元组。其中,文档为document,正文为text,标题为head,具体的:
针对docx文档格式类型:可以遍历文档的段落,若段落的“style.name”等于“heading*”,则该段落属于标题,“*”为标题的等级,若“style.name”等于“normal”或特殊格式“云正”则为正文。三元组结构类型配置信息定义的三元组的内容包括标题、标题等级和正文。从而,在提取时判断正文的父标题,将(标题,标题等级,正文)确定为一个三元组,并加入到head2text集合中,并将(文档名称,标题,标题等级)形成三元组,并加入到document2head集合中,若无父标题则将(文档名称,正文)形成三元组,并加入到document2text集合中。
针对excel文档格式类型:定义excel的每一页sheet名称为标题。sheet里的内容为正文,去掉表格格式,将表格内容进行组合,用空格分隔作为一个整体的正文,将(标题,1,正文)形成三元组,并加入到head2text集合中,将(文档名称,标题,1)形成三元组,并加入到document2head集合中,document2text集合为空。
针对txt文档格式类型:因为txt文档没有格式规范,可以将文本内容作为一个整体的正文,并将(文档名称,正文)形成三元组,并加入到document2text集合中。
针对doc和pdf文档格式类型:实际上,doc文本类型比较特殊,在基于python语言的程序中,没有准确处理这种格式的程序,可以使用工程工具tika获取doc文档的内容,但是提取到的文档内容会丢失数据存储格式,同时可以使用基于python语言的pdfplumber提取pdf的文本,为了提取标题和正文及它们的对应关系,可以使用组合规则算法来完成这个任务。
(1)使用组合规则提取目录,规则1匹配目录的开头字符“目录”,规则2根据换行符或特征字符n个“.”提取目录中的标题,根据标题命名规律提取标题等级,规则3根据特征字符“.”或规则2提取的第一个标题匹配目录的结尾,去除文本中目录的部分,规则4根据规则2提取出的标题到剩下的正文文本中匹配相应的标题和其对应的正文,以上所有规则在匹配时都需要去格式化,去掉空格,如果没有匹配到目录则转(2)。
(2)如果没有提取到目录,根据标题的命名规律制定了一种标题提取模板,其正则表达式为:“[0-9.]{2,}|[第一二三四五六七八九十0-9篇章节::]{2,}”,剩下的工作与(1)同,并根据特征字符“.”出现的次数区分标题的等级,如果没有提取出标题则转(4)。
(3)将提取出的标题与文档名称组合(文档名称,标题,标题等级)形成三元组,并加入到document2head集合,将(标题,标题等级,正文)形成三元组,并加入到head2text集合,将没有归属的正文与文档名称组合(文档名称,text)形成三元组,并放入document2text集合。
(4)如果没有提取出标题,按换行符对文本进行切分,并把所有切片文段作为正文,与文档名称组合(文档名称,正文)形成三元组,并放入document2text集合。
针对pptx文档格式类型:使用pptx程序解析pptx文件,兼顾保留pptx的格式,同时不提取ppt里的图片。考虑到幻灯片存在格式嵌套的情况,可以使用迭代算法提取每一页幻灯片(slide)的标题和正文,同时考虑到幻灯片里存在表格,在迭代过程中把表格数据单独提出来,用空格进行拼接并把它归到对应标题下。将文档名称与任意页的标题组合,形成三元组,并放入document2head集合。将文档名称与任意页的正文组合,形成三元组,并放入document2text集合。将同一页的标题和正文,形成三元组,并放入head2text集合。
通过在文档格式类型匹配的目标格式位置处,提取至少一个结构类型的文本,并根据三元组结构类型配置信息,将结构类型的文本进行组合,形成三元组,确定为文档知识,可以准确提取文本内容,充分的提取了各格式类型的文档富有价值的结构信息,并按照不同的配置信息,组合形成不同的三元组,提高文档知识的多样性,增加文档知识的覆盖范围,从而增加文档知识的覆盖范围,提高知识图谱的准确和完整,进而提高文档搜索的准确率。
可选的,所述结构类型包括下述至少一项:文档类型、标题类型和正文类型,所述三元组结构类型配置信息包括下述至少一项:文档到标题配置信息、文档到正文配置信息和标题到正文配置信息。
文档类型的文本可以是指文档名称文本。标题类型的文本可以是指文档包括至少一个等级的标题文本。正文类型的文本可以是指文档包括的正文文本。文档到标题配置信息用于描述根据文档类型文本和标题类型文本形成的三元组。文档到正文配置信息用于描述根据文档类型文本和正文类型文本形成的三元组。标题到正文配置信息用于描述根据标题类型文本和正文类型文本形成的三元组。
此外,结构类型还可以包括文件夹类型,文件夹类型的文本可以从文档内容的路径中提取。
通过配置结构类型,根据文档结构精准提取关键结构信息,同时配置多个三元组结构类型配置信息,可以增加三元组的多样性,提高文档知识的多样性,增加文档知识的覆盖范围,从而增加文档知识的覆盖范围,提高知识图谱的准确和完整,进而提高文档搜索的准确率。
可选的,所述知识图谱的确定方法,所述结构类型还包括文件夹类型,所述三元组结构类型配置信息还包括:文件夹到文档配置信息;在根据三元组结构类型配置信息,对各所述结构类型的文本进行组合之前,还包括:获取文档的路径属性,并从中提取路径信息;在所述路径信息中获取文件夹名称,确定为文件夹结构类型的文本。
需要说明的是,还可以获取文档元数据,作为文档的标签,按照配置label的文档结构实体进行存储。可以根据文件夹类型、文档类型、标题类型和正文类型的文本和文档的标签,形成文档知识。
S130,根据各所述文档知识,确定所述文档内容对应的知识图谱。
建立各文档知识之间的对应关系,具体是可以将文档知识添加数据库中,以便后续进行索引。将文档知识进行存储,并存储文档知识之间的对应关系,形成文档内容对应的知识图谱。示例性的,可以将文档知识存储在orientdb图数据库中,构建文档内容对应的知识图谱,并添加到历史知识图谱中,实现更新知识图谱,增加知识图谱的文档覆盖范围。
在知识图谱中,需要理解如下内容:本体是概念的集合,是公认的概念框架,一般不会改变,例如“人”、“事”、“物”、“地”和“组织”等,在面对对象编程中,相当于类,在数据管理中,相当于元数据。实体指的是具有可区别性且独立存在的某种事物。实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。将由大量实体构成的数据库叫做知识库。关系用于连接不同的实体,指代实体之间的联系。通过关系节点把知识图谱中的节点连接起来,形成一张大图。知识图谱是一种图谱组织形式,通过语义关联将各种实体关联(链接)。知识图谱是结构化的语义知识库,用于将结构化和非结构化的数据通过数据抽取并聚合,体现了数据处理和语义链接的思想,有利于大规模数据的利用和迁移。
在本发明实施例中,一篇文档的基本结构是文档夹名称、文档名称、文档各级标题和文档正文,并相应定义文档结构实体,分别为folder、document、head和text。此外,还定义文档结构实体:标签label,用于表征文档的标签。文档结构实体配置有属性,文档结构实体属性用于描述文档结构实体基本信息,根据不同实体的描述需要,对不同的实体定义各自的属性。其中,folder:name用于描述folder实体的名称,path用于描述folder实体的路径,其中path可定义folder实体的唯一性,消除指代不明的情况。document:name用于描述document实体的名称,path用于描述document实体的路径,另外,在一个公司的数据平台中会有文档的元数据信息,如创建者、创建时间、编辑者、编辑时间等,也将这些信息定义为文档结构实体的属性,分别命名为creator、create_time、editor、edit_time。其中path可定义document实体的唯一性,消除指代不明的情况。head:name用于描述标题实体的抽象名称,该属性值为”标题”,定义该属性是为了方便图数据库展示,path用于描述标题档实体当前所在文档的路径,用于区分不同文档存在同名标题而正文内容不同的情况,level用于描述标题实体的等级,content用于描述标题实体的具体内容,path、level和content联合定义head的唯一性。Text:name用于描述正文实体的抽象名称,该属性值为”正文”,定义该属性是为了方便图数据库展示,因为有的文段内容很多很长,不方便展示;content_index为text实体的内容截断,在实施时是截断text内容的前200个字符,该属性是为了定义text的唯一性,截断是图数据库的索引有内容字符长度限制,同时也是基于索引性能的考虑;content用于描述text实体的具体内容。
此外,还定义了实体关系,具体是定义了一种关系类down,用于表示文档结构实体上位和下位的关系,其包含三个属性:name、domain和range。其中,name属性的值包含folder2folder、folder2document、document2head、document2text和head2text五种,用于描述关系的起始实体和结束实体类别,folder是按层级展开的,用于满足用户搜索权限控制的要求,但是基于搜索性能的考虑,head采用了平铺结构,即无论标题等级为何,统一指向document实体;domain用于描述关系的起始节点;range用于描述关系的结束节点。name、domain和range属性联合定义down关系的唯一性。
本发明实施例选择orientdb图数据库作为知识图谱的存储媒介,其中,orientdb具有安装简单和功能全面的优点,可以针对不同的场景需要建立不同的索引,存储文档内容对应的知识图谱,提高文档索引的准确率。将三元组知识所在的document2head、head2text、document2text和label2document集合写入四个txt文件中,以便导入orientdb中。
可选的,建立知识图谱可以包括:将各所述文档知识存储在对应的文件中;获取各所述文档知识中包括的文档结构实体,并在数据库中预先配置对应的实体类型;根据文档结构实体与实体类型的对应关系,分别将各所述文件中文档知识中包括的文档结构实体的内容分别添加到数据库中,并建立每个所述文档结构实体的内容与所述文档结构实体对应的实体类型之间的对应关系;根据同一文档知识包括的至少两个文档结构实体,在数据库中查询对应的内容,并针对对应的至少两个内容建立索引。通常文档知识是一个三元组,三元组类型与文件对应。知识图谱的建立过程实际是将文档的各项数据进行结构化存储,并建立索引关系。其中,将文档知识存储在对应的文件中,实际是文档知识落盘的操作,以便后续数据处理。
具体的,导入图数据库的步骤包括:1)构建本体:在orientdb中建立文档结构实体、文档结构实体的属性和唯一性索引,文档结构实体包括folder、document、head、text和label,并建立关系类。2)导入文档结构实体:遍历落盘后的文件(4个txt文件),取出三元组知识和文档相关信息,将document、head、text和label导入到orientdb里,folder可以从document的path属性获取到,对path进行分解并建立folder实体,在导入关系之前必须先导入文档结构实体和建立唯一性索引。3)导入关系:遍历落盘后的文件,取出三元组知识和文档相关信息,不同的文件代表不同文档结构实体之间的关系,分别为document2head、head2text、document2text和label2document,对如上每种文档结构实体建立down关系,并将其属性name赋如上值,domain和range属性赋前后两个文档结构实体的值,针对folder与folder的上下位关系和folder2document的关系,可从document的path属性获取并建立。
本发明实施例通过根据文档格式类型,可以在文档格式类型匹配的至少一个目标格式位置处,并确定文档知识,并基于提取的文档知识,构建文档内容的知识图谱,解决了现有技术中按照统一的方式从企业文档并确定文档知识的难度大且准确率低的问题,可以提高文档知识的提取准确率,同时降低文档知识的提取难度,从而快速准确构建知识图谱。
实施例二
图2a为本发明实施例二中的一种知识图谱的确定方法的流程图,本实施例以上述实施例为基础进行具体化。将所述根据各所述文档知识,确定所述文档内容对应的知识图谱,具体化为:根据各所述文档知识,构建初始图谱;在所述初始图谱中,根据预设的业务知识库,对各所述文档知识进行实体识别,得到各所述文档知识对应的业务实体;根据各所述文档知识对应的业务实体,在所述初始图谱中对各所述文档知识进行实体对齐,形成所述文档内容对应的知识图谱。
本实施例的方法具体包括:
S210,获取文档内容,并确定所述文档内容对应的文档格式类型。
本发明实施例中未详细介绍的描述可以参考上述实施例的描述。
S220,在所述文档内容中,查询与所述文档格式类型匹配的至少一个目标格式位置处的文本,并确定文档知识。
S230,根据各所述文档知识,构建初始图谱。
初始图谱为仅从文档内容提取结构化信息,并建立链接形成的图谱。
S240,将预设的业务知识库与所述初始图谱进行融合,形成所述文档内容对应的知识图谱。
业务知识库可以是指根据业务任务配置的实体形成的知识库。业务知识库包括下述至少一项实体:客户Customer、项目Project、行业Industry、子行业SubIndustry、区域Area、子区域SubArea、产品Product、订单Order和服务Service。业务知识库的结构如图2b所示,业务知识库包括上述全部实体,业务知识库中的知识包括区域到子区域三元组Area2SubArea、子区域到客户三元组SubArea2Customer、项目到客户三元组Project2Customer、子行业到项目三元组SubIndustry2Project、行业到子行业三元组Industry2SubIndustry、项目到产品三元组Project2Product、产品到订单三元组Product2Order和产品到服务三元组Product2Service等。
在本发明实施例中,文档为企业文档,业务实体为与企业关联的实体。将业务知识库与初始图谱进行融合,可以是将业务知识库实体与初始图谱的实体进行融合,并建立业务知识库中实体与初始图谱中实体之间的映射关系,形成知识图谱。初始图谱可以是指包括文档知识,即包括预设文档通用的实体(文件夹名称、文档名称、标题名称和正文等)的图谱。而知识图谱可以是指,包括初始图谱、业务知识库以及初始图谱与业务知识库之间的映射关系的图谱。将初始图谱和业务知识库进行融合,形成知识图谱,可以增加知识图谱的实体范围,并建立业务需要的实体与文档的关联,进一步增加知识图谱的结构化信息的覆盖范围,并提高业务信息的搜索准确率。
实际上,本实施例实现了文档内容对应的初始图谱与业务知识库的图谱融合方法,具体可以包括命名实体识别步骤和实体对齐步骤。
可选的,所述将预设的业务知识库与所述初始图谱进行融合,形成所述文档内容对应的知识图谱,包括:在所述初始图谱中,对各所述文档知识进行命名实体识别,得到各所述文档知识对应的命名实体;根据预设的业务知识库对各所述文档知识包括的命名实体进行实体对齐,并与所述业务知识库中实体建立链接;将所述业务知识库和初始图谱进行融合,并添加所述链接关联的数据,形成所述文档内容对应的知识图谱。
命名实体可以是指人名、机构名、地名以及其他所有以名称为标识的实体。前面说的实体是指用于描述文档结构的实体。对文档知识进行命名实体识别,可以在文档知识中检测命名实体。示例性的,命名实体识别方法可以采用神经网络模型。
通过使用双向转换模型的编码器(Bidirectional Encoder Representationsfrom Transformers,BERT)的预训练语言模型,构建BERT-双向长短期记忆网络(Bidirectional Long Short Term Memory,BiLSTM)-条件随机场(Conditional RandomFields,CRF)模型用于命名实体识别。基于BERT-BiLSTM-CRF的命名实体识别模型的结构如图2c所示。首先利用具有双向Transformer结构的BERT模型增强字的语义表示,根据其上下文动态生成语义向量,再将该字向量序列输入BiLSTM-CRF模型中进行训练,训练时对BiLSTM-CRF模型进Fine-Tune。在应用中,可以利用文本标注工具doccano对500篇文档进行了人工标注,标注命名实体包括业务知识库中的用户或公司Customer、项目Project、行业Industry、子行业SubIndustry、区域Area、底层区域SubArea和产品Product。最终模型预测的查准率为92.72%,查全率为91.64%,F1值为92.18%。
实体对齐用于在命名实体中查询与业务知识库匹配的实体。实体链接(entitylinking):是指对于从文本中抽取得到的实体对象,将其链接到知识库中对应的正确实体对象的操作。实体链接用于初始图谱中实体映射到业务知识库中实体。实体链接实际是建立命名实体与业务知识库匹配的实体建立链接,以建立文档知识与业务知识库匹配的实体建立链接,从而建立文档结构实体与业务知识库匹配的实体建立链接,以便根据业务知识库中的实体搜索文档知识对应的文档结构实体。
通常,识别的业务实体和业务知识库已有实体只有小部分存在等价链接,所以需要图谱融合技术进行实体对齐,可以通过编辑距离。为了提升对齐的准确率,可以对算法结果进行了人工校验。示例性的,业务知识库包括项目A的实体,在文档知识B中的正文C识别出项目A,可以建立业务知识库中项目A与初始图谱中项目A的链接,进而建立业务知识库中项目A与初始图谱中正文C的链接。将链接关联的数据、业务知识库与初始图谱进行融合,以实现初始图谱与业务知识库的融合,得到融合结果,即知识图谱。
业务知识库与初始图谱进行融合,可以是将各自的实体进行聚合,并将各自实体的关系进行聚合,实际上是将业务知识库和初始图谱合并存储,通过建立业务知识库与初始图谱之间的链接,并存储,实现业务知识库和初始图谱融合。
通过在命名实体中查询与业务知识库包括的实体对应的实体,并与业务知识库建立链接,以关联业务实体与初始图谱中实体,将链接关联的数据、业务知识库和初始图谱进行融合,形成知识图谱中,实现初始图谱与业务知识库的精准融合,增加知识图谱的覆盖范围,增加知识图谱的知识多样性,灵活调整知识图谱的结构信息,丰富知识图谱的应用场景。
可选的,所述根据预设的业务知识库对各所述文档知识包括的命名实体进行实体对齐,并与所述业务知识库中实体建立链接,包括:根据业务知识库包括的实体,在各所述文档知识对应的命名实体中查询对应的业务实体;建立各所述业务实体与业务知识库中对应的实体之间的链接。
实际上,业务实体是指文档知识中与业务知识库中至少一个实体对应的命名实体。通常,业务知识库指定实体,在命名实体中,识别与任一指定实体对应的实体,确定为业务实体。两个实体对应是指这两个实体的语义相同或相似。建立链接,建立业务知识库中实体与初始图谱中实体的关联关系,可以实现业务知识库与初始图谱的融合,以便后续可以根据该业务实体,查询到文档知识,从而提高搜索准确率。
在一个具体的例子中,知识图谱构建的流程可以如图2d所示:
其中,可以通过数据云接口,接收数据云平台发送的文档结构树、文档数据流和文档源数据信息。其中,获取文档结构树:将获取到文件夹和文档信息,对应实体folder和document及相关属性;获取文档数据流;指的是数据云平台发送的是文件二进制流;获取文档元数据信息:获取文档的属性信息,并确定为文档的标签,即实体label。可以预先配置不同的算法模型,实现如前所述的对不同文档格式类型的文档进行解析,提取文档内容中的文档知识。将文档知识分类存储:实际是按照文档知识的类型,即三元组的结构类型进行分类存储,存储可以理解为数据落盘。在图数据库中,预先定义初始图谱的实体,并按照数据落盘的文件在初始图谱中分别导入文件的数据,形成初始图谱。初始图谱是存储在图数据库(orientdb)中的结构化信息。
图谱融合分为本体融合和数据融合,本体融合指的是将多种来源的实体、实体属性和实体关系按需合并,而实体链接需要预先定义链接的关系和索引,用于链接数据的获取和导入。然后对文档结构图谱里的四种实体进行命名实体识别,在命名实体识别查询相应的业务实体,并和业务数据图谱里的相应实体进行实体对齐,将对齐结果存入文件,最后将融合后的本体和各图谱相关数据及对齐的数据写入到图数据库(orientdb)里,形成知识图谱,知识图谱是存储在图数据库中的结构化信息。
本发明实施例通过将业务知识库与初始图谱进行融合,形成知识图谱,打破了文档知识库与业务知识库之间的壁垒,使知识彼此关联,相互赋能,增加知识图谱的覆盖范围,增加知识图谱的知识多样性,提高知识图谱的结构信息的灵活性,从而提高根据业务信息进行文档搜索的准确率。
实施例三
图3为本发明实施例三中的一种知识图谱的确定方法的流程图,本实施例以上述实施例为基础进行具体化。在确定所述文档内容对应的知识图谱之后,优化为:接收文档查询请求,并识别查询内容,所述查询内容包括实体和/或关键词;采用至少一种查询方式,对所述查询内容进行查询,得到至少一个查询文档;对各所述查询文档进行排序,得到查询结果。
本实施例的方法具体包括:
S310,获取文档内容,并确定所述文档内容对应的文档格式类型。
本发明实施例中未详细介绍的描述可以参考上述实施例的描述。
S320,在所述文档内容中,查询与所述文档格式类型匹配的至少一个目标格式位置处的文本,并确定文档知识。
S330,根据各所述文档知识,确定所述文档内容对应的知识图谱。
在本发明实施例中,选择orientdb图数据库作为知识图谱的存储媒介,针对不同的场景需要建立不同的索引。orientdb支持的索引如表1:
表1
Figure BDA0003055664110000121
相应索引包括:
B-Tree唯一性索引:实体的唯一性索引用于导入实体时过滤重复实体和导入关系时进行查询,关系的唯一性索引用于导入关系时进行重复性校验。命名为:object_unique_index,其中object为folder、document、head、text和down,类型为unique。其中,folder_unique_index对folder的path建立unique型索引;document_unique_index对document的path建立unique型索引;head_unique_index对head的path、level、content建立unique型索引;text_unique_index对text的content_index建立unique型索引;down_unique_index:对down的name、domain和range建立unique型索引。
Lucene全文索引:全文索引用于对实体属性进行全文检索。命名为:object_lucence_index,object为folder、document、head和text,类型为fulltext。其中,folder_lucence_index对folder的name建立fulltext型索引;document_lucence_index对document的name建立fulltext型索引;head_lucence_index对head的content建立fulltext型索引;text_lucence_index对text的content建立fulltext型索引。
S340,接收文档查询请求,并识别查询内容,所述查询内容包括实体和/或关键词。
文档查询请求用于执行文档查询操作。查询内容用于作为检索词,在知识图谱中查询匹配的文档。文档查询请求中包括查询信息,可以根据查询信息确定查询内容。查询信息可以包括查询内容,或者查询信息与查询内容相似。其中,文档查询请求可以是接收设备发送的文档查询操作,还可以是通过人机交互接口获取的用户输入的查询信息,并生成文档查询请求。
在本发明实施例中,其中,关键词是指非实体的文本。通常将查询内容中的实体,确定为实体,并将除实体以外的文本确定为关键词。示例性的,查询内容为搜索语句:医学部解决方案。实体为“医学部”,关键词为“解决方案”。
S350,采用至少一种查询方式,对所述查询内容进行查询,得到至少一个查询文档。
查询方式用于根据查询内容进行文档查询,得到查询结果。查询方式可以包括直接查询、深度查询和关键词查询等。其中,直接查询是指,采用数据库搜索语句查找实体匹配的所有文档。深度查询是指,基于业务知识库中实体之间的关系,查询查询内容关联的其他实体。关键词查询是指查找关键词匹配的所有文档。
在一个具体的例子中,可以采用python的tornado高并发web框架编写文档检索的应用程序,为了提升检索速度,全部采用协程异步机制撰写代码。对orientdb图数据的所有查询,使用的是其HTTP应用编程接口(Application Programming Interface,API)。
首先获取查询内容,根据文档查询请求的查询信息中进行意图分析。意图分析为:文档检索首先需要对用户输入的搜索语句query进行意图分析,可以利用自动机字符串搜索算法(Aho-Corasick,AC)对query进行实体识别。基于对业务知识库的Customer、Project、Industry、SubIndustry、Area、SubArea和Product等实体建立的Tree树,对query进行检索。检索结果可能并不唯一,比如输入”XX大学医学部解决方案”,由于Tree树建立时既导入了”XX大学”实体,又导入了”XX大学医学部”实体,从而两者都会被识别出来。针对这种情况,会对检索结果进行前缀和后缀判断,选择最长的匹配结果,即选择”XX大学医学部”。query去掉实体内容,即为关键字内容。
其中,直接查询为:在识别得到实体后,通过orientdb搜索语句查找实体相关的所有文档。结构化查询语言(Structured Query Language,SQL)查询语句先查找由钩子(hook)关系关联的document、head、text实体,再查找这些实体由down关系关联的document实体,返回字段有实体标识信息(identity,ID)、文档实体类型和文档ID,分别命名为entity_rid、content_type和document_rid,这三个字段均为必须。其中entity_rid在计算文档得分时要和entity_rid关联得到实体的深度,不同的content_type对应不同的权重。content_type包含三个值:document、head和text。
深度查询:利用业务知识库中存在大量关系的特性,当搜索某个实体时,可自动搜索到与该实体相关的其他实体,可以是上位实体也可以是下位实体。如图3所示的业务知识库实体之间的关系中,subindustry2project和project2customer意味着当查询实体为subindustry时,可向下搜索project,再由project向下搜索customer,即可得到某个子行业下的所有客户实体。搜索语句返回字段有实体ID、实体类名、查询深度,分别命名为entity_rid、entity_class和entity_depth。对不同的entity_class的实体,分别用直接查询方法直接查询到相关文档,这块所有的查询均可使用tornado的协程并发执行,查询速度会有倍级的提升。其中,tornado是一种网页(Web)服务器框架。另外,当两类实体间没有建立关系时,直接查找的速度会非常慢。所以在直接查找前,会先判断两者之间是否存在要查找的关系,存在则继续,不存在则跳过。存在的话查询耗时在0.02s左右,不存在的话耗时1s左右,所以设置了0.1s的请求超时参数,配合协程并发请求,将整个判断耗时控制在0.1Xs。
关键字查询:query中非实体部分称为关键字,比如”XX大学解决方案”,”XX大学”会被识别为实体,”解决方案”则会被定义为关键字。针对关键字,Lucene全文索引查询相关文档,Lucene全文索引使用的分析器为自然语言处理工具HanLP提供的HanLPIndexAnalyzer和HanLPAnalyzer。document实体基于lucene索引可直接获得文档ID,head或text实体则需要先通过lucene索引找到匹配的head或text,再向上匹配到document实体,三条语句并发执行,返回字段有文档ID、文档实体类型,分别命名为document_rid和content_type。
S360,对各所述查询文档进行排序,得到查询结果。
对查询文档进行排序用于对查询文档与查询内容的相关程度进行比较。通常将相关程度高的文档置于排序的前位,将相关程度低的文档置于排序的后位。将查询准确率最高的文档优先展示,并将查询准确率最低的文档最后展示,优化排序结果,提高查询的匹配效率和准确率,提高用户体验。
可选的,所述对各所述查询文档进行排序,包括:针对每个所述查询文档,计算所述查询文档对应的至少一个因素得分;根据各所述查询文档对应的因素得分,以及预设的因素得分对应的权重,计算各所述查询文档的查询得分;根据各所述查询文档的查询得分,对各所述查询文档进行排序。
因素得分用于评价查询文档在某个维度下的得分,以描述查询文档在某个维度下与查询内容的相关程度。因素得分对应的权重用于描述因素得分在查询得分中的比重。因素得分和权重用于计算查询得分。示例性的,查询得分等于,各因素得分与对应权重的乘积之和。排序可以是指按照查询得分,从高到低进行排序。通常得分高的文档的次序靠前,得分低的文档的次序靠后。
示例性的,因素包括覆盖因子、结构因子和深度因子等。其中,覆盖因子用于评价文档中查询项的覆盖率,可以是指文档中出现查询项的个数,查询项(实体和/或关键词);结构因子用于描述查询项所在的文档的类型,可以是指查询项所属的文档的类型,对应content_type字段;深度因子用于描述在进行深度查询时,指深度搜索时查询的深度,对应entity_depth字段。文档得分与覆盖因子成正比,与深度因子成反比,赋予不同的结构因子不同的权重,结构因子的权重和深度因子调节参数可以基于约束条件计算而得,其中,深度因子调节参数的数值为13.1,通过实验统计确定。
其中,约束条件如表2所示:
表2
Figure BDA0003055664110000161
结构因子权重可以参考表3:
表3
Figure BDA0003055664110000162
其中,查询得分计算的公式可以是如下所示的公式:
Figure BDA0003055664110000163
其中,scoreq,d为查询项对应文档的查询得分,coverq,d为某个查询项在文档出现的数量,deptht,e为深度因子的因素得分,weightt,e,p为实体在文档结构中位置对应的权重,q指查询项,p指文档结构(文档名,文档路径,标题,正文),terms是查询词集合,t是查询词,e是指实体,d是指文档。
Figure BDA0003055664110000164
是查询词中不同实体的因素得分的累加和。
在一个具体的例子中,搜索”房地产案例”,总共搜索出178篇文档,而直接用ElasticSearch检索,总共搜索出126篇文档,可见显著提高了文档搜索的召回率,额外召回了52篇文档。这52篇文档均不包含”房地产”字样,而包含”房地产”关联的客户字样,比如”AA集团”等”BB集团”等。此外,搜索结果的排序和ElasticSearch也不相同,由于利用了文档的结构信息,从而将更符合用户意图的文档排在了前面,并给出了搜索结果的解释表达式,具体如表4所示。
表4
Figure BDA0003055664110000171
解释表达式为字典类型,key代表查询项,表4中k1指”房地产”,k2指”案例”;value为列表类型,其元素为元组类型,元组各字段对应的含义为(查询深度,实体个数,(文档名,标题,正文))。表4中的((0,1,(0,0,1))即意味着,查询深度为0的实体中,有1个实体在文档中出现,出现位置包括正文。表4中的2,1,(1,1,1))即意味着,查询深度为2的实体中,有1个实体在文档中出现,出现位置包括文档名、标题和正文。
通过提出了一种新的文档搜索策略和得分算法,充分利用文档结构信息,并借助业务知识库进行多种方式查询,并最终确定各查询文档的查询得分,并根据查询得分进行排序,可以准确按照文档与查询内容的相关程度进行排序,可以准确评估文档的查询准确率,同时进行排序,以符合用户的查询意图,提高用户体验。
本发明实施例通过利用文档结构信息,并借助业务知识库,对查询内容进行多种方式的查询,更加匹配用户的真实意图,提高文档查询准确率,同时显著提升召回率,丰富搜索场景。
实施例四
图4为本发明实施例四中的一种知识图谱的确定装置的示意图。实施例四是实现本发明上述实施例提供的知识图谱的确定方法的相应装置,该装置可采用软件和/或硬件的方式实现,并一般可集成计算机设备中。
相应的,本实施例的装置可以包括:
文档格式类型获取模块410,用于获取文档内容,并确定所述文档内容对应的文档格式类型;
文档知识提取模块420,用于在所述文档内容中,查询与所述文档格式类型匹配的至少一个目标格式位置处的文本,并确定文档知识;
知识图谱确定模块430,用于根据各所述文档知识,确定所述文档内容对应的知识图谱。
本发明实施例通过根据文档格式类型,可以在文档格式类型匹配的至少一个目标格式位置处,并确定文档知识,并基于提取的文档知识,构建文档内容的知识图谱,解决了现有技术中按照统一的方式从企业文档并确定文档知识的难度大且准确率低的问题,可以提高文档知识的提取准确率,同时降低文档知识的提取难度,从而快速准确构建知识图谱。
进一步的,所述文档知识提取模块420,包括:三元组生成单元,用于根据所述文档格式类型,在所述文档内容的与所述文档格式类型匹配的至少一个目标格式位置处,提取至少一个结构类型的文本;根据三元组结构类型配置信息,对各所述结构类型的文本进行组合,形成至少一个三元组,并确定为文档知识。
进一步的,所述结构类型包括下述至少一项:文档类型、标题类型和正文类型,所述三元组结构类型配置信息包括下述至少一项:文档到标题配置信息、文档到正文配置信息和标题到正文配置信息。
进一步的,所述知识图谱确定模块430,包括:图谱融合单元,用于根据各所述文档知识,构建初始图谱;将预设的业务知识库与所述初始图谱进行融合,形成所述文档内容对应的知识图谱。
进一步的,所述图谱融合单元,具体用于:在所述初始图谱中,对各所述文档知识进行命名实体识别,得到各所述文档知识对应的命名实体;根据预设的业务知识库对各所述文档知识包括的命名实体进行实体对齐,并与所述业务知识库中实体建立链接;将所述业务知识库和初始图谱进行融合,并添加所述链接关联的数据,形成所述文档内容对应的知识图谱。
进一步的,所述知识图谱的确定装置,还包括:文档查询模块,用于在确定所述文档内容对应的知识图谱之后,接收文档查询请求,并识别查询内容,所述查询内容包括实体和/或关键词;采用至少一种查询方式,对所述查询内容进行查询,得到至少一个查询文档;对各所述查询文档进行排序,得到查询结果。
进一步的,所述文档查询模块,包括:查询文档排序单元,用于针对每个所述查询文档,计算所述查询文档对应的至少一个因素得分;根据各所述查询文档对应的因素得分,以及预设的因素得分对应的权重,计算各所述查询文档的查询得分;根据各所述查询文档的查询得分,对各所述查询文档进行排序。
上述装置可执行本发明实施例所提供的方法,具备执行方法相应的功能组件和有益效果。
实施例五
图5为本发明实施例四提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图5显示的计算机设备12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。计算机设备12可以是挂接在总线上的设备。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(Micro Channel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(PerIPheral Component Interconnect,PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如紧凑磁盘只读存储器(Compact Disc Read-Only Memory,CD-ROM),数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。系统存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序组件,这些程序组件被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序组件42的程序/实用工具40,可以存储在例如系统存储器28中,这样的程序组件42包括但不限于操作系统、一个或者多个应用程序、其它程序组件以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序组件42通常执行本发明所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网(Wide Area Network,WAN)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它组件通信。应当明白,尽管图5中未示出,可以结合计算机设备12使用其它硬件和/或软件组件,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列(Redundant Arrays of Inexpensive Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明任意实施例所提供的方法。
实施例六
本发明实施例五提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有发明实施例提供的知识图谱的确定方法:
也即,该程序被处理器执行时实现:获取文档内容,并确定所述文档内容对应的文档格式类型;在所述文档内容中,查询与所述文档格式类型匹配的至少一个目标格式位置处的文本,并确定文档知识;根据各所述文档知识,确定所述文档内容对应的知识图谱。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、只读存储器(Read OnlyMemory,ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、闪存、光纤、便携式CD-ROM、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、无线电频率(RadioFrequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括LAN或WAN——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (6)

1.一种知识图谱的确定方法,其特征在于,包括:
获取文档内容,并确定所述文档内容对应的文档格式类型;
在所述文档内容中,查询与所述文档格式类型匹配的至少一个目标格式位置处的文本,并确定文档知识;所述文档知识包括文档夹名称、文档名称、文档各级标题和文档正文的文本;
根据各所述文档知识,确定所述文档内容对应的知识图谱;
所述在所述文档内容中,查询与所述文档格式类型匹配的至少一个目标格式位置处的文本,并确定文档知识,包括:
根据所述文档格式类型,在所述文档内容的与所述文档格式类型匹配的至少一个目标格式位置处,提取至少一个结构类型的文本;
根据三元组结构类型配置信息,对各所述结构类型的文本进行组合,形成至少一个三元组,并确定为文档知识;
所述结构类型包括下述至少一项:文档类型、标题类型和正文类型,所述三元组结构类型配置信息包括下述至少一项:文档到标题配置信息、文档到正文配置信息和标题到正文配置信息;
所述根据各所述文档知识,确定所述文档内容对应的知识图谱,包括:
根据各所述文档知识,构建初始图谱;
将预设的业务知识库与所述初始图谱进行融合,形成所述文档内容对应的知识图谱;
所述将预设的业务知识库与所述初始图谱进行融合,形成所述文档内容对应的知识图谱,包括:
在所述初始图谱中,对各所述文档知识进行命名实体识别,得到各所述文档知识对应的命名实体;
根据预设的业务知识库对各所述文档知识包括的命名实体进行实体对齐,并与所述业务知识库中实体建立链接;所述业务知识库根据业务任务配置的实体形成的知识库;所述文档为企业文档,所述业务知识库实体为与企业关联的实体;
将所述业务知识库和初始图谱进行融合,并添加所述链接关联的数据,形成所述文档内容对应的知识图谱。
2.根据权利要求1所述的方法,其特征在于,在确定所述文档内容对应的知识图谱之后,还包括:
接收文档查询请求,并识别查询内容,所述查询内容包括实体和/或关键词;
采用至少一种查询方式,对所述查询内容进行查询,得到至少一个查询文档;
对各所述查询文档进行排序,得到查询结果。
3.根据权利要求2所述的方法,其特征在于,所述对各所述查询文档进行排序,包括:
针对每个所述查询文档,计算所述查询文档对应的至少一个因素得分;
根据各所述查询文档对应的因素得分,以及预设的因素得分对应的权重,计算各所述查询文档的查询得分;
根据各所述查询文档的查询得分,对各所述查询文档进行排序。
4.一种知识图谱的确定装置,其特征在于,所述知识图谱的确定装置实现如权利要求1-3中任一所述的知识图谱的确定方法,包括:
文档格式类型获取模块,用于获取文档内容,并确定所述文档内容对应的文档格式类型;
文档知识提取模块,用于在所述文档内容中,查询与所述文档格式类型匹配的至少一个目标格式位置处的文本,并确定文档知识;
知识图谱确定模块,用于根据各所述文档知识,确定所述文档内容对应的知识图谱。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-3中任一所述的知识图谱的确定方法。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-3中任一所述的知识图谱的确定方法。
CN202110499034.XA 2021-05-08 2021-05-08 知识图谱的确定方法、装置、计算机设备及存储介质 Active CN113190687B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110499034.XA CN113190687B (zh) 2021-05-08 2021-05-08 知识图谱的确定方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110499034.XA CN113190687B (zh) 2021-05-08 2021-05-08 知识图谱的确定方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN113190687A CN113190687A (zh) 2021-07-30
CN113190687B true CN113190687B (zh) 2023-03-24

Family

ID=76984258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110499034.XA Active CN113190687B (zh) 2021-05-08 2021-05-08 知识图谱的确定方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN113190687B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704498A (zh) * 2021-09-01 2021-11-26 云知声(上海)智能科技有限公司 用于文档的智能审核方法及其系统
CN114064922B (zh) * 2021-11-18 2023-07-14 西南交通大学 一种基于第三方云平台的服务价值链多链知识图谱构建方法
CN114626362B (zh) * 2022-03-18 2023-06-06 中国电子科技集团公司第十研究所 一种可控开放式组合规则知识生成方法及系统
CN117009452A (zh) * 2023-07-25 2023-11-07 浪潮智慧科技有限公司 一种水文业务数据获取方法、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541359A (zh) * 2020-11-27 2021-03-23 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10664558B2 (en) * 2014-04-18 2020-05-26 Arria Data2Text Limited Method and apparatus for document planning
CN108446367A (zh) * 2018-03-15 2018-08-24 湖南工业大学 一种基于知识图谱的包装行业数据搜索方法及设备
CN109635120B (zh) * 2018-10-30 2020-06-09 百度在线网络技术(北京)有限公司 知识图谱的构建方法、装置和存储介质
CN109657010B (zh) * 2018-10-30 2020-10-09 百度在线网络技术(北京)有限公司 文档处理方法、装置和存储介质
CN110377884B (zh) * 2019-06-13 2023-03-24 北京百度网讯科技有限公司 文档解析方法、装置、计算机设备及存储介质
CN111753099B (zh) * 2020-06-28 2023-11-21 中国农业科学院农业信息研究所 一种基于知识图谱增强档案实体关联度的方法及系统
CN112395427A (zh) * 2020-12-01 2021-02-23 北京中电普华信息技术有限公司 一种技术标准知识图谱的构建方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112541359A (zh) * 2020-11-27 2021-03-23 北京百度网讯科技有限公司 文档内容识别方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN113190687A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
CN110399457B (zh) 一种智能问答方法和系统
US11748323B2 (en) System and method of search indexes using key-value attributes to searchable metadata
CN109992645B (zh) 一种基于文本数据的资料管理系统及方法
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN111753099B (zh) 一种基于知识图谱增强档案实体关联度的方法及系统
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
US9569506B2 (en) Uniform search, navigation and combination of heterogeneous data
CN108701161B (zh) 为搜索查询提供图像
CN111680173A (zh) 统一检索跨媒体信息的cmr模型
US9619571B2 (en) Method for searching related entities through entity co-occurrence
CN110941612A (zh) 基于关联数据的自治数据湖构建系统及方法
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
CN107844493B (zh) 一种文件关联方法及系统
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
TW201415254A (zh) 語意標註建議方法及其系統
US9251136B2 (en) Document tagging and retrieval using entity specifiers
TWI290687B (en) System and method for search information based on classifications of synonymous words
TWI682286B (zh) 利用文字解析結果與自然語言輸入的文件搜尋系統
Cortez et al. A flexible approach for extracting metadata from bibliographic citations
AU2019101463A4 (en) Method of searching and mining of social information on Internet based on Elasticsearch
GB2520993A (en) Indexing presentation slides
CN112860940B (zh) 基于描述逻辑知识库上有序概念空间的音乐资源检索方法
US20230409624A1 (en) Multi-modal hierarchical semantic search engine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant