CN110889280A - 基于文档拆分的知识库建设方法及装置 - Google Patents
基于文档拆分的知识库建设方法及装置 Download PDFInfo
- Publication number
- CN110889280A CN110889280A CN201811038766.3A CN201811038766A CN110889280A CN 110889280 A CN110889280 A CN 110889280A CN 201811038766 A CN201811038766 A CN 201811038766A CN 110889280 A CN110889280 A CN 110889280A
- Authority
- CN
- China
- Prior art keywords
- document
- introduction
- title
- knowledge
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于文档拆分的知识库建设方法及装置,所述知识库建设方法包括:获取待处理的文档;判断所述文档是否具有标题;如果所述文档具有标题,则确定所述文档内的各级标题;至少将部分标题作为介绍知识点的介绍问题,以及将所述部分标题下的至少部分内容作为所述介绍知识点的答案存储至知识库中。本发明技术方案可以实现在已有的文档的基础上形成知识点,还可以实现对知识库中知识点的内容的扩展,提升知识库的丰富性,进而扩大知识库的应用范围。
Description
技术领域
本发明涉及语言处理技术领域,尤其涉及一种基于文档拆分的知识库建设方法及装置。
背景技术
在智能问答系统中,知识库可以提供知识点,知识点可以包括标准问及其答案。在形成知识库中的知识点时,通常需要人工撰写或整理标准问及其答案。
但是,如何在已有的文档的基础上形成知识点,是一个亟待解决的问题。
发明内容
本发明解决的技术问题是如何在已有的文档的基础上形成知识点。
为解决上述技术问题,本发明实施例提供一种基于文档拆分的知识库建设方法,所述方法包括:获取待处理的文档;判断所述文档是否具有标题;如果所述文档具有标题,则确定所述文档内的各级标题;至少将部分标题作为介绍知识点的介绍问题,以及将所述部分标题下的至少部分内容作为所述介绍知识点的答案存储至知识库中。
可选的,所述判断所述文档是否具有标题包括:判断所述文档是否具备目录或大纲级别,当所述文档具备目录或大纲级别时,所述文档具有标题;如果所述文档未具备目录或大纲级别,则判断所述文档是否具备编号或不同大小的字体,当所述文档具有编号或不同大小的字体时,所述文档具有标题;否则,所述文档不具有标题。
可选的,所述确定所述文档内的各级标题包括:如果所述文档具备目录,则根据所述文档的目录来确定各级标题;或者,如果所述文档具备大纲级别,则根据所述文档的大纲级别来确定各级标题;或者,如果所述文档具有编号,则根据所述编号的编号优先级确定各级编号,将每级编号至首个换行符之间的内容作为每级标题;或者,如果所述文档具备不同大小的字体,则按照所述文档中各个段落的字体从大到小的顺序确定各级标题;或者,如果所述文档具有编号,则按照编号在所述文档中首次出现的顺序确定各级编号,将每级编号至首个换行符之间的内容作为每级标题。
可选的,所述至少将部分标题作为介绍知识点的介绍问题,以及将所述部分标题下的至少部分内容作为所述介绍知识点的答案存储至知识库中包括:对于第i级标题,确定所述第i级标题或所述第i级标题及其至少一个上级标题为所述介绍知识点的介绍问题,确定所述第i级标题下的至少部分内容作为相应的答案,其中,所述文档包括M级标题,i的取值范围为[1,M]。
可选的,所述至少将部分标题作为介绍知识点的介绍问题,以及将所述部分标题下的至少部分内容作为所述介绍知识点的答案存储至知识库中包括:对于第i级标题,将所述第i级标题及其至少一个上级标题采用关联词进行连接,形成完整语句,并将所述完整语句作为所述介绍问题,确定所述第i级标题下的至少部分内容作为相应的答案,其中,所述文档包括M级标题,i的取值范围为[1,M]。
可选的,所述基于文档拆分的知识库建设方法还包括:如果所述文档未具有标题,则根据标点符号将所述文档切分为多个句子;按照所述多个句子的语义相关性将所述多个句子拆分为多个段落,段落的数量小于等于句子的数量;提取每个段落的内容摘要;将每一段落的内容摘要作为所述介绍知识点的介绍问题,以及至少将所述段落作为所述介绍知识点的答案存储至所述知识库。
可选的,所述至少将部分标题作为介绍知识点的介绍问题,以及将所述部分标题下的至少部分内容作为所述介绍知识点的答案存储至知识库中包括:如果标题下的内容的字数达到预设阈值,则将所述内容切分为多个句子;按照所述多个句子的语义相关性将所述多个句子拆分为多个段落,段落的数量小于等于句子的数量;提取每个段落的内容摘要;将每一段落的内容摘要作为所述介绍知识点的介绍问题,以及至少将所述段落作为所述介绍知识点的答案存储至所述知识库。
可选的,所述按照所述多个句子的语义相关性将所述多个句子拆分为多个段落包括:计算各个句子的语义向量,所述语义向量选自词频向量和/或句向量,句子的句向量为所述句子所包含的各个词语的词向量之和;计算相邻两个句子的语义向量的语义相似度;在所述语义相似度小于预设阈值时,将所述相邻两个句子拆分至不同的段落。
可选的,所述按照所述多个句子的语义相关性将所述多个句子拆分为多个段落还包括:对于拆分得到的多个段落,计算每两个段落的语义相似度;在两个段落的语义相似度达到第三预设阈值时,将所述两个段落合并为一个段落。
为解决上述技术问题,本发明实施例还公开了一种基于知识库的问答方法,所述方法包括:获取用户问题;将所述用户问题与知识库中的问题进行匹配,所述知识库包括问答知识点和介绍知识点,所述问答知识点包括问答问题及对应的答案,所述介绍知识点包括介绍问题及对应的答案,所述介绍知识点是基于所述的知识库建设方法形成的;将与所述用户问题相匹配的问题对应的答案反馈给用户。
为解决上述技术问题,本发明实施例还公开了一种基于文档拆分的知识库建设装置,知识库建设装置包括:待处理文档获取模块,用以获取待处理的文档;判断模块,用以判断所述文档是否具有标题;标题确定模块,用以在所述文档具有标题时,确定所述文档内的各级标题;第一介绍知识点确定模块,用于至少将部分标题作为介绍知识点的介绍问题,以及将所述部分标题下的至少部分内容作为所述介绍知识点的答案存储至知识库中。
本发明实施例还公开了一种基于知识库的问答装置,问答装置包括:问题获取模块,用以获取用户问题;匹配模块,用以将所述用户问题与知识库中的问题进行匹配,所述知识库包括问答知识点和介绍知识点,所述问答知识点包括问答问题及对应的答案,所述介绍知识点包括介绍问题及对应的答案,所述介绍知识点是基于所述知识库建设方法形成的;反馈模块,用以将与所述用户问题相匹配的问题对应的答案反馈给用户。
本发明实施例还公开了一种存储介质,其上存储有计算机指令所述计算机指令运行时执行所述基于文档拆分的知识库建设方法的步骤,或所述基于知识库的问答方法的步骤。
本发明实施例还公开了一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行所述基于文档拆分的知识库建设方法的步骤,或所述基于知识库的问答方法的步骤。
与现有技术相比,本发明实施例的技术方案具有以下有益效果:
本发明技术方案获取待处理的文档;判断所述文档是否具有标题;如果所述文档具有标题,则确定所述文档内的各级标题;至少将部分标题作为介绍知识点的介绍问题,以及将所述部分标题下的至少部分内容作为所述介绍知识点的答案存储至知识库中。本发明技术方案对于待处理的文档,在文档具有标题的情况下,可以根据文档的标题以及标题下的内容分别确定介绍知识点的介绍问题及其答案,从而实现了对文档中知识点的提取并形成知识库。此外,不同于问答知识点中用于表示疑问的问题,介绍知识点中的介绍问题为文档中的至少部分标题,实现了对知识库中知识点的内容的扩展,提升了知识库的丰富性,进而扩大了知识库的应用范围。
进一步地,在文档具有标题的情况下,也即具有目录、大纲级别、编号或不同大小的字体的情况下,可以根据目录、大纲级别或编号的编号优先级确定各级编号,编号的编号优先级可以是预先确定的。或者,也可以按照编号在所述文档中首次出现的顺序确定各级编号。或者,还可以按照所述文档中各个段落的字体从大到小的顺序确定各级标题。本发明技术方案提供了多种确定文档各级编号的具体方式,可以保证编号确定的准确性和全面性,进而保证后续确定介绍知识点的准确性和全面性。
进一步地,对于第i级标题,将所述第i级标题及其至少一个上级标题采用关联词进行连接,形成完整语句,并将所述完整语句作为所述介绍问题,其中,i为正整数。本发明技术方案在确定介绍问题时,通过关联词将第i级标题及其至少一个上级标题进行连接,使得介绍问题可以具备语义连贯性,保证了知识库中介绍知识点的质量。
进一步地,如果所述文档未具有标题,则根据标点符号将所述文档切分为多个句子;按照所述多个句子的语义相关性将所述多个句子拆分为多个段落,段落的数量小于等于句子的数量;提取每个段落的内容摘要;将每一段落的内容摘要作为所述介绍知识点的介绍问题,以及至少将所述段落作为所述介绍知识点的答案存储至所述知识库。本发明技术方案中,在文档不具有标题的情况下,通过按照文档中相邻句子间的语义相关性将文档拆分成各个段落,每一段落的内容摘要和段落将分别作为介绍问题及其答案。由此,实现了对无格式文档的知识点的提取,进一步丰富了知识库中知识点的多样性。
附图说明
图1是本发明实施例一种基于文档拆分的知识库建设方法的流程图;
图2是本发明实施例的知识库建设方法的一种具体实施方式的流程图;
图3是本发明实施例的知识库建设方法的另一种具体实施方式的流程图;
图4是本发明实施例的知识库建设方法的又一种具体实施方式的流程图;
图5是图3所示步骤S302或图4所示步骤S402的具体实施方式的流程图;
图6是本发明实施例一种基于知识库的问答方法的流程图;
图7是本发明实施例一种基于文档拆分的知识库建设装置的结构示意图;
图8是本发明实施例一种基于知识库的问答装置的结构示意图。
具体实施方式
如背景技术中所述,如何在已有的文档的基础上形成知识点,是一个亟待解决的问题。
本发明技术方案对于待处理的文档,在文档具有标题的情况下,可以根据文档的标题以及标题下的内容分别确定介绍知识点的介绍问题及其答案,从而实现了对文档中知识点的提取并形成知识库。此外,不同于问答知识点中的问题,介绍知识点中的介绍问题为文档中的至少部分标题,实现了对知识库中知识点的内容的扩展,提升了知识库的丰富性,进而扩大了知识库的应用范围。
为使本发明的上述目的、特征和优点能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
图1是本发明实施例一种基于文档拆分的知识库建设方法的流程图。
图1所示知识库建设方法可以包括以下步骤:
步骤S101:获取待处理的文档;
步骤S102:判断所述文档是否具有标题;
步骤S103:如果所述文档具有标题,则确定所述文档内的各级标题;
步骤S104:至少将部分标题作为介绍知识点的介绍问题,以及将所述部分标题下的至少部分内容作为所述介绍知识点的答案存储至知识库中。
具体实施中,待处理的文档可以是实时获取的,例如用户实时输入的,或者,也可以是从数据库中调取得到的,数据库中存储有至少一个待处理的文档。
具体地,文档中包括文字。文档可以是指具备各种格式的文件,例如格式可以是txt、word、PPT、excel等。
在步骤S102中可以判断文档是否具有标题,从而可以根据文档是否具有标题采用不同的方式获取文档中的介绍知识点。
在步骤S103的具体实施中,在文档具有标题的情况下,确定文档内的各级标题。具体地,文档中的多个标题可以具有等级。例如,文档1具有一级标题,在一级标题下具有二级标题。由此在确定文档内的标题时,还可以确定标题的等级。不同标题的等级可以表示不同标题之间的关系,例如,标题1和标题2均为一级标题,则标题1和标题2为并列关系;标题1为一级标题,标题2为标题1下的二级标题,则标题1和标题2为上下级关系。
为了将从文档中提取的知识点与知识库中已有的问答知识点进行区分,从文档中提取的知识点可以称为介绍知识点。
进而在步骤S104的具体实施中,可以至少将部分标题作为介绍知识点的介绍问题,该介绍问题下的至少部分内容可以作为该介绍知识点的答案。
由上可以看出,介绍知识点与问答知识点的不同之处在于,介绍知识点的介绍问题为文档标题,介绍知识点的答案为标题下的内容。通常而言,介绍知识点中答案的字数大于问答知识点中答案的字数。
在具体实施方式中,至少将部分标题作为介绍知识点的介绍问题可以是指选取各级标题至少一部分作为介绍问题,例如确定各个顶级标题作为介绍问题,顶级标题无上级标题;确定各个底级标题作为介绍问题,底级标题无下级标题;也可以确定各个并列的中间标题为介绍标题。或者,还可以将具有上下级关系的至少一个标题组合为同一介绍问题。相应地,在文档中介绍问题下的内容为该介绍问题的答案。
通过将介绍知识点存储至知识库,使得知识库中具备介绍知识点,并能够用于对用户问题进行反馈、具体地,知识库中可以仅存储介绍知识点,也可以同时存储介绍知识点和问答知识点。此外,介绍知识点还可以存储至企业知识库中;企业知识库中的介绍知识点可以用于分词搜索以及文档的结构化展示。
关于问答知识点的获取和存储可以参照现有技术,此处不再赘述。
本发明实施例对于待处理的文档,在文档具有标题的情况下,可以根据文档的标题以及标题下的内容分别确定介绍知识点的介绍问题及其答案,从而实现了对文档中知识点的提取并形成知识库。此外,不同于问答知识点中的问题,介绍知识点中的介绍问题为文档中的至少部分标题,实现了对知识库中知识点的内容的扩展,提升了知识库的丰富性,进而扩大了知识库的应用范围。
本发明一个具体实施例中,图1所示步骤S102,也即判断所述文档是否具有标题可以包括以下步骤:判断所述文档是否具备目录或大纲级别,当所述文档具备目录或大纲级别时,所述文档具有标题;
如果所述文档未具备目录或大纲级别,则判断所述文档是否具备编号或不同大小的字体,当所述文档具有编号或不同大小的字体时,所述文档具有标题;否则,所述文档不具有标题。
具体实施中,文档具备目录或大纲级别时,文档的目录或大纲级别可以包括文档中的各级标题。故而可以基于文档的目录或大纲级别直接确定文档的标题。
由于文档中可以具备编号或不同大小的字体,因此可以通过文档中是否具备编号来判断文档是否具有标题,也可以通过文档中是否具备不同大小的字体来判断文档是否具有标题。
也就是说,文档具有编号或不同大小的字体时,确定所述文档具有标题;相应地,文档不具有编号,并且文档内字体大小一致时,确定文档不具有标题。
进一步地,在判断出文档具有标题后,图1所示步骤S103,也即确定所述文档内的各级标题包括以下步骤:如果所述文档具备目录,则根据所述文档的目录来确定各级标题;或者,如果所述文档具备大纲级别,则根据所述文档的大纲级别来确定各级标题;如果所述文档具有编号,则根据所述编号的编号优先级确定各级编号,将每级编号至首个换行符之间的内容作为每级标题;或者,如果所述文档具备不同大小的字体,则按照所述文档中各个段落的字体从大到小的顺序确定各级标题;或者,如果所述文档具有编号,则按照编号在所述文档中首次出现的顺序确定各级编号,将每级编号至首个换行符之间的内容作为每级标题。
本发明实施例示例性地给出确定文档标题的多种具体方式。
在文档具有编号的情况下,可以通过预先设置的编号优先级确定各级编号。编号优先级可以是统一设置的,适用于所有文档;编号优先级也可以根据具体的文档来设置,例如根据文档格式和/或文档内容等来设置。具体地,具备较高编号优先级的编号的等级高于具备较低编号优先级的编号的等级。
在一个具体应用中,编号优先级按照优先级从高到低的顺序为:“一、”、“(一)”、“1.”、“1、”、“1)”、“A”、“a)”、“i”以及图标。
需要说明的是,编号优先级也可以是其他任意可实施的组合,本发明实施例对此不做限制。
在文档具有编号的情况下,也可以按照编号在所述文档中首次出现的顺序确定各级编号。通过编号的首次出现顺序确定编号的等级,可以保证编号的等级确定的准确性。例如,阿拉伯数字的出现顺序早于大写英文字母的出现顺序,则形式为阿拉伯数字的编号的等级高于形式为大写英文字母的编号的等级。
在文档未具有编号,文档具备不同大小的字体的情况下,可以按照所述文档中各个段落的字体从大到小的顺序确定各级标题。其中,具备最小字体的段落可以是标题下的内容。具体而言,具备较大字体的编号的等级高于具备较小字体的编号的等级。
可以理解的是,每级标题的数量可以是一个或多个。
需要说明的是,在确定文档的标题时,可以结合文档的目录、文档的大纲级别、文档的编号以及文档的字体大小中任意两种或多种来确定,本发明实施例对此不做限制。
本发明一个具体实施例中,图1所示步骤S104可以包括以下步骤:对于第i级标题,确定所述第i级标题或所述第i级标题及其至少一个上级标题为所述介绍知识点的介绍问题,确定所述第i级标题下的至少部分内容作为相应的答案,其中,所述文档包括M级标题,i的取值范围为[1,M]。
本实施例中,可以将每级标题作为介绍问题进行存储。在文档包括M级标题,每级标题的数量为N的情况下,介绍问题的数量为M×N,相应地,介绍问题的答案的数量也为M×N。
或者,可以将每级标题与其至少一个上级标题共同作为介绍问题进行存储。在文档包括M级标题,每级标题的数量为N的情况下,介绍问题的数量为M×N,相应地,介绍问题的答案的数量也为M×N。
本发明实施例可以保证介绍问题能够全面覆盖文档的内容,保证了介绍知识点的全面性。
本发明另一个具体实施例中,图1所示步骤S104可以包括以下步骤:对于第i级标题,将所述第i级标题及其至少一个上级标题采用关联词进行连接,形成完整语句,并将所述完整语句作为所述介绍问题,确定所述第i级标题下的至少部分内容作为相应的答案,其中,所述文档包括M级标题,i的取值范围为[1,M],i和M为正整数。
在将每级标题与其至少一个上级标题共同作为介绍问题进行存储时,可以将每级标题及其至少一个上级标题采用关联词进行连接。
通过关联词将第i级标题及其至少一个上级标题进行连接,使得介绍问题可以具备语义连贯性,保证了知识库中介绍知识点的质量。
请参照图2,所述知识库建设方法还可以包括以下步骤:
步骤S201:按照所述介绍问题的语义扩展得到所述介绍问题的扩展问,并将所述介绍问题和所述扩展问同时作为所述介绍知识点的问题存储至所述知识库;
步骤S202:对所述答案进行语义提取,并将提取后的内容作为所述介绍知识点的标准答案存储至所述知识库。
在步骤S104中确定至少部分标题为介绍问题后,还可以对介绍问题进行扩展得到介绍问题的扩展问。介绍问题的扩展问与介绍问题的语义相似度大于预设阈值,例如预设阈值可以为90%。介绍问题及其扩展问共同作为介绍知识点的问题存储至数据库中,由此,介绍知识点中不仅包括介绍问题,还包括介绍问题的扩展问。
进一步地,介绍问题及其扩展问对应同一答案,也即该介绍问题下的内容。
对于介绍知识点的答案,也即标题下的内容,可以对其进行语义提取,并将提取后的内容作为介绍知识点的答案存储至知识库中。具体而言,介绍知识点的答案可以包括标题下的内容,也可以包括对该内容进行语义提取后的内容,或者可以同时包括标题下的内容及其语义提取后的内容。
进一步地,在介绍知识点同时包括标题下的内容及其语义提取后的内容的情况下,在利用介绍知识点进行用户问题反馈时,可以根据用户问题的来源渠道反馈上述不同的答案。例如,对于微信渠道,可以反馈标题下的内容,对于微博渠道,可以反馈语义提取后的内容。
需要说明的是,在执行完步骤S104之后,可以选择性地执行步骤S201和/或步骤S202,本发明实施例对此不做限制。
请参照图3,所述知识库建设方法还可以包括以下步骤:
步骤S301:如果所述文档未具有标题,则根据标点符号将所述文档切分为多个句子;
步骤S302:按照所述多个句子的语义相关性将所述多个句子拆分为多个段落,段落的数量小于等于句子的数量;
步骤S303:提取每个段落的内容摘要;
步骤S304:将每一段落的内容摘要作为所述介绍知识点的介绍问题,以及至少将所述段落作为所述介绍知识点的答案存储至所述知识库。
本发明实施例提供一种在文档不具有标题的情况下,确定介绍知识点的具体实施方式。
具体实施中,根据文档中的标点符号可以将文档切分为多个句子。具体地,可以按照句号、叹号、问号等将文档切分为多个句子。每一句子表示一个完整的语义。
每一句子具备语义,根据多个句子的语义的相关程度将文档拆分为多个段落。具体地,如果两个句子的语义的相关程度达到预设值,则两个句子可以拆分至同一段落,否则可以拆分至两个不同的段落。句子的语义相关性可以利用语义相似度来表示。
具体地,拆分后得到的段落的数量通常小于文档中句子的数量。
在得到文档的各个段落之后,可以将各个段落的摘要作为介绍知识点的介绍问题,将该段落作为该介绍知识点的答案。
进一步地,还可以按照所述介绍问题,也即段落的摘要的语义扩展得到所述介绍问题的扩展问,并将所述介绍问题和所述扩展问一并作为所述介绍知识点的问题存储至所述知识库。
请参照图4,图1所示步骤S104可以包括以下步骤:
步骤S401:如果标题下的内容的字数达到预设阈值,则将所述内容切分为多个句子;
步骤S402:按照所述多个句子的语义相关性将所述多个句子拆分为多个段落,段落的数量小于等于句子的数量;
步骤S403:提取每个段落的内容摘要;
步骤S404:将每一段落的内容摘要作为所述介绍知识点的介绍问题,以及至少将所述段落作为所述介绍知识点的答案存储至所述知识库。
如果标题下的内容过多,也即字数大大预设阈值,则需要对该内容进行处理。本发明实施例提供一种对介绍知识点的答案进行处理的具体实施方式。具体可以是将标题下的内容拆分为更多的介绍知识点并存储至知识库中。
关于对标题下的内容进行处理的具体方式,可以参照图3中的相关表述,此处不再赘述。
本发明一个优选实施例中,请参照图5,步骤S302或步骤S402可以包括以下步骤:
步骤S501:计算各个句子的语义向量,所述语义向量选自词频向量和/或句向量,句子的句向量为所述句子所包含的各个词语的词向量之和;
步骤S502:计算相邻两个句子的语义向量的语义相似度;
步骤S503:在所述语义相似度小于预设阈值时,将所述相邻两个句子拆分至不同的段落。
具体地,可以计算各个句子的句向量,利用相邻两个句子的句向量计算所述相邻两个句子的语义相似度。
或者,也可以对每个句子进行分词,并统计每个句子所包含的词语的词频;根据每个句子所包含的词语的词频确定每个句子的词频向量;计算相邻两个句子的词频向量的相似度,以作为语义相似度。
通过上述方式可以实现对文档内容的段落的拆分。
进一步地,在拆分得到多个段落之后,还可以执行以下步骤:对于拆分得到的多个段落,计算每两个段落的语义相似度;在两个段落的语义相似度达到第三预设阈值时,将所述两个段落合并为一个段落。
具体地,每一段落具备语义,如果两个段落的语义相似度达到一定的值,也即第三预设阈值,表示该两个段落在语义上非常接近;在这种情况下,可以将这两个段落进行合并,以形成一个段落,以便在后续形成一个介绍知识点,而非两个介绍知识点。本发明实施例可以精简知识库中介绍知识点的数量,有利于后续基于知识库问答的响应速度。
本发明一个优选实施例中,图1所示的步骤S104可以包括以下步骤:对所述部分标题下的内容进行语义去重处理;将去重处理后的内容作为所述介绍知识点的答案。
本实施例中,在确定部分标题下的至少部分内容作为所述介绍知识点的答案时,为了保证存储至知识库中的答案的简洁性,可以对标题下的内容进行去重处理,也即删除内容中语义重复的部分。
去重处理后的内容将作为所述介绍知识点的答案存储至知识库中。
请参照图6,基于知识库的问答方法可以包括以下步骤:
步骤S601:获取用户问题;
步骤S602:将所述用户问题与知识库中的问题进行匹配,所述知识库包括问答知识点和介绍知识点,所述问答知识点包括问答问题及对应的答案,所述介绍知识点包括介绍问题及对应的答案,所述介绍知识点是基于图1至图5任意实施例所示的方法形成的;
步骤S603:将与所述用户问题相匹配的问题对应的答案反馈给用户。
如前所述,从文档中提取的介绍知识点将存储至知识库中。知识库中还可以包括问答知识点。
在将用户问题与知识库中的问题进行匹配时,可以是将用户问题与问答知识点中的问题进行匹配,也可以是将用户问题与介绍知识点中的介绍问题进行匹配。介绍问题可以是文档中的至少部分标题。
更具体地,在介绍知识点中包括介绍问题的扩展问时,还可以将用户问题与介绍知识点中的介绍问题及其扩展问进行匹配。
与用户问题相匹配的问题可以是问答知识点中的问题,也可以是介绍知识点中的介绍问题或其扩展问,进而在步骤S603中,可以相应地将问答知识点中的答案反馈给用户,或者将介绍知识点中的答案反馈给用户。
进一步地,还可以确定用户问题的来源渠道,例如来源渠道为微信、微博等。介绍知识点中的答案可以具有多种形式,例如标题下的内容。对标题下的内容进行语义提取后的内容。根据来源渠道的不同,可以将不同形式的答案反馈给用户。
通过本发明实施例,可以实现对用户问题的回答的全面性。
请参照图7,文档拆分装置70可以包括待处理文档获取模块701、判断模块702、标题确定模块703和第一介绍知识点确定模块704。
其中,待处理文档获取模块701用以获取待处理的文档;判断模块702用以判断所述文档是否具有标题;标题确定模块703用以在所述文档具有标题时,确定所述文档内的各级标题;第一介绍知识点确定模块704用于至少将部分标题作为介绍知识点的介绍问题,以及将所述部分标题下的至少部分内容作为所述介绍知识点的答案存储至知识库中。
本实施例中对于待处理的文档,在文档具有标题的情况下,可以根据文档的标题以及标题下的内容分别确定介绍知识点的介绍问题及其答案,从而实现了对文档中知识点的提取并形成知识库。此外,不同于问答知识点中的问题,介绍知识点中的介绍问题为文档中的至少部分标题,实现了对知识库中知识点的内容的扩展,提升了知识库的丰富性,进而扩大了知识库的应用范围。
在本发明一个具体实施例中,判断模块702可以包括:第一判断单元,适于判断所述文档是否具备目录或大纲级别,当所述文档具备目录或大纲级别时,所述文档具有标题;第二判断单元,适于在所述文档未具备目录或大纲级别时,判断所述文档是否具备编号或不同大小的字体,当所述文档具有编号或不同大小的字体时,所述文档具有标题;否则,所述文档不具有标题。
在本发明一个具体实施方式中,标题确定模块703可以包括:目录标题确定单元,用以在所述文档具有目录时,根据所述文档的目录确定各级编号;大纲级别确定单元,用以在所述文档具有大纲级别时,根据所述文档的大纲级别确定各级编号;第一编号标题确定单元,用以在所述文档具有编号时,根据所述编号的编号优先级确定各级编号,将每级编号至首个换行符之间的内容作为每级标题;字体标题确定单元,用以在所述文档具备不同大小的字体时,按照所述文档中各个段落的字体从大到小的顺序确定各级标题;第二编号标题确定单元,用以在所述文档具有编号时,按照编号在所述文档中首次出现的顺序确定各级编号,将每级编号至首个换行符之间的内容作为每级标题。
本发明实施例提供了多种确定文档各级编号的具体方式,可以保证编号确定的准确性和全面性,进而保证后续确定介绍知识点的准确性和全面性。
在具体实施中,第一编号标题确定单元、字体标题确定单元和第二编号标题确定单元可以择一运行。
本发明一个具体实施方式中,第一介绍知识点确定模块704可以包括:第一介绍知识点确定单元,用以对于第i级标题,确定所述第i级标题或所述第i级标题及其至少一个上级标题为所述介绍知识点的介绍问题,确定所述第i级标题下的至少部分内容作为相应的答案,其中,所述文档包括M级标题,i的取值范围为[1,M],i和M为正整数。
本发明另一个具体实施方式中,第一介绍知识点确定模块704可以包括:第二介绍知识点确定单元,用以对于第i级标题,将所述第i级标题及其至少一个上级标题采用关联词进行连接,形成完整语句,并将所述完整语句作为所述介绍问题,确定所述第i级标题下的至少部分内容作为相应的答案,其中,所述文档包括M级标题,i的取值范围为[1,M]。
本发明实施例在确定介绍问题时,通过关联词将第i级标题及其至少一个上级标题进行连接,使得介绍问题可以具备语义连贯性,保证了知识库中介绍知识点的质量。
本发明一个优选实施例中,图7所示文档拆分装置70还可以包括:介绍问题扩展模块,用以按照所述介绍问题的语义扩展得到所述介绍问题的扩展问,并将所述介绍问题和所述扩展问同时作为所述介绍知识点的问题存储至所述知识库;语义提取模块,用以对所述答案进行语义提取,并将提取后的内容作为所述介绍知识点的标准答案存储至所述知识库。
本发明另一个优选实施例中,图7所示文档拆分装置70还可以包括:句子划分模块,用以在所述文档未具有标题时,根据标点符号将所述文档切分为多个句子;段落拆分模块,用以按照所述多个句子的语义相关性将所述多个句子拆分为多个段落,段落的数量小于等于句子的数量;摘要提取模块,用以提取每个段落的内容摘要;第二介绍知识点确定模块,用以将每一段落的内容摘要作为所述介绍知识点的介绍问题,以及至少将所述段落作为所述介绍知识点的答案存储至所述知识库。
本发明实施例中,在文档不具有标题的情况下,通过按照文档中相邻句子间的语义相关性将文档拆分成各个段落,每一段落的内容摘要和段落将分别作为介绍问题及其答案。从而实现了对无格式文档的知识点的提取,进一步丰富了知识库中知识点的多样性。
本发明又一个具体实施方式中,第一介绍知识点确定模块704可以包括:句子划分单元,用以在标题下的内容的字数达到预设阈值时,将所述内容切分为多个句子;段落拆分单元,用以按照所述多个句子的语义相关性将所述多个句子拆分为多个段落,段落的数量小于等于句子的数量;摘要提取单元,用以提取每个段落的内容摘要;介绍知识点确定单元,用以将每一段落的内容摘要作为所述介绍知识点的介绍问题,以及至少将所述段落作为所述介绍知识点的答案存储至所述知识库。
进一步地,所述段落拆分模块或段落拆分单元包括:语义向量计算子单元,用以计算各个句子的语义向量,所述语义向量选自词频向量和/或句向量,句子的句向量为所述句子所包含的各个词语的词向量之和;句子语义相似度计算子单元,用以计算相邻两个句子的语义向量的语义相似度;拆分子单元,用以在所述语义相似度小于预设阈值时,将所述相邻两个句子拆分至不同的段落。
进一步地,所述段落拆分模块或段落拆分单元包括:段落语义相似度计算子单元,用以对于拆分得到的多个段落,计算每两个段落的语义相似度;合并子单元,用以在两个段落的语义相似度达到第三预设阈值时,将所述两个段落合并为一个段落。
本发明再一个具体实施方式中,第一介绍知识点确定模块704可以包括:语义去重单元,用以对所述部分标题下的内容进行语义去重处理;答案确定单元,用以将去重处理后的内容作为所述介绍知识点的答案。
关于所述知识库建设装置70的工作原理、工作方式的更多内容,可以参照图1至图5中的相关描述,这里不再赘述。
请参照图8,基于知识库的问答装置80可以包括问题获取模块801、匹配模块802和反馈模块803。
其中,问题获取模块801用以获取用户问题;匹配模块802用以将所述用户问题与知识库中的问题进行匹配,所述知识库包括问答知识点和介绍知识点,所述问答知识点包括问答问题及对应的答案,所述介绍知识点包括介绍问题及对应的答案,所述介绍知识点是基于图1至图5所示的方法形成的;反馈模块803用以将与所述用户问题相匹配的问题对应的答案反馈给用户。
关于所述基于知识库的问答装置80的工作原理、工作方式的更多内容,可以参照图6中的相关描述,这里不再赘述。
本发明实施例还公开了一种存储介质,其上存储有计算机指令,所述计算机指令运行时可以执行图1至图5中所示的基于文档拆分的知识库建设方法的步骤,或者执行图6所示的基于知识库的问答方法的步骤。
所述存储介质可以包括ROM、RAM、磁盘或光盘等。所述存储介质还可以包括非挥发性存储器(non-volatile)或者非瞬态(non-transitory)存储器等。
本发明实施例还公开了一种终端,所述终端可以包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令。所述处理器运行所述计算机指令时可以执行图1至图5中所示的基于文档拆分的知识库建设方法的步骤,或者执行图6所示的基于知识库的问答方法的步骤。所述终端包括但不限于手机、计算机、平板电脑等终端设备。
虽然本发明披露如上,但本发明并非限定于此。任何本领域技术人员,在不脱离本发明的精神和范围内,均可作各种更动与修改,因此本发明的保护范围应当以权利要求所限定的范围为准。
Claims (14)
1.一种基于文档拆分的知识库建设方法,其特征在于,包括:
获取待处理的文档;
判断所述文档是否具有标题;
如果所述文档具有标题,则确定所述文档内的各级标题;
至少将部分标题作为介绍知识点的介绍问题,以及将所述部分标题下的至少部分内容作为所述介绍知识点的答案存储至知识库中。
2.根据权利要求1所述的基于文档拆分的知识库建设方法,其特征在于,所述判断所述文档是否具有标题包括:
判断所述文档是否具备目录或大纲级别,当所述文档具备目录或大纲级别时,所述文档具有标题;
如果所述文档未具备目录或大纲级别,则判断所述文档是否具备编号或不同大小的字体,当所述文档具有编号或不同大小的字体时,所述文档具有标题;否则,所述文档不具有标题。
3.根据权利要求2所述的基于文档拆分的知识库建设方法,其特征在于,所述确定所述文档内的各级标题包括:
如果所述文档具备目录,则根据所述文档的目录来确定各级标题;
或者,如果所述文档具备大纲级别,则根据所述文档的大纲级别来确定各级标题;
或者,如果所述文档具有编号,则根据所述编号的编号优先级确定各级编号,将每级编号至首个换行符之间的内容作为每级标题;
或者,如果所述文档具备不同大小的字体,则按照所述文档中各个段落的字体从大到小的顺序确定各级标题;
或者,如果所述文档具有编号,则按照编号在所述文档中首次出现的顺序确定各级编号,将每级编号至首个换行符之间的内容作为每级标题。
4.根据权利要求1所述的基于文档拆分的知识库建设方法,其特征在于,所述至少将部分标题作为介绍知识点的介绍问题,以及将所述部分标题下的至少部分内容作为所述介绍知识点的答案存储至知识库中包括:
对于第i级标题,确定所述第i级标题或所述第i级标题及其至少一个上级标题为所述介绍知识点的介绍问题,确定所述第i级标题下的至少部分内容作为相应的答案,其中,所述文档包括M级标题,i的取值范围为[1,M]。
5.根据权利要求1所述的基于文档拆分的知识库建设方法,其特征在于,所述至少将部分标题作为介绍知识点的介绍问题,以及将所述部分标题下的至少部分内容作为所述介绍知识点的答案存储至知识库中包括:
对于第i级标题,将所述第i级标题及其至少一个上级标题采用关联词进行连接,形成完整语句,并将所述完整语句作为所述介绍问题,确定所述第i级标题下的至少部分内容作为相应的答案,其中,所述文档包括M级标题,i的取值范围为[1,M]。
6.根据权利要求1所述的基于文档拆分的知识库建设方法,其特征在于,还包括:
如果所述文档未具有标题,则根据标点符号将所述文档切分为多个句子;
按照所述多个句子的语义相关性将所述多个句子拆分为多个段落,段落的数量小于等于句子的数量;
提取每个段落的内容摘要;
将每一段落的内容摘要作为所述介绍知识点的介绍问题,以及至少将所述段落作为所述介绍知识点的答案存储至所述知识库。
7.根据权利要求1所述的基于文档拆分的知识库建设方法,其特征在于,所述至少将部分标题作为介绍知识点的介绍问题,以及将所述部分标题下的至少部分内容作为所述介绍知识点的答案存储至知识库中包括:
如果标题下的内容的字数达到预设阈值,则将所述内容切分为多个句子;
按照所述多个句子的语义相关性将所述多个句子拆分为多个段落,段落的数量小于等于句子的数量;
提取每个段落的内容摘要;
将每一段落的内容摘要作为所述介绍知识点的介绍问题,以及至少将所述段落作为所述介绍知识点的答案存储至所述知识库。
8.根据权利要求6或7所述的基于文档拆分的知识库建设方法,其特征在于,所述按照所述多个句子的语义相关性将所述多个句子拆分为多个段落包括:
计算各个句子的语义向量,所述语义向量选自词频向量和/或句向量,句子的句向量为所述句子所包含的各个词语的词向量之和;
计算相邻两个句子的语义向量的语义相似度;
在所述语义相似度小于预设阈值时,将所述相邻两个句子拆分至不同的段落。
9.根据权利要求6或7所述的基于文档拆分的知识库建设方法,其特征在于,所述按照所述多个句子的语义相关性将所述多个句子拆分为多个段落还包括:
对于拆分得到的多个段落,计算每两个段落的语义相似度;
在两个段落的语义相似度达到第三预设阈值时,将所述两个段落合并为一个段落。
10.一种基于知识库的问答方法,其特征在于,包括:
获取用户问题;
将所述用户问题与知识库中的问题进行匹配,所述知识库包括问答知识点和介绍知识点,所述问答知识点包括问答问题及对应的答案,所述介绍知识点包括介绍问题及对应的答案,所述介绍知识点是基于权利要求1至11任一项所述的方法形成的;
将与所述用户问题相匹配的问题对应的答案反馈给用户。
11.一种基于文档拆分的知识库建设装置,其特征在于,包括:
待处理文档获取模块,用以获取待处理的文档;
判断模块,用以判断所述文档是否具有标题;
标题确定模块,用以在所述文档具有标题时,确定所述文档内的各级标题;
第一介绍知识点确定模块,用于至少将部分标题作为介绍知识点的介绍问题,以及将所述部分标题下的至少部分内容作为所述介绍知识点的答案存储至知识库中。
12.一种基于知识库的问答装置,其特征在于,包括:
问题获取模块,用以获取用户问题;
匹配模块,用以将所述用户问题与知识库中的问题进行匹配,所述知识库包括问答知识点和介绍知识点,所述问答知识点包括问答问题及对应的答案,所述介绍知识点包括介绍问题及对应的答案,所述介绍知识点是基于权利要求1至10任一项所述的方法形成的;
反馈模块,用以将与所述用户问题相匹配的问题对应的答案反馈给用户。
13.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至9中任一项所述基于文档拆分的知识库建设方法的步骤,或权利要求10所述基于知识库的问答方法的步骤。
14.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行利要求1至9中任一项所述基于文档拆分的知识库建设方法的步骤,或权利要求10所述基于知识库的问答方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811038766.3A CN110889280B (zh) | 2018-09-06 | 2018-09-06 | 基于文档拆分的知识库建设方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811038766.3A CN110889280B (zh) | 2018-09-06 | 2018-09-06 | 基于文档拆分的知识库建设方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110889280A true CN110889280A (zh) | 2020-03-17 |
CN110889280B CN110889280B (zh) | 2023-09-26 |
Family
ID=69744298
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811038766.3A Active CN110889280B (zh) | 2018-09-06 | 2018-09-06 | 基于文档拆分的知识库建设方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110889280B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035500A (zh) * | 2020-09-01 | 2020-12-04 | 中国银行股份有限公司 | 知识库的更新方法、装置、服务器和计算机存储介质 |
CN112231464A (zh) * | 2020-11-17 | 2021-01-15 | 安徽鸿程光电有限公司 | 信息处理方法、装置、设备及存储介质 |
CN113361256A (zh) * | 2021-06-24 | 2021-09-07 | 上海真虹信息科技有限公司 | 一种基于Aspose技术的Word文档快速解析方法 |
CN113361260A (zh) * | 2021-06-10 | 2021-09-07 | 北京字节跳动网络技术有限公司 | 一种文本处理方法、装置、设备以及存储介质 |
CN116861847A (zh) * | 2023-06-21 | 2023-10-10 | 三峡高科信息技术有限责任公司 | 一种Office文件在线预览的方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103136359A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 单文档摘要生成方法 |
CN103853834A (zh) * | 2014-03-12 | 2014-06-11 | 华东师范大学 | 基于文本结构分析的Web文档摘要的生成方法 |
US20140164303A1 (en) * | 2012-12-11 | 2014-06-12 | International Business Machines Corporation | Method of answering questions and scoring answers using structured knowledge mined from a corpus of data |
CN105677764A (zh) * | 2015-12-30 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
CN107220296A (zh) * | 2017-04-28 | 2017-09-29 | 北京拓尔思信息技术股份有限公司 | 问答知识库的生成方法、神经网络的训练方法以及设备 |
-
2018
- 2018-09-06 CN CN201811038766.3A patent/CN110889280B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140164303A1 (en) * | 2012-12-11 | 2014-06-12 | International Business Machines Corporation | Method of answering questions and scoring answers using structured knowledge mined from a corpus of data |
CN103136359A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 单文档摘要生成方法 |
CN103853834A (zh) * | 2014-03-12 | 2014-06-11 | 华东师范大学 | 基于文本结构分析的Web文档摘要的生成方法 |
CN105677764A (zh) * | 2015-12-30 | 2016-06-15 | 百度在线网络技术(北京)有限公司 | 信息提取方法和装置 |
US20180322341A1 (en) * | 2015-12-30 | 2018-11-08 | Baidu Online Network Technology (Beijing) Co., Ltd. | Method and apparatus for extracting information |
CN107220296A (zh) * | 2017-04-28 | 2017-09-29 | 北京拓尔思信息技术股份有限公司 | 问答知识库的生成方法、神经网络的训练方法以及设备 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112035500A (zh) * | 2020-09-01 | 2020-12-04 | 中国银行股份有限公司 | 知识库的更新方法、装置、服务器和计算机存储介质 |
CN112035500B (zh) * | 2020-09-01 | 2024-01-26 | 中国银行股份有限公司 | 知识库的更新方法、装置、服务器和计算机存储介质 |
CN112231464A (zh) * | 2020-11-17 | 2021-01-15 | 安徽鸿程光电有限公司 | 信息处理方法、装置、设备及存储介质 |
CN112231464B (zh) * | 2020-11-17 | 2023-12-22 | 安徽鸿程光电有限公司 | 信息处理方法、装置、设备及存储介质 |
CN113361260A (zh) * | 2021-06-10 | 2021-09-07 | 北京字节跳动网络技术有限公司 | 一种文本处理方法、装置、设备以及存储介质 |
CN113361256A (zh) * | 2021-06-24 | 2021-09-07 | 上海真虹信息科技有限公司 | 一种基于Aspose技术的Word文档快速解析方法 |
CN116861847A (zh) * | 2023-06-21 | 2023-10-10 | 三峡高科信息技术有限责任公司 | 一种Office文件在线预览的方法及系统 |
CN116861847B (zh) * | 2023-06-21 | 2024-02-13 | 三峡高科信息技术有限责任公司 | 一种Office文件在线预览的方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110889280B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110889280B (zh) | 基于文档拆分的知识库建设方法及装置 | |
CN106649742B (zh) | 数据库维护方法和装置 | |
US9411790B2 (en) | Systems, methods, and media for generating structured documents | |
CN110770735B (zh) | 具有嵌入式数学表达式的文档的编码转换 | |
US20160133148A1 (en) | Intelligent content analysis and creation | |
CN111274239A (zh) | 试卷结构化处理方法、装置和设备 | |
CN114610845B (zh) | 基于多系统的智能问答方法、装置和设备 | |
US11361759B2 (en) | Methods and systems for automatic generation and convergence of keywords and/or keyphrases from a media | |
CN116383366B (zh) | 一种应答信息确定方法、电子设备及存储介质 | |
CN114036909A (zh) | Pdf文档跨页表格合并方法、装置及相关设备 | |
CN110941616B (zh) | 出版物中关联数据生成方法、装置、设备及存储介质 | |
CN117539990A (zh) | 一种问题处理方法、装置、电子设备和存储介质 | |
KR102146433B1 (ko) | 연상기억법을 이용한 문맥 기반 언어 학습 서비스 제공 방법 | |
CN111538830A (zh) | 法条检索方法、装置、计算机设备及存储介质 | |
CN109033082B (zh) | 语义模型的学习训练方法、装置及计算机可读存储介质 | |
US10650195B2 (en) | Translated-clause generating method, translated-clause generating apparatus, and recording medium | |
WO2019163642A1 (ja) | 要約評価装置、方法、プログラム、及び記憶媒体 | |
CN110297965B (zh) | 课件页面的显示及页面集的构造方法、装置、设备和介质 | |
CN117112754A (zh) | 信息处理方法、装置、电子设备及存储介质 | |
JPWO2019225229A1 (ja) | 採点装置、採点方法、記録媒体 | |
CN110807322B (zh) | 基于信息熵识别新词的方法、装置、服务器及存储介质 | |
CN111831134B (zh) | 一种多字符结构自适应输入法及其布局生成方法 | |
US20150095314A1 (en) | Document search apparatus and method | |
CN111368553A (zh) | 智能词云图数据处理方法、装置、设备及存储介质 | |
CN113515924A (zh) | 文档处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |