CN111949798B - 图谱的构建方法、装置、计算机设备和存储介质 - Google Patents
图谱的构建方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN111949798B CN111949798B CN201910402619.8A CN201910402619A CN111949798B CN 111949798 B CN111949798 B CN 111949798B CN 201910402619 A CN201910402619 A CN 201910402619A CN 111949798 B CN111949798 B CN 111949798B
- Authority
- CN
- China
- Prior art keywords
- paragraphs
- answer
- target field
- target
- answers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000012216 screening Methods 0.000 claims abstract description 17
- 239000003550 marker Substances 0.000 claims description 28
- 238000010276 construction Methods 0.000 claims description 24
- 230000011218 segmentation Effects 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 7
- 238000005065 mining Methods 0.000 abstract description 12
- 230000000694 effects Effects 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 230000003287 optical effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 230000002093 peripheral effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 235000009827 Prunus armeniaca Nutrition 0.000 description 2
- 244000018633 Prunus armeniaca Species 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本申请提出一种图谱的构建方法、装置、计算机设备和存储介质,其中,方法包括:对输入文本进行解析以生成多个结构段落;根据目标字段对多个结构段落进行筛选,以从多个结构段落中选择N个结构段落;对N个结构段落通过阅读理解模型进行分析,以确定目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置以及置信度;根据起始标记符以及目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,根据目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置确定目标字段所对应的答案,并根据答案构建图谱。该方法节省了人力成本,泛化性和对答案的挖掘效果较好,构建的图谱召回率较高。
Description
技术领域
本申请涉及信息处理技术领域,尤其涉及一种图谱的构建方法、装置、计算机设备和存储介质。
背景技术
知识图谱可以应用于许多应用场景,比如基于知识图谱进行信息推荐,或是基于知识图谱进行推理问答等。目前,对于大量存在于非结构化文档的知识无法加以利用。
现有从非结构化文档挖掘知识的方法,主要是分为规则挖掘和条件随机场(Conditional Random Field,简称CRF)模型挖掘两种方法。规则挖掘耗费人力,没有语义泛化导致召回率低,条件随机场CRF模型的对于值是长段描述时效果不好、以及泛化性较差。由此,基于规则挖掘和CFR模型的图谱构建方法,人力成本高、构建的图谱召回率较低。
发明内容
本申请提出一种图谱的构建方法、装置、计算机设备和存储介质,用于解决相关技术中基于规则挖掘和CFR模型挖掘的图谱构建方法,存在的人力成本高、构建的图谱召回率较低的问题。
本申请一方面实施例提出了一种图谱的构建方法,包括:
获取输入文本,并获取目标字段;
对所述输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符;
根据所述目标字段对所述多个结构段落进行筛选,以从所述多个结构段落中选择N个结构段落,其中,N为自然数;
对所述N个结构段落通过阅读理解模型进行分析,以确定所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置以及置信度;
根据所述起始标记符,以及所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,其中,M为自然数;以及
根据所述目标字段所对应的答案在所述M个结构段落中对应的开始位置和结束位置确定所述目标字段所对应的答案,并根据所述答案构建图谱。
本申请实施例的图谱的构建方法,通过获取输入文本,并获取目标字段,对输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符,根据目标字段对多个结构段落进行筛选,以从多个结构段落中选择N个结构段落,对N个结构段落通过阅读理解模型进行分析,以确定目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置及置信度,根据起始标记符以及目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,根据目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置确定目标字段所对应的答案,并根据答案构建图谱,由此,通过目标字段对多个结构段落进行筛选,并结合阅读理解模型从筛选出的结构段落中确定答案的开始位置和开始位置,并从筛选出的结构段落中再筛选出具有答案的结构段落,根据具有答案的结构段落对应的开始位置和结束位置确定目标字段所对应的答案,基于获取的答案构建图谱,节省了人力成本,泛化性和对答案的挖掘效果较好,构建的图谱召回率较高。
本申请另一方面实施例提出了一种图谱的构建装置,包括:
获取模块,用于获取输入文本,并获取目标字段;
生成模块,用于对所述输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符;
筛选模块,用于根据所述目标字段对所述多个结构段落进行筛选,以从所述多个结构段落中选择N个结构段落,其中,N为自然数;
第一确定模块,用于对所述N个结构段落通过阅读理解模型进行分析,以确定所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置以及置信度;
第二确定模块,用于根据所述起始标记符,以及所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,其中,M为自然数;以及
构建模块,用于根据所述目标字段所对应的答案在所述M个结构段落中对应的开始位置和结束位置确定所述目标字段所对应的答案,并根据所述答案构建图谱。
本申请实施例的图谱的构建装置,通过获取输入文本,并获取目标字段,对输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符,根据目标字段对多个结构段落进行筛选,以从多个结构段落中选择N个结构段落,对N个结构段落通过阅读理解模型进行分析,以确定目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置以及置信度,根据起始标记符以及目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,根据目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置确定目标字段所对应的答案,并根据答案构建图谱,由此,通过目标字段对多个结构段落进行筛选,并结合阅读理解模型从筛选出的结构段落中确定答案的开始位置和开始位置,并从筛选出的结构段落中再筛选出具有答案的结构段落,根据具有答案的结构段落对应的开始位置和结束位置确定目标字段所对应的答案,基于获取的答案构建图谱,节省了人力成本,泛化性和对答案的挖掘效果较好,构建的图谱召回率较高。
本申请另一方面实施例提出了一种计算机设备,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述一方面实施例所述的图谱的构建方法。
本申请另一方面实施例提出了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述一方面实施例所述的图谱的构建方法。
本申请另一方面实施例提出了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述一方面实施例所述的图谱的构建方法。
本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提供的一种图谱的构建方法的流程示意图;
图2为本申请实施提供的另一种图谱的构建方法的流程示意图;
图3为本申请实施例提供的又一种图谱的构建方法的流程示意图;
图4为本申请实施例提供的一种图谱的构建装置的结构示意图;
图5示出了适于用来实现本申请实施方式的示例性计算机设备的框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本申请,而不能理解为对本申请的限制。
下面参考附图描述本申请实施例的图谱的构建方法、装置、计算机设备和存储介质。
图1为本申请实施例提供的一种图谱的构建方法的流程示意图。
本申请实施例的图谱的构建方法,可由本申请实施例提供的图谱的构建装置执行,该装置可配置于计算机设备中,以实现根据目标字段对多个结构段落进行筛选,并结合阅读理解模型从筛选出的结构段落中确定答案的开始位置和结束位置,以根据答案构建图谱。
如图1所示,该图谱的构建方法包括:
步骤101,获取输入文本,并获取目标字段。
现有的知识图谱主要通过挖掘半结构化知识来构建SPO,其中,SPO包括S(Subject,主语)、P(Predicate,谓语)、O(Object,宾语)三元组信息,SPO主要有两种形式<实体1-关系-实体2>,和<实体名称-实体对应的属性-属性值>。其中,对于已知实体名称和实体对应的属性的情况,即对于已知SP挖掘O的情况,主要有规则匹配和CRF模型挖掘两种方法。但是,规则匹配耗费人力成本高、没有语义泛化导致召回率较低;CRF模型对于值是长段描述时模型效果不好、泛化性也比较差。由于,基于上述两种挖掘方法构建图谱,人力成本高,且构建的图谱准确性差。
本申请实施例中,输入文本为待挖掘答案的文本,可从输入文本获取目标字段。其中,目标字段可包括实体、实体对应的属性等。比如,输入文本为保单,可从保单的投保条款里抽取目标字段,例如投保人的投保年龄,或年限等信息。
步骤102,对输入文本进行解析以生成多个结构段落。
本实施例中,输入文本中可包括多个自然段落,可通过解析确定输入文本中的自然段落,将各个自然段落作为结构段落。并且,在生成结构段落时,在每个结构段落的第一个字符前面加上一个起始标记符。其中,起始标记符后续可用于判断结构段落中是否具有答案。
步骤103,根据目标字段对多个结构段落进行筛选,以从多个结构段落中选择N个结构段落,其中,N为自然数。
由于输入文本的多个结构段落中,可能有些结构段落中不包含目标字段或与目标字段相关的信息,那么为了提高图谱构建的召回率,可根据目标字段对多个结构段落进行筛选,从多个结构段落中选择N个结构段落。
在具体实现时,可依次判断多个结构段落中的每个结构段落中是否包含目标字段,若包含目标字段,则选择该结构段落,若不包含目标字段,则筛除该结构段落,从而可以从输入文本的多个结构段落中筛选出N个结构段落。
其中,筛选出的结构段落可以是0个,1个,也可以是多个,即N为自然数。当N为零时,说明没有符合要求的结构段落,可以认为在这些结构段落中找不到置信的答案。
本申请实施例中,通过利用目标字段对输入文本的多个结构段落进行筛选,从而缩小了答案的范围,提高了图谱构建效率和准确性。
步骤104,对N个结构段落通过阅读理解模型进行分析,以确定目标字段所对应的答案在N个段落中对应的开始位置和结束位置及置信度。
其中,开始位置和结束位置指答案在结构段落中所对应的第一字符和最后一个字符的位置。比如,结构段落共有300个字符,答案的开始位置是202,结束位置为240,即答案的开始位置对应的字符为结构段落中第202个字符,结束位置对应的字符为结构段落中第240个字符,那么答案即为结构段落中第202个字符到第240个字符之间的字符。
置信度用于表征阅读理解模型预测的结构段落中目标字段对应的答案的开始位置和结束位置的可信度。
阅读理解模型是预先训练得到的模型,用于确定答案在结构段落中的开始和结束位置,可输出答案在结构段落中对应的开始位置和结束位置以及置信度。阅读理解模型。这里目标字段对应的答案,可以理解为实体对应的属性的值。比如,目标字段为:“借问酒家何处有,牧童遥指杏花村”的出处,其中,出处为属性,那么属性的值即为该目标字段的答案。
本实施例中,阅读理解模型的训练语料为(Q,H,A),其中,Q为已知问题,H为文本,需要从文本H中找到答案A,这里A必须是H里的连续的片段。在训练阅读理解模型时,损失函数为开始位置和结束位置的交叉熵之和。这样训练得到的阅读理解模型,比CRF模型在长文本答案上的效果要好。
为了进一步提高模型的准确性,可在阅读理解模型中加入注意力机制,比如,阅读理解模型采用双向注意流(bi-directional attention flow,简称BiDAF)模型。
在选择出N个结构段落后,针对每个结构段落可利用阅读理解模型,确定每个结构段落中目标字段对应的答案的开始位置和结束位置。
比如,假设结构段落切词后的最大长度是500,答案的最大长度为20个字符,则在答案最大长度20个字符的约束条件下,在这500个位置中选择开始位置的概率与结束位置的概率乘积最高的开始位置和结束位置,作为目标字段对应的答案在该结构段落中对应的开始位置和结束位置。
步骤105,根据起始标记符,以及目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落。
其中,M小于或等于N,M为自然数。可以理解的是,若N=0,那么M也为0。
在实际应用中,通过阅读理解模型对N个结构段落中的每个结构段落进行分析时,阅读理解模型虽然输出了开始位置和结束位置,但是对于有些结构段落而言,开始位置和结束位置之间对应的字符可能并不是答案。
由于阅读理解模型是按照结构段落中字符的先后顺序确定开始位置和结束位置的,那么如果答案的开始位置和结束位置均是在结构段落前面的起始标记符的位置,那么可以认为该结构段落中没有答案。由此,可筛选出具有答案的M个结构段落。
具体而言,对N个结构段落中每个结构段落,判断目标字段所对应的答案在结构段落中对应的开始位置和结束位置,是否均位于结构段落的起始标记符。如果是,说明从该结构段落中确定的目标字段对应的答案位于该结构段落的起始标记符,说明该结构段落没有目标字段对应的答案。如果从结构段落中确定的目标字段对应的答案不是位于结构段落的起始标记符,说明该结构段落具有答案。
本实施例中,通过结构段落前的起始标记符,可以从N个结构段落中筛选出具有答案的M个结构段落,从而提高了答案的准确性。
步骤106,根据目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置确定目标字段所对应的答案,并根据答案构建图谱。
本实施例中,当M=1时,也就是说,具有答案的结构段落只有一个,那么根据阅读理解模型确定的目标字段对应的答案在该结构段落中对应的开始位置和结束位置,将开始位置和结束位置之间的字符作为目标字段对应的答案。
当M大于1时,也就是从N个结构段落中选择出两个或两个以上的具有答案的结构段落,也就是从输入文本中预测出M个答案,这时需要从M个答案中确定出一个最优答案作为目标字段对应的最终答案。作为一种可能的实现方式,可根据答案与目标字段的相关性,将相关性最高的答案,作为目标字段对应的答案。或者,计算M个答案中两两之间的相似度,然后计算每个答案与其他答案之间的相似度的平均值,将平均值最高的答案作目标字段对应的最终答案。
在获取目标字段对应的答案后,可根据目标字段及其对应的答案,构建<实体名称-实体对应的属性-属性值>形式的图谱。
在本申请的一个实施例中,在对输入文本的多个结构段落进行筛选时,可利用目标字段在结构段落中的重要程度等级,选择N个结构段落。下面结合图2进行说明,图2为本申请实施提供的另一种图谱的构建方法的流程示意图。
如图2所示,上述根据目标字段对多个结构段落进行筛选,以从多个结构段落中选择N个结构段落,包括:
步骤201,对多个结构段落分别进行切词,以生成多个结构段落对应的多个分词集合。
本实施例中,针对多个结构段落中每个结构段落,可利用现有的切词方法,对每个结构段落进行切词处理,得到对应的多个分词,这些分词组成了分词集合,即得到每个结构段落具有对应的分词集合。
步骤202,根据目标字段和多个结构段落对应的多个分词集合,计算目标字段与多个结构段落的文本相似度和/或语义相似度。
在实际应用中,可基于关键词匹配的方法、基于向量空间的方法等计算文本相似度。其中,基于向量空间的方法,主要是利用词频逆文本频率指数(Term Frequency–Inverse Document Frequency,简称TFIDF)与相似度计算方法计算文本相似度。
其中,TFIDF是一种用于信息检索与数据挖掘的常用加权技术,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
具体而言,针对每个结构段落,统计结构段落对应的分词集合中,出现目标字段的次数,得到目标字段在结构段落中的词频。然后,根据输入文本对应的多个结构段落计算逆文档频率。之后,将词频与逆文档频率相乘得到结构段落对应的TFIDF值。
比如,输入文本有M个结构段落,首先计算目标字段在每个结构段落中的出现的次数即词频,然后根据公式:逆文档频率(IDF)=log(输入文本的结构段落总数/包含目标字段的结构段落)=log(M/包含目标字段的结构段落)。然后,将目标字段在结构段落出现的次数乘以逆文档频率,得到TFIDF值。
在计算出结构段落对应的分词集合中每个词的TFIDF值后,结合相似度计算方法(一般采用余弦相似度)可以计算出目标字段与结构段落的相似度。在计算语义相似度时,可通过基于距离的语义相似度计算方法,计算目标字段与结构段落对应的分词集合中每个分词之间的相似度,进而得到目标字段与结构段落之间的语义相似度。
步骤203,根据目标字段与多个结构段落的文本相似度和/或语义相似度对多个结构段落进行排序,并从多个结构段落中选择N个结构段落。
本实施例中,可按照文本相似度的高低,对多个结构段落进行排序,即对输入文本对应的所有结构段落进行排序,可从排序中选取前N个文本相似度较高的结构段落。或者,按照语义相似度,对多个结构段落进行排序,可从排序中选取前N个语义相似度较高的结构段落。或者,计算目标字段与每个结构段落的文本相似度和语义相似度的加权和,根据目标字段与每个结构段落的相似度加权和,对输入文本的所有结构段落进行排序,选取前N个相似度加权和较高的结构段落。
在选取N个结构段落后,利用阅读理解模型确定目标字对应的答案在N个结构段落中每个结构段落中的开始位置和结束位置,确定出具有答案的M个结构段落,进而根据答案构建图谱。
本申请实施例中,通过对输入文本对应的多个结构段落进行切词,得到对应的分词集合,根据目标字段和多个结构段落对应的多个分词集合,计算目标字段与多个结构段落的文本相似度和/或语义相似度,根据目标字段与多个结构段落的文本相似度和/或语义相似度从多个结构段落中选择N个结构段落,由此利用文本相似度和/或语义相似度对多个结构段落进行筛选,选择N个结构段落,缩小了答案的范围。
在实际应用中筛选出的结构段落可能是多个,得到的答案可能也比较多,为了提高了构建的图谱的准确性,可利用置信度筛选答案。下面结合图3进行说明,图3为本申请实施例提供的又一种图谱的构建方法的流程示意图。
如图3所示,上述根据目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置确定目标字段所对应的答案,并根据答案构建图谱,包括:
步骤301,根据目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置,确定在M个结构段落中目标字段所对应的答案。
对于M结构段落中的每个结构段落,将目标字段所对应的答案在结构段落中对应的开始位置和结束位置之间的字符作为目标字段对应的答案,从而从每个结构段落中确定出目标字段对应的答案。
步骤302,在M个结构段落中目标字段所对应的答案中,选取置信度最高的答案为目标答案。
如果M大于1,说明输入本文中预测出多个答案,那么需要从M个答案中确定出目标字段最终的答案,即目标答案。
本实施例中,阅读理解模型在输出开始位置和结束位置的同时,还可输出置信度。由此,可以获取目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置对应的置信度,即获取从每个结构段落中确定出的答案的置信度,根据置信度确定出目标答案。其中,置信度越高,那么答案的准确性就越高,由此可以从M个结构段落中目标字段所对应的答案中,选取置信度最高的答案为目标答案。
步骤303,根据目标字段和目标答案构建图谱。
由于目标字段中包含实体和实体对应的属性,而目标答案为实体对应的属性值,那么根据目标字段和目标答案构建图谱。
比如,目标字段:“借问酒家何处有,牧童遥指杏花村”的出处;答案为《清明》,则可以构建图谱:“借问酒家何处有,牧童遥指杏花村”-出处-《清明》。
又如,目标字段为“李白的代表作”,根据置信度确定的答案:《静夜思》、《蜀道难》、《将进酒》。那么,构建图谱:李白-代表作-《静夜思》、《蜀道难》、《将进酒》。
本申请实施例中,在确定M个结构段落中每个结构段落中答案的开始位置和结束位置后,根据开始位置和结束位置确定答案以及获取开始位置和结束位置的置信度,通过利用置信度筛选出置信度最高的答案用于构建图谱,从而提高了图谱的准确性。
为了实现上述实施例,本申请实施例还提出一种图谱的构建装置。图4为本申请实施例提供的一种图谱的构建装置的结构示意图。
如图4所示,该图谱的构建装置包括:获取模块410、生成模块420、筛选模块430、第一确定模块440、第二确定模块450、构建模块460。
获取模块410,用于获取输入文本,并获取目标字段;
生成模块420,用于对输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符;
筛选模块430,用于根据目标字段对多个结构段落进行筛选,以从多个结构段落中选择N个结构段落,其中,N为自然数;
第一确定模块440,用于对N个结构段落通过阅读理解模型进行分析,以确定目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置以及置信度;
第二确定模块450,用于根据起始标记符,以及目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,其中,M为自然数;以及
构建模块460,用于根据目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置确定目标字段所对应的答案,并根据答案构建图谱。
在本申请实施例一种可能的实现方式中,上述第二确定模块450,具体用于:
对N个结构段落中每个结构段落,根据目标字段所对应的答案在结构段落中对应的开始位置和结束位置,判断目标字段所对应的答案是否位于结构段落的起始标记符;若否,则确定结构段落中有答案。
在本申请实施例一种可能的实现方式中,上述筛选模块430,具体用于:
对多个结构段落分别进行切词,以生成多个结构段落对应的多个分词集合;
根据所述目标字段和所述多个结构段落对应的多个分词集合,计算目标字段与多个结构段落的文本相似度和/或语义相似度;以及
根据目标字段与多个结构段落的文本相似度和/或语义相似度对多个结构段落进行排序,并从多个结构段落中选择N个结构段落。
在本申请实施例一种可能的实现方式中,上述构建模块460,具体用于:
根据目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置,确定在M个结构段落中目标字段所对应的答案;
在M个结构段落中目标字段所对应的答案中,选取置信度最高的答案为目标答案;
根据目标字段和目标答案构建图谱。
在本申请实施例一种可能的实现方式中,上述阅读理解模型为双向注意流BiDAF模型。
需要说明的是,上述对图谱的构建方法实施例的解释说明,也适用于该实施例的图谱的构建装置,故在此不再赘述。
本申请实施例的图谱的构建装置,通过获取输入文本,并获取目标字段,对输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符,根据目标字段对多个结构段落进行筛选,以从多个结构段落中选择N个结构段落,对N个结构段落通过阅读理解模型进行分析,以确定目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置以及置信度,根据起始标记符以及目标字段所对应的答案在N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,根据目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置确定目标字段所对应的答案,并根据答案构建图谱,由此,通过目标字段对多个结构段落进行筛选,并结合阅读理解模型确定在筛选出的结构段落中答案的开始位置和开始位置,并从筛选出的结构段落中再筛选出具有答案的结构段落,根据具有答案的结构段落对应的开始位置和结束位置确定目标字段所对应的答案,基于获取的答案构建图谱,节省了人力成本,泛化性和对答案的挖掘效果较好,构建的图谱召回率较高。
为了实现上述实施例,本申请实施例还提出一种计算机设备,包括处理器和存储器;
其中,处理器通过读取存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如上述实施例所述的图谱的构建方法。
图5示出了适于用来实现本申请实施方式的示例性计算机设备的框图。图5显示的计算机设备12仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图5所示,计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture;以下简称:ISA)总线,微通道体系结构(Micro Channel Architecture;以下简称:MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation;以下简称:VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection;以下简称:PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory;以下简称:RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如:光盘只读存储器(Compact Disc Read OnlyMemory;以下简称:CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory;以下简称:DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network;以下简称:LAN),广域网(Wide Area Network;以下简称:WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机设备12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现前述实施例中提及的方法。
为了实现上述实施例,本申请实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例所述的图谱的构建方法。
为了实现上述实施例,本申请实施例还提出一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据上述实施例所述的图谱的构建方法。
在本说明书的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种图谱的构建方法,其特征在于,包括:
获取输入文本,并获取目标字段;
对所述输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符;
根据所述目标字段对所述多个结构段落进行筛选,以从所述多个结构段落中选择N个结构段落,其中,N为自然数;
对所述N个结构段落通过阅读理解模型进行分析,以确定所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置以及置信度;
根据所述起始标记符,以及所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,其中,M为自然数;以及
根据所述目标字段所对应的答案在所述M个结构段落中对应的开始位置和结束位置确定所述目标字段所对应的答案,并根据所述答案构建图谱;
所述根据所述起始标记符,以及所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,包括:
对所述N个结构段落中每个结构段落,根据所述目标字段所对应的答案在结构段落中对应的开始位置和结束位置,判断所述目标字段所对应的答案是否位于结构段落的所述起始标记符;
若否,则确定结构段落中有答案。
2.如权利要求1所述的图谱的构建方法,其特征在于,所述根据所述目标字段对所述多个结构段落进行筛选,以从所述多个结构段落中选择N个结构段落,包括:
对所述多个结构段落分别进行切词,以生成所述多个结构段落对应的多个分词集合;
根据所述目标字段和所述多个结构段落对应的多个分词集合,计算所述目标字段与所述多个结构段落的文本相似度和/或语义相似度;以及
根据所述目标字段与所述多个结构段落的文本相似度和/或语义相似度对所述多个结构段落进行排序,并从所述多个结构段落中选择N个结构段落。
3.如权利要求1所述的图谱的构建方法,其特征在于,所述根据所述目标字段所对应的答案在所述M个结构段落中对应的开始位置和结束位置确定所述目标字段所对应的答案,并根据所述答案构建图谱,包括:
根据所述目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置,确定在所述M个结构段落中所述目标字段所对应的答案;
在所述M个结构段落中所述目标字段所对应的答案中,选取置信度最高的答案为目标答案;根据所述目标字段和所述目标答案构建所述图谱。
4.如权利要求1所述的图谱的构建方法,其特征在于,所述阅读理解模型为双向注意流BiDAF模型。
5.一种图谱的构建装置,其特征在于,包括:
获取模块,用于获取输入文本,并获取目标字段;
生成模块,用于对所述输入文本进行解析以生成多个结构段落,其中,每个结构段落的第一个字符前具有起始标记符;
筛选模块,用于根据所述目标字段对所述多个结构段落进行筛选,以从所述多个结构段落中选择N个结构段落,其中,N为自然数;
第一确定模块,用于对所述N个结构段落通过阅读理解模型进行分析,以确定所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置以及置信度;
第二确定模块,用于根据所述起始标记符,以及所述目标字段所对应的答案在所述N个结构段落中对应的开始位置和结束位置,确定具有答案的M个结构段落,其中,M为自然数;以及
构建模块,用于根据所述目标字段所对应的答案在所述M个结构段落中对应的开始位置和结束位置确定所述目标字段所对应的答案,并根据所述答案构建图谱;
所述第二确定模块,具体用于:
对所述N个结构段落中每个结构段落,根据所述目标字段所对应的答案在结构段落中对应的开始位置和结束位置,判断所述目标字段所对应的答案是否位于结构段落的所述起始标记符;若否,则确定结构段落中有答案。
6.如权利要求5所述的图谱的构建装置,其特征在于,所述筛选模块,具体用于:
对所述多个结构段落分别进行切词,以生成所述多个结构段落对应的多个分词集合;
根据所述目标字段和所述多个结构段落对应的多个分词集合,计算所述目标字段与所述多个结构段落的文本相似度和/或语义相似度;以及
根据所述目标字段与所述多个结构段落的文本相似度和/或语义相似度对所述多个结构段落进行排序,并从所述多个结构段落中选择N个结构段落。
7.如权利要求5所述的图谱的构建装置,其特征在于,所述构建模块,具体用于:
根据所述目标字段所对应的答案在M个结构段落中对应的开始位置和结束位置,确定在所述M个结构段落中所述目标字段所对应的答案;
在所述M个结构段落中所述目标字段所对应的答案中,选取置信度最高的答案为目标答案;
根据所述目标字段和所述目标答案构建所述图谱。
8.如权利要求5所述的图谱的构建装置,其特征在于,所述阅读理解模型为双向注意流BiDAF模型。
9.一种计算机设备,其特征在于,包括处理器和存储器;
其中,所述处理器通过读取所述存储器中存储的可执行程序代码来运行与所述可执行程序代码对应的程序,以用于实现如权利要求1-4中任一所述的图谱的构建方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的图谱的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910402619.8A CN111949798B (zh) | 2019-05-15 | 2019-05-15 | 图谱的构建方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910402619.8A CN111949798B (zh) | 2019-05-15 | 2019-05-15 | 图谱的构建方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111949798A CN111949798A (zh) | 2020-11-17 |
CN111949798B true CN111949798B (zh) | 2024-02-02 |
Family
ID=73336371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910402619.8A Active CN111949798B (zh) | 2019-05-15 | 2019-05-15 | 图谱的构建方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111949798B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112883182A (zh) * | 2021-03-05 | 2021-06-01 | 海信电子科技(武汉)有限公司 | 一种基于机器阅读的问答匹配方法及装置 |
CN112800246B (zh) * | 2021-04-09 | 2021-08-31 | 北京智源人工智能研究院 | 一种政策谱系构建方法、装置和电子设备 |
CN113486174B (zh) * | 2021-06-15 | 2022-11-29 | 北京三快在线科技有限公司 | 模型训练、阅读理解方法、装置、电子设备及存储介质 |
CN113656590B (zh) * | 2021-07-16 | 2023-12-15 | 北京百度网讯科技有限公司 | 行业图谱的构建方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033229A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 问答处理方法和装置 |
CN109344234A (zh) * | 2018-09-06 | 2019-02-15 | 和美(深圳)信息技术股份有限公司 | 机器阅读理解方法、装置、计算机设备和存储介质 |
CN109543002A (zh) * | 2018-10-19 | 2019-03-29 | 中南民族大学 | 简写字符的还原方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10339453B2 (en) * | 2013-12-23 | 2019-07-02 | International Business Machines Corporation | Automatically generating test/training questions and answers through pattern based analysis and natural language processing techniques on the given corpus for quick domain adaptation |
CN106716402B (zh) * | 2014-05-12 | 2020-08-11 | 销售力网络公司 | 以实体为中心的知识发现 |
-
2019
- 2019-05-15 CN CN201910402619.8A patent/CN111949798B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109033229A (zh) * | 2018-06-29 | 2018-12-18 | 北京百度网讯科技有限公司 | 问答处理方法和装置 |
CN109344234A (zh) * | 2018-09-06 | 2019-02-15 | 和美(深圳)信息技术股份有限公司 | 机器阅读理解方法、装置、计算机设备和存储介质 |
CN109543002A (zh) * | 2018-10-19 | 2019-03-29 | 中南民族大学 | 简写字符的还原方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
王霞 ; 孙界平 ; 琚生根 ; 胡思才 ; .基于段落内部推理和联合问题答案匹配的选择型阅读理解模型.四川大学学报(自然科学版).2019,(第03期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111949798A (zh) | 2020-11-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111949798B (zh) | 图谱的构建方法、装置、计算机设备和存储介质 | |
CN111858859B (zh) | 自动问答处理方法、装置、计算机设备及存储介质 | |
CN108170792B (zh) | 基于人工智能的问答引导方法、装置和计算机设备 | |
CN109670029B (zh) | 用于确定问题答案的方法、装置、计算机设备及存储介质 | |
CN109657213B (zh) | 文本相似度检测方法、装置和电子设备 | |
CN107038157B (zh) | 基于人工智能的识别错误发现方法、装置及存储介质 | |
CN111767366B (zh) | 问答资源挖掘方法、装置、计算机设备及存储介质 | |
CN108170773A (zh) | 新闻事件挖掘方法、装置、计算机设备和存储介质 | |
CN107766325B (zh) | 文本拼接方法及其装置 | |
CN108563655B (zh) | 基于文本的事件识别方法和装置 | |
CN109710759B (zh) | 文本切分方法、装置、计算机设备和可读存储介质 | |
CN111475603A (zh) | 企业标识识别方法、装置、计算机设备及存储介质 | |
CN109271542A (zh) | 封面确定方法、装置、设备及可读存储介质 | |
CN108460098B (zh) | 信息推荐方法、装置和计算机设备 | |
CN107861948B (zh) | 一种标签提取方法、装置、设备和介质 | |
US11144569B2 (en) | Operations to transform dataset to intent | |
CN108875043B (zh) | 用户数据处理方法、装置、计算机设备和存储介质 | |
CN108170806B (zh) | 敏感词检测过滤方法、装置和计算机设备 | |
US20230388261A1 (en) | Determining topic cohesion between posted and linked content | |
CN116402166B (zh) | 一种预测模型的训练方法、装置、电子设备及存储介质 | |
CN113627179B (zh) | 一种基于大数据的威胁情报预警文本分析方法及系统 | |
CN110704608A (zh) | 文本主题生成方法、装置和计算机设备 | |
CN111738009B (zh) | 实体词标签生成方法、装置、计算机设备和可读存储介质 | |
CN113741864B (zh) | 基于自然语言处理的语义化服务接口自动设计方法与系统 | |
CN109657127B (zh) | 一种答案获取方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |