CN111694967B - 属性抽取方法、装置、电子设备及介质 - Google Patents
属性抽取方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN111694967B CN111694967B CN202010530359.5A CN202010530359A CN111694967B CN 111694967 B CN111694967 B CN 111694967B CN 202010530359 A CN202010530359 A CN 202010530359A CN 111694967 B CN111694967 B CN 111694967B
- Authority
- CN
- China
- Prior art keywords
- text
- target
- attribute
- unit
- text unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例提供了一种属性抽取方法、装置、电子设备及介质。该方法包括:获取待处理文本;利用预先训练好的属性抽取模型对待处理文本进行属性抽取,得到待处理文本包含的至少一个属性信息,属性抽取模型的训练样本集包括至少一个第一文本单元;其中,按照下述方式获取至少一个第一文本单元:选取目标知识图谱中的至少一个主实体,分别作为目标主实体;分别获取各个目标主实体的相关文本数据,构成目标文本集;从目标文本集中选取至少一个第一文本单元,任一个第一文本单元包含一个目标主实体的至少一个目标属性,目标属性为对应目标主实体的在目标知识图谱中的一个属性信息。本申请实施例实现了减少对人力与物力的消耗,降低成本。
Description
技术领域
本申请涉及文本处理技术领域,具体而言,本申请涉及一种属性抽取方法、装置、电子设备及介质。
背景技术
随着计算机技术的不断发展,对文本信息进行属性抽取也变得的越来越重要。对文本信息进行属性抽取,其技术核心是对文本信息进行结构化处理,提取文本信息涉及的属性,从而实现对文本信息进行分类。
在现有技术中,可以利用训练好的属性抽取模型对文本信息进行属性抽取。在训练属性抽取模型之前,需要人工对大量的样本文本进行属性等相关信息的标注,得到训练样本集,从而可以利用训练样本集对初始模型进行训练,得到训练好的属性抽取模型,但是,这种采用人工方式对大量的样本文本进行标注的方式,会导致人力与物力的极大消耗,从而导致成本增加。
发明内容
本申请提供了一种属性抽取方法、装置、电子设备及介质,可以解决以上至少一种技术问题。
本申请提供了一种属性抽取方法,该方法包括:
获取待处理文本;
利用预先训练好的属性抽取模型对待处理文本进行属性抽取,得到待处理文本包含的至少一个属性信息,属性抽取模型的训练样本集包括至少一个第一文本单元;
其中,按照下述方式获取至少一个第一文本单元:
选取目标知识图谱中的至少一个主实体,分别作为目标主实体;
分别获取各个目标主实体的相关文本数据,构成目标文本集;
从目标文本集中选取至少一个第一文本单元,任一个第一文本单元包含一个目标主实体的至少一个目标属性,目标属性为对应目标主实体的在目标知识图谱中的一个属性信息。
在另一种可能的实现方式中,分别获取各个目标主实体的相关文本数据,构成目标文本集,包括:
利用各个目标主实体分别进行相关度搜索,得到满足相关度要求的文本数据,构成目标文本集。
在另一种可能的实现方式中,分别获取各个目标主实体的相关文本数据,构成目标文本集,包括:
利用各个目标主实体分别进行相关度搜索,得到满足相关度要求的文本数据;
对搜索得到的文本数据进行置信度筛选,得到满足第一置信度要求的文本数据,构成目标文本集。
在另一种可能的实现方式中,对搜索得到的文本数据进行置信度筛选,包括:
确定搜索得到的文本数据所属的至少一个网站;
根据所属网站的置信度,对搜索得到的文本数据进行置信度筛选。
在另一种可能的实现方式中,从目标文本集中选取至少一个第一文本单元,包括:
对于每一目标主实体,若目标文本集中包括该目标主实体的相关文本数据,则将该相关文本数据进行拆分,得到各个待校验文本单元;
对于每一待校验文本单元,根据该目标主实体的在目标知识图谱中的目标属性,确定该待校验文本单元是否为第一文本单元。
在另一种可能的实现方式中,根据该目标主实体的在目标知识图谱中的目标属性,确定该待校验文本单元是否为第一文本单元,包括:
确定该待校验文本单元中是否存在至少一个第一属性,其中,第一属性为该目标主实体的一个目标属性、或该目标主实体的一个目标属性的同义词、或该目标主实体的一个目标属性的子集元素;
若存在至少一个第一属性、或同时存在至少一个第一属性以及目标知识图谱中的与每一第一属性对应的目标从实体,则将该待校验文本单元作为一个第一文本单元。
在另一种可能的实现方式中,若存在至少一个第一属性、或同时存在至少一个第一属性以及目标知识图谱中的与每一第一属性对应的目标从实体之后,还包括:
确定该待校验文本单元是否满足第二置信度要求;
若是,则将该待校验文本单元作为一个第一文本单元。
在另一种可能的实现方式中,确定该待校验文本单元是否满足第二置信度要求,包括:
确定将该待校验文本单元所属的网站;
根据所属网站的置信度,确定该待校验文本单元是否满足第二置信度要求。
在另一种可能的实现方式中,得到各个待校验文本单元之后,还包括:
对于每一待校验文本单元,若该待校验文本单元中不包含该目标主实体,则为该待校验文本单元增加该目标主实体。
本申请提供了一种属性抽取装置,该装置包括:
第一获取模块,用于获取待处理文本;
属性抽取模块,用于利用预先训练好的属性抽取模型对待处理文本进行属性抽取,得到待处理文本包含的至少一个属性信息,属性抽取模型的训练样本集包括至少一个第一文本单元;
第二获取模块,用于获取至少一个第一文本单元,其中,第二获取模块包括:
第一选取单元,用于选取目标知识图谱中的至少一个主实体,分别作为目标主实体;
获取单元,用于分别获取各个目标主实体的相关文本数据,构成目标文本集;
第二选取单元,用于从目标文本集中选取至少一个第一文本单元,任一个第一文本单元包含一个目标主实体的至少一个目标属性,目标属性为对应目标主实体的在目标知识图谱中的一个属性信息。
在另一种可能的实现方式中,获取单元,具体用于利用各个目标主实体分别进行相关度搜索,得到满足相关度要求的文本数据,构成目标文本集。
在另一种可能的实现方式中,获取单元,具体用于:
利用各个目标主实体分别进行相关度搜索,得到满足相关度要求的文本数据;
对搜索得到的文本数据进行置信度筛选,得到满足第一置信度要求的文本数据,构成目标文本集。
在另一种可能的实现方式中,获取单元在对搜索得到的文本数据进行置信度筛选时,具体用于:
确定搜索得到的文本数据所属的至少一个网站;
根据所属网站的置信度,对搜索得到的文本数据进行置信度筛选。
在另一种可能的实现方式中,第二选取单元,具体用于:
对于每一目标主实体,当目标文本集中包括该目标主实体的相关文本数据,则将该相关文本数据进行拆分,得到各个待校验文本单元;
对于每一待校验文本单元,根据该目标主实体的在目标知识图谱中的目标属性,确定该待校验文本单元是否为第一文本单元。
在另一种可能的实现方式中,第二选取单元在根据该目标主实体的在目标知识图谱中的目标属性,确定该待校验文本单元是否为第一文本单元时,具体用于:
确定该待校验文本单元中是否存在至少一个第一属性,其中,第一属性为该目标主实体的一个目标属性、或该目标主实体的一个目标属性的同义词、或该目标主实体的一个目标属性的子集元素;
当存在至少一个第一属性、或同时存在至少一个第一属性以及目标知识图谱中的与每一第一属性对应的目标从实体,则将该待校验文本单元作为一个第一文本单元。
在另一种可能的实现方式中,第二选取单元在当存在至少一个第一属性、或同时存在至少一个第一属性以及目标知识图谱中的与每一第一属性对应的目标从实体,则将该待校验文本单元作为一个第一文本单元时,具体用于:
当存在至少一个第一属性、或同时存在至少一个第一属性以及目标知识图谱中的与每一第一属性对应的目标从实体,确定该待校验文本单元是否满足第二置信度要求;
当是,则将该待校验文本单元作为一个第一文本单元。
在另一种可能的实现方式中,第二选取单元在确定该待校验文本单元是否满足第二置信度要求时,具体用于:
确定将该待校验文本单元所属的网站;
根据所属网站的置信度,确定该待校验文本单元是否满足第二置信度要求。
在另一种可能的实现方式中,第二选取单元还用于:
对于每一待校验文本单元,当该待校验文本单元中不包含该目标主实体,则为该待校验文本单元增加该目标主实体。
在另一种可能的实现方式中,训练样本集还包括至少一个第二文本单元;其中,任一个第二文本单元是按照预设生成模式生成的文本单元,第二文本单元包含目标知识图谱中的一个三元组信息。
在另一种可能的实现方式中,利用损失函数训练得到属性抽取模型,属性抽取模型的训练阶段所使用的损失函数包括第一系数和第二系数;
其中,属性抽取模型在每一轮训练时使用目标文本集中的一个文本单元作为训练文本,第一系数表征了模型预测输出的训练文本包含的属性信息的准确性,第二系数表征了正例样本中所包含的属性信息的标注缺失程度。
本申请提供了一种电子设备,该电子设备包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中一个或多个应用程序被存储在存储器中并被配置为由一个或多个处理器执行,一个或多个程序配置用于:执行属性抽取方法对应的操作。
本申请提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现属性抽取方法。
本申请提供的技术方案带来的有益效果是:
本申请提供了一种属性抽取方法、装置、电子设备及介质,与现有技术相比,本申请利用预先训练好的属性抽取模型对待处理文本进行属性抽取,得到待处理文本包含的至少一个属性信息。其中,属性抽取模型的训练样本集包括至少一个第一文本单元,在获取各个第一文本单元时,可以选取目标知识图谱中的全部或部分主实体,并将选取的每一主实体作为目标主实体,然后,分别以每一目标主实体为对象,获取每一目标主实体的相关文本数据,由于每一相关文本数据包括对对应的目标主实体的相关描述,因此,可以基于目标知识图谱中的该目标主实体及其属性信息,从这些相关描述中挖掘出一个或多个第一文本单元,使每一第一文本单元包含目标主实体的属性信息且这些属性信息属于目标知识图谱,即,利用目标知识图谱自动标注出文本中的属性信息,而不必采用人工标注,从而减少了对人力与物力的消耗,进而降低了成本。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的一种属性抽取方法的流程示意图;
图2为本申请实施例提供的一种获取第一文本单元的流程示意图;
图3为本申请实施例提供的一种知识图谱的结构示意图;
图4为本申请实施例提供的一种属性抽取方法的框架示意图;
图5为本申请实施例提供的一种属性抽取方法的应用流程示意图;
图6为本申请实施例提供的一种属性抽取装置的结构示意图;
图7为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
本申请实施例提供了一种属性抽取方法,该方法可以应用于任一电子设备,例如,该电子设备可以为终端设备、也可以为服务器。
如图1所示,图1示出了本申请实施例提供的一种属性抽取方法的流程示意图,该方法包括:
步骤S101,获取待处理文本。
对于本申请实施例,待处理文本可以为句子,也可以为由句子组成的段落,还可以为文档等,在此不做限定。例如,待处理文本可以为:XX的妻子是YY,他们的女儿是ZZ。
步骤S102,利用预先训练好的属性抽取模型对待处理文本进行属性抽取,得到待处理文本包含的至少一个属性信息。
其中,属性抽取模型的训练样本集包括至少一个第一文本单元。
对于本申请实施例,可以直接将待处理文本输入至训练好的属性抽取模型,也可以先对待处理文本进行特征提取,得到文本特征信息,再将文本特征信息输入至训练好的属性抽取模型,属性抽取模型输出待处理文本包含的各个属性信息。在进行属性抽取后,可以得到该待处理文本中的某个主实体的一个或多个属性信息。
需要说明的是,待处理文本中可以包含属性信息本身,也可以包含属性信息的同义词,还可以包含属性信息的子集元素等,在此不做限定。例如,当属性信息是“夫妻”时,其子集下的各个元素包括“妻子”、“丈夫”。
例如,针对待处理文本:XX的妻子是YY,他们的女儿是ZZ,假设利用属性抽取模型抽取得到的主实体XX的属性信息有两个,分别为“妻子”以及“子女”,其中,该待处理文本中包含的“妻子”为属性信息“妻子”本身,该待处理文本中包含的“女儿”为属性信息“子女”的子集。
需要说明的是,直接将待处理文本输入至训练好的属性抽取模型时,属性抽取模型可以对输入的待处理文本进行特征提取,得到文本特征信息,然后基于文本特征信息进行属性抽取。在本申请实施例中,属性抽取模型可以为神经网络模型。
其中,文本特征信息可以为向量特征、编码特征、词频-逆文本频率(TermFrequency–Inverse Document Frequency,TF-IDF)等中的至少一项。
对于本申请实施例,也可以利用向量转换模型对待处理文本进行向量转换处理,得到向量特征,其中,该向量特征可以为词向量特征或者字向量特征,向量转换模型可以为BERT(全称:Bidirectional Encoder Representation from Transformers)模型,也可以为FastText模型。
对于本申请实施例,也可以利用预设编码方法对待处理文本进行编码处理,得到编码特征,其中,预设编码方法可以为BIO编码方法、BILOU编码方法、BIEOS编码方法、BIEO编码方法、SBME编码方法以及One-Hot编码方法中的至少一种。
可以理解的是,训练样本集包括各个第一文本单元,训练样本集用于训练得到属性抽取模型,可以在执行本申请的属性抽取方法之前获取训练样本集并训练属性抽取模型,也可以在使用属性抽取模型一段时间后,重新获取训练样本集并训练属性抽取模型。
进一步地,如图2所示,图2示出了本申请实施例提供的一种获取第一文本单元的流程示意图。
对于本申请实施例,可以按照图2中步骤S201至步骤S203所示的方式,获取至少一个第一文本单元,具体地:
步骤S201,选取目标知识图谱中的至少一个主实体,分别作为目标主实体。
需要说明的是,知识图谱是一种图形的数据结构,用于描述客观世界的事物及其相互关系。在知识图谱中,每个节点表示客观世界的事物,边表示事物间的关系,一条知识通过一个三元组表示。
关于知识图谱中的三元组,其中一种三元组是属性三元组,该属性三元组包括一个主实体、该主实体的属性、以及该主实体的属性所对应的从实体,即<主实体,属性,从实体>(<Subject,Predicate,Object>,简称<S,P,O>)。
例如,如图3所示,图3示出了本申请实施例所提供的一种知识图谱的结构示意图。针对图3,共有11个节点,分别为:S1、S2、P11、P12、P21、P22、O111、O121、O211、O221以及O222,共有五条知识,即五个属性三元组,分别为:<S1,P11,O111>、<S1,P12,O121>、<S2,P21,O211>、<S2,P22,O221>以及<S2,P22,O222>。
在本申请实施例中,不限制目标知识图谱的类型和大小,例如,该目标知识图谱可以包括某一技术领域的知识图谱中的部分或全部图谱,比如化学领域的知识图谱中的部分图谱。基于此,可以选取目标知识图谱中的至少一个主实体,即选取目标知识图谱中的全部或部分主实体,并将选取的每一主实体定义为目标主实体。
例如,将图3所示的知识图谱作为目标知识图谱,该目标知识图谱中包括主实体S1和S2,其中,可以选择该目标知识图谱中的全部或者部分主实体,分别作为目标主实体,如可以选择图3中的S1或者S2作为目标主实体,也可以选择S1和S2分别作为目标主实体。
步骤S202,分别获取各个目标主实体的相关文本数据,构成目标文本集。
对于本申请实施例,可以基于网络存储和本地存储中的至少一种数据存储来源,分别获取各个目标主实体的相关文本数据。其中,相关文本数据可以为句子,也可以为由句子组成的段落,还可以为文档等,在此不做限定。
作为一示例,当图3中的S1以及S2分别作为目标主实体时,可以获取S1的相关文本数据以及S2的相关文本数据,用以构成目标文本集。
步骤S203,从目标文本集中选取至少一个第一文本单元,任一个第一文本单元包含一个目标主实体的至少一个目标属性,该目标属性为对应目标主实体的在目标知识图谱中的一个属性信息。
对于本申请实施例,目标文本集中可以包括各个目标主实体各自的相关文本数据,当然,如果没有获取到某个目标主实体的相关文本数据,则目标文本集中不包括该目标主实体的相关文本数据,基于此,可以从至少一个目标主实体各自的相关文本数据中,选取第一文本单元。如,当目标文本集中包括S1的相关文本数据以及S2的相关文本数据时,可以从S1的相关文本数据中选取第一文本单元,也可以从S2的相关文本数据中选取第一文本单元,还可以从S1以及S2各自的相关文本数据中选取第一文本单元。
其中,第一文本单元的数量为至少一个,且第一文本单元中包含目标知识图谱中的一个目标主实体的信息,以及该目标主实体的至少一个目标属性的信息,以图3中的知识图谱作为目标知识图谱为例,第一文本单元可以包括目标主实体S1以及S1的目标属性P11,或者第一文本单元可以包括目标主实体S2以及S2的目标属性P21以及P22。
需要说明的是,每一第一文本单元可以对应目标知识图谱中的一个目标主实体,当然,不同目标主实体可以对应相同的第一文本单元、也可以对应不同的第一文本单元,且每一第一文本单元中可以实际包含或隐含包含目标知识图谱中的一个目标主实体、以及该目标主实体的至少一个目标属性。
进一步地,当选取到各个第一文本单元后,可以建立各个第一文本单元与其包含的各个目标属性之间的映射关系,或者建立各个第一文本单元与其包含的目标主实体、其包含的各个目标属性之间的映射关系,例如,建立第一文本单元“XX的妻子是YY”与其目标属性“夫妻”之间的映射关系,构成<XX的妻子是YY,夫妻>的映射关系。
需要说明的是,建立各个第一文本单元与其包含的各个目标属性之间的映射关系,或者建立各个第一文本单元与其包含的目标主实体、其包含的各个目标属性之间的映射关系,这样,可以在后续属性抽取模型的每一轮训练时,通过这种映射关系,找到一个第一文本单元和与其对应的目标属性,并将二者作为属性抽取模型的输入,来实现对属性抽取模型的一轮训练。
本申请实施例提供了一种属性抽取方法,本申请实施例利用预先训练好的属性抽取模型对待处理文本进行属性抽取,得到待处理文本包含的至少一个属性信息。其中,属性抽取模型的训练样本集包括至少一个第一文本单元,在获取各个第一文本单元时,可以选取目标知识图谱中的全部或部分主实体,并将选取的每一主实体作为目标主实体,然后,分别以每一目标主实体为对象,获取每一目标主实体的相关文本数据,由于每一相关文本数据包括对对应的目标主实体的相关描述,因此,可以基于目标知识图谱中的该目标主实体及其属性信息,从这些相关描述中挖掘出一个或多个第一文本单元,使每一第一文本单元包含目标主实体的属性信息且这些属性信息属于目标知识图谱,即,利用目标知识图谱自动标注出文本中的属性信息,而不必采用人工标注,从而减少了对人力与物力的消耗,进而降低了成本。
下面将介绍本申请上述步骤S202“分别获取各个目标主实体的相关文本数据,构成目标文本集”的两种实现方式。
在步骤S202的第一种实现方式中,具体可以包括:利用各个目标主实体分别进行相关度搜索,得到满足相关度要求的文本数据,构成目标文本集。
对于本申请实施例,可以利用搜索引擎基于各个目标主实体分别进行相关度搜索,得到各个目标主实体分别对应的搜索结果,从各个目标主实体的搜索结果中,分别选择满足相关度要求的文本数据,作为各个目标主实体的相关文本数据,这样,将每一目标主实体的相关文本数据,用于构成目标文本集。
需要说明的是,任一目标主实体对应的相关文本数据可以包括纯文本数据、半结构化数据、结构化数据等数据类型中的至少一种;此外,可以使用一种或多种搜索引擎进行数据搜索,比如,可以使用百度、搜狗、谷歌等中的至少一种进行搜索,而且,可以不限制搜索结果的类型,比如,搜索结果可以包括百科、新闻、博客、微博等中的至少一种。
其中,满足相关度要求的文本数据可以为:相关度大于预设相关度阈值的文本数据,或者按照相关度的大小顺序,排序在前的预设数量的文本数据。
可以理解的是,针对任一目标主实体的搜索结果,可以从其中选择得到满足相关度要求的文本数据,也可以无法从其中选择得到满足相关度要求的文本数据(比如按照相关度阈值进行搜索)。
作为一示例,当目标主实体为图3中的S1以及S2时,可以利用某搜索引擎对图3中的S1进行相关度搜索,得到S1的搜索结果,从S1的搜索结果中选择前20页的搜索结果,作为满足相关度要求的文本数据,即从S1的搜索结果中选择前20页的搜索结果,作为S1的相关文本数据。按照同样的方式,可以从S2的搜索结果中选择前20页的搜索结果,作为S2的相关文本数据,以利用S1的相关文本数据和S2的相关文本数据,构成目标文本集。
对于本申请实施例,利用各个目标主实体分别进行相关度搜索,得到满足相关度要求的文本数据,这样,可以在项目冷启动阶段获取到大量的纯文本数据、半结构化数据、以及结构化数据等中的至少一种数据,便于按照本申请提供的方式,自动化生成训练样本集,以减少人工标注带来的人力与物力消耗。
在步骤S202的第二种实现方式中,步骤S202具体可以包括:利用各个目标主实体分别进行相关度搜索,得到满足相关度要求的文本数据;对搜索得到的文本数据进行置信度筛选,得到满足第一置信度要求的文本数据,构成目标文本集。
其中,针对利用各个目标主实体分别进行相关度搜索,得到满足相关度要求的文本数据,可参见上述步骤S202的第一种实现方式的相关说明,在此不再赘述。
对于本申请实施例,针对任一目标主实体,可以对其满足相关度要求的文本数据进行置信度筛选,得到其中的满足第一置信度要求的文本数据,即,对其搜索得到的文本数据进行置信度筛选,得到其满足第一置信度要求的文本数据,并将其满足第一置信度要求的文本数据作为对应目标主实体的相关文本数据。
作为对搜索得到的文本数据进行置信度筛选的一种可选方式,对搜索得到的文本数据进行置信度筛选时,具体来讲,关于每一目标主实体对应搜索得到的文本数据,该文本数据可以包括不同的文本对象,例如,假设将不同网页数据作为不同的文本对象,那么,可以分别计算各个文本对象的置信度,按照置信度的大小顺序,选择排序在前的预设数量的文本对象,作为满足第一置信度要求的文本对象,或者,将置信度大于预设置信度阈值的文本对象,作为满足第一置信度要求的文本对象,基于此,这些满足第一置信度要求的文本对象,便构成了目标文本集。
作为对搜索得到的文本数据进行置信度筛选的另一种可选方式,对搜索得到的文本数据进行置信度筛选,可以包括:确定搜索得到的文本数据所属的至少一个网站;根据所属网站的置信度,对搜索得到的文本数据进行置信度筛选。
对于本申请实施例,可以利用网址信息来标识各个目标网站。在本申请实施例中,可以预先标注各个目标网站对应的网址信息的置信度,或者预先建立各个目标网站对应的网址信息与置信度之间的映射关系。
其中,目标网站为搜索时涉及的至少一个网站,网址信息可以包括统一资源定位符(Uniform Resource Locator,URL)、互联网协议地址(Internet Protocol Address,IP地址)以及域名地址中的至少一项。
例如,可以预先将政府、新闻媒体等网站的URL的置信度标注为3,百度、谷歌以及搜狗等网站的URL的置信度标注为2,八卦媒体、微博等网站的URL的置信度标注为1,或者,预先建立政府、新闻媒体等网站的URL与置信度3之间的映射关系,百度、谷歌以及搜狗等网站的URL与置信度2之间的映射关系,八卦媒体、微博等网站的URL与置信度1之间的映射关系。
需要说明的是,针对每一目标主实体搜索得到文本数据,其来自至少一个网站,任一个网站可以是目标网站,也可以不是目标网站。在本申请实施例中,可以基于各个文本数据对应的网址信息,确定各个文本数据所属的网站,具体的,可以基于预先标注的各个目标网站对应的网址信息的置信度,或者基于预先建立的各个目标网站对应的网址信息与置信度之间的映射关系,确定所属网站的置信度,并对搜索得到的文本数据进行置信度筛选。
例如,如果搜索得到的文本数据包括不同的网页数据、且不同网页数据作为不同的文本对象,则针对目标主实体S1搜索得到文本对象T1至T6,可以基于文本对象T1至T6各自对应的URL,确定文本对象T1至T6各自所属的网站,其中,文本对象T1-T3属于目标网站百度、文本对象T4和T5属于目标网站微博、文本对象T6属于非目标网站。则可以基于预先标注各个目标网站对应的网址信息的置信度,或者基于预先建立的各个目标网站对应的网址信息与置信度之间的映射关系,确定文本对象T1-T3所属的目标网站百度的置信度为2、文本对象T4和T5所属的目标网站微博的置信度为1、文本对象T6所属的非目标网站不存在其对应的置信度,并对文本对象T1至T6进行置信度筛选。
接下来,按照所属网站的置信度,对搜索得到的文本数据进行置信度筛选时,如果文本数据可以包括不同的网页数据、且不同网页数据作为不同的文本对象,则可以按照所属网站的置信度的大小顺序,选择排序在前的预设数量的文本对象,作为满足第一置信度要求的文本数据,或者,选择所属网站的置信度大于预设置信度阈值的文本对象,作为满足第一置信度要求的文本数据。
例如,文本对象T1-T3所属的目标网站百度的置信度为2、文本对象T4和T5所属的目标网站微博的置信度为1、文本对象T6所属的非目标网站不存在其对应的置信度。在此基础上,假设按照所属网站的置信度的大小顺序,选择排序在前的四个文本数据,作为满足第一置信度要求的文本数据,则选择文本对象T1-T4或者T1-T3、T5作为满足第一置信度要求的文本数据;假设选择所属网站的置信度大于预设置信度阈值1的文本数据,作为满足第一置信度要求的文本数据,则选择文本对象T1-T3作为满足第一置信度要求的文本数据。
可以理解的是,本申请实施例对搜索得到的文本数据进行置信度筛选,以得到目标文本集,由于构成目标文本集的数据来自网络的真实语料,且保证了数据的丰富度,后续利用目标文本集得到训练样本集,并利用训练样本集对模型进行训练时,有助于模型学习多样化语料,增大模型的识别范围。
在本申请实施例的一种可能实现方式中,步骤S103“从目标文本集中选取至少一个第一文本单元”,具体可以包括:对于每一目标主实体,若目标文本集中包括该目标主实体的相关文本数据,则将该相关文本数据进行拆分,得到各个待校验文本单元;对于每一待校验文本单元,根据该目标主实体的在目标知识图谱中的目标属性,确定该待校验文本单元是否为第一文本单元。
可以理解的是,分别获取各个目标主实体的相关文本数据,构成目标文本集,当各个目标主实体均可以获取到各自的相关文本数据时,目标文本集中可以包括全部目标主实体的相关文本数据,当某个或者某几个目标主实体无法获取到各自的相关文本数据时,目标文本集中可以包括部分目标主实体的相关文本数据。
例如,针对图3中的目标主实体S1以及目标主实体S2,当目标主实体S1无法获取到其相关文本数据时,目标文本集中包括目标主实体S2的相关文本数据。
对于本申请实施例,针对每一目标主实体的相关文本数据,可以包括一个或多个网页数据,任一个网页数据可以为句子、也可以为由句子组成的段落、还可以为文档等。在本申请实施例中,可以对任一个相关文本数据进行拆分,得到各个待校验文本单元,例如,当某目标主实体的相关文本数据包括“XX的妻子是YY,他们的女儿是ZZ”时,可以将其拆分为待校验文本单元“XX的妻子是YY”,以及待校验文本单元“他们的女儿是ZZ”。
然后,对于每一待校验文本单元,可以根据该目标主实体的在目标知识图谱中的目标属性,确定该待校验文本单元是否为第一文本单元。
其中,在目标知识图谱中,任一目标主实体对应至少一个属性,可以从任一目标主实体对应的属性中选择至少一个,作为该任一目标主实体的目标属性,例如图3中,目标主实体S1对应属性P11以及属性P12,可以选择属性P11为目标主实体S1的目标属性,或者,选择属性P12为目标主实体S1的目标属性,或者,选择属性P11以及属性P12分别作为目标主实体S1的目标属性。
对于本申请实施例,可以确定该待校验文本单元中是否存在目标属性,或者目标属性的子集,或者目标属性的同义词等,当存在时,确定该待校验文本单元为第一文本单元;当不存在时,该待校验文本单元不为第一文本单元。
例如,针对待校验文本单元“XX的妻子是YY”,其目标主实体为XX。针对该待校验文本单元,存在以下三种情况:
情况1:假设目标主实体在目标知识图谱中的目标属性为“妻子”,则针对该待校验文本单元,由于“XX的妻子是YY”中存在目标属性“妻子”,因此,可以确定“XX的妻子是YY”为第一文本单元;
情况2:假设目标主实体在目标知识图谱中的目标属性为“夫妻”,则针对该待校验文本单元,由于“XX的妻子是YY”中存在目标属性“夫妻”的子集“妻子”,因此,可以确定“XX的妻子是YY”为第一文本单元;
情况3:假设目标主实体在目标知识图谱中的目标属性为“老婆”,则针对该待校验文本单元,由于“XX的妻子是YY”中存在目标属性“老婆”的同义词“妻子”,因此,可以确定“XX的妻子是YY”为第一文本单元。
作为一种具体实现方式,根据该目标主实体的在目标知识图谱中的目标属性,确定该待校验文本单元是否为第一文本单元,可以包括:确定该待校验文本单元中是否存在至少一个第一属性;若存在至少一个第一属性、或同时存在至少一个第一属性以及目标知识图谱中的与每一第一属性对应的目标从实体,则将该待校验文本单元作为一个第一文本单元。
其中,第一属性为该目标主实体的一个目标属性、或该目标主实体的一个目标属性的同义词、或该目标主实体的一个目标属性的子集元素。
对于本申请实施例,可以基于第一属性是否存在,采用以下两种方式之一确定待校验文本单元是否可以作为一个第一文本单元。
在第一种方式中,待校验文本单元中可以存在至少一个第一属性,当该待校验文本单元中存在至少一个第一属性时,可以将该待校验文本单元作为一个第一文本单元。
例如,待校验文本单元可以为“XX的妻子是YY,他们的女儿是ZZ”,其中,目标知识图谱中的该目标主实体为“XX”,该目标主实体的目标属性为“老婆”和“女儿”,由于“XX的妻子是YY,他们的女儿是ZZ”中包括第一属性“妻子”(即目标属性的同义词)和第一属性“女儿”(即目标属性),因此,将“XX的妻子是YY,他们的女儿是ZZ”确定为一个第一文本单元。
在第二种方式中,待校验文本单元中可以存在至少一个第一属性,当该待校验文本单元中存在至少一个第一属性,且该待校验文本单元中存在目标知识图谱中的与每一第一属性对应的目标从实体,可以将该待校验文本单元作为一个第一文本单元。
需要说明的是,第一属性为目标主实体的一个目标属性、或目标主实体的一个目标属性的同义词、或目标主实体的一个目标属性的子集元素,即每一第一属性均存在其对应的目标属性,因此,每一第一属性对应的目标从实体,即为每一第一属性对应的目标属性、所对应的目标从实体。
例如,若图3中目标属性P22的同义词为第一属性为P22’、目标属性P22的一个子集元素为第一属性为P22”,则第一属性P22’对应的目标从实体、以及第一属性P22”对应的目标从实体,均为目标属性P22对应的目标从实体。
对于任一目标属性,该任一目标属性在知识图谱中对应一个或多个从实体,目标从实体为任一目标属性对应的从实体中的至少一个,如图3中,目标属性P22在知识图谱中对应从实体O221和从实体O222,目标从实体为从实体O221,或者从实体O222,或者从实体O221和从实体O222。
作为一示例,待校验文本单元可以为“XX的妻子是YY,他们的女儿是ZZ”,其中,目标知识图谱中的该目标主实体为“XX”,该目标主实体的目标属性为“老婆”和“女儿”,目标属性“老婆”的目标从实体为“YY”,目标属性“女儿”的目标从实体为“ZZ”。由于“XX的妻子是YY,他们的女儿是ZZ”中包括第一属性“妻子”(即目标属性的同义词),以及第一属性“妻子”对应的目标从实体“YY”,因此,将“XX的妻子是YY,他们的女儿是ZZ”确定为一个第一文本单元。
需要说明的是,当待检验文本单元同时存在至少一个第一属性以及目标知识图谱中的与每一第一属性对应的目标从实体,则将该待校验文本单元作为一个第一文本单元时,第一文本单元中可以包括目标知识图谱中的至少一个目标主实体、该目标主实体的至少一个目标属性(或该目标属性的同义词、或该目标属性的子集元素)、以及这里每一目标属性的至少一个目标从实体,即第一文本单元中可以包括至少一个目标三元组,任一个目标三元组由第一文本单元中包括的一个目标主实体、这个目标主实体的一个目标属性、以及这个目标属性的一个目标从实体构成。因此,可以建立各个第一文本单元与其包含的各个三元组之间的映射关系,即构成<第一文本单元,[SPO]>,其中,[SPO]表示三元组集合。
例如,针对第一文本单元:XX的妻子是YY,他们的女儿是ZZ,可以建立该第一文本单元与三元组<XX,老婆,YY>以及<XX,女儿,ZZ>之间的映射关系。
需要说明的是,建立各个第一文本单元与其包含的各个目标属性之间的映射关系,或者建立各个第一文本单元与其包含各个三元组之间的映射关系,即为对第一文本单元进行自动化标注,以利用第一文本单元得到训练样本集,利用训练样本集得到训练好的属性抽取模型。
其中,针对上述两种方式,均可以先对待校验文本单元进行置信度判断,再确定待检验文本单元是否可以作为第一文本单元,具体地:
本申请实施例的一种可能实现方式(实现方式A),若待校验文本单元中存在至少一个第一属性、或同时存在至少一个第一属性以及目标知识图谱中的与每一第一属性对应的目标从实体之后,还可以包括:确定该待校验文本单元是否满足第二置信度要求;若是,则将该待校验文本单元作为一个第一文本单元;若否,则不将该待校验文本单元作为一个第一文本单元。
其中,待校验文本单元是否满足第二置信度要求,可以为待校验文本单元对应的置信度是否大于第二置信度。
对于本申请实现方式,下面提供了两种实现情况:
实现情况一:利用各个目标主实体分别进行相关度搜索,得到满足相关度要求的文本数据,构成目标文本集,对目标文本集中包括任一目标主实体的相关文本数据进行拆分,得到各个待校验文本单元,针对每一待校验文本单元,执行上述本申请实现方式A的步骤,可以确保来自待校验文本单元的准确性,使得利用满足第二置信度要求的待校验文本单元(即第一文本单元)训练得到属性抽取模型,能更准确的进行属性抽取。
实现情况二:利用各个目标主实体分别进行相关度搜索,得到满足相关度要求的文本数据,对搜索得到的文本数据进行置信度筛选,得到满足第一置信度要求的文本数据,构成目标文本集,可以初步确保文本数据的准确性,进一步地,对目标文本集中包括任一目标主实体的相关文本数据进行拆分,得到各个待校验文本单元。针对任一待校验文本单元中存在至少一个第一属性、或同时存在至少一个第一属性以及目标知识图谱中的与每一第一属性对应的目标从实体的条件,当满足该条件的待校验文本单元的数量大于预设数量阈值时,可以针对每一待校验文本单元,执行上述本申请实现方式A的步骤,可以在确保待校验文本单元的数量较为丰富的同时,进一步确保来自待校验文本单元的准确性,使得利用满足第二置信度要求的待校验文本单元(即第一文本单元)训练得到属性抽取模型,能更准确的进行属性抽取。
其中,在实现情况二中,第一置信度小于第二置信度。
对于本申请实施例,确定该待校验文单元是否满足第二置信度要求,可以包括:确定将该待校验文本单元所属的网站;根据所属网站的置信度,确定该待校验文本单元是否满足第二置信度要求。
针对实现情况一:任一待校验文本单元是对搜索得到的相关文本数据进行拆分得到的,因此,任一待校验文本单元来源于网站,任一待校验文本单元所属的网站可以是目标网站,也可以不是目标网站。
其中,可以基于任一待检验文本单元对应的网址信息,确定任一待检验文本单元所属的网站,基于预先标注的各个目标网站对应的网址信息的置信度,或者基于预先建立的各个目标网站对应的网址信息与置信度之间的映射关系,确定所属网站的置信度,根据所属网站的置信度,确定该待校验文本单元是否满足第二置信度要求。
例如,可以基于待校验文本单元对应的URL,确定该待校验文本单元属于目标网站百度,基于预先标注的各个目标网站对应的网址信息的置信度,或者基于预先建立的各个目标网站对应的网址信息与置信度之间的映射关系,确定百度的置信度为2,假设第二置信度为1,则由于百度的置信度2大于第二置信度1,因此,确定该待校验文本单元满足第二置信度要求。
针对实现情况二:任一待校验文本单元是对搜索得到的、满足第一置信度要求的相关文本数据进行拆分得到的,因此,任一待校验文本单元来源于目标网站。
其中,针对实现情况二中“确定该待校验文单元是否满足第二置信度要求”步骤的相关说明,可以详见上述有关实现情况一中对该步骤的相关说明,在此不再赘述。
下面将介绍本申请上述“对一个目标主实体的相关文本数据进行拆分,得到各个待校验文本单元之后”的实现方式。
在本申请实施例的一种可能实现方式中,当对一个目标主实体的相关文本数据进行拆分,得到各个待校验文本单元之后,还可以包括:对于每一待校验文本单元,若该待校验文本单元中不包含该目标主实体,则为该待校验文本单元增加该目标主实体。
可以理解的是,由于对每一目标主实体的相关文本数据进行拆分,可以得到各个待校验文本单元,因此,待校验文本单元中可能存在目标主实体,也可能不存在目标主实体。
例如,当目标主实体“XX”的相关文本数据为“XX的妻子是YY,他们的女儿是ZZ”时,对该相关文本数据进行拆分,可以得到待校验文本数据“XX的妻子是YY”,以及待校验文本数据“他们的女儿是ZZ”。其中,待校验文本数据“XX的妻子是YY”中存在目标主实体“XX”,待校验文本数据“他们的女儿是ZZ”中不存在目标主实体。
对于本申请实施例,针对每一待校验文本单元,若该待校验文本单元中不包含该目标主实体,则可以按照预设格式为该待校验文本单元增加该目标主实体。
作为一优选实例,可以按照预设格式,在待校验文本单元的句首增加目标主实体,并将增加的目标主实体与待校验文本单元用“,”分割,例如,针对待校验文本数据“他们的女儿是ZZ”,为该待校验文本数据增加目标主实体“XX”后,待校验文本数据变为“XX,他们的女儿是ZZ”。
本申请实施例的另一种可能实现方式,训练样本集还可以包括至少一个第二文本单元。
其中,任一个第二文本单元是按照预设生成模式生成的文本单元,第二文本单元包含目标知识图谱中的一个三元组信息。
对于本申请实施例,可以基于目标知识图谱中的一个三元组信息,按照预设生成模式生成第二文本单元。
作为一示例,针对三元组<S,P,O>,其预设生成模式可以为“[S]的[P]为[O]”的模式。
例如,针对三元组<XX,籍贯,广东新会>,可以按照“[S]的[P]为[O]”的模式,生成第二文本单元:[XX]的[籍贯]为[广东新会]。
需要说明的是,可以基于目标知识图谱中的三元组信息,以及各个第一文本单元,确定满足预设属性信息条件的三元组信息,针对每一个满足预设属性信息条件的三元组信息,可以按照预设生成模式生成第二文本单元。
其中,该满足预设属性信息条件的三元组信息,可以为各个第一文本单元中均不存在的目标属性、所对应的三元组信息,以保证每一个目标属性,均存在其对应的第一文本单元或者第二文本单元。
另外,该满足预设属性信息条件的三元组信息还可以为:当某一目标属性的第一文本单元的数量小于预设数量阈值时,确定该目标属性所对应的三元组信息为满足预设属性信息条件的三元组信息,以保证每一个目标属性,均存在较为丰富的文本单元(第一文本单元和/或第二文本单元)。
在本申请实施例中,当获取到训练样本集后,需要对初始构建的属性抽取模型进行训练,利用损失函数训练得到属性抽取模型,属性抽取模型的训练阶段所使用的损失函数包括第一系数和第二系数。
其中,属性抽取模型在每一轮训练时使用目标文本集中的一个文本单元作为训练文本,第一系数表征了模型预测输出的训练文本包含的属性信息的准确性,第二系数表征了正例样本中所包含的属性信息的标注缺失程度。
对于本申请实施例,属性抽取模型可以为N分类模型,N大于等于2。作为一示例,属性抽取模型可以为交叉熵预测模型。
在训练属性抽取模型时,需要进行多轮训练,在每一轮训练时,属性抽取模型的输入为训练样本集中的一个文本单元(如上述第一文本单元或第二文本单元),作为当前轮的训练文本,其中,该训练文本中不包含某目标主实体的N个实际属性中的任一个(即负例样本),或者该训练文本包含某目标主实体的N个实际属性中的至少一个(即正例样本)。
属性抽取模型的输出为N个概率值,分别对应属性1至属性N。
对于本申请实施例,属性抽取模型的损失函数对应的公式如下所示:
αi=signal((yi-0.5)(ti-0.5))
其中,αi表示第i个属性的信号函数值,当(yi-0.5)与(ti-0.5)为异号,即二者的乘积为负数时,αi小于0,当(yi-0.5)与(ti-0.5)为同号,即二者的乘积为正数时,αi大于0;yi表示预先标注的训练文本包含第i个属性的预测概率值,yi为0至1之间的任意值(包括0或者1);ti表示预先标注的训练文本包含第i个属性的真实概率值,ti为0或者1;N表示模型对应的属性数量(即分类数量);i为序列号,其值可以为正整数。
βi表示第一系数,用于选择第i个属性是否纳入损失计算,当第i个属性的αi小于0时,第i个属性才会纳入损失计算;当第i个属性的αi大于0时,第i个属性不会纳入损失计算。由于αi小于0,即(yi-0.5)与(ti-0.5)的乘积为负数,表明针对第i个属性,模型输出的预测概率值yi远离真实概率值ti,即模型输出的训练文本包含的属性信息是不准确的;αi大于0,即(yi-0.5)与(ti-0.5)的乘积为正数,表明针对第i个属性,模型输出的预测概率值yi趋近真实概率值ti,即模型输出的训练文本包含的属性信息是准确,因此,βi用于表征了模型预测输出的训练文本包含的属性信息的准确性。
λ表示第二系数,λ用于表征正例样本中所包含的属性信息的标注缺失程度。在实际应用中,任一正例训练样本可能存在至少两个属性信息,而该正例训练样本仅标注了至少两个属性信息中的部分属性信息,如正例训练样本“XX的妻子是YY,他们的女儿是ZZ”中实际存在属性信息“妻子”以及“女儿”,而该正例训练样本中可能仅标注了属性信息“妻子”或者属性信息“女儿”。
本申请实施例中,可以依据现有经验预先设置λ值,通常情况下,可以设置λ值为0.5,利用λ值为0.5的损失函数训练得到属性抽取模型;还可以在训练过程中优化λ值,以优化损失函数,从而利用优化后的损失函数训练得到属性抽取模型,其中,可以在训练过程中多次优化λ值,其优化次数在本申请实施例中不做限定。
作为一种可选的实现方式,可以在每利用预设数量的训练样本训练模型后,计算训练后的模型的平衡F分数(balanced F Score),根据平衡F分数确定λ值。其中,平衡F分数是统计学中用来衡量模型精确度的一种指标,通常是利用模型的精确率和模型的召回率得到的调和平均数,可以设置精确率与召回率各自的权重,各权重的数值大小在本申请实施例中不做限定。
需要说明的是,当预先标注的训练文本中包含第i个属性时,ti为1,当预先标注的训练文本中不包含第i个属性时,ti为0。
作为一示例,假设属性抽取模型对应的属性数量为三个,分别为“妻子”、“子女”以及“丈夫”,且输入的文本单元为“XX的妻子是YY,他们的女儿是ZZ”,该文本单元中包括属性“妻子”以及属性“子女”,则针对该文本单元,属性抽取模型分别输出“妻子”、“子女”以及“丈夫”各自对应的概率值,在计算损失函数时,“妻子”以及“子女”对应的ti为1、“丈夫”对应的ti为0。
对于本申请实施例,属性抽取模型的损失函数中存在第一系数,用于表征模型预测输出的训练文本包含的属性信息的准确性,提高模型预测的精确度;损失函数中存在第二系数,用于表征正例样本中所包含的属性信息的标注缺失程度,可以调节正例样本中因标注缺失所造成的影响,以提升模型预测的精确度。
上述实施例详细介绍了本申请的属性抽取方法,下述将提供一个较为完整的示例,以辅助解释说明本申请的具体实现方式,具体如下所示:
如图4所示,图4为本申请实施例提供的一种属性抽取方法的框架示意图。本申请实施例所提供的框架示意图包括两部分,第一部分为基于目标知识图谱得到训练样本集,并利用训练样本集训练属性抽取模型的过程,第二部分为利用训练好的属性抽取模型,对待处理文本进行属性抽取的过程,下面将针对这两个部分分别进行详细描述。
针对第一部分,可以基于目标知识图谱,确定目标知识图谱中各个目标主实体的三元组信息,任一目标主实体对应至少一个三元组信息。
其中,针对任一个目标主实体的三元组信息,可以利用目标主实体S,在网页中进行相关度搜索,得到目标主实体S的目标文本集,基于目标主实体S的目标文本集,以及目标主实体的三元组信息中的、目标属性P以及目标从实体O进行数据校验,以实现从目标文本集中选取关于目标主实体S的第一文本单元,之后,可以针对第一文本单元中不存在的目标属性P、所对应的三元组信息进行数据生成,以实现利用目标属性P所对应的三元组信息得到第二文本单元。
进一步地,基于第一文本单元、或者第一文本单元和第二文本单元构成训练样本集,利用训练样本集训练得到属性抽取模型,其中,在利用训练样本集训练得到属性抽取模型时,可以先对训练样本集进行特征提取,得到文本特征信息,再利用文本特征信息训练得到属性抽取模型。
针对第二部分,可以利用训练得到的属性抽取模型,对待处理文本进行属性抽取,得到待处理文本包含的至少一个属性信息,其中,利用训练得到的属性抽取模型,对待处理文本进行属性抽取时,可以先对待处理文本进行特征提取,得到文本特征信息,再将文本特征信息输入至训练得到的属性抽取模型进行属性抽取。
进一步地,如图5所示,图5为本申请实施例提供的一种属性抽取方法的应用流程示意图。其中,利用训练得到的属性抽取模型,对待处理文本进行属性抽取,待处理文本包含的至少一个属性信息之后,还可以基于该至少一个属性信息,对待处理文本进行实体抽取,得到至少一个实体对,其中,任一个属性信息可以对应存在至少一个实体对,也可以不存在实体对,一个实体对中包括一个主实体以及一个从实体。
进一步地,基于各个属性信息以及各自对应的实体对,进行三元组生成,得到至少一个三元组信息,进一步基于至少一个三元组信息构建知识图谱。
例如,针对待处理文本:刘的老婆是朱,他们的孩子是慧,假设训练好的属性抽取模型对应的属性数量有十个,分别为:妻子、丈夫、子女、姐妹、兄弟、爷爷、奶奶、秘书、司机以及上司。则利用训练得到的属性抽取模型,对该待处理文本进行属性抽取时,可以得到属性信息:妻子、丈夫以及子女。
进一步地,可以基于属性信息“妻子”对待处理文本进行实体抽取,得到实体对<刘,朱>;基于属性信息“丈夫”对待处理文本进行实体抽取,得到实体对<朱,刘>;基于属性信息“子女”对待处理文本进行实体抽取,得到实体对<刘,慧>和实体对<朱,慧>。
进一步地,可以基于属性信息“妻子”以及其对应的实体对<刘,朱>,得到三元组信息<刘,妻子,朱>;可以基于属性信息“丈夫”以及其对应的实体对<朱,刘>,得到三元组信息<朱,丈夫,刘>;可以基于属性信息“子女”以及其对应的实体对<刘,慧>、实体对<朱,慧>,分别得到三元组信息<刘,子女,慧>、三元组信息<朱,子女,慧>。
再进一步地,基于上述三元组信息<刘,妻子,朱>、三元组信息<朱,丈夫,刘>、三元组信息<刘,子女,慧>、三元组信息<朱,子女,慧>,构建知识图谱。
上述从方法步骤的角度具体阐述了属性抽取方法,下面从虚拟模块或者虚拟单元的角度介绍属性抽取装置,具体如下所示:
本申请实施例提供了一种属性抽取装置,如图6所示,该属性抽取装置60可以包括:第一获取模块601、属性抽取模块602以及第二获取模块603,其中,
第一获取模块601,用于获取待处理文本。
属性抽取模块602,用于利用预先训练好的属性抽取模型对待处理文本进行属性抽取,得到待处理文本包含的至少一个属性信息,属性抽取模型的训练样本集包括至少一个第一文本单元。
第二获取模块603,用于获取至少一个第一文本单元。
其中,第二获取模块603可以包括:第一选取单元6031、获取单元6032以及第二选取单元6033,其中,
第一选取单元6031,用于选取目标知识图谱中的至少一个主实体,分别作为目标主实体。
获取单元6032,用于分别获取各个目标主实体的相关文本数据,构成目标文本集。
第二选取单元6033,用于从目标文本集中选取至少一个第一文本单元,任一个第一文本单元包含一个目标主实体的至少一个目标属性,目标属性为对应目标主实体的在目标知识图谱中的一个属性信息。
本申请实施例的另一种可能实现方式,获取单元6032具体用于:利用各个目标主实体分别进行相关度搜索,得到满足相关度要求的文本数据,构成目标文本集。
本申请实施例的另一种可能实现方式,获取单元6032具体用于:利用各个目标主实体分别进行相关度搜索,得到满足相关度要求的文本数据;对搜索得到的文本数据进行置信度筛选,得到满足第一置信度要求的文本数据,构成目标文本集。
本申请实施例的另一种可能实现方式,获取单元6032在对搜索得到的文本数据进行置信度筛选时,具体用于:确定搜索得到的文本数据所属的至少一个网站;根据所属网站的置信度,对搜索得到的文本数据进行置信度筛选。
本申请实施例的另一种可能实现方式,第二选取单元6033具体用于:对于每一目标主实体,当目标文本集中包括该目标主实体的相关文本数据,则将该相关文本数据进行拆分,得到各个待校验文本单元;对于每一待校验文本单元,根据该目标主实体的在目标知识图谱中的目标属性,确定该待校验文本单元是否为第一文本单元。
本申请实施例的另一种可能实现方式,第二选取单元6033在根据该目标主实体的在目标知识图谱中的目标属性,确定该待校验文本单元是否为第一文本单元时,具体用于:确定该待校验文本单元中是否存在至少一个第一属性,其中,第一属性为该目标主实体的一个目标属性、或该目标主实体的一个目标属性的同义词、或该目标主实体的一个目标属性的子集元素;当存在至少一个第一属性、或同时存在至少一个第一属性以及目标知识图谱中的与每一第一属性对应的目标从实体,则将该待校验文本单元作为一个第一文本单元。
本申请实施例的另一种可能实现方式,第二选取单元在当存在至少一个第一属性、或同时存在至少一个第一属性以及所述目标知识图谱中的与每一第一属性对应的目标从实体,则将该待校验文本单元作为一个第一文本单元时,具体用于:当存在至少一个第一属性、或同时存在至少一个第一属性以及目标知识图谱中的与每一第一属性对应的目标从实体,确定该待校验文本单元是否满足第二置信度要求;当是,则将该待校验文本单元作为一个第一文本单元。
本申请实施例的另一种可能实现方式,第二选取单元在确定该待校验文本单元是否满足第二置信度要求时,具体用于:确定将该待校验文本单元所属的网站;根据所属网站的置信度,确定该待校验文本单元是否满足第二置信度要求。
本申请实施例的另一种可能实现方式,第二选取单元还用于:
对于每一待校验文本单元,当该待校验文本单元中不包含该目标主实体,则为该待校验文本单元增加该目标主实体。
本申请实施例的另一种可能实现方式,训练样本集还包括至少一个第二文本单元;其中,任一个第二文本单元是按照预设生成模式生成的文本单元,第二文本单元包含目标知识图谱中的一个三元组信息。
本申请实施例的另一种可能实现方式,利用损失函数训练得到属性抽取模型,属性抽取模型的训练阶段所使用的损失函数包括第一系数和第二系数;其中,属性抽取模型在每一轮训练时使用目标文本集中的一个文本单元作为训练文本,第一系数表征了模型预测输出的训练文本包含的属性信息的准确性,第二系数表征了正例样本中所包含的属性信息的标注缺失程度。
对于本申请实施例,第一获取模块601与第二获取模块603可以为同一个获取模块,也可以为两个不同的获取模块,第一选取单元6031与第二选取单元6033可以为同一个选取单元,也可以为两个不同的选取单元,在此不做限定。
本实施例的属性抽取装置60可执行本申请上述任一方法实施例所示的属性抽取方法,其实现原理相类似,此处不再赘述。
本申请实施例提供了一种属性抽取装置,本申请实施例利用预先训练好的属性抽取模型对待处理文本进行属性抽取,得到待处理文本包含的至少一个属性信息。其中,属性抽取模型的训练样本集包括至少一个第一文本单元,在获取各个第一文本单元时,可以选取目标知识图谱中的全部或部分主实体,并将选取的每一主实体作为目标主实体,然后,分别以每一目标主实体为对象,获取每一目标主实体的相关文本数据,由于每一相关文本数据包括对对应的目标主实体的相关描述,因此,可以基于目标知识图谱中的该目标主实体及其属性信息,从这些相关描述中挖掘出一个或多个第一文本单元,使每一第一文本单元包含目标主实体的属性信息且这些属性信息属于目标知识图谱,即,利用目标知识图谱自动标注出文本中的属性信息,而不必采用人工标注,从而减少了对人力与物力的消耗,进而降低了成本。
上述从虚拟模块或者虚拟单元的角度介绍本申请的属性抽取装置,下面从实体装置的角度介绍本申请的电子设备。
本申请实施例提供了一种电子设备,如图7所示,图7所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI总线或EISA总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
本申请实施例提供了一种电子设备,本申请实施例中的电子设备包括:存储器和处理器;至少一个程序,存储于所述存储器中,用于被所述处理器执行时,可实现:本申请实施例利用预先训练好的属性抽取模型对待处理文本进行属性抽取,得到待处理文本包含的至少一个属性信息。其中,属性抽取模型的训练样本集包括至少一个第一文本单元,在获取各个第一文本单元时,可以选取目标知识图谱中的全部或部分主实体,并将选取的每一主实体作为目标主实体,然后,分别以每一目标主实体为对象,获取每一目标主实体的相关文本数据,由于每一相关文本数据包括对对应的目标主实体的相关描述,因此,可以基于目标知识图谱中的该目标主实体及其属性信息,从这些相关描述中挖掘出一个或多个第一文本单元,使每一第一文本单元包含目标主实体的属性信息且这些属性信息属于目标知识图谱,即,利用目标知识图谱自动标注出文本中的属性信息,而不必采用人工标注,从而减少了对人力与物力的消耗,进而降低了成本。
上述从实体装置的角度介绍本申请的电子设备,下面从存储介质的角度介绍本申请的计算机可读存储介质。
本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,当其在计算机上运行时,使得计算机可以执行前述方法实施例中相应内容。本申请实施例利用预先训练好的属性抽取模型对待处理文本进行属性抽取,得到待处理文本包含的至少一个属性信息。其中,属性抽取模型的训练样本集包括至少一个第一文本单元,在获取各个第一文本单元时,可以选取目标知识图谱中的全部或部分主实体,并将选取的每一主实体作为目标主实体,然后,分别以每一目标主实体为对象,获取每一目标主实体的相关文本数据,由于每一相关文本数据包括对对应的目标主实体的相关描述,因此,可以基于目标知识图谱中的该目标主实体及其属性信息,从这些相关描述中挖掘出一个或多个第一文本单元,使每一第一文本单元包含目标主实体的属性信息且这些属性信息属于目标知识图谱,即,利用目标知识图谱自动标注出文本中的属性信息,而不必采用人工标注,从而减少了对人力与物力的消耗,进而降低了成本。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
Claims (9)
1.一种属性抽取方法,其特征在于,包括:
获取待处理文本;
利用预先训练好的属性抽取模型对所述待处理文本进行属性抽取,得到所述待处理文本包含的至少一个属性信息,所述属性抽取模型的训练样本集包括至少一个第一文本单元;
其中,按照下述方式获取所述至少一个第一文本单元:
选取目标知识图谱中的至少一个主实体,分别作为目标主实体;
分别获取各个目标主实体的相关文本数据,构成目标文本集;
从所述目标文本集中选取至少一个第一文本单元,任一个所述第一文本单元包含一个目标主实体的至少一个目标属性,所述目标属性为对应目标主实体的在所述目标知识图谱中的一个属性信息;
其中,所述训练样本集还包括至少一个第二文本单元;其中,任一个所述第二文本单元是按照预设生成模式生成的文本单元,所述第二文本单元包含所述目标知识图谱中的一个三元组信息;
其中,按照预设生成模式生成第二文本单元的方式,包括:
基于目标知识图谱中的三元组信息以及各个第一文本单元,确定满足预设属性信息条件的三元组信息,所述满足预设条件的三元组信息是目标属性所对应的三元组信息,并且该目标属性为数量小于预设数量阈值的第一文本单元所对应的属性;
针对每一个满足预设属性信息条件的三元组信息,按照预设生成模式生成第二文本单元。
2.根据权利要求1所述的方法,其特征在于,所述分别获取各个目标主实体的相关文本数据,构成目标文本集,包括:
利用各个目标主实体分别进行相关度搜索,得到满足相关度要求的文本数据;
对搜索得到的文本数据进行置信度筛选,得到满足第一置信度要求的文本数据,构成目标文本集。
3.根据权利要求1所述的方法,其特征在于,所述从所述目标文本集中选取至少一个第一文本单元,包括:
对于每一目标主实体,若所述目标文本集中包括该目标主实体的相关文本数据,则将该相关文本数据进行拆分,得到各个待校验文本单元;
对于每一待校验文本单元,根据该目标主实体的在所述目标知识图谱中的目标属性,确定该待校验文本单元是否为第一文本单元。
4.根据权利要求3所述的方法,其特征在于,所述根据该目标主实体的在所述目标知识图谱中的目标属性,确定该待校验文本单元是否为第一文本单元,包括:
确定该待校验文本单元中是否存在至少一个第一属性,其中,所述第一属性为该目标主实体的一个目标属性、或该目标主实体的一个目标属性的同义词、或该目标主实体的一个目标属性的子集元素;
若存在所述至少一个第一属性、或同时存在所述至少一个第一属性以及所述目标知识图谱中的与每一第一属性对应的目标从实体,则将该待校验文本单元作为一个第一文本单元。
5.根据权利要求4所述的方法,其特征在于,若存在所述至少一个第一属性、或同时存在所述至少一个第一属性以及所述目标知识图谱中的与每一第一属性对应的目标从实体之后,还包括:
确定该待校验文本单元是否满足第二置信度要求;
若是,则将该待校验文本单元作为一个第一文本单元。
6.根据权利要求1至5任一项所述的方法,其特征在于,利用损失函数训练得到所述属性抽取模型,所述属性抽取模型的训练阶段所使用的损失函数包括第一系数和第二系数;
其中,所述属性抽取模型在每一轮训练时使用所述目标文本集中的一个文本单元作为训练文本,所述第一系数表征了模型预测输出的所述训练文本包含的属性信息的准确性,所述第二系数表征了正例样本中所包含的属性信息的标注缺失程度。
7.一种属性抽取装置,其特征在于,包括:
第一获取模块,用于获取待处理文本;
属性抽取模块,用于利用预先训练好的属性抽取模型对所述待处理文本进行属性抽取,得到所述待处理文本包含的至少一个属性信息,所述属性抽取模型的训练样本集包括至少一个第一文本单元;
第二获取模块,用于获取所述至少一个第一文本单元,其中,所述第二获取模块包括:
第一选取单元,用于选取目标知识图谱中的至少一个主实体,分别作为目标主实体;
获取单元,用于分别获取各个目标主实体的相关文本数据,构成目标文本集;
第二选取单元,用于从所述目标文本集中选取至少一个第一文本单元,任一个所述第一文本单元包含一个目标主实体的至少一个目标属性,目标属性为对应目标主实体的在目标知识图谱中的一个属性信息;
其中,所述训练样本集还包括至少一个第二文本单元;其中,任一个所述第二文本单元是按照预设生成模式生成的文本单元,所述第二文本单元包含所述目标知识图谱中的一个三元组信息;
其中,所述第二获取模块,还用于获取至少一个第二文本单元,所述第二获取模块在按照预设生成模式生成第二文本单元时,具体用于:
基于目标知识图谱中的三元组信息以及各个第一文本单元,确定满足预设属性信息条件的三元组信息,所述满足预设条件的三元组信息是目标属性所对应的三元组信息,并且该目标属性为数量小于预设数量阈值的第一文本单元所对应的属性;
针对每一个满足预设属性信息条件的三元组信息,按照预设生成模式生成第二文本单元。
8.一种电子设备,其特征在于,其包括:
一个或多个处理器;
存储器;
一个或多个应用程序,其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序配置用于:执行根据权利要求1~6任一项所述的属性抽取方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1~6任一项所述的属性抽取方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010530359.5A CN111694967B (zh) | 2020-06-11 | 2020-06-11 | 属性抽取方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010530359.5A CN111694967B (zh) | 2020-06-11 | 2020-06-11 | 属性抽取方法、装置、电子设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111694967A CN111694967A (zh) | 2020-09-22 |
CN111694967B true CN111694967B (zh) | 2023-10-20 |
Family
ID=72480446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010530359.5A Active CN111694967B (zh) | 2020-06-11 | 2020-06-11 | 属性抽取方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111694967B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113609847B (zh) * | 2021-08-10 | 2023-10-27 | 北京百度网讯科技有限公司 | 信息抽取方法、装置、电子设备及存储介质 |
CN114595686B (zh) * | 2022-03-11 | 2023-02-03 | 北京百度网讯科技有限公司 | 知识抽取方法、知识抽取模型的训练方法及装置 |
CN117520568A (zh) * | 2024-01-04 | 2024-02-06 | 北京奇虎科技有限公司 | 知识图谱属性补全方法、装置、设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073711A (zh) * | 2017-12-21 | 2018-05-25 | 北京大学深圳研究生院 | 一种基于知识图谱的关系抽取方法和系统 |
CN110287334A (zh) * | 2019-06-13 | 2019-09-27 | 淮阴工学院 | 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 |
CN110619053A (zh) * | 2019-09-18 | 2019-12-27 | 北京百度网讯科技有限公司 | 实体关系抽取模型的训练方法和抽取实体关系的方法 |
CN110674637A (zh) * | 2019-09-06 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种人物关系识别模型训练方法、装置、设备及介质 |
CN110704547A (zh) * | 2019-09-26 | 2020-01-17 | 北京明略软件系统有限公司 | 基于神经网络的关系抽取数据生成方法、模型及训练方法 |
CN110852107A (zh) * | 2019-11-08 | 2020-02-28 | 北京明略软件系统有限公司 | 一种关系提取方法、装置、及存储介质 |
CN110909168A (zh) * | 2019-09-23 | 2020-03-24 | 腾讯科技(深圳)有限公司 | 知识图谱的更新方法和装置、存储介质及电子装置 |
CN110991185A (zh) * | 2019-11-05 | 2020-04-10 | 北京声智科技有限公司 | 一种文章中实体的属性抽取方法及装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10354188B2 (en) * | 2016-08-02 | 2019-07-16 | Microsoft Technology Licensing, Llc | Extracting facts from unstructured information |
CN109582799B (zh) * | 2018-06-29 | 2020-09-22 | 北京百度网讯科技有限公司 | 知识样本数据集的确定方法、装置及电子设备 |
-
2020
- 2020-06-11 CN CN202010530359.5A patent/CN111694967B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108073711A (zh) * | 2017-12-21 | 2018-05-25 | 北京大学深圳研究生院 | 一种基于知识图谱的关系抽取方法和系统 |
CN110287334A (zh) * | 2019-06-13 | 2019-09-27 | 淮阴工学院 | 一种基于实体识别和属性抽取模型的学校领域知识图谱构建方法 |
CN110674637A (zh) * | 2019-09-06 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种人物关系识别模型训练方法、装置、设备及介质 |
CN110619053A (zh) * | 2019-09-18 | 2019-12-27 | 北京百度网讯科技有限公司 | 实体关系抽取模型的训练方法和抽取实体关系的方法 |
CN110909168A (zh) * | 2019-09-23 | 2020-03-24 | 腾讯科技(深圳)有限公司 | 知识图谱的更新方法和装置、存储介质及电子装置 |
CN110704547A (zh) * | 2019-09-26 | 2020-01-17 | 北京明略软件系统有限公司 | 基于神经网络的关系抽取数据生成方法、模型及训练方法 |
CN110991185A (zh) * | 2019-11-05 | 2020-04-10 | 北京声智科技有限公司 | 一种文章中实体的属性抽取方法及装置 |
CN110852107A (zh) * | 2019-11-08 | 2020-02-28 | 北京明略软件系统有限公司 | 一种关系提取方法、装置、及存储介质 |
Non-Patent Citations (3)
Title |
---|
Shaohua Sun 等.Power Fault Preplan Text Information Extraction Based on NLP.IEEE.2019,第617-621页. * |
胡扬 ; 闫宏飞 ; 陈翀 ; .面向金融知识图谱的实体和关系联合抽取算法.重庆理工大学学报(自然科学).2020,(05),第139-149页. * |
黄培馨 ; 赵翔 ; 方阳 ; 朱慧明 ; 肖卫东 ; .融合对抗训练的端到端知识三元组联合抽取.计算机研究与发展.2019,(12),第2536-2548页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111694967A (zh) | 2020-09-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111222305B (zh) | 一种信息结构化方法和装置 | |
CN111694967B (zh) | 属性抽取方法、装置、电子设备及介质 | |
US7949643B2 (en) | Method and apparatus for rating user generated content in search results | |
CN108280114B (zh) | 一种基于深度学习的用户文献阅读兴趣分析方法 | |
CN111539197B (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
US9104780B2 (en) | System and method for natural language processing | |
US20170316519A1 (en) | Mutually reinforcing ranking of social media accounts and contents | |
CN105095444A (zh) | 信息获取方法和装置 | |
CN110929038A (zh) | 基于知识图谱的实体链接方法、装置、设备和存储介质 | |
CN105975639B (zh) | 搜索结果排序方法和装置 | |
US20180276210A1 (en) | Dynamic summary generator | |
US20170235836A1 (en) | Information identification and extraction | |
US11226969B2 (en) | Dynamic deeplinks for navigational queries | |
CN113515589B (zh) | 数据推荐方法、装置、设备以及介质 | |
WO2021007159A1 (en) | Identifying entity attribute relations | |
US20170235835A1 (en) | Information identification and extraction | |
Gupta et al. | Text analysis and information retrieval of text data | |
CN113157888A (zh) | 支持多知识来源的询问答复方法、装置和电子设备 | |
CN116680381A (zh) | 文档检索方法、装置、电子设备和存储介质 | |
CN105808761A (zh) | 一种基于大数据Solr网页排序优化方法 | |
CN114676775A (zh) | 样本信息标注方法、装置、设备、程序以及存储介质 | |
KR100621737B1 (ko) | 웹사이트 자동 분류방법 | |
CN113449165A (zh) | 搜索引擎优化方法、装置、设备及存储介质 | |
CN117407615B (zh) | 一种基于强化学习的Web信息抽取方法及系统 | |
CN110110193B (zh) | 一种信息处理方法、装置及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |