CN113495964B - 三元组的筛选方法、装置、设备及可读存储介质 - Google Patents

三元组的筛选方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN113495964B
CN113495964B CN202110465765.2A CN202110465765A CN113495964B CN 113495964 B CN113495964 B CN 113495964B CN 202110465765 A CN202110465765 A CN 202110465765A CN 113495964 B CN113495964 B CN 113495964B
Authority
CN
China
Prior art keywords
knowledge
candidate
triples
triplet
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110465765.2A
Other languages
English (en)
Other versions
CN113495964A (zh
Inventor
陈欢欢
王新
王翔宇
班泰瑜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202110465765.2A priority Critical patent/CN113495964B/zh
Publication of CN113495964A publication Critical patent/CN113495964A/zh
Application granted granted Critical
Publication of CN113495964B publication Critical patent/CN113495964B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Animal Behavior & Ethology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种三元组的筛选方法、装置、设备及可读存储介质,获取三元组库,在候选三元组中获取互斥三元组集合,获取各个互斥三元组的置信度,将互斥三元组集合中置信度高的互斥三元组,作为筛选结果。三元组库包括多个候选三元组以及候选三元组的信息源,候选三元组从属于候选三元组的信息源的文本数据中提取,互斥三元组集合中任意两个互斥三元组为表达的知识同时成立的概率等于0的候选三元组,由于,互斥三元组的置信度用于指示互斥三元组的信息源表达知识的概率,互斥三元组集合中置信度高的互斥三元组的准确度高,本方案依据互斥三元组的信息源表达知识的概率从互斥三元组集合中筛选三元组,提高了三元组的准确度。

Description

三元组的筛选方法、装置、设备及可读存储介质
技术领域
本申请涉及数据处理技术领域,尤其涉及一种三元组的筛选方法、装置、设备及可读存储介质。
背景技术
知识是信息接收者通过对信息的提炼和推理而获得的正确结论,是人对自然世界、人类社会以及思维方式与运动规律的认识与掌握,是人的大脑通过思维重新组合和、系统化的信息集合。知识图谱是依据三元组建立的结构化的语义知识库,可以用来描述事物以及事物间的相互联系。
三元组是最简单,应用最普遍的一种知识表达方式,三元组的格式为[第一实体-关系-第二实体],其中,第一实体和第二实体是具体事物的表达,关系指示第一实体和第二实体之间的联系,具体包括属性、类别、值等,例如,三元组1[李明-出生地-上海],其中“李明”是三元组1中的第一实体,“上海”是三元组1中的第二实体,“出生地”表示“李明”和“上海”的关系,所以,三元组1构成了知识图谱中的一条知识“李明的出生地是上海”。
在现有技术中,基于预设的规则在文本数据中提取三元组,显然实体的数量庞大,且实体间的关系复杂因此,现有技术提取的三元组的准确度低。
发明内容
本申请提供了一种三元组的筛选方法、装置、设备及可读存储介质,目的在于提高三元组的准确度,如下:
一种三元组的筛选方法,包括:
获取三元组库,所述三元组库包括多个候选三元组以及每一所述候选三元组的信息源,所述候选三元组从属于所述候选三元组的信息源的文本数据中提取;
在所述候选三元组中获取互斥三元组集合,所述互斥三元组集合由多个互斥三元组组成,任意两个所述互斥三元组为表达的知识同时成立的概率等于0的候选三元组;
获取所述互斥三元组的置信度,所述互斥三元组的置信度用于指示所述互斥三元组的信息源表达知识的概率;
将所述互斥三元组集合中置信度高的互斥三元组,作为筛选结果。
可选地,候选三元组的获取过程,包括:
获取待处理文本数据,所述待处理文本数据包括:以预设实体为搜索条件搜索得到的结果数据;
将所述待处理文本数据的各个文本片段输入至预先训练好的三元组预测模型,将所述三元组预测模型的输出作为候选三元组,所述三元组预测模型以第一样本文本片段为输入,以所述第一样本文本片段中的三元组为目标输出,训练得到。
可选地,所述获取待处理文本数据,包括:
获取候选文本数据,所述候选文本数据为以所述预设实体为搜索条件,搜索得到的排序前N的结果数据,N为预设数值;
获取各个所述候选文本数据的文本知识密度,所述候选文本数据的文本知识密度用于指示所述候选文本数据表达知识的概率,所述候选文本数据包括的动词越多,和/或所述候选文本数据包括的知识片段越多,所述候选文本数据的文本知识密度越大;
若所述候选文本数据的文本知识密度大于第一预设阈值,将所述候选文本数据作为所述待处理文本数据。
可选地,获取各个所述候选文本数据的文本知识密度,包括:
将所述候选文本数据的各个文本片段输入至预先训练好的知识预测模型,得到所述知识预测模型输出的知识预测结果;所述知识预测结果指示作为输入的文本片段是否属于知识片段,所述知识预测模型以第二样本文本片段为输入,以所述第二样本文本片段是否属于知识片段为目标输出,训练得到,所述第二样本文本片段的标注指示所述第二样本文本片段是否属于知识片段;
将第一数值和第二数值的比值作为所述候选文本数据的知识片段密度,所述第一数值为所述候选文本数据中属于知识片段的文本片段的数量,所述第二数值为所述候选文本数据中文本片段的总数量;
将第三数值和第四数值的比值作为所述候选文本数据的动词密度,所述第三数值为所述候选文本数据中的动词数量,所述第四数值为所述候选文本数据中的词总数量;
将所述候选文本数据的知识片段密度和所述候选文本数据的动词密度加权相加,得到所述候选文本数据的文本知识密度。
可选地,获取所述互斥三元组的置信度,包括:
依据目标数据的文本知识密度,获取目标信息源的信息源知识密度,所述目标数据为属于所述目标信息源的至少一条候选文本数据,所述目标数据的文本知识密度越大,所述目标信息源的信息源知识密度越大,所述目标信息源为所述互斥三元组的任一信息源;
依据所述目标数据的序位,获取所述目标信息源的信息源权威指数,所述序位为所述目标数据在所述以所述预设实体为搜索条件,搜索得到的结果数据中的排序,所述目标数据的序位越小,所述目标信息源的信息源权威指数越大;
将所述目标信息源的信息源知识密度和所述目标信息源的信息源权威指数乘积,作为所述目标信息源的置信度;
依据所述互斥三元组的每一信息源的置信度,获取所述互斥三元组的置信度,所述互斥三元组的置信度为所述互斥三元组的信息源的置信度的平均值,或,所述互斥三元组的信息源的置信度的最大值。
可选地,还包括:
将所述三元组库中,除所述互斥三元组集合以外的候选三元组作为筛选结果。
一种三元组的筛选装置,包括:
三元组获取单元,用于获取三元组库,所述三元组库包括多个候选三元组以及每一所述候选三元组的信息源,所述候选三元组从属于所述候选三元组的信息源的文本数据中提取;
互斥集合获取单元,用于在所述候选三元组中获取互斥三元组集合,所述互斥三元组集合由多个互斥三元组组成,任意两个所述互斥三元组为表达的知识同时成立的概率等于0的候选三元组;
置信度获取单元,用于获取所述互斥三元组的置信度,所述互斥三元组的置信度用于指示所述互斥三元组的信息源表达知识的概率;
第一筛选结果获取单元,用于将所述互斥三元组集合中置信度高的互斥三元组,作为筛选结果。
可选地,还包括:第二筛选结果获取单元,用于将所述三元组库中,除所述互斥三元组集合以外的候选三元组作为筛选结果。
一种三元组的筛选设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现三元组的筛选方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现三元组的筛选方法的各个步骤。
由上述技术方案可以看出,本申请实施例提供的三元组的筛选方法、装置、设备及可读存储介质,获取三元组库,在候选三元组中获取互斥三元组集合,获取各个互斥三元组的置信度,将互斥三元组集合中置信度高的互斥三元组,作为筛选结果。其中,三元组库包括多个候选三元组以及候选三元组的信息源,候选三元组从属于候选三元组的信息源的文本数据中提取,由于,互斥三元组集合由多个互斥三元组组成,任意两个互斥三元组为表达的知识同时成立的概率等于0的候选三元组,显然,互斥三元组集合中的互斥三元组中最多包括不准确的三元组,由于,互斥三元组的置信度用于指示互斥三元组的信息源表达知识的概率,也即,互斥三元组集合中置信度高的互斥三元组的准确度高,本方案依据互斥三元组的信息源表达知识的概率从互斥三元组集合中筛选三元组,得到的筛选结果的,提高了获取的三元组的准确度。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种三元组的筛选方法的具体实施方式的流程示意图;
图2为本申请实施例提供的一种文本知识密度的获取方法的具体实施方式的流程示意图;
图3为本申请实施例提供的一种置信度的获取方法的具体实施方式的流程示意图;
图4为本申请实施例提供的一种三元组的筛选方法的具体实施方式的流程示意图;
图5为本申请实施例提供的一种三元组的筛选装置的结构示意图;
图6为本申请实施例提供的一种三元组的筛选设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的一种三元组的筛选方法可以应用在但不限于知识图谱的构建流程。图1为本申请实施例提供的一种三元组的筛选方法的具体实现流程,如图1所示,具体可以包括:
S101、构建实体库。
本实施例中,实体库包括属于预设领域的实体(即预设实体),以医疗领域为例,构建医疗领域的实体库的一种可选的方法包括:
1、从属于医疗领域的书籍、词典、和文档报告中获取候选实体。
2、判断候选实体是否被任意预设网络百科作为词条收录,若是,将候选实体作为实体,构建实体库。若否,则舍弃候选实体。
需要说明的是,预设网络百科依据实际需要进行设置,例如,预设网络百科包括第一百科和第二百科。以候选实体为“蛋白质”,预设网络百科为第一百科为例,使用网络爬虫爬取第一百科中的所有词条,若词条包括“蛋白质”,则判断“蛋白质”被第一百科作为词条收录,进一步,将“蛋白质”作为实体存入实体库。
由上可见,本方案中得到实体库中的预设实体为在预设领域中的被作为词条收录的实体,满足专业性和客观性。
S102、在以实体为搜索条件的搜索结果中,获取候选文本数据和候选文本数据的信息源、以及候选文本数据的排序。
本实施例中,目标实体为实体库中的任意实体,目标实体的文本数据为至少包括目标实体的文本,信息源为文本数据的来源,例如来源网站。文本数据的排序指示作为搜索结果在所有搜索结果中的排序。
以目标实体为“蛋白质”为例,“蛋白质”的文本数据为论文A,论文A中出现至少一次“蛋白质”,信息源为收录论文A的网站,论文A作为的搜索结果在“蛋白质”的所有搜索结果中的排序为11。
本实施例中,获取目标实体的文本数据的方法包括:
获取预设搜索引擎以目标实体为搜索条件,搜索搜索条件得到的预设数量(以30条为例)的搜索结果和搜索结果所属的网站,并获取搜索结果中的文本,将文本作为目标实体的文本数据,将搜索结果所属的网站作为文本数据的信息源。
需要说明的是,按照本步骤获取每一实体的多条文本数据,以及每一文本数据的信息源。为便于描述,记实体的数量为W,任一实体(目标实体)记为Sw(w∈[1,W]),目标实体Sw的文本数据的数量为K,其中,将在搜索结果中排序第k的文本记为文本数据Cwk,其中k∈[1,K]。
S103、计算每一候选文本数据的文本知识密度。
本实施例中,文本知识密度指示文本数据包括三元组的概率,文本数据中的知识片段越多,和/或文本数据中动词越多,则文本数据的文本知识密度越大。其中,知识片段为包括知识的文本片段。
需要说明的是,计算每一候选文本数据的文本知识密度的方法参见下述实施例中图2所示的流程。
S104、将文本知识密度大于第一预设阈值的候选文本数据,作为待处理文本数据。
需要说明的是,候选文本数据的文本知识密度用于指示候选文本数据表达知识的概率,本方法将文本知识密度不大于第一预设阈值的候选文本数据舍弃,也即舍弃表达知识的概率较小的候选文本数据。提高了三元组提取效率。
需要说明的是,待处理文本数据为包括至少一个实体的文本数据,例如,待处理文本数据包括K个,其中,包括Sw的文本数据的数量为K’,也即Sw的K个文本数据中,有K’个文本数据的文本知识密度大于第一预设阈值。
S105、将待处理文本数据的各个文本片段输入至预先训练好的三元组预测模型,将三元组预测模型的输出作为候选三元组。
本实施例中,三元组预测模型以第一样本文本片段为输入,以第一样本文本片段中的三元组为目标输出,训练得到。三元组预测模型包括实体及关系抽取模型,实体及关系抽取模型的训练过程具体可以包括:
1、构建训练三元组库以及训练语料库。
本实施例中,依据实体库中的每一实体的百科词条构建每一实体的至少一个三元组,作为目标三元组。例如从“蛋白质”的百科词条的信息中获取三元组<蛋白质,属于,有机化合物>。
将同时包含目标三元组中的两个实体的文本片段作为第一样本文本片段,并将该目标三元组作为第一样本文本片段的标注。
2、对每一第一样本文本片段进行向量化,得到每一第一样本文本片段的向量表示。
本实施例中,第一样本文本片段的向量表示由第一样本文本片段的词向量和词性向量拼接得到。
3、以每一第一样本文本片段的向量表示作为输入,利用Bi-GRU对每一第一样本文本片段进行编码。
4、在经过编码后进行实体识别,即序列标注任务,利用BIO进行数据标注。B代表每个实体的开头,I代表每个实体的非开头部分,O代表这个字符不属于实体。对编码层的输出进行一个全连接以及softmax层得到每个部分的预测标签,并利用预测的实体作为labelembeddings输入下一个阶段。
5、利用Bi-GBU的编码以及label embeddings的拼接作为输入,利用一个全连接层以及softmax层对关系进行预测。
需要说明的是,本方案中使用预先训练好的机器学习模型提取待处理文本数据中的三元组,相对于利用规则提取三元组,避免由于规则数量和复杂度受限导致的三元组提取不准确,并且了,本方法中的训练数据无需人为标注,提高了训练的效率。
S106、从所有候选三元组中,获取互斥三元组集合。
本实施例中,互斥三元组集合由多个互斥三元组组成,任意两个互斥三元组为表达的知识同时成立的概率等于0的候选三元组。
可选的,互斥三元组集合包括多个互斥三元组的情况具体包括但不限于:
1、多个互斥三元组包括相同的第一实体和第二实体,但是不同互斥三元组指示的第一实体和第二实体的关系不同。例如,三元组A1为[李明,父子,李晓明],三元组A2为[李明,兄弟,李晓明],显然,三元组A1成立的情况下,三元组A2不成立。
2、多个互斥三元组包括相同的第一实体和关系,但是不同互斥三元组指示与第一实体具有该关系的第二实体不同。例如,三元组A3为[李明,出生地,上海],三元组A4为[李明,出生地,北京]。显然,三元组A3成立的情况下,三元组A4不成立。
3、多个互斥三元组包括相同的第二实体和关系,但是不同互斥三元组指示与第二实体具有该关系的第二实体不同。显然,三元组A5成立的情况下,三元组A6不成立。
需要说明的是,互斥三元组集合包括多个互斥三元组的情况包括但不限于上述三种。
S107、计算互斥三元组集合中每一互斥三元组的置信度。
图4示例了可选的一种计算互斥三元组的置信度的方法,具体参见下述实施例。
S108、比较互斥三元组集合中的互斥三元组的置信度,将置信度最大的互斥三元组作为结果三元组。
本实施例中,结果三元组也即三元组的筛选结果。以三元组A和三元组B为互斥三元组为例,三元组A的信息源包括a1~ak,三元组B的信息源包括b1~bm。
计算三元组A的信息源的置信度包括:Γa1~Γak,三元组A的置信度为max{Γa1、Γa2、...、Γak}。计算三元组B的信息源的置信度包括:Γb1~Γbk,三元组B的置信度为max{Γb1、Γb2、...、Γbm}。
当max{Γb1、Γb2、...、Γbm}大于max{Γa1、Γa2、...、Γak}时,将三元组B作为结果三元组,并舍弃三元组A。
S109、将除互斥三元组集合以外的候选三元组作为结果三元组。
需要说明的是,若候选三元组中不存在互斥三元组集合,则将所有候选三元组作为结果三元组即可。
S110、依据结果三元组构建知识图谱。
需要说明的是,构建知识图谱的具体方法参见现有技术。
由上述技术方案可以看出,由于互斥三元组集合由互斥三元组组成,且任意两个互斥三元组表达的知识同时成立的概率等于0,所以,同属于一个互斥三元组集合中,最多只有一个三元组是准确的,由于,互斥三元组的置信度用于指示互斥三元组表达知识的概率,可以理解的是,表达知识的概率越大则互斥三元组的准确度越高,所以,本方法将互斥三元组集合中置信度高的互斥三元组,作为筛选结果,筛选得到的三元组准确度高。
由上述技术方案可以看出,三元组库包括多个候选三元组以及候选三元组的信息源,候选三元组从属于候选三元组的信息源的文本数据中提取,由于,互斥三元组集合由多个互斥三元组组成,任意两个互斥三元组为表达的知识同时成立的概率等于0的候选三元组,显然,互斥三元组集合中的互斥三元组中最多包括不准确的三元组,由于,互斥三元组的置信度用于指示互斥三元组的信息源表达知识的概率,也即,互斥三元组集合中置信度高的互斥三元组的准确度高,本方案依据互斥三元组的信息源表达知识的概率从互斥三元组集合中筛选三元组,得到的筛选结果的,提高了获取的三元组的准确度,进一步提高了知识图谱的准确度。
图2为本申请实施例提供的一种获取任一候选文本数据的文本知识密度的具体实现流程,具体可以包括:
S201、将候选文本数据进行分割,得到候选文本数据的文本片段集合。
本实施例中,文本片段集合包括至少一条文本片段,文本片段包括句子和短语。
例如,划分候选文本数据Ck得到包括n条文本片段的文本片段集合X,其中,X={x1,x2,...,xn},xi(i∈[1,n])为X中任一文本片段。
需要说明的是,对候选文本数据进行分割的方法可以参见现有技术。
S202、将文本片段集合中的文本片段逐个输入至预先训练好的知识预测模型,得到知识预测模型输出的知识预测结果。
本实施例中,知识预测结果指示作为输入的文本片段是否属于知识片段,知识预测模型以第二样本文本片段为输入,以第二样本文本片段的标注为目标输出,训练得到,第二样本文本片段的标注指示所述第二样本文本片段是否属于知识片段。需要说明的是,知识片段为包含至少两个实体,以及实体之间的关系的文本片段。
本实施例以知识预测模型为半监督SVM分类器为例,若半监督SVM分类器输出的知识预测结果为0,则表示输入的文本片段不属于知识片段,若半监督SVM分类器输出的知识预测结果为1,则表示输入的文本片段属于知识片段。
接上例,将X={x1,x2,…,xn}中每一文本片段输入至半监督SVM分类器,得到知识预测结果集合Y={y1,y2,…,yn},其中,yi为半监督SVM分类器以xi为输入,输出的知识预测结果,若yi为0,指示xi不属于知识片段,若yi为1,指示xi属于知识片段。
需要说明的是,知识预测模型的训练过程包括:
A1、获取训练样本集合,训练样本集合包括有标注样本集和无标注样本集。
本实施例中,有标注样本集包括多条带标注的样本文本片段,记为有标注样本,无标注样本集包括多条样本文本片段,记为无标注样本。
具体地,有标注样本的标注为0或1,其中,0指示有标注样本不属于知识片段,1指示有标注样本属于知识片段。样本文本片段的标注由专家标记得到,具体可以参见现有技术。
例如,有标注样本“青霉素属于β-内酰胺类抗生素”的标注为1,指示“青霉素属于β-内酰胺类抗生素”是知识片段,有标注样本“为了改变这种局面,科研人员进行了长期探索”的标注为0,指示“为了改变这种局面,科研人员进行了长期探索”不是知识片段。
需要说明的是,有标注样本集和无标注样本集均用于训练知识预测模型,区别在于,有标注样本集为带标注的训练集,无标注样本集为无标注的训练集。
记有标注样本集:无标注样本集:/>其中,xτ(τ∈[1,l])为有标注样本,yτ为有标注样本的标注(0或1),xτ(τ∈[l+1,u])为无标注样本,l为有标注样本的数量,u为样本文本片段的总数量。
A2、将有标注样本集和无标注样本集作为训练数据,训练半监督SVM分类器,得到知识预测模型。
需要说明的是,训练半监督SVM分类器为半监督训练过程,其中,无标注样本集中无标注的无标注样本xτ的预测值为
具体的训练过程为:将有标注样本和无标注样本逐条输入至半监督SVM分类器,对于有标注样本,以有标注样本的标注为目标输出,对于无标注样本,以无标注样本的预测值为目标输出,以最小化损失函数为目标函数,训练得到知识预测模型。
可选的,最小化损失函数的公式表达为:
需要说明的是,基于半监督SVM分类器的训练方法对训练数据的要求低,不需要对全部样本文本片段进行标注,且训练过程效率高。具体的训练方法(例如上述最小化损失函数中的各项参数的意义)可以参见现有技术,本实施例不做赘述。
S203、将候选文本数据的文本片段集合中,知识片段的数量与文本片段的总数量的比值作为知识片段密度。
具体地,获取第k候选文本数据的知识片段密度ρ1的方法参见下述公式(1):
S204、将候选文本数据中词性为动词的词与所有词的比值,作为动词密度。
需要说明的是,获取动词密度的具体实现方法包括可选的多种,以第k候选文本数据为例,可选的一种方法为:
对第k候选文本数据分词得到多个词(数量记为m),对每一词(记为tag)进行词性标注,若候选文本数据中的词是动词(记为verb),则词的标注为1,也即,动词的标注verb(tag)=1,则动词密度ρ2的计算方法参见公式(2)。
S205、将知识片段密度和动词密度加权相加,得到候选文本数据的文本知识密度。
具体地,计算文本知识密度ρ的方法参见下述公式(3):
ρ=αρ1+(1-α)ρ2 (3)
公式(3)中,α为第一预设数值。
需要说明的是,文本片段密度指示候选文本数据中知识片段的占比,动词密度指示候选文本数据中动词的占比,因为候选文本数据中知识片段的占比越大,指示候选文本数据表达知识的概率越大,且候选文本数据中的动词占比越大,则候选文本数据中表达知识的概率越大,因此,文本知识密度指示候选文本数据表达知识的概率。
进一步需要说明的是,S203~S205为本申请提供的一种依据候选文本数据中的所有文本片段的知识预测结果和/或词性信息获取文本知识密度的具体实现方法,候选文本数据的知识预测结果集合中包括的1越多,和/或候选文本数据包括的动词越多,则候选文本数据的文本知识密度越大,可选的,本申请还包括其他的获取文本知识密度的具体实现方法,例如,知识片段密度作为文本知识密度,对此本实施例不做赘述。
图3为本申请实施例提供的一种获取互斥三元组的置信度的具体实现方式,具体可以包括:
S301、获取互斥三元组对应的待处理文本数据的信息源,作为互斥三元组的信息源。
互斥三元组对应的待处理文本数据指的是提取出互斥三元组的待处理文本。
S302、计算互斥三元组的每一信息源的信息源知识密度。
本实施例中,获取任一信息源(记为目标信息源)的信息源知识密度的方法为:
1、获取每一目标数据的文本知识密度。
其中,目标数据为属于目标信息源的候选文本数据。
2、将所有目标数据的文本知识密度的平均值作为目标信息源的信息源知识密度。
以目标信息源为第一信息源为例,目标候选文本数据包括C1、C2、…、Ch、…、CH,则第一信息源的信息源知识密度计算参见下式:
式中,ρh为Ch的文本知识密度,H为第一信息源对应的文本数据的数量,ρavg为第一信息源的信息源知识密度。
需要说明的是,不同信息源具有不同特征,例如第一信息源和第二信息源,第一信息源更倾向与用户个人情感的表达,而第二信息源则倾向于分享技术博客。显然,第一信息源和第二信息源的文本数据的文本知识密度是不同的,本实施例中,利用信息源知识密度能够表征信息源的文本数据的文本知识密度,也即能够表征该信息源表达知识的概率。信息源知识密度越高,则信息源中的文本数据的文本知识密度高,由此,可以判断信息源表达知识的概率越大。
S303、计算互斥三元组的每一信息源的信息源权威指数。
本实施例中,获取目标信息源的信息源权威指数的方法包括:
依据目标数据的序位,获取目标信息源的信息源权威指数。
其中,序位为目标数据在以预设实体为搜索条件,搜索得到的结果数据中的排序。需要说明的是,目标数据的序位越小,目标信息源的信息源权威指数越大。
仍以第一信息源为例,第一信息源的信息源权威指数计算参见下式:
式中,Vauthority为第一信息源的信息源权威指数,rankh为文本数据Ch再搜索结果中的排序,Ω和Φ为预设参数,可选的,Ω=100且Φ=1000。显然,Vauthority的分子会随着rankh的增大而指数衰减,分母中的Φ影响会随着H的增大而逐渐减小,也即当信息源的文本数据再搜索结果中的排序越小(越靠前),和/或信息源的文本数据的数量越多,则信息源的信息源权威指数越大。
需要说明的是,搜索结果按照相关度排序,也即排序越靠前的搜索结果的相关度越大,并且,在所有搜索过程中,信息源对应的文本数据出现的次数越多,表示信息源的重要程度越大。所以,信息源的信息源权威指数越大的,表示信息源的文本数据在搜索结果中与作为搜索条件的实体的相关度大,和/或信息源的重要度高。
S304、依据每一信息源的信息源知识密度和信息源权威指数,计算每一信息源的置信度。
本实施例中,具体的计算信息源的置信度的方法包括多种,可选的一种计算信息源的置信度的方法为:将信息源知识密度和信息源权威指数的乘积作为信息源的置信度,仍以第一信息源为例,第一信息源的置信度计算方法参考下式:
Γ=ρavg×Vauthority
S305、在互斥三元组的所有信息源的置信度中,选择最大值作为互斥三元组的置信度。
需要说明的是,互斥三元组的置信度为互斥三元组的所有信息源的置信度中的最大值,由于信息源的置信度依据信息源知识密度和信息源权威指数得到,其中,信息源的信息源权威指数越大的,表示信息源的文本数据在搜索结果中与作为搜索条件的实体的相关度大,和/或信息源的重要度高,信息源知识密度越高,则信息源中的文本数据的文本知识密度高,也即信息源表达知识的概率越大,所以,互斥三元组的置信度指示互斥三元组表达知识的概率准确度高。
需要说明的是,图1所示的流程仅为本申请实施例提供的一种三元组的筛选方法的具体实现方法,本申请还包括其他的具体实现方法,例如,S101~S105仅为可选的一种获取候选三元组的具体方法。再例如,S110为在构建知识图谱的应用场景下的可选的一个步骤。再例如,S306仅为一种可选的依据信息源的置信度获取互斥三元组的置信度的方法,另一种可选的方法为:将互斥三元组的所有信息源的置信度的平均值作为互斥三元组的置信度。
综上,将本申请提供的一种三元组的筛选方法总结概括为图4所示的流程,如图4所示,本方法具体可以包括:
S401、获取三元组库。
本实施例中,三元组库包括多个候选三元组以及每一候选三元组的信息源,候选三元组从属于候选三元组的信息源的文本数据中提取。
需要说明的是,具体的获取候选三元组的方法包括多种,可选的一种方法参见上述实施例。
S402、在候选三元组中获取互斥三元组集合。
本实施例中,互斥三元组集合由多个互斥三元组组成,任意两个互斥三元组为表达的知识同时成立的概率等于0的候选三元组。
S403、获取各个互斥三元组的置信度。
本实施例中,互斥三元组的置信度用于指示互斥三元组的信息源表达知识的概率。
可选的,依据属于信息源的各个文本数据的文本知识密度和排序确定信息源的置信度,并依据信息源的置信度获取互斥三元组的置信度。具体的一种方法包括:
1、依据目标数据的文本知识密度,获取目标信息源的信息源知识密度。
其中,目标数据为属于目标信息源的至少一条候选文本数据,目标数据的文本知识密度越大,目标信息源的信息源知识密度越大,目标信息源为互斥三元组的任一信息源。
2、依据目标数据的序位,获取目标信息源的信息源权威指数。
其中,序位为目标数据在以预设实体为搜索条件,搜索得到的结果数据中的排序,目标数据的序位越小,目标信息源的信息源权威指数越大;
3、将目标信息源的信息源知识密度和目标信息源的信息源权威指数乘积,作为目标信息源的置信度;
4、依据互斥三元组的每一信息源的置信度,获取互斥三元组的置信度。
其中,互斥三元组的置信度为互斥三元组的信息源的置信度的平均值,或,互斥三元组的信息源的置信度的最大值。
需要说明的是,1~4为本实施例提供的一种可选的获取互斥三元组的置信度的方法,具体的实现过程可以参见上述图3所示的流程。
S404、将互斥三元组集合中置信度高的互斥三元组,作为筛选结果。
本实施例中,筛选结果即为上述实施例中的结果三元组。
由上述技术方案可以看出,本申请实施例提供的三元组的筛选方法、装置、设备及可读存储介质,获取三元组库,在候选三元组中获取互斥三元组集合,获取各个互斥三元组的置信度,将互斥三元组集合中置信度高的互斥三元组,作为筛选结果。其中,三元组库包括多个候选三元组以及候选三元组的信息源,候选三元组从属于候选三元组的信息源的文本数据中提取,由于,互斥三元组集合由多个互斥三元组组成,任意两个互斥三元组为表达的知识同时成立的概率等于0的候选三元组,显然,互斥三元组集合中的互斥三元组中最多包括不准确的三元组,由于,互斥三元组的置信度用于指示互斥三元组的信息源表达知识的概率,也即,互斥三元组集合中置信度高的互斥三元组的准确度高,本方案依据互斥三元组的信息源表达知识的概率从互斥三元组集合中筛选三元组,得到的筛选结果的,提高了获取的三元组的准确度。
图5示出了本申请实施例提供的一种三元组的筛选装置的结构示意图,如图5所示,该装置可以包括:
一种三元组的筛选装置,包括:
三元组获取单元501,用于获取三元组库,所述三元组库包括多个候选三元组以及每一所述候选三元组的信息源,所述候选三元组从属于所述候选三元组的信息源的文本数据中提取;
互斥集合获取单元502,用于在所述候选三元组中获取互斥三元组集合,所述互斥三元组集合由多个互斥三元组组成,任意两个所述互斥三元组为表达的知识同时成立的概率等于0的候选三元组;
置信度获取单元503,用于获取所述互斥三元组的置信度,所述互斥三元组的置信度用于指示所述互斥三元组的信息源表达知识的概率;
第一筛选结果获取单元504,用于将所述互斥三元组集合中置信度高的互斥三元组,作为筛选结果。
可选地,三元组获取单元用于获取三元组库时,具体用于:
获取待处理文本数据,所述待处理文本数据包括:以预设实体为搜索条件搜索得到的结果数据;
将所述待处理文本数据的各个文本片段输入至预先训练好的三元组预测模型,将所述三元组预测模型的输出作为候选三元组,所述三元组预测模型以第一样本文本片段为输入,以所述第一样本文本片段中的三元组为目标输出,训练得到。
可选地,三元组获取单元用于获取待处理文本数据,包括:三元组获取单元具体用于:
获取候选文本数据,所述候选文本数据为以所述预设实体为搜索条件,搜索得到的排序前N的结果数据,N为预设数值;
获取各个所述候选文本数据的文本知识密度,所述候选文本数据的文本知识密度用于指示所述候选文本数据表达知识的概率,所述候选文本数据包括的动词越多,和/或所述候选文本数据包括的知识片段越多,所述候选文本数据的文本知识密度越大;
若所述候选文本数据的文本知识密度大于第一预设阈值,将所述候选文本数据作为所述待处理文本数据。
可选地,三元组获取单元用于获取各个所述候选文本数据的文本知识密度,包括:三元组获取单元具体用于:
将所述候选文本数据的各个文本片段输入至预先训练好的知识预测模型,得到所述知识预测模型输出的知识预测结果;所述知识预测结果指示作为输入的文本片段是否属于知识片段,所述知识预测模型以第二样本文本片段为输入,以所述第二样本文本片段是否属于知识片段为目标输出,训练得到,所述第二样本文本片段的标注指示所述第二样本文本片段是否属于知识片段;
将第一数值和第二数值的比值作为所述候选文本数据的知识片段密度,所述第一数值为所述候选文本数据中属于知识片段的文本片段的数量,所述第二数值为所述候选文本数据中文本片段的总数量;
将第三数值和第四数值的比值作为所述候选文本数据的动词密度,所述第三数值为所述候选文本数据中的动词数量,所述第四数值为所述候选文本数据中的词总数量;
将所述候选文本数据的知识片段密度和所述候选文本数据的动词密度加权相加,得到所述候选文本数据的文本知识密度。
可选地,置信度获取单元用于获取每一所述互斥三元组的置信度,包括:置信度获取单元具体用于:
依据目标数据的文本知识密度,获取目标信息源的信息源知识密度,所述目标数据为属于所述目标信息源的至少一条候选文本数据,所述目标数据的文本知识密度越大,所述目标信息源的信息源知识密度越大,所述目标信息源为所述互斥三元组的任一信息源;
依据所述目标数据的序位,获取所述目标信息源的信息源权威指数,所述序位为所述目标数据在所述以所述预设实体为搜索条件,搜索得到的结果数据中的排序,所述目标数据的序位越小,所述目标信息源的信息源权威指数越大;
将所述目标信息源的信息源知识密度和所述目标信息源的信息源权威指数乘积,作为所述目标信息源的置信度;
依据所述互斥三元组的每一信息源的置信度,获取所述互斥三元组的置信度,所述互斥三元组的置信度为所述互斥三元组的信息源的置信度的平均值,或,所述互斥三元组的信息源的置信度的最大值。
可选地,还包括:第二筛选结果获取单元,用于将所述三元组库中,除所述互斥三元组集合以外的候选三元组作为筛选结果。
图6示出了该三元组的筛选设备的结构示意图,该设备可以包括:至少一个处理器601,至少一个通信接口602,至少一个存储器603和至少一个通信总线604;
在本申请实施例中,处理器601、通信接口602、存储器603、通信总线604的数量为至少一个,且处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信;
处理器601可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器603可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可执行存储器存储的程序,实现本申请实施例提供的一种三元组的筛选方法的各个步骤,如下:
一种三元组的筛选方法,包括:
获取三元组库,所述三元组库包括多个候选三元组以及每一所述候选三元组的信息源,所述候选三元组从属于所述候选三元组的信息源的文本数据中提取;
在所述候选三元组中获取互斥三元组集合,所述互斥三元组集合由多个互斥三元组组成,任意两个所述互斥三元组为表达的知识同时成立的概率等于0的候选三元组;
获取所述互斥三元组的置信度,所述互斥三元组的置信度用于指示所述互斥三元组的信息源表达知识的概率;
将所述互斥三元组集合中置信度高的互斥三元组,作为筛选结果。
可选地,候选三元组的获取过程,包括:
获取待处理文本数据,所述待处理文本数据包括:以预设实体为搜索条件搜索得到的结果数据;
将所述待处理文本数据的各个文本片段输入至预先训练好的三元组预测模型,将所述三元组预测模型的输出作为候选三元组,所述三元组预测模型以第一样本文本片段为输入,以所述第一样本文本片段中的三元组为目标输出,训练得到。
可选地,所述获取待处理文本数据,包括:
获取候选文本数据,所述候选文本数据为以所述预设实体为搜索条件,搜索得到的排序前N的结果数据,N为预设数值;
获取各个所述候选文本数据的文本知识密度,所述候选文本数据的文本知识密度用于指示所述候选文本数据表达知识的概率,所述候选文本数据包括的动词越多,和/或所述候选文本数据包括的知识片段越多,所述候选文本数据的文本知识密度越大;
若所述候选文本数据的文本知识密度大于第一预设阈值,将所述候选文本数据作为所述待处理文本数据。
可选地,获取各个所述候选文本数据的文本知识密度,包括:
将所述候选文本数据的各个文本片段输入至预先训练好的知识预测模型,得到所述知识预测模型输出的知识预测结果;所述知识预测结果指示作为输入的文本片段是否属于知识片段,所述知识预测模型以第二样本文本片段为输入,以所述第二样本文本片段是否属于知识片段为目标输出,训练得到,所述第二样本文本片段的标注指示所述第二样本文本片段是否属于知识片段;
将第一数值和第二数值的比值作为所述候选文本数据的知识片段密度,所述第一数值为所述候选文本数据中属于知识片段的文本片段的数量,所述第二数值为所述候选文本数据中文本片段的总数量;
将第三数值和第四数值的比值作为所述候选文本数据的动词密度,所述第三数值为所述候选文本数据中的动词数量,所述第四数值为所述候选文本数据中的词总数量;
将所述候选文本数据的知识片段密度和所述候选文本数据的动词密度加权相加,得到所述候选文本数据的文本知识密度。
可选地,所述获取所述互斥三元组的置信度,包括:
依据目标数据的文本知识密度,获取目标信息源的信息源知识密度,所述目标数据为属于所述目标信息源的至少一条候选文本数据,所述目标数据的文本知识密度越大,所述目标信息源的信息源知识密度越大,所述目标信息源为所述互斥三元组的任一信息源;
依据所述目标数据的序位,获取所述目标信息源的信息源权威指数,所述序位为所述目标数据在所述以所述预设实体为搜索条件,搜索得到的结果数据中的排序,所述目标数据的序位越小,所述目标信息源的信息源权威指数越大;
将所述目标信息源的信息源知识密度和所述目标信息源的信息源权威指数乘积,作为所述目标信息源的置信度;
依据所述互斥三元组的每一信息源的置信度,获取所述互斥三元组的置信度,所述互斥三元组的置信度为所述互斥三元组的信息源的置信度的平均值,或,所述互斥三元组的信息源的置信度的最大值。
可选地,还包括:
将所述三元组库中,除所述互斥三元组集合以外的候选三元组作为筛选结果。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的计算机程序,计算机程序被处理器执行时,实现本申请实施例提供的一种三元组的筛选方法的各个步骤,如下:
一种三元组的筛选方法,包括:
获取三元组库,所述三元组库包括多个候选三元组以及每一所述候选三元组的信息源,所述候选三元组从属于所述候选三元组的信息源的文本数据中提取;
在所述候选三元组中获取互斥三元组集合,所述互斥三元组集合由多个互斥三元组组成,任意两个所述互斥三元组为表达的知识同时成立的概率等于0的候选三元组;
获取所述互斥三元组的置信度,所述互斥三元组的置信度用于指示所述互斥三元组的信息源表达知识的概率;
将所述互斥三元组集合中置信度高的互斥三元组,作为筛选结果。
可选地,候选三元组的获取过程,包括:
获取待处理文本数据,所述待处理文本数据包括:以预设实体为搜索条件搜索得到的结果数据;
将所述待处理文本数据的各个文本片段输入至预先训练好的三元组预测模型,将所述三元组预测模型的输出作为候选三元组,所述三元组预测模型以第一样本文本片段为输入,以所述第一样本文本片段中的三元组为目标输出,训练得到。
可选地,所述获取待处理文本数据,包括:
获取候选文本数据,所述候选文本数据为以所述预设实体为搜索条件,搜索得到的排序前N的结果数据,N为预设数值;
获取各个所述候选文本数据的文本知识密度,所述候选文本数据的文本知识密度用于指示所述候选文本数据表达知识的概率,所述候选文本数据包括的动词越多,和/或所述候选文本数据包括的知识片段越多,所述候选文本数据的文本知识密度越大;
若所述候选文本数据的文本知识密度大于第一预设阈值,将所述候选文本数据作为所述待处理文本数据。
可选地,获取各个所述候选文本数据的文本知识密度,包括:
将所述候选文本数据的各个文本片段输入至预先训练好的知识预测模型,得到所述知识预测模型输出的知识预测结果;所述知识预测结果指示作为输入的文本片段是否属于知识片段,所述知识预测模型以第二样本文本片段为输入,以所述第二样本文本片段是否属于知识片段为目标输出,训练得到,所述第二样本文本片段的标注指示所述第二样本文本片段是否属于知识片段;
将第一数值和第二数值的比值作为所述候选文本数据的知识片段密度,所述第一数值为所述候选文本数据中属于知识片段的文本片段的数量,所述第二数值为所述候选文本数据中文本片段的总数量;
将第三数值和第四数值的比值作为所述候选文本数据的动词密度,所述第三数值为所述候选文本数据中的动词数量,所述第四数值为所述候选文本数据中的词总数量;
将所述候选文本数据的知识片段密度和所述候选文本数据的动词密度加权相加,得到所述候选文本数据的文本知识密度。
可选地,所述获取所述互斥三元组的置信度,包括:
依据目标数据的文本知识密度,获取目标信息源的信息源知识密度,所述目标数据为属于所述目标信息源的至少一条候选文本数据,所述目标数据的文本知识密度越大,所述目标信息源的信息源知识密度越大,所述目标信息源为所述互斥三元组的任一信息源;
依据所述目标数据的序位,获取所述目标信息源的信息源权威指数,所述序位为所述目标数据在所述以所述预设实体为搜索条件,搜索得到的结果数据中的排序,所述目标数据的序位越小,所述目标信息源的信息源权威指数越大;
将所述目标信息源的信息源知识密度和所述目标信息源的信息源权威指数乘积,作为所述目标信息源的置信度;
依据所述互斥三元组的每一信息源的置信度,获取所述互斥三元组的置信度,所述互斥三元组的置信度为所述互斥三元组的信息源的置信度的平均值,或,所述互斥三元组的信息源的置信度的最大值。
可选地,还包括:
将所述三元组库中,除所述互斥三元组集合以外的候选三元组作为筛选结果。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (6)

1.一种三元组的筛选方法,其特征在于,包括:
获取三元组库,所述三元组库包括多个候选三元组以及每一所述候选三元组的信息源,所述候选三元组从属于所述候选三元组的信息源的文本数据中提取;
在所述候选三元组中获取互斥三元组集合,所述互斥三元组集合由多个互斥三元组组成,任意两个所述互斥三元组为表达的知识同时成立的概率等于0的候选三元组;
获取所述互斥三元组的置信度,所述互斥三元组的置信度用于指示所述互斥三元组的信息源表达知识的概率;
将所述互斥三元组集合中置信度高的互斥三元组,作为筛选结果;
所述候选三元组的获取过程,包括:
获取待处理文本数据,所述待处理文本数据包括:以预设实体为搜索条件搜索得到的结果数据;
将所述待处理文本数据的各个文本片段输入至预先训练好的三元组预测模型,将所述三元组预测模型的输出作为候选三元组,所述三元组预测模型以第一样本文本片段为输入,以所述第一样本文本片段中的三元组为目标输出,训练得到;
所述获取待处理文本数据,包括:
获取候选文本数据,所述候选文本数据为以所述预设实体为搜索条件,搜索得到的排序前N的结果数据,N为预设数值;
获取各个所述候选文本数据的文本知识密度,所述候选文本数据的文本知识密度用于指示所述候选文本数据表达知识的概率,所述候选文本数据包括的动词越多,和/或所述候选文本数据包括的知识片段越多,所述候选文本数据的文本知识密度越大;
若所述候选文本数据的文本知识密度大于第一预设阈值,将所述候选文本数据作为所述待处理文本数据;
所述获取各个所述候选文本数据的文本知识密度,包括:
将所述候选文本数据的各个文本片段输入至预先训练好的知识预测模型,得到所述知识预测模型输出的知识预测结果;所述知识预测结果指示作为输入的文本片段是否属于知识片段,所述知识预测模型以第二样本文本片段为输入,以所述第二样本文本片段是否属于知识片段为目标输出,训练得到,所述第二样本文本片段的标注指示所述第二样本文本片段是否属于知识片段;
将第一数值和第二数值的比值作为所述候选文本数据的知识片段密度,所述第一数值为所述候选文本数据中属于知识片段的文本片段的数量,所述第二数值为所述候选文本数据中文本片段的总数量;
将第三数值和第四数值的比值作为所述候选文本数据的动词密度,所述第三数值为所述候选文本数据中的动词数量,所述第四数值为所述候选文本数据中的词总数量;
将所述候选文本数据的知识片段密度和所述候选文本数据的动词密度加权相加,得到所述候选文本数据的文本知识密度;
所述获取所述互斥三元组的置信度,包括:
依据目标数据的文本知识密度,获取目标信息源的信息源知识密度,所述目标数据为属于所述目标信息源的至少一条候选文本数据,所述目标数据的文本知识密度越大,所述目标信息源的信息源知识密度越大,所述目标信息源为所述互斥三元组的任一信息源;
依据所述目标数据的序位,获取所述目标信息源的信息源权威指数,所述序位为所述目标数据在所述以所述预设实体为搜索条件,搜索得到的结果数据中的排序,所述目标数据的序位越小,所述目标信息源的信息源权威指数越大;
将所述目标信息源的信息源知识密度和所述目标信息源的信息源权威指数乘积,作为所述目标信息源的置信度;
依据所述互斥三元组的每一信息源的置信度,获取所述互斥三元组的置信度,所述互斥三元组的置信度为所述互斥三元组的信息源的置信度的平均值,或,所述互斥三元组的信息源的置信度的最大值。
2.根据权利要求1所述的方法,其特征在于,还包括:
将所述三元组库中,除所述互斥三元组集合以外的候选三元组作为筛选结果。
3.一种三元组的筛选装置,其特征在于,包括:
三元组获取单元,用于获取三元组库,所述三元组库包括多个候选三元组以及每一所述候选三元组的信息源,所述候选三元组从属于所述候选三元组的信息源的文本数据中提取;
互斥集合获取单元,用于在所述候选三元组中获取互斥三元组集合,所述互斥三元组集合由多个互斥三元组组成,任意两个所述互斥三元组为表达的知识同时成立的概率等于0的候选三元组;
置信度获取单元,用于获取所述互斥三元组的置信度,所述互斥三元组的置信度用于指示所述互斥三元组的信息源表达知识的概率;
第一筛选结果获取单元,用于将所述互斥三元组集合中置信度高的互斥三元组,作为筛选结果;
所述候选三元组的获取过程,包括:
获取待处理文本数据,所述待处理文本数据包括:以预设实体为搜索条件搜索得到的结果数据;
将所述待处理文本数据的各个文本片段输入至预先训练好的三元组预测模型,将所述三元组预测模型的输出作为候选三元组,所述三元组预测模型以第一样本文本片段为输入,以所述第一样本文本片段中的三元组为目标输出,训练得到;
所述获取待处理文本数据,包括:
获取候选文本数据,所述候选文本数据为以所述预设实体为搜索条件,搜索得到的排序前N的结果数据,N为预设数值;
获取各个所述候选文本数据的文本知识密度,所述候选文本数据的文本知识密度用于指示所述候选文本数据表达知识的概率,所述候选文本数据包括的动词越多,和/或所述候选文本数据包括的知识片段越多,所述候选文本数据的文本知识密度越大;
若所述候选文本数据的文本知识密度大于第一预设阈值,将所述候选文本数据作为所述待处理文本数据;
所述获取各个所述候选文本数据的文本知识密度,包括:
将所述候选文本数据的各个文本片段输入至预先训练好的知识预测模型,得到所述知识预测模型输出的知识预测结果;所述知识预测结果指示作为输入的文本片段是否属于知识片段,所述知识预测模型以第二样本文本片段为输入,以所述第二样本文本片段是否属于知识片段为目标输出,训练得到,所述第二样本文本片段的标注指示所述第二样本文本片段是否属于知识片段;
将第一数值和第二数值的比值作为所述候选文本数据的知识片段密度,所述第一数值为所述候选文本数据中属于知识片段的文本片段的数量,所述第二数值为所述候选文本数据中文本片段的总数量;
将第三数值和第四数值的比值作为所述候选文本数据的动词密度,所述第三数值为所述候选文本数据中的动词数量,所述第四数值为所述候选文本数据中的词总数量;
将所述候选文本数据的知识片段密度和所述候选文本数据的动词密度加权相加,得到所述候选文本数据的文本知识密度;
所述获取所述互斥三元组的置信度,包括:
依据目标数据的文本知识密度,获取目标信息源的信息源知识密度,所述目标数据为属于所述目标信息源的至少一条候选文本数据,所述目标数据的文本知识密度越大,所述目标信息源的信息源知识密度越大,所述目标信息源为所述互斥三元组的任一信息源;
依据所述目标数据的序位,获取所述目标信息源的信息源权威指数,所述序位为所述目标数据在所述以所述预设实体为搜索条件,搜索得到的结果数据中的排序,所述目标数据的序位越小,所述目标信息源的信息源权威指数越大;
将所述目标信息源的信息源知识密度和所述目标信息源的信息源权威指数乘积,作为所述目标信息源的置信度;
依据所述互斥三元组的每一信息源的置信度,获取所述互斥三元组的置信度,所述互斥三元组的置信度为所述互斥三元组的信息源的置信度的平均值,或,所述互斥三元组的信息源的置信度的最大值。
4.根据权利要求3所述的装置,其特征在于,还包括:第二筛选结果获取单元,用于将所述三元组库中,除所述互斥三元组集合以外的候选三元组作为筛选结果。
5.一种三元组的筛选设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1或2所述的三元组的筛选方法的各个步骤。
6.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1或2所述的三元组的筛选方法的各个步骤。
CN202110465765.2A 2021-04-28 2021-04-28 三元组的筛选方法、装置、设备及可读存储介质 Active CN113495964B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110465765.2A CN113495964B (zh) 2021-04-28 2021-04-28 三元组的筛选方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110465765.2A CN113495964B (zh) 2021-04-28 2021-04-28 三元组的筛选方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN113495964A CN113495964A (zh) 2021-10-12
CN113495964B true CN113495964B (zh) 2024-02-23

Family

ID=77997903

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110465765.2A Active CN113495964B (zh) 2021-04-28 2021-04-28 三元组的筛选方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN113495964B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114724010B (zh) * 2022-05-16 2022-09-02 中译语通科技股份有限公司 一种待训练样本的确定方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014074213A2 (en) * 2012-11-07 2014-05-15 Exxonmobil Upstream Research Company Method for knowledge capture and pattern recognition for the detection of hydrocarbon accumulations
CN110502621A (zh) * 2019-07-03 2019-11-26 平安科技(深圳)有限公司 问答方法、问答装置、计算机设备及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014074213A2 (en) * 2012-11-07 2014-05-15 Exxonmobil Upstream Research Company Method for knowledge capture and pattern recognition for the detection of hydrocarbon accumulations
CN110502621A (zh) * 2019-07-03 2019-11-26 平安科技(深圳)有限公司 问答方法、问答装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘琼昕 ; 龙航 ; 郑培雄 ; .复杂网络下基于路径选择的表示学习方法.北京理工大学学报.2020,(03),全文. *

Also Published As

Publication number Publication date
CN113495964A (zh) 2021-10-12

Similar Documents

Publication Publication Date Title
US11520812B2 (en) Method, apparatus, device and medium for determining text relevance
CN110222160B (zh) 智能语义文档推荐方法、装置及计算机可读存储介质
CN108804512B (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
CN111444320B (zh) 文本检索方法、装置、计算机设备和存储介质
CN108829822B (zh) 媒体内容的推荐方法和装置、存储介质、电子装置
CN107133213B (zh) 一种基于算法的文本摘要自动提取方法与系统
CN112270196B (zh) 实体关系的识别方法、装置及电子设备
CN111259127B (zh) 一种基于迁移学习句向量的长文本答案选择方法
CN111159485B (zh) 尾实体链接方法、装置、服务器及存储介质
CN109408743B (zh) 文本链接嵌入方法
CN112800170A (zh) 问题的匹配方法及装置、问题的回复方法及装置
CN112256939B (zh) 一种针对化工领域的文本实体关系抽取方法
CN112084381A (zh) 一种事件抽取方法、系统、存储介质以及设备
CN111159359A (zh) 文档检索方法、装置及计算机可读存储介质
CN112989208B (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN110442702A (zh) 搜索方法、装置、可读存储介质和电子设备
CN111325018B (zh) 一种基于web检索和新词发现的领域词典构建方法
WO2021190662A1 (zh) 医学文献排序方法、装置、电子设备及存储介质
CN113590784A (zh) 三元组信息抽取方法、装置、电子设备、及存储介质
CN112183104B (zh) 编码推荐方法、系统及相应设备和存储介质
WO2020065970A1 (ja) 学習システム、学習方法、及びプログラム
CN113536182A (zh) 长文本网页的生成方法、装置、电子设备和存储介质
EP3635586A1 (en) Computerized methods of data compression and analysis
CN106570196B (zh) 视频节目的搜索方法和装置
CN113495964B (zh) 三元组的筛选方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant