CN106778878B - 一种人物关系分类方法及装置 - Google Patents
一种人物关系分类方法及装置 Download PDFInfo
- Publication number
- CN106778878B CN106778878B CN201611193365.6A CN201611193365A CN106778878B CN 106778878 B CN106778878 B CN 106778878B CN 201611193365 A CN201611193365 A CN 201611193365A CN 106778878 B CN106778878 B CN 106778878B
- Authority
- CN
- China
- Prior art keywords
- vector
- vectors
- vector set
- unlabeled
- labeled
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种人物关系分类方法及装置,其中,该方法包括:获取标注向量集、未标注向量集和候选关系测试集;根据标注向量集和未标注向量集,通过鲁棒路径相似度度量扩充标注向量集;通过非线性半监督分类函数对扩充后的标注向量集进行训练学习,得到人物关系分类模型;通过人物关系分类模型对候选关系测试集进行人物关系分类。本发明通过鲁棒路径相似度度量扩充标注向量集,并通过鲁棒性的作用消除噪声和孤立点的影响,减少了人工标注语料,减少了人力资源的消耗和浪费,解决了需海量标注时人工标注语料的瓶颈问题,且将正则化的半监督分类算法应用到人物关系提取中,提高了人物关系分类的效率。
Description
技术领域
本发明涉及信息抽取技术领域,具体而言,涉及一种人物关系分类方法及装置。
背景技术
目前,在社交舆情分析及社会网络分析等领域常需分析人物的社会关系,文本信息中通常都包含人物关系信息,而人物关系包括亲人关系、同事关系等多种类型,因此在分析人物的社会关系前,需对文本信息中的人物关系进行分类。
当前,相关技术中提供了一种基于有监督式机器学习的人物关系分类方法,包括:对大量文本进行人工语料标注,标注出文本中的人物关系,对人工标注后的文本进行训练学习,建立人物关系分类模型。通过该人物关系分类模型对自由文本中的人物关系进行分类。
但相关技术中需人工标注大量文本,这在需标注的文本数量不多时可实现,但对于海量的文本,会出现人工标注的瓶颈,在文本数量庞大时通过人工标注出文本中的人物关系,很难实现,即便能实现,也会导致人物关系分类的效率很低。
发明内容
有鉴于此,本发明实施例的目的在于提供一种人物关系分类方法及装置,通过鲁棒路径相似度度量扩充标注向量集,并通过鲁棒性的作用消除噪声和孤立点的影响,减少了人工标注语料,减少了人力资源的消耗和浪费,解决了需海量标注时人工标注语料的瓶颈问题,且将正则化的半监督分类算法应用到人物关系提取中,提高了人物关系分类的效率。
第一方面,本发明实施例提供了一种人物关系分类方法,所述方法包括:
获取标注向量集、未标注向量集和候选关系测试集;
根据所述标注向量集和所述未标注向量集,通过鲁棒路径相似度度量扩充所述标注向量集;
通过非线性半监督分类函数对扩充后的所述标注向量集进行训练学习,得到人物关系分类模型;
通过所述人物关系分类模型对所述候选关系测试集进行人物关系分类。
结合第一方面,本发明实施例提供了上述第一方面的第一种可能的实现方式,其中,所述根据所述标注向量集和所述未标注向量集,通过鲁棒路径相似度度量方式扩充所述标注向量集,包括:
从所述未标注向量集中获取第一未标注向量,所述第一未标注向量为所述未标注向量集包括的任一未标注向量;
分别计算所述第一未标注向量与所述标注向量集包括的每个标注向量之间的鲁棒路径相似度;
若计算的多个鲁棒路径相似度中最大的鲁棒路径相似度大于预设阈值,则将所述第一未标注向量添加在所述标注向量集中。
结合第一方面的第一种可能的实现方式,本发明实施例提供了上述第一方面的第二种可能的实现方式,其中,所述分别计算所述第一未标注向量与所述标注向量集包括的每个标注向量之间的鲁棒路径相似度,包括:
根据所述第一未标注向量与所述标注向量集,通过如下公式(1)计算所述第一未标注向量与所述标注向量集包括的每个标注向量之间的鲁棒路径相似度;
在公式(1)中,i为所述第一未标注向量的序号,j为标注向量的序号,Sij为所述鲁棒路径相似度;P为所述第一未标注向量与标注向量之间的路径,|P|为所述路径P上的顶点数目,P[h]为所述路径P上的第h个顶点,P[h+1]为所述路径P上的第h+1个顶点;wP[h]P[h+1]为所述路径P上第h个顶点与第h+1个顶点之间的相似度;xi表示第一未标注向量,xj表示标注向量,参数σ用来控制相似度的变化速度,Ni表示第一未标注向量的领域。
结合第一方面,本发明实施例提供了上述第一方面的第三种可能的实现方式,其中,所述通过非线性半监督分类函数对扩充后的所述标注向量集进行训练学习,得到人物关系分类模型之前,还包括:
根据扩充后的所述标注向量集中每个向量的特征属性和决策属性,构建鲁棒路径正则化框架;
根据所述鲁棒路径正则化框架,构造非线性半监督分类函数。
结合第一方面的第三种可能的实现方式,本发明实施例提供了上述第一方面的第四种可能的实现方式,其中,所述根据扩充后的所述标注向量集和所述鲁棒路径相似度度量,构建鲁棒路径正则化框架,包括:
根据扩充后的所述标注向量集中每个向量的特征属性和决策属性,通过如下公式(2)构建鲁棒路径正则化框架;
在公式(2)中,i和j均为扩充后所述标注向量集中向量的序号,Ni表示xi的领域,σ为权值控制参数,l为扩充前所述标注向量集包括的标注向量的数目,u为所述未标注向量集包括的未标注向量的数目,xi为扩充后所述标注向量集中第i个向量的特征属性,zi为所述第i个向量的人物关系的决策属性,f*(zi)为所述鲁棒路径正则化框架,K(xi,zi)表示参数为xi和zi的核函数。
结合第一方面的第四种可能的实现方式,本发明实施例提供了上述第一方面的第五种可能的实现方式,其中,所述根据所述鲁棒路径正则化框架,构造非线性半监督分类函数,包括:
根据所述鲁棒路径正则化框架,获得凸可微目标函数;
对所述凸可微目标函数进行求导后代入所述鲁棒路径正则化框架中,得到非线性半监督分类函数;
在公式(3)中,为对所述凸可微目标函数进行求导所得系数,l为扩充前所述标注向量集包括的标注向量的数目,u为所述未标注向量集包括的未标注向量的数目,xi为扩充后所述标注向量集中第i个向量的特征属性,zi为所述第i个向量的人物关系决策属性,f*(zi)为所述鲁棒路径正则化框架,K(xi,zi)表示参数为xi和zi的核函数
结合第一方面,本发明实施例提供了上述第一方面的第六种可能的实现方式,其中,所述获取标注向量集和未标注向量集,包括:
对采样文本进行中文分词和词性标注,识别所述采样文本包含的人名词,并对所述采样文本中包含的人称代词进行指代消解;
对所述采样文本进行句子切分,选取出包含人物关系的候选句;
根据候选句中包括的人名词及所述人名词对应的词场,生成候选关系向量;
从生成的所述候选关系向量中,选取预设数目个候选关系向量进行人物关系标注,将标注得到的标注向量组成标注向量集;
将生成的所述候选关系向量中除所述预设数目个候选关系向量外的其他候选关系向量组成未标注向量集。
第二方面,本发明实施例提供了一种人物关系分类装置,所述装置包括:
获取模块,用于获取标注向量集、未标注向量集和候选关系测试集;
扩充模块,用于根据所述标注向量集和所述未标注向量集,通过鲁棒路径相似度度量扩充所述标注向量集;
训练学习模块,用于通过非线性半监督分类函数对扩充后的所述标注向量集进行训练学习,得到人物关系分类模型;
分类模块,用于通过所述人物关系分类模型对所述候选关系测试集进行人物关系分类。
结合第二方面,本发明实施例提供了上述第二方面的第一种可能的实现方式,其中,所述扩充模块包括:
获取单元,用于从所述未标注向量集中获取第一未标注向量,所述第一未标注向量为所述未标注向量集包括的任一未标注向量;
计算单元,用于分别计算所述第一未标注向量与所述标注向量集包括的每个标注向量之间的鲁棒路径相似度;
添加单元,用于若计算的多个鲁棒路径相似度中最大的鲁棒路径相似度大于预设阈值,则将所述第一未标注向量添加在所述标注向量集中。
结合第二方面,本发明实施例提供了上述第二方面的第二种可能的实现方式,其中,所述装置还包括:
构造模块,用于根据扩充后的所述标注向量集中每个向量的特征属性和决策属性,构建鲁棒路径正则化框架;根据所述鲁棒路径正则化框架,构造非线性半监督分类函数。
在本发明实施例提供的方法及装置中,获取标注向量集、未标注向量集和候选关系测试集;根据标注向量集和未标注向量集,通过鲁棒路径相似度度量扩充标注向量集;通过非线性半监督分类函数对扩充后的标注向量集进行训练学习,得到人物关系分类模型;通过人物关系分类模型对候选关系测试集进行人物关系分类。本发明通过鲁棒路径相似度度量扩充标注向量集,并通过鲁棒性的作用消除噪声和孤立点的影响,减少了人工标注语料,减少了人力资源的消耗和浪费,解决了需海量标注时人工标注语料的瓶颈问题,且将正则化的半监督分类算法应用到人物关系提取中,提高了人物关系分类的效率。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本发明实施例1所提供的一种人物关系分类方法的流程图;
图2示出了本发明实施例1所提供的一种获取标注向量集和未标注向量集的流程示意图;
图3示出了本发明实施例1所提供的另一种人物关系分类方法的流程示意图;
图4示出了本发明实施例2所提供的一种人物关系分类装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到相关技术中需人工标注大量文本,这在需标注的文本数量不多时可实现,但对于海量的文本,会出现人工标注的瓶颈,在文本数量庞大时通过人工标注出文本中的人物关系,很难实现,即便能实现,也会导致人物关系分类的效率很低。基于此,本发明实施例提供了一种人物关系分类方法及装置,下面通过实施例进行描述。
实施例1
本发明实施例提供了一种人物关系分类方法。
人物关系是指人物在其特定的社会范围内与他人之间存在和产生的关系。根据人与人之间的熟悉程度和亲密程度关系划分,人物关系可以分为六大类,分别是:家庭关系、工作关系、朋友关系、师生关系、合作关系以及共现关系。其中,共现关系是指在分析过程中无法通过语句中的特征对两个人物关系类型进行准确分类的情况。文本信息中通常都包含人物关系信息,通过本发明实施例提供的方法可以对文本中的人物关系进行分类。
参见图1,该方法具体包括以下步骤:
步骤101:获取标注向量集、未标注向量集和候选关系测试集。
上述标注向量集中包括人工标注了人物关系的标注向量。未标注向量集中包括未进行人工标注的未标注向量。其中,标注向量集包括的标注向量的数目远小于未标注向量集包括的未标注向量的数目。
在获取标注向量集和未标注向量集时,首先获取大量的采样文本,然后如图2所示,通过如下步骤A1-A5的操作来获得标注向量集和未标注向量集,具体包括:
A1:对采样文本进行中文分词和词性标注,识别采样文本包含的人名词,并对采样文本中包含的人称代词进行指代消解。
在本发明实施例中,通过分词系统对采样文本进行中文分词,得到采样文本包括的每个分词,然后对得到的分词进行词性标注,标注出分词的词性,分词的词性可能是名词、形容词、动词或代词等。然后从词性标注后的所有分词中挑选出词性为名词的分词。根据词性为名词的分词,通过上述分词系统进行人名识别,把词性标注为“nr”、“nr1”、“nr2”、“nrj”或“nrf”的分词识别为人名词。识别出的人名词作为后续人物信息挖掘的触发词。
在本发明实施例中,除通过上述分词系统来识别人名词外,还可预先设置人名词库,该人名词库中包括海量的人名词。通过该预先设置的人名词库来识别采样文本中的人名词。对于每个词性为名词的分词,查看预先设置的人名词库中是否包括该分词,如果是,则识别该分词为人名词,如果否,则识别该分词不是人名词。
通过上述方式识别出采样文本中的所有人名词后,再从词性标注后的所有分词中挑选出词性为人称代词的分词。对于每个词性为人称代词的分词,获取该分词所在的句子,确定该句子中在该分词之前是否存在人名词,若存在,则将该分词替换为该人名词,以消解该词性为人称代词的分词。若不存在,则获取该句子之前的句子,将该分词替换为该句子之前的句子中离该分词最近的人名词,以消解该词性为人称代词的分词。
在本发明实施例中,也可以采用Hobbs算法来确定词性为人称代词的分词所指代的人名词,即选择与人称代词在同一个句子中出现的人名词,从选择出的人名词中确定离人称代词最近的人名词,将该人称代词替换为确定的人名词,以消解该人称代词。本发明实施例可以采用Hobbs算法通过自左向右层次遍历句法数来消解人称代词。
通过步骤A1的操作识别出采样文本包含的所有人名词,并对采样文本中的所有人称代词进行指代消解后,通过如下步骤A2-A5的操作来获取标注向量集和未标注向量集。
A2:对采样文本进行句子切分,选取出包含人物关系的候选句。
句子切分是以特定标点符号为切分标志的,这些标点符号可以是“。”、“!”、“?”或“;”等。以这些标点符号为切分标志,切分出采样文本包括的多个句子。对于切分出的每个句子,判断句子中是否包含两个或两个以上不同的人名词,如果是,则将该句子确定为包含人物关系的候选句。
A3:根据候选句中包括的人名词及人名词对应的词场,生成候选关系向量。
人名词对应的词场包括人名词前面距离该人名词最近的预设个数个分词以及人名词后面距离该人名词最近的预设个数个分词。预设个数可以为1个或2个等。
在本发明实施例中,由于助词、介词或连词等对于人物关系分析的贡献不大,所以在生成候选句对应的候选关系向量前,先将候选句中的助词、介词或连词等无用词去掉,然后从候选句中提取出人名词及人名词对应的词场。将人名词、人名词对应的词场包括的每个分词、每个分词的词性及位置信息,组成候选句对应的特征向量。
上述分词的位置信息用于表示分词与人名词之间的相对位置。例如,假设去掉助词、介词或连词等无用词后的候选句为“……回家张三电话……接机李四聚餐……”,词场包括人名词前面距离最近的一个词和人名词后面距离最近的一个词,则人名词“张三”的词场包括“回家”和“电话”,人名词“李四”的词场包括“接机”和“聚餐”,则最终生成的该候选句对应的候选关系向量可以为[((回家,前,动词),张三,(电话,后,名词)),((接机、前,动词),李四,(聚餐,后,动词))]。本示例仅用于便于理解候选关系向量的生成过程,并不限定候选关系向量的表现形式,候选关系的表现形式可以有多种,在实际应用中可根据需求来设定候选关系向量的表现形式。
对于其他每个候选句,都与上述候选句相同,分别按照上述方式来生成其他每个候选句对应的候选关系向量。
A4:从生成的候选关系向量中,选取预设数目个候选关系向量进行人物关系标注,将标注得到的标注向量组成标注向量集。
上述预设数目远小于所生成的候选关系向量的总量与预设数目之间的差值。预设数目可以为50或100等。
本发明实施例中,通过人工标注人物关系的类型来得到标注向量。由于只选取少量的候选关系向量进行人工标注,因此通过人工标注是能够实现获得标注向量集的,且花费时间很短。
A5:将生成的候选关系向量中除预设数目个候选关系向量外的其他候选关系向量组成未标注向量集。
将未经人工标注的候选关系向量组成未标注向量集。
通过上述步骤A1-A5获得的标注向量集和未标注向量集是本发明实施例中的候选关系训练集。而对于需要进行人物关系分类的自由文本,也通过上述步骤A1-A3的操作对自由文本进行中文分词、词性标注、人名识别、指代消解及句子切分的操作获得各个候选句,并生成候选句对应的候选关系向量,将生成的候选关系向量组成自由文本对应的候选关系测试集。
获得标注向量集、未标注向量集和候选关系测试集之后,通过如下步骤102和103的操作来建立人物关系分类模型,通过步骤104的操作通过该人物关系分类模型对候选关系测试集进行人物关系分类。
步骤102:根据标注向量集和未标注向量集,通过鲁棒路径相似度度量扩充标注向量集。
本发明实施例中,采用基于鲁棒路径正则化的非线性半监督分类算法(SSCRPR-Nonlinear算法)对候选关系训练集进行训练学习生成人物关系分类模型。候选关系训练集包括标注向量集和未标注向量集。
在对候选关系训练集进行训练学习之前,先通过鲁棒路径相似度度量方式扩充标注向量集,具体包括:
从未标注向量集中获取第一未标注向量,第一未标注向量为未标注向量集包括的任一未标注向量;分别计算第一未标注向量与标注向量集包括的每个标注向量之间的鲁棒路径相似度;若计算的多个鲁棒路径相似度中最大的鲁棒路径相似度大于预设阈值,则将第一未标注向量添加在标注向量集中。
在本发明实施例中,将第一未标注向量与标注向量集包括的所有标注向量组成一个数组该数组可以用一个连通的无向图G=(V,E)来表示,该无向图G的n个顶点分别对应该数组中的n个向量,另外无向图G中的每一条边(i,j)∈V×V都被赋予一个权值wij,该权值wij用来反映点xi与xj之间的相似度,wij如公式(4)所示:
在公式(4)中,i为第一未标注向量的序号,xi表示第一未标注向量,j为标注向量的序号,xj表示标注向量,参数σ用来控制wij的变化速度。
在本发明实施例中,令Pij表示连接无向图G中顶点i与顶点j之间所有路径的集合,那么对任一条路径p∈Pij,其有效相似度定义为路径P中的最小边权值,而基于路径的相似度则定义为Pij包含的所有路径中的最大有效相似度,最大有效相似度如以下公式(5)所示:
在公式(5)中,i为第一未标注向量的序号,j为标注向量的序号,为鲁棒路径相似度,P为第一未标注向量与标注向量之间的路径,|P|为路径P上的顶点数目,P[h]为路径P上的第h个顶点,P[h+1]为路径P上的第h+1个顶点,wP[h]P[h+1]为路径P上第h个顶点与第h+1个顶点之间的相似度。
然而,基于路径的相似度度量方式对噪声和孤立点很敏感,因此本发明实施例采用基于鲁棒路径的相似度度量方式来扩充标注向量集。根据第一未标注向量与标注向量集,通过如下公式(1)计算第一未标注向量与标注向量集包括的每个标注向量之间的鲁棒路径相似度。
在公式(1)中,i为第一未标注向量的序号,j为标注向量的序号,Sij为鲁棒路径相似度;P为第一未标注向量与标注向量之间的路径,|P|为路径P上的顶点数目,P[h]为路径P上的第h个顶点,P[h+1]为路径P上的第h+1个顶点;wP[h]P[h+1]为路径P上第h个顶点与第h+1个顶点之间的相似度;xP[h]为路径P上第h个顶点对应的未标注向量,NP[h]为未标注向量xP[h]的领域;xP[h+1]为路径P上第h+1个顶点对应的未标注向量,NP[h+1]为未标注向量xP[h+1]的领域;xj表示标注向量,参数σ用来控制相似度的变化速度。
通过上述方式计算出第一未标注向量与标注向量集中每个标注向量之间的鲁棒路径相似度之后,获取第一未标注向量与每个标注向量之间的鲁棒路径相似度中最大的鲁棒路径相似度,判断该最大的鲁棒路径相似度是否大于预设阈值,如果是,则获取该最大的鲁棒路径相似度对应的标注向量的人物关系类型,将第一未标注向量的人物关系确定为该人物关系类型,并将第一未标注向量添加到标注向量集中。
如果该最大的鲁棒路径相似度小于或等于预设阈值,则无法确定第一未标注向量的人物关系,可以舍弃第一未标注向量。也可以将该第一未标注向量显示给用户,使用户确定并标注第一未标注向量的人物关系类型,然后再将第一未标注向量添加到标注向量集中。
在本发明实施例中,通过上述公式(1)或公式(6)计算未标注向量与标注向量集包括的标注向量之间的鲁棒路径相似度后,还可以计算鲁棒路径的图拉普拉斯矩阵LS=DS-S。其中,S为预设阈值,DS为对角矩阵,其对角线上的元素为l表示标注向量的数量,u表示未标注向量的数量。计算出鲁棒路径的图拉普拉斯矩阵LS后,判断图拉普拉斯矩阵LS对角线上的元素值是否大于0,获取大于0的元素值对应的未标注向量和标注向量,将获取的未标注向量的人物关系类型确定为获取的标注向量的人物关系类型,然后将该未标注向量添加到标注向量集中。
未标注向量集中包括的其他每个未标注向量,都与第一未标注向量相同,按照上述操作分别确定其他每个未标注向量的人物关系类型,并将其他每个未标注向量添加到标注向量集中。
本发明实施例通过鲁棒路径相似度来度量未标注向量与标注向量之间的有效相似度,并在判断最大有效相似度大于预设阈值时,确定该最大有效相似度对应的标注向量的人物关系类型与该未标注向量的人物关系类型相同,在确定该未标注向量的人物关系类型后,将该未标注向量添加到标注向量集中,从而扩充标注向量集。实现仅通过少量人工标注的标注向量,获得大量已确定人物关系类型的向量,提高了人物关系分类的效率。
通过本步骤扩充标注向量集之后,通过如下操作来构造非线性半监督分类函数,包括:
根据扩充后的标注向量集中每个向量的特征属性和决策属性,构建鲁棒路径正则化框架;根据鲁棒路径正则化框架,构造非线性半监督分类函数。
其中,特征属性为步骤101中生成候选关系向量时向量中的人名词、词场包括的分词、分词的词性及位置信息等特征。决策属性为已确定的向量中的人物关系类型。
其中,V表示损失函数,F=[f(x1),...,f(xl+u)]T,γA和γI是用来控制第二项和第三项贡献度的系数。
根据扩充后的标注向量集中每个向量的特征属性和决策属性,将上述公式(7)转换为其解的形式,通过如下公式(2)构建出鲁棒路径正则化框架。
在公式(2)中,i和j均为扩充后标注向量集中向量的序号,Ni表示xi的领域,σ为权值控制参数,l为扩充前标注向量集包括的标注向量的数目,u为未标注向量集包括的未标注向量的数目,xi为扩充后标注向量集中第i个向量的特征属性,zi为第i个向量的人物关系的决策属性,f*(zi)为鲁棒路径正则化框架,K(xi,zi)表示参数为xi和zi的核函数。
通过上述方式构建出鲁棒路径正则化框架后,通过如下方式来构造非线性半监督分类函数,具体包括:
选择平方损失(yi-f(xi))2作为损失函数V代入公式(7)所示的鲁棒路径正则化框架f*中,可得公式(8)所示的目标函数:
公式(8)所示的目标函数的解的形式是一个关于l+u个变量α=[α1,...,αl+u]T的凸可微目标函数,如下公式(9)所示:
对公式(9)所示的凸可微目标函数进行关于α求导,得到公式(10):
对公式(10)的线性方程求解得到:
通过上述方式根据鲁棒路径正则化框架,获得凸可微目标函数;对凸可微目标函数进行求导后代入鲁棒路径正则化框架中,得到非线性半监督分类函数。即将α*代入到公式(2)所示的鲁棒路径正则化框架f*(zi)中,构造出如公式(3)所示的非线性半监督分类函数:
在公式(3)中,为对凸可微目标函数进行求导所得系数,l为扩充前标注向量集包括的标注向量的数目,u为未标注向量集包括的未标注向量的数目,xi为扩充后标注向量集中第i个向量的特征属性,zi为第i个向量的人物关系决策属性,f*(zi)为鲁棒路径正则化框架,K(xi,zi)表示参数为xi和zi的核函数。
通过上述方式构造出非线性半监督分类函数后,通过如下步骤103的操作根据扩充后的标注向量集,通过该非线性半监督分类函数来构建人物关系分类模型。
步骤103:通过非线性半监督分类函数对扩充后的标注向量集进行训练学习,得到人物关系分类模型。
通过上述公式(3)所示的非线性半监督分类函数对扩充后的标注向量集进行机器学习,即可得到人物关系分类模型。
步骤104:通过人物关系分类模型对候选关系测试集进行人物关系分类。
将步骤101获取的候选关系测试集输入步骤103得到的人物关系分类模型中,通过人物关系分类模型对候选关系测试集进行人物关系分类,从而实现对自由文本的人物关系分类分析,得到候选关系测试集中每个候选关系向量对应的人物关系类型。将候选关系测试集中的候选关系向量与该候选关系向量对应的人物关系类型进行对应存储。
本发明实施例中,基于鲁棒路径正则化的非线性半监督分类算法的基本原理为:基于鲁棒路径正则化的非线性半监督分类算法是通过鲁棒路径相似度捕获标注向量和未标注向量的流形结构,然后构造鲁棒路径正则项来描述流形的分布,利用流形正则化框架得到非线性半监督分类函数。本发明实施例所用的算法是在基于流形学习(ManifoldLearning)思想的流形正则化框架下,利用最大生成树算法计算出有效路径相似度对标注向量和未标注向量进行度量,加入鲁棒性原则,从而扩充标注向量集,形成基于鲁棒路径的正则化框架,从而构建出一种非线性半监督分类函数。其优势是把标注向量和未标注向量看成若干个点,构建成标注向量集和未标注向量集,再根据标注向量和未标注向量两点的有效相似度来度量未标注向量集中的未标注向量是否可以加入标注向量集,并加入了鲁棒性原则,从而来扩展标注向量集。
本发明实施例将正则化的半监督分类算法应用到人物关系的提取中,采用基于路径有效相似度的方式进行扩展标注向量集,并加入鲁棒性的作用,以消除噪声和孤立点的影响。如图3所示,本发明实施例的大致流程包括对原始的采样文本进行中文分词、词性标注、人名识别、指代消解得到词性和姓名标注好的语料集,然后进行句子切分及候选句选取,生成候选关系向量,组成候选关系训练集,然后通过基于鲁棒路径正则化的非线性半监督分类算法对候选关系集进行训练学习得到人物关系分类模型。将自由文本进行中文分词、词性标注、人名识别、指代消解得到词性和姓名标注好的语料集,然后进行句子切分及候选句选取,生成候选关系向量,组成候选关系测试集,将候选关系测试集输入人物关系分类模型,最终得到人物关系分类结果。
由于本发明实施例中,通过鲁棒路径相似度来扩充标注向量集,因此减少了人工标注语料,减少了人力资源的消耗和浪费,从而解决了需海量标注时人工标注语料的瓶颈问题。
在本发明实施例中,获取标注向量集、未标注向量集和候选关系测试集;根据标注向量集和未标注向量集,通过鲁棒路径相似度度量扩充标注向量集;通过非线性半监督分类函数对扩充后的标注向量集进行训练学习,得到人物关系分类模型;通过人物关系分类模型对候选关系测试集进行人物关系分类。本发明通过鲁棒路径相似度度量扩充标注向量集,并通过鲁棒性的作用消除噪声和孤立点的影响,减少了人工标注语料,减少了人力资源的消耗和浪费,解决了需海量标注时人工标注语料的瓶颈问题,且将正则化的半监督分类算法应用到人物关系提取中,提高了人物关系分类的效率。
实施例2
参见图4,本发明实施例提供了一种人物关系分类装置,该装置用于执行上述实施例1所提供的人物关系分类方法。该装置包括:
获取模块201,用于获取标注向量集、未标注向量集和候选关系测试集;
扩充模块202,用于根据标注向量集和未标注向量集,通过鲁棒路径相似度度量扩充标注向量集;
训练学习模块203,用于通过非线性半监督分类函数对扩充后的标注向量集进行训练学习,得到人物关系分类模型;
分类模块204,用于通过人物关系分类模型对候选关系测试集进行人物关系分类。
上述扩充模块202包括:
获取单元,用于从未标注向量集中获取第一未标注向量,第一未标注向量为未标注向量集包括的任一未标注向量;
计算单元,用于分别计算第一未标注向量与标注向量集包括的每个标注向量之间的鲁棒路径相似度;
添加单元,用于若计算的多个鲁棒路径相似度中最大的鲁棒路径相似度大于预设阈值,则将第一未标注向量添加在标注向量集中。
上述计算单元,用于根据第一未标注向量与标注向量集,通过如下公式(1)计算第一未标注向量与标注向量集包括的每个标注向量之间的鲁棒路径相似度;
在公式(1)中,i为第一未标注向量的序号,j为标注向量的序号,Sij为鲁棒路径相似度;P为第一未标注向量与标注向量之间的路径,|P|为路径P上的顶点数目,P[h]为路径P上的第h个顶点,P[h+1]为路径P上的第h+1个顶点;wP[h]P[h+1]为路径P上第h个顶点与第h+1个顶点之间的相似度;xi表示第一未标注向量,xj表示标注向量,参数σ用来控制相似度的变化速度,Ni表示第一未标注向量的领域。
该装置还包括:
构造模块,用于根据扩充后的标注向量集中每个向量的特征属性和决策属性,构建鲁棒路径正则化框架;根据鲁棒路径正则化框架,构造非线性半监督分类函数。
上述构造模块,用于根据扩充后的标注向量集中每个向量的特征属性和决策属性,通过如下公式(2)构建鲁棒路径正则化框架;
在公式(2)中,i和j均为扩充后标注向量集中向量的序号,Ni表示xi的领域,σ为权值控制参数,l为扩充前标注向量集包括的标注向量的数目,u为未标注向量集包括的未标注向量的数目,xi为扩充后标注向量集中第i个向量的特征属性,zi为第i个向量的人物关系的决策属性,f*(zi)为鲁棒路径正则化框架,K(xi,zi)表示参数为xi和zi的核函数。
上述构造摸,用于根据鲁棒路径正则化框架,获得凸可微目标函数;对凸可微目标函数进行求导后代入鲁棒路径正则化框架中,得到非线性半监督分类函数;
在公式(3)中,为对凸可微目标函数进行求导所得系数,l为扩充前标注向量集包括的标注向量的数目,u为未标注向量集包括的未标注向量的数目,xi为扩充后标注向量集中第i个向量的特征属性,zi为第i个向量的人物关系决策属性,f*(zi)为鲁棒路径正则化框架,K(xi,zi)表示参数为xi和zi的核函数
在本发明实施例中,获取模块201,用于对采样文本进行中文分词和词性标注,识别采样文本包含的人名词,并对采样文本中包含的人称代词进行指代消解;对采样文本进行句子切分,选取出包含人物关系的候选句;根据候选句中包括的人名词及人名词对应的词场,生成候选关系向量;从生成的候选关系向量中,选取预设数目个候选关系向量进行人物关系标注,将标注得到的标注向量组成标注向量集;将生成的候选关系向量中除预设数目个候选关系向量外的其他候选关系向量组成未标注向量集。
在本发明实施例中,获取标注向量集、未标注向量集和候选关系测试集;根据标注向量集和未标注向量集,通过鲁棒路径相似度度量扩充标注向量集;通过非线性半监督分类函数对扩充后的标注向量集进行训练学习,得到人物关系分类模型;通过人物关系分类模型对候选关系测试集进行人物关系分类。本发明通过鲁棒路径相似度度量扩充标注向量集,并通过鲁棒性的作用消除噪声和孤立点的影响,减少了人工标注语料,减少了人力资源的消耗和浪费,解决了需海量标注时人工标注语料的瓶颈问题,且将正则化的半监督分类算法应用到人物关系提取中,提高了人物关系分类的效率。
本发明实施例所提供的人物分类装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (7)
1.一种人物关系分类方法,其特征在于,所述方法包括:
获取标注向量集、未标注向量集和候选关系测试集;
根据所述标注向量集和所述未标注向量集,通过鲁棒路径相似度度量扩充所述标注向量集;
通过非线性半监督分类函数对扩充后的所述标注向量集进行训练学习,得到人物关系分类模型;
通过所述人物关系分类模型对所述候选关系测试集进行人物关系分类;
所述通过非线性半监督分类函数对扩充后的所述标注向量集进行训练学习,得到人物关系分类模型之前,还包括:
根据扩充后的所述标注向量集中每个向量的特征属性和决策属性,构建鲁棒路径正则化框架;
根据所述鲁棒路径正则化框架,构造非线性半监督分类函数;
所述根据扩充后的所述标注向量集和所述鲁棒路径相似度度量,构建鲁棒路径正则化框架,包括:
根据扩充后的所述标注向量集中每个向量的特征属性和决策属性,通过如下公式(2)构建鲁棒路径正则化框架;
2.根据权利要求1所述的方法,其特征在于,所述根据所述标注向量集和所述未标注向量集,通过鲁棒路径相似度度量方式扩充所述标注向量集,包括:
从所述未标注向量集中获取第一未标注向量,所述第一未标注向量为所述未标注向量集包括的任一未标注向量;
分别计算所述第一未标注向量与所述标注向量集包括的每个标注向量之间的鲁棒路径相似度;
若计算的多个鲁棒路径相似度中最大的鲁棒路径相似度大于预设阈值,则将所述第一未标注向量添加在所述标注向量集中。
3.根据权利要求2所述的方法,其特征在于,所述分别计算所述第一未标注向量与所述标注向量集包括的每个标注向量之间的鲁棒路径相似度,包括:
根据所述第一未标注向量与所述标注向量集,通过如下公式(1)计算所述第一未标注向量与所述标注向量集包括的每个标注向量之间的鲁棒路径相似度;
5.根据权利要求1所述的方法,其特征在于,所述获取标注向量集和未标注向量集,包括:
对采样文本进行中文分词和词性标注,识别所述采样文本包含的人名词,并对所述采样文本中包含的人称代词进行指代消解;
对所述采样文本进行句子切分,选取出包含人物关系的候选句;
根据候选句中包括的人名词及所述人名词对应的词场,生成候选关系向量;
从生成的所述候选关系向量中,选取预设数目个候选关系向量进行人物关系标注,将标注得到的标注向量组成标注向量集;
将生成的所述候选关系向量中除所述预设数目个候选关系向量外的其他候选关系向量组成未标注向量集。
6.一种人物关系分类装置,其特征在于,所述装置包括:
获取模块,用于获取标注向量集、未标注向量集和候选关系测试集;
扩充模块,用于根据所述标注向量集和所述未标注向量集,通过鲁棒路径相似度度量扩充所述标注向量集;
训练学习模块,用于通过非线性半监督分类函数对扩充后的所述标注向量集进行训练学习,得到人物关系分类模型;
分类模块,用于通过所述人物关系分类模型对所述候选关系测试集进行人物关系分类;
所述人物关系分类装置还包括:
构造模块,用于根据扩充后的所述标注向量集中每个向量的特征属性和决策属性,构建鲁棒路径正则化框架;根据所述鲁棒路径正则化框架,构造非线性半监督分类函数;所述根据扩充后的所述标注向量集和所述鲁棒路径相似度度量,构建鲁棒路径正则化框架,包括:
根据扩充后的所述标注向量集中每个向量的特征属性和决策属性,通过如下公式(2)构建鲁棒路径正则化框架;
7.根据权利要求6所述的装置,其特征在于,所述扩充模块包括:
获取单元,用于从所述未标注向量集中获取第一未标注向量,所述第一未标注向量为所述未标注向量集包括的任一未标注向量;
计算单元,用于分别计算所述第一未标注向量与所述标注向量集包括的每个标注向量之间的鲁棒路径相似度;
添加单元,用于若计算的多个鲁棒路径相似度中最大的鲁棒路径相似度大于预设阈值,则将所述第一未标注向量添加在所述标注向量集中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611193365.6A CN106778878B (zh) | 2016-12-21 | 2016-12-21 | 一种人物关系分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611193365.6A CN106778878B (zh) | 2016-12-21 | 2016-12-21 | 一种人物关系分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106778878A CN106778878A (zh) | 2017-05-31 |
CN106778878B true CN106778878B (zh) | 2020-06-26 |
Family
ID=58896920
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611193365.6A Active CN106778878B (zh) | 2016-12-21 | 2016-12-21 | 一种人物关系分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106778878B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110009113B (zh) * | 2018-01-02 | 2021-05-11 | 中国移动通信有限公司研究院 | 物联网设备自主学习方法、装置、设备、存储介质 |
CN109284398A (zh) * | 2018-09-29 | 2019-01-29 | 武汉烽火普天信息技术有限公司 | 一种改进双向gru和注意力模型的实体关系抽取方法 |
CN111259918B (zh) * | 2018-11-30 | 2023-06-20 | 重庆小雨点小额贷款有限公司 | 一种意图标签的标注方法、装置、服务器及存储介质 |
CN109871401B (zh) * | 2018-12-26 | 2021-05-25 | 北京奇安信科技有限公司 | 一种时间序列异常检测方法及装置 |
CN110457475B (zh) * | 2019-07-25 | 2023-06-30 | 创新先进技术有限公司 | 一种用于文本分类体系构建和标注语料扩充的方法和系统 |
CN110837732B (zh) * | 2019-10-31 | 2024-01-26 | 北京奇艺世纪科技有限公司 | 目标人物间亲密度识别方法、装置、电子设备及存储介质 |
CN112926621B (zh) * | 2021-01-21 | 2024-05-10 | 百度在线网络技术(北京)有限公司 | 数据标注方法、装置、电子设备及存储介质 |
CN115792807B (zh) * | 2023-02-13 | 2023-04-28 | 北京理工大学 | 基于孪生网络的半监督学习水下声源定位方法 |
-
2016
- 2016-12-21 CN CN201611193365.6A patent/CN106778878B/zh active Active
Non-Patent Citations (7)
Title |
---|
"Path-based clustering for grouping of smooth curves and texture segmentation";Bernd Fischer等;《IEEE Transactions on Pattern Analysis and Machine Intelligence》;20030430;第25卷(第4期);第513-518页 * |
"Robust path-based spectral clustering";Hong Chang等;《Pattern Recognition》;20080131;第41卷(第1期);第191-203页 * |
"Spectral clustering with density sensitive similarity function";Peng Yang等;《Knowledge-Based Systems》;20110201;第24卷(第5期);第621-628页 * |
"Spectral clustering: A semi-supervised approach";Weifu Chen等;《Neurocomputing》;20120201;第77卷(第1期);第229-242页 * |
"基于核函数距离测度的加权模糊C均值聚类与Markov空域约束的快速鲁棒图像分割";刘思远等;《计算机科学》;20060430;第33卷(第4期);第225-227、243页 * |
"基于路径相似度测量的鲁棒性谱聚类算法";范敏等;《计算机应用研究》;20150228;第32卷(第2期);第372-375页 * |
"鲁棒的特征权重自调节软子空间聚类算法";支晓斌等;《计算机应用》;20150310;第35卷(第3期);第770-774页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106778878A (zh) | 2017-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106778878B (zh) | 一种人物关系分类方法及装置 | |
Azpiazu et al. | Multiattentive recurrent neural network architecture for multilingual readability assessment | |
CN111914558A (zh) | 基于句袋注意力远程监督的课程知识关系抽取方法及系统 | |
JP2004110161A (ja) | テキスト文比較装置 | |
US11669740B2 (en) | Graph-based labeling rule augmentation for weakly supervised training of machine-learning-based named entity recognition | |
CN111767725A (zh) | 一种基于情感极性分析模型的数据处理方法及装置 | |
CN111666766B (zh) | 数据处理方法、装置和设备 | |
Mitchell et al. | Measuring data | |
CN111753082A (zh) | 基于评论数据的文本分类方法及装置、设备和介质 | |
CN111274829A (zh) | 一种利用跨语言信息的序列标注方法 | |
JP6535858B2 (ja) | 文書解析装置、プログラム | |
CN112800225B (zh) | 一种微博评论情绪分类方法和系统 | |
CN111507093A (zh) | 一种基于相似字典的文本攻击方法、装置及存储介质 | |
JP7155625B2 (ja) | 検査装置、検査方法、プログラム及び学習装置 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
Hasan et al. | Sentiment analysis using out of core learning | |
CN117540023A (zh) | 基于模态融合图卷积网络的图像联合文本情感分析方法 | |
CN113901224A (zh) | 基于知识蒸馏的涉密文本识别模型训练方法、系统及装置 | |
US20240028828A1 (en) | Machine learning model architecture and user interface to indicate impact of text ngrams | |
CN110309355A (zh) | 内容标签的生成方法、装置、设备及存储介质 | |
CN107291686B (zh) | 情感标识的辨识方法和情感标识的辨识系统 | |
Viswanathan et al. | Detection of duplicates in Quora and Twitter corpus | |
CN111681731A (zh) | 一种对检查报告进行自动颜色标注的方法 | |
CN113988085B (zh) | 文本语义相似度匹配方法、装置、电子设备及存储介质 | |
Giannakopoulos et al. | N-gram Graphs: Representing Documents and Document Sets in Summary System Evaluation. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PP01 | Preservation of patent right |
Effective date of registration: 20220726 Granted publication date: 20200626 |
|
PP01 | Preservation of patent right |