CN107844471A - 一种文本描写类型识别方法及装置 - Google Patents
一种文本描写类型识别方法及装置 Download PDFInfo
- Publication number
- CN107844471A CN107844471A CN201610836053.6A CN201610836053A CN107844471A CN 107844471 A CN107844471 A CN 107844471A CN 201610836053 A CN201610836053 A CN 201610836053A CN 107844471 A CN107844471 A CN 107844471A
- Authority
- CN
- China
- Prior art keywords
- collocation
- subset
- description
- type
- portrayer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
- G06F40/35—Discourse or dialogue representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明提供了一种文本描写类型识别方法及装置,其中方法包括:获取目标描写类型及所述目标描写类型的描写搭配种子集合,其中每个描写搭配由描写对象及描写词组成;根据第一预设规则及预先构建的无类型描写搭配集合对所述描写搭配种子集合进行增长,以得到描写搭配扩展集合;获取待识别的文本数据,并根据所述描写搭配扩展集合识别所述文本数据是否包含所述目标描写类型。本发明从目标描写类型的描写搭配种子集合出发,得到描写搭配扩展集合,然后据此识别所述文本数据是否包含所述目标描写类型,从而实现了目标描写类型识别的自动化,大大减少了人工工作量,提高了识别的效率,同时避免了人工主观识别的负面影响,从而也提高了识别的准确性。
Description
技术领域
本发明涉及自然语言处理领域,尤其涉及一种文本描写类型识别方法及装置。
背景技术
写作是人们日常生活和学习中必不可少的实用技能,也是学校教育中要求学生重点掌握的必备能力。如果要写出文字规范、文笔优美、结构清晰的高质量的作品,需要写作人员能够掌握较好的写作能力与技巧,尤其是需要能够熟练使用常用的表达方式,如“记叙”、“议论”、“描写”、“说明”等。其中,“描写”就是用生动形象的语言,把人物或景物的状态具体地描绘出来,其作用是再现自然景色中的事物形状,描绘人物的形貌及内心世界,使用人物活动的环境具体化。进一步的,“描写”按照描写目标的不同又可以细分为多种描写类型,如景物描写、肖像描写、心理描写、神态描写,等等。
识别出文学作品或其它文本中的描写表达方式的类型,或者说是判断文本数据中是否包含某种指定的描写类型(即目标描写类型),对于自动作文评分、写作助手、写作例句搜索等应用具有重要意义。例如,对学生语文作文进行描写类型识别可判断一篇作文的写作质量,如以风景描写为题的作文中,应该包含大量景物描写类型的内容。在现有技术中,识别文本数据中是否包含目标描写类型时,一般需要人工查看相应文本内容,然后根据人工对文本内容的理解,主观给出当前文本数据中是否包含目标描写类型。例如当目标描写类型为景物描写类型时,需要人工查看待识别文本数据后,根据文本内容,判断出当前文本数据中是否包含景物描写类型。
然而发明人在实现本发明的过程中发现,随着信息技术的发展,文本数据量变得非常庞大,例如当面对成千上万篇学生考试作文时,如果由人工一篇篇查看作文内容再给出目标描写类型识别结果,则工作量太大,识别效率非常低。另外,现有方法一般是由人工根据对文本内容的理解后给出的识别结果,然而不同人对同一文本内容的理解经常会存在差异,导致给出的识别结果可能也存在较大差异,从而影响目标描写类型识别结果的准确度,尤其对于学生考试的作文识别,如果出现识别错误,则会造成较大的负面影响。
发明内容
本发明提供一种文本描写类型识别方法及装置,以解决当前对文本描写类型进行识别时效率不高且准确度较低的技术问题。
根据本发明实施例的第一方面,提供一种文本描写类型识别方法,所述方法包括:
获取目标描写类型及所述目标描写类型的描写搭配种子集合,其中每个描写搭配由描写对象及描写词组成;
根据第一预设规则及预先构建的无类型描写搭配集合对所述描写搭配种子集合进行增长,以得到描写搭配扩展集合;
获取待识别的文本数据,并根据所述描写搭配扩展集合识别所述文本数据是否包含所述目标描写类型。
可选的,根据第一预设规则及预先构建的无类型描写搭配集合对所述描写搭配种子集合进行增长,包括:
i、在所述描写搭配种子集合中对描写对象进行聚类,以得到一个或多个聚类后的描写对象子集;
ii、根据第二预设规则及所述无类型描写搭配集合,对每个所述子集进行扩展,以实现所述种子集合的增长;
iii、判断所述描写搭配种子集合中增加的描写搭配的数量是否超过第一阈值,如果超过第一阈值,则继续执行步骤i以对所述描写搭配种子集合继续进行增长。
可选的,根据第二预设规则及所述无类型描写搭配集合,对每个所述子集进行扩展,以实现所述种子集合的增长,包括:
将所述子集作为原始子集并根据所述原始子集中描写对象的描写词在所述无类型描写搭配集合中获取与所述描写词相对应的描写对象,并将其中未出现在所述原始子集中的描写对象与所述原始子集中的描写对象组成临时子集;
在所述临时子集中进行聚类,以得到一个或多个聚类后的子子集,并根据每个子子集与所述原始子集之间的语义距离对所述临时子集进行过滤,以得到扩展后的子集;
在所述无类型描写搭配集合中获取与所述扩展后的子集中的描写对象相对应的描写词作为新描写词,然后将每个新描写词与所述扩展后的子集中的所有描写对象分别组成新描写搭配;
对于每个新描写词,如果所述新描写词对应的新描写搭配在所述无类型描写搭配集合中的出现次数大于第二阈值,则将所述新描写词对应的各新描写搭配加入到所述种子集合,以实现所述种子集合的增长。
可选的,根据每个子子集与所述原始子集之间的语义距离对所述临时子集进行过滤,包括:
计算所述原始子集的质心向量;
计算每个子子集的质心向量;
计算每个子子集的质心向量与所述原始子集的质心向量之间的距离,以作为每个子子集与所述原始子集之间的语义距离;
在所述临时子集中滤除所述语义距离大于第三阈值的子子集。
可选的,根据所述描写搭配扩展集合识别所述文本数据是否包含所述目标描写类型,包括:
获取所述文本数据中的描写搭配;
将获取的描写搭配与所述描写搭配扩展集合中的描写搭配进行语义匹配;
如果有至少一个描写搭配语义匹配成功,则确定所述文本数据包含所述目标描写类型。
可选的,所述方法还包括以下预先构建无类型描写搭配集合的步骤:
收集文本数据样本;
对所述文本数据样本进行分词,并标注每个词的词性;
根据依存句法获取所述文本数据样本中词与词之间的依存关系;
根据所述词与词之间的依存关系及每个词的词性从所述文本数据样本中抽取出描写搭配,以构建所述无类型描写搭配集合。
根据本发明实施例的第二方面,提供一种文本描写类型识别装置,所述装置包括:
种子集合获取单元,用于获取目标描写类型及所述目标描写类型的描写搭配种子集合,其中每个描写搭配由描写对象及描写词组成;
种子集合增长单元,用于根据第一预设规则及预先构建的无类型描写搭配集合对所述描写搭配种子集合进行增长,以得到描写搭配扩展集合;
目标描写类型识别单元,用于获取待识别的文本数据,并根据所述描写搭配扩展集合识别所述文本数据是否包含所述目标描写类型。
可选的,所述种子集合增长单元,包括:
聚类子单元,用于在所述描写搭配种子集合中对描写对象进行聚类,以得到一个或多个聚类后的描写对象子集;
扩展子单元,用于根据第二预设规则及所述无类型描写搭配集合,对每个所述子集进行扩展,以实现所述种子集合的增长;
增长判断子单元,用于判断所述描写搭配种子集合中增加的描写搭配的数量是否超过第一阈值,如果超过第一阈值,则继续触发所述聚类子单元以对所述描写搭配种子集合继续进行增长。
可选的,所述扩展子单元用于:
将所述子集作为原始子集并根据所述原始子集中描写对象的描写词在所述无类型描写搭配集合中获取与所述描写词相对应的描写对象,并将其中未出现在所述原始子集中的描写对象与所述原始子集中的描写对象组成临时子集;
在所述临时子集中进行聚类,以得到一个或多个聚类后的子子集,并根据每个子子集与所述原始子集之间的语义距离对所述临时子集进行过滤,以得到扩展后的子集;
在所述无类型描写搭配集合中获取与所述扩展后的子集中的描写对象相对应的描写词作为新描写词,然后将每个新描写词与所述扩展后的子集中的所有描写对象分别组成新描写搭配;
对于每个新描写词,如果所述新描写词对应的新描写搭配在所述无类型描写搭配集合中的出现次数大于第二阈值,则将所述新描写词对应的各新描写搭配加入到所述种子集合,以实现所述种子集合的增长。
可选的,根据每个子子集与所述原始子集之间的语义距离对所述临时子集进行过滤,包括:
计算所述原始子集的质心向量;
计算每个子子集的质心向量;
计算每个子子集的质心向量与所述原始子集的质心向量之间的距离,以作为每个子子集与所述原始子集之间的语义距离;
在所述临时子集中滤除所述语义距离大于第三阈值的子子集。
可选的,所述目标描写类型识别单元用于:
获取所述文本数据中的描写搭配;
将获取的描写搭配与所述描写搭配扩展集合中的描写搭配进行语义匹配;
如果有至少一个描写搭配语义匹配成功,则确定所述文本数据包含所述目标描写类型。
可选的,所述装置还包括:
无类型描写搭配集合构建单元,用于:收集文本数据样本;对所述文本数据样本进行分词,并标注每个词的词性;根据依存句法获取所述文本数据样本中词与词之间的依存关系;根据所述词与词之间的依存关系及每个词的词性从所述文本数据样本中抽取出描写搭配,以构建所述无类型描写搭配集合。
本发明的实施例提供的技术方案可以包括以下有益效果:
当需要判断文本数据中是否包含目标描写类型(例如景物描写)时,本发明从目标描写类型的描写搭配种子集合出发,根据预先构建的无类型描写搭配集合对所述种子集合进行一次或多次增长,得到描写搭配扩展集合,然后便可根据所述描写搭配扩展集合识别所述文本数据是否包含所述目标描写类型,从而实现了目标描写类型识别的自动化,大大减少了人工工作量,提高了识别的效率。同时,由于识别时是基于描写搭配等客观信息,避免了人工主观识别的负面影响,从而也提高了识别的准确性。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。此外,这些介绍并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本发明一示例性实施例示出的一种文本描写类型识别方法的流程图;
图2是根据本发明一示例性实施例示出的一种文本描写类型识别方法的流程图;
图3是根据本发明一示例性实施例示出的依存关系示意图;
图4是根据本发明一示例性实施例示出的依存关系示意图;
图5是根据本发明一示例性实施例示出的依存关系示意图;
图6是根据本发明一示例性实施例示出的依存关系示意图;
图7是根据本发明一示例性实施例示出的依存关系示意图;
图8是根据本发明一示例性实施例示出的一种文本描写类型识别装置的示意图;
图9是根据本发明一示例性实施例示出的一种文本描写类型识别装置的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
图1是根据本发明一示例性实施例示出的一种文本描写类型识别方法的流程图。该方法例如可用于手机、电脑等终端或服务器等。
参见图1所示,该方法可以包括:
步骤S101,获取目标描写类型及所述目标描写类型的描写搭配种子集合,其中每个描写搭配由描写对象及描写词组成。
作为示例,描写类型按照描写目标可以分为景物描写、肖像描写、心理描写、神态描写等。所述目标描写类型可以根据应用需求确定,例如需要识别的目标描写类型可以为景物描写类型等。根据所确定的目标描写类型,普通用户或领域专家可给出一个含有该目标描写类型下的少量描写搭配的集合作为种子集合(也可称为初始集合),例如种子集合可以包含10到20个描写搭配,等等。
其中,每个描写搭配由描写对象及描写词组成。描写类型的表达使用描写搭配作为基本单元,所述描写搭配包含描写对象和描写词,表示为:
描写搭配=<描写对象,描写词>
所述描写对象指被描述的人物、景物、物体、属性等,所述描写词则指能够形象化地描述描写对象的词汇。例如,<景色,优美>,<风景,秀丽>,等等这些每个都是一个描写搭配。
那么作为示例,景物描写类型的描写搭配种子集合可以为:
种子集合:{<景色,优美>,<风景,秀丽>,<风景,美丽>,<大海,波澜壮阔>,<天空,晴朗>,<春风,怡人>}
步骤S102,根据第一预设规则及预先构建的无类型描写搭配集合对所述描写搭配种子集合进行增长,以得到描写搭配扩展集合。
为了对文本数据进行描写类型的识别,只有包含少量描写搭配的种子集合是不够的,需要对该种子集合进行扩展,或者说是增长。无类型描写搭配集合是一个包含众多描写搭配且各描写搭配都未确定描写类型的集合,也可称为基础描写搭配集合,或者通用描写搭配集合。
对于基于无类型描写搭配集合具体如何对种子集合进行增长,本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行选择、设计,可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。
步骤S103,获取待识别的文本数据,并根据所述描写搭配扩展集合识别所述文本数据是否包含所述目标描写类型。
例如,可以在待识别的文本数据中对所述扩展集合内的描写搭配进行匹配,如果匹配到的数量足够多,则就可以认为该文本数据中包含了所述目标描写类型。
当需要判断文本数据中是否包含目标描写类型(例如景物描写)时,本实施例从目标描写类型的描写搭配种子集合出发,根据预先构建的无类型描写搭配集合对所述种子集合进行一次或多次增长,得到描写搭配扩展集合,然后便可根据所述描写搭配扩展集合识别所述文本数据是否包含所述目标描写类型,从而实现了目标描写类型识别的自动化,大大减少了人工工作量,提高了识别的效率。同时,由于识别时是基于描写搭配等客观信息,避免了人工主观识别的负面影响,从而也提高了识别的准确性。
在本发明中,对描写搭配进行扩展可基于如下客观规律:
第一,给定描写类型,描写对象具有语义多样性。例如:“大海,河流,太平洋”和“田野、原野,田园”等均是景物描写的描写对象,然而在语义上它们有一定的区别。
第二,给定描写类型,描写对象在语义上具有局部内聚性。如上例中:“大海,河流,太平洋”和“田野、原野,田园”可视为不同的描写对象簇,这些簇的内部具有较强的语义相似性。
第三,相似的描写对象具有相似的描写词,如:“风景”和“景色”都可以被“美丽”、“秀丽”、“怡人”等词语修饰。因此,可以通过描写词获取新的描写对象,也可以通过描写对象获得新的描写词。
参见图2所示,作为示例,在本实施例或本发明其他某些实施例中,对于步骤S102,即根据第一预设规则及预先构建的无类型描写搭配集合对所述描写搭配种子集合进行增长,可以包括以下子步骤:
步骤S201,在所述描写搭配种子集合中对描写对象进行聚类,以得到一个或多个聚类后的描写对象子集。
例如具体的聚类方法可以使用现有技术,例如将描写对象向量化后,得到每个描写对象的词向量,计算种子集合中描写对象之间的词向量的距离,将彼此距离低于阈值的描写对象聚到同一类中,从而形成一个子集。
作为示例,假设目标描写类型为景物描写,景物描写类型的描写搭配种子集合为:
种子集合:{<景色,优美>,<风景,秀丽>,<风景,美丽>,<大海,波澜壮阔>,<天空,晴朗>,<春风,怡人>}
那么在种子集合内对描写对象聚类后可得到如下聚类结果:
子集1:{景色,风景}
子集2:{大海,天空}
子集3:{春风}
步骤S202,根据第二预设规则及所述无类型描写搭配集合,对每个所述子集进行扩展,以实现所述种子集合的增长。
对于第二预设规则的具体内容本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行设计,可以在此处使用的这些设计都没有背离本发明的精神和保护范围。
步骤S203,判断所述描写搭配种子集合中增加的描写搭配的数量是否超过第一阈值,如果超过第一阈值,则继续执行步骤S201以对所述描写搭配种子集合继续进行增长。
如果增加的数量一直超过第一阈值,则代表增长的势头强劲,应使种子集合继续新的一轮增长(即返回到步骤S201);而如果本轮增加的数量不再超过第一阈值,则代表已收敛,增长变得缓慢甚至停止,于是可以终止增长过程。
在本实施例或本发明其他某些实施例中,对于步骤S202,即根据第二预设规则及所述无类型描写搭配集合,对每个所述子集进行扩展,以实现所述种子集合的增长,可以包括如下子步骤:
步骤a,将所述子集作为原始子集并根据所述原始子集中描写对象的描写词在所述无类型描写搭配集合中获取与所述描写词相对应的描写对象,并将其中未出现在所述原始子集中的描写对象与所述原始子集中的描写对象组成临时子集。
以上述子集1也即原始子集1{景色,风景}中的描写对象对应的描写词“优美”、“秀丽”、“美丽”为例,可以找到这三个描写词在无类型描写搭配集合中对应的描写对象分别为:“乐曲”、“风光”、“山河”,“姑娘”,其中“乐曲”根据描写词“优美”得到,“风光”和“山河”根据描写词“秀丽”得到,“姑娘”根据描写词“美丽”得到。由于扩展的这四个描写对象都不在原始子集1中,因此可以将这四个描写对象与原始子集1中的描写对象组成临时子集1:
临时子集1:{景色,风景,乐曲,风光,山河,姑娘}
步骤b,在所述临时子集中进行聚类,以得到一个或多个聚类后的子子集,并根据每个子子集与所述原始子集之间的语义距离对所述临时子集进行过滤,以得到扩展后的子集。
对于具体使用的聚类技术本实施例并不进行限制,本领域技术人员可以根据不同需求\不同场景而自行选择、设计,可以在此处使用的这些选择和设计都没有背离本发明的精神和保护范围。
例如对于临时子集1{景色,风景,乐曲,风光,山河,姑娘},聚类后得到的各子子集为:
子子集1:{景色,风景,风光}
子子集2:{山河}
子子集3:{乐曲}
子子集4:{姑娘}
然后,根据每个子子集与所述原始子集之间的语义距离对所述临时子集进行过滤。作为示例可以包括如下子步骤:
步骤b1,计算所述原始子集的质心向量。
承接上例,即计算原始子集1{景色,风景}的质心向量。
步骤b2,计算每个子子集的质心向量。
具体计算质心向量时可以使用现有技术,本实施例不再赘述。
步骤b3,计算每个子子集的质心向量与所述原始子集的质心向量之间的距离,以作为每个子子集与所述原始子集之间的语义距离。
所述语义距离使用两个质心向量之间的距离表示,所述距离如余弦距离、欧式距离等,不再赘述。
步骤b4,在所述临时子集中滤除所述语义距离大于第三阈值的子子集。
例如子子集3{乐曲}和子子集4{姑娘}与原始子集1的语义距离均大于第三阈值,应该被滤除,那么过滤后的临时子集1,也即扩展后的子集1为:
扩展后的子集1:{景色,风景,风光,山河}
步骤c,在所述无类型描写搭配集合中获取与所述扩展后的子集中的描写对象相对应的描写词作为新描写词,然后将每个新描写词与所述扩展后的子集中的所有描写对象分别组成新描写搭配。
例如,扩展后的子集1中当前包含的描写对象是{景色,风景,风光,山河},则在无类型描写搭配集合中分别查找这四个描写对象所对应的描写词。以描写对象“景色”为例,查到新描写词“秀美”,那么将新描写词“秀美”分别与扩展后的子集1中每个描写对象组成新描写搭配:
<景色,秀美>,<风景,秀美>,<风光,秀美>,<山河,秀美>
步骤d,对于每个新描写词,如果所述新描写词对应的新描写搭配在所述无类型描写搭配集合中的出现次数大于第二阈值,则将所述新描写词对应的各新描写搭配加入到所述种子集合,以实现所述种子集合的增长。
容易理解的是,如果一个新描写搭配已经是种子集合中的描写搭配了,则该描写搭配不必再加入到种子集合中。换句话说,在将新描写搭配加入到种子集合时,是以一种去重的方式加入的。
承接上例,新描写词“秀美”分别与扩展后的子集1中每个描写对象组成的新描写搭配为:<景色,秀美>,<风景,秀美>,<风光,秀美>,<山河,秀美>。查找上述描写搭配是否出现在无类型描写搭配集合中。经查找这四个描写搭配均有出现,即新描写词“秀美”对应的新描写搭配在无类型描写搭配集合中的出现次数为4,大于预先设定的第二阈值(如3个),那么就将该新描写词对应的这四个新描写搭配均加入到种子集合中。
同理,再依次对扩展后的子集1中的其他描写对象“风景”、“风光”、“山河”实施上述步骤c和步骤d,然后再对子集2、子集3等其他子集实施上述步骤a~步骤d,以将更多的新描写搭配加入到种子集合中,从而对种子集合进行一轮增长。本轮增长完毕之后,该描写搭配种子集合是否已经可以作为描写搭配扩展集合,也即该种子集合是否增长结束,需要在步骤S203中进行判断,如果增长未结束则跳回步骤S201中进行新的一轮增长。
在本实施例或本发明其他某些实施例中,对于步骤S103,即根据所述描写搭配扩展集合识别所述文本数据是否包含所述目标描写类型,可以包括以下子步骤:
i)获取所述文本数据中的描写搭配。
作为示例,可以根据文本数据中词与词之间的依存关系及每个词的词性抽取文本数据中的描写搭配。
ii)将获取的描写搭配与所述描写搭配扩展集合中的描写搭配进行语义匹配。
具体匹配时,可以分别计算所获取的描写搭配的描写对象和描写词与所述扩展集合中描写搭配的描写对象和描写词的语义相似度,如果语义相似度超过语一个第四阈值,则认为匹配成功。
作为示例,所述语义相似度的计算方法可以使用现有技术,例如分别将描写搭配中的描写对象与描写词向量化,计算向量之间的语义距离,距离越小,语义相似度越高,所述距离如余弦距离、欧式距离等。
iii)如果有至少一个描写搭配语义匹配成功,则确定所述文本数据包含所述目标描写类型。
换句话说,只要是所述文本数据中有一个描写搭配与所述描写搭配扩展集合中的一个描写搭配匹配成功了,则即可以确定所述文本数据包含所述目标描写类型。
作为示例,假设目标描写类型为景物描写类型,待识别的文本数据为:
“置身于美丽的峡谷间,令人心旷神怡”
先根据该文本数据中词与词之间的依存关系及每个词的词性可以抽取出描写搭配<峡谷,美丽>,然后将所述描写搭配与景物描写类型的描写搭配扩展集合中每个描写搭配进行匹配。经匹配,与描写搭配<山河,秀丽>的语义匹配成功,那么此时便可认为待识别的文本数据中包含景物描写类型。
此外,在本实施例或本发明其他某些实施例中,所述方法还可以包括以下预先构建无类型描写搭配集合的步骤:
1)收集文本数据样本。
2)对所述文本数据样本进行分词,并标注每个词的词性。
分词时可以使用现有技术,如使用基于条件随机场的方法对文本数据进行分词,同时标注出相应词性。
3)根据依存句法获取所述文本数据样本中词与词之间的依存关系。
依存句法分析方法为现有技术,如图3为对“北京是中国的首都”进行依存句法分析的结果,其中,每个词下方字符为每个词的词性,词上方是依存句法分析结果,分析结果中的有向弧表示词与词之间存在依赖,弧上的标签表示依存关系,其中,HED表示核心关系,SBV表示主谓关系,VOB表示动宾关系,ATT表示定中关系,RAD表示右附加关系,WP表示标点符号关系。对于图3等图中用于指示词性的n、a、r、u、d、nl、wp、nd等字符,以及依存句法分析时的标记方式,均为现有技术,不再赘述。
4)根据所述词与词之间的依存关系及每个词的词性从所述文本数据样本中抽取出描写搭配,以构建所述无类型描写搭配集合。
下面对于抽取规则进行举例说明:
4a)抽取表示修饰关系的词对
如果两个词的依存关系为ATT,且修饰词的词性为形容词(a),被修饰的词性为名词(n),则抽取该词对作为一个描写搭配,名词作为描写对象,形容词作为描写词,括号中字符表示词性,如图4“晶莹的泪光中看见父亲的背影”的依存关系图,其中,“泪光”与“晶莹”的依存关系为ATT,“晶莹”为形容词,“泪光”为名词,根据该规则抽取<泪光,晶莹>作为描写搭配。
4b)抽取表示主语和表语关系的词对
与主语对象直接构成SBV关系的形容词,作为描写词,主语作为描写对象,抽取相应描写搭配,如图5“她的眼睛很漂亮”的依存关系图中,“眼睛”与“漂亮”的依存关系为SBV,“漂亮”为形容词,根据该规则抽取<眼睛,漂亮>作为一个描写搭配。
4c)抽取表示主语-谓语-表语的词对
如果两个词之间的依存关系路径为SBV-VOB,且主语的词性为名词,与谓语构成VOB关系的宾语词性为形容词,则抽取主语与谓语的宾语作为一个描写搭配,其中主语作为描写对象,宾语作为描写词,如图6为“心里感到难过”的依存关系图,其中,“心里”、“感到”及“难过”构成SBV-VOB关系,且“心里”为名词,“难过”为形容词,则可以抽取<心里,难过>作为一个描写搭配。
4d)抽取表示主语-谓语的词对
如果两个词之间的依存关系为SBV,且主语的词性为名词,谓语的词性为动词,则抽取该词对作为一个描写搭配,其中,名词作为描写对象,动词作为描写词,如图7为“父亲停下脚步”的依存关系图,根据该规则抽取<父亲,停下>作为一个描写搭配。
所述描写搭配抽取规则中4a)、4b)、4c)抽取描写词为形容词的描写搭配,如在肖像描写类型、景物描写类型中形容词是主要用于描写的词;抽取规则4d)主要用于抽取描写词为动词的描写搭配,如在动作描写类型中主要以动词作为描写词。
当需要判断文本数据中是否包含目标描写类型(例如景物描写)时,本实施例从目标描写类型的描写搭配种子集合出发,根据预先构建的无类型描写搭配集合对所述种子集合进行一次或多次增长,得到描写搭配扩展集合,然后便可根据所述描写搭配扩展集合识别所述文本数据是否包含所述目标描写类型,从而实现了目标描写类型识别的自动化,大大减少了人工工作量,提高了识别的效率。同时,由于识别时是基于描写搭配等客观信息,避免了人工主观识别的负面影响,从而也提高了识别的准确性。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图8是根据本发明一示例性实施例示出的一种文本描写类型识别装置的示意图。该装置例如可用于手机、电脑等终端或服务器等。
参见图8所示,该装置可以包括:
种子集合获取单元801,用于获取目标描写类型及所述目标描写类型的描写搭配种子集合,其中每个描写搭配由描写对象及描写词组成;
种子集合增长单元802,用于根据第一预设规则及预先构建的无类型描写搭配集合对所述描写搭配种子集合进行增长,以得到描写搭配扩展集合;
目标描写类型识别单元803,用于获取待识别的文本数据,并根据所述描写搭配扩展集合识别所述文本数据是否包含所述目标描写类型。
参见图9所示,在本实施例或本发明其他某些实施例中,所述种子集合增长单元802,可以包括:
聚类子单元8021,用于在所述描写搭配种子集合中对描写对象进行聚类,以得到一个或多个聚类后的描写对象子集;
扩展子单元8022,用于根据第二预设规则及所述无类型描写搭配集合,对每个所述子集进行扩展,以实现所述种子集合的增长;
增长判断子单元8023,用于判断所述描写搭配种子集合中增加的描写搭配的数量是否超过第一阈值,如果超过第一阈值,则继续触发所述聚类子单元以对所述描写搭配种子集合继续进行增长。
在本实施例或本发明其他某些实施例中,所述扩展子单元可以用于:
将所述子集作为原始子集并根据所述原始子集中描写对象的描写词在所述无类型描写搭配集合中获取与所述描写词相对应的描写对象,并将其中未出现在所述原始子集中的描写对象与所述原始子集中的描写对象组成临时子集;
在所述临时子集中进行聚类,以得到一个或多个聚类后的子子集,并根据每个子子集与所述原始子集之间的语义距离对所述临时子集进行过滤,以得到扩展后的子集;
在所述无类型描写搭配集合中获取与所述扩展后的子集中的描写对象相对应的描写词作为新描写词,然后将每个新描写词与所述扩展后的子集中的所有描写对象分别组成新描写搭配;
对于每个新描写词,如果所述新描写词对应的新描写搭配在所述无类型描写搭配集合中的出现次数大于第二阈值,则将所述新描写词对应的各新描写搭配加入到所述种子集合,以实现所述种子集合的增长。
在本实施例或本发明其他某些实施例中,根据每个子子集与所述原始子集之间的语义距离对所述临时子集进行过滤,包括:
计算所述原始子集的质心向量;
计算每个子子集的质心向量;
计算每个子子集的质心向量与所述原始子集的质心向量之间的距离,以作为每个子子集与所述原始子集之间的语义距离;
在所述临时子集中滤除所述语义距离大于第三阈值的子子集。
在本实施例或本发明其他某些实施例中,所述目标描写类型识别单元可以用于:
获取所述文本数据中的描写搭配;
将获取的描写搭配与所述描写搭配扩展集合中的描写搭配进行语义匹配;
如果有至少一个描写搭配语义匹配成功,则确定所述文本数据包含所述目标描写类型。
此外,在本实施例或本发明其他某些实施例中,所述装置还可以包括:
无类型描写搭配集合构建单元,用于:收集文本数据样本;对所述文本数据样本进行分词,并标注每个词的词性;根据依存句法获取所述文本数据样本中词与词之间的依存关系;根据所述词与词之间的依存关系及每个词的词性从所述文本数据样本中抽取出描写搭配,以构建所述无类型描写搭配集合。
当需要判断文本数据中是否包含目标描写类型(例如景物描写)时,本实施例从目标描写类型的描写搭配种子集合出发,根据预先构建的无类型描写搭配集合对所述种子集合进行一次或多次增长,得到描写搭配扩展集合,然后便可根据所述描写搭配扩展集合识别所述文本数据是否包含所述目标描写类型,从而实现了目标描写类型识别的自动化,大大减少了人工工作量,提高了识别的效率。同时,由于识别时是基于描写搭配等客观信息,避免了人工主观识别的负面影响,从而也提高了识别的准确性。
关于上述实施例中的装置,其中各个单元\模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由所附的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。
Claims (12)
1.一种文本描写类型识别方法,其特征在于,所述方法包括:
获取目标描写类型及所述目标描写类型的描写搭配种子集合,其中每个描写搭配由描写对象及描写词组成;
根据第一预设规则及预先构建的无类型描写搭配集合对所述描写搭配种子集合进行增长,以得到描写搭配扩展集合;
获取待识别的文本数据,并根据所述描写搭配扩展集合识别所述文本数据是否包含所述目标描写类型。
2.根据权利要求1所述的方法,其特征在于,根据第一预设规则及预先构建的无类型描写搭配集合对所述描写搭配种子集合进行增长,包括:
i、在所述描写搭配种子集合中对描写对象进行聚类,以得到一个或多个聚类后的描写对象子集;
ii、根据第二预设规则及所述无类型描写搭配集合,对每个所述子集进行扩展,以实现所述种子集合的增长;
iii、判断所述描写搭配种子集合中增加的描写搭配的数量是否超过第一阈值,如果超过第一阈值,则继续执行步骤i以对所述描写搭配种子集合继续进行增长。
3.根据权利要求2所述的方法,其特征在于,根据第二预设规则及所述无类型描写搭配集合,对每个所述子集进行扩展,以实现所述种子集合的增长,包括:
将所述子集作为原始子集并根据所述原始子集中描写对象的描写词在所述无类型描写搭配集合中获取与所述描写词相对应的描写对象,并将其中未出现在所述原始子集中的描写对象与所述原始子集中的描写对象组成临时子集;
在所述临时子集中进行聚类,以得到一个或多个聚类后的子子集,并根据每个子子集与所述原始子集之间的语义距离对所述临时子集进行过滤,以得到扩展后的子集;
在所述无类型描写搭配集合中获取与所述扩展后的子集中的描写对象相对应的描写词作为新描写词,然后将每个新描写词与所述扩展后的子集中的所有描写对象分别组成新描写搭配;
对于每个新描写词,如果所述新描写词对应的新描写搭配在所述无类型描写搭配集合中的出现次数大于第二阈值,则将所述新描写词对应的各新描写搭配加入到所述种子集合,以实现所述种子集合的增长。
4.根据权利要求3所述的方法,其特征在于,根据每个子子集与所述原始子集之间的语义距离对所述临时子集进行过滤,包括:
计算所述原始子集的质心向量;
计算每个子子集的质心向量;
计算每个子子集的质心向量与所述原始子集的质心向量之间的距离,以作为每个子子集与所述原始子集之间的语义距离;
在所述临时子集中滤除所述语义距离大于第三阈值的子子集。
5.根据权利要求1所述的方法,其特征在于,根据所述描写搭配扩展集合识别所述文本数据是否包含所述目标描写类型,包括:
获取所述文本数据中的描写搭配;
将获取的描写搭配与所述描写搭配扩展集合中的描写搭配进行语义匹配;
如果有至少一个描写搭配语义匹配成功,则确定所述文本数据包含所述目标描写类型。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括以下预先构建无类型描写搭配集合的步骤:
收集文本数据样本;
对所述文本数据样本进行分词,并标注每个词的词性;
根据依存句法获取所述文本数据样本中词与词之间的依存关系;
根据所述词与词之间的依存关系及每个词的词性从所述文本数据样本中抽取出描写搭配,以构建所述无类型描写搭配集合。
7.一种文本描写类型识别装置,其特征在于,所述装置包括:
种子集合获取单元,用于获取目标描写类型及所述目标描写类型的描写搭配种子集合,其中每个描写搭配由描写对象及描写词组成;
种子集合增长单元,用于根据第一预设规则及预先构建的无类型描写搭配集合对所述描写搭配种子集合进行增长,以得到描写搭配扩展集合;
目标描写类型识别单元,用于获取待识别的文本数据,并根据所述描写搭配扩展集合识别所述文本数据是否包含所述目标描写类型。
8.根据权利要求7所述的装置,其特征在于,所述种子集合增长单元,包括:
聚类子单元,用于在所述描写搭配种子集合中对描写对象进行聚类,以得到一个或多个聚类后的描写对象子集;
扩展子单元,用于根据第二预设规则及所述无类型描写搭配集合,对每个所述子集进行扩展,以实现所述种子集合的增长;
增长判断子单元,用于判断所述描写搭配种子集合中增加的描写搭配的数量是否超过第一阈值,如果超过第一阈值,则继续触发所述聚类子单元以对所述描写搭配种子集合继续进行增长。
9.根据权利要求8所述的装置,其特征在于,所述扩展子单元用于:
将所述子集作为原始子集并根据所述原始子集中描写对象的描写词在所述无类型描写搭配集合中获取与所述描写词相对应的描写对象,并将其中未出现在所述原始子集中的描写对象与所述原始子集中的描写对象组成临时子集;
在所述临时子集中进行聚类,以得到一个或多个聚类后的子子集,并根据每个子子集与所述原始子集之间的语义距离对所述临时子集进行过滤,以得到扩展后的子集;
在所述无类型描写搭配集合中获取与所述扩展后的子集中的描写对象相对应的描写词作为新描写词,然后将每个新描写词与所述扩展后的子集中的所有描写对象分别组成新描写搭配;
对于每个新描写词,如果所述新描写词对应的新描写搭配在所述无类型描写搭配集合中的出现次数大于第二阈值,则将所述新描写词对应的各新描写搭配加入到所述种子集合,以实现所述种子集合的增长。
10.根据权利要求9所述的装置,其特征在于,根据每个子子集与所述原始子集之间的语义距离对所述临时子集进行过滤,包括:
计算所述原始子集的质心向量;
计算每个子子集的质心向量;
计算每个子子集的质心向量与所述原始子集的质心向量之间的距离,以作为每个子子集与所述原始子集之间的语义距离;
在所述临时子集中滤除所述语义距离大于第三阈值的子子集。
11.根据权利要求7所述的装置,其特征在于,所述目标描写类型识别单元用于:
获取所述文本数据中的描写搭配;
将获取的描写搭配与所述描写搭配扩展集合中的描写搭配进行语义匹配;
如果有至少一个描写搭配语义匹配成功,则确定所述文本数据包含所述目标描写类型。
12.根据权利要求7所述的装置,其特征在于,所述装置还包括:
无类型描写搭配集合构建单元,用于:收集文本数据样本;对所述文本数据样本进行分词,并标注每个词的词性;根据依存句法获取所述文本数据样本中词与词之间的依存关系;根据所述词与词之间的依存关系及每个词的词性从所述文本数据样本中抽取出描写搭配,以构建所述无类型描写搭配集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610836053.6A CN107844471B (zh) | 2016-09-20 | 2016-09-20 | 一种文本描写类型识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610836053.6A CN107844471B (zh) | 2016-09-20 | 2016-09-20 | 一种文本描写类型识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107844471A true CN107844471A (zh) | 2018-03-27 |
CN107844471B CN107844471B (zh) | 2021-06-04 |
Family
ID=61656713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610836053.6A Active CN107844471B (zh) | 2016-09-20 | 2016-09-20 | 一种文本描写类型识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107844471B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050125215A1 (en) * | 2003-12-05 | 2005-06-09 | Microsoft Corporation | Synonymous collocation extraction using translation information |
CN101071443A (zh) * | 2007-06-26 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 内容相关广告识别方法和内容相关广告服务器 |
CN102831236A (zh) * | 2012-09-03 | 2012-12-19 | 苏州大学 | 中文事件触发词的扩展方法及系统 |
US20150057992A1 (en) * | 2006-10-10 | 2015-02-26 | Abbyy Infopoisk Llc | Exhaustive automatic processing of textual information |
CN105550253A (zh) * | 2015-12-09 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 一种类型关系的获取方法及装置 |
-
2016
- 2016-09-20 CN CN201610836053.6A patent/CN107844471B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050125215A1 (en) * | 2003-12-05 | 2005-06-09 | Microsoft Corporation | Synonymous collocation extraction using translation information |
US20150057992A1 (en) * | 2006-10-10 | 2015-02-26 | Abbyy Infopoisk Llc | Exhaustive automatic processing of textual information |
CN101071443A (zh) * | 2007-06-26 | 2007-11-14 | 腾讯科技(深圳)有限公司 | 内容相关广告识别方法和内容相关广告服务器 |
CN102831236A (zh) * | 2012-09-03 | 2012-12-19 | 苏州大学 | 中文事件触发词的扩展方法及系统 |
CN105550253A (zh) * | 2015-12-09 | 2016-05-04 | 百度在线网络技术(北京)有限公司 | 一种类型关系的获取方法及装置 |
Non-Patent Citations (3)
Title |
---|
BATIA LAUFER ET AL.: "Verb-Noun Collocations in Second Language Writing: A Corpus Analysis of Learners English", 《LANGUAGE LEARNING》 * |
刘挺 等: "汉语自动句法分析的理论与方法", 《当代语言学》 * |
刘挺 等: "语言技术平台", 《中文信息学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN107844471B (zh) | 2021-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
You et al. | Robust visual-textual sentiment analysis: When attention meets tree-structured recursive neural networks | |
Zhang et al. | Shallow convolutional neural network for implicit discourse relation recognition | |
CN109582704B (zh) | 招聘信息和求职简历匹配的方法 | |
CN104484411B (zh) | 一种基于词典的语义知识库的构建方法 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN104008092B (zh) | 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统 | |
CN105528437B (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN106844658A (zh) | 一种中文文本知识图谱自动构建方法及系统 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN106202294B (zh) | 基于关键词和主题模型融合的相关新闻计算方法及装置 | |
CN103077164A (zh) | 文本分析方法及文本分析器 | |
CN102411621A (zh) | 一种基于云模型的中文面向查询的多文档自动文摘方法 | |
Gast et al. | The areal factor in lexical typology | |
Al-Taani et al. | An extractive graph-based Arabic text summarization approach | |
CN108108482B (zh) | 一种文景转换中实现场景真实性增强的方法 | |
CN110728144B (zh) | 一种基于上下文语义感知的抽取式文档自动摘要方法 | |
CN107357785A (zh) | 主题特征词抽取方法及系统、情感极性判断方法及系统 | |
CN102081602A (zh) | 确定未登录词的类别的方法和设备 | |
CN104699695B (zh) | 一种基于多特征语义树核的关系抽取方法和信息检索方法 | |
CN107092605A (zh) | 一种实体链接方法及装置 | |
CN109871447A (zh) | 中文评论无监督学习的聚类方法、计算机程序产品以及服务器系统 | |
CN105468780B (zh) | 一种微博文本中产品名实体的规范化方法及装置 | |
CN106021430B (zh) | 基于Lucence自定义词库的全文检索匹配方法及系统 | |
CN102929962A (zh) | 一种搜索引擎的评测方法 | |
CN106095758A (zh) | 一种基于词向量模型的文学作品竞猜方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |