CN112686024A - 句法解析方法及装置、电子设备、存储介质 - Google Patents
句法解析方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN112686024A CN112686024A CN202011644093.3A CN202011644093A CN112686024A CN 112686024 A CN112686024 A CN 112686024A CN 202011644093 A CN202011644093 A CN 202011644093A CN 112686024 A CN112686024 A CN 112686024A
- Authority
- CN
- China
- Prior art keywords
- word segmentation
- unit
- segmentation unit
- argument role
- appointed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000011218 segmentation Effects 0.000 claims abstract description 195
- 238000004590 computer program Methods 0.000 claims description 4
- 239000000470 constituent Substances 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 241000287127 Passeridae Species 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本申请提供一种句法解析方法及装置、电子设备、计算机可读存储介质,该方法包括:对待处理短句进行分词处理,获得多个分词单元和与每一分词单元对应的词性;若任一分词单元的词性为名词,查找与分词单元对应的属性值;查找与词性为动词的分词单元对应的指定论元角色和对应于指定论元角色的若干属性值;针对词性为名词的分词单元,判断分词单元的属性值是否与任一指定论元角色的属性值匹配,若匹配,确定分词单元为指定论元角色对应的候选名词;针对作为候选名词的分词单元,判断是否所有分词单元对应唯一的指定论元角色,若是,确定待处理短句中每一指定论元角色为其对应的候选名词。本方案实现了对待处理短句的句法解析。
Description
技术领域
本申请涉及自然语言处理技术领域,特别涉及一种句法解析方法及装置、电子设备、计算机可读存储介质。
背景技术
句法分析是自然语言处理(Natural Language Processing,NLP)中的关键技术之一,其作用是确定句子的句法结构或者句子中词汇之间的语法关系。目前,句法分析主要以依存句法为主,以动词为核心解析句子不同成分所承担的句法功能,应用在表层线性语序的分析上。换而言之,基于依存句法的分析方法只能呈现表层句法结构。然而,对于深层句法和语义层面来说,该方法无法有效处理自然语言中删略及宾语前置、倒装等句式,进而影响后续的指代消解、文本理解或生成的处理过程。
发明内容
本申请实施例的目的在于提供一种句法解析方法及装置、电子设备、计算机可读存储介质,用于解析闲聊语料的深层句法。
一方面,本申请提供了一种句法解析方法,包括:
对待处理短句进行分词处理,获得多个分词单元和与每一分词单元对应的词性;
若任一分词单元的词性为名词,在预设名词属性表中查找与所述分词单元对应的若干属性值;
依据词性为动词的分词单元,在预设结构图谱库中查找与所述分词单元对应的指定论元角色和对应于所述指定论元角色的若干属性值;
针对词性为名词的分词单元,判断所述分词单元的属性值是否与任一指定论元角色的属性值匹配,若匹配,确定所述分词单元为所述指定论元角色对应的候选名词;
针对作为候选名词的分词单元,判断是否所有分词单元对应唯一的指定论元角色,若是,确定所述待处理短句中每一指定论元角色为其对应的候选名词。
在一实施例中,所述方法还包括:
若否,判断所述分词单元与其对应的指定论元角色之间的句法成分是否相同;
若所述分词单元的句法成分与任一指定论元角色的句法成分一致,确定所述待处理短句中所述指定论元角色为所述分词单元。
在一实施例中,在所述判断所述分词单元在所述待处理短句中的句法成分与其对应的指定论元角色的句法成分是否一致之前,所述方法还包括:
根据特殊句式判断器判断所述待处理短句是否与任一特殊句式匹配;
如果匹配,依据所述特殊句式确定所述分词单元的句法成分。
在一实施例中,所述特殊句式包括处置式句式;
所述依据所述特殊句式确定所述分词单元的句法成分,包括:
依据所述分词单元和第一指定分词单元之间的相对位置关系,确定所述分词单元的句法成分;其中,所述第一指定分词单元包括把和将。
在一实施例中,所述特殊句式包括被动式句式;
所述依据所述特殊句式确定所述分词单元的句法成分,包括:
依据所述分词单元和第二指定分词单元之间的相对位置关系,确定所述分词单元的句法成分;其中,所述第二指定分词单元包括被。
在一实施例中,所述特殊句式包括宾语前置类型的主题句;
所述依据所述特殊句式确定所述分词单元的句法成分,包括:
依据所述分词单元在所述待处理短句中的排列顺序,确定所述分词单元的句法成分。
另一方面,本申请还提供了一种句法解析装置,包括:
分词模块,用于对待处理短句进行分词处理,获得多个分词单元和与每一分词单元对应的词性;
第一查找模块,用于若任一分词单元的词性为名词,在预设名词属性表中查找与所述分词单元对应的若干属性值;
第二查找模块,用于依据词性为动词的分词单元,在预设结构图谱库中查找与所述分词单元对应的指定论元角色和对应于所述指定论元角色的若干属性值;
第一判断模块,用于针对词性为名词的分词单元,判断所述分词单元的属性值是否与任一指定论元角色的属性值匹配,若匹配,确定所述分词单元为所述指定论元角色对应的候选名词;
第二判断模块,用于针对作为候选名词的分词单元,判断是否所有分词单元对应唯一的指定论元角色,若是,确定所述待处理短句中每一指定论元角色为其对应的候选名词。
在一实施例中,所述第二判断模块,还用于:
若否,判断所述分词单元与其对应的指定论元角色之间的句法成分是否一致;
若所述分词单元的句法成分与任一指定论元角色的句法成分一致,确定所述待处理短句中所述指定论元角色为所述分词单元。
进一步的,本申请还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述句法解析方法。
另外,本申请还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述句法解析方法。
本申请方案中,在对待处理短句分词处理后,查找词性为名词的分词单元的属性值,并查找词性为动词的分词单元对应的指定论元角色和指定论元角色的属性值;通过比对词性为名词的分词单元的属性值指定论元角色的属性值是否匹配,可以确定指定论元角色的候选名词,当所有候选名词均对应唯一的指定论元角色时,可以确定待处理短句中每一指定论元角色为其对应的候选名词;通过上述措施,解析出待处理短句的句法,解决了相关技术中自然语言因删略及宾语前置、倒装等句式而无法解析的问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本申请一实施例提供的句法解析方法的应用场景示意图;
图2为本申请一实施例提供的电子设备的结构示意图;
图3为本申请一实施例提供的句法解析方法的流程示意图;
图4为本申请一实施例提供的句法解析装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1为本申请实施例提供的句法解析方法的应用场景示意图。如图1所示,该应用场景包括客户端20和服务端30;客户端20可以是主机、手机、平板电脑等用户终端,用于向服务端30发送针对语料库的句法解析请求;服务端30可以是服务器、服务器集群或云计算中心,可以响应于该句法解析请求,对语料库中的语料解析句法。
如图2所示,本实施例提供一种电子设备1,包括:至少一个处理器11和存储器12,图2中以一个处理器11为例。处理器11和存储器12通过总线10连接,存储器12存储有可被处理器11执行的指令,指令被处理器11执行,以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中,电子设备1可以是上述服务端30,用于执行句法解析方法。
存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。
本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序可由处理器11执行以完成本申请提供的句法解析方法。
参见图3,为本申请一实施例提供的句法解析方法的流程示意图,如图3所示,该方法可以包括以下步骤310-步骤350。
步骤310:对待处理短句进行分词处理,获得多个分词单元和与每一分词单元对应的词性。
其中,待处理短句可以是闲聊语料。分词单元是分词得到的最小单元,示例性的,对“今天天气不错”分词后,可以得到分词单元“今天”、“天气”、“不错”,分词得到的分词单元存在对应的词性。
服务端可以依据分词工具对待处理短句进行分词处理,从而得到多个分词单元和对应于分词单元的词性。其中,分词工具可以是HanLP、Jieba、SnowNLP、THULAC、PkuSeg等工具中的任意一种。
步骤320:若任一分词单元的词性为名词,在预设名词属性表中查找与分词单元对应的若干属性值。
其中,名词属性表可以包括人称代词、植物名、动物名、公众人物名称、地点名、家具名、电器名等多种类别的常用名词,名词属性表可以记录对应于每一名词的多种属性的属性值。名词属性表中记录的属性可以包括性别、单复数、有无生命、人称等属性,属性值表示名词在该属性下实际的性质。示例性的,“我”的属性“性别”对应的属性值为空,表示待处理短句中的“我”性别不明;“我”的属性“有无生命”对应的属性值为“有生命”,表示人称代词“我”指示的对象有生命。
服务端可以从上述分词单元中筛选出词性为名词的分词单元,并在名词属性表中查找筛选出的分词单元对应的若干种属性值。
步骤330:依据词性为动词的分词单元,在预设结构图谱库中查找与分词单元对应的指定论元角色和对应于指定论元角色的若干属性值。
结构图谱库可以包括多种常用动词的结构图谱。结构图谱可以包括论元角色集,论元角色集中包括与动词相关的论元角色。论元角色可以包括施事者、受事者、与事者、工具、材料、方式、原因、目的、事件、处所、源点、重点、量幅、范围等一种或多种的组合。不同动词的结构图谱中论元角色可能是不同的。
结构图谱还包括与每一论元角色对应的至少一种属性的属性值。结构图谱中记录的属性可以包括性别、单复数、有无生命、人称等属性,属性值表示论元角色在该属性下的实际性质。示例性的,论元角色“施事者”的属性“有无生命”对应的属性值为“有生命”。不同动词的结构图谱中同一论元角色在同一属性下的属性值可能不同。
指定论元角色是与句法解析具有关联性的论元角色,可以基于需求预配置。示例性的,指定论元角色可以是“施事者”和“受事者”。
服务端选择词性为动词的分词单元,并在结构图谱库中查找与该分词单元对应的结构图谱,从而确定该分词单元对应的指定论元角色和对应于指定论元角色的属性值。示例性的,待处理短句中词性为动词的分词单元为“喜欢”,在结构图谱库中查到该分词单元对应的结构图谱,结构图谱中包括指定论元角色“施事者”和“受事者”,指定论元角色“施事者”的属性“有无生命”对应的属性值为“有生命”;指定论元角色“受事者”的属性“有无生命”对应的属性值为“有生命”、“无生命”。
步骤340:针对词性为名词的分词单元,判断分词单元的属性值是否与任一指定论元角色的属性值匹配,若匹配,确定分词单元为指定论元角色对应的候选名词。
其中,候选名词为可能属于指定论元角色的分词单元。
词性为名词的分词单元可能属于指定论元角色,对于上述分词单元,服务端可以比对该分词单元的属性值与每一指定论元角色的属性值,判断分词单元的属性值与指定论元角色的属性值匹配。这里,如果指定论元角色的每一属性的属性值与分词单元的相同属性的属性值完全相同,可认为分词单元的属性值与指定论元角色的属性值匹配;若指定论元角色中存在至少一种分词单元不具备的属性,则可认为两者不匹配。
一方面,如果分词单元的属性值不与任何指定论元角色的属性值匹配,服务端可以确定该分词单元不属于任何指定论元角色。
另一方面,如果分词单元的属性值与任一指定论元角色的属性值匹配,说明待处理短句中该指定论元角色可能为该分词单元,服务端可以确定该分词单元为指定论元角色对应的候选名词。
示例性的,待处理短句“他很喜欢北京”中词性为名词的分词单元为“他”和“北京”,词性为动词的分词单元“喜欢”对应指定论元角色“施事者”和“受事者”,指定论元角色“施事者”的属性“有无生命”对应的属性值为“有生命”;指定论元角色“受事者”的属性“有无生命”对应的属性值为“有生命”、“无生命”。分词单元“他”的属性“有无生命”对应的属性值为“有生命”,与“施事者”的属性匹配,并与“受事者”的属性匹配,因此,分词单元“他”是指定论元角色“施事者”的候选名词,是指定论元角色“受事者”的候选名词。
步骤350:针对作为候选名词的分词单元,判断是否所有分词单元对应唯一的指定论元角色,若是,确定待处理短句中每一指定论元角色为其对应的候选名词。
在对所有词性为名词的分词单元进行判断之后,服务端可以筛选出作为候选名词的分词单元,对于此类分词单元,服务端可以判断是否所有分词单元对应唯一的指定论元角色。
如果所有作为候选名词的分词单元均对应唯一的指定论元角色,服务端可以确定待处理短句中每一指定论元角色该指定论元角色对应的候选名词。
示例性的,对于待处理短句“我锁上门”,词性为动词的分词单元“锁上”的指定论元角色包括“施事者”和“受事者”,“施事者”的属性“有无生命”对应的属性值为“有生命”,“受事者”的属性“有无生命”对应的属性值为“无生命”。词性为名词的分词单元“我”的属性“有无生命”对应的属性值为“有生命”;“门”的属性“有无生命”对应的属性值为“无生命”。“我”的属性值与“施事者”的属性值匹配,“我”为“施事者”的候选名词;“门”的属性值与“受事者”的属性值匹配,“门”为“受事者”的候选名词。由于“我”和“门”均对应唯一的指定论元角色,服务端可以确定待处理短句中“施事者”是“我”、“受事者”是“门”。
通过上述措施,可以确定待处理短句中属于指定论元角色的分词单元,从而可获知待处理短句的深层句法。
在一实施例中,服务端判断是否所有分词单元对应唯一的指定论元角色时,若存在对应于至少两个指定论元角色的分词单元,说明该分词单元对应的论元角色尚未确定。服务端可以判断分词单元与其对应的指定论元角色之间的句法成分是否一致。
这里,名词在句子中的句法成分包括主语、宾语、补语、附加语等;指定论元角色的句法成分是预先确定,指定论元角色“施事者”的句法成分为主语,指定论元角色“受事者”的句法成分为宾语。
典型的汉语语序为“主语(名词)-谓语(动词)-宾语(名词)”,以动词谓语为中心,主语出现在谓语动词前,宾语出现在谓语动词后。
对于待处理短句中作为指定论元角色的候选名词的分词单元而言,服务端可以依据该分词单元与待处理短句中动词的相对位置关系,确定该分词单元的句法成分。一种情况下,如果该分词单元在动词之前,则句法成分为主语;另一种情况下,如果该分词单元在动词之后,则句法成分为宾语。
服务端可以比对该分词单元的句法成分和该分词单元对应的指定论元角色的句法成分。一方面,若两者一致,服务端可以确定待处理短句中指定论元角色为该分词单元。另一方面,若两者不同,服务端可以确定该分词单元不属于该指定论元角色。
示例性的,待处理短句“麻雀模仿苍鹰”中分词单元“麻雀”与指定论元角色“施事者”和“受事者”对应,“麻雀”的句法成分为“主语”,与“施事者”的句法成分一致,与“受事者”的句法成分不一致,因此,待处理短句中“麻雀”是“施事者”。
在一实施例中,由于待处理短句可能并不符合典型的汉语语序,为更准确的确定分词单元的句法成分,服务端可以根据特殊句式判断器判断待处理短句是否与任一特殊句式匹配。其中,特殊句式判断器可通过语料库中的语料训练得到,用于判断句式,特殊句式是不符合典型汉语语序的句式。示例性的,特殊句式可以包括处置式句式(比如:把字句)、被动式句式(比如:被字句)、宾语前置句等。
一方面,如果待处理短句不与任何特殊句式匹配,说明待处理短句符合典型的汉语语序,服务端可以直接依据分词单元与待处理短句中动词的相对位置关系,确定该分词单元的句法成分。
另一方面,如果待处理短句与任一特殊句式匹配,说明待处理短句不符合典型的汉语语序,服务端可以依据匹配到的特殊句式确定分词单元的句法成分。
在一实施例中,如果匹配到的特殊句式为处置式句式,服务端可以依据分词单元和第一指定分词单元之间的相对位置关系,确定分词单元的句法成分。其中,第一指定分词单元可以包括“把”和“将”。处置式句式可以是“主语(名词)-‘把’/‘将’-宾语(名词)-谓语(动词)”。服务端确定待处理短句为处置式句式后,可以依据第一指定分词单元“把”或“将”与分词单元的相对位置关系,确定分词单元的句法成分。一种情况下,如果该分词单元在第一指定分词单元之前,则该分词单元为主语;另一种情况下,如果该分词单元在第一指定分词单元之后,则该分词单元为宾语。
在一实施例中,如果匹配到的特殊句式为被动式句式,服务端可以依据分词单元和第二指定分词单元之间的相对位置关系,确定分词单元的句法成分。其中,第二指定分词单元可以包括“被”。被动式句式可以是“宾语(名称)-‘被’-主语(名词)-谓语(动词)”。服务端确定待处理短句为被动式句式后,可以依据第二指定分词单元“被”与分词单元的相对位置关系,确定分词单元的句法成分。一种情况下,如果该分词单元在第二指定分词单元之前,则该分词单元为宾语;另一种情况下,如果该分词单元在第二指定分词单元之后,则该分词单元为主语。
在一实施例中,如果匹配到的特殊句式为宾语前置类型的主题句,服务端可以依据分词单元在待处理短句中的排列顺序,确定分词单元的句法成分。宾语前置类型的主题句句式可以是“宾语(名称)-主语(名词)-位于(动词)”。对于作为候选名词的分词单元,服务端可以依据该分词单元在待处理短句中的排列顺序,确定该分词单元的句法成分。一种情况下,如果该分词单元在作为候选名词的分词单元中排在第一位,则该分词单元为宾语;另一种情况下,如果该分词单元在作为候选名词的分词单元中排第二位,则该分词单元为主语。
在确定分词单元的句法成分之后,服务端可以判断该分词单元的句法成分与其对应的指定论元角色的句法成分是否一致,从而确定分词单元是否属于指定论元角色。具体可参照前文相关描述,在此不再赘述。
下面通过具体的实施例来说明整个句法解析过程。
实施例1:
待处理短句为“碗打碎了”,经过分词可得到分词单元“碗”(名词)、“打碎”(动词)、“了”(助词)。服务端在名词属性表中查找到“碗”的属性“有无生命”对应的属性值为“无生命”,在结构图谱库中查找到“打碎”的结构图谱中包括指定论元角色“施事者”和“受事者”,“施事者”的属性“有无生命”对应的属性值为“有生命”;“受事者”的属性“有无生命”对应的属性值为“有生命”、“无生命”。
针对词性为名词的“碗”,服务端可以确定其与指定论元角色“受事者”的属性值匹配,可作为“受事者”的候选名词。由于“碗”对应唯一的指定论元角色,可以确定待处理短句“碗打碎了”中的“受事者”为“碗”。
实施例2:
待处理短句为“王菲,我之前见过”,经过分词可得到分词单元“王菲”(名词)、“我”(名词)、“之前”(副词)、“见过”(动词)。服务端在名词属性表中查找到“王菲”的属性“有无生命”对应的属性值为“有生命”,“我”的属性“有无生命”对应的属性值为“有生命”;在结构图谱库中查找到“见过”的结构图谱中包括指定论元角色“施事者”和“受事者”,“施事者”的属性“有无生命”对应的属性值为“有生命”;“受事者”的属性“有无生命”对应的属性值为“有生命”、“无生命”。
服务端可以确定“王菲”的属性值与“施事者”的属性值匹配,可作为“施事者”的候选名词,并且,与“受事者”的属性值匹配,可作为“受事者的候选名词。”服务端可以确定“我”的属性值与“施事者”的属性值匹配,可作为“施事者”的候选名词,并且,与“受事者”的属性值匹配,可作为“受事者”的候选名词。
由于作为候选名词的“王菲”或“我”均对应两个指定论元角色,服务端需判断“王菲”在待处理短句中与其对应的指定论元角色的句法成分是否一致,“我”在待处理短句中与其对应的中指定论元角色的句法成分是否一致。
服务端可以依据特殊句式判断器确定“王菲,我之前见过”为宾语前置类型的主题句,这种情况下,依据排列顺序,可以确定“王菲”的句法成分为宾语、“我”的句法成分为主语,进而确定“王菲”的句法成分与“受事者”的句法成分一致、“我”的句法成分与“施事者”的句法成分一致。服务端可以确定“王菲,我之前见过”中“施事者”为“我”、“受事者”为“王菲”。
参见图4,为本发明一实施例的一种句法解析装置,如图4所示,该装置可以包括:分词模块410、第一查找模块420、第二查找模块430、第一判断模块440、第二判断模块450。
分词模块410,用于对待处理短句进行分词处理,获得多个分词单元和与每一分词单元对应的词性;
第一查找模块420,用于若任一分词单元的词性为名词,在预设名词属性表中查找与所述分词单元对应的若干属性值;
第二查找模块430,用于依据词性为动词的分词单元,在预设结构图谱库中查找与所述分词单元对应的指定论元角色和对应于所述指定论元角色的若干属性值;
第一判断模块440,用于针对词性为名词的分词单元,判断所述分词单元的属性值是否与任一指定论元角色的属性值匹配,若匹配,确定所述分词单元为所述指定论元角色对应的候选名词;
第二判断模块450,用于针对作为候选名词的分词单元,判断是否所有分词单元对应唯一的指定论元角色,若是,确定所述待处理短句中每一指定论元角色为其对应的候选名词。
在一实施例中,所述第二判断模块450,还用于:
若否,判断所述分词单元与其对应的指定论元角色之间的句法成分是否一致;
若所述分词单元的句法成分与任一指定论元角色的句法成分一致,确定所述待处理短句中所述指定论元角色为所述分词单元。
在一实施例中,所述第二判断模块450,还用于:
根据特殊句式判断器判断所述待处理短句是否与任一特殊句式匹配;
如果匹配,依据所述特殊句式确定所述分词单元的句法成分。
在一实施例中,所述第二判断模块450,还用于:
依据所述分词单元和第一指定分词单元之间的相对位置关系,确定所述分词单元的句法成分;其中,所述第一指定分词单元包括“把”和“将”。
在一实施例中,所述第二判断模块450,还用于:
依据所述分词单元和第二指定分词单元之间的相对位置关系,确定所述分词单元的句法成分;其中,所述第二指定分词单元包括“被”。
在一实施例中,所述第二判断模块450,还用于:
依据所述分词单元在所述待处理短句中的排列顺序,确定所述分词单元的句法成分。
上述装置中各个模块的功能和作用的实现过程具体详见上述句法解析方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种句法解析方法,其特征在于,包括:
对待处理短句进行分词处理,获得多个分词单元和与每一分词单元对应的词性;
若任一分词单元的词性为名词,在预设名词属性表中查找与所述分词单元对应的若干属性值;
依据词性为动词的分词单元,在预设结构图谱库中查找与所述分词单元对应的指定论元角色和对应于所述指定论元角色的若干属性值;
针对词性为名词的分词单元,判断所述分词单元的属性值是否与任一指定论元角色的属性值匹配,若匹配,确定所述分词单元为所述指定论元角色对应的候选名词;
针对作为候选名词的分词单元,判断是否所有分词单元对应唯一的指定论元角色,若是,确定所述待处理短句中每一指定论元角色为其对应的候选名词。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若否,判断所述分词单元与其对应的指定论元角色之间的句法成分是否一致;
若所述分词单元的句法成分与任一指定论元角色的句法成分一致,确定所述待处理短句中所述指定论元角色为所述分词单元。
3.根据权利要求2所述的方法,其特征在于,在所述判断所述分词单元与其对应的指定论元角色之间的句法成分是否一致之前,所述方法还包括:
根据特殊句式判断器判断所述待处理短句是否与任一特殊句式匹配;
如果匹配,依据所述特殊句式确定所述分词单元的句法成分。
4.根据权利要求3所述的方法,其特征在于,所述特殊句式包括处置式句式;
所述依据所述特殊句式确定所述分词单元的句法成分,包括:
依据所述分词单元和第一指定分词单元之间的相对位置关系,确定所述分词单元的句法成分;其中,所述第一指定分词单元包括把和将。
5.根据权利要求3所述的方法,其特征在于,所述特殊句式包括被动式句式;
所述依据所述特殊句式确定所述分词单元的句法成分,包括:
依据所述分词单元和第二指定分词单元之间的相对位置关系,确定所述分词单元的句法成分;其中,所述第二指定分词单元包括被。
6.根据权利要求3所述的方法,其特征在于,所述特殊句式包括宾语前置类型的主题句;
所述依据所述特殊句式确定所述分词单元的句法成分,包括:
依据所述分词单元在所述待处理短句中的排列顺序,确定所述分词单元的句法成分。
7.一种句法解析装置,其特征在于,包括:
分词模块,用于对待处理短句进行分词处理,获得多个分词单元和与每一分词单元对应的词性;
第一查找模块,用于若任一分词单元的词性为名词,在预设名词属性表中查找与所述分词单元对应的若干属性值;
第二查找模块,用于依据词性为动词的分词单元,在预设结构图谱库中查找与所述分词单元对应的指定论元角色和对应于所述指定论元角色的若干属性值;
第一判断模块,用于针对词性为名词的分词单元,判断所述分词单元的属性值是否与任一指定论元角色的属性值匹配,若匹配,确定所述分词单元为所述指定论元角色对应的候选名词;
第二判断模块,用于针对作为候选名词的分词单元,判断是否所有分词单元对应唯一的指定论元角色,若是,确定所述待处理短句中每一指定论元角色为其对应的候选名词。
8.根据权利要求7所述的装置,其特征在于,所述第二判断模块,还用于:
若否,判断所述分词单元与其对应的指定论元角色之间的句法成分是否一致;
若所述分词单元的句法成分与任一指定论元角色的句法成分一致,确定所述待处理短句中所述指定论元角色为所述分词单元。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-6任意一项所述的句法解析方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-6任意一项所述的句法解析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011644093.3A CN112686024B (zh) | 2020-12-31 | 2020-12-31 | 句法解析方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011644093.3A CN112686024B (zh) | 2020-12-31 | 2020-12-31 | 句法解析方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112686024A true CN112686024A (zh) | 2021-04-20 |
CN112686024B CN112686024B (zh) | 2023-12-22 |
Family
ID=75456732
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011644093.3A Active CN112686024B (zh) | 2020-12-31 | 2020-12-31 | 句法解析方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112686024B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105573980A (zh) * | 2015-12-10 | 2016-05-11 | 百度在线网络技术(北京)有限公司 | 信息片段生成方法和装置 |
US20170169016A1 (en) * | 2013-05-06 | 2017-06-15 | Facebook, Inc. | Methods and systems for generation of a translatable sentence syntax in a social networking system |
CN110020434A (zh) * | 2019-03-22 | 2019-07-16 | 北京语自成科技有限公司 | 一种自然语言句法分析的方法 |
CN110874531A (zh) * | 2020-01-20 | 2020-03-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
CN111027324A (zh) * | 2019-12-05 | 2020-04-17 | 电子科技大学广东电子信息工程研究院 | 一种基于句法模式和机器学习的开放式关系的抽取方法 |
CN111159384A (zh) * | 2019-12-31 | 2020-05-15 | 苏州思必驰信息科技有限公司 | 基于规则的句子生成方法和装置 |
CN111460787A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
-
2020
- 2020-12-31 CN CN202011644093.3A patent/CN112686024B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170169016A1 (en) * | 2013-05-06 | 2017-06-15 | Facebook, Inc. | Methods and systems for generation of a translatable sentence syntax in a social networking system |
CN105573980A (zh) * | 2015-12-10 | 2016-05-11 | 百度在线网络技术(北京)有限公司 | 信息片段生成方法和装置 |
CN110020434A (zh) * | 2019-03-22 | 2019-07-16 | 北京语自成科技有限公司 | 一种自然语言句法分析的方法 |
CN111027324A (zh) * | 2019-12-05 | 2020-04-17 | 电子科技大学广东电子信息工程研究院 | 一种基于句法模式和机器学习的开放式关系的抽取方法 |
CN111159384A (zh) * | 2019-12-31 | 2020-05-15 | 苏州思必驰信息科技有限公司 | 基于规则的句子生成方法和装置 |
CN110874531A (zh) * | 2020-01-20 | 2020-03-10 | 湖南蚁坊软件股份有限公司 | 一种话题分析方法、装置和存储介质 |
CN111460787A (zh) * | 2020-03-27 | 2020-07-28 | 深圳价值在线信息科技股份有限公司 | 一种话题提取方法、装置、终端设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
MENGBIN LIU: "The_thematic_and_syntactic_analysis_of_yu__constructions_in_Archaic_Chinese", 《2016 INTERNATIONAL CONFERENCE ON ASIAN LANGUAGE PROCESSING(IALP)》, pages 141 - 145 * |
许智宏;于子琪;董永峰;闫文杰;: "影评情感分析知识图谱构建研究", 计算机仿真, no. 08 * |
Also Published As
Publication number | Publication date |
---|---|
CN112686024B (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cheng et al. | Relational inference for wikification | |
US9965726B1 (en) | Adding to a knowledge base using an ontological analysis of unstructured text | |
CN110413738B (zh) | 一种信息处理方法、装置、服务器及存储介质 | |
Linhares Pontes et al. | Impact of OCR quality on named entity linking | |
Sharma et al. | NIRMAL: Automatic identification of software relevant tweets leveraging language model | |
US9075864B2 (en) | Method and system for semantic searching using syntactic and semantic analysis | |
US20180081861A1 (en) | Smart document building using natural language processing | |
US20080208566A1 (en) | Automated word-form transformation and part of speech tag assignment | |
Tandel et al. | Multi-document text summarization-a survey | |
Díez Platas et al. | Medieval Spanish (12th–15th centuries) named entity recognition and attribute annotation system based on contextual information | |
CN113392305A (zh) | 关键词的提取方法及装置、电子设备、计算机存储介质 | |
Gadde et al. | Adapting a WSJ trained part-of-speech tagger to noisy text: preliminary results | |
CN111198932B (zh) | 三元组获取方法、装置、电子设备及可读存储介质 | |
US8224642B2 (en) | Automated identification of documents as not belonging to any language | |
Han et al. | Towards effective extraction and linking of software mentions from user-generated support tickets | |
WO2015084757A1 (en) | Systems and methods for processing data stored in a database | |
KR102285232B1 (ko) | 형태소 기반 ai 챗봇 및 그의 문장의도 결정 방법 | |
CN117407414A (zh) | 结构化查询语句的处理方法、装置、设备、介质 | |
CN113901783B (zh) | 面向领域的文档查重方法及系统 | |
Bender et al. | Unsupervised estimation of subjective content descriptions | |
Li et al. | Multimodal question answering over structured data with ambiguous entities | |
Zavarella et al. | An Ontology-Based Approach to Social Media Mining for Crisis Management. | |
US11170010B2 (en) | Methods and systems for iterative alias extraction | |
Inan et al. | A sequence learning method for domain-specific entity linking | |
CN112686024B (zh) | 句法解析方法及装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |