CN110390095A - 语句标注方法及语句标注装置 - Google Patents

语句标注方法及语句标注装置 Download PDF

Info

Publication number
CN110390095A
CN110390095A CN201810362553.XA CN201810362553A CN110390095A CN 110390095 A CN110390095 A CN 110390095A CN 201810362553 A CN201810362553 A CN 201810362553A CN 110390095 A CN110390095 A CN 110390095A
Authority
CN
China
Prior art keywords
sentence
word
mark
cascade connection
root
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810362553.XA
Other languages
English (en)
Inventor
张驰
钟延
郭心语
李安新
陈岚
礒田佳德
小野隆哉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to CN201810362553.XA priority Critical patent/CN110390095A/zh
Priority to JP2019081336A priority patent/JP2019192247A/ja
Publication of CN110390095A publication Critical patent/CN110390095A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

提供了一种语句标注方法和装置,该语句标注方法包括:基于对语句的分析,获取根词;确定所述根词具有的、与所述语句中的至少一个词之间的级联关系;以及根据所确定的级联关系,确定对所述语句的标注,其中,当所述根词为根据语义分析所获取的第一根词时,根据所确定的级联关系确定对所述语句的标注的步骤包括:基于所述根词的一阶级联关系确定对所述语句的标注;以及当确定没有标注时,所述方法还包括以下步骤中的至少一个:基于所述第一根词的二阶或者二阶以上的级联关系,确定对所述语句的标注;以及获取组合根词,根据所述组合根词与所述语句中的至少一个词的级联关系,确定对所述语句的标注。

Description

语句标注方法及语句标注装置
技术领域
本公开总体涉及语句标注,更具体地,涉及语句标注方法及语句标注装置。
背景技术
现有的语句标注(label)是基于监督式方法或非监督式方法进行的。非监督式方法是可以基于词(word)进行标注的,然而,由于该方法无法综合利用多种信息对候选词进行排序,归纳性不强,所以效果上可能不如监督式方法。
监督式方法包括利用语义分析或句法分析的结果进行标注等。虽然现有的语义分析可以提供多于70种的标注类型,但是,由于现有的语义分析方法仅根据语句中的根词的一级级联关系来确定对语句的标注,因而会丢失根词与语句中的其它词之间的语义关系,从而,可能导致无法实现对语句的标注,不能取得良好效果。
图1例示了基于现有的语义依存分析对语句进行标注的示例情形。如图1所示,对于“我很抱歉做出了这个突然的决定”这一语句,基于语义依存分析可以获得根词(“抱歉”),并且,如图1所示,根词“抱歉”的一级级联关系包括:感事关系、程度标记、标点标记和嵌套客事关系。然而,利用现有的语义分析方法,由于上述一级级联关系中没有可以用于确定语句标注的级联关系,因此,无法确定对语句的标注,从而导致对于该语句的标注没有输出,进而无法实现对语句进行标注的目的。
对于现有的句法分析方法,虽然其对于语句的粗粒化(coarse grain)标注更为准确,但是由于现有的句法分析方法缺乏语义信息的利用,因此,对于语句的标注很难提供精细化的结果。
总之,现有技术中,单独使用语义分析或句法分析的方法,由于存在根词和级联关系的标注缺失等问题,从而导致很难取得期待的效果。
发明内容
至少针对以上问题提出本公开。
根据本公开的一个实施例,提供了一种语句标注方法,包括:基于对语句的分析,获取根词;确定所述根词具有的、与所述语句中的至少一个词之间的级联关系;以及根据所确定的级联关系,确定对所述语句的标注,其中,当所述根词为根据语义分析所获取的第一根词时,根据所确定的级联关系确定对所述语句的标注的步骤包括:基于所述根词的一阶级联关系确定对所述语句的标注;以及当确定没有标注时,所述方法还包括以下步骤中的至少一个:基于所述第一根词的两阶或者两阶以上的级联关系,确定对所述语句的标注;以及获取组合根词,根据所述组合根词与所述语句中的至少一个词的级联关系,确定对所述语句的标注。
根据本公开的另一实施例,提供了一种语句标注装置,包括:根词获取模块,用于基于对语句的分析获取根词;级联关系确定模块,用于确定所述根词具有的、与所述语句中的至少一个词之间的级联关系;以及标注确定模块,用于根据所确定的级联关系,确定对所述语句的标注,其中,当所述根词为根据语义分析所获取的第一根词时,所述标注确定模块用于:基于所述根词的一阶级联关系确定对所述语句的标注;以及当确定没有标注时,所述标注确定模块用于执行以下操作中的至少一个:基于所述第一根词的两阶或者两阶以上的级联关系,确定对所述语句的标注;以及根据所述根词获取模块获取到的组合根词与所述语句中的至少一个词的级联关系,确定对所述语句的标注。
根据本公开的又一实施例,提供了一种计算机存储介质,用于存储计算机可读指令,当所述计算机可读指令由计算机执行时,使得所述计算机执行以下步骤:基于对语句的分析,获取根词;确定所述根词具有的、与所述语句中的至少一个词之间的级联关系;以及根据所确定的级联关系,确定对所述语句的标注,其中,当所述根词为根据语义分析所获取的第一根词时,根据所确定的级联关系确定对所述语句的标注的步骤包括:基于所述根词的一阶级联关系确定对所述语句的标注;以及当确定没有标注时,所述方法还包括以下步骤中的至少一个:基于所述第一根词的两阶或者两阶以上的级联关系,确定对所述语句的标注;以及获取组合根词,根据所述组合根词与所述语句中的至少一个词的级联关系,确定对所述语句的标注。
根据本公开的又一实施例,提供了一种语句标注装置,包括:存储器,用于存储计算机可读指令;以及处理器,用于运行所述计算机可读指令,使得所述语句标注装置执行以下步骤:基于对语句的分析,获取根词;确定所述根词具有的、与所述语句中的至少一个词之间的级联关系;以及根据所确定的级联关系,确定对所述语句的标注,其中,当所述根词为根据语义分析所获取的第一根词时,根据所确定的级联关系确定对所述语句的标注的步骤包括:基于所述根词的一阶级联关系确定对所述语句的标注;以及当确定没有标注时,所述方法还包括以下步骤中的至少一个:基于所述第一根词的两阶或者两阶以上的级联关系,确定对所述语句的标注;以及获取组合根词,根据所述组合根词与所述语句中的至少一个词的级联关系,确定对所述语句的标注。
根据本公开实施例的语句标注方法和语句标注装置,综合语义分析方法和句法分析方法的优点,并通过充分利用语句中的语义信息,改善与提高了语句标注的结果的精确度和准确性。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1例示了基于现有的语义依存分析对语句进行标注的示例情形。
图2示意性地示出了根据本公开实施例的语句标注方法的流程图。
图3示意性地示出了根据本公开实施例的图2中的步骤S230的示例性的具体操作的流程图。
图4A例示了基于依存句法分析所确定的、根词所具有的级联关系的示例图。
图4B例示了基于语义依存分析所确定的、根词所具有的级联关系的示例图。
图4C例示了根据本公开的一个实施例的确定语句标注的示例情形的示例图。
图5示意性地示出了根据本公开实施例的图3中的步骤S236的子步骤B的示例性的具体操作的流程图。
图6示意性地示出了根据本公开实施例的语句标注装置的框图。
图7示意性地示出了根据本公开实施例的计算机可读存储介质的示意图。
图8示出了根据本公开实施例的语句标注装置的示意性框图。
具体实施方式
为了使得本公开的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。基于本公开中描述的实施例,本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本公开的保护范围之内。
以下,将参考附图详细描述本公开的实施例。
图2示意性地示出了根据本公开实施例的语句标注方法200的流程图。
如图2所示,在步骤S210,基于对语句的分析,获取根词。
所述语句,可以包括中文语句和外文语句,例如“我很抱歉做出了这个突然的决定”、“I don’t like apples”等各种语句。在该步骤210中,可以采用诸如语义依存分析方法等的语义分析方法或者诸如依存句法分析等的句法分析方法等各种适当的语句分析方法来对语句进行分析以获取根词。
对于同一语句,基于语义分析和基于句法分析,获取到的根词可能是不同的。例如,对于上述“我很抱歉做出了这个突然的决定”这一语句,基于语义分析方法得到的根词是“抱歉”,而基于句法分析方法得到的根词为“做出”。
在步骤S220,确定所述根词具有的、与所述语句中的至少一个词之间的级联关系。
在一个实施例中,可以对所述语句进行句法分析,确定所述根词与所述语句中的至少一个词之间的级联关系。以对所述语句进行依存句法分析为例,对于所获取的根词,可以进一步基于语句各词(成分)之间的依存关系分析其句法结构,获取根词与语句中的其它至少一个词之间的级联关系。例如,可以基于依存句法分析识别语句中的“主谓宾”、“定状补”等语法成分,得到根词与语句中的其它词之间的级联关系。该级联关系可以包括一阶级联关系(即,根词与语句中的其它词之间的直接的级联关系)和二阶以及二阶以上的级联关系(即,根词与语句中的其它词之间的间接的级联关系)。
图4A例示了基于依存句法分析所确定的、根词所具有的级联关系的示例图。对于图4A中的例示的语句“我很抱歉做出了这个突然的决定”,基于句法分析方法,获取到根词“做出”。进一步基于语句中各词(成分)之间的依存关系分析其句法结构,可以获取根词“做出”与语句中的其它词之间的级联关系。
例如,图4A中获取的根词“做出”所具有的级联关系包括:一阶级联关系:根词“做出”与词“我”之间的主谓关系、根词“做出”与词“抱歉”之间的状中结构、根词“做出”与词“了”之间的右附加关系、根词“做出”与词“决定”之间的动宾关系、根词“做出”与标点句号之间的依存关系;二阶级联关系:词“抱歉”和词“很”之间的状中关系、词“决定”和词“这个”之间的定中关系、词“决定”和词“突然”之间的定中关系;以及三阶级联关系:词“突然”和词“的”之间的右附加关系。
尽管图4A中例示出基于依存句法分析确定的根词的级联关系的示例,但是,本领域技术人员应当理解,本发明并不限于此。根据实际应用,可以采用各种本领域已知和未来发展的各种句法分析方法来确定所述根词具有的、与所述语句中的至少一个词之间的级联关系,为了简明起见,在此不做赘述。
在一个实施例中,也可以对所述语句进行语义分析,确定所述根词与所述语句中的至少一个词之间的级联关系。以对所述语句进行语义依存分析为例,可以进一步基于语句中的各个词之间的语义关联,获取根词与语句中的其它至少一个词之间的级联关系。该级联关系可以包括一阶级联关系和二阶以及二阶以上的级联关系。
图4B例示了基于语义依存分析所确定的、根词所具有的级联关系的示例图。对于图4B中的例示的语句“我很抱歉做出了这个突然的决定”,基于语义分析,获取到根词“抱歉”。进一步基于语句各词(成分)之间的语义关联,获取根词与语句中的其它词之间的级联关系。
以图4B为例,基于语义依存分析获取的、根词“抱歉”所具有的级联关系包括:一阶级联关系:程度标记、感事关系、嵌套客事关系(dcont)、标点标记;二阶级联关系:时间标记、客事关系;三阶级联关系:范围角色、情态标记;以及四阶级联关系:的字标记。
尽管图4B中例示出基于语义依存分析确定的根词的级联关系的示例,但是,本领域技术人员应当理解,本发明并不限于此。根据实际应用,可以采用各种本领域已知和未来发展的各种语义分析方法来确定所述根词具有的、与所述语句中的至少一个词之间的级联关系,为了简明起见,在此不做赘述。
返回至图1,在步骤S230中,根据所确定的级联关系,确定对所述语句的标注。不同的级联关系可以对应于不同的标注,从而,可以根据特定的级联关系,确定相应的标注。
在一个实施例中,对于语句的标注,包括但不限于:“时态(Aspect)”、“情态(Model)”、“否定(Negation)”、“语法(Grammer)”、“语态(Voice)”、疑问(ModelD)、完成(Done)等。
以基于语义依存分析确定的级联关系为例,用于确定对语句的标注的级联关系可以包括但不限于:涉事关系(Datv)、时间标记(mtime)、顺承关系(eSucc)、条件关系(eCond)、方式角色(Mann)、否定标记(mNeg)等,其中,不同的级联关系对应于不同的标注,例如,时间标记(mtime)等可以对应的标注为“时态(Aspect)”;否定标记(mNeg)等可以对应的标注为“否定(Negation)”,等等。
尽管以上以语义依存分析与标注的对应关系为例进行了说明,但是应该理解的是,本发明并不局限于此,根据语句的特点和实际应用,也可以采用其它各种语义分析方法确定的级联关系与标注之间的对应关系,确定对语句的标注。
图3示意性地示出了根据本公开实施例的图2中的步骤S230的示例性的具体操作的流程图。
图3中所示的步骤S230可以用于当所确定的根词为根据语义分析(例如,根据语义依存分析)所获取的第一根词时的情况。步骤S230包括以下步骤。
在步骤S232中,基于所述根词的一阶级联关系确定对所述语句的标注。
在步骤S234,判断基于步骤S232的操作,是否获得标注。
当在步骤S234中确定没有标注时,执行步骤S236。在步骤S236中,执行以下步骤中的至少一个:基于所述第一根词的二阶或者二阶以上的级联关系,确定对所述语句的标注;以及获取组合根词,根据所述组合根词与所述语句中的至少一个词的级联关系,确定对所述语句的标注。之后,进入到步骤S238,输出所述标注。在一个实施例中,步骤S236中用于确定对语句的标注的级联关系可以包括基于语义分析所获得的级联关系。
当在步骤S234中确定有标注时,执行步骤S238,输出所述标注。
现在结合附图图4A-图4C对上述步骤S232-S236进行示例性说明。
如图4B所示,图4B中的语句中确定的根词(“抱歉”)为基于语义分析获取的第一根词。如上文中结合图1所说明的,现有技术中,基于根词“抱歉”的一阶级联关系,并不存在可以用于确定语句标注的级联关系,所以,并不能确定对图4B中的语句的标注。因此,对于图4B中的语句,可以进一步执行步骤S236。
在一个实施例中,可以基于所述第一根词的二阶或者二阶以上的级联关系,确定对所述语句的标注。以图4B为例,当根据语义依存分析获取到的、第一根词“抱歉”的级联关系中的一阶级联关系不能确定对所述语句的标注时,可以进一步基于所述第一根词“抱歉”的二阶或者二阶以上的级联关系来确定对所述语句的标注。如图4B所示,根词“抱歉”的二阶级联关系包括:时间标记、客事关系、范围角色和情态标记,其中,根据二阶级联关系中的、可以用于确定语句标注的级联关系“时间标记”,确定图4B中的语句标注为“时态(Aspect)”,进而可以进一步通过输出设备将所述标注输出。所述输出设备包括,但不限于,显示器、打印机、绘图仪、扬声器、磁盘或光盘等。
应该理解的是,尽管图4B中示出的示例是根据根词的二阶级联关系来确定对语句的标注,但是本发明并不限于此。根据实际应用和语句的特点,也可以根据根词的二阶以上的级联关系来确定对语句的标注。为了简明起见,这里不做赘述。
有利的是,通过利用根词的二阶或者二阶以上的级联关系来确定对语句的标注,可以充分利用语句中的语义信息,从而实现对语句的准确标注。
在另一实施例中,还可以获取组合根词,根据所述组合根词与所述语句中的至少一个词的级联关系,确定对所述语句的标注。所述组合根词可以是对所述语句进行语义分析获得的根词与对所述语句进行句法分析所获得的根词的组合,例如,所述组合根词可以是通过基于语义依存分析方法获得的第一根词与通过依存句法分析方法获得的第二根词的组合。由于语义分析和句法分析模型的特性和训练不同,所以可能会导致其所获取到的根词不同,由此,可以通过将语义分析获取的根词与通过句法分析获取的根词组合,并根据组合根词所具有的、基于语义分析确定的级联关系,确定对语句的标注。
图5示意性地示出了根据本公开实施例的图3中的步骤S236的子步骤B的示例性的具体操作S236-B的流程图。如图5所示,获取组合根词的步骤可以包括:在步骤S2362,对所述语句进行句法分析,获取第二根词;以及在步骤S2364中,将所述第一根词与所述第二根词组合,获取所述组合根词。其中,所述第一根词与所述第二根词不相同。
基于获取到的组合根词,所述方法S236-B还可以进一步包括步骤S2366,根据所述组合根词的级联关系,确定对所述语句的标注。在一个实施例中,可以对所述语句进行语义分析,确定所述组合根词与所述语句中的至少一个词之间的级联关系。例如,可以对所述语句进行语义分析,分别确定第一根词和第二根词的级联关系,进而,组合根词的级联关系包括第一根词的级联关系和第二根词的级联关系。在一个实施例中,可以根据所述组合根词的一阶级联关系,确定对所述语句的标注。应该理解的是,根据实际应用和语句的特点,也可以根据组合根词的二阶或者二阶以上的级联关系来确定对语句的标注。
如下将结合图4A-图4C,对上述步骤S236的子步骤B进行示例性说明。如图4C所示,图4C例示了根据本公开一个实施例的确定语句标注的示例情形的示例图。当根据语义分析获取的、第一根词“抱歉”的级联关系中的一阶级联关系不能确定对所述语句的标注时,可以如图4A所示,对所述语句进行句法分析,获取第二根词“做出”,可见,在这一示例中,第一根词“抱歉”和第二根词“做出”并不相同。之后,将获取到的第一根词“抱歉”和第二根词“做出”进行组合,如图4C所示,得到组合根词“抱歉”、“做出”。在这种情况下,对语句进行语义分析,分别确定第一根词“抱歉”和第二根词“做出”的级联关系,进而得到组合根词所具有的级联关系包括第一根词的级联关系和第二根词的级联关系。
以图4C为例,组合根词“抱歉”、“做出”具有的级联关系包括:包括第一根词的一阶级联关系(如图4C所示的第一根词“抱歉”的一阶级联关系:程度标记、感事关系、嵌套客事关系和标点标记)和第二根词的一阶级联关系(如图4C所示的第二根词“做出”的一阶级联关系:客事关系和时间标记)的一阶级联关系;第二级联关系(如图4C所示的第二根词的第二级联关系:范围角色和情态标记);以及第三级联关系(如图4C所述的第二根词的第二级联关系:的字标记)。
在这种情况下,基于得到的组合根词的一阶级联关系中的、可以用于确定语句标注的级联关系“时间标记”(如图4C中的虚线框所示的)确定所述语句的标注为“时态(Aspect)”。进而可以进一步通过输出设备将所述标注输出。所述输出设备包括,但不限于,显示器、打印机、绘图仪、扬声器、磁盘或光盘等。
尽管图4C中例示出根据组合根词的一阶级联关系确定对语句的标注,然而,应该理解的是,根据实际应用和语句的特点,也可以根据组合根词的二阶或者二阶以上的级联关系(例如,可用于确定语句标注的级联关系)来确定对语句的标注,为了简明起见,在此不做赘述。
有利的是,通过结合语义分析和句法分析对语句进行标注,可以充分利用句法分析模型和语义分析模型的优点,从而提高对语句标注的准确性。
在另一个实施例中,根据本公开实施例的语句标注方法还可以在步骤S236中执行:基于所述第一根词的两阶或者两阶以上的级联关系,确定对所述语句的第一标注;以及获取组合根词,根据所述组合根词与所述语句中的至少一个词的级联关系,确定对所述语句的第二标注。当所述第一标注与所述第二标注相同时,在步骤S238中输出所述第一标注;当所述第一标注与所述第二标注不相同时,在步骤S238中输出所述第一标注和所述第二标注。
应该理解的是,尽管上述图4A-4C中示例性地示出了中文语句的示例,本公开实施例的语句标注方法也可以适用于诸如英文等的外文语句,为了简明起见,在此不做赘述。此外,尽管图4A-图4C中确定的语句标注为“时态(Aspect)”,然而,应当理解的是,图4A-图4C中的示例仅是为了说明和描述的目的,并非意在作为本发明的限制的定义。应当理解,根据实际应用,不同的语句可以相应地获得其它不同的多种语句标注,例如,但是不限于,“情态(Model)”、“否定(Negation)”、“语法(Grammer)”、“语态(Voice)”、疑问(ModelD)、完成(Done)等。
在一个实施例中,本发明的方法还可以包括如下步骤:获取所述语句中的关键词;以及根据所述关键词,确定对所述语句的标注。在一个实施例中,所述关键词可以为预先设定的关键词,并可以对应于相应的标注。例如,预定关键词“甭”对应于标注“否定(Negation)”。此外,预定关键词还可以结合一个或者多个级联关系来对应于相应的标注,例如,预定关键词“让”或“将”与级联关系中的涉事关系(Datv)结合在一起对应于标注“语态(Voice)”等。通过提取语句中的关键词,可以基于关键词和/或基于关键词与级联关系的结合,进一步确定对语句的标注。
根据不同语句的特点,基于关键词和/或关键词与级联关系的结合确定的语句标注与采用图2中的步骤210-230所确定的语句标注可能相同,也可能不相同。当二者相同时,在步骤S238中输出其中一个标注;当二者不相同时,在步骤S238中将二者均输出。
图6示意性地示出了根据本公开实施例的语句标注装置600的框图。如图6所示,根据本公开实施例的语句标注装置600可以包括:根词获取模块610、级联关系确定模块620以及标注确定模块630。所述各部件的具体功能和操作与上文中针对图2-图5描述的基本相同,因此为了避免重复,在下文中仅对所述装置进行简要的描述,而省略对相同细节的详细描述。
根词获取模块610用于基于对语句的分析获取根词。所述语句,可以包括中文语句和外文语句,例如“我很抱歉做出了这个突然的决定”、“I don’t like apples”等语句。根词获取模块610可以采用诸如语义依存分析方法等语义分析方法或者依存句法分析方法等句法分析方法等各种适当的语句分析方法来对语句进行分析以获取根词。对于同一语句,基于语义分析方法和基于语句分析方法,获取到的根词可能是不同的。例如,对于上述“我很抱歉做出了这个突然的决定”这一语句,基于语义分析方法得到的根词是“抱歉”,而基于句法分析方法获取到的根词为“做出”。
级联关系确定模块620用于确定所述根词具有的、与所述语句中的至少一个词之间的级联关系。级联关系可以包括一阶级联关系(即,根词与语句中的其它词之间的直接的级联关系)和二阶以及二阶以上的级联关系(即,根词与语句中的其它词之间的间接的级联关系)。
在一个实施例中,级联关系确定模块620包括以下中的至少一个:语义级联关系确定子模块622和句法级联关系确定子模块624。句法级联关系确定子模块624可以对所述语句进行句法分析,确定所述根词与所述语句中的至少一个词之间的级联关系。在一个实施例中,句法级联关系确定子模块624可以进一步基于语句各词(成分)之间的依存关系分析其句法结构,获取根词与语句中的其它至少一个词之间的级联关系。语义级联关系确定子模块622可以对所述语句进行语义分析,确定所述根词与所述语句中的至少一个词之间的级联关系。在一个实施例中,语义级联关系确定子模块622可以进一步基于语句中的各个词之间的语义关联,获取根词与语句中的其它至少一个词之间的级联关系。
根据实际应用和语句的特点,语义级联关系确定子模块622可以采用各种本领域已知和未来发展的各种语义分析方法来确定所述根词具有的、与所述语句中的至少一个词之间的级联关系,句法级联关系确定子模块624也可以采用各种本领域已知和未来发展的各种句法分析方法来确定所述根词具有的、与所述语句中的至少一个词之间的级联关系。
标注确定模块630用于根据所确定的级联关系,确定对所述语句的标注。不同的级联关系可以对应于不同的标注,从而,标注确定模块630可以根据特定的级联关系,确定相应的标注。
其中,当根词为所述根词确定模块610根据语义分析(例如,语义依存分析)所获取的第一根词时,所述标注确定模块630用于基于所述根词的一阶级联关系确定对所述语句的标注,并且当确定没有标注时,标注确定模块630可以执行以下操作中的至少一个:基于所述第一根词的二阶或者二阶以上的级联关系,确定对所述语句的标注;以及获取组合根词,根据所述组合根词与所述语句中的至少一个词的级联关系,确定对所述语句的标注。在一个实施例中,用于确定对语句的标注的级联关系可以为基于语义分析获得的级联关系。
在一个实施例中,标注确定模块630可以基于所述第一根词的二阶或者二阶以上的级联关系,确定对所述语句的标注。
由于语义分析和句法分析模型的特性和训练不同,所以可能会导致其所获取到的根词不同,由此,在一个实施例中,语句标注装置600可以通过将语义分析获取的根词与通过句法分析获取的根词组合,并根据组合根词所具有的、基于语义分析(例如,语义依存分析)的级联关系,确定语句的标注。
具体地,根词确定模块610可以对所述语句进行句法分析,获取第二根词,并且,将基于语义分析获取到的第一根词与基于句法分析获取到的第二根词组合以得到所述组合根词,并将所述组合根词发送至所述级联关系确定模块620。其中,所述第一根词与所述第二根词不相同。
在获取到组合根词之后,级联关系确定模块620可以通过语义级联关系确定子模块622对所述语句进行语义分析,确定所述组合根词与所述语句中的至少一个词之间的级联关系。在一个实施例中,语义级联关系确定子模块622可以对所述语句进行语义分析,分别确定第一根词和第二根词的级联关系,进而,得到的组合根词的级联关系包括第一根词的级联关系和第二根词的级联关系,在这种情况下,标注确定模块630基于得到的组合根词的级联关系中的、可以用于确定语句标注的级联关系确定语句的标注。在一个实施例中,标注确定模块630可以基于得到的组合根词的一阶级联关系中的、可以用于确定语句标注的级联关系确定语句的标注。
在一个实施例中,如图6所示,语句标注设备600还包括关键词确定模块640,用于确定所述语句中的关键词,标注确定模块630根据所述关键词,确定对所述语句的标注。在一个实施例中,所述关键词可以为预先设定的关键词,并可以对应于相应的标注。例如,预定关键词“甭”对应于标注“否定(Negation)”。此外,预定关键词还可以结合一个或者多个级联关系来对应于相应的标注,例如,预定关键词“让”或“将”与级联关系中的涉事关系(Datv)结合在一起对应于标注“语态(Voice)”等。通过关键词确定模块640提取语句中的关键词,标注确定模块630可以基于关键词和/或基于关键词与级联关系的结合,进一步确定对语句的标注。
如图6所示,根据本公开实施例的语句标注装置600还可以包括输出模块650,用于输出对所述语句的标注。所述输出模块650包括,但不限于,显示器、打印机、绘图仪、扬声器、磁盘或光盘等。
接下来将参照图7来描述根据本公开的实施例的计算机可读存储介质的示意图。如图7所示,根据本公开实施例的计算机可读存储介质700其上存储有非暂时性计算机可读指令701。当所述非暂时性计算机可读指令701由计算机运行时,使得计算机执行参照上述描述的根据本公开实施例的语句标注方法。
图8是图示根据本公开的实施例的语句标注装置的硬件框图。如图8所示,根据本公开实施例的语句标注装置800包括存储器801和处理器802。语句标注装置800中的各组件通过总线系统和/或其它形式的连接机构(未示出)互连。
所述存储器801用于存储计算机可读指令。具体地,存储器801可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
所述处理器802可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制语句标注装置800中的其它组件以执行期望的功能。在本公开的一个实施例中,所述处理器802用于运行所述存储器801中存储的所述计算机可读指令,使得所述语句标注装置800执行上述语句标注方法。所述语句标注方法与上述结合附图图2-图5所描述的语句标注方法的实施例相同,在此将省略其重复描述。
此外,需要理解的是,图8所示的语句标注装置800的组件和结构只是示例性的,而非限制性的,根据需要,语句标注装置800也可以具有其他组件和结构。例如,输入装置和输出装置等(未示出)。输入装置可用于接收来自用户的输入信息,例如中文或者外文语句,其可以包括诸如有线/无线网卡、键盘、鼠标、触摸屏、麦克风等各种输入设备。输出装置可以向外部(例如用户)输出各种信息,例如语句标注信息。输出装置可以包括,但不限于,显示器、打印机、绘图仪、扬声器、磁盘或光盘等。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
本公开中的步骤流程图以及以上方法描述仅作为例示性的例子并且不意图要求或暗示必须按照给出的顺序进行各个实施例的步骤,某些步骤可以并行、彼此独立或按照其他适当的顺序执行。另外,诸如“其后”、“然后”、“接下来”等等的词语不意图限制步骤的顺序;这些词语仅用于引导读者通读这些方法的描述。
还需要指出的是,在本公开的装置和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (16)

1.一种语句标注方法,包括:
基于对语句的分析,获取根词;
确定所述根词具有的、与所述语句中的至少一个词之间的级联关系;以及
根据所确定的级联关系,确定对所述语句的标注,
其中,当所述根词为根据语义分析所获取的第一根词时,根据所确定的级联关系确定对所述语句的标注的步骤包括:
基于所述根词的一阶级联关系确定对所述语句的标注;以及
当确定没有标注时,所述方法还包括以下步骤中的至少一个:
基于所述第一根词的二阶或者二阶以上的级联关系,确定对所述语句的标注;以及
获取组合根词,根据所述组合根词与所述语句中的至少一个词的级联关系,确定对所述语句的标注。
2.如权利要求1所述的语句标注方法,其中,所述获取组合根词的步骤包括:
对所述语句进行句法分析,获取第二根词;以及
将所述第一根词与所述第二根词组合,获取所述组合根词。
3.如权利要求2所述的语句标注方法,其中,所述第一根词与所述第二根词不相同。
4.如权利要求1所述的语句标注方法,其中,根据所述组合根词与所述语句中的至少一个词的级联关系,确定对所述语句的标注,包括:
根据所述组合根词的一阶级联关系,确定对所述语句的标注。
5.如权利要求1所述的语句标注方法,还包括:
获取所述语句中的关键词;以及
根据所述关键词,确定对所述语句的标注。
6.如权利要求1所述的语句标注方法,其中,确定所述根词具有的、与所述语句中的至少一个词之间的级联关系的步骤包括如下步骤中的至少一个:
对所述语句进行语义分析,确定所述根词与所述语句中的至少一个词之间的级联关系;以及
对所述语句进行句法分析,确定所述根词与所述语句中的至少一个词之间的级联关系。
7.如权利要求1所述的语句标注方法,还包括:
输出对所述语句的标注。
8.一种语句标注装置,包括:
根词获取模块,用于基于对语句的分析获取根词;
级联关系确定模块,用于确定所述根词具有的、与所述语句中的至少一个词之间的级联关系;以及
标注确定模块,用于根据所确定的级联关系,确定对所述语句的标注,
其中,当所述根词为根据语义分析所获取的第一根词时,所述标注确定模块用于:
基于所述根词的一阶级联关系确定对所述语句的标注;以及
当确定没有标注时,所述标注确定模块用于执行以下操作中的至少一个:
基于所述第一根词的二阶或者二阶以上的级联关系,确定对所述语句的标注;以及
根据所述根词获取模块获取到的组合根词与所述语句中的至少一个词的级联关系,确定对所述语句的标注。
9.如权利要求8所述的语句标注装置,其中,所述根词获取模块对所述语句进行句法分析,获取第二根词,将所述第一根词与所述第二根词组合,以获得所述组合根词。
10.如权利要求9所述的语句标注装置,其中,所述第一根词与所述第二根词不相同。
11.如权利要求8所述的语句标注装置,其中,所述标注确定模块根据所述组合根词的一阶级联关系,输出对所述语句的标注。
12.如权利要求8所述的语句标注装置,还包括:
关键词确定模块,用于确定所述语句中的关键词,
其中,所述标注确定模块根据所述关键词,确定对所述语句的标注。
13.如权利要求8所述的语句标注装置,其中,所述级联关系确定模块包括语义级联关系确定子模块和句法级联关系确定子模块中的至少一个,其中,所述语义级联关系确定子模块对所述语句进行语义分析,确定所述根词与所述语句中的至少一个词之间的级联关系,所述句法级联关系确定子模块对所述语句进行句法分析,确定所述根词与所述语句中的至少一个词之间的级联关系。
14.如权利要求8所述的语句标注装置,还包括:
输出模块,用于输出对所述语句的标注。
15.一种计算机存储介质,用于存储计算机可读指令,当所述计算机可读指令由计算机执行时,使得所述计算机执行如权利要求1-7中的任一项所述的语句标注方法。
16.一种语句标注装置,包括:
存储器,用于存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,使得所述语句标注装置执行如权利要求1-7中的任一项所述的语句标注方法。
CN201810362553.XA 2018-04-20 2018-04-20 语句标注方法及语句标注装置 Pending CN110390095A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201810362553.XA CN110390095A (zh) 2018-04-20 2018-04-20 语句标注方法及语句标注装置
JP2019081336A JP2019192247A (ja) 2018-04-20 2019-04-22 文ラベル方法及び文ラベル装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810362553.XA CN110390095A (zh) 2018-04-20 2018-04-20 语句标注方法及语句标注装置

Publications (1)

Publication Number Publication Date
CN110390095A true CN110390095A (zh) 2019-10-29

Family

ID=68283398

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810362553.XA Pending CN110390095A (zh) 2018-04-20 2018-04-20 语句标注方法及语句标注装置

Country Status (2)

Country Link
JP (1) JP2019192247A (zh)
CN (1) CN110390095A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112084752A (zh) * 2020-09-08 2020-12-15 中国平安财产保险股份有限公司 基于自然语言的语句标注方法、装置、设备及存储介质
CN113569099A (zh) * 2020-04-29 2021-10-29 阿里巴巴集团控股有限公司 模型训练方法、装置、电子设备及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111178021A (zh) * 2019-11-29 2020-05-19 厦门快商通科技股份有限公司 一种项目对齐标注工具创建方法及系统
CN112036166A (zh) * 2020-07-22 2020-12-04 大箴(杭州)科技有限公司 一种数据标注方法、装置、存储介质及计算机设备
CN116361422B (zh) * 2023-06-02 2023-09-19 深圳得理科技有限公司 关键词提取方法、文本检索方法及相关设备
CN117574878B (zh) * 2024-01-15 2024-05-17 西湖大学 用于混合领域的成分句法分析方法、装置及介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113569099A (zh) * 2020-04-29 2021-10-29 阿里巴巴集团控股有限公司 模型训练方法、装置、电子设备及存储介质
CN113569099B (zh) * 2020-04-29 2022-12-13 阿里巴巴集团控股有限公司 模型训练方法、装置、电子设备及存储介质
CN112084752A (zh) * 2020-09-08 2020-12-15 中国平安财产保险股份有限公司 基于自然语言的语句标注方法、装置、设备及存储介质
CN112084752B (zh) * 2020-09-08 2023-07-21 中国平安财产保险股份有限公司 基于自然语言的语句标注方法、装置、设备及存储介质

Also Published As

Publication number Publication date
JP2019192247A (ja) 2019-10-31

Similar Documents

Publication Publication Date Title
CN110390095A (zh) 语句标注方法及语句标注装置
CN108363790B (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN106919655B (zh) 一种答案提供方法和装置
WO2021051871A1 (zh) 文本抽取方法、装置、设备及存储介质
KR102288249B1 (ko) 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체
CN111191030B (zh) 基于分类的单句意图识别方法、装置和系统
Orosz et al. PurePos 2.0: a hybrid tool for morphological disambiguation
CN108875059B (zh) 用于生成文档标签的方法、装置、电子设备和存储介质
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
US20190370274A1 (en) Analysis Method Using Graph Theory, Analysis Program, and Analysis System
CN107807968B (zh) 基于贝叶斯网络的问答装置、方法及存储介质
CN110334209B (zh) 文本分类方法、装置、介质及电子设备
WO2019028990A1 (zh) 代码元素的命名方法、装置、电子设备及介质
CN114495143B (zh) 一种文本对象识别方法、装置、电子设备及存储介质
US9652997B2 (en) Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme
WO2017032427A1 (en) Identifying augmented features based on a bayesian analysis of a text document
JP2018005690A (ja) 情報処理装置及びプログラム
CN110399547B (zh) 用于更新模型参数的方法、装置、设备和存储介质
CN111291565A (zh) 一种用于命名实体识别的方法与装置
CN109271624A (zh) 一种目标词确定方法、装置及存储介质
CN108170661B (zh) 一种规则文本的管理方法及系统
CN112100360B (zh) 一种基于向量检索的对话应答方法、装置和系统
CN113723077A (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
US20170337484A1 (en) Scalable web data extraction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination