CN110555205B - 否定语义识别方法及装置、电子设备、存储介质 - Google Patents
否定语义识别方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN110555205B CN110555205B CN201810552837.5A CN201810552837A CN110555205B CN 110555205 B CN110555205 B CN 110555205B CN 201810552837 A CN201810552837 A CN 201810552837A CN 110555205 B CN110555205 B CN 110555205B
- Authority
- CN
- China
- Prior art keywords
- word
- negative
- dependency
- subtree
- target sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000004458 analytical method Methods 0.000 claims abstract description 76
- 238000002372 labelling Methods 0.000 claims abstract description 17
- 238000012549 training Methods 0.000 claims description 18
- 238000011156 evaluation Methods 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 7
- 230000001419 dependent effect Effects 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 description 15
- 230000000875 corresponding effect Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 5
- 238000012360 testing method Methods 0.000 description 5
- 230000001965 increasing effect Effects 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000001788 irregular Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Landscapes
- Machine Translation (AREA)
Abstract
本公开提供了一种否定语义识别方法及装置、电子设备、计算机可读存储介质,属于计算机技术领域。该方法包括:从目标语句中识别否定词;对所述目标语句进行依存分析,获得依存关系树;根据所述依存关系树确定所述目标语句中与所述否定词关联的中心词;对所述中心词进行否定性标注。本公开可以识别出否定语句中否定词所修饰的具体对象,实现对语句的准确理解,并且可以用于识别各种不同表述方式的语句,适用范围较广。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种否定语义识别方法及装置、电子设备、计算机可读存储介质。
背景技术
随着大数据与人工智能技术的发展,计算机语义识别及自然语言处理(NaturalLanguage Processing,NLP)表现出巨大的发展潜力与商业价值,在搜索、机器翻译、智能客服、输入法等多个领域都已经得到广泛的应用。
在语义识别中,关于否定语义的识别是一个技术难点。现有识别否定语义的方法多数是人工维护否定词表,并编辑否定语义的匹配规则,通过正则匹配识别否定语义。然而在人们日常会话中,语言的表述方式很多,正则匹配难以穷尽所有的情况,特别是对于复杂语句或不规则语句的识别效果较差,例如包含多个定语的长句、否定倒装句、双重否定句等,因此现有方法对于否定语义的识别较为机械,准确率不高;此外,现有方法还需要人工持续更新否定语义的匹配规则,也增加了人力成本。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本公开提供了一种否定语义识别方法及装置、电子设备、计算机可读存储介质,进而至少在一定程度上克服现有的否定语义识别方法准确率不高且更新规则增加人力成本的问题。
本公开的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本公开的实践而习得。
根据本公开的一个方面,提供一种否定语义识别方法,包括:从目标语句中识别否定词;对所述目标语句进行依存分析,获得依存关系树;根据所述依存关系树确定所述目标语句中与所述否定词关联的中心词;对所述中心词进行否定性标注。
在本公开的一种示例性实施例中,从目标语句中识别否定词包括:对所述目标语句进行分词及词性标注,并根据所述目标语句中各词语的词性标注识别所述否定词。
在本公开的一种示例性实施例中,对所述目标语句进行依存分析,获得依存关系树包括:将所述目标语句划分为一个或多个子句;对各所述子句进行句法依存分析,生成各所述子句对应的子树,并提取各所述子树的根词语;对所述根词语组成的序列进行语义依存分析,确定所述根词语之间的依存关系,以获得所述依存关系树。
在本公开的一种示例性实施例中,对各所述子句进行句法依存分析,生成各所述子句对应的子树包括:根据各所述子句中各词语的词性标注,提取主结构词及所述主结构词的次结构词;在各所述子句中,将所述主结构词与所述次结构词向两侧延伸,获得所述主结构词与所述次结构词的子节点词;将所述子节点词依存到对应的所述主结构词或所述次结构词上,并将所述次结构词依存到对应的所述主结构词上,以生成各所述子句的一个或多个候选子树;通过维特比算法计算每个所述候选子树的概率,将最大概率的所述候选子树确定为最终的所述子树。
在本公开的一种示例性实施例中,还包括:当所述根词语之间存在并列关系时,合并相应的所述子树。
在本公开的一种示例性实施例中,还包括:当全部的所述子树合并为一棵子树时,提取合并后的所述一棵子树的根词语,得到根词语序列;对所述根词语序列进行句法依存分析,以获得所述依存关系树。
在本公开的一种示例性实施例中,还包括:通过样本集训练所述句法依存分析的算法,并通过句法依存评价指标评价训练是否通过;其中,所述句法依存评价指标包括标记正确率、标记召回率、节点正确率及节点召回率中的一种或多种。
在本公开的一种示例性实施例中,还包括:通过样本集训练所述语义依存分析的算法,并通过语义依存评价指标评价训练是否通过;其中,所述语义依存评价指标包括依存关系正确率、依存关系召回率、中心词正确率、根正确率及完全匹配率中的一种或多种。
在本公开的一种示例性实施例中,所述中心词包括父属性词、子属性词及否定属性词;基于所述依存关系树,确定所述目标语句中与所述否定词关联的中心词包括:基于所述依存关系树,确定所述目标语句中与所述否定词关联的所述父属性词、子属性词及否定属性词。
在本公开的一种示例性实施例中,对所述中心词进行否定性标注包括:根据预设规则,判断所述父属性词与所述子属性词是否具有相关性,以生成相关性标签;当所述相关性标签为“是”时,为所述目标语句添加否定性标识,所述否定性标识包括所述父属性词、子属性词、否定属性词及相关性标签。
在本公开的一种示例性实施例中,还包括:当所述相关性标签为“否”时,重新对所述目标语句进行依存分析。
在本公开的一种示例性实施例中,在从所述目标语句中识别否定词之前,所述方法还包括:对所述目标语句进行正则清洗,以去除不包含关键信息的内容。
根据本公开的一个方面,提供一种否定语义识别装置,包括:否定识别模块,用于从目标语句中识别否定词;依存分析模块,用于对所述目标语句进行依存分析,获得依存关系树;中心词确定模块,用于根据所述依存关系树,确定所述目标语句中与所述否定词关联的中心词;否定标注模块,用于对所述中心词进行否定性标注。
根据本公开的一个方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。
根据本公开的一个方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的方法。
本公开的示例性实施例具有以下有益效果:
在上述方法中,从目标语句中识别否定词,并对目标语句进行依存分析,通过依存分析的结果确定与否定词关联的中心词,从而可以对中心词进行否定性标注。一方面,本实施例标注出目标语句中否定词在语义上修饰的中心词,能够识别出否定语句中具体否定的内容,实现对语句的准确理解,以便于根据语义识别的结果进行后续的处理。另一方面,根据目标语句的依存分析进行语义识别,可用于识别各种不同表述方式的目标语句,例如现有技术中难以识别的复杂语句或不规则语句等,因此本实施例适用于多种业务场景中,具有较好的通用性。再一方面,本实施例对于否定语义的识别不依赖于固定的规则,较为灵活,且无需人工更新规则库,从而降低了人力成本。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出应用本示例性实施例中一种否定语义识别方法的系统架构图;
图2示意性示出本示例性实施例中一种否定语义识别方法的流程图;
图3示意性示出本示例性实施例中一种语句依存分析的示意图;
图4示意性示出本示例性实施例中另一种否定语义识别方法的流程图;
图5示意性示出本示例性实施例中一种语句依存分析的流程图;
图6示意性示出本示例性实施例中一种否定语义识别方法的子流程图;
图7示意性示出本示例性实施例中一种否定语义识别装置的结构框图;
图8示意性示出本示例性实施例中一种用于实现上述方法的电子设备;
图9示意性示出本示例性实施例中一种用于实现上述方法的计算机可读存储介质。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本公开将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。
本公开的示例性实施例提供了一种否定语义识别方法,可用于在自然语言中识别出否定词所修饰的对象或指向的内容,以进行相应的后续处理。否定语义的识别可以应用于多种业务场景中,例如在网购客服的场景中,可以根据用户输入的语句,自动识别出用户不想要的商品型号、商品品牌等,进而实现精准的商品推荐;在翻译工具的场景中,由于不同语言之间表达否定的语句结构不同,识别出具体否定的对象或内容后,可以进行准确翻译等。
图1示出了可以应用本示例性实施例的否定语义识别方法的示例性系统架构。如图1所示,该系统100可以包括终端设备101、102、103,网络104及服务器105。网络104用于在终端设备101、102、103和服务器105之间提供通信连接,可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以发送或接收信息,例如向服务器105发送待翻译文本,接收服务器105返回的根据语义识别的结果所翻译后的文本。
终端设备101、102、103可以是具有显示屏的各种电子设备,包括但不限于智能手机、平板电脑、个人电脑等,可以安装各种客户端应用程序,例如网页浏览器应用、即时通信工具、购物类应用等。
服务器105可以是提供各种数据支持的服务器,例如对用户通过终端设备101、102、103所发送的搜索请求提供支持的后台管理服务器,后台管理服务器可以对接收到的搜索请求进行识别、转发、校验等处理,并将结果反馈给终端设备101、102、103。
基于上述说明,本示例性实施例的否定语义识别方法可以应用于服务器105上,由服务器105接收终端设备101、102、103发送的包含自然语言的信息,通过本实施例的方法进行否定语义识别,并可以根据识别的结果进行相应处理,最后反馈到终端设备101、102、103。
应当理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的,根据实际需要,可以设置任意数目的终端设备、网络和服务器。
下面结合附图2对本示例性实施例的方法做进一步说明。参考图2所示,该否定语义识别方法可以包括以下步骤:
步骤S21,从目标语句中识别否定词。
目标语句即待识别的语句。识别否定词可以通过匹配预设的否定词表以实现,在一示例性实施例中,也可以对目标语句进行分词及词性标注,并根据目标语句中各词语的词性标注识别否定词。可以使用现有的分词工具实现该过程,例如jieba分词、CoreNLP(斯坦福大学团队开发的分词工具包,支持中文)、LTP(哈尔滨工业大学团队开发的语言分析工具)等都支持中文分词加词性标注,并可以在其中加入自定义的词库,例如与业务场景相关的特色产品词库、特色品牌词库等。通过分析工具对目标语句进行处理,可以得到带有词性标注的词语序列,其中对否定词进行特别的词性标注,可以快速识别出目标语句中的否定词。
步骤S22,对目标语句进行依存分析,获得依存关系树。
其中,依存分析是指通过分析语句内各成分之间的相互依存关系以揭示语句的结构。参考图3所示,以“我不要屏幕大的手机”为例,进行依存分析的说明,将目标语句拆分为词语后,可以对其中各个词语的成分进行分析,首先确定出目标语句的主体结构,例如确定主语、谓语、宾语,“我不要屏幕大的手机”中“我”为主语,“不要”为谓语,“屏幕大的手机”为宾语,然后可以再确定各个部分内部的结构,例如“屏幕大的手机”的主结构词为“手机”,“屏幕大的”是“手机”的描述标注,“大”是“屏幕”的描述标注。由此可以将语句划分为多个层级,各个词语之间通过各种语句结构关系建立关联,形成树状的依存关系。
步骤S23,根据依存关系树确定目标语句中与否定词关联的中心词。
中心词是指在语义上与否定词关联的词语,在目标语句中,中心词与否定词之间不一定前后相邻,从结构上难以体现出关联,通过依存关系树可以对中心词与否定词的关系进行挖掘,例如图3所示,从“屏幕大的手机”中提炼出最下级描述词为“大”,则否定词“不”修饰的对象即为“大”。
需要说明的是,图3所示的情况仅是示例,在目标语句中,否定词在结构上可能修饰谓语,也可能修饰宾语中的某个定语等,因此否定词的语义修饰对象不一定是宾语部分的最下级描述词,根据实际语境,中心词也可以是宾语部分的主结构词,前置的状语描述词等,本实施例对此不做特别限定。
步骤S24,对中心词进行否定性标注。
通过以上步骤确定中心词后,可以对其特别标注,以帮助程序更好的理解目标语句,并实现相应的信息过滤,例如图3的情况中,程序在后续搜索手机商品时,可以去掉“屏幕大的”的相关搜索结果。否定性标注可以显示在程序前台,通过加标签、加背景色、加粗字体等形式呈现,使用户可以查看程序的语义识别结果,及时纠错;此外,否定性标注也可以仅在程序后台进行,以隐性的方式进行语义识别及后续处理,提高程序的智能度。
在上述方法中,从目标语句中识别否定词,并对目标语句进行依存分析,通过依存分析的结果确定与否定词关联的中心词,从而可以对中心词进行否定性标注。一方面,本实施例标注出目标语句中否定词在语义上修饰的中心词,能够识别出否定语句中具体否定的内容,实现对语句的准确理解,以便于根据语义识别的结果进行后续的处理。另一方面,根据目标语句的依存分析进行语义识别,可用于识别各种不同表述方式的目标语句,例如现有技术中难以识别的复杂语句或不规则语句等,因此本实施例适用于多种业务场景中,具有较好的通用性。再一方面,本实施例对于否定语义的识别不依赖于固定的规则,较为灵活,且无需人工更新规则库,从而降低了人力成本。
本示例性实施例所识别的目标语句通常为表达了完整意思的一句话,如果是由多句话组成的段落,则可以将其拆分为多个目标语句,拆分时可以以句号、感叹号等终结性标点作为标准,也可以以谓语作为标准,即包含了一个谓语的一句话或几句话是一个目标语句等,本实施例对此不做特别限定。
由上可见,目标语句可能包含了多于一个的子句,例如由逗号、空格等分隔开的多个子句。当目标语句由多个子句组成时,除了分析每个子句内的依存关系外,还需要分析子句与子句之间的依存关系。在一示例性实施例中,参考图4所示,对目标语句进行依存分析,获得依存关系树可以包括以下步骤:步骤S421,将目标语句划分为一个或多个子句;步骤S422,对各子句进行句法依存分析,确定各子句对应的子树,并提取各子树的根词语;步骤S432,对所述根词语组成的序列进行语义依存分析,确定所述根词语之间的依存关系,以获得所述依存关系树。
上述流程可以参考图5所示,由目标语句划分为n个子句,通过句法依存分析由n个子句得到n个子树,其中,句法依存分析是指分析子句内部词语之间的依存关系。将子句内的词语分层级描述,可以构建表现子句内部关系的子树,子树具有一个或多个根词语,根词语通常是构成子句主结构的词语,例如主语、谓语、宾语部分的主结构词等。语义依存分析是指基于各子句的根词语,分析各子句之间的依存关系。各子句之间的依存关系可以体现为各子句的根词语之间的关系,因此通过分析根词语的依存关系,可以得到各子句之间的依存关系,从而获得目标语句的依存关系树。在进行语义依存分析时,通常可以依据各个根词语的词性标注将其进行基本的依存关系组合,以得到多种组合结果,然后可以从主节点开始,计算每个节点与下级节点之间的组合概率,进而计算出整棵树的概率,可以将概率最大的树作为依存关系树。
在一示例性实施例中,对各子句进行句法依存分析,确定各子句对应的子树可以通过图6中的步骤S601~S604实现:步骤S601,根据各子句中各词语的词性标注,提取主结构词及主结构词的次结构词;步骤S602,在各子句中,将主结构词与次结构词向两侧延伸,获得主结构词与次结构词的子节点词;步骤S603,将子节点词依存到对应的主结构词或次结构词上,并将次结构词依存到对应的主结构词上,以生成各子句的一个或多个候选子树;步骤S604,通过维特比算法计算每个候选子树的概率,将最大概率的候选子树确定为最终的子树。
其中,主结构词可以是构成子句主结构的词语,例如主语、谓语、宾语部分的主结构词等,次结构词可以是对主结构词有限定作用的名词,子节点词可以是对上述两种词进行直接修饰的词,例如“屏幕大的手机”中“手机”为主结构词,“屏幕”为“手机”的次结构词,“大的”为“屏幕”的子节点词。根据主结构词或次结构词提取情况的不同,以及在确定子节点词时,延伸情况的不同,每个子句都可以生成多种依存关系,进而得到多个候选子树。维特比算法可以计算出每个子句的各种词语关联情况的概率,以及形成每种完整依存关系的概率,即生成每个候选子树的概率,可以从中选择最大概率的候选子树作为该子句最终的子树。
对各子句进行句法依存分析,得到各子句的子树后,可以首先判断子树的棵数,参考上述图4所示,如果子树只有一棵,通常是由于目标语句只包含一个子句,则对该子句进行句法依存分析,相当于对整个目标语句进行了依存分析,得到的子树即最终的依存关系树,无需再进行后续的语义依存分析。如果子树不止一棵,则可以对子树进行合并。在划分子句时,通常是以逗号、顿号、空格等符号为标准进行分割,然而,由于逗号或顿号的特殊性,或者用户误输入的情况,可能导致对目标语句进行了不适当的分割,导致不同子句之存在间有并列的成分。因此,在一示例性实施例中,当根词语之间存在并列关系时,可以合并相应的子树。参考上述图5所示,可以先合并子树,再进行语义依存分析,通过合并减少了子树的数量,更有利于在语义依存分析中得到准确的依存关系树。此外,在进行子树合并时,可能存在下列情况:子树A的根词语中,一部分与子树B的根词语并列,一部分与子树C的根词语并列,则可以将子树A拆分为两部分,相应的分别并入子树B与子树C中;或者子树A的根词语中,一部分与子树B的根词语并列,另一部分与任何子树的根词语都不存在并列关系,则可以将子树A拆分,一部分并入子树A,剩余部分单独形成另一棵子树。简而言之,本示例性实施例支持将子树拆分后重组,以获得相关性更高的合并子树或新子树。
特别的,当全部的子树可以合并为一颗子树时,可以通过以下步骤进行语义依存分析:提取合并后的那棵子树的根词语,得到根词语序列;对该根词语序列进行句法依存分析,以获得依存关系树。由于语义依存分析通常处理多个子句之间的依存结构,当多个子句的子树合并为一棵子树时,可以将多个子句当做一个子句来处理,适用句法依存分析。提取合并子树的根词语并组成根词语序列,根词语序列对于目标语句的主结构具有较高的代表性,对其进行句法依存分析,得到的关系树即为目标语句的依存关系树,能够保证较高的准确率,且降低了计算量。
句法依存分析算法及语义依存分析算法从原理上来说属于机器学习模型,因此可以通过一定的样本集进行训练,并通过一定的指标评价算法的训练效果,以确定算法是否可用。
在一示例性实施例中,所述否定语义识别方法还可以包括:通过样本集训练句法依存分析的算法,并通过句法依存评价指标评价训练是否通过;其中,句法依存评价指标包括标记正确率、标记召回率、节点正确率及节点召回率中的一种或多种。标记正确率是指句法依存分析输出的子树中正确的词语个数占该子树全部词语个数的比例;标记召回率是指句法依存分析输出的子树中正确的词语个数占标准子树(即人为标记的样本语句的正确子树)中全部词语个数的比例;节点正确率是指句法依存分析输出的子树中正确的节点占该子树全部节点个数的比例;节点召回率是指句法依存分析输出的子树中正确的节点占标准子树中全部节点个数的比例。
在一示例性实施例中,所述否定语义识别方法还可以包括:通过样本集训练语义依存分析的算法,并通过语义依存评价指标评价训练是否通过;其中,语义依存评价指标包括依存关系正确率、依存关系召回率、中心词正确率、根正确率及完全匹配率中的一种或多种。可以将样本集划分为训练集与测试集(例如8:2划分),训练集用于训练算法,测试集用于测试算法的各项指标。依存关系正确率是指语义依存分析输出的依存关系树中正确的节点占该树全部节点个数的比例;依存关系召回率是指输出的依存关系树中正确的节点占标准依存关系树(即人为标记的样本语句的正确依存关系树)全部节点个数的比例;中心词正确率是指正确找到与否定词关联的中心词的语句,占测试集总语句数的比例;根正确率是指输出的依存关系树的根节点与标准依存关系树的根节点一致的语句,占测试集总语句数的百分比;完全匹配率是指输出的依存关系树与标准依存关系树完全一致的语句,占测试集总语句数的百分比。
可以根据经验设定上述句法依存评价指标及语义依存评价指标的各项具体指标的阈值,当全部的指标都达到或超过阈值时,认为算法训练通过。在使用中,也可以根据依存分析的实际效果对评价指标的阈值进行调节,例如依存分析的准确率不够理想时,可以适当的提高评价指标的阈值,并对算法进行再次训练。通过增加样本集中的语句及标记数量,或者利用实际使用的结果反馈到依存分析的算法中,可以对依存分析的算法进行优化或更新,该过程可以通过训练自动完成,节约了人力成本。
在一示例性实施例中,参考图4所示,中心词可以包括父属性词、子属性词及否定属性词;步骤S230可以通过以下步骤实现:基于依存关系树,确定目标语句中与否定词关联的父属性词、子属性词及否定属性词。其中,否定属性词是指否定词在语义上修饰的词,即上述各实施例中所述的中心词;子属性词是指否定属性所属分类的名词,可以是目标语句中实际出现的词,也可以是通过上下文推断出的词;父属性词是指在语义上具有否定属性的主结构词,通常是目标语句中实际出现的词。例如“我不要屏幕大的手机”中,否定属性词为“大”,子属性词为“屏幕”,父属性词为“手机”。可见,父属性词、子属性词及否定属性词可视为否定语义的三个层级,通过这三个层级的否定性标注,可以提升语义理解的效果。
进一步的,参考图4所示,对中心词进行否定性标注可以包括以下步骤:根据预设规则,判断父属性词与子属性词是否具有相关性,以生成相关性标签;当相关性标签为“是”时,为目标语句添加否定性标识,所述否定性标识包括父属性词、子属性词、否定属性词及相关性标签。其中,预设规则可以是已设定的父属性词与子属性词的相关性表,例如“手机”与“屏幕”、“内存”、“颜色”等子属性相关,与“腰围”、“口味”等子属性不相关。预设规则可以是正向的,即设定父属性词与哪些子属性词相关,则未设定的默认不相关,也可以是负向的,即设定父属性词与哪些子属性词不相关,则未设定的默认为相关。当判断父属性词与子属性词具有相关性时,可以认为否定语义识别通过,为目标语句添加否定性标识,否定性标识可以是一个元组,如表1所示,可以在程序后台生成一个与目标语句关联的元组,程序可以依据该元组的数据进行信息过滤等后续处理。此外,否定性标识也可以是添加在目标语句特定位置的文本戳、数值戳等。本实施例对此不做特别限定。
父属性词 | 子属性词 | 否定属性词 | 相关性标签 |
手机 | 屏幕 | 大 | Y |
表1
在一示例性实施例中,存在相关性标签为“否”的情况,例如父属性词为“手机”、子属性词为“腰围”时,两者相关性标签为“N”(即“否”),说明否定语义识别的结果可能不准确,依据该识别结果可能难以进行后续处理,因此可以重新对目标语句进行依存分析。例如,在语义依存分析中,选择概率最大的依存关系树发生不相关的情况时,可以选择概率次之的依存关系树,或者重新计算各依存关系树的概率,也可以追溯到句法依存分析的步骤,重新计算各子句对应的子树的概率,或选择不同的子树等等。
本示例性实施例中,目标语句可以由终端直接发送到服务器,由服务器进行否定语义识别,特别适用于一些需要即时识别的场景,例如即时翻译、语音客服助理等;此外,目标语句也可以储存在数据库中,由服务器从数据库中获取目标语句后进行否定语义识别,例如将用户评论储存到Hive(一种基于Hadoop的数据仓库工具)中,通过服务器读取并进行否定语义识别,以挖掘用户的需求及喜好,并确定后续的推送策略等。本实施例对此不做特别限定。
在一示例性实施例中,在获取目标语句后,还可以首先通过卷积神经网络模型对目标语句进行分类识别,以确定目标语句是肯定意图还是否定意图,然后再进行否定词识别、依存分析等后续步骤,以进一步提高语义识别的准确率。
在一示例性实施例中,参考上述图4所示,在从目标语句中识别否定词之前,还可以对目标语句进行正则清洗,以去除不包含关键信息的内容,例如“你好”、“谢谢”等。通过配置包含了这些“垃圾信息”的文本库,可以利用正则匹配将符合的内容清洗掉,实现对目标语句的精简。
本示例性实施例的否定语义识别方法,通过标注出目标语句中否定词在语义上修饰的中心词,以识别出否定语句中具体否定的对象或内容,实现对语句的准确理解,识别方法较为灵活,对不同的场景都有较好的适用性。并且,通过依存分析的算法确定目标语句的依存关系,实现了智能化的分析过程,结果的准确率较高,同时算法的优化及更新可通过训练与结果反馈实现,不依赖于大量的人力维护工作,降低了人力成本。此外,通过对目标语句进行肯定/否定意图的分类识别、正则清洗无用信息、分词及词性标注等预处理,可以降低否定语义识别过程的工作量,并进一步提高识别的准确率。
本公开的示例性实施例还提供了一种否定语义识别装置,可以应用于图1所示系统中的服务器105。参考图7所示,该否定语义识别装置700可以包括:否定识别模块710,用于从目标语句中识别否定词;依存分析模块720,用于对目标语句进行依存分析,获得依存关系树;中心词确定模块730,用于根据依存关系树,确定目标语句中与否定词关联的中心词;否定标注模块740,用于对中心词进行否定性标注。各模块的具体细节在方法部分的实施例中已经详细说明,因此不再赘述。
本公开的示例性实施例还提供了一种能够实现上述方法的电子设备。
所属技术领域的技术人员能够理解,本公开的各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。
下面参照图8来描述根据本公开的这种示例性实施例的电子设备800。图8显示的电子设备800仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图8所示,电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于:上述至少一个处理单元810、上述至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。
其中,所述存储单元存储有程序代码,所述程序代码可以被所述处理单元810执行,使得所述处理单元810执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如,所述处理单元810可以执行如图2中所示的步骤:步骤S210,从目标语句中识别否定词;步骤S220,对目标语句进行依存分析,获得依存关系树;步骤S230,根据依存关系树确定目标语句中与否定词关联的中心词;步骤S240,对中心词进行否定性标注。
存储单元820可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)821和/或高速缓存存储单元822,还可以进一步包括只读存储单元(ROM)823。
存储单元820还可以包括具有一组(至少一个)程序模块825的程序/实用工具824,这样的程序模块825包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
总线830可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
电子设备800也可以与一个或多个外部设备1000(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备800交互的设备通信,和/或与使得该电子设备800能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口850进行。并且,电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器860通过总线830与电子设备800的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备800使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本公开实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开示例性实施例的方法。
本公开的示例性实施例还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中,本公开的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。
参考图9所示,描述了根据本公开的示例性实施例的用于实现上述方法的程序产品900,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本公开的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
此外,上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明,而不是限制目的。易于理解,上述附图所示的处理并不表明或限制这些处理的时间顺序。另外,也易于理解,这些处理可以是例如在多个模块中同步或异步执行的。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本公开的示例性实施例,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。
Claims (14)
1.一种否定语义识别方法,其特征在于,包括:
从目标语句中识别否定词;
将所述目标语句划分为一个或多个子句;
对各所述子句进行句法依存分析,生成各所述子句对应的多个候选子树,通过维特比算法计算每个所述候选子树的概率,将最大概率的所述候选子树确定为最终的所述子树,并提取各所述子树的根词语;
对所述根词语组成的序列进行语义依存分析,确定所述根词语之间的依存关系,以获得依存关系树;
根据所述依存关系树确定所述目标语句中与所述否定词关联的中心词;
对所述中心词进行否定性标注。
2.根据权利要求1所述的方法,其特征在于,从目标语句中识别否定词包括:
对所述目标语句进行分词及词性标注,并根据所述目标语句中各词语的词性标注识别所述否定词。
3.根据权利要求1所述的方法,其特征在于,对各所述子句进行句法依存分析,生成各所述子句对应的多个候选子树,通过维特比算法计算每个所述候选子树的概率,将最大概率的所述候选子树确定为最终的所述子树,并提取各所述子树的根词语包括:
根据各所述子句中各词语的词性标注,提取主结构词及所述主结构词的次结构词;
在各所述子句中,将所述主结构词与所述次结构词向两侧延伸,获得所述主结构词与所述次结构词的子节点词;
将所述子节点词依存到对应的所述主结构词或所述次结构词上,并将所述次结构词依存到对应的所述主结构词上,以生成各所述子句的一个或多个候选子树;
通过维特比算法计算每个所述候选子树的概率,将最大概率的所述候选子树确定为最终的所述子树。
4.根据权利要求3所述的方法,其特征在于,还包括:
当所述根词语之间存在并列关系时,合并相应的所述子树。
5.根据权利要求4所述的方法,其特征在于,还包括:
当全部的所述子树合并为一棵子树时,提取合并后的所述一棵子树的根词语,得到根词语序列;
对所述根词语序列进行句法依存分析,以获得所述依存关系树。
6.根据权利要求3所述的方法,其特征在于,还包括:
通过样本集训练所述句法依存分析的算法,并通过句法依存评价指标评价训练是否通过;
其中,所述句法依存评价指标包括标记正确率、标记召回率、节点正确率及节点召回率中的一种或多种。
7.根据权利要求3所述的方法,其特征在于,还包括:
通过样本集训练所述语义依存分析的算法,并通过语义依存评价指标评价训练是否通过;
其中,所述语义依存评价指标包括依存关系正确率、依存关系召回率、中心词正确率、根正确率及完全匹配率中的一种或多种。
8.根据权利要求1所述的方法,其特征在于,所述中心词包括父属性词、子属性词及否定属性词;基于所述依存关系树,确定所述目标语句中与所述否定词关联的中心词包括:
基于所述依存关系树,确定所述目标语句中与所述否定词关联的所述父属性词、子属性词及否定属性词。
9.根据权利要求8所述的方法,其特征在于,对所述中心词进行否定性标注包括:
根据预设规则,判断所述父属性词与所述子属性词是否具有相关性,以生成相关性标签;
当所述相关性标签为“是”时,为所述目标语句添加否定性标识,所述否定性标识包括所述父属性词、子属性词、否定属性词及相关性标签。
10.根据权利要求9所述的方法,其特征在于,还包括:
当所述相关性标签为“否”时,重新对所述目标语句进行依存分析。
11.根据权利要求1所述的方法,其特征在于,在从所述目标语句中识别否定词之前,所述方法还包括:
对所述目标语句进行正则清洗,以去除不包含关键信息的内容。
12.一种否定语义识别装置,其特征在于,包括:
否定识别模块,用于从目标语句中识别否定词;
依存分析模块,用于将所述目标语句划分为一个或多个子句;对各所述子句进行句法依存分析,生成各所述子句对应的多个候选子树,通过维特比算法计算每个所述候选子树的概率,将最大概率的所述候选子树确定为最终的所述子树,并提取各所述子树的根词语;对所述根词语组成的序列进行语义依存分析,确定所述根词语之间的依存关系,以获得依存关系树;
中心词确定模块,用于根据所述依存关系树,确定所述目标语句中与所述否定词关联的中心词;
否定标注模块,用于对所述中心词进行否定性标注。
13.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1-11任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-11任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810552837.5A CN110555205B (zh) | 2018-05-31 | 2018-05-31 | 否定语义识别方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810552837.5A CN110555205B (zh) | 2018-05-31 | 2018-05-31 | 否定语义识别方法及装置、电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110555205A CN110555205A (zh) | 2019-12-10 |
CN110555205B true CN110555205B (zh) | 2024-04-19 |
Family
ID=68733880
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810552837.5A Active CN110555205B (zh) | 2018-05-31 | 2018-05-31 | 否定语义识别方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110555205B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113569099B (zh) * | 2020-04-29 | 2022-12-13 | 阿里巴巴集团控股有限公司 | 模型训练方法、装置、电子设备及存储介质 |
CN111666372B (zh) * | 2020-04-29 | 2023-08-18 | 百度在线网络技术(北京)有限公司 | 解析查询词query的方法、装置、电子设备和可读存储介质 |
CN111581533B (zh) * | 2020-05-12 | 2023-11-03 | 腾讯科技(深圳)有限公司 | 目标对象的状态识别方法、装置、电子设备和存储介质 |
CN114997140B (zh) * | 2021-09-17 | 2023-04-28 | 荣耀终端有限公司 | 校验语义的方法和装置 |
CN115048924B (zh) * | 2022-08-15 | 2022-12-23 | 苏州大学 | 基于否定前后缀信息的否定句识别方法 |
CN117875921B (zh) * | 2024-03-13 | 2024-05-24 | 北京金诚久安人力资源服务有限公司 | 基于人工智能的人力资源管理方法和系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1781102A (zh) * | 2003-04-30 | 2006-05-31 | 诺基亚有限公司 | 低速存储器判定树 |
CN1839383A (zh) * | 2003-09-30 | 2006-09-27 | 英特尔公司 | 动态贝叶斯网络的维特比路径生成 |
US8437431B1 (en) * | 2007-09-20 | 2013-05-07 | Gregory Hubert Piesinger | Sequential decoder fast incorrect path elimination method and apparatus for pseudo-orthogonal coding |
CN103646112A (zh) * | 2013-12-26 | 2014-03-19 | 中国科学院自动化研究所 | 利用了网络搜索的依存句法的领域自适应方法 |
CN104516874A (zh) * | 2014-12-29 | 2015-04-15 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种对名词短语进行依存句法分析的方法及系统 |
CN107480133A (zh) * | 2017-07-25 | 2017-12-15 | 广西师范大学 | 一种基于答案蕴涵与依存关系的主观题自适应阅卷方法 |
-
2018
- 2018-05-31 CN CN201810552837.5A patent/CN110555205B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1781102A (zh) * | 2003-04-30 | 2006-05-31 | 诺基亚有限公司 | 低速存储器判定树 |
CN1839383A (zh) * | 2003-09-30 | 2006-09-27 | 英特尔公司 | 动态贝叶斯网络的维特比路径生成 |
US8437431B1 (en) * | 2007-09-20 | 2013-05-07 | Gregory Hubert Piesinger | Sequential decoder fast incorrect path elimination method and apparatus for pseudo-orthogonal coding |
CN103646112A (zh) * | 2013-12-26 | 2014-03-19 | 中国科学院自动化研究所 | 利用了网络搜索的依存句法的领域自适应方法 |
CN104516874A (zh) * | 2014-12-29 | 2015-04-15 | 北京牡丹电子集团有限责任公司数字电视技术中心 | 一种对名词短语进行依存句法分析的方法及系统 |
CN107480133A (zh) * | 2017-07-25 | 2017-12-15 | 广西师范大学 | 一种基于答案蕴涵与依存关系的主观题自适应阅卷方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110555205A (zh) | 2019-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110555205B (zh) | 否定语义识别方法及装置、电子设备、存储介质 | |
US20220035728A1 (en) | System for discovering semantic relationships in computer programs | |
US20220050967A1 (en) | Extracting definitions from documents utilizing definition-labeling-dependent machine learning background | |
EP4141733A1 (en) | Model training method and apparatus, electronic device, and storage medium | |
US9740685B2 (en) | Generation of natural language processing model for an information domain | |
US20200192727A1 (en) | Intent-Based Organisation Of APIs | |
CN111209412A (zh) | 一种循环更新迭代的期刊文献知识图谱构建方法 | |
CN110580308B (zh) | 信息审核方法及装置、电子设备、存储介质 | |
CN112541070B (zh) | 槽位更新语料的挖掘方法、装置、电子设备和存储介质 | |
CN111656453A (zh) | 用于信息提取的层次实体识别和语义建模框架 | |
CN110807311B (zh) | 用于生成信息的方法和装置 | |
CN114579104A (zh) | 数据分析场景的生成方法、装置、设备及存储介质 | |
CN113779062A (zh) | Sql语句生成方法、装置、存储介质及电子设备 | |
CN116303537A (zh) | 数据查询方法及装置、电子设备、存储介质 | |
CN114840685A (zh) | 一种应急预案知识图谱构建方法 | |
CN114239828A (zh) | 一种基于因果关系的供应链事理图谱构建方法 | |
CN109300550B (zh) | 医学数据关系挖掘方法及装置 | |
CN111492364B (zh) | 数据标注方法、装置及存储介质 | |
CN116167382A (zh) | 意图事件提取方法及装置、电子设备、存储介质 | |
CN111339760A (zh) | 词法分析模型的训练方法、装置、电子设备、存储介质 | |
CN110851572A (zh) | 会话标注方法、装置、存储介质及电子设备 | |
CN111898762B (zh) | 深度学习模型目录创建 | |
CN111897965B (zh) | 话题生成方法、装置、存储介质和电子设备 | |
CN111368036B (zh) | 用于搜索信息的方法和装置 | |
CN114491030A (zh) | 技能标签的抽取、候选短语分类模型的训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |