CN111858894A - 语义缺失的识别方法及装置、电子设备、存储介质 - Google Patents
语义缺失的识别方法及装置、电子设备、存储介质 Download PDFInfo
- Publication number
- CN111858894A CN111858894A CN202010747918.8A CN202010747918A CN111858894A CN 111858894 A CN111858894 A CN 111858894A CN 202010747918 A CN202010747918 A CN 202010747918A CN 111858894 A CN111858894 A CN 111858894A
- Authority
- CN
- China
- Prior art keywords
- missing
- recognized
- semantic
- exists
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012217 deletion Methods 0.000 claims abstract description 21
- 230000037430 deletion Effects 0.000 claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims abstract description 8
- 230000000295 complement effect Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 230000007812 deficiency Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 13
- 238000012549 training Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 3
- 239000003607 modifier Substances 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本申请提供一种语义缺失的识别方法及装置、电子设备、存储介质,该方法包括:对待识别语料进行分词处理,并提取不同词汇的词性信息以及不同词汇之间的依存关系信息;根据词性信息和依存关系信息,确定是否存在指代现象以及成分省略;根据待识别语料以及待识别语料的上下文获得缺失判别结果;根据是否存在指代现象、成分省略以及缺失判别结果,综合确定待识别语料是否存在语义缺失。本申请上述实施例提供的技术方案,可以提高语义缺失识别的准确性。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及一种语义缺失的识别方法及装置、电子设备、计算机可读存储介质。
背景技术
多轮会话场景下,用户的话语会由于简洁表达的需要而出现指代或信息省略(即语义缺失)的现象,这使得用户的话语不再是信息完整的,与对话语语境产生了较为强烈的依赖。这样的现象给对话系统的语义理解能力带来了巨大的挑战。因此,如何充分利用对话上下文来增强对话系统的语义理解能力是亟需解决的问题。对话改写是一种利用对话上下文来增强对话系统的语义理解能力的技术方法。它利用对话上下文对用户话语进行改写,完成对指代情况进行消解,对信息省略进行补全,从而恢复用户话语的语义完整性。
对话改写可以进一步细分为“改写识别”和“文本改写”两个子问题。“改写识别”用于判断用户话语是否需要改写,“文本改写”用于对需要改写的话语进行改写。当对话改写能准确区分用户话语是否需要改写,以及对需要改写的话语进行正确的改写时,用户话语的语义完整才能得到恢复,对话系统的语义理解能力才能得到提高。
目前提供了一种pipeline(流水线)方式,它首先通过检测模块来识别出话语中的指代词或省略地方,然后通过消解模块对给定的候选填补词进行排序,选择得分最高的填补词来替换指代词或插入到省略地方完成改写。然而这种方法存在局限性:错误累积。当检测模块错误识别指代或省略现象后,消解模块很难去改写成功,造成错误累积。
因此,判断什么位置是否存在语义缺失至关重要,如果语义缺失识别不准确,直接导致改写成功率降低,语义理解的准确率降低。
发明内容
本申请实施例提供了一种语义缺失的识别方法,用以提高语义缺失的识别准确性。
本申请实施例提供了一种语义缺失的识别方法,包括:
对待识别语料进行分词处理,并提取不同词汇的词性信息以及不同词汇之间的依存关系信息;
根据所述词性信息和依存关系信息,确定是否存在指代现象以及成分省略;
根据所述待识别语料以及所述待识别语料的上下文获得缺失判别结果;
根据是否存在指代现象、成分省略以及所述缺失判别结果,综合确定所述待识别语料是否存在语义缺失。
在一实施例中,所述根据所述词性信息和依存关系信息,确定是否存在指代现象以及成分省略,包括:
根据预先收集的指代词库,采用词匹配的方式判断所述待识别语料是否存在所述指代词库中出现的指代词;
根据不同词汇的词性信息和不同词汇之间的依存关系信息,确定所述指代词是否导致指代现象。
在一实施例中,所述根据所述词性信息和依存关系信息,确定是否存在指代现象以及成分省略,包括:
根据所述不同词汇的词性信息,判断所述指代词的词性是否是代词;
若所述指代词的词性是代词,根据所述不同词汇之间的依存关系信息,判断所述指代词是否充当主语或宾语成分;如果是,确定所述指代词导致指代现象。
在一实施例中,所述根据所述词性信息和依存关系信息,确定是否存在指代现象以及成分省略,包括:
根据所述不同词汇之间的依存关系信息,判断是否存在主谓关系;
若不存在主谓关系,确定存在主语省略。
在一实施例中,所述根据所述词性信息和依存关系信息,确定是否存在指代现象以及成分省略,包括:
根据所述不同词汇之间的依存关系信息,判断是否存在动宾关系;
若不存在动宾关系,根据所述不同词汇的词性信息,判断所述待识别语料是否存在动词;
若不存在动词,确定存在谓语省略;若存在动词,确定存在宾语省略。
在一实施例中,所述根据所述不同词汇的词性信息,判断所述待识别语料是否存在动词,包括:
根据所述不同词汇的词性信息以及不同词汇之间的依存关系信息,判断根节点指向的词汇是否是动词。
在一实施例中,所述若存在动词,确定存在宾语省略,包括:
若所述动词是不及物动词或者与邻接词构成动补结构或者非邻接动补结构中存在量词充当宾语成分,确定不存在成分省略,否则确定存在宾语省略。
在一实施例中,所述根据所述待识别语料以及所述待识别语料的上下文获得缺失判别结果,包括:
将所述待识别语料以及所述待识别语料的上下文作为缺失识别器的输入,获得所述缺失识别器输出的缺失判别结果。
在一实施例中,在将所述待识别语料以及所述待识别语料的上下文作为缺失识别器的输入,获得所述缺失识别器输出的缺失判别结果之前,所述方法还包括:
将样本语料以及所述样本语料的上下文作为语言模型的输入,通过调节所述语言模型的参数,使所述语言模型输出的缺失判别结果与所述样本语料的语义缺失结果之间的误差最小,得到所述缺失识别器。
在一实施例中,所述根据是否存在指代现象、成分省略以及所述缺失判别结果,综合确定所述待识别语料是否存在语义缺失,包括:
若存在指代现象,确定所述待识别语料存在语义缺失。
在一实施例中,所述根据是否存在指代现象、成分省略以及所述缺失判别结果,综合确定所述待识别语料是否存在语义缺失,包括:
若不存在指代现象,存在成分省略,所述缺失判别结果指示不存在语义缺失但置信度低于阈值或者所述缺失判断结果指示存在语义缺失,确定所述待识别语料存在语义缺失。
在一实施例中,所述根据是否存在指代现象、成分省略以及所述缺失判别结果,综合确定所述待识别语料是否存在语义缺失,包括:
若不存在指代现象,存在成分省略,所述缺失判别结果指示不存在语义缺失且置信度高于阈值,确定所述待识别语料不存在语义缺失。
在一实施例中,所述根据是否存在指代现象、成分省略以及所述缺失判别结果,综合确定所述待识别语料是否存在语义缺失,包括:
若不存在指代现象,不存在成分省略,所述缺失判别结果指示存在语义缺失且置信度高于阈值,确定所述待识别语料存在语义缺失。
在一实施例中,所述根据是否存在指代现象、成分省略以及所述缺失判别结果,综合确定所述待识别语料是否存在语义缺失,包括:
若不存在指代现象,不存在成分省略,所述缺失判别结果指示不存在语义缺失,确定所述待识别语料不存在语义缺失。
本申请实施例还提供了一种语义缺失的识别装置,包括:
信息提取模块,用于对待识别语料进行分词处理,并提取不同词汇的词性信息以及不同词汇之间的依存关系信息;
依存识别模块,用于根据所述词性信息和依存关系信息,确定是否存在指代现象以及成分省略;
模型识别模块,用于根据所述待识别语料以及所述待识别语料的上下文获得缺失判别结果;
融合判别模块,用于根据是否存在指代现象、成分省略以及所述缺失判别结果,综合确定所述待识别语料是否存在语义缺失。
本申请实施例还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述语义缺失的识别方法。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成语义缺失的识别方法。
本申请上述实施例提供的技术方案,通过分析词性以及依存关系,可以识别出是否存在指代现象和成分省略,并通过结合上下文来获得语义缺失的缺失判别结果,融合根据词性、依存关系以及上下文获得的分析结果可以提高是否存在语义缺失的识别准确性,从而提高对话改写的准确度,提高对话系统对用户话语的语义理解能力,缓解现有pipeline方式带来的错误累积问题。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的语义缺失的识别方法的应用场景示意图;
图2是本申请实施例提供的电子设备的结构示意图;
图3是本申请实施例提供的一种语义缺失的识别方法的流程示意图;
图4是本申请实施例提供的是否存在指代现象的判断流程示意图;
图5是本申请实施例提供的是否存在成分省略的判断流程示意图;
图6是本申请另一实施例提供的语义缺失的识别方法的流程示意图;
图7是本申请又一实施例提供的语义缺失的识别方法的流程示意图;
图8是本申请一实施例提供的语料改写的过程示意图;
图9是改写前后的对比示意图;
图10为本申请一实施例示出的语义缺失的识别装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
图1为本申请实施例提供的语义缺失的识别方法的应用场景示意图。如图1所示,该应用场景包括服务端120以及客户端110,服务端120与客户端110之间通过网络连接,服务端120可以是服务器、服务器集群或云计算中心,客户端110可以是手机、平板电脑或台式电脑。服务端120可以从客户端获取待识别语料,并采用本申请实施例提供的方案,识别待识别语料中是否存在语义缺失(即是否需要改写)。之后消解模块才可以选择得分高的填补词替换存在指代现象的指代词或插入成分省略的位置,从而得到完整的语料信息,语言系统的语义理解能力才得到提高。
图2是本申请实施例提供的电子设备的结构示意图。该电子设备200可以作为服务端120,如图2所示,该电子设备200可以包括处理器201;用于存储处理器可执行指令的存储器202;其中,所述处理器201被配置为执行本申请实施例提供的语义缺失的识别方法。
存储器202可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read Only Memory,简称EPROM),可编程只读存储器(Programmable Red-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。存储器中还存储有多个模块,分别借由该处理器执行,以完成下述物联网设备的数据处理方法步骤。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成下述语义缺失的识别方法。
图3是本申请实施例提供的一种语义缺失的识别方法的流程示意图。如图3所示,该方法包括以下步骤S310-S340。
步骤S310:对待识别语料进行分词处理,并提取不同词汇的词性信息以及不同词汇之间的依存关系信息。
待识别语料是指未知是否存在语义缺失的语料,可以是对话场景中的用户话语,也可以是文本中的句子。其中,可以采用自然语言处理(NLP,Natural LanguageProcessing)技术对待识别语料依次进行分词处理、词性标注以及依存句法分析,从而将待识别语料切分为一个个词汇,并得到每个词汇的词性信息以及不同词汇之间的依存关系信息。词性信息是指动词、名词、代词、介词、形容词、连词等。依存关系信息包括动宾关系、主谓关系等。
步骤S320:根据所述词性信息和依存关系信息,确定是否存在指代现象以及成分省略。
指代现象是指存在指代词,且指代了某一件物品或事件。例如:“这个很好吃”和“这个苹果很好吃”,前一个句子中的“这个”导致了指代现象,指代了某一种物品;而后一个句子中的“这个”只是一个修饰词,不造成指代现象。成分省略是指主语、宾语、谓语等句子成分的省略。
在一实施例中,如图4所示,是否存在指代现象的判断步骤包括以下步骤S321-步骤S322。
步骤S321:根据预先收集的指代词库,采用词匹配的方式判断所述待识别语料是否存在所述指代词库中出现的指代词。
其中,指点词库可以包括多种指代词,例如这个、那个、这些、那些。词匹配的方式是指将待识别语料中的词汇与指代词库中的词汇一一进行比对,从而可以确定待识别语料中是否存在指代词库中出现的指代词。
步骤S322:根据不同词汇的词性信息和不同词汇之间的依存关系信息,确定所述指代词是否导致指代现象。
举例来说,对于‘那’这个指代词来讲,它可以做连词也可以做代词。做连词时,该字一般不导致指代现象;做代词时,就需要考虑其是修饰另外一个词还是充当了主语或宾语成分。如果是充当主语或宾语成分,就可以认为导致了指代现象。
在一实施例中,上述步骤S322具体包括:步骤3221,根据所述不同词汇的词性信息,判断所述指代词的词性是否是代词。步骤S3222,若所述指代词的词性是代词,根据所述不同词汇之间的依存关系信息,判断所述指代词是否充当主语或宾语成分;如果是,确定所述指代词导致指代现象。
举例来说,服务端可以根据词性信息来判断当前指代词‘那’是否是代词,如果是,则需要根据依存关系信息去判断“那”是否是修饰词,当其是修饰词时,不导致指代现象,否则,“那”这个词会充当句子的主语或宾语成分,导致指代现象。
例如,“那你为什么壁咚她”中‘那’是连词,无指代现象。
“那苹果很好吃”中‘那’是代词,但是修饰“苹果”,无指代现象。
“那是一篇好文章”中“那”是代词,根据依存关系确定充当主语成分,有指代现象。
“那你为什么壁咚她”中‘那’是连词,无指代现象。
“那苹果很好吃”中‘那’是代词,修饰“苹果”,无指代现象。
“那是一篇好文章”中“那”是代词,充当主语成分,有指代现象。
在一实施例中,如图5所示,判断是否存在成分省略的步骤包括:步骤501,根据所述不同词汇之间的依存关系信息,判断是否存在主谓关系;若不存在主谓关系,确定存在主语省略。
成分省略会导致语料的语义不完整,成分省略可以包括主语省略、谓语省略、宾语省略以及其他情况。依存关系信息中通常包括主谓关系、动宾关系。例如,“我有梦想”,“我”和“有”之间是主谓关系,“有”和“梦想”之间是动宾关系。故服务端可以根据待识别语料中存在的依存关系信息,判断是否存在主谓关系,如果不存在主谓关系,例如,“有事情”,“有”和“事情”之间存在动宾关系,但是不存在主谓关系,这种情况可以认为主语省略,也就是缺少主语。
在一实施例中,服务端还可以预先定义了一些特殊词,例如“退役”、“上映”等,这些词大多数情况下是需要非第一、第二人称词做主语的,如果不存在主谓关系,可以认为主语省略。需要指出的是,当省略掉的主语是第一人称和第二人称,这一类的情况发生于对话双方发言权的依次轮换,被视为语义没有缺失,不需要改写的情况。
如图5所示,判断是否存在成分省略的步骤还包括:步骤S502,根据所述不同词汇之间的依存关系信息,判断是否存在动宾关系。步骤S503,若不存在动宾关系,根据所述不同词汇的词性信息,判断所述待识别语料是否存在动词。步骤S504,若不存在动词,确定存在谓语省略;若存在动词,确定存在宾语省略。
通过上述步骤501-504,可以识别出待识别语料是否存在主语省略、谓语省略或宾语省略的情况,由此确定待识别语料是否存在成分省略。
在一实施例中,上述步骤S503具体可以包括:根据所述不同词汇之间的依存关系信息以及不同词汇的词性信息,判断根节点指向的词汇是否是动词。
在依存句法分析中,有且只有一个词语(称为虚拟根节点,简称虚根root)不依存于其他词语,例如,“人吃鱼”,“吃”这个词语属于根节点root。服务端可以根据依存关系信息找出根节点,并根据不同词汇的词性信息,判断根节点是否是动词。当根节点指向的词不是动词时,可以认为是“动词不存在”情况(谓语省略),对于该情况较难判断是否导致成分省略,在一实施例中,可以由下文的缺失识别器去判断。当不存在动宾关系,而根节点指向的词是动词时,如果动词是不及物动词或者与邻接词构成动补结构或者非邻接动补结构中存在量词充当宾语成分,即这三个条件至少满足一个,可以认为不存在成分省略。三个条件均不满足,认为存在宾语省略。
邻接词是指紧跟在动词后面的词汇,例如,“洗干净”,“干净”是“洗”的邻接词,“洗”与“干净”构成动补结构,这种情况不存在动宾关系,虽然存在动词“洗”,但是语义也是完整的。例如,“他来过几次”,“来”和“几次”是动补结构,“几次”是量词充当宾语成分,这种情况,不存在动宾关系,虽然存在动词“来”,语义也是完整的,没有成分省略。
在一实施例中,为了判断动词是不是不及物动词,待识别语料中是否存在量词,可以预先收集不及物动词库和量词库,从而依据待识别语料中是否存在动词、动词是否是不及物动词、是否是动补结构、是否存在量词充当宾语成分等情况来判断是否存在宾语省略或谓语省略的情况。对于其他情况(主宾全有等),较难处理,则可以由下文缺失识别器去识别。
步骤S330:根据所述待识别语料以及所述待识别语料的上下文获得缺失判别结果。
步骤S330可以在步骤S320之后执行,也可以在步骤S320之前执行。在一实施例中,可以将待识别语料以及待识别语料的上下文作为缺失识别器的输入,将缺失识别器的输出作为缺失判别结果。
缺失识别器是预先构建的用于判断待识别语料是否存在语义缺失的判别模型。缺失判别结果用于指示待识别语料是否存在语义缺失。待识别语料的上下文是指待识别语料之前的语句和待识别语料之后的语句,用于表征待识别语料的语境。
在判断待识别语料是否存在语义缺失时,单纯通过步骤S320是无法利用对话语境信息(即上下文)的,其更多的是通过待识别语料的语言成分来判断;而缺失识别器在训练过程中可以很方便的引入对话语境信息,可以通过待识别语料和对话语境的语义来判断。一般情况下,当待识别语料与对话语境产生依赖时,则存在语义缺失,当其不产生依赖时,则不存在语义缺失。
在一实施例中,缺失识别器的构建方式如下:将样本语料以及所述样本语料的上下文作为语言模型的输入,通过调节所述语言模型的参数,使所述语言模型输出的缺失判别结果与所述样本语料的语义缺失结果之间的误差最小,得到所述缺失识别器。
其中,样本语料是指已知是否存在语义缺失的语料。样本语料的语义缺失结果是指样本语料是否存在语义缺失的正确判别结果。缺失判别结果是指语言模型输出的样本语料是否存在语义缺失的识别结果,该结果可能存在误差。样本语料的上下文用于表征样本语料的语境。语言模型可以是预训练BERT(Bidirectional Encoder Representation fromTransformers)模型。缺失识别器可以是经过参数优化的BERT模型。
在一实施例中,样本语料的形式为x=(context,utterance,label),其中context表示对话语境(即上下文),utterance表示用户话语(即样本语料),label表示用户话语是否存在语义缺失的标签,例如1表示语义缺失,0表示不缺失。训练过程如下:首先将训练集中样本语料处理成“[CLS]context[SEP]utterance[SEP]”的形式,然后将样本语料输入预训练BERT模型进行编码和识别,训练目标是最小化训练集上的交叉熵损失。即预训练BERT模型输出的样本语料的缺失判别结果与所述样本语料的语义缺失结果之间的误差最小。预训练BERT模型的参数训练完成后,即得到缺失识别器。
在缺失识别器训练完成后,将所述待识别语料以及待识别语料的上下文作为所述缺失识别器的输入,获得所述缺失识别器输出的缺失判别结果。
缺失识别器输出的缺失判别结果用于指示待识别语料是否存在语义缺失。举例来说,如果缺失判别结果指示1,可以认为待识别语料存在语义缺失。如果缺失判别结果指示0,可以认为待识别语料不存在语义缺失。
步骤S340:根据是否存在指代现象、成分省略以及所述缺失判别结果,综合确定所述待识别语料是否存在语义缺失。
由于步骤S320判断是否存在指代现象和成分省略时,无法给出置信度,而步骤S330缺失识别器不仅可以给出识别结果,也可以给出相应的置信度,故为了提高语义是否缺失识别的准确性,可以将步骤S320和步骤S330的结果融合,即综合考虑步骤S320和步骤S330的结果,得到待识别语料是否存在语义缺失的最终识别结果。
在一实施例中,如图6所示,待识别语料作为输入,先进行指代匹配(即判断待识别语料是否存在指代现象),如果存在指代现象,可以认为待识别语料存在语义缺失。如果不存在指代现象,可以继续对待识别语料进行依存匹配,即判断是否存在成分省略。成分是否省略不能直接断定语义是否缺失。在一实施例中,可以将待识别语料和上下文输入缺失识别器,通过缺失识别器获得待识别语料的缺失判别结果。根据是否成分省略以及缺失判别结果,综合确定是否存在语义缺失。
在不存在指代现象的前提下,如图7所示,在一实施例中,如果存在成分省略,缺失判别结果指示不存在语义缺失但置信度低于阈值或者所述缺失判断结果指示存在语义缺失,确定所述待识别语料存在语义缺失。在一实施例中,如果存在成分省略,所述缺失判别结果指示不存在语义缺失且置信度高于阈值(即不低于阈值),确定所述待识别语料不存在语义缺失。
相反的,如果不存在成分省略,缺失判别结果指示存在语义缺失且置信度高于阈值,确定所述待识别语料存在语义缺失。如果不存在成分省略,所述缺失判别结果指示不存在语义缺失,确定所述待识别语料不存在语义缺失。
图8是本申请一实施例提供的语料改写的过程示意图。如图8所示,基于待识别语料和待识别语料的上下文,可以先采用本申请实施例提供的方法识别是否存在语义缺失,即是否需要改写。如果存在语义缺失,再进行文本改写,从而可以得到完整的语义,便于语义理解。如果不存在语义缺失,可以认为待识别语料就是完整的语义,不需要进行改写。图9是改写前后的对比示意图。从图9可以看出,存在语义缺失的语料经过改写后,用户话语恢复了语义完整性,从而系统能够准确理解用户所表达的含义,从而正确的回复用户的问题。
本申请上述实施例提供的技术方案,针对语义不完整的情况,通过分析词性以及依存关系,可以识别出是否存在指代现象和成分省略,并通过缺失识别器结合上下文来确定是否存在语义缺失,综合成分分析结果以及模型的判别结果,可以提高是否存在语义缺失的识别准确性,从而提高对话改写的准确度,提高对话系统对用户话语的语义理解能力。缓解pipeline方式带来的错误累积问题。该方法也可以拓展到其他存在文本信息省略的NLP(自然语言处理)任务中,如情感分析、关系抽取等。即,有一定的拓展性。
下述为本申请装置实施例,可以用于执行本申请上述语义缺失的识别方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请语义缺失的识别方法实施例。
图10为本申请一实施例示出的语义缺失的识别装置的框图。如图10所示,该装置包括:信息提取模块1010、依存识别模块1020、模型识别模块1030、融合判别模块1040。
信息提取模块,用于对待识别语料进行分词处理,并提取不同词汇的词性信息以及不同词汇之间的依存关系信息;
依存识别模块,用于根据所述词性信息和依存关系信息,确定是否存在指代现象以及成分省略;
模型识别模块,用于根据所述待识别语料以及所述待识别语料的上下文获得缺失判别结果;
融合判别模块,用于根据是否存在指代现象、成分省略以及所述缺失判别结果,综合确定所述待识别语料是否存在语义缺失。
上述装置中各个模块的功能和作用的实现过程具体详见上述语义缺失的识别方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (17)
1.一种语义缺失的识别方法,其特征在于,包括:
对待识别语料进行分词处理,并提取不同词汇的词性信息以及不同词汇之间的依存关系信息;
根据所述词性信息和依存关系信息,确定是否存在指代现象以及成分省略;
根据所述待识别语料以及所述待识别语料的上下文获得缺失判别结果;
根据是否存在指代现象、成分省略以及所述缺失判别结果,综合确定所述待识别语料是否存在语义缺失。
2.根据权利要求1所述的方法,其特征在于,所述根据所述词性信息和依存关系信息,确定是否存在指代现象以及成分省略,包括:
根据预先收集的指代词库,采用词匹配的方式判断所述待识别语料是否存在所述指代词库中出现的指代词;
根据不同词汇的词性信息和不同词汇之间的依存关系信息,确定所述指代词是否导致指代现象。
3.根据权利要求2所述的方法,其特征在于,所述根据所述词性信息和依存关系信息,确定是否存在指代现象以及成分省略,包括:
根据所述不同词汇的词性信息,判断所述指代词的词性是否是代词;
若所述指代词的词性是代词,根据所述不同词汇之间的依存关系信息,判断所述指代词是否充当主语或宾语成分;如果是,确定所述指代词导致指代现象。
4.根据权利要求1所述的方法,其特征在于,所述根据所述词性信息和依存关系信息,确定是否存在指代现象以及成分省略,包括:
根据所述不同词汇之间的依存关系信息,判断是否存在主谓关系;
若不存在主谓关系,确定存在主语省略。
5.根据权利要求1所述的方法,其特征在于,所述根据所述词性信息和依存关系信息,确定是否存在指代现象以及成分省略,包括:
根据所述不同词汇之间的依存关系信息,判断是否存在动宾关系;
若不存在动宾关系,根据所述不同词汇的词性信息,判断所述待识别语料是否存在动词;
若不存在动词,确定存在谓语省略;若存在动词,确定存在宾语省略。
6.根据权利要求5所述的方法,其特征在于,所述根据所述不同词汇的词性信息,判断所述待识别语料是否存在动词,包括:
根据所述不同词汇的词性信息以及不同词汇之间的依存关系信息,判断根节点指向的词汇是否是动词。
7.根据权利要求5所述的方法,其特征在于,所述若存在动词,确定存在宾语省略,包括:
若所述动词是不及物动词或者与邻接词构成动补结构或者非邻接动补结构中存在量词充当宾语成分,确定不存在成分省略,否则确定存在宾语省略。
8.根据权利要求1所述的方法,其特征在于,所述根据所述待识别语料以及所述待识别语料的上下文获得缺失判别结果,包括:
将所述待识别语料以及所述待识别语料的上下文作为缺失识别器的输入,获得所述缺失识别器输出的缺失判别结果。
9.根据权利要求8所述的方法,其特征在于,在将所述待识别语料以及所述待识别语料的上下文作为缺失识别器的输入,获得所述缺失识别器输出的缺失判别结果之前,所述方法还包括:
将样本语料以及所述样本语料的上下文作为语言模型的输入,通过调节所述语言模型的参数,使所述语言模型输出的缺失判别结果与所述样本语料的语义缺失结果之间的误差最小,得到所述缺失识别器。
10.根据权利要求1所述的方法,其特征在于,所述根据是否存在指代现象、成分省略以及所述缺失判别结果,综合确定所述待识别语料是否存在语义缺失,包括:
若存在指代现象,确定所述待识别语料存在语义缺失。
11.根据权利要求1所述的方法,其特征在于,所述根据是否存在指代现象、成分省略以及所述缺失判别结果,综合确定所述待识别语料是否存在语义缺失,包括:
若不存在指代现象,存在成分省略,所述缺失判别结果指示不存在语义缺失但置信度低于阈值或者所述缺失判断结果指示存在语义缺失,确定所述待识别语料存在语义缺失。
12.根据权利要求1所述的方法,其特征在于,所述根据是否存在指代现象、成分省略以及所述缺失判别结果,综合确定所述待识别语料是否存在语义缺失,包括:
若不存在指代现象,存在成分省略,所述缺失判别结果指示不存在语义缺失且置信度高于阈值,确定所述待识别语料不存在语义缺失。
13.根据权利要求1所述的方法,其特征在于,所述根据是否存在指代现象、成分省略以及所述缺失判别结果,综合确定所述待识别语料是否存在语义缺失,包括:
若不存在指代现象,不存在成分省略,所述缺失判别结果指示存在语义缺失且置信度高于阈值,确定所述待识别语料存在语义缺失。
14.根据权利要求1所述的方法,其特征在于,所述根据是否存在指代现象、成分省略以及所述缺失判别结果,综合确定所述待识别语料是否存在语义缺失,包括:
若不存在指代现象,不存在成分省略,所述缺失判别结果指示不存在语义缺失,确定所述待识别语料不存在语义缺失。
15.一种语义缺失的识别装置,其特征在于,包括:
信息提取模块,用于对待识别语料进行分词处理,并提取不同词汇的词性信息以及不同词汇之间的依存关系信息;
依存识别模块,用于根据所述词性信息和依存关系信息,确定是否存在指代现象以及成分省略;
模型识别模块,用于根据所述待识别语料以及所述待识别语料的上下文获得缺失判别结果;
融合判别模块,用于根据是否存在指代现象、成分省略以及所述缺失判别结果,综合确定所述待识别语料是否存在语义缺失。
16.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-14任意一项所述的语义缺失的识别方法。
17.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-14任意一项所述的语义缺失的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010747918.8A CN111858894A (zh) | 2020-07-29 | 2020-07-29 | 语义缺失的识别方法及装置、电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010747918.8A CN111858894A (zh) | 2020-07-29 | 2020-07-29 | 语义缺失的识别方法及装置、电子设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111858894A true CN111858894A (zh) | 2020-10-30 |
Family
ID=72945800
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010747918.8A Pending CN111858894A (zh) | 2020-07-29 | 2020-07-29 | 语义缺失的识别方法及装置、电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111858894A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395887A (zh) * | 2020-11-05 | 2021-02-23 | 北京文思海辉金信软件有限公司 | 对话应答方法、装置、计算机设备和存储介质 |
CN112989008A (zh) * | 2021-04-21 | 2021-06-18 | 上海汽车集团股份有限公司 | 一种多轮对话改写方法、装置和电子设备 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003029782A (ja) * | 2001-07-19 | 2003-01-31 | Mitsubishi Electric Corp | 対話処理装置及び対話処理方法並びにプログラム |
KR100641053B1 (ko) * | 2005-10-06 | 2006-11-02 | 한국전자통신연구원 | 생략된 문장성분 복원 장치 및 방법 |
CN102298635A (zh) * | 2011-09-13 | 2011-12-28 | 苏州大学 | 事件信息融合方法和系统 |
US20150261743A1 (en) * | 2014-03-17 | 2015-09-17 | Accenture Global Services Limited | Generating a semantic network based on semantic connections between subject-verb-object units |
CN105589844A (zh) * | 2015-12-18 | 2016-05-18 | 北京中科汇联科技股份有限公司 | 一种用于多轮问答系统中缺失语义补充的方法 |
CN105988990A (zh) * | 2015-02-26 | 2016-10-05 | 索尼公司 | 用于汉语中的零指代消解的装置和方法以及模型训练方法 |
CN108763402A (zh) * | 2018-05-22 | 2018-11-06 | 广西师范大学 | 基于依存关系、词性和语义词典的类中心向量文本分类法 |
CN109726389A (zh) * | 2018-11-13 | 2019-05-07 | 北京邮电大学 | 一种基于常识和推理的中文缺失代词补全方法 |
CN110362664A (zh) * | 2019-05-31 | 2019-10-22 | 厦门快商通信息咨询有限公司 | 一种对聊天机器人faq知识库存储与匹配的方法及装置 |
CN110807311A (zh) * | 2018-07-18 | 2020-02-18 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN111325034A (zh) * | 2020-02-12 | 2020-06-23 | 平安科技(深圳)有限公司 | 多轮对话中语义补齐的方法、装置、设备及存储介质 |
-
2020
- 2020-07-29 CN CN202010747918.8A patent/CN111858894A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003029782A (ja) * | 2001-07-19 | 2003-01-31 | Mitsubishi Electric Corp | 対話処理装置及び対話処理方法並びにプログラム |
KR100641053B1 (ko) * | 2005-10-06 | 2006-11-02 | 한국전자통신연구원 | 생략된 문장성분 복원 장치 및 방법 |
CN102298635A (zh) * | 2011-09-13 | 2011-12-28 | 苏州大学 | 事件信息融合方法和系统 |
US20150261743A1 (en) * | 2014-03-17 | 2015-09-17 | Accenture Global Services Limited | Generating a semantic network based on semantic connections between subject-verb-object units |
CN105988990A (zh) * | 2015-02-26 | 2016-10-05 | 索尼公司 | 用于汉语中的零指代消解的装置和方法以及模型训练方法 |
CN105589844A (zh) * | 2015-12-18 | 2016-05-18 | 北京中科汇联科技股份有限公司 | 一种用于多轮问答系统中缺失语义补充的方法 |
CN108763402A (zh) * | 2018-05-22 | 2018-11-06 | 广西师范大学 | 基于依存关系、词性和语义词典的类中心向量文本分类法 |
CN110807311A (zh) * | 2018-07-18 | 2020-02-18 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN109726389A (zh) * | 2018-11-13 | 2019-05-07 | 北京邮电大学 | 一种基于常识和推理的中文缺失代词补全方法 |
CN110362664A (zh) * | 2019-05-31 | 2019-10-22 | 厦门快商通信息咨询有限公司 | 一种对聊天机器人faq知识库存储与匹配的方法及装置 |
CN111325034A (zh) * | 2020-02-12 | 2020-06-23 | 平安科技(深圳)有限公司 | 多轮对话中语义补齐的方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
刘梅彦;张仰森;张涛;: "基于语义分析的不良倾向文本的识别算法研究", 北京信息科技大学学报(自然科学版), no. 04, pages 16 - 20 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112395887A (zh) * | 2020-11-05 | 2021-02-23 | 北京文思海辉金信软件有限公司 | 对话应答方法、装置、计算机设备和存储介质 |
CN112989008A (zh) * | 2021-04-21 | 2021-06-18 | 上海汽车集团股份有限公司 | 一种多轮对话改写方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135457B (zh) | 基于自编码器融合文档信息的事件触发词抽取方法及系统 | |
US11941366B2 (en) | Context-based multi-turn dialogue method and storage medium | |
US8335683B2 (en) | System for using statistical classifiers for spoken language understanding | |
EP2664997B1 (en) | System and method for resolving named entity coreference | |
Jurish et al. | Word and sentence tokenization with Hidden Markov Models | |
CN109299228B (zh) | 计算机执行的文本风险预测方法及装置 | |
WO2017127296A1 (en) | Analyzing textual data | |
CN111950287B (zh) | 一种基于文本的实体识别方法及相关装置 | |
CN111444330A (zh) | 提取短文本关键词的方法、装置、设备及存储介质 | |
CN113268586A (zh) | 文本摘要生成方法、装置、设备及存储介质 | |
CN111930939A (zh) | 一种文本检测的方法及装置 | |
CN113128203A (zh) | 基于注意力机制的关系抽取方法、系统、设备及存储介质 | |
KR20180062003A (ko) | 음성 인식 오류 교정 방법 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN114756675A (zh) | 文本分类方法、相关设备及可读存储介质 | |
CN111858894A (zh) | 语义缺失的识别方法及装置、电子设备、存储介质 | |
Mezghanni et al. | CrimAr: A criminal Arabic ontology for a benchmark based evaluation | |
Hládek et al. | Dagger: The slovak morphological classifier | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
CN110874408B (zh) | 模型训练方法、文本识别方法、装置及计算设备 | |
CN108304366B (zh) | 一种上位词检测方法及设备 | |
CN112528653B (zh) | 短文本实体识别方法和系统 | |
CN114676699A (zh) | 实体情感分析方法、装置、计算机设备和存储介质 | |
CN108882033B (zh) | 一种基于视频语音的人物识别方法、装置、设备和介质 | |
Chang et al. | Zero pronoun identification in chinese language with deep neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |