CN110674630A - 指代消解方法和装置、电子设备及存储介质 - Google Patents

指代消解方法和装置、电子设备及存储介质 Download PDF

Info

Publication number
CN110674630A
CN110674630A CN201910905211.2A CN201910905211A CN110674630A CN 110674630 A CN110674630 A CN 110674630A CN 201910905211 A CN201910905211 A CN 201910905211A CN 110674630 A CN110674630 A CN 110674630A
Authority
CN
China
Prior art keywords
pronoun
text
pronouns
resolution
simple sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910905211.2A
Other languages
English (en)
Other versions
CN110674630B (zh
Inventor
薛小娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Mininglamp Software System Co ltd
Original Assignee
Beijing Mininglamp Software System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mininglamp Software System Co ltd filed Critical Beijing Mininglamp Software System Co ltd
Priority to CN201910905211.2A priority Critical patent/CN110674630B/zh
Publication of CN110674630A publication Critical patent/CN110674630A/zh
Application granted granted Critical
Publication of CN110674630B publication Critical patent/CN110674630B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本申请实施例提供的指代消解方法和装置、电子设备及存储介质,涉及指代消解技术领域。在本申请实施例中,首先,对待处理的文本进行文本分解和零指代消解处理,得到该文本的简单句子集合。然后,针对每个简单句子中包括的每个代词,对所述简单句子中该代词之前的人称的特征和该代词的特征进行比较得到该代词对应的候选人称。其次,计算该代词与对应的候选人称之间的相关度,以进行代词消解。通过上述方法,可以提高指代消解的准确度。

Description

指代消解方法和装置、电子设备及存储介质
技术领域
本申请涉及指代消解技术领域,具体而言,涉及一种指代消解方法和装置、电子设备及存储介质。
背景技术
代词指代在自然语言中非常常见,尽管这种现象简化了表达,但其给机器理解带来了巨大的挑战。在信息抽取领域,人们关心的实体以及不同实体之间的关系往往散布于文本的不同位置,而且这些涉及到的实体有许多不同的表达方式,为了最大化利用文本信息(即从文中抽取更多的准确的、完整的相关信息),必须对文本进行指代消解。
目前指代消解在问答系统、机器翻译等方面也起着至关重要的作用。为了更加方便和准确的给其它任务(如关系抽取、实体链接、个人标签设置等场景)使用,需要对文本数据进行处理,把文本中的人称代词尽可能地进行消解。
但是,经发明人研究发现,在现有技术中,直接对待处理的文本进行代词消解,从而存在着指代消解的准确度并不高的问题。
发明内容
有鉴于此,本申请的目的在于提供一种指代消解方法和装置、电子设备及存储介质,以改善现有技术中存在的问题。
为实现上述目的,本申请实施例采用如下技术方案:
一种指代消解方法,包括:
对待处理的文本进行文本分解和零指代消解处理,得到该文本的简单句子集合;
针对每个简单句子中包括的每个代词,对所述简单句子中该代词之前的人称的特征和该代词的特征进行比较得到该代词对应的候选人称;
计算该代词与对应的候选人称之间的相关度,以进行代词消解。
在本申请实施例较佳的选择中,所述对待处理的文本进行文本分解和零指代消解处理,得到该文本的简单句子集合的步骤,包括:
检测所述待处理的文本中的标点符号,根据检测得到的标点符号将所述待处理的文本切分为多个短句,并对每个所述短句进行依存分析,得到对应的依存句法结构数据;
根据各所述短句对应的依存句法结构数据进行零指代消解,得到包括多个简单句子的简单句子集合。
在本申请实施例较佳的选择中,所述根据各所述短句对应的依存句法结构数据进行零指代消解,得到包括多个简单句子的简单句子集合的步骤,包括:
根据所述依存句法结构数据获取所述多个短句中第一个元素的主谓关系节点作为基础节点,并判断所述多个短句中的其他元素是否存在主谓关系节点;
若其他元素存在主谓关系节点,则将该元素的主谓关系节点作为基础节点;
若其他元素不存在主谓关系节点,则将所述基础节点作为该元素的主谓关系节点,以得到替换后的多个简单句子。
在本申请实施例较佳的选择中,所述针对每个简单句子中包括的每个代词,对所述简单句子中该代词之前的人称的特征和该代词的特征进行比较得到该代词对应的候选人称的步骤,包括:
根据该简单句子集合包括的每个简单句子的依存句法结构数据获取人名列表,并根据该人名列表建立对应的代词列表;
根据所述代词列表获取所述代词之前的人称的代词特征和所述代词的代词特征;
分别对所述简单句子中所述代词之前的人称和所述代词的代词特征、单复数特征和性别特征进行比较得到所述代词对应的候选人称。
在本申请实施例较佳的选择中,所述计算该代词与对应的候选人称之间的相关度,以进行代词消解的步骤,包括:
获取该代词与对应的候选人称之间的最短依存路径,根据该最短依存路径对该代词进行指代消解。
在本申请实施例较佳的选择中,所述获取该代词与对应的候选人称之间的最短依存路径,根据该最短依存路径对该代词进行指代消解的步骤,包括:
根据所述简单句子的依存句法结构数据建立包括各个代词和对应的候选人称的无向图;
根据该无向图计算各个代词和对应的候选人称之间的依存路径,以获取最短依存路径。
在本申请实施例较佳的选择中,所述获取该代词与对应的候选人称之间的最短依存路径,根据该最短依存路径对该代词进行指代消解的步骤,还包括:
针对每个所述简单句子,判断该简单句子的最短依存路径是否小于该简单句子的最长路径;
若所述最短依存路径小于所述最长路径,则根据所述最短依存路径对应的候选人称对所述代词进行指代消解。
本申请实施例还提供了一种指代消解装置,包括:
文本处理模块,用于对待处理的文本进行文本分解和零指代消解处理,得到该文本的简单句子集合;
特征比较模块,用于针对每个简单句子中包括的每个代词,对所述简单句子中该代词之前的人称的特征和该代词的特征进行比较得到该代词对应的候选人称;
相关度计算模块,用于计算该代词与对应的候选人称之间的相关度,以进行代词消解。
本申请实施例还提供了一种电子设备,包括存储器和处理器,所述处理器用于执行所述存储器中存储的可执行的计算机程序,以实现上述的指代消解方法。
本申请实施例还提供了一种存储介质,其上存储有计算机程序,该程序被执行时实现上述指代消解方法的步骤。
本申请实施例提供的指代消解方法和装置、电子设备及存储介质,可以对待处理的文本进行零指代消解处理得到简单句子集合,以对待处理的文本中被省略的部分进行补充,并根据简单句子集合进行指代消解,避免了现有技术中直接对待处理的文本进行代词消解,从而存在着的指代消解的准确度并不高的问题,以提高指代消解的准确度。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的结构框图。
图2为本申请实施例提供的图像处理方法的流程示意图。
图3为本申请实施例提供的步骤S110的流程示意图。
图4为本申请实施例提供的依存句法结构数据图。
图5为本申请实施例提供的图像处理装置的结构框图。
图标:10-电子设备;12-存储器;14-处理器;100-指代消解装置;110-文本处理模块;120-特征比较模块;130-相关度计算模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
如图1所示,本申请实施例提供了一种电子设备10。其中,所述电子设备10可以包括存储器12、处理器14和指代消解装置100。
详细地,所述存储器12和处理器14之间直接或间接地电性连接,以实现数据的传输或交互。例如,相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述指代消解装置100包括至少一个可以软件或固件(firmware)的形式存储于所述存储器12中的软件功能模块。所述处理器14用于执行所述存储器12中存储的可执行的计算机程序,例如,所述指代消解装置100所包括的软件功能模块及计算机程序等,以实现指代消解方法。
其中,所述存储器12可以是,但不限于,随机存取存储器(RandomAccess Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。
所述处理器14可能是一种集成电路芯片,具有信号的处理能力。上述的处理器14可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)、片上系统(System on Chip,SoC)等。
可以理解,图1所示的结构仅为示意,所述电子设备10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
结合图2,本申请实施例还提供一种可应用于上述电子设备10的指代消解方法。其中,所述指代消解方法有关的流程所定义的方法步骤可以由所述电子设备10实现,下面将对图2所示的具体流程进行详细阐述。
步骤S110,对待处理的文本进行文本分解和零指代消解处理,得到该文本的简单句子集合。
在本申请实施例中,在获取待处理的文本之后,可以对所述待处理的文本进行文本分解和零指代消解,得到所述待处理的文本的简单句子集合。
步骤S120,针对每个简单句子中包括的每个代词,对所述简单句子中该代词之前的人称的特征和该代词的特征进行比较得到该代词对应的候选人称。
在本申请实施例中,通过步骤S110得到简单句子之后,可以对所述简单句子中包括的每个代词之前的人称的特征和该代词的特征进行比较得到该代词对应的候选人称。
步骤S130,计算该代词与对应的候选人称之间的相关度,以进行代词消解。
在本申请实施例中,通过步骤S120得到所述代词对应的候选人称之后,可以计算所述代词与对应的候选人称之间的相关度,以对所述代词进行代词消解。
通过上述方法,可以对待处理的文本进行零指代消解处理得到简单句子集合,以对待处理的文本中被省略的部分进行补充,并根据简单句子集合进行指代消解,避免了现有技术中直接对待处理的文本进行代词消解,从而存在着的指代消解的准确度并不高的问题,以提高指代消解的准确度。
其中,对于步骤S110,需要说明的是,对所述待处理的文本进行文本分解和零指代消解的具体方式不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,结合图3,步骤S110可以包括以下步骤S111和步骤S112。
步骤S111,检测所述待处理的文本中的标点符号,根据检测得到的标点符号将所述待处理的文本切分为多个短句,并对每个所述短句进行依存分析,得到对应的依存句法结构数据。
步骤S112,根据各所述短句对应的依存句法结构数据进行零指代消解,得到包括多个简单句子的简单句子集合。
对于步骤S111,需要说明的是,所述标点符号的具体类型不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,所述标点符号可以包括,但不限于句号、分号、感叹号和换行符。
其中,进行依存分析的具体方式不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,对所述短句进行依存分析的步骤可以包括以下子步骤:
首先,对所述短句进行分割,得到多个词语;然后,获取各个词语的词性,并根据所述词性进行依存分析,得到对应的依存句法结构数据。
结合图4,短句为“甲公司将努力参与中国的三峡工程建设”,在对短句进行分割之后,得到的多个词语分别为“甲公司”、“将”、“努力”、“参与”、“中国”、“的”、“三峡”、“工程”和“建设”。其中,“甲公司”的词性为作为主语的名词(ni),“参与”的词性为作为谓语的动词(v)。也就是说,“甲公司”和“参与”之间的关系为主谓关系(SBV),构成一个依存对。
需要说明的是,依存语法的结构没有非终结点,词与词之间直接发生依存关系,构成一个依存对,其中一个是核心词,也叫支配词,另一个叫修饰词,也叫从属词。依存关系用一个有向弧表示,叫做依存弧。依存弧的方向为由从属词指向支配词,例如图4中由“甲公司”指向“参与”。
对于步骤S112,需要说明的是,在所述待处理的文本中,用户能够根据上下文关系推断出的部分词语经常会被省略,而被省略的部分(用零代词表示)在句子中承担着相应的句法成分,并且回指前文中的某个语言单位,零指代现象在中文中非常常见。零指代消解是指,在有省略现象的句子内对省略的部分进行补充。
例如,待处理的文本为:“1984年,张三不顾家人的极力反对第三次参加高考,这次数学考了89分,但总分离本科线还差5分。由于英语专业招生指标未满,部分英语优异者获得升本机会,被杭州师范学院破格升入外语本科专业。进入大学后,变成了品学兼优的好学生,凭借出色的英语稳坐外语系前五名。之后当选学生会主席,后来还担任了两届杭州市学联主席”。
经过零指代消解后的文本为:“1984年,张三不顾家人的极力反对第三次参加高考,这次数学考了89分,但总分离本科线还差5分。由于英语专业招生指标未满,部分英语优异者获得升本机会,【张三】被杭州师范学院破格升入外语本科专业。进入大学后,【张三】变成了品学兼优的好学生,凭借出色的英语稳坐外语系前五名。之后【张三】当选学生会主席,后来还担任了两届杭州市学联主席”。
其中,上例中的“【张三】”是补充进去的部分词语,待处理的文本中并没有。
可选地,进行零指代消解的具体方式不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,步骤S112可以包括以下子步骤:
首先,根据所述依存句法结构数据获取所述多个短句中第一个元素的主谓关系节点作为基础节点,并判断所述多个短句中的其他元素是否存在主谓关系节点。
然后,若其他元素存在主谓关系节点,则将该元素的主谓关系节点作为基础节点。
其次,若其他元素不存在主谓关系节点,则将所述基础节点作为该元素的主谓关系节点,以得到替换后的多个简单句子。
详细地,在一种可以替代的示例中,所述依存句法结构数据为依存句法结构列表DPL,获取所述多个短句中第一个元素的主谓关系(SBV)节点作为基础节点SBVroot,该节点是整个文本的主语节点,一般不会省略。然后判断所述多个短句中的其他元素是否存在主谓关系(SBV)节点,若存在,则将该SBV节点赋值到基础节点SBVroot;若不存在,则将基础节点SBVroot插入到该元素的主语位置,以得到零指代消解后的简单句子集合newSentence。
对于步骤S120,需要说明的是,得到候选人称的具体方式不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,步骤S120可以包括以下子步骤:
首先,根据该简单句子集合包括的每个简单句子的依存句法结构数据获取人名列表,并根据该人名列表建立对应的代词列表。
然后,根据所述代词列表获取所述代词之前的人称的代词特征和所述代词的代词特征。
最后,分别对所述简单句子中所述代词之前的人称和所述代词的代词特征、单复数特征和性别特征进行比较得到所述代词对应的候选人称。
其中,根据每个简单句子的依存句法结构数据可以获取人名列表personNameList(词性标注为“nh”的是人名实体)。
若personNameList为空,则该简单句子无需进行指代消解,因为人称代词指代的实体未在本句中出现以致难以确定代词指代的实体,此时直接返回原始句子。若personNameList不为空,则根据人名实体的首字构建代词列表sentPronunList,然后与现有的代词库basicPronoun结合成新的代词列表pronounTable,以供指代消解使用。
其中,sentPronunList是根据每个句子的人名实体构建的,其过程为:设personNameList=[张三,李四,王五,阿六],那么我们可以构造出如下代词表sentPronunList=[该(张/李/王/阿),(张/李/王/阿)某,(张/李/王/阿)(女士/先生/哥/姐),…]。
需要说明的是,在依存句法结构数据中,由于对各个词语的词性标注并不准确,可以将标注为代词的每个词语与代词列表pronounTable进行比对,以判断该词语是否为代词。即该词语的词性标注为r(代词)且其出现在pronounTable表中,则将该词语的代词特征isPronoun设置为true,否则设置为false。
代词按照数量可划分为两类:单数代词和复数代词,该特征使用isSingle来表示。例如:“他、她、*某、该*”(*表示人物的姓氏)等词通常为单数代词,而复数代词通常有“她/他(们)、她/他(俩)”等词。文中代词的单复数是根据预先定义好的规则来确定的,比如代词“张某”为单数代词,即张某的单复数特征isSingle=true。性别特征(使用sexFlag表示)的值仅有三种情况,即男、女、空值,通常来说只有人称代词和人名实体在该特征上具有“男”或者“女”属性值,而其他词在该特征上的值为空值。
其中,对于人称代词pronouni,若它的值为“她、她们”等词,则将sexFlag设置为female;若为“他、他们”等词则将sexFlag设置为male。对于人名实体,通过使用中文人名性别识别系统来检测其性别。这里提到的中文人名性别识别系统的功能是根据给定人名的用字特征来确定其性别,该系统使用的模型往往通过网络信息中爬去的大量中文人名语料及这些人名语料的用字信息训练而来。对于人名指代词“该(张/王/李/赵/…)、(张/王/李/赵/…)某”等,则根据与其姓氏相同的人名实体的性别来设置其性别特征值。若与该代词姓氏相同的人名实体不存在,则将其性别特征值设置为空值。对于非代词和非人名实体的词,将其sexFlag均设置为空值。
需要说明的是,代词指代的人称出现的位置往往在该代词前面,可以将代词前文中出现的人称中与该代词的性别特征和单复数特征均匹配的人称作为候选人称。
例如,在一种可以替代的示例中,简单句子为“张三女、李四男和王五男今天去钟楼逛街了,她买了一件牛仔裤,而他俩各买了一件外套,王五男回家后他妈妈夸他真会买衣服,那衣服穿在他身上真好看”,对应的人名列表为“张三女”、“李四男”、“王五男”和“王五男”(未去重),对应的代词为“她”、“他俩”、“他”、“他”和“他”(未去重)。
所述人名列表对应的特征可以如表1所示:
表1人称特征
Figure BDA0002213077910000111
所述简单句子包括的代词的特征可以如表2所示:
表2代词特征
Figure BDA0002213077910000112
Figure BDA0002213077910000121
详细地,编号为1的代词“她”之前出现的人称分别有“张三女”、“李四男”和“王五男”,根据表1和表2可以知道,与代词“她”的单复数特征和性别特征相匹配的人名实体只有一个,即“张三女”,因此该代词“她”仅有一个候选人称“张三女”。其他代词的候选人称如表3所示。
表3代词候选实体结果表
Figure BDA0002213077910000122
需要说明的是,对于复数代词,在获取其候选人称的时候需要判断出现在该代词前面且与该代词的性别特征相匹配的相邻人称之间是否有连词(常见连词有“和”、“与”、“跟”、“同”等)相连,若有则将连词相连的多个人称以列表形式放入候选人称列表,作为一个候选人称。
例如,表3中的“他俩”,其性别属性为male,出现在该代词前面的且性别属性为male的人称有“李四男”和“王五男”,经过判断发现这两个人称之间有连词相连,于是将[(人称2,人称3)]作为一个复合候选人称放入代词“他俩”的候选人称列表中。倘若将文本中的代词“他俩”改为代词“他们”,此时“他们”的候选人称便成为[(人称1,人称2,人称3)]。
对于步骤S130,需要说明的是,计算代词与对应的候选人称之间的相关度的具体方式不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,步骤S130可以包括以下子步骤:
获取该代词与对应的候选人称之间的最短依存路径,根据该最短依存路径对该代词进行指代消解。
可选地,获取最短依存路径的具体方式不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,获取最短依存路径的步骤可以包括以下子步骤:
首先,根据所述简单句子的依存句法结构数据建立包括各个代词和对应的候选人称的无向图。
然后,根据该无向图计算各个代词和对应的候选人称之间的依存路径,以获取最短依存路径。
需要说明的是,所述无向图的建立过程如下:将依存句法结构数据中每个词语看作是图中一个顶点;然后,将各词语之间的依存弧看作是各顶点之间的无向边;其次,将各顶点之间的边的距离均设置为1。
可选地,根据无向图计算依存路径的具体方式不受限制,可以根据实际应用需求进行设置。例如,在一种可以替代的示例中,对于每个代词pronouni,可以通过用Dijkstras算法计算pronouni与它的候选人称CandEntityListi中每个人称entitym之间的依存路径shortestDistm,最短依存路径为shortestDisti,m=min(shortestDistm)(m≥1)。
进一步地,计算得到的最短依存路径可能不小于该代词所在的简单句子的最长路径,表示该代词与对应的人称之间并不匹配,不能根据所述人称进行指代消解。为了提高指代消解的可靠性,所述获取该代词与对应的候选人称之间的最短依存路径,根据该最短依存路径对该代词进行指代消解的步骤,还可以包括以下子步骤:
首先,针对每个所述简单句子,判断该简单句子的最短依存路径是否小于该简单句子的最长路径。
然后,若所述最短依存路径小于所述最长路径,则根据所述最短依存路径对应的候选人称对所述代词进行指代消解。
结合图5,本发明实施例还提供了一种指代消解装置100,可以应用于上述的电子设备10。其中,该指代消解装置100可以包括文本处理模块110、特征比较模块120和相关度计算模块130。
所述文本处理模块110,用于对待处理的文本进行文本分解和零指代消解处理,得到该文本的简单句子集合。在一种可以替代的示例中,所述文本处理模块110可以用于执行图2所示的步骤S110,关于所述文本处理模块110的相关内容可以参照前文对步骤S110的具体描述。
所述特征比较模块120,用于针对每个简单句子中包括的每个代词,对所述简单句子中该代词之前的人称的特征和该代词的特征进行比较得到该代词对应的候选人称。在一种可以替代的示例中,所述特征比较模块120可以用于执行图2所示的步骤S120,关于所述特征比较模块120的相关内容可以参照前文对步骤S120的具体描述。
所述相关度计算模块130,用于计算该代词与对应的候选人称之间的相关度,以进行代词消解。在一种可以替代的示例中,所述相关度计算模块130可以用于执行图2所示的步骤S130,关于所述相关度计算模块130的相关内容可以参照前文对步骤S130的具体描述。
在本发明实施例中,对应于上述的指代消解方法,还提供了一种存储介质,该存储介质中存储有计算机程序,该计算机程序运行时执行上述指代消解方法的各个步骤。
其中,前述计算机程序运行时执行的各步骤,在此不再一一赘述,可参考前文对所述指代消解方法的解释说明。
综上所述,本申请实施例提供的指代消解方法和装置、电子设备10及存储介质,可以对待处理的文本进行零指代消解处理得到简单句子集合,以对待处理的文本中被省略的部分进行补充,并根据简单句子集合进行指代消解,避免了现有技术中直接对待处理的文本进行代词消解,从而存在着的指代消解的准确度并不高的问题,以提高指代消解的准确度。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种指代消解方法,其特征在于,包括:
对待处理的文本进行文本分解和零指代消解处理,得到该文本的简单句子集合;
针对每个简单句子中包括的每个代词,对所述简单句子中该代词之前的人称的特征和该代词的特征进行比较得到该代词对应的候选人称;
计算该代词与对应的候选人称之间的相关度,以进行代词消解。
2.如权利要求1所述的指代消解方法,其特征在于,所述对待处理的文本进行文本分解和零指代消解处理,得到该文本的简单句子集合的步骤,包括:
检测所述待处理的文本中的标点符号,根据检测得到的标点符号将所述待处理的文本切分为多个短句,并对每个所述短句进行依存分析,得到对应的依存句法结构数据;
根据各所述短句对应的依存句法结构数据进行零指代消解,得到包括多个简单句子的简单句子集合。
3.如权利要求2所述的指代消解方法,其特征在于,所述根据各所述短句对应的依存句法结构数据进行零指代消解,得到包括多个简单句子的简单句子集合的步骤,包括:
根据所述依存句法结构数据获取所述多个短句中第一个元素的主谓关系节点作为基础节点,并判断所述多个短句中的其他元素是否存在主谓关系节点;
若其他元素存在主谓关系节点,则将该元素的主谓关系节点作为基础节点;
若其他元素不存在主谓关系节点,则将所述基础节点作为该元素的主谓关系节点,以得到替换后的多个简单句子。
4.如权利要求1所述的指代消解方法,其特征在于,所述针对每个简单句子中包括的每个代词,对所述简单句子中该代词之前的人称的特征和该代词的特征进行比较得到该代词对应的候选人称的步骤,包括:
根据该简单句子集合包括的每个简单句子的依存句法结构数据获取人名列表,并根据该人名列表建立对应的代词列表;
根据所述代词列表获取所述代词之前的人称的代词特征和所述代词的代词特征;
分别对所述简单句子中所述代词之前的人称和所述代词的代词特征、单复数特征和性别特征进行比较得到所述代词对应的候选人称。
5.如权利要求1所述的指代消解方法,其特征在于,所述计算该代词与对应的候选人称之间的相关度,以进行代词消解的步骤,包括:
获取该代词与对应的候选人称之间的最短依存路径,根据该最短依存路径对该代词进行指代消解。
6.如权利要求5所述的指代消解方法,其特征在于,所述获取该代词与对应的候选人称之间的最短依存路径,根据该最短依存路径对该代词进行指代消解的步骤,包括:
根据所述简单句子的依存句法结构数据建立包括各个代词和对应的候选人称的无向图;
根据该无向图计算各个代词和对应的候选人称之间的依存路径,以获取最短依存路径。
7.如权利要求6所述的指代消解方法,其特征在于,所述获取该代词与对应的候选人称之间的最短依存路径,根据该最短依存路径对该代词进行指代消解的步骤,还包括:
针对每个所述简单句子,判断该简单句子的最短依存路径是否小于该简单句子的最长路径;
若所述最短依存路径小于所述最长路径,则根据所述最短依存路径对应的候选人称对所述代词进行指代消解。
8.一种指代消解装置,其特征在于,包括:
文本处理模块,用于对待处理的文本进行文本分解和零指代消解处理,得到该文本的简单句子集合;
特征比较模块,用于针对每个简单句子中包括的每个代词,对所述简单句子中该代词之前的人称的特征和该代词的特征进行比较得到该代词对应的候选人称;
相关度计算模块,用于计算该代词与对应的候选人称之间的相关度,以进行代词消解。
9.一种电子设备,其特征在于,包括存储器和处理器,所述处理器用于执行所述存储器中存储的可执行的计算机程序,以实现权利要求1-7任意一项所述的指代消解方法。
10.一种存储介质,其特征在于,其上存储有计算机程序,该程序被执行时实现权利要求1-7任意一项所述指代消解方法的步骤。
CN201910905211.2A 2019-09-24 2019-09-24 指代消解方法和装置、电子设备及存储介质 Active CN110674630B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910905211.2A CN110674630B (zh) 2019-09-24 2019-09-24 指代消解方法和装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910905211.2A CN110674630B (zh) 2019-09-24 2019-09-24 指代消解方法和装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN110674630A true CN110674630A (zh) 2020-01-10
CN110674630B CN110674630B (zh) 2023-03-21

Family

ID=69077491

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910905211.2A Active CN110674630B (zh) 2019-09-24 2019-09-24 指代消解方法和装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN110674630B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011162A (zh) * 2021-03-18 2021-06-22 北京奇艺世纪科技有限公司 一种指代消解方法、装置、电子设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104182535A (zh) * 2014-08-29 2014-12-03 苏州大学 一种人物关系抽取方法和装置
CN104462053A (zh) * 2013-09-22 2015-03-25 江苏金鸽网络科技有限公司 一种文本内的基于语义特征的人称代词指代消解方法
CN106484676A (zh) * 2016-09-30 2017-03-08 西安交通大学 基于句法树和领域特征的生物文本蛋白质指代消解方法
US9633048B1 (en) * 2015-11-16 2017-04-25 Adobe Systems Incorporated Converting a text sentence to a series of images
CN107402913A (zh) * 2016-05-20 2017-11-28 腾讯科技(深圳)有限公司 先行词的确定方法和装置
CN108446268A (zh) * 2018-02-11 2018-08-24 青海师范大学 藏文人称代词指代消解系统
CN109165386A (zh) * 2017-08-30 2019-01-08 哈尔滨工业大学 一种中文零代词消解方法及系统
CN109783801A (zh) * 2018-12-14 2019-05-21 厦门快商通信息技术有限公司 一种电子装置、多标签分类方法及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462053A (zh) * 2013-09-22 2015-03-25 江苏金鸽网络科技有限公司 一种文本内的基于语义特征的人称代词指代消解方法
CN104182535A (zh) * 2014-08-29 2014-12-03 苏州大学 一种人物关系抽取方法和装置
US9633048B1 (en) * 2015-11-16 2017-04-25 Adobe Systems Incorporated Converting a text sentence to a series of images
CN107402913A (zh) * 2016-05-20 2017-11-28 腾讯科技(深圳)有限公司 先行词的确定方法和装置
CN106484676A (zh) * 2016-09-30 2017-03-08 西安交通大学 基于句法树和领域特征的生物文本蛋白质指代消解方法
CN109165386A (zh) * 2017-08-30 2019-01-08 哈尔滨工业大学 一种中文零代词消解方法及系统
CN108446268A (zh) * 2018-02-11 2018-08-24 青海师范大学 藏文人称代词指代消解系统
CN109783801A (zh) * 2018-12-14 2019-05-21 厦门快商通信息技术有限公司 一种电子装置、多标签分类方法及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011162A (zh) * 2021-03-18 2021-06-22 北京奇艺世纪科技有限公司 一种指代消解方法、装置、电子设备及介质

Also Published As

Publication number Publication date
CN110674630B (zh) 2023-03-21

Similar Documents

Publication Publication Date Title
Mukhtar et al. Urdu sentiment analysis using supervised machine learning approach
CN105224640B (zh) 一种提取观点的方法和设备
Al-Ghadhban et al. Arabic sarcasm detection in Twitter
US9792909B2 (en) Methods and systems for recommending dialogue sticker based on similar situation detection
García-Díaz et al. Umutextstats: A linguistic feature extraction tool for spanish
CN110287405B (zh) 情感分析的方法、装置和存储介质
Gupta et al. Automatic text summarization system for Punjabi language
CN111626042A (zh) 指代消解方法及装置
Syaifudin et al. Quotations identification from Indonesian online news using rule-based method
Das et al. Toward cultural bias evaluation datasets: The case of Bengali gender, religious, and national identity
CN110674630B (zh) 指代消解方法和装置、电子设备及存储介质
CN112380877B (zh) 一种用于篇章级英译中机器翻译测试集的构建方法
CN116562278B (zh) 一种词语相似性检测方法及系统
CN113673702A (zh) 一种预训练语言模型的评测方法、装置以及存储介质
CN114417869A (zh) 实体识别方法、装置、电子设备及计算机可读存储介质
Cabrera et al. Gender lost in translation: How bridging the gap between languages affects gender bias in zero-shot multilingual translation
Stodden et al. A multi-lingual and cross-domain analysis of features for text simplification
CN109712680B (zh) 基于hl7 规范的医疗数据生成方法及系统
CN111814025A (zh) 一种观点提取方法及装置
Nishy Reshmi et al. Textual entailment classification using syntactic structures and semantic relations
CN114064846A (zh) 一种主题相似度确定方法、装置、电子设备和存储介质
Mitrpanont et al. TH_WSD: Thai word sense disambiguation using cross-language knowledge sources approach
Brglez Dispersing the clouds of doubt: can cosine similarity of word embeddings help identify relation-level metaphors in Slovene?
Amelia et al. Cross-Lingual Semantic Similarity in Pieces of Al-Quran Verses Translation Using Word Alignment and Semantic Vector Approach
Jananie et al. Contextual spell checking for Tamil Language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant