CN108446268A - 藏文人称代词指代消解系统 - Google Patents
藏文人称代词指代消解系统 Download PDFInfo
- Publication number
- CN108446268A CN108446268A CN201810156672.XA CN201810156672A CN108446268A CN 108446268 A CN108446268 A CN 108446268A CN 201810156672 A CN201810156672 A CN 201810156672A CN 108446268 A CN108446268 A CN 108446268A
- Authority
- CN
- China
- Prior art keywords
- pronoun
- name
- cleared
- rule
- resolution
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种藏文人称代词指代消解系统,包括如下步骤:首先对语料进行分词、词性标注、命名实体识别后对代词进行过滤,找出能够用规则的方法进行消解的代词并进行消解;如果在消解后的语料中出现没有进行指代消解的名词和代词,将把它们提取出来组成待消解对候选集,再利用统计的方法进行消解。本发明通过对藏文人名、人称代词的形态特征和构词规律的研究,制定了4类消解规则和有效统计特征,基于混合策略实现了藏文人称代词的指代消解。
Description
技术领域
本发明涉及语料处理领域,具体涉及一种藏文人称代词指代消解系统。
背景技术
指代是自然语言中一种复杂的语言现象,是文本处理和信息抽取不可或缺的重要组成部分,指代消解在文本处理和信息抽取中起着重要的作用,并已成为文本摘要、机器翻译、多语言信息处理、语义分析、问答系统等应用的关键问题。近五十年来,国外对主流语言指代消解问题的研究比较深入,提出了各种消解方法,并且许多重要的会议都设立了指代消解的专题会议。随着网络和计算机技术的快速发展,近期国内研究者对中文指代消解问题的研究也取得了很大的进步,也有不少相关的研究论文和成果。
以计算机科学技术为核心的信息化时代,在信息界的相关研究者对藏语言文字进行了分词、词性标注、词法分析、分句、句法分析等研究工作,对今后的藏文信息处理发展奠定了坚实的基础,而对藏文进行指代消解也是藏文通过分词和词性标注后需要解决的一项重要工作。目前还未见到对藏文进行指代消解的相关文献和报道。
发明内容
为解决上述问题,本发明提供了藏文人称代词指代消解系统。
为实现上述目的,本发明采取的技术方案为:
藏文人称代词指代消解系统,包括如下步骤:
首先对语料进行分词、词性标注、命名实体识别后对代词进行过滤,找出能够用规则的方法进行消解的代词并进行消解;如果在消解后的语料中出现没有进行指代消解的名词和代词,将把它们作为词对,依据词对间的上下文、距离和词内部的特征模板,提取组成待消解对候选集(如,包括多个人名指向同一目标代词的情况),利用最大熵模型计算出每个候选的分值,采用最大分值法选择最佳的指代关系,从而完成存在歧义、多对一和多对多的人名指代消解问题。,所述规则包括
规则1:若人称代词是单数,则找到表示单独人名的名词;若人称代词是复数,则找到连接词“(和)”连接而成的并列短语或表示人的群体的单一名词+等数词的命名实体;
规则2:若人称代词为“(他)”和“(他们)”,则找到表示男性的人名进行消解;若人称代词为“(她)”和“(她们)”,则找到表示女性的人名进行消解;
规则3:若代词为“(他)或(她)”和“(他们)或(她们)”,则找到表示人的命名实体;若代词为“(它)”或“和(它们)”,则找到表示非人的机构名和地点等的命名实体;
规则4:将指代的距离限制在小于等于4的范围内,并且距离值越小时命名实体被指代时的权重就越大。
本发明还提供了一种基于混合策略的藏文人称代词指代消解系统,包括
人机操作模块,用于待消解语料的输入;
语料预处理模块,用于对输入的语料进行分词、词性标注、命名实体识别后对代词进行过滤处理;
指代消解模块,用于挖掘能够用规则的方法进行消解的代词并进行消解;如果在消解后的语料中出现没有进行指代消解的名词和代词,将把它们提取出来组成待消解对候选集,再利用统计的方法进行消解。
所述规则包括
规则1:若人称代词是单数,则找到表示单独人名的名词;若人称代词是复数,则找到连接词“(和)”连接而成的并列短语或表示人的群体的单一名词+等数词的命名实体;
规则2:若人称代词为“(他)”和“(他们)”,则找到表示男性的人名进行消解;若人称代词为“(她)”和“(她们)”,则找到表示女性的人名进行消解;
规则3:若代词为“(他)或(她)”和“(他们)或(她们)”,则找到表示人的命名实体;若代词为“(它)”或“和(它们)”,则找到表示非人的机构名和地点等的命名实体;
规则4:将指代的距离限制在小于等于4的范围内,并且距离值越小时命名实体被指代时的权重就越大。
本发明具有以下有益效果:
本发明通过对藏文人名、人称代词的形态特征和构词规律的研究,制定了4类消解规则和有效统计特征,基于混合策略实现了藏文人称代词的指代消解。
附图说明
图1为本发明实施例一种藏文人称代词消解系统的流程图。
具体实施方式
为了使本发明的目的及优点更加清楚明白,以下结合实施例对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种藏文人称代词指代消解系统,包括如下步骤:
首先对语料进行分词、词性标注、命名实体识别后对代词进行过滤,找出能够用规则的方法进行消解的代词并进行消解;如果在消解后的语料中出现没有进行指代消解的名词和代词,将把它们作为词对,依据词对间的上下文、距离和词内部的特征模板,提取组成待消解对候选集(如,包括多个人名指向同一目标代词的情况),利用最大熵模型计算出每个候选的分值,采用最大分值法选择最佳的指代关系,从而完成存在歧义、多对一和多对多的人名指代消解问题。,所述规则包括
规则1:若人称代词是单数,则找到表示单独人名的名词;若人称代词是复数,则找到连接词“(和)”连接而成的并列短语或表示人的群体的单一名词+等数词的命名实体;
规则2:若人称代词为“(他)”和“(他们)”,则找到表示男性的人名进行消解;若人称代词为“(她)”和“(她们)”,则找到表示女性的人名进行消解;
规则3:若代词为“(他)或(她)”和“(他们)或(她们)”,则找到表示人的命名实体;若代词为“(它)”或“和(它们)”,则找到表示非人的机构名和地点等的命名实体;
规则4:将指代的距离限制在小于等于4的范围内,并且距离值越小时命名实体被指代时的权重就越大。
本发明还提供了一种基于混合策略的藏文人称代词指代消解系统,包括
人机操作模块,用于待消解语料的输入;
语料预处理模块,用于对输入的语料进行分词、词性标注、命名实体识别后对代词进行过滤处理;
指代消解模块,用于挖掘能够用规则的方法进行消解的代词并进行消解;如果在消解后的语料中出现没有进行指代消解的名词和代词,将把它们提取出来组成待消解对候选集,再利用统计的方法进行消解。
所述规则包括
规则1:若人称代词是单数,则找到表示单独人名的名词;若人称代词是复数,则找到连接词“(和)”连接而成的并列短语或表示人的群体的单一名词+等数词的命名实体;
规则2:若人称代词为“(他)”和“(他们)”,则找到表示男性的人名进行消解;若人称代词为“(她)”和“(她们)”,则找到表示女性的人名进行消解;
规则3:若代词为“(他)或(她)”和“(他们)或(她们)”,则找到表示人的命名实体;若代词为“(它)”或“和(它们)”,则找到表示非人的机构名和地点等的命名实体;
规则4:将指代的距离限制在小于等于4的范围内,并且距离值越小时命名实体被指代时的权重就越大。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (4)
1.藏文人称代词指代消解系统,其特征在于,包括如下步骤:
首先对语料进行分词、词性标注、命名实体识别后对代词进行过滤,找出能够用规则的方法进行消解的代词并进行消解;如果在消解后的语料中出现没有进行指代消解的人名词和代词,将把它们作为词对,依据词对间的上下文、距离和词内部的特征模板,提取组成待消解对候选集,利用最大熵模型计算出每个候选的分值,采用最大分值法选择最佳的指代关系,从而完成存在歧义、多对一和多对多的人名指代消解问题。
2.如权利要求1所述的藏文人称代词指代消解系统,其特征在于,所述规则包括
规则1:若人称代词是单数,则找到表示单独人名的名词;若人称代词是复数,则找到连接词“(和)”连接而成的并列短语或表示人的群体的单一名词+数词的命名实体;
规则2:若人称代词为“(他)”和“(他们)”,则找到表示男性的人名进行消解;若人称代词为“(她)”和“(她们)”,则找到表示女性的人名进行消解;
规则3:若代词为“(他)或(她)”和“(他们)或(她们)”,则找到表示人的命名实体;若代词为“和(它)”或“和(它们)”,则找到表示非人的机构名和地点的命名实体;
规则4:将指代的距离限制在小于等于4的范围内,并且距离值越小时命名实体被指代时的权重就越大。
3.基于混合策略的藏文人称代词指代消解系统,其特征在于,包括
人机操作模块,用于待消解语料的输入;
语料预处理模块,用于对输入的语料进行分词、词性标注、命名实体识别后对代词进行过滤处理;
指代消解模块,用于挖掘能够用规则的方法进行消解的代词并进行消解;如果在消解后的语料中出现没有进行指代消解的名词和代词,将把它们提取出来组成待消解对候选集,再利用统计的方法进行消解。
4.如权利要求3所述的基于混合策略的藏文人称代词指代消解系统,其特征在于,所述规则包括
规则1:若人称代词是单数,则找到表示单独人名的名词;若人称代词是复数,则找到连接词“(和)”连接而成的并列短语或表示人的群体的单一名词+“”等数词的命名实体;
规则2:若人称代词为“(他)”和“(他们)”,则找到表示男性的人名进行消解:若人称代词为“(她)”和“(她们)”,则找到表示女性的人名进行消解;
规则3:若代词为“(他)或(她)”和“(他们)或(她们)”,则找到表示人的命名实体;若代词为“和(它)”或“和(它们)”,则找到表示非人的机构名和地点等的命名实体;
规则4:将指代的距离限制在小于等于4的范围内,并且距离值越小时命名实体被指代时的权重就越大。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810156672.XA CN108446268A (zh) | 2018-02-11 | 2018-02-11 | 藏文人称代词指代消解系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810156672.XA CN108446268A (zh) | 2018-02-11 | 2018-02-11 | 藏文人称代词指代消解系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108446268A true CN108446268A (zh) | 2018-08-24 |
Family
ID=63192760
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810156672.XA Pending CN108446268A (zh) | 2018-02-11 | 2018-02-11 | 藏文人称代词指代消解系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108446268A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635279A (zh) * | 2018-11-22 | 2019-04-16 | 桂林电子科技大学 | 一种基于神经网络的中文命名实体识别方法 |
CN110674630A (zh) * | 2019-09-24 | 2020-01-10 | 北京明略软件系统有限公司 | 指代消解方法和装置、电子设备及存储介质 |
CN112183060A (zh) * | 2020-09-28 | 2021-01-05 | 重庆工商大学 | 多轮对话系统的指代消解方法 |
WO2021116858A1 (en) * | 2019-12-10 | 2021-06-17 | International Business Machines Corporation | Anaphora resolution |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440236A (zh) * | 2013-09-16 | 2013-12-11 | 中央民族大学 | 藏语句法和语义角色联合标注方法 |
CN104462053A (zh) * | 2013-09-22 | 2015-03-25 | 江苏金鸽网络科技有限公司 | 一种文本内的基于语义特征的人称代词指代消解方法 |
US20160119282A1 (en) * | 2014-10-23 | 2016-04-28 | Go Daddy Operating Company, LLC | Domain name registration verification |
CN105988990A (zh) * | 2015-02-26 | 2016-10-05 | 索尼公司 | 用于汉语中的零指代消解的装置和方法以及模型训练方法 |
CN106484676A (zh) * | 2016-09-30 | 2017-03-08 | 西安交通大学 | 基于句法树和领域特征的生物文本蛋白质指代消解方法 |
-
2018
- 2018-02-11 CN CN201810156672.XA patent/CN108446268A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103440236A (zh) * | 2013-09-16 | 2013-12-11 | 中央民族大学 | 藏语句法和语义角色联合标注方法 |
CN104462053A (zh) * | 2013-09-22 | 2015-03-25 | 江苏金鸽网络科技有限公司 | 一种文本内的基于语义特征的人称代词指代消解方法 |
US20160119282A1 (en) * | 2014-10-23 | 2016-04-28 | Go Daddy Operating Company, LLC | Domain name registration verification |
CN105988990A (zh) * | 2015-02-26 | 2016-10-05 | 索尼公司 | 用于汉语中的零指代消解的装置和方法以及模型训练方法 |
CN106484676A (zh) * | 2016-09-30 | 2017-03-08 | 西安交通大学 | 基于句法树和领域特征的生物文本蛋白质指代消解方法 |
Non-Patent Citations (3)
Title |
---|
贡保才让 等: "基于Naive Bayes的藏文人名性别自动识别", 《青海师范大学学报(自然科学版)》 * |
金可佳: "统计与规则相结合的指代消解", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
钟丹 等: "人称名词短语单复数信息和最大熵模型的指代消解", 《江南大学学报(自然科学版)》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109635279A (zh) * | 2018-11-22 | 2019-04-16 | 桂林电子科技大学 | 一种基于神经网络的中文命名实体识别方法 |
CN109635279B (zh) * | 2018-11-22 | 2022-07-26 | 桂林电子科技大学 | 一种基于神经网络的中文命名实体识别方法 |
CN110674630A (zh) * | 2019-09-24 | 2020-01-10 | 北京明略软件系统有限公司 | 指代消解方法和装置、电子设备及存储介质 |
CN110674630B (zh) * | 2019-09-24 | 2023-03-21 | 北京明略软件系统有限公司 | 指代消解方法和装置、电子设备及存储介质 |
WO2021116858A1 (en) * | 2019-12-10 | 2021-06-17 | International Business Machines Corporation | Anaphora resolution |
US11151321B2 (en) | 2019-12-10 | 2021-10-19 | International Business Machines Corporation | Anaphora resolution |
GB2605120A (en) * | 2019-12-10 | 2022-09-21 | Ibm | Anaphora resolution |
GB2605120B (en) * | 2019-12-10 | 2023-08-23 | Ibm | Anaphora resolution |
CN112183060A (zh) * | 2020-09-28 | 2021-01-05 | 重庆工商大学 | 多轮对话系统的指代消解方法 |
CN112183060B (zh) * | 2020-09-28 | 2022-05-10 | 重庆工商大学 | 多轮对话系统的指代消解方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Mitra et al. | An automatic approach to identify word sense changes in text media across timescales | |
CN108446268A (zh) | 藏文人称代词指代消解系统 | |
CN103778243B (zh) | 一种领域术语抽取方法 | |
Ahammed et al. | Implementation of machine learning to detect hate speech in Bangla language | |
Mishra et al. | Part of speech tagging for Hindi corpus | |
Shamsfard | Challenges and opportunities in processing low resource languages: A study on persian | |
Erkan et al. | The university of Michigan at duc 2004 | |
JP3596210B2 (ja) | 関連語辞書作成装置 | |
Pathak et al. | AsNER--Annotated Dataset and Baseline for Assamese Named Entity recognition | |
Stoeckel et al. | When specialization helps: using pooled contextualized embeddings to detect chemical and biomedical entities in Spanish | |
Hawas | Towards a new approach for Arabic root extraction: Exploit relations between the word letters and their placement in the word for Arabic root extraction | |
Babu et al. | Sentiment Analysis on Dravidian Code-Mixed YouTube Comments using Paraphrase XLM-RoBERTa Model. | |
Aouiti | Towards an automatic translation from Arabic text to sign language | |
Vaishali Kadam et al. | Design and development of marathi word stemmer | |
Lee et al. | QA-It: classifying non-referential it for question answer pairs | |
Sheremetyeva et al. | Ontological analysis of e-news: a case for terrorism domain | |
Saad et al. | Pattern extraction for Islamic concept | |
Altenbek et al. | Identification of basic phrases for kazakh language using maximum entropy model | |
Manju et al. | CUSAT_TEAM@ DPIL-FIRE2016: Detecting Paraphrase in Indian Languages-Malayalam. | |
RU2777693C1 (ru) | Способ автоматизированного извлечения смысловых компонент из сложносочинённых предложений естественно-язычных текстов в системах машинного перевода и устройство для его реализации | |
Driscoll | Computational methods for name normalization using hypocoristic personal name variants | |
Qu et al. | A collocation-based wsd model: RFR-SUM | |
Fukumoto et al. | Multi-Document Summarization Using Document Set Type Classification. | |
Fourour et al. | Incremental recognition and referential categorization of french proper names | |
CN109002435A (zh) | 一种数据处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180824 |