CN112214999A - 一种基于图模型和词向量相结合的词义消歧方法及装置 - Google Patents

一种基于图模型和词向量相结合的词义消歧方法及装置 Download PDF

Info

Publication number
CN112214999A
CN112214999A CN202011063422.5A CN202011063422A CN112214999A CN 112214999 A CN112214999 A CN 112214999A CN 202011063422 A CN202011063422 A CN 202011063422A CN 112214999 A CN112214999 A CN 112214999A
Authority
CN
China
Prior art keywords
word
graph model
word vector
model
ambiguous
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011063422.5A
Other languages
English (en)
Inventor
杜永兴
牛丽静
李宝山
胡伟健
李灵芳
周李涌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia Zhimu Suyuan Technology Development Co ltd
Inner Mongolia University of Science and Technology
Original Assignee
Inner Mongolia Zhimu Suyuan Technology Development Co ltd
Inner Mongolia University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia Zhimu Suyuan Technology Development Co ltd, Inner Mongolia University of Science and Technology filed Critical Inner Mongolia Zhimu Suyuan Technology Development Co ltd
Priority to CN202011063422.5A priority Critical patent/CN112214999A/zh
Publication of CN112214999A publication Critical patent/CN112214999A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

一种基于图模型和词向量相结合的词义消歧方法及装置,属于自然语言处理领域,用以解决现有的词义消歧方法准确率不高的问题。本发明的技术要点包括,对数据集进行预处理,获取歧义词;构建图模型,并根据图模型获取上下文背景知识;训练词向量模型,并根据词向量模型对获取的歧义词和上下文背景知识进行词向量表示;将以词向量表示的歧义词和上下文背景知识进行交叉加权相似度计算并取均值,将相似度均值最高的确定为歧义词的正确义项。本发明通过将图模型和词向量结合,提高了词义消歧的正确率,取得了较好的消歧效果。本发明优于传统词义消歧方法,可以很好的满足实际应用的需求。

Description

一种基于图模型和词向量相结合的词义消歧方法及装置
技术领域
本发明涉及自然语言处理领域,具体涉及一种基于图模型和词向量相结合的词义消歧方法及装置。
技术背景
词义消歧主要是为了解决句子中出现的多义词语的词义表达不明确的问题,是根据上下文知识来判断歧义词的具体义项,使计算机能更好的理解用户所表达的意图,增加用户体验。在计算语言领域中,词层面是词义消歧主要解决的问题,是计算机理解句子和篇章文本的基础。词义消歧对机器翻译,文本分类,信息检索,语音处理及问答系统有着直接的影响,所以词义消歧在自然语言处理领域中具有非常关键性的作用。现阶段,文本表示是自然语言处理中的基础工作,文本表示的好坏直接影响到整个自然语言处理系统的性能,在自然语言处理研究领域,文本向量化是文本表示的一种重要方式,文本向量化就是将文本表示成一系列能够表达文本语义的向量,目前对文本向量化都是通过词向量化实现的。现有的基于图模型进行中文词义消歧任务处理的方法主要利用一种或多种中文知识资源,受知识资源不足问题的困扰,词义消歧性能较低。因此,如何提升词义消歧性能是急需解决的技术问题。
发明内容
鉴于以上问题,本发明提出一种基于图模型和词向量相结合的词义消歧方法及装置,用以解决现有的词义消歧方法准确率不高的问题。
根据本发明一方面,提出一种基于图模型和词向量相结合的词义消歧方法,包括以下步骤,
步骤一、对数据集进行预处理,获取歧义词;
步骤二、构建图模型,并根据所述图模型获取上下文背景知识;
步骤三、训练词向量模型,并根据所述词向量模型对步骤一获取的歧义词和步骤二获取的上下文背景知识进行词向量表示;
步骤四、将步骤三中以词向量表示的歧义词和上下文背景知识进行交叉加权相似度计算并取均值,将相似度均值最高的确定为歧义词的正确义项。
进一步地,步骤一的具体步骤包括,首先进行格式转化,获取文本格式数据;然后进行分词、去除标点符号以及去除停用词处理;最后获得歧义句中的歧义词。
进一步地,步骤二的具体步骤包括,首先进行依存句法分析以提取依存关系;然后根据依存关系构建图模型;然后根据图模型获取上下文背景知识与步骤一中获取的歧义词的距离;最后将所述距离和预设最小路径阈值进行比较,获取筛选后的上下文背景知识;其中,依存句法分析表示对句子结构进行分析。
进一步地,步骤二中进行依存句法分析以提取依存关系的具体步骤包括,首先对句子语法结构给予形式化定义;然后根据所述定义自动推导出句子的句法结构,并分析句子所包含的句法单位以及句法单位之间的关系。
进一步地,步骤三中训练词向量模型的具体步骤包括,首先对中文语料库中的数据进行预处理,所述预处理包括格式转换、中文简繁体转换、去除英文和空格以及中文分词处理;然后基于Word2Vector模型对预处理后的数据进行训练。
根据本发明另一方面,提出一种基于图模型和词向量相结合的词义消歧装置,包括,数据预处理模块、图模型构建模块、词向量训练模块和相似度计算模块;其中,所述数据预处理模块用于对数据集进行预处理,获取歧义词;所述图模型构建模块用于构建图模型并根据所述图模型获取上下文背景知识;所述词向量训练模块用于训练词向量模型,并根据所述词向量模型对步骤一获取的歧义词和步骤二获取的上下文背景知识进行词向量表示;所述相似度计算模块用于将以词向量表示的歧义词和上下文背景知识进行交叉加权相似度计算并取均值,将相似度均值最高的确定为歧义词的正确义项。
进一步地,所述数据预处理模块中对数据集进行预处理的具体步骤包括,首先进行格式转化,获取文本格式数据;然后进行分词、去除标点符号以及去除停用词处理;最后获得歧义句中的歧义词。
进一步地,所述图模型构建模块中构建图模型并根据所述图模型获取上下文背景知识的具体步骤包括,首先进行依存句法分析以提取依存关系,即对句子语法结构给予形式化定义,并根据所述定义自动推导出句子的句法结构,并分析句子所包含的句法单位以及句法单位之间的关系;然后在提取依存关系之后根据依存关系构建图模型;然后根据图模型获取上下文背景知识与歧义词的距离,最后将所述距离和预设最小路径阈值进行比较,获取筛选后的上下文背景知识;其中,依存句法分析表示对句子结构进行分析。
进一步地,所述词向量训练模块中训练词向量模型的具体步骤包括,首先对中文语料库中的数据进行预处理,所述预处理包括格式转换、中文简繁体转换、去除英文和空格以及中文分词处理;然后基于Word2Vector模型对预处理后的数据进行训练。
本发明的有益技术效果是:
本发明通过将图模型和词向量结合,与现有词义消歧方法相比较,提高了词义消歧的正确率,取得了较好的消歧效果。
附图说明
本发明可以通过参考下文中结合附图所给出的描述而得到更好的理解,其中在所有附图中使用了相同或相似的附图标记来表示相同或者相似的部件。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分,而且用来进一步举例说明本发明的优选实施例和解释本发明的原理和优点。
图1示出了根据本发明实施方式一种基于图模型和词向量相结合的词义消歧方法的示意性流程图。
图2示出了根据本发明实施方式一种基于图模型和词向量相结合的词义消歧方法的图模型示例图。
图3示出了根据本发明实施方式一种基于图模型和词向量相结合的词义消歧方法的部分词语消歧效果对比图。
图4示出了根据本发明实施方式一种基于图模型和词向量相结合的词义消歧装置的示意性结构图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本发明内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
本发明实施例提出一种基于图模型和词向量相结合的词义消歧方法,图1示出了根据本发明实施方式一种基于图模型和词向量相结合的词义消歧方法的示意性流程图。
如图1所示,该方法包括以下步骤,步骤一、对数据集进行预处理,获取歧义词;具体步骤包括,首先进行格式转化,获取文本格式数据;然后进行分词、去除标点符号以及去除停用词处理;最后获得歧义句中的歧义词。
根据本发明实施例,数据预处理主要是对SemEval-2007task#5数据集中的数据进行处理,首先将html格式的数据转化成文本数据,然后利用jieba分词工具进行分词、去除标点符号、去除停用词等处理,在歧义句中得到歧义词。
步骤二、构建图模型,包括首先进行依存句法分析以提取依存关系,然后根据依存关系构建图模型,然后根据图模型获取上下文背景知识与步骤一中获取的歧义词的距离,最后将该距离和预设最小路径阈值进行比较,获取筛选后的上下文背景知识;其中,依存句法分析表示对句子结构进行分析。
根据本发明实施例,构建图模型首先提取依存父节点id,然后利用自然语言处理工具pyltp工具进行依存句法分析进行依存关系的提取,为依存父节点构建图模型,确定上下文的背景知识距离歧义词的距离,确定最小路径的阈值,提取关键背景词进而得到上下文背景知识。其中,pyltp工具是哈尔滨工业大学推出的一款基于Python封装的自然语言处理工具,该工具下载网址为:https://pypi.org/project/pyltp/。
本发明使用parser.model(依存句法分析模型)进行句子结构分析,提取依存关系,主要完成以下两方面的内容,一是确定语言的语法体系,即对语言中合法的句子的语法结构给与形式化的定义;另一方面是句法分析技术,即根据给定的语法体系,自动推导出句子的句法结构,分析句子所包含的句法单位和这些句法单位之间的关系,并获得歧义句的上下文依存关系图。
例如,例句“她生养了一双可爱的儿女”中的歧义词即依存父节点是“儿女”,首先,对该例句进行句子结构分析得到词之间的依存关系如下:
SBV(她,生养);HED(生养,Root);RAD(了,生养);ATT(一双,儿女);ATT(可爱,儿女);RAD(的,可爱);VOB(儿女,生养)
然后,根据得到的依存关系,构建如图2所示的网络图模型,并确定上下文的背景知识距离歧义词的距离;最后通过设置上下文背景知识和该歧义词“儿女”的距离阈值来确定上下文背景知识。
步骤三、训练词向量模型,并根据所述词向量模型对步骤一获取的歧义词和步骤二获取的上下文背景知识进行词向量表示。
根据本发明实施例,词向量获取主要是借助词向量模型—Word2Vector模型对91万多条的维基百科数据库中的中文语料库进行训练,该语料库质量高、领域广泛而且开放,从而对应得到每个歧义词及上下文的词向量,有的歧义词和上下文知识没有在维基百科数据中出现,本发明对该类型的词向量设置为unk,初始值为0不参与训练,使得设置为unk的词向量都共享相同的语义信息。
训练词向量模型的具体步骤为,首先对中文语料库中的数据进行预处理,预处理包括将XML的WiKi数据转换为text格式,中文简繁体转换,去除英文和空格以及利用jieba分词工具进行中文分词处理;最后对预处理后的数据进行Word2Vector模型训练并测试,获取词向量。
步骤四、将步骤三中以词向量表示的歧义词和上下文背景知识进行交叉加权相似度计算并取均值,将相似度均值最高的确定为歧义词的正确义项。
根据本发明实施例,利用空间向量模型(VSM)将文本内容转换成向量可以如下表示:对上下文背景知识m中的每个词,用Wi,m表示m中第i个词的权重,即歧义句的上下文背景知识表示为:
Figure BDA0002713075660000051
同理,用Wi,n表示歧义词的词义文本n中第i个词的权重,即歧义词的义项表示为:
Figure BDA0002713075660000052
然后通过余弦定理计算
Figure BDA0002713075660000053
Figure BDA0002713075660000054
之间的相似度值作为两个文本之间的相似度,其中,上下文背景知识的权重Wi,m是根据Word2Vector模型训练得来的。相似度计算公式如下所示:
Figure BDA0002713075660000055
将本发明方法与基于图模型(HowGraph)方法、基于窗口(Win)方法在词义消歧的准确率上进行比较,图3示出了根据本发明实施方式一种基于图模型和词向量相结合的词义消歧方法的部分词语消歧效果对比图。从图中可以看出,本发明方法的平均消歧准确率是0.56,相比于HowGraph方法提高了4.4个百分点,相比于Win方法提高了8个百分点,证明本发明方法在词义消歧准确度上有明显的提升。
本发明的另一实施例提出一种基于图模型和词向量相结合的词义消歧装置,包括,数据预处理模块110、图模型构建模块120、词向量训练模块130和相似度计算模块140;其中,数据预处理模块110用于对数据集进行预处理,获取歧义词,包括首先进行格式转化,获取文本格式数据;然后进行分词、去除标点符号以及去除停用词处理;最后获得歧义句中的歧义词;图模型构建模块120用于构建图模型并根据图模型获取上下文背景知识;词向量训练模块130用于训练词向量模型,并根据词向量模型对获取的歧义词和上下文背景知识进行词向量表示,其中,训练词向量模型的具体步骤包括,首先对中文语料库中的数据进行预处理,所述预处理包括格式转换、中文简繁体转换、去除英文和空格以及中文分词处理;然后基于Word2Vector模型对预处理后的数据进行训练;相似度计算模块140用于将以词向量表示的歧义词和上下文背景知识进行交叉加权相似度计算并取均值,将相似度均值最高的确定为歧义词的正确义项。
进一步地,图模型构建模块120中构建图模型并根据图模型获取上下文背景知识的具体步骤包括,首先进行依存句法分析以提取依存关系,即对句子语法结构给予形式化定义,并根据定义自动推导出句子的句法结构,并分析句子所包含的句法单位以及句法单位之间的关系;然后在提取依存关系之后根据依存关系构建图模型;然后根据图模型获取上下文背景知识与歧义词的距离,最后将距离和预设最小路径阈值进行比较,获取筛选后的上下文背景知识;其中,依存句法分析表示对句子结构进行分析。
本发明实施方式所述的一种基于图模型和词向量相结合的词义消歧装置的功能可以由前述一种基于图模型和词向量相结合的词义消歧方法说明,因此本实施例未详述部分,可参见以上方法实施例,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。

Claims (9)

1.一种基于图模型和词向量相结合的词义消歧方法,其特征在于,包括以下步骤,
步骤一、对数据集进行预处理,获取歧义词;
步骤二、构建图模型,并根据所述图模型获取上下文背景知识;
步骤三、训练词向量模型,并根据所述词向量模型对步骤一获取的歧义词和步骤二获取的上下文背景知识进行词向量表示;
步骤四、将步骤三中以词向量表示的歧义词和上下文背景知识进行交叉加权相似度计算并取均值,将相似度均值最高的确定为歧义词的正确义项。
2.根据权利要求1所述一种基于图模型和词向量相结合的词义消歧方法,其特征在于,步骤一的具体步骤包括,首先进行格式转化,获取文本格式数据;然后进行分词、去除标点符号以及去除停用词处理;最后获得歧义句中的歧义词。
3.根据权利要求1所述一种基于图模型和词向量相结合的词义消歧方法,其特征在于,步骤二的具体步骤包括,首先进行依存句法分析以提取依存关系;然后根据依存关系构建图模型;然后根据图模型获取上下文背景知识与步骤一中获取的歧义词的距离;最后将所述距离和预设最小路径阈值进行比较,获取筛选后的上下文背景知识;其中,依存句法分析表示对句子结构进行分析。
4.根据权利要求3所述一种基于图模型和词向量相结合的词义消歧方法,其特征在于,步骤二中进行依存句法分析以提取依存关系的具体步骤包括,首先对句子语法结构给予形式化定义;然后根据所述定义自动推导出句子的句法结构,并分析句子所包含的句法单位以及句法单位之间的关系。
5.根据权利要求1所述一种基于图模型和词向量相结合的词义消歧方法,其特征在于,步骤三中训练词向量模型的具体步骤包括,首先对中文语料库中的数据进行预处理,所述预处理包括格式转换、中文简繁体转换、去除英文和空格以及中文分词处理;然后基于Word2Vector模型对预处理后的数据进行训练。
6.一种基于图模型和词向量相结合的词义消歧装置,其特征在于,包括,数据预处理模块、图模型构建模块、词向量训练模块和相似度计算模块;其中,所述数据预处理模块用于对数据集进行预处理,获取歧义词;所述图模型构建模块用于构建图模型并根据所述图模型获取上下文背景知识;所述词向量训练模块用于训练词向量模型,并根据所述词向量模型对获取的所述歧义词和所述上下文背景知识进行词向量表示;所述相似度计算模块用于将以词向量表示的歧义词和上下文背景知识进行交叉加权相似度计算并取均值,将相似度均值最高的确定为歧义词的正确义项。
7.根据权利要求6所述一种基于图模型和词向量相结合的词义消歧装置,其特征在于,所述数据预处理模块中对数据集进行预处理的具体步骤包括,首先进行格式转化,获取文本格式数据;然后进行分词、去除标点符号以及去除停用词处理;最后获得歧义句中的歧义词。
8.根据权利要求6所述一种基于图模型和词向量相结合的词义消歧装置,其特征在于,所述图模型构建模块中构建图模型并根据所述图模型获取上下文背景知识的具体步骤包括,首先进行依存句法分析以提取依存关系,即对句子语法结构给予形式化定义,并根据所述定义自动推导出句子的句法结构,并分析句子所包含的句法单位以及句法单位之间的关系;然后在提取依存关系之后根据依存关系构建图模型;然后根据图模型获取上下文背景知识与歧义词的距离,最后将所述距离和预设最小路径阈值进行比较,获取筛选后的上下文背景知识;其中,依存句法分析表示对句子结构进行分析。
9.根据权利要求6所述一种基于图模型和词向量相结合的词义消歧装置,其特征在于,所述词向量训练模块中训练词向量模型的具体步骤包括,首先对中文语料库中的数据进行预处理,所述预处理包括格式转换、中文简繁体转换、去除英文和空格以及中文分词处理;然后基于Word2Vector模型对预处理后的数据进行训练。
CN202011063422.5A 2020-09-30 2020-09-30 一种基于图模型和词向量相结合的词义消歧方法及装置 Pending CN112214999A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011063422.5A CN112214999A (zh) 2020-09-30 2020-09-30 一种基于图模型和词向量相结合的词义消歧方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011063422.5A CN112214999A (zh) 2020-09-30 2020-09-30 一种基于图模型和词向量相结合的词义消歧方法及装置

Publications (1)

Publication Number Publication Date
CN112214999A true CN112214999A (zh) 2021-01-12

Family

ID=74052059

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011063422.5A Pending CN112214999A (zh) 2020-09-30 2020-09-30 一种基于图模型和词向量相结合的词义消歧方法及装置

Country Status (1)

Country Link
CN (1) CN112214999A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065002A (zh) * 2021-04-19 2021-07-02 北京理工大学 一种基于知识图谱和上下文语境的中文语义消歧方法
CN113095087A (zh) * 2021-04-30 2021-07-09 哈尔滨理工大学 一种基于图卷积神经网络的中文词义消歧方法

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314418A (zh) * 2011-10-09 2012-01-11 北京航空航天大学 一种基于上下文关联的中文相似性比较方法
CN102866989A (zh) * 2012-08-30 2013-01-09 北京航空航天大学 基于词语依存关系的观点抽取方法
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN105893346A (zh) * 2016-03-30 2016-08-24 齐鲁工业大学 一种基于依存句法树的图模型词义消歧方法
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法
CN108446269A (zh) * 2018-03-05 2018-08-24 昆明理工大学 一种基于词向量的词义消歧方法及装置
CN108628970A (zh) * 2018-04-17 2018-10-09 大连理工大学 一种基于新标记模式的生物医学事件联合抽取方法
CN109614620A (zh) * 2018-12-10 2019-04-12 齐鲁工业大学 一种基于HowNet的图模型词义消歧方法和系统
CN110298681A (zh) * 2019-04-24 2019-10-01 内蒙古科技大学 一种价格预测方法
CN110399457A (zh) * 2019-07-01 2019-11-01 吉林大学 一种智能问答方法和系统
CN110502642A (zh) * 2019-08-21 2019-11-26 武汉工程大学 一种基于依存句法分析与规则的实体关系抽取方法
CN111259669A (zh) * 2018-11-30 2020-06-09 阿里巴巴集团控股有限公司 信息标注方法、信息处理方法及装置

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314418A (zh) * 2011-10-09 2012-01-11 北京航空航天大学 一种基于上下文关联的中文相似性比较方法
CN102866989A (zh) * 2012-08-30 2013-01-09 北京航空航天大学 基于词语依存关系的观点抽取方法
CN104933027A (zh) * 2015-06-12 2015-09-23 华东师范大学 一种利用依存分析的开放式中文实体关系抽取方法
CN105893346A (zh) * 2016-03-30 2016-08-24 齐鲁工业大学 一种基于依存句法树的图模型词义消歧方法
CN106547739A (zh) * 2016-11-03 2017-03-29 同济大学 一种文本语义相似度分析方法
CN108446269A (zh) * 2018-03-05 2018-08-24 昆明理工大学 一种基于词向量的词义消歧方法及装置
CN108628970A (zh) * 2018-04-17 2018-10-09 大连理工大学 一种基于新标记模式的生物医学事件联合抽取方法
CN111259669A (zh) * 2018-11-30 2020-06-09 阿里巴巴集团控股有限公司 信息标注方法、信息处理方法及装置
CN109614620A (zh) * 2018-12-10 2019-04-12 齐鲁工业大学 一种基于HowNet的图模型词义消歧方法和系统
CN110298681A (zh) * 2019-04-24 2019-10-01 内蒙古科技大学 一种价格预测方法
CN110399457A (zh) * 2019-07-01 2019-11-01 吉林大学 一种智能问答方法和系统
CN110502642A (zh) * 2019-08-21 2019-11-26 武汉工程大学 一种基于依存句法分析与规则的实体关系抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李源等: "汉语复句中基于依存关系与最大熵模型的词义消歧方法研究", 《计算机与数字工程》, vol. 46, no. 01, 20 January 2018 (2018-01-20), pages 78 *
杜永兴等: "基于BERT的中文电子病历命名实体识别", 《内蒙古科技大学学报》, vol. 39, no. 1, 15 March 2020 (2020-03-15), pages 71 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113065002A (zh) * 2021-04-19 2021-07-02 北京理工大学 一种基于知识图谱和上下文语境的中文语义消歧方法
CN113065002B (zh) * 2021-04-19 2022-10-14 北京理工大学 一种基于知识图谱和上下文语境的中文语义消歧方法
CN113095087A (zh) * 2021-04-30 2021-07-09 哈尔滨理工大学 一种基于图卷积神经网络的中文词义消歧方法

Similar Documents

Publication Publication Date Title
CN110727796B (zh) 面向分级读物的多尺度难度向量分类方法
US20050086047A1 (en) Syntax analysis method and apparatus
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和系统
WO2017198031A1 (zh) 解析语义的方法和装置
US20150161096A1 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
CN116628186B (zh) 文本摘要生成方法及系统
CN112214999A (zh) 一种基于图模型和词向量相结合的词义消歧方法及装置
KR101070371B1 (ko) 한국어 어휘의미망을 이용한 어의 중의성 해소 장치 및 방법 그리고 그를 위한 프로그램을 기록한 기록 매체
KR101396131B1 (ko) 패턴 기반 관계 유사도 측정 장치 및 방법
CN105389303B (zh) 一种异源语料自动融合方法
CN107451116B (zh) 一种移动应用内生大数据统计分析方法
CN112183059A (zh) 一种中文结构化事件抽取方法
Zamaraeva et al. Handling cross-cutting properties in automatic inference of lexical classes: A case study of Chintang
CN109815497B (zh) 基于句法依存的人物属性抽取方法
CN112632272A (zh) 基于句法分析的微博情感分类方法和系统
Sheng et al. Chinese prosodic phrasing with extended features
Amri et al. Amazigh POS tagging using TreeTagger: a language independant model
KR100559472B1 (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
Pogorilyy et al. Assessment of Text Coherence by Constructing the Graph of Semantic, Lexical, and Grammatical Consistancy of Phrases of Sentences
CN114970516A (zh) 数据增强方法及装置、存储介质、电子设备
Trye et al. A hybrid architecture for labelling bilingual māori-english tweets
CN112818711B (zh) 一种翻译科技文献中一词多义的专业术语的机器翻译方法
Mathew et al. Paraphrase identification of Malayalam sentences-an experience
Altenbek et al. Identification of basic phrases for kazakh language using maximum entropy model
CN111259159A (zh) 数据挖掘方法、装置和计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination