CN101295292A - 一种基于最大熵模型建模和命名实体识别的方法及装置 - Google Patents

一种基于最大熵模型建模和命名实体识别的方法及装置 Download PDF

Info

Publication number
CN101295292A
CN101295292A CNA200710098635XA CN200710098635A CN101295292A CN 101295292 A CN101295292 A CN 101295292A CN A200710098635X A CNA200710098635X A CN A200710098635XA CN 200710098635 A CN200710098635 A CN 200710098635A CN 101295292 A CN101295292 A CN 101295292A
Authority
CN
China
Prior art keywords
character
labeling
text
identified
characteristic item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200710098635XA
Other languages
English (en)
Other versions
CN101295292B (zh
Inventor
王学武
彭学政
杨建武
肖建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New Founder Holdings Development Co ltd
Peking University
Peking University Founder Research and Development Center
Original Assignee
BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Peking University
Peking University Founder Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIDA FANGZHENG TECHN INST Co Ltd BEIJING, Peking University, Peking University Founder Group Co Ltd filed Critical BEIDA FANGZHENG TECHN INST Co Ltd BEIJING
Priority to CN200710098635.XA priority Critical patent/CN101295292B/zh
Publication of CN101295292A publication Critical patent/CN101295292A/zh
Application granted granted Critical
Publication of CN101295292B publication Critical patent/CN101295292B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明公开了一种基于最大熵模型建模和命名实体识别的方法,该方法包括:输入标注命名实体的训练文本;对所述训练文本中的字符进行角色标注,得到训练文本的字符角色标注;根据字符角色标注,建立所述字符的特征项;将所述字符的特征项输入到最大熵的建模工具中,得到基于字符角色标注的数据模型。该方法不需分词,因此解决了进行命名实体识别时,分词错误和它导致的信息丢失而影响识别效果的问题。

Description

一种基于最大熵模型建模和命名实体识别的方法及装置
技术领域
本发明属于自然语言处理范畴,特别涉及基于最大熵模型建模和命名实体识别的方法及装置。
背景技术
命名实体(Named Entity,NE)是指被命名的唯一确定的具有特定意义的最小信息单位——专有名称和数量短语,主要包括7种类型的命名实体:人名、组织名、地名、日期、时间,货币值和百分数。命名实体识别任务主要是识别出文本中的命名实体,并加以归类。命名实体识别最初是在MUC-6(MessageUnderstanding Conference消息理解研讨会)上作为一个子任务提出的,从整体的命名实体识别的研究结果来看,日期、时间、货币值、百分数的识别相对简单,其规则的设计、数据的统计训练等也比较容易。因为人名、组织名、地名等命名实体具有开放性和发展性的特点,而且构成规律有很大的随意性,所以对它们的识别就可能会有较多的错选或漏选。现在大多数的命名实体识别的研究都集中在这三种命名实体的识别技术上。
目前,英文的命名实体识别技术已经达到了较高水平,和英文相比,中文的命名实体识别要困难得多。对于中文人名、地名的识别,科研人员做过许多艰苦的探索和研究。
现有的技术是,首先对文本进行分词,在分词的基础上,采用最大熵模型进行命名实体的识别(明丽宏,哈尔滨工业大学硕士论文,2004)。使用最大熵的区别式模型进行训练和学习,把识别问题作为分词后的词的角色标注问题,在文本中进行命名实体识别。
由现有技术可以看出,由于该方法是在分词的基础上进行的命名实体识别,分词错误和它导致的信息丢失会影响识别效果。例如:人名的上文和姓成词、人名的末字和下文成词等,姓、人名的末字等语言学信息就丢失了。
发明内容
为了解决在分词的基础上进行的命名实体的识别,分词错误和它导致的信息丢失会影响识别效果的问题,本发明实施例提供了一种基于最大熵模型建模的方法,包括:
输入标注命名实体的训练文本;
对所述训练文本中的字符进行角色标注,得到带有字符角色标注的训练文本;
根据字符角色标注,建立所述字符的特征项;
将所述字符的特征项输入到最大熵的建模工具中,得到基于字符角色标注的数据模型。
本发明实施例还提供一种命名实体识别的方法,包括:
加载如前所述的基于字符角色标注的数据模型;
输入待识别文本,建立待识别文本中各字符的特征项,得到待识别文本字符特征项序列;
将待识别文本中字符特征项序列,输入到所述基于字符角色标注的数据模型中,得到具有最大产生概率的待识别文本字符角色标注序列;
对待识别文本字符角色标注序列的标注名称模式匹配,得到命名实体。
本发明实施例还提供一种基于最大熵模型建模的装置,包括:
输入模块:用于输入标注命名实体的训练文本;
标注模块:用于对所述训练文本中的字符进行角色标注,得到带有字符角色标注的训练文本;
建立模块:用于根据字符角色标注,建立所述字符的特征项;
建模模块:用于将所述字符的特征项输入到最大熵的建模工具中,得到基于字符角色标注的数据模型。
本发明实施例还提供一种命名实体识别的装置,包括:
加载模块:用于加载基于字符角色标注的数据模型;
特征项生成模块:用于输入待识别文本,建立待识别文本中各字符的特征项,得到待识别文本字符特征项序列;
角色标注生成模块:用于将待识别文本中字符特征项序列,输入到所述基于字符角色标注的数据模型中,得到具有最大产生概率的待识别文本字符角色标注序列;
匹配模块:用于对待识别文本字符角色标注序列的标注名称模式匹配,得到命名实体。
由上述本发明提供的具体实施方案可以看出,由于建立了基于字符角色标注的数据模型,并通过该数据模型进行命名实体的识别,不需分词,这就解决了进行命名实体识别时,因为分词错误和它导致的信息丢失而影响识别效果的问题。
附图说明
图1为本发明提供的第一实施例的方法流程图;
图2为本发明提供的第二实施例的方法流程图;
图3为本发明提供的第三实施例的结构示意图;
图4为本发明提供的第四实施例的结构示意图。
具体实施方式
在本发明具体实施例的技术方案中,采用最大熵模型,充分利用多种语言学信息,直接对字符进行角色标注,得到具有最大概率的角色标注序列,并通过简单的标注名称模式匹配,来有效标识命名实体,如人名、地名和组织名。
我们认为句中的每个字符都隐含地携带了一个角色信息(角色是字符本身的属性)。本发明中的字符角色就是单个字符在命名实体中或句子所起的作用。角色标注就是把句子中的单字符的角色标注出来。这些角色可以是一个地名(人名)的第一个字符、也可是一个地名(人名)的最后一个字符或者一个地名(人名)的中间字符等等。如在人名、地名识别中,定义多种角色,在文本“张三去北京市看望小李”中,我们可以定义张三的“张”的角色为姓氏、小李的“小”的角色为姓名前缀、北京市的“市”角色为地名后缀。我们可以根据不同的需要,定义不同的角色信息,在本发明中,我们优选的方案是定义了15种角色信息,具体角色信息如下表所示:
    标注ID     含意     示例
    1     一般词的单字词     熵
    2     姓名首字符     天明 阳修
    3     姓名中间字符     王明 欧
    4     姓名尾字符     王天 欧阳
    5     一般词首字符     产党
    6     一般词中间字符     共
    7     一般词尾字符     共产
    8     地名首字符     京市区
    9     地名中间字符     北京市
    10     地名尾字符     北京市
    11     机构名首字符     国最高人民法院
    12     机构名中间字符     中国最高人民法
    13     机构名尾字符     中国最高人民法
    14     语法派生词(MDW)     高高兴兴
    15     FACTOID实体名称     2006年7月16日
在本发明中,我们采用最大熵模型。在最大熵模型(Ratnaparkhi A.1997.)的架构下,利用各种有效的语言学特征信息(语言学特征信息就是字符对上下文产生影响的属性,如北京市的“市”往往作为一个地名的后缀,因此它的一个语言学特征信息就是地名后缀、小张的“小”它的一个语言学特征信息就是人名前缀等),建立基于上下文语境(上下文语境指选定字符前后字符的属性,如字符角色、字符类型等)和角色标注信息的最大熵模型。
关于事件概率p的熵的定义如下:
H ( P ) = - Σ h ∈ H , t ∈ T p ( h , t ) log p ( h , t )
最大熵概率模型被定义在空间H×T上,其中H代表所有上下文中特征的集合,一个选定字符的上下文范围可选择为前后各两个字符,特征包括字符本身的特性和语言学特征信息,T代表一个字符所有可能的角色标记集合,hi代表给定一个特定上下文,ti代表某一特定角色标记。
给定一个特定上下文hi,特定角色标记ti的条件概率如公式(1)所示:
p ( t i | h i ) = p ( h i , t i ) Σ t ′ ∈ T p ( h i , t i ′ ) - - - ( 1 )
公式(1)表示给定一个特定上下文hi,特定角色标记ti的概率在整体概率中占多少比率,整体概率指给定一个特定上下文hi,各种特定角色标记ti的概率之和。
其中 p ( h i , t i ) = πμ Σ j = 1 n α j f j ( h i , t i ) - - - ( 2 )
公式(2)表示在给定上下文环境hi,下得到特定角色标记ti的概率,在公式(2)中是π是正则化常数,而{μ,α1,α2,...αn}是模型参数,{f1,f2,...,fn}被称为特征函数。参数αj表示第j个特征的权重。特征用一个特征函数fj来体现,特征函数为一个二值函数,特征函数形式如下:
Figure A20071009863500084
wi为要进行处理的字符,suffix(wi)为该字符的后缀特征。
对于每一个特征函数fj(hi,ti),模型的约束情况是:模型所建立的条件概率分布的期望值要与训练样本表现出来的分布的期望值相等。参数{μ,α1,α2,...αn}是为了选择最大化训练数据关于概率分布p的可能性,优化概率分布p的最大熵值为目标。
我们可以根据不同的需要,确定不同的特征函数,本发明优选的特征函数如下:
1)在有限的上下文环境中是否包含人名前后缀信息。如:小(刘),(张)老师等词。
2)在有限的上下文环境中是否包含地名后缀,以及该后缀名的长度。
3)在有限的上下文环境中是否包含机构名后缀,以及该后缀名的长度。
4)在有限的上下文环境中是否包含姓氏或者外文译名信息。
5)在有限的上下文环境中是否包含地名信息。
6)当前字符是否是某个特定含义字符。
7)当前字符的后续两个字符是否是某两字字符串。
8)当前字符的前面两个字符是否是某两字字符串。
本发明提供的第一实施例是一种基于最大熵模型建模的方法,该第一实施例的方法流程如图1所示,包括:
步骤100:输入标注中文人名、中文地名信息的训练文本,根据前面我们所定义的角色信息,对每个字符进行角色标记的标注,从而建立起用于角色标注的训练文本。
输入标注了中文人名、地名信息的训练文本:[P钱其琛]访问[L德班],其中P表示中文人名,L表示中文地名。
通过程序处理后,我们得到训练文本的字符角色标注,如下:
钱/2其/3琛/4访/5问/7德/8班/10,根据前面优选方案定义的15种角色信息,具体角色标注为其中“2”就代表“姓名首字符”、“3”就代表“姓名中间字符”、“4”就代表“姓名尾字符”、“5”就代表“一般词首字符”、“7”就代表“一般词尾字符”、“8”就代表“地名首字符”、“10”就代表“地名尾字符”,这样我们也就可以知道各个字符的角色了。
步骤101:读入训练文本,选定一个字符,根据字符角色标注,基于每个字符的上下文语境,建立该字符特征项,并把这些特征项输出到特征文件或写到内存中。
在有些句子如:“好!”中因为只是由单字符组成,没有上下文,那么该字符的特征项就只要包括:选定字符本体、选定字符的角色和它的字符类型(数字,英文字母,符号和一般等)就可以了。根据不同的需求,特征项包括的内容可以不同,如一个选定字符特征项可以包括:选定字符的前几个字符的字符类型,选定字符本体、选定字符的角色和它的字符类型(数字,英文字母,符号和一般等),选定字符的后几个字符本体和它们的字符角色,以及各个字符组合等。或一个选定字符特征项可以包括:选定字符的前几个字符的角色,选定字符本体、选定字符的角色和它的字符类型,选定字符的后几个字符本体和它们的字符类型,以及各个字符组合。因此不难理解上下文语境也可以包括选定字符的前几个字符的字符类型和/或字符角色,还可以包括选定字符的后几个字符的字符类型和/或字符角色,还可以包括以上的组合。
在本发明优选的方案中,一个选定字符特征项主要包括:选定字符的前两个字符的角色,选定字符本体、选定字符的角色和它的字符类型(数字,英文字母,符号和一般等),选定字符的后两个字符本体和它们的字符类型,以及各个字符间两两组合(组合的词);还可以包含选定字符语言学特征信息:如人名前缀,人名后缀,人首姓,外文名,机构名后缀,地名后缀,地名信息等,比如训练文本是“钱其琛访问德班市”,其中的“市”字的语言学特征信息就是地名后缀。选定字符“钱”字特征项构成如下:句首字(无前面的字符)、字符本体为“钱”、类型为一般、角色为姓名首字符、后第一个字符本体为“其”类型为一般、后第二字符本体为“琛”类型为一般、后一二字符组成的词组为其琛等。
同样我们选定其它字符,得到其它字符“其”、“琛”、“访”、“问”、“德”、“班”的特征项,将这7个字符的特征项形成一个特征文件。
步骤102:利用现成的最大熵模型工具箱,输入特征文件,得到基于字符角色标注的数据模型。如果这些特征项是写到内存中,则从内存中读出所述字符的特征项,并输入到最大熵的建模工具中。输入特征文件及写入内存再读取,是本发明事实例优选的将特征项输入到最大熵的建模工具中的方法,现有技术中还有其它的技术手段可以实现,都是本领域公知的技术手段,这里不再赘述。
步骤103:为了不断的丰富该数据模型,需要不断的输入标注了中文人名、中文地名信息的新训练文本,重新执行步骤100-步骤102。
本发明提供的第二实施例是一种命名实体识别的方法,第二实施例的流程如图2所示,包括:
步骤200:加载实施例1中得到基于字符角色标注的数据模型。
步骤201:输入待识别文本。对于待识别文本中的每个字符,利用该字符的上下文语境,建立该字符的特征项,如:待识别的文本为“王天明去图县旅游了”,建立“王”字的特征项,构成如下:句首字、字为“王”、类型为一般、后第一个字为“天”类型为一般、后第二字为“明”类型为一般、后一二字组成的词组为天明、角色为待定等。
步骤202:将待识别文本中的9个字符特征项组成的序列输入到基于字符角色标注的数据模型中,得到具有最大产生概率的字符角色标注序列:王/2天/3明/4去/5图/8县/10旅/5游/7了/5。
步骤203:通过简单的标注名称模式匹配,得到命名实体及切分结果如下:
2+3+4为人名,5+7为一般词8+10为地名,
人名:王天明
地名:图县
切分结果如下:[P王天明]去[L图县]旅游了。
本发明提供的第三实施例是一种基于最大熵模型建模的装置,其结构如图3所示,包括:
输入模块:用于输入标注命名实体的训练文本;
标注模块:用于对所述训练文本中的字符进行角色标注,得到带有字符角色标注的训练文本;
建立模块:用于根据字符角色标注,建立所述字符的特征项;
建模模块:用于将所述字符的特征项输入到最大熵的建模工具中,得到基于字符角色标注的数据模型。
本发明提供的第四实施例是一种命名实体识别的装置,其结构如图4所示,包括:
加载模块:用于加载第三实施例中的基于字符角色标注的数据模型;
特征项生成模块:用于输入待识别文本,建立待识别文本中各字符的特征项,得到待识别文本字符特征项序列;
角色标注生成模块:用于将待识别文本中字符特征项序列,输入到所述基于字符角色标注的数据模型中,得到具有最大产生概率的待识别文本字符角色标注序列;
匹配模块:用于对待识别文本字符角色标注序列的标注名称模式匹配,得到命名实体。
由上述本发明提供的具体实施方案可以看出,由于建立了基于字符角色标注的数据模型,并通过该数据模型进行命名实体的识别,无需分词,这就解决了进行命名实体识别时,因为分词错误和它导致的信息丢失而影响识别效果的问题。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1、一种基于最大熵模型建模的方法,其特征在于,包括:
输入标注命名实体的训练文本;
对所述训练文本中的字符进行角色标注,得到带有字符角色标注的训练文本;
根据字符角色标注,建立所述字符的特征项;
将所述字符的特征项输入到最大熵的建模工具中,得到基于所述字符角色标注的数据模型。
2、如权利要求1所述的方法,其特征在于,所述字符的特征项包括:
所述字符的本体、角色和类型。
3、如权利要求2所述的方法,其特征在于,所述字符的特征项还包括:
所述字符前面字符的角色和/或类型,以及各字符组合。
4、如权利要求2所述的方法,其特征在于,所述字符的特征项还包括:
所述字符后面字符的本体、角色和/或类型,以及各字符组合。
5、如权利要求4所述的方法,其特征在于,所述字符的特征项还包括:
所述字符前面字符的角色和/或类型。
6、如权利要求5所述的方法,其特征在于,所述字符前面字符的角色和/或类型具体为所述字符前两个字符的角色,所述字符后面字符的本体、角色和/或类型具体为所述字符后两个字符的本体和类型,所述各字符组合具体为各字符两两组合。
7、如权利要求1至6任意一项权利要求所述的方法,其特征在于,所述字符的特征项还包括:
字符语言学特征信息。
8、一种命名实体识别的方法,其特征在于,包括:
加载权利要求1所述基于字符角色标注的数据模型;
输入待识别文本,建立待识别文本中各字符的特征项,得到待识别文本字符特征项序列;
将待识别文本中字符特征项序列,输入到所述基于字符角色标注的数据模型中,得到具有最大产生概率的待识别文本字符角色标注序列;
对待识别文本字符角色标注序列的标注名称模式匹配,得到命名实体。
9、一种基于最大熵模型建模的装置,其特征在于,包括:
输入模块:用于输入标注命名实体的训练文本;
标注模块:用于对所述训练文本中的字符进行角色标注,得到带有字符角色标注的训练文本;
建立模块:用于根据字符角色标注,建立所述字符的特征项;
建模模块:用于将所述字符的特征项输入到最大熵的建模工具中,得到基于字符角色标注的数据模型。
10、一种命名实体识别的装置,其特征在于,包括:
加载模块:用于加载权利要求1所述基于字符角色标注的数据模型;
特征项生成模块:用于输入待识别文本,建立待识别文本中各字符的特征项,得到待识别文本字符特征项序列;
角色标注生成模块:用于将待识别文本中字符特征项序列,输入到所述基于字符角色标注的数据模型中,得到具有最大产生概率的待识别文本字符角色标注序列;
匹配模块:用于对待识别文本字符角色标注序列的标注名称模式匹配,得到命名实体。
CN200710098635.XA 2007-04-23 2007-04-23 一种基于最大熵模型建模和命名实体识别的方法及装置 Expired - Fee Related CN101295292B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200710098635.XA CN101295292B (zh) 2007-04-23 2007-04-23 一种基于最大熵模型建模和命名实体识别的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200710098635.XA CN101295292B (zh) 2007-04-23 2007-04-23 一种基于最大熵模型建模和命名实体识别的方法及装置

Publications (2)

Publication Number Publication Date
CN101295292A true CN101295292A (zh) 2008-10-29
CN101295292B CN101295292B (zh) 2016-07-20

Family

ID=40065584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200710098635.XA Expired - Fee Related CN101295292B (zh) 2007-04-23 2007-04-23 一种基于最大熵模型建模和命名实体识别的方法及装置

Country Status (1)

Country Link
CN (1) CN101295292B (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033879A (zh) * 2009-09-27 2011-04-27 腾讯科技(深圳)有限公司 一种中文人名识别的方法和装置
CN103377186A (zh) * 2012-04-26 2013-10-30 富士通株式会社 基于命名实体识别的Web服务整合装置、方法以及设备
CN103853710A (zh) * 2013-11-21 2014-06-11 北京理工大学 一种基于协同训练的双语命名实体识别方法
CN104199840A (zh) * 2014-08-05 2014-12-10 杭州安恒信息技术有限公司 基于统计模型的智能地名识别技术
CN106156051A (zh) * 2015-03-27 2016-11-23 深圳市腾讯计算机系统有限公司 构建人名语料识别模型的方法及装置
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN106708797A (zh) * 2015-07-15 2017-05-24 中兴通讯股份有限公司 一种文字处理方法和装置
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN107391485A (zh) * 2017-07-18 2017-11-24 中译语通科技(北京)有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法
CN109492217A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 一种基于机器学习的分词方法及终端设备
CN109670181A (zh) * 2018-12-21 2019-04-23 东软集团股份有限公司 一种命名实体识别方法及装置
CN109992766A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 提取目标词的方法和装置
CN110134959A (zh) * 2019-05-15 2019-08-16 第四范式(北京)技术有限公司 命名实体识别模型训练方法及设备、信息抽取方法及设备
CN112257965A (zh) * 2020-11-26 2021-01-22 深源恒际科技有限公司 图像文本识别置信度的预测方法和预测系统
CN112735465A (zh) * 2020-12-24 2021-04-30 广州方硅信息技术有限公司 无效信息确定方法、装置、计算机设备及存储介质
CN113298253A (zh) * 2021-06-03 2021-08-24 清华大学 用于命名实体识别的模型训练方法、识别方法及装置

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102033879A (zh) * 2009-09-27 2011-04-27 腾讯科技(深圳)有限公司 一种中文人名识别的方法和装置
CN102033879B (zh) * 2009-09-27 2015-02-18 深圳市世纪光速信息技术有限公司 一种中文人名识别的方法和装置
CN103377186B (zh) * 2012-04-26 2016-03-16 富士通株式会社 基于命名实体识别的Web服务整合装置、方法以及设备
CN103377186A (zh) * 2012-04-26 2013-10-30 富士通株式会社 基于命名实体识别的Web服务整合装置、方法以及设备
CN103853710A (zh) * 2013-11-21 2014-06-11 北京理工大学 一种基于协同训练的双语命名实体识别方法
CN104199840B (zh) * 2014-08-05 2018-03-06 杭州安恒信息技术有限公司 基于统计模型的智能地名识别技术
CN104199840A (zh) * 2014-08-05 2014-12-10 杭州安恒信息技术有限公司 基于统计模型的智能地名识别技术
CN106156051B (zh) * 2015-03-27 2019-08-13 深圳市腾讯计算机系统有限公司 构建人名语料识别模型的方法及装置
CN106156051A (zh) * 2015-03-27 2016-11-23 深圳市腾讯计算机系统有限公司 构建人名语料识别模型的方法及装置
CN106708797B (zh) * 2015-07-15 2021-03-16 中兴通讯股份有限公司 一种文字处理方法和装置
CN106708797A (zh) * 2015-07-15 2017-05-24 中兴通讯股份有限公司 一种文字处理方法和装置
CN106355628A (zh) * 2015-07-16 2017-01-25 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN106355628B (zh) * 2015-07-16 2019-07-05 中国石油化工股份有限公司 图文知识点标注方法和装置、图文标注的修正方法和系统
CN107168952A (zh) * 2017-05-15 2017-09-15 北京百度网讯科技有限公司 基于人工智能的信息生成方法和装置
CN107391485A (zh) * 2017-07-18 2017-11-24 中译语通科技(北京)有限公司 基于最大熵和神经网络模型的韩语命名实体识别方法
CN109992766B (zh) * 2017-12-29 2024-02-06 北京京东尚科信息技术有限公司 提取目标词的方法和装置
CN109992766A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 提取目标词的方法和装置
CN109492217A (zh) * 2018-10-11 2019-03-19 平安科技(深圳)有限公司 一种基于机器学习的分词方法及终端设备
CN109670181A (zh) * 2018-12-21 2019-04-23 东软集团股份有限公司 一种命名实体识别方法及装置
CN110134959A (zh) * 2019-05-15 2019-08-16 第四范式(北京)技术有限公司 命名实体识别模型训练方法及设备、信息抽取方法及设备
CN110134959B (zh) * 2019-05-15 2023-10-20 第四范式(北京)技术有限公司 命名实体识别模型训练方法及设备、信息抽取方法及设备
CN112257965A (zh) * 2020-11-26 2021-01-22 深源恒际科技有限公司 图像文本识别置信度的预测方法和预测系统
CN112735465A (zh) * 2020-12-24 2021-04-30 广州方硅信息技术有限公司 无效信息确定方法、装置、计算机设备及存储介质
CN112735465B (zh) * 2020-12-24 2023-02-24 广州方硅信息技术有限公司 无效信息确定方法、装置、计算机设备及存储介质
CN113298253A (zh) * 2021-06-03 2021-08-24 清华大学 用于命名实体识别的模型训练方法、识别方法及装置
CN113298253B (zh) * 2021-06-03 2021-12-14 清华大学 用于命名实体识别的模型训练方法、识别方法及装置

Also Published As

Publication number Publication date
CN101295292B (zh) 2016-07-20

Similar Documents

Publication Publication Date Title
CN101295292B (zh) 一种基于最大熵模型建模和命名实体识别的方法及装置
Elspaß The use of private letters and diaries in sociolinguistic investigation
Brooke et al. Native language detection with ‘cheap’learner corpora
CN102207948B (zh) 一种事件陈述句素材库的生成方法
CN106503049A (zh) 一种基于svm融合多种情感资源的微博情感分类方法
CN104572625A (zh) 命名实体的识别方法
CN104408078A (zh) 一种基于关键词的中英双语平行语料库构建方法
Gupta et al. Automatic text summarization system for Punjabi language
Rahmawati et al. THEMATIC PROGRESSION ANALYSIS IN INDONESIAN EFL STUDENTS’THESIS ABSTRACTS
CN116108204A (zh) 基于知识图谱融合多维嵌套泛化模式的作文评语生成方法
Ngu et al. Ethnic minority language culture, places with original tay language elements and names inconsistence in Tuyen Quang provinces
Wiedemann et al. From frequency counts to contextualized word embeddings: The saussurean turn in automatic content analysis
Shatz How native language and L2 proficiency affect EFL learners’ capitalisation abilities: A large-scale corpus study
CN102163189A (zh) 从评论性文本中提取评价性信息的方法和装置
Majumder et al. Multiword expressions (mwe) for Mizo language: Literature survey
CN109086285A (zh) 基于语素的汉语智能处理方法和系统及装置
Iyengar A diachronic analysis of Sindhi multiscriptality
Davis World Englishes in world religions
CN100371987C (zh) 使汉字自动发音的方法及使手机朗读短消息的方法
Falahati Qadimi Fumani et al. Inconsistent transliteration of Iranian university names: a hazard to Iran’s ranking in ISI Web of Science
Aichaoui et al. Automatic Building of a Large Arabic Spelling Error Corpus
Brooks Latin and Old English in Ninth-Century Canterbury
Luong et al. Assessing the readability of literary texts in Vietnamese textbooks
El Bazi et al. Is Stemming Beneficial for Learning Better Arabic Word Representations?
Anderwald The progressive as a symbol of national superiority in nineteenth-century British grammars

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220913

Address after: 3007, Hengqin international financial center building, No. 58, Huajin street, Hengqin new area, Zhuhai, Guangdong 519031

Patentee after: New founder holdings development Co.,Ltd.

Patentee after: Peking University

Patentee after: PEKING University FOUNDER R & D CENTER

Address before: 100871, Haidian District Fangzheng Road, Beijing, Zhongguancun Fangzheng building, 298, 513

Patentee before: PEKING UNIVERSITY FOUNDER GROUP Co.,Ltd.

Patentee before: Peking University

Patentee before: PEKING University FOUNDER R & D CENTER

CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160720