CN108959242A - 一种基于中文字符词性特征的目标实体识别方法及装置 - Google Patents

一种基于中文字符词性特征的目标实体识别方法及装置 Download PDF

Info

Publication number
CN108959242A
CN108959242A CN201810431801.1A CN201810431801A CN108959242A CN 108959242 A CN108959242 A CN 108959242A CN 201810431801 A CN201810431801 A CN 201810431801A CN 108959242 A CN108959242 A CN 108959242A
Authority
CN
China
Prior art keywords
character
speech
sequence
target entity
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810431801.1A
Other languages
English (en)
Other versions
CN108959242B (zh
Inventor
李全刚
柳厅文
李彦增
王学宾
亚静
李柢颖
时金桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201810431801.1A priority Critical patent/CN108959242B/zh
Publication of CN108959242A publication Critical patent/CN108959242A/zh
Application granted granted Critical
Publication of CN108959242B publication Critical patent/CN108959242B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于中文字符词性特征的目标实体识别方法及装置。该方法包括:1)在训练文本中标记目标实体并进行分词及词性标注;2)将训练文本拆分为字符,得到字符序列,每个字符保留拆分之前的词性;3)将字符的词性与字符在分词中的位置进行拼接作为字符词性,得到字符词性序列;4)将对目标实体的标记映射至目标实体中的各个字符上,得到字符标注序列;5)将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练;6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型,得到目标实体识别结果。本发明能够根据需求在中文文本中准确有效地对所需特定目标实体进行识别与提取。

Description

一种基于中文字符词性特征的目标实体识别方法及装置
技术领域
本发明属于自然语言处理领域,具体涉及一种基于中文字符词性特征的目标实体识别方法及装置,可使用中文文本中字符的词性特征经由神经网络模型自动提取文本中的目标实体。
背景技术
文本中经常含有多个类型的多个实体,本发明中提及的目标实体专指文本中用户所关注的某特定实体,例如:“北京动物园位于西城区,园中有大熊猫等500余种动物。”在这句话中,包含“北京动物园”、“西城区”、“大熊猫”三个不同类型实体,而“北京动物园”为整个点评的主要实体,因此将“北京动物园”认定为此文本中的目标实体。
在信息爆炸的今天,互联网中每分钟都会产生海量的文本数据;随着移动终端在中国的普及,网络社交呈现出碎片化的趋势。用户在使用互联网的过程中,会不断产生大量的碎片信息,如:微博、影评、食评、购物评价、游记等。通过对这些文本进行分析,服务商就能更加了解用户,从而提供更好的用户体验。
要对海量的文本进行分析,首要任务就是根据需求对每个文本的特定目标实体进行识别。传统的目标实体识别方法有以下两种,一种是基于特定规则匹配的方法,另一种是基于统计机器学习的方法。
基于特定规则匹配的方法以规则模板和字符串匹配为主要手段,虽然准确率高,但往往依赖于具体语言和文本风格,仅适用于规律显著的文本内容,规则制定过程耗时大,规则模板的可移植性差。而互联网信息所含的文本种类丰富、语言碎片化,并且目标实体的类型不固定,这些特点也使得特定规则很难在互联网中文文本中准确识别出需要的目标实体。
基于统计机器学习的方法主要包括:隐马尔可夫模型(Hidden Markov Mode,HMM)、最大熵模型(Maxmium Entropy,ME)、支持向量机(Support Vector Machine,SVM)、条件随机场(Conditional Random Fields,CRF)等。基于统计的方法对特征选取的要求较高,需要从文本中选择能有效反映目标实体特性的特征,而这些特征的选取非常依赖人工经验。
发明内容
本发明的目的在于提供一种基于中文字符词性特征的目标实体识别方法及装置,能根据需求在中文文本中准确有效地对所需特定目标实体进行识别与提取。
本发明采用的技术方案如下:
一种基于中文字符词性特征的目标实体识别方法,包括以下步骤:
1)在训练文本中标记目标实体,并对训练文本进行分词及词性标注;
2)将训练文本拆分为字符,各个字符构成字符序列,每个字符保留拆分之前的词性;
3)标注每个字符在分词中的位置,将字符的词性与字符在分词中的位置进行拼接作为字符词性,各个字符的字符词性构成字符词性序列;
4)将步骤1)对目标实体的标记映射至目标实体中的各个字符上,得到字符标注序列;
5)将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练;
6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型,得到待识别文本的字符标注序列,通过将字符标注序列拼接并还原得到目标实体识别结果。
进一步地,所述字符序列、所述字符词性序列、所述字符标注序列为三个相互对齐的特征序列。
进一步地,步骤3)所述标注每个字符在分词中的位置,是将第一个字符标记为B,中间字符标记为M,最后一个字符标记为E,单独作为一个词的字符标记为S。
进一步地,步骤4)将不在目标实体内的字符用O或其它记号标记为空值。
进一步地,步骤5)所述机器学习模型为BiLSTM+CRF模型,其中BiLSTM层接收字符序列、字符词性序列两个输入序列。
进一步地,步骤5)包括:
5.1)将字符序列、字符词性序列、字符标注序列通过词典的方式进行编号,得到用于训练模型的特征向量与目标向量;
5.2)将大量的特征向量与目标向量传入BiLSTM+CRF模型中,通过参数调优得到所需的机器学习模型,该机器学习模型以字符向量、字符词性向量作为输入值,输出字符标注向量。
一种采用上面所述方法的基于中文字符词性特征的目标实体识别装置,其包括:
模型训练模块,负责根据训练文本得到字符序列、字符词性序列和字符标注序列,将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练;
目标实体识别模块,负责将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型,得到待识别文本的字符标注序列,通过将字符标注序列拼接并还原得到目标实体识别结果。
进一步地,所述模型训练模块包括:
目标实体标记子模块,负责在训练文本中标记目标实体;
分词及词性标注子模块,负责对训练文本进行分词及词性标注;
字符拆分子模块,负责将训练文本拆分为字符,各个字符构成字符序列,每个字符保留拆分之前的词性;
字符词性序列构建子模块,负责标注每个字符在分词中的位置,将字符的词性与字符在分词中的位置进行拼接作为字符词性,各个字符的字符词性构成字符词性序列;
字符标注序列构建子模块,负责将对目标实体的标记映射至目标实体中的各个字符上,得到字符标注序列;
模型训练子模块,负责将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练。
进一步地,所述字符词性序列构建子模块标注每个字符在分词中的位置时,将第一个字符标记为B,中间字符标记为M,最后一个字符标记为E,单独作为一个词的字符标记为S;所述字符标注序列构建子模块将不在目标实体内的字符用O或其它记号标记为空值。
进一步地,所述机器学习模型为BiLSTM+CRF模型,其中BiLSTM层接收字符序列、字符词性序列两个输入序列。
利用本发明提供的方法与设施识别并提取中文文本的目标实体,具有以下优点:
1、本发明利用字符及字符词性,通过变体BiLSTM+CRF模型,能准确识别并提取目标实体,避免了特定规则匹配与人工选择特征的缺点;
2、本发明应用的是字符级别的特征,减少了分词工具不准确分词导致词级别特征不准确的问题;
3、本发明对BiLSTM+CRF模型进行了改进,使其对特征向量的组合更加灵活,在不增加神经网络层的情况下能充分利用字符级别相互对齐的序列特征。
附图说明
图1是本发明使用语料构建并并训练模型的主要流程图。
图2是本发明采用的变体BiLSTM+CRF模型示意图,其中I/O/B/E/S表示目标实体映射至字符得到的字符标注序列。
图3是本发明使用已有模型(预训练模型)的主要流程图。
具体实施方式
下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明的基于中文文本字符词性特征的目标实体识别方法,能根据不同需求在中文文本中有效地将所需的目标实体提取出来。该方法包括两个步骤:第一步是使用已经标注的文本数据集来训练模型;第二步是使用第一步训练得到的模型来识别新文本中的目标实体。第一步与第二步不需要连续进行,可单独进行第一步得到预训练模型之后,再在别的场景直接进行第二步识别。
第一步训练模型的主要步骤流程如图1所示,包括:
1)准备训练文本,标记好目标实体。
2)使用分词工具对文本进行分词及词性标注。
3)将文本按照顺序拆分成为单个字符,各个字符构成“字符序列”。每个字符都保留拆分之前的词性;将每个字符在分词中处于的位置进行标注。例如词组的第一个字符标记为B(begin),中间字符标记为M(middle),最后一个字符标记为E(end),单独作为一个词的字符标记为S(single)。将字符保留的词性与上述的位置标记进行拼接,得到的特征称为“字符词性”,各个字符的字符词性构成“字符词性序列”。
4)对字符进行结果标注:将目标实体的标注映射至实体中的各个字符上,作为结果标注,各个字符的结果标注构成“字符标注序列”;不在目标实体内的字符则用O或其它记号标记为空值。
5)构建BiLSTM+CRF模型,接受两个序列输入,一个序列输出;在BiLSTM(双向长短期记忆网络)模型中,将两个输入序列向量拼接(concat)成为然后再传入传统的双向LSTM模型。BiLSTM+CRF变体模型的结构可参考图2。
6)将顺序的字符序列与顺序的字符词性序列作为特征,将字符标注序列作为训练目标值,分别进行词嵌入(Embedding)后输入5)中的机器学习模型中进行训练。所述词嵌入是一种自然语言处理中常用的方法,作用是将原数据(此处为单词)映射至向量空间进行向量化处理,向量化后方便机器学习模型进行处理。
7)根据准确率、召回率等指标调整学习率、训练批次、批次大小等参数,得到所需模型。
得到预训练模型后,可进行第二步进行目标实体的识别。使用模型的主要步骤流程如图3所示,包括:
1)使用分词工具对文本进行分词及词性标注;
2)将文本顺序拆分成为单个字符,并按照前文的定义构建“字符词性”;
3)将顺序的字符序列与对应的字符词性序列传入模型中进行预测,得到目标文本的字符标注序列;
4)通过将字符标注序列拼接并还原,得到所需的目标实体。
本发明的技术关键点在于:
1)定义了一种目标实体识别方法及装置,能根据需求在中文文本中准确有效地对所需特定目标实体进行识别与提取;
2)使用了字符作为模型特征,而没有直接使用词组作为特征;
3)定义了字符词性,即每个词组的词性都映射到词组中各个字符上、每个字符都根据其在词组中的位置进行标注(第一位:B、中间位:M、末位:E、单独字符:S),将词组词性与字符位置标注合并即可得到“字符词性”。
4)在训练时对目标实体进行了特别标注,并将实体的特别标注映射到了实体中的各个字符上作为结果标注。不在目标实体内的字符则使用O等记号标记为空值;
5)字符序列、字符词性序列、字符标注序列为相互对齐的序列数据;
6)使用了BiLSTM+CRF模型,并对BiLSTM层进行了改进,使其接收多个输入序列;
7)在使用模型时,对待分析文本同样进行词性标注,得到字符序列与字符词性序列,输入模型后得到目标实体。
本发明可以应用于任意类型的目标实体。下面提供一应用实例,该实例以旅游点评为例,希望在大量旅游点评中找到点评的主体实体,了解用户点评的主体景点并方便归类与分析。
在旅游点评中,用户的描述经常不止涉及一个实体,例如:“广州博物馆下属有三元里人民抗英斗争纪念馆和黄花岗起义指挥部旧址纪念馆两个分馆。”在这句话中,包含“广州博物馆”、“三元里人民抗英斗争纪念馆”、“黄花岗起义指挥部旧址纪念馆”三个旅游景点类型实体,而“广州博物馆”为整个点评的主要景点,因此将“广州博物馆”认定为此文本中的目标实体。
同时,观察分词结果,可以发现本句中的三个实体均被分成了多个部分,这也意味着本方法采用的字符级特征在目标实体识别上比词特征会更具优越性。
为了简洁,下面使用短句“春天的青山沟”为例说明本方法及装置的运行过程。
1)构建模型训练所需要的数据:
i)对中文文本进行分词与词性标注,结果如表1所示:
表1.分词与词性标注结果
其中,词性的t为时间词,u为助词,n为名词。
ii)将文本分割为字符,并将原有的词性标注映射至所含字符上;最后将目标实体——“青山沟”标记出来,结果如表2所示:
表2.步骤ii)得到的结果
其中,目标实体“青山沟”的“青”字为目标实体起点,故标记为B(begin);“山”字为目标实体中间字,故标记为M(middle);“沟”为目标实体结尾,故标记为E(end);其余字符与目标实体无关,故标记为O。
至此,得到了字符序列、字符词性序列、字符标注序列三个相互对齐的特征序列。
2)将以上得到的特征序列通过词典的方式进行编号,得到用于训练模型的特征向量与目标向量,如表3所示:
表3.特征向量与目标向量
3)将其余文本同样进行如上处理,得到大量的特征向量与目标向量,将这些向量传入如例图2所示的变体BiLSTM+CRF模型中。
4)通过上述操作,进行参数调优后,得到了所需的机器学习模型。此模型以字符向量、字符词性向量作为输入值,输出字符标注向量(如00123)。
有了预训练模型之后,即可对模型进行评估与应用。在应用模型时,也需要对文本进行上述1)2)3)步骤操作,但无需对目标实体进行标注。得到字符向量与字符词性向量之后,将两者输入预训练模型中,模型将输出字符标注向量(如00123),由词典可将标注向量还原为字符标注序列(如00123被还原为OOBME),由此可知第三四五个字符序列构成了目标实体,进行拼接即可得到所需的文本目标实体。
在对41253条旅游点评进行标注作为训练,对另外17681条旅游点评进行测试实验,并与普遍使用的基于字符的BiLSTM+CRF模型进行对比,得到了如表4所示的结果。
表4.本发明与传统方法的实验结果对比
方法 准确率 召回率 F1
传统方法 78.934% 82.901% 80.869%
本发明方法 83.416% 82.337% 82.873%
上述实验结果表明了本发明的方法是高效、优秀的,与现在普遍使用的模型相比,能够更好地识别与提取目标实体。
本发明另一实施例提供一种采用上面所述方法的基于中文字符词性特征的目标实体识别装置,其包括:
模型训练模块,负责根据训练文本得到字符序列、字符词性序列和字符标注序列,将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练;
目标实体识别模块,负责将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型,得到待识别文本的字符标注序列,通过将字符标注序列拼接并还原得到目标实体识别结果。
所述模型训练模块包括:
目标实体标记子模块,负责在训练文本中标记目标实体;
分词及词性标注子模块,负责对训练文本进行分词及词性标注;
字符拆分子模块,负责将训练文本拆分为字符,各个字符构成字符序列,每个字符保留拆分之前的词性;
字符词性序列构建子模块,负责标注每个字符在分词中的位置,将字符的词性与字符在分词中的位置进行拼接作为字符词性,各个字符的字符词性构成字符词性序列;
字符标注序列构建子模块,负责将对目标实体的标记映射至目标实体中的各个字符上,得到字符标注序列;
模型训练子模块,负责将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (10)

1.一种基于中文字符词性特征的目标实体识别方法,其特征在于,包括以下步骤:
1)在训练文本中标记目标实体,并对训练文本进行分词及词性标注;
2)将训练文本拆分为字符,各个字符构成字符序列,每个字符保留拆分之前的词性;
3)标注每个字符在分词中的位置,将字符的词性与字符在分词中的位置进行拼接作为字符词性,各个字符的字符词性构成字符词性序列;
4)将步骤1)对目标实体的标记映射至目标实体中的各个字符上,得到字符标注序列;
5)将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练;
6)将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型,得到待识别文本的字符标注序列,通过将字符标注序列拼接并还原得到目标实体识别结果。
2.根据权利要求1所述的方法,其特征在于,所述字符序列、所述字符词性序列、所述字符标注序列为三个相互对齐的特征序列。
3.根据权利要求1所述的方法,其特征在于,步骤3)所述标注每个字符在分词中的位置,是将第一个字符标记为B,中间字符标记为M,最后一个字符标记为E,单独作为一个词的字符标记为S。
4.根据权利要求1所述的方法,其特征在于,步骤4)将不在目标实体内的字符用O或其它记号标记为空值。
5.根据权利要求1所述的方法,其特征在于,步骤5)所述机器学习模型为BiLSTM+CRF模型,其中BiLSTM层接收字符序列、字符词性序列两个输入序列。
6.根据权利要求5所述的方法,其特征在于,步骤5)包括:
5.1)将字符序列、字符词性序列、字符标注序列通过词典的方式进行编号,得到用于训练模型的特征向量与目标向量;
5.2)将大量的特征向量与目标向量传入BiLSTM+CRF模型中,通过参数调优得到所需的机器学习模型,该机器学习模型以字符向量、字符词性向量作为输入值,输出字符标注向量。
7.一种采用权利要求1所述方法的基于中文字符词性特征的目标实体识别装置,其特征在于,包括以下步骤:
模型训练模块,负责根据训练文本得到字符序列、字符词性序列和字符标注序列,将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练;
目标实体识别模块,负责将待识别文本的字符序列与字符词性序列输入训练好的机器学习模型,得到待识别文本的字符标注序列,通过将字符标注序列拼接并还原得到目标实体识别结果。
8.根据权利要求7所述的装置,其特征在于,所述模型训练模块包括:
目标实体标记子模块,负责在训练文本中标记目标实体;
分词及词性标注子模块,负责对训练文本进行分词及词性标注;
字符拆分子模块,负责将训练文本拆分为字符,各个字符构成字符序列,每个字符保留拆分之前的词性;
字符词性序列构建子模块,负责标注每个字符在分词中的位置,将字符的词性与字符在分词中的位置进行拼接作为字符词性,各个字符的字符词性构成字符词性序列;
字符标注序列构建子模块,负责将对目标实体的标记映射至目标实体中的各个字符上,得到字符标注序列;
模型训练子模块,负责将字符序列与字符词性序列作为特征,将字符标注序列作为训练目标值,输入机器学习模型中进行训练。
9.根据权利要求8所述的装置,其特征在于,所述字符词性序列构建子模块标注每个字符在分词中的位置时,将第一个字符标记为B,中间字符标记为M,最后一个字符标记为E,单独作为一个词的字符标记为S;所述字符标注序列构建子模块将不在目标实体内的字符用O或其它记号标记为空值。
10.根据权利要求8所述的装置,其特征在于,所述机器学习模型为BiLSTM+CRF模型,其中BiLSTM层接收字符序列、字符词性序列两个输入序列。
CN201810431801.1A 2018-05-08 2018-05-08 一种基于中文字符词性特征的目标实体识别方法及装置 Active CN108959242B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810431801.1A CN108959242B (zh) 2018-05-08 2018-05-08 一种基于中文字符词性特征的目标实体识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810431801.1A CN108959242B (zh) 2018-05-08 2018-05-08 一种基于中文字符词性特征的目标实体识别方法及装置

Publications (2)

Publication Number Publication Date
CN108959242A true CN108959242A (zh) 2018-12-07
CN108959242B CN108959242B (zh) 2021-07-27

Family

ID=64499733

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810431801.1A Active CN108959242B (zh) 2018-05-08 2018-05-08 一种基于中文字符词性特征的目标实体识别方法及装置

Country Status (1)

Country Link
CN (1) CN108959242B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684645A (zh) * 2018-12-29 2019-04-26 北京泰迪熊移动科技有限公司 中文分词方法及装置
CN110096713A (zh) * 2019-03-21 2019-08-06 昆明理工大学 一种基于SVM-BiLSTM-CRF的老挝语机构名称识别方法
CN110163772A (zh) * 2019-04-19 2019-08-23 杭州电子科技大学 一种基于BiLSTM-CRF的旅游行程路线生成方法
CN110263123A (zh) * 2019-06-05 2019-09-20 腾讯科技(深圳)有限公司 机构名简称的预测方法、装置和计算机设备
CN110297913A (zh) * 2019-06-12 2019-10-01 中电科大数据研究院有限公司 一种电子公文实体抽取方法
CN110457436A (zh) * 2019-07-30 2019-11-15 腾讯科技(深圳)有限公司 信息标注方法、装置、计算机可读存储介质及电子设备
CN110598205A (zh) * 2019-08-12 2019-12-20 大箴(杭州)科技有限公司 一种截断文本的拼接方法、装置及计算机存储介质
CN111160026A (zh) * 2019-12-18 2020-05-15 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置
CN111357015A (zh) * 2019-12-31 2020-06-30 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备和计算机可读存储介质
CN111444723A (zh) * 2020-03-06 2020-07-24 深圳追一科技有限公司 信息抽取模型训练方法、装置、计算机设备和存储介质
CN111460821A (zh) * 2020-03-13 2020-07-28 云知声智能科技股份有限公司 一种实体识别与链接方法及装置
CN111695350A (zh) * 2019-03-14 2020-09-22 北京嘀嘀无限科技发展有限公司 一种文本的分词方法及分词装置
CN112749561A (zh) * 2020-04-17 2021-05-04 腾讯科技(深圳)有限公司 一种实体识别方法及设备
CN113496118A (zh) * 2020-04-07 2021-10-12 北京中科闻歌科技股份有限公司 一种新闻主体识别方法、设备和计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473221A (zh) * 2013-09-16 2013-12-25 于江德 汉语词法分析方法
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
CN106776555A (zh) * 2016-12-09 2017-05-31 中国科学院信息工程研究所 一种基于字模型的评论文本实体识别方法及装置
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107622050A (zh) * 2017-09-14 2018-01-23 武汉烽火普天信息技术有限公司 基于Bi‑LSTM和CRF的文本序列标注系统及方法
US20180121788A1 (en) * 2016-11-03 2018-05-03 Salesforce.Com, Inc. Deep Neural Network Model for Processing Data Through Mutliple Linguistic Task Hiearchies

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103473221A (zh) * 2013-09-16 2013-12-25 于江德 汉语词法分析方法
CN103488724A (zh) * 2013-09-16 2014-01-01 复旦大学 一种面向图书的阅读领域知识图谱构建方法
US20180121788A1 (en) * 2016-11-03 2018-05-03 Salesforce.Com, Inc. Deep Neural Network Model for Processing Data Through Mutliple Linguistic Task Hiearchies
CN106776555A (zh) * 2016-12-09 2017-05-31 中国科学院信息工程研究所 一种基于字模型的评论文本实体识别方法及装置
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法
CN107622050A (zh) * 2017-09-14 2018-01-23 武汉烽火普天信息技术有限公司 基于Bi‑LSTM和CRF的文本序列标注系统及方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SOUFIAN JEBBARA,PHILIPP CIMIANO: ""Improving Opinion-Target Extraction with Character-Level Word Embeddings"", 《WWW.ARXIV.ORG》 *
王峰: ""基于CRF的中文命名实体识别方法研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
邱莎等: ""基于含边界词性特征的中文命名实体识别"", 《计算机工程》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109684645A (zh) * 2018-12-29 2019-04-26 北京泰迪熊移动科技有限公司 中文分词方法及装置
CN111695350A (zh) * 2019-03-14 2020-09-22 北京嘀嘀无限科技发展有限公司 一种文本的分词方法及分词装置
CN111695350B (zh) * 2019-03-14 2023-12-08 北京嘀嘀无限科技发展有限公司 一种文本的分词方法及分词装置
CN110096713A (zh) * 2019-03-21 2019-08-06 昆明理工大学 一种基于SVM-BiLSTM-CRF的老挝语机构名称识别方法
CN110163772A (zh) * 2019-04-19 2019-08-23 杭州电子科技大学 一种基于BiLSTM-CRF的旅游行程路线生成方法
CN110263123A (zh) * 2019-06-05 2019-09-20 腾讯科技(深圳)有限公司 机构名简称的预测方法、装置和计算机设备
CN110263123B (zh) * 2019-06-05 2023-10-31 腾讯科技(深圳)有限公司 机构名简称的预测方法、装置和计算机设备
CN110297913A (zh) * 2019-06-12 2019-10-01 中电科大数据研究院有限公司 一种电子公文实体抽取方法
CN110457436B (zh) * 2019-07-30 2022-12-27 腾讯科技(深圳)有限公司 信息标注方法、装置、计算机可读存储介质及电子设备
CN110457436A (zh) * 2019-07-30 2019-11-15 腾讯科技(深圳)有限公司 信息标注方法、装置、计算机可读存储介质及电子设备
CN110598205A (zh) * 2019-08-12 2019-12-20 大箴(杭州)科技有限公司 一种截断文本的拼接方法、装置及计算机存储介质
CN111160026B (zh) * 2019-12-18 2023-09-26 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置
CN111160026A (zh) * 2019-12-18 2020-05-15 北京明略软件系统有限公司 一种模型训练方法、装置、实现文本处理的方法及装置
WO2021134416A1 (zh) * 2019-12-31 2021-07-08 深圳市优必选科技股份有限公司 文本转换方法、装置、计算机设备和计算机可读存储介质
CN111357015B (zh) * 2019-12-31 2023-05-02 深圳市优必选科技股份有限公司 文本转换方法、装置、计算机设备和计算机可读存储介质
CN111357015A (zh) * 2019-12-31 2020-06-30 深圳市优必选科技股份有限公司 语音合成方法、装置、计算机设备和计算机可读存储介质
CN111444723A (zh) * 2020-03-06 2020-07-24 深圳追一科技有限公司 信息抽取模型训练方法、装置、计算机设备和存储介质
CN111460821B (zh) * 2020-03-13 2023-08-29 云知声智能科技股份有限公司 一种实体识别与链接方法及装置
CN111460821A (zh) * 2020-03-13 2020-07-28 云知声智能科技股份有限公司 一种实体识别与链接方法及装置
CN113496118A (zh) * 2020-04-07 2021-10-12 北京中科闻歌科技股份有限公司 一种新闻主体识别方法、设备和计算机可读存储介质
CN113496118B (zh) * 2020-04-07 2024-05-31 北京中科闻歌科技股份有限公司 一种新闻主体识别方法、设备和计算机可读存储介质
CN112749561A (zh) * 2020-04-17 2021-05-04 腾讯科技(深圳)有限公司 一种实体识别方法及设备
CN112749561B (zh) * 2020-04-17 2023-11-03 腾讯科技(深圳)有限公司 一种实体识别方法及设备

Also Published As

Publication number Publication date
CN108959242B (zh) 2021-07-27

Similar Documents

Publication Publication Date Title
CN108959242A (zh) 一种基于中文字符词性特征的目标实体识别方法及装置
US11151177B2 (en) Search method and apparatus based on artificial intelligence
CN105869642B (zh) 一种语音文本的纠错方法及装置
CN109388795B (zh) 一种命名实体识别方法、语言识别方法及系统
US8577882B2 (en) Method and system for searching multilingual documents
US10061768B2 (en) Method and apparatus for improving a bilingual corpus, machine translation method and apparatus
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN104462085B (zh) 检索关键词纠错方法及装置
CN105718586A (zh) 分词的方法及装置
CN105224640A (zh) 一种提取观点的方法和设备
Ahmad et al. Select, extract and generate: Neural keyphrase generation with layer-wise coverage attention
CN111459977B (zh) 自然语言查询的转换
CN104008092A (zh) 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统
CN103823857A (zh) 基于自然语言处理的空间信息检索方法
Jabbar et al. An improved Urdu stemming algorithm for text mining based on multi-step hybrid approach
Zhang et al. Rule-based extraction of spatial relations in natural language text
CN101464856A (zh) 平行口语语料的对齐方法和装置
CN112417823B (zh) 一种中文文本语序调整和量词补全方法及系统
CN104391969A (zh) 确定用户查询语句句法结构的方法及装置
CN108255818B (zh) 利用分割技术的复合式机器翻译方法
CN110210033A (zh) 基于主述位理论的汉语基本篇章单元识别方法
Qu English-Chinese name transliteration by latent analogy
Sarkar et al. Bengali noun phrase chunking based on conditional random fields
Dasgupta et al. A joint source channel model for the English to Bengali back transliteration
CN110941955A (zh) 跨语言事件分类方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant