CN106933795A - 一种论述型文章的论述主体的自动提取方法 - Google Patents

一种论述型文章的论述主体的自动提取方法 Download PDF

Info

Publication number
CN106933795A
CN106933795A CN201511012036.2A CN201511012036A CN106933795A CN 106933795 A CN106933795 A CN 106933795A CN 201511012036 A CN201511012036 A CN 201511012036A CN 106933795 A CN106933795 A CN 106933795A
Authority
CN
China
Prior art keywords
character
sentence
word
training
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511012036.2A
Other languages
English (en)
Inventor
贺惠新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201511012036.2A priority Critical patent/CN106933795A/zh
Publication of CN106933795A publication Critical patent/CN106933795A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种论述型文章的论述主体的自动提取方法,属于自然语言处理的技术应用领域。本发明基于统计条件随机场的序列标注策略,通过分析论文标题中论述主体的语义特点和位置特征,结合训练语料的特性建立常用词语词典和重要词语词典,同时利用词典和词语、位置等信息对论文标题进行序列特征标注,运用标注的语料训练生成模型,可对未知数据进行预测,具有较高的准确率,可有效提高算法的在不同场景下的适用性。本发明有效实现了计算机自动在论述型文章中提取出论述主体,将文章的主要展示目标以直观的形式展现出来,有助于阅读人员快速掌握这一对象的相关信息,方便的检索和对比相关内容,而自动提取后的短语也可供给计算机做后续的各种分析。

Description

一种论述型文章的论述主体的自动提取方法
技术领域
本发明涉及一种论述型文章的论述主体的自动提取方法,属于自然语言处理的计算机技术应用领域。
背景技术
论述型文章是作者针对某个论述主体,通过撰写表达各种研究、分析的过程和结论的书面表现形式。其中论述主体作为论述型文章的核心对象,包括客观事物、理论、事件、过程、关系等属性实例,能高效清晰定位出对应文章的关注面。论述主体的提取和展现能够将文章的主要展示目标以直观的形式展现出来,有助于阅读人员快速掌握这一对象的相关信息,方便的检索和对比相关内容。
但在当前的论述型文章中,由于不存在论述主体的强制规范表述,写作人员对论述主体的表现形式各异,而文章发布人员出于曝光量和吸引关注度的目的,又常刻意隐藏实际的论述主体(如标题党,刻意扭曲或放大不相关的信息),更多的展现文章的普遍性,从而增加了读者阅读精确的难度。
自动从论述型文章中提取出论述主体,已有的处理方法有很多,其中有基于规则的方法,此方法取得了一定的效果,但由于自然语言句式的多样性,导致该方法并不能覆盖论述主体提取中的所有规则,且不能实时更新,灵活性差。
本发明基于统计条件随机场的序列标注策略,通过分析论文标题中论述主体的语义特点和位置特征,结合训练语料的特性建立常用词语词典和重要词语词典,同时利用词典和词语、位置等信息对论文标题进行序列特征标注,运用标注的语料训练生成模型,可对未知数据进行预测,具有较高的准确率,可有效提高算法的在不同场景下的适用性。
发明内容
本发明是为了解决计算机在自然语言处理中难以直接提取论述型文章的论述主体的难题,提供了一种高效自动的抽取模型的训练和应用方法。
本发明设计的方法由训练模型和应用模型两个阶段组成, 它包括以下步骤:
训练阶段
训练步骤一:获取模型训练阶段的依赖资源:获取已做好标记(训练语料的语句中的字符有确定的是否被标注为研究主体的标识)的NS个句子的集合S={S(i)}为训练语料,各句子记为S(i),其中1≤i≤NS,要求NS≥10000;获取人工总结的重要词汇词典Di;
训练步骤二:基于训练语句生成常用词词典Dc;具体实现步骤为:
训练步骤二一:在每个训练语句的句子中,以此句中的所有论述主体的字符串的起始和截止序位,对此句子进行分割后,形成多个子字符串,并去除每个语句样本的论述主体对应的字符串,取剩下的所有字符串,记为Se;
训练步骤二二:对Se中所有的字符串做分词处理,并在分词后形成的每个词语中过滤掉所有数字,取剩下的所有词语,记为We;
训练步骤二三:归并We的词语,去除重复的词,剩下的词即组成的常用词词典Dz;
训练步骤三:对训练语句S的所有字符进行特征化表示,得到每个字符特征表示结果,记为标题S(i)的第j个字,其中1≤j≤标题S(i)总字符数,k为每个字的特征,每个字有11个特征,0≤k≤10;
对标题中每个字符s(i,j),即标题s(i)中第j个字符,对应的特征化结果表示为如下106个特征:
则由多个字组成的整个标题s(i)的特征表示为:
其中len(S)是标题S(i)的字符数,1≤j≤len(S), 为第0个字符的所有特征,为第1个字符的所有特征;具体实现步骤包括:
训练步骤三一:对语句中每个字符进行标记,即对各个句子S(i)中的每个序位上的字符,建立各字符相应的11个单独特征,分别表示为f0(i,j0),f0(i,j1), f0(i,j2), f0(i,j3),f0(i,j4), f0(i,j5), f0(i,j6), f0(i,j7), f0(i,j8), f0(i,j9), f0(i,j10);符号注释:其中fn(i,j)其中n为字j的相对位置,取值-2,-1,0,1,2等
(1)当前该字符f0(i,j0),也作为一个特征
(2)标记类型特征:
(3)标记常用字典中的词语:
(4)
(5)对语句i分词之后,标记字所在的词语位置:
(6)对语句i分词之后,标记字所在词语的词性:
(7)标记重要词典中的词语:
训练步骤三二:对单个字符的特征进行汇总,建立各序位的字符前后2个字符及当前字符的单独特征,共计55个特征,分别表示为
当前字符的前边第2个字符 及其所有特征f2(i,ji)(1<=i<=10),
当前字符的前边第1个字符 及其所有特征f-1(i,ji) (1<=i<=10),
当前字符 及其所有特征f0(i,ji) (1<=i<=10),
当前字符的后边第1个字符 及其所有特征f1(i,ji) (1<=i<=10),
当前字符的后边第2个字符 及其所有特征f2(i,ji) (1<=i<=10),
其中前后2个字的字符为:
训练步骤三三:对各个句子S(i)中的每个序位上的字符,建立各字符对应的unigram和bigram的特征,共7个特征,分别表示为:
其中为当前字符的前边第2个字符,为当前字符的前边第1个字符,为当前字符,为当前字符的后边第1个字符,为当前字符的后边第2个字符,为连接符;
训练步骤三四:对各个句子S(i)中的每个序位上的字符,建立字符所在语句i的最后4个字符的特征表示,共44个,分别表示为:
倒数第1个字符 及其所有特征 (1<=i<=10),
倒数第2个字符 及其所有特征 (1<=i<=10),
倒数第3个字符 及其所有特征 (1<=i<=10),
倒数第4个字符 及其所有特征 (1<=i<=10):
其中最后4个字的字符为:
训练步骤四:对训练语句的各个句子的字符,根据是否是讨论主体的判断标记,进行数字化表示,对应得到各句子S(i)的每个序位上的字符s(i,j)的新词标记表示结果g(s(i,j));
其中:为标题s(i)中第j个字符,为对应的类别标签结果;
训练步骤五:基于条件随机场模型,将训练语句中所有字符的特征化结果和对应的类别标签结果作为输入数据,进行训练,得到训练后的模型M。
应用阶段
应用步骤一:对要提取论述主体的长文,获取长文的文字内容G,模型M,重要词典Di,常用词典Dz;
应用步骤二:基于自动算法,提取GP的摘要语句,记摘要句总数为NGP,则各摘要句记为T(i),其中0<i<NGP ,R(i,j)为对应T(i)的第i个摘要句的第j个字符;
应用步骤三:对各个摘要句T(i)的各个字符R(i,j),提取对应的特征表示结果,对应的特征化结果表示为如下106个特征:
其中len(T(i))是标题T(i)的字符数,1≤j≤len(S),为第0个字符的所有特征,为第1个字符的所有特征,以此类推;其中单个字符各特征的提取的具体步骤为:
应用步骤三一:对T(i)中每个字符进行标记,即对各个句子T(i)中的每个序位上的字符,建立各字符相应的11个单独特征,分别表示为f0(i,j0),f0(i,j1), f0(i,j2), f0(i,j3),f0(i,j4), f0(i,j5), f0(i,j6), f0(i,j7), f0(i,j8), f0(i,j9), f0(i,j10);符号注释:其中fn(i,j)其中n为字j的相对位置,取值-2,-1,0,1,2等
(1)当前该字符f0(i,j0),也作为一个特征
(2)标记类型特征:
(3)标记常用字典中的词语:
(4)
(5)对T(i)分词之后,标记字所在的词语位置:
(6)对T(i)分词之后,标记字所在词语的词性:
(7)标记重要词典中的词语:
应用步骤三二:对单个字符的特征进行汇总,建立各序位的字符前后2个字符及当前字符的单独特征,共计55个特征,分别表示为
当前字符的前边第2个字符及其所有特征f2(i,ji)(1<=i<=10),
当前字符的前边第1个字符及其所有特征f-1(i,ji) (1<=i<=10),
当前字符及其所有特征f0(i,ji) (1<=i<=10),
当前字符的后边第1个字符及其所有特征f1(i,ji) (1<=i<=10),
当前字符的后边第2个字符及其所有特征f2(i,ji) (1<=i<=10),
其中前后2个字的字符为:
应用步骤三三:对各个句子T(i)中的每个序位上的字符,建立各字符对应的unigram和bigram的特征,共7个特征,分别表示为:
其中为当前字符的前边第2个字符,为当前字符的前边第1个字符,为当前字符,为当前字符的后边第1个字符,为当前字符的后边第2个字符,为连接符;
应用步骤三四:对各个句子T(i)中的每个序位上的字符,建立字符所在语句i的最后4个字符的特征表示,共44个,分别表示为:
倒数第1个字符及其所有特征 (1<=i<=10),
倒数第2个字符及其所有特征 (1<=i<=10),
倒数第3个字符及其所有特征 (1<=i<=10),
倒数第4个字符及其所有特征 (1<=i<=10):
其中最后4个字的字符为:
应用步骤四:将所有字符的特征化结果F(R(i,j))输入已训练好的模型M中,并由模型M进行分类评判,输出各字符对应的分类结果g(R(i,j));
应用步骤五:输出所有g(R(i,j))值为B或E的字符R(i,j)的序位,则在语句T(i)中,提取每个如下情况的字符串:以标为B的字符的作为起始序位,截止到往后的最近的以标为E的字符的作为终止序位,这些截取出的字符串即作为此长文的论述主体。
本发明的优点是:本发明基于统计条件随机场的序列标注策略,通过分析论文标题中论述主体的语义特点和位置特征,结合训练语料的特性建立常用词语词典和重要词语词典,同时利用词典和词语、位置等信息对论文标题进行序列特征标注,运用标注的语料训练生成模型,可对未知数据进行预测,具有较高的准确率,可有效提高算法的在不同场景下的适用性。
本发明有效实现了计算机自动在论述型文章中提取出论述主体,将文章的主要展示目标以直观的形式展现出来,有助于阅读人员快速掌握这一对象的相关信息,方便的检索和对比相关内容,而自动提取后的短语也可进一步供给计算机做后续的各种分析。
附图说明
图1为本发明的模型训练的方法的流程图,图2为应用的方法的流程图。
具体实施方式
下面结合附图图1和图2说明本实施方式。
本发明设计的方法由训练模型和应用模型两个阶段组成, 它包括以下步骤:
训练阶段
训练步骤一:获取模型训练阶段的依赖资源:获取已做好标记(训练语料的语句中的字符有确定的是否被标注为研究主体的标识)的NS个句子的集合S={S(i)}为训练语料,各句子记为S(i),其中1≤i≤NS,要求NS≥10000;获取人工总结的重要词汇词典Di;
训练步骤二:基于训练语句生成常用词词典Dc;具体实现步骤为:
训练步骤二一:在每个训练语句的句子中,以此句中的所有论述主体的字符串的起始和截止序位,对此句子进行分割后,形成多个子字符串,并去除每个语句样本的论述主体对应的字符串,取剩下的所有字符串,记为Se;
训练步骤二二:对Se中所有的字符串做分词处理,并在分词后形成的每个词语中过滤掉所有数字,取剩下的所有词语,记为We;
训练步骤二三:归并We的词语,去除重复的词,剩下的词即组成的常用词词典Dz;
训练步骤三:对训练语句S的所有字符进行特征化表示,得到每个字符特征表示结果,记 为标题S(i)的第j个字,其中1≤j≤标题S(i)总字符数,k为每个字的特征,每个字有11个特征,0≤k≤10;
对标题中每个字符s(i,j),即标题s(i)中第j个字符,对应的特征化结果表示为如下106个特征:
则由多个字组成的整个标题s(i)的特征表示为:
其中len(S)是标题S(i)的字符数,1≤j≤len(S), 为第0个字符的所有特征,为第1个字符的所有特征;具体实现步骤包括:
训练步骤三一:对语句中每个字符进行标记,即对各个句子S(i)中的每个序位上的字符,建立各字符相应的11个单独特征,分别表示为f0(i,j0),f0(i,j1), f0(i,j2), f0(i,j3),f0(i,j4), f0(i,j5), f0(i,j6), f0(i,j7), f0(i,j8), f0(i,j9), f0(i,j10);符号注释:其中fn(i,j)其中n为字j的相对位置,取值-2,-1,0,1,2等
(1)当前该字符f0(i,j0),也作为一个特征
(2)标记类型特征:
(3)标记常用字典中的词语:
(4)
(5)对语句i分词之后,标记字所在的词语位置:
(6)对语句i分词之后,标记字所在词语的词性:
(7)标记重要词典中的词语:
训练步骤三二:对单个字符的特征进行汇总,建立各序位的字符前后2个字符及当前字符的单独特征,共计55个特征,分别表示为
当前字符的前边第2个字符 及其所有特征f2(i,ji)(1<=i<=10),
当前字符的前边第1个字符 及其所有特征f-1(i,ji) (1<=i<=10),
当前字符 及其所有特征f0(i,ji) (1<=i<=10),
当前字符的后边第1个字符 及其所有特征f1(i,ji) (1<=i<=10),
当前字符的后边第2个字符 及其所有特征f2(i,ji) (1<=i<=10),
其中前后2个字的字符为:
训练步骤三三:对各个句子S(i)中的每个序位上的字符,建立各字符对应的unigram和bigram的特征,共7个特征,分别表示为:
其中为当前字符的前边第2个字符,为当前字符的前边第1个字符,为当前字符,为当前字符的后边第1个字符,为当前字符的后边第2个字符,为连接符;
训练步骤三四:对各个句子S(i)中的每个序位上的字符,建立字符所在语句i的最后4个字符的特征表示,共44个,分别表示为:
倒数第1个字符 及其所有特征 (1<=i<=10),
倒数第2个字符 及其所有特征 (1<=i<=10),
倒数第3个字符 及其所有特征 (1<=i<=10),
倒数第4个字符 及其所有特征 (1<=i<=10):
其中最后4个字的字符为:
训练步骤四:对训练语句的各个句子的字符,根据是否是讨论主体的判断标记,进行数字化表示,对应得到各句子S(i)的每个序位上的字符s(i,j)的新词标记表示结果g(s(i,j));
其中:为标题s(i)中第j个字符,为对应的类别标签结果;
训练步骤五:基于条件随机场模型,将训练语句中所有字符的特征化结果和对应的类别标签结果作为输入数据,进行训练,得到训练后的模型M。
应用阶段
应用步骤一:对要提取论述主体的长文,获取长文的文字内容G,模型M,重要词典Di,常用词典Dz;
应用步骤二:基于自动算法,提取GP的摘要语句,记摘要句总数为NGP,则各摘要句记为T(i),其中0<i<NGP ,R(i,j)为对应T(i)的第i个摘要句的第j个字符;
应用步骤三:对各个摘要句T(i)的各个字符R(i,j),提取对应的特征表示结果,对应的特征化结果表示为如下106个特征:
其中len(T(i))是标题T(i)的字符数,1≤j≤len(S),为第0个字符的所有特征,为第1个字符的所有特征,以此类推;其中单个字符各特征的提取的具体步骤为:
应用步骤三一:对T(i)中每个字符进行标记,即对各个句子T(i)中的每个序位上的字符,建立各字符相应的11个单独特征,分别表示为f0(i,j0),f0(i,j1), f0(i,j2), f0(i,j3),f0(i,j4), f0(i,j5), f0(i,j6), f0(i,j7), f0(i,j8), f0(i,j9), f0(i,j10);符号注释:其中fn(i,j)其中n为字j的相对位置,取值-2,-1,0,1,2等
(1)当前该字符f0(i,j0),也作为一个特征
(2)标记类型特征:
(3)标记常用字典中的词语:
(4)
(5)对T(i)分词之后,标记字所在的词语位置:
(6)对T(i)分词之后,标记字所在词语的词性:
(7)标记重要词典中的词语:
应用步骤三二:对单个字符的特征进行汇总,建立各序位的字符前后2个字符及当前字符的单独特征,共计55个特征,分别表示为
当前字符的前边第2个字符及其所有特征f2(i,ji)(1<=i<=10),
当前字符的前边第1个字符及其所有特征f-1(i,ji) (1<=i<=10),
当前字符及其所有特征f0(i,ji) (1<=i<=10),
当前字符的后边第1个字符及其所有特征f1(i,ji) (1<=i<=10),
当前字符的后边第2个字符及其所有特征f2(i,ji) (1<=i<=10),
其中前后2个字的字符为:
应用步骤三三:对各个句子T(i)中的每个序位上的字符,建立各字符对应的unigram和bigram的特征,共7个特征,分别表示为:
其中为当前字符的前边第2个字符,为当前字符的前边第1个字符,为当前字符,为当前字符的后边第1个字符,为当前字符的后边第2个字符,为连接符;
应用步骤三四:对各个句子T(i)中的每个序位上的字符,建立字符所在语句i的最后4个字符的特征表示,共44个,分别表示为:
倒数第1个字符及其所有特征 (1<=i<=10),
倒数第2个字符及其所有特征 (1<=i<=10),
倒数第3个字符及其所有特征 (1<=i<=10),
倒数第4个字符及其所有特征 (1<=i<=10):
其中最后4个字的字符为:
应用步骤四:将所有字符的特征化结果F(R(i,j))输入已训练好的模型M中,并由模型M进行分类评判,输出各字符对应的分类结果g(R(i,j));
应用步骤五:输出所有g(R(i,j))值为B或E的字符R(i,j)的序位,则在语句T(i)中,提取每个如下情况的字符串:以标为B的字符的作为起始序位,截止到往后的最近的以标为E的字符的作为终止序位,这些截取出的字符串即作为此长文的论述主体。

Claims (2)

1.一种文章的讨论主体的抽取方法, 其特征在于:设计的方法由训练模型和应用模型两个阶段组成,其中训练阶段包括以下步骤:
训练步骤一:获取模型训练阶段的依赖资源:获取已做好标记(训练语料的语句中的字符有确定的是否被标注为研究主体的标识)的NS个句子的集合S={S(i)}为训练语料,各句子记为S(i),其中1≤i≤NS,要求NS≥10000;获取人工总结的重要词汇词典Di;
训练步骤二:基于训练语句生成常用词词典Dc;具体实现步骤为:
训练步骤二一:在每个训练语句的句子中,以此句中的所有论述主体的字符串的起始和截止序位,对此句子进行分割后,形成多个子字符串,并去除每个语句样本的论述主体对应的字符串,取剩下的所有字符串,记为Se;
训练步骤二二:对Se中所有的字符串做分词处理,并在分词后形成的每个词语中过滤掉所有数字,取剩下的所有词语,记为We;
训练步骤二三:归并We的词语,去除重复的词,剩下的词即组成的常用词词典Dz;
训练步骤三:对训练语句S的所有字符进行特征化表示,得到每个字符特征表示结果,记 为标题S(i)的第j个字,其中1≤j≤标题S(i)总字符数,k为每个字的特征,每个字有11个特征,0≤k≤10;
对标题中每个字符s(i,j),即标题s(i)中第j个字符,对应的特征化结果表示为如下106个特征:
则由多个字组成的整个标题s(i)的特征表示为:
其中len(S)是标题S(i)的字符数,1≤j≤len(S), 为第0个字符的所有特征,为第1个字符的所有特征;
训练步骤四:对训练语句的各个句子的字符,根据是否是讨论主体的判断标记,进行数字化表示,对应得到各句子S(i)的每个序位上的字符s(i,j)的新词标记表示结果g(s(i,j));
其中:为标题s(i)中第j个字符,为对应的类别标签结果;
训练步骤五:基于条件随机场模型,将训练语句中所有字符的特征化结果和对应的类别标签结果作为输入数据,进行训练,得到训练后的模型M。
2.如权利要求1所述的方法,其特征在于所述训练阶段的步骤三具体包括:
训练步骤三一:对语句中每个字符进行标记,即对各个句子S(i)中的每个序位上的字符,建立各字符相应的11个单独特征,分别表示为f0(i,j0),f0(i,j1), f0(i,j2), f0(i,j3),f0(i,j4), f0(i,j5), f0(i,j6), f0(i,j7), f0(i,j8), f0(i,j9), f0(i,j10);符号注释:其中fn(i,j)其中n为字j的相对位置,取值-2,-1,0,1,2等
(1)当前该字符f0(i,j0),也作为一个特征
(2)标记类型特征:
(3)标记常用字典中的词语:
(4)
(5)对语句i分词之后,标记字所在的词语位置:
(6)对语句i分词之后,标记字所在词语的词性:
(7)标记重要词典中的词语:
训练步骤三二:对单个字符的特征进行汇总,建立各序位的字符前后2个字符及当前字符的单独特征,共计55个特征,分别表示为
当前字符的前边第2个字符 及其所有特征f2(i,ji)(1<=i<=10),
当前字符的前边第1个字符 及其所有特征f-1(i,ji) (1<=i<=10),
当前字符 及其所有特征f0(i,ji) (1<=i<=10),
当前字符的后边第1个字符 及其所有特征f1(i,ji) (1<=i<=10),
当前字符的后边第2个字符 及其所有特征f2(i,ji) (1<=i<=10),
其中前后2个字的字符为:
训练步骤三三:对各个句子S(i)中的每个序位上的字符,建立各字符对应的unigram和bigram的特征,共7个特征,分别表示为:
其中为当前字符的前边第2个字符,为当前字符的前边第1个字符,为当前字符,为当前字符的后边第1个字符,为当前字符的后边第2个字符,为连接符;
训练步骤三四:对各个句子S(i)中的每个序位上的字符,建立字符所在语句i的最后4个字符的特征表示,共44个,分别表示为:
倒数第1个字符 及其所有特征 (1<=i<=10),
倒数第2个字符 及其所有特征 (1<=i<=10),
倒数第3个字符 及其所有特征 (1<=i<=10),
倒数第4个字符 及其所有特征 (1<=i<=10):
其中最后4个字的字符为:
CN201511012036.2A 2015-12-30 2015-12-30 一种论述型文章的论述主体的自动提取方法 Pending CN106933795A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511012036.2A CN106933795A (zh) 2015-12-30 2015-12-30 一种论述型文章的论述主体的自动提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511012036.2A CN106933795A (zh) 2015-12-30 2015-12-30 一种论述型文章的论述主体的自动提取方法

Publications (1)

Publication Number Publication Date
CN106933795A true CN106933795A (zh) 2017-07-07

Family

ID=59457647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511012036.2A Pending CN106933795A (zh) 2015-12-30 2015-12-30 一种论述型文章的论述主体的自动提取方法

Country Status (1)

Country Link
CN (1) CN106933795A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325001A (zh) * 2018-12-13 2020-06-23 北大方正集团有限公司 论文标识、标识模型训练方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
CN103176963A (zh) * 2013-03-08 2013-06-26 北京理工大学 基于crf++汉语句义结构模型自动标注方法
CN103309926A (zh) * 2013-03-12 2013-09-18 中国科学院声学研究所 基于条件随机场的中英文混合命名实体识别方法及系统
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置
CN104268160A (zh) * 2014-09-05 2015-01-07 北京理工大学 一种基于领域词典和语义角色的评价对象抽取方法
CN104978311A (zh) * 2015-07-15 2015-10-14 昆明理工大学 一种基于条件随机场的越南语分词方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102360383A (zh) * 2011-10-15 2012-02-22 西安交通大学 一种面向文本的领域术语与术语关系抽取方法
CN103176963A (zh) * 2013-03-08 2013-06-26 北京理工大学 基于crf++汉语句义结构模型自动标注方法
CN103309926A (zh) * 2013-03-12 2013-09-18 中国科学院声学研究所 基于条件随机场的中英文混合命名实体识别方法及系统
CN104111933A (zh) * 2013-04-17 2014-10-22 阿里巴巴集团控股有限公司 获取业务对象标签、建立训练模型的方法及装置
CN104268160A (zh) * 2014-09-05 2015-01-07 北京理工大学 一种基于领域词典和语义角色的评价对象抽取方法
CN104978311A (zh) * 2015-07-15 2015-10-14 昆明理工大学 一种基于条件随机场的越南语分词方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHENGZHI ZHANG 等: "Automatic Keyword Extraction from Documents Using Conditional Random Fields", 《JOURNAL OF COMPUTATIONAL INFORMATION SYSTEMS》 *
孟洪宇 等: "基于条件随机场的《伤寒论》中医术语自动识别", 《北京中医药大学学报》 *
苏娅 等: "在线医疗文本中的实体识别研究", 《北京大学学报(自然科学版)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325001A (zh) * 2018-12-13 2020-06-23 北大方正集团有限公司 论文标识、标识模型训练方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
Swami et al. A corpus of english-hindi code-mixed tweets for sarcasm detection
CN111291570B (zh) 一种实现司法文书中要素识别的方法及装置
CN110598203A (zh) 一种结合词典的军事想定文书实体信息抽取方法及装置
CN108984530A (zh) 一种网络敏感内容的检测方法及检测系统
CN108363725B (zh) 一种用户评论观点提取和观点标签生成的方法
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN105446955A (zh) 一种自适应的分词方法
CN106951472A (zh) 一种网络文本的多重情感分类方法
Nam et al. Padding methods in convolutional sequence model: an application in Japanese handwriting recognition
CN106446147A (zh) 一种基于结构化特征的情感分析方法
CN106528863A (zh) 一种crf识别器的训练及技术及其属性名关系对抽取方法
Qiu et al. QA4IE: A question answering based framework for information extraction
CN104484437B (zh) 一种网络短评情感挖掘方法
Khan et al. Harnessing english sentiment lexicons for polarity detection in urdu tweets: A baseline approach
Li et al. Improvement of n-ary relation extraction by adding lexical semantics to distant-supervision rule learning
Kubis et al. Open challenge for correcting errors of speech recognition systems
CN110738052A (zh) 一种基于特征字的半监督中医命名实体获取方法
CN111368532B (zh) 一种基于lda的主题词嵌入消歧方法及系统
dos Santos Think positive: Towards Twitter sentiment analysis from scratch
CN115906835B (zh) 一种基于聚类和对比学习的中文问句文本表示学习的方法
CN106933795A (zh) 一种论述型文章的论述主体的自动提取方法
Ciobanu et al. Discriminating between Indo-Aryan languages using SVM ensembles
CN110059179A (zh) 一种基于深度学习的歌曲文本命名实体识别方法
Murthy et al. Hiner: A large hindi named entity recognition dataset
Hammad et al. Sentiment analysis of sindhi tweets dataset using supervised machine learning techniques

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170707