CN101320374A - 结合句法结构关系和领域特征的领域问题分类方法 - Google Patents
结合句法结构关系和领域特征的领域问题分类方法 Download PDFInfo
- Publication number
- CN101320374A CN101320374A CNA2008100586671A CN200810058667A CN101320374A CN 101320374 A CN101320374 A CN 101320374A CN A2008100586671 A CNA2008100586671 A CN A2008100586671A CN 200810058667 A CN200810058667 A CN 200810058667A CN 101320374 A CN101320374 A CN 101320374A
- Authority
- CN
- China
- Prior art keywords
- field
- sentence
- classification
- big classes
- question
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000012360 testing method Methods 0.000 claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000000605 extraction Methods 0.000 claims abstract description 5
- 239000000284 extract Substances 0.000 claims description 23
- 239000000463 material Substances 0.000 claims description 21
- 230000000694 effects Effects 0.000 claims description 9
- 238000009499 grossing Methods 0.000 claims description 5
- 230000013011 mating Effects 0.000 claims description 2
- 238000007635 classification algorithm Methods 0.000 abstract 2
- 238000013145 classification model Methods 0.000 abstract 2
- 239000000203 mixture Substances 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 241000854350 Enicospilus group Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- KRTSDMXIXPKRQR-AATRIKPKSA-N monocrotophos Chemical compound CNC(=O)\C=C(/C)OP(=O)(OC)OC KRTSDMXIXPKRQR-AATRIKPKSA-N 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- VAYOSLLFUXYJDT-RDTXWAMCSA-N Lysergic acid diethylamide Chemical compound C1=CC(C=2[C@H](N(C)C[C@@H](C=2)C(=O)N(CC)CC)C2)=C3C2=CNC3=C1 VAYOSLLFUXYJDT-RDTXWAMCSA-N 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种结合句法结构关系与领域特征的领域问题分类方法,包括下列步骤:领域术语收集,特定领域问题分类体系定义,对问题进行句法结构分析,提取句子主干,结合句子主干和领域词汇项作为问题的分类特征,采用改进贝叶斯分类算法构建问题分类模型,特定领域问题分类训练语料库和测试语料库构建,特定领域问题分类器构建。由于问题分类是问答系统中一个非常重要的步骤,是制定答案抽取策略和定位答案的关键因素,因此通过本发明,即在句法结构分析的基础上,结合领域特点,选取句子主干和领域词汇作为分类特征,采用改进贝叶斯分类学习算法,构造问句分类模型,并在云南旅游领域进行问题分类实验,结果表明该方法有效,提高了领域问题分类的准确率,从而能够高效,快速、准确地为用户提供咨询服务。
Description
技术领域
本发明涉及一种领域问题分类方法,尤其是一种结合句法结构关系与领域特征的受限域问题分类方法。
背景技术
问题分类是问答系统中一个非常重要的步骤,问题分类的准确率对问答系统的信息检索和答案提取有着很大的影响,只有在正确的问题分类的基础上,才可能进行正确的答案析取。
目前,问题分类的研究主要集中在两个方面,一方面是基于规则的方法,通过提取各种问题类型的疑问词与其它相关词组合的特征规则,通过规则来判定问题所属类型。这种方法的分类效果依赖于各种问题类型的构成规则,由于汉语的复杂性,用这些规则进行提取是很困难的,而且不可能穷举出所有规则,因此分类效果并不理想。另一方面是通过统计的方法来实现问题的分类,通过对真实的经过标注的问题语料进行统计学习,提取能表达各种问题类型的特征规则,建立学习模型,实现各种问题的类型识别。这种方法是通过学习来获取知识的,因此具有很大的优势。
对英文问题分类的研究较多,目前采用统计方法,提取问题词法、句法及语义相关特征来构建问题分类方法,均取得了比较好的效果。在中文问题分类研究方面,哈尔滨工业大学提出了改进的贝叶斯模型进行问题分类的方法和基于句法结构分析的中文问题分类方法,取得了较好的效果。上述分类方法主要针对开放域问题分类,并未考虑领域特征。在受限域,不同领域的分类体系不同,如何结合领域特征进行领域问题分类是非常重要的一个工作。
发明内容
本发明的目的正是为解决上述问题,在句法结构分析的基础上,结合领域特点,提出了一种结合句法结构关系与领域特征的领域问题分类方法,以高效,快速、准确地为用户提供咨询服务。
本发明提供的一种结合句法结构关系和领域特征的领域问题分类方法,选取句子主干和领域词汇作为分类特征进行领域问题分类,以提高领域问题分类的准确率。
本发明通过下列技术方案完成:一种结合句法结构关系与领域特征的领域问题分类方法,其特征在于包括:
(1)领域术语收集:针对云南旅游领域,人工收集整理了云南旅游领域术语;
(2)特定领域问题分类体系定义:针对云南旅游领域,定义了5个大类,23个小类的问题分类体系;
(3)对问题进行句法结构分析,提取句子主干:对于一个句子,定义句子的主谓宾为句子主干,其他词项为句子附属成分;
(4)结合句子主干和领域词汇项作为问题的分类特征:为了利用领域知识特点,引入领域术语,结合句子主干和领域词汇项作为问题的分类特征;
(5)采用改进贝叶斯分类算法构建问题分类模型:结合问题分类特点,改进贝叶斯学习算法并应用于领域问题分类;
(6)特定领域问题分类训练语料库和测试语料库构建:针对旅游领域,构建了云南旅游领域训练语料库和测试语料库;
(7)特定领域问题分类构建:利用云南旅游领域术语库和云南旅游领域训练语料库和测试语料库,采用Web方式实现云南旅游领域问题分类。
所述步骤(1)具体为:针对云南旅游领域景点介绍、风土民情、旅游交通、酒店等信息资源,人工收集整理了2012个领域术语,形成了旅游领域术语库。
所述步骤(2)具体为:针对云南旅游领域信息资源,定义了5个大类,23个小类的问题分类体系,如表1所示:
表1云南旅游领域问题分类体系
大类 | 小类 |
景点 | 景点简介、景点位置、景点价格、景点交通、景点其他 |
地方 | 地方简介、地方位置、地方交通、地方气候、地方其他 |
风土民情 | 土特产、风味小吃、风俗习惯、历史文化、节日文化、民族歌舞、风土民情其他 |
酒店 | 酒店介绍、酒店位置、酒店价格、酒店星级、酒店其他 |
其他 | 其他 |
所述步骤(3)具体为:借助于哈尔滨工业大学共享语言技术平台(LTP:Languagetechnology Platform)提供的基于依存文法的句法分析器对问题进行句法结构分析,其中,依存文法是由法国语言学家L.Tesiniere在1959年提出来的,该文法认为句子中述语动词是支配其它成分的中心,而它本身却不受其它任何成分的支配,所有的受支配成分都以某种依存关系从属于其支配者;依存文法的句法结构的主要元素是依存关系(dependencyrelationship),即句子中词对的二元关系,其中一个记为核心词(head),另一个记为依存词(dependent);依存关系反映的是核心词和依存词之间语义上的依赖关系,故本发明将句法分析结果看作一棵句法依存树。
句法依存树中有箭头相连的两个节点表示有依存关系,其中箭头出发的节点为父节点,是核心词,箭头所指向的节点为子节点,是依存词。依存词依存于核心词。箭头上的标记HED,SBV,VOB,DE,ATT表示依存关系的类型,其中,HED表示句子的核心,SBV表示句子的主语,VOB表示句子的宾语,DE表示“的”字结构,ATT表示定中结构,EOS支配全句的核心成分,且通过HED,SBV,VOB找到句子的主干部分(主谓宾)。除此之外,还有其它的依存关系类型,如QUN表示数量关系等。
由上面的句法结构分析得到了问题的汉语依存关系,通过分析结果中的依存关系和关系类型HED,SBV,VOB,提取句子的主语H,谓语S,宾语0。对于一个句子,定义句子的主谓宾为句子主干,其他词项为句子附属成分。如对问题“路南石林的简介是什么?”进行句法分析,结果如附图2所示。
所述步骤(4)具体为:领域词汇项的提取采用如下方式:分析句子依存关系,提取最靠近主语的附属词项,并与领域术语库中的领域术语比较,当与领域术语匹配时,提取该词项作为领域词汇项;当与领域术语不匹配时,从领域术语库提取与该词项最相似的领域术语作为领域词汇项。
所述步骤(5)具体为:贝叶斯分类器是常用于文本分类领域的概率分类器,它利用类别的先验概率和词的分布对于类别的条件概率来计算未知文本属于某一类别的概率,具体是:
A、简单贝叶斯:
在假设问题中词的分布相互独立,即忽略上下文的Unigram模型中,贝叶斯分类器用数学形式来表示,如公式(1):
式中,Ti表示某一类别,Qi表示待分类的问题,Wk表示Qi中的词项,TF(WK)表示Wk在Qi中出现的次数,P(Ti)和P(Wk|Ti)的值可以从训练集中估计得到,对于不同的类别,上式的分母保持不变,因此使得分子最大的类别,即认为是待分类问题的类别;
B、改进贝叶斯:
由于简单贝叶斯是针对文本分类的,而问题中的特征又较少,很难根据问题中少数的几个词来表达问句的特征,因此,针对这个问题提出了一种改进贝叶斯的问题分类的方法,即用改进的贝叶斯算法进行分类,具体步骤如下:
第一步,分别计算提取到的领域问题分类特征中的各个词项word在所有问题类型的语料中出现的次数,对于某种问题类型qc,用frequency(qc,word)表示word在qc这类问题类型中出现的次数;
第二步,计算某个word属于某类问题的概率:
式(2)中,|qc|为训练文本qci类别的总数,即分类体系中的大类数目;N为问题类型的总数目,即分类体系中的小类数目;公式中分子部分的常数0.5作为调零因子,分母部分N起到平滑作用;
第三步,对P(qci,wordj)进行降低权值的处理,处理原因如下:
1)如果一个词在某个问题中出现的次数越多,那么它与该问题主体的关联性越强;
2)如果一个词在很多问题类型中都出现很多次,那么它对分类的贡献小;
基于以上原因,采用了TF-IDF进行权值处理,如式(3):
式(3)中,N为问题类型的总数目,M为wordj在M类问题中是否出现,0.1起到平滑作用;
第四步,未知类别问题属于某类问题的概率为式(4):
P(qci,unknownques)=P2(qci,word1)×P2(qci,word2)×K×P2(qci,wordn)(4)
式中,n为对问题分词、去除停用词以后余下词项的个数。
所述步骤(6)具体为:针对云南旅游领域,构建了训练语料库和测试语料库,训练语料库中包含23335个问题,其中景点大类5157句、地方大类5901句、风土民情大类7986句、酒店大类4024句、其他大类267句;测试语料库中包含了500个测试问题,其中景
点大类110句、地方大类110句、风土民情大类155句、酒店大类105句、其他大类20句。
所述步骤(7)具体为:利用步骤(1)中构建的云南旅游领域术语库,结合步骤(6)中构建的云南旅游领域训练语料库和测试语料库,采用Web方式在云南旅游领域进行了问题分类实验,构建了特定领域问题分类器。
本发明与现有技术相比具有下列优点和效果:由于问题分类是问答系统中一个非常重要的步骤,是制定答案抽取策略和定位答案的关键因素,因此通过本发明,即在句法结构分析的基础上,结合领域特点,选取句子主干和领域词汇作为分类特征,采用改进贝叶斯分类学习算法,构造问句分类模型,并在云南旅游领域进行问题分类实验,结果表明该方法有效,提高了领域问题分类的准确率,从而能够高效,快速、准确地为用户提供咨询服务。
附图说明
图1是本发明结合句法结构关系与领域特征的领域问题分类方法的流程图;
图2是本发明对句子“路南石林的简介是什么?”进行句法分析的分析结果。
具体实施方式
实施例
如图1,本发明提供的结合句法结构关系与领域特征的领域问题分类方法,其具体实现方法步骤如下:
(1)步骤S1,收集领域术语:主要针对云南旅游领域景点介绍、风土民情、旅游交通、酒店等人工收集整理了2012个领域术语,形成了旅游领域术语库;
(2)步骤S2,定义旅游领域问题分类体系:本发明针对旅游领域,定义了5个大类,23个小类的问题分类体系,表1为定义的旅游领域问题分类体系:
表1:旅游领域问题分类体系
大类 | 小类 |
景点 | 景点简介、景点位置、景点价格、景点交通、景点其他 |
地方 | 地方简介、地方位置、地方交通、地方气候、地方其他 |
风土民情 | 土特产、风味小吃、风俗习惯、历史文化、节日文化、民族歌舞、风土民情其他 |
酒店 | 酒店介绍、酒店位置、酒店价格、酒店星级、酒店其他 |
其他 | 其他 |
(3)步骤S3,分析问题句法结构,提取句子主干:主要包括以下几个步骤:
a、问题句法结构分析:
借助于哈尔滨工业大学共享语言技术平台(LTP:Language technology Platform)提供的基于依存文法的句法分析器对问题进行句法结构分析。依存文法是由法国语言学家L.Tesiniere在1959年提出来的,该文法认为句子中述语动词是支配其它成分的中心,而它本身却不受其它任何成分的支配,所有的受支配成分都以某种依存关系从属于其支配者。依存文法的句法结构的主要元素是依存关系(dependency relationship),即句子中词对的二元关系,其中一个记为核心词(head),另一个记为依存词(dependent)。依存关系反映的是核心词和依存词之间语义上的依赖关系,本发明将句法分析结果看作一棵句法依存树,如对问题“路南石林的简介是什么?”进行句法分析,分析结果如附图2所示。
句法依存树中有箭头相连的两个节点表示有依存关系,其中箭头出发的节点为父节点,是核心词,箭头所指向的节点为子节点,是依存词。依存词依存于核心词。箭头上的标记HED,SBV,VOB,DE,ATT表示依存关系的类型,其中,HED表示句子的核心,SBV表示句子的主语,VOB表示句子的宾语,DE表示“的”字结构,ATT表示定中结构,EOS支配全句的核心成分,且通过HED,SBV,VOB找到句子的主干部分(主谓宾),除此之外,还有其它的依存关系类型,如QUN表示数量关系等;
如对问题“路南石林的简介是什么?”,进行句法结构分析,结果如附图2所示,其中核心词(HED)为“是”,主语(SBV)为“简介”,宾语(VOB)“什么”;
b、句子主干提取:
对上面提取到的句法依存关系对进行分析,提取句子主谓宾为作为句子主干,句子主谓宾结构主要依据依存对关系类型HED,SBV,VOB进行识别。如对问题“路南石林的简介是什么?”,“是”为核心词(HED),“简介”依存于“是”,关系类型为主语(SBV),“什么”依存于“是”,关系类型为宾语(VOB),提取句子主干为“简介是什么”。对问题“丽江官房大酒店的简介是什么?”提取句子主干也为“简介是什么”;
(4)步骤S4,问题分类特征提取:分析句子依存关系,提取最靠近主语的非主谓宾结构词项,并与领域词汇比较,当与领域词汇匹配时,提取该词项作为领域术语项,否则,从领域术语库中提取与该词项最相似的领域词汇作为领域词汇项。结合步骤S3中提取到的句子主干和领域词汇项,作为问题的分类特征。如对问题“路南石林的简介是什么?”进行句法分析,“路南石林”是最靠近主语“简介”的附属词汇,同时也是领域词汇,将其提取出来作为问题的领域词汇项,再结合上面提取的句子主干“简介是什么”,该问题的分类特征变为“路南石林简介是什么”;
(5)步骤S5,问题分类模型构建:主要包括以下几个步骤:
a、简单贝叶斯分类:
贝叶斯分类器是常用于文本分类领域的概率分类器,它利用类别的先验概率和词的分布对于类别的条件概率来计算未知文本属于某一类别的概率。在假设问题中词的分布相互独立,即忽略上下文的Unigram模型中,贝叶斯分类器用数学形式来表示,如公式(1):
式中Ti表示某一类别;Qi表示待分类的问题;Wk表示Qi中的词项;TF(WK)表示Wk在Qi中出现的次数;P(Ti)和P(Wk|Ti)的值可以从训练集中估计得到。
对于不同的类别,上式的分母保持不变,因此使得分子最大的类别,即认为是待分类问题的类别。
B、改进贝叶斯分类模型构建:
由于简单贝叶斯是针对文本分类的,而问题中的特征又较少,很难根据问题中少数的几个词来表达问句的特征,因此,哈工大张宇等人针对这个问题提出了一种改进贝叶斯的问题分类的方法,即用改进贝叶斯算法进行分类,具体步骤如下:
第一步:分别计算提取到的领域问题分类特征中的各个词项word在所有问题类型的语料中出现的次数,对于某种问题类型qc,用frequency(qc,word)表示word在qc这类问题类型中出现的次数;
第二步:计算某个word属于某类问题的概率:
式(2)中,|qc|为训练文本qci类别的总数,即分类体系中的大类数目;N为问题类型的总数目,即分类体系中的小类数目;公式中分子部分的常数0.5作为调零因子,分母部分N起到平滑作用;
第三步:对P(qci,wordj)进行降低权值的处理,处理原因如下:
1)如果一个词在某个问题中出现的次数越多,那么它与该问题主体的关联性越强;
2)如果一个词在很多问题类型中都出现很多次,那么它对分类的贡献小;
基于以上原因,采用了TF-IDF进行权值处理,如式(4):
式中,N为问题类型的总数目,M为wordj在M类问题中是否出现,0.1起到平滑作用;
第四步:未知类别问题属于某类问题的概率为:
P(qci,unknownques)=P2(qci,word1)×P2(qci,word2)×K×P2(qci,wordn)(4)
式中,n为对问题分词、去除停用词以后,词项的个数;
第五步:比较未知类别问题属于所有类别的概率,将其分到概率最大的那个类别中。
(6)步骤S6,特定领域问题分类训练语料库和测试语料库构建:针对云南旅游领域,构建了训练语料库和测试语料库,训练语料库中包含23335个问题,测试语料库中包含了500个测试问题,其中,训练语料库中包含23335个问题,它们是:景点大类5157句、地方大类5901句、风土民情大类7986句、酒店大类4024句、其他大类267句;测试语料库中包含了500个测试问题,它们是景点大类110句、地方大类110句、风土民情大类155句、酒店大类105句、其他大类20句;
(7)步骤S7,特定领域问题分类器构建:利用步骤S1中构建的云南旅游领域术语库,结合步骤S4中构建的云南旅游领域训练语料库和测试语料库,,采用Web方式在云南旅游领域进行了问题分类实验,构建了特定领域问题分类器。
云南旅游领域问题分类实验
在云南旅游领域构建了训练语料库和测试语料库,训练语料库中包含23335个问题,其中景点大类5157句、地方大类5901句、风土民情大类7986句、酒店大类4024句、其他大类267句;测试语料库中包含了500个测试问题,其中景点大类110句、地方大类110句、风土民情大类155句、酒店大类105句、其他大类20句。采用的领域术语库中包含2012个领域术语。通过Web方式实现了云南旅游领域问题分类器表2、表3为实验结果,其中,表2为基于句法结构分析的问题分类方法和结合句法结构关系与领域特征的领域问题分类方法在旅游领域5个大类,23个小类进行分类实验结果对比;表3为提出的结合句法结构关系与领域特征的领域问题分类方法在5个大类分类结果。
表2:两种问题分类方法实验结果对比
5个大类准确率 | 23个小类准确率 | |
基于句法结构分析的问题分类方法 | 82.6% | 71.9% |
结合领域知识与句法结构关系的问题分类方法 | 87.4% | 79.5% |
表3:结合句法结构关系与领域特征的领域问题分类结果
类别 | 训练语料(句) | 测试语料(句) | 准确率 |
景点大类 | 5157 | 110 | 91.8% |
地方大类 | 5901 | 110 | 96.4% |
风土民情大类 | 7986 | 155 | 91.6% |
酒店大类 | 4024 | 105 | 92.4% |
其他大类 | 267 | 20 | 65% |
实验结果显示这种结合句法结构关系与领域特征,提取句子主干和领域词汇项作为分类特征的领域问题分类方法,对旅游领域5个大类分类的准确率达到了87.4%,相对于单纯基于句法结构分析的问题分类方法,准确率提高了4.8个百分点;对23个小类的分类准确率达到了79.5%,相对于单纯基于句法结构分析的问题分类方法,准确率提高了7.6个百分点,对领域问题分类有较好的效果。
Claims (7)
1.结合句法结构关系和领域特征的领域问题分类方法,其特征在于:
(1)领域术语收集:针对云南旅游领域,人工收集整理出领域术语;
(2)特定领域问题分类体系定义:针对旅游领域,定义了5个大类,23个小类的问题分类体系;
(3)对问题进行句法结构分析,提取句子主干:对于一个句子,定义句子的主谓宾为句子主干,其他词项为句子附属成分;
(4)结合句子主干和领域词汇项作为问题的分类特征:为了利用领域知识特点,引入领域术语,结合句子主干和领域词汇项作为问题的分类特征;
(5)采用改进贝叶斯分类算法构建问题分类模型:结合问题分类特点,改进贝叶斯学习算法并应用于领域问题分类;
(6)特定领域问题分类训练语料库和测试语料库构建:针对旅游领域,构建了云南旅游领域训练语料库和测试语料库;
(7)特定领域问题分类器构建:采用Web方式实现云南旅游领域问题分类器。
2.根据权利要求1所述的结合句法结构关系和领域特征的领域问题分类方法,其特征在于所述步骤(2)中,定义了5个大类,23个小类问题分类体系。
3.根据权利要求1所述的结合句法结构关系和领域特征的领域问题分类方法,其特征在于所述步骤(3)中,首先对问题进行分词、词性标注、去除停用词,然后对问题进行句法结构分析,根据分析得到的依存关系类型,提取句子的主谓宾,定义句子的主谓宾为句子主干,其它词为句子附属词项。
4.根据权利要求1所述的结合句法结构关系和领域特征的领域问题分类方法,其特征在于所述步骤(4)中,结合句子主干和领域词汇项作为问题的分类特征,领域词汇项的提取采用如下方式:分析句子依存关系,提取最靠近主语的附属词项,并与领域术语库中的领域术语比较,当与领域术语匹配时,提取该词项作为领域词汇项,或者,从领域术语库提取与该词项最相似的领域术语作为领域词汇项。
5.根据权利要求1所述的结合句法结构关系和领域特征的领域问题分类方法,其特征在于所述步骤(5)中,首先采用贝叶斯分类算法计算问题属于某一类别的概率,其次对计算得到的概率采用TF-IDF进行降低权值处理:
式中,N为问题类型的总数目,M为wordj在M类问题中是否出现,0.1起到平滑作用;
6.根据权利要求1所述的结合句法结构关系和领域特征的领域问题分类方法,其特征在于所述步骤(6)中,在云南旅游领域构建了训练语料库和测试语料库,训练语料库中包含23335个问题,其中景点大类5157句、地方大类5901句、风土民情大类7986句、酒店大类4024句、其他大类267句;测试语料库中包含了500个测试问题,其中景点大类110句、地方大类110句、风土民情大类155句、酒店大类105句、其他大类20句。
7.根据权利要求1所述的结合句法结构关系和领域特征的领域问题分类方法,其特征在于,步骤(7)中,采用Web方式实现云南旅游领域问题分类器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100586671A CN101320374A (zh) | 2008-07-10 | 2008-07-10 | 结合句法结构关系和领域特征的领域问题分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNA2008100586671A CN101320374A (zh) | 2008-07-10 | 2008-07-10 | 结合句法结构关系和领域特征的领域问题分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN101320374A true CN101320374A (zh) | 2008-12-10 |
Family
ID=40180427
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNA2008100586671A Pending CN101320374A (zh) | 2008-07-10 | 2008-07-10 | 结合句法结构关系和领域特征的领域问题分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101320374A (zh) |
Cited By (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102402501A (zh) * | 2010-09-09 | 2012-04-04 | 富士通株式会社 | 术语抽取方法和装置 |
CN102646100A (zh) * | 2011-02-21 | 2012-08-22 | 腾讯科技(深圳)有限公司 | 领域词获取方法及系统 |
CN103377224A (zh) * | 2012-04-24 | 2013-10-30 | 北京百度网讯科技有限公司 | 识别问题类型的方法及装置、建立识别模型的方法及装置 |
US20130297545A1 (en) * | 2012-05-04 | 2013-11-07 | Pearl.com LLC | Method and apparatus for identifying customer service and duplicate questions in an online consultation system |
CN103514151A (zh) * | 2012-06-29 | 2014-01-15 | 富士通株式会社 | 依存句法分析方法、装置及辅助分类器训练方法 |
CN103593427A (zh) * | 2013-11-07 | 2014-02-19 | 清华大学 | 新词搜索方法及系统 |
CN103810170A (zh) * | 2012-11-06 | 2014-05-21 | 腾讯科技(深圳)有限公司 | 交流平台文本分类方法及装置 |
CN103902672A (zh) * | 2014-03-19 | 2014-07-02 | 微梦创科网络科技(中国)有限公司 | 问答系统及其问答处理方法 |
WO2015042766A1 (en) * | 2013-09-24 | 2015-04-02 | Empire Technology Development Llc | Automatic question sorting |
CN104657463A (zh) * | 2015-02-10 | 2015-05-27 | 乐娟 | 应用于自动问答系统的问句分类方法及装置 |
CN104866631A (zh) * | 2015-06-18 | 2015-08-26 | 北京京东尚科信息技术有限公司 | 咨询问题聚合的方法和装置 |
CN105630827A (zh) * | 2014-11-05 | 2016-06-01 | 阿里巴巴集团控股有限公司 | 一种信息处理方法、系统及辅助系统 |
CN105893465A (zh) * | 2016-03-28 | 2016-08-24 | 北京京东尚科信息技术有限公司 | 自动问答方法和装置 |
CN105956179A (zh) * | 2016-05-30 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 数据过滤方法及装置 |
CN105955963A (zh) * | 2016-05-25 | 2016-09-21 | 北京谛听机器人科技有限公司 | 一种机器人问答交互开放平台及交互方法 |
US9501580B2 (en) | 2012-05-04 | 2016-11-22 | Pearl.com LLC | Method and apparatus for automated selection of interesting content for presentation to first time visitors of a website |
US9646079B2 (en) | 2012-05-04 | 2017-05-09 | Pearl.com LLC | Method and apparatus for identifiying similar questions in a consultation system |
CN106649303A (zh) * | 2015-10-28 | 2017-05-10 | 英业达科技有限公司 | 解决方案搜寻系统的操作方法及解决方案搜寻系统 |
CN106919563A (zh) * | 2015-12-24 | 2017-07-04 | 神州数码信息系统有限公司 | 一种政务机器问答系统的跨领域问题自动分类、分发、应答的方法 |
CN107562731A (zh) * | 2015-08-19 | 2018-01-09 | 刘战雄 | 一种基于疑问语义的自然语言语义计算的方法及装置 |
CN107608999A (zh) * | 2017-07-17 | 2018-01-19 | 南京邮电大学 | 一种适用于自动问答系统的问句分类方法 |
CN107679231A (zh) * | 2017-10-24 | 2018-02-09 | 济南浪潮高新科技投资发展有限公司 | 一种垂直领域与开放领域混合型智能问答系统的实现方法 |
US9904436B2 (en) | 2009-08-11 | 2018-02-27 | Pearl.com LLC | Method and apparatus for creating a personalized question feed platform |
CN107784048A (zh) * | 2016-11-14 | 2018-03-09 | 平安科技(深圳)有限公司 | 问答语料库的问题分类方法及装置 |
CN108595602A (zh) * | 2018-04-20 | 2018-09-28 | 昆明理工大学 | 基于浅层模型与深度模型结合的问句文本分类方法 |
CN108959327A (zh) * | 2017-05-27 | 2018-12-07 | 中国移动通信有限公司研究院 | 一种业务处理方法、装置及计算机可读存储介质 |
CN109344385A (zh) * | 2018-01-30 | 2019-02-15 | 深圳壹账通智能科技有限公司 | 自然语言处理方法、装置、计算机设备和存储介质 |
WO2019071904A1 (zh) * | 2017-10-13 | 2019-04-18 | 深圳壹账通智能科技有限公司 | 基于贝叶斯网络的问答装置、方法及存储介质 |
CN109960789A (zh) * | 2017-12-22 | 2019-07-02 | 广州帷策智能科技有限公司 | 基于自然语言处理的人物关系分析方法 |
CN111078875A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于机器学习的从半结构化文档中提取问答对的方法 |
CN111090753A (zh) * | 2018-10-24 | 2020-05-01 | 马上消费金融股份有限公司 | 分类模型的训练方法、分类方法、装置、计算机存储介质 |
CN111985206A (zh) * | 2020-07-17 | 2020-11-24 | 联想(北京)有限公司 | 一种语料理解方法及设备 |
CN112182230A (zh) * | 2020-11-27 | 2021-01-05 | 北京健康有益科技有限公司 | 一种基于深度学习的文本数据分类方法和装置 |
CN112612869A (zh) * | 2020-11-24 | 2021-04-06 | 中国传媒大学 | 基于指数概率模型的文档结构学习与生成方法及装置 |
CN113360651A (zh) * | 2021-06-04 | 2021-09-07 | 清远华奥光电仪器有限公司 | 一种基于布鲁姆教学目标分类法进行课堂提问的分类模型训练方法、方法、装置和存储介质 |
-
2008
- 2008-07-10 CN CNA2008100586671A patent/CN101320374A/zh active Pending
Cited By (50)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9904436B2 (en) | 2009-08-11 | 2018-02-27 | Pearl.com LLC | Method and apparatus for creating a personalized question feed platform |
CN102402501A (zh) * | 2010-09-09 | 2012-04-04 | 富士通株式会社 | 术语抽取方法和装置 |
CN102646100A (zh) * | 2011-02-21 | 2012-08-22 | 腾讯科技(深圳)有限公司 | 领域词获取方法及系统 |
CN102646100B (zh) * | 2011-02-21 | 2016-02-24 | 腾讯科技(深圳)有限公司 | 领域词获取方法及系统 |
CN103377224A (zh) * | 2012-04-24 | 2013-10-30 | 北京百度网讯科技有限公司 | 识别问题类型的方法及装置、建立识别模型的方法及装置 |
CN103377224B (zh) * | 2012-04-24 | 2016-08-17 | 北京百度网讯科技有限公司 | 识别问题类型的方法及装置、建立识别模型的方法及装置 |
US20130297545A1 (en) * | 2012-05-04 | 2013-11-07 | Pearl.com LLC | Method and apparatus for identifying customer service and duplicate questions in an online consultation system |
US9501580B2 (en) | 2012-05-04 | 2016-11-22 | Pearl.com LLC | Method and apparatus for automated selection of interesting content for presentation to first time visitors of a website |
US9646079B2 (en) | 2012-05-04 | 2017-05-09 | Pearl.com LLC | Method and apparatus for identifiying similar questions in a consultation system |
US9275038B2 (en) * | 2012-05-04 | 2016-03-01 | Pearl.com LLC | Method and apparatus for identifying customer service and duplicate questions in an online consultation system |
CN103514151A (zh) * | 2012-06-29 | 2014-01-15 | 富士通株式会社 | 依存句法分析方法、装置及辅助分类器训练方法 |
CN103810170B (zh) * | 2012-11-06 | 2018-04-27 | 腾讯科技(深圳)有限公司 | 交流平台文本分类方法及装置 |
CN103810170A (zh) * | 2012-11-06 | 2014-05-21 | 腾讯科技(深圳)有限公司 | 交流平台文本分类方法及装置 |
WO2015042766A1 (en) * | 2013-09-24 | 2015-04-02 | Empire Technology Development Llc | Automatic question sorting |
US9959307B2 (en) | 2013-09-24 | 2018-05-01 | Empire Technology Development Llc | Automatic question sorting |
CN103593427A (zh) * | 2013-11-07 | 2014-02-19 | 清华大学 | 新词搜索方法及系统 |
CN103902672A (zh) * | 2014-03-19 | 2014-07-02 | 微梦创科网络科技(中国)有限公司 | 问答系统及其问答处理方法 |
CN105630827A (zh) * | 2014-11-05 | 2016-06-01 | 阿里巴巴集团控股有限公司 | 一种信息处理方法、系统及辅助系统 |
CN105630827B (zh) * | 2014-11-05 | 2019-04-02 | 阿里巴巴集团控股有限公司 | 一种信息处理方法、系统及辅助系统 |
CN104657463B (zh) * | 2015-02-10 | 2018-04-27 | 乐娟 | 应用于自动问答系统的问句分类方法及装置 |
CN104657463A (zh) * | 2015-02-10 | 2015-05-27 | 乐娟 | 应用于自动问答系统的问句分类方法及装置 |
CN104866631A (zh) * | 2015-06-18 | 2015-08-26 | 北京京东尚科信息技术有限公司 | 咨询问题聚合的方法和装置 |
CN107562731A (zh) * | 2015-08-19 | 2018-01-09 | 刘战雄 | 一种基于疑问语义的自然语言语义计算的方法及装置 |
CN107562731B (zh) * | 2015-08-19 | 2020-09-04 | 刘战雄 | 一种基于疑问语义的自然语言语义计算的方法及装置 |
CN106649303A (zh) * | 2015-10-28 | 2017-05-10 | 英业达科技有限公司 | 解决方案搜寻系统的操作方法及解决方案搜寻系统 |
CN106919563A (zh) * | 2015-12-24 | 2017-07-04 | 神州数码信息系统有限公司 | 一种政务机器问答系统的跨领域问题自动分类、分发、应答的方法 |
CN105893465B (zh) * | 2016-03-28 | 2019-12-27 | 北京京东尚科信息技术有限公司 | 自动问答方法和装置 |
CN105893465A (zh) * | 2016-03-28 | 2016-08-24 | 北京京东尚科信息技术有限公司 | 自动问答方法和装置 |
CN105955963A (zh) * | 2016-05-25 | 2016-09-21 | 北京谛听机器人科技有限公司 | 一种机器人问答交互开放平台及交互方法 |
CN105956179A (zh) * | 2016-05-30 | 2016-09-21 | 上海智臻智能网络科技股份有限公司 | 数据过滤方法及装置 |
CN107784048A (zh) * | 2016-11-14 | 2018-03-09 | 平安科技(深圳)有限公司 | 问答语料库的问题分类方法及装置 |
CN107784048B (zh) * | 2016-11-14 | 2020-05-15 | 平安科技(深圳)有限公司 | 问答语料库的问题分类方法及装置 |
CN108959327A (zh) * | 2017-05-27 | 2018-12-07 | 中国移动通信有限公司研究院 | 一种业务处理方法、装置及计算机可读存储介质 |
CN108959327B (zh) * | 2017-05-27 | 2021-03-05 | 中国移动通信有限公司研究院 | 一种业务处理方法、装置及计算机可读存储介质 |
CN107608999A (zh) * | 2017-07-17 | 2018-01-19 | 南京邮电大学 | 一种适用于自动问答系统的问句分类方法 |
WO2019071904A1 (zh) * | 2017-10-13 | 2019-04-18 | 深圳壹账通智能科技有限公司 | 基于贝叶斯网络的问答装置、方法及存储介质 |
CN107679231A (zh) * | 2017-10-24 | 2018-02-09 | 济南浪潮高新科技投资发展有限公司 | 一种垂直领域与开放领域混合型智能问答系统的实现方法 |
CN109960789B (zh) * | 2017-12-22 | 2023-01-24 | 广州帷策智能科技有限公司 | 基于自然语言处理的人物关系分析方法 |
CN109960789A (zh) * | 2017-12-22 | 2019-07-02 | 广州帷策智能科技有限公司 | 基于自然语言处理的人物关系分析方法 |
CN109344385B (zh) * | 2018-01-30 | 2020-12-22 | 深圳壹账通智能科技有限公司 | 自然语言处理方法、装置、计算机设备和存储介质 |
CN109344385A (zh) * | 2018-01-30 | 2019-02-15 | 深圳壹账通智能科技有限公司 | 自然语言处理方法、装置、计算机设备和存储介质 |
CN108595602A (zh) * | 2018-04-20 | 2018-09-28 | 昆明理工大学 | 基于浅层模型与深度模型结合的问句文本分类方法 |
CN111090753A (zh) * | 2018-10-24 | 2020-05-01 | 马上消费金融股份有限公司 | 分类模型的训练方法、分类方法、装置、计算机存储介质 |
CN111078875B (zh) * | 2019-12-03 | 2022-12-13 | 哈尔滨工程大学 | 一种基于机器学习的从半结构化文档中提取问答对的方法 |
CN111078875A (zh) * | 2019-12-03 | 2020-04-28 | 哈尔滨工程大学 | 一种基于机器学习的从半结构化文档中提取问答对的方法 |
CN111985206A (zh) * | 2020-07-17 | 2020-11-24 | 联想(北京)有限公司 | 一种语料理解方法及设备 |
CN112612869A (zh) * | 2020-11-24 | 2021-04-06 | 中国传媒大学 | 基于指数概率模型的文档结构学习与生成方法及装置 |
CN112182230A (zh) * | 2020-11-27 | 2021-01-05 | 北京健康有益科技有限公司 | 一种基于深度学习的文本数据分类方法和装置 |
CN112182230B (zh) * | 2020-11-27 | 2021-03-16 | 北京健康有益科技有限公司 | 一种基于深度学习的文本数据分类方法和装置 |
CN113360651A (zh) * | 2021-06-04 | 2021-09-07 | 清远华奥光电仪器有限公司 | 一种基于布鲁姆教学目标分类法进行课堂提问的分类模型训练方法、方法、装置和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101320374A (zh) | 结合句法结构关系和领域特征的领域问题分类方法 | |
Sharif et al. | Sentiment analysis of Bengali texts on online restaurant reviews using multinomial Naïve Bayes | |
CN101510221B (zh) | 一种用于信息检索的查询语句分析方法与系统 | |
Bramsen et al. | Extracting social power relationships from natural language | |
CN109829166B (zh) | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 | |
CN106570179B (zh) | 一种面向评价性文本的核心实体识别方法及装置 | |
CN101599071B (zh) | 对话文本主题的自动提取方法 | |
CN111145052A (zh) | 司法文书的结构化分析方法及系统 | |
CN108763510A (zh) | 意图识别方法、装置、设备及存储介质 | |
EP3086239A1 (en) | Scenario generation device and computer program therefor | |
CN103823859B (zh) | 基于决策树规则和多种统计模型相结合的人名识别算法 | |
CN107180023A (zh) | 一种文本分类方法及系统 | |
CN105279495A (zh) | 一种基于深度学习和文本总结的视频描述方法 | |
Amato et al. | Challenge: Processing web texts for classifying job offers | |
EP3086237A1 (en) | Phrase pair gathering device and computer program therefor | |
CN110472203B (zh) | 一种文章的查重检测方法、装置、设备及存储介质 | |
CN106126619A (zh) | 一种基于视频内容的视频检索方法及系统 | |
CN101101599A (zh) | 一种从网页中提取广告主信息的方法 | |
Li et al. | Exploiting combined multi-level model for document sentiment analysis | |
CN106446147A (zh) | 一种基于结构化特征的情感分析方法 | |
CN110134934A (zh) | 文本情感分析方法和装置 | |
Simm et al. | Classification of short text comments by sentiment and actionability for voiceyourview | |
CN103886053A (zh) | 一种基于短文本评论的知识库构建方法 | |
US20130052619A1 (en) | Method for building information on emotion lexicon and apparatus for the same | |
Houy et al. | Towards automated identification and analysis of argumentation structures in the decision corpus of the German Federal Constitutional Court |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Open date: 20081210 |