CN111191029B - 基于监督学习和文本分类的ac构建方法 - Google Patents

基于监督学习和文本分类的ac构建方法 Download PDF

Info

Publication number
CN111191029B
CN111191029B CN201911321711.8A CN201911321711A CN111191029B CN 111191029 B CN111191029 B CN 111191029B CN 201911321711 A CN201911321711 A CN 201911321711A CN 111191029 B CN111191029 B CN 111191029B
Authority
CN
China
Prior art keywords
entity
word
model
text
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911321711.8A
Other languages
English (en)
Other versions
CN111191029A (zh
Inventor
李蔚清
袁伟强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Science and Technology
Original Assignee
Nanjing University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Science and Technology filed Critical Nanjing University of Science and Technology
Priority to CN201911321711.8A priority Critical patent/CN111191029B/zh
Publication of CN111191029A publication Critical patent/CN111191029A/zh
Application granted granted Critical
Publication of CN111191029B publication Critical patent/CN111191029B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于监督学习和文本分类的AC构建方法,基于CRF模型对仿真需求文本进行实体抽取;基于SVM模型对仿真需求文本进行实体关系抽取;基于规则和SVM模型对仿真需求文本进行部件精度信息抽取;基于BoW+NBSVM对仿真系统需求文本进行系统标准语句识别;基于改进的非功能需求分类算法进行系统标准语句分类;综合实体关系、部件精度信息、系统标准语句及分类,构建仿真需求文档中的AC。本发明显著提高了构建AC的效率,降低了人工成本,同时使得系统标准的构建更加全面。

Description

基于监督学习和文本分类的AC构建方法
技术领域
本发明属于仿真系统可信度评估领域,具体为一种基于监督学习和文本分类的AC构建方法。
背景技术
随着复杂仿真系统的快速发展,仿真系统可信度评估工作逐渐被仿真系统的开发者和使用者所重视。可接受性标准(Acceptability Criteria,AC)是建模与仿真(Modeling&simulation,M&S)中确认决策的基础,定义了仿真系统满足于仿真需求或仿真目标的所需要的功能和该功能应当满足的质量要求。Simone Youngblood等人在其论文中提出,可接受性标准分为两大类:代表性标准和系统标准。代表性标准定义了仿真系统所需的功能清单;系统标准描述了仿真系统必须满足的所有其他条件以充分服务于用户的基础功能。当前对于AC的研究与应用工作还是在起步阶段,主要还是依靠人工对仿真需求文本进行归纳总结,抽取仿真需求文本中各个实体、属性及其它们之间的关系。由于仿真需求语句与AC之间可能存在多对多的关系,仅依靠人工进行抽取不仅耗时,而且很难从复杂仿真系统需求文本中抽取出高清晰度的AC。
发明内容
本发明的目的在于提供一种基于监督学习和文本分类的AC构建方法。
实现本发明的技术解决方案为:一种基于监督学习与文本分类的AC构建方法,具体步骤为:
步骤1、将训练语料经过分词与标注后形成的文件输入到CRF模型,把训练好的CRF模型用于待实体识别的仿真需求文本中,即可得到仿真需求文本中实体。
步骤2、获得训练语料中实体对所在句子的特征向量,并将该特征向量与类别标签训练SVM模型,将训练好的SVM模型用于仿真需求文本的实体关系识别。
步骤3、提取训练语料中实体对所在句子的特征向量,训练SVM分类模型;将待识别的仿真需求文本根据阈值规则和距离规则从该语句中抽取出阈值与性能指标,其次将部件实体与性能指标、性能指标与阈值两两配对形成实体对,构建实体对所在句子的特征向量并输入到各自SVM分类模型中,获得抽取结果。
步骤4、首先训练语料进行数据预处理,其次确定文本特征的表达方式,基于此训练分类模型,并将该分类模型应用于系统标准语句识别中。
步骤5、基于步骤4的系统标准语句识别结果,将系统标准语句进行关键词提取,计算关键词与特征词的语义相似度,并依据相似度大小将关键词划分到最近似类,最后使用加权投票方法确定具体分类。
本发明与现有技术相比,其显著优点为:1)自动对包含系统标准的语句进行识别与分类,提高了AC构建的效率;2)使用规则和SVM相结合的方法提取部件实体、性能指标和阈值,提高了抽取部件性能信息的准确率。
附图说明
图1为本发明基于监督学习和文本分类的AC构建方法的流程图。
图2为本发明实体抽取的算法流程图。
图3为本发明实体关系抽取的算法流程图。
图4为本发明部件精度信息抽取的算法流程图。
图5为本发明系统标准语句识别的算法流程图。
图6为本发明系统标准语句分类的算法流程图。
具体实施方式
下面结合附图和具体实施例,进一步说明本发明方案。
如图1所示,基于监督学习和文本分类的AC构建方法,包含以下步骤:
步骤1,基于CRF模型对仿真需求文本进行实体抽取,如图2所示。
将训练语料经过分词与标注后形成的文件输入到CRF模型,把训练好的CRF模型用于待实体识别的仿真需求文本中,即可得到仿真需求文本中实体。实体主要包括三类:(1)部件实体,如目标模拟器、负载模拟器、总控制台等;(2)模型实体,弹体运动学模型、相对运动学模型、弹体运动学模型等;(3)能力实体,物理效应、指令传输、分析显示等。
所述步骤1具有以下两个子步骤,如下:
步骤1.1:CRF模型训练阶段,训练语料由与待AC构建的仿真需求文本同类别的半实物仿真系统需求文档组成,首先将训练语料进行分词、词性标注、词边界标注、指示词标注、特征词标注和实体标注,并生成CRF模型输入文件;接下来使用CRF++对该CRF模型输入文件进行迭代,生成CRF模型;
步骤1.2:实体识别阶段,将待识别的仿真需求文本进行分词词性标注、词边界标注、指示词标注、特征词标注,生成CRF模型输入文件,并将生成CRF模型输入文件输入到步骤1.1中训练好的CRF模型,即可得到待识别的仿真需求文本中的部件实体、模型实体和能力实体。
步骤2,基于SVM模型对仿真需求文本进行实体关系抽取,如图3所示。
获得训练语料中实体对所在句子的特征向量,并将该特征向量与类别标签训练SVM模型,将训练好的SVM模型用于仿真需求文本的实体关系识别。实体关系是抽取的实体之间的归属关系,共有三种:包含关系、属于关系和无关系,如“目标模拟器能模拟某些物理效应”中包含“目标模拟器”和“物理效应”两个实体,其中“目标模拟器”包含“物理效应”。
所述步骤2具有以下两个子步骤,如下:
步骤2.1:SVM分类模型训练阶段,训练语料由各类半实物仿真系统需求文档组成,与步骤1.1的训练语料为同一训练语料集,首先将训练语料中每条语句的实体两两组合,形成实体对;接下来提取实体对所在句子的特征,即实体对本身的特征、实体对所在句子特征和核心谓词特征,此过程由哈工大LTP工具完成,并将这些特征形成特征向量;接着将特征向量与其分类标签输入到SVM分类模型,得到训练好的SVM分类模型;
步骤2.1:实体关系抽取阶段,首先将待进行实体关系抽取的仿真需求文本经过步骤1.2,并将句子中包含两个及以上实体的语句抽取出来,将语句中的实体两两配对组成实体对,提取实体对所在句子的特征,即实体对本身的特征、实体对所在句子特征和核心谓词特征,并形成特征向量,将该特征向量输入到步骤2.1中训练好的SVM分类模型,即可得到实体之间的关系,即部件实体、模型实体和能力实体之间的三元组关系(实体-关系-实体)。
步骤3,基于规则和SVM模型对仿真需求文本进行部件精度信息抽取,如图4所示。
提取训练语料中实体对所在句子的特征向量,训练SVM分类模型;将待识别的仿真需求文本根据阈值规则和距离规则从该语句中抽取出阈值与性能指标,其次将部件实体与性能指标、性能指标与阈值两两配对形成实体对,构建实体对所在句子的特征向量并输入到各自SVM分类模型中,获得抽取结果。
部件精度信息由部件实体、性能指标及阈值组成,部件实体为半实物仿真系统中的设备,性能指标为部件的某些精度特性,阈值表示应达到的该特性应达到的质量要求,如负载模拟器、中心直径及70~330mm。
所述步骤3具有以下两个子步骤,如下:
步骤3.1:训练阶段,训练语料由各类半实物仿真需求文本组成,与步骤1.1的训练语料为同一训练语料集,将训练语料中的部件实体与性能指标组成实体对,并将该实体对所在句子的特征形成特征向量,将特征向量输入SVM模型,形成部件实体与性能指标的SVM分类模型;将训练语料中的性能指标与阈值组成实体对,并将该实体对所在句子的特征形成特征向量,将特征向量输入SVM模型,形成性能指标与阈值的SVM分类模型。
部件实体与性能指标的SVM分类模型目的是判断语句中的部件实体与性能指标是否存在关系,存在关系则为“1”,不存在关系则为“0”;性能指标与阈值的SVM分类模型目的是判断语句中的性能指标与阈值是否存在关系,存在关系则为“1”,不存在关系则为“0”。因此在进行部件精度信息抽取之前需要构建这两个分类器。
步骤3.2:部件精度信息抽取阶段,首先将待进行部件精度信息抽取的仿真需求文本经过步骤1.2过程,得到所有包含部件实体的语句,将该语句进行去停用词处理,根据以下阈值规则抽取该语句中的阈值,并根据位置规则抽取性能指标的候选词,并组成部件实体、性能指标实体对和性能指标、阈值实体对。对部件实体、性能指标实体对与性能指标实体、阈值实体对形成各自所在语句的特征向量,此过程由哈工大LTP工具完成,将该特征向量分别输入到步骤3.1中训练好的部件实体与性能指标SVM分类模型和性能指标与阈值SVM分类模型中,如果输出都为1,则表示该部件实体、性能指标及阈值之间是存在关系的,从而获得部件实体、性能指标及阈值三元组关系,示例如表1所示。
表1部件性能信息的抽取结果表
Figure BDA0002326973420000041
Figure BDA0002326973420000051
阈值规则表现为词性组成规则,在仿真系统需求文本中的表现为三类:“数词”+“量词”(如15Nm、0.2Nm等)、“符号”+“数词”+“量词”(≥15Hz、±30°等)、“数词”+“~”+“数词”+“量词”(15~20Hz)。
位置规则为提取该语句中阈值前的第一个或第二个名词词性的词语,即为性能指标的候选词。
步骤4,基于BoW+NBSVM对仿真系统需求文本进行系统标准语句识别,如图5所示。
首先训练语料进行数据预处理,其次确定文本特征的表达方式,基于此训练分类模型,并将该分类模型应用于系统标准语句识别中。
系统标准可以认为是一般系统中的非功能需求,只是在仿真系统中具有特殊的意义。系统标准分为性能效率、可靠性、可用性、安全性、可保障性、运行环境和接口特性七类。
所述步骤4具有以下四个子步骤,如下:
步骤4.1:训练与语料由与待构建AC的需求文本同类别的需求文本组成,可以与步骤1.1、2.1、3.1采用同一个训练语料,首先使用HanLP工具对训练语料进行分词、词性标注和关键词提取;
步骤4.2:使用文本特征模型BoW确定步骤4.1文本特征的表达方式;
步骤4.3:将文本特征化表示输入NBSVM分类模型,得到训练好的NBSVM分类模型;
步骤4.4:使用步骤4.1的分词与关键词提取以及步骤4.2的文本特征表示处理待识别的仿真需求文本,将得到的特征输入到步骤4.3中训练好NBSVM分类模型中,即可得出分类结果为“包含系统标准”和“不包含系统标准”两类标签。
步骤5,基于改进的非功能需求分类算法进行系统标准语句分类,如图6所示。
基于步骤4的系统标准语句识别结果,将系统标准语句进行关键词提取,计算关键词与特征词的语义相似度,并依据相似度大小将关键词划分到最近似类,最后使用加权投票方法确定具体分类。
所述步骤5具有以下四个子步骤,如下:
步骤5.1:首先使用HanLP工具将步骤4中识别的包含系统标准的语句进行关键词抽取,每个语句可能存在多个关键词;
步骤5.2:其次利用词林与词向量融合的词语相似度计算方法,计算5.1中的关键词与七类系统标准的常用特征词之间的语义相似度;
词林与词向量融合的词语相似度计算方法为:使用仿真系统需求文本语料库训练Word2Vec模型,并将训练好的Word2Vec模型与词林相似度计算方法进行简单融合,融合的权重设置为Word2Vec权重为0.5,词林权重为0.5;
步骤5.3:最后依据关键词与特征词的相似度大小将关键词划分到最近似类,由于每个特征词拥有不同的权重,最终对语句中的所有关键词使用加权投票方式将系统标准语句划分到具体类别,从而得到系统标准语句的具体分类。
步骤6,基于步骤2与步骤3得到的两对三元组关系和步骤5得到的系统标准语句及其具体分类共同构建仿真需求文档中的AC。

Claims (5)

1.一种基于监督学习和文本分类的AC构建方法,其特征在于,包括以下步骤:
步骤1、基于CRF模型对仿真需求文本进行实体抽取;
步骤2、基于SVM模型对仿真需求文本进行实体关系抽取;
步骤3、基于规则和SVM模型对仿真需求文本进行部件精度信息抽取;
步骤4、基于BoW+NBSVM对仿真系统需求文本进行系统标准语句识别;
步骤5、基于改进的非功能需求分类算法进行系统标准语句分类;
步骤6、综合实体关系、部件精度信息、系统标准语句及分类,构建仿真需求文档中的AC;
步骤1中,将训练语料经过分词与标注后形成的文件输入到CRF模型,训练CRF模型对仿真需求文本进行实体识别,具体过程如下:
步骤1.1:CRF模型训练阶段,由与待AC构建的仿真需求文本同类别的半实物仿真系统需求文档组成训练语料,首先将训练语料进行分词、词性标注、词边界标注、指示词标注、特征词标注和实体标注,并生成CRF模型输入文件;接下来使用CRF++对该CRF模型输入文件进行迭代,生成CRF模型;
步骤1.2:实体识别阶段,将待识别的仿真需求文本进行分词词性标注、词边界标注、指示词标注、特征词标注,生成CRF模型输入文件,并将生成CRF模型输入文件输入到步骤1.1中训练好的CRF模型,即得到待识别的仿真需求文本中的部件实体、模型实体和能力实体;
步骤2中,获取训练语料中第一实体对所在句子的第一特征向量,并将第一特征向量与关系类别输入到SVM模型,训练SVM模型对仿真需求文本进行实体关系提取,具体步骤如下:
步骤2.1:SVM分类模型训练阶段,首先将训练语料中每条语句的实体两两组合,形成第一实体对;接下来提取第一实体对所在句子的特征,即第一实体对本身的特征、第一实体对所在句子特征和核心谓词特征,此过程由哈工大LTP工具完成,并将这些特征形成第一特征向量;接着将第一特征向量与其分类标签输入到SVM分类模型,得到训练好的SVM分类模型;
步骤2.2:实体关系抽取阶段,首先将待进行实体关系抽取的仿真需求文本中包含的两个及以上实体的语句抽取出来,然后将语句中的实体两两配对组成第一实体对,提取第一实体对所在句子的特征,即第一实体对本身的特征、第一实体对所在句子特征和核心谓词特征,并形成第一特征向量,接着将第一特征向量输入到步骤2.1中训练好的SVM分类模型,即得到实体之间的关系,即部件实体、模型实体和能力实体之间的三元组关系;
步骤3中,提取训练语料中第二、三实体对所在句子的特征向量,训练SVM分类模型,将待识别的仿真需求文本根据阈值规则和距离规则从该语句中抽取出阈值与性能指标,将部件实体与性能指标、性能指标与阈值两两配对形成第二、三实体对,构建第二、三实体对所在句子的特征向量,输入到各自SVM分类模型中,抽取部件精度信息,具体步骤如下:
步骤3.1:训练阶段,将训练语料中的部件实体与性能指标组成第二实体对,并将第二实体对所在句子的特征形成第二特征向量,将第二特征向量输入SVM模型,形成部件实体与性能指标的SVM分类模型;将训练语料中的性能指标与阈值组成第三实体对,并将第三实体对所在句子的特征形成第三特征向量,将第三特征向量输入SVM模型,形成性能指标与阈值的SVM分类模型;
部件实体与性能指标的SVM分类模型目的是判断语句中的部件实体与性能指标是否存在关系,存在关系则为“1”,不存在关系则为“0”;性能指标与阈值的SVM分类模型目的是判断语句中的性能指标与阈值是否存在关系,存在关系则为“1”,不存在关系则为“0”;
步骤3.2:部件精度信息抽取阶段,首先从待进行部件精度信息抽取的仿真需求文本中提取所有包含部件实体的语句,将该语句进行去停用词处理,并根据阈值规则抽取该语句中的阈值,根据位置规则抽取性能指标的候选词,组成部件实体、性能指标实体对和性能指标、阈值实体对;然后对部件实体、性能指标实体对与性能指标实体、阈值实体对形成各自所在语句的特征向量,此过程由哈工大LTP工具完成,将该特征向量分别输入到步骤3.1中训练好的部件实体与性能指标SVM分类模型和性能指标与阈值SVM分类模型中,如果输出都为1,则表示该部件实体、性能指标及阈值之间是存在关系的,从而获得部件实体、性能指标及阈值三元组关系;
步骤5中,对识别的系统标准语句进行关键词提取,计算关键词与特征词的语义相似度,并依据相似度大小将关键词划分到最近似类,最后使用加权投票方法确定具体分类,具体步骤如下:
步骤5.1:首先使用HanLP工具对步骤4中识别的包含系统标准的语句进行关键词抽取,每个语句存在多个关键词;
步骤5.2:其次利用词林与词向量融合的词语相似度计算方法,计算5.1中的关键词与七类系统标准的常用特征词之间的语义相似度;
步骤5.3:最后依据关键词与特征词的相似度大小将关键词划分到最近似类,由于每个特征词拥有不同的权重,最终对语句中的所有关键词使用加权投票方式将系统标准语句划分到具体类别,从而得到系统标准语句的具体分类。
2.根据权利要求1所述的基于监督学习和文本分类的AC构建方法,其特征在于,步骤3中,阈值规则表现为词性组成规则,在仿真系统需求文本中的表现为三类:“数词”+“量词”、“符号”+“数词”+“量词”、“数词”+“~”+“数词”+“量词”。
3.根据权利要求1所述的基于监督学习和文本分类的AC构建方法,其特征在于,步骤3中,位置规则为提取该语句中阈值前的第一个或第二个名词词性的词语,即为性能指标的候选词。
4.根据权利要求1所述的基于监督学习和文本分类的AC构建方法,其特征在于,步骤4中,首先训练语料进行数据预处理,其次确定文本特征的表达方式,基于分类模型抽取系统标准语句,具体步骤如下:
步骤4.1:使用HanLP工具对训练语料进行分词、词性标注和关键词提取;
步骤4.2:使用文本特征模型BoW确定步骤4.1文本特征的表达方式;
步骤4.3:将文本特征化表示输入NBSVM分类模型,得到训练好的NBSVM分类模型;
步骤4.4:使用步骤4.1的分词与关键词提取以及步骤4.2的文本特征表示处理待识别的仿真需求文本,将得到的特征输入到步骤4.3中训练好NBSVM分类模型中,即得出分类结果为“包含系统标准”和“不包含系统标准”两类标签。
5.根据权利要求1所述的基于监督学习和文本分类的AC构建方法,其特征在于,步骤5中,词林与词向量融合的词语相似度计算方法为:使用仿真系统需求文本语料库训练Word2Vec模型,并将基于Word2Vec模型得到相似度值,与基于词林相似度得到的相似度值进行融合,融合的权重设置为Word2Vec权重为0.5,词林权重为0.5。
CN201911321711.8A 2019-12-19 2019-12-19 基于监督学习和文本分类的ac构建方法 Active CN111191029B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911321711.8A CN111191029B (zh) 2019-12-19 2019-12-19 基于监督学习和文本分类的ac构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911321711.8A CN111191029B (zh) 2019-12-19 2019-12-19 基于监督学习和文本分类的ac构建方法

Publications (2)

Publication Number Publication Date
CN111191029A CN111191029A (zh) 2020-05-22
CN111191029B true CN111191029B (zh) 2022-11-25

Family

ID=70707452

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911321711.8A Active CN111191029B (zh) 2019-12-19 2019-12-19 基于监督学习和文本分类的ac构建方法

Country Status (1)

Country Link
CN (1) CN111191029B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112001171A (zh) * 2020-08-17 2020-11-27 四川大学 一种基于集成学习的涉案财物知识库实体识别方法
CN112733508B (zh) * 2021-03-30 2021-06-18 中国电子技术标准化研究院 标准文本标注、标准图谱构建方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763510A (zh) * 2018-05-30 2018-11-06 北京五八信息技术有限公司 意图识别方法、装置、设备及存储介质
CN109408642A (zh) * 2018-08-30 2019-03-01 昆明理工大学 一种基于距离监督的领域实体属性关系抽取方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108763510A (zh) * 2018-05-30 2018-11-06 北京五八信息技术有限公司 意图识别方法、装置、设备及存储介质
CN109408642A (zh) * 2018-08-30 2019-03-01 昆明理工大学 一种基于距离监督的领域实体属性关系抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
中文非功能需求描述的识别与分类方法研究;贾一荻等;《软件学报》;20191030;第30卷(第10期);第3115-3216页 *
面向服务架构的全文检索研究;吴泽彬等;《华中科技大学学报(自然科学版)》;20070331;第35卷;第202-205页 *

Also Published As

Publication number Publication date
CN111191029A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN109241255B (zh) 一种基于深度学习的意图识别方法
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
CN106598959B (zh) 一种确定双语语句对互译关系方法及系统
CN108563638B (zh) 一种基于主题识别和集成学习的微博情感分析方法
CN110362819B (zh) 基于卷积神经网络的文本情感分析方法
CN110612524B (zh) 信息处理装置、信息处理方法以及记录介质
CN109726745B (zh) 一种融入描述知识的基于目标的情感分类方法
CN110825867B (zh) 相似文本推荐方法、装置、电子设备和存储介质
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
CN112732916A (zh) 一种基于bert的多特征融合模糊文本分类模型
CN113505200A (zh) 一种结合文档关键信息的句子级中文事件检测的方法
CN111191029B (zh) 基于监督学习和文本分类的ac构建方法
CN111177367A (zh) 案件分类方法、分类模型训练方法及相关产品
CN111177402A (zh) 基于分词处理的评价方法、装置、计算机设备及存储介质
CN107818173B (zh) 一种基于向量空间模型的中文虚假评论过滤方法
CN111832281A (zh) 作文评分方法、装置、计算机设备及计算机可读存储介质
CN115859980A (zh) 一种半监督式命名实体识别方法、系统及电子设备
CN103678318A (zh) 多词单元提取方法和设备及人工神经网络训练方法和设备
CN114997288A (zh) 一种设计资源关联方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN111930937A (zh) 基于bert的智慧政务文本多分类方法及系统
CN113761377B (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
CN115017879A (zh) 文本对比方法、计算机设备及计算机存储介质
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
CN113361252B (zh) 基于多模态特征和情感词典的文本抑郁倾向检测系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant