CN105426358B - 一种针对海量新闻的疾病名词自动识别方法 - Google Patents

一种针对海量新闻的疾病名词自动识别方法 Download PDF

Info

Publication number
CN105426358B
CN105426358B CN201510756485.1A CN201510756485A CN105426358B CN 105426358 B CN105426358 B CN 105426358B CN 201510756485 A CN201510756485 A CN 201510756485A CN 105426358 B CN105426358 B CN 105426358B
Authority
CN
China
Prior art keywords
disease
noun
ontology
areas
high frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510756485.1A
Other languages
English (en)
Other versions
CN105426358A (zh
Inventor
陈瑛
裴蓓
程碧霄
高万林
赵明
彭珺
杜亚茹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Third Research Institute of the Ministry of Public Security
Original Assignee
China Agricultural University
Third Research Institute of the Ministry of Public Security
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University, Third Research Institute of the Ministry of Public Security filed Critical China Agricultural University
Priority to CN201510756485.1A priority Critical patent/CN105426358B/zh
Publication of CN105426358A publication Critical patent/CN105426358A/zh
Application granted granted Critical
Publication of CN105426358B publication Critical patent/CN105426358B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种针对海量新闻的疾病名词自动识别方法,所述方法包括,获取第一预设新闻材料中的语料数据;构建疾病领域本体;对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体;利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注,得到带有扩充后的疾病名词标注的训练语料;根据所述带有扩充后的疾病名词标注的训练语料,建立疾病名词自动识别模型;根据所述疾病名词自动识别模型,对第二预设新闻材料中的语料进行疾病名词识别。本发明所述方法实现了对新闻报道等语言通俗的文献中的疾病名词或其别名的自动识别。

Description

一种针对海量新闻的疾病名词自动识别方法
技术领域
本发明涉及自然语言处理领域,特别是涉及一种针对海量新闻的疾病名词自动识别方法。
背景技术
伴随着信息全球基础设施和各国信息基础设施的形成和完善,现代社会已进入网络化、信息化时代。网络时代的信息安全是涉及我国经济发展、社会发展、国家安全的重大问题,因此,加强信息安全监管尤为重要。作为一种敏感性内容,疾病相关报道是新闻审核部门的一项重要审查内容。传统新闻审核主要依赖人力,费时耗力;现有的敏感词自动识别系统往往基于特定的词表,对未收录词无法做到自动判别。疾病本身种类多,别名丰富,且随着时间发展往往会出现新的疾病名称。因此,研究疾病名词自动识别,尤其是对于新出现词的自动识别,有利于更为全面的识别目标信息,从而可以辅助审核人员和决策人员进行相关审查工作,减少敏感信息的不必要曝光,保障国家信息安全。
疾病名词是一种类型的专有名词,而专有名词抽取一直是信息抽取领域的研究重点。目前流行的专有名词识别方法主要采用机器学习方式,其利用人工标注语料作为训练语料,结合各种全监督式机器学习方法和特征提取方法,得到专有名词识别模型。由于,人工标注语料费时费力,并且面临覆盖率差等各种问题,因此需要研究高质量的训练语料自动标注方法。近年来,利用本体知识库实现训练语料的自动标注,从而得到半监督式专有名词识别模型。作为一种能够在语义和知识层面上描述事物的概念模型,本体可以提供某一领域的概念及其关系,可以用于语料的自动标注。
但是,现有的疾病领域本体,大多采用较为规范的学术用语。而现有文献很多是面向人民大众的,比如新闻报道,语言相对通俗,两者之间存在较大的表达方式差异。因此,利用现有的疾病领域本体对新闻报道进行标注得到的训练语料的覆盖率不高,进一步地,基于这种自动标注训练语料的疾病名词识别模型也不能对新闻报道等运用通俗语言的文献进行自动识别。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何解决现有的疾病领域本体,大多采用较为规范的学术用语,不能对新闻报道等运用通俗语言的文献很好地进行自动识别的问题。
(二)技术方案
为了解决上述技术问题,第一方面,本发明提供了一种针对海量新闻的疾病名词自动识别方法,包括:
获取第一预设新闻材料中的语料数据;
构建疾病领域本体;
对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体;利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注,得到带有扩充后的疾病名词标注的训练语料;
根据所述带有扩充后的疾病名词标注的训练语料,建立疾病名词自动识别模型;
根据所述疾病名词自动识别模型,对第二预设新闻材料中的语料进行疾病名词识别。
优选的,所述获取第一预设新闻材料中的语料数据,具体包括:
通过网络终端设备收集新闻材料数据;
对所述新闻材料数据进行预处理,包括:提取新闻材料的名称、日期、作者、标题和/或文章数据,并进行保存。
优选的,所述构建疾病领域本体,具体包括:
获取现有的领域词表中的疾病名词和与疾病名词对应的分类关系,构建疾病领域本体。
优选的,对所述疾病领域本体进行扩充,得到扩充后的疾病领域
本体,具体包括:
基于百度百科扩充所述疾病领域本体的分类关系,得到扩充后的分类关系;
基于百度百科扩充所述疾病领域本体中疾病名词的别名,得到扩充后的疾病名词别名。
优选的,所述利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注,得到带有扩充后的疾病名词标注的训练语料,具体包括:
以所述扩充后的疾病领域本体中的疾病名词及其别名作为检索词,对所述语料数据进行检索,得到包含疾病名词的报道集合;
从所述报道集合中提取包含所述疾病名词的句子;
对所述包含所述疾病名词的句子进行自动标注,得到带有疾病名词标注的训练语料。
优选的,根据所述带有所述疾病名词标注的训练语料,建立疾病名词自动识别模型,具体包括:
从包含所述疾病名词句子中提取高频词,建立高频词表;
对照所述高频词表,对所述带有疾病名词标注的训练语料的每个句子进行特征提取,以当前字距离所述高频词的距离为特征值;
用所述特征值训练支持向量机,得到所述疾病名词自动识别模型。
优选的,从包含所述疾病名词句子中提取高频词,建立高频词表,具体包括:
对包含所述疾病名词句子进行统计,通过设定高频词元数、高频词个数以及不同词元的组合方案提取所述高频词,并根据所述高频词建立所述高频词表。
(三)有益效果
基于上述技术方案,本发明通过获取第一预设新闻材料中的语料数据;构建疾病领域本体;对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体;利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注,得到带有扩充后的疾病名词标注的训练语料;根据所述带有扩充后的疾病名词标注的训练语料,建立疾病名词自动识别模型;根据所述疾病名词自动识别模型,对第二预设新闻材料中的语料进行疾病名词识别,提高了疾病领域本体对新闻报道进行标注得到的训练语料的覆盖率,进一步地,本申请建立的疾病名词识别模型可以对新闻报道等运用通俗语言的文献进行很好的自动识别。
附图说明
图1是本发明实施例一提供的针对海量新闻的疾病名词自动识别方法流程示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例适于说明本发明,但不用来限制本发明的范围。
本发明实施例一提供了一种针对海量新闻的疾病名词自动识别方法,参见图1,包括:
步骤101、获取第一预设新闻材料中的语料数据。
具体为,通过网络终端设备收集新闻材料数据;对所述新闻材料数据进行预处理;所述的预处理包括:提取新闻材料的名称、日期、作者、标题和/或文章数据,并进行保存。
在本步骤中,所述第一预设新闻材料可以为新闻日报、人民日报、光明日报或中国青年报等新闻材料。
可以看出的是,本实施例中的获取语料数据经过了预处理步骤,提取了新闻材料数据中的重要信息,减少了在对海量文献采集语料自动标注时的工作量。
步骤102、构建疾病领域本体。
在本步骤中,疾病领域本体是通过获取现有的领域词表中的疾病名词和与疾病名词对应的分类关系构建的。
获取现有的领域词表中的疾病名词和与疾病名词对应的分类关系,构建疾病领域本体。
现有的分类方法,比如,国际疾病分类(International Classification ofDiseases,ICD)是WHO制定的国际统一的疾病分类方法,从ICD中可以快速获得大规模的疾病名词、疾病名词别名和分类关系。
步骤103、对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体。
优选地,扩充是基于百度百科进行的,扩充内容可以是疾病领域本体中疾病的分类关系,或者是疾病名词别名。
例如,疾病名词别名的扩充,根据其对应的百度百科词条的结构化表格信息和非结构化文本信息,使用人工构造的语言模式进行匹配,提取疾病名词的别名信息,从而扩展疾病名词的别名关系,进而扩充疾病领域本体。
举例来说,“感冒”根据百度百科进行匹配,能获得“伤寒”等别名,把这些别名提取出来放入疾病领域本体中,就完成了疾病领域本体关于疾病名词别名的扩充。本实施在此起到举例说明的作用,不作为对扩充内容的限定,“感冒”还有很多别名,在此没有一一列举。
例如,疾病分类关系的扩充,是将疾病领域本体和对应的百度百科中的结构化信息进行匹配,在百度百科中找到疾病领域本体中没有的疾病标签,并将疾病标签和该疾病标签下的疾病名词放入到疾病领域本体中,从而完成疾病分类关系的扩充。
举例来说,将疾病领域本体和对应的百度百科中的结构化信息进行匹配后,在百度百科中找到了疾病领域本体中没有的疾病标签“肺病”,“肺病”标签下包括“肺结核”、“肺炎”、“肺气肿”等疾病名词,把“肺病”这个标签和“肺结核”、“肺炎”、“肺气肿”等疾病名词都放入疾病领域本体里,从而实现了疾病分类关系的扩充。本实施在此起到举例说明的作用,不作为对扩充内容的限定。
步骤104、利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注,得到带有扩充后的疾病名词标注的训练语料。
在本步骤中,自动标注并得到带有疾病名词标注的训练语料的步骤为:
以所述疾病领域本体中的疾病名词及其别名作为检索词,对所述语料数据进行检索,得到包含所述疾病名词的报道集合;
从所述报道集合中提取包含所述疾病名词的句子,记为DS={dsi,i=1,2,3…m};
对所述包含所述疾病名词的句子进行自动标注,得到带有疾病名词标注的训练语料。对每个句子dsi∈DS,对其中表示疾病名词的字标为1,非疾病名词的字标为0,记为dsli,最终的标记后集合记为DSL={dsli,i=1,2,3…m};
优选地,在对所述语料数据进行检索前,还利用Lucene开源工具包为海量新闻日报数据建立倒排索引,检索数据。
步骤105、根据所述带有扩充后的疾病名词标注的训练语料,建立疾病名词自动识别模型。
在本步骤中,建立疾病名词自动识别模型的步骤为:
S1:从包含所述疾病名词句子提取高频词,建立高频词表;
本实施例中,所述高频词的选取策略以选择二元词为主,一元词、三元词为辅的策略,统计得出的高频词表作为特征,用于训练语料的特征提取。
S2:对照所述高频词表,对所述带有疾病名词标注的训练语料中的每个句子进行特征提取,以当前字距离所述高频词的距离为特征值;
S3:用所述特征值训练支持向量机,得到所述疾病名词自动识别模型。
进一步的,所述用特征值训练支持向量机,具体包括:
a)将特征提取的结果输入支持向量机训练工具包LibSVM,格式如下:
[label][index1]:[value1][index2]:[value2]…
其中,参数label表示当前字的标记,即分类的类别标签。如果该字隶属于疾病名称,记为1;否则记为0。
index表示特征向量的索引,即特征向量的编号。
value表示特征值,即距离对应特征的距离。
b)对数据进行归一化操作。避免一些特征值范围过大而另一些特征值范围过小;同时避免在训练时为了计算核函数而计算内积的时候引起数值计算的困难。这里将数据缩放到[-1,1]之间。
c)支持向量机训练方法选用径向基(RBF)核函数或者二次多项式核函数。
d)采用交叉验证选择最佳参数C与g,对整个训练集进行训练获取支持向量机模型。
步骤106、根据所述疾病名词自动识别模型,对第二预设新闻材料中的语料进行疾病名词识别。
本发明为了检测本发明疾病名词自动识别方法的有效性,本发明对上面提到的方法进行不同类型的测试。测试结果如表1和表2所示,其中,样本数量表示训练语料的句子数。综合F值中综合考虑两类字(疾病字和非疾病字)的识别效果,由疾病字的F值和非疾病字的F值取平均得到。
表1
表1展示了上面提到的方法在不同来源的新闻报道语料上识别疾病名称的能力。这里选择光明日报和中国青年报的标注语料为训练语料,共计约13万条语句;人民日报数据作为测试语料,共计约2万条语句。从表1中,综合F值最高达到86.07%,此时对应的疾病字识别查准率为82.81%,查全率为91.13%。这表明本方法得到的疾病名词识别模型在新闻报道语料上表现良好,对不同语料具有良好的适应性。
表2
表2展示了上面提到的方法识别新的疾病名称的能力。经筛选,得到包含疾病名词的句子语料共15万条语句,其中包含疾病名词230种。我们按照不同疾病名词将语料随机分为2个部分,75%作为训练语料,25%作为测试语料。这里,测试语料包含的疾病名词与训练语料完全不同,以此测试结果来评价训练模型识别新的疾病名词的效果。可以看到,样本数量取6000时,模型对新词的预测的F值最高达到了81.08%,其查准率和查全率分别达到81.76%、80.40%。这表明本发明提出的基于海量新闻的疾病名词识别方法具有对新词的良好识别能力。
本实施例中,第一预设新闻材料和第二预设新闻材料可以为相同的新闻材料,也可以为不同的新闻材料。
本实施例通过获取第一预设新闻材料中的语料数据;构建疾病领域本体;对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体;利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注,得到带有扩充后的疾病名词标注的训练语料;根据所述带有扩充后的疾病名词标注的训练语料,建立疾病名词自动识别模型;根据所述疾病名词自动识别模型,对第二预设新闻材料中的语料进行疾病名词识别,提高了疾病领域本体对新闻报道进行标注得到的训练语料的覆盖率,进一步地,本申请建立的疾病名词识别模型可以对新闻报道等运用通俗语言的文献进行很好的自动识别。
以上实施方式仅用于说明本发明,而并非对本发明的限制,有关技术领域的普通技术人员,在不脱离本发明的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明的范畴,本发明的专利保护范围应由权利要求限定。

Claims (6)

1.一种针对海量新闻的疾病名词自动识别方法,其特征在于,包括:
获取第一预设新闻材料中的语料数据;
构建疾病领域本体;
对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体;
利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注,得到带有扩充后的疾病名词标注的训练语料;
所述利用所述扩充后的疾病领域本体对从第一预设新闻材料中获取的语料数据进行自动标注,得到带有扩充后的疾病名词标注的训练语料,具体包括:
以所述扩充后的疾病领域本体中的疾病名词及其别名作为检索词,对所述语料数据进行检索,得到包含疾病名词的报道集合;
从所述报道集合中提取包含所述疾病名词的句子;
对所述包含所述疾病名词的句子进行自动标注,得到带有疾病名词标注的训练语料;
根据所述带有扩充后的疾病名词标注的训练语料,建立疾病名词自动识别模型;
根据所述疾病名词自动识别模型,对第二预设新闻材料中的语料进行疾病名词识别。
2.根据权利要求1所述的方法,其特征在于,所述获取第一预设新闻材料中的语料数据,包括:
通过网络终端设备收集新闻材料数据;
对所述新闻材料数据进行预处理,包括:提取新闻材料的名称、日期、作者、标题和/或文章数据,并进行保存。
3.根据权利要求2所述的方法,其特征在于,所述构建疾病领域本体,包括:
获取现有的领域词表中的疾病名词和与疾病名词对应的分类关系,构建疾病领域本体。
4.根据权利要求3所述的方法,其特征在于,对所述疾病领域本体进行扩充,得到扩充后的疾病领域本体,包括:
基于百度百科扩充所述疾病领域本体的分类关系,得到扩充后的分类关系;
基于百度百科扩充所述疾病领域本体中疾病名词的别名,得到扩充后的疾病名词别名。
5.根据权利要求4所述的方法,其特征在于,根据所述带有疾病名词标注的训练语料,建立疾病名词自动识别模型,包括:
从所述包含所述疾病名词句子中提取高频词,建立高频词表;
对照所述高频词表,对所述带有疾病名词标注的训练语料的每个句子进行特征提取,以当前字距离所述高频词的距离为特征值;
用所述特征值训练支持向量机,得到所述疾病名词自动识别模型。
6.根据权利要求5所述的方法,其特征在于,从包含所述疾病名词句子中提取高频词,建立高频词表,包括:
对包含所述疾病名词句子进行统计,通过设定高频词元数、高频词个数以及不同词元的组合方案提取所述高频词,并根据所述高频词建立所述高频词表。
CN201510756485.1A 2015-11-09 2015-11-09 一种针对海量新闻的疾病名词自动识别方法 Expired - Fee Related CN105426358B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510756485.1A CN105426358B (zh) 2015-11-09 2015-11-09 一种针对海量新闻的疾病名词自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510756485.1A CN105426358B (zh) 2015-11-09 2015-11-09 一种针对海量新闻的疾病名词自动识别方法

Publications (2)

Publication Number Publication Date
CN105426358A CN105426358A (zh) 2016-03-23
CN105426358B true CN105426358B (zh) 2018-08-31

Family

ID=55504572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510756485.1A Expired - Fee Related CN105426358B (zh) 2015-11-09 2015-11-09 一种针对海量新闻的疾病名词自动识别方法

Country Status (1)

Country Link
CN (1) CN105426358B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105956362B (zh) * 2016-04-20 2018-12-18 上海爱楷医疗科技有限公司 一种可信的病历结构化方法及系统
CN107577655A (zh) * 2016-07-05 2018-01-12 北京国双科技有限公司 名称获取方法和装置
CN106874643B (zh) * 2016-12-27 2020-02-28 中国科学院自动化研究所 基于词向量自动构建知识库实现辅助诊疗的方法和系统
CN108320778A (zh) * 2017-01-16 2018-07-24 医渡云(北京)技术有限公司 病案icd编码方法及系统
CN107480126B (zh) * 2017-07-10 2021-04-13 华联世纪工程咨询股份有限公司 一种工程材料类别智能识别方法
CN108509419B (zh) * 2018-03-21 2022-02-22 山东中医药大学 中医药古籍文献分词和词性标引方法及系统
CN109271630B (zh) * 2018-09-11 2022-07-05 成都信息工程大学 一种基于自然语言处理的智能标注方法及装置
CN110334337B (zh) * 2019-04-24 2020-12-08 北京科技大学 一种基于中医古籍文献的短语挖掘方法和系统
CN110969009B (zh) * 2019-12-03 2023-10-13 哈尔滨工程大学 一种汉语自然语言文本的词语切分方法
CN112784594B (zh) * 2020-06-05 2023-05-26 珠海金山办公软件有限公司 一种文档处理方法、装置、电子设备及可读存储介质
CN112201350A (zh) * 2020-11-11 2021-01-08 北京嘉和海森健康科技有限公司 一种智能分诊方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234657A (ja) * 2007-03-19 2008-10-02 Toshiba Corp 言語モデルの枝刈り方法及び装置
CN102033950A (zh) * 2010-12-23 2011-04-27 哈尔滨工业大学 电子产品命名实体自动识别系统的构建方法及识别方法
CN104182454A (zh) * 2014-07-04 2014-12-03 重庆科技学院 基于领域本体构建的多源异构数据语义集成的模型及方法
CN104573006A (zh) * 2015-01-08 2015-04-29 南通大学 一种公共卫生突发事件领域知识库的构建方法
CN104679885A (zh) * 2015-03-17 2015-06-03 北京理工大学 一种基于语义特征模型的用户搜索串机构名识别方法
CN104750779A (zh) * 2015-03-04 2015-07-01 华东师范大学 一种基于条件随机场的中文兼类词识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234657A (ja) * 2007-03-19 2008-10-02 Toshiba Corp 言語モデルの枝刈り方法及び装置
CN102033950A (zh) * 2010-12-23 2011-04-27 哈尔滨工业大学 电子产品命名实体自动识别系统的构建方法及识别方法
CN104182454A (zh) * 2014-07-04 2014-12-03 重庆科技学院 基于领域本体构建的多源异构数据语义集成的模型及方法
CN104573006A (zh) * 2015-01-08 2015-04-29 南通大学 一种公共卫生突发事件领域知识库的构建方法
CN104750779A (zh) * 2015-03-04 2015-07-01 华东师范大学 一种基于条件随机场的中文兼类词识别方法
CN104679885A (zh) * 2015-03-17 2015-06-03 北京理工大学 一种基于语义特征模型的用户搜索串机构名识别方法

Also Published As

Publication number Publication date
CN105426358A (zh) 2016-03-23

Similar Documents

Publication Publication Date Title
CN105426358B (zh) 一种针对海量新闻的疾病名词自动识别方法
CN106570179B (zh) 一种面向评价性文本的核心实体识别方法及装置
CN104778209B (zh) 一种针对千万级规模新闻评论的观点挖掘方法
CN105808525B (zh) 一种基于相似概念对的领域概念上下位关系抽取方法
CN104598535B (zh) 一种基于最大熵的事件抽取方法
CN104572958B (zh) 一种基于事件抽取的敏感信息监控方法
CN103235772B (zh) 一种文本集人物关系自动提取方法
CN105447206B (zh) 基于word2vec算法的新评论对象识别方法及系统
CN106202372A (zh) 一种网络文本信息情感分类的方法
CN107122340B (zh) 一种基于同义词分析的科技项目申报书的相似度检测方法
CN105760439B (zh) 一种基于特定行为共现网络的人物共现关系图谱构建方法
TW201737118A (zh) 網頁文本分類的方法和裝置,網頁文本識別的方法和裝置
CN105320960A (zh) 一种基于投票的跨语言主客观情感分类方法
CN106708966A (zh) 基于相似度计算的垃圾评论检测方法
CN103942190B (zh) 语音合成中文本分词方法及系统
CN107122352A (zh) 一种基于k‑means、word2vec的抽取关键词的方法
CN103729474B (zh) 用于识别论坛用户马甲账号的方法和系统
CN109446404A (zh) 一种网络舆情的情感极性分析方法和装置
CN105975478A (zh) 一种基于词向量分析的网络文章所属事件的检测方法和装置
CN105975454A (zh) 一种网页文本的中文分词方法和装置
CN107122349A (zh) 一种基于word2vec‑LDA模型的文本主题词提取方法
CN109344250A (zh) 基于医保数据的单病种诊断信息快速结构化方法
CN109492105B (zh) 一种基于多特征集成学习的文本情感分类方法
CN106202584A (zh) 一种基于标准词典和语义规则的微博情感分析方法
CN106547875A (zh) 一种基于情感分析和标签的微博在线突发事件检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C41 Transfer of patent application or patent right or utility model
TA01 Transfer of patent application right

Effective date of registration: 20160422

Address after: 100193 Beijing Old Summer Palace West Road, Haidian District, No. 2

Applicant after: China Agricultural University

Applicant after: The Third Research Institute of Ministry of Public Security

Address before: 100193 Beijing Old Summer Palace West Road, Haidian District, No. 2

Applicant before: China Agricultural University

CB03 Change of inventor or designer information

Inventor after: Chen Ying

Inventor after: Pei Bei

Inventor after: Cheng Bixiao

Inventor after: Gao Wanlin

Inventor after: Zhao Ming

Inventor after: Peng Jun

Inventor after: Du Yaru

Inventor before: Chen Ying

Inventor before: Gao Wanlin

Inventor before: Cheng Bixiao

Inventor before: Zhao Ming

Inventor before: Peng Jun

Inventor before: Du Yaru

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180831

Termination date: 20211109