CN111476025B - 一种面向政府领域新词自动发现的实现方法、分析模型及其系统 - Google Patents

一种面向政府领域新词自动发现的实现方法、分析模型及其系统 Download PDF

Info

Publication number
CN111476025B
CN111476025B CN202010133406.2A CN202010133406A CN111476025B CN 111476025 B CN111476025 B CN 111476025B CN 202010133406 A CN202010133406 A CN 202010133406A CN 111476025 B CN111476025 B CN 111476025B
Authority
CN
China
Prior art keywords
word
words
new
score
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010133406.2A
Other languages
English (en)
Other versions
CN111476025A (zh
Inventor
汪敏
严妍
刘鹏飞
尹娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Kaipuyun Information Technology Co ltd
Cape Cloud Information Technology Co ltd
Original Assignee
Beijing Kaipuyun Information Technology Co ltd
Cape Cloud Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Kaipuyun Information Technology Co ltd, Cape Cloud Information Technology Co ltd filed Critical Beijing Kaipuyun Information Technology Co ltd
Priority to CN202010133406.2A priority Critical patent/CN111476025B/zh
Publication of CN111476025A publication Critical patent/CN111476025A/zh
Application granted granted Critical
Publication of CN111476025B publication Critical patent/CN111476025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Tourism & Hospitality (AREA)
  • General Physics & Mathematics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种面向政府领域新词自动发现的实现方法、分析模型及其系统,所述方法包括:对网络信息去除杂数据后得到纯文本,通过HanLP分词器对纯文本进行分词获得带有词性的单词集合,对单词集合进行常用词、垃圾词的初步过滤,对过滤结果进行单词多元匹配形成组合词汇,根据组合规则判断词性,运用TF/IDF算法统计词频得到加权分数,根据分数进行筛选和专家鉴定形成最优规则,系统依据最优规则进行循环训练和全文模式匹配后输出目标结果得到分析模型。本技术将多元匹配规则、智能过滤、加权统计、规则判断和专家鉴定技术相融合,收录大量专业词典,借鉴语言学家研究成果,形成了最优的分析模型从而输出新的词汇,有效提高了新词发现效率和新词识别的准确性,同时可查询到具有更高语义专指度的复合词,提升了政府网站新词发现的专业度和准确性。

Description

一种面向政府领域新词自动发现的实现方法、分析模型及其 系统
技术领域
本发明涉及网络信息技术领域,尤其涉及一种面向政府领域新词自动发 现的实现方法、分析模型及其系统。
背景技术
现有的政府网站新词发现功能不准确、不全面,对专有复合新词的发现 效果差。
目前,现有技术大都是基于统计或者基于规则来实现新词发现,其中, 基于统计的方法一般都限于查找较短的短语,基于规则的方法一般会局限于某个 领域。随着新词发现技术研究的不断深入,单独利用规则的方法会由于规则获取 的限制,将越来越不能满足逐渐加快的新词产生速度和识别速度的要求,单独利 用统计的方法由于其忽略了词语内部结构特征和构词能力等特性,也不能达到最 好的效果。因此,如何更准确、更全面、更快速地发现政府领域内新词,尤其是 专有性复合新词是本领域的一个难点。
发明内容
本发明为了弥补现有技术的不足,提供一种面向政府领域新词自动发现 的实现方法、分析模型及其系统,该技术将多元匹配规则、智能过滤、加权统计、 规则判断和专家鉴定技术相融合,收录大量专业词典,借鉴语言学家研究成果, 形成了最优的分析模型从而输出新的词汇,有效提高了新词发现效率和新词识别 的准确性,同时可查询到具有更高语义专指度的复合词,提升了政府网站新词发 现的专业度和准确性。
本发明提供了一种面向政府领域新词自动发现的分析模型,该模型部署方法如下:
对网络信息去除杂数据后得到纯文本,通过HanLP分词器对纯文本进行分词获 得带有词性的单词集合,对单词集合进行常用词、垃圾词的初步过滤,对过滤结 果进行单词多元匹配形成组合词汇,根据组合规则判断词性,运用TF/IDF算法 统计词频得到加权分数,根据分数进行筛选和专家鉴定形成最优规则,系统依据 最优规则进行循环训练和全文模式匹配后输出目标结果得到分析模型。
进一步地,HanLP分词器包含目前常用的多种分词算法,比如正向最大 匹配算法,逆向最大匹配算法和双向最大匹配法。
进一步地,所述“组合词规则”包括单字组合词规则和多字组合词规则。
另外,本发明还提供了一种面向政府领域新词自动发现的实现方法,实现步骤如下:
依照自定义词典采用分词算法对网络信息解析后的文本信息进行切分,得到带有词性的单词集合,将单词集合与分析模型进行对比和词汇提取,获得包含词首、 词中和词尾的多元组合词,采用TF/IDF算法统计词中的词频和词首、词尾的单 词和词性并打分得到候选新词,根据分数对候选新词进行置信度判断,得到政府 领域新词。
进一步地,所述“分词算法”主要包括:正向最大匹配算法,逆向最大 匹配算法和双向最大匹配法。
进一步地,所述“自定义词典”可根据业务需求自行配置,随时导入相关业务词汇和大量专业词典以丰富词库。
另外,本发明还提供了一种面向政府领域新词自动发现的系统,该系统包括如下结构:
爬虫模块:通过爬虫技术从政府网站中抓取相关页面;
页面解析模块:对抓取的页面进行代码解析,去掉无关的HTML代码,取出相 关的文本信息;
分词模块:参考自定义词典、运用分词算法对解析后的文本信息进行切分;
模型构建和训练模块;
词性标注模块:对目标新词进行标注并存放到词性标注词库中,以丰富库中词汇;词性标注词库:对词库中词汇进行管理和自定义配置,可随时导入相关业务词汇 和大量专业词典,还可通过循环训练不断丰富词汇并指导文本信息的切分。
进一步地,模型构建和训练模块还包括智能过滤子模块、匹配组合子模 块、加权统计子模块、规则判断子模块和专家鉴定子模块。
本发明提供的一种面向政府领域新词自动发现的实现方法、分析模型及 其系统,相比于现有技术具有以下优点:
本发明将多元匹配规则、智能过滤、加权统计、规则判断和专家鉴定技术相融合,形成最优的分析模型从而输出新的词汇,使发现新词、复合词非常高效可信,尤 其是针对政府领域更显示出从特种语料中发现新词的巨大优势。本技术不仅提高 了新词发现效率和新词识别的准确性,还可以识别出具有更高语义专指度的复合 词,大大提升了政府网站新词发现的专业度和准确性。
附图说明
图1为实施例一的一种面向政府领域新词自动发现分析模型的部署方法操作流程示意图。
图2为实施例二的一种面向政府领域新词自动发现实现方法的操作流程示意图。
图3为实施例三的一种面向政府领域新词自动发现系统的结构示意图。
具体实施方式
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技 术手段,而可以找说明书的内容予以实施,并且为了让本发明的上述和其他目的、 特征和有点能够更明显易懂,以下为本发明的具体实施方式。
实施例一
参见图1,为本实施例提供的一种面向政府领域新词自动发现分析模型的部署方法,所举实例只用于解释本发明,并非用于限定本发明的范围。实现步骤如下:
S1、爬取政府发文信息网络片段;
S2、去除杂数据获得纯文本;
S3、根据自定义词典运用HanLP分词器对纯文本进行切分;
S4、对切分后的文本进行常用词、垃圾词的智能过滤;
S5、采用多元匹配规则对过滤结果进行组合形成新词汇;
S6、根据组合词规则对新词汇进行词性判断,并与停用词表进行比对;
S7、对符合规则的新词汇运用TF/IDF统计算法进行词频统计和加权计算;
S8、依据指定阈值对计算后的加权分数进行智能过滤;
S9、对过滤结果进行专家鉴定,形成最优规则;
S10、将鉴定结果进行全文模式匹配,获得目标结果并存储到自定义词典中;
S11、依据最优规则进行循环训练,得到分析模型。
其中,HanLP分词器包含的分词算法包含目前常用的多种分词算法,比 如正向最大匹配算法,逆向最大匹配算法和双向最大匹配法。
其中,S6所述“组合词规则”包括单字组合词规则和多字组合词规则。
其中,所述“单字组合词规则”是指:某些词的词性本身不具有实际的 概念意义,其功能主要用来造句而很少用来组成新词、新概念,包括数词、代词、 介词、助词、象声词和姓氏单字;其他词性的某些单字由于自身意义的原因,很 少用来组成新词新语,被归为单字组合词停用词表,包括不可扩展的单字、只做 首词的单字和只作尾词的单字。单字组合词规则的实现步骤如下:
S6.1、将单字组合词汇进行分离;
S6.2、不可扩展的单字列表过滤;
S6.3、只做主词的单字列表过滤;
S6.4、只做辅词的单字列表过滤;
S6.5、词性规则过滤;
S6.6、人工挑选得到结果。
其中,所述“多字组合词规则”是指:
规则 成词率 规则 成词率
单字+多字 名词+副词
名词+名词 较高 职位/职称+姓氏
名词+动词 前缀名词+词
名词+形容词 词+后缀名词
和单字组合词规则一样,多字组合词也有停用词表,包括禁用虚词、禁用实词、 只做首词和只做尾词。
其中,S5中所述“采用多元匹配规则对过滤结果进行组合形成新词汇” 的具体实现方法,举例如下。
实现原理:
采用四元匹配规则实现词汇组合,设Wnew=W1、W2、W3、W4,算法描述如下:
Figure BSA0000202695610000041
Figure BSA0000202695610000051
阈值f的取值根据需要来设置,词首、词中和词尾的阈值大小可以是不同的,而 且阈值大小和训练预料所用的N元语法中N的大小有一定关系:
Figure BSA0000202695610000061
当阈值f的取值用以下公式确定时,新词发现的质量较高,设Cheadi表示词首词 集合中的第i个词的词首模式值,VALUEheadi标识Cheadi的词频。则f_head可以 表示为:
Figure DEST_PATH_GDA0002531957690000012
同理,可以计算f_middle和f_tail,其中,head、tail、middle是词汇带入到分析模型后智能提取的包含词首、词中和词尾的多元组合词,f_head表示词首分值, f_middle表示词中分值,f_tail表示词尾分值。
结果展示:
利用爬虫程序从政府网站中抓取一定容量的页面,解析后通过最大正向匹配算法对文本信息进行分词,之后采用二元匹配、三元匹配和四元匹配规则对分词进行 重新组合,最后利用统计算法进行加权计算得到2016-2019政府工作报告新词发 现结果,其中,在2016-2019政府工作报告新词中涉及经济和民生类新词有53 个,经过统计算法计算出的二元匹配新词有14个、三元匹配新词有15个、四元 匹配新词有8个、多元匹配新词有16个,并根据新词出现频率进行倒序排列, 具体结果如下:
2016-2019政府工作报告新词发现结果
Figure RE-GDA0002531957690000021
从结果可以看出:所获得的专业复合词包含了更准确、更丰富的语义信息,用I(C)表示词汇C的语义的发散程度,“C/Q”表示复合词CQ由词C和词Q联合而成, 显然I(C/Q)<I(C)+I(Q),发现的复合词表达了更加准确的语义信息。
综上,本技术将多元匹配规则、智能过滤、加权统计、规则判断和专家 鉴定技术相融合形成最优的分析模型,有效提升发现新词、复合词的效率和准确 性,尤其是针对政府领域更显示出从特种语料中发现新词的优势。而且,当新词 的词频大于所有新词的数学期望时可信度更高,还会经过专家鉴定进行最终的判 断和筛选。
实施例二
参见图2,为本实施例提供的一种面向政府领域新词自动发现的实现方法,所举实例只用于解释本发明,并非用于限定本发明的范围。具体实现步骤如下:
S12、系统运用爬虫技术从政府网站中抓取相关页面;
S13、对抓取的页面进行代码解析,去掉无关的HTML代码,取出相关的文本信 息;
S14、依据自定义词典采用分词算法切分文本信息,得到带有词性的单词集合;
S15、将单词集合与分析模型进行对比,获得目标新词并存入自定义词典;
S16、得到政府领域新词。
其中,S14中所述“分词算法”主要包括:正向最大匹配算法,逆向最大 匹配算法和双向最大匹配法。
其中,S14中所述“自定义词典”可根据业务需求自行配置,随时导入相 关业务词汇和大量专业词典以丰富词库。
其中,S15进一步包括如下步骤:
S15.1、将单词集合带入到分析模型中智能提取,通过规则得到包含词首、词中 和词尾的多元组合词;
S15.2、统计多元组合词的词中的词频和词首、词尾的单词和词性,获得候选新词;
S15.3、对候选新词进行置信度判断,获得目标新词并存入自定义词典。
其中,S15.1中所述“规则”是指多元匹配规则和组合词规则。
其中,S15.2中所述“统计”是指运用TF/IDF统计算法进行词频统计和 加权计算。
实施例三
参见图3,为本实施例提供的一种面向政府领域新词自动发现系统,所举实例只用于解释本发明,并非用于限定本发明的范围。具体模块如下:
爬虫模块:通过爬虫技术从政府网站中抓取相关页面;
页面解析模块:对抓取的页面进行代码解析,去掉无关的HTML代码,取出相 关的文本信息;
分词模块:参考自定义词典、运用分词算法对解析后的文本信息进行切分;
模型构建和训练模块;
词性标注模块:对目标新词进行标注并存放到词性标注词库中,以丰富库中词汇;词性标注词库:对词库中词汇进行管理和自定义配置,可随时导入相关业务词汇 和大量专业词典,还可通过循环训练不断丰富词汇并指导文本信息的切分。
其中,模型构建和训练模块还包括智能过滤子模块、匹配组合子模块、 加权统计子模块、规则判断子模块和专家鉴定子模块,具体功能如下:
智能过滤子模块:对解析后词汇进行常用词和垃圾词等词性过滤,对加权计算的分数进行阈值过滤;
匹配组合子模块:采用多元匹配规则对过滤后的词汇进行多元匹配形成新的组合词汇;
规则判断子模块:运用单字组合词规则和多字组合词规则对多元匹配后的新组合词汇进行词性判断,并与停用词表进行比对;
加权统计子模块:对符合规则的新组合词汇运用TF/IDF统计算法进行词频统计和加权计算,经筛选获得候选新词;
专家鉴定子模块:对候选新词进行专业人工判别获得目标新词。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围不局 限于此,任何熟悉本技术领域的技术人员在本发明的技术范围内,可轻易想到的 变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该 以权利要求的保护范围为准。

Claims (7)

1.一种面向政府领域新词自动发现方法,其特征在于:包括如下步骤:
S12、系统运用爬虫技术从政府网站中抓取相关页面;
S13、对抓取的页面进行代码解析,去掉无关的HTML代码,取出相关的文本信息;
S14、依据自定义词典采用分词算法切分文本信息,得到带有词性的单词集合;
S15、将单词集合与分析模型进行对比,获得目标新词并存入自定义词典;
S16、得到政府领域新词;
其中,所述分析模型通过如下步骤获取:
S1、抓取政府发文信息网络片段;
S2、去除杂数据获得纯文本;
S3、根据自定义词典运用HanLP分词器对纯文本进行切分;
S4、对切分后的文本进行常用词、垃圾词的智能过滤;
S5、采用多元匹配规则对过滤结果进行组合形成新词汇;
S6、根据组合词规则对新词汇进行词性判断,并与停用词表进行比对;
S7、对符合规则的新词汇运用TF/IDF统计算法进行词频统计和加权计算;
S8、依据指定阈值对计算后的加权分数进行智能过滤;
S9、对过滤结果进行专家鉴定,形成最优规则;
S10、将鉴定结果进行全文模式匹配,获得目标结果并存储到自定义词典中;
S11、依据最优规则进行循环训练,得到分析模型;
其中,所述S15进一步包括如下步骤:
S15.1、将单词集合带入到分析模型中智能提取,通过最优规则得到包含词首、词中和词尾的多元组合词;
S15.2、统计多元组合词的词中的词频和词首、词尾的单词和词性,获得候选新词;
S15.3、对候选新词进行置信度判断,获得目标新词并存入自定义词典;
其中,所述S15.1进一步包括如下步骤:
S15.1.1、构建停用词表和候选新词表,设置词首、词中和词尾的分值;
S15.1.2、判断词首、词中和词尾是否存在停用词,若是,跳出;
S15.1.3、否则,判断词首是否小于词首分值;
S15.1.4、若是,判断词中是否小于词中分值;
S15.1.5、若是,判断词尾是否小于词尾分值;
S15.1.6、否则,得到候选新词且词频加1,加入到候选新词表;
其中,所述加权计算的“分值”用下述公式确定时,新词发现的质量较高,设Cheadi表示词首词集合中的第i个词的词首模式值,VALUEheadi标识Cheadi的词频,则f_head可以表示为:
Figure FDA0002787894780000021
同理,可以计算f_middle和f_tail,其中,head、tail、middle是分词结果带入到分析模型后智能提取的包含词首、词中和词尾的多元组合词,f_head表示词首分值,f_middle表示词中分值,f_tail表示词尾分值。
2.如权利要求1所述的一种面向政府领域新词自动发现方法,其特征在于:所述S3中“HanLP分词器”包含的分词算法有:正向最大匹配算法,逆向最大匹配算法和双向最大匹配法。
3.如权利要求1所述的一种面向政府领域新词自动发现方法,其特征在于:S6中所述“组合词规则”包括:单字组合词规则和多字组合词规则,其中,所述“单字组合词规则”是指:某些词的词性本身不具有实际的概念意义,其功能主要用来造句而很少用来组成新词、新概念,包括数词、代词、介词、助词、象声词和姓氏单字;其他词性的某些单字由于自身意义的原因,很少用来组成新词新语,被归为单字组合词停用词表,包括不可扩展的单字、只做首词的单字和只作尾词的单字;
其中,所述“多字组合词规则”是指:前缀名词+词、词+后缀名词的成词率高;名词+名词成词率较高;单字+多字、名词+动词、名词+形容词、名词+副词、职位/职称+姓氏的成词率低;并且和单字组合词规则一样,多字组合词也有停用词表,包括禁用虚词、禁用实词、只做首词和只做尾词。
4.如权利要求3所述的一种面向政府领域新词自动发现方法,其特征在于:所述“单字组合词规则”实现步骤如下:
S6.1、将单字组合词汇进行分离;
S6.2、不可扩展的单字列表过滤;
S6.3、只做主词的单字列表过滤;
S6.4、只做辅词的单字列表过滤;
S6.5、词性规则过滤;
S6.6、人工挑选得到结果。
5.如权利要求1所述的一种面向政府领域新词自动发现方法,其特征在于:S14中所述“自定义词典”可根据业务需求自行配置,随时导入相关业务词汇和大量专业词典以丰富词库;S15.1中所述“最优规则”是指对分析模型进行循环训练形成的最优选词规则;S15.2中所述“统计”是指运用TF/IDF统计算法进行词频统计和加权计算。
6.如权利要求1所述的一种面向政府领域新词自动发现方法,其特征在于:所述“多元匹配规则”代入算法中可描述为N元语法,所述“加权计算”的分值和训练预料所用的N元语法中N的大小有一定关系:
当N=1时,词首分值=1,词中分值=0,词尾分值=0
当N=2时,词中分值=0
当N=3时,词首分值、词中分值、词尾分值无固定值
当N=4时,词首分值、词中分值、词尾分值无固定值
当N很大时,词中分值>词首分值,词中分值>词尾分值
当N接近无穷大时,词中分值趋近于1,词首分值趋近于0,词尾分值趋近于0。
7.一种面向政府领域新词自动发现系统,其特征在于:包括如下模块:
爬虫模块:通过爬虫技术从政府网站中抓取相关页面;
页面解析模块:对抓取的页面进行代码解析,去掉无关的HTML代码,取出相关的文本信息;
分词模块:参考自定义词典、运用分词算法对解析后的文本信息进行切分;
模型构建和训练模块:对数据进行分词,通过多元匹配规则和组合词规则进行选词,再通过TF/IDF算法统计词频进行选词,对计算结果进行阈值过滤并通过专家干预方式确定选词,经过循环训练形成最优规则以指导选词,最终构建分析模型;
词性标注模块:对目标新词进行标注并存放到词性标注词库中,以丰富库中词汇;
词性标注词库:对词库中词汇进行管理和自定义配置,可随时导入相关业务词汇和大量专业词典,还可通过循环训练不断丰富词汇并指导文本信息的切分;
其中,所述“模型构建和训练模块”还包括智能过滤子模块、匹配组合子模块、加权统计子模块、规则判断子模块和专家鉴定子模块,具体如下:
智能过滤子模块:对解析后词汇进行常用词和垃圾词等词性过滤,对加权计算的分数进行阈值过滤;
匹配组合子模块:采用多元匹配规则对过滤后的词汇进行多元匹配形成新的组合词汇;
规则判断子模块:运用单字组合词规则和多字组合词规则对多元匹配后的新组合词汇进行词性判断,并与停用词表进行比对;
加权统计子模块:对符合最优规则的新组合词汇运用TF/IDF统计算法进行词频统计和加权计算,经筛选获得候选新词;
专家鉴定子模块:对候选新词进行专业人工判别获得目标新词;
其中,所述加权计算的分值用下述公式确定时,新词发现的质量较高,设Cheadi表示词首词集合中的第i个词的词首模式值,VALUEheadi标识Cheadi的词频,则f_head可以表示为:
Figure FDA0002787894780000041
同理,可以计算f_middle和f_tail,其中,head、tail、middle是分词结果带入到分析模型后智能提取的包含词首、词中和词尾的多元组合词,f_head表示词首分值,f_middle表示词中分值,f_tail表示词尾分值。
CN202010133406.2A 2020-02-28 2020-02-28 一种面向政府领域新词自动发现的实现方法、分析模型及其系统 Active CN111476025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010133406.2A CN111476025B (zh) 2020-02-28 2020-02-28 一种面向政府领域新词自动发现的实现方法、分析模型及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010133406.2A CN111476025B (zh) 2020-02-28 2020-02-28 一种面向政府领域新词自动发现的实现方法、分析模型及其系统

Publications (2)

Publication Number Publication Date
CN111476025A CN111476025A (zh) 2020-07-31
CN111476025B true CN111476025B (zh) 2021-01-08

Family

ID=71747075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010133406.2A Active CN111476025B (zh) 2020-02-28 2020-02-28 一种面向政府领域新词自动发现的实现方法、分析模型及其系统

Country Status (1)

Country Link
CN (1) CN111476025B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051912B (zh) * 2021-04-08 2023-01-20 云南电网有限责任公司电力科学研究院 一种基于成词率的领域词识别方法及装置
CN113392189B (zh) * 2021-08-17 2022-02-08 东华理工大学南昌校区 基于自动分词的新闻文本处理方法
CN115017904B (zh) * 2022-07-08 2024-01-30 周向红 一种基于大数据的信息处理方法和信息处理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281608A (zh) * 2013-07-08 2015-01-14 上海锐英软件技术有限公司 基于微博的突发事件分析方法
CN108268669A (zh) * 2018-04-12 2018-07-10 中国计量大学 一种基于多维词句特征和情感分析的关键新词发现方法
CN109614499A (zh) * 2018-11-22 2019-04-12 阿里巴巴集团控股有限公司 一种词典生成方法、新词发现方法、装置及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4446313B2 (ja) * 2006-12-15 2010-04-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声処理用の辞書に登録するべき新規語句を検索する技術
CN100520782C (zh) * 2007-11-09 2009-07-29 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
JP5775466B2 (ja) * 2012-01-13 2015-09-09 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 会話から雑談部分を抽出するための雑談抽出システム、方法、およびプログラム
CN107291723B (zh) * 2016-03-30 2021-04-30 阿里巴巴集团控股有限公司 网页文本分类的方法和装置,网页文本识别的方法和装置
CN108959259B (zh) * 2018-07-05 2019-11-08 第四范式(北京)技术有限公司 新词发现方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281608A (zh) * 2013-07-08 2015-01-14 上海锐英软件技术有限公司 基于微博的突发事件分析方法
CN108268669A (zh) * 2018-04-12 2018-07-10 中国计量大学 一种基于多维词句特征和情感分析的关键新词发现方法
CN109614499A (zh) * 2018-11-22 2019-04-12 阿里巴巴集团控股有限公司 一种词典生成方法、新词发现方法、装置及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于概率统计技术和规则方法的新词发现;贾自艳,史忠植;《计算机工程》;20041020;第30卷(第20期);第19-21、83页,图1 *

Also Published As

Publication number Publication date
CN111476025A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
CN111476025B (zh) 一种面向政府领域新词自动发现的实现方法、分析模型及其系统
CN110309305B (zh) 基于多任务联合训练的机器阅读理解方法及计算机存储介质
US11182435B2 (en) Model generation device, text search device, model generation method, text search method, data structure, and program
US20070203885A1 (en) Document Classification Method, and Computer Readable Record Medium Having Program for Executing Document Classification Method By Computer
CN108920599B (zh) 一种基于知识本体库的问答系统答案精准定位和抽取方法
EP0597630A1 (en) Method for resolution of natural-language queries against full-text databases
CN111897917B (zh) 基于多模态自然语言特征的轨道交通行业术语提取方法
Jagadeesh et al. Sentence extraction based single document summarization
CN111930953B (zh) 一种文本属性特征的识别、分类及结构分析方法及装置
Jain et al. Context sensitive text summarization using k means clustering algorithm
CN111488429A (zh) 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法
CN113221559A (zh) 利用语义特征的科技创新领域中文关键短语抽取方法及系统
Inkpen et al. Semantic similarity for detecting recognition errors in automatic speech transcripts
Lin et al. Enhanced BERT-based ranking models for spoken document retrieval
KR100435442B1 (ko) 문서 요약 방법 및 시스템
Yeshambel et al. Amharic document representation for adhoc retrieval
CN113032550B (zh) 一种基于预训练语言模型的观点摘要评价系统
Zhang et al. Association-Based Segmentation for Chinese-Crossed Query Expansion.
CN112528640A (zh) 一种基于异常子图检测的领域术语自动抽取方法
Li et al. Improving latent semantic indexing based classifier with information gain
CN1369877A (zh) 用于在不切分的文本中识别新词的属性的方法和系统
CN114997161A (zh) 关键词抽取方法、装置、电子设备与存储介质
CN111209737B (zh) 噪声文档的筛除方法及计算机可读存储介质
CN110688835B (zh) 一种基于词语特征值的法律专有领域词发现方法及装置
He et al. An approach to automatically constructing domain ontology

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant