CN113407717B - 消除新闻中行业词歧义的方法、装置、设备和存储介质 - Google Patents

消除新闻中行业词歧义的方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113407717B
CN113407717B CN202110590171.4A CN202110590171A CN113407717B CN 113407717 B CN113407717 B CN 113407717B CN 202110590171 A CN202110590171 A CN 202110590171A CN 113407717 B CN113407717 B CN 113407717B
Authority
CN
China
Prior art keywords
industry
next step
news
ambiguity
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110590171.4A
Other languages
English (en)
Other versions
CN113407717A (zh
Inventor
贾宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinascope Shanghai Technology Co ltd
Original Assignee
Chinascope Shanghai Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinascope Shanghai Technology Co ltd filed Critical Chinascope Shanghai Technology Co ltd
Priority to CN202110590171.4A priority Critical patent/CN113407717B/zh
Publication of CN113407717A publication Critical patent/CN113407717A/zh
Application granted granted Critical
Publication of CN113407717B publication Critical patent/CN113407717B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于数据处理技术领域,具体涉及一种消除新闻中行业词歧义的方法、装置、设备和存储介质。其中方法包括:获取新闻,对新闻进行行业分类,得到行业标签分类结果;对行业标签分类结果进行标签共现检验,若检验未通过,则将全部的行业标签加入歧义判别列表中,若检验通过,则将存在歧义词集合中的特征词对应的行业标签加入歧义判别列表中,若不存在,则直接输出结果;通过预设的歧义判别模型对歧义判别列表中的行业标签进行判别,得到歧义判别结果,根据歧义判别结果进行输出。本发明摆脱了对歧义词表或知识图谱的重度依赖,可以自动发现歧义词表之外的歧义词带来的错误,大大减少了开发成本。

Description

消除新闻中行业词歧义的方法、装置、设备和存储介质
技术领域
本发明属于数据处理技术领域,具体涉及一种消除新闻中行业词歧义的方法、装置、设备和存储介质。
背景技术
自然语言中存在许多一词多义的情况,当使用这些多义词作为特征进行文本分类时,歧义会影响分类结果的准确性,因此需要对多义词进行消歧计算,以确定多义词在当前上下文环境中的真实含义。
中国发明专利CN112069826A《融合主题模型和卷积神经网络的垂直域实体消歧方法》中提出了一种用主题模型计算主体特征相似度和用分类模型计算语义特征相似度,再将两种相似度融合以确定候选语义的方法。
中国发明专利CN112214999A《一种基于图模型和词向量相结合的词义消歧方法及装置》中提出了一种基于图模型和词向量相结合的词义消歧方法,通过图模型获取上下文背景知识,再通过词向量计算相似度以确定候选语义。
中国发明专利CN112256885A《一种标签消歧方法、装置、设备和计算机可读存储介质》中提出了一种通过知识图谱消歧的方法,从预先构建的知识图谱中获取与歧义标签对应的子图,借助指示词计算各个子图的权重,选出目标子图以确定候选语义。
目前现有的语义消歧方法存在一些不足,主要有以下几点:
1、需要事先确定歧义实体集合。
如上述发明CN112069826A、CN112214999A和CN112256885A都需要事先确定歧义词或歧义实体集合,只有在集合内的词才会进行消歧计算,未出现在集合内的新的歧义词无法被消歧。这需要不断地对歧义词集合进行人工维护,成本较高。
2、需要人工标注训练数据。
如上述发明CN112069826A中需要人工标注无歧义样本数据作为训练语料来训练分类模型,人工标注不仅花费较多的时间和资金成本,而且还存在标注一致性,类别变动时的扩充成本等问题。
3、需要知识图谱。
如上述发明CN112256885A利用知识图谱来进行消歧,知识图谱的代价比人工标注数据更为高昂,而且知识图谱往往针对特定领域,很难进行跨领域迁移。
发明内容
本发明针对现有的语义消歧方法存在人工维护成本高、需要人工标注训练数据或需要知识图谱的技术问题,目的在于提供一种消除新闻中行业词歧义的方法、装置、设备和存储介质。
一种消除新闻中行业词歧义的方法,包括:
获取新闻,对所述新闻进行行业分类,得到行业标签分类结果,所述行业标签分类结果包括多个行业标签和所述行业标签对应的特征词集合;
对所述行业标签分类结果进行标签共现检验,若检验未通过,则将全部的所述行业标签加入预设的歧义判别列表中,若检验通过,则判断在所述特征词集合中是否存在特征词使得所述特征词在预设的歧义词集合中,若存在,则将所述特征词对应的所述行业标签加入所述歧义判别列表中,若不存在,则直接输出结果;
通过预设的歧义判别模型对所述歧义判别列表中的所述行业标签进行判别,得到歧义判别结果,根据所述歧义判别结果进行输出。
可选的,所述获取新闻,对所述新闻进行行业分类,得到行业标签分类结果,所述行业标签分类结果包括多个行业标签和所述行业标签对应的特征词集合,包括:
通过预设的行业分类模型对所述新闻进行行业分类,得到所述行业标签分类结果;
所述行业分类模型是能进行多标签分类,且能够输出类别特征词的模型,所述行业分类模型为SVM模型(支持向量机模型)、随机森林模型或朴素贝叶斯分类模型中的一种。
可选的,所述对所述行业标签分类结果进行标签共现检验之前,包括:
将多个所述行业标签按照和所述新闻的关联度进行降序排列,得到排列后的多个所述行业标签及对应的特征词集合;
所述行业标签分类结果还包括每个所述行业标签与所述新闻的关联度。
可选的,所述对所述行业标签分类结果进行标签共现检验,若检验未通过,则将全部的所述行业标签加入预设的歧义判别列表中,若检验通过,则判断在所述特征词集合中是否存在特征词使得所述特征词在预设的歧义词集合中,若存在,则将所述特征词对应的所述行业标签加入所述歧义判别列表中,包括:
将所述行业标签记为I={I1,…Im},其中Ii表示第i个行业标签,I的特征词集合记为F,其中行业标签Ii的特征词记为Fi={wi1,…win},其中wij表示Ii对应的第j个特征词,转到下一步;
从I中取行业标签Ii,i∈[1,m-1],转到下一步;
从I中取行业标签Ij,j∈[i+1,m],转到下一步;
将Ii和Ij按行业名称的文字顺序排序,为方便计,排序后仍记为行业对(Ii,Ij),检查行业对(Ii,Ij)是否存在于合理共现关系集合VALID_COOC中,如存在,转到下一步,否则转到第7步;
若j=m,转到下一步,否则j+=1并转到第3步;
若i=m-1,转到第8步,否则i+=1并转到第2步;
将I中的所有行业加入到歧义判别列表CHECK_LIST中,标签共现检验结束;
从F中取特征词集合Fi,i∈{1,…,m},转到下一步;
判断是否存在特征词wij,j∈[1,n],使得wij在事先设定的歧义词集合AMB_WORDS中,如存在,转到下一步,否则转到第11步;
将行业Ii加入到歧义判别列表CHECK_LIST中,转到下一步;
若i=m,标签共现检验结束,否则i+=1并转到第8步。
可选的,所述合理共现关系集合VALID_COOC采用如下方式获得:
建立共现次数统计结构cooc_cnt,所述共现次数统计结构cooc_cnt是一个空的语言字典(python dict),转到下一步;
取预设时间段内的新闻,记为新闻集合D,所述新闻集合D中共包含n篇新闻,转到下一步;
从所述新闻集合D中取新闻dl,l∈[1,n],转到下一步;
使用预设的行业分类模型对新闻dl进行分类,得到行业标签分类结果,将所述行业标签分类结果中的行业标签记为I={I1,…Im},转到下一步;
从I中取行业Ii,i∈[1,m-1],转到下一步;
从I中取行业Ij,j∈[i+1,m],转到下一步;
将Ii和Ij按行业名称的文字顺序排序,为方便计,排序后仍记为行业对(Ii,Ij),转到下一步;
如所述共现次数统计结构cooc_cnt中没有(Ii,Ij),令cooc_cnt[(Ii,Ij)]=0,转到下一步;
令cooc_cnt[(Ii,Ij)]+=1,转到下一步;
若j=m,转到下一步,否则j+=1并转到第6步;
若i=m-1,转到下一步,否则i+=1并转到第5步;
若l=n,转到下一步,否则l+=1并转到第3步;
计算所述共现次数统计结构cooc_cnt所有value之和,得到cntall,定义value累积值cntsum,令所述累积值cntsum=0,设置共现值阈值cnt_thresh=n*0.001,转到下一步;
将所述共现次数统计结构cooc_cnt中的key和value按照value降序排列,得到cooc_cnt_sort,转到下一步;
从cooc_cnt_sort中取行业对(Ii,Ij)和共现值cntij,转到下一步;
令cntsum+=cntij,转到下一步;
若cntsum/cntall≤N and cntij>cnt_thresh,将(Ii,Ij)记入合理共现关系集合VALID_COOC,其中,N为预设的另一阈值,转到下一步;
若cntsum/cntall>N and cntij>cnt_thresh,但cntij和上一个记入VALID_COOC的行业对的共现值相同,则将(Ii,Ij)记入合理共现关系集合VALID_COOC,转到下一步;
若cooc_cnt_sort已取空,转到下一步,否则转到第15步;
保存合理共现关系集合VALID_COOC。
可选的,所述歧义判别模型采用可调参的分类模型,通过自动调参分别获得高准确率模型(高precision模型)和高召回率模型(高recall模型),通过所述高准确率模型和所述高召回率模型对所述歧义判别列表中的所述行业标签进行判别,以得到歧义判别结果。
可选的,所述通过预设的歧义判别模型对所述歧义判别列表中的所述行业标签进行判别,得到歧义判别结果,根据所述歧义判别结果进行输出,包括:
从所述歧义判别列表CHECK_LIST中取行业Ii,i∈[1,k],k是所述歧义判别列表CHECK_LIST中的行业数量,转到下一步;
从所述新闻d中去掉所有属于行业Ii的特征词Fi的词,得到di,转到下一步;
判断所述歧义判别模型集合中是否存在行业Ii对应的模型Mpi和Mri,如存在,转到下一步,否则转到第7步;
使用模型Mpi和Mri分别对d′i进行分类,得到分类结果cpi和cri,转到下一步;
若cpi=1,则行业Ii的歧义判别结果为1,转到第8步,否则转到下一步;
若cri=0,则行业Ii的歧义判别结果为0,转到第8步,否则转到下一步;
行业Ii的歧义判别结果为-1,转到下一步;
若i=k,转到下一步,否则i+=1并转到第1步;
从I中取行业Ii,i∈[1,m],转到下一步;
Figure GDA0003879541410000052
或Ii的歧义判别结果为1,将Ii添加到输出,转到第12步,否则转到下一步;
若Ii的歧义判别结果为0,转到下一步;
若i=m,转到下一步,否则i+=1并转到第9步;
输出结果。
可选的,在获取新闻时,还获取高召回标志HIGH_RECALL,此时从I中取行业Ii,i∈[1,m]后,若Ii的歧义判别结果为-1,如果高召回标志HIGH_RECALL=True,且Ii是自I中取行业Ii以来第一个歧义判别结果为-1的行业,则将Ii添加到输出;
可选的,所述通过预设的歧义判别模型对所述歧义判别列表中的所述行业标签进行判别之前,包括对所述歧义判别模型进行训练:
获得所有行业标签的集合
Figure GDA0003879541410000051
建立语料列表CORPUS_RAW,所述语料列表CORPUS_RAW是一个语言列表(python list),转到下一步;
取预设时间段内的新闻,记为新闻集合D,所述新闻集合D中共包含n篇新闻,转到下一步;
从所述新闻集合D中取新闻dl,l∈[1,n],转到下一步;
使用预设的行业分类模型对新闻dl进行分类,得到行业标签分类结果,所述行业标签分类结果还包括每个所述行业标签与所述新闻的关联度,将所述行业标签分类结果中的行业标签记为Il={I11,…Ilm},记录和新闻dl关联度最高的行业,记为Ili,记录dl中出现的行业Ili的特征词集合,记为Fi,转到下一步;
将新闻dl中属于Fi的词去掉,得到d′li,转到下一步;
将(Ili,d′li)添加到所述语料列表COURPUS_RAW,转到下一步;
若l=n,转到下一步,否则l+=1并转到第3步;
从It中取一个行业标签
Figure GDA0003879541410000061
i∈[1,k],转到下一步;
将所述语料列表CORPUS_RAW中所有行业标签为
Figure GDA0003879541410000062
的新闻标记为类别1,其他新闻标记为类别0,转到下一步;
用分类算法对上一步得到的数据进行训练,通过调整参数得到两个模型mpi和mri,要求mpi的准确率(precision)>M,mri的召回率(recall)>M,其中,M为预设的指标阈值,转到下一步;
保存mpi、mri和对应的行业标签
Figure GDA0003879541410000063
,转到下一步;
若i=k,转到下一步,否则i+=1并转到第8步;
歧义判别模型训练结束。
一种消除新闻中行业词歧义的装置,包括:
行业分类模块,用于获取新闻,对所述新闻进行行业分类,得到行业标签分类结果,所述行业标签分类结果包括多个行业标签和所述行业标签对应的特征词集合;
标签共现检验模块,用于对所述行业标签分类结果进行标签共现检验,若检验未通过,则将全部的所述行业标签加入预设的歧义判别列表中,若检验通过,则判断在所述特征词集合中是否存在特征词使得所述特征词在预设的歧义词集合中,若存在,则将所述特征词对应的所述行业标签加入所述歧义判别列表中,若不存在,则直接输出结果;
歧义判别模块,用于通过预设的歧义判别模型对所述歧义判别列表中的所述行业标签进行判别,得到歧义判别结果,根据所述歧义判别结果进行输出。
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述消除新闻中行业词歧义的方法的步骤。
一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述消除新闻中行业词歧义的方法的步骤。
本发明的积极进步效果在于:本发明采用消除新闻中行业词歧义的方法、装置、设备和存储介质,摆脱了对歧义词表或知识图谱的重度依赖,可以自动发现歧义词表之外的歧义词带来的错误,并且不需要人工标注训练数据,大大减少了开发成本。
附图说明
图1为本发明的一种整体流程示意图;
图2为本发明的一种实施例流程图;
图3为本发明的一种共现关系统计流程图;
图4为本发明的一种训练歧义判别模型流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示进一步阐述本发明。
参照图1,一种消除新闻中行业词歧义的方法,包括:
S1,对新闻进行行业分类:获取新闻,对新闻进行行业分类,得到行业标签分类结果,行业标签分类结果包括多个行业标签和行业标签对应的特征词集合。
本步骤中对新闻进行行业分类时,通过预设的行业分类模型对新闻进行行业分类,得到行业标签分类结果。该行业标签分类结果不仅包括多个行业标签和对应的特征词集合,还包括每个行业标签和新闻的关联度。其中,行业分类模型是能进行多标签分类,且能够输出类别特征词的模型,行业分类模型为SVM模型(支持向量机模型)、随机森林模型或朴素贝叶斯分类模型中的一种。
在一个实施例中,在获取新闻时,还获取高召回标志HIGH_RECALL。该高召回标志HIGH_RECALL用于后续歧义判别模型无法判别的部分,设立高召回标志HIGH_RECALL,当高召回标志HIGH_RECALL=1(或True)时在无法判别部分中取最可信的结果输出以提高召回,当高召回标志HIGH_RECALL=0(或False)时,不采纳无法判别的部分。
S2,对行业标签进行标签共现检验:对行业标签分类结果进行标签共现检验,若检验未通过,则将全部的行业标签加入预设的歧义判别列表中,若检验通过,则判断在特征词集合中是否存在特征词使得特征词在预设的歧义词集合中,若存在,则将特征词对应的行业标签加入歧义判别列表中,若不存在,则直接输出结果。
在步骤S1分类完成后,对行业标签分类结果还进行标签共现检验,检验标准来自历史统计数据,如果标签共现检验未通过,则将全部行业标签都加入歧义判别列表中,后续进行歧义判别,通过判别后分类结果为1的行业标签作为输出结果;如果标签共现检验通过,则提取各行业标签的特征词并检查特征词中有没有已知的歧义词,没有歧义词的行业标签可加入到输出,如有,则对歧义词对应的行业标签加入歧义判别列表中,后续进行歧义判别,通过判别后分类结果为1的行业标签加入到输出。
为了能发现歧义词表之外的歧义情况,本步骤中的标签共现检验实质判断的是各行业标签之间是否存在合理的共现关系,如存在不合理的共现关系,则表明可能存在歧义情况,需要进行进一步的判别。共现关系是指两个行业标签出现在同一篇新闻的行业分类结果中。如果一篇新闻出现多个行业标签,则各行业标签两两计算共现关系。计算共现关系是否合理时,以历史统计数据作为参考。可预先选取较长一段时期内的新闻,如两年内的新闻,用预设的行业分类模型计算行业标签,统计这些新闻中行业标签的共现次数,共现次数超过阈值的标签对记为合理共现关系。
在一个实施例中,在步骤S2之前,包括:
将多个行业标签按照和新闻的关联度进行降序排列,得到排列后的多个行业标签及对应的特征词集合。行业标签分类结果还包括每个行业标签与新闻的关联度。
本发明在步骤S1中通过对新闻进行行业分类,得到的行业标签分类结果中,不仅包括多个行业标签及对应的特征词集合,还包括多个行业标签与新闻之间各自的关联度,本实例利用关联度数值进行降序排列,在进行降序排序后,再对排序后的多个行业标签进行标签共现检验。
S3,歧义判别并输出结果:通过预设的歧义判别模型对歧义判别列表中的行业标签进行判别,得到歧义判别结果,根据歧义判别结果进行输出。
本步骤中的歧义判别模型采用可调参的分类模型,通过自动调参分别获得高准确率模型(高precision模型)和高召回率模型(高recall模型),通过高准确率模型和高召回率模型对歧义判别列表中的行业标签进行判别,以得到歧义判别结果。
参照图2,在一个实施例中,本发明对于一篇新闻消除行业词歧义的过程包括如下的实时计算过程:
获取新闻及高召回标志HIGH_RECALL;
行业分类;
标签共现检验;
检验通过,则提取特征词,检验未通过,则将全部行业标签加入歧义判别列表CHECK_LIST中;
判断特征词中是否有歧义词,若不存在,则直接输出结果,若存在则将有歧义词的行业标签加入歧义判别列表CHECK_LIST中;
对歧义判别列表CHECK_LIST中的行业标签进行歧义判别;
当歧义判别结果为1时,则将对应的行业标签加入到输出并输出结果;
当歧义判别结果为-1且高召回标志HIGH_RECALL=1时,取关联度最高的行业标签加入到输出并输出结果。
在一个实施例中,本发明涉及的数据结构的部分以python作为编程语言进行描述,则实时计算过程如下:
1、获取新闻d及高召回标志HIGH_RECALL,对获取的新闻d使用预设的行业分类模型进行分类,得到行业标签分类结果,将行业标签分类结果中的行业标签记为I={I1,…Im},其中Ii表示第i个行业标签,I的特征词集合记为F,其中行业标签Ii的特征词记为Fi={wi1,…win},其中wij表示Ii对应的第j个特征词,转到下一步;
2、从I中取行业标签Ii,i∈[1,m-1],转到下一步;
3、从I中取行业标签Ij,j∈[i+1,m],转到下一步;
4、将Ii和Ij按行业名称的文字顺序排序,为方便计,排序后仍记为行业对(Ii,Ij),检查行业对(Ii,Ij)是否存在于合理共现关系集合VALID_COOC中,如存在,转到下一步,否则转到第7步;
5、若j=m,转到下一步,否则j+=1并转到第3步;
6、若i=m-1,转到第8步,否则i+=1并转到第2步;
7、将I中的所有行业加入到歧义判别列表CHECK_LIST中,转到第12步;
8、从F中取特征词集合Fi,i∈{1,…,m},转到下一步;
9、判断是否存在特征词wij,j∈[1,n],使得wij在事先设定的歧义词集合AMB_WORDS中,如存在,转到下一步,否则转到第11步;
10、将行业Ii加入到歧义判别列表CHECK_LIST中,转到下一步;
11、若i=m,转到下一步,否则i+=1并转到第8步。
12、从歧义判别列表CHECK_LIST中取行业Ii,i∈[1,k],k是歧义判别列表CHECK_LIST中的行业数量,转到下一步;
13、从新闻d中去掉所有属于行业Ii的特征词Fi的词,得到d′i,转到下一步;
14、判断歧义判别模型集合中是否存在行业Ii对应的模型Mpi和Mri,如存在,转到下一步,否则转到第18步;
15、使用模型Mpi和Mri分别对d′i进行分类,得到分类结果cpi和cri,转到下一步;
16、若cpi=1,则行业Ii的歧义判别结果为1,转到第19步,否则转到下一步;
17、若cri=0,则行业Ii的歧义判别结果为0,转到第19步,否则转到下一步;
18、行业Ii的歧义判别结果为-1,转到下一步;
19、若i=k,转到下一步,否则i+=1并转到第12步;
20、从I中取行业Ii,i∈[1,m],转到下一步;
21、若
Figure GDA0003879541410000101
或Ii的歧义判别结果为1,将Ii添加到输出,转到第24步,否则转到下一步;
22、若Ii的歧义判别结果为0,转到第24步,否则转到下一步;
23、若Ii的歧义判别结果为-1,如果高召回标志HIGH_RECALL=True,且Ii是自第20步以来第一个歧义判别结果为-1的行业,则将Ii添加到输出,转到下一步;
24、若i=m,转到下一步,否则i+=1并转到第20步;
25、输出结果。
参照图3,在一个实施例中,合理共现关系集合VALID_COOC采用如下方式获得:
获取预设时间段内的新闻;
对所有新闻通过预设的行业分类模型进行行业分类;
统计两个行业标签的共现次数;
选择可靠共现关系;
记入合理共现关系集合;
保存合理共现关系集合。
在一个实施例中,本发明涉及的数据结构的部分以python作为编程语言进行描述,则合理共现关系集合VALID_COOC的统计方式为:
1、建立共现次数统计结构cooc_cnt,共现次数统计结构cooc_cnt是一个空的语言字典(python dict),转到下一步;
2、取预设时间段内的新闻,记为新闻集合D,新闻集合D中共包含n篇新闻,转到下一步;
优选的,预设时间段设置为两年。
3、从新闻集合D中取新闻dl,l∈[1,n],转到下一步;
4、使用预设的行业分类模型对新闻dl进行分类,得到行业标签分类结果,将行业标签分类结果中的行业标签记为I={I1,…Im},转到下一步;
5、从I中取行业Ii,i∈[1,m-1],转到下一步;
6、从I中取行业Ij,j∈[i+1,m],转到下一步;
7、将Ii和Ij按行业名称的文字顺序排序,为方便计,排序后仍记为行业对(Ii,Ij),转到下一步;
8、如共现次数统计结构cooc_cnt中没有(Ii,Ij),令cooc_cnt[(Ii,Ij)]=0,转到下一步;
9、令cooc_cnt[(Ii,Ij)]+=1,转到下一步;
10、若j=m,转到下一步,否则j+=1并转到第6步;
11、若i=m-1,转到下一步,否则i+=1并转到第5步;
12、若l=n,转到下一步,否则l+=1并转到第3步;
13、计算共现次数统计结构cooc_cnt所有value之和,得到cntall,定义value累积值cntsum,令累积值cntsum=0,设置共现值阈值cnt_thresh=n*0.001,转到下一步;
14、将共现次数统计结构cooc_cnt中的key和value按照value降序排列,得到cooc_cnt_sort,转到下一步;
15、从cooc_cnt_sort中取行业对(Ii,Ij)和共现值cntij,转到下一步;
16、令cntsum+=cntij,转到下一步;
17、若cntsum/cntall≤N and cntij>cnt_thresh,将(Ii,Ij)记入合理共现关系集合VALID_COOC,其中,N为预设的另一阈值,转到下一步;
优选的,N设置为0.9。
18、若cntsum/cntall>N and cntij>cnt_thresh,但cntij和上一个记入VALID_COOC的行业对的共现值相同,则将(Ii,Ij)记入合理共现关系集合VALID_COOC,转到下一步;
优选的,N设置为0.9。
19、若cooc_cnt_sort已取空,转到下一步,否则转到第15步;
20、保存合理共现关系集合VALID_COOC。
本发明在判断是否有歧义存在时不完全依靠歧义词表。本发明统计了历史数据中各行业之间的共现次数,共现次数较多表明这些行业同时出现在一篇新闻中的可信度较高,反之则可信度较低。在做实时计算时,对分类的行业标签结果进行两两配对,并检查其共现关系是否可信,如果其共现关系不可信,则说明初步分类的结果可能存在错误,需要做进一步的分析判别。这种方法摆脱了对歧义词表的重度依赖,可以自动发现歧义词表之外的歧义词带来的错误。
参照图4,在一个实施例中,通过预设的歧义判别模型对歧义判别列表中的行业标签进行判别之前,包括对歧义判别模型进行训练,训练过程如下:
获取预设时间段内的新闻;
对所有新闻通过预设的行业分类模型进行行业分类;
生成训练数据;
训练歧义判别模型;
保存歧义判别模型。
在一个实施例中,本发明涉及的数据结构的部分以python作为编程语言进行描述,则训练过程如下:
1、获得所有行业标签的集合
Figure GDA0003879541410000121
建立语料列表CORPUS_RAW,语料列表CORPUS_RAW是一个语言列表(python list),转到下一步;
2、取预设时间段内的新闻,记为新闻集合D,新闻集合D中共包含n篇新闻,转到下一步;
优选的,预设时间段设置为两年。
3、从新闻集合D中取新闻dl,l∈[1,n],转到下一步;
4、使用预设的行业分类模型对新闻dl进行分类,得到行业标签分类结果,行业标签分类结果不仅包括多个行业标签和对应的特征词集合,还包括每个行业标签与新闻dl的关联度,将行业标签分类结果中的行业标签记为Il={Il1,…Ilm},记录和新闻dl关联度最高的行业,记为Ili,记录dl中出现的行业Ili的特征词集合,记为Fi,转到下一步;
5、将新闻dl中属于Fi的词去掉,得到d′li,转到下一步;
6、将(Ili,d′li)添加到语料列表COURPUS_RAW,转到下一步;
7、若l=n,转到下一步,否则l+=1并转到第3步;
8、从It中取一个行业标签
Figure GDA0003879541410000122
i∈[1,k],转到下一步;
9、将语料列表CORPUS_RAW中所有行业标签为
Figure GDA0003879541410000123
的新闻标记为类别1,其他新闻标记为类别0,转到下一步;
10、用分类算法对上一步得到的数据进行训练,通过调整参数得到两个模型mpi和mri,要求mpi的准确率(precision)>M,mri的召回率(recall)>M,其中,M为预设的指标阈值,转到下一步;
优选的,M设置为0.85。
11、保存mpi、mri和对应的行业标签
Figure GDA0003879541410000131
,转到下一步;
12、若i=k,转到下一步,否则i+=1并转到第8步;
13、歧义判别模型训练结束。
本发明在训练歧义判别模型时不需要人工标注数据。利用初步的行业分类结果中可信度较高的部分作为标注的标签,通过自动调参训练方法为每个行业训练一个高precision的模型和一个高recall的模型,使用时将两个模型结合使用以确定判别结果。不仅提升了工作效率,而且可以实现无人工干预的全自动运行,极大地减少了成本。
在一个实施例中,提出了一种消除新闻中行业词歧义的装置,包括:
行业分类模块,用于获取新闻,对新闻进行行业分类,得到行业标签分类结果,行业标签分类结果包括多个行业标签和行业标签对应的特征词集合;
标签共现检验模块,用于对行业标签分类结果进行标签共现检验,若检验未通过,则将全部的行业标签加入预设的歧义判别列表中,若检验通过,则判断在特征词集合中是否存在特征词使得特征词在预设的歧义词集合中,若存在,则将特征词对应的行业标签加入歧义判别列表中,若不存在,则直接输出结果;
歧义判别模块,用于通过预设的歧义判别模型对歧义判别列表中的行业标签进行判别,得到歧义判别结果,根据歧义判别结果进行输出。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例消除新闻中行业词歧义的方法中的步骤。
在一个实施例中,提出了一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述各实施例消除新闻中行业词歧义的方法中的步骤。其中,存储介质可以为非易失性存储介质。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、磁盘或光盘等。
以上各实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (11)

1.一种消除新闻中行业词歧义的方法,其特征在于,包括:
获取新闻,对所述新闻进行行业分类,得到行业标签分类结果,所述行业标签分类结果包括多个行业标签和所述行业标签对应的特征词集合;
对所述行业标签分类结果进行标签共现检验,若检验未通过,则将全部的所述行业标签加入预设的歧义判别列表中,若检验通过,则判断在所述特征词集合中是否存在特征词使得所述特征词在预设的歧义词集合中,若存在,则将所述特征词对应的所述行业标签加入所述歧义判别列表中,若不存在,则直接输出结果;
通过预设的歧义判别模型对所述歧义判别列表中的所述行业标签进行判别,得到歧义判别结果,根据所述歧义判别结果进行输出;
所述对所述行业标签分类结果进行标签共现检验,若检验未通过,则将全部的所述行业标签加入预设的歧义判别列表中,若检验通过,则判断在所述特征词集合中是否存在特征词使得所述特征词在预设的歧义词集合中,若存在,则将所述特征词对应的所述行业标签加入所述歧义判别列表中,包括:
S21,将所述行业标签记为I={I1,…Im},其中Ii表示第i个行业标签,I的特征词集合记为F,其中行业标签Ii的特征词记为Fi={wi1,…win},其中wij表示Ii对应的第j个特征词,转到下一步;
S22,从I中取行业标签Ii,i∈[1,m-1],转到下一步;
S23,从I中取行业标签Ij,j∈[i+1,m],转到下一步;
S24,将Ii和Ij按行业名称的文字顺序排序,为方便计,排序后仍记为行业对(Ii,Ij),检查行业对(Ii,Ij)是否存在于合理共现关系集合VALID_COOC中,如存在,转到下一步,否则转到第S27步;
S25,若j=m,转到下一步,否则j+=1并转到第S23步;
S26,若i=m一1,转到第S28步,否则i+=1并转到第S22步;
S27,将I中的所有行业加入到歧义判别列表CHECK_LIST中,标签共现检验结束;
S28,从F中取特征词集合Fi,i∈{1,…,m},转到下一步;
S29,判断是否存在特征词wij,j∈[1,n],使得wij在事先设定的歧义词集合AMB_WORDS中,如存在,转到下一步,否则转到第S211步;
S210,将行业Ii加入到歧义判别列表CHECK_LIST中,转到下一步;
S211,若i=m,标签共现检验结束,否则i+=1并转到第S28步。
2.如权利要求1所述的消除新闻中行业词歧义的方法,其特征在于,所述获取新闻,对所述新闻进行行业分类,得到行业标签分类结果,所述行业标签分类结果包括多个行业标签和所述行业标签对应的特征词集合,包括:
通过预设的行业分类模型对所述新闻进行行业分类,得到所述行业标签分类结果;
所述行业分类模型是能进行多标签分类,且能够输出类别特征词的模型,所述行业分类模型为SVM模型、随机森林模型或朴素贝叶斯分类模型中的一种。
3.如权利要求1所述的消除新闻中行业词歧义的方法,其特征在于,所述对所述行业标签分类结果进行标签共现检验之前,包括:
将多个所述行业标签按照和所述新闻的关联度进行降序排列,得到排列后的多个所述行业标签及对应的特征词集合;
所述行业标签分类结果还包括每个所述行业标签与所述新闻的关联度。
4.如权利要求1所述的消除新闻中行业词歧义的方法,其特征在于,所述合理共现关系集合VALID_COOC采用如下方式获得:
S241,建立共现次数统计结构cooc_cnt,所述共现次数统计结构cooc_cnt是一个空的语言字典,转到下一步;
S242,取预设时间段内的新闻,记为新闻集合D,所述新闻集合D中共包含n篇新闻,转到下一步;
S243,从所述新闻集合D中取新闻dl,l∈[1,n],转到下一步;
S244,使用预设的行业分类模型对新闻dl进行分类,得到行业标签分类结果,将所述行业标签分类结果中的行业标签记为I={I1,…Im},转到下一步;
S245,从I中取行业Ii,i∈[1,m-1],转到下一步;
S246,从I中取行业Ij,j∈[i+1,m],转到下一步;
S247,将Ii和Ij按行业名称的文字顺序排序,为方便计,排序后仍记为行业对(Ii,Ij),转到下一步;
S248,如所述共现次数统计结构cooc_cnt中没有(Ii,Ij),令cooc_cnt[(Ii,Ij)]=0,转到下一步;
S249,令cooc_cnt[(Ii,Ij)]+=1,转到下一步;
S2410,若j=m,转到下一步,否则j+=1并转到第S246步;
S2411,若i=m一1,转到下一步,否则i+=1并转到第S245步;
S2412,若l=n,转到下一步,否则l+=1并转到第S243步;
S2413,计算所述共现次数统计结构cooc_cnt所有value之和,得到cntall,定义value累积值cntsum,令所述累积值cntsum=0,设置共现值阈值cnt_thresh=n*0.001,转到下一步;
S2414,将所述共现次数统计结构cooc_cnt中的key和value按照value降序排列,得到cooc_cnt_sort,转到下一步;
S2415,从cooc_cnt_sort中取行业对(Ii,Ij)和共现值cntij,转到下一步;
S2416,令cntsum+=cntij,转到下一步;
S2417,若cntsum/cntall≤N and cntij>cnt_thresh,将(Ii,Ij)记入合理共现关系集合VALID_COOC,其中,N为预设的另一阈值,转到下一步;
S2418,若cntsum/cntall>N and cntij>cnt_thresh,但cntij和上一个记入VALID_COOC的行业对的共现值相同,则将(Ii,Ij)记入合理共现关系集合VALID_COOC,转到下一步;
S2419,若cooc_cnt_sort已取空,转到下一步,否则转到第S2415步;
S2420,保存合理共现关系集合VALID_COOC。
5.如权利要求1所述的消除新闻中行业词歧义的方法,其特征在于,所述歧义判别模型采用可调参的分类模型,通过自动调参分别获得准确率模型和召回率模型,通过所述准确率模型和所述召回率模型对所述歧义判别列表中的所述行业标签进行判别,以得到歧义判别结果。
6.如权利要求5所述的消除新闻中行业词歧义的方法,其特征在于,所述通过预设的歧义判别模型对所述歧义判别列表中的所述行业标签进行判别,得到歧义判别结果,根据所述歧义判别结果进行输出,包括:
S31,从所述歧义判别列表CHECK_LIST中取行业Ii,i∈[1,k],k是所述歧义判别列表CHECK_LIST中的行业数量,转到下一步;
S32,从所述新闻d中去掉所有属于行业Ii的特征词Fi的词,得到di′,转到下一步;
S33,判断所述歧义判别模型集合中是否存在行业Ii对应的模型Mpi和Mri,如存在,转到下一步,否则转到第S37步;
S34,使用模型Mpi和Mri分别对di′进行分类,得到分类结果cpi和cri,转到下一步;
S35,若cpi=1,则行业Ii的歧义判别结果为1,转到第S38步,否则转到下一步;
S36,若cri=0,则行业Ii的歧义判别结果为0,转到第S38步,否则转到下一步;
S37,行业Ii的歧义判别结果为-1,转到下一步;
S38,若i=k,转到下一步,否则i+=1并转到第S31步;
S39,从I中取行业Ii,i∈[1,m],转到下一步;
S310,若
Figure FDA0003879541400000041
或Ii的歧义判别结果为1,将Ii添加到输出,转到第S312步,否则转到下一步;
S311,若Ii的歧义判别结果为0,转到下一步;
S312,若i=m,转到下一步,否则i+=1并转到第S39步;
S313,输出结果。
7.如权利要求6所述的消除新闻中行业词歧义的方法,其特征在于,在获取新闻时,还获取高召回标志HIGH_RECALL,此时从I中取行业Ii,i∈[1,m]后,若Ii的歧义判别结果为-1,如果高召回标志HIGH_RECALL=True,且Ii是自I中取行业Ii以来第一个歧义判别结果为-1的行业,则将Ii添加到输出。
8.如权利要求1所述的消除新闻中行业词歧义的方法,其特征在于,所述通过预设的歧义判别模型对所述歧义判别列表中的所述行业标签进行判别之前,包括对所述歧义判别模型进行训练:
S301,获得所有行业标签的集合
Figure FDA0003879541400000042
建立语料列表CORPUS_RAW,所述语料列表CORPUS_RAW是一个语言列表,转到下一步;
S302,取预设时间段内的新闻,记为新闻集合D,所述新闻集合D中共包含n篇新闻,转到下一步;
S303,从所述新闻集合D中取新闻dl,l∈[1,n],转到下一步;
S304,使用预设的行业分类模型对新闻dl进行分类,得到行业标签分类结果,所述行业标签分类结果还包括每个所述行业标签与所述新闻的关联度,将所述行业标签分类结果中的行业标签记为Il={Il1,…Ilm},记录和新闻dl关联度最高的行业,记为Ili,记录dl中出现的行业Ili的特征词集合,记为Fi,转到下一步;
S305,将新闻dl中属于Fi的词去掉,得到d′li,转到下一步;
S306,将(Ili,d′li)添加到所述语料列表COURPUS_RAW,转到下一步;
S307,若l=n,转到下一步,否则l+=1并转到第S303步;
S308,从It中取一个行业标签
Figure FDA0003879541400000051
i∈[1,k],转到下一步;
S309,将所述语料列表CORPUS_RAW中所有行业标签为
Figure FDA0003879541400000052
的新闻标记为类别1,其他新闻标记为类别0,转到下一步;
S3010,用分类算法对上一步得到的数据进行训练,通过调整参数得到两个模型mpi和mri,要求mpi的准确率>M,mri的召回率>M,其中,M为预设的指标阈值,转到下一步;
S3011,保存mpi、mri和对应的行业标签
Figure FDA0003879541400000053
转到下一步;
S3012,若i=k,转到下一步,否则i+=1并转到第S308步;
S3013,歧义判别模型训练结束。
9.一种消除新闻中行业词歧义的装置,其特征在于,包括:
行业分类模块,用于获取新闻,对所述新闻进行行业分类,得到行业标签分类结果,所述行业标签分类结果包括多个行业标签和所述行业标签对应的特征词集合;
标签共现检验模块,用于对所述行业标签分类结果进行标签共现检验,若检验未通过,则将全部的所述行业标签加入预设的歧义判别列表中,若检验通过,则判断在所述特征词集合中是否存在特征词使得所述特征词在预设的歧义词集合中,若存在,则将所述特征词对应的所述行业标签加入所述歧义判别列表中,若不存在,则直接输出结果;
歧义判别模块,用于通过预设的歧义判别模型对所述歧义判别列表中的所述行业标签进行判别,得到歧义判别结果,根据所述歧义判别结果进行输出;
所述标签共现检验模块包括:
S21,将所述行业标签记为I={I1,…Im},其中Ii表示第i个行业标签,I的特征词集合记为F,其中行业标签Ii的特征词记为Fi={wi1,…win},其中wij表示Ii对应的第j个特征词,转到下一步;
S22,从I中取行业标签Ii,i∈[1,m-1],转到下一步;
S23,从I中取行业标签Ij,j∈[i+1,m],转到下一步;
S24,将Ii和Ij按行业名称的文字顺序排序,为方便计,排序后仍记为行业对(Ii,Ij),检查行业对(Ii,Ij)是否存在于合理共现关系集合VALID_COOC中,如存在,转到下一步,否则转到第S27步;
S25,若j=m,转到下一步,否则j+=1并转到第S23步;
S26,若i=m-1,转到第S28步,否则i+=1并转到第S22步;
S27,将I中的所有行业加入到歧义判别列表CHECK_LIST中,标签共现检验结束;
S28,从F中取特征词集合Fi,i∈{1,…,m},转到下一步;
S29,判断是否存在特征词wij,j∈[1,n],使得wij在事先设定的歧义词集合AMB_WORDS中,如存在,转到下一步,否则转到第S211步;
S210,将行业Ii加入到歧义判别列表CHECK_LIST中,转到下一步;
S211,若i=m,标签共现检验结束,否则i+=1并转到第S28步。
10.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至8中任一项权利要求所述的消除新闻中行业词歧义的方法的步骤。
11.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至8中任一项权利要求所述的消除新闻中行业词歧义的方法的步骤。
CN202110590171.4A 2021-05-28 2021-05-28 消除新闻中行业词歧义的方法、装置、设备和存储介质 Active CN113407717B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110590171.4A CN113407717B (zh) 2021-05-28 2021-05-28 消除新闻中行业词歧义的方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110590171.4A CN113407717B (zh) 2021-05-28 2021-05-28 消除新闻中行业词歧义的方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113407717A CN113407717A (zh) 2021-09-17
CN113407717B true CN113407717B (zh) 2022-12-20

Family

ID=77674906

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110590171.4A Active CN113407717B (zh) 2021-05-28 2021-05-28 消除新闻中行业词歧义的方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113407717B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3166646B2 (ja) * 1996-12-13 2001-05-14 日本電気株式会社 語義曖昧性解消装置
CN1916887A (zh) * 2006-09-06 2007-02-21 哈尔滨工程大学 基于替换词技术的无指导词义消歧方法
JP2009169844A (ja) * 2008-01-18 2009-07-30 Hitachi Software Eng Co Ltd 表認識方法及び表認識装置
CN103729343A (zh) * 2013-10-10 2014-04-16 上海交通大学 基于百科链接共现的语义消岐方法
CN104199838A (zh) * 2014-08-04 2014-12-10 浙江工商大学 一种基于标签消歧的用户模型建构方法
JP2014235584A (ja) * 2013-06-03 2014-12-15 日本電気株式会社 文書分析システム、文書分析方法およびプログラム
CN105760363A (zh) * 2016-02-17 2016-07-13 腾讯科技(深圳)有限公司 文本文件的词义消歧方法及装置
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108920475A (zh) * 2018-03-30 2018-11-30 西北师范大学 一种短文本相似度计算方法
CN110825877A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于文本聚类的语义相似度分析方法
CN112052356A (zh) * 2020-08-14 2020-12-08 腾讯科技(深圳)有限公司 多媒体分类方法、装置和计算机可读存储介质
CN112464669A (zh) * 2020-12-07 2021-03-09 宁波深擎信息科技有限公司 股票实体词消歧方法、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718443A (zh) * 2016-01-26 2016-06-29 齐鲁工业大学 一种基于依存词汇关联度的形容词词义消歧方法
JP7211901B2 (ja) * 2019-06-07 2023-01-24 株式会社日立製作所 情報処理装置および情報処理方法
CN111310475B (zh) * 2020-02-04 2023-03-10 支付宝(杭州)信息技术有限公司 词义消歧模型的训练方法及装置
CN112732871B (zh) * 2021-01-12 2023-04-28 上海畅圣计算机科技有限公司 一种机器人催收获取客户意向标签的多标签分类方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3166646B2 (ja) * 1996-12-13 2001-05-14 日本電気株式会社 語義曖昧性解消装置
CN1916887A (zh) * 2006-09-06 2007-02-21 哈尔滨工程大学 基于替换词技术的无指导词义消歧方法
JP2009169844A (ja) * 2008-01-18 2009-07-30 Hitachi Software Eng Co Ltd 表認識方法及び表認識装置
JP2014235584A (ja) * 2013-06-03 2014-12-15 日本電気株式会社 文書分析システム、文書分析方法およびプログラム
CN103729343A (zh) * 2013-10-10 2014-04-16 上海交通大学 基于百科链接共现的语义消岐方法
CN104199838A (zh) * 2014-08-04 2014-12-10 浙江工商大学 一种基于标签消歧的用户模型建构方法
CN105760363A (zh) * 2016-02-17 2016-07-13 腾讯科技(深圳)有限公司 文本文件的词义消歧方法及装置
CN107861939A (zh) * 2017-09-30 2018-03-30 昆明理工大学 一种融合词向量和主题模型的领域实体消歧方法
CN108920475A (zh) * 2018-03-30 2018-11-30 西北师范大学 一种短文本相似度计算方法
CN110825877A (zh) * 2019-11-12 2020-02-21 中国石油大学(华东) 一种基于文本聚类的语义相似度分析方法
CN112052356A (zh) * 2020-08-14 2020-12-08 腾讯科技(深圳)有限公司 多媒体分类方法、装置和计算机可读存储介质
CN112464669A (zh) * 2020-12-07 2021-03-09 宁波深擎信息科技有限公司 股票实体词消歧方法、计算机设备及存储介质

Non-Patent Citations (7)

* Cited by examiner, † Cited by third party
Title
An Online Name Disambiguation Method Based on Entity and Property Co-occurrence;Lian Duan et al.;《2017 Second International Conference on Mechanical, Control and Computer Engineering (ICMCCE)》;20180129;全文 *
Correlation based Word Sense Disambiguation;Madhavi Agarwal et al.;《2014 Seventh International Conference on Contemporary Computing (IC3)》;20140915;全文 *
New Techniques for Disambiguation in Natural Language and Their Application to Biological Text;Filip Ginter et al.;《Machine Learning Research》;20041201;第05卷;全文 *
中医医案文本消歧算法的研究与实现;王冰;《中国优秀博硕士学位论文全文数据库(硕士)医药卫生科技辑》;20200815(第08期);全文 *
中文人名消歧算法研究;林翠萍;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20160315(第03期);全文 *
基于统计学习的词义消歧关键技术研究;周云;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20170215(第02期);全文 *
基于网络协作标注的标签消歧方法述评;窦玉萌;《现代图书情报技术》;20100325;第190卷(第03期);全文 *

Also Published As

Publication number Publication date
CN113407717A (zh) 2021-09-17

Similar Documents

Publication Publication Date Title
CN110968699A (zh) 一种基于事理推荐的逻辑图谱构建及预警方法和装置
WO2020243846A1 (en) System and method for automated file reporting
CA2727963A1 (en) Search engine and methodology, particularly applicable to patent literature
CN110633365A (zh) 一种基于词向量的层次多标签文本分类方法及系统
CN114036930A (zh) 文本纠错方法、装置、设备及计算机可读介质
CN111930933A (zh) 一种基于人工智能的检务案件处理方法及装置
CN112116168B (zh) 一种用户行为的预测方法、装置及电子设备
KR20160149050A (ko) 텍스트 마이닝을 활용한 순수 기업 선정 장치 및 방법
CN112365372A (zh) 一种面向裁判文书的质量检测及评估方法及系统
Mukherjee et al. Analyzing large news corpus using text mining techniques for recognizing high crime prone areas
CN116304020A (zh) 一种基于义原分析和跨度特征的工业文本实体抽取方法
CN111104503A (zh) 一种建筑工程质量验收规范问答系统及其构建方法
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN113407717B (zh) 消除新闻中行业词歧义的方法、装置、设备和存储介质
CN110362592B (zh) 裁决指引信息推送方法、装置、计算机设备和存储介质
CN110941713B (zh) 基于主题模型的自优化金融资讯版块分类方法
CN116431746A (zh) 基于编码库的地址映射方法、装置、电子设备及存储介质
CN115994531A (zh) 一种多维度文本综合辨识方法
CN115759085A (zh) 基于提示模型的信息预测方法、装置、电子设备及介质
CN114610882A (zh) 一种基于电力短文本分类的异常设备编码检测方法和系统
CN116049386A (zh) 文本对应类目的预测方法、装置以及电子设备
CN113033176A (zh) 一种法院案件判决预测方法
CN118093881B (zh) 一种基于知识图谱的审计对象画像建模方法和系统
CN116932487B (zh) 一种基于数据段落划分的量化式数据分析方法及系统
CN117555983B (zh) 一种基于机器学习的辅助定密方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant