CN111897917A - 基于多模态自然语言特征的轨道交通行业术语提取方法 - Google Patents

基于多模态自然语言特征的轨道交通行业术语提取方法 Download PDF

Info

Publication number
CN111897917A
CN111897917A CN202010734793.5A CN202010734793A CN111897917A CN 111897917 A CN111897917 A CN 111897917A CN 202010734793 A CN202010734793 A CN 202010734793A CN 111897917 A CN111897917 A CN 111897917A
Authority
CN
China
Prior art keywords
word
list
words
candidate
natural language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010734793.5A
Other languages
English (en)
Other versions
CN111897917B (zh
Inventor
刘永浩
曹幂
林海
温俊
周逸夫
李涛
张帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Lingyao Technology Co ltd
Original Assignee
Jiaxing Yunda Intelligent Equipment Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiaxing Yunda Intelligent Equipment Co ltd filed Critical Jiaxing Yunda Intelligent Equipment Co ltd
Priority to CN202010734793.5A priority Critical patent/CN111897917B/zh
Publication of CN111897917A publication Critical patent/CN111897917A/zh
Application granted granted Critical
Publication of CN111897917B publication Critical patent/CN111897917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于多模态自然语言特征的轨道交通行业术语提取方法,涉及自然语言处理、数据挖掘技术领域,解决了目前依赖于词典的行业术语提取方法无法实现自动、快速、高效的提取轨道交通行业行业术语的问题,其技术方案要点是:结合分词技术、词性分析技术、句法分析技术和无监督学习技术从不同的维度得到自然语言的多模态特征;在二元共现分析与三元共现分析的基础上,又使用基于邻接字的扩展方法对二元词对和三元词进行了扩充,通过对多种技术方法的综合运用,从自然语言的不同模态得到了不同批次的术语库,并对各批次的术语库取并集得到最终的行业术语库,最后通过行业术语库的自动抽样和规则过滤,提高行业术语抽取的覆盖率和准确度。

Description

基于多模态自然语言特征的轨道交通行业术语提取方法
技术领域
本发明涉及自然语言处理、数据挖掘技术领域,更具体地说,它涉及基于多模态自然语言特征的轨道交通行业术语提取方法。
背景技术
目前,我国的轨道交通行业在近年来得到了迅猛发展,因此对该行业各岗位、各工种相关工作人员的技术能力和服务水平提出了更高的要求,加之该行业涉及领域广泛、涉及学科众多、知识体系复杂,从而对轨道交通行业的教育培训系统也提出了更高的要求。因此,传统的教育理念和技术手段已经无法满足学员对相关教育培训系统的在线化、个性化和智能化需求。
基于此,以知识图谱为核心的轨道交通智慧教育培训系统便应运而生。然而,在知识图谱的构建过程,首先需要从该行业知识库、教材和工程资料中对知识实体的名称进行抽取,常见的专业术语的提取方法主要包括分词技术、行业词典匹配和命名实体识别等方法,无论那种方法都对行业词典或标注语料库有着极强的依赖。现有的术语词汇抽取技术都需要使用已有的标注数据集对模型进行训练,其中标注数据集的构建需要花费大量的人力和物力,并且若构建的词典内容不够准确、词条数量不足时,都会影响对专业术语的提取效果,很难完全抽取出所有的术语词汇。
然而,对于轨道交通行业而言,到目前为止,尚未有一套充足、完备的行业词典,所以依赖于词典的方法都无法实现自动、快速、高效的提取行业术语的需求。因此,如何研究设计一种基于多模态自然语言特征的轨道交通行业术语提取方法是我们目前急需解决的问题。
发明内容
本发明的目的是提供基于多模态自然语言特征的轨道交通行业术语提取方法,结合分词技术、词性分析技术、句法分析技术和无监督学习技术从不同的维度得到自然语言的多模态特征,并对多模态特征进行综合分析,能够快速高效的从非结构化文本中提取出轨道交通行业的专业词汇,提高行业术语抽取的覆盖率和准确度。
本发明的上述技术目的是通过以下技术方案得以实现的:
第一方面,提供了基于多模态自然语言特征的轨道交通行业术语提取方法,包括以下步骤:
S1:对行业语料库中的文档标题进行识别和提取,并根据过滤词词库对识别和提取的行业术语进行过滤,得到第一批候选词词库;
S2:根据过滤词词库对行业语料库进行文本切分、筛选后得到由文本单元构成的预选词列表,并对预选词列表循环迭代过滤后得到第二批候选词词库;
S3:通过分词模型和词性标注模型对语料进行分词和词性标注,将连续相邻的类名词合并成名词性短语,抽取名词性短语后得到第三批候选词词库;
S4:对分词列表去除处理后得到预选分词列表、词频统计列表,根据预选分词列表、词频统计列表进行二元共现分析后得到由二元词对构成的第四批候选词词库;
S5:根据预选分词列表、词频统计列表进行三元共现分析得到由三元词对构成的第五批候选词词库;
S6:根据邻接字对二元词对和/或三元词对进行扩展,得到第六批候选词词库;
S7:对所有批次的候选词词库求解并集后得到最终行业术语库。
优选的,在步骤S1中,所述过滤词词库具体为:根据开源汉语词典建立的由介词、连词、助词、副词等常用虚词构成的词库。
优选的,在步骤S2中,所述第二批候选词词库具体为:
S201:对行业语料库进行预处理:
通过标题识别规则将标题编号剔除,并将标题内容作为一个独立的文本行;
根据标点符号和特殊符号将语料进行切分,并去除掉标点符号和特殊符号后得到文本集;
S202:在文本集中筛选出字符串长度小于指定阈值的文本单元,构成预选词列表;
S203:循环迭代预选词列表,通过过滤词词库将预选词的前置过滤词和后置过滤词全部删除,得到第二批候选词词库。
优选的,在步骤S4、S5中,所述分词列表去除停用词和过滤词具体为:
S401:根据加载的停用词词库和过滤词词库去除分词列表中的停用词和过滤词,得到预选分词列表;
S402:对预选分词列表进行一元共现分析后得到预选分词列表中所有词语的词频统计列表,一元共现分析的计算公式为:
Figure RE-GDA0002671933390000021
其中,Wi表示预选分词列表中的某词语,C(Wi)表示某词语在预选分词列表中出现的次数, T表示预选分词列表中分词的总数,P(Wi)表示某词语在预选分词列表中出现的概率。
优选的,所述二元共现分析具体为:
S403:按预定顺序遍历语料库的预选分词列表,以当前词为中心,分别取左邻接词和右邻接词形成二元词对形成二元词对列表;
S404:计算二元词对列表中每个二元词对的左邻接熵、右邻接熵和互信息,并计算总评分值;
S405:根据总评分值对二元词对列表进行排序,获取前序N个二元词对构成第四批候选词词库。
优选的,所述左邻接熵、右邻接熵具体为:
左邻接熵的计算公式为:
Figure RE-GDA0002671933390000031
右邻接熵的计算公式为:
Figure RE-GDA0002671933390000032
其中,Sl是候选词W的左邻接词的集合,Sr是候选词W的右邻接词的集合;P(Wl|W)表示Wl是候选词W的左邻接词的条件概率,P(Wr|W)表示Wr为候选词W的右邻接词的条件概率;
P(Wl|W)和P(Wr|W)的计算公式为:
Figure RE-GDA0002671933390000033
其中,N(Wl,W)表示Wl和W共同出现的次数,N(W)表示W出现的次数;同理,N(W,Wr)表示W和Wr共同出现的次数。
优选的,所述互信息具体为:
Figure RE-GDA0002671933390000034
其中,P(X)、P(Y)表示词X、Y单独出现在语料集中的概率,P(X,Y)表示X和Y共同在语料集中出现的概率,MI(X,Y)表示X和Y的关联程度;若MI(X,Y)>0,表示X和Y是相互关联的,且MI的值越大表示二者相关联的程度越大,越有可能成为新词;若MI(X,Y)=0,则表示X和Y是彼此独立的;若MI(X,Y)<0,则表示X和Y是不相关的。
优选的,所述总评分值具体为:
Figure RE-GDA0002671933390000035
优选的,在步骤S6中,所述二元词对、三元词对扩展具体为:
S601:从左至右逐字扩展候选词语,统计候选词语与右邻接字共现的词频,按照词频阈值进行过滤;
S603:计算候选词语与右邻接字的互信息值;若大于互信息阈值,则继续向右扩展;否则,将候选词记作候选新词;
S603:过滤候选新词,得到新词集合;用邻接熵进行候选新词的过滤,设置左右邻接熵的阈值,计算左右邻接熵,将左右邻接熵小于左右邻接熵阈值的候选新词删除掉,得到以候选新词形成的第六批候选词词库。
第二方面,提供了一种计算机系统,包括存储器、处理器以及存储在存储器内并可在处理器中执行第一方面1-9任意一项所述方法的计算机程序。
与现有技术相比,本发明具有以下有益效果:
(1)本发明综合利用标题识别规则、分词模型、词性分析和无监督学习算法从多个模态分批次提取行业术语,与传统技术方法相比不仅减少了人工标注的工作,还提高了行业术语提取的工作效率和覆盖率;
(2)本发明实现了对行业术语提取过程的自动化和智能化,提取过程无需人工干预,也无需要人工对语料库进行标注,在节省人力物力的同时,也使得行业术语库的构建效率得到了很大的提升;
(3)本发明在二元共现分析与三元共现分析的基础上,又使用基于邻接字的扩展方法对二元词对和三元词进行了扩充。通过对多种技术方法的综合运用,从自然语言的不同模态得到了不同批次的术语库,并对各批次的术语库取并集得到最终的行业术语库,最后通过行业术语库的自动抽样和规则过滤,使得术语词词库的覆盖率有了极大的提升。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1是本发明实施例中的流程图;
图2是本发明实施例中的逻辑框图;
图3是本发明实施例中轨道交通行业知识图谱的局部结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图1-2,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例:基于多模态自然语言特征的轨道交通行业术语提取方法,如图1与图2所示,包括以下步骤:
步骤一、按照标题识别规则对行业语料库中的文档标题进行识别和提取,并根据过滤词词库对识别和提取的行业术语进行过滤,得到第一批候选词词库。过滤词词库为根据开源汉语词典建立的由介词、连词、助词、副词等常用虚词构成的词库。其中,行业语料库为通过OCR技术和文档解析技术对轨道交通行业的培训教材和工程材料进行读取,并对读取的文本内容和表格内容进行预处理,例如:字符编码格式转换、乱码剔除、行内容合并、表格文本内容按表格格式对齐等,最后将预处理完的文本内容加入轨道交通行业语料库。轨道交通培训教材中的标题基本都是由行业术语组成,因此通过标题识别规则提取出来的词语大部分可以直接做为行业术语。
步骤二、根据过滤词词库对行业语料库进行文本切分、筛选后得到由文本单元构成的预选词列表,并对预选词列表循环迭代过滤后得到第二批候选词词库。具体为:通过标题识别规则将标题编号剔除,并将标题内容作为一个独立的文本行;根据标点符号和特殊符号将语料进行切分,并去除掉标点符号和特殊符号后得到文本集,完成对行业语料库的预处理。在文本集中筛选出字符串长度小于指定阈值的文本单元,构成预选词列表。循环迭代预选词列表,通过过滤词词库将预选词的前置过滤词和后置过滤词全部删除,得到第二批候选词词库。其中,过滤词包括用于连接词语或句子的连词、表示词语或句子之间关系的介词、表示词语或句子结构关系的助词等汉语虚词。由于虚词很少出现在行业术语中,因此通过过滤词一方面可以用于句子切分,另一方面可以对提取出来的行业术语进行二次筛选和过滤。
步骤三、通过分词模型和词性标注模型对语料进行分词和词性标注,将连续相邻的类名词合并成名词性短语,抽取名词性短语后得到第三批候选词词库。类名词包括但不限于名词 (n)、名形词(an)和名动词(vn)。
步骤四、加载停用词词库和过滤词词库后,去除分词列表中的停用词和过滤词,得到预选分词列表,再通过一元共现分析得到预选分词列表中所有词语的词频统计列表。
一元共现分析的计算公式为:
Figure RE-GDA0002671933390000051
其中,Wi表示预选分词列表中的某词语,C(Wi)表示某词语在预选分词列表中出现的次数, T表示预选分词列表中分词的总数,P(Wi)表示某词语在预选分词列表中出现的概率。
对预选分词列表进行二元共现分析,得到由二元词对构成的第四批候选词词库。通过计算连续邻接的二元词对之间的邻接熵、互信息和评分值来判断该二元词对是否可以独立成词。二元共现分析具体为:
按预定顺序遍历语料库的预选分词列表,以当前词为中心,分别取左邻接词和右邻接词形成二元词对形成二元词对列表;计算二元词对列表中每个二元词对的左邻接熵、右邻接熵和互信息,并计算总评分值;根据总评分值对二元词对列表进行排序,获取前序N个二元词对构成第四批候选词词库。其中:
左邻接熵的计算公式为:
Figure RE-GDA0002671933390000061
右邻接熵的计算公式为:
Figure RE-GDA0002671933390000062
其中,Sl是候选词W的左邻接词的集合,Sr是候选词W的右邻接词的集合;P(Wl|W)表示Wl是候选词W的左邻接词的条件概率,P(Wr|W)表示Wr为候选词W的右邻接词的条件概率。
P(Wl|W)和P(Wr|W)的计算公式为:
Figure RE-GDA0002671933390000063
其中,N(Wl,W)表示Wl和W共同出现的次数,N(W)表示W出现的次数;同理,N(W,Wr)表示W和Wr共同出现的次数。
互信息具体为:
Figure RE-GDA0002671933390000064
其中,P(X)、P(Y)表示词X、Y单独出现在语料集中的概率,P(X,Y)表示X和Y共同在语料集中出现的概率,MI(X,Y)表示X和Y的关联程度;若MI(X,Y)>0,表示X和Y是相互关联的,且MI的值越大表示二者相关联的程度越大,越有可能成为新词;若MI(X,Y)=0,则表示X和Y是彼此独立的;若MI(X,Y)<0,则表示X和Y是不相关的。
总评分值具体为:
Figure RE-GDA0002671933390000065
步骤五、对预选分词列表进行进行三元共现分析,得到由三元词对构成的第五批候选词词库。按顺序遍历语料库的预选分词列表,以当前词为中心,分别取其两个左邻接词和两个右邻接词形成三元词对,并加入三元词对列表。分别计算三元词对列表中每个三元词对的左邻接熵、右邻接熵和互信息,并计算其总评分值。将三元词对列表按评分值进行排序,获取前前序N个三元词对做为第五批候选词词库。
步骤六、根据邻接字对二元词对、三元词对进行扩展,得到第六批候选词词库。具体为:从左至右逐字扩展候选词语,统计候选词语与右邻接字共现的词频,按照词频阈值进行过滤。计算候选词语与右邻接字的互信息值;若大于互信息阈值,则继续向右扩展;否则,将候选词记作候选新词。过滤候选新词,得到新词集合;用邻接熵进行候选新词的过滤,设置左右邻接熵的阈值,计算左右邻接熵,将左右邻接熵小于左右邻接熵阈值的候选新词删除掉,得到以候选新词形成的第六批候选词词库。
步骤七、对所有批次的候选词词库求解并集后得到最终行业术语库。如图3所示,以最终行业术语库为基础,通过关键词匹配算法从轨道交通行业语料库中提取出术语词汇做为知识实体的实体名称,可以通过知识图谱构建技术构建出轨道交通行业知识图谱。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,包括以下步骤:
S1:对行业语料库中的文档标题进行识别和提取,并根据过滤词词库对识别和提取的行业术语进行过滤,得到第一批候选词词库;
S2:根据过滤词词库对行业语料库进行文本切分、筛选后得到由文本单元构成的预选词列表,并对预选词列表循环迭代过滤后得到第二批候选词词库;
S3:通过分词模型和词性标注模型对语料进行分词和词性标注,将连续相邻的类名词合并成名词性短语,抽取名词性短语后得到第三批候选词词库;
S4:对分词列表去除处理后得到预选分词列表、词频统计列表,根据预选分词列表、词频统计列表进行二元共现分析后得到由二元词对构成的第四批候选词词库;
S5:根据预选分词列表、词频统计列表进行三元共现分析得到由三元词对构成的第五批候选词词库;
S6:根据邻接字对二元词对和/或三元词对进行扩展,得到第六批候选词词库;
S7:对所有批次的候选词词库求解并集后得到最终行业术语库。
2.根据权利要求1所述的基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,在步骤S1中,所述过滤词词库具体为:根据开源汉语词典建立的由介词、连词、助词、副词等常用虚词构成的词库。
3.根据权利要求1所述的基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,在步骤S2中,所述第二批候选词词库具体为:
S201:对行业语料库进行预处理:
通过标题识别规则将标题编号剔除,并将标题内容作为一个独立的文本行;
根据标点符号和特殊符号将语料进行切分,并去除掉标点符号和特殊符号后得到文本集;
S202:在文本集中筛选出字符串长度小于指定阈值的文本单元,构成预选词列表;
S203:循环迭代预选词列表,通过过滤词词库将预选词的前置过滤词和后置过滤词全部删除,得到第二批候选词词库。
4.根据权利要求1所述的基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,在步骤S4、S5中,所述分词列表去除停用词和过滤词具体为:
S401:根据加载的停用词词库和过滤词词库去除分词列表中的停用词和过滤词,得到预选分词列表;
S402:对预选分词列表进行一元共现分析后得到预选分词列表中所有词语的词频统计列表,一元共现分析的计算公式为:
Figure FDA0002604542730000021
其中,Wi表示预选分词列表中的某词语,C(Wi)表示某词语在预选分词列表中出现的次数,T表示预选分词列表中分词的总数,P(Wi)表示某词语在预选分词列表中出现的概率。
5.根据权利要求4所述的基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,所述二元共现分析具体为:
S403:按预定顺序遍历语料库的预选分词列表,以当前词为中心,分别取左邻接词和右邻接词形成二元词对形成二元词对列表;
S404:计算二元词对列表中每个二元词对的左邻接熵、右邻接熵和互信息,并计算总评分值;
S405:根据总评分值对二元词对列表进行排序,获取前序N个二元词对构成第四批候选词词库。
6.根据权利要求5所述的基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,所述左邻接熵、右邻接熵具体为:
左邻接熵的计算公式为:
Figure FDA0002604542730000022
右邻接熵的计算公式为:
Figure FDA0002604542730000023
其中,Sl是候选词W的左邻接词的集合,Sr是候选词W的右邻接词的集合;P(Wl|W)表示Wl是候选词W的左邻接词的条件概率,P(Wr|W)表示Wr为候选词W的右邻接词的条件概率;
P(Wl|W)和P(Wr|W)的计算公式为:
Figure FDA0002604542730000024
其中,N(Wl,W)表示Wl和W共同出现的次数,N(W)表示W出现的次数;同理,N(W,Wr)表示W和Wr共同出现的次数。
7.根据权利要求6所述的基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,所述互信息具体为:
Figure FDA0002604542730000025
其中,P(X)、P(Y)表示词X、Y单独出现在语料集中的概率,P(X,Y)表示X和Y共同在语料集中出现的概率,MI(X,Y)表示X和Y的关联程度;若MI(X,Y)>0,表示X和Y是相互关联的,且MI的值越大表示二者相关联的程度越大,越有可能成为新词;若MI(X,Y)=0,则表示X和Y是彼此独立的;若MI(X,Y)<0,则表示X和Y是不相关的。
8.根据权利要求7所述的基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,所述总评分值具体为:
Figure FDA0002604542730000031
9.根据权利要求1所述的基于多模态自然语言特征的轨道交通行业术语提取方法,其特征是,在步骤S6中,所述二元词对、三元词对扩展具体为:
S601:从左至右逐字扩展候选词语,统计候选词语与右邻接字共现的词频,按照词频阈值进行过滤;
S603:计算候选词语与右邻接字的互信息值;若大于互信息阈值,则继续向右扩展;否则,将候选词记作候选新词;
S603:过滤候选新词,得到新词集合;用邻接熵进行候选新词的过滤,设置左右邻接熵的阈值,计算左右邻接熵,将左右邻接熵小于左右邻接熵阈值的候选新词删除掉,得到以候选新词形成的第六批候选词词库。
10.一种计算机系统,其特征是,包括存储器、处理器以及存储在存储器内并可在处理器中执行权利要求1-9任意一项所述方法的计算机程序。
CN202010734793.5A 2020-07-28 2020-07-28 基于多模态自然语言特征的轨道交通行业术语提取方法 Active CN111897917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010734793.5A CN111897917B (zh) 2020-07-28 2020-07-28 基于多模态自然语言特征的轨道交通行业术语提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010734793.5A CN111897917B (zh) 2020-07-28 2020-07-28 基于多模态自然语言特征的轨道交通行业术语提取方法

Publications (2)

Publication Number Publication Date
CN111897917A true CN111897917A (zh) 2020-11-06
CN111897917B CN111897917B (zh) 2023-06-16

Family

ID=73189334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010734793.5A Active CN111897917B (zh) 2020-07-28 2020-07-28 基于多模态自然语言特征的轨道交通行业术语提取方法

Country Status (1)

Country Link
CN (1) CN111897917B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632969A (zh) * 2020-12-13 2021-04-09 复旦大学 一种增量式行业词典更新方法和系统
CN113361238A (zh) * 2021-05-21 2021-09-07 北京语言大学 一种语块重组题型的自动命题的方法及装置
CN113779200A (zh) * 2021-09-14 2021-12-10 中国电信集团系统集成有限责任公司 目标行业词库的生成方法、处理器及装置
CN115982390A (zh) * 2023-03-17 2023-04-18 北京邮电大学 一种产业链构建和迭代扩充开发方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445921A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用二次互信息的中文文本术语抽取方法
CN108509425A (zh) * 2018-04-10 2018-09-07 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法
CN110909531A (zh) * 2019-10-18 2020-03-24 平安科技(深圳)有限公司 信息安全的甄别方法、装置、设备及存储介质
EP3640834A1 (en) * 2018-10-17 2020-04-22 Verint Americas Inc. Automatic discovery of business-specific terminology

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106445921A (zh) * 2016-09-29 2017-02-22 北京理工大学 利用二次互信息的中文文本术语抽取方法
CN108509425A (zh) * 2018-04-10 2018-09-07 中国人民解放军陆军工程大学 一种基于新颖度的中文新词发现方法
EP3640834A1 (en) * 2018-10-17 2020-04-22 Verint Americas Inc. Automatic discovery of business-specific terminology
CN110909531A (zh) * 2019-10-18 2020-03-24 平安科技(深圳)有限公司 信息安全的甄别方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
贾自艳,史忠植: "基于概率统计技术和规则方法的新词发现", 计算机工程, no. 20 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112632969A (zh) * 2020-12-13 2021-04-09 复旦大学 一种增量式行业词典更新方法和系统
CN112632969B (zh) * 2020-12-13 2022-06-21 复旦大学 一种增量式行业词典更新方法和系统
CN113361238A (zh) * 2021-05-21 2021-09-07 北京语言大学 一种语块重组题型的自动命题的方法及装置
CN113361238B (zh) * 2021-05-21 2022-02-11 北京语言大学 一种语块重组题型的自动命题的方法及装置
CN113779200A (zh) * 2021-09-14 2021-12-10 中国电信集团系统集成有限责任公司 目标行业词库的生成方法、处理器及装置
CN115982390A (zh) * 2023-03-17 2023-04-18 北京邮电大学 一种产业链构建和迭代扩充开发方法

Also Published As

Publication number Publication date
CN111897917B (zh) 2023-06-16

Similar Documents

Publication Publication Date Title
CN111897917B (zh) 基于多模态自然语言特征的轨道交通行业术语提取方法
CN110442760B (zh) 一种问答检索系统的同义词挖掘方法及装置
CN111723215B (zh) 基于文本挖掘的生物技术信息知识图谱构建装置与方法
CN109213861B (zh) 结合At_GRU神经网络与情感词典的旅游评价情感分类方法
CN107193801B (zh) 一种基于深度信念网络的短文本特征优化及情感分析方法
CN101079025B (zh) 一种文档相关度计算系统和方法
CN114065758B (zh) 一种基于超图随机游走的文档关键词抽取方法
CN110502744B (zh) 一种针对历史公园评价的文本情感识别方法及装置
CN111324742A (zh) 一种数字人文知识图谱的构建方法
CN113221559B (zh) 利用语义特征的科技创新领域中文关键短语抽取方法及系统
CN112417854A (zh) 中文文档抽取式摘要方法
CN112926345A (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
CN113033183A (zh) 一种基于统计量与相似性的网络新词发现方法及系统
CN105224520A (zh) 一种中文专利文献术语自动识别方法
CN111563372B (zh) 一种基于教辅书籍出版的排版文档内容自查重方法
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
CN110502759B (zh) 融入分类词典的汉越混合网络神经机器翻译集外词处理方法
CN114491062B (zh) 一种融合知识图谱和主题模型的短文本分类方法
CN115618883A (zh) 一种业务语义识别方法及装置
CN101271448A (zh) 汉语基本名词短语的识别及其规则的生成方法和装置
Tarmom et al. Compression versus traditional machine learning classifiers to detect code-switching in varieties and dialects: Arabic as a case study
CN115952794A (zh) 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法
CN113095087B (zh) 一种基于图卷积神经网络的中文词义消歧方法
CN114996455A (zh) 一种基于双知识图谱的新闻标题短文本分类方法
CN115203429A (zh) 一种用于构建审计领域本体框架的知识图谱自动扩充方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211216

Address after: 610000 No. 1, floor 1, building 6, No. 366, Baicao Road, high tech Zone, Chengdu, Sichuan

Applicant after: Chengdu lingyao Technology Co.,Ltd.

Address before: 314000 suilun village, dushangang Town, Pinghu City, Jiaxing City, Zhejiang Province (west side of Building 2 in Pinghu Suifeng Hardware Co., Ltd.)

Applicant before: JIAXING YUNDA INTELLIGENT EQUIPMENT CO.,LTD.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant