CN104572758B - 一种电力领域专业词汇自动抽取方法及系统 - Google Patents
一种电力领域专业词汇自动抽取方法及系统 Download PDFInfo
- Publication number
- CN104572758B CN104572758B CN201310508768.5A CN201310508768A CN104572758B CN 104572758 B CN104572758 B CN 104572758B CN 201310508768 A CN201310508768 A CN 201310508768A CN 104572758 B CN104572758 B CN 104572758B
- Authority
- CN
- China
- Prior art keywords
- vocabulary
- power marketing
- power
- specialized
- specialized vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2264—Multidimensional index structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种电力领域专业词汇的自动抽取方法及系统,所述方法步骤如下:步骤A:从电力营销领域的语料库中抽取电力营销相关的专业词汇,将其转换成相应的英文,并添加至电力营销专业词汇库中;步骤B:搜集电力系统相关词汇及对应翻译,并将其添加到电力营销专业词汇库中;步骤C:建立电力营销专业词汇库的两级索引结构;步骤D:检索电力营销专业词汇库,检索顺序依次为电力系统词汇、通用词典、电力营销领域抽取词汇,检索完毕后,返回给用户检索结果。方便用户词汇的高效检索,进而实现营销标准化设计成果中专业词汇的自动化转换,以提高专业词汇转换的质量和效率。
Description
技术领域
本发明涉及电力营销自动化领域,更具体的说,本发明涉及一种电力领域专业词汇自动抽取方法及系统。
背景技术
营销自动化系统标准化设计工作是国家电网公司在电力营销技术支持系统建设取得初步成效,公司发展战略对系统建设提出更新、更高要求的基础上开展的,该项工作的开展使得营销业务应用系统集团化运作、集约化发展、精细化管理、标准化建设,可促进营销发展方式和管理方式的转变,提高服务能力和水平、业务处理及流程规范,达到资源共享集约。但随着国家电网公司“大营销”建设,营销自动化系统建设周期要求日益紧迫,标准化设计工作的压力逐步加大,逐渐显现一系列问题降低了营销标准化设计效率以及营销自动化系统的质量。
在营销自动化系统标准化设计过程中较多地方需要将专业词汇转换成英文,而目前专业词汇转换工作主要采用人工或者简单转换工具的方式实现。人工转换的方式主要由一个或多个专业人员根据个人经验完成,转换结果能够在一定程度上满足营销工作的需要,但由于占用大量的时间,严重影响了营销标准化工作的效率。利用网络工具进行转换的方式,由于没有与营销自动化背景相结合,使得转换结果不理想,需要进行多次转换才能满足标准化设计工作的需求,时间复杂度也较高,这两种转换方式得到的结果给营销自动化技术人员、业务人员以及电力用户准确透彻理解相关标准、规范、产品带来了不便。
另外,在进行电力营销专业词汇转换时,关于如何获取较多的专业词汇以增加词汇库的词汇量,如何构建专业词汇库以提高用户输入词汇的检索速度都成为当前词汇转换亟待解决的问题。现有词汇抽取技术中基于语言特性的术语抽取方法,通过计算相邻词汇之间的耦合度得到领域术语,但需要对语料中所有的词汇计算耦合度,且仅能找出在专业领域出现概率较高的术语,准确度较低;基于条件随机场的术语抽取方法,手工标注所有训练语料中的专业术语,采用条件随机场方法训练得到抽取模型,然后用于抽取其他的术语,但手工标注专业术语工作量大、效率低,严重影响了抽取的效率,因此,需要结合上述现状,研究一种电力领域专业词汇自动抽取方法及系统,利用自动化抽取转换工具,进行营销标准化设计成果的专业词汇的自动转换,提高标准化设计成果的质量及标准化设计工作的效率。
发明内容
本发明的目的就是为解决上述问题,提出一种电力领域专业词汇自动抽取方法及系统,进行电力营销专业词汇的自动抽取,丰富专业词汇库的信息量,并建立具有两级索引结构的词汇库,方便用户词汇的高效检索,进而实现营销标准化设计成果中专业词汇的自动化转换,以提高专业词汇转换的质量和效率。
为实现上述目的,本发明采用如下技术方案:
一种电力领域专业词汇的自动抽取方法及系统,实现步骤如下:
步骤A:首先利用相关性计算方法从电力营销领域语料库中找出电力营销领域基础词汇,其次从电力营销领域语料库中随机抽取一部分语料作为待训练语料,然后以待训练语料中的每个电力营销领域基础词汇为中心,与周围邻近的其他词汇组合成不同长度的词汇串,计算词汇串中相邻词汇之间的互信息和词汇串的语言特性,将既与电力营销领域有较高相关性又符合汉语语言特性的词汇作为电力营销领域专业词汇,并在待训练语料中标注出来,生成训练语料,最后基于条件随机场方法对训练语料进行训练,得到专业词汇抽取模型,利用该专业词汇抽取模型实现从电力营销领域语料库中抽取电力营销相关的专业词汇,人工将其转换成对应的英文,并添加至电力营销专业词汇库中;
步骤B:搜集电力系统相关词汇及对应翻译,并将其添加到电力营销专业词汇库中,所述电力营销专业词汇库主要包含电力系统词汇、通用词典和从步骤A抽取得到的电力营销领域词汇;
步骤C:建立电力营销专业词汇库的两级索引结构,其中,一级索引包含关键字、下一汉字索引指针,二级索引包含关键字、其余字串组指针;
步骤D:检索电力营销专业词汇库,检索顺序依次为电力系统词汇、通用词典、电力营销领域抽取词汇,检索完毕后,返回给用户检索结果。
所述步骤A具体步骤为:
步骤A1:进行电力营销领域语料、平衡语料的预处理,采用中科院汉语词法分析系统ICTCLAS对电力营销语料、平衡语料进行分词,这是确定电力营销领域基础词汇的基础;电力营销领域语料是指电力营销领域的文献;所述平衡预料是指涵盖电力、社保、职业资格多领域的文献;
步骤A2:抽取待训练语料,并进行训练语料的自动标注,首先在步骤A1的分词的基础上,采用领域相关性计算方法找出在电力营销领域出现概率较高的词语,并将其作为电力营销领域基础词汇,其次从电力营销领域语料库中随机抽取20%语料作为待训练语料,然后从中找出所有包含电力营销领域基础词汇而且互信息和语言特性均符合要求的相邻词汇串,将相邻词汇串标注为电力营销专业词汇,最终得到已标注的训练语料;所述电力营销领域语料库由搜集的电力营销领域的大量文献组成;所述符合要求是指在互信息的基础上引入停用词和词性组合作为惩罚因子进行专业词汇的筛选;
步骤A3:采用机器学习中的条件随机场方法对已标注的训练语料进行分析,包含各专业词汇的内部组成、词汇与上下文的关系特征,选择合适的特征模板进行推演训练,得到专业词汇抽取模型,并依据该抽取模型从电力营销领域语料库中抽取电力营销相关的专业词汇或新语料库中的专业词汇;
步骤A4:由电力营销领域的相关专家对抽取得到的专业词汇进行筛选,并完成专业词汇的转换,转换得到的专业词汇会添加到电力营销专业词汇库中。
所述步骤A2中的领域相关性指词汇在电力营销领域的专属性,计算公式p(x)为词汇在电力营销领域语料中出现的概率,q(x)为词汇在平衡语料中出现的概率。
所述步骤A2中的互信息体现了各个字之间结合的紧密程度,互信息越大,两个字结合力越强,越能构成专业词汇,计算公式p(x),p(y)分别是x和y独立出现的概率,p(x,y)是x和y同现的概率。
所述步骤A2的语言特性指构成专业词汇的词语的特性,依据中文中有些词和词性组合不可能或者很少出现在专业词汇中,将结合词汇是否是停用词、属于特定的词性组合进行专业词汇的排除。
所述步骤A3的条件随机场方法是在最大熵模型和隐马尔科夫模型的基础上提出来的,用于切分和标注序列化数据的统计模型,其目标是在给定需要标记的观察序列的条件下,使标记序列的联合概率达到最优。
所述步骤B的电力营销专业词汇库包含电力系统词汇、通用词典、电力营销领域抽取词汇,其中,电力系统词汇包含专业词典、缩略词典,专业词典主要依据IEC通用电力标准、中国电力行业标准等标准规范中涉及的专业词汇构成,缩略词词典是对词汇称谓中的成分进行有规律的节缩或者省略形成的词典,通用词典主要包括《牛津词典》、《朗曼词典》、《韦氏同义词、反义词词典》专业词典的译文,电力营销领域抽取词汇是从步骤A抽取得到的词汇;
所述步骤C中所述一级索引包含关键字和下一汉字索引指针,其中关键字主要是指词汇的首汉字且汉字按其内码排序,下一汉字索引指针主要是指向以首汉字起始的所有词汇的第二个汉字的索引;所述二级索引包含关键字和其余字串组指针,其中关键字主要是指词汇的次汉字且汉字按其内码排序,所述其余字串组指针是以首汉字次汉字起始的所有词组的剩余字串组成的有序词组;
所述步骤D检索电力营销专业词汇库,按照词汇库的组织结构,对于待转换的词汇,首先将其第一个汉字与一级索引进行匹配找到对应指针入口,然后再将其第二个汉字与二级索引进行匹配进一步缩小检索范围,最后根据剩余汉字串的匹配找到该词汇进而得到相应的转换结果,检索词汇库的顺序依次为电力系统词汇、通用词典、电力营销领域抽取词汇,检索完毕后,返回给用户检索结果。
所述方法所采用的系统,包括专业词汇抽取模块、专业词汇库构建模块、专业词汇库检索引擎:
所述专业词汇抽取模块,负责抽取电力营销领域语料库中的电力营销专业词汇,将其转换成对应英文,并把词汇对添加到电力营销专业词汇库中;
所述专业词汇库构建模块,负责建立具备两级索引结构的词汇库,方便用户的检索;
所述专业词汇检索引擎,负责检索电力营销专业词汇库,查看用户需要转换的专业词汇是否存在,进行词汇的转换时,依次对电力系统词汇、通用词典、电力营销领域抽取词汇进行检索。
所述专业词汇抽取模块还包含以下几个部分:
语料预处理器,负责对电力营销领域语料库内的语料和平衡语料库的语料进行自动分词,是确定电力营销领域基础词汇的基础;
训练语料生成器,负责抽取待训练语料,并对其中的电力营销专业词汇进行自动标注,进而生成已标注训练语料;
营销专业词汇抽取模型,负责对已标注的训练语料进行训练分析,得到专业词汇抽取模型,并依据该模型从电力营销领域语料库中抽取得到电力营销相关的专业词汇或新语料库中的专业词汇;
专家转换模块,负责对抽取得到的电力营销专业词汇进行筛选并由电力营销领域的专家将抽取词汇转换成对应的英文,转换完毕后将词汇对添加至电力营销专业词汇库。
所述专业词汇库构建模块还包含以下几个部分:
两级索引构建组件,负责将提高查询速度的字段都加进索引中,以建立词汇库的两级索引结构,提高用户请求转换词汇的检索速度;
电力营销专业词汇库,包含搜集到的电力系统词汇、通用词典,以及电力营销领域抽取词汇。
本发明的有益效果是:
1、利用领域相关性计算方法找出电力营销领域的基础词汇,只计算包含一个或多个基础词汇的相邻词汇的耦合度,将耦合度高的词汇标注为电力营销专业词汇,相比于传统的耦合度计算方法,自动标注电力营销专业词汇的效率有了很大程度的提高。
2、基于语言特性及条件随机场相结合的专业词汇抽取方法,首先找出电力营销领域基础词汇,其次从电力营销领域语料库中随机抽取一部分语料作为待训练语料,然后基于营销基础词汇并结合互信息和语言特性公式,抽取出待训练语料中的电力营销领域专业词汇,并将这些词汇在待训练语料中标注出来,生成训练语料,最后基于条件随机场方法对训练语料进行训练,得到专业词汇抽取模型,基于该模型能够抽取得到电力营销语料库中电力营销相关的专业词汇或者其他新语料库中的专业词汇,大大提高了专业词汇的抽取质量和效率。
3、基于二级索引结构模式,设计方便词汇库组织及用户检索的电力营销专业词汇库,且词汇库内容包含电力系统词汇、通用词典以及电力营销领域抽取词汇,依次对词汇库的一级索引、二级索引进行高效搜索,提高了检索词汇库的速度,提升了营销标准化设计的工作效率。
附图说明
图1为电力领域专业词汇自动抽取总体过程图;
图2为电力领域专业词汇自动抽取流程图;
图3为电力领域专业词汇库构成图;
图4为电力领域专业词汇库索引结构图;
图5为电力领域专业词汇自动抽取系统图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
参考图1,是本发明一种电力领域专业词汇自动抽取方法的流程图,包括以下步骤:
A进行电力营销领域专业词汇的抽取及转换,并将其添加至电力营销专业词汇库中;
B搜集电力相关词汇及对应翻译,并将其添加至电力营销专业词汇库中;
C利用两级索引构建组件,建立电力营销专业词汇库的二级索引结构;
D利用词汇检索引擎,检索电力营销专业词汇库,检索顺序依次为电力系统词汇、通用词典、电力营销领域抽取词汇,检索完毕后,返回给用户检索结果。
参考图2,所述步骤A电力营销专业词汇抽取过程包含:
A1从中国知网上获取电力营销领域语料、平衡语料,并统一对这些语料进行预处理,主要采用中科院汉语词法分析系统ICTCLAS对电力营销语料、平衡语料进行分词,这是确定电力营销领域基础词汇的基础;所述电力营销领域语料是指电力营销领域的文献;所述平衡预料是指涵盖电力、社保、职业资格多领域的文献;
A2抽取待训练语料,并进行训练语料的自动标注,首先在上述分词的基础上,采用领域相关性计算方法找出在电力营销领域出现概率较高的词语,并将其作为电力营销领域基础词汇,其次从电力营销领域语料库随机抽取20%语料作为待训练语料,然后从中找出所有包含电力营销领域基础词汇而且互信息和语言特性皆符合要求的相邻词汇串,将其标注为电力营销专业词汇,最终得到已标注的训练语料;
其中,领域相关性表示专业词汇在某个领域的专属性,需要分别计算词汇在电力营销领域出现的概率和在平衡语料中出现的概率,如果在电力营销领域中出现的概率较高,在其他领域内出现的概率较小,且两者的差异性大于一定的阈值,则认为该词汇与电力领域相关,否则不相关,相关性计算公式为:
如果p(x)>q(x),RD>阈值,表示词汇和目标领域相关,否则表示词汇与目标领域不相关,不是目标领域的词汇;
互信息是用来度量不同字符串之间相关性的统计量,体现了各个字之间结合的紧密程度,互信息越大,则两个汉字间的结合力越强,只有当紧密程度超过某一个阈值时,才可认定此字组可能构成了一个词,应将此字组连接起来,否则断开,本专利中的互信息需要分别计算两个词语独立出现的概率,以及两个词语同时出现的概率,互信息计算公式为:
p(x),p(y)分别是x和y独立出现的概率,p(x,y)是x和y同现的概率。S(x,y)>>0,表明x和y的关联程度强,S(x,y)≈0,表明x和y的关联程度弱,S(x,y)<<0,表明x和y不存在关联关系;
语言特性是构成专业词汇的词语的特性,专业词汇具有各个组成部分结合比较紧密,并且词性的组合具有一定的规律,由于在中文中有些词和词性组合不可能或者很少出现在专业词汇中,因此需要结合词汇是否是停用词、属于特定的词性组合作为惩罚因子进行专业词汇的排除;
A3采用机器学习中的条件随机场方法对训练语料进行分析,首先抽取已标注的训练语料的特征,包含各专业词汇的组成、词汇与上下文的关系等特征,然后选择合适的特征模版进行推演训练,得到专业词汇抽取模型,最后依据该模型从电力营销领域语料库中抽取电力营销相关的专业词汇或新语料库中的专业词汇;
其中,条件随机场(Conditional Random Fields,简称CRF)是由一个在给定输入节点条件下计算输出节点的条件概率的无向图模型,假设X,Y分别表示需要标记的观察序列和相对应的标记序列的联合分布随机变量,那么条件随机场(X,Y)就是一个以观察序列X为条件的无向图模型,条件随机场的目标是在给定需要标记的观察序列的条件下,使标记序列的联合概率达到最优。
A4由电力营销领域的相关专家对抽取得到的专业词汇进行筛选,并完成专业词汇的转换,转换得到的专业词汇会添加到电力营销专业词汇库中。
参考图3,所述步骤B电力营销专业词汇库组成包含:
电力系统词汇、通用词典、电力营销领域抽取词汇,其中,电力系统词汇包含专业词典、缩略词典,专业词典主要依据IEC通用电力标准、中国电力行业标准等标准规范中涉及的专业词汇构成,缩略词词典是为了使用方便,对词汇称谓中的成分进行有规律的节缩或者省略形成的词典,通用词典主要收录了《牛津词典》、《朗曼词典》、《韦氏同义词、反义词词典》等专业词典的译文,电力营销领域抽取词汇主要是从步骤A中抽取得到的词汇。
参考图4,所述步骤C建立电力营销词汇库的二级索引结构,其中,一级索引包含关键字、下一汉字索引指针,所述关键字是指词汇的首汉字,且关键字按其内码排序,所述下一汉字索引指针指向以首汉字起始的所有词汇的第二个汉字的索引;二级索引包含关键字、其余字串组指针,所述关键字是指词汇的次汉字,且关键字按其内码排序,所述其余字串组指针指向以首汉字次汉字起始的所有词组的剩余字串组成的有序词组。
所述步骤D检索电力营销专业词汇库,按照词汇库的组织结构,对于待转换的词汇,首先将其第一个汉字与一级索引进行匹配找到对应指针入口,然后再将其第二个汉字与二级索引进行匹配进一步缩小检索范围,最后根据剩余汉字串的匹配找到该词汇进而得到相应的检索结果,检索词汇库的顺序依次为电力系统词汇、通用词典、电力营销领域抽取词汇,检索完毕后,返回给用户检索结果。
参考图5,是本发明一种电力领域专业词汇自动抽取系统,该系统包括专业词汇抽取模块、专业词汇库构建模块、专业词汇库检索引擎;
所述专业词汇抽取模块,负责抽取电力营销领域语料库中的电力营销专业词汇,并将其转换成相应的英文,将词汇对添加到电力营销专业词汇库中;
所述专业词汇库构建模块,负责建立具备两级索引结构的词汇库,方便用户的检索;
所述专业词汇检索引擎,负责按照词汇库的组织结构,检索电力营销专业词汇库,首先是一级索引检索,其次是二级索引检索,查看用户需要转换的专业词汇是否存在,对词汇库的检索顺序依次为电力系统词汇、通用词典词汇、电力营销领域抽取词汇,检索完毕后,返回给用户检索结果。
所述专业词汇抽取模块还包含以下几个部分:
语料预处理器,负责对电力营销领域语料库内的语料和平衡语料库的语料进行自动分词,是确定电力营销领域基础词汇的基础;
训练语料生成器,负责计算词汇的相关性,得到电力营销领域基础词汇,随机生成待训练语料,并自动标注出待训练中包含一个或多个基础词汇的电力营销专业词汇,进而生成已标注训练语料;
营销专业词汇抽取模型,负责选择训练语料中最能代表专业词汇的特征,确定对专业词汇进行分析的特征模版,通过训练分析,得到词汇抽取模型,并依据该模型从电力营销领域语料库中抽取得到电力营销相关的专业词汇或新语料库中的专业词汇;
专家转换模块,负责对抽取得到的电力营销专业词汇进行筛选并由电力营销领域的专家将抽取词汇转换成对应的英文,转换完毕后将词汇对添加至电力营销专业词汇库。
所述专业词汇库构建模块还包含以下几个部分:
两级索引构建组件,负责将提高查询速度的字段都加进索引中,以建立词汇库的两级索引结构,提高用户请求转换词汇的检索速度;
电力营销专业词汇库,包含搜集到的电力系统词汇、通用词典以及电力营销领域抽取词汇;
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种电力领域专业词汇的自动抽取方法,其特征是,实现步骤如下:
步骤A:首先利用相关性计算方法从电力营销领域语料库中找出电力营销领域基础词汇,其次从电力营销领域语料库中随机抽取一部分语料作为待训练语料,然后以待训练语料中的每个电力营销领域基础词汇为中心,与周围邻近的其他词汇组合成不同长度的词汇串,计算词汇串中相邻词汇之间的互信息和词汇串的语言特性,将既与电力营销领域有较高相关性又符合汉语语言特性的词汇作为电力营销领域专业词汇,并在待训练语料中标注出来,生成训练语料,最后基于条件随机场方法对训练语料进行训练,得到专业词汇抽取模型,利用该专业词汇抽取模型实现从电力营销领域语料库中抽取电力营销相关的专业词汇,人工将其转换成对应的英文,并添加至电力营销专业词汇库中;
所述利用相关性计算方法从电力营销领域语料库中找出电力营销领域基础词汇的步骤为:采用领域相关性计算方法找出在电力营销领域出现概率较高的词语,并将其作为电力营销领域基础词汇,领域相关性表示专业词汇在某个领域的专属性,需要分别计算词汇在电力营销领域出现的概率和在平衡语料中出现的概率,如果在电力营销领域中出现的概率较高,在其他领域内出现的概率较小,且两者的差异性大于一定的阈值,则认为该词汇与电力领域相关,否则不相关,相关性计算公式为:
<mrow>
<msub>
<mi>R</mi>
<mi>D</mi>
</msub>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
<mi>lg</mi>
<mfrac>
<mrow>
<mi>p</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<mi>q</mi>
<mrow>
<mo>(</mo>
<mi>x</mi>
<mo>)</mo>
</mrow>
</mrow>
</mfrac>
</mrow>
其中,p(x)为词汇在电力营销领域语料中出现的概率,q(x)为词汇在平衡语料中出现的概率;如果p(x)>q(x),RD>阈值,表示词汇和目标领域相关,否则表示词汇与目标领域不相关,不是目标领域的词汇;
步骤B:搜集电力系统相关词汇及对应翻译,并将其添加到电力营销专业词汇库中,所述电力营销专业词汇库主要包含电力系统词汇、通用词典和从步骤A抽取得到的电力营销领域词汇;
步骤C:建立电力营销专业词汇库的两级索引结构,其中,一级索引包含关键字、下一汉字索引指针,二级索引包含关键字、其余字串组指针;
步骤D:检索电力营销专业词汇库,检索顺序依次为电力系统词汇、通用词典、电力营销领域抽取词汇,检索完毕后,返回给用户检索结果。
2.如权利要求1所述的一种电力领域专业词汇的自动抽取方法,其特征是,所述步骤A电力营销专业词汇抽取过程包含:
步骤A1:进行电力营销领域语料、平衡语料的预处理,采用中科院汉语词法分析系统ICTCLAS对电力营销语料、平衡语料进行分词,这是确定电力营销领域基础词汇的基础;电力营销领域语料是指电力营销领域的文献;所述平衡语料是指涵盖电力、社保、职业资格多领域的文献;
步骤A2:抽取待训练语料,并进行训练语料的自动标注,首先在步骤A1的分词的基础上,采用领域相关性计算方法找出在电力营销领域出现概率较高的词语,并将其作为电力营销领域基础词汇,其次从电力营销领域语料库随机抽取20%语料作为待训练语料,然后从中找出所有包含电力营销领域基础词汇而且互信息和语言特性均符合要求的相邻词汇串,将其标注为电力营销专业词汇,最终得到已标注的训练语料;所述符合要求是指在互信息的基础上引入停用词和词性组合作为惩罚因子进行专业词汇的筛选;
步骤A3:采用机器学习中的条件随机场方法对已标注的训练语料进行分析,包含各专业词汇的内部组成、词汇与上下文的关系特征,选择合适的特征模板进行推演训练,得到专业词汇抽取模型,并依据该抽取模型从电力营销领域语料库中抽取电力营销相关的专业词汇或新语料库中的专业词汇;
步骤A4:由电力营销领域的相关专家对抽取得到的专业词汇进行筛选,并完成专业词汇的转换,转换得到的专业词汇会添加到电力营销专业词汇库中。
3.如权利要求2所述的一种电力领域专业词汇的自动抽取方法,其特征是,
所述步骤A2中的互信息体现了各个字之间结合的紧密程度,互信息越大,两个字结合力越强,越能构成专业词汇,计算公式p(x),p(y)分别是x和y独立出现的概率,p(x,y)是x和y同现的概率;
所述步骤A2的语言特性指构成专业词汇的词语的特性,依据中文中有些词和词性组合不可能或者很少出现在专业词汇中,将结合词汇是否是停用词、属于特定的词性组合进行专业词汇的排除。
4.如权利要求2所述的一种电力领域专业词汇的自动抽取方法,其特征是,所述步骤A3的条件随机场方法是在最大熵模型和隐马尔科夫模型的基础上提出来的,用于切分和标注序列化数据的统计模型,其目标是在给定需要标记的观察序列的条件下,使标记序列的联合概率达到最优。
5.如权利要求1所述的一种电力领域专业词汇的自动抽取方法,其特征是,所述步骤B的电力营销专业词汇库包含电力系统词汇、通用词典、电力营销领域抽取词汇,其中,电力系统词汇包含专业词典、缩略词典,专业词典主要依据IEC通用电力标准、中国电力行业标准标准规范中涉及的专业词汇构成,缩略词词典是对词汇称谓中的成分进行有规律的节缩或者省略形成的词典,电力营销领域抽取词汇是从步骤A抽取得到的词汇。
6.如权利要求1所述的一种电力领域专业词汇的自动抽取方法,其特征是,所述步骤C中所述一级索引包含关键字和下一汉字索引指针,其中关键字主要是指词汇的首汉字且汉字按其内码排序,下一汉字索引指针主要是指向以首汉字起始的所有词汇的第二个汉字的索引;所述二级索引包含关键字和其余字串组指针,其中关键字主要是指词汇的次汉字且汉字按其内码排序,所述其余字串组指针是以首汉字次汉字起始的所有词组的剩余字串组成的有序词组。
7.如权利要求1所述的一种电力领域专业词汇的自动抽取方法,其特征是,所述步骤D检索电力营销专业词汇库,按照词汇库的组织结构,对于待转换的词汇,首先将其第一个汉字与一级索引进行匹配找到对应指针入口,然后再将其第二个汉字与二级索引进行匹配进一步缩小检索范围,最后根据剩余汉字串的匹配找到该词汇进而得到相应的转换结果,检索词汇库的顺序依次为电力系统词汇、通用词典、电力营销领域抽取词汇,检索完毕后,返回给用户检索结果。
8.如上述任一权利要求所述方法所采用的系统,其特征是,
包括专业词汇抽取模块、专业词汇库构建模块、专业词汇库检索引擎;
所述专业词汇抽取模块,负责抽取电力营销领域语料库中的电力营销专业词汇,并将其转换成相应的英文,将词汇对添加到电力营销专业词汇库中;
所述专业词汇库构建模块,负责建立具备两级索引结构的词汇库,方便用户的检索;
所述专业词汇检索引擎,负责检索电力营销专业词汇库,查看用户需要转换的专业词汇是否存在,依次对电力系统词汇、通用词典、电力营销领域抽取词汇进行检索。
9.如权利要求8所述的系统,其特征是,所述专业词汇抽取模块还包含以下几个部分:
语料预处理器,负责对电力营销领域语料库内的语料和平衡语料库的语料进行自动分词,是确定电力营销领域基础词汇的基础;
训练语料生成器,负责抽取待训练语料,并对其中的电力营销专业词汇进行自动标注,进而生成已标注训练语料;
营销专业词汇抽取模型,负责对已标注的训练语料进行训练分析,得到专业词汇抽取模型,并依据该模型从电力营销领域语料库中抽取得到电力营销相关的专业词汇或新语料库中的专业词汇;
专家转换模块,负责对抽取得到的电力营销专业词汇进行筛选并由电力营销领域的专家完成词汇转换,转换完毕后将词汇对添加至电力营销专业词汇库。
10.如权利要求8所述的系统,其特征是,所述专业词汇库构建模块还包含以下几个部分:
两级索引构建组件,负责将提高查询速度的字段都加进索引中,以建立词汇库的两级索引结构,提高用户请求转换词汇的检索速度;
电力营销专业词汇库,包含搜集到的电力系统词汇、通用词典,以及电力营销领域抽取词汇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310508768.5A CN104572758B (zh) | 2013-10-24 | 2013-10-24 | 一种电力领域专业词汇自动抽取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310508768.5A CN104572758B (zh) | 2013-10-24 | 2013-10-24 | 一种电力领域专业词汇自动抽取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104572758A CN104572758A (zh) | 2015-04-29 |
CN104572758B true CN104572758B (zh) | 2017-10-24 |
Family
ID=53088838
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310508768.5A Active CN104572758B (zh) | 2013-10-24 | 2013-10-24 | 一种电力领域专业词汇自动抽取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104572758B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105701248B (zh) * | 2016-03-03 | 2019-04-09 | 北京建筑大学 | 一种量化确定专业领域词汇集最优维度的方法 |
CN107423264A (zh) * | 2017-07-10 | 2017-12-01 | 广东华联建设投资管理股份有限公司 | 一种工程材料专业特征提取方法 |
CN108763338A (zh) * | 2018-05-14 | 2018-11-06 | 山东亿云信息技术有限公司 | 一种基于电力行业的新闻采编系统 |
CN109918632B (zh) * | 2019-02-26 | 2022-12-06 | 维正科技服务有限公司 | 基于场景模板的文献撰写辅助方法 |
CN110287495A (zh) * | 2019-07-01 | 2019-09-27 | 国网江苏省电力有限公司电力科学研究院 | 一种电力营销专业词识别方法及系统 |
CN111459918A (zh) * | 2020-04-26 | 2020-07-28 | 上海烜翊科技有限公司 | 一种基于元数据库的体系建模命名方法 |
CN112464665B (zh) * | 2020-12-14 | 2021-07-13 | 北京奥鹏远程教育中心有限公司 | 一种学科术语抽取与应用方法 |
CN112307753B (zh) * | 2020-12-29 | 2021-06-22 | 启业云大数据(南京)有限公司 | 支持大量词库的分词方法、计算机可读存储介质及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03116374A (ja) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | 専門用語抽出システム |
CN101122919A (zh) * | 2007-09-14 | 2008-02-13 | 中国科学院计算技术研究所 | 一种专业术语抽取方法和系统 |
CN101655866A (zh) * | 2009-08-14 | 2010-02-24 | 北京中献电子技术开发中心 | 科技术语的自动化抽取方法 |
CN101079024B (zh) * | 2006-06-19 | 2010-06-16 | 腾讯科技(深圳)有限公司 | 一种专业词表动态生成系统和方法 |
-
2013
- 2013-10-24 CN CN201310508768.5A patent/CN104572758B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH03116374A (ja) * | 1989-09-29 | 1991-05-17 | Ricoh Co Ltd | 専門用語抽出システム |
CN101079024B (zh) * | 2006-06-19 | 2010-06-16 | 腾讯科技(深圳)有限公司 | 一种专业词表动态生成系统和方法 |
CN101122919A (zh) * | 2007-09-14 | 2008-02-13 | 中国科学院计算技术研究所 | 一种专业术语抽取方法和系统 |
CN101655866A (zh) * | 2009-08-14 | 2010-02-24 | 北京中献电子技术开发中心 | 科技术语的自动化抽取方法 |
Non-Patent Citations (1)
Title |
---|
基于条件随机场的领域术语识别研究;施水才等;《计算机工程与应用》;20130515;第147-149、155页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104572758A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104572758B (zh) | 一种电力领域专业词汇自动抽取方法及系统 | |
CN103605665B (zh) | 一种基于关键词的评审专家智能检索与推荐方法 | |
CN106294593B (zh) | 结合从句级远程监督和半监督集成学习的关系抽取方法 | |
Wen et al. | Research on keyword extraction based on word2vec weighted textrank | |
CN108595696A (zh) | 一种基于云平台的人机交互智能问答方法和系统 | |
CN106484664A (zh) | 一种短文本间相似度计算方法 | |
CN107609052A (zh) | 一种基于语义三角的领域知识图谱的生成方法及装置 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN106776544A (zh) | 人物关系识别方法及装置和分词方法 | |
CN102693279B (zh) | 一种快速计算评论相似度的方法、装置及系统 | |
CN106997341B (zh) | 一种创新方案匹配方法、装置、服务器及系统 | |
CN107562831A (zh) | 一种基于全文检索的精确查找方法 | |
CN105844424A (zh) | 基于网络评论的产品质量问题发现及风险评估方法 | |
CN105956206A (zh) | 一种基于关键词树的视频检索方法及系统 | |
CN108717410B (zh) | 命名实体识别方法及系统 | |
CN103970730A (zh) | 一种从单个中文文本中提取多主题词的方法 | |
CN106844544A (zh) | 一种合同条款风险识别方法及系统 | |
CN105930509A (zh) | 基于统计与模板匹配的领域概念自动抽取精化方法及系统 | |
CN111090734B (zh) | 基于层级注意力机制优化机器阅读理解能力的方法和系统 | |
CN111475655A (zh) | 一种基于配电网知识图谱的电力调度文本实体链接方法 | |
CN106528768A (zh) | 一种咨询热点分析方法及装置 | |
CN107092605A (zh) | 一种实体链接方法及装置 | |
CN110390022A (zh) | 一种自动化的专业知识图谱构建方法 | |
CN110096572A (zh) | 一种样本生成方法、装置及计算机可读介质 | |
CN108038162A (zh) | 基于公文片段和二分图匹配的公文审批人智能推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |