CN112885352A - 一种语料库的构建方法、装置、计算机设备及存储介质 - Google Patents
一种语料库的构建方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN112885352A CN112885352A CN202110103726.8A CN202110103726A CN112885352A CN 112885352 A CN112885352 A CN 112885352A CN 202110103726 A CN202110103726 A CN 202110103726A CN 112885352 A CN112885352 A CN 112885352A
- Authority
- CN
- China
- Prior art keywords
- corpus
- scheduling
- text
- information
- text corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 23
- 230000014509 gene expression Effects 0.000 claims abstract description 34
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000009499 grossing Methods 0.000 claims abstract description 26
- 238000002372 labelling Methods 0.000 claims abstract description 19
- 230000002650 habitual effect Effects 0.000 claims abstract description 12
- 239000000463 material Substances 0.000 claims description 10
- 230000011664 signaling Effects 0.000 claims description 9
- 230000001502 supplementing effect Effects 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 11
- 238000012423 maintenance Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005611 electricity Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例公开了一种语料库的构建方法、装置、计算机设备及存储介质。该方法包括:根据电力调度领域涉及的术语生成文本语料库;根据历史调度语音信息确定习惯调度用语,根据习惯调度用语填充预设固定调度句式得到调度指令固定句式,根据调度指令固定句式更新所述文本语料库;根据预设发音规则对更新后的文本语料库中的文本语料进行标注;对标注后的文本语料库中的文本语料进行平滑处理,得到用于电力领域语音识别的语料库。本发明实施例提供的语料库可以满足电力领域多个场景对语音识别的需求。
Description
技术领域
本发明实施例涉及语音识别技术,尤其涉及一种语料库的构建方法、装置、计算机设备及存储介质。
背景技术
随着社会经济的不断发展,以及社会用电需求的不断提升,电网规模呈几何趋势增长。电力领域尤其是电力调度领域方面对于语音识别的需求不断增加,为实现电力领域自然语言处理、词法分析、以及语言模型构建,构建适用于电力调度领域语音识别的语料库成为目前亟待解决的问题。
发明内容
本发明实施例提供一种语料库的构建方法、装置、计算机设备及存储介质,可以实现适用于电力调度领域语音识别的语料库的构建。
第一方面,本发明实施例提供了一种语料库的构建方法,包括:
根据电力调度领域涉及的术语生成文本语料库;
根据历史调度语音信息确定习惯调度用语,根据所述习惯调度用语填充预设固定调度句式得到调度指令固定句式,根据所述调度指令固定句式更新所述文本语料库;
根据预设发音规则对所述更新后的文本语料库中的文本语料进行标注;
对标注后的文本语料库中的文本语料进行平滑处理,得到用于电力领域语音识别的语料库。
第二方面,本发明实施例还提供了一种语料库的构建装置,该装置包括:
文本语料库生成模块,用于根据电力调度领域涉及的术语生成文本语料库;
文本语料库更新模块,用于根据历史调度语音信息确定习惯调度用语,根据所述习惯调度用语填充预设固定调度句式得到调度指令固定句式,根据所述调度指令固定句式更新所述文本语料库;
文本语料库标注模块,用于根据预设发音规则对所述更新后的文本语料库中的文本语料进行标注;
文本语料库平滑模块,用于对标注后的文本语料库中的文本语料进行平滑处理,得到用于电力领域语音识别的语料库。
第三方面,本发明实施例还提供了一种计算机设备,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任意实施例所述的语料库的构建方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明任意实施例所述的语料库的构建方法。
本发明实施例提供一种语料库的构建方法、装置、计算机设备及存储介质,通过电力调度领域涉及的术语生成文本语料库,根据习惯调度用语填充预设固定调度句式得到调度指令固定句式,根据调度指令固定句式更新上述文本语料库;根据预设发音规则对更新后的文本语料库中的文本语料进行标注,对标注后的文本语料库中的文本语料进行平滑处理,得到用于电力领域语音识别的语料库。本发明实施例提供的语料库可以满足电力领域多个场景对语音识别的需求。
附图说明
图1为本发明实施例提供的一种语料库的构建方法的流程图;
图2为本发明实施例提供的另一种语料库的构建方法的流程图;
图3为本发明实施例提供的一种电力领域语音识别所需语料库的搭建流程示意图;
图4为本发明实施例提供的一种语料库的构建装置的结构框图;
图5为本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
图1为本发明实施例提供的一种语料库的构建方法的流程图,本实施例可适用于电力领域语音识别场景,该方法可以由语料库的构建装置来执行,该装置可以由软件和/或硬件实现,并通常集成于计算机设备中。如图1所示,该方法包括:
步骤110、根据电力调度领域涉及的术语生成文本语料库。
其中,电力调度领域涉及的术语可以是电力调度指令涉及的专业术语。例如,电力调度领域涉及的术语包括电网中基础配置信息、厂站信息、线路名称、设备信息和业务场景术语等。其中,电网中基础配置信息包括电力调度业务数据中的电压等级、设备类型等基础的配置信息。
文本语料库是电力调度领域所需的语言材料的文本数据的集合。可选的,可以根据使用场景需求,从多个维度构建文本语料库。例如,从多个维度构建的文本语料库包括基础语料库、模型语料库和专题语料库等。其中,基础语料库基于电网中的基础配置信息生成。模型语料库基于电网模型中的厂站信息、线路名称和设备表示生成。专题语料库与具体业务场景有关,即基于不同业务的分类及业务特点生成不同专题的专题语料库。
示例性地,获取电网中基础配置信息、厂站信息、线路名称、设备信息和业务场景术语;根据电网中基础配置信息、厂站信息、线路名称、设备信息和业务场景术语确定多维文本语料库。其中,多维文本语料库包括多个维度的文本语料。
具体地,在构建文本语料库之前,根据预先制定的语料规范,将上述基础配置信息、厂站信息、线路名称、设备信息和业务场景术语中的非汉字语料转换为汉字语料。关联存储语料规范之后的基础配置信息的专业名称和指代相同对象的其它名称,生成基础语料库。关联存储所述厂站信息、线路名称和设备标识,生成模型语料库;根据业务场景术语和业务场景特征信息生成包含不同业务专题的专题语料库。
其中,基础语料库是电网中基础配置信息的专业称谓及其它可能称谓的映射关系的集合。专业名称是对应专业领域对基础配置信息的专业术语。例如,对于电力设备A,专业术语是B,而不同区域的人调度人员对电力设备A还有其它称谓C和D,则需要在基础语料库中关联存储电力设备A的专业术语和其它称谓。
其中,模型语料库是各区域的电网模型中设备双编和厂站信息等数据的集合。需要说明的是,设备双编包括设备(开关刀闸等)编号和线路名称。随着电网模型的变化,定期更新模型语料库中对应内容。
其中,专题语料库是不同业务场景的业务数据和业务场景特征信息的映射关系的集合。例如,专题语料库包括操作术语语料库、检修术语语料库和遥信术语语料库等。具体地,关联存储操作场景下的设备状态的命名和操作命令的语料规则,生成操作术语语料库,其中,所述操作命令的语料规则包括操作命令的关键字、所述操作命令的解析规则和不规范关键字的变形。关联存储检修场景下的被检修设备的关键词和检修工作内容的关键词,生成检修术语语料库。对不同设备发出的设备信息进行合并处理得到合并设备信号,提取所述合并设备信号的信号描述信息中的信号特征信息,基于所述信号特征信息生成遥信术语语料库。
步骤120、根据历史调度语音信息确定习惯调度用语,根据所述习惯调度用语填充预设固定调度句式得到调度指令固定句式,根据所述调度指令固定句式更新所述文本语料库。
其中,历史调度语音信息是电网历史语音资料中与电力调度相关的语音信息。习惯调度用语是电力调度人员对于调度指令的习惯表述信息。不同区域或不同地区的电力调度人员所习惯使用的调度用语可能不同。结合对不同区域的相关调度人员的调度用语调研结果,可以分析历史语音资料得到各区域电网习惯调度用语。
预设固定调度句式是电力调度语音指令的指令模板。通过预设固定调度句式规定调度指令中不同位置的字段类型。例如,预设固定句式包括动作、设备名称即具体作业内容等。按照上述预设固定调度句式进行语料构造,分别向预设固定调度句式中动作、设备名称即具体作业内容等字段填充对应的字段内容,可以得到调度指令固定句式。
调度指令固定句式是符合调度指令规范的指令固定句式。可以将生成的调度执行固定句式补入文本语料库。
示例性地:根据区域信息对历史调度语音信息进行分组;根据预设固定调度句式解析各组历史调度语音信息,确定所述预设固定调度句式中各字段位置对应的字段内容,根据所述字段内容确定各区域调度人员的习惯调度用语;根据各区域的所述习惯调度用语填充所述预设固定调度句式得到调度指令固定句式;采用所述调度指令固定句式补充或调整所述文本语料库。
其中,区域信息是指地区或地域的含义,不同区域的语言习惯存在差别。不同区域的电网中从事电力调度的人员可能采用符合本地区的调度用语习惯的调度指令进行电力调度。
根据区域信息对历史调度语音信息进行分组,可以实现来自相同地区或地域的历史调度语音信息属于相同的组,从而得到多组历史调度语音信息。为了提高语料库在实际应用场景中的适用效率,实现对语料库的精简,可以先构造固定调度句式,再对预先构造的固定调度句式中的动作、设备名称及具体所要查看的内容进行填充,这样,相比于N*M的语料库,构建N(句式)+M(动作、设备)的语料库更为精简,在实际应用中效率会更高。
例如,根据预设固定调度句式中包含的各字段类型解析各组历史调度语音信息,确定各字段位置处的字段内容。例如,根据动作字段解析历史调度语音信息,得到具体的动作内容。根据设备名称字段解析历史调度语音信息,得到具体待操作的设备的名称。根据所解析出来的字段内容可以确定各区域调度人员的习惯调度用语。例如,同于同一设备A,X地区的电力调度人员习惯称其为a设备,Y地区的电力调度人员习惯称其为aa设备。可以管理存储区域信息与本区域调度人员的习惯调度用语。根据预设固定调度句式分别组织各区域对应的习惯调度用语得到调度指令固定句式。将该调度指令固定句式添加至文本语料库,以通过所得到的调度指令固定句式补充文本语料库。
可选地,还可以统计本区域调度人员的习惯调度用语的出现频次,仅关联存储出现频次高于设定阈值的习惯调度用语与区域信息,以减少存储的数据量,提高查询效率。
步骤130、根据预设发音规则对所述更新后的文本语料库中的文本语料进行标注。
其中,预设发音规则是文本语料对应的发音类型的要求。发音类型可以是汉语拼音或者其它语种的发音。更新后的文本语料库是添加了调度指令固定句式的文本语料库。
具体地,对更新后的文本语料库中的文本语料进行拼音标注;根据各区域调度人员的习惯调度用语校正上述拼音标注。例如,对更新后的语料库中的各文本语料使用汉语拼音进行批注。由于不同区域的电力调度人员习惯使用的调度用语可能与语料的标准发音不同,可以采用各区域调度人员的习惯调度用语校正文本语料库中文本语料的拼音标注,从而更适用于不同区域调度人员的发音习惯。例如,采用各区域调度人员的习惯调度用语校正文本语料的拼音标注的方式可以是采用调度人员的常用发音代替文本语料的标准发音。
步骤140、对标注后的文本语料库中的文本语料进行平滑处理,得到用于电力领域语音识别的语料库。
其中,平滑处理是解决文本语料中出现的稀疏问题的方式。考虑到文本语料库难以覆盖应用场景中的方方面面,新生词汇或者生僻词汇难以全面收录到文本语料库中,存在大规模语料统计与有限语料的矛盾。因此对于文本语料库中没有观测到的语料样本进行概率平滑处理是有必要的。
示例性地,采用古德-图灵算法对标注后的文本语料库中的文本语料进行平滑处理,得到用于电力领域语音识别的语料库。例如,首先,对于语料中没有观测到的样本分配其一个极小的概率。然后,修改训练样本中事件的实际计数,使样本中(实际出现的)不同事件的概率之和小于1,剩余的概率量分配给未见概率,利用频率的类别信息来对频率进行平滑。即对于未观测到的语料样本,利用频率的类别信息来对其频率进行平滑,调整出现频率为r的n元语法模型(N-grams)中语料样本的出现频率为r*。最后,使用r*计算出现r次的文本语料在文本语料库中的相对概率。
其中,古德-图灵(Good-Turing)算法是诸多平滑处理算法中的一种,用于解决n元语法模型中的数据的稀疏问题。主要的思想是把非零的n元语法的概率降低匀给一些低概率n元语法,以修改最大似然估计与真实概率之间的偏离。
具体地,首先,对于样本数量为N的数据集,定义nr为文本语料库中出现r次的语料样本的数目,存在如下公式:
其中,N是在具体应用场景中的样本量,r是语料样本的出现次数,nr为文本语料库中出现r次的语料样本的数目。
通过上述公式可知,出现r次的文本语料在文本语料库中的相对概率为r/N。如果不做任何优化处理,就依这个相对频度作为这些文本语料的概率估计。
由于当r非常小时,采用上述统计方式可能不可靠,因此文本语料库中出现次数非常小甚至未出现的文本语料,在计算它们的概率时要使用一个更小一点的数r*,而不是r。采用古德-图灵算法按照下面的公式计算r*:
其中,nr+1为文本语料库中出现r+1次的语料样本的数目。
使用平滑处理算法针对具体应用场景中出现的未被文本语料库收录的样本进行概率处理,以解决文本语料库中出现的文本语料稀疏问题。
本实施例的技术方案,通过电力调度领域涉及的术语生成文本语料库,根据习惯调度用语填充预设固定调度句式得到调度指令固定句式,根据调度指令固定句式更新上述文本语料库;根据预设发音规则对更新后的文本语料库中的文本语料进行标注,对标注后的文本语料库中的文本语料进行平滑处理,得到用于电力领域语音识别的语料库。本发明实施例提供的语料库可以满足电力领域多个场景对语音识别的需求。
图2为本发明实施例提供的另一种语料库的构建方法的流程图,本实施例在上述实施例的基础上,对根据所述电网中基础配置信息、厂站信息、线路名称、设备信息和业务场景术语确定多维文本语料库进行进一步限定。如图2所示,该方法包括:
步骤210、获取电网中基础配置信息、厂站信息、线路名称、设备信息和业务场景术语。
步骤220、将所述基础配置信息、厂站信息、线路名称、设备信息和业务场景术语中的非汉字语料转换为汉字语料。
例如,对电力行业中涉及的数字、单位、特殊符号等进行处理,均以汉字进行描述,如“1kV”用“一千伏”等。
步骤230、关联存储所述基础配置信息的专业名称和指代相同对象的其它名称,生成基础语料库。
例如,电力调度业务数据中通常包含电压等级、设备类型等电网配置信息。对于这些电网配置信息可能有多种不同的写法,例如,电网配置信息的全称、简称、专业称谓、通俗称谓、中文写法或外文写法等等。
图3为本发明实施例提供的一种电力领域语音识别所需语料库的搭建流程示意图。如图3所示,根据电网基础配置信息生成基础语料库。例如,通过关联存储同一电网基础配置信息的不同写法构建基础语料库,以在基础语料库中存储基础配置信息的不同写法。
步骤240、关联存储所述厂站信息、线路名称和设备标识,生成模型语料库。
其中,电网模型中包含厂站信息、线路名称、设备(开关刀闸等)编号等信息。
参照图3,根据电网模型生成模型语料库。例如,根据电网模型中的厂站信息、线路名称、设备编号等信息,按照目标区域的特定电网模型自动生成目标区域特有的模型语料库。可选地,随着电网模型的变化,定期进行模型语料库更新。
步骤250、根据所述业务场景术语和业务场景特征信息生成包含不同业务专题的专题语料库。
参见图3,根据专题业务生成专题语料库。其中,专题业务包括操作业务、检修业务及遥信业务等。因此,专题语料库至少包括操作术语语料库、检修术语语料库和遥信术语语料库。
示例性地,关联存储操作场景下的设备状态的命名和操作命令的语料规则,生成操作术语语料库。操作术语语料库中,包含设备状态的命名、各逐项令及综合令的术语描述。针对逐项令、综合令各类操作命令的语料规则中,不仅仅包含命令的关键字,还包含不规范关键字的变体、命令的解析规则等。
关联存储检修场景下的被检修设备的关键词和检修工作内容的关键词,生成检修术语语料库。对于检修术语语料库,根据待检修的设备和工作内容对检修工作的特征点进行提取,得到各类检修工作的关键词汇。将各类检修工作的关键词汇加入到检修语料库中。在提取关键词汇的时候,要考虑各项工作是否需要停电、是否需要退出保护、是否需要核定相、保护是否需要测相量等信息。
对不同设备发出的设备信息进行合并处理得到合并设备信号,提取所述合并设备信号的信号描述信息中的信号特征信息,基于所述信号特征信息生成遥信术语语料库。对于遥信术语语料库,根据不同电压等级、不同类型、不同原理的设备可能发出的信号,以及针对设备信号合并之后的信号描述,提取信号特征点,基于所提取的信号特征点形成遥信术语语料库。
步骤260、根据历史调度语音信息确定习惯调度用语,根据所述习惯调度用语填充预设固定调度句式得到调度指令固定句式,根据所述调度指令固定句式更新所述文本语料库。
示例性地,根据历史调度语音信息确定各区域电网调度人员的习惯调度用户,基于上述习惯调度用语构建若干调度指令固定句式。例如,按照预设的固定调度句式进行语料构造,分别在上述固定调度句式中的设定字段位置填充对应的动作、设备名称及具体作业内容等,得到调度指令固定句式。
参见图3,在生成基础语料库、模型语料库和专题语料库之后,还包括挖掘习惯用语与构造调度指令固定句式,并将调度指令固定句式补充到上述语料库。
步骤270、根据预设发音规则对所述更新后的文本语料库中的文本语料进行标注。
参见图3,对文本语料库中的文本语料使用拼音进行标注。可选地,针对数字或字母增加特殊发音批注。可以采用表1展示部分语料的汉语拼音标注示例。
表1是部分语料的汉语拼音标注示例表。
需要说明的是,根据语料注音编码规则,表1中h ua2中的数字2表示读音是二声。yuan和ying中y的发音不同,为了加以区分,用vv代表yu的声母发音,用ii代表yi的声母发音,使得每一个字都是由声母和韵母组成的,包括单韵母字“啊",也是用aa a1来表示的
可选地,对于文本语料库中的数字或字母的使用特殊性与多音性,可以对数字或字母进行特殊发音批注。可以采用表2展示部分语料的特殊发音批注示例。
表2是部分语料的特殊发音批注示例表。
特殊语料 | 注音 |
0 | l ing2;d ong4 |
1 | ii i1;ii iao1 |
7 | q i1;g uai3 |
步骤280、对标注后的文本语料库中的文本语料进行平滑处理,得到用于电力领域语音识别的语料库。
参见图3,在对更新后的文本语料库中的文本语料进行标注之后,针对稀疏语料进行平滑处理,以解决将文本语料库实际运用于语言模型时所产生的零概率问题。
本实施例的技术方案,通过电网中基础配置信息、厂站信息、线路名称、设备信息及各类业务构建文本语料库、对文本语料库中的文本语料进行标注以及对稀疏语料进行平滑处理,实现对适用于电力领域语音识别场景的文本语料库的搭建,可以满足电力领域多场景对语音识别的需求。
图4为本发明实施例提供的一种语料库的构建装置的结构框图,该装置可以由软件和/或硬件实现,并通常集成于计算机设备中。该装置通过执行本发明任意实施例所述的语料库的构建方法以构建适用于电力领域语音识别场景的语料库。如图4所示,该装置包括:
文本语料库生成模块410,用于根据电力调度领域涉及的术语生成文本语料库;
文本语料库更新模块420,用于根据历史调度语音信息确定习惯调度用语,根据所述习惯调度用语填充预设固定调度句式得到调度指令固定句式,根据所述调度指令固定句式更新所述文本语料库;
文本语料库标注模块430,用于根据预设发音规则对所述更新后的文本语料库中的文本语料进行标注;
文本语料库平滑模块440,用于对标注后的文本语料库中的文本语料进行平滑处理,得到用于电力领域语音识别的语料库。
本发明实施例提供一种语料库的构建装置,通过电力调度领域涉及的术语生成文本语料库,根据习惯调度用语填充预设固定调度句式得到调度指令固定句式,根据调度指令固定句式更新上述文本语料库;根据预设发音规则对更新后的文本语料库中的文本语料进行标注,对标注后的文本语料库中的文本语料进行平滑处理,得到用于电力领域语音识别的语料库。本发明实施例提供的语料库可以满足电力领域多个场景对语音识别的需求。
可选地,文本语料库生成模块410包括:
获取子模块,用于获取电网中基础配置信息、厂站信息、线路名称、设备信息和业务场景术语;
生成子模块,用于根据所述电网中基础配置信息、厂站信息、线路名称、设备信息和业务场景术语确定多维文本语料库。
可选地,生成子模块具体用于:
将所述基础配置信息、厂站信息、线路名称、设备信息和业务场景术语中的非汉字语料转换为汉字语料;
关联存储所述基础配置信息的专业名称和指代相同对象的其它名称,生成基础语料库;
关联存储所述厂站信息、线路名称和设备标识,生成模型语料库;
根据所述业务场景术语和业务场景特征信息生成包含不同业务专题的专题语料库。
可选地,生成子模块具体还用于:
关联存储操作场景下的设备状态的命名和操作命令的语料规则,生成操作术语语料库,其中,所述操作命令的语料规则包括操作命令的关键字、所述操作命令的解析规则和不规范关键字的变形;
关联存储检修场景下的被检修设备的关键词和检修工作内容的关键词,生成检修术语语料库;
对不同设备发出的设备信息进行合并处理得到合并设备信号,提取所述合并设备信号的信号描述信息中的信号特征信息,基于所述信号特征信息生成遥信术语语料库。
可选地,文本语料库更新模块420具体用于:
根据区域信息对历史调度语音信息进行分组;
根据预设固定调度句式解析各组历史调度语音信息,确定所述预设固定调度句式中各字段位置对应的字段内容,根据所述字段内容确定各区域调度人员的习惯调度用语;
根据各区域的所述习惯调度用语填充所述预设固定调度句式得到调度指令固定句式;
采用所述调度指令固定句式补充或调整所述文本语料库。
可选地,文本语料库标注模块430具体用于:
对所述更新后的文本语料库中的文本语料进行拼音标注;
根据各区域调度人员的所述习惯调度用语校正所述拼音标注。
可选地,文本语料库平滑模块440具体用于:
采用古德-图灵算法对标注后的文本语料库中的文本语料进行平滑处理,得到用于电力领域语音识别的语料库。
本发明实施例所提供的语料库的构建装置可执行本发明任意实施例所提供的语料库的构建方法,具备执行方法相应的功能模块和有益效果。
图5为本发明实施例提供的一种计算机设备的结构示意图,如图5所示,该计算机设备包括处理器50、存储器51、输入装置52和输出装置53;计算机设备中处理器50的数量可以是一个或多个,图5中以一个处理器50为例;计算机设备中的处理器50、存储器51、输入装置52和输出装置53可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器51作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的语料库的构建方法对应的程序指令/模块(例如,文本语料库生成模块410、文本语料库更新模块420、文本语料库标注模块430和文本语料库平滑模块440)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的语料库的构建方法。
存储器51可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器51可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器51可进一步包括相对于处理器50远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置52可用于接收输入的语料库构建请求信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入。输出装置53可包括显示屏等显示设备。
本发明实施例还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种语料库的构建方法,该方法包括:
根据电力调度领域涉及的术语生成文本语料库;
根据历史调度语音信息确定习惯调度用语,根据所述习惯调度用语填充预设固定调度句式得到调度指令固定句式,根据所述调度指令固定句式更新所述文本语料库;
根据预设发音规则对所述更新后的文本语料库中的文本语料进行标注;
对标注后的文本语料库中的文本语料进行平滑处理,得到用于电力领域语音识别的语料库。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的语料库的构建方法中的相关操作.
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述语料库的构建装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种语料库的构建方法,其特征在于,包括:
根据电力调度领域涉及的术语生成文本语料库;
根据历史调度语音信息确定习惯调度用语,根据所述习惯调度用语填充预设固定调度句式得到调度指令固定句式,根据所述调度指令固定句式更新所述文本语料库;
根据预设发音规则对所述更新后的文本语料库中的文本语料进行标注;
对标注后的文本语料库中的文本语料进行平滑处理,得到用于电力领域语音识别的语料库。
2.根据权利要求1所述的方法,其特征在于,所述根据电力调度领域涉及的术语生成文本语料库,包括:
获取电网中基础配置信息、厂站信息、线路名称、设备信息和业务场景术语;
根据所述电网中基础配置信息、厂站信息、线路名称、设备信息和业务场景术语确定多维文本语料库。
3.根据权利要求2所述的方法,其特征在于,所述根据所述电网中基础配置信息、厂站信息、线路名称、设备信息和业务场景术语确定多维文本语料库,包括:
将所述基础配置信息、厂站信息、线路名称、设备信息和业务场景术语中的非汉字语料转换为汉字语料;
关联存储所述基础配置信息的专业名称和指代相同对象的其它名称,生成基础语料库;
关联存储所述厂站信息、线路名称和设备标识,生成模型语料库;
根据所述业务场景术语和业务场景特征信息生成包含不同业务专题的专题语料库。
4.根据权利要求3所述的方法,其特征在于,根据所述业务场景术语和业务场景特征信息生成包含不同业务专题的专题语料库,包括:
关联存储操作场景下的设备状态的命名和操作命令的语料规则,生成操作术语语料库,其中,所述操作命令的语料规则包括操作命令的关键字、所述操作命令的解析规则和不规范关键字的变形;
关联存储检修场景下的被检修设备的关键词和检修工作内容的关键词,生成检修术语语料库;
对不同设备发出的设备信息进行合并处理得到合并设备信号,提取所述合并设备信号的信号描述信息中的信号特征信息,基于所述信号特征信息生成遥信术语语料库。
5.根据权利要求1所述的方法,其特征在于,所述根据历史调度语音信息确定习惯调度用语,根据所述习惯调度用语填充预设固定调度句式得到调度指令固定句式,根据所述调度指令固定句式更新所述文本语料库,包括:
根据区域信息对历史调度语音信息进行分组;
根据预设固定调度句式解析各组历史调度语音信息,确定所述预设固定调度句式中各字段位置对应的字段内容,根据所述字段内容确定各区域调度人员的习惯调度用语;
根据各区域的所述习惯调度用语填充所述预设固定调度句式得到调度指令固定句式;
采用所述调度指令固定句式补充或调整所述文本语料库。
6.根据权利要求5所述的方法,其特征在于,所述根据预设发音规则对所述更新后的文本语料库中的文本语料进行标注,包括:
对所述更新后的文本语料库中的文本语料进行拼音标注;
根据各区域调度人员的所述习惯调度用语校正所述拼音标注。
7.根据权利要求1所述的方法,其特征在于,所述对标注后的文本语料库中的文本语料进行平滑处理,得到用于电力领域语音识别的语料库,包括:
采用古德-图灵算法对标注后的文本语料库中的文本语料进行平滑处理,得到用于电力领域语音识别的语料库。
8.一种语料库的构建装置,其特征在于,包括:
文本语料库生成模块,用于根据电力调度领域涉及的术语生成文本语料库;
文本语料库更新模块,用于根据历史调度语音信息确定习惯调度用语,根据所述习惯调度用语填充预设固定调度句式得到调度指令固定句式,根据所述调度指令固定句式更新所述文本语料库;
文本语料库标注模块,用于根据预设发音规则对所述更新后的文本语料库中的文本语料进行标注;
文本语料库平滑模块,用于对标注后的文本语料库中的文本语料进行平滑处理,得到用于电力领域语音识别的语料库。
9.一种计算机设备,其特征在于,所述计算机设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的语料库的构建方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的语料库的构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110103726.8A CN112885352A (zh) | 2021-01-26 | 2021-01-26 | 一种语料库的构建方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110103726.8A CN112885352A (zh) | 2021-01-26 | 2021-01-26 | 一种语料库的构建方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112885352A true CN112885352A (zh) | 2021-06-01 |
Family
ID=76051891
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110103726.8A Pending CN112885352A (zh) | 2021-01-26 | 2021-01-26 | 一种语料库的构建方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112885352A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113744737A (zh) * | 2021-09-09 | 2021-12-03 | 广东电网有限责任公司 | 语音识别模型的训练、人机交互方法、设备和存储介质 |
CN113763949A (zh) * | 2021-07-22 | 2021-12-07 | 南方电网深圳数字电网研究院有限公司 | 语音识别修正方法、电子设备及计算机可读存储介质 |
CN113869040A (zh) * | 2021-06-22 | 2021-12-31 | 国网甘肃省电力公司天水供电公司 | 一种电网调度的语音识别方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007206603A (ja) * | 2006-02-06 | 2007-08-16 | Nissan Motor Co Ltd | 音響モデルの作成方法 |
US20150228273A1 (en) * | 2014-02-07 | 2015-08-13 | Doinita Serban | Automated generation of phonemic lexicon for voice activated cockpit management systems |
CN108763338A (zh) * | 2018-05-14 | 2018-11-06 | 山东亿云信息技术有限公司 | 一种基于电力行业的新闻采编系统 |
CN109409701A (zh) * | 2018-10-10 | 2019-03-01 | 国网江苏省电力有限公司无锡供电分公司 | 电网场景的电网情境模型构建方法 |
CN110162753A (zh) * | 2018-11-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 用于生成文本模板的方法、装置、设备和计算机可读介质 |
CN110852109A (zh) * | 2019-11-11 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 语料生成方法、语料生成装置、和存储介质 |
CN111832977A (zh) * | 2020-07-30 | 2020-10-27 | 广东电网有限责任公司 | 一种基于自然语言解析的检修申请自动成票方法 |
CN111930784A (zh) * | 2020-07-23 | 2020-11-13 | 南京南瑞信息通信科技有限公司 | 一种电网知识图谱构建方法及其系统 |
CN111949774A (zh) * | 2020-07-08 | 2020-11-17 | 深圳鹏锐信息技术股份有限公司 | 一种智能问答方法和系统 |
-
2021
- 2021-01-26 CN CN202110103726.8A patent/CN112885352A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007206603A (ja) * | 2006-02-06 | 2007-08-16 | Nissan Motor Co Ltd | 音響モデルの作成方法 |
US20150228273A1 (en) * | 2014-02-07 | 2015-08-13 | Doinita Serban | Automated generation of phonemic lexicon for voice activated cockpit management systems |
CN108763338A (zh) * | 2018-05-14 | 2018-11-06 | 山东亿云信息技术有限公司 | 一种基于电力行业的新闻采编系统 |
CN109409701A (zh) * | 2018-10-10 | 2019-03-01 | 国网江苏省电力有限公司无锡供电分公司 | 电网场景的电网情境模型构建方法 |
CN110162753A (zh) * | 2018-11-08 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 用于生成文本模板的方法、装置、设备和计算机可读介质 |
CN110852109A (zh) * | 2019-11-11 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 语料生成方法、语料生成装置、和存储介质 |
CN111949774A (zh) * | 2020-07-08 | 2020-11-17 | 深圳鹏锐信息技术股份有限公司 | 一种智能问答方法和系统 |
CN111930784A (zh) * | 2020-07-23 | 2020-11-13 | 南京南瑞信息通信科技有限公司 | 一种电网知识图谱构建方法及其系统 |
CN111832977A (zh) * | 2020-07-30 | 2020-10-27 | 广东电网有限责任公司 | 一种基于自然语言解析的检修申请自动成票方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113869040A (zh) * | 2021-06-22 | 2021-12-31 | 国网甘肃省电力公司天水供电公司 | 一种电网调度的语音识别方法 |
CN113763949A (zh) * | 2021-07-22 | 2021-12-07 | 南方电网深圳数字电网研究院有限公司 | 语音识别修正方法、电子设备及计算机可读存储介质 |
CN113763949B (zh) * | 2021-07-22 | 2024-05-14 | 南方电网数字平台科技(广东)有限公司 | 语音识别修正方法、电子设备及计算机可读存储介质 |
CN113744737A (zh) * | 2021-09-09 | 2021-12-03 | 广东电网有限责任公司 | 语音识别模型的训练、人机交互方法、设备和存储介质 |
CN113744737B (zh) * | 2021-09-09 | 2024-06-11 | 广东电网有限责任公司 | 语音识别模型的训练、人机交互方法、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111930784B (zh) | 一种电网知识图谱构建方法及其系统 | |
CN112885352A (zh) | 一种语料库的构建方法、装置、计算机设备及存储介质 | |
Benajiba et al. | ANERsys 2.0: Conquering the NER task for the Arabic language by combining the maximum entropy with POS-tag information. | |
CN100483417C (zh) | 获取限制词信息的方法、优化输出的方法和输入法系统 | |
CN111090730B (zh) | 智能语音调度系统及方法 | |
CN111931477B (zh) | 文本匹配方法、装置、电子设备以及存储介质 | |
JP2020126493A (ja) | 対訳処理方法および対訳処理プログラム | |
CN114254653A (zh) | 一种科技项目文本语义抽取与表示分析方法 | |
Korobkin et al. | Three-steps methodology for patents prior-art retrieval and structured physical knowledge extracting | |
CN115858758A (zh) | 一种多非结构化数据识别的智慧客服知识图谱系统 | |
CN110263154A (zh) | 一种网络舆情情感态势量化方法、系统及存储介质 | |
CN110888970A (zh) | 文本生成方法、装置、终端和存储介质 | |
CN101686234A (zh) | 实现多语种信息交流的系统 | |
CN107577713B (zh) | 基于电力词典的文本处理方法 | |
CN112434129A (zh) | 一种电网调度领域专业语料库生成方法及系统 | |
CN201255881Y (zh) | 实现多语种信息交流的系统 | |
CN110929518A (zh) | 一种使用重叠拆分规则的文本序列标注算法 | |
CN112417875B (zh) | 配置信息的更新方法、装置、计算机设备及介质 | |
CN103164398A (zh) | 汉维电子辞典及其自动转译汉维语的方法 | |
CN103164397A (zh) | 汉哈电子辞典及其自动转译汉哈语的方法 | |
CN112307767A (zh) | 一种基于Bi-LSTM技术的调控知识建模方法 | |
CN111553158A (zh) | 一种基于BiLSTM-CRF模型的电力调度领域命名实体识别方法及系统 | |
CN103164396A (zh) | 汉维哈柯电子辞典及其自动转译汉维哈柯语的方法 | |
CN116450777A (zh) | 一种基于nlp与热点词元分析的用电诉求辨析方法和系统 | |
CN115937881A (zh) | 一种知识图谱构建标准表格内容自动识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210601 |