CN116341552A - 基于Bert-CRF的变电站防汛命名实体识别方法 - Google Patents

基于Bert-CRF的变电站防汛命名实体识别方法 Download PDF

Info

Publication number
CN116341552A
CN116341552A CN202310386116.2A CN202310386116A CN116341552A CN 116341552 A CN116341552 A CN 116341552A CN 202310386116 A CN202310386116 A CN 202310386116A CN 116341552 A CN116341552 A CN 116341552A
Authority
CN
China
Prior art keywords
bert
crf
flood prevention
model
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310386116.2A
Other languages
English (en)
Inventor
刘善峰
姚德贵
宋伟
石英
智海燕
李哲
王超
王津宇
梁允
袁少光
田杨阳
毛万登
邱卡特
曲锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
State Grid Henan Electric Power Co Ltd
Electric Power Research Institute of State Grid Henan Electric Power Co Ltd
Original Assignee
Wuhan University of Technology WUT
State Grid Henan Electric Power Co Ltd
Electric Power Research Institute of State Grid Henan Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT, State Grid Henan Electric Power Co Ltd, Electric Power Research Institute of State Grid Henan Electric Power Co Ltd filed Critical Wuhan University of Technology WUT
Priority to CN202310386116.2A priority Critical patent/CN116341552A/zh
Publication of CN116341552A publication Critical patent/CN116341552A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A10/00TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE at coastal zones; at river basins
    • Y02A10/40Controlling or monitoring, e.g. of flood or hurricane; Forecasting, e.g. risk assessment or mapping

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明属于变电站防汛技术领域,具体涉及一种基于Bert‑CRF的变电站防汛命名实体识别方法。所述方法包括以下步骤:步骤S1:获取防汛文本数据并标注;步骤S2:构建并训练基于Bert‑CRF的防汛命名实体识别模型;步骤S3:利用模型得出最优实体标签。本发明基于Bert‑CRF的变电站防汛命名实体识别方法解决了现有技术中防汛文本数据人工标注效率不高、且专业内涵知识丰富较其他文本更难以进行实体识别的问题,而且识别准确率高,识别快速,成本低,能够广泛应用于变电站防汛数据的命名实体识别。

Description

基于Bert-CRF的变电站防汛命名实体识别方法
技术领域
本发明属于变电站防汛技术领域,具体涉及一种基于Bert-CRF的变电站防汛命名实体识别方法。
背景技术
防汛数据文本通常存在一定的缺损、不规范以及格式不统一的问题,因此传统的数值分析与统计学方法对于此类数据的处理略显乏力,导致文本数据中所蕴含的知识无法得到有效利用。倘若对防汛文本数据进行标注并采取命名实体识别技术,将文本数据蕴含的经验知识与现场情况等信息进行挖掘,对于满足运维工作的及时高效、保障变电站安全具有重大意义。
数据标注是对数据再加工的一种行为,是有效利用数据的前提,目前,已有针对单一领域的标注系统,如计算机视觉领域中的静态图像行为标注,然而针对防汛领域仍依靠传统的人工标注,已逐渐不能适应海量数据标注的需求,亟需更为高效率的标注方式,而命名实体识别技术可以从一段文本中,识别出具有特定意义的实体,近年来广泛应用在金融和医学领域,但在防汛领域的应用仍处于初级阶段,同其他文本数据相比,防汛数据文本具有以下三大特点:1)存在因人工记录导致的信息冗余和格式不规范问题;2)防汛文本数据体量大,人工标注效率低;3)文本数据涉及专业领域内容,包含了大量专业短语,专业知识内涵深厚。这些特点使得防汛领域命名实体的识别较其他中文实体识别具有更大的难度。
目前数据标注方法主要分为三类:基于规则的方法、基于统计机器学习的方法和基于深度学习的方法。基于规则的方法,主要利用人工针对不同数据集的特征构建相应的规则,利用模式匹配的方式对实体进行识别,这类方法识别出的实体准确率高,更符合语言逻辑,但是过度依赖领域专家制定的规则,需要大量的人力成本且泛化性和鲁棒性不高,难以在防汛文本数据标注上得到广泛应用。基于统计机器学习的方法,则是将已标注的语料输入到不同模型中,从而实现命名实体识别,这一类方法训练速度较快,但是由于模型本身对顺序标注的依赖性,在大规模语料上的表现明显不如小规模语料,而防汛文本数据规模大,基于统计机器学习的方法对其识别准确率较差。基于深度学习的方法,通过词向量对文本数据进行表征,同时利用神经网络学习数据特征,与统计机器学习方法相比,这类方法的效果和性能都有一定提升,但是在序列标注的问题上表现不如CRF,因此将深度学习算法与CRF结合成为当今主流的命名实体识别算法,但是对防汛专业术语的识别能力不好。
发明内容
为克服现有技术的缺陷,本发明的目的在于提供一种基于Bert-CRF的变电站防汛命名实体识别方法。
为实现上述目的,本发明采用如下技术方案:
一种基于Bert-CRF的变电站防汛命名实体识别方法,包括以下步骤:
步骤S1:获取防汛文本数据并标注;
步骤S2:构建并训练基于Bert-CRF的防汛命名实体识别模型;
步骤S3:利用模型得出最优实体标签。
优选地,步骤S1所述获取防汛文本数据并标注,包括:
步骤S11:从众多数据中提取防汛文本数据;
步骤S12:采用半监督学习中的字级标注,对步骤S11所述防汛文本数据进行半自动BIO标签的标注。
优选地,步骤S2所述构建并训练基于Bert-CRF的防汛命名实体识别模型,包括:
将Bert模型的softmax层用CRF层替换,建立基于Bert-CRF的防汛命名实体识别模型,所述模型包括输入层、Bert层和CRF层,利用标注过的防汛文本数据对所述模型进行训练。
优选地,步骤S3所述利用模型得出最优实体标签,包括:
步骤S31:在输入层中输入需要进行命名实体识别的防汛文本数据;
步骤S32:利用Bert层将输入的防汛文本数据生成包含丰富语义信息的动态词向量,并在词向量中融入上下文特征;
步骤S33:利用CRF层约束词向量的输出,得出句子的最优实体标签。
一种基于Bert-CRF的变电站防汛命名实体识别装置,包括:
数据获取模块,用于获取防汛文本数据并标注;
模型构建模块,用于构建并训练基于Bert-CRF的防汛命名实体识别模型;
标签识别模块,利用模型得出最优实体标签。
优选地,所述数据获取模块,用于获取防汛文本数据并标注,包括:
步骤S11:从众多数据中提取防汛文本数据;
步骤S12:采用半监督学习中的字级标注,对步骤S11所述防汛文本数据进行半自动BIO标签的标注。
优选地,所述模型构建模块,用于构建并训练基于Bert-CRF的防汛命名实体识别模型,包括:
将Bert模型的softmax层用CRF层替换,建立基于Bert-CRF的防汛命名实体识别模型,所述模型包括输入层、Bert层和CRF层,利用标注过的防汛文本数据对所述模型进行训练。
优选地,所述标签识别模块,利用模型得出最优实体标签,包括:
步骤S31:在输入层中输入需要进行命名实体识别的防汛文本数据;
步骤S32:利用Bert层将输入的防汛文本数据生成包含丰富语义信息的动态词向量,并在词向量中融入上下文特征;
步骤S33:利用CRF层约束词向量的输出,得出句子的最优实体标签。
本发明相对现有技术来说,取得了如下积极有益效果:
1.本发明公开了一种基于Bert-CRF的变电站防汛命名实体识别方法,通过获取防汛文本数据,利用基于半监督学习的BIO标注对防汛文本数据进行标注,减少人工标注占比,提升标注速率,同时采取字级标注提升标注的准确性;其次将Bert模型的softmax层用CRF层替换,建立基于Bert-CRF的防汛命名实体识别模型,所述模型包括输入层、Bert层和CRF层,利用标注过的防汛文本数据对所述模型进行训练;最后在模型的输入层中输入防汛文本数据,利用Bert层将输入的防汛文本数据生成包含丰富语义信息的动态词向量,并在词向量中融入上下文特征,以便下一步更好地识别,利用CRF层约束词向量的输出,得到句子的最优实体标签,解决了现有技术中防汛文本数据人工标注效率不高、且专业内涵知识丰富较其他文本更难以进行实体识别的问题,而且识别准确率高,识别快速,成本低,能够广泛应用于变电站防汛数据的命名实体识别。
附图说明
图1为本发明基于Bert-CRF的防汛命名实体识别方法流程图;
图2为本发明半监督学习训练流程图;
图3为本发明的Bert-CRF的防汛命名实体识别模型框架图;
图4为本发明的Bert层输入结构图。
具体实施方式
下面结合实施例对本发明做进一步详细说明:
实施例1
如图1所示,本发明提供了一种基于Bert-CRF的变电站防汛命名实体识别方法,包括如下步骤:
步骤S1:获取防汛文本数据并标注;
步骤S11:获取防汛文本数据;
从众多数据中提取防汛文本数据,用于进行命名实体识别;
步骤S12:基于半监督学习进行BIO标注;
采用半监督学习对防汛文本数据进行半自动标注,提升标注效率,同时采取字级标注提升标注的准确性;
目前主流的标注方法有BMES,BIOES与BIO标注,考虑到后续与半监督学习的结合,本发明采用更易于实现的BIO标注方法,防汛文本中的不同实体对应的标签并不相同,标签主要由两部分组成:①标签前缀,用于划分实体边界。“B”表示实体的开始边界,“I”表示实体的中间内容,“O”表示其他与实体无关的信息,②标签后缀,用于区分不同类型的实体。
半监督学习是介于无监督学习和有监督学习之间的一种技术,在训练过程中同时利用标签数据与无标签数据,对标注工作而言,由得到经人工标注后的标签数据,结合尚未标注的无标签数据,共同训练半监督学习模型,利用最优模型进行半自动标注,该方法能够以更少的人工成本获得较为理想的标注效果,是解决防汛文本数据体量大,人工标注效率低的有效手段,半监督学习训练流程如图2所示。
步骤S2:构建并训练基于Bert-CRF的防汛命名实体识别模型,详述如下:
现有Bert模型由输入层、编码层以及softmax输出层构成,将Bert模型的softmax层用CRF层替换,建立基于Bert-CRF的防汛命名实体识别模型;本发明提出的基于Bert-CRF的防汛命名实体识别模型如图3所示,模型包括输入层、Bert层和CRF层,利用标注过的防汛文本数据对所述模型进行训练。
步骤S3:利用模型得出最优实体标签;
步骤S31:在输入层中输入需要进行命名实体识别的防汛文本数据;
步骤S32:利用Bert层将输入的防汛文本数据生成包含丰富语义信息的动态词向量,并在词向量中融入上下文特征;
Bert是由谷歌团队提出的一种基于Transformer构建的预训练语言模型。模型内部所有层在训练过程中,会随机对语料库中的部分信息进行掩码操作,通过对掩码信息的预测,完成上下文的学习,这一特点使得该模型训练出的词向量较N-gram、Word2vec等传统语言模型而言,更注重语境和语义的变化,使得相同的字在不同语境下得到不同表征,能够更好的解决一词多义的问题。模型的输入为词嵌入、段编码以及带位置编码之和,整体结构如图4所示。
其中,[CLS]表示文本序列的开始,[SEP]则表示句子的间隔或者文本序列的结束,模型通过字向量表,将输入的文本转化为词嵌入;段编码主要用于标定两个子句的上下文关系;位置编码包含上下文相对位置信息,用于区分不同语句中不同位置的字的语义信息,通过预训练,能够得到含有深层语义特征的动态文本序列向量。
步骤S33:利用CRF层约束词向量的输出,得出句子的最优实体标签;
利用CRF层约束词向量的输出,进一步应对防汛文本数据人工标注效率不高,且专业内涵知识丰富较其他文本更难以进行实体识别的问题,得出句子的最优实体标签。
条件随机场是一种经典的判别式无向概率图模型,常用于序列标注问题。在命名实体识别任务中,对于实体的预测标签遵循一定的规则,如“B-1、I-1”即I标签一定在B标签之后,并且与B标签具有相同的标签后缀,因此需要对预测标签进行约束,本发明采用CRF层约束预测标签之间的依赖关系,并对序列标签进行建模,从而获取最优标签序列。
经Bert层得到的词向量序列X=(x1,x2,…,xn),其状态序列即对应标签序列Y=(y1,y2,…yn)的条件概率则可以通过式(1)和(2)计算得到:
Figure BDA0004174071040000061
Figure BDA0004174071040000062
其中,fk为特征函数,wk为特征函数的权重,Z(x)为归一化项;
在训练过程中使用最大对数似然函数,并通过式(3)和式(4)对已知句子W的标签序列y的条件概率进行计算:
Figure BDA0004174071040000071
L=log(P(y|W)) ⑷
其中,
Figure BDA0004174071040000072
为真实标签,yW为已知句子W的所有可能的标签集合,L为损失函数;
在CRF的预测阶段,通过式(5)维特比算法得到全局最优解
Figure BDA0004174071040000073
其中,y*为得分最优的标签序列。
为了验证所提Bert-CRF的防汛命名实体识别模型在防汛文本上的命名实体识别性能,在相同数据集上,将本发明所述Bert-CRF的防汛命名实体识别模型与HMM、CRF、Bi-LSTM、Bi-LSTM-CRF和Bert进行对比试验,实验结果如表1所示。
表1不同模型的识别结果对比
Figure BDA0004174071040000074
通过表1可知,本发明Bert-CRF在相同数据集上取得了最好的精确率、召回率和F1值,且三项指标均高于97%,比排名第二的Bert分别高出1.91%、1.67%和1.68%。因此,在防汛数据命名实体识别领域,本发明的命名实体识别效果较之现有方法准确率更高,是最优的模型。
本实施例一般性的对本发明做了详尽的描述,但在本发明基础上,可以对之做一些修改或改进,这对于技术领域的一般技术人员是显而易见的。因此,在不脱离本发明思想精神的修改或改进,均在本发明的保护范围之内。

Claims (8)

1.一种基于Bert-CRF的变电站防汛命名实体识别方法,其特征在于,包括以下步骤:
步骤S1:获取防汛文本数据并标注;
步骤S2:构建并训练基于Bert-CRF的防汛命名实体识别模型;
步骤S3:利用模型得出最优实体标签。
2.根据权利要求1所述的基于Bert-CRF的变电站防汛命名实体识别方法,其特征在于,步骤S1所述获取防汛文本数据并标注,包括:
步骤S11:从众多数据中提取防汛文本数据;
步骤S12:采用半监督学习中的字级标注,对步骤S11所述防汛文本数据进行半自动BIO标签标注。
3.根据权利要求2所述的基于Bert-CRF的变电站防汛命名实体识别方法,其特征在于,步骤S2所述构建并训练基于Bert-CRF的防汛命名实体识别模型,包括:
将Bert模型的softmax层用CRF层替换,建立基于Bert-CRF的防汛命名实体识别模型,所述模型包括输入层、Bert层和CRF层,利用标注过的防汛文本数据对所述模型进行训练。
4.根据权利要求3所述的基于Bert-CRF的变电站防汛命名实体识别方法,其特征在于,步骤S3所述利用模型得出最优实体标签,包括:
步骤S31:在输入层中输入需要进行命名实体识别的防汛文本数据;
步骤S32:利用Bert层将输入的防汛文本数据生成包含丰富语义信息的动态词向量,并在词向量中融入上下文特征;
步骤S33:利用CRF层约束词向量的输出,得出句子的最优实体标签。
5.一种基于Bert-CRF的变电站防汛命名实体识别装置,其特征在于,包括:
数据获取模块,用于获取防汛文本数据并标注;
模型构建模块,用于构建并训练基于Bert-CRF的防汛命名实体识别模型;
标签识别模块,利用模型得出最优实体标签。
6.根据权利要求5所述的基于Bert-CRF的变电站防汛命名实体识别装置,其特征在于,所述数据获取模块,用于获取防汛文本数据并标注,包括:
步骤S11:从众多数据中提取防汛文本数据;
步骤S12:采用半监督学习中的字级标注,对步骤S11所述防汛文本数据进行半自动BIO标签的标注。
7.根据权利要求6所述的基于Bert-CRF的变电站防汛命名实体识别装置,其特征在于,所述模型构建模块,用于构建并训练基于Bert-CRF的防汛命名实体识别模型,包括:
将Bert模型的softmax层用CRF层替换,建立基于Bert-CRF的防汛命名实体识别模型,所述模型包括输入层、Bert层和CRF层,利用标注过的防汛文本数据对所述模型进行训练。
8.根据权利要求7所述的基于Bert-CRF的变电站防汛命名实体识别装置,其特征在于,所述标签识别模块,利用模型得出最优实体标签,包括:
步骤S31:在输入层中输入需要进行命名实体识别的防汛文本数据;
步骤S32:利用Bert层将输入的防汛文本数据生成包含丰富语义信息的动态词向量,并在词向量中融入上下文特征;
步骤S33:利用CRF层约束词向量的输出,得出句子的最优实体标签。
CN202310386116.2A 2023-04-11 2023-04-11 基于Bert-CRF的变电站防汛命名实体识别方法 Pending CN116341552A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310386116.2A CN116341552A (zh) 2023-04-11 2023-04-11 基于Bert-CRF的变电站防汛命名实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310386116.2A CN116341552A (zh) 2023-04-11 2023-04-11 基于Bert-CRF的变电站防汛命名实体识别方法

Publications (1)

Publication Number Publication Date
CN116341552A true CN116341552A (zh) 2023-06-27

Family

ID=86889395

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310386116.2A Pending CN116341552A (zh) 2023-04-11 2023-04-11 基于Bert-CRF的变电站防汛命名实体识别方法

Country Status (1)

Country Link
CN (1) CN116341552A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111738004A (zh) * 2020-06-16 2020-10-02 中国科学院计算技术研究所 一种命名实体识别模型的训练方法及命名实体识别的方法
WO2020232861A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 命名实体识别方法、电子装置及存储介质
CN113191148A (zh) * 2021-04-30 2021-07-30 西安理工大学 一种基于半监督学习和聚类的轨道交通实体识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020232861A1 (zh) * 2019-05-20 2020-11-26 平安科技(深圳)有限公司 命名实体识别方法、电子装置及存储介质
CN111738004A (zh) * 2020-06-16 2020-10-02 中国科学院计算技术研究所 一种命名实体识别模型的训练方法及命名实体识别的方法
CN113191148A (zh) * 2021-04-30 2021-07-30 西安理工大学 一种基于半监督学习和聚类的轨道交通实体识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘雨可 等: "面向配网一次设备缺陷文本命名实体识别研究", 《武汉理工大学学报》, vol. 44, no. 10, 31 October 2022 (2022-10-31), pages 93 - 101 *

Similar Documents

Publication Publication Date Title
CN110489555B (zh) 一种结合类词信息的语言模型预训练方法
CN107729309B (zh) 一种基于深度学习的中文语义分析的方法及装置
CN111209401A (zh) 网络舆情文本信息情感极性分类处理系统及方法
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN109522403A (zh) 一种基于融合编码的摘要文本生成方法
CN112905736B (zh) 一种基于量子理论的无监督文本情感分析方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115935957A (zh) 一种基于句法分析的句子语法纠错方法及系统
CN114911947A (zh) 一种基于知识提示的概念抽取模型
CN115098673A (zh) 基于变体注意力及层次结构的业务文书信息抽取方法
CN114065738A (zh) 基于多任务学习的中文拼写纠错方法
CN116522165B (zh) 一种基于孪生结构的舆情文本匹配系统及方法
CN116975161A (zh) 电力设备局放文本的实体关系联合抽取方法、设备、介质
CN114595687B (zh) 基于BiLSTM的老挝语文本正则化方法
CN111199152A (zh) 一种基于标签注意力机制的命名实体识别方法
CN114781381B (zh) 基于规则和神经网络模型融合的标准指标抽取方法
CN113901210B (zh) 利用局部多头注意力机制融合词-音节对的泰文和缅甸文词性标注方法
CN116341552A (zh) 基于Bert-CRF的变电站防汛命名实体识别方法
CN115171647A (zh) 一种具有自然停顿处理的语音合成方法、装置、电子设备及计算机可读介质
Lv et al. StyleBERT: Chinese pretraining by font style information
CN112257447A (zh) 基于深度网络as-lstm的命名实体识别系统及识别方法
CN117150305B (zh) 融合检索和填空的文本数据增强方法、装置及电子设备
Garkal et al. HMER-Image to LaTeX: A Variational Dropout Approach
Li et al. Information Extraction with Negative Examples for Author Biographies in Scientific Literatures

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination