CN114528373A - 一种基于嵌入的新闻多标签分类方法及装置 - Google Patents

一种基于嵌入的新闻多标签分类方法及装置 Download PDF

Info

Publication number
CN114528373A
CN114528373A CN202210060247.7A CN202210060247A CN114528373A CN 114528373 A CN114528373 A CN 114528373A CN 202210060247 A CN202210060247 A CN 202210060247A CN 114528373 A CN114528373 A CN 114528373A
Authority
CN
China
Prior art keywords
text
embedded
label
news
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210060247.7A
Other languages
English (en)
Inventor
杨旭华
陶进
叶蕾
龙海霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Technology ZJUT
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN202210060247.7A priority Critical patent/CN114528373A/zh
Publication of CN114528373A publication Critical patent/CN114528373A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于嵌入的新闻多标签分类方法及装置,将文本及其标签用嵌入向量表示,将文本嵌入向量矩阵输入到卷积神经网络模块,提取文本特征向量,将文本嵌入向量矩阵输入到双向门控循环单元网络模块,得到文本单词的上下文嵌入表示,将标签嵌入向量矩阵和文本单词的上下文嵌入表示输入到标签注意力模块,得到基于标签的文本特征向量,拼接文本特征向量和文本基于标签的特征向量,输入到文本分类器模块,输出文本分类结果。本发明从标签嵌入向量表示和文本嵌入向量表示中学习得到文本特征向量,提高新闻多标签分类的准确性。

Description

一种基于嵌入的新闻多标签分类方法及装置
技术领域
本申请属于自然语言处理技术领域,尤其涉及一种基于嵌入的新闻多标签分类方法及装置。
背景技术
随着互联网时代的到来,人们每天可以几乎实时知道发生在世界各地的事情,而互联网平台上的新闻在这其中扮演了重要的角色。类似今日头条、搜狗新闻、新浪等平台上,每天都有大量的新闻文本产生,有体育、政治、经济、娱乐、艺术等等主题,而如何对新闻的主题进行准确的分类,在用户推荐系统、舆情分析等领域有着重要的作用。
文本分类是自然语言处理领域一个基本而重要的任务。新闻文本的多标签分类首先要对文本进行一些预处理,包括分句、分词、去除停用词等等。得到干净的文本之后需要对文本进行向量化,进行特征的提取。传统文本向量化主要基于词袋模型、TF-IDF等统计方法来得到代表文本的一个定长的向量表示,最后使用支持向量机进行文本分类。而随着深度学习的迅猛发展,2013年提出的word2vec模型,成功将文本中每个单词用一个低维稠密的定长向量表示。这些定长的向量表示很好地涵盖了单词的上下文信息,成为将深度神经网络应用到文本领域的重要基础。之后的卷积神经网络(CNN)、循环神经网络(RNN)也成功应用于文本领域,并刷新了当时文本分类的最好结果。但是LSTM和CNN这些模型对文本进行序列建模的时候往往只考虑了文本的信息,很少去关注标签的信息,尤其对于多标签分类而言,标签本身具有丰富的信息。因此,引入标签嵌入,在新闻文本分类过程当中增加标签信息,来进一步提升分类的精度,是本领域技术人员研究的一个课题。
发明内容
为了克服现有文本分类方法中输入文本的语义信息不足问题,更全面捕获文本特征信息,提升新闻文本多标签分类性能,本申请提出了一种基于嵌入的新闻多标签分类方法及装置。
为了实现上述目的,本申请技术方案如下:
一种基于嵌入的新闻多标签分类方法,包括:
收集新闻文本数据,在预处理后,将文本及其标签用嵌入向量表示,得到文本嵌入向量矩阵和标签嵌入向量矩阵;
将文本嵌入向量矩阵输入到卷积神经网络模块,提取文本特征向量;
将文本嵌入向量矩阵输入到双向门控循环单元网络模块,得到文本单词的上下文嵌入表示;
将标签嵌入向量矩阵和文本单词的上下文嵌入表示输入到标签注意力模块,得到基于标签的文本特征向量;
拼接文本特征向量和文本基于标签的特征向量,输入到文本分类器模块,输出文本分类结果。
进一步的,所述文本单词的上下文嵌入表示,包括文本单词的正向上下文嵌入表示
Figure BDA0003477965310000021
和反向上下文嵌入表示
Figure BDA0003477965310000022
Figure BDA0003477965310000023
其中
Figure BDA0003477965310000024
表示正向门控循环单元网络第t个单词的上文嵌入向量,
Figure BDA0003477965310000025
表示反向门控循环单元网络第t个单词的下文嵌入向量,xt表示第t个单词的嵌入向量。
进一步的,所述基于标签的文本特征向量表示为:
f2=tanh(W3M);
Figure BDA0003477965310000026
其中,W3是可训练权重,tanh表示双曲正切激活函数,M为标签对应的特征向量,Z1=LH1为正向标签注意力权重,Z2=LH2为反向标签注意力权重,H1为文本单词的正向上下文嵌入表示,H2为文本单词的反向上下文嵌入表示。
进一步的,所述卷积神经网络模块、双向门控循环单元网络模块、标签注意力模块和文本分类器模块构成神经网络分类模型,所述神经网络分类模型的损失函数为:
Figure BDA0003477965310000027
其中Yij表示第i个样本是否拥有第j个标签的预测情况,
Figure BDA0003477965310000031
表示第i个文本是否拥有第j个标签的真实情况,Q表示标签数量,B表示样本数量。
进一步的,所述预处理,包括:
对收集的新闻文本,取前N个单词,如果一个新闻文本不足N个单词,不足之处用0填充。
本申请还提出了一种基于嵌入的新闻多标签分类装置,包括处理器以及存储有若干计算机指令的存储器,所述计算机指令被处理器执行时实现所述基于嵌入的新闻多标签分类方法的步骤。
本申请的技术构思为:提出了考虑标签语义信息的多标签分类方法,将标签用预训练嵌入向量表示,并从标签嵌入向量表示和文本嵌入向量表示中学习得到文本特征向量,提高新闻多标签分类的准确性。
附图说明
图1为本申请基于嵌入的新闻多标签分类方法流程图;
图2为本申请神经网络分类模型结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于嵌入的新闻多标签分类方法,包括:
步骤S1、收集新闻文本数据,在预处理后,将文本及其标签用嵌入向量表示,得到文本嵌入向量矩阵和标签嵌入向量矩阵。
本步骤收集B个新闻文本数据,任意一个文本数据包括文本内容及其所属的多个标签类别,在每个新闻文本中取前N个单词,如果一个新闻文本不足N个单词,不足之处用0填充。对每个新闻原始文本进行包括分句、分词、去除停用词、去除标点符号等预处理,得到预处理文本内容。
对预处理后的任意一个文本i,将标签和文本的单词用开源的Chinese WordVector中文预训练单词嵌入向量表示,进而得到文本i的文本嵌入向量
Figure BDA0003477965310000032
其中,D表示单词嵌入维度,xik表示文本i中第k个单词的嵌入向量,遍历整个文本数据集得到每个新闻文本的嵌入表示,则B个文本的嵌入向量矩阵可表示为X=[X1,X2,…,XB]。同时也得到标签嵌入矩阵
Figure BDA0003477965310000041
其中Q表示标签数量,lj表示第j标签的嵌入向量。
步骤S2、将文本嵌入向量矩阵输入到卷积神经网络模块,提取文本特征向量。
本实施例构建并训练用于新闻分类的神经网络分类模型,包括四个模块,分别是卷积神经网络模块(CNN模块)、Bi-GRU模块、标签注意力模块和文本分类器模块。
本步骤利用CNN模块来提取文本特征向量,将文本嵌入向量X输入到卷积神经网络CNN,得到特征映射向量
C=CNN(X,k,F),
其中C=[c1,c2……,ck],k是CNN的通道数,F表示卷积核个数;
利用最大池化方法计算文本特征向量:
f1=maxpool(C),
其中,
Figure BDA0003477965310000042
步骤S3、将文本嵌入向量矩阵输入到双向门控循环单元网络模块,得到文本单词的上下文嵌入表示。
本步骤利用双向门控循环单元网络模块(Bi-GRU模块)得到文本单词的上下文嵌入表示。将文本单词嵌入矩阵X输入双向门控循环单元网络Bi-GRU,得到文本单词的正向上下文嵌入表示
Figure BDA0003477965310000043
和反向上下文嵌入表示
Figure BDA0003477965310000044
其中
Figure BDA0003477965310000045
Figure BDA0003477965310000046
表示正向门控循环单元网络第t个单词的上文嵌入向量,
Figure BDA0003477965310000047
表示反向门控循环单元网络第t个单词的下文嵌入向量,xt表示第t个单词的嵌入向量,
Figure BDA0003477965310000048
分别表示前一个单词的上下文嵌入向量。
步骤S4、将标签嵌入向量矩阵和文本单词的上下文嵌入表示输入到标签注意力模块,得到基于标签的文本特征向量。
本步骤利用标签注意力模块计算文本基于标签的特征向量,首先计算正向标签注意力权重Z1=LH1和反向标签注意力权重Z2=LH2,其中Z1
Figure BDA0003477965310000051
L是步骤2得到的标签嵌入矩阵,然后计算每一个标签对应的特征向量:
Figure BDA0003477965310000052
其中,
Figure BDA0003477965310000053
表示文本每个标签对应的特征向量。
计算基于标签的文本特征向量:
f2=tanh(W3M);
其中,
Figure BDA0003477965310000054
是可训练权重,tanh表示双曲正切激活函数。
步骤S5、拼接文本特征向量和文本基于标签的特征向量,输入到文本分类器模块,输出文本分类结果。
本步骤拼接特征向量f=[f1;f2],利用文本分类器模块计算文本分类结果:
Y=sigmoid(W4f),
其中
Figure BDA0003477965310000055
是可训练权重,
Figure BDA0003477965310000056
表示2维分类结果向量,元素Yij表示第i个文本是否拥有第j个标签,Yij∈{0,1}(j=0,1,…,Q-1)。
在一个具体的实施例中,训练本申请神经网络分类模型时,损失函数如下:
Figure BDA0003477965310000057
其中Yij表示第i个样本是否拥有第j个标签的预测情况,
Figure BDA0003477965310000058
表示第i个文本是否拥有第j个标签的真实情况,Q表示标签数量,B表示样本数量。
在训练时,输入训练样本,直到损失值不再下降或者小于指定的值,结束训练,获得分类模型。
在训练好神经网络分类模型后,对于需要分类的新闻文本,执行步骤S1后输入分类模型,模型输出的Y就是新闻多标签分类结果。
在另一个实施例中,本申请还提供了一种基于嵌入的新闻多标签分类装置,包括处理器以及存储有若干计算机指令的存储器,所述计算机指令被处理器执行时实现所述基于嵌入的新闻多标签分类方法的步骤。
关于基于嵌入的新闻多标签分类装置的具体限定可以参见上文中对于基于嵌入的新闻多标签分类方法的限定,在此不再赘述。上述基于嵌入的新闻多标签分类装置可全部或部分通过软件、硬件及其组合来实现。可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上对应的操作。
存储器和处理器之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件互相之间可以通过一条或多条通讯总线或信号线实现电性连接。存储器中存储有可在处理器上运行的计算机程序,所述处理器通过运行存储在存储器内的计算机程序,从而实现本发明实施例中的网络拓扑布局方法。
其中,所述存储器可以是,但不限于,随机存取存储器(Random Access Memory,RAM),只读存储器(Read Only Memory,ROM),可编程只读存储器(Programmable Read-OnlyMemory,PROM),可擦除只读存储器(Erasable Programmable Read-Only Memory,EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,EEPROM)等。其中,存储器用于存储程序,所述处理器在接收到执行指令后,执行所述程序。
所述处理器可能是一种集成电路芯片,具有数据的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(NetworkProcessor,NP)等。可以实现或者执行本发明实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种基于嵌入的新闻多标签分类方法,其特征在于,所述基于嵌入的新闻多标签分类方法,包括:
收集新闻文本数据,在预处理后,将文本及其标签用嵌入向量表示,得到文本嵌入向量矩阵和标签嵌入向量矩阵;
将文本嵌入向量矩阵输入到卷积神经网络模块,提取文本特征向量;
将文本嵌入向量矩阵输入到双向门控循环单元网络模块,得到文本单词的上下文嵌入表示;
将标签嵌入向量矩阵和文本单词的上下文嵌入表示输入到标签注意力模块,得到基于标签的文本特征向量;
拼接文本特征向量和文本基于标签的特征向量,输入到文本分类器模块,输出文本分类结果。
2.根据权利要求1所述的基于嵌入的新闻多标签分类方法,其特征在于,所述文本单词的上下文嵌入表示,包括文本单词的正向上下文嵌入表示
Figure FDA0003477965300000011
和反向上下文嵌入表示
Figure FDA0003477965300000012
其中
Figure FDA0003477965300000013
表示正向门控循环单元网络第t个单词的上文嵌入向量,
Figure FDA0003477965300000014
表示反向门控循环单元网络第t个单词的下文嵌入向量,xt表示第t个单词的嵌入向量。
3.根据权利要求1所述的基于嵌入的新闻多标签分类方法,其特征在于,所述基于标签的文本特征向量表示为:
f2=tanh(W3M);
Figure FDA0003477965300000015
其中,W3是可训练权重,tanh表示双曲正切激活函数,M为标签对应的特征向量,Z1=LH1为正向标签注意力权重,Z2=LH2为反向标签注意力权重,H1为文本单词的正向上下文嵌入表示,H2为文本单词的反向上下文嵌入表示。
4.根据权利要求1所述的基于嵌入的新闻多标签分类方法,其特征在于,所述卷积神经网络模块、双向门控循环单元网络模块、标签注意力模块和文本分类器模块构成神经网络分类模型,所述神经网络分类模型的损失函数为:
Figure FDA0003477965300000021
其中Yij表示第i个样本是否拥有第j个标签的预测情况,
Figure FDA0003477965300000022
表示第i个文本是否拥有第j个标签的真实情况,Q表示标签数量,B表示样本数量。
5.根据权利要求1所述的基于嵌入的新闻多标签分类方法,其特征在于,所述预处理,包括:
对收集的新闻文本,取前N个单词,如果一个新闻文本不足N个单词,不足之处用0填充。
6.一种基于嵌入的新闻多标签分类装置,包括处理器以及存储有若干计算机指令的存储器,其特征在于,所述计算机指令被处理器执行时实现权利要求1至权利要求5中任意一项所述方法的步骤。
CN202210060247.7A 2022-01-19 2022-01-19 一种基于嵌入的新闻多标签分类方法及装置 Pending CN114528373A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210060247.7A CN114528373A (zh) 2022-01-19 2022-01-19 一种基于嵌入的新闻多标签分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210060247.7A CN114528373A (zh) 2022-01-19 2022-01-19 一种基于嵌入的新闻多标签分类方法及装置

Publications (1)

Publication Number Publication Date
CN114528373A true CN114528373A (zh) 2022-05-24

Family

ID=81620572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210060247.7A Pending CN114528373A (zh) 2022-01-19 2022-01-19 一种基于嵌入的新闻多标签分类方法及装置

Country Status (1)

Country Link
CN (1) CN114528373A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905533A (zh) * 2022-11-24 2023-04-04 重庆邮电大学 一种多标签文本智能分类方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115905533A (zh) * 2022-11-24 2023-04-04 重庆邮电大学 一种多标签文本智能分类方法
CN115905533B (zh) * 2022-11-24 2023-09-19 湖南光线空间信息科技有限公司 一种多标签文本智能分类方法

Similar Documents

Publication Publication Date Title
CN110119786B (zh) 文本话题分类方法及装置
CN108334605B (zh) 文本分类方法、装置、计算机设备及存储介质
CN110609897A (zh) 一种融合全局和局部特征的多类别中文文本分类方法
CN111160350B (zh) 人像分割方法、模型训练方法、装置、介质及电子设备
CN109918560A (zh) 一种基于搜索引擎的问答方法和装置
CN110188195B (zh) 一种基于深度学习的文本意图识别方法、装置及设备
CN111522908A (zh) 一种基于BiGRU和注意力机制的多标签文本分类方法
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN112347254B (zh) 新闻文本的分类方法、装置、计算机设备和存储介质
CN112507124A (zh) 一种基于图模型的篇章级别事件因果关系抽取方法
CN111582576A (zh) 一种基于多尺度特征融合和门控单元的预测系统及方法
CN110232128A (zh) 题目文本分类方法及装置
CN113051887A (zh) 一种公告信息元素抽取方法、系统及装置
CN111985243A (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN114528374A (zh) 一种基于图神经网络的电影评论情感分类方法及装置
CN116541492A (zh) 一种数据处理方法及相关设备
CN110297986A (zh) 一种微博热点话题的情感倾向分析方法
CN113987188B (zh) 一种短文本分类方法、装置及电子设备
CN113408282B (zh) 主题模型训练和主题预测方法、装置、设备及存储介质
CN111428034A (zh) 分类模型的训练方法、评论信息的分类方法及装置
CN114528373A (zh) 一种基于嵌入的新闻多标签分类方法及装置
CN113535960A (zh) 一种文本分类方法、装置和设备
CN111767720B (zh) 一种标题生成方法、计算机及可读存储介质
Xia Label oriented hierarchical attention neural network for short text classification
CN111445545A (zh) 一种文本转贴图方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination