CN107729509B - 基于隐性高维分布式特征表示的篇章相似度判定方法 - Google Patents

基于隐性高维分布式特征表示的篇章相似度判定方法 Download PDF

Info

Publication number
CN107729509B
CN107729509B CN201710994119.9A CN201710994119A CN107729509B CN 107729509 B CN107729509 B CN 107729509B CN 201710994119 A CN201710994119 A CN 201710994119A CN 107729509 B CN107729509 B CN 107729509B
Authority
CN
China
Prior art keywords
word
discourse
sample
recessive
dimensional distributed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710994119.9A
Other languages
English (en)
Other versions
CN107729509A (zh
Inventor
王远
雷斌
陆保国
崔隽
尹超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 28 Research Institute
Original Assignee
CETC 28 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 28 Research Institute filed Critical CETC 28 Research Institute
Priority to CN201710994119.9A priority Critical patent/CN107729509B/zh
Publication of CN107729509A publication Critical patent/CN107729509A/zh
Application granted granted Critical
Publication of CN107729509B publication Critical patent/CN107729509B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Abstract

本发明公开了基于隐性高维分布式特征表示的篇章相似度判定方法,首先利用神经网络类训练技术对特定种类数据样本进行训练,对样本生成词隐性高维分布式特征表示集合以及样本对应的语言模型;对样本生成二阶隐性高维分布式特征表示矩阵;对于待判定的篇章,利用神经网络语言模型,生成篇章中每一个词生成隐性高维分布式特征,然后组合得到篇章二阶隐性高维分布式特征表示矩阵。利用篇章和样本的二阶隐性高维分布式特征表示矩阵计算篇章的隐性语义特征向量;计算篇章隐性语义特征向量与全1向量的余弦值,以此作为篇章与样本集合的相似度。该方法可以用来进行长篇章间语义相似度计算、长篇章语义分类与聚类等操作。

Description

基于隐性高维分布式特征表示的篇章相似度判定方法
技术领域
本发明属于自然语言处理挖掘领域文本语义理解技术中的篇章语义相似度检测技术,尤其涉及基于隐性高维分布式特征表示的篇章相似度判定方法。
背景技术
自然语言处理技术是人工智能领域的重要分支,随着互联网的飞速发展,文本数据大量涌现,其间蕴含了大量有效信息,如何自动、智能、准确的发现、处理、汇聚这些信息是大数据时代下文本挖掘的热点之一。
文本信息的分类和聚类是一类重要的文本挖掘问题,其离不开文本相似度的计算。目前文本相似度计算方法多基于词、短语或句子进行,采用基于规则或者统计(如基于TF-IDF指标)的方式处理。此类方法认为词是文本的唯一基础语义单元。然而,许多情况下相同的词在不同的语境中,往往含义并不相同;词的频率并不能绝对反映词在语义表达上的重要程度,特别是许多停用词在表达情感、情绪时,往往非常重要。在判断长篇章的相似度时,词的作用更加弱化,并且语义的关联往往会跨越多个段落。再者,基于词频的语义相似度判定方法,往往需要考虑词性,目前,词性的标注工作在大数据场景下代价非常大,几乎无法完成。
因此,在判断长篇章之间的相似度时,迫切需要一种综合考虑上下文语境、词、短语以及相关组合,并且能跨段落关联语义的新方法,来提升语义相似度判断的准确性。
发明内容
本发明提出基于隐性高维分布式特征表示的篇章相似度判定方法,该方法能够基于篇章全文整体衡量篇章语义,以词为基本单位构造隐性高维分布式特征表示(以下如无特殊说明,特征表示均指隐性高维分布式特征表示),并基于词的特征表示,构造篇章的语义特征向量。通过计算向量间距离来计算篇章之间的相似性。,本发明主要用于判定两段文本的语义相似度,其可用于海量文档分类聚类、文章阅读推荐等应用。例如如下应用场景:用户A喜欢浏览政治经济类文章,其历史上曾经浏览的文档集合记为H,每天新产生的文章集合记为N,逐篇计算N中文档与H的相似度,将N中的文档按相似度由高到低排序,推荐给A阅读。
本发明具体包括如下步骤:
步骤1,利用类神经网络工具对特定种类数据样本(如财经、政治、体育、娱乐、军事等)进行训练,对样本生成词隐性高维分布式特征表示集合以及样本对应的语言模型;
步骤2,对样本生成二阶隐性高维分布式特征表示矩阵;
步骤3,输入待判定的篇章,利用步骤1得到的语言模型,生成篇章中每一个词隐性高维分布式特征,组合得到待判定的篇章的二阶隐性高维分布式特征表示矩阵;
步骤4,利用待判定的篇章和样本的二阶隐性高维分布式特征表示矩阵计算待判定的篇章的隐性语义特征向量;
步骤5,根据隐性语义特征向量计算待判定的篇章与样本的相似度。
步骤1包括:
步骤1-1,对特定种类数据样本进行分词,分词后的结果以文本文件的方式存储,文本的每一行代表一个完整的句子分词后的结果,句子的每个词之间以\tab分隔;
步骤1-2,利用类神经网络工具对预处理过后的文本文件训练,采用后向传播算法更新神经网络相关矩阵与偏差值(语言模型生成工具可以采用类神经工具训练,如卷积神经网络、递归神经网络、残余神经网络、LSTM网络等),最终形成的语言模型如下:
Model(Seq(DOC))
其中,DOC表示任意文本,Seq(DOC)返回文本的词特征表示序列。
Model(即语言模型)能够以任意文本篇章为输入,输出两类结果,一类是输入文本篇章的词特征表示,另一类是输入文本在语言模型下出现概率的对数似然loglikelihood,词特征表示如下:
Vect=<v0,…,vM-1>T
其中,T表示转置,vi为实数(i的取值范围为0~M-1),物理含义为词在特定维度上的特征值;M为特征表示的维度,为固定值(如30,60,100)。对于不存在于样本词汇空间中的词,其特征向量记为空值null。Vect为词t在语言模型里的特征表示。
步骤2包括:通过语言模型计算样本词汇空间中每一个词的特征表示,将特征表示按照词的字母序排列后,得到一个二维矩阵,称为样本二阶隐性高维分布式特征表示矩阵,记为MatrixS
Figure BDA0001442065550000021
其中,MatrixS是一个N×M的矩阵,其每一行对应一个词的隐性高维分布式特征表示;样本词汇空间记为V,N=|V|。
Figure BDA0001442065550000031
是文章中第tN-1个词的特征向量。
步骤3包括:
步骤3-1,将待判定的篇章分词并去重,形成篇章词汇集合Vpara
步骤3-2,对于Vpara中的每一个词t,利用语言模型计算其对应的词特征表示Vect
步骤3-3,将Vecti T组成判定的篇章的二阶隐性高维分布式特征表示矩阵MatrixI,其中,i为词t的字母序。其中,Vecti T是Vecti的转置向量。
步骤4包括:
步骤4-1,用一个N维浮点向量保存篇章的隐性语义特征向量;
步骤4-2,对篇章词汇集合进行遍历,如果该词存在于篇章词汇集合中,则取值为1;如果不存在,则取值为待判定的篇章样本集合中与该词距离最近的词。
待判定的篇章的隐性语义特征向量为N维向量,N为样本的词汇集合中的词汇数量,每一维度取值为浮点值,取值范围为[-1,1];
步骤5包括:计算待判定的篇章与样本的相似度:
Sim=cossin((1)N,HV),
其中(1)N为N维全1向量,Sim为浮点型,位于[-1,1]。
本发明方法可以用来进行长篇章间语义相似度计算、长篇章语义分类与聚类等操作。
有益效果:本发明针对目前长篇章语义相似度判定技术中存在的问题,彻底抛开统计方式,通过构造基于类神经网络模型的语言模型,实现词或短语在上下文语境中的语义特征数字化定量表示;基于该隐性语义特征定量表示所蕴涵的语义特征,计算长篇章之间的相似度。本方法完全不需要人工标注词性与统计词频,也不依赖于上下文的长度,实现了完全的语义相似度自动化判定。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1是语义相似度计算过程原理图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。本发明可用于海量文档分类聚类、文章阅读推荐等应用。例如如下应用场景:用户A喜欢浏览政治经济类文章,其历史上曾经浏览的文档集合记为H,每天新产生的文章集合记为N,逐篇计算N中文档与H的相似度,将N中的文档按相似度由高到低排序,推荐给A阅读。
如图1所示,本发明提出基于隐性高维分布式特征表示的篇章相似度判定方法,包括如下步骤:
步骤1,利用类神经网络工具对特定种类数据样本(如财经、政治、体育、娱乐、军事等)进行训练,对样本生成词隐性高维分布式特征表示集合以及样本对应的语言模型;
步骤2,对样本生成二阶隐性高维分布式特征表示矩阵;
步骤3,输入待判定的篇章,利用步骤1得到的语言模型,生成篇章中每一个词隐性高维分布式特征,组合得到待判定的篇章的二阶隐性高维分布式特征表示矩阵;
步骤4,利用待判定的篇章和样本的二阶隐性高维分布式特征表示矩阵计算待判定的篇章的隐性语义特征向量;
步骤5,根据隐性语义特征向量计算待判定的篇章与样本的相似度。
步骤1包括:
步骤1-1,对特定种类数据样本进行分词,分词后的结果以文本文件的方式存储,文本的每一行代表一个完整的句子分词后的结果,句子的每个词之间以\tab分隔;
步骤1-2,利用类神经网络工具对预处理过后的文本文件训练,采用后向传播算法更新神经网络相关矩阵与偏差值(语言模型生成工具可以采用类神经工具训练,如卷积神经网络、递归神经网络、残余神经网络、LSTM网络等),最终形成的语言模型如下:
Model(Seq(DOC))
其中,DOC表示任意文本,Seq(DOC)返回文本的词特征表示序列。
Model(即语言模型)能够以任意文本篇章为输入,输出两类结果,一类是输入文本篇章的词特征表示,另一类是输入文本在语言模型下出现概率的对数似然loglikelihood,词特征表示如下:
Vect=<v0,…,vM-1>T
其中,T表示转置,vi为实数(i的取值范围为0~M-1),物理含义为词在特定维度上的特征值;M为特征表示的维度,为固定值(如30,60,100)。对于不存在于样本词汇空间中的词,其特征向量记为空值null。Vect为词t在语言模型里的特征表示。
步骤2包括:通过语言模型计算样本词汇空间中每一个词的特征表示,将特征表示按照词的字母序排列后,得到一个二维矩阵,称为样本二阶隐性高维分布式特征表示矩阵,记为MatrixS
Figure BDA0001442065550000051
其中,MatrixS是一个N×M的矩阵,其每一行对应一个词的隐性高维分布式特征表示;样本词汇空间记为V,N=|V|。
Figure BDA0001442065550000052
是文章中第tN-1个词的特征向量。
步骤3包括:
步骤3-1,将待判定的篇章分词并去重,形成篇章词汇集合Vpara
步骤3-2,对于Vpara中的每一个词t,利用语言模型计算其对应的词特征表示Vect
步骤3-3,将Vecti T组成判定的篇章的二阶隐性高维分布式特征表示矩阵MatrixI,其中,i为词t的字母序。其中,Vecti T是Vecti的转置向量。
步骤4包括:
步骤4-1,用一个N维浮点向量保存篇章的隐性语义特征向量;
步骤4-2,对篇章词汇集合进行遍历,如果该词存在于篇章词汇集合中,则取值为1;如果不存在,则取值为待判定的篇章样本集合中与该词距离最近的词。
待判定的篇章的隐性语义特征向量为N维向量,N为样本词汇空间的词汇数量,每一维度取值为浮点值,取值范围为[-1,1];
待判定的篇章的隐性语义特征向量的每一维度对应样本词汇空间中的一个特定词,如果该词存在于篇章词汇空间中,则取值为1;如果不存在,则取值为待判定的篇章样本空间中所有词与该词的最近距离。
步骤5包括:计算待判定的篇章与样本的相似度:
Sim=cossin((1)N,HV),
其中(1)N为N维全1向量,Sim为浮点型,位于[-1,1]。
本发明涉及自然语言处理挖掘领域文本语义理解技术中的一种篇章相似度检测技术。长篇章语义相似度的判定是自然语言处理领域的研究热点之一,传统的相似度检测方法往往只考虑词、词性、词频、特定长度的上下文等显性特征,忽略了词语义及其上下文情境对篇章语义的影响。本专利提出的方法以训练样本为依托,综合考虑了词的语义信息、词在情境中的重要程度,并能处理跨篇章、同义、反义等各类复杂情形。
本发明提供了基于隐性高维分布式特征表示的篇章相似度判定方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (1)

1.基于隐性高维分布式特征表示的篇章相似度判定方法,其特征在于,包括如下步骤:
步骤1,利用类神经网络工具对特定种类数据样本进行训练,对样本生成词隐性高维分布式特征表示集合以及样本对应的语言模型;
步骤2,对样本生成二阶隐性高维分布式特征表示矩阵;
步骤3,输入待判定的篇章,利用步骤1得到的语言模型,生成篇章中每一个词隐性高维分布式特征,组合得到待判定的篇章的二阶隐性高维分布式特征表示矩阵;
步骤4,利用待判定的篇章和样本的二阶隐性高维分布式特征表示矩阵计算待判定的篇章的隐性语义特征向量;
步骤5,根据隐性语义特征向量计算待判定的篇章与样本的相似度;
步骤1包括:
步骤1-1,对特定种类数据样本进行分词,分词后的结果以文本文件的方式存储,文本的每一行代表一个完整的句子分词后的结果;
步骤1-2,利用类神经网络工具对预处理过后的文本文件训练,采用后向传播算法更新神经网络每一层的权重,最终形成的神经网络语言模型能够以任意文本篇章为输入,输出两类结果,一类是输入文本篇章的词隐性高维分布式特征表示,另一类是输入文本在语言模型下出现概率的对数似然log likelihood,词特征表示如下:
Vect=<v0,…,vM-1>T
其中,T表示转置,vi为实数,i的取值范围为0~M-1,物理含义为词在特定维度上的特征值;M为特征表示的维度,为固定值,对于不存在于样本词汇空间中的词,其特征向量记为空值null,Vect为词t在语言模型里的特征表示;
步骤1-2中,最终形成的语言模型如下:
Model(Seq(DOC))
其中,DOC表示任意文本,Seq(DOC)返回文本的词特征表示序列;
步骤2包括:通过语言模型计算样本词汇空间中每一个词的特征表示,将特征表示按照词的字母序排列后,得到一个二维矩阵,称为样本二阶隐性高维分布式特征表示矩阵,记为MatrixS
Figure FDA0002379263980000011
其中,MatrixS是一个N×M的矩阵,其每一行对应一个词的隐性高维分布式特征表示;样本词汇空间记为V,N=|V|,
Figure FDA0002379263980000021
是文章中第tN-1个词的特征向量;
步骤3包括:
步骤3-1,将待判定的篇章分词并去重,形成篇章词汇集合Vpara
步骤3-2,对于Vpara中的每一个词t,利用语言模型计算其对应的词特征表示Vect
步骤3-3,将Vecti T组成判定的篇章的二阶隐性高维分布式特征表示矩阵MatrixI,其中,i为词t的字母序,Vecti T是Vecti的转置向量;
步骤4包括:
步骤4-1,用一个N维浮点向量保存篇章的隐性语义特征向量;
步骤4-2,对篇章词汇集合进行遍历,如果该词存在于篇章词汇集合中,则取值为1;如果不存在,则取值为待判定的篇章样本集合中与该词距离最近的词;
步骤5包括:计算待判定的篇章与样本的相似度:
Sim=cossin((1)N,HV),
其中(1)N为N维全1向量,Sim为浮点型,位于[-1,1]。
CN201710994119.9A 2017-10-23 2017-10-23 基于隐性高维分布式特征表示的篇章相似度判定方法 Active CN107729509B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710994119.9A CN107729509B (zh) 2017-10-23 2017-10-23 基于隐性高维分布式特征表示的篇章相似度判定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710994119.9A CN107729509B (zh) 2017-10-23 2017-10-23 基于隐性高维分布式特征表示的篇章相似度判定方法

Publications (2)

Publication Number Publication Date
CN107729509A CN107729509A (zh) 2018-02-23
CN107729509B true CN107729509B (zh) 2020-07-07

Family

ID=61212435

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710994119.9A Active CN107729509B (zh) 2017-10-23 2017-10-23 基于隐性高维分布式特征表示的篇章相似度判定方法

Country Status (1)

Country Link
CN (1) CN107729509B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110569447B (zh) * 2019-09-12 2022-03-15 腾讯音乐娱乐科技(深圳)有限公司 一种网络资源的推荐方法、装置及存储介质
CN111400445B (zh) * 2020-03-10 2023-09-19 中国人民大学 一种基于相似文本的案件繁简分流方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102968410A (zh) * 2012-12-04 2013-03-13 江南大学 一种基于rbf神经网络算法与语义特征选取的文本分类方法
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN106776545A (zh) * 2016-11-29 2017-05-31 西安交通大学 一种通过深度卷积神经网络进行短文本间相似度计算的方法
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150227505A1 (en) * 2012-08-27 2015-08-13 Hitachi, Ltd. Word meaning relationship extraction device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103838789A (zh) * 2012-11-27 2014-06-04 大连灵动科技发展有限公司 一种文本相似度计算方法
CN102968410A (zh) * 2012-12-04 2013-03-13 江南大学 一种基于rbf神经网络算法与语义特征选取的文本分类方法
CN104391963A (zh) * 2014-12-01 2015-03-04 北京中科创益科技有限公司 一种自然语言文本关键词关联网络构建方法
CN106776545A (zh) * 2016-11-29 2017-05-31 西安交通大学 一种通过深度卷积神经网络进行短文本间相似度计算的方法
CN107102989A (zh) * 2017-05-24 2017-08-29 南京大学 一种基于词向量、卷积神经网络的实体消歧方法

Also Published As

Publication number Publication date
CN107729509A (zh) 2018-02-23

Similar Documents

Publication Publication Date Title
US11403680B2 (en) Method, apparatus for evaluating review, device and storage medium
CN108446271B (zh) 基于汉字部件特征的卷积神经网络的文本情感分析方法
CN109960724B (zh) 一种基于tf-idf的文本摘要方法
Jin et al. A novel lexicalized HMM-based learning framework for web opinion mining
WO2020244073A1 (zh) 基于语音的用户分类方法、装置、计算机设备及存储介质
Pane et al. A multi-lable classification on topics of quranic verses in english translation using multinomial naive bayes
CN108255813B (zh) 一种基于词频-逆文档与crf的文本匹配方法
CN111125349A (zh) 基于词频和语义的图模型文本摘要生成方法
Ombabi et al. Deep learning framework based on Word2Vec and CNNfor users interests classification
KR20200007713A (ko) 감성 분석에 의한 토픽 결정 방법 및 장치
CN111291177A (zh) 一种信息处理方法、装置和计算机存储介质
CN110705247A (zh) 基于χ2-C的文本相似度计算方法
CN113449084A (zh) 基于图卷积的关系抽取方法
Huang et al. Text classification with document embeddings
Twinandilla et al. Multi-document summarization using k-means and latent dirichlet allocation (lda)–significance sentences
Lim et al. Examining machine learning techniques in business news headline sentiment analysis
CN107729509B (zh) 基于隐性高维分布式特征表示的篇章相似度判定方法
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
CN107291686B (zh) 情感标识的辨识方法和情感标识的辨识系统
Mishra et al. Evaluating Performance of Machine Leaming Techniques used in Opinion Mining
CN110874408B (zh) 模型训练方法、文本识别方法、装置及计算设备
Zhang et al. An effective convolutional neural network model for Chinese sentiment analysis
CN115577109A (zh) 文本分类方法、装置、电子设备及存储介质
Alshahrani et al. Word mover's distance for affect detection
Nsaif et al. Political Post Classification based on Firefly and XG Boost

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: No.1 Lingshan South Road, Qixia District, Nanjing, Jiangsu Province, 210000

Patentee after: THE 28TH RESEARCH INSTITUTE OF CHINA ELECTRONICS TECHNOLOGY Group Corp.

Address before: 210007 No. 1 East Street, alfalfa garden, Jiangsu, Nanjing

Patentee before: THE 28TH RESEARCH INSTITUTE OF CHINA ELECTRONICS TECHNOLOGY Group Corp.