CN111563379B - 基于中文词向量模型的文本识别方法、装置及存储介质 - Google Patents
基于中文词向量模型的文本识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111563379B CN111563379B CN202010396412.7A CN202010396412A CN111563379B CN 111563379 B CN111563379 B CN 111563379B CN 202010396412 A CN202010396412 A CN 202010396412A CN 111563379 B CN111563379 B CN 111563379B
- Authority
- CN
- China
- Prior art keywords
- word
- vector model
- word vector
- tone
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 title claims abstract description 273
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 57
- 238000012795 verification Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 description 7
- 230000004083 survival effect Effects 0.000 description 6
- 238000013507 mapping Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n‑grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。
Description
技术领域
本发明涉及文本数据处理技术领域,具体涉及一种基于中文词向量模型的文本识别方法、装置及存储介质。
背景技术
作为自然语言处理的基础工作之一,文本表示一直备受关注。通过文本表示技术,可以将非结构化的文本转换为计算机能够处理的结构化的数据,从而帮助计算机开展后续的工作。传统的文本表示是基于概率统计的思想实现的,典型的代表有词袋模型和主题模型;前者由于忽略语义信息和数据稀疏性的问题很难在实际任务中取得很好的结果,后者则因为先验知识的限制,也很难在下游任务中得到推广。
随着深度学习的发展,词向量逐渐进入研究者的视野并很快成为文本表示技术的主流方法。与传统的文本表示不同,词向量模型将文本中的每个词表示为一个低维、稠密且连续的实数向量,这种的分布式的词表示方法能够更好地捕捉自然语言的语义;而迁移学习的出现,也促进了词向量在自然语言处理领域的进一步应用。通过大规模语料预训练获取到的词向量,可以直接迁移到各种下游任务中并取得优异的结果,如文本分类、命名实体识别、情感分析等。
当前技术中的主流词向量模型,研究的重点都集中在基于上下文信息的表征学习上,其中词是文本语义切割的最小单位;也有方法为了更好地捕获文本的语义,通过合并字符级和词级粒度的特征进行联合学习。但这些研究主要集中在拉丁语系上,如英语、西班牙语和德语等,并不能直接应用于中文等具有完全不同书写系统的语言。
中文词汇只是多音节单词的一部分,通常还有其他信息丰富的字符存在,这些字符项通常包括字和拼音,分别对应中文词的语义成分和语音成分。考虑到汉字包含的语义与词包含的语义存在冗余,使用字和词进行联合训练无法保证语义信息互补;而拼音作为辅助汉字学习的工具,本身是靠规则聚集成的簇,其包含的信息对于理解文本语义并不具备直接的意义,盲目结合多个字符项,结果往往会引入更多的噪音,对于后续模型的学习带来困难。
因此,现有技术中的中文词向量模型,噪音大,训练复杂耗时,且对文本的识别并不一定有效,模型在训练时收敛速度慢等等,亟需一种新的中文词向量模型解决上述一个或多个技术缺陷。
发明内容
本发明针对上述现有技术中一个或多个技术缺陷,提出了如下技术方案。
一种基于中文词向量模型的文本识别方法,该方法包括:
建模步骤,基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;
训练步骤,基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;
识别步骤,使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果;
其中,所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams,输出为目标词,所述第二中文词向量模型的输入为目标词和目标词声调n-grams,输出为上下文窗口词。
更进一步地,使用训练后的所述第二中文词向量模型对所述识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别。
更进一步地,在所述训练步骤中,对语料库中的任一文档经过分词处理得到n个词,则将该文档的词列表和声调簇列表表示为:
W=[w1,w2,…,wi,…,wn],1≤i≤n
T=[t1,t2,…,ti,…,tn],1≤i≤n
其中,wi为该文档的第i个词,ti是第i个词的声调簇;
遍历该文档的所有词和声调簇,选取第i个词wi作为选择的目标词,[wi-h,…wi-1,wi+1,…,wi+h]为目标词的上下文窗口词,为目标词及上下文窗口词对应的声调簇列表生成的声调n-grams作为目标词声调n-grams,其中,h为窗口的大小,n的取值为3、4、5,m为n-grams中成员的数目,在对第一中文词向量模型训练时,对wi添加标签,[wi-h,…wi-1,wi+1,…,wi+h]和作为输入;在对第二中文词向量模型训练时,对[wi-h,…wi-1,wi+1,…,wi+h]添加标签,wi和作为输入。
更进一步地,统计所述语料库所有文档的词和声调簇获取语料库词典和声调字典,基于所述语料库词典将所述目标词wi和[wi-h,…wi-1,wi+1,…,wi+h]进行向量化,基于声调字典对进行向量化,使用所述向量化后的wi、[wi-h,…wi-1,wi+1,…,wi+h]和对所述第一中文词向量模型和第二中文词向量模型进行训练。
更进一步地,在对所述第一中文词向量模型和第二中文词向量模型进行训练时,随机选择一部分词作为负样本,计算目标词的上下文窗口词的向量与目标词的向量的第一得分P(wi|wi±j),计算目标词声调的向量与目标词的向量的第二得分所述第一、二得分构成得分对:
根据所述得分对计算所述第一中文词向量模型和第二中文词向量模型的损失,其中,损失函数为L,用于控制所述第一、二中文词向量模型的学习速度,
其中,λ为正则系数,取值为[0,1],D为训练集所有样本的个数。
本发明还提出了一种基于中文词向量模型的文本识别装置,该装置包括:
建模单元,基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;
训练单元,基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;
识别单元,使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果;
其中,所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams,输出为目标词,所述第二中文词向量模型的输入为目标词和目标词声调n-grams,输出为上下文窗口词。
更进一步地,使用训练后的所述第二中文词向量模型对所述识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别。
更进一步地,在所述训练单元中,对语料库中的任一文档经过分词处理得到n个词,则将该文档的词列表和声调簇列表表示为:
W=[w1,w2,…,wi,…,wn],1≤i≤n
T=[t1,t2,…,ti,…,tn],1≤i≤n
其中,wi为该文档的第i个词,ti是第i个词的声调簇;
遍历该文档的所有词和声调簇,选取第i个词wi作为选择的目标词,[wi-h,…wi-1,wi+1,…,wi+h]为目标词的上下文窗口词,为目标词及上下文窗口词对应的声调簇列表生成的声调n-grams作为目标词声调n-grams,其中,h为窗口的大小,n的取值为3、4、5,m为n-grams中成员的数目,在对第一中文词向量模型训练时,对wi添加标签,[wi-h,…wi-1,wi+1,…,wi+h]和作为输入;在对第二中文词向量模型训练时,对[wi-h,…wi-1,wi+1,…,wi+h]添加标签,wi和作为输入。
更进一步地,统计所述语料库所有文档的词和声调簇获取语料库词典和声调字典,基于所述语料库词典将所述目标词wi和[wi-h,…wi-1,wi+1,…,wi+h]进行向量化,基于声调字典对进行向量化,使用所述向量化后的wi、[wi-h,…wi-1,wi+1,…,wi+h]和对所述第一中文词向量模型和第二中文词向量模型进行训练。
更进一步地,在对所述第一中文词向量模型和第二中文词向量模型进行训练时,随机选择一部分词作为负样本,计算目标词的上下文窗口词的向量与目标词的向量的第一得分P(wi|wi±j),计算目标词声调的向量与目标词的向量的第二得分所述第一、二得分构成得分对:
根据所述得分对计算所述第一中文词向量模型和第二中文词向量模型的损失,其中,损失函数为L,用于控制所述第一、二中文词向量模型的学习速度,
其中,λ为正则系数,取值为[0,1],D为训练集所有样本的个数。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果在于:本发明的一种基于中文词向量模型的文本识别方法,该方法包括:建模步骤,基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;训练步骤,基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;识别步骤,使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果;其中,所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams,输出为目标词,所述第二中文词向量模型的输入为目标词和目标词声调n-grams,输出为上下文窗口词。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别,提高了识别准确率,且本发明构建词向量时使用了声调这一元素,其能够将中文文本的音节规律和语调连贯性等信息嵌入到词向量中,丰富中文词向量所包含信息,同时还避免了特征噪声对词向量的影响;本发明最大程度的保留目标词的语义和语调特征,联合目标词的向量和声调向量作为训练第一中文词向量模型的输入,联合上下文窗口词的向量和声调向量作为训练第二中文词向量模型的输入,使得训练出的模型最大程度保留了语义和语调特征,提高了文本识别的精度,本发明引入了负样本并构建了损失函数为L,用于控制学习速度,通过以上方式,提高了模型训练的速度,但并没有降低其精度,由于本发明的中文词向量加入了语调特征,使其在中文文本的识别,特别是情感识别表现优异。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种基于中文词向量模型的文本识别方法的流程图。
图2是根据本发明的实施例的目标词“人类”所形成的声调n-grams示意图。
图3是根据本发明的实施例的一种基于中文词向量模型的文本识别装置的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的理论基础为:声调指的是中文在发音过程中的抑扬顿挫,是中文音节所固有的、具有一定区别意义的声音特征,作为依附在中文音节上的超音段成分,声调或其组合的不同会直接影响字、词及其上下文所处的语境,换句话说,声调的变换起伏在一定程度上反映了文本不同的属性或风格(严肃刻板、轻快调皮等)。
古汉语将中文声调分为四个调类,分别为平声、上声、去声、入声,现代汉语与各个方言的调类也都是在这四声的基础上演变而来的。这四个调类与无声调共同构成了中文文本中单字的所有声调,考虑到中文文本中,词是字的不同组合,则每个词也都有一个声调组合与之对应,如“环境与人类的生存息息相关”,其分词结果为:“环境”,“与”,“人类”,“的”,“生存”,“息息相关”;声调则可以表示为:“上入”,“去”,“上入”,“无”,“平上”,“平平平平”。
图1示出了本发明的一种基于中文词向量模型的文本识别方法,该方法包括:
建模步骤S101,基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型。
训练步骤S102,基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型。
识别步骤S103,使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果;其中,所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams,输出为目标词,所述第二中文词向量模型的输入为目标词和目标词声调n-grams,输出为上下文窗口词。
在一个实施例中,使用训练后的所述第二中文词向量模型对所述识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别。
本发明中,通时构建了所述第一、二中文词向量模型,这两个中文词向量模型的一个输入都是目标词声调n-grams,另一个输入即关于词的输入二者是相反的,即,所述第一中文词向量模型的输入为目标词,输出为目标词的上下文窗口词,所述第二中文词向量模型的输入为目标词的上下文窗口词,输出为目标词,这使得两个模型在训练时可以交换目标词样本及上下文窗口词样本进行训练,训练方便,更重要的是,使用训练后的所述第二中文词向量模型对所述识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别,提高了识别准确率,且本发明构建词向量时使用了声调这一元素,其能够将中文文本的音节规律和语调连贯性等信息嵌入到词向量中,丰富中文词向量所包含信息,同时还避免了特征噪声对词向量的影响,这是本发明的重要发明点之一。
在一个实施例中,在所述训练步骤中,对语料库中的任一文档经过分词处理得到n个词,则将该文档的词列表和声调簇列表表示为:
W=[w1,w2,…,wi,…,wn],1≤i≤n
T=[t1,t2,…,ti,…,tn],1≤i≤n
其中,wi为该文档的第i个词,ti是第i个词的声调簇;
遍历该文档的所有词和声调簇,选取第i个词wi作为选择的目标词,[wi-h,…wi-1,wi+1,…,wi+h]为目标词的上下文窗口词,为目标词及上下文窗口词对应的声调簇列表生成的声调n-grams作为目标词声调n-grams,其中,h为窗口的大小,n的取值为3、4、5……,m为n-grams中成员的数目,在对第一中文词向量模型训练时,对wi添加标签,[wi-h,…wi-1,wi+1,…,wi+h]和作为输入;在对第二中文词向量模型训练时,对[wi-h,…wi-1,wi+1,…,wi+h]添加标签,wi和作为输入。
示例性地,以文档“环境与人类的生存息息相关”为例,选定目标词为“人类”,在窗口的大小h为2时,目标词的上下文窗口词为“环境、与、的、生存”,目标词“人类”所形成的声调n-grams,如图2所示。
在一个实施例中,为使计算机可以处理中文词、声调等,需要将目标词、上下文窗口词及目标词声调进行映射处理,即将他们映射为向量,映射过程是将文档转换为计算机能够理解的结构化数据的过程,根据语料库的词典和声调字典,首先将训练输入的目标词及其声调n-grams以及上下文窗口词分别转换为id的形式,然后根据词典和声调字典的长度初始化词和声调的映射矩阵,再通过查表操作获取对应的向量表示。
一个具体向量化的例子如下:统计所述语料库所有文档的词和声调簇获取语料库词典和声调字典,基于所述语料库词典将所述目标词wi和[wi-h,…wi-1,wi+1,…,wi+h]进行向量化,基于声调字典对进行向量化,使用所述向量化后的wi、[wi-h,…wi-1,wi+1,…,wi+h]和对所述第一中文词向量模型和第二中文词向量模型进行训练。
本发明中,为了最大程度的保留目标词的语义和语调特征,联合目标词的向量和声调向量作为训练第一中文词向量模型的输入,联合上下文窗口词的向量和声调向量作为训练第二中文词向量模型的输入,使得训练出的模型最大程度保留了语义和语调特征,提高了文本识别的精度,这是本发明的另一个重要发明点。
在一个实施例中,在对所述第一中文词向量模型和第二中文词向量模型进行训练时,随机选择一部分词作为负样本,计算目标词的上下文窗口词的向量与目标词的向量的第一得分{(wi|wi±j),计算目标词声调的向量与目标词的向量的第二得分所述第一、二得分构成得分对:
根据所述得分对计算所述第一中文词向量模型和第二中文词向量模型的损失,其中,损失函数为L,用于控制所述第一、二中文词向量模型的学习速度,
其中,λ为正则系数,取值为[0,1],D为训练集所有样本的个数。
由于本发明需要根据模型训练的结果对所有可能的词计算得分,考虑到词典的长度,计算所有可能词的得分将给计算机带来极大的负担,因此,本发明创造性地采用负采样的思想,从所有可能的词里随机选择一部分词作为负样本,分别计算目标词的上下文窗口词向量与目标词的声调向量与目标词向量的得分对,并构建了损失函数为L,用于控制学习速度,通过以上方式,提高了模型训练的速度,但并没有降低其精度,由于本发明的中文词向量加入了语调特征,使其在中文文本的识别,特别是情感识别表现优异,这是本发明的重要发明点之另一。
图3示出了本发明的一种基于中文词向量模型的文本识别装置,该装置包括:
建模单元301,基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型。
训练单元302,基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型。
识别单元303,使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果;其中,所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams,输出为目标词,所述第二中文词向量模型的输入为目标词和目标词声调n-grams,输出为上下文窗口词。
在一个实施例中,使用训练后的所述第二中文词向量模型对所述识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别。
本发明中,通时构建了所述第一、二中文词向量模型,这两个中文词向量模型的一个输入都是目标词声调n-grams,另一个输入即关于词的输入二者是相反的,即,所述第一中文词向量模型的输入为目标词,输出为目标词的上下文窗口词,所述第二中文词向量模型的输入为目标词的上下文窗口词,输出为目标词,这使得两个模型在训练时可以交换目标词样本及上下文窗口词样本进行训练,训练方便,更重要的是,使用训练后的所述第二中文词向量模型对所述识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别,提高了识别准确率,且本发明构建词向量时使用了声调这一元素,其能够将中文文本的音节规律和语调连贯性等信息嵌入到词向量中,丰富中文词向量所包含信息,同时还避免了特征噪声对词向量的影响,这是本发明的重要发明点之一。
在一个实施例中,在所述训练单元中,对语料库中的任一文档经过分词处理得到n个词,则将该文档的词列表和声调簇列表表示为:
W=[w1,w2,…,wi,…,wn],1≤i≤n
T=[t1,t2,…,ti,…,tn],1≤i≤n
其中,wi为该文档的第i个词,ti是第i个词的声调簇;
遍历该文档的所有词和声调簇,选取第i个词wi作为选择的目标词,[wi-h,…wi-1,wi+1,…,wi+h]为目标词的上下文窗口词,为目标词及上下文窗口词对应的声调簇列表生成的声调n-grams作为目标词声调n-grams,其中,h为窗口的大小,n的取值为3、4、5……,m为n-grams中成员的数目,在对第一中文词向量模型训练时,对wi添加标签,[wi-h,…wi-1,wi+1,…,wi+h]和作为输入;在对第二中文词向量模型训练时,对[wi-h,…wi-1,wi+1,…,wi+h]添加标签,wi和作为输入。
示例性地,以文档“环境与人类的生存息息相关”为例,选定目标词为“人类”,在窗口的大小h为2时,目标词的上下文窗口词为“环境、与、的、生存”,目标词“人类”所形成的声调n-grams,如图2所示。
在一个实施例中,为使计算机可以处理中文词、声调等,需要将目标词、上下文窗口词及目标词声调进行映射处理,即将他们映射为向量,映射过程是将文档转换为计算机能够理解的结构化数据的过程,根据语料库的词典和声调字典,首先将训练输入的目标词及其声调n-grams以及上下文窗口词分别转换为id的形式,然后根据词典和声调字典的长度初始化词和声调的映射矩阵,再通过查表操作获取对应的向量表示。
一个具体向量化的例子如下:统计所述语料库所有文档的词和声调簇获取语料库词典和声调字典,基于所述语料库词典将所述目标词wi和[wi-h,…wi-1,wi+1,…,wi+h]进行向量化,基于声调字典对进行向量化,使用所述向量化后的wi、[wi-h,…wi-1,wi+1,…,wi+h]和对所述第一中文词向量模型和第二中文词向量模型进行训练。
本发明中,为了最大程度的保留目标词的语义和语调特征,联合目标词的向量和声调向量作为训练第一中文词向量模型的输入,联合上下文窗口词的向量和声调向量作为训练第二中文词向量模型的输入,使得训练出的模型最大程度保留了语义和语调特征,提高了文本识别的精度,这是本发明的另一个重要发明点。
在一个实施例中,在对所述第一中文词向量模型和第二中文词向量模型进行训练时,随机选择一部分词作为负样本,计算目标词的上下文窗口词的向量与目标词的向量的第一得分{(wi|wi±j),计算目标词声调的向量与目标词的向量的第二得分所述第一、二得分构成得分对:
根据所述得分对计算所述第一中文词向量模型和第二中文词向量模型的损失,其中,损失函数为L,用于控制所述第一、二中文词向量模型的学习速度,
其中,λ为正则系数,取值为[0,1],D为训练集所有样本的个数。
由于本发明需要根据模型训练的结果对所有可能的词计算得分,考虑到词典的长度,计算所有可能词的得分将给计算机带来极大的负担,因此,本发明创造性地采用负采样的思想,从所有可能的词里随机选择一部分词作为负样本,分别计算目标词的上下文窗口词向量与目标词的声调向量与目标词向量的得分对,并构建了损失函数为L,用于控制学习速度,通过以上方式,提高了模型训练的速度,但并没有降低其精度,由于本发明的中文词向量加入了语调特征,使其在中文文本的识别,特别是情感识别表现优异,这是本发明的重要发明点之另一。
本发明的为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。
Claims (7)
1.一种基于中文词向量模型的文本识别方法,其特征在于,该方法包括:
建模步骤,基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;
训练步骤,基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;
在对所述第一中文词向量模型和第二中文词向量模型进行训练时,随机选择一部分词作为负样本,计算目标词的上下文窗口词的向量与目标词的向量的第一得分P(wi|wi±j),计算目标词声调的向量与目标词的向量的第二得分所述第一、二得分构成得分对:
根据所述得分对计算所述第一中文词向量模型和第二中文词向量模型的损失,其中,损失函数为L,用于控制所述第一、二中文词向量模型的学习速度,
其中,λ为正则系数,取值为[0,1],D为训练集所有样本的个数;
使用训练后的所述第二中文词向量模型对识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别;
识别步骤,使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果;
其中,所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams,输出为目标词,所述第二中文词向量模型的输入为目标词和目标词声调n-grams,输出为上下文窗口词。
2.根据权利要求1所述的方法,其特征在于,在所述训练步骤中,对语料库中的任一文档经过分词处理得到n个词,则将该文档的词列表和声调簇列表表示为:
W=[w1,w2,…,wi,…,wn],1≤i≤n
T=[t1,t2,…,ti,…,tn],1≤i≤n
其中,wi为该文档的第i个词,ti是第i个词的声调簇;
4.一种基于中文词向量模型的文本识别装置,其特征在于,该装置包括:
建模单元,基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;
训练单元,基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;
在对所述第一中文词向量模型和第二中文词向量模型进行训练时,随机选择一部分词作为负样本,计算目标词的上下文窗口词的向量与目标词的向量的第一得分P(wi|wi±j),计算目标词声调的向量与目标词的向量的第二得分所述第一、二得分构成得分对:
根据所述得分对计算所述第一中文词向量模型和第二中文词向量模型的损失,其中,损失函数为L,用于控制所述第一、二中文词向量模型的学习速度,
其中,λ为正则系数,取值为[0,1],D为训练集所有样本的个数;
使用训练后的所述第二中文词向量模型对识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别;
识别单元,使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果;
其中,所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams,输出为目标词,所述第二中文词向量模型的输入为目标词和目标词声调n-grams,输出为上下文窗口词。
5.根据权利要求4所述的装置,其特征在于,在所述训练单元中,对语料库中的任一文档经过分词处理得到n个词,则将该文档的词列表和声调簇列表表示为:
W=[w1,w2,…,wi,…,wn],1≤i≤n
T=[t1,t2,…,ti,…,tn],1≤i≤n
其中,wi为该文档的第i个词,ti是第i个词的声调簇;
7.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行所述权利要求1-3之任一的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010396412.7A CN111563379B (zh) | 2020-05-12 | 2020-05-12 | 基于中文词向量模型的文本识别方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010396412.7A CN111563379B (zh) | 2020-05-12 | 2020-05-12 | 基于中文词向量模型的文本识别方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111563379A CN111563379A (zh) | 2020-08-21 |
CN111563379B true CN111563379B (zh) | 2022-12-02 |
Family
ID=72070870
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010396412.7A Active CN111563379B (zh) | 2020-05-12 | 2020-05-12 | 基于中文词向量模型的文本识别方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111563379B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115662435B (zh) | 2022-10-24 | 2023-04-28 | 福建网龙计算机网络信息技术有限公司 | 一种虚拟教师拟真化语音的生成方法及终端 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106910497A (zh) * | 2015-12-22 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 一种中文词语发音预测方法及装置 |
CN109241540A (zh) * | 2018-08-07 | 2019-01-18 | 中国科学院计算技术研究所 | 一种基于深度神经网络的汉盲自动转换方法和系统 |
CN109815476A (zh) * | 2018-12-03 | 2019-05-28 | 国网浙江省电力有限公司杭州供电公司 | 一种基于中文语素和拼音联合统计的词向量表示方法 |
CN111078887A (zh) * | 2019-12-20 | 2020-04-28 | 厦门市美亚柏科信息股份有限公司 | 文本分类方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484681B (zh) * | 2015-08-25 | 2019-07-09 | 阿里巴巴集团控股有限公司 | 一种生成候选译文的方法、装置及电子设备 |
-
2020
- 2020-05-12 CN CN202010396412.7A patent/CN111563379B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106910497A (zh) * | 2015-12-22 | 2017-06-30 | 阿里巴巴集团控股有限公司 | 一种中文词语发音预测方法及装置 |
CN109241540A (zh) * | 2018-08-07 | 2019-01-18 | 中国科学院计算技术研究所 | 一种基于深度神经网络的汉盲自动转换方法和系统 |
CN109815476A (zh) * | 2018-12-03 | 2019-05-28 | 国网浙江省电力有限公司杭州供电公司 | 一种基于中文语素和拼音联合统计的词向量表示方法 |
CN111078887A (zh) * | 2019-12-20 | 2020-04-28 | 厦门市美亚柏科信息股份有限公司 | 文本分类方法和装置 |
Non-Patent Citations (2)
Title |
---|
互联网时代语音识别基本问题;柯登峰等;《中国科学:信息科学》;20131220(第12期);全文 * |
基于深度学习的中文词表示学习技术研究;庄航;《中国博士学位论文全文数据库》;20190115;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111563379A (zh) | 2020-08-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chorowski et al. | Unsupervised speech representation learning using wavenet autoencoders | |
CN109933795B (zh) | 基于上下文-情感词向量的文本情感分析系统 | |
KR102540774B1 (ko) | 서브워드 임베딩 및 스킵서트 기반 문장 임베딩 방법 및 장치 | |
Ran et al. | Artificial intelligence speech recognition model for correcting spoken English teaching | |
CN107564511B (zh) | 电子装置、语音合成方法和计算机可读存储介质 | |
US20230267916A1 (en) | Text-based virtual object animation generation method, apparatus, storage medium, and terminal | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
CN111666409B (zh) | 一种基于综合深度胶囊网络的复杂评论文本的整体情感智能分类方法 | |
CN111145718A (zh) | 一种基于自注意力机制的中文普通话字音转换方法 | |
CN111414481A (zh) | 基于拼音和bert嵌入的中文语义匹配方法 | |
KR20080021064A (ko) | 중국어 2행연구의 생성 | |
CN111046660B (zh) | 一种识别文本专业术语的方法及装置 | |
CN112016271A (zh) | 语言风格转换模型的训练方法、文本处理方法以及装置 | |
CN110010136A (zh) | 韵律预测模型的训练和文本分析方法、装置、介质和设备 | |
CN113761377A (zh) | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 | |
WO2023177723A1 (en) | Apparatuses and methods for querying and transcribing video resumes | |
CN111563379B (zh) | 基于中文词向量模型的文本识别方法、装置及存储介质 | |
CN117690456A (zh) | 一种基于神经网络的小语种口语智能训练方法、系统及设备 | |
US11869130B2 (en) | Generating visual feedback | |
CN116978367A (zh) | 语音识别方法、装置、电子设备和存储介质 | |
Johnson et al. | Comparison of algorithms to divide noisy phone sequences into syllables for automatic unconstrained English speaking proficiency scoring | |
Yadav et al. | Speech emotion classification using machine learning | |
Ghorpade et al. | ITTS model: speech generation for image captioning using feature extraction for end-to-end synthesis | |
Li et al. | Seq-CNN: A lightweight and efficient neural network for sentimental analysis of text | |
CN113555006B (zh) | 一种语音信息识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |