CN111563379B - 基于中文词向量模型的文本识别方法、装置及存储介质 - Google Patents

基于中文词向量模型的文本识别方法、装置及存储介质 Download PDF

Info

Publication number
CN111563379B
CN111563379B CN202010396412.7A CN202010396412A CN111563379B CN 111563379 B CN111563379 B CN 111563379B CN 202010396412 A CN202010396412 A CN 202010396412A CN 111563379 B CN111563379 B CN 111563379B
Authority
CN
China
Prior art keywords
word
vector model
word vector
tone
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010396412.7A
Other languages
English (en)
Other versions
CN111563379A (zh
Inventor
赵建强
蒋卓
何星
张辉极
黄剑
杜新胜
陈诚
邓叶勋
李小亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN202010396412.7A priority Critical patent/CN111563379B/zh
Publication of CN111563379A publication Critical patent/CN111563379A/zh
Application granted granted Critical
Publication of CN111563379B publication Critical patent/CN111563379B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明提出了一种基于中文词向量模型的文本识别方法、装置及存储介质,该方法包括:基于目标词、上下文窗口词和目标词声调n‑grams构建第一中文词向量模型和第二中文词向量模型;基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,提高了识别准确率,且构建词向量时使用了声调这一元素,丰富中文词向量所包含信息,避免了特征噪声对词向量的影响,最大程度的保留目标词的语义和语调特征,引入了负样本并构建了损失函数。

Description

基于中文词向量模型的文本识别方法、装置及存储介质
技术领域
本发明涉及文本数据处理技术领域,具体涉及一种基于中文词向量模型的文本识别方法、装置及存储介质。
背景技术
作为自然语言处理的基础工作之一,文本表示一直备受关注。通过文本表示技术,可以将非结构化的文本转换为计算机能够处理的结构化的数据,从而帮助计算机开展后续的工作。传统的文本表示是基于概率统计的思想实现的,典型的代表有词袋模型和主题模型;前者由于忽略语义信息和数据稀疏性的问题很难在实际任务中取得很好的结果,后者则因为先验知识的限制,也很难在下游任务中得到推广。
随着深度学习的发展,词向量逐渐进入研究者的视野并很快成为文本表示技术的主流方法。与传统的文本表示不同,词向量模型将文本中的每个词表示为一个低维、稠密且连续的实数向量,这种的分布式的词表示方法能够更好地捕捉自然语言的语义;而迁移学习的出现,也促进了词向量在自然语言处理领域的进一步应用。通过大规模语料预训练获取到的词向量,可以直接迁移到各种下游任务中并取得优异的结果,如文本分类、命名实体识别、情感分析等。
当前技术中的主流词向量模型,研究的重点都集中在基于上下文信息的表征学习上,其中词是文本语义切割的最小单位;也有方法为了更好地捕获文本的语义,通过合并字符级和词级粒度的特征进行联合学习。但这些研究主要集中在拉丁语系上,如英语、西班牙语和德语等,并不能直接应用于中文等具有完全不同书写系统的语言。
中文词汇只是多音节单词的一部分,通常还有其他信息丰富的字符存在,这些字符项通常包括字和拼音,分别对应中文词的语义成分和语音成分。考虑到汉字包含的语义与词包含的语义存在冗余,使用字和词进行联合训练无法保证语义信息互补;而拼音作为辅助汉字学习的工具,本身是靠规则聚集成的簇,其包含的信息对于理解文本语义并不具备直接的意义,盲目结合多个字符项,结果往往会引入更多的噪音,对于后续模型的学习带来困难。
因此,现有技术中的中文词向量模型,噪音大,训练复杂耗时,且对文本的识别并不一定有效,模型在训练时收敛速度慢等等,亟需一种新的中文词向量模型解决上述一个或多个技术缺陷。
发明内容
本发明针对上述现有技术中一个或多个技术缺陷,提出了如下技术方案。
一种基于中文词向量模型的文本识别方法,该方法包括:
建模步骤,基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;
训练步骤,基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;
识别步骤,使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果;
其中,所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams,输出为目标词,所述第二中文词向量模型的输入为目标词和目标词声调n-grams,输出为上下文窗口词。
更进一步地,使用训练后的所述第二中文词向量模型对所述识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别。
更进一步地,在所述训练步骤中,对语料库中的任一文档经过分词处理得到n个词,则将该文档的词列表和声调簇列表表示为:
W=[w1,w2,…,wi,…,wn],1≤i≤n
T=[t1,t2,…,ti,…,tn],1≤i≤n
其中,wi为该文档的第i个词,ti是第i个词的声调簇;
遍历该文档的所有词和声调簇,选取第i个词wi作为选择的目标词,[wi-h,…wi-1,wi+1,…,wi+h]为目标词的上下文窗口词,
Figure GDA0003902002090000031
为目标词及上下文窗口词对应的声调簇列表生成的声调n-grams作为目标词声调n-grams,其中,h为窗口的大小,n的取值为3、4、5,m为n-grams中成员的数目,在对第一中文词向量模型训练时,对wi添加标签,[wi-h,…wi-1,wi+1,…,wi+h]和
Figure GDA0003902002090000032
作为输入;在对第二中文词向量模型训练时,对[wi-h,…wi-1,wi+1,…,wi+h]添加标签,wi
Figure GDA0003902002090000033
作为输入。
更进一步地,统计所述语料库所有文档的词和声调簇获取语料库词典和声调字典,基于所述语料库词典将所述目标词wi和[wi-h,…wi-1,wi+1,…,wi+h]进行向量化,基于声调字典对
Figure GDA0003902002090000041
进行向量化,使用所述向量化后的wi、[wi-h,…wi-1,wi+1,…,wi+h]和
Figure GDA0003902002090000042
对所述第一中文词向量模型和第二中文词向量模型进行训练。
更进一步地,在对所述第一中文词向量模型和第二中文词向量模型进行训练时,随机选择一部分词作为负样本,计算目标词的上下文窗口词的向量与目标词的向量的第一得分P(wi|wi±j),计算目标词声调的向量与目标词的向量的第二得分
Figure GDA0003902002090000043
所述第一、二得分构成得分对:
Figure GDA0003902002090000044
其中,
Figure GDA0003902002090000045
Figure GDA0003902002090000046
分别为目标词的上下文窗口词的向量和目标词声调的向量的平均值,
Figure GDA0003902002090000047
为随机挑选的第k个负样本词的词向量,K为负样本词的个数,j=1、2、……,h,z=1、2、……,m;
根据所述得分对计算所述第一中文词向量模型和第二中文词向量模型的损失,其中,损失函数为L,用于控制所述第一、二中文词向量模型的学习速度,
Figure GDA0003902002090000048
Figure GDA0003902002090000049
其中,λ为正则系数,取值为[0,1],D为训练集所有样本的个数。
本发明还提出了一种基于中文词向量模型的文本识别装置,该装置包括:
建模单元,基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;
训练单元,基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;
识别单元,使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果;
其中,所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams,输出为目标词,所述第二中文词向量模型的输入为目标词和目标词声调n-grams,输出为上下文窗口词。
更进一步地,使用训练后的所述第二中文词向量模型对所述识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别。
更进一步地,在所述训练单元中,对语料库中的任一文档经过分词处理得到n个词,则将该文档的词列表和声调簇列表表示为:
W=[w1,w2,…,wi,…,wn],1≤i≤n
T=[t1,t2,…,ti,…,tn],1≤i≤n
其中,wi为该文档的第i个词,ti是第i个词的声调簇;
遍历该文档的所有词和声调簇,选取第i个词wi作为选择的目标词,[wi-h,…wi-1,wi+1,…,wi+h]为目标词的上下文窗口词,
Figure GDA0003902002090000051
为目标词及上下文窗口词对应的声调簇列表生成的声调n-grams作为目标词声调n-grams,其中,h为窗口的大小,n的取值为3、4、5,m为n-grams中成员的数目,在对第一中文词向量模型训练时,对wi添加标签,[wi-h,…wi-1,wi+1,…,wi+h]和
Figure GDA0003902002090000061
作为输入;在对第二中文词向量模型训练时,对[wi-h,…wi-1,wi+1,…,wi+h]添加标签,wi
Figure GDA0003902002090000062
作为输入。
更进一步地,统计所述语料库所有文档的词和声调簇获取语料库词典和声调字典,基于所述语料库词典将所述目标词wi和[wi-h,…wi-1,wi+1,…,wi+h]进行向量化,基于声调字典对
Figure GDA0003902002090000063
进行向量化,使用所述向量化后的wi、[wi-h,…wi-1,wi+1,…,wi+h]和
Figure GDA0003902002090000064
对所述第一中文词向量模型和第二中文词向量模型进行训练。
更进一步地,在对所述第一中文词向量模型和第二中文词向量模型进行训练时,随机选择一部分词作为负样本,计算目标词的上下文窗口词的向量与目标词的向量的第一得分P(wi|wi±j),计算目标词声调的向量与目标词的向量的第二得分
Figure GDA0003902002090000065
所述第一、二得分构成得分对:
Figure GDA0003902002090000066
其中,
Figure GDA0003902002090000067
Figure GDA0003902002090000068
分别为目标词的上下文窗口词的向量和目标词声调的向量的平均值,
Figure GDA0003902002090000069
为随机挑选的第k个负样本词的词向量,K为负样本词的个数,j=1、2、……,h,z=1、2、……,m;
根据所述得分对计算所述第一中文词向量模型和第二中文词向量模型的损失,其中,损失函数为L,用于控制所述第一、二中文词向量模型的学习速度,
Figure GDA0003902002090000071
Figure GDA0003902002090000072
其中,λ为正则系数,取值为[0,1],D为训练集所有样本的个数。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果在于:本发明的一种基于中文词向量模型的文本识别方法,该方法包括:建模步骤,基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;训练步骤,基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;识别步骤,使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果;其中,所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams,输出为目标词,所述第二中文词向量模型的输入为目标词和目标词声调n-grams,输出为上下文窗口词。本发明使用训练后的所述第二中文词向量模型对所述识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别,提高了识别准确率,且本发明构建词向量时使用了声调这一元素,其能够将中文文本的音节规律和语调连贯性等信息嵌入到词向量中,丰富中文词向量所包含信息,同时还避免了特征噪声对词向量的影响;本发明最大程度的保留目标词的语义和语调特征,联合目标词的向量和声调向量作为训练第一中文词向量模型的输入,联合上下文窗口词的向量和声调向量作为训练第二中文词向量模型的输入,使得训练出的模型最大程度保留了语义和语调特征,提高了文本识别的精度,本发明引入了负样本并构建了损失函数为L,用于控制学习速度,通过以上方式,提高了模型训练的速度,但并没有降低其精度,由于本发明的中文词向量加入了语调特征,使其在中文文本的识别,特别是情感识别表现优异。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种基于中文词向量模型的文本识别方法的流程图。
图2是根据本发明的实施例的目标词“人类”所形成的声调n-grams示意图。
图3是根据本发明的实施例的一种基于中文词向量模型的文本识别装置的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的理论基础为:声调指的是中文在发音过程中的抑扬顿挫,是中文音节所固有的、具有一定区别意义的声音特征,作为依附在中文音节上的超音段成分,声调或其组合的不同会直接影响字、词及其上下文所处的语境,换句话说,声调的变换起伏在一定程度上反映了文本不同的属性或风格(严肃刻板、轻快调皮等)。
古汉语将中文声调分为四个调类,分别为平声、上声、去声、入声,现代汉语与各个方言的调类也都是在这四声的基础上演变而来的。这四个调类与无声调共同构成了中文文本中单字的所有声调,考虑到中文文本中,词是字的不同组合,则每个词也都有一个声调组合与之对应,如“环境与人类的生存息息相关”,其分词结果为:“环境”,“与”,“人类”,“的”,“生存”,“息息相关”;声调则可以表示为:“上入”,“去”,“上入”,“无”,“平上”,“平平平平”。
图1示出了本发明的一种基于中文词向量模型的文本识别方法,该方法包括:
建模步骤S101,基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型。
训练步骤S102,基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型。
识别步骤S103,使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果;其中,所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams,输出为目标词,所述第二中文词向量模型的输入为目标词和目标词声调n-grams,输出为上下文窗口词。
在一个实施例中,使用训练后的所述第二中文词向量模型对所述识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别。
本发明中,通时构建了所述第一、二中文词向量模型,这两个中文词向量模型的一个输入都是目标词声调n-grams,另一个输入即关于词的输入二者是相反的,即,所述第一中文词向量模型的输入为目标词,输出为目标词的上下文窗口词,所述第二中文词向量模型的输入为目标词的上下文窗口词,输出为目标词,这使得两个模型在训练时可以交换目标词样本及上下文窗口词样本进行训练,训练方便,更重要的是,使用训练后的所述第二中文词向量模型对所述识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别,提高了识别准确率,且本发明构建词向量时使用了声调这一元素,其能够将中文文本的音节规律和语调连贯性等信息嵌入到词向量中,丰富中文词向量所包含信息,同时还避免了特征噪声对词向量的影响,这是本发明的重要发明点之一。
在一个实施例中,在所述训练步骤中,对语料库中的任一文档经过分词处理得到n个词,则将该文档的词列表和声调簇列表表示为:
W=[w1,w2,…,wi,…,wn],1≤i≤n
T=[t1,t2,…,ti,…,tn],1≤i≤n
其中,wi为该文档的第i个词,ti是第i个词的声调簇;
遍历该文档的所有词和声调簇,选取第i个词wi作为选择的目标词,[wi-h,…wi-1,wi+1,…,wi+h]为目标词的上下文窗口词,
Figure GDA0003902002090000111
为目标词及上下文窗口词对应的声调簇列表生成的声调n-grams作为目标词声调n-grams,其中,h为窗口的大小,n的取值为3、4、5……,m为n-grams中成员的数目,在对第一中文词向量模型训练时,对wi添加标签,[wi-h,…wi-1,wi+1,…,wi+h]和
Figure GDA0003902002090000112
作为输入;在对第二中文词向量模型训练时,对[wi-h,…wi-1,wi+1,…,wi+h]添加标签,wi
Figure GDA0003902002090000113
作为输入。
示例性地,以文档“环境与人类的生存息息相关”为例,选定目标词为“人类”,在窗口的大小h为2时,目标词的上下文窗口词为“环境、与、的、生存”,目标词“人类”所形成的声调n-grams,如图2所示。
在一个实施例中,为使计算机可以处理中文词、声调等,需要将目标词、上下文窗口词及目标词声调进行映射处理,即将他们映射为向量,映射过程是将文档转换为计算机能够理解的结构化数据的过程,根据语料库的词典和声调字典,首先将训练输入的目标词及其声调n-grams以及上下文窗口词分别转换为id的形式,然后根据词典和声调字典的长度初始化词和声调的映射矩阵,再通过查表操作获取对应的向量表示。
一个具体向量化的例子如下:统计所述语料库所有文档的词和声调簇获取语料库词典和声调字典,基于所述语料库词典将所述目标词wi和[wi-h,…wi-1,wi+1,…,wi+h]进行向量化,基于声调字典对
Figure GDA0003902002090000121
进行向量化,使用所述向量化后的wi、[wi-h,…wi-1,wi+1,…,wi+h]和
Figure GDA0003902002090000122
对所述第一中文词向量模型和第二中文词向量模型进行训练。
本发明中,为了最大程度的保留目标词的语义和语调特征,联合目标词的向量和声调向量作为训练第一中文词向量模型的输入,联合上下文窗口词的向量和声调向量作为训练第二中文词向量模型的输入,使得训练出的模型最大程度保留了语义和语调特征,提高了文本识别的精度,这是本发明的另一个重要发明点。
在一个实施例中,在对所述第一中文词向量模型和第二中文词向量模型进行训练时,随机选择一部分词作为负样本,计算目标词的上下文窗口词的向量与目标词的向量的第一得分{(wi|wi±j),计算目标词声调的向量与目标词的向量的第二得分
Figure GDA0003902002090000123
所述第一、二得分构成得分对:
Figure GDA0003902002090000124
其中,
Figure GDA0003902002090000125
Figure GDA0003902002090000126
分别为目标词的上下文窗口词的向量和目标词声调的向量的平均值,
Figure GDA0003902002090000127
为随机挑选的第k个负样本词的词向量,K为负样本词的个数,j=1、2、……,h,z=1、2、……,m;
根据所述得分对计算所述第一中文词向量模型和第二中文词向量模型的损失,其中,损失函数为L,用于控制所述第一、二中文词向量模型的学习速度,
Figure GDA0003902002090000131
Figure GDA0003902002090000132
其中,λ为正则系数,取值为[0,1],D为训练集所有样本的个数。
由于本发明需要根据模型训练的结果对所有可能的词计算得分,考虑到词典的长度,计算所有可能词的得分将给计算机带来极大的负担,因此,本发明创造性地采用负采样的思想,从所有可能的词里随机选择一部分词作为负样本,分别计算目标词的上下文窗口词向量与目标词的声调向量与目标词向量的得分对,并构建了损失函数为L,用于控制学习速度,通过以上方式,提高了模型训练的速度,但并没有降低其精度,由于本发明的中文词向量加入了语调特征,使其在中文文本的识别,特别是情感识别表现优异,这是本发明的重要发明点之另一。
图3示出了本发明的一种基于中文词向量模型的文本识别装置,该装置包括:
建模单元301,基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型。
训练单元302,基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型。
识别单元303,使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果;其中,所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams,输出为目标词,所述第二中文词向量模型的输入为目标词和目标词声调n-grams,输出为上下文窗口词。
在一个实施例中,使用训练后的所述第二中文词向量模型对所述识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别。
本发明中,通时构建了所述第一、二中文词向量模型,这两个中文词向量模型的一个输入都是目标词声调n-grams,另一个输入即关于词的输入二者是相反的,即,所述第一中文词向量模型的输入为目标词,输出为目标词的上下文窗口词,所述第二中文词向量模型的输入为目标词的上下文窗口词,输出为目标词,这使得两个模型在训练时可以交换目标词样本及上下文窗口词样本进行训练,训练方便,更重要的是,使用训练后的所述第二中文词向量模型对所述识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别,提高了识别准确率,且本发明构建词向量时使用了声调这一元素,其能够将中文文本的音节规律和语调连贯性等信息嵌入到词向量中,丰富中文词向量所包含信息,同时还避免了特征噪声对词向量的影响,这是本发明的重要发明点之一。
在一个实施例中,在所述训练单元中,对语料库中的任一文档经过分词处理得到n个词,则将该文档的词列表和声调簇列表表示为:
W=[w1,w2,…,wi,…,wn],1≤i≤n
T=[t1,t2,…,ti,…,tn],1≤i≤n
其中,wi为该文档的第i个词,ti是第i个词的声调簇;
遍历该文档的所有词和声调簇,选取第i个词wi作为选择的目标词,[wi-h,…wi-1,wi+1,…,wi+h]为目标词的上下文窗口词,
Figure GDA0003902002090000151
为目标词及上下文窗口词对应的声调簇列表生成的声调n-grams作为目标词声调n-grams,其中,h为窗口的大小,n的取值为3、4、5……,m为n-grams中成员的数目,在对第一中文词向量模型训练时,对wi添加标签,[wi-h,…wi-1,wi+1,…,wi+h]和
Figure GDA0003902002090000152
作为输入;在对第二中文词向量模型训练时,对[wi-h,…wi-1,wi+1,…,wi+h]添加标签,wi
Figure GDA0003902002090000153
作为输入。
示例性地,以文档“环境与人类的生存息息相关”为例,选定目标词为“人类”,在窗口的大小h为2时,目标词的上下文窗口词为“环境、与、的、生存”,目标词“人类”所形成的声调n-grams,如图2所示。
在一个实施例中,为使计算机可以处理中文词、声调等,需要将目标词、上下文窗口词及目标词声调进行映射处理,即将他们映射为向量,映射过程是将文档转换为计算机能够理解的结构化数据的过程,根据语料库的词典和声调字典,首先将训练输入的目标词及其声调n-grams以及上下文窗口词分别转换为id的形式,然后根据词典和声调字典的长度初始化词和声调的映射矩阵,再通过查表操作获取对应的向量表示。
一个具体向量化的例子如下:统计所述语料库所有文档的词和声调簇获取语料库词典和声调字典,基于所述语料库词典将所述目标词wi和[wi-h,…wi-1,wi+1,…,wi+h]进行向量化,基于声调字典对
Figure GDA0003902002090000161
进行向量化,使用所述向量化后的wi、[wi-h,…wi-1,wi+1,…,wi+h]和
Figure GDA0003902002090000162
对所述第一中文词向量模型和第二中文词向量模型进行训练。
本发明中,为了最大程度的保留目标词的语义和语调特征,联合目标词的向量和声调向量作为训练第一中文词向量模型的输入,联合上下文窗口词的向量和声调向量作为训练第二中文词向量模型的输入,使得训练出的模型最大程度保留了语义和语调特征,提高了文本识别的精度,这是本发明的另一个重要发明点。
在一个实施例中,在对所述第一中文词向量模型和第二中文词向量模型进行训练时,随机选择一部分词作为负样本,计算目标词的上下文窗口词的向量与目标词的向量的第一得分{(wi|wi±j),计算目标词声调的向量与目标词的向量的第二得分
Figure GDA0003902002090000163
所述第一、二得分构成得分对:
Figure GDA0003902002090000164
其中,
Figure GDA0003902002090000165
Figure GDA0003902002090000166
分别为目标词的上下文窗口词的向量和目标词声调的向量的平均值,
Figure GDA0003902002090000167
为随机挑选的第k个负样本词的词向量,K为负样本词的个数,j=1、2、……,h,z=1、2、……,m;
根据所述得分对计算所述第一中文词向量模型和第二中文词向量模型的损失,其中,损失函数为L,用于控制所述第一、二中文词向量模型的学习速度,
Figure GDA0003902002090000171
Figure GDA0003902002090000172
其中,λ为正则系数,取值为[0,1],D为训练集所有样本的个数。
由于本发明需要根据模型训练的结果对所有可能的词计算得分,考虑到词典的长度,计算所有可能词的得分将给计算机带来极大的负担,因此,本发明创造性地采用负采样的思想,从所有可能的词里随机选择一部分词作为负样本,分别计算目标词的上下文窗口词向量与目标词的声调向量与目标词向量的得分对,并构建了损失函数为L,用于控制学习速度,通过以上方式,提高了模型训练的速度,但并没有降低其精度,由于本发明的中文词向量加入了语调特征,使其在中文文本的识别,特别是情感识别表现优异,这是本发明的重要发明点之另一。
本发明的为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种基于中文词向量模型的文本识别方法,其特征在于,该方法包括:
建模步骤,基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;
训练步骤,基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;
在对所述第一中文词向量模型和第二中文词向量模型进行训练时,随机选择一部分词作为负样本,计算目标词的上下文窗口词的向量与目标词的向量的第一得分P(wi|wi±j),计算目标词声调的向量与目标词的向量的第二得分
Figure FDA0003902002080000011
所述第一、二得分构成得分对:
Figure FDA0003902002080000012
其中,
Figure FDA0003902002080000013
Figure FDA0003902002080000014
分别为目标词的上下文窗口词的向量和目标词声调的向量的平均值,
Figure FDA0003902002080000015
为随机挑选的第k个负样本词的词向量,K为负样本词的个数,j=1、2、……、 h,z=1、2、……、 m;
根据所述得分对计算所述第一中文词向量模型和第二中文词向量模型的损失,其中,损失函数为L,用于控制所述第一、二中文词向量模型的学习速度,
Figure FDA0003902002080000016
Figure FDA0003902002080000017
其中,λ为正则系数,取值为[0,1],D为训练集所有样本的个数;
使用训练后的所述第二中文词向量模型对识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别;
识别步骤,使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果;
其中,所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams,输出为目标词,所述第二中文词向量模型的输入为目标词和目标词声调n-grams,输出为上下文窗口词。
2.根据权利要求1所述的方法,其特征在于,在所述训练步骤中,对语料库中的任一文档经过分词处理得到n个词,则将该文档的词列表和声调簇列表表示为:
W=[w1,w2,…,wi,…,wn],1≤i≤n
T=[t1,t2,…,ti,…,tn],1≤i≤n
其中,wi为该文档的第i个词,ti是第i个词的声调簇;
遍历该文档的所有词和声调簇,选取第i个词wi作为选择的目标词,[wi-h,…wi-1,wi+1,…,wi+h]为目标词的上下文窗口词,
Figure FDA0003902002080000021
为目标词及上下文窗口词对应的声调簇列表生成的声调n-grams作为目标词声调n-grams,其中,h为窗口的大小,n的取值为3、4、5,m为n-grams中成员的数目,在对第一中文词向量模型训练时,对wi添加标签,[wi-h,…wi-1,wi+1,…,wi+h]和
Figure FDA0003902002080000022
作为输入;在对第二中文词向量模型训练时,对[wi-h,…wi-1,wi+1,…,wi+h]添加标签,wi
Figure FDA0003902002080000031
作为输入。
3.根据权利要求2所述的方法,其特征在于,统计所述语料库所有文档的词和声调簇获取语料库词典和声调字典,基于所述语料库词典将所述目标词wi和[wi-h,…wi-1,wi+1,…,wi+h]进行向量化,基于声调字典对
Figure FDA0003902002080000032
Figure FDA0003902002080000033
进行向量化,使用所述向量化后的wi、[wi-h,…wi-1,wi+1,…,wi+h]和
Figure FDA0003902002080000034
对所述第一中文词向量模型和第二中文词向量模型进行训练。
4.一种基于中文词向量模型的文本识别装置,其特征在于,该装置包括:
建模单元,基于目标词、上下文窗口词和目标词声调n-grams构建第一中文词向量模型和第二中文词向量模型;
训练单元,基于语料库对所述第一中文词向量模型和第二中文词向量模型进行训练得到训练后的所述第一中文词向量模型和第二中文词向量模型;
在对所述第一中文词向量模型和第二中文词向量模型进行训练时,随机选择一部分词作为负样本,计算目标词的上下文窗口词的向量与目标词的向量的第一得分P(wi|wi±j),计算目标词声调的向量与目标词的向量的第二得分
Figure FDA0003902002080000035
所述第一、二得分构成得分对:
Figure FDA0003902002080000036
其中,
Figure FDA0003902002080000037
Figure FDA0003902002080000038
分别为目标词的上下文窗口词的向量和目标词声调的向量的平均值,
Figure FDA0003902002080000041
为随机挑选的第k个负样本词的词向量,K为负样本词的个数,j=1、2、……、 h,z=1、2、……、 m;
根据所述得分对计算所述第一中文词向量模型和第二中文词向量模型的损失,其中,损失函数为L,用于控制所述第一、二中文词向量模型的学习速度,
Figure FDA0003902002080000042
Figure FDA0003902002080000043
其中,λ为正则系数,取值为[0,1],D为训练集所有样本的个数;
使用训练后的所述第二中文词向量模型对识别结果进行验证,如果验证结果低于第一阈值,则对所述第一中文词向量模型进行重新训练后再对输入的文本进行识别;
识别单元,使用训练后的所述第一中文词向量模型获取输入文本的语义向量并输出结果;
其中,所述第一中文词向量模型的输入为上下文窗口词和目标词声调n-grams,输出为目标词,所述第二中文词向量模型的输入为目标词和目标词声调n-grams,输出为上下文窗口词。
5.根据权利要求4所述的装置,其特征在于,在所述训练单元中,对语料库中的任一文档经过分词处理得到n个词,则将该文档的词列表和声调簇列表表示为:
W=[w1,w2,…,wi,…,wn],1≤i≤n
T=[t1,t2,…,ti,…,tn],1≤i≤n
其中,wi为该文档的第i个词,ti是第i个词的声调簇;
遍历该文档的所有词和声调簇,选取第i个词wi作为选择的目标词,[wi-h,…wi-1,wi+1,…,wi+h]为目标词的上下文窗口词,
Figure FDA0003902002080000051
为目标词及上下文窗口词对应的声调簇列表生成的声调n-grams作为目标词声调n-grams,其中,h为窗口的大小,n的取值为3、4、5,m为n-grams中成员的数目,在对第一中文词向量模型训练时,对wi添加标签,[wi-h,…wi-1,wi+1,…,wi+h]和
Figure FDA0003902002080000052
作为输入;在对第二中文词向量模型训练时,对[wi-h,…wi-1,wi+1,…,wi+h]添加标签,wi
Figure FDA0003902002080000053
作为输入。
6.根据权利要求5所述的装置,其特征在于,统计所述语料库所有文档的词和声调簇获取语料库词典和声调字典,基于所述语料库词典将所述目标词wi和[wi-h,…wi-1,wi+1,…,wi+h]进行向量化,基于声调字典对
Figure FDA0003902002080000054
Figure FDA0003902002080000055
进行向量化,使用所述向量化后的wi、[wi-h,…wi-1,wi+1,…,wi+h]和
Figure FDA0003902002080000056
对所述第一中文词向量模型和第二中文词向量模型进行训练。
7.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行所述权利要求1-3之任一的方法。
CN202010396412.7A 2020-05-12 2020-05-12 基于中文词向量模型的文本识别方法、装置及存储介质 Active CN111563379B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010396412.7A CN111563379B (zh) 2020-05-12 2020-05-12 基于中文词向量模型的文本识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010396412.7A CN111563379B (zh) 2020-05-12 2020-05-12 基于中文词向量模型的文本识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111563379A CN111563379A (zh) 2020-08-21
CN111563379B true CN111563379B (zh) 2022-12-02

Family

ID=72070870

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010396412.7A Active CN111563379B (zh) 2020-05-12 2020-05-12 基于中文词向量模型的文本识别方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111563379B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115662435B (zh) 2022-10-24 2023-04-28 福建网龙计算机网络信息技术有限公司 一种虚拟教师拟真化语音的生成方法及终端

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910497A (zh) * 2015-12-22 2017-06-30 阿里巴巴集团控股有限公司 一种中文词语发音预测方法及装置
CN109241540A (zh) * 2018-08-07 2019-01-18 中国科学院计算技术研究所 一种基于深度神经网络的汉盲自动转换方法和系统
CN109815476A (zh) * 2018-12-03 2019-05-28 国网浙江省电力有限公司杭州供电公司 一种基于中文语素和拼音联合统计的词向量表示方法
CN111078887A (zh) * 2019-12-20 2020-04-28 厦门市美亚柏科信息股份有限公司 文本分类方法和装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106484681B (zh) * 2015-08-25 2019-07-09 阿里巴巴集团控股有限公司 一种生成候选译文的方法、装置及电子设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106910497A (zh) * 2015-12-22 2017-06-30 阿里巴巴集团控股有限公司 一种中文词语发音预测方法及装置
CN109241540A (zh) * 2018-08-07 2019-01-18 中国科学院计算技术研究所 一种基于深度神经网络的汉盲自动转换方法和系统
CN109815476A (zh) * 2018-12-03 2019-05-28 国网浙江省电力有限公司杭州供电公司 一种基于中文语素和拼音联合统计的词向量表示方法
CN111078887A (zh) * 2019-12-20 2020-04-28 厦门市美亚柏科信息股份有限公司 文本分类方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
互联网时代语音识别基本问题;柯登峰等;《中国科学:信息科学》;20131220(第12期);全文 *
基于深度学习的中文词表示学习技术研究;庄航;《中国博士学位论文全文数据库》;20190115;全文 *

Also Published As

Publication number Publication date
CN111563379A (zh) 2020-08-21

Similar Documents

Publication Publication Date Title
Chorowski et al. Unsupervised speech representation learning using wavenet autoencoders
CN109933795B (zh) 基于上下文-情感词向量的文本情感分析系统
KR102540774B1 (ko) 서브워드 임베딩 및 스킵서트 기반 문장 임베딩 방법 및 장치
Ran et al. Artificial intelligence speech recognition model for correcting spoken English teaching
CN107564511B (zh) 电子装置、语音合成方法和计算机可读存储介质
US20230267916A1 (en) Text-based virtual object animation generation method, apparatus, storage medium, and terminal
CN115329779B (zh) 一种多人对话情感识别方法
CN111666409B (zh) 一种基于综合深度胶囊网络的复杂评论文本的整体情感智能分类方法
CN111145718A (zh) 一种基于自注意力机制的中文普通话字音转换方法
CN111414481A (zh) 基于拼音和bert嵌入的中文语义匹配方法
KR20080021064A (ko) 중국어 2행연구의 생성
CN111046660B (zh) 一种识别文本专业术语的方法及装置
CN112016271A (zh) 语言风格转换模型的训练方法、文本处理方法以及装置
CN110010136A (zh) 韵律预测模型的训练和文本分析方法、装置、介质和设备
CN113761377A (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
WO2023177723A1 (en) Apparatuses and methods for querying and transcribing video resumes
CN111563379B (zh) 基于中文词向量模型的文本识别方法、装置及存储介质
CN117690456A (zh) 一种基于神经网络的小语种口语智能训练方法、系统及设备
US11869130B2 (en) Generating visual feedback
CN116978367A (zh) 语音识别方法、装置、电子设备和存储介质
Johnson et al. Comparison of algorithms to divide noisy phone sequences into syllables for automatic unconstrained English speaking proficiency scoring
Yadav et al. Speech emotion classification using machine learning
Ghorpade et al. ITTS model: speech generation for image captioning using feature extraction for end-to-end synthesis
Li et al. Seq-CNN: A lightweight and efficient neural network for sentimental analysis of text
CN113555006B (zh) 一种语音信息识别方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant